国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網(wǎng)用戶行為數(shù)據(jù)收集與分析的研究

2019-09-10 07:22:44向大為吳燕波
現(xiàn)代信息科技 2019年6期
關(guān)鍵詞:數(shù)據(jù)收集數(shù)據(jù)分析

向大為 吳燕波

關(guān)鍵詞:數(shù)據(jù)收集;數(shù)據(jù)分析;互聯(lián)網(wǎng)用戶行為分析

中圖分類號:TP393.092 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)06-0014-03

Keywords:data collection;data analysis;analysis of internet user behavior

0 ?引 ?言

隨著互聯(lián)網(wǎng)應(yīng)用的普及,互聯(lián)網(wǎng)數(shù)據(jù)資源競爭白熱化,越來越多的企業(yè)和組織出于各種目的和動機,不斷投入人力、物力和財力,致力于用戶行為數(shù)據(jù)的挖掘,試圖掌握其中的行為模式,對用戶需求做出預估。數(shù)據(jù)對現(xiàn)代互聯(lián)網(wǎng)行業(yè)而言就是財富,誰擁有了數(shù)據(jù)誰就擁有了互聯(lián)網(wǎng),誰掌握了互聯(lián)網(wǎng)誰就擁有了財富。

互聯(lián)網(wǎng)用戶行為數(shù)據(jù)的收集與分析表現(xiàn)在很多方面。例如,從海量用戶中收集用戶的瀏覽喜好,將用戶進行群體劃分;根據(jù)搜索詞頻率,分析用戶喜好;通過收集分析海量數(shù)據(jù),反映相關(guān)應(yīng)用的用戶規(guī)模、用戶屬性和行業(yè)熱點,通過宏觀分析,了解用戶群體的不同特征等等。對此,筆者認為應(yīng)當一分為二地看,如果單純從商業(yè)利益的角度來看,用戶行為數(shù)據(jù)收集與分析的確可以在某種程度上掌握互聯(lián)網(wǎng)用戶的動態(tài),為用戶提供個性化服務(wù),以實現(xiàn)提升電子商務(wù)等經(jīng)濟活動的效率和挖掘潛在市場等目的;但如果把視角放到更多領(lǐng)域,會發(fā)現(xiàn)此類行為帶來了很多不容忽視的問題,例如經(jīng)濟秩序、知識產(chǎn)權(quán)、商業(yè)秘密、個人隱私等法律方面的問題。

1 ?互聯(lián)網(wǎng)用戶數(shù)據(jù)采集

數(shù)據(jù)采集是進行數(shù)據(jù)挖掘的基礎(chǔ)階段,采集技術(shù)分為線上和線下兩種類型。線上數(shù)據(jù)采集主要通過網(wǎng)絡(luò)終端后臺實現(xiàn),比如檔案、日志、瀏覽、點擊等相關(guān)信息;線下數(shù)據(jù)采集則通過傳感器、磁卡片、RFID技術(shù)等實現(xiàn)獲取用戶的線下行為數(shù)據(jù),從而建立用戶的行為數(shù)字數(shù)據(jù)庫[1]。本文主要研究線上數(shù)據(jù)采集?;ヂ?lián)網(wǎng)數(shù)據(jù)主要由文本、圖像、語音和多媒體數(shù)據(jù)組成。用戶行為數(shù)據(jù)主要是用戶在固定網(wǎng)絡(luò)終端和移動設(shè)備中點擊、瀏覽、發(fā)送、交易等行為過程中產(chǎn)生的。數(shù)據(jù)采集是搜集符合數(shù)據(jù)分析要求的原始數(shù)據(jù)(Raw Data)的操作。原始數(shù)據(jù)是分析者認為有價值的、希望獲得的一手或二手數(shù)據(jù)資源。數(shù)據(jù)采集方法很多,既可以直接從現(xiàn)有數(shù)據(jù)中搜集提取,也可以通過問卷調(diào)查、采訪、溝通等間接方式獲得。所有的數(shù)據(jù)采集都是圍繞對象、動作、條件、目的等參數(shù)進行的。

例如,較傳統(tǒng)的Web端采集可通過Web Service記錄日志分析和JavaScript嵌入等方式來實現(xiàn)。有些企業(yè)和組織并不希望自己網(wǎng)站的流量數(shù)據(jù)被任何第三方獲取,那么只能通過Web日志的方式進行收集。如果需要更符合用戶行為的精確數(shù)據(jù),就需獲得相關(guān)許可,采用JavaScript標記收集數(shù)據(jù),這種方式不僅可以訪問緩存、訪問代理記錄,而且可以通過Cookie精確定位用戶。除此之外,還有爬蟲技術(shù)、移動終端APP數(shù)據(jù)采集技術(shù)等,具體特點參如表1所示,后面對幾種常見分析技術(shù)做了簡單介紹。

1.1 ?Web Service日志分析

用戶瀏覽互聯(lián)網(wǎng)頁面后,如果沒有立即刪除Web日志或做“不記錄”的系統(tǒng)設(shè)置,會在瀏覽器等程序中自動留下較詳細的日志記錄[2]。通過該記錄,分析者可以收集到用戶瀏覽網(wǎng)頁的時間、次數(shù)、順序、頻率和搜索的關(guān)鍵詞等。另外,在網(wǎng)站服務(wù)器的Log文件中,數(shù)據(jù)的收集與分析從用戶輸入URL發(fā)出http請求就可以開始。網(wǎng)站服務(wù)器Log文件中記錄的內(nèi)容包括遠程主機名(或IP)、登錄名、日期時間、方法、地址、協(xié)議、端口、返回狀態(tài)和文檔大小等參數(shù)。

1.2 ?JavaScript嵌入技術(shù)

從客戶端收集用戶行為數(shù)據(jù),通常在頁面上嵌入Java Script代碼,當用戶訪問網(wǎng)頁時,JavaScript代碼通過瀏覽器程序執(zhí)行后會自動發(fā)送請求到日志收集服務(wù)端,從而記錄用戶訪問的數(shù)據(jù)。利用客戶端跟蹤技術(shù),Web服務(wù)器可通過訪問Cookies確認此客戶端是否訪問過本網(wǎng)站。JavaScript標記同Web日志收集數(shù)據(jù)一樣,從網(wǎng)站訪問者發(fā)出http請求開始記錄。訪問者的Cookie會記錄訪問時間、瀏覽器信息、user ID等參數(shù),數(shù)據(jù)收集服務(wù)器收集后存入數(shù)據(jù)庫中。

1.3 ?網(wǎng)頁爬蟲技術(shù)

網(wǎng)絡(luò)爬蟲是捜索引擎程序自動抓取網(wǎng)頁數(shù)據(jù)的重要子程序,主要功能是將網(wǎng)頁下載到本地形成鏡像。通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺提供的公共API(如Twitter和新浪微博)可以從網(wǎng)站上收集數(shù)據(jù)。

1.4 ?APP數(shù)據(jù)采集

APP常用的采集方式是通過集成SDK進行埋點。埋點是指針對特定用戶行為或事件進行捕獲、處理和發(fā)送,SDK進程先監(jiān)聽軟件運行過程中的事件,所監(jiān)聽的事件通常由操作系統(tǒng)、瀏覽器、APP框架等平臺產(chǎn)生,也可在基礎(chǔ)事件上進行觸發(fā)條件的自定義,當事件發(fā)生時進行判斷和捕獲,然后收集整理必要的上下文信息,并發(fā)送至服務(wù)器。

2 ?互聯(lián)網(wǎng)用戶數(shù)據(jù)分析

2.1 ? 互聯(lián)網(wǎng)用戶數(shù)據(jù)分析方法

數(shù)據(jù)收集完成后,通過分析策略和工具進行定量和定性分析,重新整理能使數(shù)據(jù)變得有價值。常用的分析研究方法有以下幾種。

2.1.1 ?來源分析

對用戶來源進行定位,可以更加準確地了解用戶群體的具體需求,從而為特定用戶提供個性化服務(wù)。來源分析越細致,所得到的數(shù)據(jù)就越有針對性。用戶的性別、年齡、民族、籍貫、上網(wǎng)時間段、目的地、信仰、愛好、交往人群、價值觀念、常用搜索引擎及關(guān)鍵詞、網(wǎng)站的種類和瀏覽量等都可以做較為深入的分析。

2.1.2 ?類別分析

類別分析主要在來源分析完成后進行,所謂“物以類聚,人以群分”,其目的在于抽象分類,而不是準確定位。通過來源分析定位后,可根據(jù)不同的參數(shù)對用戶進行簡單直觀的分類,例如網(wǎng)購數(shù)據(jù)可根據(jù)性別、年齡進行分類,語言數(shù)據(jù)可以根據(jù)民族、地域進行分類,社區(qū)應(yīng)用數(shù)據(jù)可以根據(jù)交往人群、價值觀、信仰進行分類等。

2.1.3 ?對比分析

類別分析主要是對用戶數(shù)據(jù)進行粗線條的分門別類,如果要對同類型用戶數(shù)據(jù)進行更深入和詳細的分析,可以進行對比分析。對比分析是指對多種或多個具有共同特征又有不同差異的用戶數(shù)據(jù)依照某種指標參數(shù)進行比較。例如,相同性別的人群,處在不同年齡段,其購物愛好不同;相同的交往人群,價值觀念不同,其訴求和表達方式不同等。

對比分析在日常分析中作為一種基礎(chǔ)的分析方法,不僅僅是要對比和分析,更要實現(xiàn)追蹤,將分析結(jié)果落地(將分析結(jié)果聯(lián)系到對應(yīng)的責任人,找出異?;蛘呤Ю?,并根據(jù)原因制定解決方案),這樣才能夠讓數(shù)據(jù)和分析產(chǎn)生價值。

2.1.4 ?定量分析

如果要對用戶數(shù)據(jù)進行統(tǒng)計分析,可以根據(jù)不同參數(shù)設(shè)定不同的指標范圍,通過數(shù)字化的指標體系進行精確的定量,為后面的定性分析提供參照。例如,年齡段可以10年為劃分標準,也可以1年為劃分標準;交往人群可以同民族人數(shù)為劃分標準,也可以同地域人數(shù)或同職業(yè)人數(shù)為劃分標準等。

2.1.5 ?定性分析

在定量分析的基礎(chǔ)上,如果需要得出相對準確的結(jié)論,就可以使用定性分析的方法,定性分析可參照的指標體系來源于不同分析角度。例如,通過用戶數(shù)據(jù)分析不同的職業(yè)人群,分析角度就是職業(yè)特征;分析不同的價值觀體系人群,分析角度就是不同的價值觀念。

3 ?數(shù)據(jù)收集與分析帶來的問題

用戶數(shù)據(jù)收集與分析處理對現(xiàn)代社會以及互聯(lián)網(wǎng)經(jīng)濟的發(fā)展有著顯著的推動作用,隨著技術(shù)的進步,數(shù)據(jù)收集方式也層出不窮,生活節(jié)奏越來越快的人們?nèi)找嬉蕾嚮ヂ?lián)網(wǎng)工作和生活,而知識、認識和技術(shù)上的差異,無形中會造成人們對個人信息泄露的忽視,甚至是無視[3]。例如,當安裝手機APP時,服務(wù)條款中已明確提示過隱私授權(quán),很多人群直接忽略,而有些人明明知道,卻又不得不用。數(shù)據(jù)雖然是客觀的,但是對于數(shù)據(jù)的解釋權(quán)卻掌握在少數(shù)策劃者、設(shè)計者、分析者和使用者手中,因此難以避免人們由于立場利益、價值觀念的不同,造成數(shù)據(jù)使用和解讀的偏差及成見。數(shù)據(jù)的大量收集和運用加大了人們的隱私風險,而泄露和忽視的人群越多,其安全隱患自然就越大,當這種隱患積累到一定程度,終會帶來法律上的問題。殷鑒不遠,個人身份證信息的買賣已經(jīng)形成黑色產(chǎn)業(yè)鏈,目前公安機關(guān)已多年打而不絕,正如前面引言所述,經(jīng)濟秩序、知識產(chǎn)權(quán)、商業(yè)秘密、個人隱私……不一而足,筆者這里拋磚引玉,后面還待更多學者研究探討。

參考文獻:

[1] 陳利萍.門戶網(wǎng)站分布式數(shù)據(jù)挖掘云平臺架構(gòu)分析 [J].數(shù)字技術(shù)與應(yīng)用,2018,36(5):184-185.

[2] 王微.一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計研究 [J].電子制作,2017(15):82-83.

[3] 宋遠方,馮紹雯,宋立豐.互聯(lián)網(wǎng)平臺大數(shù)據(jù)收集的困境與新發(fā)展路徑——基于區(qū)塊鏈理念 [J].中國流通經(jīng)濟,2018,32(5):3-11.

作者簡介:向大為(1980-),男,漢族,湖南湘潭人,講師,碩士,研究方向:計算機司法鑒定、網(wǎng)絡(luò)安全與執(zhí)法;通訊作者:吳燕波(1979-),女,漢族,湖南婁底人,講師,碩士,研究方向:網(wǎng)絡(luò)與信息安全、計算機應(yīng)用。

猜你喜歡
數(shù)據(jù)收集數(shù)據(jù)分析
智能分類垃圾箱的設(shè)計與研發(fā)
中國市場(2017年2期)2017-02-28 21:11:58
網(wǎng)絡(luò)工程全面信息化管理分析
裝備使用階段RMS數(shù)據(jù)收集研究
價值工程(2016年30期)2016-11-24 14:06:56
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務(wù)優(yōu)化建議
科技視界(2016年22期)2016-10-18 14:37:36
變電運行設(shè)備的狀態(tài)檢修與數(shù)據(jù)收集
上高县| 濉溪县| 始兴县| 黔西县| 黄梅县| 泗洪县| 灵川县| 集安市| 高唐县| 忻州市| 醴陵市| 曲靖市| 邢台市| 博野县| 当涂县| 芦溪县| 喀喇沁旗| 武义县| 鄂托克旗| 海盐县| 多伦县| 中宁县| 唐河县| 临海市| 巴里| 土默特右旗| 昌乐县| 饶河县| 册亨县| 肃北| 安福县| 赫章县| 广宗县| 招远市| 甘谷县| 莲花县| 望谟县| 岚皋县| 印江| 西乡县| 清镇市|