商家衡 郝久月
摘? 要: 針對(duì)現(xiàn)代互聯(lián)網(wǎng)環(huán)境下,網(wǎng)絡(luò)日志規(guī)模急速擴(kuò)張,可挖掘內(nèi)容極為豐富的現(xiàn)狀,梳理國內(nèi)基于網(wǎng)絡(luò)日志的用戶行為檢測(cè)和用戶畫像領(lǐng)域的主要文獻(xiàn)及工作。簡(jiǎn)要敘述上述兩個(gè)領(lǐng)域的基本理論,并以公安工作、電子商務(wù)、醫(yī)療健康、旅游行業(yè)和圖書館業(yè)這五個(gè)行業(yè)中的案例來總結(jié)上述兩個(gè)領(lǐng)域內(nèi)的主要應(yīng)用。對(duì)網(wǎng)絡(luò)日志進(jìn)行挖掘可以極大地提升用戶體驗(yàn),但也要正視其在隱私保護(hù)方面的缺失。
關(guān)鍵詞: 用戶行為檢測(cè); 用戶畫像; 網(wǎng)絡(luò)日志
中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)05-25-04
User behavior detection and portrait construction technology based on Web logs
Shang Jiaheng Hao Jiuyue
Abstract: In view of the rapid expansion of Web logs in the modern Internet environment and the current situation of extremely rich content can be explored, in this paper, the main literature and work in the field of user behavior detection and user portrait based on Web logs in China are sorted out. Briefly describing the basic theories of the above two fields, the actual cases in the five industries of public security work, e-commerce, medical health, tourism and library industry are used to summarize the main applications in the above two fields. Mining weblog can greatly enhance user experience, but it should also face up to its lack of privacy protection.
Key words: user behavior detection; user portraits; Web logs
引言
⑴ 研究背景
時(shí)至今日,互聯(lián)網(wǎng)已成為全球大多數(shù)人生活的重要部分。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)《第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)展現(xiàn)狀統(tǒng)計(jì)報(bào)告》的數(shù)據(jù)顯示,以網(wǎng)絡(luò)購物和在線政務(wù)服務(wù)舉例,截至2020年12月,我國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)7.82億,較2020年3月增長(zhǎng)7215萬,占網(wǎng)民整體的79.1%;我國在線政務(wù)服務(wù)用戶規(guī)模達(dá)8.42億,占網(wǎng)民整體的85.3%[1]。由此言之,基于互聯(lián)網(wǎng)基礎(chǔ)設(shè)施而建立起來的線上服務(wù)已經(jīng)被大多數(shù)人所依賴,而用戶也在使用服務(wù)的過程中在其上留下了海量的登陸記錄、訪問記錄等網(wǎng)絡(luò)日志信息。
⑶ 研究目的及意義
用戶在互聯(lián)網(wǎng)中留下的網(wǎng)絡(luò)日志是一個(gè)隱含著大量可挖掘內(nèi)容的寶藏。而用戶行為檢測(cè)著力于發(fā)現(xiàn)用戶上網(wǎng)行為所存在的規(guī)律,在此基礎(chǔ)上引入用戶畫像,能從更細(xì)的粒度出發(fā),揭示用戶的特征。例如,用戶訪問網(wǎng)站及APP時(shí)的登陸、點(diǎn)擊、駐留時(shí)間等信息,這些信息如能被開發(fā)人員依法依規(guī)分析,則能對(duì)網(wǎng)站及APP的內(nèi)容個(gè)性化推薦、廣告引流以及惡意用戶的防御起到比較好的作用,優(yōu)化用戶使用體驗(yàn),提高APP的運(yùn)營收益。
⑶ 各章內(nèi)容介紹
本文的行文將分為四章,本章作為引言介紹研究的背景、目的及意義;第1章簡(jiǎn)要闡述用戶行為檢測(cè)和用戶畫像構(gòu)建的研究現(xiàn)狀和理論;第2章分五個(gè)行業(yè)及領(lǐng)域來說明利用用戶行為檢測(cè)的數(shù)據(jù)所構(gòu)建出的用戶畫像在實(shí)際中的應(yīng)用;第3章對(duì)全文做一總結(jié)并對(duì)未來有所展望。
1 研究現(xiàn)狀與基本理論
本章將簡(jiǎn)要闡述用戶行為檢測(cè)和用戶畫像構(gòu)建的研究現(xiàn)狀和理論,具體的行文架構(gòu)如圖1所示。
1.1 用戶行為檢測(cè)研究現(xiàn)狀
1.1.1 基于模式挖掘
基于模式挖掘的方式,其中心思想在于通過比較用戶的歷史行為模式與當(dāng)前行為模式,對(duì)相似度低于某個(gè)閾值的行為做出預(yù)警。其中代表性研究如連一峰利用Apriori算法和序列模式挖掘來計(jì)算正常模式和現(xiàn)有行為的相似度[2]。宋海濤采用模式挖掘算法并結(jié)合滑動(dòng)時(shí)間窗口策略形成一種行為異常檢測(cè)算法[3]。
1.1.2 基于隨機(jī)過程
基于隨機(jī)過程的方式,其中心思想在于通過統(tǒng)計(jì)正常情況下的用戶行為,可以計(jì)算出用戶下一步行為可能選擇的概率值,預(yù)警有所出入的概率值所對(duì)應(yīng)的行為。其中代表性研究如謝逸引入隱半馬爾科夫模型(HsMM)發(fā)現(xiàn)混雜在正常流量中的攻擊流量,通過限制異常用戶對(duì)服務(wù)器資源的占用來保證正常用戶可以優(yōu)先使用服務(wù)器的各項(xiàng)服務(wù)[4]。
1.1.3 基于機(jī)器學(xué)習(xí)
基于機(jī)器學(xué)習(xí)的方式,其中心思想在于通過訓(xùn)練降低人工開銷。其中代表性研究如陸悠為了解決非平衡性和分布復(fù)雜性問題,基于選擇性協(xié)同學(xué)習(xí)生成成員分類器并依此標(biāo)記出異常行為[5]。陳勝采用深度神經(jīng)網(wǎng)絡(luò)(DNN)分析流量特征數(shù)據(jù)、檢測(cè)未知異常行為,亮點(diǎn)在于引入的DNN算法對(duì)不斷推陳出新的惡意行為有著更好的快速響應(yīng)和應(yīng)對(duì)能力[6]。
1.1.4 基于用戶畫像
基于用戶畫像的方式,其中心思想在于總結(jié)歸納用戶的形象。其中代表性研究如趙剛針引入了用戶畫像技術(shù)并對(duì)比識(shí)別出異常行為,提供了更好的檢測(cè)效果[7]。朱家俊引入了用戶畫像技術(shù)來提取用戶行為中的特征,計(jì)算正常與待測(cè)特征的馬氏距離并用孤立森林算法來判斷異常[8]。
1.2 用戶畫像研究現(xiàn)狀
1.2.1 基于用戶行為
基于用戶行為的方式,其中心思想在于以用戶行為為素材勾勒出用戶的畫像。缺點(diǎn)在于用戶行為可能會(huì)存在被濫用的情況。其中代表性研究如黃文彬構(gòu)建出移動(dòng)用戶畫像,并推測(cè)用戶的居住地、工作地等信息,使得運(yùn)營商根據(jù)用戶畫像做出個(gè)性化推薦成為可能[9]。王凌霄量化分析了“知乎”用戶的資歷、參與度等指標(biāo),使用戶畫像有更好的效果[10]。
1.2.2 基于興趣偏好
基于興趣偏好的方式,其中心思想在于參考用戶感興趣的內(nèi)容。其中代表性研究如趙開慧分別將網(wǎng)絡(luò)用戶和資源分類,爾后依據(jù)相似度向用戶展示個(gè)性化推薦[11]。石宇以“豆瓣”為基礎(chǔ),提取資源特征、識(shí)別用戶感興趣的資源,最終實(shí)現(xiàn)用戶興趣的表示,不足之處在于粒度上稍顯粗糙[12]。
1.2.3 基于主題
基于主題的方式,其中心思想在于將用戶所使用內(nèi)容形成主題并生成畫像。代表性研究如:林燕霞統(tǒng)計(jì)出新浪微博用戶的主題偏好并依此得到為五個(gè)群體用戶畫像,應(yīng)用于網(wǎng)絡(luò)輿情治理[13];唐曉波使用隱含狄利克雷分布(LDA)對(duì)“豆瓣”電影集合做主題聚類,依此計(jì)算出用戶對(duì)各個(gè)主題的傾向,最終形成的推薦結(jié)果取得了比傳統(tǒng)算法更好的效果[14]。
1.2.4 基于本體
基于本體的方式,其中心思想在于做好用戶畫像就要先做好描述用戶的幾個(gè)維度。其中代表性研究如姜建武提取語義本體的行為主題,計(jì)算出權(quán)重并刻畫用戶的互聯(lián)網(wǎng)行為形成用戶畫像,提供個(gè)性化推薦[15]。
1.3 用戶行為檢測(cè)理論
關(guān)于用戶行為檢測(cè)的概念,一種觀點(diǎn)認(rèn)為,用戶行為模式體現(xiàn)了用戶的行為習(xí)慣和特點(diǎn),通過比較用戶當(dāng)前及正常行為模式的相似度來判斷是否存在異常行為[2]。另一種觀點(diǎn)認(rèn)為,將用戶的行為抽象化為數(shù)學(xué)上的隨機(jī)過程并學(xué)習(xí)用戶正常的行為概率矩陣,可以評(píng)估用戶的行為是否可信。其次用戶行為檢測(cè)也有一定的特征:正常用戶與異常用戶的比例并不均衡,因此誤報(bào)率較高,制定閾值和指標(biāo)時(shí)應(yīng)動(dòng)態(tài)調(diào)整;檢測(cè)程序需要適應(yīng)用戶行為隨時(shí)間的推移會(huì)發(fā)生的新變化[16]。
1.4 用戶畫像構(gòu)建理論
用戶畫像的概念來自于Alan Cooper所提出的“User Persona”:從大量的基礎(chǔ)數(shù)據(jù)中提取用戶的屬性并將其凝練為有著一定特點(diǎn)的形象[17]。目前國內(nèi)也形成了幾種觀點(diǎn):用戶畫像是基于大量的用戶基礎(chǔ)數(shù)據(jù)提取出用戶特征而得到的標(biāo)簽化用戶群貌[18];用戶畫像是從大量真實(shí)數(shù)據(jù)中提取用戶的行為和興趣得到的虛擬用戶模型[19]。其次,用戶畫像主要有三個(gè)特征:標(biāo)簽化、時(shí)效性、動(dòng)態(tài)性[18]。標(biāo)簽是一種語義簡(jiǎn)明扼要的文本,特征標(biāo)簽化使得用戶畫像的生成更加方便,生成的用戶畫像能更好地反映用戶或用戶群體的全貌。另外,用戶畫像中存在隨著用戶行為的進(jìn)行而有所變化的屬性,只有不斷地更新用戶畫像,才能保證用戶畫像的準(zhǔn)確性。
2 應(yīng)用案例
第2章將分行業(yè)及領(lǐng)域來說明利用用戶行為檢測(cè)的數(shù)據(jù)所構(gòu)建出的用戶畫像在實(shí)際中的應(yīng)用,通過閱讀有關(guān)文獻(xiàn)歸納得到應(yīng)用的一般架構(gòu)如圖2所示。
2.1 在公安工作中應(yīng)用
結(jié)合用戶行為檢測(cè)和用戶畫像技術(shù),公安機(jī)關(guān)可識(shí)別出意見領(lǐng)袖以及推動(dòng)輿論變化的主要推手,引導(dǎo)輿論向好的方向發(fā)展,打造一個(gè)風(fēng)朗氣清的網(wǎng)絡(luò)環(huán)境[20]。其中代表性研究如梁越嶺使用改進(jìn)的Single-pass增量聚類算法得到用戶行為的模式規(guī)律畫像和輿情熱點(diǎn)話題;使用社會(huì)網(wǎng)絡(luò)分析技術(shù)分析某輿情群體組織并監(jiān)控組織行為,預(yù)警網(wǎng)絡(luò)輿情群體事件[21]。
2.2 在電子商務(wù)中應(yīng)用
電商平臺(tái)由于其通過互聯(lián)網(wǎng)與用戶進(jìn)行線上交易,需要盡可能多的掌握用戶相關(guān)信息,以便統(tǒng)計(jì)出用戶的行為決策規(guī)律來進(jìn)一步優(yōu)化營銷與推薦系統(tǒng),提升用戶體驗(yàn)、提高平臺(tái)的營業(yè)額[22]。其中代表性研究如洪亮分析了淘寶、京東和亞馬遜三家電商平臺(tái)的推薦系統(tǒng),簡(jiǎn)要概述了三家平臺(tái)生成用戶模型并做出推薦的思路及所采用的熱點(diǎn)推薦技術(shù)[23]。
2.3 在醫(yī)療健康中應(yīng)用
在醫(yī)療健康領(lǐng)域,患者看病難一直是一個(gè)較為突出的問題。其中代表性研究如韓梅花通過分析用戶微博發(fā)帖的行為和文本,量化其抑郁情感指數(shù)并建立用戶畫像,向可能的抑郁癥患者推送相應(yīng)的閱讀治療資源,使患者的治療效果相應(yīng)地提高[24]。王智囊根據(jù)醫(yī)院積累的患者信息和醫(yī)療健康領(lǐng)域的知識(shí)庫建立了患者用戶畫像并將其應(yīng)用于推薦算法之中,使得患者可以更快速地獲得更準(zhǔn)確的個(gè)性化醫(yī)療信息與醫(yī)療方案[25]。
2.4 在旅游行業(yè)中應(yīng)用
相較于其他行業(yè)的推薦系統(tǒng),旅游行業(yè)的推薦系統(tǒng)有著本行業(yè)獨(dú)有的一些挑戰(zhàn)[26]。其中代表性研究如劉海鷗將用戶行為信息同情境信息相結(jié)合,建立標(biāo)簽化的用戶畫像,在此基礎(chǔ)上利用用戶的情境信息做協(xié)同過濾推薦并進(jìn)行了實(shí)例驗(yàn)證[27]。
2.5 在圖書館業(yè)中應(yīng)用
用戶畫像這一概念在建立的初期,即已受到圖書館業(yè)者的注意并嘗試在業(yè)內(nèi)落地應(yīng)用,取得了較好的效果。其中代表性研究如何娟結(jié)合規(guī)則和具體借還書數(shù)據(jù),建立了用戶畫像標(biāo)簽集,據(jù)此通過聚類和相似度計(jì)算實(shí)現(xiàn)了單個(gè)用戶畫像和群體用戶畫像,效果得到了讀者的肯定[28]。
3 總結(jié)與展望
本文簡(jiǎn)單敘述了用戶行為檢測(cè)和用戶畫像領(lǐng)域的主要文獻(xiàn)和主要工作,從研究現(xiàn)狀和基本理論入手,最后落腳于實(shí)踐,列舉了在幾大領(lǐng)域內(nèi)上述研究成果的具體應(yīng)用和效果。在如今的互聯(lián)網(wǎng)發(fā)展大背景下,用戶實(shí)際上是一個(gè)較為渺小的存在:用戶享受著互聯(lián)網(wǎng)服務(wù)的便利的同時(shí),也將自己的大量隱私暴露在互聯(lián)網(wǎng)上。因此,用戶體驗(yàn)和隱私保護(hù)之間應(yīng)找到一個(gè)適當(dāng)?shù)钠胶恻c(diǎn),使得企業(yè)及運(yùn)營者有法可依、有規(guī)可循,用戶則可安全地取得更好的用戶體驗(yàn)。
參考文獻(xiàn)(References):
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)
展現(xiàn)狀統(tǒng)計(jì)報(bào)告[R/OL].(2021-2-3)[2021-8-1].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203
334633480104.pdf
[2] 連一峰,戴英俠,王航.基于模式挖掘的用戶行為異常檢測(cè)[J].
計(jì)算機(jī)學(xué)報(bào),2002(3):325-330
[3] 宋海濤,韋大偉,湯光明,等.基于模式挖掘的用戶行為異常檢
測(cè)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(2):221-226
[4] 謝逸,余順爭(zhēng).基于Web用戶瀏覽行為的統(tǒng)計(jì)異常檢測(cè)[J].
軟件學(xué)報(bào),2007(4):967-977
[5] 陸悠,李偉,羅軍舟,等.一種基于選擇性協(xié)同學(xué)習(xí)的網(wǎng)絡(luò)用戶
異常行為檢測(cè)方法[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):28-40
[6] 陳勝,朱國勝,祁小云,等.基于深度神經(jīng)網(wǎng)絡(luò)的自定義用戶異
常行為檢測(cè)[J].計(jì)算機(jī)科學(xué),2019,46(S2):442-445,472
[7] 趙剛,姚興仁.基于用戶畫像的異常行為檢測(cè)模型[J].信息網(wǎng)
絡(luò)安全,2017(7):18-24
[8] 朱佳俊,陳功,施勇,等.基于用戶畫像的異常行為檢測(cè)[J].
通信技術(shù),2017,50(10):2310-2315
[9] 黃文彬,徐山川,吳家輝,等.移動(dòng)用戶畫像構(gòu)建研究[J].現(xiàn)代
情報(bào),2016,36(10):54-61
[10] 王凌霄,沈卓,李艷.社會(huì)化問答社區(qū)用戶畫像構(gòu)建[J].情報(bào)
理論與實(shí)踐,2018,41(1):129-134
[11] 趙開慧.基于社會(huì)化標(biāo)注的個(gè)性化信息推薦方法研究[J].
情報(bào)科學(xué),2015,33(6):39-42
[12] 石宇,胡昌平,時(shí)穎惠.個(gè)性化推薦中基于認(rèn)知的用戶興趣
建模研究[J].情報(bào)科學(xué),2019,37(6):37-41
[13] 林燕霞,謝湘生.基于社會(huì)認(rèn)同理論的微博群體用戶畫像[J].
情報(bào)理論與實(shí)踐,2018,41(3):142-148
[14] 唐曉波,謝力.基于主題的用戶興趣模型的構(gòu)建及動(dòng)態(tài)更新[J].
情報(bào)理論與實(shí)踐,2016,39(2):116-123
[15] 姜建武,李景文,陸妍玲,等.基于用戶畫像的信息智能推送
方法[J].微型機(jī)與應(yīng)用,2016,35(23):86-89,92
[16] 張有,王開云,張春瑞,等.基于用戶行為日志的內(nèi)部威脅檢
測(cè)綜述[J].計(jì)算機(jī)時(shí)代,2020(9):45-49
[17] Cooper A,Robert Reimann R,Cronin D.About Face 3:
The Essentials of Interaction Design[M].New Jersey: Wiley Publishing Inc.,2007:19-22
[18] 宋美琦,陳燁,張瑞.用戶畫像研究述評(píng)[J].情報(bào)科學(xué),2019,
37(4):171-177
[19] 徐芳,應(yīng)潔茹.國內(nèi)外用戶畫像研究綜述[J].圖書館學(xué)研究,
2020(12):7-16
[20] 王淼,劉家委,朱鑫奕,等.網(wǎng)絡(luò)輿情社會(huì)影響力研究綜述[J].
電腦知識(shí)與技術(shù),2020,16(25):71-72,79
[21] 梁越嶺.互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D].武漢理
工大學(xué),2010
[22] 陸冬磊.基于電子商務(wù)的用戶畫像分析[J].電腦知識(shí)與技
術(shù),2018,14(22):306
[23] 洪亮,任秋圜,梁樹賢.國內(nèi)電子商務(wù)網(wǎng)站推薦系統(tǒng)信息服
務(wù)質(zhì)量比較研究——以淘寶、京東、亞馬遜為例[J].圖書情報(bào)工作,2016,60(23):97-110
[24] 韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究——
以抑郁癥為例[J].大學(xué)圖書館學(xué)報(bào),2017,35(6):105-110
[25] 王智囊.基于用戶畫像的醫(yī)療信息精準(zhǔn)推薦的研究[D].電子
科技大學(xué),2016
[26] 常亮,曹玉婷,孫文平,等.旅游推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)
科學(xué),2017,44(10):1-6
[27] 劉海鷗,孫晶晶,蘇妍嫄,等.基于用戶畫像的旅游情境化推
薦服務(wù)研究[J].情報(bào)理論與實(shí)踐,2018,41(10):87-92
[28] 何娟.基于用戶個(gè)人及群體畫像相結(jié)合的圖書個(gè)性化推薦應(yīng)用
研究[J].情報(bào)理論與實(shí)踐,2019,42(1):129-133,160
收稿日期:2021-10-20
作者簡(jiǎn)介:商家衡(1997-),男,天津人,碩士研究生,主要研究方向:公安信息化。
通訊作者:郝久月(1984-),女,河北人,博士,副研究員,碩士研究生導(dǎo)師,主要研究方向:公安信息化、大數(shù)據(jù)技術(shù)、視頻智能分析技術(shù)。