陳昭昀,辛 陽,2*,朱洪亮,王睿恒,高明成
(1.北京郵電大學(xué),北京 100876;2.貴州大學(xué) 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)應(yīng)用已經(jīng)成為人們生活的一部分,當(dāng)人們通過網(wǎng)絡(luò)進(jìn)行網(wǎng)購、社交、游戲等活動(dòng)時(shí),產(chǎn)生了大量的異構(gòu)用戶行為數(shù)據(jù)[1]。利用這些來自同一用戶在不同網(wǎng)絡(luò)環(huán)境中的行為數(shù)據(jù),可以對(duì)用戶的網(wǎng)絡(luò)行為進(jìn)行更全面的描述與分析。如何描述異構(gòu)網(wǎng)絡(luò)中用戶的行為特征并對(duì)用戶行為進(jìn)行分析管控,是網(wǎng)絡(luò)空間安全的一個(gè)研究熱點(diǎn)。
用戶行為分析和審計(jì)一直是用戶行為管控的重點(diǎn)研究內(nèi)容,盡管已經(jīng)有大量網(wǎng)絡(luò)行為分析和審計(jì)系統(tǒng)模型的研究,但這些模型主要針對(duì)的是單域或單平臺(tái)多域的應(yīng)用環(huán)境[2-3],而某些可疑行為只有通過用戶在多個(gè)平臺(tái)上的行為聯(lián)合分析才能得出,這表明單域模型在針對(duì)異構(gòu)網(wǎng)絡(luò)的用戶行為分析中具有局限性。現(xiàn)有的行為分析和審計(jì)系統(tǒng)模型難以對(duì)異構(gòu)網(wǎng)絡(luò)中大規(guī)模、多維度的用戶行為特征進(jìn)行準(zhǔn)確描述和建模。在異構(gòu)網(wǎng)絡(luò)環(huán)境下,現(xiàn)有單域模型的表現(xiàn)對(duì)用戶跨域行為的有效挖掘與細(xì)粒度分析具有一定的困難,導(dǎo)致用戶行為分析、審計(jì)、活動(dòng)定位和追蹤手段的缺乏,從而難以及時(shí)分析和發(fā)現(xiàn)具有可疑行為與非法行為的用戶,無法滿足異構(gòu)網(wǎng)絡(luò)環(huán)境下網(wǎng)絡(luò)用戶行為的安全管控要求。
面對(duì)以上異構(gòu)網(wǎng)絡(luò)中用戶行為分析問題,本文將單域的用戶網(wǎng)絡(luò)行為分析方法擴(kuò)展到跨域平臺(tái)上。用戶行為分析歷年來一直是理論研究重點(diǎn)關(guān)注的領(lǐng)域之一。郝增勇[4]采用基于Linux 內(nèi)核的高效數(shù)據(jù)包獲取技術(shù)PF-RING 來獲得網(wǎng)絡(luò)人口數(shù)據(jù)作為數(shù)據(jù)源,并將其存儲(chǔ)在HBASE 分布式存儲(chǔ)數(shù)據(jù)庫中進(jìn)行后續(xù)的用戶行為分析,之后利用Libnids技術(shù)將對(duì)應(yīng)網(wǎng)絡(luò)人口數(shù)據(jù)進(jìn)行TCP/IP 重組,實(shí)現(xiàn)應(yīng)用層HTTP 數(shù)據(jù)的還原,最后采用Hadoop 集群架構(gòu)編寫對(duì)應(yīng)算法對(duì)用戶在應(yīng)用層的網(wǎng)絡(luò)行為進(jìn)行分析,從而達(dá)到網(wǎng)絡(luò)人口數(shù)據(jù)從物理層到應(yīng)用層全層分析的效果。楊帆[5]在圖書館讀者行為分析研究中以用戶的行為偏好為出發(fā)點(diǎn),利用用戶檢索、瀏覽、收藏、借閱等行為數(shù)據(jù),為讀者建立用戶畫像,從而實(shí)現(xiàn)圖書館用戶的個(gè)性化推薦功能,該功能可以根據(jù)用戶畫像以及用戶的行為偏好為其推薦相應(yīng)的書籍及服務(wù)。熊偉[6]收集Cookie 域中相關(guān)的用戶行為數(shù)據(jù)、將對(duì)應(yīng)用戶的行為數(shù)據(jù)生成對(duì)應(yīng)用戶畫像,之后基于LDA 模型進(jìn)行修改建立用戶畫像以及內(nèi)容的服務(wù)重定向的數(shù)據(jù)模型,實(shí)驗(yàn)結(jié)果表明,該基于用戶畫像以及內(nèi)容的服務(wù)重定向的LDA 模型有效的降低了服務(wù)的搜索時(shí)間以及提高了系統(tǒng)計(jì)算效率。目前,國內(nèi)外研究學(xué)者對(duì)用戶異常行為分析的研究成果主要集中在單平臺(tái)或單域上[7],缺少異構(gòu)環(huán)境中用戶行為分析與審計(jì)模型的研究。
本文針對(duì)跨域用戶行為數(shù)據(jù)的非結(jié)構(gòu)化特性、多維度特性、海量大數(shù)據(jù)等特性[2-3],提出了一種基于異構(gòu)數(shù)據(jù)挖掘的異構(gòu)身份用戶行為分析系統(tǒng),詳細(xì)論述了該系統(tǒng)的結(jié)構(gòu)功能模塊設(shè)計(jì),并在跨域平臺(tái)上對(duì)該系統(tǒng)的功能進(jìn)行實(shí)驗(yàn)論證。
用戶在不同網(wǎng)絡(luò)平臺(tái)會(huì)產(chǎn)生大量不同結(jié)構(gòu)的行為數(shù)據(jù),這些數(shù)據(jù)具有異構(gòu)多維、結(jié)構(gòu)多樣的特點(diǎn),利用跨域數(shù)據(jù)可以挖掘聯(lián)合分析出更深層次的用戶行為信息,構(gòu)建出更全面的用戶畫像,對(duì)具有可疑行為的用戶實(shí)現(xiàn)審計(jì)追蹤。針對(duì)單域的用戶行為分析和審計(jì)系統(tǒng)在異構(gòu)網(wǎng)絡(luò)中具有局限性,本文設(shè)計(jì)了一種基于異構(gòu)身份的行為分析系統(tǒng),該系統(tǒng)首先處理多維度異構(gòu)的用戶行為數(shù)據(jù),同時(shí)采用MongoDB 數(shù)據(jù)庫存儲(chǔ)跨域用戶的非結(jié)構(gòu)化數(shù)據(jù),最后采用行為數(shù)據(jù)關(guān)聯(lián)算法對(duì)異構(gòu)用戶的行為數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,以及時(shí)發(fā)現(xiàn)可疑或非法用戶,并能通過少量標(biāo)記的非法用戶發(fā)現(xiàn)可疑用戶群組,實(shí)現(xiàn)用戶的網(wǎng)絡(luò)管控。
由于用戶行為數(shù)據(jù)的海量性、異構(gòu)性和復(fù)雜性,為此以大數(shù)據(jù)分析挖掘流程設(shè)計(jì)原型驗(yàn)證系統(tǒng),系統(tǒng)流程如圖1 所示,主要包括用戶行為數(shù)據(jù)采集、用戶行為數(shù)據(jù)預(yù)處理、用戶行為數(shù)據(jù)分析、用戶行為數(shù)據(jù)審計(jì)等階段。
圖1 基于異構(gòu)身份的用戶行為分析系統(tǒng)流程設(shè)計(jì)
基于異構(gòu)身份的用戶行為分析系統(tǒng)用來挖掘、分析、存儲(chǔ)和管理用戶行為數(shù)據(jù),由于用戶行為數(shù)據(jù)的海量特征,為此系統(tǒng)應(yīng)具備大容量、高并發(fā)等特點(diǎn),同時(shí)系統(tǒng)需要對(duì)用戶的結(jié)構(gòu)化和非結(jié)構(gòu)化的行為數(shù)據(jù)進(jìn)行分析。
基于異構(gòu)身份的用戶行為分析系統(tǒng)架構(gòu)圖如圖2 所示。
圖2 基于異構(gòu)身份的用戶行為分析系統(tǒng)架構(gòu)
該用戶行為分析系統(tǒng)架構(gòu)主要分成數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲(chǔ)管理層、用戶行為分析與審計(jì)、用戶行為管控和可視化,下一節(jié)分別對(duì)各個(gè)模塊進(jìn)行介紹。
數(shù)據(jù)采集層結(jié)合系統(tǒng)運(yùn)作實(shí)際需求,對(duì)互聯(lián)網(wǎng)、移動(dòng)通信、物聯(lián)網(wǎng)、行業(yè)網(wǎng)、社交網(wǎng)絡(luò)、電商等網(wǎng)絡(luò)中產(chǎn)生的用戶行為數(shù)據(jù)進(jìn)行采集,并優(yōu)化數(shù)據(jù)結(jié)構(gòu),完善數(shù)據(jù)采集、存儲(chǔ)、檢索和歸檔機(jī)制。優(yōu)化基礎(chǔ)數(shù)據(jù)更新模式,提高基礎(chǔ)數(shù)據(jù)的鮮活性和實(shí)用性。制定數(shù)據(jù)采集標(biāo)準(zhǔn)和基礎(chǔ)信息采集目錄,完善業(yè)務(wù)應(yīng)用規(guī)則,建立基礎(chǔ)信息源頭采集和動(dòng)態(tài)維護(hù)的工作機(jī)制,利用數(shù)據(jù)監(jiān)測(cè)等技術(shù)手段,定期核查基礎(chǔ)數(shù)據(jù)的采集維護(hù)情況,提高源頭數(shù)據(jù)的準(zhǔn)確性和真實(shí)性。
系統(tǒng)數(shù)據(jù)采集需要遵循如下四個(gè)原則:保證數(shù)據(jù)的及時(shí)采集;保證數(shù)據(jù)采集中數(shù)據(jù)的可靠性;保證數(shù)據(jù)采集中數(shù)據(jù)的完整性;保證數(shù)據(jù)采集中數(shù)據(jù)的機(jī)密新。
數(shù)據(jù)采集管理架構(gòu)如圖3 所示。
采集的數(shù)據(jù)源包括兩類,其一為實(shí)時(shí)的用戶數(shù)據(jù)導(dǎo)入等,可以直接通過與第三方的數(shù)據(jù)接口傳輸,其二為非實(shí)時(shí)的用戶數(shù)據(jù)導(dǎo)入,可以采用離線數(shù)據(jù)導(dǎo)入的方式等。
圖3 數(shù)據(jù)采集管理架構(gòu)
數(shù)據(jù)采集將采用云化ETL,流數(shù)據(jù)處理、爬蟲或者代理等模式,將靶場產(chǎn)生的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到靶場數(shù)據(jù)倉庫中。
數(shù)據(jù)預(yù)處理層具體功能包括:解析去重、清洗、篩選、分類、轉(zhuǎn)換或者合并增強(qiáng),具體如圖4 所示。
具體步驟如下:
(1)源數(shù)據(jù)導(dǎo)入ETL,進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換和入庫。
(2)用戶數(shù)據(jù)經(jīng)清洗、轉(zhuǎn)換后的用戶數(shù)據(jù)加載到分布式數(shù)據(jù)庫。
(3)平臺(tái)通過數(shù)據(jù)訪問接口獲取所需求數(shù)據(jù)。
圖4 數(shù)據(jù)預(yù)處理層
數(shù)據(jù)存儲(chǔ)分為包括三部分存儲(chǔ):臨時(shí)數(shù)據(jù)存儲(chǔ)區(qū)、歷史數(shù)據(jù)歸檔存儲(chǔ)、大數(shù)據(jù)存儲(chǔ)區(qū)。具體如圖5 所示。
臨時(shí)數(shù)據(jù)區(qū):主要存儲(chǔ)每日新增的增量數(shù)據(jù)和應(yīng)用緩存數(shù)據(jù),供預(yù)處理層進(jìn)行批量訪問。主要支撐的功能為數(shù)據(jù)抽取與存儲(chǔ)、數(shù)據(jù)預(yù)處理程序的調(diào)用。
歷史歸檔區(qū):主要存儲(chǔ)各數(shù)據(jù)區(qū)產(chǎn)生的結(jié)果數(shù)據(jù),歸檔數(shù)據(jù)以及歷史支撐數(shù)據(jù)。主要供業(yè)務(wù)人員進(jìn)行歷史數(shù)據(jù)查詢。主支撐的功能為分布式計(jì)算、集群歸檔、歷史查詢。
大數(shù)據(jù)存儲(chǔ)區(qū)采用Hadoop 存儲(chǔ)架構(gòu)實(shí)現(xiàn),用來為大數(shù)據(jù)挖掘提供數(shù)據(jù)支撐,存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。供業(yè)務(wù)人員進(jìn)行用戶行為分析、預(yù)測(cè)、管控;其主要支撐的功能為MR 計(jì)算、大數(shù)據(jù)分析與挖掘(包括文本檢索、關(guān)聯(lián)分析等)。
圖5 數(shù)據(jù)存儲(chǔ)層
用戶行為分析與審計(jì)包含身份管理模型與行為分析審計(jì)模型。
身份管理模型基于已知身份信息庫與跨域未知身份概率化對(duì)齊模型,實(shí)現(xiàn)異構(gòu)身份聯(lián)盟下統(tǒng)一身份標(biāo)識(shí)及同域重復(fù)身份檢測(cè),為用戶行為審計(jì)提供支撐。已知身份信息庫包含用戶ID、身份證號(hào)碼、姓名、性別、出生日期、出生地、民族、工作單位、學(xué)歷學(xué)位、婚姻狀況、戶籍地址等信息,跨域未知身份概率化對(duì)齊模型實(shí)現(xiàn)概率化的跨域身份信息對(duì)齊功能。
身份管理模型設(shè)計(jì)如圖6 所示。
首先從大數(shù)據(jù)存儲(chǔ)中調(diào)用用戶行為數(shù)據(jù)與已知身份信息;其次將多源身份特征嵌入模型,形成跨域身份概率化對(duì)齊模型和同域重復(fù)身份檢測(cè)模型;基于身份對(duì)齊和檢測(cè)模型分析后,進(jìn)行跨域身份關(guān)聯(lián)和概率化的未知身份管理;最后將用戶身份融合結(jié)果反饋至大數(shù)據(jù)存儲(chǔ)區(qū)。
用戶行為分析審計(jì)模型主要是通過模型的調(diào)用的方式,分析用戶興趣偏好、活動(dòng)規(guī)律,構(gòu)建用戶畫像,實(shí)現(xiàn)基于半監(jiān)督學(xué)習(xí)的行為預(yù)測(cè)模型,基于遷移學(xué)習(xí)的用戶行為追蹤模型。模型采用JSON 與Restful 的格式,進(jìn)行數(shù)據(jù)傳輸和結(jié)果反饋,其流程圖如圖7 所示。
圖6 身份管理模型
首先形成基于多態(tài)行為特征的行為知識(shí)庫;然后將知識(shí)庫中的數(shù)據(jù)傳入基于半監(jiān)督學(xué)習(xí)的行為預(yù)測(cè)模型和基于遷移學(xué)習(xí)的行為預(yù)測(cè)模型;最后將上述模型結(jié)果傳遞到基于可信代理的用戶行為審計(jì)模型和基于深度學(xué)習(xí)的用戶行為追蹤模型。
圖7 用戶行為審計(jì)與追蹤模型
用戶行為管控主要是基于概率化的身份判別功能,對(duì)不同身份在管理系統(tǒng)中的對(duì)應(yīng)關(guān)系進(jìn)行關(guān)聯(lián)。同時(shí)用戶行為的管控將通過可視化的方式進(jìn)行展示。
用戶行為管控與可視化流程如圖8 所示。
圖8 用戶行為管控與可視化
系統(tǒng)中的用戶行為管控包括用戶行為統(tǒng)計(jì)、展示、異常用戶行為管控(行為發(fā)現(xiàn)、處置、反饋等)。
本文設(shè)計(jì)的基于異構(gòu)身份聯(lián)盟的用戶行為分析系統(tǒng)主要包括數(shù)據(jù)采集、身份管理、行為分析與管控、行為審計(jì)等模塊。
原理驗(yàn)證系統(tǒng)以異構(gòu)身份聯(lián)盟網(wǎng)絡(luò)行為分析與監(jiān)控理論體系作為研究基礎(chǔ),融合未知情況下異構(gòu)身份聯(lián)盟多身份融合識(shí)別與管理模塊、異構(gòu)身份聯(lián)盟用戶行為分析模塊、異構(gòu)身份聯(lián)盟用戶行為審計(jì)與追蹤模塊。原理驗(yàn)證系統(tǒng)在采集用戶行為數(shù)據(jù)的基礎(chǔ)上,生成部分異常用戶群體作為網(wǎng)絡(luò)安全維穩(wěn)場景下的分析對(duì)象,數(shù)據(jù)源中跨域?qū)嶓w信息包括用戶ID、用戶名、地區(qū)、民族等,跨域?qū)嶓w行為包括社會(huì)域用戶與用戶之間建立聯(lián)系、博客域發(fā)布博文、說說域發(fā)表說說、電商域購買物品。
該系統(tǒng)的工作流程如下:
(1)未知情況下異構(gòu)身份聯(lián)盟多身份融合識(shí)別與管理模塊將不同域中的實(shí)體進(jìn)行融合、對(duì)齊,得到概率化實(shí)體身份關(guān)聯(lián)結(jié)果;
(2)異構(gòu)身份聯(lián)盟用戶行為分析模塊對(duì)實(shí)體在不同域中的時(shí)空上下文、語義化描述、特征偏好、群體一致性建立多態(tài)網(wǎng)絡(luò)行為關(guān)聯(lián)分析模型,結(jié)合機(jī)器學(xué)習(xí)半監(jiān)督學(xué)習(xí)方法,檢測(cè)發(fā)現(xiàn)實(shí)體的異常行為,形成異常證據(jù)鏈;
(3)異構(gòu)身份聯(lián)盟用戶行為審計(jì)與追蹤模塊對(duì)實(shí)體行為進(jìn)行語義距離度量,利用深度學(xué)習(xí)理論,構(gòu)造用戶行為追蹤模型,實(shí)現(xiàn)對(duì)異常行為的追蹤監(jiān)管。
異構(gòu)身份聯(lián)盟行為分析與監(jiān)管原理驗(yàn)證系統(tǒng)前端共包含7 個(gè)頁面,如圖9 所示。
圖9 原理驗(yàn)證系統(tǒng)
該系統(tǒng)首頁展示了數(shù)據(jù)集中實(shí)體活躍情況分布及實(shí)體在不用域中活動(dòng)行為統(tǒng)計(jì);用戶信息頁面展示了實(shí)體基本的屬性信息與實(shí)體間的關(guān)聯(lián)關(guān)系;博客內(nèi)容頁展示了不同實(shí)體在博客域中發(fā)表的博客內(nèi)容;說說內(nèi)容展示了不同實(shí)體在說說域中發(fā)表的說說內(nèi)容;電商內(nèi)容頁面展示了不同實(shí)體在電商域購買商品類別內(nèi)容;關(guān)聯(lián)分析頁面展示了跨域?qū)嶓w行為分析與異常行為檢測(cè)的半監(jiān)督模型及異常行為檢測(cè)結(jié)果;追蹤溯源頁面展示了異常實(shí)體的證據(jù)追蹤鏈。
異構(gòu)身份聯(lián)盟多身份融合識(shí)別與管理模塊將用戶身份進(jìn)行對(duì)齊,得到概率化實(shí)體身份關(guān)聯(lián)結(jié)果后,基于異構(gòu)身份的用戶行為分析系統(tǒng)模塊對(duì)用戶在不同域中的行為數(shù)據(jù)進(jìn)行采集并建立多態(tài)網(wǎng)絡(luò)行為關(guān)聯(lián)分析模型,結(jié)合機(jī)器學(xué)習(xí)模型對(duì)用戶異常行為進(jìn)行檢測(cè)發(fā)現(xiàn)形成證據(jù)鏈,由用戶行為審計(jì)與追蹤模塊利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)異常行為的追蹤溯源。
為支撐異構(gòu)身份用戶行為分析、審計(jì)、追蹤、溯源、管控以及可視化展示,本文設(shè)計(jì)了基于異構(gòu)身份的用戶行為分析系統(tǒng),該系統(tǒng)包括數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲(chǔ)管理層、用戶行為分析審計(jì)層、用戶行為管控和可視化層共5 個(gè)層次,實(shí)現(xiàn)了異構(gòu)身份用戶行為的海量非結(jié)構(gòu)化數(shù)據(jù)挖掘處理和分析,通過對(duì)用戶的行文關(guān)聯(lián)分析能夠及時(shí)發(fā)現(xiàn)可疑或惡意用戶,達(dá)到監(jiān)管用戶網(wǎng)絡(luò)行為的效果。