吳 鑫 嚴(yán)岳松 劉曉然
(海軍指揮學(xué)院信息戰(zhàn)研究系 南京 211800)
WU Xin YAN Yuesong LIU Xiaoran
(Information Institute, Naval Command College, Nanjing 211800)
?
基于FCM的網(wǎng)絡(luò)用戶行為識別研究*
吳鑫嚴(yán)岳松劉曉然
(海軍指揮學(xué)院信息戰(zhàn)研究系南京211800)
網(wǎng)絡(luò)用戶行為識別作為網(wǎng)絡(luò)監(jiān)管的一個重要方面,對網(wǎng)絡(luò)安全具有重要的意義。針對網(wǎng)絡(luò)用戶行為識別問題,提出了一種基于模糊C均值算法的網(wǎng)絡(luò)用戶行為識別模型,并設(shè)計了相關(guān)實驗進行驗證。實驗結(jié)果表明:該模型對網(wǎng)絡(luò)用戶行為具有較好的聚類和識別效果。
網(wǎng)絡(luò)行為; 模糊C均值; 用戶識別
WU XinYAN YuesongLIU Xiaoran
(Information Institute, Naval Command College, Nanjing211800)
Class NumberTP391
隨著互聯(lián)網(wǎng)時代的不斷發(fā)展和壯大,互聯(lián)網(wǎng)用戶的數(shù)量不斷增多。與此同時,網(wǎng)絡(luò)犯罪事件隨著也不斷增多,例如發(fā)布反動信息等。如何對網(wǎng)絡(luò)用戶進行有效的監(jiān)管已經(jīng)成為社會的熱點問題。網(wǎng)絡(luò)用戶行為識別作為網(wǎng)絡(luò)監(jiān)管的重要的手段,對于用戶行為的追蹤、行為負責(zé)人的認(rèn)定有著深遠的意義。
網(wǎng)絡(luò)用戶行為識別,就是研究網(wǎng)絡(luò)用戶行為的特點以及在網(wǎng)絡(luò)活動中所表現(xiàn)出來的規(guī)律,并對比行為樣本庫,對用戶行為進行識別的過程。目前網(wǎng)絡(luò)用戶行為識別主要的方法有:劉磊等[1]提出的采用特征加權(quán)的樸素貝葉斯分類算法對用戶進行行為識別的方法; 葉娜等[2]針對用戶行為數(shù)據(jù),提出了基于分塊和二部圖的用戶識行為識別算法;徐晏等[3]通過用戶上網(wǎng)在瀏覽器中留下的信息數(shù)據(jù),對用戶進行行為識別;梁璐在文獻[4]中,根據(jù)用戶行為復(fù)雜度關(guān)系構(gòu)建用戶行為的層次結(jié)構(gòu),利用層次隱馬爾科夫模型對用戶行為進行建模和識別;黃煒[5]提出一種利用分類算法與關(guān)聯(lián)算法相結(jié)合的識別方法,通過數(shù)據(jù)挖掘技術(shù)對用戶行為進行識別。結(jié)果表明上述方法均能對用戶行為進行識別,但普遍存在兩點不足:一是算法相對復(fù)雜,工作量較大;二是識別率相對偏低。針對以上不足,本文以網(wǎng)絡(luò)用戶行為日志集為研究對象,根據(jù)模糊C均值聚類算法(Fuzzy C-Means,F(xiàn)CM)設(shè)計簡單、易于應(yīng)用計算機實現(xiàn)等優(yōu)點,提出一種網(wǎng)絡(luò)用戶行為識別模型。
本文建立了一種基于聚類的網(wǎng)絡(luò)用戶行為識別模型,該模型由數(shù)據(jù)采集模塊、行為樣本庫、數(shù)據(jù)選取模塊及行為聚類識別模塊四部分構(gòu)成。模型如圖1所示。
圖1 基于聚類的網(wǎng)絡(luò)用戶行為識別模型
數(shù)據(jù)采集模塊:是利用抓取用戶上網(wǎng)流量信息的軟件或者安裝在服務(wù)器端口的傳感器等手段,獲取網(wǎng)絡(luò)用戶上網(wǎng)的行為日志數(shù)據(jù)。網(wǎng)絡(luò)用戶的行為一般用向量形式表示,即{特征1,特征2,…,特征n},其中n個特征組成了一次行為。
數(shù)據(jù)預(yù)處理模塊:主要是對獲取的網(wǎng)絡(luò)用戶行為日志進行預(yù)處理,使得經(jīng)預(yù)處理的數(shù)據(jù)便于聚類識別。該模型中對數(shù)據(jù)的預(yù)處理主要包括三點:特征選擇、數(shù)據(jù)轉(zhuǎn)換、噪聲數(shù)據(jù)處理。
行為樣本庫:是利用預(yù)處理后的數(shù)據(jù)來建立樣本庫,以便用作行為識別的模板,并通過不斷豐富行為樣本庫,使得該樣本庫可以為后續(xù)在研究網(wǎng)絡(luò)用戶行為方面提供便利。
行為聚類識別模塊:包括聚類模塊和識別模塊,前者是利用聚類算法對選取的訓(xùn)練數(shù)據(jù)集進行聚類;后者是利用聚類算法對選取的測試數(shù)據(jù)集進行聚類,并對比樣本庫,進行識別。
該模型是將聚類算法應(yīng)用于網(wǎng)絡(luò)用戶行為識別,識別主要是依據(jù)測試數(shù)據(jù)集與行為樣本庫中的數(shù)據(jù)兩者之間的相似度或者距離來衡量,若識別成功則可以認(rèn)定測試的行為數(shù)據(jù)是某個人的網(wǎng)絡(luò)行為,并通過查找人員信息表,得出此人的身份信息;若識別失敗,證明該用戶為新用戶或者異常用戶,應(yīng)該予以重點關(guān)注。
FCM是一種基于目標(biāo)函數(shù)的無監(jiān)督聚類分析算法,它是在K-均值聚類算法基礎(chǔ)上,將硬分類轉(zhuǎn)換為模糊分類,并引入了一個隸屬度的概念,F(xiàn)CM因設(shè)計簡單、解決問題范圍廣、易于應(yīng)用計算機實現(xiàn)等特點受到越來越多人的關(guān)注,并應(yīng)用于各個領(lǐng)域。本文將FCM應(yīng)用于網(wǎng)絡(luò)用戶行為聚類過程中,其聚類步驟[6]如下所示:
算法:FCM
輸入:經(jīng)預(yù)處理的網(wǎng)絡(luò)用戶行為數(shù)據(jù)
輸出:聚類得到的網(wǎng)絡(luò)用戶數(shù)目
步驟如下:
Ⅰ begin initialize
(1)
Ⅲdo由式(2)重新計算聚類中心μi
(2)
dij=‖xj-μi‖2
(3)
Ⅵreturnμ1,μ2,…,μc
Ⅶend
4.1數(shù)據(jù)來源
本實驗數(shù)據(jù)均來自數(shù)據(jù)堂中的互聯(lián)網(wǎng)用戶行為日志數(shù)據(jù)集[7]。該數(shù)據(jù)集提供1000名網(wǎng)絡(luò)用戶日志集,采集了他們在四周中的網(wǎng)絡(luò)行為日志。根據(jù)本文研究目的,選取了部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中:
1)訓(xùn)練數(shù)據(jù)集:在行為樣本庫中隨機選取三個人,記為p1、p2、p3,從這三個人的行為數(shù)據(jù)中分別抽取150條行為數(shù)據(jù)當(dāng)做訓(xùn)練數(shù)據(jù)集;利用FCM對其進行三次聚類實驗,分別為:每個人選取50、100、150條訓(xùn)練數(shù)據(jù);最后得出三次實驗的最終聚類結(jié)果,并統(tǒng)計三次實驗中每個人的準(zhǔn)確聚類數(shù)目、聚類準(zhǔn)確率及平均聚類準(zhǔn)確率。
2)測試數(shù)據(jù)集包括兩組:第一組:p1的100條測試數(shù)據(jù);第二組:分別來自p1、p2、p3的50條測試數(shù)據(jù)。分別進行聚類識別,分別統(tǒng)計各自的準(zhǔn)確識別數(shù)目、準(zhǔn)確識別率及平均識別率。
4.2數(shù)據(jù)預(yù)處理
對該數(shù)據(jù)集預(yù)處理的主要工作有以下幾點:
1) 特征選?。簭脑季W(wǎng)絡(luò)用戶行為數(shù)據(jù)中選取的特征包括T、P、I、W、V,即用戶的行為可以用向量{T,P,I,W,V}表示。
表1 選取的特征代表的意義
2) 數(shù)據(jù)轉(zhuǎn)換:將用戶的行為數(shù)據(jù)完全數(shù)字化處理,利用5維向量表示用戶的行為,為方便數(shù)據(jù)存儲和仿真實驗,將窗口進程名全部用數(shù)字代替。
表2 窗口進程名轉(zhuǎn)換表
3) 噪聲數(shù)據(jù)處理:將原始數(shù)據(jù)中其他的特征數(shù)據(jù)進行保存,將一些有明顯錯誤的數(shù)據(jù)刪除。
4.3結(jié)果分析
4.3.1參數(shù)及結(jié)果統(tǒng)計量
1) FCM的參數(shù)設(shè)定
FCM重要參數(shù):加權(quán)指數(shù)b。文獻[8]給出的經(jīng)驗值是1.1≤b≤5,J.C.Bezdek在文獻[9]中給出了加權(quán)值取2最為合理的物理解釋;高新波等[10]也解釋了b=2的合理性,并通過了實驗證明。綜上,確定該實驗所采用的FCM的加權(quán)指數(shù)b=2。
2) 結(jié)果統(tǒng)計量
(1)準(zhǔn)確聚類數(shù)目:即某個人的訓(xùn)練數(shù)據(jù)聚在同一類中最多的數(shù)目,定義為mi(i=1,2,3);
(4)準(zhǔn)確行為識別個數(shù):測試數(shù)據(jù)與對應(yīng)的訓(xùn)練樣數(shù)據(jù)聚類在同一類的數(shù)目,定義準(zhǔn)確識別數(shù)目為ni(i=1,2,3);
4.3.2實驗結(jié)果及分析
1) 聚類結(jié)果分析,以訓(xùn)練數(shù)據(jù)集為對象,采用FCM進行聚類。結(jié)果如圖2所示。
圖2 訓(xùn)練數(shù)據(jù)集聚類結(jié)果
訓(xùn)練數(shù)據(jù)集聚類實驗結(jié)果分析:由圖2可以看出,當(dāng)訓(xùn)練數(shù)據(jù)集為在p1、p2、p3中各抽取100條數(shù)據(jù)時候的聚類最為準(zhǔn)確,平均準(zhǔn)確率為93%;從總體上來看:第一,當(dāng)訓(xùn)練數(shù)據(jù)集從每人50條數(shù)據(jù)增加到100條數(shù)據(jù),聚類效果有所提高,當(dāng)訓(xùn)練數(shù)據(jù)集從每人100增加到每人150條時,準(zhǔn)確聚類率有所降低;第二,F(xiàn)CM對三組數(shù)據(jù)的聚類準(zhǔn)確率基本都在90%左右。這也證明了該算法對于網(wǎng)絡(luò)用戶的行為數(shù)據(jù)具有良好的聚類效果。
2) 在聚類的基礎(chǔ)上,采用FCM對兩組測試數(shù)據(jù)集分別進行聚類識別,最終用戶行為識別結(jié)果如圖3、圖4所示。
圖3 N1=100,識別結(jié)果
測試數(shù)據(jù)集實驗結(jié)果分析:由圖3可知,當(dāng)每人抽取100條訓(xùn)練數(shù)據(jù)集時,對于測試數(shù)據(jù)集的識別率最高,為90%,實驗的平均行為識別率為88.3%,即對于p1而言,其行為的平均識別率為88.3%。
由圖4可知,以每人取的50、100、150當(dāng)訓(xùn)練數(shù)據(jù)集,對于第二組測試數(shù)據(jù)集的平均行為識別率分別為86.7%、87%、84.7%;相比于圖3的結(jié)果,第二組測試數(shù)據(jù)集的平均行為識別率有所下降。首先,因為第一組測試數(shù)據(jù)來源于p1,第二組測試數(shù)據(jù)來自p1、p2、p3。用戶行為數(shù)據(jù)變得更復(fù)雜,導(dǎo)致聚類和識別的難度加大,這是主要原因;其次,因為圖4測試數(shù)據(jù)集數(shù)目相比圖3的測試數(shù)據(jù)集增加了50%,因此數(shù)據(jù)量增加,對于聚類的結(jié)果造成了一定的影響。
圖4 N1=50;N2=50;N3=50識別結(jié)果
經(jīng)過以上實驗,將p1、p2、p3的行為數(shù)據(jù)對比行為樣本庫,通過查找人員身份信息表,得出產(chǎn)生此網(wǎng)絡(luò)行為的用戶身份信息,從而達到通過對用戶行為的識別來識別用戶身份的目的。
本文以網(wǎng)絡(luò)用戶行為日志集為研究對象,建立了基于FCM的網(wǎng)絡(luò)用戶行為識別模型,通過兩組實驗分別驗證了FCM對于網(wǎng)絡(luò)用戶的行為具有較好的聚類效果和識別效果,這使得公安部門在用戶行為追蹤、行為負責(zé)人認(rèn)定等方面更加快捷,引導(dǎo)社會更加健康、穩(wěn)定的發(fā)展。
[1] 劉磊,陳興屬,尹學(xué)淵,等.基于特征加權(quán)樸素貝葉斯分類算法的網(wǎng)絡(luò)用戶識別[J].計算機應(yīng)用,2011,31(12):3268-3270.
[2] 葉娜,趙銀亮,邊根慶,等.模式無關(guān)的社交網(wǎng)絡(luò)用戶識別算法[J].西安交通大學(xué)學(xué)報,2013,12(47):19-26.
[3] 徐晏,張代遠.基于瀏覽器用戶身份識別系統(tǒng)[J].計算機技術(shù)與發(fā)展,2013,23(8):79-82.
[4] 梁璐.基于層次隱馬爾科夫的行為識別研究[D].上海:華東師范大學(xué),2012.
[5] 黃煒.基于數(shù)據(jù)挖掘的學(xué)習(xí)者身份識別[D].杭州:杭州電子科技大學(xué),2011.
[6] 李粥程,邵美珍,黃潔.模式識別原理與應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2008.
[7] 數(shù)據(jù)堂(http://www.datatang.com)[EB/OL].互聯(lián)網(wǎng)用戶行為日志數(shù)據(jù)集.
[8] N.R.Pal and J.C.Bezdek.On cluster validity for the fuzzy c-means model[J]. IEEE Trans.Fuzzy Systems,1995,3(3):370-379.
[9] J.C.Bezdek. IEEE Trans.Syst .Man Cybern[J].1976(6):387-390.
[10] 高新波,裴繼紅,謝維信.模糊C均值聚類算法中加權(quán)指數(shù)的研究[J].電子學(xué)報,2000,17(4):21-24.
Identification of Network User Behavior Based on FCM*
Network user behavior recognition is an important aspect of network supervision, which has important significance to network security. Aiming to identify network user behavior problem,this paper proposes a network user identification model based on FCM,and designs the related experiments to verify the model.The results show that the model has good clustering and recognition effect on the behavior of the network user.
network behavior, fuzzy C-Means, user identification
2016年2月11日,
2016年3月27日
信息保障技術(shù)重點實驗室開放基金項目(編號:KJ-13-103)資助。
吳鑫,男,碩士研究生,研究方向:信息安全理論與技術(shù)。嚴(yán)岳松,男,碩士,講師,研究方向:信息安全。
TP391
10.3969/j.issn.1672-9730.2016.08.029
劉曉然,男,博士,教授,研究方向:信息作戰(zhàn)。