劉 云,肖 添,王梓宇
(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
在線社交網(wǎng)絡(luò)OSN(Online Social Net)擁有龐大的用戶群,吸引來(lái)自不同行業(yè)和年齡段的用戶。盡管大多數(shù)OSN主要用于各種良性用途,但其自身的開(kāi)放性、龐大的用戶群和消息實(shí)時(shí)擴(kuò)散使OSN成為網(wǎng)絡(luò)罪犯有利可圖的目標(biāo)。OSN已經(jīng)被證明是一種新的具有復(fù)雜攻擊和威脅的孵化器,例如網(wǎng)絡(luò)欺凌、傳播謠言、網(wǎng)絡(luò)詐騙、發(fā)送垃圾郵件和其他非法活動(dòng)[1]。如何自動(dòng)分析用戶行為特征以檢測(cè)出在線社交網(wǎng)絡(luò)中惡意用戶行為,成為一項(xiàng)重要而具有挑戰(zhàn)性的研究任務(wù)。
劉勘等人[2]提出基于隨機(jī)森林分類的惡意用戶檢測(cè)算法,從多維度分析惡意用戶的特征指標(biāo),構(gòu)建對(duì)應(yīng)的特征向量,并用隨機(jī)森林算法設(shè)計(jì)惡意用戶識(shí)別模型。Zhang等人[3]通過(guò)研究用戶行為的各種區(qū)別屬性和特征,提出一個(gè)動(dòng)態(tài)的惡意用戶行為檢測(cè)框架,能自動(dòng)處理不斷變化的惡意用戶行為。
Zadeh[4]提出的模糊集,引入了隸屬函數(shù)和隸屬度的思想,并由Ruspini[5]成功地將其應(yīng)用于聚類中。在模糊聚類中,Dunn[6]提出的模糊C均值FCM(Fuzzy C-Means)算法是最著名的算法。模糊聚類在各種應(yīng)用中被認(rèn)為是一種非常強(qiáng)大的工具,已被廣泛應(yīng)用于各個(gè)領(lǐng)域,在基于用戶行為特征的惡意用戶行為檢測(cè)中也卓有成效。Do等人[7]提出了基于模糊集的惡意用戶檢測(cè)SDAFS(Spammer Detection Algorithm based on Fuzzy Set)算法,通過(guò)使用網(wǎng)絡(luò)方法檢測(cè)惡意用戶行為,然后利用FCM聚類算法找到用戶所屬聚類。Pinandito等人[8]提出基于模糊聚類的極限學(xué)習(xí)ELAFC(Extreme Learning Algorithm Based on Fuzzy Clustering)算法,通過(guò)分析用戶個(gè)人資料、活動(dòng)和相關(guān)文本等特征,采用具有特征加權(quán)的FCM聚類算法對(duì)用戶行為進(jìn)行聚類。Xu 等人[9]提出了一種基于網(wǎng)絡(luò)方法檢測(cè)惡意行為NADMB(Network-based Algorithm for Detecting Malicious Behavior)算法,該算法利用K-means聚類識(shí)別惡意群體。
但是,SDAFS算法由于使用模糊C均值聚類算法使得所有特征權(quán)重相同,影響了聚類精度。ELAFC算法雖然使用特征加權(quán)技術(shù)優(yōu)化了在多維特征下的聚類精度,但沒(méi)有考慮特征選擇,冗余特征依然會(huì)影響系統(tǒng)性能。而NADMB算法由于使用的特征較少,導(dǎo)致算法只能應(yīng)用于特定網(wǎng)絡(luò)。
本文在已有研究工作的基礎(chǔ)上,綜合考慮以上算法的優(yōu)缺點(diǎn),提出一種動(dòng)態(tài)特征選擇算法DFSA(Dynamic Feature Selection Algorithm)。該算法使用具有特征加權(quán)熵的模糊C均值目標(biāo)函數(shù),為參數(shù)構(gòu)建一個(gè)學(xué)習(xí)模式,通過(guò)多次迭代計(jì)算得出每個(gè)特征權(quán)重,剔除不相關(guān)或冗余的特征,對(duì)特征進(jìn)行動(dòng)態(tài)選擇,迭代地更新隸屬函數(shù)、簇中心和特征權(quán)重直到最優(yōu)化為止,最終識(shí)別出具有高精度的惡意簇。仿真結(jié)果表明,對(duì)比SDAFS算法、ELAFC算法和NADMB算法,本文提出的DFSA算法在Rand指數(shù)[10]、Jaccard指數(shù)[10]和歸一化互信息量3個(gè)主要性能指標(biāo)上均有改善。
圖1所示是典型的模糊C均值聚類框架圖,由特征提取、模糊C均值聚類算法和標(biāo)記3部分組成。首先,使用特征提取器從數(shù)據(jù)集中提取特征,每個(gè)特征被數(shù)字化后由一個(gè)特征向量表示。然后,通過(guò)使用模糊C均值聚類算法對(duì)新的數(shù)據(jù)集進(jìn)行聚類,得出預(yù)先設(shè)定好的簇?cái)?shù),對(duì)模糊簇進(jìn)行標(biāo)記得出最終結(jié)果。
Figure 1 Framework of fuzzy C-means clustering
在惡意用戶行為自動(dòng)檢測(cè)方法中,可將定義特征的數(shù)據(jù)集類型分為基于元數(shù)據(jù)的特征、基于內(nèi)容的特征和基于社區(qū)交互的特征[3]。由于復(fù)雜的惡意用戶行為可以通過(guò)使用隨機(jī)數(shù)生成器算法輕松地避免基于元數(shù)據(jù)的特征,因此基于元數(shù)據(jù)的特征的區(qū)分效率較低,DFSA算法將對(duì)基于內(nèi)容和基于社區(qū)交互的特征進(jìn)行特征提取?,F(xiàn)有自動(dòng)檢測(cè)惡意用戶行為相關(guān)文獻(xiàn)中對(duì)多個(gè)具有識(shí)別能力的特征有明確的定義,其中包括唯一URL比率 (F1)[11]、唯一提及率(F2)[11]、標(biāo)簽比例(F3)[12]、提及率(F4)[11]、URL比率(F5)[13]、聲譽(yù)(F6)[11]、粉絲數(shù)比率(F7)[12]和聚類系數(shù)(F8)[13],在此基礎(chǔ)上本文又定義了4個(gè)基于社區(qū)交互的新特征,包含粉絲聲譽(yù)比(F9)、粉絲關(guān)注比(F10)、社區(qū)聲譽(yù)(F11)和社區(qū)聚類系數(shù)(F12)。下面詳細(xì)解釋這4個(gè)新特征:
(1)粉絲聲譽(yù)比(F9):用戶的聲譽(yù)通常不是他們自己的,而是從追隨他們的粉絲那里繼承的。通常用戶無(wú)法控制其粉絲,并且難以逃避和篡改基于粉絲的特征。用戶的聲譽(yù)與其粉絲的聲譽(yù)成正比,此特征反映了用戶粉絲的聲譽(yù)。用戶u的粉絲的聲譽(yù)為粉絲的聲譽(yù)總量與粉絲總量之比。
(2)粉絲關(guān)注比(F10):惡意用戶對(duì)每個(gè)請(qǐng)求都非常敏感,無(wú)論發(fā)件人的身份如何,他們都只是為了增加其關(guān)注者列表,而良性用戶則在響應(yīng)未知用戶的請(qǐng)求時(shí)會(huì)有意識(shí)地篩選。因此,為檢測(cè)用戶粉絲的連接行為,可根據(jù)用戶的粉絲模式來(lái)分析粉絲的關(guān)注者模式。用戶u的粉絲關(guān)注比為粉絲關(guān)注數(shù)的平均值與粉絲數(shù)之比。
(3)社區(qū)聲譽(yù)(F11):用戶的聲譽(yù)取決于與用戶相關(guān)聯(lián)的社區(qū)及其成員的聲譽(yù)。為了計(jì)算用戶u的F11值,首先從u的附近網(wǎng)絡(luò)中找到社區(qū);然后,計(jì)算每個(gè)社區(qū)的每個(gè)用戶的聲譽(yù);最終根據(jù)其成員的聲譽(yù)來(lái)計(jì)算每個(gè)社區(qū)的聲譽(yù)和。
(4)社區(qū)聚類系數(shù)(F12):此特征研究用戶社區(qū)成員之間的連接密度。用戶u的社區(qū)聚類系數(shù)為用戶所在的所有社區(qū)聚類系數(shù)的均值。
對(duì)用戶特征提取和數(shù)字化后,數(shù)據(jù)集中每個(gè)用戶可用如式(1)所示的特征向量來(lái)表示:
ui=〈F1,F2,…,F12〉
(1)
根據(jù)用戶的關(guān)注者和粉絲之間的聯(lián)系來(lái)考慮社區(qū)交互,本文使用一種快速社區(qū)檢測(cè)算法[14]來(lái)識(shí)別用戶交互網(wǎng)絡(luò)中的社區(qū)。圖2展示了一個(gè)用戶交互網(wǎng)絡(luò)的案例,圖2b為用戶A所連接的用戶及其與其他用戶連接形成的社區(qū),其中C1和C2表示可能存在的社區(qū)結(jié)構(gòu)。對(duì)于惡意用戶來(lái)說(shuō),由于粉絲和關(guān)注者的隨機(jī)性,交互網(wǎng)絡(luò)中的用戶幾乎相互不認(rèn)識(shí),從而導(dǎo)致形成的社區(qū)非常稀疏或沒(méi)有社區(qū)。因此,可以通過(guò)分析社區(qū)成員來(lái)分析用戶行為。
Figure 2 User interaction network
算法中使用的大多數(shù)符號(hào)總結(jié)如表1所示。
Table 1 Symbol list
令X={x1,…,xn}是d維空間中的數(shù)據(jù)集,F(xiàn)CM目標(biāo)函數(shù)定義如式(2)所示:
(2)
使其服從
其中μik∈[0,1],1≤i≤n,1≤k≤c。
加權(quán)指數(shù)1 (3) (4) 且滿足1≤i≤n。 FCM中所有的特征無(wú)論是否相關(guān),其權(quán)重大小都是相等的,所以容易導(dǎo)致聚類結(jié)果不正確,其缺陷可通過(guò)例1來(lái)解釋。 Figure 3 Clustering results 最后將2個(gè)簇分別標(biāo)記為惡意簇和良性簇??紤]已知的用戶行為特征分布情況[ 12,13],將對(duì)不同用戶行為區(qū)分度較大的特征F3和F7再次使用在此任務(wù)中。將以上特征平均值高的簇標(biāo)記為良性簇,另一個(gè)簇相應(yīng)地被標(biāo)記為惡意簇。 圖4所示是動(dòng)態(tài)特征選擇算法框架圖,由特征提取、DFSA算法和標(biāo)記3部分組成。首先,使用特征提取器從用戶數(shù)據(jù)集中提取12個(gè)特征,每個(gè)用戶特征被數(shù)字化后由一個(gè)特征向量表示;然后,使用動(dòng)態(tài)特征選擇算法對(duì)用戶特征向量數(shù)據(jù)集進(jìn)行聚類;最終得出2個(gè)簇,并分別標(biāo)記為良性簇和惡意簇。 Figure 4 Framework of DFSA algorithm 由于數(shù)據(jù)集可能包含一些冗余或不相關(guān)的特征,因此特征選擇在聚類算法中非常重要。本文提出了一種動(dòng)態(tài)特征選擇算法,利用特征加權(quán)熵進(jìn)行特征選擇,以改進(jìn)模糊C均值聚類算法。在此算法中,每個(gè)特性都有自己的權(quán)重,這些權(quán)重將在每次迭代時(shí)更新,并剔除權(quán)重小于閾值的特征,動(dòng)態(tài)選擇重要的特征分量。令X={x1,…,xn}為d維空間中的數(shù)據(jù)集,DFSA目標(biāo)函數(shù)如式(5)所示: (5) 使其服從 (6) 其中δj控制特征權(quán)重。 DFSA算法通過(guò)3個(gè)最小化步驟來(lái)求解。 (7) 對(duì)式(7)的μik求拉格朗日偏導(dǎo)數(shù)并使其值為0,可得出式(8): (8) 從更新的式(8),可求得μik如式(9)所示: (9) (10) 由式(10)可得vkj的更新如式(11)所示: (11) (12) 由式(12)可得ωj的更新如式(13)所示: (13) (14) 其中,dnew表示更新后得到的特征成員數(shù)。 衡量離散度的一個(gè)著名指標(biāo)是方差-均值比(VMR),其定義為VMR=σ2/μ,用于觀察離散或聚集的數(shù)據(jù)集。離散度越小,表示數(shù)據(jù)集離簇中心越近;離散度越大,表示數(shù)據(jù)集離簇中心越遠(yuǎn)。由于需要保留離散度小的特征,拋棄離散度大的特征,因此考慮VMR的倒數(shù),即均值-方差比(MVR)[16]。 將MVR應(yīng)用在本文算法中,因?yàn)樵贒FSA算法中特征j的(mean(x)/var(x))j可以表示數(shù)據(jù)集中簇之間的離散度。因此,使用(mean(x)/var(x))j作為δj的值,如式(15)所示: (15) DFSA算法流程如算法1所示: 算法1DFSA算法 輸入:固定ε>0,取簇?cái)?shù)c=2,初始化簇中心V(0),初始化特征權(quán)重W(0),W(0)=[ωj]1×d,X={x1,…,xn},j=1,…,d,ωj=1/d,且令t=0。 輸出:最佳聚類結(jié)果C*。 1:輸入數(shù)據(jù)集X,通過(guò)式(15)計(jì)算出δj; 2:輸入δj,V(t-1)和W(t-1),通過(guò)式(9)計(jì)算出隸屬函數(shù)U(t); 3:輸入U(xiǎn)(t),通過(guò)式(11)更新簇中心V(t); 4:輸入δj,U(t)和V(t),通過(guò)式(13)更新W(t); 5:forj≤ddo 6:dr=0; 8: 丟棄特征權(quán)重小于閾值的特征ωj; 9: 且設(shè)dr=dr+1; 10:end 11:end 12: 設(shè)共丟棄dr個(gè)特征,dnew=d-dr; 13: 根據(jù)式(14)調(diào)整W(t); 14:if|‖W(t)‖-‖W(t-1)‖|<εthenstop 15: 得出最佳聚類結(jié)果C*; 16:else 17: 令t=t+1,dnew=d返回第1步; DFSA算法首先固定ε和c的值,初始化簇中心V(0)和特征權(quán)重W(0),進(jìn)入第1次迭代計(jì)算,分別得出更新后的δj,U(t),V(t)和W(t)。然后判斷并丟棄權(quán)重小于閾值的特征,調(diào)整特征成員數(shù)得出新的W(t)值。最終判斷聚類結(jié)果是否達(dá)到最優(yōu),若達(dá)到則退出循環(huán)并輸出最佳聚類結(jié)果C*,否則開(kāi)始新的一次迭代計(jì)算過(guò)程。 為進(jìn)一步研究算法的計(jì)算復(fù)雜度,可將DFSA算法分為3個(gè)部分: (1)計(jì)算模糊隸屬度(μik)劃分需要O(nc2d); (2)更新簇中心(vk)需要O(nc); (3)更新特征權(quán)重wj需要O(ncd2)。 符號(hào)O(·)僅考慮函數(shù)增長(zhǎng)率的上限,則DFSA算法的總計(jì)算復(fù)雜度為O(nc2d+ncd2),其中n為數(shù)據(jù)點(diǎn)的個(gè)數(shù),c為簇?cái)?shù),d為數(shù)據(jù)點(diǎn)維數(shù)。 為測(cè)量聚類性能,本文選用Rand指數(shù)、Jaccard指數(shù)和歸一化互信息NMI(Normalized Mutual Information)作為評(píng)價(jià)指標(biāo),其定義如下所示: 設(shè)C是數(shù)據(jù)集中的原始簇,C*是通過(guò)聚類算法得到的簇集合。對(duì)于一對(duì)點(diǎn)(xi,xj),E表示2個(gè)點(diǎn)在C和C*中屬于相同簇的對(duì)數(shù);F表示2個(gè)點(diǎn)在C中屬于相同簇,而在C*中屬于不同簇的對(duì)數(shù);G表示2個(gè)點(diǎn)在C中屬于不同簇,而在C*中屬于相同簇的對(duì)數(shù);L表示2個(gè)點(diǎn)在C和C*中都屬于不同簇的對(duì)數(shù)。 (1)Rand指數(shù)RI(Rand Index)如式(16)所示: (16) (2)Jaccard指數(shù)JI(Jaccard Index)如式(17)所示: (17) (3)歸一化互信息(NMI)如式(18)所示: (18) 其中,H(X)是X的熵,I(X:Y)是H(X)和H(Y)之間的互信息量。 與類似論文一致,為了驗(yàn)證DFSA算法的有效性,本文選取通用數(shù)據(jù)集,即從微博的登錄服務(wù)器上收集到的真實(shí)登錄事件的數(shù)據(jù)集[17]。該數(shù)據(jù)集中有11 000個(gè)帶有標(biāo)簽的用戶,包含10 000個(gè)良性用戶和1 000個(gè)惡意用戶;還包含帶有標(biāo)簽用戶的關(guān)注者和粉絲列表及其用戶文件信息,如用戶名、位置和用戶ID;還包含微博和相關(guān)的詳細(xì)信息,如微博ID、創(chuàng)建時(shí)間和已標(biāo)記用戶的收藏計(jì)數(shù)等。 表2列出了數(shù)據(jù)集的簡(jiǎn)要統(tǒng)計(jì)信息,其中用戶總和包括標(biāo)記為良性用戶和惡意用戶的所有關(guān)注者和粉絲。在這個(gè)數(shù)據(jù)集中,大多數(shù)良性用戶沒(méi)有他們的粉絲者列表,因此他們基于社區(qū)交互的特征值為零,這將會(huì)導(dǎo)致算法在檢測(cè)時(shí)有所偏差。若只考慮有粉絲者列表的實(shí)例(218個(gè)良性用戶和1 000個(gè)惡意用戶),就會(huì)導(dǎo)致數(shù)據(jù)不平衡問(wèn)題。為了解決該問(wèn)題,本文使用合成少數(shù)過(guò)采樣技術(shù)SMOTE(Synthetic Minority Oversampling Technique)[18],以生成與數(shù)據(jù)集少數(shù)類相關(guān)的合成樣本。針對(duì)SMOTE中的樣本數(shù)據(jù)點(diǎn),將識(shí)別其相鄰數(shù)據(jù),并根據(jù)樣本點(diǎn)及其相鄰數(shù)據(jù)之間的差異生成合成樣本。通過(guò)SMOTE生成了782個(gè)良性類的實(shí)例來(lái)平衡數(shù)據(jù)集。在公有云平臺(tái)上使用具有2 GHz 64位QEMU(Quick EMUlator)虛擬CPU的虛擬主機(jī),并使用Networkx Python Library提取連接的組件。 Table 2 Data set statistics DFSA算法首先更新集群中心和成員矩陣,然后計(jì)算新的特征權(quán)值,并在聚類過(guò)程中丟棄權(quán)值較小的特征。選擇出高度關(guān)聯(lián)的特征后調(diào)整數(shù)據(jù)點(diǎn)和聚類中心,將新的特征權(quán)重、聚類中心和隸屬度矩陣代入算法第1步重新開(kāi)始計(jì)算,迭代過(guò)程一直持續(xù)到目標(biāo)函數(shù)最小化為止。 圖5顯示了DFSA算法迭代次數(shù)對(duì)應(yīng)的目標(biāo)函數(shù)值和迭代時(shí)間,目標(biāo)函數(shù)總共經(jīng)過(guò)12次迭代后收斂。經(jīng)過(guò)6次迭代后部分特征被丟棄,從那時(shí)起目標(biāo)函數(shù)收斂速度明顯加快。同時(shí),后幾次迭代的計(jì)算時(shí)間比前幾次迭代需要的時(shí)間更少。從第9次開(kāi)始,迭代所需的時(shí)間比第1次迭代減少了75%以上。這意味著經(jīng)過(guò)前幾次迭代后,由于部分不重要的特征被丟棄,使得計(jì)算時(shí)間會(huì)迅速減少。 Figure 5 DFSA objective function convergence and iteration time 圖6所示是DFSA算法每次迭代對(duì)應(yīng)RI、JI和NMI的變化情況。隨著迭代次數(shù)的增加,3個(gè)聚類性能指標(biāo)均在提高,且第9次迭代后的聚類性能相比第6次有明顯提高。 Figure 6 DFSA iterative calculation time 12個(gè)特征最初具有相同的權(quán)重,經(jīng)過(guò)6次迭代之后F1、F2、F4、F5和F65個(gè)特征權(quán)重低于閾值,在聚類過(guò)程中被丟棄,算法最終保留了其余7個(gè)重要的特征。特征權(quán)重的變化也說(shuō)明算法通過(guò)多次迭代后,因?yàn)樘卣鳒p少明顯加快了后幾次迭代計(jì)算的速度。 通過(guò)統(tǒng)計(jì)顯著性分析來(lái)驗(yàn)證算法所保留特征在用戶間的差異是否是隨機(jī)的,為了驗(yàn)證這個(gè)假設(shè),對(duì)4.1節(jié)討論的微博數(shù)據(jù)集[16]進(jìn)行雙邊Z檢驗(yàn)。在Z檢驗(yàn)中,原假設(shè)下檢驗(yàn)統(tǒng)計(jì)量服從正態(tài)分布,采用2種假設(shè)進(jìn)行評(píng)估,即原假設(shè)(H0:μ=μ0)和備擇假設(shè)(H1:μ≠μ0)。 在原假設(shè)中,假設(shè)惡意用戶和良性用戶之間定義的特征值的總體均值沒(méi)有顯著差異,而在備擇假設(shè)中,假設(shè)2種不同用戶特征值的均值存在顯著差異。計(jì)算被算法保留的7個(gè)特征檢驗(yàn)統(tǒng)計(jì)量,并與表3中在5%顯著性水平下的雙邊Z統(tǒng)計(jì)量臨界值(±1.96)進(jìn)行比較。分析中發(fā)現(xiàn),7個(gè)特征均拒絕原假設(shè),如表3所示,因此可以看出惡意用戶和良性用戶的這7個(gè)特征均值存在顯著差異。且從表3中可以看出,惡意用戶和良性用戶之間F7和F12的平均值差異最大。根據(jù)Zhang等人[3]對(duì)用戶行為特征累計(jì)分布的統(tǒng)計(jì)及以上的顯著性分析可以推斷,DFSA算法所選擇的特征對(duì)于分離不同用戶行為是重要的。 Table 3 Z-test statistics for selected features 將本文所提出的DFSA算法與SDAFS算法、ELAFC算法和NADMB算法進(jìn)行對(duì)比實(shí)驗(yàn),分別得出4種算法在不同迭代時(shí)間下的Rand指數(shù)(RI)、Jaccard指數(shù)(JI)和歸一化互信息(NMI)。 如圖7所示,4種算法的RI都隨著迭代次數(shù)的增加逐漸提高,直到最終收斂到最高值為止。DFSA算法的RI最高且收斂速度最快,SDAFS算法與ELAFC算法的RI相近,但ELAFC算法收斂速度更慢,而MADMB算法的RI最低且收斂速度也較慢。 Figure 7 RI changes with time of different algorithms 如圖8所示,DFSA算法的JI最高,ELAFC算法的JI次之,SDAFS算法的JI較低,而NADMB算法的JI最低。 Figure 8 JI changes with time of different algorithms 如圖9所示,仿真結(jié)果對(duì)比顯示DFSA算法的NMI值最高,ELAFC算法的NMI值次之,SDAFS算法的NMI值較低,NADMB算法的NMI值最低。 Figure 9 NMI changes with time of different algorithms 通過(guò)分析3個(gè)主要性能指標(biāo)隨時(shí)間變化情況可知,本文所提的DFSA算法相比SDAFS算法、ELAFC算法和NADMB算法的聚類性能更好,且迭代次數(shù)更少,收斂速度明顯更快。結(jié)合特征權(quán)重變化,DFSA算法剔除了冗余或不相關(guān)的特征,輸出了與用戶行為高度相關(guān)聯(lián)的簇。SDAFS算法和NADMB算法不涉及特征選擇,雖然具有較快的收斂速度,但冗余特征影響了聚類性能。而ELAFC算法計(jì)算了特征權(quán)重,一定程度上使聚類性能有所提升,但也導(dǎo)致了計(jì)算復(fù)雜度的增加,收斂速度變慢。 為了發(fā)現(xiàn)在線社交網(wǎng)絡(luò)中進(jìn)行復(fù)雜惡意活動(dòng)的惡意用戶簇,本文提出一種動(dòng)態(tài)特征選擇算法(DFSA)。不同于大多數(shù)的特征加權(quán)算法,該算法將動(dòng)態(tài)特征選擇模式嵌入到聚類過(guò)程中,在第1次迭代中所有的特征都會(huì)被使用,然后在每次迭代中更新特征權(quán)值,并用閾值剔除權(quán)值較小的特征,后續(xù)步驟中使用的特征數(shù)量將逐漸減少,動(dòng)態(tài)選擇出重要的特征分量,迭代地更新隸屬函數(shù)、集群中心和特征權(quán)重,直到優(yōu)化為止,最終識(shí)別出具有高聚類精度的惡意用戶簇。仿真結(jié)果表明,對(duì)比SDAFS算法、ELAFC算法和NADMB算法,DFSA算法在Rand指數(shù)(RI)、Jaccard指數(shù)(JI)和歸一化互信息量(NMI)3個(gè)主要性能指標(biāo)上均有改善。DFSA算法相比傳統(tǒng)算法的優(yōu)勢(shì)在于能動(dòng)態(tài)選擇重要的特征,不僅提高了收斂速度,而且通過(guò)剔除不相關(guān)的特征降低了特征維數(shù),提高了聚類精度。在未來(lái)的工作中,將考慮使用多個(gè)社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進(jìn)行更多測(cè)試,包括檢測(cè)算法在不同特征和不同數(shù)據(jù)集大小情況下的聚類性能,以及算法的魯棒性。2.3 模糊簇標(biāo)記
3 DFSA算法
3.1 DFSA算法介紹
3.2 算法流程
3.3 算法復(fù)雜度分析與評(píng)價(jià)指標(biāo)
4 仿真分析
4.1 數(shù)據(jù)集及仿真環(huán)境
4.2 算法目標(biāo)函數(shù)與收斂性分析
4.3 聚類精度及特征顯著性分析
4.4 算法聚類性能對(duì)比分析
5 結(jié)束語(yǔ)