動(dòng)態(tài)特征選擇算法對(duì)惡意行為檢測(cè)的優(yōu)化研究*

2022-04-21 04:43王梓宇

計(jì)算機(jī)工程與科學(xué) 2022年4期

劉云，肖添，王梓宇

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院，云南昆明 650500)

1 引言

在線社交網(wǎng)絡(luò)OSN(Online Social Net)擁有龐大的用戶群，吸引來(lái)自不同行業(yè)和年齡段的用戶。盡管大多數(shù)OSN主要用于各種良性用途，但其自身的開(kāi)放性、龐大的用戶群和消息實(shí)時(shí)擴(kuò)散使OSN成為網(wǎng)絡(luò)罪犯有利可圖的目標(biāo)。OSN已經(jīng)被證明是一種新的具有復(fù)雜攻擊和威脅的孵化器，例如網(wǎng)絡(luò)欺凌、傳播謠言、網(wǎng)絡(luò)詐騙、發(fā)送垃圾郵件和其他非法活動(dòng)[1]。如何自動(dòng)分析用戶行為特征以檢測(cè)出在線社交網(wǎng)絡(luò)中惡意用戶行為，成為一項(xiàng)重要而具有挑戰(zhàn)性的研究任務(wù)。

劉勘等人[2]提出基于隨機(jī)森林分類的惡意用戶檢測(cè)算法，從多維度分析惡意用戶的特征指標(biāo)，構(gòu)建對(duì)應(yīng)的特征向量，并用隨機(jī)森林算法設(shè)計(jì)惡意用戶識(shí)別模型。Zhang等人[3]通過(guò)研究用戶行為的各種區(qū)別屬性和特征，提出一個(gè)動(dòng)態(tài)的惡意用戶行為檢測(cè)框架，能自動(dòng)處理不斷變化的惡意用戶行為。

Zadeh[4]提出的模糊集，引入了隸屬函數(shù)和隸屬度的思想，并由Ruspini[5]成功地將其應(yīng)用于聚類中。在模糊聚類中，Dunn[6]提出的模糊C均值FCM(Fuzzy C-Means)算法是最著名的算法。模糊聚類在各種應(yīng)用中被認(rèn)為是一種非常強(qiáng)大的工具，已被廣泛應(yīng)用于各個(gè)領(lǐng)域，在基于用戶行為特征的惡意用戶行為檢測(cè)中也卓有成效。Do等人[7]提出了基于模糊集的惡意用戶檢測(cè)SDAFS(Spammer Detection Algorithm based on Fuzzy Set)算法，通過(guò)使用網(wǎng)絡(luò)方法檢測(cè)惡意用戶行為，然后利用FCM聚類算法找到用戶所屬聚類。Pinandito等人[8]提出基于模糊聚類的極限學(xué)習(xí)ELAFC(Extreme Learning Algorithm Based on Fuzzy Clustering)算法，通過(guò)分析用戶個(gè)人資料、活動(dòng)和相關(guān)文本等特征，采用具有特征加權(quán)的FCM聚類算法對(duì)用戶行為進(jìn)行聚類。Xu 等人[9]提出了一種基于網(wǎng)絡(luò)方法檢測(cè)惡意行為NADMB(Network-based Algorithm for Detecting Malicious Behavior)算法，該算法利用K-means聚類識(shí)別惡意群體。

但是，SDAFS算法由于使用模糊C均值聚類算法使得所有特征權(quán)重相同，影響了聚類精度。ELAFC算法雖然使用特征加權(quán)技術(shù)優(yōu)化了在多維特征下的聚類精度，但沒(méi)有考慮特征選擇，冗余特征依然會(huì)影響系統(tǒng)性能。而NADMB算法由于使用的特征較少，導(dǎo)致算法只能應(yīng)用于特定網(wǎng)絡(luò)。

本文在已有研究工作的基礎(chǔ)上，綜合考慮以上算法的優(yōu)缺點(diǎn)，提出一種動(dòng)態(tài)特征選擇算法DFSA(Dynamic Feature Selection Algorithm)。該算法使用具有特征加權(quán)熵的模糊C均值目標(biāo)函數(shù)，為參數(shù)構(gòu)建一個(gè)學(xué)習(xí)模式，通過(guò)多次迭代計(jì)算得出每個(gè)特征權(quán)重，剔除不相關(guān)或冗余的特征，對(duì)特征進(jìn)行動(dòng)態(tài)選擇，迭代地更新隸屬函數(shù)、簇中心和特征權(quán)重直到最優(yōu)化為止，最終識(shí)別出具有高精度的惡意簇。仿真結(jié)果表明，對(duì)比SDAFS算法、ELAFC算法和NADMB算法，本文提出的DFSA算法在Rand指數(shù)[10]、Jaccard指數(shù)[10]和歸一化互信息量3個(gè)主要性能指標(biāo)上均有改善。

2 聚類模型

2.1 模糊C均值聚類框架

圖1所示是典型的模糊C均值聚類框架圖，由特征提取、模糊C均值聚類算法和標(biāo)記3部分組成。首先，使用特征提取器從數(shù)據(jù)集中提取特征，每個(gè)特征被數(shù)字化后由一個(gè)特征向量表示。然后，通過(guò)使用模糊C均值聚類算法對(duì)新的數(shù)據(jù)集進(jìn)行聚類，得出預(yù)先設(shè)定好的簇?cái)?shù)，對(duì)模糊簇進(jìn)行標(biāo)記得出最終結(jié)果。

Figure 1 Framework of fuzzy C-means clustering

在惡意用戶行為自動(dòng)檢測(cè)方法中，可將定義特征的數(shù)據(jù)集類型分為基于元數(shù)據(jù)的特征、基于內(nèi)容的特征和基于社區(qū)交互的特征[3]。由于復(fù)雜的惡意用戶行為可以通過(guò)使用隨機(jī)數(shù)生成器算法輕松地避免基于元數(shù)據(jù)的特征，因此基于元數(shù)據(jù)的特征的區(qū)分效率較低，DFSA算法將對(duì)基于內(nèi)容和基于社區(qū)交互的特征進(jìn)行特征提取?，F(xiàn)有自動(dòng)檢測(cè)惡意用戶行為相關(guān)文獻(xiàn)中對(duì)多個(gè)具有識(shí)別能力的特征有明確的定義，其中包括唯一URL比率 (F1)[11]、唯一提及率(F2)[11]、標(biāo)簽比例(F3)[12]、提及率(F4)[11]、URL比率(F5)[13]、聲譽(yù)(F6)[11]、粉絲數(shù)比率(F7)[12]和聚類系數(shù)(F8)[13]，在此基礎(chǔ)上本文又定義了4個(gè)基于社區(qū)交互的新特征,包含粉絲聲譽(yù)比(F9)、粉絲關(guān)注比(F10)、社區(qū)聲譽(yù)(F11)和社區(qū)聚類系數(shù)(F12)。下面詳細(xì)解釋這4個(gè)新特征：

(1)粉絲聲譽(yù)比(F9)：用戶的聲譽(yù)通常不是他們自己的，而是從追隨他們的粉絲那里繼承的。通常用戶無(wú)法控制其粉絲，并且難以逃避和篡改基于粉絲的特征。用戶的聲譽(yù)與其粉絲的聲譽(yù)成正比，此特征反映了用戶粉絲的聲譽(yù)。用戶u的粉絲的聲譽(yù)為粉絲的聲譽(yù)總量與粉絲總量之比。

(2)粉絲關(guān)注比(F10)：惡意用戶對(duì)每個(gè)請(qǐng)求都非常敏感，無(wú)論發(fā)件人的身份如何，他們都只是為了增加其關(guān)注者列表，而良性用戶則在響應(yīng)未知用戶的請(qǐng)求時(shí)會(huì)有意識(shí)地篩選。因此，為檢測(cè)用戶粉絲的連接行為，可根據(jù)用戶的粉絲模式來(lái)分析粉絲的關(guān)注者模式。用戶u的粉絲關(guān)注比為粉絲關(guān)注數(shù)的平均值與粉絲數(shù)之比。

(3)社區(qū)聲譽(yù)(F11)：用戶的聲譽(yù)取決于與用戶相關(guān)聯(lián)的社區(qū)及其成員的聲譽(yù)。為了計(jì)算用戶u的F11值，首先從u的附近網(wǎng)絡(luò)中找到社區(qū);然后，計(jì)算每個(gè)社區(qū)的每個(gè)用戶的聲譽(yù);最終根據(jù)其成員的聲譽(yù)來(lái)計(jì)算每個(gè)社區(qū)的聲譽(yù)和。

(4)社區(qū)聚類系數(shù)(F12)：此特征研究用戶社區(qū)成員之間的連接密度。用戶u的社區(qū)聚類系數(shù)為用戶所在的所有社區(qū)聚類系數(shù)的均值。

對(duì)用戶特征提取和數(shù)字化后，數(shù)據(jù)集中每個(gè)用戶可用如式(1)所示的特征向量來(lái)表示:

ui=〈F1,F2,…,F12〉

(1)

根據(jù)用戶的關(guān)注者和粉絲之間的聯(lián)系來(lái)考慮社區(qū)交互，本文使用一種快速社區(qū)檢測(cè)算法[14]來(lái)識(shí)別用戶交互網(wǎng)絡(luò)中的社區(qū)。圖2展示了一個(gè)用戶交互網(wǎng)絡(luò)的案例，圖2b為用戶A所連接的用戶及其與其他用戶連接形成的社區(qū)，其中C1和C2表示可能存在的社區(qū)結(jié)構(gòu)。對(duì)于惡意用戶來(lái)說(shuō)，由于粉絲和關(guān)注者的隨機(jī)性，交互網(wǎng)絡(luò)中的用戶幾乎相互不認(rèn)識(shí)，從而導(dǎo)致形成的社區(qū)非常稀疏或沒(méi)有社區(qū)。因此，可以通過(guò)分析社區(qū)成員來(lái)分析用戶行為。

Figure 2 User interaction network

2.2 模糊C均值聚類算法

算法中使用的大多數(shù)符號(hào)總結(jié)如表1所示。

Table 1 Symbol list

令X={x1,…,xn}是d維空間中的數(shù)據(jù)集，F(xiàn)CM目標(biāo)函數(shù)定義如式(2)所示：

(2)

使其服從

其中μik∈[0,1],1≤i≤n,1≤k≤c。

加權(quán)指數(shù)1

(3)

(4)

且滿足1≤i≤n。

FCM中所有的特征無(wú)論是否相關(guān)，其權(quán)重大小都是相等的，所以容易導(dǎo)致聚類結(jié)果不正確，其缺陷可通過(guò)例1來(lái)解釋。

Figure 3 Clustering results

2.3 模糊簇標(biāo)記

最后將2個(gè)簇分別標(biāo)記為惡意簇和良性簇?？紤]已知的用戶行為特征分布情況[ 12,13]，將對(duì)不同用戶行為區(qū)分度較大的特征F3和F7再次使用在此任務(wù)中。將以上特征平均值高的簇標(biāo)記為良性簇，另一個(gè)簇相應(yīng)地被標(biāo)記為惡意簇。

3 DFSA算法

3.1 DFSA算法介紹

圖4所示是動(dòng)態(tài)特征選擇算法框架圖，由特征提取、DFSA算法和標(biāo)記3部分組成。首先，使用特征提取器從用戶數(shù)據(jù)集中提取12個(gè)特征，每個(gè)用戶特征被數(shù)字化后由一個(gè)特征向量表示；然后，使用動(dòng)態(tài)特征選擇算法對(duì)用戶特征向量數(shù)據(jù)集進(jìn)行聚類；最終得出2個(gè)簇，并分別標(biāo)記為良性簇和惡意簇。

Figure 4 Framework of DFSA algorithm

由于數(shù)據(jù)集可能包含一些冗余或不相關(guān)的特征，因此特征選擇在聚類算法中非常重要。本文提出了一種動(dòng)態(tài)特征選擇算法，利用特征加權(quán)熵進(jìn)行特征選擇，以改進(jìn)模糊C均值聚類算法。在此算法中，每個(gè)特性都有自己的權(quán)重，這些權(quán)重將在每次迭代時(shí)更新，并剔除權(quán)重小于閾值的特征，動(dòng)態(tài)選擇重要的特征分量。令X={x1,…,xn}為d維空間中的數(shù)據(jù)集，DFSA目標(biāo)函數(shù)如式(5)所示:

(5)

使其服從

(6)

其中δj控制特征權(quán)重。

DFSA算法通過(guò)3個(gè)最小化步驟來(lái)求解。

(7)

對(duì)式(7)的μik求拉格朗日偏導(dǎo)數(shù)并使其值為0，可得出式(8):

(8)

從更新的式(8),可求得μik如式(9)所示：

(9)

(10)

由式(10)可得vkj的更新如式(11)所示:

(11)

(12)

由式(12)可得ωj的更新如式(13)所示:

(13)

(14)

其中，dnew表示更新后得到的特征成員數(shù)。

衡量離散度的一個(gè)著名指標(biāo)是方差-均值比(VMR)，其定義為VMR=σ2/μ，用于觀察離散或聚集的數(shù)據(jù)集。離散度越小，表示數(shù)據(jù)集離簇中心越近;離散度越大，表示數(shù)據(jù)集離簇中心越遠(yuǎn)。由于需要保留離散度小的特征，拋棄離散度大的特征，因此考慮VMR的倒數(shù)，即均值-方差比(MVR)[16]。

將MVR應(yīng)用在本文算法中，因?yàn)樵贒FSA算法中特征j的(mean(x)/var(x))j可以表示數(shù)據(jù)集中簇之間的離散度。因此,使用(mean(x)/var(x))j作為δj的值,如式(15)所示：

(15)

3.2 算法流程

DFSA算法流程如算法1所示:

算法1DFSA算法

輸入：固定ε>0，取簇?cái)?shù)c=2，初始化簇中心V(0)，初始化特征權(quán)重W(0)，W(0)=[ωj]1×d，X={x1,…,xn},j=1,…,d，ωj=1/d，且令t=0。

輸出：最佳聚類結(jié)果C*。

1：輸入數(shù)據(jù)集X，通過(guò)式(15)計(jì)算出δj；

2：輸入δj,V(t-1)和W(t-1)，通過(guò)式(9)計(jì)算出隸屬函數(shù)U(t)；

3：輸入U(xiǎn)(t)，通過(guò)式(11)更新簇中心V(t)；

4：輸入δj，U(t)和V(t)，通過(guò)式(13)更新W(t)；

5：forj≤ddo

6：dr=0;

8：丟棄特征權(quán)重小于閾值的特征ωj；

9：且設(shè)dr=dr+1；

10：end

11：end

12：設(shè)共丟棄dr個(gè)特征，dnew=d-dr；

13：根據(jù)式(14)調(diào)整W(t)；

14：if|‖W(t)‖-‖W(t-1)‖|<εthenstop

15：得出最佳聚類結(jié)果C*；

16：else

17：令t=t+1，dnew=d返回第1步；

DFSA算法首先固定ε和c的值，初始化簇中心V(0)和特征權(quán)重W(0)，進(jìn)入第1次迭代計(jì)算，分別得出更新后的δj，U(t),V(t)和W(t)。然后判斷并丟棄權(quán)重小于閾值的特征，調(diào)整特征成員數(shù)得出新的W(t)值。最終判斷聚類結(jié)果是否達(dá)到最優(yōu)，若達(dá)到則退出循環(huán)并輸出最佳聚類結(jié)果C*，否則開(kāi)始新的一次迭代計(jì)算過(guò)程。

3.3 算法復(fù)雜度分析與評(píng)價(jià)指標(biāo)

為進(jìn)一步研究算法的計(jì)算復(fù)雜度，可將DFSA算法分為3個(gè)部分:

(1)計(jì)算模糊隸屬度(μik)劃分需要O(nc2d)；

(2)更新簇中心(vk)需要O(nc)；

(3)更新特征權(quán)重wj需要O(ncd2)。

符號(hào)O(·)僅考慮函數(shù)增長(zhǎng)率的上限，則DFSA算法的總計(jì)算復(fù)雜度為O(nc2d+ncd2),其中n為數(shù)據(jù)點(diǎn)的個(gè)數(shù)，c為簇?cái)?shù)，d為數(shù)據(jù)點(diǎn)維數(shù)。

為測(cè)量聚類性能，本文選用Rand指數(shù)、Jaccard指數(shù)和歸一化互信息NMI(Normalized Mutual Information)作為評(píng)價(jià)指標(biāo)，其定義如下所示：

設(shè)C是數(shù)據(jù)集中的原始簇，C*是通過(guò)聚類算法得到的簇集合。對(duì)于一對(duì)點(diǎn)(xi,xj)，E表示2個(gè)點(diǎn)在C和C*中屬于相同簇的對(duì)數(shù);F表示2個(gè)點(diǎn)在C中屬于相同簇，而在C*中屬于不同簇的對(duì)數(shù)；G表示2個(gè)點(diǎn)在C中屬于不同簇，而在C*中屬于相同簇的對(duì)數(shù)；L表示2個(gè)點(diǎn)在C和C*中都屬于不同簇的對(duì)數(shù)。

(1)Rand指數(shù)RI(Rand Index)如式(16)所示：

(16)

(2)Jaccard指數(shù)JI(Jaccard Index)如式(17)所示：

(17)

(3)歸一化互信息(NMI)如式(18)所示：

(18)

其中,H(X)是X的熵，I(X:Y)是H(X)和H(Y)之間的互信息量。

4 仿真分析

4.1 數(shù)據(jù)集及仿真環(huán)境

與類似論文一致，為了驗(yàn)證DFSA算法的有效性，本文選取通用數(shù)據(jù)集，即從微博的登錄服務(wù)器上收集到的真實(shí)登錄事件的數(shù)據(jù)集[17]。該數(shù)據(jù)集中有11 000個(gè)帶有標(biāo)簽的用戶，包含10 000個(gè)良性用戶和1 000個(gè)惡意用戶;還包含帶有標(biāo)簽用戶的關(guān)注者和粉絲列表及其用戶文件信息，如用戶名、位置和用戶ID;還包含微博和相關(guān)的詳細(xì)信息，如微博ID、創(chuàng)建時(shí)間和已標(biāo)記用戶的收藏計(jì)數(shù)等。

表2列出了數(shù)據(jù)集的簡(jiǎn)要統(tǒng)計(jì)信息，其中用戶總和包括標(biāo)記為良性用戶和惡意用戶的所有關(guān)注者和粉絲。在這個(gè)數(shù)據(jù)集中，大多數(shù)良性用戶沒(méi)有他們的粉絲者列表，因此他們基于社區(qū)交互的特征值為零，這將會(huì)導(dǎo)致算法在檢測(cè)時(shí)有所偏差。若只考慮有粉絲者列表的實(shí)例(218個(gè)良性用戶和1 000個(gè)惡意用戶)，就會(huì)導(dǎo)致數(shù)據(jù)不平衡問(wèn)題。為了解決該問(wèn)題，本文使用合成少數(shù)過(guò)采樣技術(shù)SMOTE(Synthetic Minority Oversampling Technique)[18]，以生成與數(shù)據(jù)集少數(shù)類相關(guān)的合成樣本。針對(duì)SMOTE中的樣本數(shù)據(jù)點(diǎn)，將識(shí)別其相鄰數(shù)據(jù)，并根據(jù)樣本點(diǎn)及其相鄰數(shù)據(jù)之間的差異生成合成樣本。通過(guò)SMOTE生成了782個(gè)良性類的實(shí)例來(lái)平衡數(shù)據(jù)集。在公有云平臺(tái)上使用具有2 GHz 64位QEMU(Quick EMUlator)虛擬CPU的虛擬主機(jī)，并使用Networkx Python Library提取連接的組件。

Table 2 Data set statistics

4.2 算法目標(biāo)函數(shù)與收斂性分析

DFSA算法首先更新集群中心和成員矩陣，然后計(jì)算新的特征權(quán)值，并在聚類過(guò)程中丟棄權(quán)值較小的特征。選擇出高度關(guān)聯(lián)的特征后調(diào)整數(shù)據(jù)點(diǎn)和聚類中心，將新的特征權(quán)重、聚類中心和隸屬度矩陣代入算法第1步重新開(kāi)始計(jì)算，迭代過(guò)程一直持續(xù)到目標(biāo)函數(shù)最小化為止。

圖5顯示了DFSA算法迭代次數(shù)對(duì)應(yīng)的目標(biāo)函數(shù)值和迭代時(shí)間，目標(biāo)函數(shù)總共經(jīng)過(guò)12次迭代后收斂。經(jīng)過(guò)6次迭代后部分特征被丟棄，從那時(shí)起目標(biāo)函數(shù)收斂速度明顯加快。同時(shí)，后幾次迭代的計(jì)算時(shí)間比前幾次迭代需要的時(shí)間更少。從第9次開(kāi)始，迭代所需的時(shí)間比第1次迭代減少了75%以上。這意味著經(jīng)過(guò)前幾次迭代后，由于部分不重要的特征被丟棄，使得計(jì)算時(shí)間會(huì)迅速減少。

Figure 5 DFSA objective function convergence and iteration time

4.3 聚類精度及特征顯著性分析

圖6所示是DFSA算法每次迭代對(duì)應(yīng)RI、JI和NMI的變化情況。隨著迭代次數(shù)的增加，3個(gè)聚類性能指標(biāo)均在提高，且第9次迭代后的聚類性能相比第6次有明顯提高。

Figure 6 DFSA iterative calculation time

12個(gè)特征最初具有相同的權(quán)重，經(jīng)過(guò)6次迭代之后F1、F2、F4、F5和F65個(gè)特征權(quán)重低于閾值，在聚類過(guò)程中被丟棄，算法最終保留了其余7個(gè)重要的特征。特征權(quán)重的變化也說(shuō)明算法通過(guò)多次迭代后，因?yàn)樘卣鳒p少明顯加快了后幾次迭代計(jì)算的速度。

通過(guò)統(tǒng)計(jì)顯著性分析來(lái)驗(yàn)證算法所保留特征在用戶間的差異是否是隨機(jī)的，為了驗(yàn)證這個(gè)假設(shè)，對(duì)4.1節(jié)討論的微博數(shù)據(jù)集[16]進(jìn)行雙邊Z檢驗(yàn)。在Z檢驗(yàn)中，原假設(shè)下檢驗(yàn)統(tǒng)計(jì)量服從正態(tài)分布，采用2種假設(shè)進(jìn)行評(píng)估，即原假設(shè)(H0:μ=μ0)和備擇假設(shè)(H1:μ≠μ0)。

在原假設(shè)中，假設(shè)惡意用戶和良性用戶之間定義的特征值的總體均值沒(méi)有顯著差異，而在備擇假設(shè)中，假設(shè)2種不同用戶特征值的均值存在顯著差異。計(jì)算被算法保留的7個(gè)特征檢驗(yàn)統(tǒng)計(jì)量，并與表3中在5%顯著性水平下的雙邊Z統(tǒng)計(jì)量臨界值(±1.96)進(jìn)行比較。分析中發(fā)現(xiàn)，7個(gè)特征均拒絕原假設(shè)，如表3所示，因此可以看出惡意用戶和良性用戶的這7個(gè)特征均值存在顯著差異。且從表3中可以看出，惡意用戶和良性用戶之間F7和F12的平均值差異最大。根據(jù)Zhang等人[3]對(duì)用戶行為特征累計(jì)分布的統(tǒng)計(jì)及以上的顯著性分析可以推斷，DFSA算法所選擇的特征對(duì)于分離不同用戶行為是重要的。

Table 3 Z-test statistics for selected features

4.4 算法聚類性能對(duì)比分析

將本文所提出的DFSA算法與SDAFS算法、ELAFC算法和NADMB算法進(jìn)行對(duì)比實(shí)驗(yàn)，分別得出4種算法在不同迭代時(shí)間下的Rand指數(shù)(RI)、Jaccard指數(shù)(JI)和歸一化互信息(NMI)。

如圖7所示，4種算法的RI都隨著迭代次數(shù)的增加逐漸提高，直到最終收斂到最高值為止。DFSA算法的RI最高且收斂速度最快，SDAFS算法與ELAFC算法的RI相近，但ELAFC算法收斂速度更慢，而MADMB算法的RI最低且收斂速度也較慢。

Figure 7 RI changes with time of different algorithms

如圖8所示，DFSA算法的JI最高，ELAFC算法的JI次之，SDAFS算法的JI較低，而NADMB算法的JI最低。

Figure 8 JI changes with time of different algorithms

如圖9所示，仿真結(jié)果對(duì)比顯示DFSA算法的NMI值最高，ELAFC算法的NMI值次之，SDAFS算法的NMI值較低，NADMB算法的NMI值最低。

Figure 9 NMI changes with time of different algorithms

通過(guò)分析3個(gè)主要性能指標(biāo)隨時(shí)間變化情況可知，本文所提的DFSA算法相比SDAFS算法、ELAFC算法和NADMB算法的聚類性能更好，且迭代次數(shù)更少，收斂速度明顯更快。結(jié)合特征權(quán)重變化，DFSA算法剔除了冗余或不相關(guān)的特征，輸出了與用戶行為高度相關(guān)聯(lián)的簇。SDAFS算法和NADMB算法不涉及特征選擇，雖然具有較快的收斂速度，但冗余特征影響了聚類性能。而ELAFC算法計(jì)算了特征權(quán)重，一定程度上使聚類性能有所提升，但也導(dǎo)致了計(jì)算復(fù)雜度的增加，收斂速度變慢。

5 結(jié)束語(yǔ)

為了發(fā)現(xiàn)在線社交網(wǎng)絡(luò)中進(jìn)行復(fù)雜惡意活動(dòng)的惡意用戶簇，本文提出一種動(dòng)態(tài)特征選擇算法(DFSA)。不同于大多數(shù)的特征加權(quán)算法，該算法將動(dòng)態(tài)特征選擇模式嵌入到聚類過(guò)程中，在第1次迭代中所有的特征都會(huì)被使用，然后在每次迭代中更新特征權(quán)值，并用閾值剔除權(quán)值較小的特征，后續(xù)步驟中使用的特征數(shù)量將逐漸減少，動(dòng)態(tài)選擇出重要的特征分量，迭代地更新隸屬函數(shù)、集群中心和特征權(quán)重，直到優(yōu)化為止，最終識(shí)別出具有高聚類精度的惡意用戶簇。仿真結(jié)果表明，對(duì)比SDAFS算法、ELAFC算法和NADMB算法，DFSA算法在Rand指數(shù)(RI)、Jaccard指數(shù)(JI)和歸一化互信息量(NMI)3個(gè)主要性能指標(biāo)上均有改善。DFSA算法相比傳統(tǒng)算法的優(yōu)勢(shì)在于能動(dòng)態(tài)選擇重要的特征，不僅提高了收斂速度，而且通過(guò)剔除不相關(guān)的特征降低了特征維數(shù)，提高了聚類精度。在未來(lái)的工作中，將考慮使用多個(gè)社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進(jìn)行更多測(cè)試，包括檢測(cè)算法在不同特征和不同數(shù)據(jù)集大小情況下的聚類性能，以及算法的魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡