王喆 宋曉峰 王玉芳
摘要:針對(duì)傳統(tǒng)聚類(lèi)方法動(dòng)態(tài)聚類(lèi)效果差、耗時(shí)長(zhǎng)的問(wèn)題,提出了一種基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)動(dòng)態(tài)聚類(lèi)方法。通過(guò)對(duì)網(wǎng)絡(luò)數(shù)據(jù)屬性的分析,建立關(guān)聯(lián)規(guī)則,并在此基礎(chǔ)上確定網(wǎng)絡(luò)數(shù)據(jù)的值函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的動(dòng)態(tài)聚類(lèi)。實(shí)驗(yàn)表明,該方法在改善聚類(lèi)效果方面具有一定的優(yōu)勢(shì)。
關(guān)鍵詞: 網(wǎng)絡(luò)數(shù)據(jù);動(dòng)態(tài)聚類(lèi);關(guān)聯(lián)規(guī)則
中圖分類(lèi)號(hào):TP391 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)32-0051-02
隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和網(wǎng)絡(luò)數(shù)據(jù)的激增,網(wǎng)絡(luò)數(shù)據(jù)的碎片化和高度非結(jié)構(gòu)化給網(wǎng)絡(luò)數(shù)據(jù)的挖掘和聚類(lèi)帶來(lái)了挑戰(zhàn),使其成為近年來(lái)學(xué)術(shù)界研究的熱點(diǎn)。例如,用戶(hù)瀏覽網(wǎng)站后留下的各種各樣的信息和數(shù)據(jù),使得網(wǎng)絡(luò)數(shù)據(jù)迅速膨脹,在由此形成的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,可以實(shí)時(shí)分析挖掘出用戶(hù)的個(gè)性化需求和興趣,以及用戶(hù)的職業(yè)、年齡、教育背景、地域等信息,對(duì)這些信息進(jìn)行聚類(lèi)分析,可以獲得網(wǎng)絡(luò)輿論和用戶(hù)態(tài)度等統(tǒng)計(jì)數(shù)據(jù)。但是,傳統(tǒng)聚類(lèi)方法動(dòng)態(tài)聚類(lèi)效果差、耗時(shí)長(zhǎng),為此,本文提出了一種基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)動(dòng)態(tài)聚類(lèi)方法,利用網(wǎng)絡(luò)數(shù)據(jù)屬性進(jìn)行關(guān)聯(lián)分析,確定網(wǎng)絡(luò)數(shù)據(jù)的值函數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的動(dòng)態(tài)聚類(lèi)。實(shí)驗(yàn)表明,該方法可有效改善聚類(lèi)效果。
1 網(wǎng)絡(luò)數(shù)據(jù)屬性
當(dāng)通用告警轉(zhuǎn)換為模糊告警的時(shí)候,模糊告警項(xiàng)的模糊支持度[X]定義為:
[fsupportX=1ni=1nj=1,k∈Fxjmμfiksij] ? ? ? ? ? ? ? ? ?(1)
其中:[n]為事件數(shù)量,[m]為集合X的元素個(gè)數(shù),表[μfiksij]顯示了告警[j]與[X]關(guān)于模糊集[k]經(jīng)過(guò)[i]轉(zhuǎn)換之后的關(guān)系。如果給定兩個(gè)集合[X=x1,x2,...,xp]和[Y=y1,y2,...,yq],支持度和可信度的轉(zhuǎn)換關(guān)系[X?Y]定義如下;
[fsupportX?Y=1ni=1nj=1,k∈Fxjpμfjksij∧j=1,k∈Fyjqμfjksij] ? ? (2)
[fconfidenceX?Y=fsupportX?YfsupportXY] ? ? ? ? ? ? ? ? (3)
通過(guò)在模糊集中引入模糊關(guān)系度,加入模糊頻率集的特征以滿(mǎn)足向下封閉規(guī)則,也就是模糊頻率集的子集必須具有模糊頻率特性。
[I=i1,i2,...,im]表示模糊告警數(shù)據(jù)庫(kù)中的所有告警集,[S]為一個(gè)[k-]項(xiàng)目集[(k [FS,n=ij∈Sμj+j=1n-kμij] ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4) 其中,[ij∈Suj]表示項(xiàng)目集[S]中的[k]個(gè)模糊關(guān)系度之和,[j=1n-kμij]表示除去[S]后的具有最大關(guān)系度的前[n-k]個(gè)早期告警的模糊關(guān)系度之和。根據(jù)最小模糊支持度,支持[n-]項(xiàng)目集S的頻率項(xiàng)的數(shù)量不能太低: [CS,n=fminsup×TFS,n] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5) 其中,[fminsup]表示所有支持k-項(xiàng)目集s的閾值的最小值。 因此,在聚類(lèi)過(guò)程中,必須根據(jù)網(wǎng)絡(luò)數(shù)據(jù)的屬性分別進(jìn)行處理。成員是這種屬性的函數(shù)關(guān)聯(lián)關(guān)系。通過(guò)上面的分析,成員表達(dá)式可修改為如下形式: [u*ik=uikpik] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(6) 其中,[uik]是成員函數(shù),[pik]是網(wǎng)絡(luò)數(shù)據(jù)屬性對(duì)成員函數(shù)的貢獻(xiàn)。 2 動(dòng)態(tài)聚類(lèi)分析 2.1關(guān)聯(lián)規(guī)則 在網(wǎng)絡(luò)數(shù)據(jù)之間存在許多未知的關(guān)聯(lián),關(guān)聯(lián)分析可以獲得很多有價(jià)值的結(jié)果。 (1)事件及項(xiàng)目集合:分別用[D]和[I]表示,此處[D=d1,d2,...,dx,...dn],[I=i1,i2,...,iy,...in]。 (2)項(xiàng)目集:一個(gè)條目集是所有條目集合的任意子集。[k]表示任意條目集中的條目數(shù)量,則該條目集為[k]條目的集合。若包含在每個(gè)事件中的條目集是[I]的子集,那么: [dx=i1,i2,...,ik,1≤k≤m] (3)支持:表示在[D]中[X]和[Y]共存的概率。當(dāng)D中項(xiàng)目集[X]存在的概率大于集合支持閾值,意味著[X]是一個(gè)高頻率項(xiàng)目集。這種情況下,支持閾值就是最小支持。[k]頻率項(xiàng)目集可利用[Lk]來(lái)描述。 (4)可信度:當(dāng)[D]中共存項(xiàng)目集[X]和[Y]時(shí),表明[D]中[Y]的頻度包含了[X]的頻度。在計(jì)算可信度的過(guò)程中,通常采用最小值作為可信度的預(yù)設(shè)值,也稱(chēng)為最小可信度。 (5)關(guān)聯(lián)規(guī)則:可通過(guò)邏輯表達(dá)式[X→Y]來(lái)描述,[X]和[Y]為中所有項(xiàng)目的集合,其中[X?Y=Φ]。[X→Y]的強(qiáng)度可通過(guò)支持和[X→Y]的可信度來(lái)描述。 2.2 值函數(shù) 假定仿真控制的有限狀態(tài)為: [Z=T,I,O,μ,η] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7) 其中:[T]表示狀態(tài)集;[I]和[O]分別表示輸入和輸出集;[μ]和[η]分別表示狀態(tài)轉(zhuǎn)換函數(shù)和輸出轉(zhuǎn)換函數(shù)。 假設(shè)節(jié)點(diǎn)[i]的狀態(tài)變量為[si],當(dāng)節(jié)點(diǎn)與其相鄰節(jié)點(diǎn)通信時(shí),[si]表示在多場(chǎng)景交互處理中的各種物理量。當(dāng)所有節(jié)點(diǎn)的狀態(tài)變量都一致的時(shí)候,該模型就達(dá)到了一致收斂。下面為連續(xù)時(shí)間一致性算法公式: [sit=-j∈Nnθijsit-sjt] ? ? ? ? ? ? ? ? ? ? ? ? ?(8) 在公式中,[n]表示模型中迭代的次數(shù);[θij]表示在節(jié)點(diǎn)連接仿真結(jié)構(gòu)圖中的鄰接矩陣中所有數(shù)據(jù)對(duì)應(yīng)的元素。對(duì)于任意特征J,由于其在數(shù)據(jù)表示中具有不同的意義,他具有不同的權(quán)值[wj]。矢量模型的基本思想通過(guò)矢量[W1,W2,W3,...,Wn]來(lái)表示。有許多算法可用于計(jì)算權(quán)值[wj],通常用[TF-IDF]公式計(jì)算: [wj=kfk,d×log2Nnjk∈d1+log2kfk,d×Nnk] ? ? ? ? ? ? ? ? ? ? ? ?(9) 其中,[nj]為網(wǎng)絡(luò)數(shù)據(jù)特征項(xiàng)的權(quán)值,[nk]為網(wǎng)絡(luò)數(shù)據(jù)特征項(xiàng)目的個(gè)數(shù),N為網(wǎng)絡(luò)數(shù)據(jù)特征總數(shù),[kfk,d]為相同網(wǎng)絡(luò)數(shù)據(jù)同時(shí)存在的特征的數(shù)量。網(wǎng)絡(luò)數(shù)據(jù)特征的相似性[x]和[y]可通過(guò)以下公式計(jì)算: [Simx,y=x·yxy] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (10) 其中:[x]為網(wǎng)絡(luò)數(shù)據(jù)特征[x]的屬性矢量,[y]為網(wǎng)絡(luò)數(shù)據(jù)特征[y]的屬性矢量,[xy]為屬性矢量單元,[·]為點(diǎn)積。 基于時(shí)間抽樣的序列可以相等的時(shí)間間隔記錄網(wǎng)絡(luò)數(shù)據(jù)特征存儲(chǔ)的位置: [T=e1,y1,t1,...,...,ei,yi,ti,...,...,en,yn,tn,...ti=t1+(i-1)Δt] ? ? ? ? ? ? ?(11) 其中[ei,yi1≤i≤n]為在[ti]時(shí)刻網(wǎng)絡(luò)數(shù)據(jù)對(duì)象的空間位置,[Δt]為網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)的時(shí)間間隔,兩個(gè)存儲(chǔ)空間[Ti]和[Tj]的間隔計(jì)算公式為: [DTWTi,Tj=0m=0∧n=0dispi1,pj1+DTWRtm≠0∧n≠0∞m=0∨n=0] ? ? (12) 其中,[m]和[n]分別為網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)空間[Ti]和[Tj]包含的網(wǎng)絡(luò)數(shù)據(jù)的數(shù)量;[dispi1,pj1]為[Ti]和[Tj]的第一個(gè)點(diǎn)之間的歐拉距離;[Rt]為網(wǎng)絡(luò)數(shù)據(jù)特征存儲(chǔ)的第一個(gè)點(diǎn)之后的剩余時(shí)間。 在分類(lèi)之前,需要定義一個(gè)值函數(shù)用于確定當(dāng)分類(lèi)算法的停止點(diǎn)。以傳統(tǒng)分類(lèi)算法定義的值函數(shù)如下: [V=j=1cVj=j=1cxi∈gjcdisxi,cj] ? ? ? ? ? ? ? ? ? ?(13) 其中:[cj]為網(wǎng)絡(luò)數(shù)據(jù)中心;[disxi,cj]為任意網(wǎng)絡(luò)數(shù)據(jù)對(duì)象[xi]和數(shù)據(jù)庫(kù)中心[cj]之間的距離。 與k-均值算法不同,模糊c-均值算法將網(wǎng)絡(luò)數(shù)據(jù)集分為多個(gè)模糊子集,利用關(guān)系矩陣來(lái)表達(dá)每個(gè)元素歸屬于每個(gè)群的程度: [V=j=1cxi∈gjfmijdisxi,cj2] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (14) 其中:[m]為模糊聚類(lèi)算法的模糊度。 2.3 動(dòng)態(tài)分類(lèi) 為了獲得值函數(shù)的最小值判據(jù),可利用拉格朗日乘數(shù)法來(lái)產(chǎn)生一個(gè)新的目標(biāo)函數(shù): [V(F,c1,...,cc,λ1,...,λn)=i=1cλij=1cfij-1fmijdisxi,xj] ? ? ? (15) 模糊c-均值聚類(lèi)算法目標(biāo)函數(shù)的約束條件如下: [JECMU,V=k=1Ni=1Cuikmxk-vi2] ? ? ? ? ? ? ? (16) [s.t.i=1Cuik=1k=1,2,...,N] ? ? ? ? ? ? ? ? ? ? (17) 其中,[uik]為網(wǎng)絡(luò)數(shù)據(jù)[uk]與以[vi]為中心的屬性[i]的關(guān)聯(lián)度,[0≤uik≤1], [ui=ui1,ui2,...,uiN], [1≤i≤C]。 假設(shè)內(nèi)部類(lèi)的分散矩陣[Sb]和[Sw]表示每一個(gè)屬性點(diǎn)與屬性集的關(guān)系,則每一個(gè)屬性點(diǎn)及其所屬的類(lèi)的關(guān)系為: [Sb=i=1cnimi-mmi-mT] ? ? ? ? ? ? ? ? ? ? (18) [Sw=i=1cj∈clanimi-xjmi-xjT] ? ? ? ? ? ? ? ? ? ? (19) 其中[c]為網(wǎng)絡(luò)數(shù)據(jù)集的分類(lèi)的數(shù)目,[ni]為具有屬性[i]的網(wǎng)絡(luò)數(shù)據(jù)的數(shù)量, [mi]為具有屬性[i]的網(wǎng)絡(luò)數(shù)據(jù)的平均距離,[m]為所有網(wǎng)絡(luò)數(shù)據(jù)點(diǎn)之間的平均距離,[xj]為第[j]個(gè)采樣值。為了使低維度空間中各類(lèi)網(wǎng)絡(luò)數(shù)據(jù)集之間的距離更小/更大,通過(guò)以下方式獲取聚類(lèi)函數(shù): [JFw=wTSbwwTSww] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(20) 3 實(shí)驗(yàn)結(jié)果分析 在對(duì)改進(jìn)的聚類(lèi)算法進(jìn)行性能測(cè)試的時(shí)候,實(shí)驗(yàn)平臺(tái)為Weka6.0,采用Java語(yǔ)言實(shí)現(xiàn)。采用純度作為聚類(lèi)方法的評(píng)價(jià)指標(biāo)。聚類(lèi)純度用來(lái)衡量網(wǎng)絡(luò)數(shù)據(jù)聚類(lèi)處理的準(zhǔn)確率: [Purity=i=1kMaxjMijH] ? ? ? ? ? ? ? ? ? ? ? ? ? ? (21) 其中,[H]為網(wǎng)絡(luò)數(shù)據(jù)的量,[Mij]為具有屬性[i]和[j]的網(wǎng)絡(luò)數(shù)據(jù),[k]為網(wǎng)絡(luò)數(shù)據(jù)聚類(lèi)算法中的類(lèi)的總數(shù)。 在實(shí)驗(yàn)中,將文獻(xiàn)[2]、文獻(xiàn)[3]和文獻(xiàn)[4] 采用的方法與本方法進(jìn)行了對(duì)比,不同動(dòng)態(tài)聚類(lèi)方法的純度見(jiàn)表1。 由表1可以看出,本文使用的方法純度值約為0.951,比文獻(xiàn)[2]高約0.105,比文獻(xiàn)[3]高0.256,比文獻(xiàn)[4]高0.308,整體純度高,聚類(lèi)效果好。 4 結(jié)論 實(shí)驗(yàn)結(jié)果表明,本文提出的基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)動(dòng)態(tài)聚類(lèi)方法具有較高的聚類(lèi)純度,在提高動(dòng)態(tài)聚類(lèi)效率方面有一定的優(yōu)勢(shì)。 參考文獻(xiàn): [1] 鐘耀霞,程建斌,項(xiàng)正山.傳感網(wǎng)絡(luò)局部離群數(shù)據(jù)動(dòng)態(tài)聚類(lèi)算法仿真[J].計(jì)算機(jī)仿真,2020,37(11):312-315,421. [2] 姜延文.大數(shù)據(jù)分析下多維離散數(shù)據(jù)高效聚類(lèi)方法仿真[J].計(jì)算機(jī)仿真,2019,36(2):205-208. [3] 楊慧婷,楊文忠,殷亞博,等.基于深度信念網(wǎng)絡(luò)的K-means聚類(lèi)算法研究[J].現(xiàn)代電子技術(shù),2019,42(8):145-150. [4] 葉福蘭.基于離群點(diǎn)檢測(cè)的不確定數(shù)據(jù)流聚類(lèi)算法研究[J].中國(guó)電子科學(xué)研究院學(xué)報(bào),2019,14(10):1094-1099. [5] 張?zhí)A,胡小光,楊靜.一種基于關(guān)聯(lián)規(guī)則的知識(shí)推送方法[J].機(jī)械設(shè)計(jì)與制造,2020(2):300-303. 【通聯(lián)編輯:唐一東】