陳愛國,王士同
(1.江南大學 數(shù)字媒體學院,江蘇 無錫 214122; 2.香港理工大學 計算機系,香港 九龍 999077)
基于極大熵的知識遷移模糊聚類算法
陳愛國,王士同
(1.江南大學 數(shù)字媒體學院,江蘇 無錫 214122; 2.香港理工大學 計算機系,香港 九龍 999077)
針對傳統(tǒng)的聚類算法在樣本數(shù)據(jù)量不足或樣本受到污染情況下的聚類性能下降問題,在經(jīng)典的極大熵聚類算法(MEKTFCA)的基礎上,提出了一種新的融合歷史聚類中心點和歷史隸屬度這兩種知識的基于極大熵的知識遷移模糊聚類算法。該算法通過學習由源域總結出來的有益歷史聚類中心和歷史隸屬度知識來指導數(shù)據(jù)量不足或受污染的目標域數(shù)據(jù)的聚類任務,從而提高了聚類性能。通過一組模擬數(shù)據(jù)集和兩組真實數(shù)據(jù)集構造的遷移場景上的實驗,證明了該算法的有效性。
知識遷移;極大熵;聚類算法;極大熵聚類;模糊聚類
聚類是一種常用的數(shù)據(jù)分析方法,在人工智能、模式識別和機器學習等領域[1-3]一直受到廣泛關注。聚類作為一種無監(jiān)督的數(shù)據(jù)分析技術,通過數(shù)據(jù)之間的疏密程度,將數(shù)據(jù)劃分到不同的數(shù)據(jù)簇中,使得簇內(nèi)的數(shù)據(jù)之間關系比較緊密,而簇之間的數(shù)據(jù)關系比較疏遠。根據(jù)聚類使用方法的不同,將聚類分成常見的一些類別:基于劃分的聚類算法[4-7]、基于層次的聚類算法[8-9]、基于密度的聚類算法[10-11]、基于圖論的聚類算法[12]等。這些聚類算法在針對特定的數(shù)據(jù)集進行聚類時,通常能獲得理想的聚類效果。但這些聚類性能的有效獲得都離不開一個必要前提,那就是進行聚類時的數(shù)據(jù)必須是充分的,換句話說,這些聚類算法不適合處理數(shù)據(jù)不充分的情況。
但在實際生產(chǎn)、生活中,數(shù)據(jù)不充分的情況或數(shù)據(jù)受到污染的情況往往普遍存在。例如,在一個新領域收集數(shù)據(jù)之初,數(shù)據(jù)往往是不充足的。又或者由于受到硬件設備的不穩(wěn)定性或環(huán)境等一些因素的影響,可能會采集到受噪聲干擾的失真數(shù)據(jù)。對于不充足的數(shù)據(jù)和受到污染的數(shù)據(jù)進行聚類分析時,如果直接采用傳統(tǒng)聚類方法,往往會造成聚類結果的不理想,甚至有時會出現(xiàn)聚類失效的結果。
如何有效解決數(shù)據(jù)量不足和數(shù)據(jù)受污染情況下的數(shù)據(jù)聚類性能問題,是近年來研究工作者的方向之一。其中,知識遷移[13]機制的引入是一種有效手段。知識遷移機制是指將歷史數(shù)據(jù)(也稱為源域)中提煉的有益知識應用到對當前數(shù)據(jù)(也稱為目標域)聚類任務的指導,用于提高當前數(shù)據(jù)的聚類結果。歷史數(shù)據(jù)與當前數(shù)據(jù)之間既存在著聯(lián)系,也存在著明顯的差別。目前,應用知識遷移機制來提高聚類性能的代表性算法有:在多任務中使用共享子空間進行聚類的LSSMTC算法[14]、使用K均值組合方法的CombKM算法[14]、使用自學習遷移機制的STC聚類算法[15]、使用特征和樣本協(xié)同機制的Co-clustering聚類算法[16]及遷移譜聚類TSC算法[17]。這些基于知識遷移的聚類算法雖然提高了一定的聚類性能,但離實際應用還有一定差距,且這些聚類算法在進行聚類任務時需要完整的歷史數(shù)據(jù)集,這在一些特殊場合,如保密需要,完整的歷史數(shù)據(jù)是不可能獲得的。所以,研究一種有隱私保護的高效遷移聚類算法具有必要性和實用性。
本文在經(jīng)典的MECA聚類算法的基礎上,通過對MECA算法的目標函數(shù)進行改造,使其具有學習歷史知識的能力,進而提高算法在樣本量不充分或受到污染情況下聚類的性能。
在傳統(tǒng)C均值聚類算法的基礎上,通過引入具有明確物理含義的熵,產(chǎn)生出了具有簡潔的數(shù)學表達式和明確物理含義特點的極大熵模糊聚類算法。極大熵模糊聚類算法有很多種不同的表達形式,其中文獻[6-7]給出的是經(jīng)典的極大熵模糊聚類算法,其具體表述如下。
式中:xi表示第i個樣本點;vj表示第j類中心點;μij表示第i個樣本點隸屬于第j類的程度;‖xi-vj‖2表示第i個樣本點與第j類中心點的距離;α是正則化系數(shù),由μij構成隸屬度矩陣U∈RN×C,由vj構成中心點矩陣V∈Rd×C。
采用拉格朗日條件極值優(yōu)化方法解得式(1)的最優(yōu)聚類中心V和隸屬度U的迭代公式為
根據(jù)上述推導,總結出MECA算法的具體步驟如下:
輸入 數(shù)據(jù)集X,分類數(shù)C,正則化系數(shù)α,最大迭代次數(shù)T,終止閾值ε。
輸出 最優(yōu)隸屬度U和聚類中心V。
1)初始化迭代計數(shù)器t=0,隨機初始化隸屬度矩陣U(0)。
2)根據(jù)式(2)和1)的隸屬度矩陣U(t)獲得新的類中心V(t)。
3)根據(jù)式(3)和2)獲得的類中心V(t)計算得新的隸屬度U(t+1)。
4)當‖U(t+1)-U(t)‖<ε或者t>T時算法終止,否則跳轉到2)。
通過觀察MECA算法的具體步驟可以看出,原始的MECA算法不具有知識遷移的能力。
MECA算法在數(shù)據(jù)量充足時,可以使用上述迭代過程獲得有效的類中心和隸屬度。但當樣本量不充足或樣本被污染的情況下,直接使用MECA算法獲得的聚類中心往往嚴重偏離實際聚類中心,甚至有時會出現(xiàn)聚類失效的情況。因此,在數(shù)據(jù)量不足或數(shù)據(jù)受到污染情況下,研究有效的聚類算法,具有必要性和實際價值。
在知識遷移理論[13]中,當源域數(shù)據(jù)和目標域數(shù)據(jù)既存在一定的相關性,同時又存在著明顯的差異時,可通過對源域有益知識的充分利用來指導目標域任務更好地完成。本文嘗試通過將數(shù)據(jù)量充分的源域知識遷移至數(shù)據(jù)量不足或被污染的目標域的聚類任務中,來提高目標域的聚類性能。
為了實現(xiàn)源域知識到目標域遷移的目的,需要解決3個核心問題:
1)遷移什么知識;
2)如何遷移;
3)什么時候遷移。
首先,解決源域到目標域遷移什么知識的問題。在基于劃分的聚類算法中,隸屬度和聚類中心點是對聚類結果具有決定性作用的兩個因素。故本文選擇隸屬度和聚類中心點作為被遷移的知識。
其次,需要解決如何才能實現(xiàn)將源域的隸屬度和聚類中心點知識遷移到目標域的聚類任務中的問題。我們通過以下兩個規(guī)則來實現(xiàn)。
1)隸屬度重要程度受約束規(guī)則
該規(guī)則對應的公式為
2)聚類中心點變化最小規(guī)則
該規(guī)則的公式為
根據(jù)上述分析,針對經(jīng)典MECA算法不具有知識遷移能力的不足,本文在MECA算法的基礎上結合上述兩個規(guī)則,提出基于極大熵知識遷移模糊聚類算法,即MEKTFCA算法。該算法的原理如圖1。
圖1 MEKTFCA算法原理圖Fig.1 Overall framework of MEKTFCA algorithm
MEKTFCA算法首先對源數(shù)據(jù)集,通過經(jīng)典的MECA算法獲得歷史聚類中心,然后根據(jù)目標數(shù)據(jù)集和所獲得的歷史聚類中心,通過再次使用經(jīng)典的MECA算法獲得歷史隸屬度,最后通過MEKTFCA算法和歷史聚類中心及歷史隸屬度獲得最終的聚類結果。
融入了隸屬度重要程度受約束規(guī)則和聚類中心點變化最小規(guī)則得到的MEKTFCA算法的具體目標函數(shù)為
其中
MECA算法的正則化熵項。同時,根據(jù)式(6)~(8)可以發(fā)現(xiàn),當隸屬度重要程度受約束規(guī)則的平衡因子λ=1而且聚類中心點變化最小規(guī)則的平衡因子β=0這種特殊情況時,MEKTFCA算法就退化為經(jīng)典的MECA算法。MEKTFCA算法的本質(zhì)是,通過調(diào)節(jié)平衡因子λ和β的大小,來調(diào)整歷史隸屬度和歷史類中心點對當前聚類任務的影響,從而改善由于數(shù)據(jù)量不足和數(shù)據(jù)被污染情況下直接采用MECA算法造成聚類結果不理想的情況。
2.1 參數(shù)求解
式(6)的參數(shù)求解問題,即為在有約束條件下求解最優(yōu)的參數(shù)使得目標函數(shù)值最小。與MECA求最優(yōu)解方法相同,我們采用拉格朗日乘子法進行求解,首先構造拉格朗日函數(shù)表達式,即
式中ηi為Lagrange乘子。
因為有約束條件
將式(10)代入式(11)可得
將式(12)代入式(10)可得隸屬度的迭代公式為
2.2 算法步驟
根據(jù)上述的推導過程所獲得的隸屬度和聚類中心點的迭代公式,給出MEKTFCA算法的具體步驟如下。
輸出 最優(yōu)隸屬度U和聚類中心V。
2)初始化迭代計數(shù)器t=0。
3)根據(jù)式(14)計算得到新的聚類中心V(t)。
4)根據(jù)式(13)計算得到新的隸屬度矩陣U(t+1)。
5)當‖U(t+1)-U(t)‖<ε或者t>T時算法終止,否則跳轉到3)。
以上算法步驟同時回答了實現(xiàn)知識遷移中的第3個核心問題:什么時候遷移。通過算法步驟可以看到,在算法不斷迭代過程中,隸屬度和中心點的迭代公式中使用到了歷史隸屬度知識和歷史類中心點知識。從而在算法的迭代過程中實現(xiàn)了知識的遷移。
3.1 實驗設置
為驗證本文所提MEKTFCA算法的有效性,將構造一組模擬數(shù)據(jù)集和兩組真實數(shù)據(jù)集作為實驗所使用的遷移場景。同時,選擇6種相關算法作為對比算法,對它們的聚類性能進行比較。這6種算法為:在多任務中使用共享子空間進行聚類的LSSMTC算法[14],使用K均值組合方法的CombKM算法[14],使用自學習遷移機制的STC聚類算法[15],使用特征和樣本協(xié)同機制的Co-clustering聚類算法[16],遷移譜聚類TSC算法[17]以及經(jīng)典的MECA算法[6-7]。
為了對聚類算法的結果進行客觀比較,本文采用統(tǒng)一的NMI[18](normalized mutual information)和RI[19](rand index)兩種指標對實驗結果進行評價。NMI的計算公式為
式中:N代表數(shù)據(jù)集的樣本數(shù)目;Np代表聚類到p類的樣本數(shù)目;Nq代表類標簽為q的樣本數(shù)目;Np,q代表同時聚類到p類和類標簽為q的樣本數(shù)目。RI評價指標的計算公式為
式中:N00代表擁有不同類標簽的兩個樣本聚類到不同類別中的個數(shù);N11代表擁有相同類標簽的兩個樣本聚類到相同類別中的個數(shù)。上述兩種評價指標值的變化范圍都為[0,1],且值越大,代表其算法的聚類性能越好。
在MEKTFCA算法中,涉及兩個平衡因子λ和β如何取值的問題。本文采用網(wǎng)格搜索進行遍歷尋優(yōu),其尋優(yōu)的范圍及其他對比算法的參數(shù)設置值如表1所示。
表1 算法參數(shù)設置值
本實驗所采用的環(huán)境是:Intel i7-5600U 2.60 GHz 8 GB RAM;Windows 8 64 bit;MATLAB R2012b。實驗所列結果數(shù)據(jù)均是在運行10次后求得的平均值。
3.2 模擬數(shù)據(jù)集實驗結果和分析
該實驗是通過構造的模擬數(shù)據(jù)集來驗證本文所提的MEKTFCA算法在樣本量不足和受污染情況下聚類算法的有效性。本實驗構造了一組源數(shù)據(jù)集S和3組目標數(shù)據(jù)集T1、T2、T3,其中源數(shù)據(jù)集和所有的目標數(shù)據(jù)集均包含3類2維的數(shù)據(jù),這些數(shù)據(jù)的生成均采用高斯概率分布模型函數(shù),生成時所使用的均值、方差及每個類別包含的樣本數(shù)如表2所示。
構造的源數(shù)據(jù)集S共含有1 500個樣本,這個數(shù)據(jù)集數(shù)據(jù)量充足,并且能夠從該數(shù)據(jù)集中提取出對目標數(shù)據(jù)集的聚類具有指導作用的有用知識。
構造的目標數(shù)據(jù)集T1共含有90個樣本,只占源數(shù)據(jù)集S總數(shù)據(jù)量的6%,用于代表數(shù)據(jù)量不充足的場景,雖然數(shù)據(jù)集T1與數(shù)據(jù)集S的均值存在差異,但它們的方差相同,這用于體現(xiàn)遷移學習中的源數(shù)據(jù)集與目標數(shù)據(jù)集之間既存在著相似性,同時也存在著一定的差別的情況。
表2 模擬數(shù)據(jù)集生成的參數(shù)設置
構造的目標數(shù)據(jù)集T2共含有450個樣本,占源數(shù)據(jù)集S總數(shù)據(jù)量的30%。用目標數(shù)據(jù)集T2來代表目標數(shù)據(jù)量充分的場景。
構造的目標數(shù)據(jù)集T3與目標數(shù)據(jù)集T2的均值、方差和數(shù)據(jù)量完全相同。不同的是,數(shù)據(jù)集T3在數(shù)據(jù)集T2的基礎上增加了方差為2、均值為0的高斯噪聲,用于代表數(shù)據(jù)量充分但受到了噪聲污染的場景。
上述構造的4組模擬數(shù)據(jù)集的數(shù)據(jù)分布如圖2所示。
在上述構造出來的各種遷移場景下,運行MEKTFCA算法和6種對比算法,得到的實驗結果如表3所示。因為TSC算法要求樣本的維數(shù)要大于聚類數(shù)目,而在模擬數(shù)據(jù)集上不滿足此條件,所以在表3中我們使用“—”來表示此算法無法運行。
(a)數(shù)據(jù)集S
(b)數(shù)據(jù)集T1
(c)數(shù)據(jù)集T2
(d)數(shù)據(jù)集T3
場景評價指標LSSMTCCombKMSTCCo-lusteringTSCMECAMEKTFCAS-T1NMI-mean0.67410.75940.15560.7372—0.73720.8024NMI-std0.03631.1703×10-1601.1703×10-16—1.1703×10-160.0022RI-mean0.86740.90240.60520.9014—0.90140.9175RI-std0.01941.1703×10-161.1703×10-162.3406×10-16—2.3406×10-160.0071S-T2NMI-mean0.73430.78760.16940.7719—0.76490.8348NMI-std0.032402.9257×10-170.0099—7.4015×10-170.0019RI-mean0.90590.92150.68790.9195—0.91680.9401RI-std0.012801.1703×10-160.0053—00.0011S-T3NMI-mean0.73460.77370.12610.7615—0.77460.8162NMI-std0.02851.1703×10-1600.0094—1.1703×10-161.1703×10-16RI-mean0.89950.91470.58780.9111—0.91480.9372RI-std0.01081.1703×10-1600.0026—01.1703×10-16
觀察表3的實驗結果可以得出如下結論:
1) 源數(shù)據(jù)集是S,目標數(shù)據(jù)集是T1,它們所代表的是數(shù)據(jù)量不足的場景。從該場景中的實驗結果可以看出,沒有使用任何遷移機制的MECA算法,在數(shù)據(jù)量不充分的情況下,其聚類性能要明顯比使用了知識遷移的MEKTFCA算法差。因為MECA算法對數(shù)據(jù)量不充足的數(shù)據(jù)集進行聚類時,產(chǎn)生的聚類中心將會嚴重偏離實際的聚類中心,進而導致最終的聚類結果不理想。而MEKTFCA算法由于引入了知識遷移機制,在聚類過程中,通過學習由源數(shù)據(jù)集提取的歷史類中心和歷史隸屬度中的有用知識,有效地改善了由于數(shù)據(jù)量不足而導致的聚類中心偏移的問題,最終提高了聚類性能。對于另外的4種對比算法,從它們的實驗結果可以看出,雖然這些算法都使用了不同的機制來提高聚類結果,但由于算法本身的限制,在樣本量不充足的場景下,其聚類結果不理想。
2) 源數(shù)據(jù)集是S,目標數(shù)據(jù)集是T2,它們所構成的是數(shù)據(jù)量較充足且無污染的場景。從該場景中的實驗結果可以看出,由于目標數(shù)據(jù)集T2的數(shù)據(jù)量較充分,因此所有6種算法均取得比較理想的聚類結果。這也進一步說明了傳統(tǒng)的聚類算法進行有效聚類的前提條件是數(shù)據(jù)量要充分。在這6種聚類算法中,由于MEKTFCA算法對源數(shù)據(jù)集所形成的歷史中心點和歷史隸屬度雙重有益知識進行了學習,它的聚類結果要優(yōu)于其他5種算法。
3)源數(shù)據(jù)集是S,目標數(shù)據(jù)集是T3,它們構成的是數(shù)據(jù)量較充分但受到污染的場景。從該場景中的實驗結果可以看出,當數(shù)據(jù)受到污染時,其余5種對比算法的聚類性能要明顯差于本文提出的MEKTFCA算法。因為數(shù)據(jù)集T3受到了污染,從而導致數(shù)據(jù)產(chǎn)生失真,數(shù)據(jù)集的聚類中心產(chǎn)生了顯著的偏移,數(shù)據(jù)類別之間的界限變得模糊,最終使得這五種聚類算法的聚類性能不夠理想。MEKTFCA算法在進行聚類時,通過調(diào)整兩個平衡因子的權重來學習源數(shù)據(jù)集中有益的歷史中心點知識和歷史隸屬度知識,這種遷移知識的學習機制提高了MEKTFCA算法在數(shù)據(jù)被污染情況下的聚類效果。這也使得MEKTFCA算法具有一定的抗噪性能。
3.3 文本數(shù)據(jù)集實驗結果和分析
第2個實驗基于真實的文本數(shù)據(jù)集20 Newsgroups(20 NG)[20]構造的目標數(shù)據(jù)樣本量不足的遷移場景來對MEKTFCA算法的有效性進行進一
步驗證。20 NG數(shù)據(jù)集包含大約20 000條新聞組信息,均勻地分布在20個不同的集合中。我們選擇這20個集合中的4個來生成兩組實驗用的遷移場景:“comp VS sci”和“rec VS talk”。這兩組遷移場景的數(shù)據(jù)集構成如表4所示。
表4 文本遷移場景數(shù)據(jù)集構成
這兩組遷移場景所使用的數(shù)據(jù)集的來源見表5所示。在構造這兩組遷移場景時,源數(shù)據(jù)集和目標數(shù)據(jù)集之間有一定的相似性,同時又有明顯的不同。如構造的“comp VS sci”遷移場景第1類的源數(shù)據(jù)集和目標數(shù)據(jù)集都來自同樣的“comp”大類,但它們的子類是完全不同的。第2類的源數(shù)據(jù)集和目標數(shù)據(jù)集與此類似。因為20 NG數(shù)據(jù)集的原始數(shù)據(jù)的維數(shù)較大,因此實驗之前我們使用工具BOW[21]對其進行了降維處理。本文所提的MEKTFCA算法及其6種對比算法在此數(shù)據(jù)集上的實驗結果如表6。
表5 文本遷移場景的數(shù)據(jù)集來源
表6 文本遷移場景中7種聚類算法性能對比
觀察表6的實驗結果可以得出如下結論:
1) MEKTFCA算法和TSC算法在遷移場景“comp VS sci”上的聚類結果較其他5種算法的聚類結果優(yōu)勢明顯。其他5種算法中,MECA算法的聚類結果最好,LSSMTC算法次之,Co-clustering算法、STC算法和CombKM算法的聚類結果明顯差于其他算法。究其原因,主要是由于在此構造的真實場景上MEKTFCA算法和TSC算法的遷移學習機制比其他算法更有效。
2) MEKTFCA算法和TSC算法在構造的遷移場景“rec VS talk”上的聚類結果具有同樣明顯的優(yōu)勢,而其他5種算法的聚類結果卻差很多。MECA算法因為在此遷移場景下,目標數(shù)據(jù)集的樣本量不足,且沒有引入任何遷移學習機制,導致最終的聚類結果較差。STC算法、CombKM算法、LSSMTC算法和Co-clustering算法盡管都使用了不同的遷移學習機制,但在此遷移場景下的效果不明顯,所以它們的聚類結果也明顯較差。而MEKTFCA算法和TSC算法在此遷移場景上的知識遷移效果明顯,故取得較好的聚類結果。
3) 進一步觀察表6的實驗結果可以發(fā)現(xiàn),MEKTFCA算法在所構造的兩組遷移場景上的聚類性能都明顯高于經(jīng)典的MECA算法,這主要是因為MEKTFCA算法是在MECA算法的基礎上通過改變兩個平衡因子的大小來調(diào)整對歷史中心點和歷史隸屬度知識的學習權重。因為對遷移知識的有效學習,所以保證了MEKTFCA算法的聚類效果始終要比MECA算法的聚類效果好。
3.4 入侵檢測數(shù)據(jù)集實驗結果和分析
最后一個實驗使用的是真實的入侵檢測數(shù)據(jù)集KDDCup99[22],使用該數(shù)據(jù)集形成一個目標數(shù)據(jù)集樣本量不足的場景,通過將MEKTFCA算法應用到該場景,再次驗證該算法的有效性。KDDCup99數(shù)據(jù)集來源于美國林肯實驗室建立的一個模擬網(wǎng)絡環(huán)境中收集的網(wǎng)絡連接和審計數(shù)據(jù)。數(shù)據(jù)集中的數(shù)據(jù)包含不同類型的用戶、各種不同類型的網(wǎng)絡流量以及各種類型的網(wǎng)絡攻擊。該數(shù)據(jù)集共收集了9周時間的數(shù)據(jù),其中7周時間的數(shù)據(jù)作為訓練數(shù)據(jù),約含有5 000 000個網(wǎng)絡連接數(shù)據(jù),另外2周時間的數(shù)據(jù)作為測試數(shù)據(jù),約含有2 000 000個網(wǎng)絡連接數(shù)據(jù)。整個數(shù)據(jù)集中的訓練數(shù)據(jù)集和測試數(shù)據(jù)集之間有著不同的概率分布,即整個數(shù)據(jù)集具有一定的相似性,同時也存在著一定的差異性,滿足知識遷移應用的條件。本文基于KDDCup99數(shù)據(jù)集構造的知識遷移場景只選擇了數(shù)據(jù)集中常見的5種類型(Normal、smurf、Neptune、satan、ipsweep)作為源數(shù)據(jù)集和目標數(shù)據(jù)集的類別,選擇每條網(wǎng)絡連接記錄中的32個連續(xù)型的特征屬性作為樣本數(shù)據(jù)的維度,源數(shù)據(jù)集的樣本來自原始的訓練數(shù)據(jù)集,目標數(shù)據(jù)集的樣本來自原始的測試數(shù)據(jù)集。目標數(shù)據(jù)集的樣本數(shù)量只占源數(shù)據(jù)集的樣本數(shù)量的10%,且樣本數(shù)量不大,表征的是目標數(shù)據(jù)集樣本量不足的情況。具體的入侵檢測遷移場景的數(shù)據(jù)集的樣本個數(shù)、數(shù)據(jù)的維數(shù)和類別如表7所示。
表7 入侵檢測遷移場景的數(shù)據(jù)集構成
MEKTFCA算法和其他6種對比算法在該入侵檢測數(shù)據(jù)集知識遷移場景上的執(zhí)行結果如表8所示。
表8 入侵檢測遷移場景上7種聚類算法性能對比
觀察表8實驗結果可以看出,MEKTFCA算法在兩大性能指標NMI和RI的均值要明顯高于其他6種對比算法。與上述兩個實驗結果分析的原因相同,MEKTFCA算法由于從源數(shù)據(jù)集中學習了有益的歷史中心點和歷史隸屬度知識,并對目標數(shù)據(jù)集的聚類過程形成有效指導,進而使得MEKTFCA算法在目標數(shù)據(jù)集樣本量不足的情況下仍能取得比其他6種算法更好的聚類性能。這同時也進一步驗證了對歷史知識的有效學習對當前聚類任務的有效完成具有促進作用。
由于傳統(tǒng)聚類算法在數(shù)據(jù)樣本量不足或數(shù)據(jù)受污染的情況下,其聚類效果往往不理想甚至失效,本文在經(jīng)典的MECA算法的基礎上通過引入知識遷移機制,提出了基于極大熵的知識遷移模糊聚類算法,即MEKTFCA算法。MEKTFCA算法通過引入的知識遷移機制使得在對數(shù)據(jù)量不足或受污染的目標域數(shù)據(jù)進行聚類時能夠有效學習源域中有益的歷史中心點和歷史隸屬度知識,進而提高了最終的聚類結果。通過一組模擬數(shù)據(jù)集和兩組真實的數(shù)據(jù)集上的實驗結果,可以得出本文所提MEKTFCA算法較6種相關算法在聚類性能上有明顯的優(yōu)越性。本文的創(chuàng)新點主要是,在MECA算法的基礎了提出了一個新的知識遷移方法,該方法能有效解決實際生活中數(shù)據(jù)短缺和有噪聲數(shù)據(jù)場景下的聚類性能問題。此外,本文所提的MEKTFCA算法也存在著局限性,如在不同應用場景下兩個平衡參數(shù)如何進行有效確定的問題。這也是我們對該算法進行進一步研究的方向。
[1]CARIOU C, CHEHDI K. Unsupervised nearest neighbors clustering with application to hyperspectral images[J]. IEEE journal of selected topics in signal processing, 2015, 9(6): 1105-1116.
[2]ALI A, BOYACI A, BAYNAL K. Data mining application in banking sector with clustering and classification methods[C]//Proceedings of 2015 International Conference on Industrial Engineering and Operations Management. Dubai, UAE, 2015: 1-8.
[3]LI Shuai, ZHOU Xiaofeng, SHI Haibo, et al. An efficient clustering method for medical data applications[C]//Proceedings of 2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent System. Shenyang, China, 2015: 133-138.
[4]LIKAS A, VLASSIS N, VERBEEK J J. The global k-means clustering algorithm[J]. Pattern recognition, 2003, 36(2): 451-461.
[5]BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[M]. New York: Springer, 1981: 43-93.
[6]KARAYIANNIS N B. MECA: maximum entropy clustering algorithm[C]//Proceedings of the 3rd IEEE International Conference on Fuzzy Systems. Orlando, USA, 1994, 1: 630-635.
[7]LI Ruiping, MUKAIDONO M. A maximum-entropy approach to fuzzy clustering[C]//Proceedings of 1995 the 4th IEEE International Conference on Fuzzy System. Yokohama, Japan, 1995, 4: 2227-2232.
[8]ZHANG Tian, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[C]//Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. New York, NY, USA, 1996: 103-114.
[9]GUHA S, RASTOGI R, SHIM K. CURE: an efficient clustering algorithm for large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York, NY, USA, 1998: 73-84.
[10]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proceeding of the Second International Conference on Knowledge Discovery and Data Mining. Portland, Oregon, USA, 1996: 226-231.
[11]ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: ordering Points to Identify the Clustering Structure[C]//Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data. Philadelphia, Pennsylvania, USA, 1999: 49-60.
[12]ARIAS-CASTRO E, CHEN Guangliang, LERMAN G. Spectral Clustering based on local linear approximations[J]. Electronic journal of statistics, 2011, 5: 1537-1587.
[13]PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 2010, 22(10): 1345-1359.
[14]GU Quanquan, ZHOU Jie. Learning the shared subspace for multi-task clustering and transductive transferclassification[C]//Proceedings of Ninth IEEE International Conference on Data Mining. Miami, FL, USA, 2009: 159-168.
[15]DAI Wenyuan, YANG Qiang, XUE Guirong, et al. Self-taught clustering[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 200-207.
[16]GU Quanquan, ZHOU Jie. Co-clustering on manifolds[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2009: 359-368.
[17]JIANG Wenhao, CHUNG F L. Transfer spectral clustering[M]//FLACH P A, BIE T D, CRISTIANINI N. Machine Learning and Knowledge Discovery in Databases. Berlin Heidelberg: Springer, 2012: 789-803.
[18]JING Liping, NG K M, HUANG J Z. An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data[J]. IEEE transactions on knowledge and data engineering, 2007, 19(8): 1026-1041.
[19]LIU Jun, MOHAMMED J, CARTER J, et al. Distance-based clustering of CGH data[J]. Bioinformatics, 2006, 22(16): 1971-1978.
[20]DAI Wenyuan, XUE Guirong, YANG Qiang, et al. Co-clustering based classification for out-of-domain documents[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA, 2007: 210-219.
[21]MCCALLUM A K. Bow: a toolkit for statistical language modeling, text retrieval, classification and clustering[EB/OL]. 1996. http://www.cs.cmu.edu/mccallum/bow.
[22]BAY S D, KIBLER D, PAZZANI M J, et al. The UCI KDD archive of large data sets for data mining research and experimentation[J]. ACM SIGKDD explorations newsletter, 2000, 2(2): 81-85.
A maximum entropy-based knowledge transfer fuzzy clustering algorithm
CHEN Aiguo1,2, WANG Shitong1
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Department of Computing, Hong Kong Polytechnic University, Kowloon 999077,China)
To address the issue of clustering performance degradation when traditional clustering algorithms are applied to insufficient and/or noisy data, a maximum entropy-based knowledge transfer fuzzy clustering algorithm is proposed. This improves the classical maximum entropy clustering algorithm for target domains by leveraging two kinds of knowledge from the source domain, i.e., historical clustering centers and historical degree of membership, into the objective function proposed for clustering insufficient and/or noisy target data. The effectiveness of the proposed algorithm is demonstrated by experiments on several synthetic and two real datasets.
knowledge transfer; maximum entropy; clustering algorithms; maximum entropy clustering; fuzzy clustering
陳愛國,男,1975年生,博士研究生,主要研究方向為模式識別與機器學習。
王士同,男,1964年生,教授,博士生導師,中國離散數(shù)學學會常務理事,中國機器學習學會常務理事,主要研究方向為人工智能、模式識別和生物信息。發(fā)表學術論文近百篇,其中被SCI、EI檢索50余篇。
2016-02-04.
日期:2017-02-27.
國家自然科學基金項目(61272210);江蘇省杰出青年基金項目(BK20140001);江蘇省自然科學基金項目(BK20130155).
陳愛國. E-mail:agchen@jiangnan.edu.cn.
10.11992/tis.201602003
http://kns.cnki.net/kcms/detail/23.1538.TP.20170227.1758.006.html
TP274
A
1673-4785(2017)12-0095-09
陳愛國,王士同.基于極大熵的知識遷移模糊聚類算法[J]. 智能系統(tǒng)學報, 2017, 12(1): 95-103.
英文引用格式:CHEN Aiguo,WANG Shitong. A maximum entropy-based knowledge transfer fuzzy clustering algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(1): 95-103.