,
(鄭州大學(xué) 信息工程學(xué)院,鄭州 450052)
IB方法(Information Bottleneck)是Tishby等人在1999年提出的一種基于信息論的數(shù)據(jù)分析方法[1],該方法通過最小化源數(shù)據(jù)與聚類之間的互信息來實(shí)現(xiàn)對數(shù)據(jù)的壓縮,最大化聚類結(jié)果與相關(guān)信息的互信息來達(dá)到對相關(guān)信息保存的目的[2],從而有效地發(fā)現(xiàn)數(shù)據(jù)中隱含的模式。這種算法在文本聚類[3-4]、圖像聚類[5]、星系光譜分析[6]、基因表達(dá)式分析[7]等領(lǐng)域都得到了有效的應(yīng)用。
順序IB算法(sIB)是Slonim于2002年提出的[3],該算法主要是對待分析數(shù)據(jù)對象按其與另一數(shù)據(jù)對象的相關(guān)性進(jìn)行“硬”劃分,使劃分在一起的對象體現(xiàn)出源數(shù)據(jù)對象所蘊(yùn)含的某個特征模式。sIB是較好的IB算法,但是它假定樣本中各維特征對分類的貢獻(xiàn)是均勻的,事實(shí)上,由于數(shù)據(jù)集中,特征矢量的各維特征來自不同的傳感器,存在量綱、精度及可靠性的差異。為了考慮特征矢量中各維特征對聚類結(jié)果的不同貢獻(xiàn),本文提出了一種基于特征加權(quán)的順序IB算法,該算法利用特征加權(quán)技術(shù)ReliefF對特征進(jìn)行加權(quán),即給特征集中每一個特征賦予一定的權(quán)重,并迭代更新權(quán)值,然后根據(jù)權(quán)值大小變化特征集。特征加權(quán)后再對其進(jìn)行聚類分析,不僅使聚類效果優(yōu)于傳統(tǒng)聚類算法,同時(shí)可以分析各維特征對聚類的貢獻(xiàn)程度。
IB算法是在率失真定理基礎(chǔ)上擴(kuò)展的一種新的數(shù)據(jù)分析方法。對于率失真定理,失真度量的選擇是一大難題。因?yàn)閷τ跀?shù)據(jù)資源分布p(x),不同的率失真函數(shù)會產(chǎn)生不同的結(jié)果。
在IB理論中,引入一個與源變量相關(guān)的目標(biāo)變量X~p(x),達(dá)到壓縮X與維持相關(guān)信息平衡的目的,這個相關(guān)隨機(jī)變量稱為Y。通過尋找X的壓縮變量T(最大化維持了X與相關(guān)變量Y的互信息)來確定x,y的聯(lián)合分布。其中,T形成了從X到Y(jié)信息壓縮的“瓶頸”。該理論可表示為:
(1)
其中,d(x,t)是失真度量函數(shù);I(T;X)表示T與X的互信息。IB理論通過失真度量函數(shù)來度量信息壓縮過程產(chǎn)生的失真,使該失真小于預(yù)先制定的值D[8]。
IB理論中,壓縮變量T只與源變量X有關(guān),與相關(guān)變量Y無關(guān),因此有概率分布為
p(x,y,t)=p(x,y)p(t|x,y)
(2)
在率失真中,引入拉格朗日乘數(shù)來實(shí)現(xiàn)聚類的最優(yōu)劃分。則IB的目標(biāo)函數(shù)表示為
L[p(t|x)]=I(T;X)-βI(T;Y)
(3)
乘數(shù)β用來控制壓縮和失真的平衡。p(t|x)為隨機(jī)映射函數(shù)。IB理論克服了率失真的缺點(diǎn),不用考慮如何選取失真度量的問題。
相對于其他IB算法,sIB算法可以保證能夠及時(shí)得到一個固定的解,而且有較為理想的時(shí)間復(fù)雜度和空間復(fù)雜度。是一個將已知自凝聚算法映射到類似“順序KMeans算法”的算法。
sIB算法先將x隨機(jī)地劃分為M個簇(M保持不變),再在每一步中將每個x從簇t(x)中提取出來,再將x合并到tnew中去,從而得到新的tnew劃分[9]。
tnew=arg mint∈Tcost({x},t)
(4)
cost({x},t)=(p(x)+p(t))×JSπ1,π2(p(y|x),p(y|t)),其中π1和π2滿足
通過不同的初始值T,可以得到不同的結(jié)果,以此來降低局部最優(yōu)解潛在的不穩(wěn)定性。因此sIB算法適于實(shí)際應(yīng)用,而且可以得到局部穩(wěn)定解。
特征加權(quán)是從原始特征集中,按照某一評價(jià)標(biāo)準(zhǔn),對具有不同區(qū)分特性的特征子集進(jìn)行加權(quán)的方法,是提高聚類質(zhì)量的有效方法[10]?;镜腞elief算法是Kira等在1992 年提出的,它可以檢測那些與目標(biāo)屬性不相關(guān)的特征[11],當(dāng)時(shí)僅局限于解決兩類問題。1994年Kononenko擴(kuò)展了Relief算法得出一種新的算法,即ReliefF算法,其可以解決多類問題、回歸問題以及數(shù)據(jù)缺失問題[12]。該算法的基本思想是根據(jù)每個屬性對聚類結(jié)果影響程度的不同給每一特征項(xiàng)賦予不同的權(quán)重,并迭代更新權(quán)值,然后根據(jù)權(quán)值大小對特征子集做相應(yīng)的加權(quán)變換,使得好的特征聚集同類樣本,離散異類樣本。
數(shù)據(jù)集X中,xi=[xi1,xi2,…,xiN]T表示第i個樣本的N個特征值。對于任意一個樣本xi,首先找出R個與xi同類的最鄰近的樣本hi,i=1,2,…,R。設(shè)diff-hit是N×1的矩陣,表示最鄰近樣本hi與xi在特征上的差異。
(5)
然后在與xi不同類的子集中找到R個最鄰近的樣本mli,i=1,2,…,R,l≠class(xi)。設(shè)diff-miss是N×1的矩陣,表示mli與xi在特征上的差異,則
(6)
式中:p(l)為第l類數(shù)據(jù)出現(xiàn)的概率;p(class(xi))是xi在類中出現(xiàn)的概率。
sIB算法以循環(huán)的方式遍歷所有的數(shù)據(jù)點(diǎn),對每個點(diǎn)檢查是否要把它從當(dāng)前簇中取出并放到另一個簇中,這個循環(huán)過程迭代至局部最優(yōu)。將ReliefF算法融入到sIB算法中,在順序聚類算法的基礎(chǔ)上對特征值進(jìn)行加權(quán)。令λ=[λ1,λ2,…,λi]T表示每個特征的權(quán)值。將目標(biāo)函數(shù)改寫為
tnew←arg mint∈T∑icost({λix},t)
(7)
λ更新式為
λ=λ-(diff-hit)/R+(diff-miss)/R
(8)
當(dāng)目標(biāo)函數(shù)循環(huán)至最小值,就得到了最優(yōu)的聚類結(jié)果。改進(jìn)后的wsIB算法描述如下:
wsIB算法執(zhí)行過程:
輸入:數(shù)據(jù)集X,X具有聯(lián)合分布p(x,y);
平衡參數(shù)β;簇?cái)?shù)k.
輸出:
X到k簇的隨機(jī)劃分T.
初始化:
T←將X隨機(jī)劃分為k個簇.
主循環(huán):
Done=False;
While not Done
Done←TRUE;
λ=λ-(diff-hit)/R+(diff-miss)/R
For everyx∈X
將x從其歸屬的t中取出,形成單元素集合{x}
tnew←arg mint∈T∑icost({λix},t)
iftnew≠t
done←FALSE
將x合并到tnew中;
End For
End While
對目標(biāo)函數(shù)tnew的加權(quán),改變了多維數(shù)據(jù)集中數(shù)據(jù)項(xiàng)之間在歐式空間中的距離,聚類中循環(huán)更新簇的分配將權(quán)值計(jì)算在內(nèi),進(jìn)而影響了算法迭代過程中不同特征值對聚類結(jié)果的影響。
實(shí)驗(yàn)數(shù)據(jù)為在經(jīng)典數(shù)據(jù)集UCI中隨機(jī)選取的8組數(shù)據(jù)集,包括:Cancer(醫(yī)學(xué)乳腫瘤記錄)、Car(汽車評估資料庫)、Diabetes(比馬族人糖尿病數(shù)據(jù)記錄)、Hepatitis(醫(yī)學(xué)肝炎記錄數(shù)據(jù))、Iris(鳶尾花數(shù)據(jù)記錄)、Kr_vs_kp(國際象棋殘局?jǐn)?shù)據(jù))、Votes(1984美國國會選舉記錄)、Credit_a(信用記錄數(shù)據(jù))。用傳統(tǒng)sIB算法和加權(quán)改進(jìn)后的wsIB算法分別對其聚類,得出的聚類結(jié)果用精度、召回率和準(zhǔn)確率進(jìn)行評估。實(shí)驗(yàn)數(shù)據(jù)描述如表1所示。
表1 UCI數(shù)據(jù)集
對于數(shù)據(jù)集Cancer,本文得到的加權(quán)矩陣為:λ= [2.633 3,1.322 2,1.477 8,2.055 6,1.066 7,2.666 7,1.855 6,2.522 2,0.071 1]。從這個矩陣來看,第六維特征的貢獻(xiàn)最大,第九維特征的貢獻(xiàn)最小。由此可見,對于Cancer數(shù)據(jù)集來說,加權(quán)之后特征值從均勻貢獻(xiàn)變?yōu)榈谝痪S特征值最高的不均勻貢獻(xiàn)。
表2 sIB算法和wsIB聚類結(jié)果對比
實(shí)驗(yàn)結(jié)果對比如表2所示,對于Car數(shù)據(jù)集,加權(quán)后的聚類結(jié)果準(zhǔn)確率提高了6.77%、精度提高了2.39%、召回率提高了5.55%。
實(shí)驗(yàn)所選取的數(shù)據(jù)從150到319 6個不等,數(shù)據(jù)的特征個數(shù)從4到36個不等。對實(shí)驗(yàn)結(jié)果分析可得出:
(1)較傳統(tǒng)sIB算法,wsIB算法中數(shù)據(jù)集的3種評價(jià)指標(biāo)(準(zhǔn)確率、精度、召回率)均得到不同程度的提高。
(2)wsIB算法對于特征個數(shù)少、特征個數(shù)多以及數(shù)據(jù)樣本個數(shù)少、數(shù)據(jù)樣本個數(shù)多的數(shù)據(jù)集均有效。
(3)wsIB算法不僅改善了聚類的性能,還有助于分析各維特征對聚類的貢獻(xiàn)度。
wsIB算法對各個聚類成員的先進(jìn)性進(jìn)行了劃分,利用權(quán)重改變了數(shù)據(jù)項(xiàng)之間的相對距離,降低了劣質(zhì)聚類成員的影響,提升了優(yōu)質(zhì)聚類成員的影響,使聚類質(zhì)量大大提高。因此,該算法在精確度方面優(yōu)于傳統(tǒng)IB聚類算法。
本文提出的wsIB方法可以很容易地?cái)U(kuò)展到其他聚類算法中。因此,將特征加權(quán)應(yīng)用到其他協(xié)同學(xué)習(xí)方法上是未來的一個研究方向。另外,可以對本文提出的方法進(jìn)行進(jìn)一步的理論分析,并將它應(yīng)用到其他領(lǐng)域之中。
參考文獻(xiàn):
[1] Tishby N, Pereira F, Bialek W.The Information Bottleneck Method[C]//Proceeding of the 37th Allerton Conference on Communication.USA:Control and Computing,1999: 368-377.
[2] 朱真峰, 葉陽東.基于變異的迭代 sIB 算法[J].計(jì)算機(jī)研究與發(fā)展, 2008, 44(11): 1832-1838.
[3] Slonim N, Friedman N, Tishby N.Unsupervised Document Classification Using Sequential Information Maximization[C]//Proceeding of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Finland:ACM, 2002: 129-136.
[4] Slonim N, Tishby N.Document Clustering Using Word Clusters via the Information Bottleneck Method[C]// Proceeding of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Greece:ACM, 2000: 208-215.
[5] Goldberger J, Gordon S, Greenspan H.Unsupervised Image-set Clustering Using an Information Theoretic Framework[J].IEEE Transactions on Image Processing, 2006, 15(2): 449-458.
[6] Slonim N, Somerville R, Tishby N, et al.Objective Classification of Galaxy Spectra Using the Information Bottleneck Method[J].Monthly Notices of the Royal Astronomical Society, 2001, 323(2): 270-284.
[7] Tishby N, Slonim N.Data Clustering by Markovian Relaxation and the Information Bottleneck Method[C]// Proceeding of the 13th Annual Conference on Neural Information Processing Systems.Colorado, USA:NIPS,2000: 640-646.
[8] 葉陽東, 劉東, 賈利民.一種自動確定參數(shù)的 sIB 算法[J].計(jì)算機(jī)學(xué)報(bào), 2007, 30(6): 969-978.
[9] Ye Y D, Ren Y, Li G.Using Local Density Information
to Improve IB Algorithms[J].Pattern Recognition Ietters, 2011, 32(2): 310-320.
[10] Ji B, Ye Y D, Xiao Y.Mutual Information Evaluation: a Way to Predict the Performance of Feature Weighting on Clustering[J].Intelligent Data Analysis, 2013, 17(6): 1001-1021.
[11] Kira K, Rendell L A.A Practical Approach to Feature Selection[C]//Proceeding of the 9th International Workshop on Machine Learning.Britain: Morgan Kaufmann Publishers Inc., 1992: 249-256.
[12] Lim S C, Jang S J, Lee S P.Music Genre/Mood Classification Using a Feature-based Modulation Spectrum[C]//International Conference on Mobile IT Convergence(ICMIC).Washington: Procceeding of IEEE Computer Society, 2011:133-136.