潘振君,梁 成,張化祥
(山東師范大學(xué)信息科學(xué)與工程學(xué)院,濟(jì)南 250358)
(?通信作者電子郵箱ALCS417@sdnu.edu.cn)
聚類是機(jī)器學(xué)習(xí)中最熱門的討論話題之一,廣泛應(yīng)用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。隨著數(shù)據(jù)分析技術(shù)的日益成熟,多視圖聚類成為人們關(guān)注的焦點(diǎn)。由于數(shù)據(jù)的異構(gòu)性,傳統(tǒng)的單視圖聚類算法難以適用于某些特定場景。多媒體數(shù)據(jù)來源廣泛且表示形式多樣,例如,在一個(gè)新聞事件的報(bào)道中,報(bào)道的內(nèi)容可能來自多個(gè)不同的新聞媒體機(jī)構(gòu),對該新聞的報(bào)道可能采用文字、圖片或視頻等形式[1-4]。不同的信息獲取方式和表示方式構(gòu)成了多視圖數(shù)據(jù)。多視圖數(shù)據(jù)學(xué)習(xí)已經(jīng)成為數(shù)據(jù)挖掘、多媒體計(jì)算等領(lǐng)域中尤為重要的一部分,越來越多的聚類算法被提出。在此之前,處理多視圖數(shù)據(jù)的方式是直接將多個(gè)視圖的特征進(jìn)行拼接來構(gòu)造一個(gè)新的特征矩陣,再對其應(yīng)用單視圖聚類算法得到聚類的結(jié)果;但是這種方法有明顯的缺陷,它沒有考慮每個(gè)視圖之間的內(nèi)部聯(lián)系,聚類性能也難以提高。因此學(xué)者們提出了多視圖聚類算法(Multi-View Clustering,MVC)。多視圖數(shù)據(jù)利用不同的視圖來描述事物的不同特征,但本質(zhì)上是對同一事物的描述。與單視圖聚類算法相比,多視圖聚類算法彌補(bǔ)了單視圖聚類算法使用單一數(shù)據(jù)類型,不能考慮數(shù)據(jù)的多樣性和不同視圖之間的一致性等缺點(diǎn)。不同的視圖不僅包含了所有視圖共享的數(shù)據(jù)信息,還包含了彼此不同的特定信息,這就是多視圖數(shù)據(jù)的多樣性。對數(shù)據(jù)中的異構(gòu)特征進(jìn)行良好的融合,可以有效提高算法的魯棒性。
近年來,學(xué)者們提出了很多先進(jìn)的多視圖聚類算法,根據(jù)處理和使用多視圖數(shù)據(jù)方式的不同,這些算法可以大致分為以下幾類:多視圖協(xié)同訓(xùn)練算法、多視圖多核學(xué)習(xí)算法、多視圖圖學(xué)習(xí)聚類算法、多視圖子空間聚類算法。協(xié)同訓(xùn)練最初是為解決半監(jiān)督學(xué)習(xí)問題而提出的。在半監(jiān)督學(xué)習(xí)中,數(shù)據(jù)由有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)組成,算法考慮利用多視圖數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí),協(xié)同訓(xùn)練算法的核心思想是利用多視圖數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí),在多視圖數(shù)據(jù)上利用有標(biāo)簽數(shù)據(jù)分別訓(xùn)練多個(gè)分類器。在訓(xùn)練過程中,每個(gè)分類器對無標(biāo)簽數(shù)據(jù)中置信度較高的數(shù)據(jù)進(jìn)行標(biāo)記,并將標(biāo)記后的數(shù)據(jù)加入到分類器的有標(biāo)簽數(shù)據(jù)中,利用新標(biāo)記不斷進(jìn)行更新。最具代表性的算法為Blum 等[5]提出的協(xié)同訓(xùn)練算法。文獻(xiàn)[6]中提出了一種結(jié)合K-means 聚類和線性判別分析的協(xié)同訓(xùn)練算法,該算法利用一個(gè)視圖中的無監(jiān)督聚類結(jié)果來學(xué)習(xí)另一個(gè)視圖中的判別子空間。多核學(xué)習(xí)(Multiple Kernel Learning,MKL)[7]算法是一類比單個(gè)核函數(shù)更具靈活性的基于內(nèi)核的學(xué)習(xí)算法,多核學(xué)習(xí)的內(nèi)核對應(yīng)不同的視圖,因此多核學(xué)習(xí)在處理多視圖數(shù)據(jù)方面得到了廣泛的應(yīng)用。在多核框架下,樣本在特征空間中的表示問題轉(zhuǎn)化為核與權(quán)系數(shù)的選擇問題。多核學(xué)習(xí)中的一個(gè)關(guān)鍵步驟是根據(jù)每個(gè)內(nèi)核的重要性為其分配一個(gè)合理的權(quán)重。文獻(xiàn)[8]中提出了一種改進(jìn)的算法,該算法通過學(xué)習(xí)低秩核矩陣來獲得相似度,并在核的鄰域內(nèi)找到最優(yōu)核。文獻(xiàn)[9]中提出了聚類加權(quán)核K均值算法,為不同視圖的內(nèi)部簇分配權(quán)重,并應(yīng)用核K均值,學(xué)習(xí)不同視圖共同的聚類指標(biāo)矩陣。由于圖是表示各種類型對象之間關(guān)系的重要數(shù)據(jù)結(jié)構(gòu),因此基于圖學(xué)習(xí)的聚類方法也被廣泛地用于聚類任務(wù)。圖中的每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)對象,每條邊表示兩個(gè)對象之間的關(guān)系,用權(quán)重衡量相鄰樣本點(diǎn)之間的相似度。
權(quán)值越大相似度越高,被劃分到同一類的概率越大。文獻(xiàn)[10]中提出了一種基于三階段圖的多視圖聚類算法,該算法結(jié)合子空間的圖表示和層次聚類方法,但未考慮不同視圖的權(quán)重;文獻(xiàn)[11]中則進(jìn)行了基于加權(quán)多視圖的聚類研究。這兩種算法首先為每個(gè)視圖生成一個(gè)相似度圖,然后對每個(gè)圖進(jìn)行加權(quán)來構(gòu)建統(tǒng)一表示,從而生成最終的聚類結(jié)果。
本文主要研究多視圖子空間聚類算法。子空間分割聚類算法是近年來學(xué)者廣泛研究的重點(diǎn),涉及機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和模式識別等多個(gè)領(lǐng)域。子空間聚類算法是將原始數(shù)據(jù)集映射到其子空間表示,然后構(gòu)造低秩的相似矩陣。該方法保留了原始數(shù)據(jù)集的相關(guān)性,能更好地揭示數(shù)據(jù)的子空間結(jié)構(gòu)。近年來,基于子空間的多視圖聚類算法由于其有效性而得到發(fā)展[12-15]。這些算法旨在發(fā)現(xiàn)嵌入在原始數(shù)據(jù)中的底層子空間,從而得到更加準(zhǔn)確的聚類結(jié)果。為了有效地整合來自不同視圖的特征,設(shè)計(jì)了各種多視圖子空間聚類算法,并取得了顯著的效果。這些算法的主要區(qū)別在于對表示系數(shù)矩陣進(jìn)行正則化。如文獻(xiàn)[16]中的稀疏子空間聚類(Sparse Subspace Clustering,SSC)算法對數(shù)據(jù)表示使用?0范數(shù)正則化;但問題是非凸的,不能直接求解,因此作者使用相應(yīng)的凸代替?1范數(shù)獲得問題的最優(yōu)解。文獻(xiàn)[17]中提出的魯棒低秩表示分割算法通過最小化數(shù)據(jù)表示的秩得到一個(gè)低秩表示矩陣,并采用交替方向最小化的增廣拉格朗日乘子方法(Augmented Lagrange Multiplier Method with Alternate Direction Minimization,ALM-ADM)求得最優(yōu)解。
現(xiàn)有的多視圖聚類算法已經(jīng)取得了許多優(yōu)異的成果,但目前多視圖下的聚類任務(wù)仍存在一些亟待解決的問題:
1)原始數(shù)據(jù)集中通常存在誤差、離群值等噪聲的干擾,直接在原始數(shù)據(jù)集上學(xué)習(xí)相似度矩陣,會對聚類結(jié)果產(chǎn)生影響;
2)一些算法中沒有考慮不同視圖之間差異,不同的視圖對聚類結(jié)果有不同的重要性,一般通過引入?yún)?shù)來解決這個(gè)問題,但這會使算法更加復(fù)雜;
3)許多方法需要引入額外的聚類步驟才能得到最終的聚類結(jié)果。
為了解決上述問題,本文提出一種基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類(Robust Multi-view subspace clustering based on Consistency Graph Learning,RMCGL)算法。該算法首先學(xué)習(xí)原始數(shù)據(jù)在低秩子空間的潛在魯棒表示,然后根據(jù)該表示學(xué)習(xí)不同視圖下的相似度矩陣。考慮到不同視圖之間的多樣性,根據(jù)相似度矩陣聯(lián)合學(xué)習(xí)一個(gè)一致圖,并通過自適應(yīng)的方式自動(dòng)調(diào)整不同視圖的權(quán)重。為了有效求解目標(biāo)函數(shù),算法采用交替方向極小化的拉格朗日乘子優(yōu)化算法。與傳統(tǒng)的多視圖子空間聚類算法相比,RMCGL 算法在仿真數(shù)據(jù)集及真實(shí)數(shù)據(jù)集上均表現(xiàn)出較好的性能。圖1 給出了RMCGL算法的流程。
圖1 RMCGL算法流程Fig.1 Flowchart of RMCGL algorithm
本章將簡要介紹與本文密切相關(guān)的兩個(gè)已有研究工作:基于低秩表示(Low-Rank Representation,LRR)的魯棒子空間分割[18]和基于多視圖聚類與自適應(yīng)鄰居(Multi-view Learning with Adaptive Neighbours,MLAN)的半監(jiān)督分類[29]。其中,LRR是單視圖聚類算法,MLAN為多視圖聚類的算法。
LRR 是一種基于低秩表示的聚類算法,該算法與SSC 非常相似,但其目標(biāo)是在所有候選向量中尋找一種低秩表示而非稀疏表示。給定一組向量X=[x1,x2,…,xn],假設(shè)這些向量來自k個(gè)獨(dú)立子空間的并集,算法的目標(biāo)是在d維歐氏空間中,將所有數(shù)據(jù)向量分割到它們各自所屬的子空間中。因此,LRR算法通過求解下面的凸優(yōu)化問題找到D:
MLAN 是一種基于自適應(yīng)鄰居節(jié)點(diǎn)的多視圖聚類算法。該算法從數(shù)據(jù)點(diǎn)的角度將每個(gè)視圖的特征融合,求出一個(gè)統(tǒng)一的相似度圖U。MLAN 是對基于自適應(yīng)鄰居聚類(Clustering with Adaptive Neighbors,CAN)[20]的擴(kuò)展,可以同時(shí)進(jìn)行多視圖聚類和局部流形結(jié)構(gòu)學(xué)習(xí)。該算法如下所示:
本章將詳細(xì)介紹本文所提出的RMCGL 算法以及其求解和優(yōu)化過程。首先介紹一些基本符號的含義。矩陣和向量分別寫成加粗斜體大寫字母和加粗斜體小寫字母;Frobenius 范數(shù)的符號為‖ ? ‖F(xiàn),?2范數(shù)的符號為‖ ? ‖2;其他本文常用的符號定義見表1。
表1 常用符號及其定義Tab.1 Common symbols and their definitions
給定V個(gè)視圖X1,X2,…,XV為各個(gè)視圖對應(yīng)的數(shù)據(jù)矩陣,其中第v個(gè)視圖表示為Xv={Xv1,Xv2,…,Xvn}∈Rdv×n。對于任一視圖Xv中的數(shù)據(jù),其通常是存在于一個(gè)潛在的低維空間中而非均勻分布于整個(gè)空間,因此,所有的數(shù)據(jù)都可在低維子空間中進(jìn)行表示?;诖耍紫葘RR 算法擴(kuò)展到多視圖學(xué)習(xí)中,即有:
其中:Av和Ev的定義如表1 所示。通過式(1)可以獲得各視圖下數(shù)據(jù)的子空間表示矩陣,并且能夠有效消除原始數(shù)據(jù)中噪聲或異常值的影響。該過程對噪聲具有魯棒性,可得到不同視圖的潛在魯棒表示;但式(1)中沒有考慮不同視圖間的聯(lián)系,也無法直接獲得有效的相似度矩陣進(jìn)行聚類。一個(gè)可行的解決方法是將Av作為各個(gè)視圖下的相似度矩陣,然后通過目標(biāo)函數(shù)學(xué)習(xí)一個(gè)統(tǒng)一的相似度矩陣A。然而,盡管該方案可行,但Av作為相似度矩陣所代表的含義與其本質(zhì)的定義并不相同。為了解決該問題,本文利用Av作為樣本的潛在特征表示,為各個(gè)視圖學(xué)習(xí)一個(gè)新的相似度矩陣Sv,目標(biāo)函數(shù)如下:
其中:λA、λS、λE是三個(gè)非負(fù)參數(shù),用來平衡各項(xiàng);wv={w1,w2,…,wv} 用來衡量不同視圖之間的權(quán)重。在LLR 算法中表示學(xué)習(xí)和誤差項(xiàng)分別采用核范數(shù)和?2,1范數(shù),但是為了使后續(xù)優(yōu)化問題方便求解,本文中表示學(xué)習(xí)和誤差項(xiàng)均采用F范數(shù)。公式中的前兩項(xiàng)用來學(xué)習(xí)每個(gè)視圖的潛在魯棒表示,即圖1 中①、②過程,不同于直接在原始數(shù)據(jù)上學(xué)習(xí)相似度矩陣,該過程考慮了原始數(shù)據(jù)噪聲的干擾。為了獲得更好的聚類結(jié)果,三、四兩項(xiàng)(圖1 過程③)根據(jù)得到的魯棒表示,學(xué)習(xí)不同視圖的相似度矩陣。最后一項(xiàng)的目的是利用多個(gè)相似度圖,學(xué)得一個(gè)一致圖,如圖1 過程④所示,該過程充分考慮了視圖間的多樣性。引入權(quán)值參數(shù)w(圖1 過程⑤)為不同視圖分配合適的權(quán)值。本文RMCGL算法采用自加權(quán)方式,其更新規(guī)則將在下一節(jié)中詳細(xì)介紹。此外,為了直接通過一致圖G得到最終的聚類結(jié)果而不借助于其他的聚類算法,本文對圖G的拉普拉斯矩陣施加一個(gè)秩約束rank(LG)=n -c,使得一致圖G中連通分量的個(gè)數(shù)恰好等于聚類的個(gè)數(shù)c,由此得到如下結(jié)果:
由于秩約束的存在導(dǎo)致上式求解困難,因此,采用秩約束的等價(jià)形式。令σc(LG)為LG第c小的特征值,LG是半正定的,有σc(LG)≥0。根據(jù)圖拉普拉斯矩陣的性質(zhì),特征值為0 的重?cái)?shù)c等于圖G中連通分量的個(gè)數(shù)。即LG應(yīng)有c個(gè)0 特征值,此時(shí)滿足秩約束條件。根據(jù)Ky Fan’s 定理[21],有
其中:F為標(biāo)簽矩陣。因此,式(4)中的秩約束可由式(5)表示,將式(4)和(5)結(jié)合得到最終的目標(biāo)函數(shù)如下所示:
本節(jié)對提出的RMCGL算法進(jìn)行詳細(xì)的求解。由式(6)可以看出,該算法在一個(gè)統(tǒng)一的優(yōu)化框架中學(xué)習(xí)與數(shù)據(jù)表示相關(guān)的親和圖。算法中有五個(gè)變量需要求解,考慮到式(6)同時(shí)關(guān)于所有的求解變量是非凸的,但當(dāng)其中一個(gè)變量固定時(shí),對其他變量的優(yōu)化都是凸的,因此本文采用交替方向最小化(Alternating Direction Minimizing,ADM)策略[22]的增廣拉格朗日乘子(Augmented Lagrangian Multiplier,ALM)對目標(biāo)函數(shù)進(jìn)行求解。首先引入一個(gè)輔助變量C來代替目標(biāo)函數(shù)第三項(xiàng)中的A,以分離變量。算法的增廣拉格朗日函數(shù)如下:
其中:M1和M2是拉格朗日乘子,定義,其中μ>0是懲罰參數(shù)。
1)更新E。
當(dāng)固定其他變量時(shí),只保留增廣拉格朗日函數(shù)中包含E的項(xiàng),對其求偏導(dǎo)后置0,可得如下結(jié)果:
2)更新A。
只保留與A相關(guān)的項(xiàng),然后對A求導(dǎo)并置0,得到如下結(jié)果:
3)更新C。
與求E和A的方法類似,C的更新規(guī)則如下:
根據(jù)拉普拉斯矩陣的定義,很容易得到
因此Cv的解如下:
4)更新S。
對于S的求解,可以將其看作是在求解以下優(yōu)化問題:
該問題可同樣根據(jù)約束條件利用拉格朗日函數(shù)進(jìn)行求解,最終求得S的解如下:
其中si有k個(gè)非零項(xiàng)。
5)更新G。
值得注意的是,問題(15)對于每個(gè)不同的i是獨(dú)立的,可單獨(dú)求解。因此可將式(15)進(jìn)一步轉(zhuǎn)化為:
該步驟的詳細(xì)求解過程可參考文獻(xiàn)[23]。
6)更新F。
F可以通過最小化以下公式求得:
F的最優(yōu)解由LG的c個(gè)最小特征值對應(yīng)的c個(gè)特征向量構(gòu)成。
7)更新權(quán)重wv。
8)更新拉格朗日乘子M1和M2。
除了上述變量的更新外,還有兩個(gè)拉格朗日乘子需要更新,更新規(guī)則如下:
綜上所述,目標(biāo)函數(shù)(6)的詳細(xì)求解過程如算法1。
算法1 RMCGL算法
本文提出的RMCGL算法求解時(shí)采用的是迭代求解方式,可將算法分為多個(gè)子問題單獨(dú)計(jì)算,因此,該算法的時(shí)間復(fù)雜度可以通過計(jì)算每個(gè)子問題的時(shí)間復(fù)雜度獲得。每個(gè)子問題的時(shí)間復(fù)雜度如下:式(14)更新每個(gè)視圖的相似度矩陣Sv,其時(shí)間復(fù)雜度為O(Vnk);此外對相似度矩陣初始化所用時(shí)間復(fù)雜度為O(Vnkd);式(18)更新學(xué)習(xí)到的一致圖G,其時(shí)間復(fù)雜度為O(cn),其中c是聚類的個(gè)數(shù);式(19)更新F,需要計(jì)算拉普拉斯矩陣的特征向量,其時(shí)間復(fù)雜度為O(cn2);式(20)更新自加權(quán)系數(shù)w,其時(shí)間復(fù)雜度為O(Vn2)。假設(shè)該算法迭代次數(shù) 為t,則該算法的時(shí)間復(fù)雜度為O(t(Vnk+cn+cn2+Vn2)+Vnkd)。
為了驗(yàn)證RMCGL算法的有效性,利用三個(gè)常用評價(jià)指標(biāo)在2 個(gè)仿真數(shù)據(jù)集、6 個(gè)真實(shí)數(shù)據(jù)集以及4 個(gè)癌癥數(shù)據(jù)集上與其他算法進(jìn)行了比較。此外,還設(shè)計(jì)了多個(gè)實(shí)驗(yàn)來進(jìn)一步對所提出的算法進(jìn)行分析,包括:收斂性實(shí)驗(yàn)、參數(shù)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和魯棒性實(shí)驗(yàn)。
3.1.1 仿真數(shù)據(jù)集
本文使用兩個(gè)合成的仿真數(shù)據(jù)集來衡量RMCGL 算法的聚類效果。
synthetic 數(shù)據(jù)集[24]涉及三個(gè)基因組數(shù)據(jù)集,分別為RNA表達(dá)、DNA 甲基化和miRNA 表達(dá)。首先,對三個(gè)基因組數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,分別隨機(jī)抽取200 個(gè)缺失率低于20%的樣本,采用k近鄰算法,將200 個(gè)完整樣本的非空鄰居的均值賦值給缺失部分,得到第一種類型的數(shù)據(jù)矩陣,對其進(jìn)行奇異值分解得到。隨后構(gòu)造三個(gè)由多個(gè)簇組成的數(shù)據(jù)矩陣Yi=Bi+θ,其中Bi從{0,2,4,6}中隨機(jī)抽樣得到,代表不同簇的偽生物表達(dá)水平,θ~N(0,1)為隨機(jī)偏差,由此得到第二種類型的數(shù)據(jù)矩陣。最后,將這兩種類型的數(shù)據(jù)矩陣進(jìn)行重構(gòu),得到最終的仿真數(shù)據(jù)集。
two Gaussian 數(shù)據(jù)集[25]是一個(gè)隨機(jī)生成的高斯數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集中有兩組服從高斯分布的數(shù)據(jù),共200 個(gè)樣本。第一個(gè)視圖的均值為,協(xié)方差為。第二個(gè)視圖的均值為,協(xié)方差為。
3.1.2 真實(shí)數(shù)據(jù)集
6 個(gè)數(shù)據(jù)集分別為100leaves、BBC、NGs、Caltech101-20、COIL-20 和MSRC,詳細(xì)情況如下(總結(jié)見表2,其中v1~v6表示不同視圖的特征數(shù))。
表2 六個(gè)真實(shí)數(shù)據(jù)集的詳細(xì)描述Tab.2 Detailed description of six real-world datasets
1)100leaves 數(shù)據(jù)集。該數(shù)據(jù)集由100 種植物的1 600 個(gè)樣本組成,每個(gè)樣本特征包含形狀描述、細(xì)尺度邊緣和紋理直方圖。
2)BBC 數(shù)據(jù)集。該數(shù)據(jù)集由BBC 新聞網(wǎng)站的685 份文檔組成,這些文檔對應(yīng)五個(gè)領(lǐng)域,分別為商業(yè)、娛樂、政治、體育和科技。
3)新聞組數(shù)據(jù)集(NGs)。該數(shù)據(jù)集包含20個(gè)子集的新聞組數(shù)據(jù)集,由500 個(gè)新聞組文檔組成。每個(gè)原始文檔都用三種不同的方法進(jìn)行預(yù)處理(有監(jiān)督互信息預(yù)處理、無監(jiān)督互信息預(yù)處理和分區(qū)預(yù)處理),構(gòu)成三個(gè)視圖,并使用五種主題標(biāo)簽中的一種進(jìn)行注釋。每個(gè)新聞組對應(yīng)一個(gè)不同的主題。
4)Caltech101-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 類2 386 幅圖像,每幅圖像都有6 個(gè)特征,分別為:Gabor 特征、小波矩(Wavelet moments)特征、統(tǒng)計(jì)轉(zhuǎn)換直方圖(CENsus Transform HISTogram,CENTRIST)特征、方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征、通用搜索樹(Generalized Search Trees,GiST)特征和局部二值模式(Local Binary Pattern,LBP)特征。
5)COIL-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 個(gè)對象,將每個(gè)對象水平旋轉(zhuǎn)360°,每隔5°拍攝一張照片。每個(gè)對象有72張圖像,圖像像素大小為64×64,灰度圖像共計(jì)1 440張圖像。
6)MSRC 數(shù)據(jù)集。該數(shù)據(jù)集有5 個(gè)視圖,包含7 種類別(樹、建筑、飛機(jī)、牛、臉、汽車和自行車)的210張圖像。
3.1.3 癌癥數(shù)據(jù)集
機(jī)器學(xué)習(xí)算法在生物醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛,為了驗(yàn)證該算法在癌癥亞型分類上的效果,從人類癌癥數(shù)據(jù)庫TCGA 中挑選了4個(gè)數(shù)據(jù)集,分別為Breast、Colon、GBM 和Melanoma,每個(gè)數(shù)據(jù)集包含三個(gè)組學(xué)數(shù)據(jù):基因表達(dá)、DNA 甲基化和miRNA表達(dá)數(shù)據(jù)。
參數(shù)設(shè)置:目標(biāo)函數(shù)中有四個(gè)參數(shù)λE、λA、λC、λF,λE、λA、λC的取值范圍為[0.01,0.1,1,10,100]。在聚類過程中對λF采用自動(dòng)更新的方式,初值設(shè)為1,在每次迭代中,當(dāng)一致圖G的連通分量分別小于或大于聚類的簇?cái)?shù)時(shí)增大或減小λF(λF=λF*2,λF=λF/2)。最近鄰個(gè)數(shù)為15,對于每個(gè)方法和數(shù)據(jù)集,重復(fù)運(yùn)行30次記錄平均結(jié)果。
為了評估該算法的性能,本文將該算法與現(xiàn)有的多種聚類算法進(jìn)行了對比。典型的單視圖對比算法有:非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)[26]和自適應(yīng)鄰居節(jié)點(diǎn)聚類CAN。多視圖對比方法包括基于圖的多視圖聚類系統(tǒng)GBS(Braph-Based System)[27]、多視圖非負(fù)矩陣分解(Multiview Nonnegative Matrix Factorization,MultiNMF)[28]、共正則化譜聚類(Co-regularized multi-view Spectral Clustering,CoregSC)[29]、協(xié)同訓(xùn)練譜聚類Co-train[30]、基于一致圖的多視圖聚類(Graph-based Multi-View Clustering,GMC)以及自適應(yīng)鄰居多視圖聚類(MLAN)。在表3 中對比了本文算法與上述多視圖聚類算法的時(shí)間復(fù)雜度。
表3 時(shí)間復(fù)雜度對比Tab.3 Time complexity comparison
為了評估該算法的性能,本文采用三個(gè)常見的評價(jià)指標(biāo):精度(Accuracy,ACC)、歸一化互信息(Normalized Mutual Information,NMI))和純度(Purity)來衡量實(shí)驗(yàn)效果。此外,為了評估各個(gè)算法在癌癥數(shù)據(jù)集上的效果,本文采用了經(jīng)驗(yàn)p值衡量癌癥樣本分組后的生存差異[31],p值越低,表示不同組間的生存差異越顯著。
表4~6 分別列出了本文算法與其他聚類算法在仿真數(shù)據(jù)集及6 個(gè)真實(shí)數(shù)據(jù)集上的ACC、NMI、Purity 結(jié)果。觀察表4~6可知,對于評價(jià)指標(biāo)ACC,本文算法在每個(gè)數(shù)據(jù)集上都取得了最好的結(jié)果。
表4 不同聚類算法在不同數(shù)據(jù)集上的ACC值 單位:%Tab.4 ACC values of different clustering algorithms on different datasets unit:%
表5 不同聚類算法在不同數(shù)據(jù)集上的NMI值 單位:%Tab.5 NMI values of different clustering algorithms on different datasets unit:%
表6 不同聚類算法在不同數(shù)據(jù)集上的Purity值 單位:%Tab.6 Purity values of different clustering algorithms on different datasets unit:%
表7 給出了各對比算法在4 個(gè)癌癥數(shù)據(jù)集上經(jīng)驗(yàn)p值的實(shí)驗(yàn)結(jié)果,同時(shí)圖2 給出了RMCGL 算法在GBM 與Melanoma數(shù)據(jù)集上的生存分析曲線。與上述多視圖聚類算法相比,RMCGL 算法在所有的癌癥數(shù)據(jù)集上都得到了顯著的p值(p?value<0.05),并且在四組癌癥數(shù)據(jù)集上的結(jié)果都是最顯著的。這些結(jié)果充分驗(yàn)證了本文算法的有效性及良好的泛化能力。
表7 四個(gè)癌癥數(shù)據(jù)集上經(jīng)驗(yàn)p值比較Tab.7 Comparison of empirical p-values on four cancer datasets
圖2 RMCGL算法在GBM與Melanoma數(shù)據(jù)集上的生存分析曲線Fig.2 Survival analysis curve of RMCGL algorithm on GBM and Melanoma datasets
圖3 為RMCGL 在NGs 和two Gaussian 數(shù)據(jù)集上學(xué)習(xí)得到的一致圖G對應(yīng)的熱圖,從圖中可以清晰地看到一致圖的塊對角結(jié)構(gòu),這說明算法能學(xué)習(xí)一個(gè)高質(zhì)量的相似度圖結(jié)構(gòu)。
圖3 RMCGL學(xué)習(xí)得到的一致圖G在NGs和two Gaussian 數(shù)據(jù)集上的熱圖Fig.3 Heat maps of the consistency graph G learned by RMCGL on NGs and two Gaussian datasets
本文RMCGL 算法中創(chuàng)新性地引入了秩約束和魯棒表示學(xué)習(xí),為了驗(yàn)證算法各部分對實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)了對應(yīng)步驟的消融實(shí)驗(yàn)。取表4 中4 個(gè)數(shù)據(jù)集的ACC 值所對應(yīng)的參數(shù)進(jìn)行消融實(shí)驗(yàn)的對比分析,主要驗(yàn)證秩約束、相似度矩陣學(xué)習(xí)和魯棒表示學(xué)習(xí)對算法結(jié)果的影響。將去掉秩約束時(shí)的過程稱為RC;直接從不同視圖的魯棒表示學(xué)習(xí)中學(xué)習(xí)一個(gè)一致圖的過程為RL。此外去掉魯棒表示學(xué)習(xí)時(shí),該算法即為GMC算法,本文算法與前者的區(qū)別在于,前者從原始數(shù)據(jù)集中學(xué)習(xí)不同視圖的相似度矩陣,而RMCGL預(yù)先學(xué)習(xí)原始數(shù)據(jù)的魯棒表示作為相似度學(xué)習(xí)的輸入。結(jié)果如表8 所示,從表中可以看出,在分別去掉秩約束、表示學(xué)習(xí)和相似度學(xué)習(xí)后的實(shí)驗(yàn)結(jié)果明顯差于RMCGL 的結(jié)果,尤其在NGs 數(shù)據(jù)集中,添加秩約束后的結(jié)果提升了超過30個(gè)百分點(diǎn);在MSRC數(shù)據(jù)集中,根據(jù)表示矩陣學(xué)習(xí)一致圖時(shí)的結(jié)果比該算法結(jié)果低20 個(gè)百分點(diǎn)左右。去掉表示學(xué)習(xí)時(shí)的結(jié)果見表4。由此可見,對學(xué)習(xí)到的一致圖施加秩約束、子空間魯棒表示學(xué)習(xí)以及根據(jù)魯棒表示矩陣學(xué)習(xí)不同視圖的相似度矩陣進(jìn)而得到一致圖的過程對實(shí)驗(yàn)結(jié)果都做出了貢獻(xiàn)。
表8 消融實(shí)驗(yàn)ACC結(jié)果 單位:%Tab.8 ACC results of ablation experiments unit:%
為了驗(yàn)證RMCGL算法對實(shí)驗(yàn)結(jié)果的魯棒性,設(shè)計(jì)了以下實(shí)驗(yàn):將誤差正則化項(xiàng)部分去掉,得到如圖4 所示結(jié)果。從圖4 中可以看出,在固定參數(shù)的情況下,去掉誤差正則化項(xiàng)部分后的4 個(gè)數(shù)據(jù)集的ACC 結(jié)果都有一定程度的下降,但整體下降幅度偏小,這表明RMCGL算法對數(shù)據(jù)具有較好的魯棒性。
圖4 去掉誤差正則化項(xiàng)后在固定參數(shù)時(shí)各數(shù)據(jù)集的ACC結(jié)果Fig.4 ACC results of different datasets at fixed parameters after removing error regularization term
本節(jié)分析了RMCGL 算法的收斂性,如圖5所示,圖中的x軸和y軸分別表示迭代次數(shù)和目標(biāo)函數(shù)的值。從圖5 中可以看出,本文經(jīng)過少量迭代后就可以達(dá)到穩(wěn)定的收斂狀態(tài)。
圖5 RMCGL算法在100leaves和BBC數(shù)據(jù)集上的收斂曲線Fig.5 Convergence curves of RMCGL algorithm on 100leaves and BBC datasets
RMCGL算法中共有三個(gè)參數(shù)λE、λA和λC。為了分析這三個(gè)參數(shù)對算法性能的影響,將其中一個(gè)參數(shù)固定后分析另外兩個(gè)參數(shù)變化對NMI 值的影響,見表9~10。三個(gè)參數(shù)在所有數(shù)據(jù)集上的取值范圍均為[0.01,0.1,1,10,100]。
表9 NGs數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.9 Analysis of NMI value of NGs dataset with parameter variation
表10 COIL20數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.10 Analysis of NMI value of COIL20 dataset with parameter variation
圖6 展示了λE在兩個(gè)數(shù)據(jù)集上的參數(shù)分析結(jié)果。在NGs數(shù)據(jù)集中,當(dāng)λA和λC的值?。?.01,0.01)時(shí),固定這兩個(gè)參數(shù),得到NMI相對于λE這個(gè)參數(shù)時(shí)的取值范圍:當(dāng)λE取1時(shí)的效果最好,NMI的值為93.40%;而在取0.01時(shí)最小,NMI的值為86.73%。在COIL20 數(shù)據(jù)集中,λA和λC取(1,1)時(shí)固定,λE為0.01 時(shí)NMI 的最大值93.55%,而隨著參數(shù)值的增大,NMI的取值范圍變化平穩(wěn)。從圖中可以看出,算法對于參數(shù)的變化相對較為魯棒。
圖6 RMCGL算法在NGs和COIL20數(shù)據(jù)集上的參數(shù)分析Fig.6 Parameter analysis of RMCGL algorithm on NGs and COIL20 datasets
近年來,多視圖聚類在許多領(lǐng)域得到了應(yīng)用。多視圖數(shù)據(jù)比傳統(tǒng)的單視圖數(shù)據(jù)提供了更豐富的信息來揭示內(nèi)部結(jié)構(gòu),并能獲得更好的聚類效果。本文首先簡要回顧了多視圖聚類算法,然后提出了一種新的基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類算法RMCGL。該算法通過學(xué)習(xí)數(shù)據(jù)的子空間表示來避免原始數(shù)據(jù)集中噪聲的干擾,并基于該表示構(gòu)建不同視圖下的相似度矩陣;同時(shí)引入自加權(quán)策略,根據(jù)不同視圖的重要性合理分配視圖權(quán)重,并構(gòu)造一個(gè)統(tǒng)一的一致圖;通過對一致圖的拉普拉斯矩陣施加秩約束直接獲得聚類結(jié)果,而不需要引入額外的聚類步驟。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了RMCGL算法的有效性,相比其他多視圖聚類算法有明顯優(yōu)勢。