基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類

2022-01-05 02:31潘振君張化祥

計(jì)算機(jī)應(yīng)用 2021年12期

潘振君，梁成，張化祥

（山東師范大學(xué)信息科學(xué)與工程學(xué)院，濟(jì)南 250358）

（?通信作者電子郵箱ALCS417@sdnu.edu.cn）

0 引言

聚類是機(jī)器學(xué)習(xí)中最熱門的討論話題之一，廣泛應(yīng)用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域。隨著數(shù)據(jù)分析技術(shù)的日益成熟，多視圖聚類成為人們關(guān)注的焦點(diǎn)。由于數(shù)據(jù)的異構(gòu)性，傳統(tǒng)的單視圖聚類算法難以適用于某些特定場景。多媒體數(shù)據(jù)來源廣泛且表示形式多樣，例如，在一個(gè)新聞事件的報(bào)道中，報(bào)道的內(nèi)容可能來自多個(gè)不同的新聞媒體機(jī)構(gòu)，對該新聞的報(bào)道可能采用文字、圖片或視頻等形式［1-4］。不同的信息獲取方式和表示方式構(gòu)成了多視圖數(shù)據(jù)。多視圖數(shù)據(jù)學(xué)習(xí)已經(jīng)成為數(shù)據(jù)挖掘、多媒體計(jì)算等領(lǐng)域中尤為重要的一部分，越來越多的聚類算法被提出。在此之前，處理多視圖數(shù)據(jù)的方式是直接將多個(gè)視圖的特征進(jìn)行拼接來構(gòu)造一個(gè)新的特征矩陣，再對其應(yīng)用單視圖聚類算法得到聚類的結(jié)果；但是這種方法有明顯的缺陷，它沒有考慮每個(gè)視圖之間的內(nèi)部聯(lián)系，聚類性能也難以提高。因此學(xué)者們提出了多視圖聚類算法（Multi-View Clustering，MVC）。多視圖數(shù)據(jù)利用不同的視圖來描述事物的不同特征，但本質(zhì)上是對同一事物的描述。與單視圖聚類算法相比，多視圖聚類算法彌補(bǔ)了單視圖聚類算法使用單一數(shù)據(jù)類型，不能考慮數(shù)據(jù)的多樣性和不同視圖之間的一致性等缺點(diǎn)。不同的視圖不僅包含了所有視圖共享的數(shù)據(jù)信息，還包含了彼此不同的特定信息，這就是多視圖數(shù)據(jù)的多樣性。對數(shù)據(jù)中的異構(gòu)特征進(jìn)行良好的融合，可以有效提高算法的魯棒性。

近年來，學(xué)者們提出了很多先進(jìn)的多視圖聚類算法，根據(jù)處理和使用多視圖數(shù)據(jù)方式的不同，這些算法可以大致分為以下幾類：多視圖協(xié)同訓(xùn)練算法、多視圖多核學(xué)習(xí)算法、多視圖圖學(xué)習(xí)聚類算法、多視圖子空間聚類算法。協(xié)同訓(xùn)練最初是為解決半監(jiān)督學(xué)習(xí)問題而提出的。在半監(jiān)督學(xué)習(xí)中，數(shù)據(jù)由有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)組成，算法考慮利用多視圖數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí)，協(xié)同訓(xùn)練算法的核心思想是利用多視圖數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的信息來輔助傳統(tǒng)的監(jiān)督學(xué)習(xí)，在多視圖數(shù)據(jù)上利用有標(biāo)簽數(shù)據(jù)分別訓(xùn)練多個(gè)分類器。在訓(xùn)練過程中，每個(gè)分類器對無標(biāo)簽數(shù)據(jù)中置信度較高的數(shù)據(jù)進(jìn)行標(biāo)記，并將標(biāo)記后的數(shù)據(jù)加入到分類器的有標(biāo)簽數(shù)據(jù)中，利用新標(biāo)記不斷進(jìn)行更新。最具代表性的算法為Blum 等［5］提出的協(xié)同訓(xùn)練算法。文獻(xiàn)［6］中提出了一種結(jié)合K-means 聚類和線性判別分析的協(xié)同訓(xùn)練算法，該算法利用一個(gè)視圖中的無監(jiān)督聚類結(jié)果來學(xué)習(xí)另一個(gè)視圖中的判別子空間。多核學(xué)習(xí)（Multiple Kernel Learning，MKL）［7］算法是一類比單個(gè)核函數(shù)更具靈活性的基于內(nèi)核的學(xué)習(xí)算法，多核學(xué)習(xí)的內(nèi)核對應(yīng)不同的視圖，因此多核學(xué)習(xí)在處理多視圖數(shù)據(jù)方面得到了廣泛的應(yīng)用。在多核框架下，樣本在特征空間中的表示問題轉(zhuǎn)化為核與權(quán)系數(shù)的選擇問題。多核學(xué)習(xí)中的一個(gè)關(guān)鍵步驟是根據(jù)每個(gè)內(nèi)核的重要性為其分配一個(gè)合理的權(quán)重。文獻(xiàn)［8］中提出了一種改進(jìn)的算法，該算法通過學(xué)習(xí)低秩核矩陣來獲得相似度，并在核的鄰域內(nèi)找到最優(yōu)核。文獻(xiàn)［9］中提出了聚類加權(quán)核K均值算法，為不同視圖的內(nèi)部簇分配權(quán)重，并應(yīng)用核K均值，學(xué)習(xí)不同視圖共同的聚類指標(biāo)矩陣。由于圖是表示各種類型對象之間關(guān)系的重要數(shù)據(jù)結(jié)構(gòu)，因此基于圖學(xué)習(xí)的聚類方法也被廣泛地用于聚類任務(wù)。圖中的每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)對象，每條邊表示兩個(gè)對象之間的關(guān)系，用權(quán)重衡量相鄰樣本點(diǎn)之間的相似度。

權(quán)值越大相似度越高，被劃分到同一類的概率越大。文獻(xiàn)［10］中提出了一種基于三階段圖的多視圖聚類算法，該算法結(jié)合子空間的圖表示和層次聚類方法，但未考慮不同視圖的權(quán)重；文獻(xiàn)［11］中則進(jìn)行了基于加權(quán)多視圖的聚類研究。這兩種算法首先為每個(gè)視圖生成一個(gè)相似度圖，然后對每個(gè)圖進(jìn)行加權(quán)來構(gòu)建統(tǒng)一表示，從而生成最終的聚類結(jié)果。

本文主要研究多視圖子空間聚類算法。子空間分割聚類算法是近年來學(xué)者廣泛研究的重點(diǎn)，涉及機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和模式識別等多個(gè)領(lǐng)域。子空間聚類算法是將原始數(shù)據(jù)集映射到其子空間表示，然后構(gòu)造低秩的相似矩陣。該方法保留了原始數(shù)據(jù)集的相關(guān)性，能更好地揭示數(shù)據(jù)的子空間結(jié)構(gòu)。近年來，基于子空間的多視圖聚類算法由于其有效性而得到發(fā)展［12-15］。這些算法旨在發(fā)現(xiàn)嵌入在原始數(shù)據(jù)中的底層子空間，從而得到更加準(zhǔn)確的聚類結(jié)果。為了有效地整合來自不同視圖的特征，設(shè)計(jì)了各種多視圖子空間聚類算法，并取得了顯著的效果。這些算法的主要區(qū)別在于對表示系數(shù)矩陣進(jìn)行正則化。如文獻(xiàn)［16］中的稀疏子空間聚類（Sparse Subspace Clustering，SSC）算法對數(shù)據(jù)表示使用?0范數(shù)正則化；但問題是非凸的，不能直接求解，因此作者使用相應(yīng)的凸代替?1范數(shù)獲得問題的最優(yōu)解。文獻(xiàn)［17］中提出的魯棒低秩表示分割算法通過最小化數(shù)據(jù)表示的秩得到一個(gè)低秩表示矩陣，并采用交替方向最小化的增廣拉格朗日乘子方法（Augmented Lagrange Multiplier Method with Alternate Direction Minimization，ALM-ADM）求得最優(yōu)解。

現(xiàn)有的多視圖聚類算法已經(jīng)取得了許多優(yōu)異的成果，但目前多視圖下的聚類任務(wù)仍存在一些亟待解決的問題：

1）原始數(shù)據(jù)集中通常存在誤差、離群值等噪聲的干擾，直接在原始數(shù)據(jù)集上學(xué)習(xí)相似度矩陣，會對聚類結(jié)果產(chǎn)生影響；

2）一些算法中沒有考慮不同視圖之間差異，不同的視圖對聚類結(jié)果有不同的重要性，一般通過引入?yún)?shù)來解決這個(gè)問題，但這會使算法更加復(fù)雜；

3）許多方法需要引入額外的聚類步驟才能得到最終的聚類結(jié)果。

為了解決上述問題，本文提出一種基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類（Robust Multi-view subspace clustering based on Consistency Graph Learning，RMCGL）算法。該算法首先學(xué)習(xí)原始數(shù)據(jù)在低秩子空間的潛在魯棒表示，然后根據(jù)該表示學(xué)習(xí)不同視圖下的相似度矩陣。考慮到不同視圖之間的多樣性，根據(jù)相似度矩陣聯(lián)合學(xué)習(xí)一個(gè)一致圖，并通過自適應(yīng)的方式自動(dòng)調(diào)整不同視圖的權(quán)重。為了有效求解目標(biāo)函數(shù)，算法采用交替方向極小化的拉格朗日乘子優(yōu)化算法。與傳統(tǒng)的多視圖子空間聚類算法相比，RMCGL 算法在仿真數(shù)據(jù)集及真實(shí)數(shù)據(jù)集上均表現(xiàn)出較好的性能。圖1 給出了RMCGL算法的流程。

圖1 RMCGL算法流程Fig.1 Flowchart of RMCGL algorithm

1 相關(guān)工作

本章將簡要介紹與本文密切相關(guān)的兩個(gè)已有研究工作：基于低秩表示（Low-Rank Representation，LRR）的魯棒子空間分割［18］和基于多視圖聚類與自適應(yīng)鄰居（Multi-view Learning with Adaptive Neighbours，MLAN）的半監(jiān)督分類［29］。其中，LRR是單視圖聚類算法，MLAN為多視圖聚類的算法。

1.1 LRR

LRR 是一種基于低秩表示的聚類算法，該算法與SSC 非常相似，但其目標(biāo)是在所有候選向量中尋找一種低秩表示而非稀疏表示。給定一組向量X=[x1，x2，…，xn]，假設(shè)這些向量來自k個(gè)獨(dú)立子空間的并集，算法的目標(biāo)是在d維歐氏空間中，將所有數(shù)據(jù)向量分割到它們各自所屬的子空間中。因此，LRR算法通過求解下面的凸優(yōu)化問題找到D：

1.2 MLAN

MLAN 是一種基于自適應(yīng)鄰居節(jié)點(diǎn)的多視圖聚類算法。該算法從數(shù)據(jù)點(diǎn)的角度將每個(gè)視圖的特征融合，求出一個(gè)統(tǒng)一的相似度圖U。MLAN 是對基于自適應(yīng)鄰居聚類（Clustering with Adaptive Neighbors，CAN）［20］的擴(kuò)展，可以同時(shí)進(jìn)行多視圖聚類和局部流形結(jié)構(gòu)學(xué)習(xí)。該算法如下所示：

2 基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類

本章將詳細(xì)介紹本文所提出的RMCGL 算法以及其求解和優(yōu)化過程。首先介紹一些基本符號的含義。矩陣和向量分別寫成加粗斜體大寫字母和加粗斜體小寫字母；Frobenius 范數(shù)的符號為‖ ? ‖F(xiàn)，?2范數(shù)的符號為‖ ? ‖2；其他本文常用的符號定義見表1。

表1 常用符號及其定義Tab.1 Common symbols and their definitions

2.1 RMCGL算法

給定V個(gè)視圖X1，X2，…，XV為各個(gè)視圖對應(yīng)的數(shù)據(jù)矩陣，其中第v個(gè)視圖表示為Xv={Xv1，Xv2，…，Xvn}∈Rdv×n。對于任一視圖Xv中的數(shù)據(jù)，其通常是存在于一個(gè)潛在的低維空間中而非均勻分布于整個(gè)空間，因此，所有的數(shù)據(jù)都可在低維子空間中進(jìn)行表示?；诖耍紫葘RR 算法擴(kuò)展到多視圖學(xué)習(xí)中，即有：

其中：Av和Ev的定義如表1 所示。通過式（1）可以獲得各視圖下數(shù)據(jù)的子空間表示矩陣，并且能夠有效消除原始數(shù)據(jù)中噪聲或異常值的影響。該過程對噪聲具有魯棒性，可得到不同視圖的潛在魯棒表示；但式（1）中沒有考慮不同視圖間的聯(lián)系，也無法直接獲得有效的相似度矩陣進(jìn)行聚類。一個(gè)可行的解決方法是將Av作為各個(gè)視圖下的相似度矩陣，然后通過目標(biāo)函數(shù)學(xué)習(xí)一個(gè)統(tǒng)一的相似度矩陣A。然而，盡管該方案可行，但Av作為相似度矩陣所代表的含義與其本質(zhì)的定義并不相同。為了解決該問題，本文利用Av作為樣本的潛在特征表示，為各個(gè)視圖學(xué)習(xí)一個(gè)新的相似度矩陣Sv，目標(biāo)函數(shù)如下：

其中：λA、λS、λE是三個(gè)非負(fù)參數(shù)，用來平衡各項(xiàng)；wv={w1，w2，…，wv} 用來衡量不同視圖之間的權(quán)重。在LLR 算法中表示學(xué)習(xí)和誤差項(xiàng)分別采用核范數(shù)和?2，1范數(shù)，但是為了使后續(xù)優(yōu)化問題方便求解，本文中表示學(xué)習(xí)和誤差項(xiàng)均采用F范數(shù)。公式中的前兩項(xiàng)用來學(xué)習(xí)每個(gè)視圖的潛在魯棒表示，即圖1 中①、②過程，不同于直接在原始數(shù)據(jù)上學(xué)習(xí)相似度矩陣，該過程考慮了原始數(shù)據(jù)噪聲的干擾。為了獲得更好的聚類結(jié)果，三、四兩項(xiàng)（圖1 過程③）根據(jù)得到的魯棒表示，學(xué)習(xí)不同視圖的相似度矩陣。最后一項(xiàng)的目的是利用多個(gè)相似度圖，學(xué)得一個(gè)一致圖，如圖1 過程④所示，該過程充分考慮了視圖間的多樣性。引入權(quán)值參數(shù)w（圖1 過程⑤）為不同視圖分配合適的權(quán)值。本文RMCGL算法采用自加權(quán)方式，其更新規(guī)則將在下一節(jié)中詳細(xì)介紹。此外，為了直接通過一致圖G得到最終的聚類結(jié)果而不借助于其他的聚類算法，本文對圖G的拉普拉斯矩陣施加一個(gè)秩約束rank(LG)=n -c，使得一致圖G中連通分量的個(gè)數(shù)恰好等于聚類的個(gè)數(shù)c，由此得到如下結(jié)果：

由于秩約束的存在導(dǎo)致上式求解困難，因此，采用秩約束的等價(jià)形式。令σc(LG)為LG第c小的特征值，LG是半正定的，有σc(LG)≥0。根據(jù)圖拉普拉斯矩陣的性質(zhì)，特征值為0 的重?cái)?shù)c等于圖G中連通分量的個(gè)數(shù)。即LG應(yīng)有c個(gè)0 特征值，此時(shí)滿足秩約束條件。根據(jù)Ky Fan’s 定理［21］，有

其中：F為標(biāo)簽矩陣。因此，式（4）中的秩約束可由式（5）表示，將式（4）和（5）結(jié)合得到最終的目標(biāo)函數(shù)如下所示：

2.2 算法求解

本節(jié)對提出的RMCGL算法進(jìn)行詳細(xì)的求解。由式（6）可以看出，該算法在一個(gè)統(tǒng)一的優(yōu)化框架中學(xué)習(xí)與數(shù)據(jù)表示相關(guān)的親和圖。算法中有五個(gè)變量需要求解，考慮到式（6）同時(shí)關(guān)于所有的求解變量是非凸的，但當(dāng)其中一個(gè)變量固定時(shí)，對其他變量的優(yōu)化都是凸的，因此本文采用交替方向最小化（Alternating Direction Minimizing，ADM）策略［22］的增廣拉格朗日乘子（Augmented Lagrangian Multiplier，ALM）對目標(biāo)函數(shù)進(jìn)行求解。首先引入一個(gè)輔助變量C來代替目標(biāo)函數(shù)第三項(xiàng)中的A，以分離變量。算法的增廣拉格朗日函數(shù)如下：

其中：M1和M2是拉格朗日乘子，定義，其中μ＞0是懲罰參數(shù)。

1）更新E。

當(dāng)固定其他變量時(shí)，只保留增廣拉格朗日函數(shù)中包含E的項(xiàng)，對其求偏導(dǎo)后置0，可得如下結(jié)果：

2）更新A。

只保留與A相關(guān)的項(xiàng)，然后對A求導(dǎo)并置0，得到如下結(jié)果：

3）更新C。

與求E和A的方法類似，C的更新規(guī)則如下：

根據(jù)拉普拉斯矩陣的定義，很容易得到

因此Cv的解如下：

4）更新S。

對于S的求解，可以將其看作是在求解以下優(yōu)化問題：

該問題可同樣根據(jù)約束條件利用拉格朗日函數(shù)進(jìn)行求解，最終求得S的解如下：

其中si有k個(gè)非零項(xiàng)。

5）更新G。

值得注意的是，問題（15）對于每個(gè)不同的i是獨(dú)立的，可單獨(dú)求解。因此可將式（15）進(jìn)一步轉(zhuǎn)化為：

該步驟的詳細(xì)求解過程可參考文獻(xiàn)［23］。

6）更新F。

F可以通過最小化以下公式求得：

F的最優(yōu)解由LG的c個(gè)最小特征值對應(yīng)的c個(gè)特征向量構(gòu)成。

7）更新權(quán)重wv。

8）更新拉格朗日乘子M1和M2。

除了上述變量的更新外，還有兩個(gè)拉格朗日乘子需要更新，更新規(guī)則如下：

綜上所述，目標(biāo)函數(shù)（6）的詳細(xì)求解過程如算法1。

算法1 RMCGL算法

2.3 時(shí)間復(fù)雜度分析

本文提出的RMCGL算法求解時(shí)采用的是迭代求解方式，可將算法分為多個(gè)子問題單獨(dú)計(jì)算，因此，該算法的時(shí)間復(fù)雜度可以通過計(jì)算每個(gè)子問題的時(shí)間復(fù)雜度獲得。每個(gè)子問題的時(shí)間復(fù)雜度如下：式（14）更新每個(gè)視圖的相似度矩陣Sv，其時(shí)間復(fù)雜度為O（Vnk）；此外對相似度矩陣初始化所用時(shí)間復(fù)雜度為O（Vnkd）；式（18）更新學(xué)習(xí)到的一致圖G，其時(shí)間復(fù)雜度為O（cn），其中c是聚類的個(gè)數(shù)；式（19）更新F，需要計(jì)算拉普拉斯矩陣的特征向量，其時(shí)間復(fù)雜度為O（cn2）；式（20）更新自加權(quán)系數(shù)w，其時(shí)間復(fù)雜度為O（Vn2）。假設(shè)該算法迭代次數(shù) 為t，則該算法的時(shí)間復(fù)雜度為O（t（Vnk+cn+cn2+Vn2）+Vnkd）。

3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

為了驗(yàn)證RMCGL算法的有效性，利用三個(gè)常用評價(jià)指標(biāo)在2 個(gè)仿真數(shù)據(jù)集、6 個(gè)真實(shí)數(shù)據(jù)集以及4 個(gè)癌癥數(shù)據(jù)集上與其他算法進(jìn)行了比較。此外，還設(shè)計(jì)了多個(gè)實(shí)驗(yàn)來進(jìn)一步對所提出的算法進(jìn)行分析，包括：收斂性實(shí)驗(yàn)、參數(shù)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和魯棒性實(shí)驗(yàn)。

3.1 數(shù)據(jù)集描述

3.1.1 仿真數(shù)據(jù)集

本文使用兩個(gè)合成的仿真數(shù)據(jù)集來衡量RMCGL 算法的聚類效果。

synthetic 數(shù)據(jù)集［24］涉及三個(gè)基因組數(shù)據(jù)集，分別為RNA表達(dá)、DNA 甲基化和miRNA 表達(dá)。首先，對三個(gè)基因組數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理，分別隨機(jī)抽取200 個(gè)缺失率低于20%的樣本，采用k近鄰算法，將200 個(gè)完整樣本的非空鄰居的均值賦值給缺失部分，得到第一種類型的數(shù)據(jù)矩陣，對其進(jìn)行奇異值分解得到。隨后構(gòu)造三個(gè)由多個(gè)簇組成的數(shù)據(jù)矩陣Yi=Bi+θ，其中Bi從｛0，2，4，6｝中隨機(jī)抽樣得到，代表不同簇的偽生物表達(dá)水平，θ～N(0，1)為隨機(jī)偏差，由此得到第二種類型的數(shù)據(jù)矩陣。最后，將這兩種類型的數(shù)據(jù)矩陣進(jìn)行重構(gòu)，得到最終的仿真數(shù)據(jù)集。

two Gaussian 數(shù)據(jù)集［25］是一個(gè)隨機(jī)生成的高斯數(shù)據(jù)集，在這個(gè)數(shù)據(jù)集中有兩組服從高斯分布的數(shù)據(jù)，共200 個(gè)樣本。第一個(gè)視圖的均值為，協(xié)方差為。第二個(gè)視圖的均值為，協(xié)方差為。

3.1.2 真實(shí)數(shù)據(jù)集

6 個(gè)數(shù)據(jù)集分別為100leaves、BBC、NGs、Caltech101-20、COIL-20 和MSRC，詳細(xì)情況如下（總結(jié)見表2，其中v1～v6表示不同視圖的特征數(shù)）。

表2 六個(gè)真實(shí)數(shù)據(jù)集的詳細(xì)描述Tab.2 Detailed description of six real-world datasets

1）100leaves 數(shù)據(jù)集。該數(shù)據(jù)集由100 種植物的1 600 個(gè)樣本組成，每個(gè)樣本特征包含形狀描述、細(xì)尺度邊緣和紋理直方圖。

2）BBC 數(shù)據(jù)集。該數(shù)據(jù)集由BBC 新聞網(wǎng)站的685 份文檔組成，這些文檔對應(yīng)五個(gè)領(lǐng)域，分別為商業(yè)、娛樂、政治、體育和科技。

3）新聞組數(shù)據(jù)集（NGs）。該數(shù)據(jù)集包含20個(gè)子集的新聞組數(shù)據(jù)集，由500 個(gè)新聞組文檔組成。每個(gè)原始文檔都用三種不同的方法進(jìn)行預(yù)處理（有監(jiān)督互信息預(yù)處理、無監(jiān)督互信息預(yù)處理和分區(qū)預(yù)處理），構(gòu)成三個(gè)視圖，并使用五種主題標(biāo)簽中的一種進(jìn)行注釋。每個(gè)新聞組對應(yīng)一個(gè)不同的主題。

4）Caltech101-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 類2 386 幅圖像，每幅圖像都有6 個(gè)特征，分別為：Gabor 特征、小波矩（Wavelet moments）特征、統(tǒng)計(jì)轉(zhuǎn)換直方圖（CENsus Transform HISTogram，CENTRIST）特征、方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征、通用搜索樹（Generalized Search Trees，GiST）特征和局部二值模式（Local Binary Pattern，LBP）特征。

5）COIL-20 數(shù)據(jù)集。該數(shù)據(jù)集包含20 個(gè)對象，將每個(gè)對象水平旋轉(zhuǎn)360°，每隔5°拍攝一張照片。每個(gè)對象有72張圖像，圖像像素大小為64×64，灰度圖像共計(jì)1 440張圖像。

6）MSRC 數(shù)據(jù)集。該數(shù)據(jù)集有5 個(gè)視圖，包含7 種類別（樹、建筑、飛機(jī)、牛、臉、汽車和自行車）的210張圖像。

3.1.3 癌癥數(shù)據(jù)集

機(jī)器學(xué)習(xí)算法在生物醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛，為了驗(yàn)證該算法在癌癥亞型分類上的效果，從人類癌癥數(shù)據(jù)庫TCGA 中挑選了4個(gè)數(shù)據(jù)集，分別為Breast、Colon、GBM 和Melanoma，每個(gè)數(shù)據(jù)集包含三個(gè)組學(xué)數(shù)據(jù)：基因表達(dá)、DNA 甲基化和miRNA表達(dá)數(shù)據(jù)。

3.2 實(shí)驗(yàn)方案

參數(shù)設(shè)置：目標(biāo)函數(shù)中有四個(gè)參數(shù)λE、λA、λC、λF，λE、λA、λC的取值范圍為［0.01，0.1，1，10，100］。在聚類過程中對λF采用自動(dòng)更新的方式，初值設(shè)為1，在每次迭代中，當(dāng)一致圖G的連通分量分別小于或大于聚類的簇?cái)?shù)時(shí)增大或減小λF(λF=λF*2，λF=λF/2)。最近鄰個(gè)數(shù)為15，對于每個(gè)方法和數(shù)據(jù)集，重復(fù)運(yùn)行30次記錄平均結(jié)果。

為了評估該算法的性能，本文將該算法與現(xiàn)有的多種聚類算法進(jìn)行了對比。典型的單視圖對比算法有：非負(fù)矩陣分解（Nonnegative Matrix Factorization，NMF）［26］和自適應(yīng)鄰居節(jié)點(diǎn)聚類CAN。多視圖對比方法包括基于圖的多視圖聚類系統(tǒng)GBS（Braph-Based System）［27］、多視圖非負(fù)矩陣分解（Multiview Nonnegative Matrix Factorization，MultiNMF）［28］、共正則化譜聚類（Co-regularized multi-view Spectral Clustering，CoregSC）［29］、協(xié)同訓(xùn)練譜聚類Co-train［30］、基于一致圖的多視圖聚類（Graph-based Multi-View Clustering，GMC）以及自適應(yīng)鄰居多視圖聚類（MLAN）。在表3 中對比了本文算法與上述多視圖聚類算法的時(shí)間復(fù)雜度。

表3 時(shí)間復(fù)雜度對比Tab.3 Time complexity comparison

為了評估該算法的性能，本文采用三個(gè)常見的評價(jià)指標(biāo)：精度（Accuracy，ACC）、歸一化互信息（Normalized Mutual Information，NMI））和純度（Purity）來衡量實(shí)驗(yàn)效果。此外，為了評估各個(gè)算法在癌癥數(shù)據(jù)集上的效果，本文采用了經(jīng)驗(yàn)p值衡量癌癥樣本分組后的生存差異［31］，p值越低，表示不同組間的生存差異越顯著。

3.3 實(shí)驗(yàn)結(jié)果分析

表4～6 分別列出了本文算法與其他聚類算法在仿真數(shù)據(jù)集及6 個(gè)真實(shí)數(shù)據(jù)集上的ACC、NMI、Purity 結(jié)果。觀察表4～6可知，對于評價(jià)指標(biāo)ACC，本文算法在每個(gè)數(shù)據(jù)集上都取得了最好的結(jié)果。

表4 不同聚類算法在不同數(shù)據(jù)集上的ACC值單位：%Tab.4 ACC values of different clustering algorithms on different datasets unit：%

表5 不同聚類算法在不同數(shù)據(jù)集上的NMI值單位：%Tab.5 NMI values of different clustering algorithms on different datasets unit：%

表6 不同聚類算法在不同數(shù)據(jù)集上的Purity值單位：%Tab.6 Purity values of different clustering algorithms on different datasets unit：%

表7 給出了各對比算法在4 個(gè)癌癥數(shù)據(jù)集上經(jīng)驗(yàn)p值的實(shí)驗(yàn)結(jié)果，同時(shí)圖2 給出了RMCGL 算法在GBM 與Melanoma數(shù)據(jù)集上的生存分析曲線。與上述多視圖聚類算法相比，RMCGL 算法在所有的癌癥數(shù)據(jù)集上都得到了顯著的p值（p?value＜0.05），并且在四組癌癥數(shù)據(jù)集上的結(jié)果都是最顯著的。這些結(jié)果充分驗(yàn)證了本文算法的有效性及良好的泛化能力。

表7 四個(gè)癌癥數(shù)據(jù)集上經(jīng)驗(yàn)p值比較Tab.7 Comparison of empirical p-values on four cancer datasets

圖2 RMCGL算法在GBM與Melanoma數(shù)據(jù)集上的生存分析曲線Fig.2 Survival analysis curve of RMCGL algorithm on GBM and Melanoma datasets

圖3 為RMCGL 在NGs 和two Gaussian 數(shù)據(jù)集上學(xué)習(xí)得到的一致圖G對應(yīng)的熱圖，從圖中可以清晰地看到一致圖的塊對角結(jié)構(gòu)，這說明算法能學(xué)習(xí)一個(gè)高質(zhì)量的相似度圖結(jié)構(gòu)。

圖3 RMCGL學(xué)習(xí)得到的一致圖G在NGs和two Gaussian 數(shù)據(jù)集上的熱圖Fig.3 Heat maps of the consistency graph G learned by RMCGL on NGs and two Gaussian datasets

3.4 消融實(shí)驗(yàn)分析

本文RMCGL 算法中創(chuàng)新性地引入了秩約束和魯棒表示學(xué)習(xí)，為了驗(yàn)證算法各部分對實(shí)驗(yàn)結(jié)果的影響，設(shè)計(jì)了對應(yīng)步驟的消融實(shí)驗(yàn)。取表4 中4 個(gè)數(shù)據(jù)集的ACC 值所對應(yīng)的參數(shù)進(jìn)行消融實(shí)驗(yàn)的對比分析，主要驗(yàn)證秩約束、相似度矩陣學(xué)習(xí)和魯棒表示學(xué)習(xí)對算法結(jié)果的影響。將去掉秩約束時(shí)的過程稱為RC；直接從不同視圖的魯棒表示學(xué)習(xí)中學(xué)習(xí)一個(gè)一致圖的過程為RL。此外去掉魯棒表示學(xué)習(xí)時(shí)，該算法即為GMC算法，本文算法與前者的區(qū)別在于，前者從原始數(shù)據(jù)集中學(xué)習(xí)不同視圖的相似度矩陣，而RMCGL預(yù)先學(xué)習(xí)原始數(shù)據(jù)的魯棒表示作為相似度學(xué)習(xí)的輸入。結(jié)果如表8 所示，從表中可以看出，在分別去掉秩約束、表示學(xué)習(xí)和相似度學(xué)習(xí)后的實(shí)驗(yàn)結(jié)果明顯差于RMCGL 的結(jié)果，尤其在NGs 數(shù)據(jù)集中，添加秩約束后的結(jié)果提升了超過30個(gè)百分點(diǎn)；在MSRC數(shù)據(jù)集中，根據(jù)表示矩陣學(xué)習(xí)一致圖時(shí)的結(jié)果比該算法結(jié)果低20 個(gè)百分點(diǎn)左右。去掉表示學(xué)習(xí)時(shí)的結(jié)果見表4。由此可見，對學(xué)習(xí)到的一致圖施加秩約束、子空間魯棒表示學(xué)習(xí)以及根據(jù)魯棒表示矩陣學(xué)習(xí)不同視圖的相似度矩陣進(jìn)而得到一致圖的過程對實(shí)驗(yàn)結(jié)果都做出了貢獻(xiàn)。

表8 消融實(shí)驗(yàn)ACC結(jié)果單位：%Tab.8 ACC results of ablation experiments unit：%

3.5 魯棒性性能評估

為了驗(yàn)證RMCGL算法對實(shí)驗(yàn)結(jié)果的魯棒性，設(shè)計(jì)了以下實(shí)驗(yàn)：將誤差正則化項(xiàng)部分去掉，得到如圖4 所示結(jié)果。從圖4 中可以看出，在固定參數(shù)的情況下，去掉誤差正則化項(xiàng)部分后的4 個(gè)數(shù)據(jù)集的ACC 結(jié)果都有一定程度的下降，但整體下降幅度偏小，這表明RMCGL算法對數(shù)據(jù)具有較好的魯棒性。

圖4 去掉誤差正則化項(xiàng)后在固定參數(shù)時(shí)各數(shù)據(jù)集的ACC結(jié)果Fig.4 ACC results of different datasets at fixed parameters after removing error regularization term

3.6 收斂性分析

本節(jié)分析了RMCGL 算法的收斂性，如圖5所示，圖中的x軸和y軸分別表示迭代次數(shù)和目標(biāo)函數(shù)的值。從圖5 中可以看出，本文經(jīng)過少量迭代后就可以達(dá)到穩(wěn)定的收斂狀態(tài)。

圖5 RMCGL算法在100leaves和BBC數(shù)據(jù)集上的收斂曲線Fig.5 Convergence curves of RMCGL algorithm on 100leaves and BBC datasets

3.7 參數(shù)敏感性分析

RMCGL算法中共有三個(gè)參數(shù)λE、λA和λC。為了分析這三個(gè)參數(shù)對算法性能的影響，將其中一個(gè)參數(shù)固定后分析另外兩個(gè)參數(shù)變化對NMI 值的影響，見表9～10。三個(gè)參數(shù)在所有數(shù)據(jù)集上的取值范圍均為［0.01，0.1，1，10，100］。

表9 NGs數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.9 Analysis of NMI value of NGs dataset with parameter variation

表10 COIL20數(shù)據(jù)集NMI值隨參數(shù)變化分析Tab.10 Analysis of NMI value of COIL20 dataset with parameter variation

圖6 展示了λE在兩個(gè)數(shù)據(jù)集上的參數(shù)分析結(jié)果。在NGs數(shù)據(jù)集中，當(dāng)λA和λC的值?。?.01，0.01）時(shí)，固定這兩個(gè)參數(shù)，得到NMI相對于λE這個(gè)參數(shù)時(shí)的取值范圍：當(dāng)λE取1時(shí)的效果最好，NMI的值為93.40%；而在取0.01時(shí)最小，NMI的值為86.73%。在COIL20 數(shù)據(jù)集中，λA和λC取（1，1）時(shí)固定，λE為0.01 時(shí)NMI 的最大值93.55%，而隨著參數(shù)值的增大，NMI的取值范圍變化平穩(wěn)。從圖中可以看出，算法對于參數(shù)的變化相對較為魯棒。

圖6 RMCGL算法在NGs和COIL20數(shù)據(jù)集上的參數(shù)分析Fig.6 Parameter analysis of RMCGL algorithm on NGs and COIL20 datasets

4 結(jié)語

近年來，多視圖聚類在許多領(lǐng)域得到了應(yīng)用。多視圖數(shù)據(jù)比傳統(tǒng)的單視圖數(shù)據(jù)提供了更豐富的信息來揭示內(nèi)部結(jié)構(gòu)，并能獲得更好的聚類效果。本文首先簡要回顧了多視圖聚類算法，然后提出了一種新的基于一致圖學(xué)習(xí)的魯棒多視圖子空間聚類算法RMCGL。該算法通過學(xué)習(xí)數(shù)據(jù)的子空間表示來避免原始數(shù)據(jù)集中噪聲的干擾，并基于該表示構(gòu)建不同視圖下的相似度矩陣；同時(shí)引入自加權(quán)策略，根據(jù)不同視圖的重要性合理分配視圖權(quán)重，并構(gòu)造一個(gè)統(tǒng)一的一致圖；通過對一致圖的拉普拉斯矩陣施加秩約束直接獲得聚類結(jié)果，而不需要引入額外的聚類步驟。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了RMCGL算法的有效性，相比其他多視圖聚類算法有明顯優(yōu)勢。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡