劉云祥,王一賓,2
(1.安慶師范大學(xué)計算機與信息學(xué)院,安徽安慶 246133;2.安慶師范大學(xué)智能感知與計算安徽省高校重點實驗室,安徽安慶 246133)
在處理現(xiàn)實數(shù)據(jù)的機器學(xué)習(xí)研究中,研究對象往往由不同方向來源的數(shù)據(jù)組成,這決定了數(shù)據(jù)集具有多源性[1]。比如,人類指紋可以由光學(xué)指紋儀、熱紅外采集儀和電容式指紋儀等多種方式途徑獲取。無監(jiān)督學(xué)習(xí)形式的多視圖聚類作為多視圖學(xué)習(xí)的一個重要領(lǐng)域,其思想旨在尋找單個視圖數(shù)據(jù)中的底層結(jié)構(gòu),再學(xué)習(xí)一個新的統(tǒng)一視圖表示,然后在這個視圖表示上使用聚類算法,得到最終聚類結(jié)果[2]。
子空間聚類假設(shè)高維數(shù)據(jù)集的數(shù)據(jù)點是由多個低維子空間共同表示,也就是不同數(shù)據(jù)匹配不同且相應(yīng)的低維子空間,其作為一種有效的降維方式,在許多聚類問題中起到了關(guān)鍵的作用[3]。因此,研究者們提出了諸多子空間聚類方法來探尋底層子空間。多視圖數(shù)據(jù)中,多個視圖特征信息豐富了每個數(shù)據(jù)點,聚類效果得到提升。Gao 等人[4]提出多視圖子空間聚類,對不同視圖的子空間表示進行聚類,同時使用一個共同聚類結(jié)構(gòu)確保不同視圖之間的一致性。多視圖數(shù)據(jù)的多樣性和互補性原則作為處理多視圖信息的關(guān)鍵因素,潛在表示能更全面地描述數(shù)據(jù)本身,充分體現(xiàn)出多視圖互補性信息[5]。研究者們引入潛在表示來探索多視圖數(shù)據(jù)存在的互補關(guān)系,在此基礎(chǔ)上改進了子空間聚類。Zhang 等人[7]提出潛在多視圖子空間聚類算法[6]和廣義潛在多視圖子空間聚類算法,兩個算法均假設(shè)多個視圖有一個統(tǒng)一子空間潛在表示,利用潛在表示學(xué)習(xí)鄰接矩陣并進行譜聚類得到最終聚類結(jié)果。低秩約束和稀疏約束可以更好地獲得數(shù)據(jù)的全局和局部結(jié)構(gòu),Wang等人[8]聯(lián)合低秩表示和稀疏表示到子空間自表示矩陣中,通過譜聚類算法進行最終聚類。即便如此,仍忽略了視圖之間存在的差異性以及視圖質(zhì)量的參差不齊。不同視圖分配合理權(quán)重能提高聚類效果,利用視圖自表示矩陣與統(tǒng)一表示矩陣之間距離的反比關(guān)系,為每個視圖分配合理的權(quán)重[9-10]。Kang 等人[11]利用反距離加權(quán)法融合多視圖信息,并利用譜聚類進行最終聚類。Xia 等人[12]在此基礎(chǔ)上為視圖表示添加低秩稀疏約束,進一步提高聚類效果。
結(jié)合以上論述內(nèi)容,本文提出潛在低秩稀疏表示的自適應(yīng)權(quán)重多視圖子空間聚類的算法。其主要貢獻是:學(xué)習(xí)多視圖信息的潛在表示,并施加低秩稀疏約束,盡可能獲取多視圖數(shù)據(jù)的互補信息及全局、局部結(jié)構(gòu);同時引入自適應(yīng)權(quán)重方法,在構(gòu)建統(tǒng)一鄰接矩陣過程中為不同視圖分配合理的權(quán)重,也可以降低視圖噪聲對于聚類結(jié)果的影響,并在一個框架內(nèi)共同優(yōu)化。在6個不同數(shù)據(jù)集中的對比實驗結(jié)果證明,該算法具有一定的有效性。
其中,α1和α2分別作為低秩約束和稀疏約束的平衡系數(shù)。通過式(1)計算相似度矩陣,并通過譜聚類[13]獲得最終聚類效果。
假設(shè)不同的視圖都來自一個共享的潛在表示h。具體地,不同視圖下的數(shù)據(jù)點可以由共享的潛在表示通過對應(yīng)的映射{P(1),P(2),…,P(v)}來描述。對子空間結(jié)構(gòu)添加低秩約束和稀疏約束。并且考慮到數(shù)據(jù)集廣泛存在噪聲和子空間重構(gòu)的誤差。同時為降低目標函數(shù)優(yōu)化復(fù)雜度,將潛在表示和子空間表示對應(yīng)的誤差列垂直連接在一個矩陣,它將強制Eh和Er的列具有共同一致的幅度值,即減少一個平衡參數(shù)。統(tǒng)一目標函數(shù)改寫為:
式(2)中,λ1>0,λ2>0,Eh、Er分別代表潛在表示的構(gòu)造誤差和潛在表示中存在的噪聲,X=[X(1),X(2),…,X(v)]T代表相對應(yīng)的多視圖數(shù)據(jù)點,P=[P(1),P(2),…,P(v)]T代表重構(gòu)模型。第一項用于確保學(xué)習(xí)到的潛在表示形式H 和與不同視圖相關(guān)聯(lián)的重構(gòu)模型P(v)有利于重構(gòu)觀測結(jié)果;第二項用于懲罰多視圖子空間潛在表示中的重構(gòu)誤差。其次,前兩項上的l2,1范數(shù)是一個矩陣塊范數(shù),它比F 范數(shù)更具有魯棒性。
自適應(yīng)權(quán)重方法可以很好解決數(shù)據(jù)集中存在低質(zhì)量、有噪聲的視圖問題。方法基于兩種直觀的假設(shè)[11]:1)每個視圖的自表示矩陣Z(v)均對共享表示矩陣Z產(chǎn)生擾動;2)接近共享表示矩陣Z的視圖應(yīng)該被賦予一個較大的權(quán)重。使用一組有意義的不同權(quán)重來衡量每個視圖的重要性?;谏鲜?,共識圖Z可以表示為:
其中,圖拉普拉斯矩陣為L=D-W,對角矩陣D是dii=度矩陣,W為鄰接矩陣,W=(Z+ZT)/2。ωv是各視圖的自適應(yīng)權(quán)重,可以反映出視圖的重要度,這里采用反距離加權(quán)法求解[6]:
其中,F(xiàn)是聚類指示矩陣,γ為譜聚類的平衡參數(shù),當γ足夠大使秩約束rank(L)=n-c得到滿足。
結(jié)合式(2)和式(5)結(jié)合最終得到最終目標函數(shù)為:
對于式(6)的聯(lián)合優(yōu)化問題,因最終模型中各變量相互影響,多變量問題求解難度大。所以這里利用增廣拉格朗日乘子交替方向最小化(ALM-ADM)進行有效分步優(yōu)化。
在目標函數(shù)中引入輔助變量J1、J2、J3,于是有以下等價的問題:
定義L(P,H,Eh,Er,Z,J1,J2,J3)為式(7)的增廣拉格朗日函數(shù),可得:
其中,Y1、Y2、Y3、Y4、Y5是拉格朗日乘子,,μ是正的懲罰標量。基于此,有以下幾個子問題:
1)固定其他變量,關(guān)于P的函數(shù)表示為:
2)固定其他變量,關(guān)于H的函數(shù)表示為:
求關(guān)于H的導(dǎo)數(shù),并設(shè)置導(dǎo)數(shù)為0,有:
方程(17)是一個西爾維斯特方程,可以直接通過巴特爾斯·斯圖爾特算法求出H的閉式解[16]。
3)固定其他變量,子空間重構(gòu)誤差矩陣E更新為:
4)固定其他變量,拉格朗日函數(shù)J1、J2、J3利用奇異值閾值算子可以有效地解決該子問題:
5)固定其他變量,拉格朗日乘子按比例更新[18]為:
6)固定其他變量,關(guān)于Z(v)的項求導(dǎo)并令導(dǎo)數(shù)為0,有:
8)固定其他變量,關(guān)于F的函數(shù)表示為:
F的最優(yōu)解由L中c個最小特征值相應(yīng)的c個特征向量得到。
整體目標函數(shù)在優(yōu)化過程中,如果達到最大迭代次數(shù)200 或Z的相對變化小于10-3,或‖X -PH-Eh‖∞<ε,‖H -HZ-Er‖∞<ε,‖J1-Z(v)‖∞<ε,‖J2-Z(v)‖∞<ε,‖J3-Z(v)‖∞<ε,即達到收斂條件,得到子空間的共享表示矩陣Z可以計算出統(tǒng)一鄰接矩陣W,最后進行譜聚類得到聚類結(jié)果。
為了評估所提算法的有效性,實驗總共選擇了6個在多視圖聚類中普遍使用到的公開基準數(shù)據(jù)集。數(shù)據(jù)集的基本信息如表1所展示。
表1 數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)
為了全面評估所提算法的有效性,實驗過程中采用5個經(jīng)典的單視圖聚類和目前多視圖聚類領(lǐng)域中的代表性算法作為對比算法。包括:SC (Spectral Clustering)[19]、LRSSC (Low-Rank Sparse Subspace Clustering)[8]、MVSC(Multi View Subspace Clustering)[4]、MGFSC(Multi-Graph Fusion Spectral Clustering)[11]、gLMSC(Generalized Latent Multi-view Subspace Clustering)[7]。
實驗選取4項常見的聚類外部評價指標來對所有算法綜合對比性能,包括聚類精度(Cluster Accuracy,ACC),歸一化互信息(Normalized Mutual Information,NMI),F(xiàn) 值(F-measure)和調(diào)整蘭德系數(shù)(Adjusted Rand index,ARI)。指標數(shù)值越高,聚類效果越好。
對所有數(shù)據(jù)集進行歸一化處理,并在數(shù)據(jù)集上取潛在表示矩陣H的維度D固定為100。實驗重復(fù)10次并計算指標結(jié)果的均值和標準差。3sources、BBC、Reuters、Caltech101-7、UCI digits、MSRCV1 的λ1、λ2、β、γ分別取{10,0.1,10,10E-6}、{10,1,10E+7,10E-5}、{0.1,0.01,1000,0.01}、{10,0.1,0.1,10E-7}、{10,0.1,1,10E-4}、{100,0.01,10E+7,10E-5}。表2~表5 給出評價指標結(jié)果,用粗體表示最好的結(jié)果。
表3 各算法在6個數(shù)據(jù)集上的NMI指標
表4 各算法在6個數(shù)據(jù)集上的F-measure指標
表5 各算法在6個數(shù)據(jù)集上的ARI指標
由表2~表5可見,算法SMSC-LLSC在6個不同數(shù)據(jù)集上獲得較優(yōu)結(jié)果。相比SC、LRSSC在單一視圖上的聚類性能,可以看出,其他基于多視圖數(shù)據(jù)的算法會產(chǎn)生更好的聚類結(jié)果。LRSSC 利用了低秩約束和稀疏約束之間的互補,在聚類效果上普遍優(yōu)于SC,可以看出添加低秩稀疏約束可有利于聚類效果提升。相比于MVSC,SMSC-LLSC在5個數(shù)據(jù)集中全面占優(yōu),這是由于SMSC-LLSC 利用多視圖子空間的潛在表示挖掘多視圖之間的互補性信息,數(shù)據(jù)集得以更全面的描述。在3sources 數(shù)據(jù)集下的實驗結(jié)果,可以看出,SMSC-LLSC 比先進的次優(yōu)算法gLMSC 在2 個重要指標ACC 和NMI 上分別提高約1.4%和4.2%,這表明在學(xué)習(xí)潛在子空間表示的基礎(chǔ)上,為視圖添加自適應(yīng)權(quán)重,以及對視圖子空間的潛在表示添加低秩稀疏約束的操作具有顯著意義。
為了方便直觀展現(xiàn)SMSC-LLSC 算法與其他5 個算法在6個數(shù)據(jù)集上的聚類性能差異。選用Nemenyi統(tǒng)計假設(shè)檢驗,拿臨界值(Critical difference,CD)與對比算法在6個數(shù)據(jù)集上聚類指標的平均排名作對比,CD值可以通過式(19)計算得出:
其中,α=0.05,K=6,N=6,qα=2.850,CD=3.0784。圖1 顯示了各算法在4 個指標上的比較。其中,所有算法綜合性能從左到右逐漸下降,從圖1所示的結(jié)果中可以得出結(jié)論,SMSC-LLSC 在所有方法中排名第一,算法SMSC-LLSC具有一定的性能優(yōu)勢。
圖1 算法的性能比較
針對多視圖聚類問題,本文提出潛在低秩稀疏表示的自適應(yīng)權(quán)重多視圖子空間聚類算法。算法學(xué)習(xí)多視圖數(shù)據(jù)子空間的潛在表示以更好地獲取多視圖數(shù)據(jù)中一互補性信息,并使?jié)撛诒硎揪仃嚲哂械椭认∈杼匦裕煌瑫r為不同視圖匹配自適應(yīng)權(quán)重,即便低質(zhì)量視圖存在噪聲時,也能有效降低對最后聚類結(jié)果的負面影響,使聚類結(jié)果更準確。并在一個框架內(nèi)共同優(yōu)化。在6個不同數(shù)據(jù)集上的指標結(jié)果及統(tǒng)計假設(shè)檢驗均表明本文算法具有一定有效性。