羅申星 于騰騰 劉新為 溫博
摘要 針對基于非負低秩稀疏表示的子空間聚類方法不能準確描述數(shù)據(jù)集結(jié)構(gòu)的問題,提出了一種稀疏流形低秩表示的子空間聚類方法。該方法使用雙曲正切函數(shù)代替核范數(shù)來估計秩函數(shù),并利用加權(quán)稀疏正則項使表示系數(shù)矩陣稀疏,同時引入稀疏流形正則項來刻畫數(shù)據(jù)集的內(nèi)在流形結(jié)構(gòu)信息。首先通過帶有自適應(yīng)懲罰的線性交替方向法求解子空間表示模型。然后利用獲得的表示系數(shù)矩陣構(gòu)造相似度矩陣,結(jié)合使用譜聚類方法得到數(shù)據(jù)集的聚類結(jié)果,最后采用基于局部和全局一致性的半監(jiān)督分類方法獲得數(shù)據(jù)集的分類結(jié)果。在Extended Yale B 數(shù)據(jù)庫、CMU PIE 數(shù)據(jù)庫、ORL 數(shù)據(jù)庫、COIL 20 數(shù)據(jù)庫和MNIST 數(shù)據(jù)庫上的實驗結(jié)果表明,本方法可以提高子空間聚類和半監(jiān)督學(xué)習(xí)的準確率。
關(guān) 鍵 詞 子空間聚類;低秩表示;稀疏約束; 稀疏流形
中圖分類號 TP301.6? ? ?文獻標志碼 A
A subspace clustering method based on sparse manifold and low-rank representation
LUO Shenxing1, YU Tengteng2, LIU Xinwei1, WEN Bo1
(1. Institute of Mathematics, School of Sciences, Hebei University of Technology, Tianjin 300401, China; 2. School of Artificial Intelligence and Data Science, Hebei University of Technology, Tianjin 300401, China)
Abstract It is known that the subspace clustering method using the non-negative low rank and sparse representation can not describe the structures of data sets exactly. We propose a new subspace clustering method, based on sparse manifold and low-rank representation. The method uses the hyperbolic tangent function instead of the nuclear norm to estimate the rank function, and incorporates a weighted sparse regularizer to approximate the sparse coefficient matrix representation. The sparse manifold regularizer is introduced to describe the inherent manifold structure information of data sets. The subspace representation model is solved by the linearized alternating method with adaptive penalty. We use the obtained representation coefficient matrix to build the affinity matrix, and employ the spectral clustering method to derive the clustering results of the data sets. Finally, a semi-supervised classification method based on local and global consistency is used to achieve the classification results of the data sets. Experimental results on the Extended Yale B database, CMU PIE database, ORL database, COIL 20 database and MNIST database demonstrate that the presented model has potential of improving the accuracy on both the subspace clustering and semi-supervised learning.
Key words subspace clustering; low-rank representation; sparse constraint; sparse manifold
0 引言
在大數(shù)據(jù)和人工智能時代,高維數(shù)據(jù)的聚類方法研究是數(shù)學(xué)與系統(tǒng)科學(xué)領(lǐng)域研究的熱點問題,也是數(shù)據(jù)挖掘領(lǐng)域的重要研究方向之一。然而,高維數(shù)據(jù)通常位于低維的線性子空間中。子空間聚類方法是一種將來自不同子空間的高維數(shù)據(jù)用其本質(zhì)所屬的低維子空間進行線性表示的聚類方法[1-2]?,F(xiàn)有的子空間聚類方法主要分為以下4類:代數(shù)方法[3]、統(tǒng)計方法[4]、迭代方法[5] 和基于譜聚類的方法[6-8]?;谧V聚類的方法可以有效地捕捉數(shù)據(jù)集中的結(jié)構(gòu)信息并在實際應(yīng)用中取得良好表現(xiàn),是目前最流行的子空間聚類方法。
基于譜聚類的方法通常包括2個步驟:第1步是從子空間表示模型求得表示系數(shù)矩陣,并構(gòu)造相似度矩陣;第2步是應(yīng)用譜聚類方法完成聚類任務(wù)。眾所周知,相似度矩陣很大程度上決定了譜聚類的性能,同時其也是半監(jiān)督學(xué)習(xí)是否有效的關(guān)鍵因素。如何構(gòu)建合適的相似度矩陣是子空間聚類方法的難點。2010 年Liu 等[7] 通過利用核范數(shù)來捕獲整個數(shù)據(jù)集的全局結(jié)構(gòu)信息,提出了低秩表示(LRR)模型。LRR 在捕獲底層低維數(shù)據(jù)結(jié)構(gòu)方面的有效性引起了學(xué)者對子空間分割[9]、人臉識別[10] 和多任務(wù)識別[11] 的極大興趣。由于LRR 獲得的表示系數(shù)矩陣并不稀疏,2012 年Zhuang 等[12] 將低秩表示和稀疏約束相結(jié)合,對表示系數(shù)矩陣加入非負約束,提出了非負低秩稀疏表示 (NNLRSR) 模型。之后基于非負低秩稀疏表示的擴展子空間聚類模型[12-16] 大量涌現(xiàn)。2014 年Tang 等[13] 在 NNLRSR 模型的基礎(chǔ)上對稀疏正則項加入結(jié)構(gòu)化權(quán)重約束,提出了結(jié)構(gòu)化約束的低秩表示 (SCLRR) 模型,更有效地保護數(shù)據(jù)集的局部線性結(jié)構(gòu)。2016 年 You 等[17] 通過將稀疏流形正則項加入到 SCLRR 模型中,提出了流形局部約束低秩表示(MLCLRR)模型,其目的是保留數(shù)據(jù)集的內(nèi)在流形結(jié)構(gòu)。
在以上列舉的基于非負低秩稀疏表示的子空間聚類方法中,一般使用核范數(shù)代替秩函數(shù),而核范數(shù)對秩函數(shù)逼近的好壞取決于表示系數(shù)矩陣的奇異值。當奇異值特別大時,核范數(shù)不能準確地估計矩陣的秩。為了解決這一問題,2018 年張桂玲和杜艷夢[18] 通過將 LRR 模型中的核范數(shù)用雙曲正切函數(shù)代替并利用拉普拉斯正則項描述數(shù)據(jù)集的流形結(jié)構(gòu),提出了拉普拉斯正則化雙曲正切函數(shù)低秩子空間聚類 (LRHT-LRSC) 模型。
本文受文獻 [17-18] 的啟發(fā),提出了一種稀疏流形低秩表示(SMLRR)的子空間聚類方法。該方法主要以 NNLRSR 模型為基礎(chǔ),對其正則項進行改進:通過使用雙曲正切函數(shù)替代核范數(shù),可以在許多實際問題中有效地估計矩陣的秩,并且能夠更準確地捕獲數(shù)據(jù)集的全局結(jié)構(gòu)信息;利用結(jié)構(gòu)化權(quán)重約束構(gòu)造加權(quán)稀疏正則項,可以更好地保護數(shù)據(jù)集的局部線性結(jié)構(gòu);將稀疏流形正則項引入到目標函數(shù)中作為正則項,可以保留數(shù)據(jù)集的內(nèi)在流形結(jié)構(gòu)信息。模型應(yīng)用帶有自適應(yīng)懲罰的線性交替方向法(LADMAP)[19] 進行求解。實驗結(jié)果顯示,本文提出的子空間聚類方法確實提高了子空間聚類性能和半監(jiān)督學(xué)習(xí)的分類性能,故獲得更好的聚類效果和分類效果。
本文結(jié)構(gòu)如下:第2節(jié)介紹了相關(guān)的子空間聚類方法;第3節(jié)提出SMLRR 模型并給出求解模型的方法;第4節(jié)進行了數(shù)值實驗并分析了實驗結(jié)果;第5節(jié)總結(jié)了全文。
為了方便描述,表 1 對文中出現(xiàn)的一些符號進行說明。
1 相關(guān)的子空間聚類方法
本節(jié)介紹了NNLRSR 模型和表示系數(shù)矩陣的2種不同度量。
1.1 非負低秩稀疏表示(NNLRSR)
給定由n個d維樣本組成的數(shù)據(jù)矩陣[X=[x1,x2,…,xn]∈?d×n],[Z=[z1,z2,…,zn]]為表示系數(shù)矩陣,其中每一列 [zi] 為對應(yīng)樣本 [xi] 的表示系數(shù),則非負低秩稀疏表示的子空間表示模型如下:
式中:[λ>0] 和 [α>0] 為正則化參數(shù);D為字典;E為噪聲;[Z*]表示低秩正則項;[Z1]表示稀疏正則項;[E2,1]表示數(shù)據(jù)項。
1.2 正則項的設(shè)計
1.2.1 加權(quán)稀疏正則項
文獻 [13-14] 通過對等式 (1) 的稀疏正則項加入不同的權(quán)重矩陣 M,提出了加權(quán)稀疏正則項,表示形式如下:
式中:[⊙]為Hadamard 積;[M∈?n×n]。
1.2.2 稀疏流形正則項
稀疏流形嵌入 (SMCE)[20] 方法是從局部方向的基礎(chǔ)矩陣[Ui]中選出稀疏基來重建[xi],模型如下:
式中:[Ui=xi1-xixi1-xi,xi2-xixi2-xi,…,xiNi-xixiNi-xi];[Ni]為[xi]周圍的鄰居個數(shù),[xi]鄰居對應(yīng)的標簽為 [i1,i2,…,iNi];[ci=c1i,c2i,…,cNiiT]為[xi] 的表示系數(shù),則權(quán)重 W 的定義如下:
[Wij,i=cjixij-xij′∈Nicj′ixij′-xi。]
文獻 [17,21] 通過將SMCE獲得的數(shù)據(jù)矩陣 X 的權(quán)重矩陣W直接作為 Z 的權(quán)重矩陣,讓Z保留幾何約束,其關(guān)系定義如下:
將式 (4) 改寫成
式中,[G=(I-W)(I-W)T],[I]為單位矩陣。
2 稀疏流形低秩表示的子空間聚類方法
本節(jié)提出了一種改進NNLRSR的子空間聚類方法。該方法通過利用雙曲正切函數(shù)逼近秩函數(shù),將結(jié)構(gòu)化權(quán)重約束添加到稀疏正則項,并引用稀疏流形正則項,可以更準確地捕獲數(shù)據(jù)集的結(jié)構(gòu)信息。
2.1 構(gòu)建目標函數(shù)
模型LRHT-LRSC在子空間聚類問題上取得很好的聚類效果,因此將LRHT-LRSC中利用雙曲正切函數(shù)來估計秩函數(shù)的思想應(yīng)用到 NNLRSR,則式 (1) 重新表示如下:
對于 NNLRSR 的稀疏正則項,2014 年 Tang 等[13] 加入結(jié)構(gòu)化權(quán)重矩陣M,以將其改進為加權(quán)稀疏正則項。加權(quán)稀疏正則項可以將多個不相交的子空間分開,從而可以更有效地捕獲數(shù)據(jù)集的局部線性結(jié)構(gòu),所以將式 (6) 中的稀疏正則項替換成加權(quán)稀疏正則項,則式 (6) 重新表示如下:
式中:D為字典(通常取數(shù)據(jù)樣本X本身);[⊙]為 Hadamard 積;M 的定義為
式中:[x*i]和 [x*j]分別是[xi]和 [xj]的標準化數(shù)據(jù)點;m是矩陣B (B定義為[Bij=1-x*iTx*j])的平均值。
對子空間聚類模型的構(gòu)建,獲取數(shù)據(jù)集的局部非線性結(jié)構(gòu)信息是不可缺少的。2016 年,You 等[17] 提到, 數(shù)據(jù)中的流形結(jié)構(gòu)信息對分類任務(wù)是有益的,因此在 SCLRR模型中引入稀疏流形正則項,提出了流形局部約束低秩表示(MLCLRR)并應(yīng)用在子空間聚類和半監(jiān)督學(xué)習(xí)的問題上。因此,將稀疏流形正則項加入到式 (7) 中。
綜上所述,本文提出一種稀疏流形低秩表示(SMLRR)的子空間聚類方法,其子空間表示模型如下:
式中:[β]為正則化參數(shù);[G=(I-W)(I-W)T],[I]為單位矩陣,W為 SMCE[20] 方法求解的權(quán)重矩陣。
2.2 模型求解
以下給出應(yīng)用 LADMAP 求解式 (9) 的具體過程。通過引入3個輔助變量J、H和S可以將式 (9) 重新表示如下:
令 [σi=σi(J)],則問題 (10) 對應(yīng)的增廣拉格朗日函數(shù)如下:
式中:Y1、Y2、Y3 和Y4是拉格朗日乘子;[μ]是懲罰參數(shù)。求解上述優(yōu)化問題的具體步驟如下。
1)固定其他變量更新 Z
得到
其中
2) 固定其他變量更新 J
通過求解式(16)來得到式(15) 的近似解[22]
其中 [f(σ)=i=1ntanh(σi)],A為 [(Zk+1+Y2,kμk)]。因為式(16)中的第1項是凹的,第2項在[σ]處是凸的,所以可以用DC(difference of convex)[23] 方法進行求解,即對式(16)做線性逼近處理,重寫如下:
這里 [wk=λ?f(σk)] 為 [σk] 在 [λf(?)] 處的梯度。式(17) 有如下閉形式的解[22]:
因此,J的更新如下:
3) 固定其他變量更新 E
其中Ek+1可通過 l2,1-范數(shù)最小化算子[7] 求得閉形式的解。具體如下:
令矩陣 [Θ=Θ:,1,Θ:,2,…,Θ:,i,…=X-DZk+1+Y1,kμk],則上述優(yōu)化問題重寫如下:
應(yīng)用 LADMAP 求解 SMLRR 模型的具體框架見算法 1。
算法1? SMLRR
輸入:[X∈Rd×n],[λ],[α],[β],M,W,[ε1],[ε2]。
初始化:[Z0=H0=S0=E0=0],[J0=I∈?n×n],[ρ0=1.1],[μ0=0.1],[μmax=1010]。
重復(fù)以下步驟,直到收斂
步驟1:通過式 (13),更新Zk+1。
步驟2:利用公式 (19)、(20)、(22) 和 (24),分別更新[Jk+1],[Ek+1],[Hk+1]和[Sk+1]。
步驟3:利用公式 (25),更新[Y1,k+1],[Y2,k+1],[Y3,k+1]和[Y4,k+1]。
步驟4:利用公式 (26),更新懲罰參數(shù) [μk+1]。
步驟5:檢查收斂條件,如果滿足 [X-DZk+1-Ek+1X≤ε1]
[max(μkηZk+1-Zk,μkJk+1-Jk,μkEk+1-Ek,μkHk+1-Hk,μkSk+1-Sk)≤ε2],則循環(huán)停止。
輸出:表示系數(shù)矩陣[Z*],噪聲矩陣[E*]。
2.3 相似度矩陣的構(gòu)建
給定數(shù)據(jù)矩陣 X,將其作為式 (9) 的字典D。通過求解新模型獲得的表示系數(shù)矩陣[Z*]具有稀疏性和分組效應(yīng),適用于聚類和半監(jiān)督學(xué)習(xí)。因此,基于[Z*] 構(gòu)造相似度矩陣[S=Z*+(Z*)T2]。構(gòu)造 SMLRR 相似度矩陣的步驟如算法2。
算法2? 構(gòu)造SMLRR 相似度矩陣[17]
輸入:[X∈Rd×n],[λ],[α],[β]。
步驟1:通過[xi=xixi]標準化每個樣本,得到[X=[x1,x2,…,xn]]。
步驟2:通過求解優(yōu)化問題 (3),獲得W。
步驟3:通過式 (8),獲得M。
步驟4:通過求解新模型 (9),獲得最優(yōu)解Z*。
步驟5:計算相似度矩陣 [S=Z*+(Z*)T2]。
輸出:S。
2.4 收斂性與復(fù)雜度分析
算法1直接應(yīng)用優(yōu)化算法LADMAP 進行求解,算法2是直接應(yīng)用優(yōu)化算法交替方向乘子法 (ADMM) 和 LADMAP 進行求解。優(yōu)化算法LADMAP 和ADMM的收斂性已在文獻 [19,24] 給出詳細的證明,這里不再重復(fù)。
算法1的時間復(fù)雜度主要集中在更新J上,因為J的更新使用了奇異值閾值算法,涉及矩陣的奇異值分解[8],則算法每步迭代的時間復(fù)雜度為[O(rn2)],所有迭代的時間復(fù)雜度為 [O(t1rn2)],其中r為Z的秩,[t1]為 LADMAP 的迭代次數(shù),n為樣本量。算法2的時間復(fù)雜度分為2部分:1)對于優(yōu)化問題 (3) 的求解過程見文獻 [21],其時間復(fù)雜度為[O(t2nK2)],其中K為[Ni],[t2]為ADMM 的迭代次數(shù),n為樣本量;2)對于優(yōu)化問題 (9) 的求解步驟見算法1,其時間復(fù)雜度為[O(t1rn2)]。所以,算法2的時間復(fù)雜度為[O(t1rn2+t2nK2)]。
3 實驗結(jié)果與分析
本節(jié)將本文提出的新方法跟基于低秩與稀疏的子空間聚類方法在Extended Yale B(EYaleB) 數(shù)據(jù)庫和 CMU PIE(PIE) 數(shù)據(jù)庫上進行聚類實驗對比,并且在 ORL 數(shù)據(jù)庫、COIL 20 數(shù)據(jù)庫和 MNIST 數(shù)據(jù)庫上進行分類實驗對比。
3.1 對比方法
將本文提出的子空間聚類方法與 LRR[7]、反正切秩極小化 (ARM)[22]、NNLRSR[12]、SCLRR[13]、MLCLRR[17] 和 LRHT-LRSC[18] 進行比較。LRR 通過利用核范數(shù)來尋找數(shù)據(jù)集的最低秩表示,從而捕獲數(shù)據(jù)集的全局結(jié)構(gòu)信息;ARM 使用反正切函數(shù)替換 LRR 模型中的核范數(shù),以更準確地描述數(shù)據(jù)集的全局結(jié)構(gòu)信息;NNLRSR 通過結(jié)合低秩表示和稀疏約束,對表示系數(shù)矩陣進行非負約束來捕獲數(shù)據(jù)集的全局和局部結(jié)構(gòu)信息;SCLRR 為了更好地保護數(shù)據(jù)集的局部結(jié)構(gòu),對NNLRSR模型的稀疏正則項施加結(jié)構(gòu)化權(quán)重約束[Mij=1-exp(-1-x*iTx*jm)],同式 (8) 一樣;MLCLRR 通過在 SCLRR 模型的基礎(chǔ)上加入了稀疏流形正則項,提高了子空間聚類性能。LRHT-LRSC 對 LRR 進行改進,使用雙曲正切函數(shù)估計秩函數(shù),并引入拉普拉斯正則項描述數(shù)據(jù)集內(nèi)部的流形結(jié)構(gòu),從而提高了聚類的準確率。
根據(jù)文獻 [21] 的實驗參數(shù)設(shè)置,對比方法中用于平衡低秩正則項的參數(shù)[λ]、稀疏正則項的參數(shù)[α]和稀疏流形正則項的參數(shù)[β]通過搜索區(qū)間 [{10-3,10-2,…,100}] 來選取最優(yōu)值。在實驗中,SMCE 方法的參數(shù)[γ]和Ni分別設(shè)置為 20 和 50。
3.2 子空間聚類
本節(jié)選擇聚類實驗中常用的 EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫來進行子空間聚類實驗。EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫都是人臉圖像。EYaleB 數(shù)據(jù)庫包含 38 個人,每人有 64 張正面圖像。將原 EYaleB 數(shù)據(jù)庫的 192[×]168 像素的圖像轉(zhuǎn)化為48[×]42 像素。EYaleB 數(shù)據(jù)庫的部分樣本見圖1。PIE 數(shù)據(jù)庫包含 68 個人。選擇 PIE 數(shù)據(jù)庫的子集庫(PIE_32[×]32.mat),每人有 170 張人臉圖像,每張圖像為 32[×]32 像素。PIE 數(shù)據(jù)庫部分樣本見圖 2。本節(jié)參考文獻 [8] 中的實驗設(shè)置,分別從數(shù)據(jù)庫選中選擇前 2、3、5、8 和 10 類人臉圖像進行實驗。
對 EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫進行預(yù)處理之后,應(yīng)用新方法和對比方法進行子空間聚類實驗。為了確保實驗的準確性,對所選的類別進行 10 次實驗,并將這 10 次實驗的平均值和標準差作為最終的聚類結(jié)果。表 2 和表 3 顯示了 LRR、ARM、NNLRSR、SCLRR、MLCLRR、LRHT-LRSC 以及本文方法在 EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫上的聚類準確率。從實驗結(jié)果可以看出 SMLRR的聚類準確率比其他方法都要高,說明新方法在子空間聚類問題上有更好的聚類效果。
3.3 半監(jiān)督學(xué)習(xí)
本節(jié)使用 ORL 數(shù)據(jù)庫、COIL 20 數(shù)據(jù)庫和 MNIST 數(shù)據(jù)庫進行半監(jiān)督學(xué)習(xí)實驗。ORL 數(shù)據(jù)庫包含 40 個人,每人都有 10 張面部表情不同的人臉圖像,每張圖像為112[×]92 像素。將 ORL 數(shù)據(jù)庫中的所有圖像的分辨率轉(zhuǎn)化為32[×]32 像素。ORL 數(shù)據(jù)庫部分樣本見圖3;COIL 20 數(shù)據(jù)庫包含 20個物體,每個物體都有 72 張圖像,每張圖像為 128[×]128 像素。將 COIL 20 數(shù)據(jù)庫中的所有圖像的分辨率轉(zhuǎn)化為32[×]32像素,并選取數(shù)據(jù)庫中每一物體的前 70 張圖像進行實驗。COIL 20 數(shù)據(jù)庫的部分樣本見圖 4;MNIST 數(shù)據(jù)庫包含 10 個手寫數(shù)字,共有70 000張數(shù)字圖像,每張圖像為28[×]28像素。選擇每個手寫數(shù)字的前100 張圖像進行實驗。MNIST 數(shù)據(jù)庫部分樣本見圖 5。
選擇基于局部和全局一致性 (LGC)[25] 的半監(jiān)督分類方法對上述數(shù)據(jù)庫進行分類實驗。定義[Y=Y1,Y2,…,YnT∈?n×c]是初始標簽矩陣,n是樣本量。如果樣本[xi]與標簽[j(j∈1,2,…,c)]相關(guān)聯(lián),則[Yij=1],否則[Yij=0]。LGC 通過學(xué)習(xí)分類求得[F∈?n×c],實現(xiàn)標簽分類,模型表示如下:
式中:[μ∈0,∞];[LW=D-1/2LWD-1/2]是規(guī)范化的圖拉普拉斯矩陣[15];D是相似度矩陣S。在本文的實驗中,[μ]設(shè)置為 0.99。
將各方法求得的相似度矩陣應(yīng)用于 LGC 方法中得到F,然后用F定量估計各方法的分類性能。選取每類數(shù)據(jù)的前10%~60%的樣本作為標記樣本去評估各方法的分類性能。為了保證實驗的準確性,各方法在每個標記樣本上進行 10 次實驗,并取這 10 次實驗的平均值和標準差作為最終的分類結(jié)果。表4~表6 給出了 LRR、ARM、NNLRSR、SCLRR、MLCLRR、LRHT-LRSC 以及本文方法在 ORL 數(shù)據(jù)庫、COIL 20 數(shù)據(jù)庫和 MNIST 數(shù)據(jù)庫上的分類準確率。從上述結(jié)果可知,SMLRR 比其他方法的分類準確率更高,故表明新方法具有更好的分類性能。
3.4 實驗分析
從子空間聚類實驗和半監(jiān)督學(xué)習(xí)實驗的結(jié)果,可以觀察到:
1)本文提出的 SMLRR 在子空間聚實驗和半監(jiān)督學(xué)習(xí)實驗中都獲得更高的準確率。與其他方法相比,SMLRR 通過使用雙曲正切函數(shù)估計秩函數(shù),能夠更準確地捕獲數(shù)據(jù)集的全局結(jié)構(gòu)信息;為了更有效地保護數(shù)據(jù)集的局部線性結(jié)構(gòu),在稀疏正則項上增加結(jié)構(gòu)化權(quán)重約束;加入稀疏流形正則項,其目的是讓Z可以保留數(shù)據(jù)集的流形結(jié)構(gòu)信息。
2)相比于 LRR,ARM 通過使用反正切函數(shù)代替核范數(shù),在 EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫上的聚類準確率顯著提高,表明反正切函數(shù)在大多數(shù)情況下都能很好地估計秩函數(shù)。例如,在 EYaleB 數(shù)據(jù)庫上的前 10 類人臉圖像上,ARM 的聚類準確率達到 87.53%,比LRR 高出24.11%。在文獻 [18] 中給出雙曲正切函數(shù)能夠在奇異值較小的范圍內(nèi),比反正切函數(shù)更好的近似矩陣的秩,所以本文方法用雙曲正切函數(shù)代替核范數(shù)。
3)NNLRSR 和 SCLRR 在 LRR 模型中加入了稀疏約束,從而提高了聚類和分類的性能,因此表明稀疏約束可以有效地使Z稀疏。SCLRR 模型對稀疏正則項加入了結(jié)構(gòu)化權(quán)重約束,從 NNLRSR 和 SCLRR 的實驗結(jié)果看,SCLRR 不僅使得Z具有稀疏性,而且還可以保護數(shù)據(jù)集的局部結(jié)構(gòu)信息。
4)MLCLRR、LRHT-LRSC 和本文方法都加入了流形結(jié)構(gòu)信息,但是它們之間識別流形的方式不一樣。MLCLRR 和本文方法采用幾何稀疏的思想來構(gòu)造流形結(jié)構(gòu)。LRHT-LRSC 利用拉普拉斯映射來構(gòu)造流形結(jié)構(gòu)。MLCLRR 在 SCLRR 模型的基礎(chǔ)上,通過加入稀疏流形正則項來保留數(shù)據(jù)集的內(nèi)在流形結(jié)構(gòu)。從實驗結(jié)果可知,MLCLRR 在半監(jiān)督學(xué)習(xí)實驗上,準確率都有所提高。所以在子空間聚類方法中考慮數(shù)據(jù)的流形結(jié)構(gòu)對數(shù)據(jù)集的分類是有益的。
5)在半監(jiān)督學(xué)習(xí)實驗上,當給定較少的標簽樣本時,各方法的分類難度都會增大。隨著標簽樣本的增加,各方法的分類準確率也隨之增加,而本文方法的分類準確率比其他方法更高。
綜上所述,為了能更準確地捕獲數(shù)據(jù)集的信息,在構(gòu)建子空間聚類模型時,考慮雙曲正切函數(shù)、加權(quán)稀疏正則項和稀疏流形正則項是不可缺少的。
3.5 參數(shù)選擇
在 EYaleB 數(shù)據(jù)庫和 PIE 數(shù)據(jù)庫上選擇數(shù)據(jù)類別為8的情況,在ORL數(shù)據(jù)庫、PIE數(shù)據(jù)庫和MNIST數(shù)據(jù)庫上選擇標簽樣本為60% 的情況進行實驗,分析參數(shù)[λ]、[α]和[β]對本文方法準確率的影響。本文方法確定模型中的參數(shù)值同比較方法一樣,通過搜索區(qū)間[{10-3,10-2,…,100}]來選取最優(yōu)值。圖6和圖7表明參數(shù)[λ]、[α]和[β]變化時對聚類準確率的影響。圖 8、 圖 9 和圖 10 表明參數(shù)[λ]、[α]和[β]變化時對分類準確率的影響。參數(shù)值的選擇方法如下:首先固定參數(shù)[α]和[β]為10-2,選取具有最佳實驗效果的[λ]值;然后在[λ]取最優(yōu)的情況下,搜索實驗準確率最高的[α]值;最后在[λ]和[α]取最優(yōu)情況下,搜索[β]值。由于數(shù)據(jù)庫的噪聲不同,我們選取的各參數(shù)值也不同,見表7。
4 結(jié)語
本文受流形局部約束低秩表示模型和拉普拉斯正則化雙曲正切函數(shù)低秩子空間聚類模型的啟發(fā),用雙曲正切函數(shù)、加權(quán)稀疏約束和稀疏流形約束作為正則項,提出了一種稀疏流形低秩表示 (SMLRR) 的子空間聚類方法。在EYaleB 數(shù)據(jù)庫、PIE數(shù)據(jù)庫、ORL數(shù)據(jù)庫、COIL 20數(shù)據(jù)庫和MNIST數(shù)據(jù)庫上實驗結(jié)果表明,相比先前的方法,SMLRR能夠更好地描述數(shù)據(jù)集的結(jié)構(gòu)信息,實現(xiàn)表示系數(shù)矩陣的稀疏性和分組效應(yīng)。但是,在實驗中,參考了相應(yīng)文獻手動調(diào)節(jié)正則化參數(shù),這不僅增加了實驗的復(fù)雜性,而且選取的參數(shù)范圍可能不準確。下一步,將針對正則化參數(shù)的選取進行更深入的研究。
參考文獻:
[1]? ? 王衛(wèi)衛(wèi),李小平,馮象初,等. 稀疏子空間聚類綜述[J]. 自動化學(xué)報,2015,41(8):1373-1384.
[2]? ? VIDAL R. Subspace clustering[J]. IEEE Signal Processing Magazine,2011,28(2):52-68.
[3]? ? VIDAL R,MA Y,SASTRY S. Generalized principal component analysis (GPCA)[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(12):1945-1959.
[4]? ? GEAR C W. Multibody grouping from motion images[J]. International Journal of Computer Vision,1998,29(2):133-150.
[5]? ? ZHANG T,SZLAM A,WANG Y,et al. Hybrid linear modeling via local best-fit flats[J]. International Journal of Computer Vision,2012,100(3):217-240.
[6]? ? ELHAMIFAR E,VIDAL R. Sparse subspace clustering[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami,F(xiàn)L,USA:IEEE,2009:2790-2797.
[7]? ? LIU G C,LIN Z C,YU Y. Robust subspace segmentation by low-rank representation[C]// Proceedings of the 27th International Conference on International Conference on Machine Learning. New York:ACM,2010:663-670.
[8]? ? 李占芳,李慧云,劉新為. 分類稀疏低秩表示的子空間聚類方法[J]. 系統(tǒng)科學(xué)與數(shù)學(xué),2018,38(8):852-865.
[9]? ? WEI L,ZHANG Y,YIN J,et al. An improved structured low-rank representation for disjoint subspace segmentation[J]. Neural Processing Letters,2019,50(2):1035-1050.
[10]? HOANGVU,NGUYEN,. Discriminative low-rank dictionary learning for face recognition[J]. Neurocomputing,2016,173:541-551.
[11]? SU C,YANG F,ZHANG S L,et al. Multi-task learning with low rank attribute embedding for multi-camera person re-identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(5):1167-1181.
[12]? ZHUANG L S,GAO H Y,LIN Z C,et al. Non-negative low rank and sparse graph for semi-supervised learning[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence,RI,USA:IEEE,2012:2328-2335.
[13]? TANG K W,LIU R S,SU Z X,et al. Structure-constrained low-rank representation[J]. IEEE Transactions on Neural Networks and Learning Systems,2014,25(12):2167-2179.
[14]? ZHENG Y G,ZHANG X R,YANG S Y,et al. Low-rank representation with local constraint for graph construction[J]. Neurocomputing,2013,122:398-405.
[15]? 張濤,唐振民. 一種基于非負低秩稀疏圖的半監(jiān)督學(xué)習(xí)改進算法[J]. 電子與信息學(xué)報,2017,39(4):915-921.
[16]? YIN M,GAO J B,LIN Z C. Laplacian regularized low-rank representation and its applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(3):504-517.
[17]? YOU C Z,WU X J,PALADE V,et al. Manifold locality constrained low-rank representation and its applications[C]// 2016 International Joint Conference on Neural Networks (IJCNN). Vancouver,BC,Canada:IEEE,2016:3264-3271.
[18]? 張桂玲,杜艷夢. 拉普拉斯正則化雙曲正切低秩子空間聚類算法[J]. 控制與決策,2018,33(1):163-168.
[19]? LIN Z C,LIU R S,SU Z X. Linearized alternating direction method with adaptive penalty for low-rank representation[C]// Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada,Spain. New York:ACM,2011:612-620.
[20]? ELHAMIFAR E,VIDAL R. Sparse manifold clustering and embedding[C]// Proceedings of the 24th International Conference on Neural Information Processing Systems. Granada,Spain. New York:ACM,2011:55-63.
[21]? YONG,PENG,. Enhanced low-rank representation via sparse manifold adaption for semi-supervised learning[J]. Neural Networks,2015,65:1-17.
[22]? KANG Z,PENG C,CHENG Q. Robust subspace clustering via tighter rank approximation[C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne,Australia. New York:ACM,2015:393-401.
[23]? HORST R,THOAI N V. DC programming:overview[J]. Journal of Optimization Theory and Applications,1999,103(1):1-43.
[24]? BOYD S,PARIKH N,CHU E,et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends? in Machine Learning,2011,3(1):1-122.
[25]? ZHOU D Y,BOUSQUET O,LAL T N,et al. Learning with local and global consistency[C]// Proceedings of the 16th International Conference on Neural Information Processing Systems. New York:ACM,2003:321-328.