李 華,盧桂馥,余沁茹
(安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽蕪湖 241000)
(?通信作者電子郵箱luguifu_jsj@163.com)
隨著信息社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代,高維數(shù)據(jù)的增長(zhǎng)給數(shù)據(jù)處理帶來(lái)了極大的挑戰(zhàn),有效的數(shù)據(jù)表示不但能夠提升算法的性能,而且有助于人們發(fā)現(xiàn)高維數(shù)據(jù)背后隱藏的低維本征結(jié)構(gòu)。如何找到原始高維數(shù)據(jù)的有效低維表示是近年來(lái)的一個(gè)研究熱點(diǎn)[1-4]。很多研究者做了大量的工作來(lái)挖掘蘊(yùn)含在原始數(shù)據(jù)的內(nèi)在結(jié)構(gòu),其中矩陣分解是一種常用的技術(shù)。通過(guò)矩陣分解算法可以獲取高維數(shù)據(jù)的低秩表示,從而有效地挖掘出蘊(yùn)含在原始圖像數(shù)據(jù)中的有用信息,使新的數(shù)據(jù)表示具有更好的識(shí)別能力[5-8]。常見(jiàn)的矩陣分解算法有:正交三角分解(QR分解)[9]、非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)[10-12]等。其中,NMF 是由Lee 等[11]于1999年在《Nature》雜志上提出的,其心理學(xué)和生理學(xué)的構(gòu)造依據(jù)是對(duì)整體的感知是由組成整體的部分感知所構(gòu)成的,這也恰恰符合人類(lèi)大腦對(duì)事物的直觀理解。它基于數(shù)據(jù)的局部特征提取數(shù)據(jù)信息,分解之后的矩陣中所有元素都是非負(fù)的,是一種有效的圖像表示工具。
NMF 自提出之后便得到學(xué)者的廣泛關(guān)注并對(duì)其進(jìn)行了深入的研究。為了提高算法的識(shí)別率和有效性,研究人員在NMF 的基礎(chǔ)上提出了許多原始NMF 算法的變體,試圖從不同的角度對(duì)NMF進(jìn)行改進(jìn)。Hoyer[13]把稀疏編碼和標(biāo)準(zhǔn)NMF算法結(jié)合,提出非負(fù)稀疏編碼(Non-negative Sparse Coding,NSC)算法,使得矩陣分解后系數(shù)矩陣的稀疏性較好,這樣可以用更少的有用信息來(lái)表達(dá)原有信息,在一定程度上提高了運(yùn)算的效率。Zhou 等[14]在圖正則化非負(fù)矩陣分解(Graph regularized Nonnegative Matrix Factorization,GNMF)算法的基礎(chǔ)上為NMF 添加了額外的約束,進(jìn)一步提出了局部學(xué)習(xí)正則化NMF(Local Learning regularized NMF,LLNMF)。Wang等[15]提出了一種降維局部約束圖優(yōu)化(Locality Constrained Graph Optimization for Dimensionality Reduction,LC-GODR)算法,將圖優(yōu)化和投影矩陣學(xué)習(xí)結(jié)合到了一個(gè)框架中,由于圖是預(yù)先構(gòu)造并保持不變的,使得其在降維過(guò)程中的圖形可以自適應(yīng)更新。為了能夠同時(shí)利用數(shù)據(jù)的全局信息和局部信息來(lái)進(jìn)行圖形的學(xué)習(xí),Wen 等[16]提出了一種自適應(yīng)圖正則化的低秩表示(Low-Rank Representation with Adaptive Graph Regularization,LRR-AGR)方法。為了同時(shí)考慮數(shù)據(jù)空間和特征空間的流形結(jié)構(gòu),Meng等[17]提出了一種具有稀疏和正交約束的對(duì)偶圖正則化非負(fù)矩陣分解(Dual-graph regularized Non-negative Matrix Factorization with Sparse and Orthogonal constraints,SODNMF)。萬(wàn)源等[18]提出了一種低秩稀疏圖嵌入的半監(jiān)督特征選擇方法(semi-supervised feature selection for Low-Rank Sparse graph Embedding,LRSE),充分利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù),分別學(xué)習(xí)其低秩稀疏表示,在目標(biāo)函數(shù)中同時(shí)考慮數(shù)據(jù)降維前后的信息差異和降維過(guò)程中的結(jié)構(gòu)信息,通過(guò)最小化信息損失函數(shù)使數(shù)據(jù)中的有用信息盡可能地保留下來(lái),從而可以選擇出更具判別性的特征。Tian 等[19]提出了一種總方差約束圖正則化凸非負(fù)矩陣分解(Total Variation constrained Graph-regularized Convex Non-negative Matrix Factorization,TV-GCNMF)算法,將總方差和拉普拉斯圖及凸NMF 結(jié)合起來(lái),既保留了數(shù)據(jù)的細(xì)節(jié)特征,又揭示了數(shù)據(jù)特征的內(nèi)在幾何結(jié)構(gòu)信息。
為了揭示數(shù)據(jù)內(nèi)在的流形數(shù)據(jù),考慮到數(shù)據(jù)所攜帶的幾何信息,Cai 等[20]在標(biāo)準(zhǔn)NMF 的基礎(chǔ)上提出了圖正則化非負(fù)矩陣分解(GNMF)算法,并在實(shí)驗(yàn)數(shù)據(jù)集上獲得了較好的實(shí)驗(yàn)結(jié)果。為了獲得原始圖像數(shù)據(jù)集的低秩結(jié)構(gòu),Li 等[21]提出了圖正則化非負(fù)低秩矩陣分解(Graph Regularized Nonnegative Low-Rank Matrix Factorization,GNLMF)算法,該算法雖然考慮了利用低秩信息來(lái)增強(qiáng)算法的魯棒性,但其本質(zhì)上是一種兩階段方法,且由于不能循環(huán)迭代,使得其得到的解不是最優(yōu)的。為了獲得數(shù)據(jù)的局部和全局表示,Lu 等[22]提出了低秩非負(fù)分解(Low-Rank Nonnegative Factorization,LRNF)算法。雖然LRNF 的性能較為優(yōu)異,但它并沒(méi)有考慮數(shù)據(jù)的流形結(jié)構(gòu)信息,并且在求解過(guò)程中沒(méi)有明確說(shuō)明是如何來(lái)保證數(shù)據(jù)非負(fù)性的。
研究表明,一方面,原始圖像的有效信息常隱藏在數(shù)據(jù)的低秩結(jié)構(gòu)中,數(shù)據(jù)通常從嵌入在高維中的低維流形上進(jìn)行采樣;另一方面,在NMF 中添加額外的正則化項(xiàng)可以在一定程度上提高算法抗噪聲干擾的能力和算法的魯棒性。為了解決上述問(wèn)題,本文提出一種基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解(Manifold Regularized Non-negative Matrix Factorization with low-rank constraint based on Clean Data,MRNMF/CD)算法,該算法將含有噪聲的原始圖像數(shù)據(jù)進(jìn)行清洗,使用干凈數(shù)據(jù)進(jìn)行學(xué)習(xí),并且將有效低秩結(jié)構(gòu)和數(shù)據(jù)的幾何信息引入到NMF,使其魯棒性有了進(jìn)一步提高。通過(guò)在ORL、COIL20 和Yale 三個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文MRNMF/CD 算法比現(xiàn)有的其他算法優(yōu)異。
作為最重要的降維方法之一,主成分分析(Principal Component Analysis,PCA)已應(yīng)用于很多領(lǐng)域。但由于數(shù)據(jù)中的噪聲和異常值,PCA 的性能及應(yīng)用受到了限制。為了克服PCA 的這些不足,人們提出了魯棒性PCA(Robust PCA,RPCA)[23-24]用于恢復(fù)帶有誤差的數(shù)據(jù)原子空間結(jié)構(gòu)[25-26]。
RPCA 假定原始數(shù)據(jù)為X=(A+E)T∈Rn×m,A∈Rm×n為低秩數(shù)據(jù)矩陣,E∈Rm×n為添加的噪聲誤差矩陣。RPCA 的目標(biāo)是恢復(fù)數(shù)據(jù)的噪聲部分,其優(yōu)化模型為:
其中:α為正參數(shù);‖ · ‖0為矩陣的l0范數(shù)。由于模型(1)為非凸的,所以很難得到有效的解。通過(guò)將秩函數(shù)與l0范數(shù)轉(zhuǎn)換為核范數(shù)與l1范數(shù),則式(1)轉(zhuǎn)化為下式:
其中:α為正參數(shù),‖ · ‖*表示矩陣的核范數(shù),‖ · ‖1表示矩陣的l1范數(shù)。
現(xiàn)實(shí)世界中,許多數(shù)據(jù)是嵌入在高維歐氏空間中非線性低維流形上的,然而,NMF 算法和許多改進(jìn)的NMF 算法在處理原始數(shù)據(jù)時(shí),沒(méi)有考慮數(shù)據(jù)的內(nèi)蘊(yùn)幾何結(jié)構(gòu)。為了能夠發(fā)現(xiàn)數(shù)據(jù)隱藏信息的表示方法,同時(shí)又考慮數(shù)據(jù)內(nèi)在的幾何信息,Cai 等[20]通過(guò)將圖正則化項(xiàng)融入標(biāo)準(zhǔn)的NMF 框架中,提出了圖正則非負(fù)矩陣分解算法。該算法假設(shè)2 個(gè)數(shù)據(jù)點(diǎn)在原始數(shù)據(jù)空間中的幾何距離如果是鄰近,則其在基于新的基向量低維表示中相對(duì)應(yīng)的數(shù)據(jù)點(diǎn)也應(yīng)該離得很近。與傳統(tǒng)的降維算法相比,流形學(xué)習(xí)算法能夠揭示原始數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu),尋找高維數(shù)據(jù)在低維空間中的緊致嵌入。GNMF 的目標(biāo)函數(shù)為:
其中:tr(VLsVT)是圖正則化項(xiàng),Ls是圖拉普拉斯矩陣,圖正則化參數(shù)λ>0。
Cai等在文獻(xiàn)[20]中給出了如下的迭代規(guī)則:
其中:Ds是對(duì)角矩陣,W是數(shù)據(jù)點(diǎn)間的相似度矩陣,Ls=Ds-W。
研究表明,使用去噪聲的干凈數(shù)據(jù)進(jìn)行學(xué)習(xí)有利于恢復(fù)數(shù)據(jù)的原子空間結(jié)構(gòu),提高算法的魯棒性和抗干擾能力;并且,原始圖像的有效信息常常隱藏在它的低秩結(jié)構(gòu)中,而流形正則化可以保留數(shù)據(jù)的局部幾何結(jié)構(gòu)信息。本文提出的算法,不僅考慮了數(shù)據(jù)的魯棒性,使用了去除噪聲的干凈數(shù)據(jù)進(jìn)行低秩非負(fù)矩陣分解,而且加入了流形正則化項(xiàng),從而保留了數(shù)據(jù)的局部幾何結(jié)構(gòu)信息。
給定一個(gè)訓(xùn)練集X=[x1,x2,…,xn]∈Rm×n,設(shè)E為噪聲矩陣,令X=A+E,稱(chēng)A為不含噪聲的干凈數(shù)據(jù)。使用訓(xùn)練的干凈數(shù)據(jù)矩陣A進(jìn)行NMF 分解,將其分為兩個(gè)非負(fù)因子矩陣的乘積,得到:
上式僅學(xué)習(xí)了局部信息而忽略了數(shù)據(jù)的低秩信息,于是引入低秩約束,得到:
其中:α>0,是衡量低秩矩陣A的權(quán)值??紤]到此式是NP 難問(wèn)題,結(jié)合RPCA理論,進(jìn)一步使用下式代替求解:
最后,為了利用數(shù)據(jù)的局部幾何結(jié)構(gòu)信息,加入局部圖拉普拉斯約束,得到本文算法的最終目標(biāo)函數(shù):
其中權(quán)值系數(shù)α、β和λ均大于0。目標(biāo)函數(shù)的第一項(xiàng)執(zhí)行干凈數(shù)據(jù)矩陣A的低秩非負(fù)矩陣分解;第二項(xiàng)和第三項(xiàng)表示原始數(shù)據(jù)經(jīng)清洗,去掉噪聲E,確保用于非負(fù)矩陣分解的數(shù)據(jù)矩陣A是干凈的;第四項(xiàng)是圖正則化項(xiàng),保留了圖的幾何信息。
本節(jié)考慮如何對(duì)目標(biāo)函數(shù)式(9)進(jìn)行求解。通過(guò)引入輔助變量B,則目標(biāo)函數(shù)式(9)變?yōu)椋?/p>
接下來(lái)使用增廣拉格朗日法對(duì)式(10)進(jìn)行求解,其增廣拉格朗日函數(shù)為:
2.2.1 變量A的求解
固定其他變量來(lái)計(jì)算A,求解式(10)等價(jià)于求解:
進(jìn)一步推導(dǎo),可得:
該式可用奇異值閾值法(Singular Value Thresholding,SVT)[27]求解,設(shè)的SVD[28]為:
2.2.2 變量E的求解
固定其他變量來(lái)計(jì)算E,求解式(10)等價(jià)于求解下式:
該問(wèn)題可用shrinkage operator[24]求解。
2.2.3 變量B的求解
固定其他變量來(lái)計(jì)算B,求解式(10)等價(jià)于求解下式:
進(jìn)一步推導(dǎo)得到:
2.2.4 變量U的求解
固定其他變量來(lái)計(jì)算U,求解式(10)等價(jià)于求解下式:
根據(jù)矩陣跡的性質(zhì),tr(AB)=tr(BA)和tr(A)=tr(AT),得到:
令φik為約束uik≥0 的拉格朗日乘子,定義Φ=[φik],則拉格朗日函數(shù)L(U)為:
通過(guò)式(23)對(duì)U求偏導(dǎo),得到:
根據(jù)Karush-Kuhn-Tuchker(KKT)條件[29],φikuik=0,得到以下方程:
因此得到uij的更新規(guī)則:
2.2.5 變量V的求解
固定其他變量來(lái)計(jì)算V,求解目標(biāo)函數(shù)式(10)等價(jià)于求解下式:
根據(jù)矩陣跡的性質(zhì),tr(AB)=tr(BA)和tr(A)=tr(AT),得到:
令φjk為約束vjk≥0的拉格朗日乘子,定義Ψ=[φjk],則拉格朗日函數(shù)L(V)為:
通過(guò)式(29)對(duì)V求偏導(dǎo),得到:
根據(jù)KKT條件[29],φjkvjk=0,得到以下方程:
因此得到vjk的更新規(guī)則
2.2.6 更新變量μ,M1,M2
最后,按照式(33)更新變量μ、M1、M2:
本節(jié)討論MRNMF/CD算法的收斂性。
定理1 對(duì)于U≥0,V≥0,式(10)中的目標(biāo)函數(shù)值在式(15)、(17)、(20)、(26)、(32)中的更新規(guī)則下不增加,因此MRNMF/CD算法收斂。
證明 顯然,式(15)、(17)、(20)可分別用第2.2.1 節(jié)、2.2.2節(jié)和2.2.3節(jié)中描述的閉式解來(lái)解決。因此,只需要證明式(26)和式(32)在每次迭代中的更新規(guī)則下目標(biāo)值是不增加的。此外,因?yàn)槭剑?0)中目標(biāo)的第二項(xiàng)與U無(wú)關(guān),第一項(xiàng)在計(jì)算V時(shí)不涉及U值的更新,且計(jì)算得出V后的操作符合標(biāo)準(zhǔn)NMF,所以MRNMF/CD中的U更新規(guī)則與原始NMF完全相同,因此,可以使用NMF 的收斂性證明來(lái)證明在等式中更新規(guī)則下目標(biāo)沒(méi)有增加。有關(guān)詳細(xì)信息,可參考文獻(xiàn)[30]。
現(xiàn)在,只需要證明在式(32)中的更新規(guī)則下,目標(biāo)函數(shù)不會(huì)增加即可。而式(32)中更新規(guī)則其實(shí)等價(jià)于文獻(xiàn)[31]中式(26),式(32)的收斂證明可參考文獻(xiàn)[31]附錄中證明過(guò)程,此處不列出。
本節(jié)討論本文算法的計(jì)算復(fù)雜度。在算法MRNMF/CD中,第1 步的復(fù)雜度為O(mn2),第2 步的主要步驟的復(fù)雜度為O(mn),第3 步的計(jì)算復(fù)雜度為O(mnk),第4 步的計(jì)算復(fù)雜度為O(mnk)+O(mnk)=O(mnk),因此算法MRNMF/CD 的總計(jì)算復(fù)雜度為O(t(mn2+mnk)),其中t為迭代次數(shù)。表1 給出了ORL 數(shù)據(jù)集上NMF、GNMF、MRNMF/CD 算法的實(shí)際運(yùn)行時(shí)間。從表1中可以看出,MRNMF/CD 算法復(fù)雜度比較高,這主要是因?yàn)樵贛RNMF/CD 算法中,需進(jìn)行多次SVD,而SVD 的算法復(fù)雜度相對(duì)較高。這可能會(huì)限制應(yīng)用程序使用具有大量樣本的數(shù)據(jù)。降低算法復(fù)雜度的常用方法之一是使用PROPACK進(jìn)行部分SVD,或者使用文獻(xiàn)[32]中的方法,即:
表1 不同算法在ORL數(shù)據(jù)集上的運(yùn)行時(shí)間對(duì)比Tab.1 Running time comparison of different algorithms on ORL dataset
此方法避免了多次SVD,從而降低算法的時(shí)間復(fù)雜度。在其他數(shù)據(jù)庫(kù)中,MRNMF/CD 算法與其他比較方法在運(yùn)行時(shí)間上的差異與ORL數(shù)據(jù)集類(lèi)似。
算法 MRNMF/CD。
輸入 訓(xùn)練集數(shù)據(jù)矩陣X∈Rm×n+,參數(shù)α、β和λ;
初始化:
B=A,E=0,U=0,V=0,M1=M2=0,μ>0,λ=0,ρ=0;
迭代:
1)分別使用式(15)、(17)、(20)、(32)、(26)更新A、E、B、V和U;
2)使用下式更新拉格朗日乘子:
3)更新μ,μ=min(ρμ,maxμ);
4)t=t+1;
5)得到最優(yōu)的A、E、B、U、V;
輸出 非負(fù)矩陣U和V。
為了評(píng)估本文提出的基于干凈數(shù)據(jù)的流形正則化的低秩非負(fù)矩陣分解算法MRNMF/CD 的性能,在ORL 人臉數(shù)據(jù)集、Yale 人臉數(shù)據(jù)集和COIL20 圖像數(shù)據(jù)集三個(gè)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),表2 給出了各數(shù)據(jù)集及其特征,部分示例圖見(jiàn)圖1。本文實(shí)驗(yàn)條件為11th Gen Intel Core i7-1165G7 @ 2.80 GHz,16 GB DDR3 內(nèi)存,Matlab2018b。以聚類(lèi)準(zhǔn)確率(ACCuracy,ACC)、標(biāo)準(zhǔn)互信息(Normalized Mutual Information,NMI)兩個(gè)指標(biāo)作為參考,實(shí)驗(yàn)的對(duì)比算法為k-means、PCA、NMF 和GNMF,實(shí)驗(yàn)中所用算法的參數(shù)已結(jié)合原論文根據(jù)需要調(diào)節(jié)至最優(yōu)。
圖1 ORL、Yale和COIL20數(shù)據(jù)集中的部分圖像示例Fig.1 Some examples of images in datasets ORL,Yale and COIL20
表2 實(shí)驗(yàn)數(shù)據(jù)集及其特征Tab.2 Experimental datasets and their characteristics
在每個(gè)數(shù)據(jù)集上都進(jìn)行了算法精度測(cè)試,每個(gè)數(shù)據(jù)集均進(jìn)行5 次聚類(lèi)實(shí)驗(yàn),簇?cái)?shù)根據(jù)各數(shù)據(jù)集特征量均勻選取,并對(duì)5 次測(cè)試取平均值來(lái)獲得最終的性能得分。對(duì)于每個(gè)測(cè)試,首先應(yīng)用比較算法中的每個(gè)算法,以學(xué)習(xí)數(shù)據(jù)的新表示形式,然后在新的表示空間中應(yīng)用k-means。用不同的初始化將k-means 重復(fù)20 次,并記錄關(guān)于k-means 的目標(biāo)函數(shù)的最佳結(jié)果。
對(duì)比算法介紹如下:
1)k-means:在原始數(shù)據(jù)集上進(jìn)行,不使用樣本中包含的任何信息;
2)PCA:能夠有效地提取原始數(shù)據(jù)集中的主要成分;
3)NMF:試圖找出2個(gè)非負(fù)低維矩陣,其乘積近似為原始矩陣;
4)GNMF:試圖通過(guò)構(gòu)造一個(gè)簡(jiǎn)單的圖來(lái)包含數(shù)據(jù)中的內(nèi)在幾何結(jié)構(gòu)信息;
5)MRNMF/CD:使用去噪聲的干凈數(shù)據(jù)進(jìn)行非負(fù)低秩矩陣分解,并且考慮了數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)信息,實(shí)驗(yàn)中,參數(shù)α和β均設(shè)為0.1,圖正則化參數(shù)設(shè)置為10。
3.2.1 ORL數(shù)據(jù)集上的測(cè)試
ORL 數(shù)據(jù)集上的測(cè)試結(jié)果如表3 所示??梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為64.61%和77.24%,與GNMF 相比,分別提高了11.91 和19.89 個(gè)百分點(diǎn);與NMF 相比,分別提高了29.01 和39.99 個(gè)百分點(diǎn);與PCA 相比,分別提高了27.61 和38.34 個(gè)百分點(diǎn);與k-means 相比,分別提高了25.11和36.19個(gè)百分點(diǎn)。
表3 ORL數(shù)據(jù)集上的聚類(lèi)結(jié)果對(duì)比 單位:%Tab.3 Clustering results comparison on ORL dataset unit:%
3.2.2 Yale數(shù)據(jù)集上的測(cè)試
Yale 數(shù)據(jù)集上的測(cè)試結(jié)果如表4 所示??梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為48.90%和42.33%,與GNMF 相比,分別提高了9.14 和1 個(gè)百分點(diǎn);與NMF 相比,分別提高了20.17 和12.63 個(gè)百分點(diǎn);與PCA 相比,分別提高了20.29 和12.87 個(gè)百分點(diǎn);與k-means 相比,分別提高了20.43和13.48個(gè)百分點(diǎn)。
表4 Yale數(shù)據(jù)集上的聚類(lèi)結(jié)果 單位:%Tab.4 Clustering results on Yale dataset unit:%
3.2.3 COIL20數(shù)據(jù)集上的測(cè)試
COIL20 數(shù)據(jù)集上的測(cè)試結(jié)果如表5 所示??梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為59.91%和64.63%,與GNMF相比,分別降低了2.55和0.58個(gè)百分點(diǎn);與NMF相比,分別提高了16.16 和20.34 個(gè)百分點(diǎn);與PCA 相比,分別提高了19.13 和22.67 個(gè)百分點(diǎn);與k-means 相比,分別提高了17.22和20.85個(gè)百分點(diǎn)。
表5 COIL20數(shù)據(jù)集上的聚類(lèi)結(jié)果 單位:%Tab.5 Clustering results on COIL20 dataset unit:%
本節(jié)對(duì)算法中參數(shù)α、β和γ的選擇進(jìn)行討論,分別在ORL、Yale 和COIL20 三個(gè)數(shù)據(jù)集上測(cè)試參數(shù)α、β和γ對(duì)MRNMF/CD 算法性能的影響。所有實(shí)驗(yàn)均使用ACC 指標(biāo)作為算法評(píng)價(jià)的標(biāo)準(zhǔn)。為了公平地比較,在每個(gè)參數(shù)設(shè)置下,均會(huì)獨(dú)立重復(fù)實(shí)驗(yàn)20 次。同時(shí),記錄了所有比較方法的最佳平均結(jié)果。本節(jié)所有方法的迭代次數(shù)都根據(jù)經(jīng)驗(yàn)設(shè)置為50,聚類(lèi)的數(shù)量設(shè)置為等于真實(shí)類(lèi)的數(shù)量。在三個(gè)數(shù)據(jù)集上,分別測(cè)試參數(shù)α、β和γ值在{0.01,0.1,1,10,100}范圍的聚類(lèi)精度變化。實(shí)驗(yàn)結(jié)果如圖2 所示??梢钥闯?,對(duì)于參數(shù)α,在ORL數(shù)據(jù)集上當(dāng)α=1 時(shí)可獲得較好結(jié)果,在Yale 數(shù)據(jù)集上當(dāng)α=0.1時(shí)可獲得較好結(jié)果,在COIL20 數(shù)據(jù)集上當(dāng)α=1時(shí)可獲得較好結(jié)果;對(duì)于參數(shù)β,在ORL 數(shù)據(jù)集上當(dāng)β=100 時(shí)可獲得較好結(jié)果,在Yale 數(shù)據(jù)集上當(dāng)β=0.1 時(shí)可獲得較好結(jié)果,在COIL20 數(shù)據(jù)集上當(dāng)β=1 時(shí)可獲得較好結(jié)果;對(duì)于參數(shù)γ,在ORL 數(shù)據(jù)集上當(dāng)γ=0.01 時(shí)可獲得較好結(jié)果,在Yale 數(shù)據(jù)集上當(dāng)γ=0.01時(shí)可獲得較好結(jié)果,在COIL20數(shù)據(jù)集上當(dāng)γ=1時(shí)可獲得較好結(jié)果。
圖2 MRNMF/CD算法中各參數(shù)對(duì)性能的影響Fig.2 Influence of each parameter on accuracy in MRNMF/CD algorithm
本節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證MRNMF/CD 方法的收斂情況。圖3呈現(xiàn)了MRNMF/CD 算法在Yale、COIL20 和ORL 三個(gè)數(shù)據(jù)集上的收斂情況。可以看出,當(dāng)?shù)螖?shù)大于35 時(shí),MRNMF/CD算法的目標(biāo)函數(shù)值在Yale 數(shù)據(jù)集上趨于平穩(wěn);當(dāng)?shù)螖?shù)大于650 時(shí),MRNMF/CD 算法的目標(biāo)函數(shù)值在COIL20 數(shù)據(jù)集上趨于平穩(wěn);當(dāng)?shù)螖?shù)約大于10 時(shí),MRNMF/CD 算法的目標(biāo)函數(shù)值在ORL 數(shù)據(jù)集上趨于平穩(wěn)。因此,MRNMF/CD 算法在幾個(gè)數(shù)據(jù)集上均收斂,且速度較快。
圖3 MRNMF/CD算法在Yale、COIL20和ORL數(shù)據(jù)集上的收斂曲線Fig.3 Convergence curves of MRNMF/CD algorithm on datasets Yale,COIL20 and ORL
本文提出的基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解(MRNMF/CD)算法,考慮原始圖像數(shù)據(jù)集噪聲干擾和異常值,使用去噪聲的干凈數(shù)據(jù)進(jìn)行矩陣分解,具有一定的魯棒性,并且在圖嵌入和數(shù)據(jù)重構(gòu)函數(shù)中考慮了有效低秩結(jié)構(gòu)和幾何信息,提高了算法的性能。本文還給出了MRNMF/CD 的迭代公式和收斂性證明。最后,MRNMF/CD 在ORL、Yale 和COIL20數(shù)據(jù)集上的實(shí)驗(yàn)表現(xiàn)出比較好的識(shí)別率和優(yōu)越性。