基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解

2022-01-05 02:31盧桂馥余沁茹

計(jì)算機(jī)應(yīng)用 2021年12期

李華，盧桂馥，余沁茹

（安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院，安徽蕪湖 241000）

（?通信作者電子郵箱luguifu_jsj@163.com）

0 引言

隨著信息社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代，高維數(shù)據(jù)的增長(zhǎng)給數(shù)據(jù)處理帶來(lái)了極大的挑戰(zhàn)，有效的數(shù)據(jù)表示不但能夠提升算法的性能，而且有助于人們發(fā)現(xiàn)高維數(shù)據(jù)背后隱藏的低維本征結(jié)構(gòu)。如何找到原始高維數(shù)據(jù)的有效低維表示是近年來(lái)的一個(gè)研究熱點(diǎn)［1-4］。很多研究者做了大量的工作來(lái)挖掘蘊(yùn)含在原始數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，其中矩陣分解是一種常用的技術(shù)。通過(guò)矩陣分解算法可以獲取高維數(shù)據(jù)的低秩表示，從而有效地挖掘出蘊(yùn)含在原始圖像數(shù)據(jù)中的有用信息，使新的數(shù)據(jù)表示具有更好的識(shí)別能力［5-8］。常見(jiàn)的矩陣分解算法有：正交三角分解（QR分解）［9］、非負(fù)矩陣分解（Nonnegative Matrix Factorization，NMF）［10-12］等。其中，NMF 是由Lee 等［11］于1999年在《Nature》雜志上提出的，其心理學(xué)和生理學(xué)的構(gòu)造依據(jù)是對(duì)整體的感知是由組成整體的部分感知所構(gòu)成的，這也恰恰符合人類(lèi)大腦對(duì)事物的直觀理解。它基于數(shù)據(jù)的局部特征提取數(shù)據(jù)信息，分解之后的矩陣中所有元素都是非負(fù)的，是一種有效的圖像表示工具。

NMF 自提出之后便得到學(xué)者的廣泛關(guān)注并對(duì)其進(jìn)行了深入的研究。為了提高算法的識(shí)別率和有效性，研究人員在NMF 的基礎(chǔ)上提出了許多原始NMF 算法的變體，試圖從不同的角度對(duì)NMF進(jìn)行改進(jìn)。Hoyer［13］把稀疏編碼和標(biāo)準(zhǔn)NMF算法結(jié)合，提出非負(fù)稀疏編碼（Non-negative Sparse Coding，NSC）算法，使得矩陣分解后系數(shù)矩陣的稀疏性較好，這樣可以用更少的有用信息來(lái)表達(dá)原有信息，在一定程度上提高了運(yùn)算的效率。Zhou 等［14］在圖正則化非負(fù)矩陣分解（Graph regularized Nonnegative Matrix Factorization，GNMF）算法的基礎(chǔ)上為NMF 添加了額外的約束，進(jìn)一步提出了局部學(xué)習(xí)正則化NMF（Local Learning regularized NMF，LLNMF）。Wang等［15］提出了一種降維局部約束圖優(yōu)化（Locality Constrained Graph Optimization for Dimensionality Reduction，LC-GODR）算法，將圖優(yōu)化和投影矩陣學(xué)習(xí)結(jié)合到了一個(gè)框架中，由于圖是預(yù)先構(gòu)造并保持不變的，使得其在降維過(guò)程中的圖形可以自適應(yīng)更新。為了能夠同時(shí)利用數(shù)據(jù)的全局信息和局部信息來(lái)進(jìn)行圖形的學(xué)習(xí)，Wen 等［16］提出了一種自適應(yīng)圖正則化的低秩表示（Low-Rank Representation with Adaptive Graph Regularization，LRR-AGR）方法。為了同時(shí)考慮數(shù)據(jù)空間和特征空間的流形結(jié)構(gòu)，Meng等［17］提出了一種具有稀疏和正交約束的對(duì)偶圖正則化非負(fù)矩陣分解（Dual-graph regularized Non-negative Matrix Factorization with Sparse and Orthogonal constraints，SODNMF）。萬(wàn)源等［18］提出了一種低秩稀疏圖嵌入的半監(jiān)督特征選擇方法（semi-supervised feature selection for Low-Rank Sparse graph Embedding，LRSE），充分利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)，分別學(xué)習(xí)其低秩稀疏表示，在目標(biāo)函數(shù)中同時(shí)考慮數(shù)據(jù)降維前后的信息差異和降維過(guò)程中的結(jié)構(gòu)信息，通過(guò)最小化信息損失函數(shù)使數(shù)據(jù)中的有用信息盡可能地保留下來(lái)，從而可以選擇出更具判別性的特征。Tian 等［19］提出了一種總方差約束圖正則化凸非負(fù)矩陣分解（Total Variation constrained Graph-regularized Convex Non-negative Matrix Factorization，TV-GCNMF）算法，將總方差和拉普拉斯圖及凸NMF 結(jié)合起來(lái)，既保留了數(shù)據(jù)的細(xì)節(jié)特征，又揭示了數(shù)據(jù)特征的內(nèi)在幾何結(jié)構(gòu)信息。

為了揭示數(shù)據(jù)內(nèi)在的流形數(shù)據(jù)，考慮到數(shù)據(jù)所攜帶的幾何信息，Cai 等［20］在標(biāo)準(zhǔn)NMF 的基礎(chǔ)上提出了圖正則化非負(fù)矩陣分解（GNMF）算法，并在實(shí)驗(yàn)數(shù)據(jù)集上獲得了較好的實(shí)驗(yàn)結(jié)果。為了獲得原始圖像數(shù)據(jù)集的低秩結(jié)構(gòu)，Li 等［21］提出了圖正則化非負(fù)低秩矩陣分解（Graph Regularized Nonnegative Low-Rank Matrix Factorization，GNLMF）算法，該算法雖然考慮了利用低秩信息來(lái)增強(qiáng)算法的魯棒性，但其本質(zhì)上是一種兩階段方法，且由于不能循環(huán)迭代，使得其得到的解不是最優(yōu)的。為了獲得數(shù)據(jù)的局部和全局表示，Lu 等［22］提出了低秩非負(fù)分解（Low-Rank Nonnegative Factorization，LRNF）算法。雖然LRNF 的性能較為優(yōu)異，但它并沒(méi)有考慮數(shù)據(jù)的流形結(jié)構(gòu)信息，并且在求解過(guò)程中沒(méi)有明確說(shuō)明是如何來(lái)保證數(shù)據(jù)非負(fù)性的。

研究表明，一方面，原始圖像的有效信息常隱藏在數(shù)據(jù)的低秩結(jié)構(gòu)中，數(shù)據(jù)通常從嵌入在高維中的低維流形上進(jìn)行采樣；另一方面，在NMF 中添加額外的正則化項(xiàng)可以在一定程度上提高算法抗噪聲干擾的能力和算法的魯棒性。為了解決上述問(wèn)題，本文提出一種基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解（Manifold Regularized Non-negative Matrix Factorization with low-rank constraint based on Clean Data，MRNMF/CD）算法，該算法將含有噪聲的原始圖像數(shù)據(jù)進(jìn)行清洗，使用干凈數(shù)據(jù)進(jìn)行學(xué)習(xí)，并且將有效低秩結(jié)構(gòu)和數(shù)據(jù)的幾何信息引入到NMF，使其魯棒性有了進(jìn)一步提高。通過(guò)在ORL、COIL20 和Yale 三個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，驗(yàn)證了本文MRNMF/CD 算法比現(xiàn)有的其他算法優(yōu)異。

1 相關(guān)工作

1.1 魯棒性主成分分析（RPCA）

作為最重要的降維方法之一，主成分分析（Principal Component Analysis，PCA）已應(yīng)用于很多領(lǐng)域。但由于數(shù)據(jù)中的噪聲和異常值，PCA 的性能及應(yīng)用受到了限制。為了克服PCA 的這些不足，人們提出了魯棒性PCA（Robust PCA，RPCA）［23-24］用于恢復(fù)帶有誤差的數(shù)據(jù)原子空間結(jié)構(gòu)［25-26］。

RPCA 假定原始數(shù)據(jù)為X=(A+E)T∈Rn×m，A∈Rm×n為低秩數(shù)據(jù)矩陣，E∈Rm×n為添加的噪聲誤差矩陣。RPCA 的目標(biāo)是恢復(fù)數(shù)據(jù)的噪聲部分，其優(yōu)化模型為：

其中：α為正參數(shù)；‖ · ‖0為矩陣的l0范數(shù)。由于模型（1）為非凸的，所以很難得到有效的解。通過(guò)將秩函數(shù)與l0范數(shù)轉(zhuǎn)換為核范數(shù)與l1范數(shù)，則式（1）轉(zhuǎn)化為下式：

其中：α為正參數(shù)，‖ · ‖*表示矩陣的核范數(shù)，‖ · ‖1表示矩陣的l1范數(shù)。

1.2 圖正則化非負(fù)矩陣分解（GNMF）

現(xiàn)實(shí)世界中，許多數(shù)據(jù)是嵌入在高維歐氏空間中非線性低維流形上的，然而，NMF 算法和許多改進(jìn)的NMF 算法在處理原始數(shù)據(jù)時(shí)，沒(méi)有考慮數(shù)據(jù)的內(nèi)蘊(yùn)幾何結(jié)構(gòu)。為了能夠發(fā)現(xiàn)數(shù)據(jù)隱藏信息的表示方法，同時(shí)又考慮數(shù)據(jù)內(nèi)在的幾何信息，Cai 等［20］通過(guò)將圖正則化項(xiàng)融入標(biāo)準(zhǔn)的NMF 框架中，提出了圖正則非負(fù)矩陣分解算法。該算法假設(shè)2 個(gè)數(shù)據(jù)點(diǎn)在原始數(shù)據(jù)空間中的幾何距離如果是鄰近，則其在基于新的基向量低維表示中相對(duì)應(yīng)的數(shù)據(jù)點(diǎn)也應(yīng)該離得很近。與傳統(tǒng)的降維算法相比，流形學(xué)習(xí)算法能夠揭示原始數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)，尋找高維數(shù)據(jù)在低維空間中的緊致嵌入。GNMF 的目標(biāo)函數(shù)為：

其中：tr(VLsVT)是圖正則化項(xiàng)，Ls是圖拉普拉斯矩陣，圖正則化參數(shù)λ＞0。

Cai等在文獻(xiàn)［20］中給出了如下的迭代規(guī)則：

其中：Ds是對(duì)角矩陣，W是數(shù)據(jù)點(diǎn)間的相似度矩陣，Ls=Ds-W。

2 基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解

研究表明，使用去噪聲的干凈數(shù)據(jù)進(jìn)行學(xué)習(xí)有利于恢復(fù)數(shù)據(jù)的原子空間結(jié)構(gòu)，提高算法的魯棒性和抗干擾能力；并且，原始圖像的有效信息常常隱藏在它的低秩結(jié)構(gòu)中，而流形正則化可以保留數(shù)據(jù)的局部幾何結(jié)構(gòu)信息。本文提出的算法，不僅考慮了數(shù)據(jù)的魯棒性，使用了去除噪聲的干凈數(shù)據(jù)進(jìn)行低秩非負(fù)矩陣分解，而且加入了流形正則化項(xiàng)，從而保留了數(shù)據(jù)的局部幾何結(jié)構(gòu)信息。

2.1 算法模型

給定一個(gè)訓(xùn)練集X=[x1，x2，…，xn]∈Rm×n，設(shè)E為噪聲矩陣，令X=A+E，稱(chēng)A為不含噪聲的干凈數(shù)據(jù)。使用訓(xùn)練的干凈數(shù)據(jù)矩陣A進(jìn)行NMF 分解，將其分為兩個(gè)非負(fù)因子矩陣的乘積，得到：

上式僅學(xué)習(xí)了局部信息而忽略了數(shù)據(jù)的低秩信息，于是引入低秩約束，得到：

其中：α＞0，是衡量低秩矩陣A的權(quán)值?？紤]到此式是NP 難問(wèn)題，結(jié)合RPCA理論，進(jìn)一步使用下式代替求解：

最后，為了利用數(shù)據(jù)的局部幾何結(jié)構(gòu)信息，加入局部圖拉普拉斯約束，得到本文算法的最終目標(biāo)函數(shù)：

其中權(quán)值系數(shù)α、β和λ均大于0。目標(biāo)函數(shù)的第一項(xiàng)執(zhí)行干凈數(shù)據(jù)矩陣A的低秩非負(fù)矩陣分解；第二項(xiàng)和第三項(xiàng)表示原始數(shù)據(jù)經(jīng)清洗，去掉噪聲E，確保用于非負(fù)矩陣分解的數(shù)據(jù)矩陣A是干凈的；第四項(xiàng)是圖正則化項(xiàng)，保留了圖的幾何信息。

2.2 模型求解

本節(jié)考慮如何對(duì)目標(biāo)函數(shù)式（9）進(jìn)行求解。通過(guò)引入輔助變量B，則目標(biāo)函數(shù)式（9）變?yōu)椋?/p>

接下來(lái)使用增廣拉格朗日法對(duì)式（10）進(jìn)行求解，其增廣拉格朗日函數(shù)為：

2.2.1 變量A的求解

固定其他變量來(lái)計(jì)算A，求解式（10）等價(jià)于求解：

進(jìn)一步推導(dǎo)，可得：

該式可用奇異值閾值法（Singular Value Thresholding，SVT）［27］求解，設(shè)的SVD［28］為：

2.2.2 變量E的求解

固定其他變量來(lái)計(jì)算E，求解式（10）等價(jià)于求解下式：

該問(wèn)題可用shrinkage operator［24］求解。

2.2.3 變量B的求解

固定其他變量來(lái)計(jì)算B，求解式（10）等價(jià)于求解下式：

進(jìn)一步推導(dǎo)得到：

2.2.4 變量U的求解

固定其他變量來(lái)計(jì)算U，求解式（10）等價(jià)于求解下式：

根據(jù)矩陣跡的性質(zhì)，tr(AB)=tr(BA)和tr(A)=tr(AT)，得到：

令φik為約束uik≥0 的拉格朗日乘子，定義Φ=[φik]，則拉格朗日函數(shù)L(U)為：

通過(guò)式（23）對(duì)U求偏導(dǎo)，得到：

根據(jù)Karush-Kuhn-Tuchker（KKT）條件［29］，φikuik=0，得到以下方程：

因此得到uij的更新規(guī)則：

2.2.5 變量V的求解

固定其他變量來(lái)計(jì)算V，求解目標(biāo)函數(shù)式（10）等價(jià)于求解下式：

根據(jù)矩陣跡的性質(zhì)，tr(AB)=tr(BA)和tr(A)=tr(AT)，得到：

令φjk為約束vjk≥0的拉格朗日乘子，定義Ψ=[φjk]，則拉格朗日函數(shù)L(V)為：

通過(guò)式（29）對(duì)V求偏導(dǎo)，得到：

根據(jù)KKT條件［29］，φjkvjk=0，得到以下方程：

因此得到vjk的更新規(guī)則

2.2.6 更新變量μ，M1，M2

最后，按照式（33）更新變量μ、M1、M2：

2.3 收斂性分析

本節(jié)討論MRNMF/CD算法的收斂性。

定理1 對(duì)于U≥0，V≥0，式（10）中的目標(biāo)函數(shù)值在式（15）、（17）、（20）、（26）、（32）中的更新規(guī)則下不增加，因此MRNMF/CD算法收斂。

證明顯然，式（15）、（17）、（20）可分別用第2.2.1 節(jié)、2.2.2節(jié)和2.2.3節(jié)中描述的閉式解來(lái)解決。因此，只需要證明式（26）和式（32）在每次迭代中的更新規(guī)則下目標(biāo)值是不增加的。此外，因?yàn)槭剑?0）中目標(biāo)的第二項(xiàng)與U無(wú)關(guān)，第一項(xiàng)在計(jì)算V時(shí)不涉及U值的更新，且計(jì)算得出V后的操作符合標(biāo)準(zhǔn)NMF，所以MRNMF/CD中的U更新規(guī)則與原始NMF完全相同，因此，可以使用NMF 的收斂性證明來(lái)證明在等式中更新規(guī)則下目標(biāo)沒(méi)有增加。有關(guān)詳細(xì)信息，可參考文獻(xiàn)［30］。

現(xiàn)在，只需要證明在式（32）中的更新規(guī)則下，目標(biāo)函數(shù)不會(huì)增加即可。而式（32）中更新規(guī)則其實(shí)等價(jià)于文獻(xiàn)［31］中式（26），式（32）的收斂證明可參考文獻(xiàn)［31］附錄中證明過(guò)程，此處不列出。

2.4 時(shí)間復(fù)雜度分析

本節(jié)討論本文算法的計(jì)算復(fù)雜度。在算法MRNMF/CD中，第1 步的復(fù)雜度為O(mn2)，第2 步的主要步驟的復(fù)雜度為O(mn)，第3 步的計(jì)算復(fù)雜度為O(mnk)，第4 步的計(jì)算復(fù)雜度為O(mnk)+O(mnk)=O(mnk)，因此算法MRNMF/CD 的總計(jì)算復(fù)雜度為O(t(mn2+mnk))，其中t為迭代次數(shù)。表1 給出了ORL 數(shù)據(jù)集上NMF、GNMF、MRNMF/CD 算法的實(shí)際運(yùn)行時(shí)間。從表1中可以看出，MRNMF/CD 算法復(fù)雜度比較高，這主要是因?yàn)樵贛RNMF/CD 算法中，需進(jìn)行多次SVD，而SVD 的算法復(fù)雜度相對(duì)較高。這可能會(huì)限制應(yīng)用程序使用具有大量樣本的數(shù)據(jù)。降低算法復(fù)雜度的常用方法之一是使用PROPACK進(jìn)行部分SVD，或者使用文獻(xiàn)［32］中的方法，即：

表1 不同算法在ORL數(shù)據(jù)集上的運(yùn)行時(shí)間對(duì)比Tab.1 Running time comparison of different algorithms on ORL dataset

此方法避免了多次SVD，從而降低算法的時(shí)間復(fù)雜度。在其他數(shù)據(jù)庫(kù)中，MRNMF/CD 算法與其他比較方法在運(yùn)行時(shí)間上的差異與ORL數(shù)據(jù)集類(lèi)似。

算法 MRNMF/CD。

輸入訓(xùn)練集數(shù)據(jù)矩陣X∈Rm×n+，參數(shù)α、β和λ；

初始化：

B=A，E=0，U=0，V=0，M1=M2=0，μ＞0，λ=0，ρ=0；

迭代：

1）分別使用式（15）、（17）、（20）、（32）、（26）更新A、E、B、V和U；

2）使用下式更新拉格朗日乘子：

3）更新μ，μ=min(ρμ，maxμ)；

4）t=t+1；

5）得到最優(yōu)的A、E、B、U、V；

輸出非負(fù)矩陣U和V。

3 實(shí)驗(yàn)及結(jié)果分析

為了評(píng)估本文提出的基于干凈數(shù)據(jù)的流形正則化的低秩非負(fù)矩陣分解算法MRNMF/CD 的性能，在ORL 人臉數(shù)據(jù)集、Yale 人臉數(shù)據(jù)集和COIL20 圖像數(shù)據(jù)集三個(gè)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，表2 給出了各數(shù)據(jù)集及其特征，部分示例圖見(jiàn)圖1。本文實(shí)驗(yàn)條件為11th Gen Intel Core i7-1165G7 @ 2.80 GHz，16 GB DDR3 內(nèi)存，Matlab2018b。以聚類(lèi)準(zhǔn)確率（ACCuracy，ACC）、標(biāo)準(zhǔn)互信息（Normalized Mutual Information，NMI）兩個(gè)指標(biāo)作為參考，實(shí)驗(yàn)的對(duì)比算法為k-means、PCA、NMF 和GNMF，實(shí)驗(yàn)中所用算法的參數(shù)已結(jié)合原論文根據(jù)需要調(diào)節(jié)至最優(yōu)。

圖1 ORL、Yale和COIL20數(shù)據(jù)集中的部分圖像示例Fig.1 Some examples of images in datasets ORL，Yale and COIL20

表2 實(shí)驗(yàn)數(shù)據(jù)集及其特征Tab.2 Experimental datasets and their characteristics

在每個(gè)數(shù)據(jù)集上都進(jìn)行了算法精度測(cè)試，每個(gè)數(shù)據(jù)集均進(jìn)行5 次聚類(lèi)實(shí)驗(yàn)，簇?cái)?shù)根據(jù)各數(shù)據(jù)集特征量均勻選取，并對(duì)5 次測(cè)試取平均值來(lái)獲得最終的性能得分。對(duì)于每個(gè)測(cè)試，首先應(yīng)用比較算法中的每個(gè)算法，以學(xué)習(xí)數(shù)據(jù)的新表示形式，然后在新的表示空間中應(yīng)用k-means。用不同的初始化將k-means 重復(fù)20 次，并記錄關(guān)于k-means 的目標(biāo)函數(shù)的最佳結(jié)果。

3.1 比較算法

對(duì)比算法介紹如下：

1）k-means：在原始數(shù)據(jù)集上進(jìn)行，不使用樣本中包含的任何信息；

2）PCA：能夠有效地提取原始數(shù)據(jù)集中的主要成分；

3）NMF：試圖找出2個(gè)非負(fù)低維矩陣，其乘積近似為原始矩陣；

4）GNMF：試圖通過(guò)構(gòu)造一個(gè)簡(jiǎn)單的圖來(lái)包含數(shù)據(jù)中的內(nèi)在幾何結(jié)構(gòu)信息；

5）MRNMF/CD：使用去噪聲的干凈數(shù)據(jù)進(jìn)行非負(fù)低秩矩陣分解，并且考慮了數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)信息，實(shí)驗(yàn)中，參數(shù)α和β均設(shè)為0.1，圖正則化參數(shù)設(shè)置為10。

3.2 圖像聚類(lèi)實(shí)驗(yàn)

3.2.1 ORL數(shù)據(jù)集上的測(cè)試

ORL 數(shù)據(jù)集上的測(cè)試結(jié)果如表3 所示?？梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為64.61%和77.24%，與GNMF 相比，分別提高了11.91 和19.89 個(gè)百分點(diǎn)；與NMF 相比，分別提高了29.01 和39.99 個(gè)百分點(diǎn)；與PCA 相比，分別提高了27.61 和38.34 個(gè)百分點(diǎn)；與k-means 相比，分別提高了25.11和36.19個(gè)百分點(diǎn)。

表3 ORL數(shù)據(jù)集上的聚類(lèi)結(jié)果對(duì)比單位：%Tab.3 Clustering results comparison on ORL dataset unit：%

3.2.2 Yale數(shù)據(jù)集上的測(cè)試

Yale 數(shù)據(jù)集上的測(cè)試結(jié)果如表4 所示?？梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為48.90%和42.33%，與GNMF 相比，分別提高了9.14 和1 個(gè)百分點(diǎn)；與NMF 相比，分別提高了20.17 和12.63 個(gè)百分點(diǎn)；與PCA 相比，分別提高了20.29 和12.87 個(gè)百分點(diǎn)；與k-means 相比，分別提高了20.43和13.48個(gè)百分點(diǎn)。

表4 Yale數(shù)據(jù)集上的聚類(lèi)結(jié)果單位：%Tab.4 Clustering results on Yale dataset unit：%

3.2.3 COIL20數(shù)據(jù)集上的測(cè)試

COIL20 數(shù)據(jù)集上的測(cè)試結(jié)果如表5 所示?？梢钥闯鯩RNMF/CD 的ACC 和NMI 均值分別為59.91%和64.63%，與GNMF相比，分別降低了2.55和0.58個(gè)百分點(diǎn)；與NMF相比，分別提高了16.16 和20.34 個(gè)百分點(diǎn)；與PCA 相比，分別提高了19.13 和22.67 個(gè)百分點(diǎn)；與k-means 相比，分別提高了17.22和20.85個(gè)百分點(diǎn)。

表5 COIL20數(shù)據(jù)集上的聚類(lèi)結(jié)果單位：%Tab.5 Clustering results on COIL20 dataset unit：%

3.3 參數(shù)選擇實(shí)驗(yàn)

本節(jié)對(duì)算法中參數(shù)α、β和γ的選擇進(jìn)行討論，分別在ORL、Yale 和COIL20 三個(gè)數(shù)據(jù)集上測(cè)試參數(shù)α、β和γ對(duì)MRNMF/CD 算法性能的影響。所有實(shí)驗(yàn)均使用ACC 指標(biāo)作為算法評(píng)價(jià)的標(biāo)準(zhǔn)。為了公平地比較，在每個(gè)參數(shù)設(shè)置下，均會(huì)獨(dú)立重復(fù)實(shí)驗(yàn)20 次。同時(shí)，記錄了所有比較方法的最佳平均結(jié)果。本節(jié)所有方法的迭代次數(shù)都根據(jù)經(jīng)驗(yàn)設(shè)置為50，聚類(lèi)的數(shù)量設(shè)置為等于真實(shí)類(lèi)的數(shù)量。在三個(gè)數(shù)據(jù)集上，分別測(cè)試參數(shù)α、β和γ值在{0.01，0.1，1，10，100}范圍的聚類(lèi)精度變化。實(shí)驗(yàn)結(jié)果如圖2 所示?？梢钥闯?，對(duì)于參數(shù)α，在ORL數(shù)據(jù)集上當(dāng)α=1 時(shí)可獲得較好結(jié)果，在Yale 數(shù)據(jù)集上當(dāng)α=0.1時(shí)可獲得較好結(jié)果，在COIL20 數(shù)據(jù)集上當(dāng)α=1時(shí)可獲得較好結(jié)果；對(duì)于參數(shù)β，在ORL 數(shù)據(jù)集上當(dāng)β=100 時(shí)可獲得較好結(jié)果，在Yale 數(shù)據(jù)集上當(dāng)β=0.1 時(shí)可獲得較好結(jié)果，在COIL20 數(shù)據(jù)集上當(dāng)β=1 時(shí)可獲得較好結(jié)果；對(duì)于參數(shù)γ，在ORL 數(shù)據(jù)集上當(dāng)γ=0.01 時(shí)可獲得較好結(jié)果，在Yale 數(shù)據(jù)集上當(dāng)γ=0.01時(shí)可獲得較好結(jié)果，在COIL20數(shù)據(jù)集上當(dāng)γ=1時(shí)可獲得較好結(jié)果。

圖2 MRNMF/CD算法中各參數(shù)對(duì)性能的影響Fig.2 Influence of each parameter on accuracy in MRNMF/CD algorithm

3.4 收斂性研究

本節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證MRNMF/CD 方法的收斂情況。圖3呈現(xiàn)了MRNMF/CD 算法在Yale、COIL20 和ORL 三個(gè)數(shù)據(jù)集上的收斂情況。可以看出，當(dāng)?shù)螖?shù)大于35 時(shí)，MRNMF/CD算法的目標(biāo)函數(shù)值在Yale 數(shù)據(jù)集上趨于平穩(wěn)；當(dāng)?shù)螖?shù)大于650 時(shí)，MRNMF/CD 算法的目標(biāo)函數(shù)值在COIL20 數(shù)據(jù)集上趨于平穩(wěn)；當(dāng)?shù)螖?shù)約大于10 時(shí)，MRNMF/CD 算法的目標(biāo)函數(shù)值在ORL 數(shù)據(jù)集上趨于平穩(wěn)。因此，MRNMF/CD 算法在幾個(gè)數(shù)據(jù)集上均收斂，且速度較快。

圖3 MRNMF/CD算法在Yale、COIL20和ORL數(shù)據(jù)集上的收斂曲線Fig.3 Convergence curves of MRNMF/CD algorithm on datasets Yale，COIL20 and ORL

4 結(jié)語(yǔ)

本文提出的基于干凈數(shù)據(jù)的流形正則化非負(fù)矩陣分解（MRNMF/CD）算法，考慮原始圖像數(shù)據(jù)集噪聲干擾和異常值，使用去噪聲的干凈數(shù)據(jù)進(jìn)行矩陣分解，具有一定的魯棒性，并且在圖嵌入和數(shù)據(jù)重構(gòu)函數(shù)中考慮了有效低秩結(jié)構(gòu)和幾何信息，提高了算法的性能。本文還給出了MRNMF/CD 的迭代公式和收斂性證明。最后，MRNMF/CD 在ORL、Yale 和COIL20數(shù)據(jù)集上的實(shí)驗(yàn)表現(xiàn)出比較好的識(shí)別率和優(yōu)越性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡