張 鑫,刁麓弘,南 東,王永利,劉 陽
?
基于主成分分析的自適應(yīng)特征選擇算法研究
張 鑫,刁麓弘,南 東,王永利,劉 陽
(北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京 100124)
提出了一種自適應(yīng)性的特征提取方法。首先通過主成分分析求出樣本全局投影空間,然后基于最大化投影構(gòu)建優(yōu)化目標(biāo)函數(shù),最后通過該函數(shù)求出自適應(yīng)于個(gè)體樣本的投影空間。該方法很好地考慮了樣本集合中每個(gè)樣本的分布特點(diǎn)。為了使得算法可應(yīng)用于識(shí)別分類問題中,給出了計(jì)算存在于不同投影空間的個(gè)體樣本間相似性的方法,相比于歐式度量,該方法被證明得到的相似性能夠更好地表征樣本間的測地距離關(guān)系,使其能夠有效地對(duì)流型結(jié)構(gòu)數(shù)據(jù)進(jìn)行學(xué)習(xí)。通過在不同數(shù)據(jù)庫上進(jìn)行分類及重構(gòu)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法能夠更好地提取數(shù)據(jù)特征,且對(duì)離群點(diǎn)具有魯棒性。
特征提??;主成分分析;自適應(yīng)特征提??;人臉識(shí)別
隨著數(shù)據(jù)采集硬件水平的提升,越來越多的實(shí)驗(yàn)數(shù)據(jù)被成功地采集。數(shù)據(jù)包含的信息更加復(fù)雜,維數(shù)同時(shí)隨之增加,對(duì)于降維方法的研究變得越來越重要,其中主成分分析(principal component analysis,PCA)作為一種線性降維算法,被成功地應(yīng)用到了模式識(shí)別中的許多領(lǐng)域[1-6]。
PCA方法以投影后數(shù)據(jù)均方誤差最小作為目標(biāo)函數(shù),通過構(gòu)造一個(gè)低維投影空間進(jìn)行降維。傳統(tǒng)PCA的目標(biāo)函數(shù)是基于L2范數(shù)的[7]。其對(duì)于樣本中的噪聲與異常點(diǎn)較為敏感,因此近年來更多的研究者著手于提升PCA魯棒性的算法研究。因?yàn)長1范數(shù)對(duì)于噪聲與異常點(diǎn)的不敏感,基于L1范數(shù)的PCA算法相繼被提出。其中,BACCINI等[8]利用極大似然估計(jì),提出了一種啟發(fā)式Gini-PCA近似估計(jì)L1范數(shù)下的主成分,KE和KANADE[9]提出了一種利用交錯(cuò)迭代方法求解L1范數(shù)下低維空間的算法,雖然該算法提升了對(duì)異常點(diǎn)魯棒性,但計(jì)算量極大,且不具有旋轉(zhuǎn)不變性。KWAK[10]以基于L1范數(shù)下最大化方差為目標(biāo)函數(shù),提出了一種兼具魯棒性與旋轉(zhuǎn)不變性的PCA-L1算法,并且利用快速貪婪算法逐步計(jì)算主成分,實(shí)驗(yàn)結(jié)果表明該算法能夠很好地應(yīng)用于人臉識(shí)別、人臉重建等模式識(shí)別中。除了采用L1范數(shù)作為目標(biāo)函數(shù)外,DING等[11]定義了另一種新的R1范數(shù),將傳統(tǒng)PCA中的L2范數(shù)替換為R1進(jìn)行求解,實(shí)驗(yàn)證明該算法能夠很好地處理異常點(diǎn),缺點(diǎn)仍為計(jì)算量過大。為了解決計(jì)算量的問題,研究者們提出了一些近似算法[12-13],其中文獻(xiàn)[10]算法在計(jì)算效率和性能上都取得了很好的結(jié)果。CANDES等[14]提出了RPCA算法,引入稀疏噪聲矩陣,通過構(gòu)造噪聲矩陣與低秩矩陣的目標(biāo)函數(shù),從而恢復(fù)低秩矩陣實(shí)現(xiàn)了降維,并且對(duì)于噪聲具有很好的魯棒性。SHAHID等[15]對(duì)RPCA進(jìn)行改進(jìn),加入了平滑度正則化,在保證對(duì)異常點(diǎn)魯棒性前提下,在聚類以及低秩矩陣恢復(fù)應(yīng)用上取得了很好的效果。
為了能使得PCA算法更加適應(yīng)樣本數(shù)據(jù),一些自適應(yīng)特征提取算法也被相繼提出。WANG和WU[16]提出了一種基于L2范數(shù)的WPCA算法,通過向投影空間添加權(quán)重,使得投影后的數(shù)據(jù)協(xié)方差為單位陣。TAN和CHEN[17]提出了一種用于人臉識(shí)別的自適應(yīng)加權(quán)子模式PCA,該算法增強(qiáng)了對(duì)不同面部表情和照明條件的魯棒性。
以上對(duì)于PCA算法的研究,使得改進(jìn)的PCA算法魯棒性得到提高,并且能夠很好的適應(yīng)于樣本數(shù)據(jù),但計(jì)算出的投影空間卻是唯一的,滿足的目標(biāo)函數(shù)是適應(yīng)于整體樣本的。為了對(duì)數(shù)據(jù)更好地比對(duì)和識(shí)別,本文提出了一種能夠適應(yīng)于單個(gè)樣本的特征選擇算法,該方法在PCA-L2的基礎(chǔ)上,基于最大化投影為每個(gè)樣本自適應(yīng)地選擇特征,從而很好地考慮了樣本集合中每個(gè)樣本的分布特點(diǎn)。
(1) 最小化投影誤差
(2) 最大化投影后方差
自適應(yīng)目標(biāo)函數(shù)為
自適應(yīng)特征選擇算法如下:
輸入:訓(xùn)練樣本與測試樣本。
投影空間中投影向量的數(shù)量取決于提取樣本特征的個(gè)數(shù),篩選投影向量的順序在式(3)的約束下進(jìn)行,優(yōu)先選取數(shù)據(jù)投影后絕對(duì)值較大的投影向量。
2.1節(jié)中所提出的方法是線性降維方法。大多數(shù)真實(shí)世界的數(shù)據(jù)存在于高維的非線性流形中,線性降維方法本質(zhì)在于利用低維的線性空間去表示高維的復(fù)雜流形,從而可以利用歐式距離代表原復(fù)雜流形的測地距離。一般情況下,歐式距離往往不能真正衡量數(shù)據(jù)間真實(shí)距離,如圖1所示。
圖1 瑞士卷結(jié)構(gòu)上的歐式距離與測地距離
通過好的降維方法進(jìn)行降維以后,其數(shù)據(jù)點(diǎn)歐式距離能夠更好保持原本的測地距離結(jié)構(gòu)。目前,基于PCA的方法均是假設(shè)數(shù)據(jù)都分布在同一線性空間中,事實(shí)上樣本數(shù)據(jù)有時(shí)會(huì)分布在不同的子空間中,而常用的LDA方法即針對(duì)這一問題提出的,但是LDA方法也存在一些問題,如降維后的空間受樣本數(shù)量限制等。本文所提的方法則可基于PCA對(duì)這一問題進(jìn)行解決。
表1 5種不同PCA算法計(jì)算所得與值結(jié)果
為了對(duì)本文算法的有效性進(jìn)行驗(yàn)證,特給出了在實(shí)際數(shù)據(jù)庫上的對(duì)比實(shí)驗(yàn)。6種的降維算法應(yīng)用到3個(gè)不同的數(shù)據(jù)庫上,通過正確識(shí)別率以及平均重建誤差來評(píng)估算法性能。其中,分類過程采用了基于歐式空間距離的最近鄰分類器,正確識(shí)別率為識(shí)別正確的測試樣本數(shù)量與總測試樣本數(shù)量的比值。重建過程則為計(jì)算原數(shù)據(jù)與噪聲數(shù)據(jù)重建后數(shù)值的差。所有實(shí)驗(yàn)中,每一種特征數(shù)下的識(shí)別率均做了10倍交叉檢驗(yàn),即隨機(jī)生成10次訓(xùn)練集與測試集并計(jì)算平均識(shí)別率。
5種PCA算法首先應(yīng)用在UCI數(shù)據(jù)集[19]中進(jìn)行分類實(shí)驗(yàn)。UCI數(shù)據(jù)庫是加州大學(xué)歐文分校提出的用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫,這個(gè)數(shù)據(jù)庫目前共有378個(gè)數(shù)據(jù)集,是一個(gè)常用的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)測試數(shù)據(jù)集。
實(shí)驗(yàn)選取常用的Balance等6個(gè)數(shù)據(jù)集[10-11]進(jìn)行測試,其變量數(shù)量、類別以及樣本數(shù)量見表2。
表2 UCI數(shù)據(jù)集屬性
訓(xùn)練前,每個(gè)數(shù)據(jù)集都被歸一化至均值為0,在十倍交叉檢驗(yàn)中,隨機(jī)將數(shù)據(jù)集40%作為訓(xùn)練集,剩余數(shù)據(jù)作為測試集。實(shí)驗(yàn)中,首先算法通過計(jì)算訓(xùn)練集的協(xié)方差矩陣特征值,得到了基于L2范數(shù)的投影空間。在自適應(yīng)特征選擇過程中,采用本文提出的PCA-L2/ASF算法,分別挑選出適應(yīng)于每張測試圖片的投影向量進(jìn)而組成自適應(yīng)投影空間,之后使用歐氏空間下的最小距離分類器進(jìn)行分類。對(duì)比實(shí)驗(yàn)的識(shí)別率結(jié)果如圖2所示。
對(duì)于傳統(tǒng)PCA-L2算法,本文算法明顯可以得到更高的識(shí)別率,尤其當(dāng)提取特征數(shù)較小時(shí),優(yōu)勢更為明顯。相比于PCA-L1算法,本文算法在圖2(a)、(f)中,在提取特征較高時(shí)結(jié)果更優(yōu)。在圖2(a)、(e)、(f)中提取特征較低時(shí)PCA-L1算法更優(yōu);特征較高時(shí)結(jié)果基本持平;在圖2(d)中提取特征較低時(shí)本文算法識(shí)別率更高。對(duì)于較高樣本量及特征量的數(shù)據(jù)集圖2(c)中,本文算法取得了很好的結(jié)果,在不同維度下識(shí)別率優(yōu)于所有算法。WPCA在圖2(b)、(e)、(f)中在低維上識(shí)別率較高,但隨著提取特征數(shù)增加,本文算法明顯好于WPCA算法。在圖2(a)中本文算法基本與WPCA保持持平,當(dāng)維度為3時(shí)本文算法更優(yōu)。而在圖2(d)中WPCA在中段維度識(shí)別率較為突出,但本文算法在低維與高維空間識(shí)別率結(jié)果均優(yōu)于WPCA。
第二個(gè)對(duì)比實(shí)驗(yàn)所采用的是耶魯人臉庫。該數(shù)據(jù)庫采集了15個(gè)人共計(jì)165張灰度人臉圖像,每個(gè)人的圖像中包含了人臉表情、光照條件不同的11幅圖像。實(shí)驗(yàn)前,每幅圖像被轉(zhuǎn)化為了一個(gè)10 000維的向量,并且所有數(shù)據(jù)被歸一化至均值為0。在十倍交叉檢驗(yàn)中,隨機(jī)抽取每個(gè)人5幅圖片共計(jì)75張圖片作為訓(xùn)練集,剩余數(shù)據(jù)作為訓(xùn)練集。
實(shí)驗(yàn)引入棧式自編碼網(wǎng)絡(luò)[20](stacked autoencoder, SAE),輸入單元10 000個(gè)(每張圖像10 000維),輸出單元15個(gè)(圖像共15類),代碼來自文獻(xiàn)[21],除輸入與輸出單元個(gè)數(shù),網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置與文獻(xiàn)[21]相同。識(shí)別結(jié)果如圖3所示。
從圖3中可以看到,本文算法對(duì)于人臉識(shí)別的效果要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)PCA-L2算法效果。與PCA-L1與WPCA算法相比,在提取特征數(shù)量較低的區(qū)域內(nèi),本文算法在識(shí)別率優(yōu)勢較為明顯,較高區(qū)域與L1算法的識(shí)別率基本持平,WPCA的識(shí)別率最好。由于樣本量較少,SAE在提取特征數(shù)量較低時(shí),識(shí)別率均偏低,出現(xiàn)了目標(biāo)函數(shù)不收斂情況。在提取特征較高時(shí),目標(biāo)函數(shù)可以收斂,相對(duì)應(yīng)的測試集進(jìn)行測試時(shí)結(jié)果卻在64.44%~80.00%之間。因此,PCA算法在小樣本數(shù)據(jù)集上的識(shí)別率要優(yōu)于SAE神經(jīng)網(wǎng)絡(luò)。
圖2 UCI數(shù)據(jù)庫的識(shí)別率
圖3 Yale數(shù)據(jù)庫的識(shí)別率
因?yàn)樵趫D形上識(shí)別率曲線比較接近,表3列出了提取特征在10維之內(nèi)的正確識(shí)別率結(jié)果。
表3 6種PCA算法的正確識(shí)別率結(jié)果
注:提取特征數(shù)小于10
ORL人臉數(shù)據(jù)庫包含了40個(gè)人共計(jì)400張的灰度人臉圖像,其中每人10張圖像。每張圖像都是在不同人臉面部表情及光照強(qiáng)度的條件下采集的,像素大小為92×112。實(shí)驗(yàn)前,將每張圖片轉(zhuǎn)換為一個(gè)10 304維的向量。
在識(shí)別率實(shí)驗(yàn)中,隨機(jī)抽取每個(gè)人的5張圖像作為訓(xùn)練集,剩余5張作為測試集。實(shí)驗(yàn)結(jié)果如圖4所示。
實(shí)驗(yàn)中棧式自編碼網(wǎng)絡(luò)輸入單元個(gè)數(shù)為10 304 (每張圖像10 304維),輸出單元個(gè)數(shù)為40(圖像共40類),除輸入與輸出單元個(gè)數(shù),網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置與文獻(xiàn)[21]相同。
從圖4中可以明顯看出本文算法相比于傳統(tǒng)PCA-L2算法的優(yōu)勢,相比于PCA-L1與WPCA算法,當(dāng)提取特征數(shù)量較小時(shí)(小于20),自適應(yīng)算法能夠?qū)崿F(xiàn)更高的識(shí)別率。因?yàn)樵趫D形上識(shí)別率曲線比較接近,表4列出了低于20維的正確識(shí)別率結(jié)果。當(dāng)提取特征大于20時(shí),PCA-L1在識(shí)別率上的表現(xiàn)略好于其他算法,本文算法與PCA-L1GBF相比基本持平。SAE算法在小樣本數(shù)據(jù)庫下仍然出現(xiàn)了不收斂及過擬合的狀況,識(shí)別率低于本文算法。
圖4 ORL數(shù)據(jù)庫的識(shí)別率
表4 6種PCA算法的正確識(shí)別率結(jié)果
注:提取特征數(shù)小于20
通過實(shí)驗(yàn)對(duì)比,可知本論文提出的自適應(yīng)方法在識(shí)別分類的模式識(shí)別問題上對(duì)于傳統(tǒng)PCA算法有很大的提升,因此降維后的子空間能夠更好地表示原數(shù)據(jù)。
為了檢驗(yàn)本文算法對(duì)于離群點(diǎn)的魯棒性,重建誤差實(shí)驗(yàn)被應(yīng)用在了ORL數(shù)據(jù)庫上。實(shí)驗(yàn)前,每張圖片都被歸一化至[0,1]區(qū)間中,并且均值為0。從每類人臉圖像中隨機(jī)抽取3張圖片加入位置隨機(jī)的,大小為45×25的黑白噪聲塊,如圖5(a),最終得到120個(gè)噪聲圖像。對(duì)帶有噪聲圖像的400張ORL數(shù)據(jù)庫進(jìn)行重建誤差實(shí)驗(yàn),將重建誤差定義為
其中,m為提取特征數(shù)量;n為圖片總數(shù),在這里n=400;為未加入噪聲塊的原始圖像;為加入噪聲塊的數(shù)據(jù)。
本文算法與PCA-L2、PCA-L1、PCA-L1GBF算法的平均重建誤差結(jié)果如圖6所示。
圖6 ORL數(shù)據(jù)庫的平均重建誤差結(jié)果
隨著特征數(shù)的增加,4種算法都在不同程度地降低平均重建誤差。通過實(shí)驗(yàn)對(duì)比可見,本文算法的平均重建誤差明顯小于其他算法,證實(shí)本文算法對(duì)于具有噪聲的數(shù)據(jù)集能夠?qū)崿F(xiàn)更低的平均誤差值,對(duì)離群點(diǎn)具有較好的魯棒性。
為了將人臉重建效果可視化,圖5(b)~(e)分別展示了4種算法將帶有噪聲塊的人臉進(jìn)行重建后的效果,實(shí)驗(yàn)中提取特征數(shù)為70。從圖5中可以較清晰的看出本文算法相比于其他算法,能夠在降維時(shí)較好地保留原數(shù)據(jù)中的結(jié)構(gòu),并在圖像重構(gòu)中獲得更為清晰的人臉輪廓。
本文提出了一種具有更高自適應(yīng)性個(gè)體樣本的特征提取PCA方法。通過建立自適應(yīng)目標(biāo)函數(shù),基于PCA算法求出自適應(yīng)于個(gè)體樣本的投影空間并完成特征提取。由于所提取特征是與數(shù)據(jù)相關(guān)的,因此在進(jìn)行分類時(shí),數(shù)據(jù)點(diǎn)中的歐式空間并不完全一致。盡管如此,該算法在真實(shí)數(shù)據(jù)上的對(duì)比實(shí)驗(yàn)仍然取得了較好的識(shí)別率,并在具有離群點(diǎn)的數(shù)據(jù)集中取得了更優(yōu)的重建誤差。下一步主要工作是研究針對(duì)不同的空間進(jìn)行更好的距離度量。
[1] TURK M A, PENTLAND A P. Face recognition using eigenfaces [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 1991: 586-591
[2] FERRAZ A, ESPOSITO E, BRUNS R E, et al. The use of principal component analysis (PCA) for pattern recognition Eucalyptus grandis wood biodegradation experiments [J]. World Journal of Microbiology and Biotechnology, 1998, 14(4): 487-490.
[3] WASHIZAWA Y. Subset kernel PCA for pattern recognition [C]//Proceedings of the IEEE Conference on Computer Vision Workshops. New York: IEEE Press, 2009: 162-169.
[4] AGUIRRE J V, MESA A M á, SANTACOLOMA G D. Pattern recognition by dinamic feature analysis based on PCA Proceedings of the IEEE [J]. Tecno Lógicas, 2009(22): 29-42.
[5] 高艷霞. 基于Gabor+PCA特征與粒子群算法的部分遮擋人耳識(shí)別研究[J]. 圖學(xué)學(xué)報(bào), 2014, 35(1): 100-104.
[6] 陳祥濤, 張前進(jìn), 張雙玲. 基于模糊理論決策的雙向二維PCA步態(tài)識(shí)別算法[J]. 圖學(xué)學(xué)報(bào), 2012, 33(6): 103-109.
[7] JOLLIFFE I T, Principal component analysis [M]. New York: Springer, 1986.
[8] BACCINI A, BESSE P, DE FAGUEROLLES A. A L1-norm PCA and heuristic approach [C]//In Proceedings of the International Conference on Ordinal and Symbolic Data Analysis. State College: The Pennsylvania State University, 1996: 359-368.
[9] KE Q, KANADE T. Robust subspace computation using L1 norm [EB/OL]. [2016-12-20]. http://repository.cmu. edu/compsci/2191/.
[10] KWAK N. Principal component analysis based on L1-Norm maximization [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2008, 30(9): 1672-1680.
[11] DING C, ZHOU D, HE X, et al. R1-PCA: rotational invariant L1-norm principal component analysis for robust subspace factorization [C]//International Conference on Machine Learning. New York: ACM Press, 2006: 281-288.
[12] MARKOPOULOS P P, KUNDU S, CHAMADIA S, et al. Efficient L1-norm principal-component analysis via bit flipping [J]. IEEE Transaltion on sigual Processing 2017, 65(16): 4252-4264.
[13] MARKOPOULOS P P, KARYSTINOS G N, PADOS D A. Optimal algorithms for L1-subspace signal processing [J]. IEEE Transactions on Signal Processing, 2014, 62(19): 5046-5058
[14] CANDES E J, LI X, MA Y, et al. Robust principal component analysis? [J]. Journal of ACM, 2009, 58(3): 11.
[15] SHAHID N, KALOFOLIAS V, BRESSON X, et al. Robust principal component analysis on graphs [C]// IEEE International Conference on Computer Vision. Los Alamitos: IEEE Computer Society, 2015: 2812-2820.
[16] WANG H Y, WU X J. Weighted PCA space and its application in face recognition [C]//International Conference on Machine Learning and Cybernetics. New York: IEEE Press, 2005: 4522-4527.
[17] TAN K, CHEN S. Adaptively weighted sub-pattern PCA for face recognition [J]. Neurocomputing, 2005, 64(1): 505-511.
[18] BRAHMA P P, WU D, SHE Y. Why deep learning works: a manifold disentanglement perspective [J]. IEEE Transactions on Neural Networks & Learning Systems, 2016, 27(10): 1997-2016.
[19] LICHMAN, M. UCI machine learning repository [EB/OL]. [2016-12-29]. http: //archive. ics. uci. edu/ml.
[20] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion [J]. Journal of Machine Learning Research, 2010, 11(12): 3371-3408.
[21] ZHANG Y W. Toin github today [EB/OL]. [2016-11-30]. https: //github.com/Aewil-zz/Stacked_Autoencoder-Basic_ Version.
An Adaptive Feature Extraction Method Based on PCA
ZHANG Xin, DIAO Luhong, NAN Dong, WANG Yongli, LIU Yang
(College of Applied Sciences, Beijing University of Technology, Beijing 100124, China)
An adaptive features extraction method is proposed. It defines an adaptive objective function based on the projective space derived by using PCA method. Then the projection space of the individual sample is computed. The distribution characteristics of each sample are well considered. In order to make the algorithm applicable to the classification problem, a similarity measurement is proposed to calculate the similarity between individual samples in different projection spaces. Compared with the Euclidean metric, the proposed measurement is proved that can represent the geodesic distance relationship between the samples better, so that the proposed method can learn the manifold data effectually. The classification and reconstruction experiments on the different databases indicate that the new method can obtain features more effectively and robustly.
feature extraction; principal component analysis; adaptive feature extraction; face recognition
TP 391
10.11996/JG.j.2095-302X.2018030501
A
2095-302X(2018)03-0501-08
2017-09-04;
2017-10-07
張 鑫(1992-),男,北京人,碩士研究生。主要研究方向?yàn)槟J阶R(shí)別。E-mail:zxzx@emails.bjut.edu.cn
刁麓弘(1978-),男,山東龍口人,副教授,博士。主要研究方向?yàn)橛?jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)。E-mail:diaoluhong@bjut.edu.cn