蔣 文,齊 林
(鄭州大學 信息工程學院,河南 鄭州 450001)
?
一種基于深度玻爾茲曼機的半監(jiān)督典型相關(guān)分析算法
蔣文,齊林
(鄭州大學 信息工程學院,河南 鄭州 450001)
摘要:從模式分類的角度出發(fā),針對典型相關(guān)分析(canonical correlation analysis,CCA)算法不適應(yīng)于高層次關(guān)聯(lián)的缺陷,提出了改進算法。將深度學習理論與典型相關(guān)分析算法相結(jié)合,基于深度玻爾茲曼機理論提出了一種半監(jiān)督典型相關(guān)分析算法。通過深度玻爾茲曼機提取出樣本的顯層特征與隱層特征,結(jié)合已標注樣本的監(jiān)督信息,構(gòu)造出最有效的鑒別特征。依據(jù)ORL、Yale和AR人臉數(shù)據(jù)庫進行仿真實驗,實驗結(jié)果表明:本文算法與其他的方法相比,具有更好的識別效果。
關(guān)鍵詞:典型相關(guān)分析;深度玻爾茲曼機;半監(jiān)督學習;人臉識別
0引言
近10年來,典型相關(guān)分析(canonical correlation analysis,CCA)在模式識別、計算機視覺及生物醫(yī)學等領(lǐng)域中被廣泛地應(yīng)用,同時,在人臉識別、行為分類和疾病診斷等諸多領(lǐng)域中取得了突破[1-4]。文獻[5]提出核典型相關(guān)分析(kernel canonical correlation analysis, KCCA),能夠更好地解決人臉識別中的非線性問題。文獻[6]能夠?qū)崿F(xiàn)類內(nèi)相關(guān)的最大化與類間相關(guān)的最小化,且比CCA具有更好的識別性能。文獻[7]使投影后樣本在最小化類內(nèi)離散度的同時,兩組特征之間具有最大的相關(guān)性,從而有利于投影后同類樣本聚類信息的保持。文獻[8]有效地避免了小樣本問題的發(fā)生,較好地描述了非線性的人臉識別問題。文獻[9]提出利用少量的監(jiān)督信息來提高分類性能。文獻[10]提出能夠捕獲數(shù)據(jù)的局部流形結(jié)構(gòu)特性,在數(shù)據(jù)可視化和姿態(tài)估計中獲得了比CCA更好的實驗結(jié)果。另外,文獻[11]提出的稀疏保持典型相關(guān)分析方法,能在兩組不同特征融合的基礎(chǔ)上,對樣本間的稀疏重構(gòu)性進行約束,增強了鑒別能力。
最近幾年,在特征提取和降維方法領(lǐng)域中半監(jiān)督學習也得到了廣泛應(yīng)用。文獻[12]提出了一種半監(jiān)督判別分析方法,文獻[13]提出了半監(jiān)督局部線性判別分析方法,但是這兩種方法也存在不足之處,即都沒有采用約束信息,只用大量的無標號樣本和少量的有標號樣本進行降維。文獻[14]提出了半監(jiān)督降維方法,該方法能夠同時利用無標號樣本和樣本之間的成對約束信息。文獻[15]提出基于CCA的半監(jiān)督學習,該方法只利用少量有標號樣本。但是,這兩種方法也有明顯的不足:CCA往往只適應(yīng)于低層次的關(guān)聯(lián),對于抽象、稀疏的高層概念應(yīng)用范圍較窄。因此,建立合適的監(jiān)督信息特征提取方式成為解決這一問題的關(guān)鍵。
深度玻爾茲曼機(deep Boltzmann machine,DBM)是由Salakhutdinov提出的一種以受限制玻爾茲曼機(restricted Boltzmann machine,RBM)為基礎(chǔ)的深度學習模型[16],不同于Hinton的深度信念網(wǎng)絡(luò)(deep belief net,DBN)模型。在DBM模型中,各單元層之間均為無向連接,簡化了上下層的反饋系數(shù)訓練,從而使其數(shù)據(jù)泛化能力大大提高,并在多個數(shù)據(jù)庫上的表現(xiàn)優(yōu)于DBN模型。鑒于深度學習模型的迅猛發(fā)展[17-19],本文提出了一種基于深度玻爾茲曼機的半監(jiān)督典型相關(guān)分析算法,該算法充分利用了大量的無標號樣本和少量的有標號樣本,保留了充足的有效信息。利用深度玻爾茲曼機提取深層的監(jiān)督信息,并在使用CCA進行融合的過程中融入樣本間的成對約束信息,從而有效解決了CCA只適用于低層次關(guān)聯(lián)的弊病,確保了識別的準確性。并依據(jù)ORL、Yale和AR人臉數(shù)據(jù)庫進行了仿真實驗。
1基于深度玻爾茲曼機的半監(jiān)督典型相關(guān)分析
DBM提取的特征分為隱層特征I-DBM和顯層特征O-DBM。
設(shè)I-DBM提取的第i層隱層特征為hIi,為二值單元,則I-DBM提取的隱層特征vi的后驗概率為:
(1)
其中:bi為特征vi的偏置項;Wij為顯層單元i到隱層單元j的連接權(quán)值;hI={hI1,hI2,…,hIN}為隱層特征集合。
同理,設(shè)O-DBM提取的第i層顯層特征為hOi,為二值單元,則O-DBM提取的顯層特征vi的后驗概率為:
(2)
對于包含N個訓練樣本的訓練庫監(jiān)督信息標注集合為{(hI1,hO1),(hI2,hO2),…,(hIN,hON)},hIi為第i幅圖像I-DBM隱性特征標注,維度為p;hOi為第i幅圖像O-DBM顯性特征標注,維度為q。監(jiān)督信息標注集合分別構(gòu)成兩組大小為p×N和q×N的矩陣DI和DO,對兩組矩陣進行典型相關(guān)分析得到監(jiān)督信息矩陣。
(3)
其中:
(4)
整理得:
Cxy=XEYT+XMYT-XCYT=X(E+M-C)YT,
其中:E為單位矩陣;M為正約束集合;C為負約束集合。
利用Lagrange乘子法最終可以將式(3)轉(zhuǎn)化為:
(5)
求解得投影向量{Wx,Wy},其中:
Wx=[wx1,wx2,…,wxp];
(6)
Wy=[wy1,wy2,…,wyq]。
(7)
將線性變換式(8)和式(9)作為投影后的融合特征用于分類:
(8)
(9)
綜上所述,算法流程總結(jié)如下:
步驟Ⅰ輸入兩組特征集X和Y。
步驟Ⅱ根據(jù)式(4)構(gòu)建Cxy。
步驟Ⅲ根據(jù)式(6)和式(7)計算投影矩陣W。
步驟Ⅳ根據(jù)式(8)和式(9)計算串行融合特征Z1和并行融合特征Z2。
步驟Ⅴ對測試樣本進行分類,并比較串行、并行融合特征的識別率。
2實驗結(jié)果與分析
在ORL、Yale和AR人臉數(shù)據(jù)庫上進行人臉識別仿真實驗,以檢驗本文算法的識別性能。同時,為了對比本文算法識別性能的優(yōu)劣,分別與特征臉[20]、費舍爾臉(Fisherface)[21]、partialleastsquares(PLS)[22]、SVM-2K、CCA和KSLPCCA等算法作了對比。針對高維小樣本的問題,本文先利用主成分提取法對數(shù)據(jù)進行降維處理,特征提取完畢后,再用最近鄰法進行分類。
因為在每個人臉數(shù)據(jù)庫上,訓練庫和測試庫是隨機抽取而得的,為了防止隨機抽取的結(jié)果干擾到實驗的準確性,每個數(shù)據(jù)庫上的每組實驗都重復了20次,實驗結(jié)果取20次的平均值。
在ORL人臉數(shù)據(jù)庫上的仿真實驗中,對40個人的400幅灰度圖像進行了分組,在每個人的10幅圖片中選取5幅圖像作為訓練,剩余5張做測試。
表1分別列出了特征臉、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在ORL數(shù)據(jù)庫上的識別率,同時將串行融合和并行融合的識別率進行對比。
表1 ORL人臉庫上的識別率
總體來看,本文算法在ORL人臉數(shù)據(jù)庫上的識別率最高,優(yōu)于其他方法。不同的融合方法識別率略有差別,從各算法在ORL數(shù)據(jù)庫上的識別率來看:串行融合獲得的特征識別率略高于并行融合的特征。 支持向量機SVM-2K的性能比較好,優(yōu)于KSLPCCA,但略低于本文算法。典型相關(guān)分析CCA的識別率介于特征臉和Fisherface算法之間。PLS的識別率與特征臉相當,且都高于原始CCA的識別率。作為CCA的最新改進算法,KSLPCCA在ORL數(shù)據(jù)庫上的識別性能也相當優(yōu)秀,但相比于本文算法,還是有一定的差距。
在Yale人臉數(shù)據(jù)庫上的仿真實驗中,對15個人的165幅灰度圖像進行了分組,在每個人的11幅圖片中選取5幅圖像作為訓練,剩余6張做測試。
表2 Yale人臉庫上的識別率
表2分別列出了特征臉、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在Yale數(shù)據(jù)庫上的識別率,同時將串行融合和并行融合的識別率進行對比。
總體看來,本文算法在Yale人臉數(shù)據(jù)庫上的識別率較好。值得注意的是,采用不同的融合方法,識別率幾乎完全相同。
從各算法在Yale數(shù)據(jù)庫上的識別率上來看:串行融合獲得的特征識別率與并行融合獲得的特征識別率完全相同。支持向量機SVM-2K識別性能相較于其他算法,并無明顯優(yōu)勢。PLS的識別率明顯低于CCA。CCA的識別率介于特征臉和Fisherface算法之間。 KSLPCCA在Yale數(shù)據(jù)庫上的識別性能最優(yōu)秀,但本文算法與之相比,并不遜色。
在AR人臉數(shù)據(jù)庫上的仿真實驗中,對126個人的3 276多幅彩色圖像進行了分組,在每個人的26幅圖片中選取13幅圖像作為訓練,剩余13張做測試。
表3分別列出了特征臉、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在AR數(shù)據(jù)庫上的識別率,同時將串行融合和并行融合的識別率進行對比。
表3 AR人臉庫上的識別率
總體看來,本文算法在AR人臉數(shù)據(jù)庫上也有較高的識別率。不同的融合方法識別率略有差別,從各算法在AR數(shù)據(jù)庫上的識別率上來看:串行融合獲得的特征識別率略高于并行融合,但是PLS和KSLPCCA算法并行融合獲得的特征識別率反而高于串行融合。 支持向量機SVM-2K的性能比較好,但遜色于KSLPCCA算法和本文算法。CCA的識別率介于特征臉和Fisherface算法之間。作為CCA的最新改進算法,KSLPCCA在AR數(shù)據(jù)庫上的識別性能也相當優(yōu)秀,識別性能與本文算法相比,基本相當。
SVM-2K在ORL人臉數(shù)據(jù)庫上的識別性能達到最佳,但在Yale和AR人臉數(shù)據(jù)庫上識別性能并不理想,是由于光照、人臉角度和色彩的變換,使SVM-2K無法在相對復雜的數(shù)據(jù)庫中提取更多的有效信息,導致識別率不理想。在模式識別理論中,特征抽取的一般原則是抽取特征之間的統(tǒng)計相關(guān)性越小越好,最佳的抽取結(jié)果是抽取得到不相關(guān)的特征。CCA可以抽取到完全不相關(guān)的特征,所以其抽取的特征顯然優(yōu)于PLS,識別性能自然優(yōu)于PLS?;贔isher準則的線性鑒別分析理論是模式識別中公認的最有效的方法之一,可以從理論上證明,F(xiàn)isher線性鑒別分析是CCA的一種特殊情況,但是由于CCA存在小樣本問題,當訓練樣本較少時,CCA的識別性能會受到影響,所以CCA在3個數(shù)據(jù)庫上的識別性能低于Fisherface。
在ORL、Yale和AR人臉數(shù)據(jù)庫上的實驗結(jié)果,有力地驗證了本文算法在半監(jiān)督分類問題中的有效性,其識別性能明顯優(yōu)于SVM-2K和KSLPCCA。本文算法利用深度玻爾茲曼機提取深層的監(jiān)督信息,結(jié)合已標注樣本提供的重要監(jiān)督信息,能夠提取出對分類有效的最佳鑒別特征。KSLPCCA雖然獲得了不錯的識別性能,但是這種算法僅利用了已標記的訓練樣本,沒有充分利用有效的監(jiān)督信息,同時,該算法抽取特征維數(shù)受到總類別數(shù)的限制,不利于算法的進一步改進提升。而SVM-2K雖然利用了所有的訓練樣本,但是由于弱化了已標注樣本在互相關(guān)矩陣構(gòu)造過程中的重要性,導致抽取的特征過多地受無監(jiān)督信息的總體互相關(guān)散度矩陣的影響而出現(xiàn)鑒別能力不足的現(xiàn)象,因而在3組實驗中的識別結(jié)果均劣于KSLPCCA。
3結(jié)束語
本文提出了一種基于深度玻爾茲曼機的半監(jiān)督典型相關(guān)分析,利用深度玻爾茲曼機提取深層的監(jiān)督信息,不僅解決了CCA只適用于低層次關(guān)聯(lián)的弊病,同時提取出了最佳的鑒別特征,有效地提高了識別率。通過在ORL、Yale和AR人臉數(shù)據(jù)庫上的仿真實驗,證明本文算法比其他算法更加優(yōu)秀。SVM-2K算法雖然利用了所有訓練樣本,但弱化了同類樣本之間的互相關(guān),識別率不佳。KSLPCCA算法雖然有很好的識別率,但是僅用了已標注的樣本信息,對大量的未標注信息并未充分利用。相比于PLS和CCA算法,本文算法所提取的特征更加優(yōu)秀,識別性能更好。
參考文獻:
[1]SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern recognition,2005,38(12):2437-2448.
[2]KIM T K,CIPOLLA R.Canonical correlation analysis of video volume tensors for action categorization and detection[J].IEEE transactions on pattern analysis and machine intelligence,2009,31(8):1415-1428.
[3]CORREA N M,EICHELE T,ADALI T,et al.Mult-set canonical correlation analysis for the fusion of concurrent single trial EPR and fuctional MRI[J].Neurolmage,2010,50(4):1438-1445.
[4]孫權(quán)森,曾生根,王平安,等.典型相關(guān)分析的理論及其在特征融合中的應(yīng)用[J].計算機學報,2005,28(9):1524-1533.
[5]ZHENG W M,ZHOU X Y,ZOU C R,et al.Facial expression recognition using kernel canonical correlation analysis[J].IEEE transactions on neural networks,2014,17(1):233-238.
[6]SUN T K,CHEN S C,YANG J Y,et al.A supervised combined feature extraction method for recognition[C]//Proceedings of the IEEE International Conference on Data Mining.Pisa,Italy.2012.
[7]SUN Q S,LIU Z D,HENG P A,et al.A theorem on the generalized canonical projective vectors[J].Pattern recognition,2013,38(3):449-452.
[8]洪泉,陳松燦,倪雪蕾.子模式典型相關(guān)分析及其在人臉識別中的應(yīng)用[J].自動化學報,2008,34(1):21-30.
[9]彭巖,張道強.半監(jiān)督典型相關(guān)分析算法[J].軟件學報,2008,19(11):2822-2832.
[10]SUN T K,CHEN S C.Locality preserving CCA with applications to data visualization and pose estimation[J].Image and vision computing,2013,25(5):531-543.
[11]侯書東,孫權(quán)森.稀疏保持典型相關(guān)分析及在特征融合中的應(yīng)用[J].自動化學報,2012,38(4):659-665.
[12]CAI D,HE X,Han J.Semi-supervised discriminant analysis[C]//IEEE International Conference on Computer Vision, Rio de Janeiro,Brazil.2014:1-7.
[13]SUGIYAMA M,IDE T,NAKAJIMA S,et al.Semi-supervised local fisher discriminant analysis for dimensionality reduction[J].Machine learning,2010,78(1):35-61.
[14]ZHANG D Q,ZHOU Z H,CHEN S C.Semi-supervised dimensionality reduction[C]//Proceeding of the 7th SIAM International Conference on Data Mining.2014:629-634.
[15]ZHOU Z H,ZHAN D C,YANG Q.Semi-supervised learning with very few labeled training examples[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence,Vancouver, Canada.2013:675-680.
[16]SALAKHUTDINOV R,HINTON G E.Deep Boltzmann machines[C]//Proceedings of International Conference on Artificial Intelligence and Statistics 2009.Brookline,MA,USA:Microtome Publishing,2009:448-445.
[17]LI Q,GU Y,QIAN X.Latent-community and multi-kernel learning based image annotation[C]//Proceedings of the 22nd ACM International Conference on Information & Knowledge Management.New York,USA:ACM,2013:1469-1472.
[18]QIAN X,HUA X S,HOU X.Tag filtering based on similar compatible principle[C]//Proceeding of IEEE International Conference on Image Processing.Piscataway,NJ,USA:IEEE,2012:2349-2352.
[19]QIAN X,HUA X S,TANG Y Y,et al.Social image tagging with diverse semantics[J].IEEE transactions on cybernetics, 2014,44(12):2493-2508.
[20]BACH F R,JORDAN M I.Learning graphical models with mercer kernels[C]//Neural Information Processing Systems.2002:1009-1016.
[21]BELHUMEUR P N,HESPANHA J P,KRIEGMA D J.Eigenfaces vs fisherfaces:recognition using class specific linear projection[J].IEEE transactions on pattern analysis and machine intelligence,1997,19(7):711-720.
[22]SUN Q,JIN Z,HENG P A,et al.A novel feature fusion method based on partial least squares regression[C]//International Conference on Advances in Pattern Recognition.2005:268-277.
文獻標志碼:A
中圖分類號:TP391.4
DOI:10.15926/j.cnki.issn1672-6871.2016.02.010
文章編號:1672-6871(2016)02-0047-05
收稿日期:2015-08-19
作者簡介:蔣文(1991-),男,四川資陽人,碩士生;齊林(1961-),男,河南鄭州人,教授,博士,博士生導師,主要研究方向為信號檢測與估計、通信系統(tǒng)及其信號處理、多媒體信號處理、情感及生物特征識別等.
基金項目:國家自然科學基金項目(61210005,61331021)