伍忠東,王 飛
(蘭州交通大學電子與信息工程學院,甘肅蘭州 730070)
?
基于PCA-GA-DBNs的人臉識別算法研究
伍忠東,王飛
(蘭州交通大學電子與信息工程學院,甘肅蘭州730070)
針對人臉圖像數(shù)據(jù)量大和DBNs初始化權值具有指向性以及非凸目標函數(shù)易陷入局部最優(yōu)的問題,提出將主分量分析(PCA)、遺傳算法(GA)、深度信念網(wǎng)絡(DBNs)相結合的新算法,并將其應用在人臉識別中.首先通過PCA對人臉圖像進行處理,以減小人臉圖像的數(shù)據(jù)量,然后利用GA算法對DBNs進行逐層預訓練以優(yōu)化其網(wǎng)絡權值,再利用BP算法對DBNs進行微調并構造分類器.以ORL數(shù)據(jù)庫為實驗數(shù)據(jù)通過與其他經(jīng)典人臉識別算法的比較得出,該算法不僅可以減少人臉圖像數(shù)據(jù)量,而且可以克服初始權值的指向性和局部最優(yōu)問題,更重要的是可以提高識別精度和識別速度.
主分量分析法;遺傳算法;深度信念網(wǎng)絡;人臉識別
生物識別技術是指通過某人的生理特征來確定其身份的技術.與人體的其他生理特征相比,人臉具有唯一,且攜帶大量個人特征信息的特點,因而備受生物識別專家的青睞,人臉識別成為生物識別的一個重要研究方向.
人臉識別的關鍵是人臉特征的提取和分類器的構造,目前人臉識別的主要研究方法有3種[1].① 基于模板匹配的方法[2].模板匹配是指固定模板匹配和形變模板匹配.固定模板匹配是通過計算人臉圖像和分布模型之間特征向量的差值來識別人臉.形變模板匹配是通過參數(shù)化的簡單人臉圖元模型來識別人臉;② 基于主分量分析的方法[3].主分量分析的實質是對人臉圖像進行壓縮,用一個低維向量來代替人臉圖像,該向量包含原始圖像的重要信息即特征臉,利用該方法可以重建和識別人臉;③ 基于神經(jīng)網(wǎng)絡的方法[4].神經(jīng)網(wǎng)絡是一種基于樣本統(tǒng)計模型的方法,通過監(jiān)督學習方法對人臉樣本進行訓練,并根據(jù)提取的特征構建分類器,從而對測試樣本進行人臉識別.
深度學習是一種解決復雜分類問題的新方法,于2006年提出的深度信念網(wǎng)絡(DBNs)是深度學習的典型代表,它能夠從輸入數(shù)據(jù)中提取出重要的特征信息,具有極強的非線性映射能力,廣泛用于分類、預測等領域,但該算法具有兩個缺陷.首先,深度信念網(wǎng)絡由于初始權值的隨機賦值而使初始權值帶有指向性,經(jīng)過層層訓練指向性擴展影響識別精度.其次,多層深度網(wǎng)絡在學習過程中容易使非凸目標函數(shù)陷入局部最優(yōu)從而導致網(wǎng)絡學習困難.針對這些缺陷,研究者提出了不同的改進方法[5-15].其中文獻[1]通過實驗來調整深度信念網(wǎng)絡中各個網(wǎng)絡參數(shù)大小,從而使得網(wǎng)絡最優(yōu);文獻[8,13]采用Restricted Boltzmann Machine方法來分層訓練深度學習的多層網(wǎng)絡;文獻[9]提出通過GB-RBM來重新構建DBNs的基礎模型,改變網(wǎng)絡結構,使其成為最優(yōu)網(wǎng)絡;文獻[11]提出在網(wǎng)絡各層之間進行運算時采用隨機部分連接參數(shù)的方法,減少了網(wǎng)絡參數(shù),消除了指向性;文獻[14]采用Auto-Encoder方法來逐層訓練多層網(wǎng)絡.不同的研究者利用不同的方法來改進深度學習網(wǎng)絡,在一定程度上都使算法更加完善,提高識別精度.本文在前人的基礎上[1,8,13],結合文獻[5]的結論,提出利用吉布斯和遺傳算法強大的全局搜索能力來逐層優(yōu)化網(wǎng)絡,將主分量分析、遺傳算法和深度信念網(wǎng)絡的優(yōu)勢結合起來用于人臉識別,減少了人臉圖像的數(shù)據(jù)量,克服了DBNs初始化權值時帶有的指向性和容易陷入局部最優(yōu)的缺陷,提高了識別速度和識別精度.該算法首先利用主分量分析法處理人臉圖像并將處理結果作為深度信念網(wǎng)絡的輸入,然后利用吉布斯-遺傳算法對網(wǎng)絡進行逐層訓練,再利用BP算法對整個網(wǎng)絡進行微調并構建分類器.通過ORL數(shù)據(jù)庫的實驗,該算法與其他經(jīng)典人臉識別算法相比具有更高的識別精度和更快的識別速度.
人臉圖像處理的目的是對其進行數(shù)據(jù)壓縮并從中提取人臉特征.人臉特征有多種提取方法,不同的提取方法具有不同的人臉識別效果[6].本文利用主分量分析法來壓縮處理人臉圖像,該方法用一個向量來表征人臉,數(shù)據(jù)量小,但最大程度地保持了該人臉特征[7].
1.1小波變換的數(shù)據(jù)壓縮處理
小波變換的目的是對圖像進行壓縮,它不僅壓縮比高,而且壓縮后能保持圖像的特征不變.經(jīng)過小波變換的人臉圖像,無用信息被完全弱化,充分突出圖像的人臉特征,非常適合人臉特征的提取.
1.2特征臉空間的構造
將第i幅經(jīng)過小波變換的人臉圖像向量用Xi表示,則Xi的協(xié)方差矩陣可表示為:
(1)
如果直接求解協(xié)方差矩陣C的特征值,特征向量計算量很大.為了簡化計算,本文利用奇異值分解對其進行降維,將其轉化為對角陣.按照奇異值分解定理,可以求出該協(xié)方差矩陣的特征向量,即
(2)
對每一副人臉圖像的協(xié)方差矩陣進行奇異值分解,在λ1≥λ2≥,…,≥λk>0的條件下,奇異值分解是唯一的,即該人臉圖像的特征向量也是唯一的.這些特征向量代表人臉的代數(shù)特征,構成特征臉空間.
將人臉圖像向量Xi利用奇異值分解求出其特征向量Ui,然后將Xi在Ui上的投影記為PUi,即有PUi=UiXi.
(3)
由(3)式得,人臉圖像在其特征向量上的投影方差恰好是該特征向量所對應的特征值,即特征值越大,該特征值對應的特征向量所攜帶的人臉信息也越多.
(4)
因此,選取前s個特征值所對應的特征向量,構成特征臉空間w.
1.3人臉圖像的特征提取
人臉圖像的主要特征用該圖像在特征臉空間的投影來表示,即將人臉圖像向特征臉空間w投影,利用公式Q=WTX得到的系數(shù)向量作為深度信念網(wǎng)絡的輸入.
深度信念網(wǎng)絡(DBNs)是由Hinton于2006年提出[8],他通過貪婪逐層預訓練算法解決了深度學習的網(wǎng)絡優(yōu)化問題,如今DBNs在分類和信息檢索等領域應用廣泛.
2.1深度信念網(wǎng)絡模型
DBNs是一種基于統(tǒng)計學習的非線性反饋神經(jīng)網(wǎng)絡,由多個結構單元疊加而成,結構單元通常為受限玻爾茲曼機(RBM),每個RBM都是一個兩層結構.DBNs由一個可見層和多個隱含層組成,可見層和隱含層之間由權值相互連接,但可見層和隱含層內部互不相連,可見層作為輸入數(shù)據(jù)單元,其結構見圖1.根據(jù)深度學習理論,通過輸入數(shù)據(jù)訓練第一層RBM單元,利用其輸出訓練第二層,以此類推,通過無監(jiān)督算法對各個RBM模塊進行預訓練,并通過對整個網(wǎng)絡微調來增強其學習能力,使其成為最優(yōu)網(wǎng)絡[9].
圖1 DBNs結構示意圖Fig 1DBNs structure sketh map
2.2受限玻爾茲曼機模型
受限玻爾茲曼機(RBM)是DBNs網(wǎng)絡的構成基礎,它是一種經(jīng)典的二值化對稱神經(jīng)網(wǎng)絡,其結構見圖2.該網(wǎng)絡可見層和隱含層之間由權值相連,但層內不連.RBM權值的學習通過無監(jiān)督算法來實現(xiàn),其過程為:首先將可見層向量經(jīng)過編碼映射到隱含層,隱含層經(jīng)過解碼對可見層進行重構,這些新可見層再次映射給隱含層,這樣就獲取了新的隱含層單元,反復執(zhí)行這一過程叫做吉布斯采樣.
圖2 RBM的結構示意Fig 2Schematic diagram of RBM
在給定參數(shù)集合θ={w,b,c}的條件下,RBM的能量函數(shù)可表示為[11]
(5)
其中,x為可見層的輸入向量;h為隱含層向量;b,c為可見層和隱含層的偏置向量;w為可見層和隱含層之間的連接權值矩陣.
它的聯(lián)合概率函數(shù)為
(6)
其中Z(θ)為配分函數(shù)(即所有參數(shù)情況下的能量和),即
(7)
RBM可見層的邊界函數(shù)為
(8)
由于RBM同層節(jié)點之間無連接,是相互獨立的,故有
(9)
(10)
又由于RBM可見層和隱含層都是二值狀態(tài)(即xj∈{0,1},hi∈{0,1}),因此由(10)式可得隱含層和可見層的輸出條件概率為
(11)
(12)
其中,i表示隱含層中第i個神經(jīng)元;j表示可見層中第j個神經(jīng)元;sigmoid表示激活函數(shù),即
(13)
根據(jù)(11)和(12)式可得到RBM權值和偏置參數(shù)的更新公式
(14)
(15)
(16)
其中,α為學習率;Δw為更新后的權值矩陣;Δb,Δc為可見層和隱含層更新后的偏置向量,在初始化階段w,b,c為較小的隨機值.
PCA-GA-DBNs模型由三部分構成,第一部分是利用吉布斯-遺傳算法對DBNs逐層預訓練;第二部分是利用BP算法對整個DBNs網(wǎng)絡進行微調;第三部分是利用BP算法構建分類器.
3.1DBNs網(wǎng)絡的預訓練
遺傳算法(Geneticalgorithm)是一種通過模擬自然進化過程搜索最優(yōu)解的方法.該算法直接對結構對象進行操作,沒有太多的函數(shù)限定,具有內在的穩(wěn)定性和超強的全局尋優(yōu)能力.由于遺傳算法的以上優(yōu)點,將遺傳算法和吉布斯采樣相結合,構成吉布斯-遺傳算法,并利用該算法來對DBNs進行預訓練.
算法的主要步驟如下[5]:
1)初始化種群.將RBM的每個連接權值作為種群的個體,按照實數(shù)編碼方式進行編碼.
2)構造適應度函數(shù).將RBM可見層和吉布斯采樣重構的可見層的絕對誤差和定義為適應度函數(shù).
(17)
3)選擇操作.將優(yōu)良個體i從種群中選出遺傳到下一代的概率定義為
(18)
其中,c為種群總數(shù)目;Fi為個體i的適應度值.
4)交叉操作.將配對個體通過交叉產生新個體遺傳到下一代,其操作為
(19)
其中,gk1j,gk2j分別為k1和k2個體在第j位的基因;r為[0,1]的隨機數(shù).
5)變異操作.將個體的某些基因以變異概率發(fā)生變異,其操作方法為
(20)
其中,gmax和gmin為基因gij的上、下界;r1和r2為隨機數(shù);s為當前迭代次數(shù);smax為最大進化次數(shù).
6)計算適應度函數(shù)值.若滿足結束條件,則根據(jù)(14)~(16)式來修正RBM的權值和偏置參數(shù).若不滿足則返回第3)步.
7)從可見層開始對DBNs逐層進行預訓練,直到全部預訓練完成.
3.2DBNs網(wǎng)絡微調和分類器構造
BP算法是一種誤差反向傳播的多層前饋網(wǎng)絡,它利用最速下降法快速減小誤差、修正權值,非常適合DBNs的網(wǎng)絡微調,同時BP算法是一個天然的分類器,可以對不同人臉進行分類.因此,我們選擇BP算法來對DBNs網(wǎng)絡進行微調并構造分類器,其結構見圖3.
2)BP算法分類器的構造.DBNs網(wǎng)絡微調結束后,利用BP算法構造人臉識別分類器,同時計算分類權wn,使網(wǎng)絡從可見層到分類層構成一個網(wǎng)絡系統(tǒng).其過程為:先計算分類權值wn,從可見層輸入數(shù)據(jù),通過層層運算最終得到頂層隱含層hn,通過計算hn*wn得到一個輸出(該輸入數(shù)據(jù)的類型值),求出該輸出與輸入數(shù)據(jù)的真實類型的誤差,通過調整分類權值減小誤差,直到誤差在可信范圍內,權值wn計算完成.對包括分類層在內的DBNs進行整體調整,從可見層輸入數(shù)據(jù),經(jīng)過層層運算最終得到該輸入數(shù)據(jù)的類標,計算該類標與真實類標的誤差,利用BP算法修正權值,直到誤差在限定范圍內,調整完成.
圖3 DBNs的微調和分類器構造Fig 3OBNs fine tuning
從ORL數(shù)據(jù)庫中選取20人,每人10幅共200幅作為實驗對象,將這200幅人臉圖像全部作為訓練集,在訓練完成后從中隨機選取10人每人10幅共100幅人臉圖像作為測試集.
4.1人臉識別過程簡介
1)參數(shù)設定.利用文獻[10]中介紹的方法,將遺傳算法的種群數(shù)目、進化代數(shù)、交叉概率和變異概率分別設定為65,100,0.25,0.05.
選取的人臉圖像經(jīng)過PCA處理后,得到的人臉特征為一個13維的向量.該向量將作為DBNs網(wǎng)絡的輸入,故DBNs可見層神經(jīng)元個數(shù)設定為13.由于該網(wǎng)絡是對隨機選取的10個人進行身份識別,故分類層神經(jīng)元的個數(shù)設定為10.根據(jù)前人的經(jīng)驗[1]以及我們在實驗中的測試,設定3個隱含層,且每層的神經(jīng)元個數(shù)為50,RBM迭代次數(shù)為50,分類反饋次數(shù)為50,微調次數(shù)為20,學習率為0.7,目標誤差為0.06.
2)人臉識別過程.首先利用主分量分析法來壓縮處理人臉圖像,并將處理結果作為DBNs的輸入.然后利用遺傳算法和吉布斯采樣,對DBNs逐層進行預訓練,訓練完成后再通過BP算法對DBNs進行微調并構建分類器,最后對人臉圖像進行識別.其過程見圖4.
圖4 人臉識別過程Fig 4Face recognition process
4.2實驗數(shù)據(jù)分析
為了證明方法的高效性,本文選取三種人臉識別經(jīng)典算法與其進行對比,為了避免實驗的偶然性,實驗結果為10次識別的平均結果.對測試樣本進行人臉識別時,各算法的識別時間列于表1.
表1 各算法人臉識別時間比較
從圖5可以看出,PCA-GA-DBNs和DBNs的識別速度明顯高于2DPCA+BP和Curvelet+BP,表明深度學習算法識別速度高于淺層學習算法.而在深度學習方法中(PCA-GA-DBNs和DBNs),PCA-GA-DBNs的識別速度更快.正如表1所示,PCA-GA-DBNs的識別時間是DBNs的78%,是2DPCA+BP的38%,是Curvelet+BP的36%,從而進一步表明PCA-GA-DBNs具有更快的識別速度.對測試樣本進行人臉識別,各算法的識別精度見2.
圖5 各算法人臉識別時間比較Fig 5 Comparison of face recognition timeof each algorithm表2 各算法人臉識別精度比較Tab 2Comparison of the accuracy of face recognition
測試樣本PCA-GA-DBNsDBNs2DPCA+BP[15]Curvelet+BP[15]193.25%88.67%92.25%87.50%294.8%89.63%90.50%92.50%393.53%90.86%87.50%95.50%495.65%88.63%93.33%87.75%593.63%93.49%87.50%90.15%697.70%95.93%89.17%95.75%795.28%92.71%91.20%93.35%895.1%95.40%87.50%95.00%995.00%89.68%89.17%93.25%1094.86%94.00%95.00%89.30%平均94.88%92.30%90.31%92.01%
從表2可以看出,對測試樣本進行人臉識別時,各識別算法的平均識別精度都達到90%以上,而PCA-GA-DBNs網(wǎng)絡的平均人臉識別精度達到94.88%,明顯高于其他算法,具有較強的泛化能力.從圖6可以看出PCA-GA-DBNs網(wǎng)絡與其他算法相比,其變化趨勢相對穩(wěn)定,具有較好的魯棒性.分析其原因發(fā)現(xiàn),DBNs網(wǎng)絡在初始化權值時,由于權值的隨機賦值使得權值具有指向性,在經(jīng)過層層訓練后指向性擴展,影響了識別精度.同時直接以圖像的灰度值作為輸入,而未經(jīng)PCA處理,造成數(shù)據(jù)量龐大,網(wǎng)絡結構復雜,并且多層深度網(wǎng)絡在訓練過程中易使非凸目標函數(shù)陷入局部最優(yōu)影響識別速度.而PCA-GA-DBNs網(wǎng)絡先利用PCA處理人臉圖像以減少網(wǎng)絡輸入,提高識別速度,再利用吉布斯-遺傳算法來對網(wǎng)絡進行逐層預訓練,消除權值的指向性并擺脫局部最優(yōu),改善了網(wǎng)絡的總體性能,進一步提高識別精度和識別速度.
圖6 各算法人臉識別精度比較Fig 6 Comparison of face recognition accuralyof each algorithm
針對人臉識別提出了PCA-GA-DBNs的新算法,該算法利用PCA處理人臉圖像,壓縮了圖像,減少了網(wǎng)絡輸入,從而簡化了網(wǎng)絡結構,使識別速度明顯提高.利用遺傳算法結合吉布斯采樣逐層訓練網(wǎng)絡,克服了網(wǎng)絡初始的權值指向性和非凸目標函數(shù)易陷入局部最優(yōu)的問題,通過BP算法微調網(wǎng)絡并構造分類器,使整個網(wǎng)絡成為一個人臉識別的網(wǎng)絡系統(tǒng).實驗表明,該算法具有更高的識別精度和更快的識別速度.
[1]高德坤.基于深層結構學習的視頻人臉識別[D].哈爾濱:哈爾濱工業(yè)大學,2013.
[2]YUILLEAL,HALLINANPW,COHENDS.Featureextractionfromfacesusingdeformabletemplates[J].International Journal of Computer Vision,1992,8(2):99.
[3]YEJP,JANARDANR,LIQ.Two-dimensionallineardiscriminantanalysis[C]//SAULLK,WEISSY,BOTTOUL.Advances in Neural Information Processing Systems.Cambridge,MA:TheMITPress,2004:1569.
[4]CHAUVINY,RUMELHARTDE.Backpropagation:Theory,Architectures,and Applications[M].London:PsychologyPress,1995.
[5]王飛.基于主分量分析GA-BP神經(jīng)網(wǎng)絡的人臉識別算法[J].中國西部科技,2015(6):73.
[6]高慶華.人臉自動識別方法的研究[D].大連:大連理工大學,2007.
[7]趙立強,張曉華,高振波,等.基于 BP 神經(jīng)網(wǎng)絡的主分量分析人臉識別算法[J].計算機工程與應用,2007,43(36):226.
[8]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504.
[9]周長建,司震宇,邢金閣,等.基 DeepLearning 網(wǎng)絡態(tài)勢感知建模方法研究[J].東北農業(yè)大學學報,2013,44(5):144.
[10]何大闊,王福利,張春梅.基于均勻設計的遺傳算法參數(shù)設定[J].東北大學學報(自然科學版),2003,24(5):409.
[11]王璟堯.基于SDCNN的人臉識別研究[D].杭州:浙江大學,2015.
[12]陸俊,張瓊,楊俊安,等.嵌入深度信念網(wǎng)絡的點過程模型用于關鍵詞檢出[J].信號處理,2013,29(7):865.
[13]尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業(yè)大學學報,2015(41):48.
[14]LANGE S,RIEDMILLER M.Deep auto-encoder neural networks in reinforcement learning[C]//Proceedingsofthe2010InternationalJointConferenceonNeuralNetworks.New York:IEEE,2010:1623.
[15]胡丹.一種改進的BP網(wǎng)絡人臉識別方法[D].南昌:江西師范大學,2014.
(責任編輯孫對兄)
Face recognition algorithm based on PCA-GA-DBNs deep belief network
WU Zhong-dong,WANG Fei
(School of Electronic and Information Engineerin,Lanzhou Jiaotong University,Lanzhou 730070,Gansu,China)
Aiming at the problem that the data volume of face image and DBNs initialization weight are pointed and the non convex objective function is easy to fall into local optimum,a new algorithm combining principal component analysis(PCA),genetic algorithm(GA) and deep belief network(DBNs) is proposed,which is applied to face recognition.Firstly,the face image is processed by PCA to reduce the amount of data.Then the GA is trained by DBNs algorithm to achieve the purpose of optimizing the weights.Then the BP algorithm is used to fine tune the DBNs and construct the classifier.According to the experimental results of ORL database,the proposed algorithm can not only reduce the amount of human face image data,but also overcome the initial weight of the directional and local optimization problems.More important,it is to improve the recognition accuracy and convergence speed.
principal component analysis;genetic algorithm;deep belief network;face recognition
10.16783/j.cnki.nwnuz.2016.03.009
2015-10-20;修改稿收到日期:2016-01-15
甘肅省科技支撐計劃資助項目(1204FKCA025);甘肅省高校基本科研業(yè)務費資助項目(1213056)
伍忠東(1968—),男,湖南醴陵人,教授,碩士研究生導師.主要研究方向為信息安全算法.
E-mail:125092995@qq.com
TP 391.41
A
1001-988Ⅹ(2016)03-0043-06