李鑫++張俊
摘 要:針對如何提高人臉識別率的問題,該文引入多任務(wù)學(xué)習(xí)機(jī)制,通過在深度信念網(wǎng)絡(luò)中構(gòu)建多任務(wù)分類器。利用多個相關(guān)任務(wù)的并行處理能夠使分類器從輸入端獲得更多信息,來提高分類器的分類能力。并可以通過多個相關(guān)任務(wù)權(quán)值競爭,減小過擬合對分類器的影響。實驗結(jié)果表明,利用深度信念網(wǎng)絡(luò)構(gòu)造多任務(wù)學(xué)習(xí)分類器,相對于單任務(wù)學(xué)習(xí)而言,多任務(wù)學(xué)習(xí)機(jī)制能夠有效提高人臉識別精度。
關(guān)鍵詞:深度信念網(wǎng)絡(luò);多任務(wù)學(xué)習(xí);人臉識別
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)17-0165-04
Abstract:Aiming at improving face recognition rate, this paper introduces multi-task learning mechanism, constructing multi-task learning classification in output layer of deep belief network. Related tasks using multiple parallel processing enables the classifier to get more information from the input terminal, to improve the ability of classifier. And through multiple related tasks weight competition ,the impact of over-fitting classifier is reduced. Experimental results show that the deep belief network learning classifier constructed multi-task, with respect to single-task learning, the multi-task learning mechanism can effectively improve the recognition accuracy.
Key words:deep belief network; multi-task learning; face recognition
如今人臉識別技術(shù)在生活中扮演著越來越重要的角色,人臉識別技術(shù)被廣泛應(yīng)用于各類智能系統(tǒng),如圖片自動歸檔系統(tǒng)、身份驗證系統(tǒng)等。人臉識別也成為機(jī)器學(xué)習(xí)領(lǐng)域中的一個研究熱點。
深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)作為一種特殊的人工神經(jīng)網(wǎng)絡(luò)其具有良好的特征提取能力,它通過無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)獲得較好的網(wǎng)絡(luò)權(quán)值,逐層地對特征進(jìn)行抽取,進(jìn)而獲得較好特征。文獻(xiàn)[1]利用了DBN優(yōu)異的特征表示能力,在圖像識別問題中得到了較好的識別率。
多任務(wù)學(xué)習(xí)是一種打破傳統(tǒng)研究觀念的研究方法,利用在多個相關(guān)任務(wù)并行處理過程中權(quán)值共享可以提高系統(tǒng)的泛化能力特性,進(jìn)而可以解決因樣本相對不足而造成的分類器泛化能力不強(qiáng)的問題。在神經(jīng)網(wǎng)絡(luò)中引入多任務(wù)學(xué)習(xí)機(jī)制,可以利用多個相關(guān)任務(wù)的權(quán)值共享來減弱過擬合對神經(jīng)網(wǎng)絡(luò)的影響。文獻(xiàn)[2]將深度信念網(wǎng)絡(luò)與多任務(wù)學(xué)習(xí)結(jié)合用于表情識別獲得了較好的效果。文獻(xiàn)[3]提出了一種基于多任務(wù)學(xué)習(xí)的人臉方法也獲得了較好的識別效果,提高了圖像識別的精度,文獻(xiàn)[4,5]將多任務(wù)學(xué)習(xí)應(yīng)用在圖像分類中,文獻(xiàn)[6,7]將多任務(wù)學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)結(jié)合應(yīng)用于分類問題都取得不錯的效果。
針對如何提高人臉識別率的問題,本文利用深度信念網(wǎng)絡(luò)提取圖像特征并在DBN輸出層構(gòu)建有監(jiān)督多任務(wù)學(xué)習(xí)分類器對人臉圖像進(jìn)行識別,提高了人臉識別的精度。
1 深度信念網(wǎng)絡(luò)與多任務(wù)學(xué)習(xí)
1.1 RBM受限玻爾茲曼機(jī)
受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)為兩層隨機(jī)網(wǎng)絡(luò)結(jié)構(gòu),RBM的兩層分別為可視層(v層)與隱含層(h層),可視層與隱含層之間的連接為全連接,隱含層與可視層層內(nèi)均無連接,v層偏置為b, h層偏置為c,其結(jié)構(gòu)示意圖如圖1所示。
Roux等人證明了只要h層節(jié)點足夠多,RBM能夠擬合任意離散分布[8]。RBM網(wǎng)絡(luò)結(jié)構(gòu)中隱含層為二值變量,可視層為二值變量或者[0 1]之間的數(shù)值。假設(shè)隱含層有m個節(jié)點,可視層有n個節(jié)點,對于一組狀態(tài)(v, h),RBM系統(tǒng)具備的能量定義為:
公式中參數(shù)vi表示可視層第i個節(jié)點狀態(tài),參數(shù)hj則表示隱含層第j個節(jié)點的狀態(tài)。[θ]為RBM結(jié)構(gòu)參數(shù),即[θ]={Wij,bi ,cj }。當(dāng)[θ]確定時,得到RBM結(jié)構(gòu)基于(v,h)狀態(tài)的概率p為:
Z([θ])為歸一化項。由RBM網(wǎng)絡(luò)層間全連接層內(nèi)無連接結(jié)構(gòu)特性可知,當(dāng)可視層節(jié)點值給定時各隱含層節(jié)點之間激活概率相互獨立,由網(wǎng)絡(luò)的對稱性可知,當(dāng)隱含層節(jié)點值給定時,RBM網(wǎng)絡(luò)的可視層節(jié)點之間激活概率相互獨立。第i個可視層節(jié)點的激活概率p(vi=1|h,[θ])可由公式得出,第j個隱含層節(jié)點的激活概率p(hj=1|h,[θ])可由公式得出。
公式(4)和(5)中sigmoid(x)為激活函數(shù),其公式為sigmoid(x)=1/1+e-x。由上述公式可以得出RBM對于觀測數(shù)據(jù)v的概率分布如公式(6)。
為確定該分布,需要調(diào)節(jié)參數(shù)[θ]即調(diào)節(jié)W,b,c??梢岳脤Ρ壬⒍龋–ontrastive Divergence, CD)算法對訓(xùn)練樣本M進(jìn)行訓(xùn)練,訓(xùn)練RBM模型的過程中采用訓(xùn)練公式(7)-(2)進(jìn)行訓(xùn)練。其中[v(0)=M],[α] 為學(xué)習(xí)速率。
大量實驗證明RBM網(wǎng)絡(luò)是一種有效的特征提取機(jī)制,堆疊多個RBM組成網(wǎng)絡(luò)能夠在大部分分類和特征學(xué)習(xí)中提取更加抽象的特征,經(jīng)過無監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督的全局微調(diào)后可以得到較優(yōu)化網(wǎng)絡(luò)模型。
1.2 DBN深度信念網(wǎng)絡(luò)
自Hinton[9]等人在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出深度信念網(wǎng)絡(luò)以來,DBN在機(jī)器學(xué)習(xí)及人工智能領(lǐng)域得到了廣泛的應(yīng)用,DBN作為一種概率生成模型在特征提取及分類問題上均表現(xiàn)出良好的性能。經(jīng)典深度信念網(wǎng)絡(luò)由若干層受限玻爾茲曼機(jī)及輸出層組合而成,以包含兩個RBM的DBN網(wǎng)絡(luò)為例進(jìn)行說明,其模型結(jié)構(gòu)如圖2所示。在深度信念網(wǎng)絡(luò)中,RBM層訓(xùn)練屬于無監(jiān)督訓(xùn)練過程,其利用對比散度方法進(jìn)行逐層貪婪預(yù)訓(xùn)練,每一層的訓(xùn)練結(jié)果作為下一層的輸入,頂層為有監(jiān)督訓(xùn)練模型。本文利用經(jīng)典DBN網(wǎng)絡(luò)進(jìn)行實驗,在預(yù)訓(xùn)練完成后再實現(xiàn)對DBN網(wǎng)絡(luò)整體的權(quán)值進(jìn)行微調(diào)。
實驗中輸入為多維圖像像素數(shù)據(jù),輸入數(shù)據(jù)與第一層隱含層構(gòu)成RBM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練過程采用CD算法進(jìn)行逐層訓(xùn)練。當(dāng)?shù)谝粚佑?xùn)練完成后,將產(chǎn)生的參數(shù)W0作為固定參數(shù)輸入第二層RBM中進(jìn)行訓(xùn)練,依此順序進(jìn)行逐層訓(xùn)練直至訓(xùn)練出頂層RBM網(wǎng)絡(luò)參數(shù)完成預(yù)訓(xùn)練,并將所得參數(shù)輸入到下一層進(jìn)行有監(jiān)督的訓(xùn)練并利用誤差反向傳播算法對整體網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào),進(jìn)而增加整體網(wǎng)絡(luò)模型的準(zhǔn)確性和各層間聯(lián)系程度。
1.3 多任務(wù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)最早由Caruana提出[10],多任務(wù)學(xué)習(xí)打破傳統(tǒng)任務(wù)分而治之的思想,對多個相關(guān)任務(wù)進(jìn)行并行訓(xùn)練能夠考慮到相關(guān)任務(wù)之間的聯(lián)系,提高輸入相關(guān)信息的獲取量,進(jìn)而可以解決因樣本相對不足而造成的分類器泛化能力不強(qiáng)的問題。并可以通過多個相關(guān)任務(wù)之間的權(quán)值共享進(jìn)而提高網(wǎng)絡(luò)模型的泛化能力,同時多個任務(wù)的權(quán)值進(jìn)行競爭能夠有效抑制模型的過擬合程度,提高模型的識別精度,多任務(wù)學(xué)習(xí)結(jié)構(gòu)示意圖如圖3所示。
本文在輸入端輸入多個任務(wù)訓(xùn)練數(shù)據(jù),需要說明的是一個整體數(shù)據(jù)中包含多任務(wù)信息而非分別輸入三個任務(wù)信息,并通過在深度信念網(wǎng)絡(luò)的輸出層構(gòu)建多任務(wù)分類器使訓(xùn)練過程中分類器能夠充分利用多個相關(guān)任務(wù)所包含的信息,進(jìn)而來提高人臉的識別的精度。其結(jié)構(gòu)如圖4所示。
2 實驗及結(jié)果分析
本文使用的數(shù)據(jù)集為CMU人臉數(shù)據(jù)集。因數(shù)據(jù)集中存在極少幾張圖片損壞,用數(shù)據(jù)集中同種類別替代。最終數(shù)據(jù)集中包含640張人臉圖像,圖像信息包括人臉信息,人臉的方向(直,向上,向左,向右),人眼信息(是否佩戴墨鏡)。本次實驗使用數(shù)據(jù)集中128*120分辨率的圖像。任務(wù)1為識別人臉,構(gòu)造任務(wù)2為識別人臉方向,任務(wù)3為人眼是否佩戴墨鏡。取數(shù)據(jù)集中480張為訓(xùn)練集,160張為測試集進(jìn)行測試,數(shù)據(jù)集部分圖像如圖5所示。
3 結(jié)束語
深度信念網(wǎng)絡(luò)能夠有效提取圖像特征,并通過輸出層進(jìn)行有效的分類,對深度信念網(wǎng)絡(luò)做進(jìn)一步研究有很強(qiáng)的實用價值。在DBN網(wǎng)絡(luò)中應(yīng)用多任務(wù)學(xué)習(xí)構(gòu)建多任務(wù)分類器,能夠在樣本相對不多的情況下使分類器同時關(guān)注多個相關(guān)任務(wù)即在訓(xùn)練過程中多個相關(guān)任務(wù)權(quán)值共享,進(jìn)而使分類器從輸入端獲取更多的相關(guān)信息量,同時可以利用多個相關(guān)任務(wù)權(quán)值競爭減少過擬合對分類器的影響,進(jìn)而提高對人臉的識別率。
參考文獻(xiàn):
[1] Liu P, Han S, Meng Z, et al. Facial expression recognition via a boosted deep belief network[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1805-1812.
[2] Xia R, Liu Y. Leveraging valence and activation information via multi-task learning for categorical emotion recognition[C]. Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015: 5301-5305.
[3] 周茜. 基于多任務(wù)學(xué)習(xí)的人臉識別方法[D]. 西北大學(xué), 2013.
[4] 劉成, 彭進(jìn)業(yè). 基于多任務(wù)學(xué)習(xí)的自然圖像分類研究[J]. 計算機(jī)應(yīng)用研究, 2012, 29(7): 2773-2775.
[5] Ding C, Xu C, Tao D. Multi-task pose-invariant face recognition[J]. Image Processing, IEEE Transactions on, 2015, 24(3): 980-993.
[6] Huang Z, Li J, Siniscalchi S M, et al. Rapid Adaptation for Deep Neural Networks through Multi-Task Learning[C]. Sixteenth Annual Conference of the International Speech Communication Association. 2015.
[7] Ye Q, Munro P W. Improving a Neural Network Classifier Ensemble with Multi-task Learning[C]. Neural Networks, 2006. IJCNN'06. International Joint Conference on. IEEE, 2006: 5164-5170.
[8] Le Roux N, Bengio Y. Representational power of restricted Boltzmann machines and deep belief networks[J]. Neural computation, 2008, 20(6): 1631-1649.
[9] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[10] Caruana R. Multitask learning[M]. Learning to learn. Springer US, 1998: 95-133.