陳拓,邢帥,楊文武,金劍秋
浙江工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,杭州 310018
面部表情提供了豐富的情感信息,是人們內(nèi)心情感狀態(tài)最直接和自然的一種傳達(dá)方式(Li和 Deng,2020)。人臉表情識(shí)別在教育質(zhì)量監(jiān)督(Whitehill等,2014)、醫(yī)療應(yīng)用(Gutierrez,2020)、人機(jī)交互(Vinciarelli等,2009)和自動(dòng)駕駛等諸多領(lǐng)域有著廣闊的應(yīng)用前景,因此逐漸成為相關(guān)領(lǐng)域的一個(gè)研究熱點(diǎn)。人臉表情的產(chǎn)生對(duì)應(yīng)著一個(gè)連續(xù)的面部肌肉運(yùn)動(dòng)過(guò)程。多數(shù)已有的人臉表情識(shí)別方法主要針對(duì)該運(yùn)動(dòng)過(guò)程中的表情峰值幀,通過(guò)分析和提取該幀人臉圖像中的表情空間特征信息來(lái)識(shí)別其中的面部表情。為了利用面部表情的運(yùn)動(dòng)信息,一些方法通過(guò)分析人臉表情的視頻序列,希望從中提取出的人臉表情特征不僅包含了每幀圖像中的表情“空域信息”,并且也包含了連續(xù)幀之間的表情“時(shí)域信息”,從而實(shí)現(xiàn)表情識(shí)別性能的有效提升(Zhao等,2018;Zhang等,2017;Hasani和Mahoor,2017;Kumawat等,2019)。但是,視頻序列鄰接幀中的表情空域信息具有一定的連貫性和冗余度,這種冗余性不僅造成了信息浪費(fèi),也加大了有效信息的提取和分辨難度(Zhao等,2018);此外,面部表情的運(yùn)動(dòng)變化可以認(rèn)為是人臉關(guān)鍵組件(如眉毛、眼睛、鼻子和嘴巴等)的動(dòng)態(tài)變化組合,而直接分析圖像序列無(wú)法有效利用人臉關(guān)鍵組件的先驗(yàn)知識(shí),因而不利于人臉表情時(shí)域信息的提取。
針對(duì)上述問(wèn)題,提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),以高效魯棒地分析和理解視頻序列中的面部表情空域和時(shí)域信息。該網(wǎng)絡(luò)主要包含兩個(gè)特征提取模塊,分別用于學(xué)習(xí)單幅表情峰值圖像中的表情靜態(tài)“空域特征”和視頻序列中的表情動(dòng)態(tài)“時(shí)域特征”。此外,該網(wǎng)絡(luò)還包含一種微調(diào)融合策略,該策略取得了最優(yōu)的時(shí)域特征和空域特征融合效果,有效提升了人臉表情的識(shí)別性能。
對(duì)于單幅表情峰值圖像,個(gè)體差異以及光照、遮擋和頭部姿勢(shì)等外在干擾因素都會(huì)與其中的表情特征非線性耦合在一起,使得魯棒提取圖像中的表情特征極具挑戰(zhàn)性(Liu等,2017)?;谌M的深度度量學(xué)習(xí)技術(shù)是一種有效的表情特征學(xué)習(xí)方法,它可以使得相同表情類別的樣本在特征空間中相互靠近,而不同表情類別的樣本在該空間中互相遠(yuǎn)離,最終學(xué)習(xí)得到能夠有效表達(dá)表情變化的潛特征(latent features)。在實(shí)驗(yàn)中觀察到,三元組損失函數(shù)中的閾值可以在一個(gè)范圍內(nèi)有效變化,并且每個(gè)閾值本質(zhì)上對(duì)應(yīng)著一個(gè)不同的類間差異分布,如圖1所示。因此,在“空域特征”學(xué)習(xí)模塊中,提出了一種基于三元組的深度度量融合技術(shù),通過(guò)在三元組損失函數(shù)中采用不同的閾值,從單幅表情峰值圖像中學(xué)習(xí)得到多個(gè)不同的表情特征表示,并將它們組合在一起,最終形成了一個(gè)魯棒的且更具識(shí)別能力的表情特征。
圖1 基于不同三元組閾值學(xué)習(xí)得到的特征所進(jìn)行的類間變化分布可視化Fig.1 Distributions of inter-class variations with respect to the features learned by the triplet loss with different margins
考慮到面部表情是由一些關(guān)鍵區(qū)域肌肉運(yùn)動(dòng)產(chǎn)生的,而這些區(qū)域的運(yùn)動(dòng)可由面部關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡變化來(lái)表示,因此在“時(shí)域特征”提取模塊中采用了簡(jiǎn)單的2維卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),通過(guò)分析視頻序列中的面部關(guān)鍵點(diǎn)軌跡,學(xué)習(xí)得到表情的時(shí)序動(dòng)態(tài)變化特征。此外,為了有效提升人臉表情的識(shí)別性能,還需要考慮如何有效融合上述兩個(gè)模塊中學(xué)習(xí)得到的空域特征和時(shí)域特征,使得這兩個(gè)特征在表情識(shí)別任務(wù)中能夠最大化地互為補(bǔ)充。通過(guò)大量實(shí)驗(yàn),測(cè)試了各種可能的融合策略,最終提出了一種所謂的“微調(diào)融合策略”,取得了最優(yōu)的時(shí)空域特征融合效果。主要貢獻(xiàn)如下:1)提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過(guò)分析單幅表情峰值圖像和視頻序列中的面部關(guān)鍵點(diǎn)軌跡,有效提取了視頻序列中的面部表情空域和時(shí)域特征。2)設(shè)計(jì)了一種基于三元組的深度度量融合技術(shù)。不同于傳統(tǒng)的三元組度量學(xué)習(xí)僅使用單個(gè)閾值,該技術(shù)使用了多個(gè)閾值,不僅避免了費(fèi)時(shí)的最優(yōu)閾值的選取,并且有效提升了提取特征的魯棒性和可分辨能力。3)提出了一種微調(diào)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征融合效果。4)該方法有效提升了人臉表情的識(shí)別性能,在3個(gè)公開(kāi)的基于視頻序列的人臉表情數(shù)據(jù)集CK+(the extended Cohn-Kanade dataset)(Lucey等,2010)、MMI(the MMI facial expression database)(Pantic等,2005)和Oulu-CASIA(the Oulu-CASIA NIR&VIS facial expression database)(Zhao等,2011)上均接近或超越了此前其他各類表情識(shí)別方法的性能。
通常認(rèn)為生氣、高興、恐懼、厭惡、悲傷和驚訝等6種基本情感在不同文化中具有共通性,因此人臉表情識(shí)別研究通常根據(jù)這些情感對(duì)表情進(jìn)行分類(Ekman和Friesen,1971)。根據(jù)輸入特征表示的不同,人臉表情識(shí)別方法大致可以分為基于圖像的方法和基于視頻序列的方法兩類(Zeng等,2009)。已有的研究大多屬于基于圖像的表情識(shí)別方法(Liu等,2017;Acharya等,2018;Yang等,2018),主要考慮單幅表情峰值圖像中的表情靜態(tài)“空域特征”?;谝曨l序列的表情識(shí)別方法則進(jìn)一步考慮了表情生成過(guò)程中的面部運(yùn)動(dòng)信息(Zhang等,2017;Hasani和Mahoor,2017;Kumawat等,2019),即所謂的表情動(dòng)態(tài)“時(shí)域特征”,因而通常能夠更加有效地完成表情識(shí)別任務(wù)。
為了在視頻序列中提取面部表情的時(shí)序特征,研究人員將基于圖像的傳統(tǒng)手工特征擴(kuò)展到連續(xù)的視頻幀特征,提出了LBP-TOP(local binary patterns from three orthogonal planes)(Zhao和 Pietikainen,2007)、3D-HOG(3D-histogram of oriented gradients)(Klaser等,2008)以及3D-SIFT(3D-scale-invariant feature transform)(Scovanner等,2007)等方法。Jain等人(2011)使用條件隨機(jī)場(chǎng)和手工創(chuàng)建的形狀外觀特征對(duì)每個(gè)面部形狀進(jìn)行時(shí)間建模。Taini等人(2008)則提出了一種縱向地圖結(jié)構(gòu),在Oulu-CASIA數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了較好的識(shí)別性能。Wang等人(2013)通過(guò)一種間隔時(shí)序貝葉斯網(wǎng)絡(luò),捕獲了面部肌肉之間復(fù)雜的時(shí)空關(guān)系。Ptucha 等人(2011)提出了一種基于流形的稀疏表示,通過(guò)使用基于監(jiān)督的局部保形投影來(lái)映射低維流形中的特征,進(jìn)而實(shí)現(xiàn)表情識(shí)別。Sikka等人(2016)提出了基于潛序數(shù)模型的視頻表情識(shí)別,使用弱監(jiān)督分類器將面部關(guān)鍵點(diǎn)的SIFT和LBP特征進(jìn)行整合,并將表情作為潛變量進(jìn)行學(xué)習(xí)。
雖然已有的研究工作設(shè)計(jì)了各種各樣的手工特征來(lái)提取表情的時(shí)空信息并對(duì)其進(jìn)行分類,但是基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別方法越來(lái)越流行,相比于基于手工設(shè)計(jì)特征的傳統(tǒng)方法,顯著提升了表情識(shí)別性能。
近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)逐漸主導(dǎo)了各種計(jì)算機(jī)視覺(jué)任務(wù)。例如圖像分類(Simonyan和 Zisserman,2015)、目標(biāo)識(shí)別(Ren等,2017)和物體分割(Shelhamer等,2017)等。對(duì)于視頻序列中的人臉表情識(shí)別任務(wù),基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型也取得了諸多最新研究成果。Jung等人(2015)提出一種使用DTAN(deep temporal appearance network)和DTGN(deep temporal geometry network)兩個(gè)深度神經(jīng)網(wǎng)絡(luò)的方法。DTAN網(wǎng)絡(luò)是一個(gè)簡(jiǎn)單的3D卷積神經(jīng)網(wǎng)絡(luò),用于從視頻序列中捕獲表情的時(shí)空信息;DTGN網(wǎng)絡(luò)是一個(gè)由全連接層構(gòu)成的淺層網(wǎng)絡(luò),用來(lái)捕獲面部關(guān)鍵點(diǎn)的時(shí)序運(yùn)動(dòng)變化。通過(guò)對(duì)這兩個(gè)網(wǎng)絡(luò)進(jìn)行同時(shí)微調(diào),該方法獲得了當(dāng)時(shí)最先進(jìn)的表情識(shí)別性能。Zhang等人(2017)進(jìn)一步改進(jìn)了Jung等人(2015)的方法,提出了一個(gè)空間網(wǎng)絡(luò)MSCNN(multi-signal convolutional neural network)和一個(gè)時(shí)間網(wǎng)絡(luò)PHRNN(part-based hierarchical recurrent neural network),其中MSCNN對(duì)應(yīng)著一個(gè)基于單幅表情峰值圖像的簡(jiǎn)單卷積神經(jīng)網(wǎng)絡(luò),用于學(xué)習(xí)表情的空間信息,而PHRNN則由幾層循環(huán)神經(jīng)子網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)成,用于學(xué)習(xí)視頻序列中的表情時(shí)間信息。此外,Zhang等人(2017)還提出了一種排序融合策略,以有效融合這兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)得到的表情時(shí)空特征。為了更好地學(xué)習(xí)視頻序列中的表情時(shí)空特征,Hasani和Mahoor(2017)將面部關(guān)鍵點(diǎn)和殘差單元的輸入張量相乘替換原始3D Inception-ResNet中的殘差結(jié)構(gòu)。Kumawat等人(2019)提出了一種稱為局部二值體的3D卷積層對(duì)圖像序列上的面部表情進(jìn)行識(shí)別。Deng等人(2019)提出可以同時(shí)捕獲微觀和宏觀運(yùn)動(dòng)的雙流循環(huán)網(wǎng)絡(luò),以此改善基于視頻的情感識(shí)別性能。
本文方法的基本思想與Zhang等人(2017)方法相似,提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)主要包含兩個(gè)特征提取模塊,分別用于學(xué)習(xí)單幅表情峰值圖像中的表情靜態(tài)“空域特征”和視頻序列中的表情動(dòng)態(tài)“時(shí)域特征”,但與Zhang等人(2017)及其他方法相比,有以下3方面的區(qū)別:1)一般的表情識(shí)別網(wǎng)絡(luò)均使用softmax損失作為訓(xùn)練監(jiān)督函數(shù),雖然從中提取的CNN特征具有一定語(yǔ)義,但是它們與表情含義并沒(méi)有直接關(guān)聯(lián),這是因?yàn)閟oftmax損失函數(shù)并沒(méi)有顯式地考慮類內(nèi)的緊湊和類間的分離。提出的基于三元組的深度度量融合技術(shù)不僅能夠?qū)W習(xí)得到有效表達(dá)表情變化的語(yǔ)義特征,并且相比于傳統(tǒng)的三元組度量學(xué)習(xí),這些特征更加魯棒且更具識(shí)別能力。2)循環(huán)神經(jīng)網(wǎng)絡(luò)一般具有更高的學(xué)習(xí)和訓(xùn)練難度,因此使用了簡(jiǎn)單的2維卷積神經(jīng)網(wǎng)絡(luò),通過(guò)分析視頻序列中的面部關(guān)鍵點(diǎn)軌跡,學(xué)習(xí)得到表情的時(shí)序變化信息。3)一般情況會(huì)使用特征級(jí)別或者決策級(jí)別的融合方式來(lái)組合多個(gè)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果,但是不同的網(wǎng)絡(luò)模型具有不同的學(xué)習(xí)能力且學(xué)習(xí)到的特征也不盡相同,簡(jiǎn)單的融合方式有時(shí)不僅無(wú)法實(shí)現(xiàn)時(shí)域特征和空域特征的互補(bǔ)融合,還可能會(huì)削弱它們彼此的識(shí)別性能。因此,提出了一種微調(diào)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征的融合效果。
如圖2所示,本文提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)主要包含空域特征提取模塊DMF(deep metric fusion)和時(shí)域特征提取模塊LTCNN(landmark trajectory CNN)兩個(gè)子網(wǎng)絡(luò)模塊。其中,DMF子網(wǎng)絡(luò)使用了本文提出的深度度量融合技術(shù),以視頻序列中的單幅表情峰值幀圖像為輸入,從中提取出表情的靜態(tài)空間特征。在LTCNN子網(wǎng)絡(luò)中,采用了一個(gè)簡(jiǎn)單的2維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用人臉關(guān)鍵組件中的先驗(yàn)知識(shí),以視頻序列中人臉關(guān)鍵點(diǎn)軌跡構(gòu)成的類特征圖作為輸入,進(jìn)而從中提取出連續(xù)幀中隱含的表情時(shí)序運(yùn)動(dòng)特征。在實(shí)現(xiàn)中,為了達(dá)到網(wǎng)絡(luò)的最佳訓(xùn)練效率并取得最優(yōu)性能,首先分別對(duì)DMF子網(wǎng)絡(luò)和 LTCNN子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,然后將時(shí)域和空域兩個(gè)不同維度上的特征子模塊有效融合在一起,以最終提升人臉表情的識(shí)別性能。
圖2 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The proposed network structure
圖3 DMF子網(wǎng)絡(luò):深度度量融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 DMF sub-network:the structure of deep metric fusion
(1)
因此,三元組損失函數(shù)lossi定義為
(2)
式中,M為集合中的三元組個(gè)數(shù)。注意,上述三元組損失函數(shù)不僅保證了正樣本與錨點(diǎn)之間的特征距離比負(fù)樣本與錨點(diǎn)之間的特征距離小于給定的閾值τi,同時(shí)也保證了錨點(diǎn)與正樣本之間的特征距離比負(fù)樣本與正樣本之間的特征距離小于該給定的閾值。
考慮到卷積神經(jīng)網(wǎng)絡(luò)(CNN)出色的特征表示學(xué)習(xí)能力,同時(shí)為了避免3D CNN的高計(jì)算量,可以使用2D CNN學(xué)習(xí)視頻序列上的時(shí)域表情運(yùn)動(dòng)特征。因此,提出了基于人臉關(guān)鍵點(diǎn)軌跡的卷積神經(jīng)網(wǎng)絡(luò)(LTCNN),通過(guò)分析視頻序列中人臉關(guān)鍵點(diǎn)的運(yùn)動(dòng)變化來(lái)提取其中蘊(yùn)含的表情時(shí)域特征。如圖4所示,LTCNN子網(wǎng)絡(luò)對(duì)應(yīng)一個(gè)簡(jiǎn)單的2D卷積神經(jīng)網(wǎng)絡(luò),由4個(gè)卷積層和2個(gè)全連接層組成。LTCNN子網(wǎng)絡(luò)輸入的是由視頻中人臉關(guān)鍵點(diǎn)軌跡構(gòu)建而成的類特征圖。給定一個(gè)人臉表情視頻序列,首先從視頻中均勻采樣到一個(gè)固定幀數(shù)的圖像序列。在實(shí)現(xiàn)中,均勻采樣了11幀。然后,針對(duì)每個(gè)采樣幀,可以在人臉的雙眼、眉毛、鼻子和嘴巴等4個(gè)關(guān)鍵部位上檢測(cè)出51個(gè)關(guān)鍵點(diǎn),如圖4所示。所有采樣幀中關(guān)鍵點(diǎn)的位置變化即對(duì)應(yīng)著視頻中人臉關(guān)鍵點(diǎn)的運(yùn)動(dòng)軌跡。最后,將所有采樣幀中關(guān)鍵點(diǎn)的坐標(biāo)組合在一起,即得到輸入到LTCNN子網(wǎng)絡(luò)的類特征圖。此外,受圖像RGB三通道表示的啟發(fā),基于關(guān)鍵點(diǎn)的序列數(shù)據(jù),在實(shí)現(xiàn)中采用兩種方式構(gòu)造LTCNN子網(wǎng)絡(luò)的輸入特征圖。
圖4 LTCNN子網(wǎng)絡(luò):基于人臉關(guān)鍵點(diǎn)軌跡的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 LTCNN sub-network:the structure of landmark trajectory convolutional neural network
1)將每幀中51個(gè)關(guān)鍵點(diǎn)的x、y坐標(biāo)依次組合在一起,形成一個(gè)102維的特征向量(x1,y1,x2,y2,…,x51,y51)。然后將所有采樣幀對(duì)應(yīng)的特征向量組合在一起,即得到一個(gè)11×102×1大小的向量,該向量可以看做是帶1個(gè)通道而大小為11×102的特征圖,并稱以該特征圖作為輸入的LTCNN子網(wǎng)絡(luò)為L(zhǎng)TCNN-1CL。
2)將每幀中51個(gè)關(guān)鍵點(diǎn)的x、y坐標(biāo)分別組合在一起,形成兩個(gè)51維的特征向量(x1,x2,…,x51)和 (y1,y2,…,y51)。然后分別將所有采樣幀對(duì)應(yīng)的x或y特征向量組合在一起,即得到一個(gè)11×51×2大小的向量,該向量可以看做是帶2個(gè)通道而大小為11×51的特征圖,并稱以該特征圖作為輸入的LTCNN子網(wǎng)絡(luò)為L(zhǎng)TCNN-2CL。
提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)通過(guò)將提取空域信息的DMF子網(wǎng)絡(luò)和提取時(shí)域信息的LTCNN子網(wǎng)絡(luò)融合在一起,實(shí)現(xiàn)了人臉識(shí)別性能的有效提升。一般地,通??梢圆捎锰卣魅诤喜呗曰蛘邲Q策融合策略。
2.3.1 基于決策融合的后期融合策略
多數(shù)人臉表情識(shí)別方法通過(guò)決策融合來(lái)提高算法性能。如圖5所示,該融合策略首先單獨(dú)訓(xùn)練DMF和LTCNN子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)得到一個(gè)分類結(jié)果,然后將所有子網(wǎng)絡(luò)的分類結(jié)果通過(guò)某種數(shù)學(xué)方式進(jìn)行匯總,匯總結(jié)果即為最終的分類結(jié)果。一般可以使用簡(jiǎn)單的加權(quán)平均來(lái)匯總分類結(jié)果,也可以采用稍微復(fù)雜的匯總方式,例如決策排序融合(Zhang 等,2017)。在決策融合策略中,因?yàn)閮蓚€(gè)子網(wǎng)絡(luò)是單獨(dú)訓(xùn)練,因而無(wú)法考慮它們之間的互補(bǔ)性。
圖5 基于決策融合的后期融合策略Fig.5 Late-fusion strategy based on decision fusion
2.3.2 基于特征融合的前期融合策略
在該融合策略中,DMF子網(wǎng)絡(luò)的特征輸出(即最后一個(gè)全連接層的輸出)與LTCNN子網(wǎng)絡(luò)的特征輸出(即最后一個(gè)全連接層的輸出)通過(guò)后續(xù)的全連接層融合在一起,以得到一個(gè)更具分辨能力的表情特征,如圖6所示。在實(shí)現(xiàn)過(guò)程中,使用了一個(gè)256大小的全連接層來(lái)融合DMF和LTCNN子網(wǎng)絡(luò)的輸出特征,并結(jié)合softmax表情分類層對(duì)整個(gè)網(wǎng)絡(luò)通過(guò)一種端到端的方式進(jìn)行訓(xùn)練。但是,由于DMF和LTCNN子網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中的收斂速度可能不同,因而以統(tǒng)一的學(xué)習(xí)率對(duì)它們進(jìn)行端到端的訓(xùn)練無(wú)法充分照顧它們不同的收斂特性。
圖6 基于特征融合的前期融合策略Fig.6 Early-fusion strategy based on feature fusion
2.3.3 基于微調(diào)的特征融合策略
針對(duì)前期特征融合策略下DMF和LTCNN子網(wǎng)絡(luò)可能存在不同訓(xùn)練下收斂速度不一致以及后期決策融合策略下兩個(gè)子網(wǎng)絡(luò)因單獨(dú)訓(xùn)練而沒(méi)有考慮結(jié)果互補(bǔ)性的問(wèn)題,提出了第3種融合策略,即基于微調(diào)的特征融合策略。其思想簡(jiǎn)單,先對(duì)DMF和LTCNN子網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,然后通過(guò)特征融合的方式將這兩個(gè)子網(wǎng)絡(luò)結(jié)合在一起,并以端到端的方式進(jìn)行統(tǒng)一微調(diào)。在實(shí)現(xiàn)中,采用DMF子網(wǎng)絡(luò)優(yōu)化時(shí)所用的超參數(shù)進(jìn)行微調(diào)訓(xùn)練,并考慮了4種微調(diào)方案。1)局部微調(diào)。固定兩個(gè)子網(wǎng)絡(luò)參數(shù),只微調(diào)后面新加的全連接融合層和softmax分類層。2)固定DMF的微調(diào)。固定DMF子網(wǎng)絡(luò)參數(shù),聯(lián)合微調(diào)LTCNN子網(wǎng)絡(luò)以及后面新加的全連接融合層和softmax分類層。3)固定LTCNN的微調(diào)。固定LTCNN子網(wǎng)絡(luò)參數(shù),聯(lián)合微調(diào)DMF子網(wǎng)絡(luò)以及后面新加的全連接融合層和softmax分類層。4)整體微調(diào)。對(duì)網(wǎng)絡(luò)中所有模塊進(jìn)行聯(lián)合微調(diào)。
實(shí)驗(yàn)發(fā)現(xiàn),后3種微調(diào)方案均能夠有效實(shí)現(xiàn)DMF和LTCNN子網(wǎng)絡(luò)的同步訓(xùn)練以及互補(bǔ)融合。其中,整體微調(diào)取得了最高的表情分類精度。
為了評(píng)估提出的融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的性能,選取3個(gè)公開(kāi)且廣泛使用的基于視頻序列的表情數(shù)據(jù)集CK+(Lucey等,2010)、MMI(Pantic等,2005)和Oulu-CASIA(Zhao等,2011)進(jìn)行實(shí)驗(yàn)。
相比于CK+,MMI數(shù)據(jù)集(Pantic等,2005)中的個(gè)體表情差異更大,并且部分存在遮擋(例如眼鏡和胡須等),因此更具挑戰(zhàn)性。數(shù)據(jù)集由來(lái)自31個(gè)主體的236個(gè)圖像序列組成,每個(gè)序列對(duì)應(yīng)6個(gè)基本表情(沒(méi)有蔑視) 之一,實(shí)驗(yàn)中選擇了正面視圖拍攝的208個(gè)序列。每個(gè)序列以中性表情開(kāi)始,在序列中間達(dá)到表情峰值,并以中性表情結(jié)束。與CK+類似,通過(guò)均勻采樣獲得具有固定幀數(shù)的樣本,并使用嚴(yán)格主體獨(dú)立的方式進(jìn)行10折交叉驗(yàn)證。
3個(gè)表情數(shù)據(jù)集的部分示例如圖7所示。其中,MMI和Oulu-CASIA數(shù)據(jù)集中沒(méi)有“蔑視”的面部表情。
圖7 3個(gè)表情數(shù)據(jù)集中的部分示例Fig.7 Some examples of three expression datasets
3.2.1 DMF子網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié)
1)數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)。DMF子網(wǎng)絡(luò)以視頻序列中的單幅表情峰值幀圖像作為輸入。首先使用該幀圖像中的人臉關(guān)鍵點(diǎn)裁剪出人臉圖像并縮放到236 × 236像素。對(duì)沒(méi)有提供人臉關(guān)鍵點(diǎn)的峰值幀圖像,使用MTCNN算法(Zhang等,2016)檢測(cè)其中的人臉關(guān)鍵點(diǎn)。此外,所有的人臉圖像均進(jìn)行了相應(yīng)的直方圖均衡化和全局對(duì)比度歸一化處理。進(jìn)一步,為了防止過(guò)擬合,在訓(xùn)練階段,同時(shí)采用了在線和離線的數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)充數(shù)據(jù)訓(xùn)練集中的數(shù)據(jù)樣本。在離線增強(qiáng)階段,分別使用-10°、-5°、0°、5°、10°等5個(gè)角度對(duì)每幅圖像進(jìn)行旋轉(zhuǎn)。在訓(xùn)練過(guò)程中,進(jìn)一步通過(guò)在線增強(qiáng)擴(kuò)充數(shù)據(jù)。一方面,從圖像的5個(gè)位置(4個(gè)角和中心)隨機(jī)裁剪出224 × 224像素的圖像塊作為訓(xùn)練數(shù)據(jù)樣本;另一方面,以0.5的置信度對(duì)圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)。最終,通過(guò)離線和在線數(shù)據(jù)增強(qiáng)處理,可以將原始數(shù)據(jù)集的大小擴(kuò)充50倍。在測(cè)試階段,僅將從圖像中心裁剪出的224 × 224像素的一個(gè)圖像塊作為DMF子網(wǎng)絡(luò)的輸入。
2)三元組構(gòu)造。對(duì)于N-Metric模塊中計(jì)算三元組損失函數(shù)所需的三元組樣本,通過(guò)批次難例挖掘策略(batch hard)構(gòu)建(Hermans等,2017),即對(duì)訓(xùn)練批次中的每個(gè)樣本a,可以找到最難的(與a特征距離最大)正樣本以及最難的(與a特征距離最小)負(fù)樣本,分別稱為錨點(diǎn)、正樣本和負(fù)樣本,并以此來(lái)形成一個(gè)三元組。
3)DMF子網(wǎng)絡(luò)的優(yōu)化訓(xùn)練。為了對(duì)DMF子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,在DMF子網(wǎng)絡(luò)的最后加了一個(gè)softmax表情分類層。因此,DMF子網(wǎng)絡(luò)可以以一種端到端的方式進(jìn)行單獨(dú)訓(xùn)練,其整體損失函數(shù)定義為
(3)
式中,loss0對(duì)應(yīng)用于表情分類的softmax損失函數(shù),λ用于控制不同種類損失函數(shù)之間的貢獻(xiàn)權(quán)重。在實(shí)現(xiàn)中,λ=0.5/N。為了訓(xùn)練得到具有較高泛化能力的DMF子網(wǎng)絡(luò),首先通過(guò)在人臉表情數(shù)據(jù)庫(kù)FER-2013(facial expression recognition-2013)(Goodfellow等,2013)上微調(diào)VGG16-Face網(wǎng)絡(luò)模型來(lái)預(yù)訓(xùn)練子網(wǎng)絡(luò)中的DCNN模塊。然后,針對(duì)每個(gè)實(shí)驗(yàn)數(shù)據(jù)集,對(duì)整個(gè)DMF子網(wǎng)絡(luò)進(jìn)行整體微調(diào)。訓(xùn)練采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)為5E-6,批處理大小為96,全連接層使用了0.5權(quán)重的dropout策略,整個(gè)子網(wǎng)絡(luò)以一種端到端的方式訓(xùn)練70個(gè)epoch。
表1 3個(gè)數(shù)據(jù)庫(kù)上不同采樣間隔的識(shí)別精度Table 1 Recognition accuracy of different sampling intervals on three databases /%
3.2.2 LTCNN子網(wǎng)絡(luò)實(shí)現(xiàn)細(xì)節(jié)
1)數(shù)據(jù)預(yù)處理。在實(shí)現(xiàn)中,使用DAN(deep alignment network)算法(Kowalski等,2017)檢測(cè)采樣圖像中的51個(gè)人臉關(guān)鍵點(diǎn)。為了消除頭部姿勢(shì)及其大小對(duì)人臉關(guān)鍵點(diǎn)軌跡分析的影響,對(duì)人臉關(guān)鍵點(diǎn)的坐標(biāo)進(jìn)行歸一化處理。具體方式為:對(duì)于每一個(gè)視頻序列,可以以鼻子中心作為坐標(biāo)原點(diǎn),首先將每個(gè)關(guān)鍵點(diǎn)的位置坐標(biāo)減去鼻子中心點(diǎn)的位置坐標(biāo),然后將該坐標(biāo)除以所有采樣幀中關(guān)鍵點(diǎn)位置坐標(biāo)的標(biāo)準(zhǔn)方差。即
(4)
2)數(shù)據(jù)增強(qiáng)。為了防止LTCNN子網(wǎng)絡(luò)在訓(xùn)練過(guò)程中發(fā)生過(guò)擬合,對(duì)人臉關(guān)鍵點(diǎn)進(jìn)行隨機(jī)水平翻轉(zhuǎn),并在關(guān)鍵點(diǎn)位置坐標(biāo)中添加隨機(jī)高斯噪聲。即
(5)
3)LTCNN子網(wǎng)絡(luò)的優(yōu)化訓(xùn)練。與DMF子網(wǎng)絡(luò)類似,為了對(duì)LTCNN子網(wǎng)絡(luò)進(jìn)行單獨(dú)訓(xùn)練,在LTCNN子網(wǎng)絡(luò)的最后加了一個(gè)softmax表情分類層。在實(shí)現(xiàn)中,LTCNN子網(wǎng)絡(luò)前4個(gè)卷積層的大小分別為3×15×64、3×11×96、3×7×128和3×3×128。其中,3×15×64表示使用了64個(gè)3×15大小的2D卷積核,其他卷積層大小的含義一樣。對(duì)于LTCNN子網(wǎng)絡(luò)中的后兩個(gè)全連接層,分別使用了512和128個(gè)神經(jīng)元。訓(xùn)練時(shí),使用Xavier初始化整個(gè)子網(wǎng)絡(luò),再采用Adam優(yōu)化器進(jìn)行優(yōu)化,設(shè)置權(quán)重衰減率為0.000 1,初始學(xué)習(xí)率、批處理大小以及訓(xùn)練周期分別為1.0E-4、96和70。
3.3.1 DMF子網(wǎng)絡(luò)中多分支的特征可視化
在DMF子網(wǎng)絡(luò)的N-Metric模塊中,使用了7條分支通過(guò)基于三元組的深度度量學(xué)習(xí)來(lái)學(xué)習(xí)得到不同的人臉表情特征。圖8給出了不同分支上學(xué)習(xí)特征的可視化結(jié)果。其中,第2—8列為各分支上的特征,最后1列為所有分支融合而成的特征。每個(gè)特征通過(guò)與其關(guān)聯(lián)的全連接層中的神經(jīng)元進(jìn)行可視化,其中1個(gè)小方格對(duì)應(yīng)著1個(gè)神經(jīng)元,且顏色越亮代表值越大。特別說(shuō)明,對(duì)于融合特征,顯示了它對(duì)應(yīng)的所有256個(gè)神經(jīng)元,而對(duì)于各分支的特征,為了清晰顯示,僅從其中的512個(gè)神經(jīng)元中均勻采樣了64個(gè)神經(jīng)元進(jìn)行顯示。從圖8可以看出,1)對(duì)于同一幅人臉圖像,各個(gè)分支上的特征具有各不相同的可分辨特性;2)對(duì)于具有相同表情的不同個(gè)體圖像,每一分支上的表情特征極其相似,而對(duì)于同一個(gè)體下的不同表情圖像,每一分支上的表情特征則相差較大。
圖8 DMF子網(wǎng)絡(luò)中不同分支上的特征可視化結(jié)果Fig.8 Visualization results of features on different branches in DMF sub-net((a) original images;(b)τ1=0.15;(c)τ2=0.25;(d)τ3=0.35;(e)τ4=0.45;(f)τ5=0.55;(g)τ6=0.65;(h)τ7=0.75;(i) fusion features)
綜上分析,每條分支顯然學(xué)習(xí)到了不同的特征表示并且對(duì)表情具有極強(qiáng)的分辨性。最終,將這7條分支上的特征組合在一起,可以得到一個(gè)更加魯棒且更具識(shí)別能力的表情“空域特征”。
3.3.2 DMF子網(wǎng)絡(luò)中單分支與多分支模型的對(duì)比
為了進(jìn)一步驗(yàn)證DMF子網(wǎng)絡(luò)中多分支模型的有效性,僅保留了DMF子網(wǎng)絡(luò)中的一條分支,并分別使用不同的閾值來(lái)訓(xùn)練該單分支的DMF網(wǎng)絡(luò)模型。表2給出了不同閾值下該單分支DMF網(wǎng)絡(luò)的性能結(jié)果。可以看出,模型的識(shí)別性能隨著閾值的改變發(fā)生了相應(yīng)變化,并且對(duì)于不同的數(shù)據(jù)庫(kù),其最佳閾值有所不同,這也驗(yàn)證了前述的觀察結(jié)果,即通過(guò)改變損失函數(shù)中的閾值可以學(xué)習(xí)到不同的表情特征。此外,結(jié)果還表明,在CK+、MMI和Oulu-CASIA數(shù)據(jù)庫(kù)上,即使采用最佳閾值,單閾值方法的性能也比多閾值融合的方法要低,分別低約1.31%、4.42%和2.33%,這充分證明了深度度量融合技術(shù)的優(yōu)勢(shì)。
表2 單分支DMF網(wǎng)絡(luò)在不同閾值的識(shí)別精度Table 2 Recognition accuracy of single-branch DMF network at different thresholds /%
3.3.3 兩種不同的關(guān)鍵點(diǎn)軌跡特征圖
在基于關(guān)鍵點(diǎn)軌跡構(gòu)造LTCNN子網(wǎng)絡(luò)的輸入特征圖時(shí),可以采用單通道或雙通道的特征圖方式,它們分別對(duì)應(yīng)LTCNN-1CL和LTCNN-2CL。表3給出了對(duì)應(yīng)的表情識(shí)別性能結(jié)果。可以發(fā)現(xiàn),在3個(gè)數(shù)據(jù)庫(kù)上,LTCNN-2CL均取得了比LTCNN-1CL更高的準(zhǔn)確率。即LTCNN-2CL對(duì)應(yīng)的特征圖能夠更加準(zhǔn)確地提取出關(guān)鍵點(diǎn)軌跡中的運(yùn)動(dòng)信息。因此,本文其他所有的相關(guān)實(shí)驗(yàn)均采用雙通道的關(guān)鍵點(diǎn)軌跡特征圖作為L(zhǎng)TCNN子網(wǎng)絡(luò)的輸入。
表3 LTCNN-1CL和LTCNN-2CL的識(shí)別精度Table 3 Recognition accuracy of LTCNN-1CL and LTCNN-2CL /%
3.3.4 不同融合策略的性能對(duì)比
針對(duì)DMF和LTCNN子網(wǎng)絡(luò)的融合,表4給出了不同策略融合下的表情識(shí)別性能??梢?jiàn),基于整體微調(diào)的特征融合方法有效實(shí)現(xiàn)了DMF和LTCNN子網(wǎng)絡(luò)的互補(bǔ)融合,取得了最高的表情分類精度。
此外,表4給出了單獨(dú)DMF子網(wǎng)絡(luò)和單獨(dú)LTCNN子網(wǎng)絡(luò)的人臉表情識(shí)別精度。顯然,通過(guò)充分結(jié)合表情的時(shí)域和空域特征信息,融合時(shí)空域特征的人臉表情識(shí)別方法取得了表情識(shí)別性能的顯著提升。需要注意的是,在表4中,一般特征融合策略取得的識(shí)別精度甚至低于單獨(dú)使用DMF或LTCNN子網(wǎng)絡(luò)的識(shí)別精度。這是因?yàn)镈MF和LTCNN子網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中的收斂速度不同,而以統(tǒng)一的學(xué)習(xí)率對(duì)它們進(jìn)行端到端的訓(xùn)練無(wú)法充分照顧它們的不同收斂特性。
表4 不同融合策略的識(shí)別精度Table 4 Recognition accuracy of different fusion strategies /%
3.3.5 與之前方法的性能比較
表5給出了本文方法與其他已有方法的性能對(duì)比。在這些已有方法中,DTAGN(deep temporal appearance-geometry network)通過(guò)局部微調(diào)的融合方式集成兩個(gè)子網(wǎng)絡(luò)學(xué)習(xí)到的時(shí)序外觀特征和時(shí)序幾何特征(Jung 等,2015)。PHRNN-MSCNN通過(guò)決策排序融合的方式集成不同網(wǎng)絡(luò)學(xué)習(xí)到的表情時(shí)空信息(Zhang 等,2017)。從表5可以看出,通過(guò)整體微調(diào),本文提出的融合時(shí)空域特征的人臉表情識(shí)方法取得了較好的性能提升。表5進(jìn)一步給出了PHRNN-MSCNN中時(shí)域和空域特征子網(wǎng)絡(luò)各自的表情識(shí)別性能??梢钥闯?,1)相比于MSCNN子網(wǎng)絡(luò),提出的DMF空域特征子網(wǎng)絡(luò)在3個(gè)數(shù)據(jù)庫(kù)上均取得了明顯的性能提升;2)提出的LTCNN時(shí)域特征子網(wǎng)絡(luò)取得了與PHRNN子網(wǎng)絡(luò)較接近的識(shí)別性能,但是提出的基于CNN的網(wǎng)絡(luò)結(jié)構(gòu)避免了RNN網(wǎng)絡(luò)結(jié)構(gòu)可能帶來(lái)的網(wǎng)絡(luò)訓(xùn)練難度。最近,LBVCNN(local binary volume convolutional neural network)通過(guò)局部二值體卷積神經(jīng)網(wǎng)絡(luò)可以從視頻序列的3個(gè)正交面同時(shí)學(xué)習(xí)其中的時(shí)空局部紋理信息(Kumawat等,2019),與之相比,本文提出的時(shí)空融合網(wǎng)絡(luò)用專門(mén)的子網(wǎng)絡(luò)分別專注于學(xué)習(xí)時(shí)域信息和空域信息,然后再進(jìn)行互補(bǔ)融合,取得了更高的表情識(shí)別性能。
表5 不同方法的識(shí)別精度Table 5 Recognition accuracy of different methods /%
表6—表8分別顯示了基于整體微調(diào)融合的時(shí)空網(wǎng)絡(luò)在3個(gè)表情數(shù)據(jù)集上的混淆矩陣??梢钥闯?,在CK+數(shù)據(jù)集上,本文方法對(duì)于每個(gè)類別均具有較好的識(shí)別性能。對(duì)于更具挑戰(zhàn)性的MMI數(shù)據(jù)集,由于恐懼與驚訝兩種表情較為相似,它們對(duì)應(yīng)的面部關(guān)鍵點(diǎn)的軌跡運(yùn)動(dòng)差別較為細(xì)微,使得較多數(shù)量的恐懼表情錯(cuò)誤地識(shí)別為驚訝,最終造成恐懼類別的識(shí)別率較低。對(duì)于Oulu-CASIA數(shù)據(jù)集,本文方法在所有類別上取得了較為均衡的識(shí)別性能,并且在生氣和驚訝兩種表情上取得了最高的識(shí)別率。
表6 本文方法在CK+數(shù)據(jù)集上的混淆矩陣Table 6 Confusion matrix of this method on CK+ dataset /%
表7 本文方法在MMI數(shù)據(jù)集上的混淆矩陣Table 7 Confusion matrix of this method on MMI dataset /%
表8 本文方法在Oulu-CASIA數(shù)據(jù)集上的混淆矩陣Table 8 Confusion matrix of this method on Oulu-CASIA dataset /%
針對(duì)基于視頻序列的人臉表情識(shí)別,本文提出了一種融合時(shí)空域特征的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。首先,提出了一種基于三元組的深度度量融合技術(shù),通過(guò)采用不同的三元組閾值,從單幅表情峰值圖像中學(xué)習(xí)得到多個(gè)不同的表情特征表示,并將它們組合在一起最終形成了一個(gè)魯棒的且更具識(shí)別能力的表情“空域特征”。然后,基于視頻序列中的人臉關(guān)鍵點(diǎn)軌跡特征圖,使用簡(jiǎn)單的2維卷積神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)得到描述表情運(yùn)動(dòng)信息的表情“時(shí)域特征”。最后,提出一種基于整體微調(diào)的網(wǎng)絡(luò)融合策略,取得了最優(yōu)的時(shí)域特征和空域特征的融合效果。
在3個(gè)公開(kāi)且廣泛使用的表情數(shù)據(jù)集CK+、MMI和Oulu-CASIA上驗(yàn)證了本文算法的有效性。實(shí)驗(yàn)結(jié)果表明,本文方法取得了顯著的性能提升,在3個(gè)數(shù)據(jù)集上均接近或超越了當(dāng)前最高的人臉表情識(shí)別性能。但本文方法仍有一些不足之處,未來(lái)可以通過(guò)以下幾方面進(jìn)一步研究:1)提出的方法僅考慮了視頻和圖像兩種模態(tài)下的人臉表情識(shí)別,未來(lái)可以融合更多模態(tài)的特征,例如主體的身份信息、場(chǎng)景描述信息和語(yǔ)音信息等,以進(jìn)一步增強(qiáng)表情識(shí)別算法的魯棒性。此外,未來(lái)還計(jì)劃將三元組深度度量融合技術(shù)推廣到其他相關(guān)應(yīng)用,例如圖像分類、圖像搜索以及可視對(duì)象識(shí)別等。2)本文方法只探究了幾種模型融合策略來(lái)結(jié)合時(shí)序和空間特征。未來(lái)可以嘗試其他融合方法,更好地利用各個(gè)子網(wǎng)絡(luò)中的互補(bǔ)信息。也可以對(duì)最新提出的3D卷積進(jìn)行改進(jìn),在利用3D卷積聯(lián)合學(xué)習(xí)時(shí)空特征優(yōu)勢(shì)的同時(shí),降低3D卷積網(wǎng)絡(luò)的復(fù)雜性。3)許多研究通常在特定的數(shù)據(jù)庫(kù)上評(píng)估算法性能,但是一些跨數(shù)據(jù)庫(kù)實(shí)驗(yàn)表明,由于數(shù)據(jù)的采集方式和環(huán)境不同,數(shù)據(jù)庫(kù)之間普遍存在數(shù)據(jù)偏差和注釋不一致的問(wèn)題,這將大幅降低在未知數(shù)據(jù)上的泛化性能。深度域適應(yīng)和知識(shí)蒸餾是解決數(shù)據(jù)偏差的可行解決方案。未來(lái)可以將研究擴(kuò)展到跨數(shù)據(jù)庫(kù)的人臉表情識(shí)別問(wèn)題上。