国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于公共空間視頻的人臉情緒識別

2019-07-11 03:44:28卿粼波周文俊熊文詩滕奇志
關(guān)鍵詞:人臉情緒特征

王 露,唐 韜,卿粼波,周文俊,熊文詩,滕奇志

(1.四川大學電子信息學院,四川成都610065;2.上海交通大學電子信息與電氣工程學院上海200030)

情緒識別作為計算機視覺領(lǐng)域的研究重點之一,具有廣泛的應(yīng)用前景。目前對情緒的研究主要利用人臉序列開展,因為人臉情緒是人們表達情感狀態(tài)最具表現(xiàn)力的非語言渠道之一。隨著我國城市化進程的推進,城市大數(shù)據(jù)由傳統(tǒng)的手機信令、互聯(lián)網(wǎng)定位數(shù)據(jù)逐漸過渡到由圖片和視頻構(gòu)成的城市公共空間新型大數(shù)據(jù),新型大數(shù)據(jù)包含的關(guān)于人的信息也更豐富。因此,利用從公共空間視頻截取的人臉表情序列分析基于公共空間的人群情緒可為城市公共安全評估、居民幸福感預(yù)測提供可靠信息,為城市規(guī)劃研究者提供有效參考。如何制作基于城市公共空間的人臉表情數(shù)據(jù)集并進行人臉情緒識別是亟待解決的問題。目前,人臉情緒識別主要采用傳統(tǒng)方法和基于深度學習的方法。傳統(tǒng)的人臉情緒識別主要采用隱馬爾可夫模型(hidden markov model,HMM)、支持向量機(support vector machine,SVM)、Adaboost算法。鐘巖[1]利用局部二值模式(local binary patterns,LBP)提取人臉圖像的特征,輸入至嵌入式隱馬爾可夫模型(EHMM)對人臉表情進行分類;Liu等[2]利用Gabor算子對面部表情進行局部特征融合,再利用SVM分類器進行人臉情緒分類;Gudipati等[3]利用Adaboost和Haar建立級聯(lián)分類器對表情數(shù)據(jù)集進行情緒識別。上述方法在人臉情緒識別上均取得了一定效果,但由于公共空間場景的復(fù)雜性,且不同環(huán)境下人工選擇面部表情特征存在差異,傳統(tǒng)方式獲得的模型參數(shù)對使用環(huán)境要求較高,對本文研究的適用性不強。

2006年,Hinton等[4]提出了深度學習理論,將多個抽象的數(shù)據(jù)處理層組合構(gòu)成計算模型代替?zhèn)鹘y(tǒng)的人工選擇特征方法,可避免人工選擇特征的缺陷。卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)[5]是一種前饋神經(jīng)網(wǎng)絡(luò),也是深度學習中最典型的模型之一,其已成功應(yīng)用到大型圖像處理與識別任務(wù)中且取得了非凡成就。針對視頻中人臉情緒的識別,李勇等[6]采用改進的LeNet-5網(wǎng)絡(luò)進行面部情緒識別;Zhang等[7]利用多信號卷積神經(jīng)網(wǎng)絡(luò)提取人臉圖像的靜態(tài)特征,使用另一網(wǎng)絡(luò)提取表情序列的動態(tài)特征,最終融合得到情緒分類。長短期記憶網(wǎng)絡(luò)(long short term memory network,LSTM)[8]是一種時間遞歸神經(jīng)網(wǎng)絡(luò),適用于處理時間隔和延遲較大的視頻序列,目前已有多項研究將LSTM應(yīng)用到人臉情緒識別中。Kankanamge等[9]利用多個LSTM網(wǎng)絡(luò)結(jié)合局部二值模式提取人臉特征進行情緒識別;Yu等[10]采用3DCNN提取圖像序列面部表情的時空特征,再利用嵌套的LSTM網(wǎng)絡(luò)進行動態(tài)特征建模,實現(xiàn)人臉情緒的識別。上述情緒識別研究取得了較好的識別效果,但研究對象均為公開人臉數(shù)據(jù)集如JAFFE[12]、CK+[13]等,此類數(shù)據(jù)一般是實驗者在特定環(huán)境中根據(jù)要求做出指定表情然后借助設(shè)備拍攝得到。而公共空間視頻場景復(fù)雜多變,包含的人群信息更為豐富,且視頻是在人們無意識的情況下獲取,人們的面部表情更能反應(yīng)其真實的情緒狀態(tài)。因此,文中提出一種雙流卷積網(wǎng)絡(luò)模型對公共空間視頻中的人臉情緒進行識別,以期有效識別每類情緒。

1 基于公共空間表情數(shù)據(jù)集的制作

人臉表情識別常用的數(shù)據(jù)集有JAFFE、CK+、AFEW[14]等。JAFFE和CK+數(shù)據(jù)集均包含7種情緒,JAFFE數(shù)據(jù)集有213張圖片,CK+數(shù)據(jù)集為表情序列,有593個圖像序列。JAFFE和CK+中的數(shù)據(jù)都是在實驗環(huán)境下采集得到的,數(shù)據(jù)樣本單一,不適用于研究公共空間視頻中的人臉表情,且這兩個數(shù)據(jù)集的規(guī)模較小,利用深度學習方法進行訓(xùn)練時易出現(xiàn)過擬合。AFEW是視頻情感識別大賽(emotion recognition in the wild challenge,EmotiW)采用的數(shù)據(jù)集,數(shù)據(jù)量大,視頻背景多樣,但該數(shù)據(jù)集截取自電影片段,面部情緒是根據(jù)情節(jié)需要而表現(xiàn),不代表真實情感狀態(tài),且AFEW的情緒分類不能完全適用于本文研究。公開數(shù)據(jù)集的情緒一般有7~8類,劃分較為細致。由于人們在公共場所具有一定的自我形態(tài)意識,公共空間視頻中人們的表情變化不如公開數(shù)據(jù)集豐富夸張。因此參照Zhang等[11]提出的面向公共空間視頻的4種情緒,即Bored、Excited、Frantic和Relaxed為文中的數(shù)據(jù)集制作標簽。

采用現(xiàn)場拍攝和網(wǎng)上收集的方式建立基于城市公共空間的人臉表情數(shù)據(jù)集,制作過程包括3個步驟。

1)人臉表情序列的提取 利用MeanShift算法[15]跟蹤單人人臉,提取視頻中分辨率較高的人臉表情序列。

2)人臉表情圖像預(yù)處理 采用Li等[16]提出的SURF級聯(lián)法進行人臉檢測,提取有用的人臉區(qū)域,然后對序列進行灰度化處理,降低原始圖像中背景雜質(zhì)的干擾。

3)建立情緒標簽邀請8名志愿者(4男4女)觀看視頻序列,根據(jù)Arousal-Valence情感平面中的Arousal和Valence分量值[11]描述他們看到的情緒狀態(tài);取8名志愿者對每個視頻序列標記的兩個分量值求平均,對序列進行打分;根據(jù)視頻序列的Arousal和Valence分量值在Arousal-Valence情感平面中的位置得到序列的情緒標簽。人臉數(shù)據(jù)集的具體制作流程如圖1,為保證隱私圖中人臉已經(jīng)打碼。

圖1 數(shù)據(jù)集的制作流程Fig.1 Production process of dataset

建立的人臉數(shù)據(jù)集分為3個部分:訓(xùn)練集、驗證集和測試集,視頻序列個數(shù)分別為855,163,180。驗證集用于完成訓(xùn)練階段的測試,當訓(xùn)練數(shù)據(jù)完成一次迭代后,利用驗證集對該階段的訓(xùn)練效果進行評估;測試集用于對訓(xùn)練好的模型進行測試,驗證模型的準確率。為保證最終實驗的可靠性,每個數(shù)據(jù)集中4種情緒的視頻數(shù)量基本相同。與公開數(shù)據(jù)集相比,本文數(shù)據(jù)集的限制更少,更具有通用性。

2 基于雙流網(wǎng)絡(luò)的人臉情緒識別方法

2.1 感受野分析

公共空間中視頻分辨率相對有限,制作的人臉數(shù)據(jù)集質(zhì)量不高。若只采用單一尺寸的視頻幀作為網(wǎng)絡(luò)輸入,則會因圖像分辨率較低而導(dǎo)致對人臉表情特征的提取力度不夠。一個強大的動態(tài)表情識別網(wǎng)絡(luò)應(yīng)能夠描述多層次的視覺特征,既需捕捉局部視覺內(nèi)容,也需對全局視覺信息進行把握,以提高特征提取的豐富度,最終提高情緒識別的效果。文中利用不同分辨率的表情圖像作為網(wǎng)絡(luò)輸入,利用不同感受野(receptive field)包含不同尺度的特征信息這一優(yōu)勢進行表情的圖像特征提取,提升整個網(wǎng)絡(luò)的識別精度。

神經(jīng)網(wǎng)絡(luò)中,感受野是指CNN的每一層輸出特征圖(feature map)上的像素點在原圖像上映射區(qū)域的大小。利用CNN提取特征時,大的感受野表示其能接觸到的原始圖像范圍大,意味著包含更為全局、語義層次更高的特征,訓(xùn)練時的模型參數(shù)也更多;小的感受野表示其包含的特征越趨向局部和細節(jié),能更有效地提取局部細微的特征,訓(xùn)練時的模型參數(shù)也較少。為更直觀地說明不同感受野下提取特征的區(qū)別,圖2給出了不同感受野示例,虛線框中為采用同樣卷積核操作時的感受野。圖2(a)中的感受野能覆蓋唇部1/2的面積且包含部分唇部周邊信息,圖2(b)中的感受野只能覆蓋唇部1/3的區(qū)域且?guī)缀醪话ù讲恐苓呅畔ⅰ?/p>

圖2 不同尺度下的感受野示例Fig.2 Receptive field examples at different scales

為說明感受野在CNN中的計算過程,圖3給出了關(guān)于CNN感受野的實例。假設(shè)輸入圖像大小為5×5,卷積核大小為3×3,步長s為1×1,填充大小為1×1,進行卷積操作后得到右邊大小為3×3的特征圖。感受野中心為特征圖中每個特征對應(yīng)輸入圖像的中心位置,感受野的大小對應(yīng)輸入圖像的區(qū)域大小。

圖3 CNN感受野示例Fig.3 CNN example of receptive field

2.2 雙流網(wǎng)絡(luò)模型的建立

為提升本文制作數(shù)據(jù)集的識別準確率,結(jié)合2.1節(jié)感受野的相關(guān)特性,提出基于雙流網(wǎng)絡(luò)的人臉識別框架,如圖4。圖中人臉情緒識別框架由兩通道卷積網(wǎng)絡(luò)構(gòu)成,第一通道Channel 1(C1)中,視頻幀尺寸固定為224×224,利用CNN網(wǎng)絡(luò)對單幀人臉表情序列進行訓(xùn)練,學習面部表情在粗分辨率下的靜態(tài)特征;第二通道Channel 2(C2)中,圖像序列以固定尺寸336×336輸入CNN網(wǎng)絡(luò),學習面部表情在精細分辨率下的靜態(tài)特征,再將獲取的特征送入LSTM網(wǎng)絡(luò)用于學習序列的動態(tài)特征;最后將兩通道訓(xùn)練得到的模型進行加權(quán)融合,用于最終的分類測試。C1通道的輸入為單幀圖片,C2通道的輸入為圖像序列。

圖4 基于雙流網(wǎng)絡(luò)的人臉情緒識別框架Fig.4 Facial emotion recognition framework based on two-stream network

經(jīng)對比分析,采用VGG16[17]作為基礎(chǔ)CNN網(wǎng)絡(luò),用于提取靜態(tài)特征。VGG16 net有13個卷積層,卷積核的大小均為3×3,步長為1,整個網(wǎng)絡(luò)包含5個最大池化層、2個全連接層。該網(wǎng)絡(luò)的深度與結(jié)構(gòu)滿足本文人臉情緒識別的需求。本文C2通道網(wǎng)絡(luò)使用了一個LSTM網(wǎng)絡(luò)層,VGG16與LSTM的連接方式如圖5:在VGG16的最后一個池化層后接入一個全連接層fc6,fc6的輸出響應(yīng)為4 096維;在fc6后面連接LSTM網(wǎng)絡(luò)提取圖像序列的動態(tài)特征,LSTM網(wǎng)絡(luò)的輸出為128維;緊接著全連接層fc7,其輸出響應(yīng)為4維,表示本文進行的是四分類;最后在fc7后接入一個softmax層,對fc7的輸出特征進行分類。

圖5 VGG16與LSTM的連接方式Fig.5 Connection mode between VGG16 and LSTM

3 實驗與測試

3.1 網(wǎng)絡(luò)訓(xùn)練及情緒識別的評價標準

根據(jù)建立數(shù)據(jù)集的實際情況,若利用所提雙流網(wǎng)絡(luò)直接對表情圖像進行學習,訓(xùn)練模型的效果會不理想,因此借助在公開數(shù)據(jù)集上預(yù)訓(xùn)練得到的模型對本文網(wǎng)絡(luò)微調(diào)。通過對比表情識別領(lǐng)域中的眾多預(yù)訓(xùn)練模型,選定基于AEFW 6.0[18]數(shù)據(jù)集訓(xùn)練得到的VGG-Face作為兩通道網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。AEFW 6.0數(shù)據(jù)集的表情序列均從電影片段中截取,部分視頻背景為戶外場景,與本文數(shù)據(jù)采集環(huán)境相似,適用于模型的預(yù)訓(xùn)練。微調(diào)階段,為避免過擬合,在每一個全連接層后加入Dropout層,Dropout_ratio設(shè)置為0.5。參考文獻[19]的方法,采用準確度(accuracy,ACC)和宏平均精度(macro average precision,MAP)作為情緒識別效果的評價標準。

3.2 實驗設(shè)置

基于Python的深度學習框架Caffe環(huán)境下進行實驗,計算機配置為Intel Core i7-7700@4.2 GHz,NVIDIA GeForce GTX 1070,操作系統(tǒng)為Ubuntu 14.04。實驗中兩通道網(wǎng)絡(luò)的參數(shù)設(shè)置如表1,除初始學習率(base_lr)和每個序列視頻的輸入幀數(shù)(frame)不同之外,學習率變化指數(shù)(gamma)、網(wǎng)絡(luò)動量(momentum)、學習率衰減策略(lr_policy)、權(quán)重衰減量(weight_decay)、最大迭代次數(shù)(max_iter)的設(shè)定一致。

表1 實驗參數(shù)設(shè)定Tab.1_ Setting of experimental parameters

為評估雙流網(wǎng)絡(luò)人臉情緒識別的性能,進行3組實驗:利用C1通道網(wǎng)絡(luò)進行訓(xùn)練,測試分類效果;利用C2通道網(wǎng)絡(luò)進行訓(xùn)練,測試分類效果;對C1和C2兩通道得到的訓(xùn)練模型加權(quán)融合,測試分類效果。權(quán)重主要根據(jù)訓(xùn)練過程中模型在驗證集上的準確率而定,模型的融合公式為

其中:W224和W336分別為C1、C2通道的權(quán)重;分別表示第i類情緒的識別精度;Si為模型融合后第i類情緒的識別精度。

3.3 實驗結(jié)果分析

3.3.1 融合實驗

為驗證本文模型的有效性,給出單獨使用C1,C2訓(xùn)練模型后在測試集上的ACC和MAP;然后給出兩通道網(wǎng)絡(luò)以不同權(quán)重比進行融合獲得的分類效果,兩通道網(wǎng)絡(luò)的識別效果如表2。從表2可看出,C2通道的訓(xùn)練效果比C1通道更好,說明高分辨率圖像使模型學習到表情序列局部細節(jié)信息,獲得更為豐富的視覺特征,也證明結(jié)合CNN與LSTM網(wǎng)絡(luò)能獲取更好的訓(xùn)練效果。C2比C1學習的內(nèi)容更豐富且C2的分類效果比C1的好,在進行模型融合時著重考慮增加C2比重后的模型效果。因此將C1,C2權(quán)重比分別設(shè)置為5∶5,3∶7,1∶9,以選擇最優(yōu)權(quán)值。表2表明,權(quán)重比為1∶9時的測試效果最好,ACC為88.89%,MAP為88.75%,高出其他測試結(jié)果5%~9%。

表2 人臉情緒識別的ACC與MAPTab.2_ ACC and MAPof face emotion recognition

為證明兩通道網(wǎng)絡(luò)性能互補,利用圖6所示的混淆矩陣展示雙流網(wǎng)絡(luò)對4種情緒的分類效果。圖6(a)是C1通道模型對4種情緒的分類結(jié)果,可以看出C1通道網(wǎng)絡(luò)對excited和frantic的分類效果最好,主要是因為這兩類情緒的面部表情變化較大且訓(xùn)練樣本包含序列的所有圖片,CNN網(wǎng)絡(luò)能有效學習輸入數(shù)據(jù)的特征。由于人類個體差異,人們在表達bored和relaxed兩類情緒時面部表情的變化幅度不一,采用CNN網(wǎng)絡(luò)進行單幀訓(xùn)練的效果會不太理想。圖6(b)中4種情緒的分類結(jié)果較好且各類別的準確度差距不大,表明將CNN與LSTM相結(jié)合學習序列在不同感受野下的視覺特征是可行的。圖6(c)為C1與C2權(quán)重比為1∶9時的分類效果,除bored以外的其他情緒均取得了較高的分類精度,bored被誤判為relaxed的概率較大,因為bored與relaxed兩類情緒的區(qū)別沒有excited和frantic明顯,易出現(xiàn)誤判。

圖6 人臉情緒識別結(jié)果的混淆矩陣Fig.6 Confusion matrix of face emotion recognition results

3.3.2 識別性能

本文人臉情緒識別數(shù)據(jù)集標簽與應(yīng)用場景及現(xiàn)有數(shù)據(jù)集的均不同,無法與公開數(shù)據(jù)集進行實驗對比。為驗證本文方法的優(yōu)勢,參照文獻[20-21],將C2通道的序列輸入分別改為常規(guī)尺寸224×224、低分辨率尺寸128×128進行網(wǎng)絡(luò)訓(xùn)練;參照文獻[22]采用Alexnet網(wǎng)絡(luò)訓(xùn)練C1通道網(wǎng)絡(luò)。不同方法的人臉情緒識別效果如表3。從表3可看出,本文提出的雙流卷積網(wǎng)絡(luò)模型對基于公共空間的人臉情緒數(shù)據(jù)集識別效果最好,ACC和MAP比已有方式分別提升7%~28%,7%~29%,結(jié)合本文數(shù)據(jù)集的特點證明了本文方法的優(yōu)越性與通用性。

表3 不同方法的識別結(jié)果Tab.3 Recognition results of different methods

4 結(jié)語與展望

針對基于公共空間中的人臉情緒識別,建立本文適用的人臉表情數(shù)據(jù)集,提出雙流網(wǎng)絡(luò)進行人臉情緒識別,兩通道分別以不同分辨率的圖像輸入網(wǎng)絡(luò)進行訓(xùn)練,以多尺度學習不同感受野下的表情特征;最后將兩通道得到的訓(xùn)練模型進行加權(quán)融合,用于測試分類。多組實驗證明,提出的雙流模型具有較高的人臉情緒識別率,ACC和MAP最高可達88.89%和88.75%。整個網(wǎng)絡(luò)能在較大程度上識別公共空間中的人臉情緒,可為城市規(guī)劃研究者提供有力的參考依據(jù)。本文的人臉表情數(shù)據(jù)集已取得初步成效,但仍存在數(shù)據(jù)量不足、清晰度不夠等問題,后續(xù)將進一步完善和豐富數(shù)據(jù)集內(nèi)容并在合適的時機公開,同時改善網(wǎng)絡(luò)性能,將更好的研究成果應(yīng)用于智慧城市規(guī)劃中。

猜你喜歡
人臉情緒特征
有特點的人臉
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
小情緒
小情緒
小情緒
抓住特征巧觀察
情緒認同
馬面部與人臉相似度驚人
贡嘎县| 彭州市| 海淀区| 大邑县| 美姑县| 贡嘎县| 苍南县| 万全县| 济源市| 阿拉善右旗| 灌南县| 思南县| 镇江市| 黎平县| 锡林浩特市| 黔西县| 吴桥县| 兴和县| 永州市| 成都市| 富顺县| 江安县| 钟山县| 平武县| 泽库县| 布尔津县| 临夏市| 涪陵区| 吉安市| 襄垣县| 陆丰市| 鹿泉市| 广安市| 安阳县| 佛学| 寿光市| 邮箱| 舒城县| 宜丰县| 宁明县| 巴青县|