摘 要:從工程效果的角度上看,人臉識(shí)別技術(shù)已經(jīng)發(fā)展成十分成熟的技術(shù)。但是,現(xiàn)實(shí)任務(wù)對(duì)于人臉識(shí)別的要求不僅僅止步于從機(jī)器視覺的角度上了解人臉的表層信息,對(duì)于。以人臉識(shí)別技術(shù)為基礎(chǔ)對(duì)研究客體進(jìn)行情感計(jì)算是一種透過人臉表面挖掘客體情感的重要技術(shù)。本文致力于解決現(xiàn)代表情識(shí)別技術(shù)存在的由于數(shù)據(jù)源不適配導(dǎo)致的識(shí)別效果差等問題,并設(shè)計(jì)了基于深度學(xué)習(xí)的表情識(shí)別情感計(jì)算系統(tǒng)。
關(guān)鍵詞:表情識(shí)別;情感計(jì)算;深度學(xué)習(xí)
1 引言
大量的心理學(xué)與生理學(xué)理論認(rèn)為,人體擁有豐富的表情是生物進(jìn)化的結(jié)果。哺乳動(dòng)物和人都有表情,它是生存的需要,是自然選擇的結(jié)果,是先天就存在的。在達(dá)爾文的進(jìn)化論中曾有過記載,例如:一些恐懼的表情會(huì)讓我們的瞳孔放大,在野外生存時(shí)這種瞳孔放大可以讓人了解到更多的信息,從而做出使生存幾率變大的行為。但是,這也是一種比較寬泛的說法,真正將表情識(shí)別和情感分析聯(lián)系在一起的是著名的心理學(xué)家Ekman[1]。他提出,重要面部單元系統(tǒng)編碼是客觀的,也就是說人臉的各個(gè)肌肉單元不會(huì)完全地被主觀意識(shí)所控制,而是被情感客觀控制的。另外,他提出了基本表情模型,將表情模型分為六大模塊(生氣、傷心、開心、懷疑、害怕、驚喜)。本研究討論的表情識(shí)別主要是面向以上六種感情。
上個(gè)世紀(jì)60年代開始,表情識(shí)別的概念已經(jīng)存在。到了現(xiàn)代,大量的人臉表情數(shù)據(jù)庫也為相關(guān)的研究而開源,但是與此同時(shí),這些數(shù)據(jù)庫都存在著一定的問題。典型的問題是,客體所表現(xiàn)的表情會(huì)隨著其文化背景不同而造成差異,最終導(dǎo)致不同文化背景的客體與客體之間雖然擁有相似的表情,但其內(nèi)心的心理活動(dòng)狀態(tài)卻不盡相同,從而導(dǎo)致表情識(shí)別的準(zhǔn)確率大打折扣。
另外,現(xiàn)存的大量數(shù)據(jù)庫的數(shù)據(jù)源為實(shí)驗(yàn)室數(shù)據(jù)源,即在實(shí)驗(yàn)室環(huán)境下讓客體主觀表現(xiàn)出符合標(biāo)簽的表情。這種實(shí)驗(yàn)室數(shù)據(jù)與現(xiàn)實(shí)中人類心理活動(dòng)導(dǎo)致的表情上的行為學(xué)特征數(shù)據(jù)有著極大的差異。在研究開始階段,本文使用hog算法將幾個(gè)主流的數(shù)據(jù)庫(CK+,F(xiàn)ER2013,MMI,OuLu-CASIA,SFEW 2.0)的圖片進(jìn)行特征提取,然后分析出他們的相關(guān)系數(shù)矩陣如圖1所示,可以明顯地發(fā)現(xiàn),這些主流的數(shù)據(jù)庫的相互適應(yīng)能力極差。
2 相關(guān)工作
在人工智能各項(xiàng)技術(shù)高度發(fā)展的今天,國(guó)內(nèi)外已經(jīng)有許多關(guān)于情感分析的研究??梢哉f,在人工智能的領(lǐng)域各個(gè)中,情感分析都占據(jù)著較大的比重。
在國(guó)內(nèi),華東理工大學(xué)信息科學(xué)與工程系的學(xué)者李冬冬使用雙相長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BLSTM)對(duì)客體的語音序列進(jìn)行情感分析。[2]這種情感分析依賴語音識(shí)別,對(duì)語音識(shí)別的精度要求較高。在公眾場(chǎng)合下,由于聲音過于嘈雜導(dǎo)致的語音識(shí)別能力低下,從而使得這種方法不能被很好地用于實(shí)際場(chǎng)景中。華中科技大學(xué)的學(xué)者權(quán)學(xué)良利用腦電波等生理信號(hào)構(gòu)建特征工程,并使用深度學(xué)習(xí)實(shí)現(xiàn)情感分析[3],但與上述所屬的問題相同,這種基于生理信號(hào)的情感算方法也不能很好的實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。江蘇科技大學(xué)分析機(jī)學(xué)院的學(xué)者張力為使用細(xì)粒度分層時(shí)空特性描述符對(duì)微表情進(jìn)行了特征構(gòu)建,并且使用了支持向量機(jī)(SVM)的分類方法實(shí)現(xiàn)微表情變化的捕獲[4],但是其值做到了表情是否發(fā)生變化的度量,并沒有實(shí)現(xiàn)對(duì)客體的情感分析。
在國(guó)外,同樣有大量的學(xué)者致力于情感分析。英國(guó)愛丁堡納皮爾大學(xué)的學(xué)者Amir Hussain使用信息融合的方法模仿人類處理和分析文本的方式,對(duì)文本實(shí)現(xiàn)了情感分析[5]。另外有學(xué)者Venkata Rami Reddy Chirra提出一種基于多塊神經(jīng)網(wǎng)絡(luò)(DCNN)的表情識(shí)別,其模型具有相對(duì)較高的泛化能力[6]。
3 研究工作
本章主要在數(shù)據(jù)集構(gòu)筑、深度學(xué)習(xí)模型訓(xùn)練以及系統(tǒng)布置三個(gè)板塊介紹本研究的研究過程及結(jié)果,詳細(xì)過程如圖2所示:
3.1 構(gòu)筑數(shù)據(jù)集
基于上述的幾個(gè)問題,本研究認(rèn)為,建立一個(gè)國(guó)人專用的表情識(shí)別系統(tǒng),就必須先要建立一個(gè)國(guó)人專用的表情識(shí)別數(shù)據(jù)集。
本團(tuán)隊(duì)計(jì)劃在網(wǎng)絡(luò)中尋找部分較為經(jīng)典的電視劇,并截取視頻中的角色面部表情,并將該角色對(duì)應(yīng)的心理情感作為該圖片的標(biāo)簽,數(shù)據(jù)量希望在8k到10k左右。其原因是經(jīng)典的電視機(jī)有其劇情的輔助,是的本團(tuán)隊(duì)更容易從人工角度識(shí)別角色的心理活動(dòng),此外,經(jīng)典的電視劇演員表演功力足夠,在整個(gè)表演過程中其面部表情更接近于真實(shí)生活中的狀態(tài)。
為此,我們使用scrapy爬蟲框架在網(wǎng)絡(luò)上爬取了大量清晰的視頻,并使用openCV將視頻分割成幀,然后采用yolo v5模型自動(dòng)提取其中的人臉。本次實(shí)驗(yàn)共提取出16324張圖片。此后,我們邀請(qǐng)共80位在校大學(xué)生,通過支付酬勞的方式,將他們分為4組,每組完成對(duì)4081張圖片的表情標(biāo)注。最后,本研究通過EM算法對(duì)他們的標(biāo)注結(jié)果進(jìn)行清洗,得到標(biāo)簽正確的數(shù)據(jù)集。
至此,數(shù)據(jù)集構(gòu)建完成。
3.2 深度學(xué)習(xí)模型訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度人工神經(jīng)網(wǎng)絡(luò),與其他圖像分類算法相比,它可以用最少的預(yù)處理工作從輸入圖像中識(shí)別視覺模式。這意味著該網(wǎng)絡(luò)可以學(xué)習(xí)傳統(tǒng)算法中手工設(shè)計(jì)的過濾器[7]。CNN層內(nèi)的重要單元是神經(jīng)元。它們被連接在一起,以使一個(gè)層的神經(jīng)元的輸出成為下一個(gè)層的神經(jīng)元的輸入。為了計(jì)算成本函數(shù)的部分導(dǎo)數(shù),采用了反向傳播算法。
本研究使用卷積神經(jīng)網(wǎng)路的網(wǎng)絡(luò)結(jié)構(gòu)為:卷積層1、池化層1、卷積層2、池化層2、卷積層3、池化層3、全連接層1、全連接層2、輸出層,具體網(wǎng)絡(luò)結(jié)構(gòu)如下表所示。
3.3 系統(tǒng)集成與布置
在完成3.2中所述的深度學(xué)習(xí)模型訓(xùn)練后,本研究需要將完成訓(xùn)練的模型嵌入系統(tǒng)中。從整體結(jié)構(gòu)上看,首先是要在應(yīng)用環(huán)境中獲取該環(huán)境下的攝像頭控制權(quán),因此本研究采用openCV預(yù)留的接口完成對(duì)攝像頭控制權(quán)的獲取。此后,由攝像頭獲取到的視頻數(shù)據(jù)將會(huì)被傳送至后端服務(wù)器中,由后端服務(wù)器完成對(duì)視頻分割成幀的任務(wù)。獲取到被分割成幀的視頻圖片后,本項(xiàng)目再次采用yolo v5模型截取圖片中的人臉圖片,并將其尺寸修改為與深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的輸入層相同的尺寸,最后將其喂入神經(jīng)網(wǎng)絡(luò)模型,得到客體的表情識(shí)別標(biāo)簽。
4 研究結(jié)論
從工程角度看,基于表情識(shí)別的情感計(jì)算系統(tǒng)能夠很好地解決在訓(xùn)練過程中的樣本與現(xiàn)實(shí)應(yīng)用樣本的不適配性問題。同時(shí),由于其軟件結(jié)構(gòu)簡(jiǎn)單穩(wěn)定,基于表情識(shí)別的情感計(jì)算系統(tǒng)能夠很好的運(yùn)用在各個(gè)領(lǐng)域。例如,系統(tǒng)可以運(yùn)用在教學(xué)過程中對(duì)學(xué)生心理狀態(tài)的監(jiān)測(cè),以達(dá)到教學(xué)過程中教師對(duì)學(xué)生心理狀況的把控。又例如,在審訊犯人的過程中,可以利用系統(tǒng)實(shí)時(shí)監(jiān)測(cè)犯人的心理狀態(tài),為警方偵破案情給予了極大的幫助??梢哉f,基于表情識(shí)別的情感計(jì)算系統(tǒng)是首款專門以非實(shí)驗(yàn)室表情數(shù)據(jù)的表情識(shí)別系統(tǒng),其識(shí)別準(zhǔn)確度與利用實(shí)驗(yàn)室數(shù)據(jù)的其他表情識(shí)別系統(tǒng)一定存在極大差異。
參考文獻(xiàn):
[1]P. Ekman and W. V. Friesen, “Constants across cultures in the face and emotion,” Journal of Personality and Social Psychology, vol. 17, no 2, p. 124- 129, 1971.
[2]Li Dongdong,Liu Jinlin,Yang Zhuo,Sun Linyu,Wang Zhe. Speech emotion recognition using recurrent neural networks with directional self-attention[J]. Expert Systems With Applications,2021,173.
[3]權(quán)學(xué)良,曾志剛,蔣建華,張亞倩,呂寶糧,伍冬睿.基于生理信號(hào)的情感分析研究綜述[J/OL].自動(dòng)化學(xué)報(bào):1-17[2021-03-27].https://doi.org/10.16383/j.aas.c200783.
[4]張力為,王甦菁,段先華.細(xì)粒度分層時(shí)空特征描述符的微表情識(shí)別方法[J/OL].分析機(jī)工程與應(yīng)用:1-9[2021-03-27].
[5]Hussain Amir,Cambria Erik,Poria Soujanya,Hawalah Ahmad,Herrera Francisco. Information fusion for affective computing and sentiment analysis[J]. Information Fusion, 2021, 71.
[6]Venkata Rami Reddy Chirra,Srinivasulu Reddy Uyyala,Venkata Krishna Kishore Kolli. Virtual facial expression recognition using deep CNN with ensemble learning[J]. Journal of Ambient Intelligence and Humanized Computing,2021.
[7]aionlinecourse.com/tutorial/machine-learning/convolution-neuralnetwork. Accessed 20 June 2019
本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(202111047016)基金支持. 李志超(1999-),男,上海人,計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科在讀。