基于表情識(shí)別的情感計(jì)算系統(tǒng)

2021-03-01 12:52李志超

科學(xué)與財(cái)富 2021年27期

摘要：從工程效果的角度上看，人臉識(shí)別技術(shù)已經(jīng)發(fā)展成十分成熟的技術(shù)。但是，現(xiàn)實(shí)任務(wù)對(duì)于人臉識(shí)別的要求不僅僅止步于從機(jī)器視覺的角度上了解人臉的表層信息，對(duì)于。以人臉識(shí)別技術(shù)為基礎(chǔ)對(duì)研究客體進(jìn)行情感計(jì)算是一種透過人臉表面挖掘客體情感的重要技術(shù)。本文致力于解決現(xiàn)代表情識(shí)別技術(shù)存在的由于數(shù)據(jù)源不適配導(dǎo)致的識(shí)別效果差等問題，并設(shè)計(jì)了基于深度學(xué)習(xí)的表情識(shí)別情感計(jì)算系統(tǒng)。

關(guān)鍵詞：表情識(shí)別;情感計(jì)算;深度學(xué)習(xí)

1 引言

大量的心理學(xué)與生理學(xué)理論認(rèn)為，人體擁有豐富的表情是生物進(jìn)化的結(jié)果。哺乳動(dòng)物和人都有表情，它是生存的需要，是自然選擇的結(jié)果，是先天就存在的。在達(dá)爾文的進(jìn)化論中曾有過記載，例如：一些恐懼的表情會(huì)讓我們的瞳孔放大，在野外生存時(shí)這種瞳孔放大可以讓人了解到更多的信息，從而做出使生存幾率變大的行為。但是，這也是一種比較寬泛的說法，真正將表情識(shí)別和情感分析聯(lián)系在一起的是著名的心理學(xué)家Ekman[1]。他提出，重要面部單元系統(tǒng)編碼是客觀的，也就是說人臉的各個(gè)肌肉單元不會(huì)完全地被主觀意識(shí)所控制，而是被情感客觀控制的。另外，他提出了基本表情模型，將表情模型分為六大模塊（生氣、傷心、開心、懷疑、害怕、驚喜）。本研究討論的表情識(shí)別主要是面向以上六種感情。

上個(gè)世紀(jì)60年代開始，表情識(shí)別的概念已經(jīng)存在。到了現(xiàn)代，大量的人臉表情數(shù)據(jù)庫也為相關(guān)的研究而開源，但是與此同時(shí)，這些數(shù)據(jù)庫都存在著一定的問題。典型的問題是，客體所表現(xiàn)的表情會(huì)隨著其文化背景不同而造成差異，最終導(dǎo)致不同文化背景的客體與客體之間雖然擁有相似的表情，但其內(nèi)心的心理活動(dòng)狀態(tài)卻不盡相同，從而導(dǎo)致表情識(shí)別的準(zhǔn)確率大打折扣。

另外，現(xiàn)存的大量數(shù)據(jù)庫的數(shù)據(jù)源為實(shí)驗(yàn)室數(shù)據(jù)源，即在實(shí)驗(yàn)室環(huán)境下讓客體主觀表現(xiàn)出符合標(biāo)簽的表情。這種實(shí)驗(yàn)室數(shù)據(jù)與現(xiàn)實(shí)中人類心理活動(dòng)導(dǎo)致的表情上的行為學(xué)特征數(shù)據(jù)有著極大的差異。在研究開始階段，本文使用hog算法將幾個(gè)主流的數(shù)據(jù)庫（CK+，F(xiàn)ER2013，MMI，OuLu-CASIA，SFEW 2.0）的圖片進(jìn)行特征提取，然后分析出他們的相關(guān)系數(shù)矩陣如圖1所示，可以明顯地發(fā)現(xiàn)，這些主流的數(shù)據(jù)庫的相互適應(yīng)能力極差。

2 相關(guān)工作

在人工智能各項(xiàng)技術(shù)高度發(fā)展的今天，國(guó)內(nèi)外已經(jīng)有許多關(guān)于情感分析的研究?？梢哉f，在人工智能的領(lǐng)域各個(gè)中，情感分析都占據(jù)著較大的比重。

在國(guó)內(nèi)，華東理工大學(xué)信息科學(xué)與工程系的學(xué)者李冬冬使用雙相長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)（BLSTM）對(duì)客體的語音序列進(jìn)行情感分析。[2]這種情感分析依賴語音識(shí)別，對(duì)語音識(shí)別的精度要求較高。在公眾場(chǎng)合下，由于聲音過于嘈雜導(dǎo)致的語音識(shí)別能力低下，從而使得這種方法不能被很好地用于實(shí)際場(chǎng)景中。華中科技大學(xué)的學(xué)者權(quán)學(xué)良利用腦電波等生理信號(hào)構(gòu)建特征工程，并使用深度學(xué)習(xí)實(shí)現(xiàn)情感分析[3]，但與上述所屬的問題相同，這種基于生理信號(hào)的情感算方法也不能很好的實(shí)現(xiàn)實(shí)時(shí)應(yīng)用。江蘇科技大學(xué)分析機(jī)學(xué)院的學(xué)者張力為使用細(xì)粒度分層時(shí)空特性描述符對(duì)微表情進(jìn)行了特征構(gòu)建，并且使用了支持向量機(jī)（SVM）的分類方法實(shí)現(xiàn)微表情變化的捕獲[4]，但是其值做到了表情是否發(fā)生變化的度量，并沒有實(shí)現(xiàn)對(duì)客體的情感分析。

在國(guó)外，同樣有大量的學(xué)者致力于情感分析。英國(guó)愛丁堡納皮爾大學(xué)的學(xué)者Amir Hussain使用信息融合的方法模仿人類處理和分析文本的方式，對(duì)文本實(shí)現(xiàn)了情感分析[5]。另外有學(xué)者Venkata Rami Reddy Chirra提出一種基于多塊神經(jīng)網(wǎng)絡(luò)（DCNN）的表情識(shí)別，其模型具有相對(duì)較高的泛化能力[6]。

3 研究工作

本章主要在數(shù)據(jù)集構(gòu)筑、深度學(xué)習(xí)模型訓(xùn)練以及系統(tǒng)布置三個(gè)板塊介紹本研究的研究過程及結(jié)果，詳細(xì)過程如圖2所示：

3.1 構(gòu)筑數(shù)據(jù)集

基于上述的幾個(gè)問題，本研究認(rèn)為，建立一個(gè)國(guó)人專用的表情識(shí)別系統(tǒng)，就必須先要建立一個(gè)國(guó)人專用的表情識(shí)別數(shù)據(jù)集。

本團(tuán)隊(duì)計(jì)劃在網(wǎng)絡(luò)中尋找部分較為經(jīng)典的電視劇，并截取視頻中的角色面部表情，并將該角色對(duì)應(yīng)的心理情感作為該圖片的標(biāo)簽，數(shù)據(jù)量希望在8k到10k左右。其原因是經(jīng)典的電視機(jī)有其劇情的輔助，是的本團(tuán)隊(duì)更容易從人工角度識(shí)別角色的心理活動(dòng)，此外，經(jīng)典的電視劇演員表演功力足夠，在整個(gè)表演過程中其面部表情更接近于真實(shí)生活中的狀態(tài)。

為此，我們使用scrapy爬蟲框架在網(wǎng)絡(luò)上爬取了大量清晰的視頻，并使用openCV將視頻分割成幀，然后采用yolo v5模型自動(dòng)提取其中的人臉。本次實(shí)驗(yàn)共提取出16324張圖片。此后，我們邀請(qǐng)共80位在校大學(xué)生，通過支付酬勞的方式，將他們分為4組，每組完成對(duì)4081張圖片的表情標(biāo)注。最后，本研究通過EM算法對(duì)他們的標(biāo)注結(jié)果進(jìn)行清洗，得到標(biāo)簽正確的數(shù)據(jù)集。

至此，數(shù)據(jù)集構(gòu)建完成。

3.2 深度學(xué)習(xí)模型訓(xùn)練

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一種深度人工神經(jīng)網(wǎng)絡(luò)，與其他圖像分類算法相比，它可以用最少的預(yù)處理工作從輸入圖像中識(shí)別視覺模式。這意味著該網(wǎng)絡(luò)可以學(xué)習(xí)傳統(tǒng)算法中手工設(shè)計(jì)的過濾器[7]。CNN層內(nèi)的重要單元是神經(jīng)元。它們被連接在一起，以使一個(gè)層的神經(jīng)元的輸出成為下一個(gè)層的神經(jīng)元的輸入。為了計(jì)算成本函數(shù)的部分導(dǎo)數(shù)，采用了反向傳播算法。

本研究使用卷積神經(jīng)網(wǎng)路的網(wǎng)絡(luò)結(jié)構(gòu)為：卷積層1、池化層1、卷積層2、池化層2、卷積層3、池化層3、全連接層1、全連接層2、輸出層，具體網(wǎng)絡(luò)結(jié)構(gòu)如下表所示。

3.3 系統(tǒng)集成與布置

在完成3.2中所述的深度學(xué)習(xí)模型訓(xùn)練后，本研究需要將完成訓(xùn)練的模型嵌入系統(tǒng)中。從整體結(jié)構(gòu)上看，首先是要在應(yīng)用環(huán)境中獲取該環(huán)境下的攝像頭控制權(quán)，因此本研究采用openCV預(yù)留的接口完成對(duì)攝像頭控制權(quán)的獲取。此后，由攝像頭獲取到的視頻數(shù)據(jù)將會(huì)被傳送至后端服務(wù)器中，由后端服務(wù)器完成對(duì)視頻分割成幀的任務(wù)。獲取到被分割成幀的視頻圖片后，本項(xiàng)目再次采用yolo v5模型截取圖片中的人臉圖片，并將其尺寸修改為與深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的輸入層相同的尺寸，最后將其喂入神經(jīng)網(wǎng)絡(luò)模型，得到客體的表情識(shí)別標(biāo)簽。

4 研究結(jié)論

從工程角度看，基于表情識(shí)別的情感計(jì)算系統(tǒng)能夠很好地解決在訓(xùn)練過程中的樣本與現(xiàn)實(shí)應(yīng)用樣本的不適配性問題。同時(shí)，由于其軟件結(jié)構(gòu)簡(jiǎn)單穩(wěn)定，基于表情識(shí)別的情感計(jì)算系統(tǒng)能夠很好的運(yùn)用在各個(gè)領(lǐng)域。例如，系統(tǒng)可以運(yùn)用在教學(xué)過程中對(duì)學(xué)生心理狀態(tài)的監(jiān)測(cè)，以達(dá)到教學(xué)過程中教師對(duì)學(xué)生心理狀況的把控。又例如，在審訊犯人的過程中，可以利用系統(tǒng)實(shí)時(shí)監(jiān)測(cè)犯人的心理狀態(tài)，為警方偵破案情給予了極大的幫助?？梢哉f，基于表情識(shí)別的情感計(jì)算系統(tǒng)是首款專門以非實(shí)驗(yàn)室表情數(shù)據(jù)的表情識(shí)別系統(tǒng)，其識(shí)別準(zhǔn)確度與利用實(shí)驗(yàn)室數(shù)據(jù)的其他表情識(shí)別系統(tǒng)一定存在極大差異。

參考文獻(xiàn)：

[1]P. Ekman and W. V. Friesen， “Constants across cultures in the face and emotion，” Journal of Personality and Social Psychology， vol. 17， no 2， p. 124- 129， 1971.

[2]Li Dongdong，Liu Jinlin，Yang Zhuo，Sun Linyu，Wang Zhe. Speech emotion recognition using recurrent neural networks with directional self-attention[J]. Expert Systems With Applications，2021，173.

[3]權(quán)學(xué)良，曾志剛，蔣建華，張亞倩，呂寶糧，伍冬睿.基于生理信號(hào)的情感分析研究綜述[J/OL].自動(dòng)化學(xué)報(bào)：1-17[2021-03-27].https：//doi.org/10.16383/j.aas.c200783.

[4]張力為，王甦菁，段先華.細(xì)粒度分層時(shí)空特征描述符的微表情識(shí)別方法[J/OL].分析機(jī)工程與應(yīng)用：1-9[2021-03-27].

[5]Hussain Amir，Cambria Erik，Poria Soujanya，Hawalah Ahmad，Herrera Francisco. Information fusion for affective computing and sentiment analysis[J]. Information Fusion， 2021， 71.

[6]Venkata Rami Reddy Chirra，Srinivasulu Reddy Uyyala，Venkata Krishna Kishore Kolli. Virtual facial expression recognition using deep CNN with ensemble learning[J]. Journal of Ambient Intelligence and Humanized Computing，2021.

[7]aionlinecourse.com/tutorial/machine-learning/convolution-neuralnetwork. Accessed 20 June 2019

本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃（202111047016）基金支持. 李志超（1999-），男，上海人，計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科在讀。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于表情識(shí)別的情感計(jì)算系統(tǒng)