謝東亮,徐宇翔
?
基于人工智能的微表情識別技術(shù)
謝東亮,徐宇翔*
(北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京 100876)
應(yīng)對重大突發(fā)事件的能力是一個城市現(xiàn)代化程度的重要標(biāo)志。自9·11事件以后,各個國家更迫切需要行之有效的社會安全風(fēng)險預(yù)警。目前我國正進(jìn)入突發(fā)公共事件的高發(fā)期和社會高風(fēng)險期,如何利用科技手段應(yīng)對“兩高”,是我國的當(dāng)務(wù)之急。隨著人工智能技術(shù)的發(fā)展,機(jī)器智能可以利用海量的視頻數(shù)據(jù),結(jié)合模式識別、深度學(xué)習(xí)等先進(jìn)算法,使視頻分析精細(xì)化、可視化、自動化、智能化。介紹了一種新穎的基于人工智能的情緒分析技術(shù),在非接觸微表情研究、微表情與情緒關(guān)系的心理學(xué)研究理論基礎(chǔ)上,介紹了基于微表情識別的靈敏、精準(zhǔn)和魯棒無感知情緒監(jiān)測分析系統(tǒng),并制定相應(yīng)的預(yù)警策略,使其能夠輔助人們理解和分析人員的動機(jī),為社會安全風(fēng)險控制提供預(yù)警與決策的潛在線索。該系統(tǒng)也可推廣應(yīng)用于金融評估、商業(yè)談判、心理干預(yù)等,用于分析人員的真實(shí)情緒,具有良好的潛在應(yīng)用價值。
人工智能;微表情;識別技術(shù);識別性能
針對人們真實(shí)情緒和意圖的研究始終是心理學(xué)和社會學(xué)主要研究方向。在20世紀(jì)早期,有學(xué)者進(jìn)行了以生理指標(biāo)為基礎(chǔ)的情緒或者意圖研究。1921年,加州大學(xué)的John Larson發(fā)明了測謊儀,之后又出現(xiàn)了基于熱圖像、腦電信號和功能磁共振成像等方法的生理監(jiān)測方法。運(yùn)用這些方法進(jìn)行信息采集需要專門的設(shè)備,而且這些評估手段基本公開,人們可以經(jīng)過一定的訓(xùn)練來隱瞞其真實(shí)意圖。與上述生理線索相比,面部表情是在人類進(jìn)化過程中形成的,是人類之間傳遞社會信息的主要手段和直觀手段。由于面部表情特征包含豐富直觀的情緒信息,并且可以通過非接觸的采集方式獲取,因此獲得人們廣泛關(guān)注。
表情是情緒的主觀體驗(yàn)的外部表現(xiàn)模式,分為生理表情(真實(shí)心理狀態(tài))、情緒表情(真實(shí)心理狀態(tài)+偽裝決策)和社交表情(理性決策和控制)等。美國Paul Ekman教授將人類的面部表情分為6類:高興、驚訝、悲傷、憤怒、厭惡、恐懼。其中,心理學(xué)家和神經(jīng)學(xué)家發(fā)現(xiàn),欺騙者會通過情緒欺騙試圖壓抑某些反映真實(shí)情緒的信號,但卻無法完全壓抑,導(dǎo)致其真實(shí)情緒信號泄露,這便出現(xiàn)了微弱且快速的面部動作,即微表情。微表情特指人類試圖壓抑或隱藏真實(shí)情感時泄露的非常短暫且不能自主控制的面部表情。美國著名心理學(xué)家、表情和微表情的奠基者Ekman經(jīng)過研究認(rèn)為,微表情具有持續(xù)時間不超過1/5 s、能反映人的真實(shí)情感、在全人類普遍存在這3個特點(diǎn)。
微表情可能是判斷一個人真實(shí)情感的最有利的線索。經(jīng)過幾十年的理論發(fā)展和試驗(yàn)驗(yàn)證,微表情逐漸被學(xué)術(shù)界接受和認(rèn)可,美國已經(jīng)在這方面進(jìn)行了幾十年的研究工作,已被美國交通運(yùn)輸安全部用于多個機(jī)場的安檢中,此外,在美國司法審訊、臨床醫(yī)學(xué)等領(lǐng)域也進(jìn)行了應(yīng)用測試。但國內(nèi)對微表情的研究起步較晚,研究成果較少,而由于該領(lǐng)域的研究在很大程度上對于國家安全和司法實(shí)踐較為重要,所能獲得的國外資料較少。這種封鎖在一定程度上也說明了微表情研究的重要意義和潛在價值,因此有必要加強(qiáng)對微表情的研究。
在實(shí)際應(yīng)用中,人們往往需要針對長視頻中的面部表情進(jìn)行分析。因此,作為一套完整實(shí)用系統(tǒng),首先需要研究微表情和宏表情聯(lián)合檢測技術(shù),并對檢測到的面部序列進(jìn)行糾正,然后以糾正過的面部序列為基礎(chǔ),對其中包含的情緒進(jìn)行分類識別,進(jìn)而建立從檢測到識別的系統(tǒng)體系。主要研究內(nèi)容如下。
目前大多微表情研究仍基于對樣本圖像和確定視頻幀的識別,而真實(shí)系統(tǒng)則需要從長視頻中檢測到微表情的出現(xiàn)才能進(jìn)一步對微表情進(jìn)行分析,由此,作為微表情研究的技術(shù)基礎(chǔ),將在微表情與宏表情檢測的研究基礎(chǔ)上,研究并刻畫宏表情與微表情在時間和空間上的差異性,降低宏表情在微表情檢測時的干擾影響,并通過對面部運(yùn)動強(qiáng)度和時空約束的分析來探索實(shí)時性和可靠性的制約關(guān)系,建立優(yōu)化模型進(jìn)行問題求解,解決微表情和宏表情并存的檢測難題,最終為實(shí)現(xiàn)表情變化分析提供良好的基礎(chǔ)保障。
人臉姿態(tài)的任意性客觀上造成了不同程度形變壓縮的人臉形狀和自遮擋的不可見紋理,這將使表情識別和分類子系統(tǒng)性能急劇惡化。因此,如何高效準(zhǔn)確地對輸入圖像進(jìn)行姿態(tài)估計是提高合成圖像準(zhǔn)確率的關(guān)鍵問題。對于給定的輸入圖像,如何協(xié)調(diào)計算復(fù)雜性和結(jié)果精確度二者的矛盾,進(jìn)行關(guān)鍵區(qū)域的必要特征點(diǎn)標(biāo)定,是合成正面圖像的又一難點(diǎn)。
微表情識別的可靠性是保障微表情分析的基礎(chǔ)和關(guān)鍵,目前微表情的識別率和實(shí)時性都遠(yuǎn)遠(yuǎn)達(dá)不到真實(shí)環(huán)境下的性能要求。如何通過對微表情數(shù)據(jù)的分析,減少冗余幀的干擾和提高微表情的識別速度是識別效率的關(guān)鍵性技術(shù)。為此,如何探索基于紋理特征和基于運(yùn)動特征對微表情的刻畫程度,同時考慮到微表情在面部局部性的視覺體現(xiàn),從而建立基于權(quán)重策略的局部紋理特征和運(yùn)動特征融合的特征提取求解模型,最終實(shí)現(xiàn)實(shí)時可靠的微表情識別算法,為表情變化分析提供支撐是急需解決的問題。
微表情識別的目的在于通過機(jī)器智能為人們提供預(yù)警參考。如何根據(jù)表情識別的結(jié)果,進(jìn)行合理的表情變化預(yù)測分析,進(jìn)而及時排查出可疑人員是預(yù)警系統(tǒng)的核心難題。研究多指標(biāo)聯(lián)合預(yù)警策略,保障預(yù)警的實(shí)時性和可靠性,輔助相關(guān)人員對特殊事件快速做出反應(yīng),是對情感分析所反映的潛在行為分析的有效途徑。
微表情自動分析可以分為檢測和識別兩個過程。相比于可以借鑒宏表情檢測技術(shù)的微表情監(jiān)測,微表情的識別技術(shù)具有更大的研究挑戰(zhàn),這也是目前微表情領(lǐng)域的研究重點(diǎn)。
由于微表情具有持續(xù)時間短和動作幅度小兩大識別難點(diǎn),目前的識別率仍有很大的提升空間。傳統(tǒng)大多采用基于聚類的方法,聯(lián)合3D高斯濾波器和K均值算法,來測量微表情的開始、峰值和結(jié)尾階段,然而在這個方法中,聚類的數(shù)量很難決定。另一種基于分類的方法可以利用時空局部紋理描述器來表示特征,隨后通過支持向量機(jī)SVM(Support Vector Machine,SVM)分類器來進(jìn)行分類。這些工作大都致力于在特征的層面上改進(jìn)微表情識別的性能,性能得到一定改進(jìn),但是仍然欠缺計算得到特征的可解釋性。為此,我們提出一種基于深度學(xué)習(xí)的微表情識別方法,如圖1所示。
深度學(xué)習(xí)的概念由Hinton等人于2006年提出,屬于機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,是一種試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進(jìn)行高層抽象的算法。算法本質(zhì)是對數(shù)據(jù)的表征學(xué)習(xí),目標(biāo)是尋求更好的表示方法并創(chuàng)建更好的模型來從大規(guī)模未標(biāo)記數(shù)據(jù)中學(xué)習(xí)這些表示方法。例如,針對一幅圖像,觀測值可以使用多種方式來表示,比如每個像素強(qiáng)度值的向量,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實(shí)例中學(xué)習(xí)任務(wù)。按照訓(xùn)練樣本標(biāo)簽的有無,深度學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)(supervised learning)和無監(jiān)督學(xué)習(xí)(unsupervised learning)。
圖1 一種基于深度學(xué)習(xí)的微表情識別方法
深度學(xué)習(xí)理論基礎(chǔ)是機(jī)器學(xué)習(xí)中的分散表示(distributed representation)。分散表示假定觀測值是由不同因子相互作用生成。在探究這種相互作用的過程中,深度學(xué)習(xí)受人類視覺原理的啟發(fā)。人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素),接著進(jìn)行初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球)。因而,深度學(xué)習(xí)也采用逐層依次進(jìn)行。逐步泛化抽象的基本結(jié)構(gòu)為假定不同因子相互作用的過程可分為多個層次,代表對觀測值的多層抽象。不同的層數(shù)和層的規(guī)??捎糜诓煌潭鹊某橄?。更高層次的概念從低層次的概念學(xué)習(xí)得到。這一分層結(jié)構(gòu)常常使用貪婪算法逐層構(gòu)建而成,并從中選取有助于機(jī)器學(xué)習(xí)的更有效的特征。
基于深度學(xué)習(xí)的微表情識別工作流程包括以下4個步驟:①準(zhǔn)備數(shù)據(jù)集。包含微表情的視頻片段采集,視頻圖像歸一化處理,訓(xùn)練/驗(yàn)證/測試集分割等。②設(shè)計學(xué)習(xí)模型。選擇基本模型框架為卷積神經(jīng)網(wǎng)絡(luò)CNN+循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,調(diào)整網(wǎng)絡(luò)層數(shù),確定損失函數(shù),設(shè)計學(xué)習(xí)率等超參數(shù)。③訓(xùn)練模型。將模型輸出誤差通過BP算法反向傳播,利用隨機(jī)梯度下降SGD或Adam算法優(yōu)化模型參數(shù)。④驗(yàn)證模型。利用未訓(xùn)練的數(shù)據(jù)驗(yàn)證模型的泛化能力,如果預(yù)測結(jié)果不理想,則需要重新設(shè)計模型,進(jìn)行新一輪的訓(xùn)練。
目前已有數(shù)種成熟的深度學(xué)習(xí)模型,包括深度神經(jīng)網(wǎng)絡(luò)DNN、卷積神經(jīng)網(wǎng)絡(luò)CNN和深度置信網(wǎng)絡(luò)DBN和遞歸神經(jīng)網(wǎng)絡(luò)RNN等。在語音識別、機(jī)器視覺、自然語言處理、生物信息學(xué)等領(lǐng)域得到廣泛應(yīng)用,并且取得了顯著效果。
微表情分析是目前極具前瞻性的研究領(lǐng)域,人工智能深度學(xué)習(xí)模型的引入,較大提升了微表情識別性能,也將加速該領(lǐng)域的應(yīng)用進(jìn)展。但是,由于深度學(xué)習(xí)的黑盒特性,難以對微表情識別的特征提取過程進(jìn)行定性研究,為此,仍需進(jìn)一步加強(qiáng)對深度學(xué)習(xí)模型的可視化技術(shù)研究,提高學(xué)習(xí)模型的可靠性分析,并在可解釋性的基礎(chǔ)上進(jìn)一步提高微表情識別準(zhǔn)確度。
[1]M.Shreve,S.Godavarthy,V.Manohar,et al.Towards macro-andmicro-expression spotting in video using strain patterns[J].Applications of Computer Vision (WACV),2009.
[2]R.Huang,S.Zhang,T.Li,et al.Beyond face rotation:Global and local perception gan for photorealistic and identity preserving frontal view synthesis[EB/OL].[2018-11-28].https://arxiv.org/abs/1704.04086
[3]S.Polikovsky,Y.Kameda,Y.Ohta,F(xiàn)acial micro-expressions recognition using high speed camera and 3D-gradient descriptor,3rd International Conference on Crime Detection and Prevention(ICDP 2009):IET.pp.1-6.
[4]T.Pfister,X.Li,G.Zhao,et al.Recognising spontaneous facial microexpressions,2011 IEEE International Conference on Computer Vision (ICCV).IEEE,2001,pp:1449-1456.
[5]Yan W J,Wu Q,Liu Y J,et al.CASME database:a dataset of spontaneous micro-expressions collected from neutralized faces.Proceedings of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition,2013.
TP391.41
A
10.15913/j.cnki.kjycx.2018.22.035
2095-6835(2018)22-0035-03
*本文作者:人工智能開放創(chuàng)新平臺(chinaopen.ai)聯(lián)合學(xué)者
謝東亮,博士,教授,博士生導(dǎo)師,現(xiàn)任北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室寬帶網(wǎng)研究中心主任。2002年獲北京理工大學(xué)工學(xué)博士學(xué)位;2005年北京郵電大學(xué)通信與信息系統(tǒng)博士后出站;2015年美國紐約州立大學(xué)訪問學(xué)者歸國。主持/參與國家自然科學(xué)基金、國家863、國家科技重大專項(xiàng)、國際合作項(xiàng)目等近20項(xiàng),發(fā)表包含IEEE Commu.Mag,IEEE Trans.Mobile Computing、IEEE INFOCOM/GLOBECOM/IWQoS/ICDCS等在內(nèi)的SCI/EI論文60余篇,獲得國家發(fā)明專利授權(quán)6項(xiàng)?,F(xiàn)任中國計算機(jī)學(xué)會互聯(lián)網(wǎng)專委會委員,《China Communications》編委,IEEE INFOCOM 2015、2016,IEEE GLOBECOM 2016,ACM/IEEE IWQoS 2015、2016等著名國際會議技術(shù)委員會委員、Poster主席、大會組織主席等。同時,擔(dān)任國家973、863、科技重大專項(xiàng)、自然科學(xué)基金評議和通信評審,北京科委、北京經(jīng)信委、中關(guān)村中小創(chuàng)評審、咨詢專家等。
〔編輯:嚴(yán)麗琴〕