嚴經(jīng)緯,李 強,王春茂,謝 迪,王保青,戴 駿
(杭州海康威視數(shù)字技術股份有限公司 研究院,杭州 310051)
為了更精細地研究人類面部表情,美國著名情緒心理學家Ekman等[1]于1978年首次提出了面部運動編碼系統(tǒng)(Facial Action Coding System, FACS),又于2002年作了重要改進[2]?;贔ACS,各類表情可分解為一系列基礎的面部肌肉運動的組合,從而進行后續(xù)的編碼。Ekman等根據(jù)面部肌肉的解剖學情況,定義了32種面部肌肉運動單元(Action Unit, AU),圖1所示分別為上半臉和下半臉中的幾種常見AU及AU組合的示意圖(http://www.cs.cmu.edu/~face/facs.htm)。從圖1中可見,每個AU描述了面部某塊特定肌肉或肌肉組的運動情況,如AU1表示通過額肌控制的內眉角上抬,AU5表示由眼輪匝肌控制的抬升眼瞼等。本文所述的面部運動單元檢測的目標即是讓計算機在給定人臉圖像或視頻中自動判斷目標AU是否存在,由于每種AU都經(jīng)過嚴格的定義,該問題也可稱為面部運動單元識別。此外值得注意的是,F(xiàn)ACS中對每種AU定義了從A到E五個級別的強度(A最弱,E最強),本文僅關注定性的AU檢測問題,對定量的AU強度回歸技術不作涉及。
圖1 上下半臉中若干常見AU的定義及示意圖Fig. 1 Definiton and schematic diagram of some common AUs in upper and lower face
AU和面部表情的聯(lián)系十分緊密,既可將表情分解為不同AU的組合,同樣也可基于AU組合定義6種基本表情(憤怒、厭惡、恐懼、高興、悲傷和驚訝)或更為復雜的復合表情(驚喜、苦笑等)。與面部紋理等媒介相比,從AU的角度出發(fā)分析面部表情更為直觀且具有更強的可解釋性,因此在人機交互領域,特別是在表情相關的任務上有著廣泛的應用需求[3-4],例如在安防感知場景中通過AU識別群體的情緒,對突發(fā)事件進行警報;在公安刑偵或審訊過程中基于AU識別對方無意識顯露的微表情,輔助相關人員判斷其是否撒謊;在網(wǎng)絡教育中通過攝像頭捕捉學員呈現(xiàn)的面部AU,了解其對所授知識是否存疑。近年來隨著大規(guī)模帶有專家標注的面部運動單元數(shù)據(jù)庫的建立和深度學習技術在AU檢測領域的蓬勃發(fā)展,未來的應用場景和需求將會越來越多。
帶有準確標注的AU數(shù)據(jù)庫是開展AU檢測研究工作的基礎,本章介紹6個常用的AU數(shù)據(jù)庫,分別為DISFA[5]、BP4D[6]、EmotioNet[7]、CFEE[8]、UNBC-McMaster肩痛表情[9]和CK+[10],各個AU數(shù)據(jù)庫的概況總結如表1,按照常用程度的順序依次介紹如下。
1)DISFA數(shù)據(jù)庫。
丹佛大學自發(fā)面部運動單元數(shù)據(jù)庫(Denver Intensity of Spontaneous Facial Action database, DISFA)[5]建立于2013年,采集了15位男性和12位女性,共27位被試的AU視頻樣本。被試坐著觀看由YouTube上的9個片段拼接而成242 s的視頻,每個片段激發(fā)一種情緒。在此過程中攝像機從正面采集被試的面部表情,被試所處環(huán)境如光照、背景等條件一致。視頻樣本分辨率為1 024×768,幀率為20 fps(frame/second),每位被試均采集4 845幀。2名FACS專家在數(shù)據(jù)庫中每幀圖像上標注了12種AU的起始和終止,同時按照0~5共6個級別標注了AU強度。
2)BP4D-Spontaneous數(shù)據(jù)庫。
BP4D-Spontaneous[6]簡稱BP4D,由賓漢姆頓大學和匹茲堡大學合作建立,采集了18位男性和23位女性,共41位被試的視頻樣本。不同于直接觀看視頻激發(fā)情緒,BP4D采集過程中通過指導被試作8個任務激發(fā)相應的情緒,整個過程由專業(yè)演員主持,任務之間通過被試自評確定是否產(chǎn)生期望的情緒。數(shù)據(jù)集中包含每個任務對應的2D和3D視頻,只保留表情顯著的片段,每段平均時長1 min。對于每個視頻中一段20 s表情最為豐富的片段,由2位FACS專家標注27種AU的起始和結束,同時對于AU12和AU14,按照0~5的級別標注強度。該數(shù)據(jù)庫與DISFA是目前學術界使用最為廣泛的兩個AU檢測基準數(shù)據(jù)庫。
文獻[11]又通過類似的方式(8個任務增加到10個任務,其余不變)采集了一批140人的數(shù)據(jù)庫,大幅度擴展了樣本規(guī)模,該數(shù)據(jù)庫被稱為BP4D+。除了視頻數(shù)據(jù)外,BP4D+中還包括如血壓、呼吸、心率、皮膚電等的生理信號,為多模態(tài)分析提供了便利。5位FACS專家標注了第1,6,7,8號任務中34個AU是否出現(xiàn),且對其中5種AU標注了強度。
3)EmotioNet數(shù)據(jù)庫。
俄亥俄州立大學Benitez-Quiroz等[7]于2016年建立的百萬規(guī)模人臉表情數(shù)據(jù)庫EmotioNet,圖像均來自于互聯(lián)網(wǎng),相對于實驗室場景中采集的數(shù)據(jù),EmotioNet中的數(shù)據(jù)來自于自然場景,因此更加真實且接近實際應用場景。數(shù)據(jù)庫分為訓練集和測試集,其中測試集包含26 116張圖像,通過FACS專家標注了12種AU是否出現(xiàn),訓練集有約95萬張樣本,由算法自動檢測AU并標注,其檢測準確率約為80%。由于訓練集的AU標簽中含有一定程度的噪聲,EmotioNet被較多應用于弱監(jiān)督學習中。
4)CFEE數(shù)據(jù)庫。
該數(shù)據(jù)庫是文獻[8]在研究復合表情(Compound Facial Expressions of Emotion, CFEE)時建立,CFEE數(shù)據(jù)庫由230位被試的正面面部圖像構成,包括平靜狀態(tài)(中性)在內,共包括22種復雜的復合表情,如高興的驚訝、怨恨、敬畏、驚駭?shù)取ACS專家對每種表情標注了特定的AU。經(jīng)統(tǒng)計,數(shù)據(jù)庫中被標注的AU有19種。
5)UNBC-McMaster肩痛表情數(shù)據(jù)庫。
UNBC-McMaster肩痛表情數(shù)據(jù)庫[9]由25名患有肩痛的被試的視頻數(shù)據(jù)構成,共200個視頻序列,視頻為正面拍攝,被試表情為肩痛過程中的自然流露。FACS專家對視頻中的每一幀進行了10種AU強度標注。該數(shù)據(jù)庫的最大特點是含有其他數(shù)據(jù)庫中少見的與疼痛相關的AU43。
6)CK+數(shù)據(jù)庫。
CK+數(shù)據(jù)庫由CK(Cohn-Kanade)數(shù)據(jù)庫擴展而來[10],大部分數(shù)據(jù)為黑白視頻,少數(shù)為彩色視頻。數(shù)據(jù)庫中包含123位被試的593段表情視頻,所有視頻序列中的表情都是從平靜到峰值程度。FACS專家對593段視頻的峰值幀,即最后一幀進行標注,共標注了30種AU是否出現(xiàn),其中大部分AU標注了強度。
表1 AU數(shù)據(jù)庫概況 Tab. 1 Profile of AU databases
現(xiàn)有AU檢測方法可簡單分為傳統(tǒng)方法和深度學習方法兩大類,如圖2所示,本章重點介紹傳統(tǒng)的AU檢測方法。
圖2 AU檢測方法Fig. 2 AU detection methods
傳統(tǒng)AU檢測方法一般可分為預處理、特征提取和分類器學習3個步驟,其中:1)預處理,主要包括人臉檢測、關鍵點定位、人臉對齊、尺寸歸一化等操作;2)特征提取或學習,即從人臉圖像中提取或學習具有較強AU判別性的特征;3)分類器訓練,即通過已獲得的特征訓練分類器檢測AU是否出現(xiàn)。
在預處理階段,目前可用的人臉檢測和關鍵點定位模型有很多,例如人臉檢測工具有Adaboost[12]、多任務級聯(lián)卷積神經(jīng)網(wǎng)絡(Multi-Task Cascaded Convolutional Neural Network)[13]、DSFD(Dual Shot Face Detector)[14]等,關鍵點定位工具有主動外觀模型(Active Appearance Model, AAM)[15]、循環(huán)形狀回歸(Recurrent Shape Regression, RSR)[16]等,這里不再贅述。
提取或學習與AU相關的具有強判別性的特征是AU檢測的關鍵。傳統(tǒng)AU檢測方法的特征提取一般利用面部紋理特征[17]、幾何特征[18]或兩類特征的結合[19],即在面部關鍵點位置處提取紋理特征。與紋理特征相比,幾何特征不會受到光照、膚色和人與人之間面部差異的影響,但受限于預處理中關鍵點定位的精度,且對于如AU14、AU15這種相對基準點幾何位移較小的AU效果不佳,而面部紋理特征則不會受到這種限制。由于目前沒有專門為AU檢測設計的特征算子,所以通常借助于計算機視覺領域中人工定義的經(jīng)典特征描述子,如圖像中常用的局部特征算子尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)、Haar、Gabor等,視頻中常用的空時特征LBP-TOP(Local Binary Patterns on Three Orthogonal Planes)或光流特征[20]等。文獻[21]在20個面部關鍵點處提取Gabor小波特征,并用Adaboost和支持向量機(Support Vector Machine, SVM)進行分類;文獻[22]將45個面部關鍵點轉換為Gabor小波系數(shù),并使用稀疏表達模型(Sparse Representation, SR)分類;文獻[23]將幾何特征與局部Gabor小波特征融合,并基于核子類判別分析(Kernel Subclass Discriminant Analysis, KSDA)分類;文獻[24]直接提取Haar特征作為AU的特征表達。
除直接提取特征外,為了獲得更具判別性的AU相關特征,文獻[25-26]中提出將人臉圖像用均勻網(wǎng)格劃分,基于每個區(qū)域對于AU的貢獻進行選擇或者加權,但這種簡單的劃分方式對于人臉姿態(tài)的變化并不魯棒。文獻[27]使用兩層組稀疏在事先定義好的面部區(qū)域上進行AU編碼;文獻[28]通過面部關鍵點確定區(qū)域中心并提取SIFT特征,再使用組稀疏學習自動選擇圖像上與目標AU相關的區(qū)域所對應的特征。通過稀疏表達方法習得的特征判別性有一定程度的增強,然而選擇出來的關鍵區(qū)域仍較為粗糙,無法習得像素級別的AU重要區(qū)域。
在分類階段,傳統(tǒng)AU檢測方法中一般使用如支持向量機、K近鄰(K-Nearest Neighbors,KNN)或稀疏表達模型等作為分類器。
上述方法大都使用人工設計特征描述子與傳統(tǒng)模式識別領域中的分類器,近年來隨著深度學習的興起,基于深度學習的AU檢測技術被廣泛研究。一方面由于深度卷積網(wǎng)絡能夠習得與AU檢測任務更相關的具有強判別性的特征;另一方面通過網(wǎng)絡全連接層的輸出可方便地解決多標簽問題。當然傳統(tǒng)方法與深度學習方法存在著密切的關聯(lián),很多在傳統(tǒng)方法中使用的解決問題思路也常被應用在深度模型中。
近年來由于深度學習方法在計算機視覺、模式識別等諸多方向上取得的巨大成功,在AU檢測領域,基于深度模型研究AU檢測已成為主流,如文獻[29]使用一個三層卷積一層全連接的淺層網(wǎng)絡學習AU檢測和AU強度判斷;文獻[30]中提出優(yōu)化的卷積核尺度CNN(Optimized Filter Size CNN, OFS-CNN)模型建模AU識別問題,OFS-CNN中卷積核的尺寸和權重在訓練過程中同步更新以適應不同的圖像分辨率。本章內容主要以深度學習方法為主,同時在介紹一些通用問題時也將概述傳統(tǒng)方法中的解決方案。
由AU的定義可知AU與面部肌肉是密切相關的,相比于其他物體檢測任務,AU檢測具有其特殊的性質。自從文獻[31]于1996年首次展開AU檢測研究以來,該領域發(fā)展至今一直存在兩個研究重點被廣泛關注,大量研究工作圍繞這兩個問題展開:1)如何更好地確定AU所在的關鍵面部區(qū)域并加以重點學習;2)如何更好地建模AU之間的相關性,通過習得的AU關聯(lián)信息輔助提升整體檢測性能。這兩個問題逐漸抽象為兩條研究路線:區(qū)域學習與AU關聯(lián)學習,本章前兩節(jié)將詳細介紹這兩個方向上的研究進展;同時,由于AU標注數(shù)據(jù)的稀缺性,近年來弱監(jiān)督學習被引入解決這一問題,3.3節(jié)將介紹這一方向的相關工作。
每個AU所在人臉區(qū)域的位置可由AU定義確定,對任意一個AU考慮其檢測問題,顯然并非所有面部區(qū)域對它是否出現(xiàn)都有貢獻,若不考慮AU之間的關聯(lián),一般來說僅有其對應面部肌肉所在的幾塊稀疏的區(qū)域對它的檢測是有貢獻的,其他區(qū)域則不需要過多關注,因此找到那些需要關注的區(qū)域并加以重點學習才能更好地進行AU檢測,專注于這一問題的解決方案一般被稱為區(qū)域學習(Region Learning, RL)。
類似于傳統(tǒng)方法中在AU中心處提取特征的做法,文獻[32]基于面部關鍵點和AU領域的先驗知識對每一個AU提前選擇一個相關區(qū)域,并構造二值的掩膜,然后基于此區(qū)域和掩膜使用卷積神經(jīng)網(wǎng)絡和長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡進行學習,然而這種做法需要人工構造掩膜且檢測性能依賴于掩膜的準確程度。
2016年Zhao等[33]首先提出深度區(qū)域和多標簽學習(Deep Region and Multi-label Learning, DRML)框架,通過提出的區(qū)域層(Region Layer)自動學習與AU相關的重要面部區(qū)域,如圖3所示,使得在各個區(qū)域習得的權重能夠捕獲面部的結構信息。該模型將區(qū)域層置于第一層卷積輸出之后,首先用均勻網(wǎng)格將卷積特征映射圖分塊,在每塊小區(qū)域上使用一組獨立的卷積核學習該區(qū)域上與AU相關的特征,最后將各區(qū)域的特征映射圖拼回原來的位置并與原始特征映射圖相加,類似于深度殘差網(wǎng)絡中的殘差結構。除區(qū)域層外,其他部分的網(wǎng)絡結構類似于AlexNet,最后一個全連接層的節(jié)點數(shù)與目標AU個數(shù)相同,從而隱式地進行多標簽學習,且可直接輸出多個AU的檢測結果。得益于像素級別的關鍵區(qū)域精度和多標簽學習方式,DRML取得了超越傳統(tǒng)方法及普通CNN模型的檢測性能。
圖3 區(qū)域層結構Fig. 3 Structure of region layer
沿襲這一思路繼續(xù)改進的有文獻[34]中提出的EAC-Net (Enhancing And Cropping Net),通過構造增強層(E-Net)和裁切層(C-Net)學習與AU更相關的面部區(qū)域。EAC-Net的基礎網(wǎng)絡架構為VGG- 19,在第2組和第3組卷積之后加上增強層,在第4組卷積之后加上裁切層。為了顯式地限制網(wǎng)絡需要重點學習的面部區(qū)域,增強層中人工構造了一種AU注意力映射圖,該圖由BP4D數(shù)據(jù)集中的12個AU定制而來,首先以數(shù)據(jù)庫中給定的面部關鍵點坐標為基礎,基于各AU所在面部肌肉位置選擇與其最為鄰近的關鍵點并進行一定的偏移修正,由此得到每個AU對應的中心點坐標,然后再基于各個中心點,將其分別擴展成大小為11×11的AU相關區(qū)域,并且在該區(qū)域內,點離中心的距離越遠則其所在位置對應的權重越小,由此在深度模型中人為地引入AU所在位置的先驗信息。
在裁切層中,類似于DRML中的區(qū)域學習,將上述定義的20個感興趣的區(qū)域裁切出來后使用互相獨立的卷積核學習AU相關特征,再通過全連接層進行特征融合并輸出AU檢測結果。相比于DRML,EAC-Net對關鍵區(qū)域進行了進一步的強化,通過關鍵點的先驗知識引入AU所在面部區(qū)域,從而使網(wǎng)絡更容易在關鍵區(qū)域學習AU相關的特征。
除了EAC-Net,類似地文獻[35]在視頻的AU檢測任務中提出了感興趣區(qū)域(Region Of Interest, ROI)裁切網(wǎng)絡,同樣使用面部關鍵點定位了20個與AU相關的ROI區(qū)域,然后對于每塊感興趣的區(qū)域使用獨立的CNN進行學習,并使用LSTM推導出AU的標簽。
進一步地,文獻[36]于2018年提出聯(lián)合的AU檢測和人臉對齊框架JAA-Net(Joint AU detection and face alignment)。由于面部關鍵點與AU位置的密切關聯(lián),JAA-Net將面部關鍵點定位作為附加任務引入網(wǎng)絡,與AU檢測同步優(yōu)化,以此促進AU檢測性能的提升,JAA-Net的多任務網(wǎng)絡結構如圖4所示。JAA-Net中的初始注意力映射圖通過網(wǎng)絡輸出的面部關鍵點位置構造,構造方法與EAC-Net相同,不同的是,EAC-Net中的注意力圖是固定不變的,而JAA-Net中考慮了padding對AU檢測結果的影響,在注意力圖上通過上采樣等操作進行優(yōu)化。此外,不同于DRML和EAC-Net中只有一個尺度的區(qū)域學習,JAA-Net中使用了分層的多尺度區(qū)域學習,將卷積輸出的特征映射圖均勻分成8×8、4×4和2×2三種尺度,在三個尺度上對每塊區(qū)域使用一組獨立的卷積核進行學習,最后將每塊的特征映射圖拼回原來的位置,并將所有尺度的輸出級聯(lián)起來與原始特征映射圖相加。目前JAA-Net是AU區(qū)域學習方向上表現(xiàn)最佳的網(wǎng)絡,在BP4D和DISFA上均超越了EAC-Net和DRML的性能。
圖4 JAA-Net框架Fig. 4 JAA-Net framework
AU是在面部肌肉解剖學的基礎上定義的,描述了一塊或幾塊肌肉的運動,某些肌肉在運動過程中會牽動幾個AU同時出現(xiàn),因此AU之間存在一定程度的相關性。某些AU常常一同出現(xiàn),而一些AU則無法同時出現(xiàn)[36]。顯然,這些AU關聯(lián)性信息會有助于模型檢測性能的提升,因此如何挖掘AU之間的關聯(lián)并基于相關性提升AU模型檢測性能是另一個需要重點關注的問題[37]。
在傳統(tǒng)方法中研究人員一般建立一個獨立的關系模型描述AU之間的相關性,然后基于已預測的AU標簽進行相關性推理,相當于對預測標簽進行進一步的后處理,其優(yōu)點在于:1)增大了一些難以直接從圖像上檢測到AU的被檢概率;2)修正了一些基于圖像或視頻預測錯誤的AU,提升了檢測模型的魯棒性;但是由于關聯(lián)模型的獨立性和對預測標簽后處理的方式,使這種建模方式無法影響前端的特征學習和檢測過程。這類工作的典型代表有:文獻[38]使用隱馬爾可夫模型建模AU關聯(lián),并與SVM相結合。文獻[39-41]中提出使用貝葉斯網(wǎng)絡建模AU之間的關聯(lián),貝葉斯網(wǎng)絡是用來表達一組變量之間的聯(lián)合概率分布的一種有向無環(huán)圖,首先通過分析AU數(shù)據(jù)庫中兩兩AU出現(xiàn)概率分布以此構造初始貝葉斯網(wǎng)絡,然后通過優(yōu)化網(wǎng)絡結構分數(shù)更新貝葉斯網(wǎng)絡,從而得到更加準確的AU關聯(lián)。文獻[42]基于定性的先驗知識和定量的數(shù)據(jù)通過Credal網(wǎng)絡學習AU之間的關系。文獻[43]使用三層受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)挖掘AU之間的高階相關性關系,與其他僅能學習兩兩AU之間關系的方法相比,RBM能習得全局的AU之間的相關性。類似的,文獻[44]使用四層RBM學習全局的AU關聯(lián)和AU檢測與面部關鍵點定位之間的關聯(lián)。
為了克服這種后處理模式帶來的弊端,有研究人員將AU關聯(lián)性學習與前端基于視覺特征的檢測過程結合起來,作為一個整體同時進行優(yōu)化,以此提升模型的整體性能。文獻[45]在多任務中通過多核學習(Multiple Kernel Learning, MKL)方法同時學習更具判別性的面部特征表達和AU之間的關聯(lián)。文獻[46]基于多個條件隱變量模型同時融合面部特征和檢測AU,在連續(xù)隱變量空間中,不需要AU之間的先驗關系也能有效地在大量AU輸出之間建模關聯(lián)信息。文獻[28]從數(shù)據(jù)庫中統(tǒng)計同時存在和互斥的成對AU,即正相關和負相關的AU關系,然后構造關系正則項并加入目標表達式中一同優(yōu)化,以此學習AU之間的關聯(lián)。文獻[36]基于一般性的領域知識將AU關聯(lián)用有向圖表達,在沒有訓練數(shù)據(jù)的前提下也能實現(xiàn)AU檢測。上述方法大都直接使用傳統(tǒng)計算機視覺中人工定義的底層特征描述子提取面部特征,導致AU關聯(lián)學習與前端特征學習互相獨立,在一定程度上仍然限制了模型的性能。
由于深度學習模型自身具有的端對端特性,直接在深度網(wǎng)絡后端加入關聯(lián)模型即可將特征學習、關聯(lián)性學習和AU檢測融為一個整體同時進行優(yōu)化,進一步消除了上述方法的弊端。文獻[47]將copula函數(shù)作為條件隨機場(Conditional Random Field, CRF)的團學習AU之間的相關性,并將其與CNN聯(lián)合迭代優(yōu)化;類似的,文獻[48]使用CRF-RNN建模AU之間的關系,而在3.1節(jié)所述的DRML、EAC-Net、ROI-Net和JAA-Net中,最后一層全連接均直接輸出AU的多標簽檢測結果,即通過一層全連接網(wǎng)絡學習各個AU之間的關聯(lián)性,達到多標簽學習的目的;然而僅通過一層全連接學習AU之間的關聯(lián)性并不充分,近年來已有一些研究人員試圖通過其他方法進行顯式地建模。
文獻[49]中提出深度結構推理網(wǎng)絡(Deep Structure Inference Network, DSIN),使用類似于圖模型推理的思路學習AU之間的關聯(lián),這里的結構信息即指AU之間的關聯(lián)信息,其網(wǎng)絡結構如圖5所示。首先在輸入圖像的幾個AU相關的關鍵區(qū)域切割出若干小圖像塊,經(jīng)互相獨立的CNN提取特征后輸出AU的多標簽概率,經(jīng)全連接層融合之后,進入結構推理模塊,該模塊由一組互相連接的循環(huán)結構推理單元(Structure Interference Unit, SIU)構成,SIU如圖6所示。
圖5 深度結構推理網(wǎng)絡Fig. 5 Deep structure inference network
圖6 結構推理單元Fig. 6 Structure interference unit
每個目標AU對應一個專門的SIU,以類似于RNN的方式循環(huán)更新AU標簽。類似于LSTM中的元胞狀態(tài),SIU通過信息單元m存儲其他所有AU的標簽狀態(tài),由此接收其他AU的標簽信息,通過迭代地更新m學習目標AU與其他AU之間的關聯(lián),同時每個AU的預測值也在不斷迭代優(yōu)化。假設目標AU個數(shù)為N,SIU實現(xiàn)了如下功能:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
其中:Av是節(jié)點v的鄰接矩陣;⊙為元素間點乘;W和U為需要學習的權重矩陣。由于每個節(jié)點在每一時刻均接收到其他節(jié)點的信息,因此在迭代過程中能夠學習到AU之間的全局關聯(lián)。在經(jīng)過T輪迭代后,每個節(jié)點的輸出為:
(8)
其中:xv為節(jié)點v的標注;g為全連接網(wǎng)絡,由此可以得到各個目標AU的檢測結果。經(jīng)實驗,SRERL超越DSIN,在BP4D和DISFA數(shù)據(jù)庫上達到了目前最好的性能,具體性能對比見文獻[50]。
與其他計算機視覺領域中的任務一樣,在AU檢測任務中,無論是區(qū)域學習還是AU關聯(lián)學習均依賴準確標注的AU數(shù)據(jù),且基于深度學習的方法一般需要大量數(shù)據(jù)才能取得較好的檢測性能。相比于在圖像中框出人臉或者標注其中物體的標簽,在一張人臉圖像上辨別幾十種AU是否出現(xiàn)乃至標注其強度對于普通的數(shù)據(jù)標定人員,甚至AU檢測領域的專業(yè)研究人員而言,都是非常困難的,所以在建立AU數(shù)據(jù)庫時一般需要邀請至少兩名經(jīng)過專業(yè)訓練的FACS專家進行數(shù)據(jù)標注,從而保證數(shù)據(jù)標注的準確度,而即便如此也并非意味著所有AU標簽完全正確,這些問題導致獲得大規(guī)模有準確標注的AU數(shù)據(jù)的門檻很高且代價高昂,嚴重限制了AU檢測技術的發(fā)展。另一方面,現(xiàn)實世界中存在海量的未標注過AU或者僅有不準確標注的人臉圖像。為了充分利用這些易于獲得的大規(guī)模數(shù)據(jù)提升AU檢測性能,弱監(jiān)督學習技術被引入AU檢測任務中,希望借此改善AU準確標注數(shù)據(jù)嚴重不足的問題。近年來在各個頂級學術會議中出現(xiàn)了一批結合弱監(jiān)督學習的AU檢測研究,目前已逐漸成為AU檢測領域內的主流研究方向。
文獻[51]通過數(shù)據(jù)庫中正確的AU標簽學習AU分布,然后基于大量未標注數(shù)據(jù)最大化關于AU標簽分布的log似然映射函數(shù)訓練SVM分類器,由于該方法基于原始數(shù)據(jù)庫中的AU分布,故對于分布不同的未標注數(shù)據(jù)性能有限;文獻[52]為了讓AU檢測模型對數(shù)據(jù)庫中的噪聲標簽魯棒,提出一種全局-局部(Global-Local, GL)損失函數(shù),在保證AU檢測準確率的同時,模型能夠快速收斂;文獻[53]基于不準確AU標注的互聯(lián)網(wǎng)人臉數(shù)據(jù),提出一種弱監(jiān)督譜聚類方法學習一個嵌入空間來耦合圖像特征及其AU語義;文獻[54]僅利用視頻序列中標注的峰值幀,提出一種基于領域知識的半監(jiān)督深度CNN模型回歸AU強度;不同于文獻[48],文獻[55]將與數(shù)據(jù)庫無關的AU先驗概率分布與AU分類器損失函數(shù)相結合,實現(xiàn)了在無AU標注樣本下的AU檢測,取得了較高的性能。
此外由于生成對抗網(wǎng)絡(Generative Adversarial Network, GAN)能夠在一定程度上消除兩組異質數(shù)據(jù)之間的差異[56],目前有部分研究人員關注于將其應用到AU檢測任務中。文獻[57]將對抗訓練思路與弱監(jiān)督學習結合起來,依靠AU先驗知識和帶有表情標簽的數(shù)據(jù)訓練AU檢測模型,由此充分利用表情數(shù)據(jù)量大的優(yōu)勢解決AU檢測問題。
借助深度學習方法,面部運動單元檢測技術在區(qū)域學習和AU關聯(lián)學習等方面取得了長足的進步,模型的檢測性能已大幅度超越傳統(tǒng)方法,在公安刑偵、在線教育和社會感知等人機交互領域應用前景廣泛。然而,現(xiàn)有的AU檢測研究仍存在一些不足,這些不足也是未來的潛在發(fā)展方向。
1)大部分檢測模型只能處理正面人臉的情況,對于非正面人臉性能下降嚴重,導致圖像或視頻在輸入網(wǎng)絡前需經(jīng)過繁瑣的預處理步驟,除了必要的人臉檢測外,還需進行面部關鍵點定位和人臉對齊,在實際應用場景中影響整體檢測速度。該問題的主因是目前非正面的人臉AU數(shù)據(jù)十分匱乏,此外非正面人臉上的AU特性與正面情況不同。未來需要從數(shù)據(jù)和算法兩方面入手:一方面建立大規(guī)模的AU數(shù)據(jù)庫,數(shù)據(jù)庫內需要包含各種姿態(tài)、光照、遮擋、背景噪聲等條件的AU數(shù)據(jù);另一方面需要研究非正面AU的特點并建立非正面AU檢測模型。
2)目前的AU檢測研究局限于強度顯著的AU,按照FACS的定義,AU強度由弱到強分為A、B、C、D、E五個級別,在文獻的實驗中往往使用強度大于B或C的樣本作為正樣本,其他強度視為負樣本,對于弱強度AU檢測研究還不多。由于弱強度AU與微表情緊密關聯(lián),可用于測謊等領域,所以是未來AU檢測領域的一個發(fā)展趨勢。
3)很多研究中通過引入注意力映射圖強化AU的區(qū)域學習,而目前大部分注意力映射圖需要人工根據(jù)目標AU所在位置進行事先定義,當數(shù)據(jù)庫中AU種類有限時這一做法尚可行,但AU種類增多到一定程度則十分不便,需要研究自適應地學習AU注意力映射的方法。
自1978年面部運動單元的概念被提出后,面部運動單元檢測技術逐漸被越來越多的研究人員關注,并且在最近二十年來得到了蓬勃的發(fā)展。本文綜述了面部運動單元檢測中包括預處理、特征學習、分類器學習等各個環(huán)節(jié)的技術發(fā)展情況,著重總結了在AU區(qū)域學習、關聯(lián)學習以及結合弱監(jiān)督學習等AU檢測方向利用深度學習技術取得的研究進展。未來面部運動單元檢測技術將在大規(guī)模數(shù)據(jù)庫的建立、區(qū)域學習和運動單元關聯(lián)學習上繼續(xù)發(fā)展,同時基于弱監(jiān)督學習等方法的面部運動單元檢測也將成為主流的研究方向之一。