国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合遷移學(xué)習(xí)與可分離三維卷積的微表情識(shí)別方法

2022-01-14 03:02梁正友劉德志
計(jì)算機(jī)工程 2022年1期
關(guān)鍵詞:光流時(shí)域準(zhǔn)確率

梁正友,劉德志,孫 宇

(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)

0 概述

根據(jù)表情持續(xù)時(shí)間的長(zhǎng)短和運(yùn)動(dòng)強(qiáng)度的大小,可以將表情分成宏表情和微表情兩類(lèi)。宏表情的持續(xù)時(shí)間約為2~3 s,運(yùn)動(dòng)涉及整個(gè)面部區(qū)域。目前,研究人員已經(jīng)利用計(jì)算機(jī)實(shí)現(xiàn)了接近100%的宏表情識(shí)別率[1]。與宏表情相比,微表情的運(yùn)動(dòng)時(shí)間相對(duì)較短,僅為0.5 s 左右[2],且運(yùn)動(dòng)強(qiáng)度非常微弱,通常只涉及局部的面部區(qū)域。這些特點(diǎn)導(dǎo)致微表情特征提取較為困難,使當(dāng)前微表情自動(dòng)識(shí)別的準(zhǔn)確率遠(yuǎn)低于宏表情。但微表情是由內(nèi)心真實(shí)情緒激發(fā)所產(chǎn)生,難以抑制或偽造,比宏表情更能準(zhǔn)確地反映人內(nèi)心的真情實(shí)感,因此能夠作為測(cè)謊的重要依據(jù)。

近年來(lái),隨著深度學(xué)習(xí)相關(guān)技術(shù)的迅速發(fā)展,具有時(shí)空特征提取能力的三維卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neural Networks,3D CNN)[3-4]在視頻分類(lèi)任務(wù)中的效果優(yōu)于僅能提取空域特征的二維卷積神經(jīng)網(wǎng)絡(luò)。受到這些成果的鼓勵(lì),一些研究人員開(kāi)始嘗試?yán)?D CNN 來(lái)提取微表情的時(shí)空特征,從而提高識(shí)別準(zhǔn)確率。文獻(xiàn)[5]設(shè)計(jì)的3D-FCNN 通過(guò)三流結(jié)構(gòu)的3D CNN 同時(shí)提取微表情原始視頻幀序列和光流幀序列的時(shí)空特征,在全連接層對(duì)三流提取到的時(shí)空特征進(jìn)行融合。但由于樣本數(shù)量過(guò)少導(dǎo)致的過(guò)擬合問(wèn)題,準(zhǔn)確率的提升有限。文獻(xiàn)[6]利用3D CNN 提取眼睛、嘴部等微表情運(yùn)動(dòng)較為頻繁部位的時(shí)空特征,減少了無(wú)關(guān)區(qū)域?qū)λ惴ǖ挠绊?。文獻(xiàn)[7]提出一種雙流結(jié)構(gòu)的3D CNN,使模型能夠提取包含在微表情光流幀序列中的時(shí)空特征,同時(shí)增強(qiáng)了模型對(duì)不同幀率樣本的適應(yīng)性,與STCLQ[8]、MDMO[9]等手工特征方法相比,準(zhǔn)確率提高了約10%。文獻(xiàn)[10]利用具有全局搜索及優(yōu)化能力的遺傳算法對(duì)3D CNN 的結(jié)構(gòu)和參數(shù)進(jìn)行編碼、選擇、交叉、變異等操作,從而得到適用于微表情識(shí)別任務(wù)的最佳參數(shù)組合和模型結(jié)構(gòu),提高了模型的識(shí)別能力。但微表情運(yùn)動(dòng)強(qiáng)度較弱,相鄰兩幀之間的差異非常小,在原始的微表情視頻幀序列中提取用于分類(lèi)的時(shí)空特征難度較大。

遷移學(xué)習(xí)是一種常用于解決由于樣本數(shù)量過(guò)少導(dǎo)致模型在訓(xùn)練過(guò)程當(dāng)中出現(xiàn)過(guò)擬合現(xiàn)象的方法。遷移學(xué)習(xí)首先在擁有大量樣本的源任務(wù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后用目標(biāo)任務(wù)的少量樣本對(duì)預(yù)訓(xùn)練獲得的模型參數(shù)進(jìn)行微調(diào),以找到源任務(wù)與目標(biāo)任務(wù)間能夠共享的模型參數(shù),并使模型更加適用于目標(biāo)任務(wù)[11]。近年來(lái),一些研究人員開(kāi)始采用遷移學(xué)習(xí)的方法解決當(dāng)前微表情樣本數(shù)量過(guò)少導(dǎo)致的模型過(guò)擬合問(wèn)題。文獻(xiàn)[12]利用遺傳算法,從VGG-Net 學(xué)習(xí)到的宏表情分類(lèi)特征中篩選出適用于微表情分類(lèi)的特征進(jìn)行識(shí)別。文獻(xiàn)[13]在利用ResNet10 提取微表情特征前,先用大量的宏表情樣本對(duì)模型進(jìn)行預(yù)訓(xùn)練,有效地提升了模型在小規(guī)模的微表情數(shù)據(jù)集上的表現(xiàn)。為解決微表情運(yùn)動(dòng)強(qiáng)度較弱的問(wèn)題,文獻(xiàn)[14]首先采用歐拉視頻運(yùn)動(dòng)放大算法(Eulerian Video Magnification,EVM)[15]對(duì)微表情進(jìn)行運(yùn)動(dòng)放大,然后利用能夠進(jìn)行人臉識(shí)別的模型VGG-Face 來(lái)提取微表情運(yùn)動(dòng)強(qiáng)度峰值幀的特征,并用于分類(lèi)。但如果EVM 算法的放大倍數(shù)過(guò)大容易產(chǎn)生偽影,對(duì)算法的識(shí)別準(zhǔn)確率造成一定影響。

由于自發(fā)式微表情的采集難度較大,可用于研究的樣本數(shù)量較少,導(dǎo)致當(dāng)前采用3D CNN 來(lái)提取時(shí)空特征進(jìn)行微表情識(shí)別的研究普遍存在樣本數(shù)量過(guò)少造成的過(guò)擬合問(wèn)題,對(duì)識(shí)別準(zhǔn)確率造成一定的影響,而當(dāng)前采用遷移學(xué)習(xí)技術(shù)進(jìn)行微表情識(shí)別的研究,通常僅利用二維卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取靜態(tài)微表情圖像的空域特征,并未考慮微表情變化過(guò)程中的動(dòng)態(tài)時(shí)域特征,準(zhǔn)確率提升較為有限。

針對(duì)上述問(wèn)題,本文提出一種結(jié)合遷移學(xué)習(xí)和可分離三維卷積神經(jīng)網(wǎng)絡(luò)(Separable 3D Convolutional Neural Networks,S3D CNN)的微表情自動(dòng)識(shí)別方法。利用光流法提取每一個(gè)宏表情和微表情視頻幀序列相鄰兩幀的水平、垂直方向光流圖,并導(dǎo)出對(duì)應(yīng)的光流應(yīng)變模式圖。將3 個(gè)光流圖以通道疊加的方式構(gòu)成光流特征圖后,按時(shí)間順序?qū)⒐饬魈卣鲌D連接成光流特征幀序列。此外,利用宏表情樣本的光流特征幀序列對(duì)S3D CNN 進(jìn)行預(yù)訓(xùn)練,使模型獲得與表情分類(lèi)相關(guān)的時(shí)空特征,從而緩解傳統(tǒng)的3D CNN 訓(xùn)練參數(shù)較多、所需計(jì)算量較大的問(wèn)題。在此基礎(chǔ)上,將預(yù)訓(xùn)練得到的模型參數(shù)遷移至用于微表情識(shí)別的模型中,利用微表情樣本的光流特征幀序列對(duì)模型參數(shù)進(jìn)行微調(diào),從而使模型更加適用于微表情識(shí)別任務(wù)。

1 可分離三維卷積

可分離三維卷積[16-18]是近年來(lái)出現(xiàn)的一種介于二維卷積與三維卷積之間的輕量化時(shí)空特征提取方法,其原理是利用二維空域卷積加一維時(shí)域卷積來(lái)模擬三維卷積的時(shí)空特征提取過(guò)程。傳統(tǒng)3D CNN 的三維卷積核大小為k×k×t,其中:k為卷積核空域維度的高度和寬度;t為卷積核時(shí)域維度的長(zhǎng)度。設(shè)3D CNN 的三維卷積層輸出的特征映射(i,j,z)處的值為yi,j,z則:

其中:f(x)為三維卷積層的激活函數(shù);n為上層傳入的特征映射中包含的幀數(shù);為 第l個(gè)卷積層的三維卷積核(a,b,c)處的權(quán)重值;為輸入第l個(gè)卷積層的特征映射(i,j,z)處的元素值;b為偏置值。

可分離三維卷積將三維卷積拆分成了二維的空域卷積和一維的時(shí)域卷積2 個(gè)獨(dú)立的過(guò)程,如圖1 所示。利用卷積核大小為k×k×1 的二維空域卷積層來(lái)提取輸入幀序列的空域特征,計(jì)算公式如下:

圖1 可分離三維卷積原理Fig.1 Separable 3D convolution principle

其中:yi,j,z為空域卷積層輸出的特征映射(i,j,z)處的元素值;fs(x)為空域卷積層的激活函數(shù);bs為空域卷積層的偏置值。

將卷積結(jié)果輸入卷積核大小為1×1×t的一維時(shí)域卷層中,提取幀與幀之間的時(shí)域特征,計(jì)算公式如下:

其中:ft(x)為時(shí)域卷積層的激活函數(shù);bt為時(shí)域卷積層的偏置值;ai,j,z為輸出特征映射(i,j,z)處的時(shí)域卷積結(jié)果。

與2D CNN 相比,由可分離三維卷積層構(gòu)建的S3D CNN 只在每個(gè)二維空域卷積層之后增加了一個(gè)一維時(shí)域卷積層,用于提取視頻幀序列的時(shí)域特征,但模型的訓(xùn)練參數(shù)與所需計(jì)算量并未顯著增加。與3D CNN 相比,將三維卷積層拆分成二維空域卷積層和一維時(shí)域卷積層后,2 個(gè)卷積層間增加了1 個(gè)額外的激活函數(shù),使模型比3D CNN 能更好地?cái)M合非線(xiàn)性函數(shù),增強(qiáng)了模型的學(xué)習(xí)能力。

2 本文方法

本文所提方法首先需要對(duì)原始的宏表情與微表情視頻幀序列進(jìn)行預(yù)處理;然后利用光流法對(duì)每個(gè)視頻幀序列的相鄰兩幀進(jìn)行運(yùn)動(dòng)估計(jì),提取相鄰2 幀的光流特征圖來(lái)組成光流特征幀序列;最后采用遷移學(xué)習(xí)的方法對(duì)S3D CNN 進(jìn)行訓(xùn)練。主要流程如圖2 所示。

圖2 本文所提微表情識(shí)別方法流程Fig.2 Flowchart of micro-expression recognition method proposed in this paper

2.1 預(yù)處理

為減少微表情運(yùn)動(dòng)過(guò)于微弱對(duì)光流特征提取和模型學(xué)習(xí)效果的影響,在預(yù)處理過(guò)程中,首先通過(guò)EVM 算法將每個(gè)微表情樣本的面部運(yùn)動(dòng)放大10 倍。然后利用時(shí)域插值模型(Temporal Interpolation Model,TIM)[19]將每個(gè)宏表情和微表情視頻幀序列歸一化為11 幀,以滿(mǎn)足輸入S3D CNN 的樣本幀數(shù)必須一致的要求。最后,采用平移裁剪和隨機(jī)旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方式獲取更多的宏表情樣本,增強(qiáng)模型的魯棒性,并通過(guò)類(lèi)別重采樣來(lái)避免宏表情和微表情數(shù)據(jù)集的樣本類(lèi)別分布不均衡對(duì)模型學(xué)習(xí)效果的影響,具體步驟如下:

1)利用OpenCV 的Dlib 庫(kù)來(lái)檢測(cè)每個(gè)宏表情和微表情樣本第1 幀的68 個(gè)面部特征點(diǎn),根據(jù)最左側(cè)、最頂部、最右側(cè)和最下側(cè)共4 個(gè)特征點(diǎn)的坐標(biāo)確定面部矩形區(qū)域。

2)將步驟1)中確定的面部矩形區(qū)域分別向上、下、左、右、左上、右上、左下、右下共8 個(gè)方向平移10 個(gè)像素,并按照平移前后的面部矩形區(qū)將樣本第1 幀和剩余幀的面部區(qū)域均裁剪下來(lái),使每個(gè)宏表情和微表情樣本能夠獲得9 個(gè)視頻幀序列,從而將樣本數(shù)量擴(kuò)充9 倍。

3)對(duì)數(shù)據(jù)增強(qiáng)后的宏表情數(shù)據(jù)集進(jìn)行類(lèi)別重采樣,從每個(gè)宏表情類(lèi)別中隨機(jī)抽取1 500 個(gè)樣本,共7×1 500=10 500 個(gè)樣本組成新的宏表情數(shù)據(jù)集,并將抽取到的樣本隨機(jī)旋轉(zhuǎn)0°、90°、180°或270°,以增加樣本的多樣性。

4)將按照步驟1)確定的面部矩形區(qū)域裁剪的微表情樣本作為測(cè)試集,并從步驟2)平移后的微表情樣本中以類(lèi)別重采樣的方式隨機(jī)抽取訓(xùn)練集樣本。在類(lèi)別重采樣過(guò)程中,每個(gè)微表情類(lèi)別分別抽取50 個(gè)樣本,共5×50=250 個(gè)微表情樣本構(gòu)成新的訓(xùn)練集,與原數(shù)據(jù)集的樣本量近似。

2.2 光流特征提取

光流特征提取是對(duì)每個(gè)宏表情和微表情樣本的相鄰2 幀進(jìn)行運(yùn)動(dòng)估計(jì),提取高層次的面部表情運(yùn)動(dòng)特征。根據(jù)文獻(xiàn)[20]的實(shí)驗(yàn)結(jié)果可知,相對(duì)于其他光流法,TL-V1 光流法[21]的魯棒性較好,更加適用于微表情識(shí)別任務(wù),因此本文采用TL-V1 光流法對(duì)宏表情和微表情進(jìn)行運(yùn)動(dòng)估計(jì)。光流法基于亮度恒定原則估計(jì)視頻中的運(yùn)動(dòng)物體。設(shè)(dx,dy)為圖像上某個(gè)像素點(diǎn)在dt時(shí)間后的下一幀移動(dòng)的距離,由亮度恒定原則可以認(rèn)為這2 個(gè)像素的值不變,即:

上述方程稱(chēng)為光流方程。光流法的目的是利用光流方程求出圖像上每個(gè)像素運(yùn)動(dòng)的大小和方向矢量

此外,本文進(jìn)一步利用宏表情和微表情相鄰2 幀的光流場(chǎng)來(lái)導(dǎo)出對(duì)應(yīng)的光流應(yīng)變模式。應(yīng)變模式用于衡量物體在外力作用下的形變程度。設(shè)u=[u,v]T表示三維空間中面部表情形變導(dǎo)致的位移在二維圖像上的投影向量,則可用柯西張量來(lái)表示表情發(fā)生過(guò)程中面部肌肉組織的形變程度:

其中:?表示對(duì)u進(jìn)行求導(dǎo)??梢詫⑹剑?)的二維應(yīng)變張量展開(kāi)成矩陣形式:

由于表情發(fā)生過(guò)程中的肌肉運(yùn)動(dòng)可能包含多個(gè)方向,因此采用應(yīng)變模式的4 個(gè)分量來(lái)計(jì)算每個(gè)像素的應(yīng)變大小,如式(7)所示:

應(yīng)變模式具有僅與物體表面的形變有關(guān),不易受到光照條件等外部因素影響的優(yōu)點(diǎn)[22],魯棒性較強(qiáng),在微表情識(shí)別任務(wù)中有較好的表現(xiàn)[23]。

在提取光流特征之后,每個(gè)宏表情和微表情樣本能得到3 個(gè)光流幀序列,即水平、垂直方向光流幀序列和光流應(yīng)變模式幀序列。圖3 展示了CASME II 微表情數(shù)據(jù)集其中1 個(gè)樣本的原始灰度幀序列和對(duì)應(yīng)的3 個(gè)光流幀序列。將3 個(gè)光流幀序列中相對(duì)應(yīng)的每一幀以通道疊加的方式連接起來(lái),構(gòu)成三通道的光流特征幀序列。在預(yù)處理過(guò)程中每個(gè)宏表情和微表情視頻幀序列均用TIM 算法歸一化為11 幀,因此1 個(gè)光流特征幀序列共包含10 幀反映原樣本相鄰兩幀之間面部運(yùn)動(dòng)和形變情況的光流特征圖。將光流特征幀序列的空域維度調(diào)整至96×96 并進(jìn)行標(biāo)準(zhǔn)化處理后,輸入模型進(jìn)行訓(xùn)練。

圖3 微表情原始灰度幀序列和光流幀序列Fig.3 Original gray frame sequence and optical flow frame sequence of micro-expression

2.3 模型設(shè)計(jì)

本文用于特征提取和分類(lèi)的S3D CNN 主要由8 個(gè)可分離三維卷積層、4 個(gè)池化層和1 個(gè)全連接層組成,模型結(jié)構(gòu)和主要參數(shù)如表1 所示。表中的Conv_s_i和Conv_t_i分別表示第i個(gè)可分離三維卷積層的空域卷積層和時(shí)域卷積層,空域卷積層用于提取視頻幀序列的靜態(tài)空域特征,而時(shí)域卷積層則對(duì)幀與幀之間的動(dòng)態(tài)時(shí)域特征進(jìn)行編碼。

表1 S3D CNN 參數(shù)設(shè)置Table1 S3D CNN parameter settings

采用4 個(gè)池化層對(duì)特征映射進(jìn)行特征降維,以減少冗余信息。其中前3 個(gè)池化層采用最大池化,即通過(guò)保留池化窗口內(nèi)最大元素的方式進(jìn)行特征降維,從而突出重要的特征。最后1 個(gè)池化層采用平均池化,使池化窗口內(nèi)的每個(gè)元素均對(duì)降維結(jié)果產(chǎn)生影響,防止損失過(guò)多的高維特征。由于樣本的幀數(shù)較少,為更好地保留時(shí)域特征,僅在平均池化層采用三維時(shí)空池化,而在最大池化層采用二維的空域池化。為充分利用從預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)到的宏表情分類(lèi)特征,本文在微調(diào)過(guò)程中凍結(jié)了部分卷積層的參數(shù),被凍結(jié)的卷積層參數(shù)在微調(diào)過(guò)程中保持不變,僅以較低的學(xué)習(xí)率對(duì)余下的卷積層和全連接層進(jìn)行調(diào)整,使模型更加適用于微表情識(shí)別任務(wù)。表1 中“是否參與微調(diào)”一列表示模型中對(duì)應(yīng)的卷積層是否參與了微表情的微調(diào)訓(xùn)練,即該層在微調(diào)訓(xùn)練中是否被凍結(jié)。

本文在全連接層后加入了丟棄率為0.2 的Dropout層。Dropout 層能以一定概率使某個(gè)神經(jīng)元的激活值失效,避免模型依賴(lài)某些局部特征,以增強(qiáng)模型的泛化性,并緩解模型的過(guò)擬合問(wèn)題。最后,將Dropout 層輸出的特征送入Softmax 層中完成分類(lèi)。

3 實(shí)驗(yàn)

3.1 表情數(shù)據(jù)集

3.1.1 Cohn-Kanade 擴(kuò)展數(shù)據(jù)集

Cohn-Kanade 擴(kuò)展數(shù)據(jù)集(CK+)[24]常用于人臉宏表情識(shí)別研究,樣本形式為動(dòng)態(tài)的視頻幀序列。CK+收集了123 個(gè)受試者的593 個(gè)宏表情樣本,其中327 個(gè)樣本帶有情感類(lèi)型標(biāo)簽。該數(shù)據(jù)集將宏表情分為7 個(gè)類(lèi)別,各個(gè)類(lèi)別的樣本數(shù)量分別為憤怒45、蔑 視18、厭 惡59、恐 懼25、快 樂(lè)69、悲 傷28 和驚訝83。

3.1.2 CASME II 微表情數(shù)據(jù)集

CASME II 微表情數(shù)據(jù)集[25]由來(lái)自26 名受試者的246 段視頻樣本組成。樣本的幀率為200 frame/s,分辨率為640×480,平均幀長(zhǎng)為68 幀。每個(gè)樣本根據(jù)誘導(dǎo)材料內(nèi)容、受試者的自我報(bào)告等信息被分成5 個(gè)類(lèi)別,各個(gè)類(lèi)別的樣本數(shù)量分別為快樂(lè)32、厭惡60、驚訝25、壓抑27 和其他102。CASME II 還提供了每個(gè)樣本的起始幀、峰值幀和結(jié)束幀位置。

3.2 模型訓(xùn)練

本文采用遷移學(xué)習(xí)的方法對(duì)所設(shè)計(jì)的S3D CNN 進(jìn)行訓(xùn)練,具體步驟如下:

1)利用從宏表情樣本中提取的光流特征幀序列對(duì)S3DCNN進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練的學(xué)習(xí)率初始化為0.0001,迭代周期為80,每迭代20 個(gè)周期學(xué)習(xí)率下降10 倍,batch_size=20。迭代80 個(gè)周期后,模型在訓(xùn)練集上對(duì)7 種宏表情的識(shí)別準(zhǔn)確率達(dá)到95.73%。

2)將預(yù)訓(xùn)練獲得的卷積層和全連接層參數(shù)遷移至用于微表情分類(lèi)任務(wù)的模型中,并按照表1 中“是否參與微調(diào)”一列所示凍結(jié)部分卷積層參數(shù)后,利用微表情樣本提取到的光流特征幀序列對(duì)模型參數(shù)進(jìn)行微調(diào)。此外,為使模型輸出的判別向量維度與CASME II 數(shù)據(jù)集的類(lèi)別數(shù)相同,還需將預(yù)訓(xùn)練模型中具有7 個(gè)輸出單元的Softmax 層替換成一個(gè)新的具有5 個(gè)輸出單元的Softmax 層。微調(diào)的學(xué)習(xí)率初始化為0.000 01,迭代周期為40,每迭代10 個(gè)周期學(xué)習(xí)率下降10 倍,batch_size=10。

3.3 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

本文主要采用留一受試交叉驗(yàn)證(Leave-One-Subject-Out,LOSO)對(duì)算法性能進(jìn)行評(píng)估。每一輪交叉驗(yàn)證將1 名受試者的樣本作為測(cè)試集,通過(guò)式(8)計(jì)算LOSO 準(zhǔn)確率:

其中:k為受試者數(shù)量。CSAME II 微表情數(shù)據(jù)集包含26 名受試者的微表情樣本,因此需要執(zhí)行26 輪驗(yàn)證,即k=26。Aacci為第i輪驗(yàn)證的準(zhǔn)確率。

實(shí)驗(yàn)的操作系統(tǒng)環(huán)境為Centos6.5,利用Keras2.3.1 完成模型的搭建,編程語(yǔ)言為Python3.6,模型訓(xùn)練的主要硬件設(shè)備為NVIDIA TESLA T4。

3.4 實(shí)驗(yàn)結(jié)果與分析

3.4.1 與前沿方法的對(duì)比

將所提方法的LOSO 準(zhǔn)確率與現(xiàn)有的手工特征識(shí)別方法及深度學(xué)習(xí)識(shí)別方法進(jìn)行對(duì)比,如表2 所示。與當(dāng)前較為前沿的STLBP-IP[26]、LBP-TOP[25]等手工特征識(shí)別方法相比,深度學(xué)習(xí)識(shí)別方法能避免繁瑣的手工特征提取過(guò)程,直接從原始的微表情視頻幀序列中提取特征,并通過(guò)學(xué)習(xí)的方式不斷調(diào)整模型參數(shù),以?xún)?yōu)化所提取的分類(lèi)特征,在簡(jiǎn)化特征提取步驟的基礎(chǔ)上取得更好的識(shí)別效果。本文所提S3D CNN-transfer 微表情識(shí)別方法結(jié)合了近年來(lái)新興的可分離三維卷積和遷移學(xué)習(xí)技術(shù),使模型能夠同時(shí)提取光流特征幀序列中的微表情靜態(tài)空域特征和動(dòng)態(tài)時(shí)域特征。此外,通過(guò)遷移學(xué)習(xí)技術(shù)避免微表情樣本數(shù)量過(guò)少造成的過(guò)擬合問(wèn)題,使利用深度學(xué)習(xí)的方法進(jìn)行微表情識(shí)別的準(zhǔn)確率有了進(jìn)一步的提升。

表2 不同微表情識(shí)別方法準(zhǔn)確率對(duì)比Table 2 Accuracy comparison of different micro-expression recognition methods %

3.4.2 遷移學(xué)習(xí)對(duì)模型學(xué)習(xí)效果的影響

為了探索遷移學(xué)習(xí)對(duì)模型學(xué)習(xí)效果的影響,本節(jié)對(duì)遷移學(xué)習(xí)與非遷移學(xué)習(xí)模型的識(shí)別準(zhǔn)確率進(jìn)行了對(duì)比,如圖4 所示。S3D CNN 通過(guò)隨機(jī)賦值的方式對(duì)模型參數(shù)進(jìn)行初始化。由于需要從0 開(kāi)始學(xué)習(xí)與表情分類(lèi)相關(guān)的特征,因此該模型與遷移學(xué)習(xí)的預(yù)訓(xùn)練一樣從學(xué)習(xí)率為0.000 1 開(kāi)始訓(xùn)練,迭代周期為40,每迭代10 個(gè)周期學(xué)習(xí)率下降10 倍。S3D CNN-transfer 則遵循了3.2 小節(jié)的遷移學(xué)習(xí)方法和參數(shù)進(jìn)行訓(xùn)練。

圖4 S3D CNN 與S3D CNN-transfer 方法識(shí)別準(zhǔn)確率比較Fig.4 Comparison of recognition accuracy between S3D CNN and S3D CNN-transfer method

由圖4 可知,S3D CNN 的識(shí)別準(zhǔn)確率僅為49.46%,而采用遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練的S3D CNNtransfer 則有效避免了直接利用小規(guī)模數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)的過(guò)擬合問(wèn)題,準(zhǔn)確率達(dá)到67.58%,提升了18.12 個(gè)百分點(diǎn)。

本節(jié)還探究了遷移學(xué)習(xí)對(duì)模型學(xué)習(xí)效率的影響。如圖5 所示為S3D CNN 和S3D CNN-transfer兩個(gè)模型在LOSO 驗(yàn)證中的其中2 輪驗(yàn)證結(jié)果的對(duì)比。在圖5(a)所示的第6 輪驗(yàn)證中可以看出,S3D CNN-transfer 在迭代10 個(gè)周期左右訓(xùn)練準(zhǔn)確率趨于穩(wěn)定,模型開(kāi)始收斂。而S3D CNN 需要迭代20~25 個(gè)周期才收斂,且波動(dòng)相對(duì)較大。在圖5(b)所示的第16 輪驗(yàn)證中,S3D CNN-transfer 在迭代11 個(gè)周期左右就開(kāi)始達(dá)到收斂狀態(tài),而S3D CNN 在迭代15~20 個(gè)周期左右才逐漸達(dá)到收斂狀態(tài)。在其它輪次的驗(yàn)證中也存在類(lèi)似的情況。從圖中還可以看出,S3D CNN-transfer 的訓(xùn)練準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于采用隨機(jī)賦值進(jìn)行初始化的S3D CNN。表3 對(duì)2 個(gè)模型在26 輪交叉驗(yàn)證中的平均收斂周期、訓(xùn)練40 個(gè)周期后的平均訓(xùn)練準(zhǔn)確率和平均訓(xùn)練損失進(jìn)行了對(duì)比。從表3 中可以看出,由于采用遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練的S3D CNN-transfer 在預(yù)訓(xùn)練階段已經(jīng)學(xué)習(xí)到了一些與表情分類(lèi)相關(guān)的特征,因此在微調(diào)階段實(shí)現(xiàn)了更好的學(xué)習(xí)效果,在26 輪交叉驗(yàn)證中的平均收斂周期和平均訓(xùn)練損失分別降低了9.27 和0.36;平均訓(xùn)練準(zhǔn)確率提高了27.81 個(gè)百分點(diǎn)。由表3 可知,采用遷移學(xué)習(xí)的方法后,模型能夠利用在宏表情分類(lèi)任務(wù)中學(xué)習(xí)到的模型參數(shù)來(lái)提高在微表情分類(lèi)任務(wù)中的學(xué)習(xí)效率,加快了模型的收斂速度,提升了模型的學(xué)習(xí)效果。

圖5 S3D CNN 與S3D CNN-transfer 模型訓(xùn)練準(zhǔn)確率對(duì)比Fig.5 Comparison of training accuracy between S3D CNN and S3D CNN-transfer model

表3 S3D CNN 與S3D CNN-transfer 模型訓(xùn)練效果對(duì)比Table 3 Comparison of training effect between S3D CNN and S3D CNN-transfer model

3.4.3 不同模型識(shí)別效果比較

本節(jié)將所提出的S3D CNN-transfer 與2D CNNtransfer 和3D CNN-transfer 兩個(gè)模型的訓(xùn)練參數(shù)數(shù)量、每秒浮點(diǎn)數(shù)運(yùn)算次數(shù)(Floating Point Operations,F(xiàn)LOPs)和LOSO 準(zhǔn)確率進(jìn)行了比較,如表4 所示。2D CNN-transfer 將S3D CNN-transfer 中的一維時(shí)域卷積層全部刪除,僅保留了二維空域卷積層用于提取光流特征幀序列的空域特征。3D CNN-transfer 將S3D CNN-transfer 中的可分離三維卷積層全部替換成了傳統(tǒng)的三維卷積層。3 個(gè)模型均采用了3.2 節(jié)的遷移學(xué)習(xí)方法和參數(shù)進(jìn)行訓(xùn)練。

表4 2D CNN-transfer、3D CNN-transfer 與S3D CNNtransfer 方法識(shí)別效果對(duì)比Table 4 Comparison of recognition effect between 2D CNN-Transfer,3D CNN-Transfer and S3D CNNTransfer method

通過(guò)對(duì)比表中的數(shù)據(jù)可知,由于2D CNN-transfer無(wú)法捕獲表示微表情動(dòng)態(tài)變化的時(shí)域特征,僅能通過(guò)空域特征識(shí)別,準(zhǔn)確率低于能夠同時(shí)提取空域特征和時(shí)域特征的3D CNN-transfer 和S3D CNNtransfer。3D CNN-transfer 雖然能夠提取微表情的時(shí)空特征,實(shí)現(xiàn)了比2D CNN-transfer 更好的識(shí)別效果,但增加了較多的訓(xùn)練參數(shù),且模型所需的計(jì)算量也大幅增加。S3D CNN-transfer 利用二維空域卷積加一維時(shí)域卷積的方式來(lái)模擬3D CNN-transfer 的三維卷積過(guò)程,使模型與3D CNN-transfer 一樣具有時(shí)空特征提取能力,而訓(xùn)練參數(shù)和計(jì)算量比采用傳統(tǒng)三維卷積的3D CNN-transfer 更少。此外,在S3D CNN-transfer 的二維空域卷積層和一維時(shí)域卷積層之間增加的激活函數(shù)有效提升了模型的學(xué)習(xí)能力,因此準(zhǔn)確率稍高于3D CNN-transfer。

4 結(jié)束語(yǔ)

現(xiàn)有的微表情識(shí)別方法準(zhǔn)確率較低,且由于微表情樣本數(shù)量不足導(dǎo)致了過(guò)擬合問(wèn)題。本文提出一種結(jié)合遷移學(xué)習(xí)與S3D CNN 的微表情自動(dòng)識(shí)別方法,提取包含宏表情和微表情運(yùn)動(dòng)與形變特征的光流特征幀序列,并根據(jù)遷移學(xué)習(xí)的方法,利用宏表情的光流特征幀序列對(duì)S3D CNN 進(jìn)行預(yù)訓(xùn)練。在此基礎(chǔ)上,通過(guò)使用微表情的光流特征幀序列微調(diào)預(yù)訓(xùn)練后的模型參數(shù),有效提升微表情自動(dòng)識(shí)別的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,所提方法相比于MagGA、C3DEvol 等前沿微表情識(shí)別算法,具有更高的識(shí)別準(zhǔn)確率。但光流法仍然存在計(jì)算量較大、算法較為復(fù)雜、實(shí)時(shí)性和實(shí)用性較差等問(wèn)題。下一步將在保證識(shí)別準(zhǔn)確率的前提下,通過(guò)降低算法的復(fù)雜度、減少運(yùn)行所需時(shí)間和計(jì)算資源,使該方法能更好地滿(mǎn)足實(shí)時(shí)應(yīng)用及在復(fù)雜場(chǎng)景下的應(yīng)用需求。

猜你喜歡
光流時(shí)域準(zhǔn)確率
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
基于改進(jìn)Cycle-GAN的光流無(wú)監(jiān)督估計(jì)方法
一種多尺度光流預(yù)測(cè)與融合的實(shí)時(shí)視頻插幀方法
改進(jìn)的浮體運(yùn)動(dòng)響應(yīng)間接時(shí)域計(jì)算方法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
頸椎病患者使用X線(xiàn)平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
基于自適應(yīng)紋理復(fù)雜度的仿生視覺(jué)導(dǎo)航方法研究
基于復(fù)雜網(wǎng)絡(luò)理論的作戰(zhàn)計(jì)劃時(shí)域協(xié)同方法研究