国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于角度距離損失與小尺度核網(wǎng)絡(luò)的表情識(shí)別*

2021-04-24 06:19蘇志明
電訊技術(shù) 2021年4期
關(guān)鍵詞:掩膜人臉卷積

蘇志明,王 烈

(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530004)

0 引 言

人臉表情識(shí)別具有極大應(yīng)用價(jià)值,是當(dāng)前研究的熱點(diǎn)之一。目前基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)的靜態(tài)圖像人臉表情識(shí)別算法主要是對(duì)神經(jīng)網(wǎng)絡(luò)的關(guān)鍵三要素即數(shù)據(jù)、特征和損失函數(shù)進(jìn)行改進(jìn),從而提升網(wǎng)絡(luò)的分類性能。

(1)數(shù)據(jù)。主要包括對(duì)人臉表情靜態(tài)圖像的預(yù)處理和數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)主要通過剪切、仿射變換和增加對(duì)比度等方式增加訓(xùn)練樣本數(shù)量,提升模型魯棒性。

(2)特征提取。主要是通過改進(jìn)CNN的網(wǎng)絡(luò)結(jié)構(gòu)來提升模型性能。楊等[1]改進(jìn)了AlexNet,引入多尺度卷積提取多尺度特征和利用全局平均池化將低層特征降維跨連到全連接層分類,在CK+人臉表情數(shù)據(jù)集的準(zhǔn)確率達(dá)到了94.25%。馮楊[2]提出了3×3小尺度核卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單有效。Liu等[3]將課程學(xué)習(xí)策略應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段,在FER2013數(shù)據(jù)集上達(dá)到了72.11%的識(shí)別準(zhǔn)確率。

(3)損失函數(shù)。損失函數(shù)用來監(jiān)督CNN的自我更新學(xué)習(xí),決定了網(wǎng)絡(luò)學(xué)習(xí)的方向。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)使用Softmax損失函數(shù)來優(yōu)化類間特征的差異,但忽略了類內(nèi)特征存在的差異性。為解決這個(gè)問題,許多新的損失函數(shù)被提出。Wen等[4]提出了Center損失函數(shù),縮小了類內(nèi)差距,有效聚集了類內(nèi)簇。然而,Center損失函數(shù)沒有關(guān)注類間差異。Cai等[5]對(duì)其改進(jìn),提出了Island損失函數(shù),通過增加約束特征與相應(yīng)類的距離范圍,從而增大類間距離、縮小類內(nèi)差異,提高了表情識(shí)別精度。

本文著重改善CNN特征提取和損失函數(shù)并使用數(shù)據(jù)增強(qiáng)來提高人臉表情識(shí)別準(zhǔn)確率。

1 卷積神經(jīng)網(wǎng)絡(luò)

1.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文的CNN結(jié)構(gòu)由多層3×3小尺度核卷積層構(gòu)成,如圖1所示。圖中R×R×C表示每層輸出的C個(gè)分辨率大小為R×R的特征圖。每個(gè)3×3卷積層均有BN(Batchsize Normalization)和Mish損失函數(shù)。第一個(gè)全連接層使用損失函數(shù)LIsland輔助監(jiān)督類內(nèi)特征聚集、類外特征隔離,加強(qiáng)了網(wǎng)絡(luò)的特征提取能力。最后一層使用LArc-softmax和Llog_softmax分類損失函數(shù)對(duì)網(wǎng)絡(luò)提取的高維特征預(yù)測(cè)出當(dāng)前輸入所屬的真實(shí)類別。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在網(wǎng)絡(luò)中分辨率為11×11及以上的特征圖(除第一個(gè)卷積層外)的每個(gè)卷積層前添加1×1空間金字塔注意力模塊[6](Spatial Pyramid Attention Module,SPAM)(具體結(jié)構(gòu)見圖1中間虛線框,由1×1卷積和SPAM構(gòu)成的殘差塊),目的是加深網(wǎng)絡(luò)和突出表情圖像的顯著區(qū)域,達(dá)到提升分類性能的目的。

在分類網(wǎng)絡(luò)中,通常SE-Net(Squeeze-and-Excitation Networks)中的SE模塊注重分配通道不同的權(quán)重來凸顯圖像的顯著區(qū)域,但全局池化通常應(yīng)用在7×7分辨率及以下的特征圖,在較高分辨率應(yīng)用全局池化會(huì)丟失過多細(xì)節(jié)信息。因此,在模型中引入空間金字塔注意力模塊來凸顯人臉表情圖像的關(guān)鍵區(qū)域。SPAM由1×1卷積、空間金字塔結(jié)構(gòu)和多層感知組成,見圖1最下方的虛線框;1×1卷積是為了匹配通道數(shù)和集成通道信息??臻g金字塔結(jié)構(gòu)包括3個(gè)尺寸分別為1、2、4的自適應(yīng)平均池化,將結(jié)構(gòu)正則化和結(jié)構(gòu)信息整合到一條注意路徑中。多層感知從空間金字塔結(jié)構(gòu)的輸出中學(xué)習(xí)出一幅注意力圖。

1.2 低層特征掩膜化

傳統(tǒng)高低層特征融合直接將池化層的特征通過全局池化后輸入到全連接層分類。低層特征有著豐富的細(xì)節(jié)信息,但噪聲多且缺乏高級(jí)語(yǔ)義信息,而高層特征缺失細(xì)節(jié)信息,因此本文提出一種低層特征掩膜化方法,結(jié)構(gòu)見圖2。

圖2 低層特征掩膜化結(jié)構(gòu)

該方法先將高層特征圖x1雙線性插值上采樣,然后通過1×1卷積逐層融合多層不同分辨率的次高維特征x2、x3、x4,再通過Softmax對(duì)通道取最大值得到掩碼,最后將掩碼和低層池化層的特征元素相乘得到輸出,具體的計(jì)算表達(dá)式為

xfuse=Wfuse×concat(x3,Ups(x4))。

(1)

式中:Wfuse表示使用1×1卷積加性融合特征圖的權(quán)重,Ups表示雙線性插值上采樣。xfuse表示最終融合的多層特征,然后將其通過Softmax得到通道權(quán)重,再與低層特征(Maxpool的輸出)元素相乘得到掩膜結(jié)果xmask,如式(2)所示:

xmask=Mp?Softmax(xfuse)。

(2)

最后將低層特征掩膜化后的輸出通過全局池化連接到全連接層分類。由于掩膜化的過程只有1×1卷積降維,并沒有引入太多參數(shù)。每個(gè)1×1卷積后加入BN層平衡特征,1×1卷積還有一個(gè)作用就是將高層級(jí)的特征維度降維為次高級(jí)的特征維度。

1.3 網(wǎng)絡(luò)參數(shù)配置

模型參數(shù)量越大,復(fù)雜度越高,模型參數(shù)計(jì)算公式為

K2×Ci×Co。

(3)

式中:K為卷積核大小,Ci為輸入通道數(shù),Co輸出通道數(shù)。本文模型參數(shù)配置如表1所示,提出的模型參數(shù)量比VGG16少,復(fù)雜度更低。

表1 模型網(wǎng)絡(luò)參數(shù)配置

1.4 Dropblock

為了避免模型過擬合,引入一種適用于卷積層的正則化方法即Dropblock[7]。該方法通過丟失掉相鄰的連續(xù)整片區(qū)域(類似于3×3等卷積核所占區(qū)域大小)來提高網(wǎng)絡(luò)模型的泛化能力。γ是一個(gè)表示丟失過程中的概率的超參數(shù),服從伯努利分布,表達(dá)式為

(4)

式中:keep_prob為保持不丟失的概率,f_size為特征圖大小,block_size為控制丟失區(qū)域大小的超參數(shù),(f_size-block_size+1)確保丟失范圍在邊緣以內(nèi)。伯努利函數(shù)表達(dá)式為

(5)

1.5 損失函數(shù)

1.5.1 Softmax損失函數(shù)

目前許多研究者致力于設(shè)計(jì)更精細(xì)的網(wǎng)絡(luò)骨干結(jié)構(gòu)換取性能提升,但是如果屬于有監(jiān)督范疇,損失函數(shù)是一個(gè)提升識(shí)別精度的值得深入研究的關(guān)鍵工作。傳統(tǒng)的Softmax分類損失函數(shù)定義如下:

(6)

1.5.2 Island損失函數(shù)

為了縮小類內(nèi)特征差異,Wen等[4]改進(jìn)了Softmax并提出Center Loss,計(jì)算公式為

(7)

式中:cyi為第yi個(gè)類別的特征中心,xi表示全連接層之前的特征,m表示mini-batch的大小。公式(7)表示一個(gè)批次中的每個(gè)樣本的特征離每個(gè)類別的聚類中心的距離的平方和越小,類內(nèi)距離越小,也就是每個(gè)類的特征聚集度越高。Cai等[5]對(duì)Center Loss優(yōu)化改進(jìn),提出了Island Loss,表示式為

(8)

式中:N為人臉表情總類別數(shù)量,本文N=7;ck和cj分別表示具有L2范數(shù)的‖ck‖2和‖cj‖2的第k個(gè)和第j個(gè)表情類別中心;+1使得約束范圍為0~2,越接近0表示類別差異越大,從而優(yōu)化損失函數(shù)使得類間距離變大;而Lc縮小類內(nèi)距離,式(8)通過系數(shù)λ1來平衡類內(nèi)和類間差異,本文λ1取10。神經(jīng)網(wǎng)絡(luò)最終的損失函數(shù)為

L=L1+βLIL。

(9)

式中:β為平衡兩項(xiàng)損失函數(shù)的超參數(shù)。

1.5.3 基于角度距離的損失函數(shù)

Island Loss加大了人臉表情特征的約束,但仍將最后一個(gè)全連接層輸入到Softmax損失函數(shù)對(duì)人臉表情的類別做出預(yù)測(cè)。通過對(duì)傳統(tǒng)損失函數(shù)的分析可知,Island Loss的分類性能上限在一定程度上受Softmax影響。因此,可在Island Loss的基礎(chǔ)上,通過基于角度距離損失函數(shù)改進(jìn)Softmax損失函數(shù),其核心思想就是用人臉識(shí)別中的Arc-softmax[8]輔助其他損失函數(shù)提高表情識(shí)別精度。Arc-softmax的計(jì)算公式為

LArc-softmax=

(10)

式中:s是縮放因子,cos(θyi+m)是角度距離,m決定了距離的大小。二分類情況下,Island和Arc-softmax的決策邊界如圖3所示,藍(lán)色虛線表示分類決策邊界。Softmax通過角度分類,Arc-softmax直接在角度空間通過決策余量m控制著分類決策邊界的距離,從而加大類間距離,利于分類決策。

圖3 二分類下 Island和Arc-softmax的分類決策邊界

本文最終的基于角度距離的損失函數(shù)為

LA=LArc-softmax+λLIL+Llog_softmax。

(11)

式中:λ取0.01;Llog_softmax為對(duì)Softmax取對(duì)數(shù),作為輔助分類損失函數(shù),搭配NLLLoss(reduction=“sum”)使用。LA收斂速度快,分類效果好。

2 實(shí)驗(yàn)

CK+實(shí)驗(yàn)在 Pytorch框架上實(shí)現(xiàn),處理器為英特爾酷睿i7-9750H CPU@2.60 GHz,顯卡為NVIDIA GTX1650。采用AdaBound優(yōu)化器,批處理大小為128,初始學(xué)習(xí)率為0.001,200個(gè)epoch后每個(gè)epoch學(xué)習(xí)率乘以衰減因子0.8。IslandLoss的學(xué)習(xí)率固定為0.5。Dropblock的keep_prob為0.9,block_size為3。為了不過多遮擋面部表情,Dropblock只在特征圖分辨率為11及以上的卷積層使用,決策余量m=0.2,縮放因子s=20。FER2013實(shí)驗(yàn)在GTX2080Ti上進(jìn)行,batch_size=128,初始學(xué)習(xí)效率為0.01,150個(gè)epoch后每8個(gè)epoch衰減0.9倍。先將原圖片按照人臉區(qū)域預(yù)處理為48×48大小,訓(xùn)練時(shí)再隨機(jī)剪切為44×44大小,測(cè)試時(shí)采用TenCrop(將圖像沿左上角、右上角、左下角、右下角、中心剪切并水平翻轉(zhuǎn)),取識(shí)別率均值作為最終的表情分類準(zhǔn)確率。

2.1 數(shù)據(jù)集

CK+數(shù)據(jù)集[9]共 有593 個(gè)圖像序列,其中帶標(biāo)簽的表情序列有 327 個(gè),從每個(gè)序列中提取最后3個(gè)幀,共 981 張。CK+數(shù)據(jù)集采用十折交叉訓(xùn)練,將數(shù)據(jù)集分為10份,每次9份訓(xùn)練,留1份測(cè)試。

FER2013[10]數(shù)據(jù)集共有35 888張人臉表情圖像,其中訓(xùn)練樣本28 709張,公開測(cè)試樣本和私有測(cè)試樣本各3 589張。采用私有測(cè)試樣本測(cè)試,兩個(gè)數(shù)據(jù)集人臉表情示意圖如圖4所示。

圖4 不同數(shù)據(jù)集人臉表情示意圖

2.2 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證提出方法的有效性,將提出的不同方法加入網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同方法在CK+的實(shí)驗(yàn)對(duì)比

使用Softmax分類,準(zhǔn)確率為93.737%,而Island損失函數(shù)比Softmax損失函數(shù)高1.92%;使用Angular Distance Loss(ADL)分類,比Softmx高3.03%,比Island損失函數(shù)高1.11%。這說明提出的基于角度距離的損失函數(shù)對(duì)人臉表情特征有著更好的縮小類內(nèi)相似性、增大類間距離的作用,具有更強(qiáng)的特征區(qū)分能力。Dropblock正則化的使用提高了網(wǎng)絡(luò)的魯棒性,表情識(shí)別準(zhǔn)確率達(dá)到97.374%,較沒加入之前整整提高了0.61%。表2中的前4種方法均在網(wǎng)絡(luò)中加入了1×1空間金字塔注意力機(jī)制,最后1種方法是在Angular distance Loss的基礎(chǔ)上去掉1×1空間金字塔注意力機(jī)制來進(jìn)一步驗(yàn)證其有效性。實(shí)驗(yàn)表明,通過加入1×1空間金字塔注意力機(jī)制,網(wǎng)絡(luò)模型分類精度提升了1.41%。

為了研究倒數(shù)第二層全連接層的不同特征輸出維度對(duì)表情識(shí)別的影響,對(duì)其不同取值進(jìn)行了多次實(shí)驗(yàn)(沒有加入Dropblock),結(jié)果如表3所示。

表3 倒數(shù)第二層全連接層不同輸出維度的表情識(shí)別準(zhǔn)確率

當(dāng)特征維度取3時(shí),準(zhǔn)確率最高。特征維度過高,角度距離損失函數(shù)不能有效聚類人臉表情特征,并且輸出維度越高,類間距離區(qū)分度越小,從而影響網(wǎng)絡(luò)的分類性能。

為了驗(yàn)證低層特征掩膜化的有效性,將特征圖大小為3×3、6×6、11×11、22×22的最后一個(gè)卷積層的輸出分別記為x1、x2、x3、x4,實(shí)驗(yàn)?zāi)J(rèn)每個(gè)層級(jí)(除了全局平均池化GAP)都融合有x4的特征,GAP表示直接將池化層特征跨連到全連接層分類。最后在CK+數(shù)據(jù)集上將幾個(gè)不同層級(jí)高層特征掩膜到低層的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。當(dāng)把x3的高層特征掩膜到低層特征時(shí),冗余特征最少,準(zhǔn)確率最高。

表4 融合不同層級(jí)特征的對(duì)比實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文方法的有效性,在同樣的 FER2013數(shù)據(jù)集和 CK+數(shù)據(jù)集上,將本文方法與當(dāng)前其他表情識(shí)別方法相比較,結(jié)果如表 5 所示。

表5 不同算法的表情識(shí)別率對(duì)比

由表5中結(jié)果可知,本文方法無(wú)論是在CK+數(shù)據(jù)集上還是FER2013數(shù)據(jù)集上均取得了更高的人臉表情識(shí)別精度。文獻(xiàn)[1-2]使用傳統(tǒng)的Softmax損失函數(shù)分類,沒有提取到具有強(qiáng)區(qū)分度的特征,分類效果不明顯。文獻(xiàn)[3]將課程學(xué)習(xí)策略應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練階段,取得了較高識(shí)別率。文獻(xiàn)[11]通過控制余弦值和輸入特征圖的大小來來改善 Softmax 函數(shù),增強(qiáng)了特征區(qū)分度,提高了人臉表情識(shí)別率,但仍存在特征提取不充分的問題。文獻(xiàn)[12]對(duì)輸入圖像分割出包含人臉表情的人臉關(guān)鍵區(qū)域以提高CNN識(shí)別率。本文算法識(shí)別率在CK+數(shù)據(jù)集上低于文獻(xiàn)[3],但在FER2013數(shù)據(jù)集上高于文獻(xiàn)[3],這表明本文方法更適合于數(shù)據(jù)規(guī)模大的復(fù)雜環(huán)境(光照條件、不同角度、頭部姿態(tài)各異等)下人臉表情識(shí)別。通過與上述文獻(xiàn)的對(duì)比分析,本文方法提取到了更完全且具有強(qiáng)分辨力的特征,從而獲得了更高的識(shí)別率,證明了本文方法的有效性。

圖5分別為 CK+和FER2013測(cè)試集表情分類的混淆矩陣。CK+數(shù)據(jù)集由于厭惡、悲傷表情數(shù)據(jù)量少,識(shí)別率較低。FER2013數(shù)據(jù)集存在遮擋、漫畫臉和錯(cuò)誤標(biāo)注等,識(shí)別難度大,故整體識(shí)別準(zhǔn)確率不高,仍有改進(jìn)空間。

(a)CK+

3 結(jié)束語(yǔ)

本文基于小尺度核CNN模型,加入1×1卷積融合空間金字塔注意力,并提出了低層特征掩膜化,最后將掩膜后的特征通過全局池化輸入到全連接層分類,結(jié)構(gòu)簡(jiǎn)單有效。提出基于角度距離的損失函數(shù)對(duì)模型進(jìn)行監(jiān)督優(yōu)化訓(xùn)練,可以學(xué)習(xí)到區(qū)分度明顯的表情特征,即最小化類內(nèi)距離,最大化類間距離。本文進(jìn)一步探討了倒數(shù)第二層全連接層的特征輸出維度對(duì)表情識(shí)別準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果證明,相比于其他先進(jìn)算法,本文方法在人臉表情識(shí)別任務(wù)中識(shí)別準(zhǔn)確率較高,具有較強(qiáng)競(jìng)爭(zhēng)力。特別地,在CK+數(shù)據(jù)集上,本文提出的角度距離損失函數(shù),相對(duì)Softmax和Island損失函數(shù)分別提高了3.03%、1.11%。下一步工作將融合LBP特征以及改進(jìn)LBP特征來提升表情識(shí)別率。

猜你喜歡
掩膜人臉卷積
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
一起學(xué)畫人臉
寬周期掩膜法HVPE側(cè)向外延自支撐GaN的研究
從濾波器理解卷積
三國(guó)漫——人臉解鎖
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
長(zhǎng)得象人臉的十種動(dòng)物