国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LBP和注意力機(jī)制的改進(jìn)VGG網(wǎng)絡(luò)的人臉表情識別方法

2024-01-29 00:31:13張中華楊慧炯
軟件工程 2024年1期
關(guān)鍵詞:注意力機(jī)制

張中華 楊慧炯

關(guān)鍵詞:面部表情識別;局部二值模式;注意力機(jī)制

0 引言(Introduction)

面部表情是判斷人類情感和人機(jī)交互效果的重要依據(jù),早在20世紀(jì),EKMAN等[1]系統(tǒng)地將面部表情劃分為生氣、害怕、厭惡、開心、悲傷、驚訝六類,這一理論的提出在表情識別領(lǐng)域具有跨時(shí)代的意義,同時(shí)開啟了表情識別領(lǐng)域新世界的大門。

目前,表情識別的方法有傳統(tǒng)算法和深度學(xué)習(xí)算法兩大類。常見的傳統(tǒng)表情識別算法有局部二值模式(LBP)[2]、Gabor小波變化法[3]和尺度不變特征變換[4-5]等。深度學(xué)習(xí)算法主要是利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)自動(dòng)特征提取和面部表情分類。常見的網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆疊式自動(dòng)編碼器等[6]。

上述算法雖然在當(dāng)時(shí)取得了良好的效果,但是存在一些問題,例如提取的特征單一化、模型參數(shù)過大、訓(xùn)練時(shí)間過長及識別精確度低等。為了避免追求高準(zhǔn)確率而不斷增加網(wǎng)絡(luò)模型深度或不斷對面部表情數(shù)據(jù)集進(jìn)行擴(kuò)充而將問題復(fù)雜化,本文不再對實(shí)驗(yàn)數(shù)據(jù)集樣本進(jìn)行擴(kuò)充,而是對VGG網(wǎng)絡(luò)模型進(jìn)行改建,創(chuàng)建NEW-VGG模型,以此加快模型的訓(xùn)練速度,通過傳統(tǒng)算法與深度學(xué)習(xí)算法相結(jié)合的方法,將LBP算法與NEWVGG模型進(jìn)行融合,并對兩種具有代表性的數(shù)據(jù)集CK+和Fer2013進(jìn)行驗(yàn)證,本文所提方法不僅降低了樣本的訓(xùn)練時(shí)間,還提高了表情識別的準(zhǔn)確率。

1 基于LBP和注意力機(jī)制的改進(jìn)VGG 模型(Improved VGG model based on LBP andattention mechanism)

本文首先對原始數(shù)據(jù)集進(jìn)行圖片歸一化處理,以消除原始數(shù)據(jù)集中與表情識別無關(guān)的干擾因素;其次使用LBP算法對已處理數(shù)據(jù)集圖片的紋理特征進(jìn)行提取,同時(shí)對VGG網(wǎng)絡(luò)模型進(jìn)行改建,創(chuàng)建了新的神經(jīng)網(wǎng)絡(luò)模型NEW-VGG,并將LBP紋理特征與NEW-VGG網(wǎng)絡(luò)進(jìn)行級聯(lián);最后通過Softmax分類器對面部表情進(jìn)行分類。本文表情識別總體流程圖如圖1所示。

1.1LBP特征提取

LBP是一種用來描述圖像局部紋理特征的算子,與SIFT(Scale-Invariant Feature Transform)和HOG(Histogram ofOriented Gradient)算法的作用類似,都可以對圖片的局部紋理特征進(jìn)行提取,對于原始的LBP算法來說,其最大的缺點(diǎn)在于它只能覆蓋一個(gè)固定的小區(qū)域,這并不能滿足不同尺寸和不同頻率紋理的需求。繼原始LBP算法之后又出現(xiàn)了許多改進(jìn)的LBP算法,例如LBP等價(jià)模式、多尺度LBP(Multiscale BlockLBP)和CS-LBP(Center-Symmetric LBP)等,本文通過比較后決定采用CircularLBP算法,因?yàn)槠渚哂行D(zhuǎn)不變性、灰度不變性及光照變化不敏感等顯著的優(yōu)點(diǎn)。利用LBP算法對歸一化的數(shù)據(jù)集進(jìn)行紋理特征的提取,通過多次實(shí)驗(yàn),對比LBP(R=1,P=8)、LBP(R=3,P=8)和LBP(R=1,P=6)不同參數(shù)下表情識別的效果,最終采用半徑R=1和采樣點(diǎn)P=6時(shí)的最佳結(jié)果。不同參數(shù)下的特征提取效果圖如圖2所示。

1.2 改進(jìn)后的VGG網(wǎng)絡(luò)

為快速、準(zhǔn)確地對面部表情實(shí)現(xiàn)分類,需要對VGG-16模型進(jìn)行一定的改進(jìn),改進(jìn)后的模型NEW-VGG如圖3所示。眾所周知,在VGG-16網(wǎng)絡(luò)模型中,第一個(gè)全連接層FC1有4 096個(gè)節(jié)點(diǎn),上一層POOL2有7×7×512=25 088個(gè)節(jié)點(diǎn),則該傳輸需要4 096×25 088個(gè)權(quán)值,需要消耗很大的內(nèi)存。LIN等[7]設(shè)計(jì)了一個(gè)維度自適應(yīng)全局平均池化(GlobalAverage Pooling,GAP)層取代傳統(tǒng)CNN中的全連接層,用于融合學(xué)習(xí)到的深度特征。借鑒LIN等[7]提出的方法,在NEWVGG模型中利用自適應(yīng)全局平均池化層(GAP)取代傳統(tǒng)VGG-16中的全連接層,解決全連接層容易造成的過擬合、參數(shù)超多及模型臃腫等問題,極大地降低了模型的訓(xùn)練速度。此外,在VGG-16模型的第一層卷積層后和全局平均池化層前加入注意力機(jī)制模塊,可以使模型更多地關(guān)注面部表情中一些重要的特征。在本文模型的每個(gè)卷積層之后還添加了BN 層、ReLU激活函數(shù)和2×2最大池化層。BN層和ReLU 激活函數(shù)可以使卷積層線性輸出的數(shù)據(jù)以非線性化的形式來表達(dá),避免梯度爆炸和彌漫的問題。Softmax層則是進(jìn)行表情圖片的輸出分類。

1.3 注意力機(jī)制模塊

在NEW-VGG網(wǎng)絡(luò)中,為了達(dá)到快速準(zhǔn)確的分類效果,采用增加不同區(qū)域特征的關(guān)注程度,加入注意力模塊的方法,即引入注意力機(jī)制,這已經(jīng)被證明在像素級計(jì)算機(jī)視覺任務(wù)中能取得不錯(cuò)的效果,可以使模型更多地關(guān)注面部表情一些重要的特征。

本文所提注意力機(jī)制模塊采用混合注意力機(jī)制(CBAM)[8],CBAM模塊會(huì)沿著通道和空間兩個(gè)維度依次獲取注意力特征圖,然后將注意力特征圖與輸入特征圖相乘,對特征進(jìn)行自適應(yīng)修飾。相較于只具有通道注意力機(jī)制的SENet[9]來說,CBAM 模塊可以取得更好的效果。同時(shí),CBAM模塊還是輕量級的,在保證網(wǎng)絡(luò)模型速度穩(wěn)定的情況下,還可以提高對面部表情的識別率。混合注意力機(jī)制(CBAM)網(wǎng)絡(luò)框架圖如圖4所示。

對于本文來說,LBP提取的紋理特征經(jīng)過一次卷積后得到在空間維度上的特征圖F 會(huì)分別沿著全局最大池化層(Maxpool)和全局平均池化層(Avgpool)兩個(gè)方向進(jìn)行壓縮得到空間描述特征Fcmax 和Fcavg,從而提高特征圖F經(jīng)過通道注意力模塊的計(jì)算效率;空間描述特征Fcmax 和Fcavg 會(huì)經(jīng)過一個(gè)共享網(wǎng)絡(luò)MLP,將兩個(gè)特征相加后經(jīng)公式(1)得到通道注意力權(quán)重系數(shù)Wc(F)。

其中:σ 為sigmoid操作,通過公式(2)將通道注意力權(quán)重系數(shù)Wc(F)乘以輸入特征圖F生成通道注意力特征圖F1,通道注意力模塊網(wǎng)絡(luò)框架如圖5所示。

空間注意力模塊的使用是對通道注意力模塊的補(bǔ)充,其模塊內(nèi)部操作和通道注意力模塊類似。首先將通道注意力機(jī)制模塊得到的特征圖F1作為其輸入特征圖。其次輸入特征圖F1經(jīng)過最大池化層(Maxpool)和平均池化層(Avgpool)在通道維度上聚合信息,得到特征描述符Fsmax 和Fsavg,將特征描述符Fsmax 和Fsavg 橫向拼接后傳入一個(gè)7×7的卷積核中進(jìn)行卷積操作;通過公式(3)得到空間注意力權(quán)重系數(shù)Ws(F)。

其中:σ 為sigmoid操作,通過公式(4)將空間注意力權(quán)重系數(shù)Ws(F)乘以輸入特征圖F1生成空間注意力特征圖F2,這樣就可以使輸入的特征圖變成更為精細(xì)的特征圖,從而進(jìn)一步增強(qiáng)NEW-VGG網(wǎng)絡(luò)的魯棒性??臻g注意力模塊網(wǎng)絡(luò)框架如圖6所示。

2 實(shí)驗(yàn)(Experimental)

2.1 實(shí)驗(yàn)條件

本文實(shí)驗(yàn)的開發(fā)環(huán)境是基于Python語言的PyTorch框架,實(shí)驗(yàn)軟硬件平臺為64位Linux操作系統(tǒng)、CPU 為第三代Intel Xeon Gold系列,主頻為2.2 GHz,內(nèi)存為32 GB,GPU型號為NVIDIA RTX A4000,顯存是16 GB。本文選取了兩種著名的人臉表情數(shù)據(jù)集CK+數(shù)據(jù)集、Fer2013數(shù)據(jù)集。兩種數(shù)據(jù)集在樣本數(shù)量、參與者的種族和參與者的年齡上具有較大差異,甚至數(shù)據(jù)集中還有些圖片并不是關(guān)于人臉表情的。本文選取這兩種數(shù)據(jù)集可以確保網(wǎng)絡(luò)模型的可靠性。本文實(shí)驗(yàn)方法采用消融實(shí)驗(yàn)法,探索全局平均池化層和注意力模塊對VGG-16網(wǎng)絡(luò)的影響。本文驗(yàn)證方法采用10倍交叉驗(yàn)證法,將預(yù)處理好的CK+和Fer2013數(shù)據(jù)集分為10份進(jìn)行實(shí)驗(yàn)以測試算法的準(zhǔn)確性,其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù)。

由于CK+和Fer2013兩種實(shí)驗(yàn)數(shù)據(jù)集樣本數(shù)量存在較大差異,本文對兩種數(shù)據(jù)集設(shè)置了不同的網(wǎng)絡(luò)模型參數(shù)(表1)。

2.2 實(shí)驗(yàn)結(jié)果和分析

為了驗(yàn)證本文改進(jìn)方法的正確性,對其進(jìn)行消融實(shí)驗(yàn),并在CK+數(shù)據(jù)集上做多次測試,選取平均識別率作為最終的測試結(jié)果(表2)。由表2中的數(shù)據(jù)可知,融合了注意力機(jī)制且用平均池化層替代全連接層的NEW-VGG模型,比基準(zhǔn)模型的識別準(zhǔn)確率高。同時(shí)還發(fā)現(xiàn)NEW-VGG在CK+數(shù)據(jù)集上訓(xùn)練迭代一次的平均時(shí)間為0.1 s,而基準(zhǔn)模型訓(xùn)練迭代一次的平均時(shí)間為0.2 s,對比后發(fā)現(xiàn)NEW-VGG模型訓(xùn)練速度更快,LBP和NEW-VGG融合后的識別率進(jìn)一步提高,達(dá)到較好的識別效果。

本文比較了本文所提方法和文獻(xiàn)[10][該文獻(xiàn)主要探究準(zhǔn)映射網(wǎng)絡(luò)(AMN)在Fer2013數(shù)據(jù)集的性能表現(xiàn)]、文獻(xiàn)[11][該文獻(xiàn)本文首先綜述了目前最流行和最先進(jìn)的降維方法,然后提出了一種新的、更有效的流形學(xué)習(xí)方法—軟局部保持映射(SLPM)并探究其在CK+和Fer2013數(shù)據(jù)集上的表現(xiàn)]、文獻(xiàn)[12](該文獻(xiàn)為了進(jìn)行分類,使用了基于樣本和原型分布的庫爾巴克判別法的方法)、文獻(xiàn)[13][該文獻(xiàn)首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從VGG_Faces中學(xué)習(xí)面部特征,然后將其鏈接到長短期記憶網(wǎng)絡(luò),以利用視頻幀之間的時(shí)間關(guān)系,報(bào)告了CK+面部表情數(shù)據(jù)集中的競爭結(jié)果]、文獻(xiàn)[14][該文獻(xiàn)提出了一種面部姿勢生成對抗網(wǎng)絡(luò)(FaPE-GAN),用于合成新的面部表情圖像以增強(qiáng)數(shù)據(jù)集并應(yīng)用于訓(xùn)練目的,然后學(xué)習(xí)基于LightCNN的Fa-Net模型進(jìn)行表情分類]在CK+和Fer2013數(shù)據(jù)集上的準(zhǔn)確度(表3、表4),表3和表4的結(jié)果表明,本文所提方法的識別率明顯高于其他方法。

本文通過繪制混淆矩陣探究每個(gè)表情在不同數(shù)據(jù)集上的識別效果。CK+混淆矩陣中對開心、驚訝和蔑視3種表情的識別率最高,因?yàn)槿藗冊谧龀鲞@3種表情時(shí),其面部顯露特點(diǎn)比較明顯,不易與其他表情混淆;然而,生氣、憎惡、恐懼和悲傷4種表情的識別率相對較低,這是因?yàn)槿嗽谙麡O的情況下表露的表情的特點(diǎn)較為相似,這也給網(wǎng)絡(luò)模型區(qū)分這些表情帶來了一定的困難。本文所提方法在CK+數(shù)據(jù)集和Fer2013數(shù)據(jù)集上的混淆矩陣分別見表5和表6。Fer2013數(shù)據(jù)集上的混淆矩陣中只有開心和驚訝2種表情的識別率最高,其他5種表情的識別率較低。主要原因在于Fer2013數(shù)據(jù)集標(biāo)簽本身存在錯(cuò)誤且受干擾因素也比較多,這也說明了原始數(shù)據(jù)集樣本在實(shí)驗(yàn)過程中的重要性。

3 結(jié)論(Conclusion)

本文提出了一種融合LBP特征和注意力機(jī)制的面部表情識別方法,通過對VGG-16網(wǎng)絡(luò)進(jìn)行改進(jìn),創(chuàng)建出了NEWVGG模型,并通過消融實(shí)驗(yàn)驗(yàn)證了全局平均池化層和注意力機(jī)制對VGG-16網(wǎng)絡(luò)模型在速度、精度提升上的正確性。將LBP算法和NEW-VGG模型進(jìn)行融合,并對CK+和Fer2013兩種著名人臉表情數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型在CK+和Fer2013數(shù)據(jù)集上分別取得了97.98%和76.75%的準(zhǔn)確率,經(jīng)與其他文獻(xiàn)識別率對比可以發(fā)現(xiàn),本文方法明顯高于文獻(xiàn)[10]至文獻(xiàn)[14]的表情識別方法。但是,從實(shí)驗(yàn)中繪制的數(shù)據(jù)集混淆矩陣可以發(fā)現(xiàn),本文所提方法針對生氣、恐懼和悲傷表情的識別效果不盡如人意。在接下來的工作中,應(yīng)考慮進(jìn)一步探索用更好的深度學(xué)習(xí)方法增強(qiáng)網(wǎng)絡(luò),通過增強(qiáng)數(shù)據(jù)特征的提取,以便更加快速、準(zhǔn)確地區(qū)分易混淆的面部表情。

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測生成模型
多特征融合的中文實(shí)體關(guān)系抽取研究
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
從餐館評論中提取方面術(shù)語
基于深度學(xué)習(xí)的手分割算法研究
基于序列到序列模型的文本到信息框生成的研究
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
沁水县| 新安县| 始兴县| 恩施市| 娄底市| 栾城县| 江门市| 汾阳市| 铜鼓县| 柳州市| 金塔县| 新河县| 大田县| 新丰县| 剑阁县| 乐山市| 湟源县| 肇源县| 浮梁县| 彰武县| 澜沧| 大邑县| 桐梓县| 武汉市| 嘉定区| 凤翔县| 丰顺县| 乐亭县| 汝城县| 泰顺县| 离岛区| 北流市| 印江| 新野县| 宁晋县| 嘉祥县| 永川市| 大理市| 夏河县| 禄丰县| 罗平县|