輕量級網(wǎng)絡(luò)在人臉表情識別上的新進(jìn)展

2024-05-24 17:34:27蔣斌崔曉梅江宏彬丁漢清袁俊嶺

計算機(jī)應(yīng)用研究 2024年3期

蔣斌崔曉梅江宏彬丁漢清袁俊嶺

摘要：作為人工智能領(lǐng)域的熱門研究方向，人臉表情識別（facial expression recognition，F(xiàn)ER）是讓計算機(jī)獲取人類感情最直接最有效的方式，在人機(jī)交互、智慧醫(yī)療、疲勞駕駛等研發(fā)課題中占據(jù)關(guān)鍵的技術(shù)地位。為了滿足高識別率的應(yīng)用需求，F(xiàn)ER深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)愈發(fā)復(fù)雜，占用了大量的計算資源和存儲空間，嚴(yán)重影響了算法實時性的要求。圍繞如何在有效提升模型運(yùn)算速度的同時，保障模型的精度這一問題展開綜述。首先，介紹了利用輕量級網(wǎng)絡(luò)實現(xiàn)表情識別的重要數(shù)據(jù)集；其次，對用于人臉表情識別的經(jīng)典輕量級網(wǎng)絡(luò)模型進(jìn)行了分析；再次，闡述了主要的網(wǎng)絡(luò)輕量化方法的原理、特點及適用場景；最后，總結(jié)了輕量級網(wǎng)絡(luò)在人臉表情識別研究中存在的問題和挑戰(zhàn)，對未來的研究方向進(jìn)行展望。

關(guān)鍵詞：人臉表情識別；輕量化網(wǎng)絡(luò)；網(wǎng)絡(luò)輕量化；深度學(xué)習(xí)

中圖分類號：TP391?? 文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2024）03-003-0663-08

doi：10.19734/j.issn.1001-3695.2023.07.0287

New advances in lightweight networks for facial expression recognition

Jiang Bin，Cui Xiaomei，Jiang Hongbin，Ding Hanqing，Yuan Junling

（School of Computer Science & Technology，Zhengzhou University of Light Industry，Zhengzhou 450001，China）

Abstract：As a popular research direction in the field of artificial intelligence，F(xiàn)ER is the most direct and effective way for computers to access human emotions.It occupies a key technical position in human-computer interaction，intelligent medical care，fatigue driving，and other R&D topics.In order to meet the application requirements of high recognition rate，the structure of FER deep learning network becomes more and more complex，occupying a large amount of computing resources and storage space，which seriously affects the real-time requirements of the algorithm.This paper focused on the problem of how to guarantee the accuracy of the model while effectively improving its computational speed.Firstly，it introduced the important datasets for expression recognition using lightweight networks.Secondly，it analyzed the classical lightweight network models used for facial expression recognition.Thirdly，it described the principles，characteristics，and applicable scenarios of the main network lightweighting methods.Finally，it summarized the problems and challenges of lightweight networks in facial expression recognition research and looked forward to the future research direction.

Key words：facial expression recognition；lightweight network；network lightweighting；deep learning

0 引言

面部表情是人類表達(dá)情感狀態(tài)最真實、最有效的信號之一。人臉表情識別（FER）通過人臉檢測、人臉對齊、特征提取、分類等幾個部分［1］識別人的表情，并在智能控制、心理學(xué)、虛擬現(xiàn)實、人機(jī)交互、安防等領(lǐng)域得到廣泛應(yīng)用。

完成FER的關(guān)鍵在于如何有效獲取人臉的表情特征。在深度學(xué)習(xí)熱潮之前，表情識別研究多采用基于機(jī)器學(xué)習(xí)的方法，從整體、局部、幾何、模型等多個角度，獲取面部表情特征。經(jīng)典方法，如局部二值模式（LBP）［2］、方向梯度直方圖（HOG）［3］等，依靠手工提取人臉表情樣本的淺層特征，也能夠準(zhǔn)確地分析和判斷部分測試者的面部表情。然而當(dāng)被識別者處于復(fù)雜多變的環(huán)境時，上述方法難以維持較高的識別率。

深度學(xué)習(xí)技術(shù)的異軍突起給基于機(jī)器學(xué)習(xí)的表情識別方法注入了新的活力?；谏疃葘W(xué)習(xí)的表情識別方法主要包含三個步驟：首先，針對輸入樣本（圖像或視頻）進(jìn)行預(yù)處理，如去噪、分析定位等，若樣本圖像模糊，還需要先對樣本圖像進(jìn)行修復(fù)，現(xiàn)有技術(shù)已經(jīng)能夠滿足實驗要求［4，5］；其次，將處理好的圖像輸送到深度學(xué)習(xí)模型中進(jìn)行特征提??；最后，將提取到的表情特征對分類器進(jìn)行訓(xùn)練，進(jìn)行依靠訓(xùn)練后的分類器正確地預(yù)測樣本的表情分類。與傳統(tǒng)方法不同的是，在深度學(xué)習(xí)方法中，特征提取和分類的過程均可由深度學(xué)習(xí)模型自行完成［6］。文獻(xiàn)［7，8］均采用多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)（CNN）的方法，提高了FER模型的性能。文獻(xiàn)［9］將LBP與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合，在一定程度上解決了旋轉(zhuǎn)問題。文獻(xiàn)［10］提出一種加權(quán)混合深度神經(jīng)網(wǎng)絡(luò)（weighted mixture Feep neural network，WMDNN）自動提取對FER任務(wù)有效的特征，可以通過更簡單的程序?qū)崿F(xiàn)強(qiáng)大的性能。文獻(xiàn)［11］提出一種模擬粗到細(xì)視覺注意的新型多注意網(wǎng)絡(luò)，以學(xué)習(xí)表達(dá)相關(guān)區(qū)域的判別特征。由此可見，深度學(xué)習(xí)的出現(xiàn)使人臉表情識別取得了很大的進(jìn)展，各種高精度卷積神經(jīng)網(wǎng)絡(luò)陸續(xù)被用于表情識別研究，但體積大，計算復(fù)雜阻礙了卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的落地。因此輕量級卷積神經(jīng)網(wǎng)絡(luò)和網(wǎng)絡(luò)模型輕量化方法成為了基于深度學(xué)習(xí)的人臉表情識別的重要研究方向。

輕量級人臉表情識別研究的識別任務(wù)是人臉表情樣本，具體實現(xiàn)過程包括兩個方面：a）依托現(xiàn)有輕量級網(wǎng)絡(luò)進(jìn)行人臉表情識別；b）對原有的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行輕量級處理，再用于人臉表情識別。因此本文從以上兩方面出發(fā)，對新型輕量級表情識別網(wǎng)絡(luò)及模型壓縮方法進(jìn)行綜述。

1 典型的人臉表情數(shù)據(jù)集

由于輕量級表情識別研究更側(cè)重于人臉表情識別技術(shù)的實用化，所以其采用的人臉表情數(shù)據(jù)集更青睞于賦予網(wǎng)絡(luò)在真實環(huán)境下開展表情識別所面臨的挑戰(zhàn)。例如：光照不均衡、頭部姿態(tài)的不一致、人臉的部分遮擋，以及識別對象的復(fù)雜性都增加了表情識別的難度。

典型的人臉表情數(shù)據(jù)集如下所示。

a）CK+數(shù)據(jù)庫是Lucey等人［12］在Cohn-Kanade數(shù)據(jù)庫的基礎(chǔ)上創(chuàng)建的。該庫包含了來自123位不同民族參與者的593段人臉表情圖像序列，完整展示了人臉表情從開始到完全展現(xiàn)的過程，如圖1所示。

b）FER2013數(shù)據(jù)集［13］是由Google Research創(chuàng)建的公開數(shù)據(jù)庫，其中包含測試圖28708張，公共驗證圖和私有驗證圖各3 589張，如圖2所示。該庫包含了遮擋、姿態(tài)、光照等真實環(huán)境變化下的表情圖像。

c）AffectNet數(shù)據(jù)集［14］是由Affectiva公司推出大規(guī)模野外面部表情數(shù)據(jù)集，包含超過一百萬張面部圖片，每個圖像都標(biāo)記了相應(yīng)的情感類別。它們涵蓋了不同性別、不同年齡和不同種族的面孔，以反映真實世界中的多樣性。

d）RaFD數(shù)據(jù)庫［15］是由不同年齡、性別及膚色的67位表演者拍攝而成，共有8 400張圖像，包含高興、悲傷、厭惡、驚奇、恐懼、生氣、輕蔑以及中立表情8種基本表情。每種表情有5種不同的姿態(tài)和3種不同的眼神方向。

e）CelebA-Spoof數(shù)據(jù)庫［16］是由北京交通大學(xué)、商湯科技及香港中文大學(xué)共同創(chuàng)建，包含10 177個名人超過62萬張的人臉數(shù)據(jù)集，每個圖像還伴隨著43個屬性標(biāo)簽，40個屬于活體圖像面部信息，如皮膚、鼻子、發(fā)型、眼鏡等，3個屬于欺騙類型標(biāo)注，即使用照片、視頻或面具等非真實人臉進(jìn)行欺騙的情況。

上述人臉表情數(shù)據(jù)集的對比如表1所示。

2 用于表情識別的輕量化網(wǎng)絡(luò)

隨著嵌入式設(shè)備的普及，在嵌入式設(shè)備上部署深度模型已成為一種趨勢。大多數(shù)高精度模型都需要大量的計算成本。因此，開發(fā)一種運(yùn)行在嵌入式設(shè)備上進(jìn)行表情識別的輕量級網(wǎng)絡(luò)模型是當(dāng)前研究的熱點。本文將介紹幾個比較熱門的用于人臉與表情識別的輕量級卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)表情識別基本原理如圖3所示。

2.1 MobileNet系列模型

從AlexNet ［17］通過贏得ImageNet Challenge：ILSVRC 2012［18］推廣了深度卷積神經(jīng)網(wǎng)絡(luò)以來，卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中已經(jīng)變得無處不在。為了獲得更高的精度，一般的趨勢是制作更深入、更復(fù)雜的網(wǎng)絡(luò)［19，20］，然而，這會導(dǎo)致網(wǎng)絡(luò)變得更加龐大和計算資源消耗更高。自此從2017年開始，谷歌先后提出了MobileNetV1［21］、MobileNetV2［22］、MobileNetV3［23］，這些都可以應(yīng)用于移動和嵌入式設(shè)備中，并且這些模型在ImageNet數(shù)據(jù)集上取得了很高的精度。

2.1.1 MobileNetV1

MobileNetV1［21］是一種高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)，它使用深度可分離卷積（depthwise separable convolution，DSC）代替標(biāo)準(zhǔn)卷積來降低模型參數(shù)，從而提高網(wǎng)絡(luò)的計算效率和精度。在MobileNetV1中，深度可分離卷積被用作卷積層的基本構(gòu)建塊，它由深度卷積（depthwise convolution，DW）和逐點卷積（pointwise convolution，PW）組成。

在人臉與表情識別方面，MobileNetV1可以用于特征提取。首先，通過人臉檢測和對齊等技術(shù)，將人臉部分提取出來。然后，將人臉圖像輸入MobileNetV1模型進(jìn)行特征提取，得到人臉的表情特征。最后，將特征輸入分類器進(jìn)行訓(xùn)練，實現(xiàn)人臉與表情的識別。

文獻(xiàn)［24］在MobileNetV1的網(wǎng)絡(luò)模型中，引入了注意力模塊，增強(qiáng)了模型對面部表情局部特征的提取能力，然后結(jié)合中心損耗和softmax損耗對模型參數(shù)進(jìn)行優(yōu)化，減小類內(nèi)距離，增大類間距離，并加入了dropout技術(shù)，防止過擬合。在不增加模型參數(shù)數(shù)量的情況下，顯著提高了識別精度，但是還需進(jìn)一步提高模型的分類能力。

2.1.2 MobileNetV2

MobileNetV2［22］是一種輕量級的卷積神經(jīng)網(wǎng)絡(luò)模型，可以用于人臉和表情識別等相關(guān)領(lǐng)域。該模型在MobileNetV1的基礎(chǔ)上增加了殘差結(jié)構(gòu)，并引入了線性瓶頸和倒殘差結(jié)構(gòu)，以解決通道數(shù)較少的feature map上的信息丟失問題。在人臉識別和表情識別中，低維流形映射到高維空間的特征表達(dá)通常包含重要信息。MobileNetV2通過在卷積塊中插入線性瓶頸層來捕獲這些信息，同時在最后一層卷積中使用線性激活函數(shù)來避免過多的信息損失。倒殘差結(jié)構(gòu)可以提高內(nèi)存效率，使得MobileNetV2能夠在保持模型輕量級的同時，更好地捕獲人臉和表情相關(guān)的特征，提高識別精度和效率。

文獻(xiàn)［25］利用MobileNetV2優(yōu)化SSD網(wǎng)絡(luò)結(jié)構(gòu)，解決模型參數(shù)過多的問題。并且受注意力機(jī)制提高特征提取能力的啟發(fā)，使用卷積塊注意力模塊（convolutional block attention mo-dule，CBAM）［26］從通道和空間兩方面優(yōu)化MobileNetV2網(wǎng)絡(luò)，將三個網(wǎng)絡(luò)的特征結(jié)合起來。該方法減少了識別參數(shù)的數(shù)量，但對于負(fù)面情緒的識別精度較低。文獻(xiàn)［27］在MobileNetV2的基礎(chǔ)上使用了多層輕量級卷積和特征融合方法，提高了網(wǎng)絡(luò)的運(yùn)行效率和表情識別的檢測精度。

2.1.3 MobileNetV3

MobileNetV3［23］適用于資源受限場景的輕量級卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)提供了MobileNetV3 large和MobileNetV3 small兩個版本，可根據(jù)具體資源需求進(jìn)行選擇。它結(jié)合了MobileNetV1的深度可分離卷積、MobileNetV2的linear bottleneck和inverted residuals結(jié)構(gòu)以及SE模塊［28］，并利用平臺感知的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索（neural architecture search，NAS）［29］進(jìn)行自動網(wǎng)絡(luò)搜索，從而大大提高了MobileNetV3在人臉與表情識別中的識別精度。

MobileNetV3的反向瓶頸結(jié)構(gòu)和變體基于MobileNetV2，并使用1×1卷積作為最后一層，以擴(kuò)展到高維特征空間，提高預(yù)測性能，但這也會帶來額外的延遲。為了進(jìn)一步減少延遲、減少計算量，MobileNetV3對原始結(jié)構(gòu)進(jìn)行了優(yōu)化。經(jīng)過優(yōu)化后，MobileNetV3幾乎不損失精度的情況下有效地減少了7 ms的延遲，相當(dāng)于運(yùn)行時間的11%，并減少了3 000萬個乘加累積操作數(shù)MAdds的操作數(shù)量［23］。這種優(yōu)化使MobileNetV3更適合于人臉與表情識別等資源受限的應(yīng)用場景，從而在實際應(yīng)用中更高效、準(zhǔn)確。文獻(xiàn)［30］在MobileNet網(wǎng)絡(luò)的基礎(chǔ)上增加卷積層的數(shù)量和通道數(shù)，增加殘差連接及注意力機(jī)制，實現(xiàn)了對人臉圖像的有效分類。

2.2 ShuffleNet

ShuffleNet［31］是計算效率極高的輕量級CNN架構(gòu)，通過逐點群卷積和通道混洗來提高計算效率兩種新的操作。其中，逐點群卷積是對點卷積的一種改進(jìn)，它可以在保持計算效率的同時提高精度。通道混洗則是通過重新分組輸入通道，將不同的通道組合在一起，從而降低計算成本。

ShuffleNet的基礎(chǔ)塊采用了瓶頸結(jié)構(gòu)和群卷積，通過反復(fù)堆疊這些基礎(chǔ)塊來構(gòu)建整個網(wǎng)絡(luò)。在群卷積中，將輸入通道分為若干組，每組只進(jìn)行局部卷積操作，從而降低計算復(fù)雜度。

ShuffleNetV2［32］在ShuffleNet的基礎(chǔ)上引入了通道拆分算子，可以在不太多群的情況下保持大量和等寬的信道，從而最小化內(nèi)存訪問量。這種算子可以避免通道混洗算子破壞數(shù)據(jù)存儲連續(xù)性的問題。

在人臉表情識別等領(lǐng)域，ShuffleNet可以與MTCNN［33］等其他算法結(jié)合使用，從而實現(xiàn)快速和準(zhǔn)確的識別。通過一系列優(yōu)化操作，包括瓶頸結(jié)構(gòu)、深度可分離卷積、群卷積和通道拆分，ShuffleNet實現(xiàn)了高效和準(zhǔn)確的特征提取和分類。同時，ShuffleNet還可以適用于計算資源受限的場景，例如移動端和嵌入式設(shè)備。

文獻(xiàn)［34］從特征提取的角度，對傳統(tǒng)的ShuffleNetV2網(wǎng)絡(luò)模型作出改進(jìn)，進(jìn)一步壓縮了模型的計算復(fù)雜度，增強(qiáng)模型的性能，通過標(biāo)簽平滑學(xué)習(xí)，利用軟標(biāo)簽監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)來解決單標(biāo)簽信息量不足所導(dǎo)致的歧義表情問題，相較于目前其他人臉表情識別方法，其識別率有一定的提高，同時模型參數(shù)量和計算量保持在較低水平，利于其在實際中的應(yīng)用。文獻(xiàn)［35］改進(jìn)的ShuffleNet設(shè)計，引入了分組卷積和通道隨機(jī)重排等技術(shù)，使得網(wǎng)絡(luò)具有較高的識別精度和較快的推理速度。表2列舉出上述網(wǎng)絡(luò)模型識別精度與計算量數(shù)據(jù)，可以看出同時間發(fā)表的MobileNetV3的性能是最好的，ShuffleNetV2次之，而ShuffleNetV1與MobileNetV2顯然要差一些。

2.3 LA-Net

LA-Net［36］是一種新穎的輕量級注意力網(wǎng)絡(luò)模型，用于人臉表情識別。該模型結(jié)合了SE模塊和CNN網(wǎng)絡(luò)，通過給每個特征通道分配一定的權(quán)重，重點學(xué)習(xí)人臉的顯著特征，減少冗余信息，從而提取出判別特征。LA-Net包含五個塊，分別是block 1～5，每個塊由多個3×3卷積層組成。對于所有的五個塊，步幅都是1。每個塊后面都有一個SE-block，用于學(xué)習(xí)有選擇地放大有價值的特征通道，抑制無用的特征通道以減少冗余信息。

由于計算成本高、模型規(guī)模大的限制，LA-Net采用了網(wǎng)絡(luò)瘦身法，通過進(jìn)一步減小模型的尺寸，得到一個精簡緊湊的網(wǎng)絡(luò)，使用更少的運(yùn)行時內(nèi)存和計算操作，從而在資源有限的設(shè)備上實現(xiàn)高性能FER。雖然該方法可以節(jié)省高達(dá)5.6倍的參數(shù)，觸發(fā)器的減少量通常在15倍左右，微調(diào)后的網(wǎng)絡(luò)可能比原始模型的識別精度有所下降。然而，在數(shù)據(jù)集樣本相對平衡，面部表情特征區(qū)別相對較大的情況下，LA-Net在人臉表情識別方面具有較高的準(zhǔn)確率。

2.4 MFF-CNN

MFF-CNN（multi-feature fusion based convolutional neural network）［37］是一種用于人臉表情識別的卷積神經(jīng)網(wǎng)絡(luò)。它采用了多特征融合的策略，包括一個image分支和一個patch分支。image branch從全局的角度對輸入圖像進(jìn)行中層和高層特征的提取，patch branch將輸入圖像分割成16個重疊的圖像小塊，并從每個小塊中提取局部特征。通過特征向量選擇機(jī)制，MFF-CNN選擇最具有辨別性的局部特征，減少后續(xù)全連接層的計算節(jié)點。最后，image branch和patch branch進(jìn)行聯(lián)合調(diào)優(yōu)，將兩個分支產(chǎn)生的特征進(jìn)行正確融合，提高了人臉與表情識別的準(zhǔn)確性。

然而，對于更復(fù)雜的FER任務(wù)，MFF-CNN可能需要使用更深層次的卷積神經(jīng)網(wǎng)絡(luò)以更好地捕獲表情的細(xì)節(jié)和復(fù)雜性。由于MFF-CNN使用的卷積層數(shù)較少，可能在處理不受約束的FER任務(wù)時存在性能下降的問題。因此，在這些情況下，需要使用更先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型來提高FER任務(wù)的性能。

2.5 SDNet

SDNet［38］是在XceptionNet［39］和DenseNet［40］的啟發(fā)下提出的一種基于深度可分離卷積和密集塊的人臉與表情識別網(wǎng)絡(luò)模型，旨在降低模型參數(shù)并提高效率。該模型采用殘差結(jié)構(gòu)以解決網(wǎng)絡(luò)退化問題，并增強(qiáng)深度特征在不同層間的傳遞性。此外，SDNet還提出了自適應(yīng)類權(quán)重作用以緩解樣品不平衡，并采用RO損失函數(shù)以避免過擬合。通過實驗室控制的數(shù)據(jù)集和野外數(shù)據(jù)集的測試，SDNet在人臉與表情識別相關(guān)方面表現(xiàn)出色，具有輕量級和高精度的特點。

2.6 EfficientFace

EfficientFace［41］是一種用于面部遮擋表情識別的輕量級網(wǎng)絡(luò)。由于實際場景中存在著遮擋和姿態(tài)變化等問題，對比各種人臉去遮擋技術(shù)［42，43］，EfficientFace提出了局部特征提取器和信道空間調(diào)制器來解決這些問題。此外，提出了一種新的標(biāo)簽分布學(xué)習(xí)方法，這與心理學(xué)家Plutchik［44］的理論是一致的。通過這些技術(shù)手段，EfficientFace可以更準(zhǔn)確地提取人臉局部特征，從而提高模型在野外FER任務(wù)中的效果。

相較于傳統(tǒng)基于人臉標(biāo)志的局部特征獲取方法，EfficientFace的局部特征提取器可以更高效地提取局部區(qū)域特征，并將其以殘差形式融合到全局特征中，提高了特征提取的效率和準(zhǔn)確性。此外，EfficientFace提出了一種新的標(biāo)簽分布學(xué)習(xí)方法，即標(biāo)簽分發(fā)生成器（label distribution generator，LDG）用于解決人臉圖像的情感分布標(biāo)注困難的問題。LDG可以生成用于訓(xùn)練的標(biāo)簽分發(fā)，使模型更好地利用數(shù)據(jù)，提高模型的性能。

總的來說，EfficientFace在人臉與表情識別任務(wù)中，通過使用輕量級網(wǎng)絡(luò)、局部特征提取器、信道空間調(diào)制器和標(biāo)簽分布學(xué)習(xí)方法等技術(shù)手段，可以更有效地提取局部特征，同時解決數(shù)據(jù)標(biāo)注的問題，從而取得更好的效果。表3對相關(guān)網(wǎng)絡(luò)模型進(jìn)行了分析。

3 用于表情識別的網(wǎng)絡(luò)輕量化

在人臉表情識別領(lǐng)域，小型設(shè)備上無法部署現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)模型的問題一直存在。為了解決這一問題，研究者們開始探索對模型進(jìn)行有效壓縮的方法，以在保持模型性能不變的前提下減少計算量和存儲空間。當(dāng)前的研究熱點包括量化、低秩分解、網(wǎng)絡(luò)修剪、輕量化網(wǎng)絡(luò)設(shè)計和知識蒸餾。這些方法有助于在小型設(shè)備上實現(xiàn)高性能的人臉表情識別。

3.1 網(wǎng)絡(luò)量化

網(wǎng)絡(luò)量化［45］是一種在保證模型精度的前提下，減少模型參數(shù)量、計算量和存儲空間的壓縮方法，被廣泛應(yīng)用于人臉識別和表情識別等領(lǐng)域。其中，二值化權(quán)重是一種常用的量化方法，通過將權(quán)重限制在兩個可能值之間來達(dá)到參數(shù)壓縮的效果。文獻(xiàn)［46］提出了一種稱為binary connect的方法，通過約束在這些前向和后向傳播中使用的權(quán)重為二進(jìn)制來消除對這些乘法的需要，從而將這些乘法運(yùn)算變?yōu)榧訙p運(yùn)算。然而，僅使用二值化權(quán)重可能會存在信息丟失的問題，從而影響模型性能。為了解決這個問題，Qin等人［47］提出了一個信息保留網(wǎng)絡(luò)（IR-Net）來保留包含向前激活和向后梯度的信息。文獻(xiàn)［48］采用二值權(quán)重和低比特位激活值的量化方式在保持高準(zhǔn)確性的同時，大大減少了網(wǎng)絡(luò)的計算和存儲開銷，使得人臉識別模型可以更好地適應(yīng)資源受限的小型設(shè)備。文獻(xiàn)［49］通過將網(wǎng)絡(luò)參數(shù)進(jìn)行量化和壓縮來減少模型的大小和計算量，并且不會顯著降低識別性能，對于實現(xiàn)高效率的人臉識別具有重要意義。

LA-Net將SE模塊與CNN模塊相結(jié)合，有效減少了冗余信息，并采用網(wǎng)絡(luò)瘦身法降低網(wǎng)絡(luò)模型規(guī)模與計算成本非常適合在資源受限的設(shè)備上實現(xiàn)高性能FER雖然運(yùn)行內(nèi)存使用較少但是其在真實場景下識別精度有待提高運(yùn)行內(nèi)存有限，精度要求不高

MFF-CNN采用image分支和patch分支，進(jìn)行多特征融合，并使用L2范數(shù)選擇最優(yōu)的局部特征，減少后續(xù)全連接層的計算節(jié)點相較于其他網(wǎng)絡(luò)模型，規(guī)模更小，參數(shù)更少僅適用于約束環(huán)境下人臉表情識別對靜態(tài)圖片識別較多

SDNET使用自適應(yīng)的分類權(quán)值和RO損失函數(shù)在保持識別精度的同時大幅降低網(wǎng)絡(luò)參數(shù)在樣本數(shù)量不平衡的情況下仍保持較高的識別精度在野外數(shù)據(jù)集的識別精度較低表情代表性不足且要求識別精度較高

EfficientFace在ShuffleNetV2的基礎(chǔ)上提出了局部特征提取器和信道空間調(diào)制器，在遮擋和姿勢變化的條件下，特征提取結(jié)果仍較準(zhǔn)確在實際遮擋和姿態(tài)變化明顯的前提下仍能有較高的識別精度在人臉微表情發(fā)生變化時，識別精度較大差距面部有遮擋且姿態(tài)易變化

3.2 低秩分解

在人臉與表情識別的相關(guān)領(lǐng)域，低秩壓縮方法也被廣泛應(yīng)用于模型壓縮與加速。

一種常見的方法是使用低秩濾波器來近似預(yù)訓(xùn)練模型中的原始濾波器，從而減少模型參數(shù)數(shù)量和計算復(fù)雜度［50］。文獻(xiàn)［51］提出了一種直接通過最小化濾波器重構(gòu)誤差來重構(gòu)原始濾波器的方法，并且可以通過最小化卷積層輸出的重構(gòu)誤差來間接逼近卷積層。Tai等人［52］提出了一種新的計算低秩張量分解的算法，并在BN層將內(nèi)部隱藏單元的激活歸一化。雖然該方法在壓縮模型參數(shù)方面效果顯著，但是分解操作成本過高，且逐層分解不利于全局參數(shù)壓縮，目前使用較少。文獻(xiàn)［53］提出的低秩矩陣分解算法GoDec+，具有魯棒性強(qiáng)，分類速度快的優(yōu)點。

3.3 模型剪枝

模型剪枝是一種有效的網(wǎng)絡(luò)壓縮方法，可以通過刪除冗余的通道或網(wǎng)絡(luò)結(jié)構(gòu)，減小模型的大小并提高推理速度［45］，同時保持準(zhǔn)確度。針對人臉表情識別任務(wù)，可以采用非結(jié)構(gòu)化剪枝、結(jié)構(gòu)化剪枝和自動化剪枝等方法。

3.3.1 非結(jié)構(gòu)化模型剪枝

非結(jié)構(gòu)化剪枝是隨機(jī)刪除一些通道或權(quán)重，簡單易行，但可能會破壞網(wǎng)絡(luò)結(jié)構(gòu)平衡性，影響準(zhǔn)確度。Han等人［54］提出在不改變網(wǎng)絡(luò)結(jié)構(gòu)的情況下通過刪減不重要的連接，來減少存儲和計算所需的神經(jīng)網(wǎng)絡(luò)數(shù)量級。Zhang等人［55］提出一種新的DNN權(quán)重修剪和模型壓縮的系統(tǒng)框架，通過將權(quán)重修剪問題描述為一個具有組合約束的約束非凸優(yōu)化問題，利用基數(shù)函數(shù)誘導(dǎo)權(quán)重的稀疏性，采用乘數(shù)交替方向法（alternating direction method of multipliers，ADMM）將原非凸優(yōu)化問題分解為兩個子問題，迭代求解。

3.3.2 結(jié)構(gòu)化模型剪枝

與非結(jié)構(gòu)化剪枝相比，結(jié)構(gòu)化剪枝則是刪除整個通道或?qū)?，可以保持平衡性和?zhǔn)確度。Liu等人［56］提出一種名為網(wǎng)絡(luò)瘦身的訓(xùn)練方案，對批處理歸一化層（batch normalization，BN）中的尺度因子進(jìn)行稀疏誘導(dǎo)正則化，從而在訓(xùn)練過程中自動識別不重要的通道并進(jìn)行修剪，從而導(dǎo)致更緊湊的網(wǎng)絡(luò)。文獻(xiàn)［57］通過剪枝算法對GoogLeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練、修剪低權(quán)重連接和再訓(xùn)練網(wǎng)絡(luò)等操作，添加全局最大池化層并保留檢測目標(biāo)的位置信息，以sigmoid交叉熵作為訓(xùn)練目標(biāo)，獲得全面的人臉表情特征信息。改進(jìn)后網(wǎng)絡(luò)得到較高的識別率，具有較好的適用性。

3.3.3 自動化模型剪枝

非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝依賴于人為設(shè)計的方案，這樣的設(shè)計往往會耗費(fèi)很長時間，因此Liu等人［58］提出了一種新的元學(xué)習(xí)（meta learning）方法，用于自動通道修剪。首先訓(xùn)練一個修剪網(wǎng)絡(luò)，可生成任一修剪網(wǎng)絡(luò)的權(quán)重，然后通過進(jìn)化搜索方法搜索出最佳修剪網(wǎng)絡(luò)從而進(jìn)行剪枝。文獻(xiàn)［59］提出了一個用于細(xì)粒度和結(jié)構(gòu)化修剪的統(tǒng)一自動修剪框架NAP（network automatic pruning），幾乎不需要超參數(shù)調(diào)優(yōu)，與之前的方法相比顯示出更好的性能。

除了模型剪枝，還可以結(jié)合其他壓縮方法來進(jìn)一步壓縮模型。例如，可以使用量化方法將浮點數(shù)參數(shù)轉(zhuǎn)換為整數(shù)參數(shù)，減小模型的大小和內(nèi)存占用，同時提高推理速度，根據(jù)具體任務(wù)和需求，可以選擇不同的剪枝方法并結(jié)合其他壓縮方法。相關(guān)方法優(yōu)劣分析見表4。

3.4 輕量級設(shè)計

為了實現(xiàn)在資源有限的設(shè)備上的實時性能要求，人臉表情識別領(lǐng)域也需要采用輕量化網(wǎng)絡(luò)設(shè)計。其中，調(diào)整卷積核大小和分組卷積運(yùn)算是兩種有效的方法來減少網(wǎng)絡(luò)的計算量和參數(shù)數(shù)量。

3.4.1 調(diào)整卷積核大小

首次提出調(diào)整卷積核大小思想是在inception V3［20］，使用較小的卷積核代替較大的卷積核。其中使用兩個3×3的卷積替換一個5×5的卷積，明顯減少了參數(shù)。除了使用3×3的卷積降低參數(shù)以外，SqueezeNet［60］則是用1×1的卷積核來替換3×3的，這使得參數(shù)減少到原來的1/9，同時減少了輸入通道的個數(shù)。文獻(xiàn)［61］保留了原SqueezeNet模型中的小卷積核去提取圖片特征，采用首尾池化層分別引入對應(yīng)的后續(xù)卷積層進(jìn)行特征融合并采用L2范數(shù)約束的方法，將最后一層的特征約束在一個球面內(nèi)。改進(jìn)后網(wǎng)絡(luò)在不降低識別率的前提下，輸入?yún)?shù)少、模型易于收斂和能夠運(yùn)行在內(nèi)存小的硬件設(shè)備。

3.4.2 分組卷積運(yùn)算

除了調(diào)整卷積核大小的方法外，分組卷積運(yùn)算也是一種有效的輕量化網(wǎng)絡(luò)設(shè)計方法。通過將輸入特征圖分成多個組，并在每個組內(nèi)進(jìn)行卷積運(yùn)算，可以降低計算量和參數(shù)數(shù)量。例如，將標(biāo)準(zhǔn)卷積運(yùn)算分解為多個組卷積運(yùn)算，有助于提高網(wǎng)絡(luò)的效率。這些方法可以幫助人臉表情識別網(wǎng)絡(luò)實現(xiàn)輕量化，以滿足在資源有限的設(shè)備上的實時性能要求。ResNeXt［62］重復(fù)聚合一組具有相同拓?fù)浣Y(jié)構(gòu)的轉(zhuǎn)換的構(gòu)建塊進(jìn)行構(gòu)建，比ResNet［63］有更高的準(zhǔn)確率。IGCNets［64］將標(biāo)準(zhǔn)卷積分解成多個組卷積，在保持網(wǎng)絡(luò)規(guī)模和計算復(fù)雜度的同時，比常規(guī)群卷積更寬，效率更高。

因此，在人臉表情識別領(lǐng)域的輕量化網(wǎng)絡(luò)設(shè)計中，調(diào)整卷積核大小和分組卷積運(yùn)算是兩種常用的方法。它們可以有效地減少網(wǎng)絡(luò)的計算量和參數(shù)數(shù)量，從而提高網(wǎng)絡(luò)的效率和實時性能。

3.5 知識蒸餾

知識蒸餾的概念最早由文獻(xiàn)［65］提出，用于訓(xùn)練具有偽標(biāo)簽的強(qiáng)分類器的壓縮模型。2015年Hinton等人［66］真正實現(xiàn)了知識蒸餾（knowledge distilling，KD）技術(shù)，其主要思想是使用教師網(wǎng)絡(luò)通過已學(xué)習(xí)的知識來指導(dǎo)學(xué)生網(wǎng)絡(luò)，將教師網(wǎng)絡(luò)的知識壓縮到深度相似的學(xué)生網(wǎng)絡(luò)中［67］。在人臉表情識別領(lǐng)域，知識蒸餾技術(shù)被廣泛應(yīng)用。通過知識蒸餾技術(shù)，小型的學(xué)生模型可以獲得與大型教師模型相似的表現(xiàn)，同時減小模型的體積和計算復(fù)雜度，適應(yīng)資源有限的設(shè)備，如移動設(shè)備和嵌入式系統(tǒng)。在表情識別任務(wù)中，教師網(wǎng)絡(luò)通常是一個表現(xiàn)良好的大型網(wǎng)絡(luò)，如ResNet或VGG［68］等。學(xué)生網(wǎng)絡(luò)通常是一個較小的網(wǎng)絡(luò)，如MobileNet或ShuffleNet等。KD的基本原理如圖4所示。

一些研究者將知識蒸餾技術(shù)與其他方法結(jié)合起來，以提高表情識別性能，Romero等人［69］提出的FitNets可以結(jié)合知識蒸餾和中間層對齊技術(shù)，提高學(xué)生網(wǎng)絡(luò)的泛化性能和分類準(zhǔn)確率。文獻(xiàn)［70］提出一種新的軟標(biāo)簽生成方式和知識蒸餾過程，把標(biāo)簽置信度估計網(wǎng)絡(luò)中豐富和獨特知識以基于響應(yīng)的方式蒸餾到表情分類網(wǎng)絡(luò)中，有效提高了表情分類網(wǎng)絡(luò)的表征能力和泛化能力。文獻(xiàn)［71］提出基于偽孿生網(wǎng)絡(luò)的知識蒸餾方法提升網(wǎng)絡(luò)模型的人臉表情識別準(zhǔn)確率。相關(guān)方法優(yōu)劣分析見表5。

4 結(jié)束語

現(xiàn)有的輕量級網(wǎng)絡(luò)雖然能夠在嵌入式設(shè)備中進(jìn)行人臉表情識別，但是遇到光照變化、面部遮擋、頭部偏轉(zhuǎn)等非理想狀態(tài)時，表情識別的準(zhǔn)確率仍然較低［72］。本文認(rèn)為該領(lǐng)域還有很多亟待解決的問題與挑戰(zhàn)：

a）數(shù)據(jù)樣本不平衡。在實際應(yīng)用中，表情數(shù)據(jù)集往往呈現(xiàn)不平衡性，即不同表情類別的樣本數(shù)量存在較大差異。這種不平衡現(xiàn)象會導(dǎo)致輕量級表情識別網(wǎng)絡(luò)在訓(xùn)練過程中偏向于學(xué)習(xí)樣本較多的表情類別，從而對樣本較少的表情識別效果較差。解決數(shù)據(jù)不平衡問題并提高對各種表情的識別能力是一個重要且具有挑戰(zhàn)性的任務(wù)。

b）模型可解釋性差。在輕量級網(wǎng)絡(luò)的設(shè)計過程中，確實會面臨模型的可解釋性問題。由于這些網(wǎng)絡(luò)通常較為復(fù)雜，缺乏直觀的可解釋性，很難理解網(wǎng)絡(luò)對表情判別的依據(jù)。提高輕量級網(wǎng)絡(luò)的可解釋性，使得人們能夠理解網(wǎng)絡(luò)的決策過程，是一個值得探索的方向。

c）實時性要求高。在某些實時應(yīng)用場景中，如智能手機(jī)和智能駕駛等，表情識別需要在非常短的時間內(nèi)完成。如何確保輕量級網(wǎng)絡(luò)在這些實時性要求下保持高準(zhǔn)確率，是一個重要的挑戰(zhàn)。

有鑒于此，本文認(rèn)為輕量級表情識別網(wǎng)絡(luò)未來可行的研究方向如下所示。

a）研究基于遷移學(xué)習(xí)的識別算法。樣本不平衡會導(dǎo)致網(wǎng)絡(luò)模型在訓(xùn)練過程中傾向于偏向樣本較多的表情類別，從而對樣本較少的表情識別效果較差，而遷移學(xué)習(xí)可以有效利用大規(guī)模數(shù)據(jù)集中的信息，提高對少數(shù)類別的識別能力。將遷移學(xué)習(xí)運(yùn)用到識別算法是一個有價值的研究方向。

b）研究基于可解釋性圖模型的輕量級網(wǎng)絡(luò)。通過使用可解釋性圖模型網(wǎng)絡(luò)結(jié)構(gòu)可以使網(wǎng)絡(luò)的決策過程更加透明，并且有助于更好地理解網(wǎng)絡(luò)在表情識別中的工作原理。通過這些探索和改進(jìn)，輕量級網(wǎng)絡(luò)可以在保持高性能的同時，具備更好的可解釋性，使其在實際應(yīng)用中更加可信和可用。

c）研究更快計算響應(yīng)的網(wǎng)絡(luò)。目前輕量級網(wǎng)絡(luò)在小型設(shè)備上進(jìn)行目標(biāo)檢測、物體定位等任務(wù)上已經(jīng)取得了顯著進(jìn)展［73，74］，然而人臉表情識別任務(wù)相對復(fù)雜，如何在保持高準(zhǔn)確率的同時，實現(xiàn)輕量級網(wǎng)絡(luò)的實時計算及響應(yīng)是未來的奮斗目標(biāo)。

d）研究更有效的模型壓縮方法。模型壓縮的過程往往涉及到模型的損失，如何能在保持模型性能，損失可控的前提下尋找有效的模型壓縮方法，來降低模型的存儲需求和計算開銷是當(dāng)前一個努力的方向。

e）研究自主搜索網(wǎng)絡(luò)結(jié)構(gòu)的算法。隨著網(wǎng)絡(luò)的發(fā)展，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索（neural architecture search，NAS）［75，76］初有成效，但依舊受人工設(shè)計的影響。因此亟需一種不再需要人工干涉搜索空間的解決方法，自動組合現(xiàn)有空間，從而得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)，邁向真正智能的重要一步。

f）研究特殊場景下針對小樣本的輕量級網(wǎng)絡(luò)。由于特殊場景下的識別樣本采集不易，如痛感識別、自閉癥兒童心理狀態(tài)等涉及患者隱私的研究，樣本數(shù)量有限，網(wǎng)絡(luò)不易訓(xùn)練。為避免網(wǎng)絡(luò)欠學(xué)習(xí)情況的發(fā)生，亟待研究泛化性更好的輕量級識別算法，以應(yīng)對小樣本學(xué)習(xí)問題。

參考文獻(xiàn)：

［1］Liu Wenting，Zhou Li，Chen Jie.Face recognition based on lightweight convolutional neural networks［J］.Information，2021，12（5）：article No.191.

［2］Shan Caifeng，Gong Shaogang，Mcowan P W.Facial expression recognition based on local binary patterns：a comprehensive study［J］.Image and Vision Computing，2009，27（6）：803-816.

［3］Dalal N，Triggs B.Histograms of oriented gradients for human detection［C］//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.2005：886-893.

［4］姜藝，胥加潔，柳絮，等.邊緣指導(dǎo)圖像修復(fù)算法研究［J］.計算機(jī)科學(xué)與探索，2022，16（3）：669-682.（Jiang Yi，Xu Jiajie，Liu Xu，et al.Research on edge guided image restoration algorithm［J］.Computer Science and Exploration，2022，16（3）：669-682.）

［5］劉微容，米彥春，楊帆，等.基于多級解碼網(wǎng)絡(luò)的圖像修復(fù)［J］.電子學(xué)報，2022，50（3）：12-18.（Liu Weirong，Mi Yanchun，Yang Fan，et al.Image restoration based on multilevel decoding network［J］.

Acta Electronic Sinica，2022，50（3）：12-18.）

［6］蔣斌，鐘瑞，張秋聞，等.采用深度學(xué)習(xí)方法的非正面表情識別綜述［J］.計算機(jī)工程與應(yīng)用，2021，57（8）：48-61.（Jiang Bin，Zhong Rui，Zhang Qiuwen，et al.An overview of nonpositive expression recognition using depth learning methods［J］.Computer Engineering and Applications，2021，57（8）：48-61.）

［7］Chou K Y，Cheng Y W，Chen W R，et al.Multi-task cascaded and densely connected convolutional networks applied to human face detection and facial expression recognition system［C］//Proc of International Automatic Control Conference.Piscataway，NJ：IEEE Press，2019：1-6.

［8］Yu Wenming，Xu Hua.Co-attentive multi-task convolutional neural network for facial expression recognition［J］.Pattern Recognition，2022，123：108401.

［9］Xu Qintao，Zhao Najing.A facial expression recognition algorithm based on CNN and LBP feature ［C］//Proc of the 4th Information Technology，Networking，Electronic and Automation Control Confe-rence.Piscataway，NJ：IEEE Press，2020：2304-2308.

［10］Yang Biao，Cao Jinmeng，Ni Rongrong，et al.Facial expression recognition using weighted mixture deep neural network based on double-channel facial images［J］.IEEE Access，2018，6：4630-4640.

［11］Gan Yanling，Chen Jingying，Yang Zongkai，et al.Multiple attention network for facial expression recognition［J］.IEEE Access，2020，8：7383-7393.

［12］Lucey P，Cohn J F，Kanade T，et al.The extended Cohn-Kanade dataset （CK+）：a complete dataset for action unit and emotion-specified expression［C］//Proc of IEEE Computer Society Conference on Compu-ter Vision and Pattern Recognition-Workshops.Piscataway，NJ：IEEE Press，2010：94-101.

［13］Goodfellow I J，Erhan D，Carrier P L，et al.Challenges in representation learning：a report on three machine learning contests［C］//Proc of International Conference on Neural Information Processing.Berlin：Springer，2013：117-124.

［14］Mollahosseini A，Hasani B，Mahoor M H.AffectNet：a database for facial expression，valence，and arousal computing in the wild［J］.IEEE Trans on Affective Computing，2019，10（1）：18-31.

［15］Langner O，Dotsch R，Bijlstra G，et al.Presentation and validation of the Radboud faces database［J］.Cognition and Emotion，2010，24（8）：1377-1388.

［16］Zhang Yuanhan，Yin Zhenfei，Li Yidong，et al.CelebA-Spoof：large-scale face anti-spoofing dataset with rich annotations［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2020：70-85.

［17］Krizhevsky A，Sutskever I，Hinton G E.ImageNet classification with deep convolutional neural networks［J］.Advances in Neural Information Processing Systems，2012，1（6）：1097-1105.

［18］Russakovsky O，Deng J，Su Hao，et al.ImageNet large scale visual re-cognition challenge［J］.International Journal of Computer Vision，2015，115（3）：211-252.

［19］Szegedy C，Ioffe S，Vanhoucke V.Inception-V4，Inception-ResNet and the impact of residual connections on learning［C］//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2017：4278-4284.

［20］Szegedy C，Vanhoucke V，Ioffe S，et al.Rethinking the inception architecture for computer vision［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：2818-2826.

［21］Howard A G，Zhu Menglong，Chen Bo，et al.MobileNets：efficient convolutional neural networks for mobile vision applications［EB/OL］.（2017-04-17）.https：//arxiv.org/abs/1704.04861.

［22］Sandler M，Howard A，Zhu Menglong，et al.MobileNetV2：inverted residuals and linear bottlenecks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：4510-4520.

［23］Howard A，Sandler M，Cheng Bo，et al.Searching for MobileNetV3［C］//Proc of IEEE/CVF International Conference on Computer Vision.2019：1314-1324.

［24］Nan Yahui，Ju Jianguo，Hua Qingyi，et al.A-MobileNet：an approach of facial expression recognition［J］.Alexandria Engineering Journal，2022，61（6）：4435-4444.

［25］Wang Qiuchen，Xu Xiaowei，Tao Ye，et al.A novel facial expression recognition method based on AMSSD model［C］//Proc of the 6th International Conference on Image，Vision and Computing.Piscataway，NJ：IEEE Press，2021：95-99.

［26］Woo S，Park J，Lee J Y，et al.CBAM：convolutional block attention module［C］//Proc of European Conference on Computer Vision.Cham：Springer，2018：3-19.

［27］Chen Sheng，Liu Yang，Gao Xiang，et al.MobileFaceNets：efficient CNNs for accurate real-time face verification on mobile devices［C］//Proc of Chinese Conference on Biometric Recognition.Berlin：Sprin-ger，2018：428-438.

［28］Hu Jie，Shen Li，Sun Gang.Squeeze-and-excitation networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway，NJ：IEEE Press，2018：7132-7141.

［29］Zoph B，Le Q V.Neural architecture search with reinforcement lear-ning［EB/OL］.（2017-02-15）.https：//arxiv.org/abs/1611.01578.

［30］Zhou You，Liu Yiyue，Han Guijin，et al.Face recognition based on the improved MobileNet［C］//Proc of IEEE Symposium Series on Computational Intelligence.Piscataway，NJ：IEEE Press，2019：2776-2781.

［31］Zhang Xiangyu，Zhou Xinyu，Lin Mengxiao，et al.ShuffleNet：an extremely efficient convolutional neural network for mobile devices［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：6848-6856.

［32］Ma Ningning，Zhang Xiangyu，Zheng Haitao，et al.ShuffleNet V2：practical guidelines for efficient CNN architecture design［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2018：116-131.

［33］Ghofrani A，Toroghi R M，Ghanbari S.Realtime face-detection and emotion recognition using MTCNN and miniShuffleNet V2［C］//Proc of the 5th Conference on Knowledge Based Engineering and Innovation.Piscataway，NJ：IEEE Press，2019：817-821.

［34］劉勁，羅曉曙，徐照興.權(quán)重推斷與標(biāo)簽平滑的輕量級人臉表情識別［J］.計算機(jī)工程與應(yīng)用，2024，60（2）：254-263.（Liu Jing，Luo Xiaoshu，Xu Zhaoxing.Computer Engineering and Applications.Lightweight facial expression recognition based on weight inference and label smoothing［J］.Computer Engineering and Applications，2024，60（2）：254-263.）

［35］Martindez-Díaz Y，Luevano L S，Mendez-Vazquez H，et al.ShuffleFaceNet：a lightweight face architecture for efficient and highly-accurate face recognition［C］//Proc of IEEE/CVF International Confe-rence on Computer Vision Workshop.Piscataway，NJ：IEEE Press，2019：2721-2728.

［36］Ma Hui，Celik T，Li H C.Lightweight attention convolutional neural network through network slimming for robust facial expression recognition［J］.Signal，Image and Video Processing，2021，15（7）：1507-1515.

［37］Zou Wei，Zhang Dong，Lee D J.A new multi-feature fusion based convolutional neural network for facial expression recognition［J］.Applied Intelligence，2022，52（3）：2918-2929.

［38］Zhou Lifang，Li Siqin，Wang Yi，et al.SDNET：lightweight facial expression recognition for sample disequilibrium［C］//Proc of IEEE International Conference on Acoustics，Speech and Signal Processing.Piscataway，NJ：IEEE Press，2022：2415-2419.

［39］Chollet F.Xception：deep learning with depthwise separable convolutions［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：1800-1807.

［40］Huang Gao，Liu Zhuang，Maaten V L D，et al.Densely connected convolutional networks［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：2261-2269.

［41］Zhao Zengqun，Liu Qingshan，Zhou Feng.Robust lightweight facial expression recognition network with label distribution training［J］.Proc of AAAI Conference on Artificial Intelligence，2021，35（4）：3510-3519.

［42］奚琰.基于對比學(xué)習(xí)的細(xì)粒度遮擋人臉表情識別［J］.計算機(jī)系統(tǒng)應(yīng)用，2022，31（11）：175-183.（Xi Yan.Fine grained occlusion facial expression recognition based on contrast learning［J］.Compu-ter Systems & Applications，2022，31（11）：175-183.）

［43］劉穎，張藝軒，佘建初，等.人臉去遮擋新技術(shù)研究綜述［J］.計算機(jī)科學(xué)與探索，2021，15（10）：1773-1794.（Liu Ying，Zhang Yixuan，She Jianchu，et al.A review of new face occlusion removal technologies［J］.Computer Science and Exploration，2021，15（10）：1773-1794.）

［44］Plutchik R.A general psychoevolutionary theory of emotion［M］//Plutchik R，Kellerman H.Theories of Emotion.［S.l.］：Academic Press，1980：3-33.

［45］Han Song，Mao Huizi，Dally W J.Deep compression：compressing deep neural networks with pruning，trained quantization and Huffman co-ding［EB/OL］.（2016-02-15）.https：//arxiv.org/abs/1510.00149.

［46］Courbariaux M，Bengio Y，David P J.BinaryConnect：training deep neural networks with binary weights during propagations［C］//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2015：3123-3131.

［47］Qin Haotong，Gong Ruihao，Liu Xianglong，et al.Forward and backward information retention for accurate binary neural networks［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway，NJ：IEEE Press，2020：2247-2256.

［48］Jacob B，Kligys S，Chen Bo，et al.Quantization and training of neural networks for efficient integer-arithmetic-only inference［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：2704-2713.

［49］Yamamoto K.Learnable companding quantization for accurate low-bit neural networks ［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2021：5027-5036.

［50］Liu Jing，Zhuang Bohan，Zhuang Wei，et al.Discrimination-aware network pruning for deep model compression［J］.IEEE Trans on Pattern Analysis and Machine Intelligence，2022，44（8）：4035-4051.

［51］Jaderberg M，Vedaldi A，Zisserman A.Speeding up convolutional neural networks with low rank expansions［EB/OL］.（2014-05-15）.https：//arxiv.org/abs/1405.3866.

［52］Tai Cheng，Xiao Tong，Zhang Yi，et al.Convolutional neural networks with low-rank regularization［EB/OL］.（2016-02-14）.https：//arxiv.org/abs/1511.06067.

［53］郭鍇凌.低秩分解及其在計算機(jī)視覺中的應(yīng)用［D］.廣州：華南理工大學(xué)，2017.（Guo Kailing.Low rank decomposition and its application in computer vision［D］.Guangzhou：South China University of Technology，2017.）

［54］Han Song，Pool J，Tran J，et al.Learning both weights and connections for efficient neural networks［C］//Proc of the 28th International Conference on Neural Information Processing Systems.Cambridge，MA：MIT Press，2015：1135-1143.

［55］Zhang Tianyun，Ye Shaokai，Zhang Kaiqi，et al.A systematic DNN weight pruning framework using alternating direction method of multipliers［C］//Proc of European Conference on Computer Vision.Berlin：Springer，2018：191-207.

［56］Liu Zhuang，Li J，Shen Zhiqiang，et al.Learning efficient convolutional networks through network slimming［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：2755-2763.

［57］張宏麗，白翔宇.利用優(yōu)化剪枝GoogLeNet的人臉表情識別方法［J］.計算機(jī)工程與應(yīng)用，2021，57（19）：179-188.（Zhang Hongli，Bai Xiangyu.Facial expression recognition method using optimized pruning GoogLeNet［J］.Computer Engineering and Applications，2021，57（19）：179-188.）

［58］Liu Zechun，Mu Haoyuan，Zhang Xiangyu，et al.Metapruning：meta learning for automatic neural network channel pruning［C］//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2019：3295-3304.

［59］Zeng Wenyuan，Xiong Yuwen，Urtasun R.Network automatic pruning：start nap and take a nap ［EB/OL］.（2021-01-17）.https：//arxiv.org/abs/2101.06608.

［60］Iandola F N，Moskewicz M W，Ashraf K，et al.SqueezeNet：AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size［EB/OL］.（2016-02-24）.https：//arxiv.org/abs/1602.07360.

［61］吳軍，邱陽，盧忠亮.基于改進(jìn)的SqueezeNet的人臉識別［J］.科學(xué)技術(shù)與工程，2019，19（11）：218-223.（Wu Jun，Qiu Yang，Lu Zhongliang.Face recognition based on improved SqueezeNet［J］.Science，Technology and Engineering，2019，19（11）：218-223.）

［62］Xie Saining，Girshick R，Dollár P，et al.Aggregated residual transformations for deep neural networks［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2017：5987-5995.

［63］He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual lear-ning for image recognition［C］//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2016：770-778.

［64］Zhang Ting，Qi G J，Xiao Bin，et al.Interleaved group convolutions［C］//Proc of IEEE International Conference on Computer Vision.Piscataway，NJ：IEEE Press，2017：4383-4392.

［65］Bucil? C，Caruana R，Niculescu-Mizil A.Model compression［C］//Proc of the 12th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining.New York：ACM Press，2001：535-541.

［66］Hinton G，Vinyals O，Dean J.Distilling the knowledge in a neural network［EB/OL］.（2015-03-09）.https：//arxiv.org/abs/1503.02531.

［67］高晗，田育龍，許封元，等.深度學(xué)習(xí)模型壓縮與加速綜述［J］.軟件學(xué)報，2021，32（1）：68-92.（Gao Han，Tian Yulong，Xu Fengyuan，et al.Summary of compression and acceleration of deep learning model［J］.Journal of Software，2021，32（1）：68-92.）

［68］Simonyan K，Zisserman A.Very deep convolutional networks for large-scale image recognition ［EB/OL］.（2015-04-10）.https：//arxiv.org/abs/1409.1556.

［69］Romero A，Ballas N，Kahou S E，et al.FitNets：hints for thin deep nets［EB/OL］.（2015-03-27）.https：//arxiv.org/abs/1412.6550.

［70］許大良.基于標(biāo)簽置信估計與知識蒸餾的表情識別算法研究［D］.武漢：華中師范大學(xué)，2022.（Xu Daliang.Research on expression recognition algorithm based on label confidence estimation and knowledge distillation［D］.Wuhan：Huazhong Normal University，2022.）

［71］姜慧明.基于生成對抗網(wǎng)絡(luò)與知識蒸餾的人臉修復(fù)與表情識別［D］.吉林：吉林大學(xué)，2020.（Jiang Huiming.Face restoration and expression recognition based on generative adversarial networks and knowledge distillation［D］.Jilin：Jilin University，2020.）

［72］蔣斌，李南星，鐘瑞，等.人臉部分遮擋條件下表情識別研究的新進(jìn)展［J］.計算機(jī)工程與應(yīng)用，2022，58（12）：12-24.（Jiang Bin，Li Nanxing，Zhong Rui，et al.New progress in facial expression recognition under partial occlusion［J］.Computer Engineering and App-lications，2022，58（12）：12-24.）

［73］Zhang Menghan，Li Zitian，Song Yuncheng.Optimization and comparative analysis of YOLOV3 target detection method based on lightweight network structure［C］//Proc of IEEE International Conference on Artificial Intelligence and Computer Applications.Piscataway，NJ：IEEE Press，2020：20-24.

［74］Yang Yumin，Liao Yurong，Ni Shuyan，et al.Study of algorithm for aerial target detection based on lightweight neural network［C］//Proc of IEEE International Conference on Consumer Electronics and Computer Engineering.Piscataway，NJ：IEEE Press，2021：422-426.

［75］Zoph B，Vasudevan V，Shlens J，et al.Learning transferable architectures for scalable image recognition［C］//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway，NJ：IEEE Press，2018：8697-8710.

［76］Pham H，Guan M，Zoph B，et al.Efficient neural architecture search via parameters sharing［C］//Proc of the 35th International Conference on Machine Learning.：PMLR，2018：4095-4104.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

輕量級網(wǎng)絡(luò)在人臉表情識別上的新進(jìn)展