夏桂書 朱姿翰 魏永超 朱泓超 徐未其
卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作只能捕獲局部信息,而Transformer能保留更多的空間信息且能建立圖像的長距離連接.在視覺領(lǐng)域的應(yīng)用中,Transformer缺乏靈活的圖像尺寸及特征尺度適應(yīng)能力,通過利用層級(jí)式網(wǎng)絡(luò)增強(qiáng)不同尺度建模的靈活性,且引入多尺度特征融合模塊豐富特征信息.本文提出了一種基于改進(jìn)的Swin Transformer人臉模型——Swin Face模型.Swin Face以Swin Transformer為骨干網(wǎng)絡(luò),引入多層次特征融合模塊,增強(qiáng)了模型對人臉的特征表達(dá)能力,并使用聯(lián)合損失函數(shù)優(yōu)化策略設(shè)計(jì)人臉識(shí)別分類器,實(shí)現(xiàn)人臉識(shí)別.實(shí)驗(yàn)結(jié)果表明,與多種人臉識(shí)別方法相比,Swin Face模型通過使用分級(jí)特征融合網(wǎng)絡(luò),在LFW、CALFW、AgeDB-30、CFP數(shù)據(jù)集上均取得最優(yōu)的效果,驗(yàn)證了此模型具有良好的泛化性和魯棒性.
人臉識(shí)別; Transformer; 多尺度特征; 特征融合
TP391 A 2024.012002
Transformer face recognition method based on multi-level feature fusion
XIA Gui-Shu ?1 , ZHU Zi-Han ?1 , WEI Yong-Chao ?2 , ZHU Hong-Chao ?3 , XU Wei-Qi ?3
(1. Institute of Electronic and Electrical Engineering, Civil Aviation Flight University ?of China, Deyang 618307, China;
2. Department of Scientific Research Office, Civil Aviation Flight University ?of China, Deyang 618307, China;
3. College of Civil Aviation Safet Engineering, Civil Aviation Flight University of China, Deyang 618307, China)
The convolutional operation in a convolutional neural network only captures local information, whereas the Transformer retains more spatial information and can create long-range connections of images. In the application of vision field, Transformer lacks flexible image size and feature scale adaptation capability. To solve this problems, the flexibility of modeling at different scales is enhanced by using hierarchical networks, and a multi-scale feature fusion module is introduced to enrich feature information. This paper propose an improved Swin Face model based on the Swin Transformer model. The model uses the Swin Transformer as the backbone network and a multi-level feature fusion model is introduced to enhance the feature representation capability of the Swin Face model for human faces. a joint loss function optimisation strategy is used to design a face recognition classifier to realize face recognition. The experimental results show that, compared with various face recognition methods, the Swin Face recognition method achieves best results on LFW, CALFW, AgeDB-30, and CFP datasets by using a hierarchical feature fusion network, and also has good generalization and robustness.
Face recognition; Transformer; Multi-scale features; Feature fusion
1 引 言
目前,人臉識(shí)別算法主要分為兩類:一種是基于手工特征的人臉識(shí)別算法,通過人工設(shè)計(jì)特征提取器提取人臉特征信息,再結(jié)合不同的分類算法實(shí)現(xiàn)人臉識(shí)別.另一種是基于深度學(xué)習(xí)的人臉識(shí)別算法 ?[1] ,大部分算法是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)來實(shí)現(xiàn).
基于手工特征的人臉識(shí)別方法可以分為基于幾何特征 ?[2] 、基于模板匹配 ?[3] 和基于子空間的方法 ?[4] .基于幾何結(jié)構(gòu)特征的方法主要對人臉的幾何特征點(diǎn)進(jìn)行提取,以此來完成人臉識(shí)別;基于模板匹配的方法利用可變性模板對人臉面部特征進(jìn)行抽取人臉特征向量,通過計(jì)算圖像與模板特征向量之間的距離來判斷人臉類別;基于子空間的方法將人臉高維數(shù)據(jù)映射到低維空間,通過K-L變換壓縮技術(shù)來表示人臉特征 ?[5] .基于手工特征的人臉識(shí)別方法在受到光照變化、姿態(tài)變化等外在因素影響時(shí),會(huì)造成人臉特征急劇變化,使得人臉識(shí)別準(zhǔn)確度降低 ?[6] .
而基于深度學(xué)習(xí)的方法因其強(qiáng)大的特征提取能力逐漸取代了手工提取人臉特征的方法.2014年,F(xiàn)acebook團(tuán)隊(duì)提出的DeepFace ?[7] 方法使用3D模型將人臉對齊,再通過CNN來提取人臉特征,提高了面部識(shí)別的準(zhǔn)確性;同年,港中文湯曉鷗團(tuán)隊(duì)提出DeepID ?[8] 在人臉識(shí)別過程中采用極大的分類準(zhǔn)則,并把學(xué)習(xí)到的高級(jí)特征表達(dá)集合應(yīng)用到人臉驗(yàn)證上,相比于傳統(tǒng)的人臉識(shí)別算法泛化能力增強(qiáng);2015年Google團(tuán)隊(duì)提出的FaceNet ?[9] 通過深度學(xué)習(xí)結(jié)構(gòu)將人臉特征映射到歐式空間中,利用三元組損失函數(shù)(Triplet Loss,TL)增大類間距離,縮小類內(nèi)距離;2017年,Jiang等人 ?[10] 所提出的RetinaNet網(wǎng)絡(luò)One-stage首次超越了Two-stage網(wǎng)絡(luò),Insightface團(tuán)隊(duì)基于檢測網(wǎng)絡(luò)RetinaNet提出Retinaface ?[11] 網(wǎng)絡(luò),添加了SSH網(wǎng)絡(luò)的三層級(jí)聯(lián)檢測模塊,利用了特征金字塔等策略提升了人臉識(shí)別檢測精度.
隨著人工智能技術(shù)的快速發(fā)展,Transformer在計(jì)算機(jī)視覺領(lǐng)域取得了重要的成果 ?[12] .目前,將Transformer應(yīng)用于不同的計(jì)算機(jī)視覺任務(wù),包括圖像分類、目標(biāo)檢測以及視頻處理等已經(jīng)成為一個(gè)流行的趨勢.例如,iGPT ?[13] ,BEIT ?[14] 利用Transformer網(wǎng)絡(luò)架構(gòu)代替卷積神經(jīng)網(wǎng)絡(luò)完成圖像分類;基于Transformer架構(gòu)的DETR ?[15] 實(shí)現(xiàn)了端到端的目標(biāo)檢測.由于CNN中的卷積操作只能捕獲局部信息,不能建立全局圖像的長距離連接,而Transformer通過多頭注意力操作能實(shí)現(xiàn)特征匯聚,增強(qiáng)其全局性.相比于CNN,Transformer ?[16] 保留更多的空間信息且能夠捕捉到更多的特征信息.但由于視覺實(shí)體的大小差異很大,自然語言處理(Natural Language Processing,NLP)對象的大小是標(biāo)準(zhǔn)固定的,且圖像中的像素與文本中的單詞相比具有很高的分辨率.通過利用層級(jí)化Transformer可以增強(qiáng)網(wǎng)絡(luò)在不同圖像尺度下的建模能力.本文以Swin Transformer ?[17] 為骨干網(wǎng)絡(luò),設(shè)計(jì)了具有多層次特征融合的Swin Face人臉網(wǎng)絡(luò)模型.其優(yōu)點(diǎn)如下: (1) Swin Face人臉模型采用了基于滑動(dòng)窗口的多頭注意力機(jī)制,有效建立了不同窗口之間的連接,有利于網(wǎng)絡(luò)捕獲圖像的全局信息,提高網(wǎng)絡(luò)的性能. (2) Swin Face人臉模型引入了多層次特征融合方式,將各層級(jí)信息進(jìn)行有效融合,獲取到人臉模型的分層特征,提高了網(wǎng)絡(luò)對人臉特征表達(dá)能力,彌補(bǔ)了使用單一特征在人臉特征提取上的不足.
2 Swin Face模型
基于Swin Face的人臉識(shí)別網(wǎng)絡(luò)模型整體采用層次化、多尺度的設(shè)計(jì),包含三個(gè)主要模塊,Patch Embed模塊、Swin Transformer模塊以及多尺度特征融合模塊.整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
2.1 Patch Embed模塊
Patch Embed模塊包含了兩個(gè)功能:塊分割(Patch Partition)和塊的線性嵌入(Linear Embedding),塊分割負(fù)責(zé)將圖片切成非重疊、等尺寸大小的塊;線性嵌入層將每個(gè)塊做降維采樣,縮小圖像分辨率.本文中人臉圖像輸入尺寸大小為3×160×160,利用卷積操作將人臉映射成一組Token,輸出尺寸為1×1600×196.具體流程圖如圖2所示.
2.2 Swin Transformer模塊
Swin Transfomer模塊主要由以下幾部分構(gòu)成:窗口多頭自注意力層(Window Multi-head Self Attention, W-MSA)、滑動(dòng)窗口多頭自注意力層 (Shifted Window based Multi-head Self-attention,SW-MSA)、多層感知機(jī)(Multi Layer Perceptron,MLP)、標(biāo)準(zhǔn)化層(Layer Normalization,LN) ?[18] .Swin Transfomer模塊具體如圖3所示.
Swin Transformer模塊主要進(jìn)行特征處理,每部分的輸出如式(1)~式(4)所示.
Z ?^ ?X=W-MSA LN Z ?X-1 ??+Z ?X-1 ??(1)
Z X=MLP LN Z ?^ ?X ?+Z ?^ ?X ?(2)
Z ?^ ?X ???+1 =SW-MSA LN Z X ?+Z X ?(3)
Z ?X+1 =MLP LN Z ?^ ??X+1 ??+Z ?^ ??X+1 ??(4)
輸入的特征圖首先通過塊分割層,將特征圖劃分為非重疊、等尺寸大小的塊,通過線性嵌入層將塊轉(zhuǎn)換成一個(gè)長度為96的嵌入向量Token,緊接著通過Stage階段來進(jìn)行處理:Stage1,Stage2,Stage3,Stage4.Stage1中,Block數(shù)量為2,Tokens的輸出為 ?H 4 × W 4 ?,輸出維度為 C ;Stage2中,Block數(shù)量為2,Tokens的輸出為 ?H 8 × W 8 ?,輸出維度為2 C ;Stage3中,Block數(shù)量為6,Tokens的輸出為 ?H 16 × W 16 ?,輸出維度為4 C ;Stage4中,Block數(shù)量為2,Tokens的輸出為 ?H 32 × W 32 ?,輸出維度為8 C .
2.2.1 窗口多頭自注意力 ?注意力機(jī)制是建立特征和特征之間的關(guān)系,以高權(quán)重聚焦重要信息,以低權(quán)重忽略不相關(guān)信息.因此,引入注意力機(jī)制能有效增強(qiáng)空間編碼能力,使得模型具有更強(qiáng)的魯棒性與泛化性 ?[19] .
多頭注意力機(jī)制是并行地從輸入信息中選取多個(gè)信息,每個(gè)注意力關(guān)注輸入信息的不同部分,然后再將每一組自注意力的結(jié)果拼接起來進(jìn)行一次線性變換得到最終的輸出結(jié)果.多頭自注意力機(jī)制首先將輸入信息通過Linear操作生成 Q 、 K 、 V 三個(gè)權(quán)重向量,然后對每個(gè)頭都進(jìn)行自注意力操作,最后將每個(gè)頭輸出的結(jié)果進(jìn)行Concat操作,通過Linear層輸出最后的特性信息.自注意力圖如圖4所示,多頭注意力圖如圖5所示,多頭注意力計(jì)算公式如式(5)和式(6)所示.
Multihead (Q,K,V) =Concat (head 1,
head 2,...head h)W o ?(5)
head= Attention (Q,K,V)= Softmax ??QK ?d ??V ??(6)
式中, Q 表示查詢向量; K 表示鍵向量; V 表示值向量; W o∈R ?d×d ?表示多頭注意力權(quán)重矩陣; head 表示多頭注意力機(jī)制中頭的個(gè)數(shù); Concat 表示拼接操作.
2.2.2 滑動(dòng)窗口多頭自注意力 ?窗口內(nèi)分別計(jì)算自注意力,首先將 H × W × C 的特征圖劃分為非重疊的窗口,窗口尺寸為 L × L ,窗口數(shù)量為 ?H×W L 2 ?,然后在窗口內(nèi)分別計(jì)算自注意力.
為實(shí)現(xiàn)跨窗口之間的信息融合與交互,使用向左上方循環(huán)移位的批處理計(jì)算方法,如圖6所示.首先,對每個(gè)窗口內(nèi)進(jìn)行自注意力操作,如(1,2,3,4),(5,6,7,8),(9,10,11,12),(13,14,15,16),每個(gè)列表內(nèi)的元素做自注意力運(yùn)算,這樣可以建立各自窗口之間的聯(lián)系.然后,向左上方循環(huán)移位窗口,將圖像補(bǔ)回原圖像大小,在各自的窗口內(nèi)再次做自注意力計(jì)算,可以建立(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16)之間的聯(lián)系.通過移位之后,一個(gè)批處理窗口可能由幾個(gè)在特征圖中不相鄰的子窗口組成,因此使用掩碼機(jī)制將自注意力計(jì)算限制在每個(gè)子窗口內(nèi).通過循環(huán)移位,批處理窗口的數(shù)量保持與常規(guī)窗口分區(qū)相同.
2.3 多尺度特征融合
通常來說,卷積神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取時(shí),獲取到的低級(jí)特征具有豐富的幾何信息,但是語義信息表征能力較弱,而獲取到的高級(jí)特征具有豐富的語義信息,但是缺乏空間細(xì)節(jié)特征 ?[20] .通過多尺度的融合方式,利用不同尺度的卷積核對目標(biāo)特征進(jìn)行提取,將網(wǎng)絡(luò)的低級(jí)信息與高級(jí)信息進(jìn)行特征融合,有效提高特征的豐富度,能夠增強(qiáng)網(wǎng)絡(luò)的表征能力.因此,多尺度特征融合不僅能夠減少不同特征通道層之間的語義差距,提高網(wǎng)絡(luò)的表征能力,而且能夠豐富特征的結(jié)構(gòu)信息.具體的多尺度特征融合流程圖如圖7所示.
為了增強(qiáng)特征尺度適應(yīng)能力,從4個(gè)Stage階段分別抽取的特征 F ??1 、 F ??2 、 F ??3 和 F ??4 ,經(jīng)過Downsampling操作分別得到特征 F ??1 ′、 F ??2 ′和 F ??3 ′,最后將特征 F ??1 ′、 F ??2 ′、 F ??3 ′和 F ??4 進(jìn)行求和操作得到融合特征 F .計(jì)算公式如式(7)~式(10)所示.
F 1′= Downsampling (F 1) ?(7)
F 2′= Downsampling (F 2) ?(8)
F 3′= Downsampling (F 3) ?(9)
F= Add (F 1′,F(xiàn) 2′,F(xiàn) 3′,F(xiàn) 4) ?(10)
式中,Downsampling表示下采樣操作;Add表示求和操作.
3 實(shí) 驗(yàn)
3.1 數(shù)據(jù)集
本文所使用的數(shù)據(jù)集如表1所示.在人臉領(lǐng)域,通常選用的訓(xùn)練數(shù)據(jù)集為CASIA-WebFace,其適用于非約束環(huán)境下人臉識(shí)別科學(xué)研究.實(shí)驗(yàn)所使用的測試數(shù)據(jù)集為LFW、CALFW、CPLFW、AgeDB-30 ?[21] 、CFP ?[22] .LFW人臉數(shù)據(jù)集是目前人臉識(shí)別的常用數(shù)據(jù)集,其中所提供的人臉圖片均來自于不同的自然場景,包括不同姿態(tài)、光照、表情等異質(zhì)人臉圖像;CALFW是基于LFW數(shù)據(jù)集標(biāo)注的跨年齡數(shù)據(jù)集;CPLFW是基于LFW數(shù)據(jù)集標(biāo)注的跨姿態(tài)數(shù)據(jù)集;AgeDB-30數(shù)據(jù)集包括不同姿態(tài)、表情、年齡、性別的圖片;CFP數(shù)據(jù)集中每個(gè)人都有10張正面圖像和4張側(cè)面圖像.本文從每個(gè)測試數(shù)據(jù)集中隨機(jī)選取6000對人臉組成人臉識(shí)別圖像對,其中3000對屬于同一個(gè)人的兩張圖像,3000對屬于不同的兩個(gè)人臉圖像.表1中,IDs表示身份數(shù)量;Imgs表示圖片數(shù)量.
3.2 數(shù)據(jù)處理
人臉圖像根據(jù)采集環(huán)境的不同及環(huán)境的干擾,如光照變化、遮擋、距離遠(yuǎn)近等,需要對圖像進(jìn)行預(yù)處理以保證人臉圖像的質(zhì)量.因此,為了更好地對人臉進(jìn)行特征提取,需對人臉圖像進(jìn)行檢測.本文使用DNN模型對人臉進(jìn)行檢測,具體的人臉檢測過程如圖8所示.
3.3 實(shí)驗(yàn)環(huán)境
本文所采用的實(shí)驗(yàn)環(huán)境為:操作系統(tǒng)Windows 10 CPU Intel(R) Core(TM) i9-12900K ?CPU @ 3.20 GH,NVIDIA GeForce RTX 3090Ti.深度學(xué)習(xí)框架為Pytorch,CUDA版本為11.6.
在驗(yàn)證算法性能時(shí),所采用的參數(shù)設(shè)置保持一致.設(shè)置Batch Size為128,設(shè)置訓(xùn)練迭代次數(shù)為最大為50;使用Adam優(yōu)化網(wǎng)絡(luò)模型,初始學(xué)習(xí)率為0.001;損失函數(shù)設(shè)置,采用三元組損失函數(shù)和交叉熵?fù)p失函數(shù),三元組損失函數(shù)的閾值設(shè)置為0.4.
3.4 損失函數(shù)
為了提高網(wǎng)絡(luò)的表征能力,將多種損失函數(shù)進(jìn)行聯(lián)合,達(dá)到聯(lián)合優(yōu)化的效果.本文采用的是將三元組損失函數(shù)和交叉熵?fù)p失函數(shù)(Cross Entropy Loss,CE)相結(jié)合的策略進(jìn)行訓(xùn)練的方法 ?[23] .
3.4.1 三元組損失 ?三元組損失函數(shù)需要從訓(xùn)練樣本中選取目標(biāo)樣本、正樣本、負(fù)樣本,利用樣本之間的距離作為約束,增大不同類樣本的距離,縮小同類樣本的距離 ?[24] .相比其他分類損失函數(shù),Triplet Loss通常能在訓(xùn)練中學(xué)習(xí)到更好的細(xì)微的特征,更特別的是Triplet Loss能夠根據(jù)模型訓(xùn)練的需要設(shè)定一定的閾值mgn,設(shè)計(jì)者可以通過改變mgn的值來控制正負(fù)樣本的距離.Triplet Loss損失函數(shù)為
L ?TL = max ?d(a,p)-d(a,n)+mgn,0 ??(11)
式中, a 表示目標(biāo)圖像; p 表示正樣本,與 a 是同一類別樣本; n 表示負(fù)樣本,與 a 是不同類別的樣本; mgn 表示閾值,是一個(gè)大于0的常數(shù).
3.4.2 交叉熵?fù)p失函數(shù) ?本文在分類問題中,采用的是交叉熵?fù)p失函數(shù),此損失函數(shù)擅長學(xué)習(xí)類間信息,能夠增強(qiáng)網(wǎng)絡(luò)的性能.交叉熵?fù)p失函數(shù)為
L ??CE =-∑ N ?i=1 ?y ?iy ?^ ??i ?(12)
式中, y i 為樣本標(biāo)簽; y ?^ ?i 為網(wǎng)絡(luò)的輸出值.
3.4.3 聯(lián)合損失函數(shù) ?本文將三元組損失函數(shù)和交叉熵?fù)p失函數(shù)聯(lián)合起來作為人臉識(shí)別網(wǎng)絡(luò)訓(xùn)練所使用的損失函數(shù),使得網(wǎng)絡(luò)在聯(lián)合函數(shù)優(yōu)化下,提高網(wǎng)絡(luò)的表征能力.聯(lián)合損失函數(shù)為
L=L ?TL +L ?CE ??(13)
3.5 評(píng)估指標(biāo)
本文方法在LFW、CALFW、CPLFW、AgeDB-30、CFP等5個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估,以準(zhǔn)確率作為評(píng)價(jià)指標(biāo).準(zhǔn)確率計(jì)算公式為
Accuracy = TP+TN TP+TN+FP+FN ×100% ?(14)
其中, TP 為真陽性數(shù); TN 為真陰性數(shù); FP 為假陽性數(shù); FN 為假陽性數(shù).
3.6 實(shí)驗(yàn)結(jié)果及分析
3.6.1 與不同方法實(shí)驗(yàn)對比 ?為驗(yàn)證本文算法的泛化性及可行性,與DeepID ?[8] 、Retinaface ?[11] 、Swin Transforme ?[17] 、EdgeNext ?[25] 、CMT ?[26] 五種骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對比,以平均準(zhǔn)確率為度量,實(shí)驗(yàn)結(jié)果如表2所示.表2中,Swin Transformer記為Swin T.
與其他5種人臉識(shí)別算法相比,在人臉姿態(tài)變化、年齡變化、光照變化等情況下,本文所提出的Swin Face算法在其中的四個(gè)基準(zhǔn)測試數(shù)據(jù)集上均取得最優(yōu)的效果,在CPLFW數(shù)據(jù)集上取得的效果與最優(yōu)相差0.47%.從總體來看,Swin Face模型對同一身份的人臉變化具有良好的魯棒性和泛化性.
與Swin Transformer模型相比,Swin Face模型通過融合分級(jí)特征的方式,建立淺層信息與深層信息之間的關(guān)聯(lián)性,提高了網(wǎng)絡(luò)對人臉的特征表達(dá)能力.人臉識(shí)別精度提升了0.41%~0.9%.由此可得,多層次特征融合模塊,充分利用了低級(jí)語義信息和高級(jí)語義信息,實(shí)現(xiàn)人臉特征聚集,由此說明了融合多層次特征模塊提升了對人臉識(shí)別模型的準(zhǔn)確率.
3.6.2 消融實(shí)驗(yàn) ?為探究多層次特征融合模塊的性能,本文從兩個(gè)方面進(jìn)行對比實(shí)驗(yàn).(1) 模型性能評(píng)估,不同方法在統(tǒng)一的硬件設(shè)施下進(jìn)行運(yùn)算,具體結(jié)果如表3所示.(2) 泛化性評(píng)估.兩種方法在基準(zhǔn)測試數(shù)據(jù)集進(jìn)行驗(yàn)證測試,參數(shù)量與速度對比結(jié)果如圖9和圖10所示.
表3中,Params表示模型訓(xùn)練參數(shù);FLOPs表示浮點(diǎn)運(yùn)算數(shù);FPS表示模型推理速度.由表3可知,在模型訓(xùn)練階段,相比于Swin Transformer模型,Swin Face模型參數(shù)量增加了0.45 M,F(xiàn)LOPs提高了0.09 G,可知Swin Face訓(xùn)練速度有所降低.在模型推理階段,Swin Face推理速度略低于Swin Transformer.分析可知,由于Swin Face融合了多層次特征網(wǎng)絡(luò),增加了網(wǎng)絡(luò)的復(fù)雜度,導(dǎo)致模型整體速度下降.通過對圖9和圖10平均準(zhǔn)確率曲線分析可知,即使是不同基準(zhǔn)測試數(shù)據(jù)集,但隨著訓(xùn)練進(jìn)程的繼續(xù),Swin Face模型相較于Swin Transformer模型曲線波動(dòng)更小,更加平穩(wěn).相比于Swin Transformer模型,Swin Face模型在LFW、CALFW、CPLFW、AgeDB-30、CFP上提高的人臉識(shí)別的準(zhǔn)確率分別為0.50%、0.74%、0.90%、0.85%、0.41%,驗(yàn)證了Swin Face模型的可行性.從模型性能可知,雖然在模型訓(xùn)練階段增加了訓(xùn)練參數(shù)及模型復(fù)雜度,但其對模型的整體影響較小,且人臉識(shí)別精度提升最高達(dá)到0.90%,驗(yàn)證了融合多層次特征模塊對人臉識(shí)別模型的有效性.
4 結(jié) 論
本文提出Swin Face人臉識(shí)別模型,通過引入多層次特征融合模塊,將淺層信息與深層信息進(jìn)行有效融合,再結(jié)合Swin Transformer的多頭注意力機(jī)制,獲取全局依賴關(guān)系,構(gòu)建層次映射,提高網(wǎng)絡(luò)的全局建模能力.在訓(xùn)練過程中,此模型使用聯(lián)合損失函數(shù)和Adam優(yōu)化策略,增強(qiáng)了特征間的約束,進(jìn)一步提高了網(wǎng)絡(luò)泛化能力.實(shí)驗(yàn)結(jié)果表明,該模型在不同數(shù)據(jù)集上均取得最優(yōu)的效果,說明了多層次特征融合模型具有良好的魯棒性.但是本文方法仍存在模型參數(shù)量大和計(jì)算復(fù)雜度高的問題,因此,后續(xù)的研究工作中,應(yīng)考慮優(yōu)化算法使模型收斂速度加快,降低模型的復(fù)雜度.
參考文獻(xiàn):
[1] ??Kang L, Yan T. An Analysis of Face Recognition Algorithms Based on Deep Learning[J]. Yangtze River Inform Comm, 2022, 35: 83.[康磊, 閆濤. 基于深度學(xué)習(xí)的人臉識(shí)別算法淺析[J].長江信息通信, 2022, 35: 83.]
[2] ?Wu K, Zhou M Y, LI G Y, ?et al . Face expression recognition based on angular geometric features [J]. Comp Appl Softw, 2020, 37: 120.[吳珂, 周夢瑩, 李高陽, 等. 基于角度幾何特征的人臉表情識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件, 2020, 37: 120.]
[3] ?Du W C, Dang Z P, Zhao Q J, ?et al . Face alignment based on local shape constraint networks[J]. J Sichuan Univ(Nat Sci Edi), 2017, 54: 953.[杜文超, 鄧宗平, 趙啟軍, 等.基于局部形狀約束網(wǎng)絡(luò)的人臉對齊[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 54: 953.]
[4] ?Lv F F. Analysis and research on face recognition method based on subspace [J]. Comp Knowl Technol, 2020, 16: 185.[呂芳芳. 基于子空間的人臉識(shí)別方法的分析與研究[J].電腦知識(shí)與技術(shù), 2020, 16: 185.]
[5] ?Wang Y H. Face recognition based on K-L transform and singular value decomposition [J]. J Hebei Inst Water Resour Elect Power, 2020, 30: 38.[王銀花. 基于K-L變換和奇異值分解的人臉識(shí)別[J].河北水利電力學(xué)院學(xué)報(bào), 2020, 30: 38.]
[6] ?Li X F, You Z S. Large-pose face recognition based on 3D-2D mapping [J].J Sichuan Univ(Nat Sci Ed), 2022, 59: 61.[李曉峰, 游志勝. 基于3D-2D映射的大姿態(tài)人臉識(shí)別[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 59: 042003.]
[7] ?Wang M, Deng W. Deep face recognition: a survey[J]. Neurocomputing, 2021, 429: 215.
[8] ?Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10000 classes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, ??2014.
[9] ?Schroff F, Kalenichenko D, Philbin J. Facenet: a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles: IEEE Computer Society, 2015.
[10] ?Jiang C, Ma H, Li L. IRNet: an improved retinanet model for face detection [C]//Proceedings of the 7th International Conference on Image, Vision and Computing (ICIVC). Los Angeles: IEEE Computer Society, 2022.
[11] Deng J, Guo J, Ververas E, ??et al . Retinaface: single-shot multi-level face localisation in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020.
[12] Khan S, Naseer M, Hayat M, ??et al . Transformers in vision: a survey [J]. ACM Comput Surv, 2022, 54: 1.
[13] Chen M, Radford A, Child R, ?et al . Generative pretraining from pixels [C]//Proceedings of the International Conference on Machine Learning. Vienna: [s.n.], 2020.
[14] Devlin J, Chang M W, Lee K, ?et al. ?Bert: pre-training of deep bidirectional transformers for language understanding [C]//Proceedings of Annual Conference of the North American Chapter of the Association for Computational Linguistics. Minneapolis: [s.n.], ??2019.
[15] Carion N, Massa F, Synnaeve G, ?et al . End-to-end object detection with transformers[C]//European Conference on Computer Vision. Berlin: Springer, ??2020.
[16] Lin T, Wang Y, Liu X, ?et al . A survey of transformers [J]. Artif Intell Rev, 2022, 2: 04554.
[17] Liu Z, Lin Y, Cao Y, ?et al . Swin transformer: hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE International Conference on Computer Vision. Los Angeles: IEEE Computer Society, 2021.
[18] Liu W T, Lu X M. Research progress of Transformer based on computer vision [J]. Comp Eng Appl, 2022, 58: 1.[劉文婷, 盧新明. 基于計(jì)算機(jī)視覺的Transformer研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用, 2022, 58: 1.]
[19] Niu Z, Zhong G, Yu H. A review on the attention mechanism of deep learning [J]. Neurocomputing, 2021, 452: 48.
[20] Xia H, Ma J, Ou J, ?et al . Pedestrian detection algorithm based on multi-scale feature extraction and attention feature fusion [J]. Digit Signal Process, 2022, 108: 103311.
[21] Moschoglou S, Papaioannou A, Sagonas C, ?et al . Agedb: the first manually collected, in-the-wild age database [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Washington: IEEE, 2017.
[22] Sengupta S, Chen J C, Castillo C, ?et al . Frontal to profile face verification in the wild [C]//Proceedings of the 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Los Angeles: IEEE, 2016.
[23] Rybicka M, Kowalczyk K. On parameter adaptation in softmax-based cross-entropy loss for improved convergence speed and accuracy in dnn-based speaker recognition[C]//Interspeech. Shanghai: ISCA, ??2020.
[24] Zhang X Y, You M G, Zhu J, ?et al . Face recognition based on joint loss function for small-scale data[J]. J Beijing Inst Technol, 2020, 40: 163.[張欣彧, 尤鳴宇, 朱江,等.基于聯(lián)合損失函數(shù)的小規(guī)模數(shù)據(jù)人臉識(shí)別[J].北京理工大學(xué)學(xué)報(bào), 2020, 40: 163.]
[25] Maaz M, Shaker A, Cholakkal H, ?et al . Edgenext: efficiently amalgamated cnn-transformer architecture for mobile vision applications [C]// European Conference on Computer Vision. Berlin: Springer, ??2023.
[26] Guo J, Han K, Wu H, ?et al . Cmt: convolutional neural networks meet vision transformers [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.
收稿日期: ?2023-03-09
基金項(xiàng)目: ??西藏科技廳重點(diǎn)研發(fā)計(jì)劃(XZ202101ZY0017G); 四川省科技廳重點(diǎn)研發(fā)項(xiàng)目(2022YFG0356); 中國民用航空飛行學(xué)院科研基金(J2020-126, J2020-040, J2021-056)
作者簡介: ??夏桂書(1968-), 女, 碩士, 教授, 研究方向?yàn)楹娇针娮?E-mail:xgs19680922@163.com
通訊作者: ?朱姿翰.E-mail: 1476514200@qq.com.
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年1期