国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多尺度特征的輕量級(jí)人臉檢測(cè)算法

2022-07-12 06:46宋曉寧
模式識(shí)別與人工智能 2022年6期
關(guān)鍵詞:骨干人臉關(guān)鍵點(diǎn)

王 建 宋曉寧

人臉檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典任務(wù).人臉檢測(cè)作為人臉識(shí)別、人臉跟蹤、人臉對(duì)齊、人臉表情分析的第一步,對(duì)下游任務(wù)起到?jīng)Q定性的作用.隨著通用目標(biāo)檢測(cè)框架的不斷進(jìn)步,人臉檢測(cè)作為其中一個(gè)子領(lǐng)域,性能也得到大幅提升,然而這些性能的提升大多以加深和拓寬網(wǎng)絡(luò)結(jié)構(gòu)為前提,增加模型的復(fù)雜度,使模型難以部署到移動(dòng)平臺(tái)之中.

現(xiàn)有的人臉檢測(cè)算法主要還是遵循通用目標(biāo)檢測(cè)框架的設(shè)計(jì),一般可分為多階段檢測(cè)和單階段檢測(cè),相比單階段檢測(cè),多階段檢測(cè)增加建議框提取的過(guò)程.Zhang等[1]設(shè)計(jì)三個(gè)子網(wǎng)絡(luò),先通過(guò)第一個(gè)網(wǎng)絡(luò)獲取大量建議框,后續(xù)網(wǎng)絡(luò)再對(duì)上一階段的輸出進(jìn)行優(yōu)化.這種做法剔除訓(xùn)練階段大量的負(fù)樣本,使正負(fù)樣本更均衡.由于采取多階段的優(yōu)化方式,大幅增加檢測(cè)算法的運(yùn)行時(shí)間,因此當(dāng)前人臉檢測(cè)算法的主流仍是單階段檢測(cè)算法,而且目前對(duì)單階段檢測(cè)方法的研究已達(dá)到和多階段檢測(cè)相當(dāng)?shù)木龋\(yùn)行效率較高.

人臉檢測(cè)中最突出的問(wèn)題莫過(guò)于極端的人臉尺度變化.現(xiàn)實(shí)場(chǎng)景圖像中人臉尺度具有連續(xù)性,單幅圖像中可能同時(shí)出現(xiàn)極大人臉和極小人臉.為了處理尺度變化大的問(wèn)題,研究者著力于分治處理不同尺度的人臉[2-3],提出多級(jí)特征檢測(cè)器.

多級(jí)特征檢測(cè)器結(jié)構(gòu)提高人臉檢測(cè)的精度,有效利用骨干網(wǎng)絡(luò)多個(gè)階段輸出的不同分辨率的特征圖.這些特征圖分別包含不同范圍的感受野信息,巧妙處理不同尺度的目標(biāo),Lin等[4]提出特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN),改進(jìn)多級(jí)檢測(cè)結(jié)構(gòu),融合骨干網(wǎng)絡(luò)相鄰階段的輸出特征,增強(qiáng)低分辨率特征的細(xì)節(jié)表達(dá)能力和高分辨率特征的語(yǔ)義表達(dá)能力,由此產(chǎn)生一系列基于FPN的改進(jìn)[5-7],現(xiàn)有較優(yōu)的人臉檢測(cè)網(wǎng)絡(luò)均采用這種設(shè)計(jì)[8-12].Deng等[8]提出RetinaFace,使用FPN結(jié)構(gòu)并輸出5個(gè)分支,處理不同尺度的人臉.Tang等[9]提出Pyramid-Box,根據(jù)經(jīng)驗(yàn)分析設(shè)計(jì)不同層級(jí)的融合方式,并輸出6個(gè)分支處理不同尺度的人臉.Li等[11]提出ASFD(Automatic and Scalable Face Detector),采用ResNet50[13]作為骨干網(wǎng)絡(luò),采用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索一個(gè)獨(dú)特的FPN,然后融合骨干網(wǎng)絡(luò)輸出特征并輸出6個(gè)尺度不同的特征圖.

上述網(wǎng)絡(luò)均采用特征金字塔結(jié)構(gòu)及其變體的設(shè)計(jì),然而這種網(wǎng)絡(luò)結(jié)構(gòu)也并非完美,存在如下缺點(diǎn):1)輸出的多級(jí)特征要逐個(gè)經(jīng)過(guò)共享頭部的推理,相比直接處理單級(jí)特征圖,無(wú)疑減緩網(wǎng)絡(luò)推理速度,并且FPN會(huì)增加推理過(guò)程中臨時(shí)變量的使用,占用大量顯存.2)非常依賴(lài)于多級(jí)標(biāo)簽分配方法,不同的標(biāo)簽分配方法產(chǎn)生的差距可能非常大,這種結(jié)構(gòu)不僅要考慮將哪些位置的錨框分配為正樣本,還需要選擇分配至哪一層級(jí).

在通用目標(biāo)檢測(cè)中,也有一些方法僅依賴(lài)于單級(jí)特征圖.Law等[14]提出CornerNet,Duan等[15]提出CenterNet,都僅使用單級(jí)特征圖,并將邊界框回歸任務(wù)轉(zhuǎn)變?yōu)殛P(guān)鍵點(diǎn)檢測(cè)的任務(wù),通過(guò)對(duì)熱力圖回歸定位目標(biāo),然而只有在使用Hourglass[16]這類(lèi)大型的骨干網(wǎng)絡(luò)時(shí)才能取得較優(yōu)結(jié)果.Chen等[17]提出YOLOF(You Only Look One-Level Feature),使用空洞編碼模塊獲取較大的感受野,同時(shí)保留較小的感受野特征,從而將寬范圍的感受野融入單級(jí)特征圖中.該方法使用C5層作為基層特征,放大其感受野,這就要求輸入圖像的分辨率足夠大,否則在提取C5特征時(shí)會(huì)損失過(guò)多的細(xì)節(jié)信息,但是高分辨率的輸入會(huì)增加過(guò)多的計(jì)算量.同時(shí),YOLOF未有效利用骨干網(wǎng)絡(luò)的淺層特征,對(duì)小目標(biāo)檢測(cè)性能較差.

在人臉檢測(cè)領(lǐng)域,Xu等[18]提出CenterFace,僅使用單級(jí)特征圖,并取得不錯(cuò)效果.CenterFace基于無(wú)錨設(shè)計(jì),在步長(zhǎng)為4的特征圖上布滿(mǎn)錨點(diǎn),利用高斯核計(jì)算一個(gè)等效的熱力圖以表示真實(shí)框.這種無(wú)錨設(shè)計(jì)固然簡(jiǎn)單,但在面對(duì)遮擋人臉時(shí),如果兩個(gè)人臉框的等效熱力圖中心點(diǎn)重疊,該位置也僅能檢測(cè)一幅人臉.另外CenterFace邊界框回歸僅使用人臉框中心的錨點(diǎn),這種回歸方式大幅降低錨點(diǎn)的命中率,不利于網(wǎng)絡(luò)充分訓(xùn)練.

還有一些方法通過(guò)增加額外的監(jiān)督信息獲取精度的提升.He等[19]提出Mask R-CNN,增加額外的掩碼分支,取得更精確的定位信息.Zhang等[1]提出MTCNN(Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks),Chen等[20]提出STN(Supervised Transformer Network),聯(lián)合人臉檢測(cè)和5個(gè)人臉關(guān)鍵點(diǎn)檢測(cè),提升網(wǎng)絡(luò)對(duì)人臉信息的辨識(shí)度.然而大部分方法都是將輔助監(jiān)督信息和分類(lèi)或回歸分支共享特征,這種處理方式未考慮到不同任務(wù)之間的差異.

針對(duì)上述分析,并受到TBCNN(Three-Branch Convolutional Neural Network)[21]對(duì)不同特征融合方式的啟發(fā),本文提出融合多尺度特征的輕量級(jí)人臉檢測(cè)網(wǎng)絡(luò)(Lightweight Face Detection Network with Multi-scale Feature Fusion, LFDMF).與之前的人臉檢測(cè)網(wǎng)絡(luò)不同,輸入圖像在經(jīng)過(guò)頸部網(wǎng)絡(luò)后僅輸出單級(jí)特征圖,該特征圖融合不同范圍的感受野,能有效提取各種尺度目標(biāo)的語(yǔ)義特征.最后將該單級(jí)特征圖輸入頭部網(wǎng)絡(luò),進(jìn)行人臉?lè)诸?lèi)、回歸及檢測(cè)人臉的關(guān)鍵點(diǎn).實(shí)驗(yàn)表明,該方法融合多尺度特征圖至單級(jí)特征,同樣能取得較優(yōu)效果,并且相比其它多級(jí)特征檢測(cè)的方案,在參數(shù)量和計(jì)算量上具有較大優(yōu)勢(shì).另外LFDMF提出多任務(wù)敏感檢測(cè)頭,同樣引入人臉關(guān)鍵點(diǎn)檢測(cè),并將分類(lèi)、回歸、關(guān)鍵點(diǎn)檢測(cè)作為多任務(wù)進(jìn)行處理.該檢測(cè)頭既考慮不同任務(wù)之間的差異,又考慮不同任務(wù)之間的相似性.實(shí)驗(yàn)表明,該檢測(cè)頭能進(jìn)一步提升模型性能.

1 融合多尺度特征的輕量級(jí)人臉檢測(cè)算法

本文提出融合多尺度特征的輕量級(jí)人臉檢測(cè)算法(LFDMF),整體框架如圖1所示.

圖1 LFDMF整體結(jié)構(gòu)Fig.1 Overall structure of LFDMF

1.1 骨干網(wǎng)絡(luò)

骨干網(wǎng)絡(luò)的優(yōu)劣會(huì)直接影響特征提取的好壞,進(jìn)而影響目標(biāo)檢測(cè)的結(jié)果.PyramidBox以VGG16網(wǎng)絡(luò)[22]作為骨干網(wǎng)絡(luò),RetinaFace采用ResNet101為骨干網(wǎng)絡(luò),這兩類(lèi)骨干網(wǎng)絡(luò)計(jì)算復(fù)雜度較高,不宜充當(dāng)輕量級(jí)網(wǎng)絡(luò)的主干.Guo等[23]提出SCRFD(Sam-ple and Computation Redistribution for Efficient Face Detection),指出目標(biāo)檢測(cè)中常用的骨干網(wǎng)絡(luò)并不適用于人臉檢測(cè),然后基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索多個(gè)不同計(jì)算量的適用于人臉檢測(cè)的骨干網(wǎng)絡(luò),該骨干網(wǎng)絡(luò)具有參數(shù)較少、計(jì)算量較低等優(yōu)點(diǎn).因此LFDMF分別選取SCRFD-34g、 SCRFD-2.5g、SCRFD-0.5g三個(gè)不同計(jì)算量的骨干網(wǎng)絡(luò),構(gòu)造LFDMF-L、LFDMF-M、LFDMF-S.SCRFD-34g指在輸入分辨率為640×640條件下,以殘差塊(Residual Block)為基本搜索單元,對(duì)殘差塊的通道數(shù)、疊加深度等進(jìn)行搜索,限制網(wǎng)絡(luò)整體的浮點(diǎn)運(yùn)算量為34 G下搜索得到的骨干網(wǎng)絡(luò),同理SCRFD-2.5g限制網(wǎng)絡(luò)整體浮點(diǎn)運(yùn)算量為2.5 G,SCRFD-0.5g限制網(wǎng)絡(luò)整體浮點(diǎn)運(yùn)算量為0.5 G.

1.2 頸部網(wǎng)絡(luò)

與多級(jí)檢測(cè)網(wǎng)絡(luò)不同,LFDMF的頸部網(wǎng)絡(luò)僅輸出單級(jí)特征圖,因此與多級(jí)檢測(cè)網(wǎng)絡(luò)的設(shè)計(jì)思想也有所不同.在多級(jí)檢測(cè)網(wǎng)絡(luò)中,頸部網(wǎng)絡(luò)的主要功能是分治處理不同尺度的目標(biāo),高層特征處理尺度較大的目標(biāo),低層特征處理尺度較小的目標(biāo).然而人臉尺度是連續(xù)的,理論上劃分越多的層次,能處理的人臉尺度就更有連續(xù)性,但這顯然與輕量化檢測(cè)目標(biāo)相矛盾.LFDMF頸部網(wǎng)絡(luò)的目標(biāo)是先擴(kuò)大感受野的范圍,然后將不同的感受野融入單級(jí)特征圖中,處理各種尺度的目標(biāo)人臉,可通過(guò)下采樣和空洞卷積的方式實(shí)現(xiàn)擴(kuò)張感受野,下采樣會(huì)丟失目標(biāo)的空間信息,因此LFDMF選擇空洞卷積獲取更大的感受野.

圖1中空洞編碼模塊由4個(gè)基于空洞卷積的瓶頸塊串聯(lián)組成,每個(gè)瓶頸塊中3×3空洞卷積層的空洞率分別為2、4、6、8,經(jīng)過(guò)空洞卷積擴(kuò)張感受野后,使用殘差連接聚合不同感受野的特征.不同于YOLOF,LFDMF在精度和計(jì)算量的權(quán)衡下,頸部網(wǎng)絡(luò)輸出步長(zhǎng)為8的P3特征圖,另外該網(wǎng)絡(luò)復(fù)用骨干網(wǎng)絡(luò)前幾個(gè)階段的輸出特征,分別通過(guò)上采樣模塊和下采樣模塊進(jìn)行融合.這對(duì)于較小尺寸人臉檢測(cè)較有利.實(shí)驗(yàn)表明,相比FPN,該結(jié)構(gòu)具有更優(yōu)性能.

1.3 檢測(cè)頭

大多數(shù)人臉檢測(cè)頭直接從頸部輸出引出雙分支進(jìn)行分類(lèi)和回歸.如圖2所示的基線(xiàn)檢測(cè)頭,特征圖輸入到檢測(cè)頭后先分成2個(gè)分支,每個(gè)分支堆疊N個(gè)3×3卷積層,關(guān)鍵點(diǎn)檢測(cè)僅作為輔助分支掛載到回歸分支和共享特征.雖然這些任務(wù)之間有一定的關(guān)聯(lián)性,但也存在許多差異,如分類(lèi)分支更關(guān)注人臉的全局信息,回歸分支更關(guān)注人臉的邊界信息,關(guān)鍵點(diǎn)檢測(cè)更關(guān)注人臉的關(guān)鍵部位.

圖2 基線(xiàn)檢測(cè)頭Fig.2 Baseline detector head

受這種思想的啟發(fā),本文提出任務(wù)敏感型的檢測(cè)頭,如圖3所示.

圖3 多任務(wù)敏感檢測(cè)頭Fig.3 Multi-task sensitive detector head

任務(wù)敏感型的檢測(cè)頭的目標(biāo)是找出不同任務(wù)特征圖的最佳融合方式.首先,與常規(guī)檢測(cè)頭相同,從頸部輸出的特征圖引出T個(gè)分支,每個(gè)分支經(jīng)過(guò)一個(gè)3×3卷積層,再通過(guò)任務(wù)敏感模塊.該模塊由T個(gè)任務(wù)敏感單元組成,每個(gè)單元包含T×C個(gè)可學(xué)習(xí)的參數(shù),C表示輸出特征的通道數(shù).該單元計(jì)算不同任務(wù)特征圖在通道維度上的線(xiàn)性結(jié)合以得到任務(wù)敏感的特征圖.網(wǎng)絡(luò)包含分類(lèi)、回歸、關(guān)鍵點(diǎn)檢測(cè)分支,因此T=3,模塊以串聯(lián)的方式堆疊N次,通道數(shù)C取值與模型大小相關(guān).LFDMF-L、LFDMF-M、LFDMF-S通道數(shù)取值分別為128、32、24.

1.4 損失函數(shù)

網(wǎng)絡(luò)整體損失L*由分類(lèi)損失Lcls、人臉框回歸損失Lreg、關(guān)鍵點(diǎn)檢測(cè)損失Lkps共同組成:

L*=Lcls+λ1Lreg+λ2Lkps,

其中,λ1、λ2為任務(wù)權(quán)重調(diào)節(jié)因子,按一定的比例調(diào)節(jié)并保持不同損失項(xiàng)處于同一數(shù)量級(jí).

由于分類(lèi)和回歸分別使用不同的分支,會(huì)導(dǎo)致分類(lèi)和邊界框回歸不一致的問(wèn)題,以Quality Focal Loss[24]作為分類(lèi)損失函數(shù)可有效解決該問(wèn)題,則

Lcls=-|y-σ|β((1-y)ln(1-σ)+ylnσ),

其中,y∈[0,1]表示基于預(yù)測(cè)框和真實(shí)框交并比(Intersection over Union, IoU)軟化的質(zhì)量標(biāo)簽,σ表示預(yù)測(cè)質(zhì)量,β表示調(diào)節(jié)因子,默認(rèn)取值為2.

面部框回歸以CIoU(Complete IoU) Loss[25]作為損失函數(shù).僅使用IoU有時(shí)不能準(zhǔn)確反映預(yù)測(cè)框和真實(shí)框的位置關(guān)系,CIoU加入最小外接矩形框的懲罰項(xiàng),更有效解決這一問(wèn)題,則

其中,ρ(·,·)表示歐氏距離,b表示預(yù)測(cè)框中心點(diǎn)坐標(biāo),bgt表示真實(shí)框中心點(diǎn)坐標(biāo),c表示預(yù)測(cè)框和真實(shí)框最小外接矩形的對(duì)角線(xiàn)距離,w、h表示預(yù)測(cè)框?qū)?、?wgt、hgt表示真實(shí)框的寬、高.

面部關(guān)鍵點(diǎn)損失函數(shù)Lkps采用smoothL1損失函數(shù):

1.5 錨框匹配策略

在80×80的P3特征圖上平鋪錨框,對(duì)于每個(gè)特征點(diǎn)設(shè)置6個(gè)錨框,尺度分別為[2,4,8,16,32,64].遵循YOLOF的統(tǒng)一匹配(Uniform Match)策略,采取距離真實(shí)框最近的k個(gè)錨框作為正樣本,因此所有的真實(shí)框匹配同等數(shù)量的錨框與真實(shí)框大小無(wú)關(guān).與YOLOF不同的是,為了獲取更高質(zhì)量的錨框,LFDMF將網(wǎng)絡(luò)預(yù)測(cè)框位置同初始錨框位置共同和真實(shí)框計(jì)算歐氏距離,選擇其中最近的k個(gè)錨框,k默認(rèn)取值為4.此外,遵循最大IoU匹配策略,刪除IoU>0.7的錨框作為負(fù)樣本及IoU<0.15的錨框作為正樣本.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

首先選擇在WiderFace數(shù)據(jù)集上進(jìn)行訓(xùn)練.WiderFace數(shù)據(jù)集是最大的人臉檢測(cè)數(shù)據(jù)集,包含32 203幅圖像和393 703幅人臉.數(shù)據(jù)集劃分3個(gè)級(jí)別的檢測(cè)難度:Easy、Medium、Hard.這些人臉在尺度、姿態(tài)、光照、表情、遮擋等方面都有很大的變化范圍,接近現(xiàn)實(shí)場(chǎng)景中的人臉變化,另外數(shù)據(jù)集上5個(gè)人臉關(guān)鍵點(diǎn)標(biāo)注來(lái)源于RetinaFace.

實(shí)驗(yàn)使用基于PyTorch的開(kāi)源框架MMDetec-tion[27]實(shí)現(xiàn),使用SGD(Stochastic Gradient Descent)優(yōu)化器(動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為5e-4).使用2張Nvidia 2080Ti顯卡,批大小設(shè)置為8×2,初始學(xué)習(xí)率設(shè)置為5e-6,在2個(gè)輪次內(nèi)線(xiàn)性上升至5e-2.訓(xùn)練階段共訓(xùn)練640個(gè)輪次,在第441個(gè)和第545個(gè)輪次時(shí),學(xué)習(xí)率下降為原來(lái)的0.1.所有模型均從頭訓(xùn)練而未使用任何預(yù)訓(xùn)練模型.數(shù)據(jù)增強(qiáng)策略使用隨機(jī)尺度裁剪,從[0.3,0.45,0.6,0.8,1.0,1.2,1.4,1.6,1.8,2.0]中隨機(jī)選擇一個(gè)尺度進(jìn)行裁剪,尺度大于1.0時(shí)先對(duì)原始圖像填充至指定尺度,然后將裁剪后的矩形塊拉伸至640×640.另外對(duì)圖像進(jìn)行色彩增強(qiáng)和0.5概率的隨機(jī)水平翻轉(zhuǎn).

輸入分辨率和模型計(jì)算量呈正相關(guān),LFDMF重點(diǎn)關(guān)注模型在VGA(640×480)分辨率上的表現(xiàn).在未額外指明的情況下,所有測(cè)試和對(duì)比方法的輸入分辨率均為VGA,訓(xùn)練輸入分辨率為640×640.

2.2 評(píng)價(jià)指標(biāo)

相比通用目標(biāo)檢測(cè),人臉檢測(cè)的類(lèi)別只有一類(lèi),主要評(píng)價(jià)指標(biāo)包括精確率(Precision, P),召回率(Recall, R),平均精確率(Average Precision, AP),具體計(jì)算公式如下:

其中,在給定的IoU閾值下,TP表示預(yù)測(cè)框和真實(shí)框匹配的數(shù)量,F(xiàn)P表示預(yù)測(cè)框和真實(shí)框不匹配的數(shù)量,F(xiàn)N表示未被正確預(yù)測(cè)的真實(shí)框數(shù)量,p(r)表示不同IoU閾值下,R和P之間的對(duì)應(yīng)函數(shù),AP表示該函數(shù)在0-1區(qū)間上的積分.

本文方法復(fù)雜度評(píng)價(jià)指標(biāo)為浮點(diǎn)運(yùn)算數(shù)(Floating Point Operations, FLOPs),表示模型前向推理過(guò)程中的浮點(diǎn)運(yùn)算量.

2.3 實(shí)驗(yàn)結(jié)果對(duì)比

實(shí)驗(yàn)選用如下對(duì)比算法:RetinaFace[8]、DSFD(Dual Shot Face Detector)[10]、SCRFD[23]、HAMbox(Online High-Quality Anchor Mining Strategy)[28].實(shí)驗(yàn)結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值.

表1 各算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Experimental result comparison of different algorithms

在表1中,LFDMF-L*、LFDMF-M*、LFDMF-S*分別表示使用ResNet50、MobileNet、MobileNet 0.25作為骨干網(wǎng)絡(luò)的模型,0.25指在原始網(wǎng)絡(luò)基礎(chǔ)上通道數(shù)縮放為0.25倍,Bottleneck Res、Basic Res、Depth-wise Conv為SCRFD提出的3個(gè)計(jì)算量不同的骨干網(wǎng)絡(luò).由表可看出,這3個(gè)骨干網(wǎng)絡(luò)對(duì)人臉檢測(cè)優(yōu)勢(shì)較大.

另外本文按模型參數(shù)量和計(jì)算量劃分為3類(lèi).由表1可看出,LFDMF-L在Wider Face數(shù)據(jù)集上性能最優(yōu),并且在模型參數(shù)量和計(jì)算量上有較大改進(jìn).LFDMF-M在中等和困難子集上均優(yōu)于SCRFD.LFDMF-S以極低的計(jì)算量和參數(shù)量實(shí)現(xiàn)可觀的性能.

為了測(cè)試算法的極限性能,遵循RetinaFace對(duì)LFDMF-L進(jìn)行多尺度測(cè)試,分別將測(cè)試圖像長(zhǎng)邊拉至[500,800,1100,1400,1700]進(jìn)行推理,選取代表性的對(duì)比算法如下:MTCNN[1]、PyramidBox[9]、Two-Stage CNN[26]、DFS[29]、Face R-CNN[30]、SSH[31],算法命名均遵循WiderFace數(shù)據(jù)集(http://shuoyang1213.me/WIDERFACE/index.html)上的官方命名.在Wider Face數(shù)據(jù)集上各算法的精確率-召回率曲線(xiàn)如圖4所示.由圖可看出,LFDMF性能最優(yōu).

(a)Easy (b)Medium (c)Hard圖4 各算法在Wider Face數(shù)據(jù)集上的精確率-召回率曲線(xiàn)Fig.4 Precision-recall curves of different algorithms on Wider Face dataset

為了評(píng)估算法泛化能力,進(jìn)一步在FDDB數(shù)據(jù)集(http://vis-www.cs.umass.edu/fddb)上進(jìn)行測(cè)試.FDDB數(shù)據(jù)集包含2 845幅圖像,共有5 171幅無(wú)約束的人臉.以受試者工作特征(Receiver Ope-rating Characteristic, ROC)曲線(xiàn)為評(píng)估指標(biāo).選取如下代表性的對(duì)比算法:MTCNN[1]、FaceBoxes[2]、JointCascade[32]、XZJY[33]、Viola Jones[34],具體縮寫(xiě)均遵循FDDB數(shù)據(jù)集上官方命名.各算法的ROC曲線(xiàn)如圖5所示.

圖5 各算法在FDDB數(shù)據(jù)集上的ROC曲線(xiàn)Fig.5 ROC curves of different algorithms on FDDB dataset

由圖5可看出,LFDMF-L表現(xiàn)出良好的泛化能力.

2.4 消融實(shí)驗(yàn)結(jié)果

2.4.1頸部網(wǎng)絡(luò)輸出尺度的選擇

P2~P5不同層級(jí)的輸出對(duì)于錨框的設(shè)置和正負(fù)樣本的分配有極大的影響,主干網(wǎng)絡(luò)輸出4個(gè)不同尺度的特征圖C2~C5,此處探究頸部網(wǎng)絡(luò)以相似的融合方式輸出4層不同的單級(jí)特征圖對(duì)檢測(cè)結(jié)果的影響,設(shè)置任務(wù)損失權(quán)重λ1=2,λ2=0.1.

輸出不同層級(jí)的單級(jí)特征圖如圖6所示,圖中DE、DM、UM分別表示圖1中的空洞編碼模塊、下采樣模塊、上采樣模塊.

不同輸出層級(jí)對(duì)結(jié)果的影響如表2所示,表中黑體數(shù)字表示最優(yōu)值.由表可知,以P4或P5作為頸部網(wǎng)絡(luò)的輸出在Hard子集上的精度較差,和預(yù)期相同,這是因?yàn)镠ard子集上小尺寸人臉圖像占有很大比重,而P4、P5層下采樣率過(guò)高,許多小尺寸人臉圖像無(wú)法匹配到優(yōu)質(zhì)的錨框.而以P2作為輸出層雖能取得較高精確率,但網(wǎng)絡(luò)的計(jì)算量較高,最終LFD- MF在基于精確率和計(jì)算量的權(quán)衡下輸出融合后的P3特征圖.

(a)P5 (b)P4

表2 不同輸出層級(jí)對(duì)實(shí)驗(yàn)結(jié)果的影響Table 2 Influence of different output layers on results

2.4.2各模塊有效性實(shí)驗(yàn)

現(xiàn)分析特征金字塔、LFDMF頸部網(wǎng)絡(luò)、基線(xiàn)檢測(cè)頭、任務(wù)敏感檢測(cè)頭這4個(gè)模塊的有效性,具體實(shí)驗(yàn)結(jié)果如表3所示,表中黑體數(shù)字表示最優(yōu)值.

表3 不同模塊對(duì)實(shí)驗(yàn)結(jié)果的影響Table 3 Influence of different modules on results

對(duì)比LFDMF頸部網(wǎng)絡(luò),特征金字塔遵循RetinaFace的多級(jí)輸出融合和錨框設(shè)置方式,使用C2~C5作為特征金字塔網(wǎng)絡(luò)的輸入,輸出P2~P6共5層金字塔結(jié)構(gòu).這些層共享相同檢測(cè)頭,精度有所提升.在使用LFDMF的頸部網(wǎng)絡(luò)基礎(chǔ)上以基線(xiàn)檢測(cè)頭的方式加入關(guān)鍵點(diǎn)檢測(cè)后,精確率又有所提升,表明額外的監(jiān)督信息能有效提高人臉檢測(cè)的精確率.在使用任務(wù)敏感型頭部之后,模型精確率達(dá)到最優(yōu)值,這證實(shí)人臉檢測(cè)的3個(gè)不同分支之間既有相似性,又有差異性,本文提出的檢測(cè)頭能同時(shí)兼顧二者,并改善模型性能.

2.4.3不同任務(wù)損失權(quán)重的選擇

為了測(cè)試不同任務(wù)損失權(quán)重對(duì)結(jié)果產(chǎn)生的影響,在LFDMF-L上進(jìn)行如下實(shí)驗(yàn).由于同時(shí)預(yù)測(cè)5個(gè)人臉關(guān)鍵點(diǎn)的計(jì)算的損失較大,因此實(shí)驗(yàn)中給予其較小的權(quán)重,保證各項(xiàng)損失處于同一數(shù)量級(jí),具體實(shí)驗(yàn)結(jié)果如表4所示,表中黑體數(shù)字表示最優(yōu)值.

由表4可看出,λ1=2,λ2=0.1時(shí)精確率較優(yōu),這說(shuō)明人臉檢測(cè)的主要任務(wù)為邊界框回歸,適當(dāng)增加λ1有益于邊界框回歸的收斂,而λ2設(shè)置較大時(shí)精確率略有降低,與預(yù)期一致.這是由于數(shù)據(jù)集上大量的小型人臉圖像關(guān)鍵點(diǎn)特征模糊,無(wú)法從中提取有益的特征,反而會(huì)影響網(wǎng)絡(luò)收斂的方向.

表4 不同損失權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響Table 4 Influence of different loss weights on results

2.5 關(guān)鍵點(diǎn)檢測(cè)性能評(píng)估

圖7 各算法在AFLW數(shù)據(jù)集上的人臉對(duì)齊評(píng)估Fig.7 Evaluation of different algorithms for face alignment on AFLW dataset

由圖7可看出,LFDMF-L除了在鼻尖關(guān)鍵點(diǎn)檢測(cè)上的性能略低于RetinaFace以外,對(duì)其余關(guān)鍵點(diǎn)的檢測(cè)均有明顯的優(yōu)勢(shì).

2.6 推理效率

考慮到算法在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用,分別測(cè)試LFDMF-L、LFDMF-M、LFDMF-S的運(yùn)行效率.在Nvi-dia 2080Ti上以VGA分辨率為輸入,在僅考慮算法推理時(shí)間的條件下,LFDMF-L單幅圖像用時(shí)僅12.1 ms,LFDMF-M單幅圖像用時(shí)4.4 ms,LFDMF-S單幅圖像用時(shí)3.6 ms,完全達(dá)到實(shí)時(shí)性人臉檢測(cè)的要求.以大模型LFDMF-L為例展示算法在WiderFace數(shù)據(jù)集上的部分檢測(cè)結(jié)果,具體如圖8所示.由圖可看出,不論是在常規(guī)環(huán)境下,或是在膚色、姿態(tài)、尺度等影響因素下,LFDMF都能精準(zhǔn)檢測(cè)人臉及其面部關(guān)鍵點(diǎn).

圖8 LFDMF-L在Wider Face 數(shù)據(jù)集上的檢測(cè)結(jié)果Fig.8 Detection results of LFDMF-L on Wider Face dataset

3 結(jié) 束 語(yǔ)

本文提出融合多尺度特征的輕量級(jí)人臉檢測(cè)算法,摒棄特征金字塔網(wǎng)絡(luò)的多級(jí)輸出結(jié)構(gòu),顯著減少模型計(jì)算量和參數(shù)量.另外引入頸部感受野融合模塊,在性能和計(jì)算上均優(yōu)于傳統(tǒng)的多級(jí)特征檢測(cè)網(wǎng)絡(luò).最后提出的多任務(wù)敏感檢測(cè)頭,同時(shí)兼顧不同任務(wù)之間的相似性與差異性,進(jìn)一步提升檢測(cè)效果.近期一些通用目標(biāo)檢測(cè)方法主要關(guān)注無(wú)錨方法的正負(fù)樣本分配策略,然而這些分配策略均以多級(jí)檢測(cè)為前提,今后會(huì)考慮針對(duì)無(wú)錨的單級(jí)特征檢測(cè)方法開(kāi)展研究.

猜你喜歡
骨干人臉關(guān)鍵點(diǎn)
論建筑工程管理關(guān)鍵點(diǎn)
水利水電工程施工質(zhì)量控制的關(guān)鍵點(diǎn)
玻璃窗上的人臉
做人民的公仆 做事業(yè)的骨干
山西省高等職業(yè)教育骨干專(zhuān)業(yè)建設(shè)項(xiàng)目名單
湛江市文藝骨干 “四力”培訓(xùn)班在徐聞舉行
智力考場(chǎng):有趣的圖片測(cè)試
利用定義法破解關(guān)鍵點(diǎn)
對(duì)青年骨干人才培養(yǎng)的幾點(diǎn)探討
“領(lǐng)家系”可愛(ài)臉VS“高冷系”美人臉
略阳县| 建昌县| 南华县| 神木县| 九龙县| 茌平县| 仁化县| 吉安县| 秦皇岛市| 塔城市| 长沙县| 五台县| 登封市| 阿拉善左旗| 翼城县| 常德市| 普格县| 手机| 和林格尔县| 红河县| 天水市| 陇西县| 平陆县| 吉木乃县| 河津市| 延川县| 资中县| 湖北省| 葫芦岛市| 彰武县| 吴堡县| 平果县| 徐州市| 宜兰县| 垦利县| 察雅县| 紫云| 仙游县| 舞阳县| 遵义县| 镇江市|