国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度特征融合的人臉檢測算法

2024-09-12 00:00:00龔汝洪周燕
物聯(lián)網(wǎng)技術(shù) 2024年7期

摘 要:近年來人臉檢測技術(shù)得到了快速發(fā)展,特別是基于人工智能神經(jīng)網(wǎng)絡(luò)的人臉檢測技術(shù)在一些工業(yè)級(jí)環(huán)境中得到了廣泛應(yīng)用,但這些人臉檢測技術(shù)在識(shí)別戴口罩的人臉時(shí)會(huì)出現(xiàn)召回率不高的現(xiàn)象。針對(duì)這個(gè)問題,研究一種能夠?qū)Υ骺谡秩四樳M(jìn)行精準(zhǔn)定位的技術(shù),提出一種基于多尺度特征融合的人臉檢測算法。該算法使用MobileNet輕量級(jí)的網(wǎng)絡(luò)框架,引入特征金字塔融合模塊和SSH模塊,并設(shè)計(jì)了兩種損失函數(shù):人臉分類損失函數(shù)和人臉檢測回歸框損失函數(shù)。實(shí)驗(yàn)中使用WIDER FACE和MAFA數(shù)據(jù)集對(duì)該算法進(jìn)行訓(xùn)練,并與當(dāng)前主流的人臉檢測算法進(jìn)行比較,結(jié)果表明文中提出的算法具有較好的性能。

關(guān)鍵詞:多尺度特征融合;口罩人臉檢測;特征金字塔融合模塊;SSH模塊;損失函數(shù);MAFA數(shù)據(jù)集

中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2024)07-00-04

0 引 言

2020年新冠肺炎疫情在全球暴發(fā),成為進(jìn)入21世紀(jì)以來最為嚴(yán)重的重大公共衛(wèi)生事件。為響應(yīng)國家疫情防控政策,降低公共場合的人員交叉感染風(fēng)險(xiǎn),出門佩戴口罩成了常態(tài)化疫情防控的一種基本手段。如何在口罩遮蓋下進(jìn)行高準(zhǔn)確率的人臉識(shí)別是目前一大研究熱點(diǎn)。就目前而言,專門應(yīng)用于人臉佩戴口罩檢測的相關(guān)算法較少,由于國家政策和現(xiàn)實(shí)需要,一些科技公司和科學(xué)界的學(xué)者們開始投身于對(duì)人臉口罩佩戴檢測算法的研究當(dāng)中。

張修寶等人[1]提出一種基于深度學(xué)習(xí)的人臉佩戴口罩識(shí)別技術(shù),該算法包括了人臉檢測定位以及佩戴口罩識(shí)別兩部分,其中人臉檢測定位部分使用了DFS算法[2],對(duì)不同尺度的人臉都有較好的檢測準(zhǔn)確性;而人臉佩戴口罩識(shí)別部分是在ResNet50網(wǎng)絡(luò)[3]的基礎(chǔ)上,加入注意力學(xué)習(xí)機(jī)制,讓網(wǎng)絡(luò)突顯出口罩區(qū)域部分,從而達(dá)到提高模型分類的能力。王兵等人[4]提出一種輕量化的口罩佩戴檢測算法,該算法是在YOLOv4tiny[5]的基礎(chǔ)上進(jìn)行改進(jìn)的。為提取更多圖像特征信息,提出一種Max module結(jié)構(gòu),能很好地提升模型檢測準(zhǔn)確率;為加快模型收斂速度,采取了CIoU[6]作為損失函數(shù),使得模型預(yù)測的坐標(biāo)框更精準(zhǔn)。牛作東等人[7]在RetinaFace[8]的基礎(chǔ)上,通過改進(jìn)分類損失函數(shù),減少了人臉口罩佩戴檢測損失;同時(shí)在特征金字塔網(wǎng)絡(luò)層加入注意力機(jī)制,以加強(qiáng)特征圖的表達(dá)能力。王藝皓等人[9]在YOLOv3[10]的基礎(chǔ)上,引入局部網(wǎng)絡(luò)(CSPNet)[11],增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的學(xué)習(xí)能力,同時(shí)在最后一層特征層的卷積中加入SPP結(jié)構(gòu)[12],具有較好的魯棒性。

目前的人臉口罩佩戴檢測算法效果較好,但是在一些自然場景中會(huì)出現(xiàn)誤判的情況,比如用紙巾遮擋住部分人臉的情況下,算法會(huì)誤判該人臉已佩戴口罩。本文研究一種基于多尺度特征融合的人臉檢測算法,能夠?qū)Υ骺谡秩四樳M(jìn)行精準(zhǔn)定位。該算法使用MobileNet輕量級(jí)的網(wǎng)絡(luò)框架,引入了特征金字塔融合模塊和SSH(Single Stage Headless)模塊,并使用人臉分類和人臉檢測回歸框兩種損失函數(shù)。

1 算法總體框架

多尺度特征融合的人臉檢測算法總體框架如圖1所示。

對(duì)于圖片特征提取的主干網(wǎng)絡(luò),本文選取的是MobileNet輕量級(jí)的網(wǎng)絡(luò)框架,因?yàn)樵摼W(wǎng)絡(luò)架構(gòu)能在保證高精度提取主要特征的前提下,只需要較少的參數(shù)量,并且可以移植到不具備GPU的移動(dòng)端設(shè)備上進(jìn)行實(shí)時(shí)操作,其網(wǎng)絡(luò)框架參數(shù)見表1所列。

本文中的MobileNet框架一共有5個(gè)Block塊,其中Block中的Convdw表示深度可分離卷積,它由兩部分卷積層組成:第一部分是對(duì)通道數(shù)進(jìn)行分層的深度卷積層(Depthwise Convolution);第二部分是卷積核尺寸為1×1的點(diǎn)卷積層(Pointwise Convolution)。

2 特征金字塔融合模塊

在深度卷積網(wǎng)絡(luò)中,深層網(wǎng)絡(luò)的感受野比較大,相對(duì)淺層網(wǎng)絡(luò)而言,其語義信息表達(dá)能力要強(qiáng)得多,但其特征圖的分辨率較低,幾何信息表達(dá)能力弱;低層網(wǎng)絡(luò)的感受野相對(duì)高層網(wǎng)絡(luò)而言比較小,語義信息表達(dá)方面能力相對(duì)較弱,但其分辨率高,幾何信息表達(dá)能力相對(duì)較強(qiáng)。因此,將這些特征層融合在一起后對(duì)目標(biāo)檢測精度的提升具有較好的效果。本文將MobileNet中Block3、Block4和Block5的最后一層作為三個(gè)有效特征層,將它們進(jìn)行融合,融合過程如圖2所示。

圖2中所展示的上采樣方法(Upsample),使用的是最近鄰插值法(Nearest Neighbor Interpolation)。最近鄰插值法能夠在特征圖上采樣過程中保留較多的語義信息,完成上采樣步驟之后,再與含有較多空間信息的特征圖融合,從而得到既擁有良好的空間信息,又具備較豐富的語義信息的特征圖。最近鄰插值法結(jié)構(gòu)如圖3所示,在代碼復(fù)現(xiàn)的過程中,本文使用Python中OpenCV庫內(nèi)置的resize函數(shù)實(shí)現(xiàn)該項(xiàng)技術(shù)。

3 SSH模塊

為了能更好地增強(qiáng)模型捕捉小臉的情景推理能力,本文引入SSH模塊,以擴(kuò)大感受野并增強(qiáng)上下文建模能力。SSH結(jié)構(gòu)如圖4所示。

經(jīng)過特征金字塔融合模塊的FeatureX后,通過SSH模塊得到OutputX層,X表示1、2、3這三層特征圖。SSH由一個(gè)3×3的卷積和上下文網(wǎng)絡(luò)模塊(Context Module)的輸出進(jìn)行合并組合而成,其中上下文網(wǎng)絡(luò)模塊的作用是增大感受野,使用5×5和7×7的卷積進(jìn)行操作。本文根據(jù)Inception[13]的思想,使用2個(gè)3×3的卷積核代替一個(gè)5×5的卷積核,使用3個(gè)3×3的卷積核代替一個(gè)7×7的卷積核,這樣在不降低精度的情況下,能夠大幅度減少參數(shù)量。

對(duì)于通過SSH模塊提煉出來的特征層,均以滑動(dòng)窗口模式進(jìn)行遍歷,在每一個(gè)像素點(diǎn)對(duì)應(yīng)的原圖位置上生成anchor,而每一個(gè)anchor則對(duì)應(yīng)著人臉分類和人臉檢測回歸框坐標(biāo)兩個(gè)任務(wù)。因此,本文設(shè)計(jì)的損失函數(shù)也包含兩個(gè)部分,公式如式(1)所示:

L=L1+L2=Lcls(pi, pi*)+λ1pi*Lreg(ti, ti*)" " " " " " " " " "(1)

式中:L1表示人臉分類的損失;pi表示第i個(gè)anchor預(yù)測為真實(shí)標(biāo)簽的概率,如果pi*為positive anchor,其值為1;若為negative anchor,其值為0。L2表示人臉檢測回歸框的損失,其中ti={tx, ty, tw, th}、ti*={tx*, ty*, tw*, th*}分別代表著positive anchor相關(guān)的預(yù)測框坐標(biāo)和真實(shí)框坐標(biāo);λ1表示超參數(shù),可設(shè)置為0.25。

(1)人臉分類損失函數(shù):

(2)人臉檢測回歸框損失函數(shù):

L2=λ1pi*Lreg(ti, ti*)" " " " " " " " " " " " " " " " " "(3)

其中Lreg的表達(dá)式如式(4)所示:

smoothL1函數(shù)的表達(dá)式如式(5)所示:

式中:x表示預(yù)測值與真實(shí)值的差值。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)的硬件環(huán)境如下:計(jì)算加速硬件GPU為NVIDIA TITAN V,顯存12 GB,處理器為Intel? Xeon? CPU E5-2665,內(nèi)存容量為16 GB,硬盤容量為1 TB。設(shè)計(jì)的系統(tǒng)運(yùn)行環(huán)境:操作系統(tǒng)為Windows 10,編程語言為Python 3.8,編譯器為PyCharm 2020,數(shù)據(jù)庫為MySQL,深度學(xué)習(xí)框架為MXNet,圖像預(yù)處理工具為OpenCV。

4.2 數(shù)據(jù)集

關(guān)于人臉檢測的數(shù)據(jù)集,本文采用的是香港大學(xué)發(fā)起的WIDER FACE[14]和中國科學(xué)院與北京航空航天大學(xué)收集的MAFA[15]。與其他的數(shù)據(jù)集相比較,WIDER FACE數(shù)據(jù)集的識(shí)別難度更大,因?yàn)樵摂?shù)據(jù)集共包含了32 203張圖像和

393 703個(gè)標(biāo)注人臉,該數(shù)據(jù)集更加貼近現(xiàn)實(shí)的場景。WIDER FACE部分場景如圖5所示。

WIDER FACE數(shù)據(jù)集的場景非常復(fù)雜,它匯聚了各種不同場景的人臉圖片,包括尺寸不一的人臉、不同程度光照影響的人臉、各種各樣姿態(tài)的人臉、由不同物體遮擋住的人臉以及化妝風(fēng)格多樣化的人臉。該數(shù)據(jù)集因其多樣性,在人臉檢測領(lǐng)域具備極高的挑戰(zhàn)性。

MAFA數(shù)據(jù)集主要是對(duì)人臉遮擋的圖片進(jìn)行收集,處理掉分辨率較小的和沒有任何遮擋的人臉圖像,最后剩余的數(shù)據(jù)僅有30 811張。MAFA數(shù)據(jù)集的示意圖如圖6所示。

4.3 評(píng)價(jià)指標(biāo)

本文采用的人臉檢測的評(píng)價(jià)指標(biāo)是檢測正確率(Accuracy, ACC)和圖像處理速度,即每秒傳輸幀數(shù)(Frames per Second, FPS),后者是最常用的人臉檢測任務(wù)的評(píng)估指標(biāo)之一。其中ACC的計(jì)算公式如下:

式中:TP(True Positive)表示真正類,表示模型將正樣本預(yù)測為True;TN(True Negative)表示真負(fù)類,表示模型將負(fù)樣本預(yù)測為False;FP(False Positive)表示假正類,表示將負(fù)樣本預(yù)測為True;FN(False Negative)表示假負(fù)類,表示將正樣本預(yù)測為False。

4.4 實(shí)驗(yàn)與分析

在訓(xùn)練階段,將WIDER FACE數(shù)據(jù)集和MAFA數(shù)據(jù)集混合并通過篩選最后得到21 000張圖片,設(shè)置Batch_size為12張圖片組成的一個(gè)批量,并采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.01,每一次訓(xùn)練迭代10個(gè)Epoch之后,將學(xué)習(xí)率調(diào)整為之前的0.1倍,待到收斂之后停止訓(xùn)練,并將訓(xùn)練好的模型進(jìn)行保存。接下來對(duì)模型的性能效果進(jìn)行測試與分析。

圖7展示了本文的人臉檢測算法在部分MAFA數(shù)據(jù)集上的檢測結(jié)果。通過檢測結(jié)果可以看到,本文的基于多特征融合的人臉檢測算法能夠檢測到各種形態(tài)的人臉,包括遮擋的人臉、距離較遠(yuǎn)的人臉以及形變嚴(yán)重的人臉等。

實(shí)驗(yàn)將本文算法與MTCNN[16]、RetinaFace[8]、PyramidBox[17]和ASFD[18]等主流的檢測算法進(jìn)行對(duì)比測試,結(jié)果見表2所列。

由表2的實(shí)驗(yàn)結(jié)果可以看出:本文設(shè)計(jì)的人臉檢測算法擁有較高的準(zhǔn)確率,相對(duì)于MTCNN、RetinaFace、PyramidBox、ASFD人臉檢測算法,分別提升了2.02%、0.44%、0.51%、0.19%;在速度處理方面,本文算法以每秒18.9幀的速度對(duì)圖片進(jìn)行處理,相比MTCNN、RetinaFace、PyramidBox、ASFD分別高出0.4幀/s、1.1幀/s、0.8幀/s、0.2幀/s,滿足了實(shí)時(shí)性檢測的需求。具體的檢測效果如圖8所示。

根據(jù)圖8的各個(gè)算法比較結(jié)果可知,對(duì)于較為清晰的人臉,各算法的檢測效果都比較精準(zhǔn)。而在一些較為復(fù)雜的環(huán)境中,例如在廣場上或者商店中,人員流動(dòng)較為密集,所獲取的人臉圖片會(huì)出現(xiàn)嚴(yán)重遮擋現(xiàn)象。在這些圖片的檢測過程中,MTCNN對(duì)于大部分的人臉都能夠精準(zhǔn)地定位,但是對(duì)于一小部分人臉(如模糊人臉、口罩遮擋嚴(yán)重人臉)會(huì)出現(xiàn)漏檢情況,并且有一定概率會(huì)出現(xiàn)誤檢情況。RetinaFace算法誤檢率較少,但是戴口罩的人臉如果發(fā)生形變,比如戴口罩時(shí)候側(cè)著臉,或者戴口罩情況下抬頭導(dǎo)致人臉信息變少的時(shí)候,會(huì)出現(xiàn)漏檢的情況。相對(duì)于前面的兩種人臉檢測算法,本文算法在小目標(biāo)和遮擋目標(biāo)上都有更好的檢測效果,在一些遮擋嚴(yán)重的情況下依然對(duì)人臉具有較好的定位效果,最后的整體結(jié)果明顯要優(yōu)于前面兩種算法。

5 結(jié) 語

針對(duì)戴口罩的人臉檢測存在的問題,本文提出一種基于多尺度特征融合的人臉檢測算法。實(shí)驗(yàn)中使用WIDER FACE和MAFA數(shù)據(jù)集對(duì)算法進(jìn)行訓(xùn)練,并與當(dāng)前主流的人臉檢測算法MTCNN和RetinaFace進(jìn)行比較,結(jié)果表明本文提出的算法具有更好的性能。

注:本文通訊作者為龔汝洪。

參考文獻(xiàn)

[1]張修寶,林子原,田萬鑫,等.全天候自然場景下的人臉佩戴口罩識(shí)別技術(shù)[J].中國科學(xué):信息科學(xué),2020,50(7):1110-1120.

[2] TIAN W,WANG Z,SHEN H,et al. Learning better features for face detection with feature fusion and segmentation supervision[EB/OL]. (2018-11-20)[2023-07-15]. https://arxiv.org/abs/1811.08557.

[3] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA:IEEE,2016:770-778.

[4]王兵,樂紅霞,李文璟,等.改進(jìn)YOLO輕量化網(wǎng)絡(luò)的口罩檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(8):62-69.

[5] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. Yolov4:optimal speed and accuracy of object detection [EB/OL].(2020-04-23)[2023-07-15]. https://arxiv.org/abs/2004.10934.

[6] ZHENG Z,WANG P,REN D,et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation [J]. IEEE transactions on cybernetics,2022,52(8):8574-8586.

[7]牛作東,覃濤,李捍東,等.改進(jìn)RetinaFace的自然場景口罩佩戴檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(12):1-7.

[8] DENG J,GUO J,ZHOU Y,et al. Retinaface:single-stage dense face localisation in the wild [EB/OL].(2019-05-02)[2023-07-15]. https://arxiv.org/abs/1905.00641.

[9]王藝皓,丁洪偉,李波,等.復(fù)雜場景下基于改進(jìn)YOLOv3的口罩佩戴檢測算法[J].計(jì)算機(jī)工程,2020,46(11):12-22.

[10] REDMON J,F(xiàn)ARHADI A. Yolov3:an incremental improvement [EB/OL].(2018-04-08)[2023-07-15]. https://arxiv.org/abs/1804.02767.

[11] WANG C Y,MARK LIAO H Y,WU Y H,et al. CSPNet:a new backbone that can enhance learning capability of CNN [C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Seattle,WA,USA:IEEE,2020:390-391.

[12] HE K,ZHANG X,REN S,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence,2015,37(9):1904-1916.

[13] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions [C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Boston,MA,USA:IEEE ,2015:1-9.

[14] YANG S,LUO P,LOY C C,et al. Wider face:a face detection benchmark [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA:IEEE,2016:5525-5533.

[15] GE S,LI J,YE Q,et al. Detecting masked faces in the wild with LLE-CNNs [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA:IEEE,2017:2682-2690.

[16] ZHANG K,ZHANG Z,LI Z,et al. Joint face detection and alignment using multitask cascaded convolutional networks [J]. IEEE signal processing letters,2016,23(10):1499-1503.

[17] TANG X,DU D K,HE Z,et al. Pyramidbox:a context-assisted single shot face detector [EB/OL].(2018-03-21)[2023-07-15]. https://arxiv.org/abs/1803.07737v1.

[18] ZHANG B,LI J,WANG Y,et al. ASFD:automatic and scalable face detector [EB/OL].(2020-03-25)[2023-07-15]. https://arxiv.org/abs/2003.11228v2.

上饶县| 青神县| 新乐市| 双峰县| 蒲江县| 广西| 离岛区| 江油市| 澄迈县| 仙游县| 库伦旗| 资中县| 孙吴县| 长沙县| 宜川县| 清原| 淄博市| 安西县| 太和县| 南充市| 吴忠市| 外汇| 吉安县| 中方县| 虞城县| 射洪县| 古丈县| 德州市| 静安区| 曲周县| 留坝县| 修武县| 济宁市| 辽宁省| 罗平县| 唐河县| 通渭县| 灯塔市| 永兴县| 玛曲县| 巴楚县|