国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于錨框稀疏圖像金字塔的MTCNN人臉檢測(cè)方法

2023-06-20 03:04:16李麗平許營(yíng)坤王嘉航
關(guān)鍵詞:錨框網(wǎng)絡(luò)結(jié)構(gòu)金字塔

李麗平,許營(yíng)坤,王嘉航

(1.浙江商業(yè)職業(yè)技術(shù)學(xué)院 財(cái)會(huì)金融學(xué)院,浙江 杭州 310053;2.浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)

人臉檢測(cè)是一種基于人工智能(AI)的計(jì)算機(jī)技術(shù),其作用是在數(shù)字圖像中查找和識(shí)別人臉。該技術(shù)不僅作為面部跟蹤、面部分析和面部識(shí)別等應(yīng)用程序的第一步發(fā)揮著關(guān)鍵作用,而且在人證比對(duì)、安防、娛樂和社交網(wǎng)絡(luò)等領(lǐng)域起到重要作用,同時(shí)在手機(jī)、數(shù)碼相機(jī)等電子產(chǎn)品中可以使用該技術(shù),檢測(cè)并定位人臉。該技術(shù)支持姿勢(shì)、表情、位置、方向、夜晚和膚色等復(fù)雜環(huán)境,從正面和側(cè)面等多個(gè)角度檢測(cè)人臉的位置。在人臉識(shí)別過程中,人臉檢測(cè)是整個(gè)人臉識(shí)別算法的第一步。

1 人臉檢測(cè)算法

人臉檢測(cè)算法的輸入是一幅圖像,輸出是若干個(gè)包含人臉的矩形框坐標(biāo)(x,y,w,h)。早期人臉檢測(cè)算法采用模板匹配,即用人臉的模板圖像匹配待檢測(cè)的圖像的各個(gè)位置,匹配內(nèi)容是提取的特征,根據(jù)特征判斷該位置是否存在人臉。經(jīng)過早期后,機(jī)器學(xué)習(xí)算法被用于該問題,包括神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。其中,Rowley等[1-2]提出的多層感知器模型人臉檢測(cè)和Viola等[3]提出的VJ算法具有代表性,這些方法雖然在人臉檢測(cè)領(lǐng)域早中期的意義重大,但是隨著卷積神經(jīng)網(wǎng)絡(luò)CNN的提出及廣泛應(yīng)用,CNN在人臉檢測(cè)技術(shù)上有了很大的突破,在準(zhǔn)確度上明顯超越之前的AdaBoost框架。Hand等[4]總結(jié)了近年來基于深度學(xué)習(xí)的人臉檢測(cè)發(fā)展歷程。Zhan等[5]在2016年ECCV會(huì)議上提出了一種基于級(jí)聯(lián)架構(gòu)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTCNN,其可以同時(shí)完成人臉檢測(cè)和人臉對(duì)齊任務(wù)。在工程實(shí)踐上,MTCNN是一種檢測(cè)速度和準(zhǔn)確率均較高的算法,應(yīng)用范圍較廣。研究發(fā)現(xiàn):在MTCNN三層級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)中,P-Net不僅耗時(shí)最多,約占75%,而且圖片越大,耗時(shí)越長(zhǎng),其次是R-Net耗時(shí)較多。另外發(fā)現(xiàn)噪點(diǎn)比較多的夜間圖像,由于噪點(diǎn)多的問題,導(dǎo)致P-Net誤檢率高。吳紀(jì)蕓等[6]通過整合不同網(wǎng)絡(luò)模型,改進(jìn)了多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),通過動(dòng)態(tài)修改Minsize值,提出了一種改進(jìn)的MTCNN人臉檢測(cè)算法。改進(jìn)后的算法減少了圖像金字塔中圖片生成的數(shù)量,達(dá)到優(yōu)化網(wǎng)絡(luò)的目的。賈小碩等[7]在MTCNN基礎(chǔ)上設(shè)計(jì)了MT-Siam網(wǎng)絡(luò),引用了SiameseNet并設(shè)計(jì)輕量化的Siam相似度判斷因子,提升復(fù)雜背景下人臉檢測(cè)效率。薛晨等[8]采用Retinex理論對(duì)圖像進(jìn)行增強(qiáng),提高M(jìn)TCNN在不同光照?qǐng)鼍跋碌娜四槞z測(cè)精度。

筆者研究在MTCNN人臉檢測(cè)算法的基礎(chǔ)上,提高檢測(cè)速度和檢測(cè)精度。針對(duì)MTCNN三層級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)中P-Net和R-Net耗時(shí)較多的問題,提出一種改進(jìn)的基于錨框稀疏圖像金字塔的MTCNN人臉檢測(cè)方法,采用錨框的思路增加生成框的密度,減少圖像金字塔層數(shù),構(gòu)建基于錨框的稀疏圖像金字塔,從而提高P-Net檢測(cè)速度;采用深度可分離卷積的思路來改進(jìn)R-Net網(wǎng)絡(luò)結(jié)構(gòu),去掉池化層,修改前2個(gè)卷積層的步幅,修改第3個(gè)卷積層為可分離卷積,降低R-Net模型的參數(shù)計(jì)算量,進(jìn)而提高R-Net檢測(cè)速度。同時(shí),在P-Net檢測(cè)前進(jìn)行一次中值濾波,減少圖像噪點(diǎn),降低P-Net誤檢率。在Windows和Android平臺(tái),使用CPU處理器,采用單線程方式進(jìn)行對(duì)比實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的MTCNN在檢測(cè)精度略提升的情況下,在Windows和Android平臺(tái)的檢測(cè)速度均提升一倍,應(yīng)用價(jià)值較高。

2 MTCNN

MTCNN主要分4個(gè)步驟:生成圖像金字塔,進(jìn)行3個(gè)逐級(jí)遞進(jìn)的級(jí)聯(lián)網(wǎng)絡(luò)P-Net、R-Net和O-Net訓(xùn)練。

2.1 生成圖像金字塔

原始圖像縮放成不同的尺度,生成圖像金字塔,將縮放后的圖像輸送入P-Net、R-Net和O-Net 3個(gè)子網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,目的是可以檢測(cè)到不同尺寸的人臉,從而實(shí)現(xiàn)多尺度目標(biāo)檢測(cè)。

2.2 P網(wǎng)絡(luò)(P-Net)

P-Net是一個(gè)人臉區(qū)域的候選網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入設(shè)置為12×2×3的圖像。經(jīng)過3層卷積層后,確定12×12圖像中的人臉,并且給出人臉框和人臉關(guān)鍵點(diǎn)信息,利用非極大值抑制算法(Non-maximum suppression,NMS)校準(zhǔn)邊框,去除多余邊框。

網(wǎng)絡(luò)輸出有兩部分。第一部分輸出向量大小為1×1×2,即兩個(gè)值,判斷圖像中的人臉。第二部分顯示了框的確切位置,一般被稱為框回歸。P-Net導(dǎo)入的12×12的圖像塊對(duì)應(yīng)的人臉并非全部為正方形。如:12×12的圖像偏左或偏右,這時(shí)需要計(jì)算當(dāng)前框所在位置相對(duì)于完美人臉框位置的偏移,偏移大小為1×1×4。第三部分給出面部的5個(gè)關(guān)鍵點(diǎn)位置。5個(gè)關(guān)鍵點(diǎn)分別對(duì)應(yīng)鼻子、左眼、右眼、左嘴巴和右嘴巴的位置。每個(gè)關(guān)鍵點(diǎn)用兩維來表示,因此,輸出是大小為1×1×10的向量。

2.3 R網(wǎng)絡(luò)(R-Net)

R-Net用于否決P-Net生成大部分錯(cuò)誤的檢測(cè)框,該方法應(yīng)用了檢測(cè)框回歸和NMS合并的檢測(cè)框。將P-Net候選框?qū)?yīng)原圖并截取,同時(shí),將截取圖像縮放到24×24×3,作為R-Net的輸入,網(wǎng)絡(luò)的輸出與P-Net相同。

由網(wǎng)絡(luò)結(jié)構(gòu)可知:R-Net網(wǎng)絡(luò)的結(jié)構(gòu)與P-Net網(wǎng)絡(luò)不同,增加了一個(gè)全連接層從而微處理圖像的細(xì)節(jié)化,過濾重復(fù)且不符合要求的候選框,并且利用NMS進(jìn)行候選框合并處理。

2.4 O網(wǎng)絡(luò)(O-Net)

O-Net更進(jìn)一步篩選檢測(cè)框,與R-Net的處理方法一致,將上一層的輸出候選框的人臉區(qū)域縮放到48×48×3作為O-Net的輸入,網(wǎng)絡(luò)的輸出是一樣的,包括N個(gè)邊界框的坐標(biāo)信息,score以及關(guān)鍵點(diǎn)位置。由網(wǎng)絡(luò)結(jié)構(gòu)可知:這一層比R-Net層多一個(gè)卷積層,因此可以得到更加精細(xì)的處理結(jié)果。

從P-Net到R-Net再到O-Net,輸入到網(wǎng)絡(luò)的圖像越來越大,卷積層的通道數(shù)也越來越多,網(wǎng)絡(luò)的深度(層數(shù))也越來越深,因此檢測(cè)人臉的準(zhǔn)確率也越來越高。在檢測(cè)之前,需要通過中值濾波進(jìn)行降噪處理。中值濾波是處理中心像素點(diǎn)的鄰域,其處理方式不能線性表達(dá)式表示。某個(gè)像素點(diǎn)的濾波結(jié)果就是用濾波器包圍的圖像區(qū)域中像素的灰度值的中值來替代該像素的值。計(jì)算式為

f(x,y)=median(x,y)∈sxy{g(x,y)}

(1)

式中:f(x,y)為濾波輸出;sxy{.}為以(x,y)為中心的濾波窗口中的所有坐標(biāo)點(diǎn);g(x,y)為坐標(biāo)點(diǎn)(x,y)處的灰度值;median(.)為中值濾波處理。通過上述處理,減少圖像噪點(diǎn),從而降低P-Net誤檢率。

在完成濾波處理后,進(jìn)行MTCNN訓(xùn)練過程,該過程包含3個(gè)任務(wù),分別是人臉和非人臉的分類、人臉檢測(cè)框的回歸以及面部關(guān)鍵點(diǎn)的定位。

首先,人臉和非人臉的分類任務(wù),使用交叉熵?fù)p失函數(shù),計(jì)算式為

(2)

然后,檢測(cè)框回歸的任務(wù),采用歐幾里得損失函數(shù),計(jì)算式為

(3)

最后,人臉關(guān)鍵點(diǎn)定位的任務(wù),采用歐幾里得損失函數(shù),計(jì)算式為

(4)

(5)

同時(shí),提出一種在線的困難樣本挖掘方法,降低了人工選擇樣本的難度和工作量。該方法記特征距離D的對(duì)角線元素為d1={dii}i=1,2,…,n;非對(duì)角線元素為d2={dij}i,j=1,2,…,n。在每步迭代過程中消除冗余的負(fù)樣本,該方法得到的特征距離D是對(duì)稱矩陣。為避免樣本重復(fù),僅挑選D的上半角矩陣參與訓(xùn)練:d0={dij}i,j=1,2,…,ni

3 改進(jìn)MTCNN

3.1 基于錨框的稀疏圖像金字塔

因?yàn)镻-Net網(wǎng)絡(luò)是通過單尺度(12×12)圖像訓(xùn)練,所以想要識(shí)別各種尺度的人臉,需要應(yīng)用圖像金字塔技術(shù)。首先將原圖等比縮放(12/minsize);然后按縮放因子factor(如0.709)用上一次的縮放結(jié)果不斷縮放,直至最短邊小于或等于12。每種尺度的圖像均需要輸入模型。采用圖像金字塔,在不同分辨率下檢測(cè)不同尺寸的目標(biāo),該方法主要缺點(diǎn)是增加了計(jì)算量,主要原因是生成的“金字塔”層數(shù)越多,P-Net計(jì)算耗時(shí)越多。

因此,針對(duì)上述問題,采用多尺度密集錨框檢測(cè)不同尺度的目標(biāo),從而減少圖像金字塔層數(shù)。該方法在SSD,YOLO系列等優(yōu)秀的目標(biāo)檢測(cè)模型中得到了廣泛應(yīng)用。

通過遍歷輸入圖像的像素框,選出正確的目標(biāo)框,并調(diào)整位置和大小,完成目標(biāo)檢測(cè)任務(wù)。如圖1所示,以一個(gè)錨點(diǎn)為中心,生成3種尺寸的正方形的框(灰色、黑色、灰色中的正方形框),對(duì)每個(gè)正方形框生成2種擴(kuò)展尺度的框(每種顏色的另外2個(gè)長(zhǎng)方形),共生成9個(gè)錨框。

圖1 錨框示意圖

錨框的尺寸和長(zhǎng)寬比的設(shè)計(jì)難度大,常見的設(shè)計(jì)方式有以下3種:1)人為經(jīng)驗(yàn)選取;2)k-means聚類;3)作為超參數(shù)進(jìn)行學(xué)習(xí)。YOLOv3算法[9]中錨框的長(zhǎng)寬比是通過分析COCO數(shù)據(jù)集中對(duì)象長(zhǎng)寬比,使用k-means估算得到的。YOLOv5算法[10]中錨框的長(zhǎng)寬比是一個(gè)超參數(shù),可以在模型的配置文件中配置。

采用錨框的思路,增加生成框密度,減少檢測(cè)金字塔層數(shù),生成基于錨框的稀疏圖像金字塔,從而提高檢測(cè)速度,改進(jìn)對(duì)照?qǐng)D如圖2所示。選用APN24來替代P-Net,APN24網(wǎng)絡(luò)結(jié)構(gòu)體如圖3所示。

圖2 圖像金字塔改進(jìn)對(duì)照?qǐng)D

圖3 APN24網(wǎng)絡(luò)結(jié)構(gòu)

該網(wǎng)絡(luò)的輸入為一個(gè)24×24×3圖像,網(wǎng)絡(luò)輸出的第一部分用于判斷圖像中是否存在人臉。輸出向量大小為1×1×2×k,即2k個(gè)值,其中k表示錨框數(shù)量。網(wǎng)絡(luò)輸出的第二部分是人臉框位置偏移量,偏移量采用Fast-RCNN的方式,即中心點(diǎn)偏移值和寬高對(duì)數(shù)偏移值,輸出向量大小為1×1×4×k,即4k個(gè)值,其中k表示錨框數(shù)量。

3.2 深度可分離卷積

深度可分離卷積方法[11-13]在MobileNet系列中得到了深入的應(yīng)用。深度可分離卷積由深度卷積和逐點(diǎn)卷積兩個(gè)部分組成。深度卷積的一個(gè)卷積核負(fù)責(zé)一個(gè)通道,一個(gè)通道只由一個(gè)卷積核進(jìn)行卷積,具體情況如圖4所示。逐點(diǎn)卷積的操作與常規(guī)卷積操作相似,其卷積核大小為1×1×M,其中M是前一層的通道數(shù),具體情況如圖5所示。

圖4 深度卷積示意圖

圖5 逐點(diǎn)卷積示意圖

假設(shè)存在這樣一個(gè)場(chǎng)景,上一層有一個(gè)5×5大小,3個(gè)通道的特征圖,需要通過卷積操作,輸出4個(gè)通道的特征圖,并且尺寸大小前后一致。對(duì)比常規(guī)卷積和可分離卷積的參數(shù)量和計(jì)算量的差異,具體情況如表1所示。

起初只是要求將打亂順序的有絲分裂各個(gè)時(shí)期的細(xì)胞進(jìn)行排序,這樣的設(shè)計(jì)可以考查學(xué)生對(duì)細(xì)胞有絲分裂各個(gè)時(shí)期特點(diǎn)的掌握程度;之后增加對(duì)細(xì)胞中染色體、染色單體和D N A分子的數(shù)目變化這一重點(diǎn)內(nèi)容,在游戲的過程中,這對(duì)學(xué)生具有足夠的挑戰(zhàn)性。在游戲設(shè)計(jì)過程中也不應(yīng)該將太多的知識(shí)點(diǎn)包含進(jìn)來,因?yàn)檫@樣將會(huì)使游戲的難度過大。

表1 常規(guī)卷積和可分離卷積的參數(shù)量和計(jì)算量的差異

常規(guī)卷積的參數(shù)量:3×3×3×4=108;計(jì)算量:3×3×3×4×5×5=2 700 FLOPs??煞蛛x卷積的參數(shù)量:3×3×3+1×1×3×4=41;計(jì)算量:3×3×3×5×5+1×1×3×4×5×5=975 FLOPs。相同大小的輸入,同樣相同大小的輸出,可分離卷積的參數(shù)量是常規(guī)卷積的約1/3,計(jì)算量是常規(guī)卷積約1/3。采用可分離卷積改造R-Net網(wǎng)絡(luò)結(jié)構(gòu),去掉池化層,將前兩個(gè)卷積層的步幅修改為2,第3個(gè)卷積層修改為可分離卷積層,網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)情況如圖6所示。

圖6 R-Net網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)對(duì)照?qǐng)D

對(duì)比R-Net網(wǎng)絡(luò)結(jié)構(gòu)和改進(jìn)的R-Net網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量和計(jì)算量的差異,具體情況如表2所示。改進(jìn)的R-Net網(wǎng)絡(luò)結(jié)構(gòu)的計(jì)算量約為原來的1/3,從而提高R-Net檢測(cè)速度。

表2 R-Net和改進(jìn)的R-Net的參數(shù)量和計(jì)算量的差異

4 實(shí)驗(yàn)結(jié)果

4.1 訓(xùn)練和測(cè)試數(shù)據(jù)集

從WIDER Face數(shù)據(jù)集隨機(jī)裁剪獲取正樣本、負(fù)樣本和部分樣本,從CelebA數(shù)據(jù)集隨機(jī)裁剪獲取關(guān)鍵點(diǎn)人臉,用于模型訓(xùn)練。FDDB數(shù)據(jù)集用于模型測(cè)試。

1)WIDER Face數(shù)據(jù)集是人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集的圖像來源為WIDER數(shù)據(jù)集,從數(shù)據(jù)集隨機(jī)挑選32 203張圖像并進(jìn)行人臉標(biāo)注,總共標(biāo)注了393 703個(gè)人臉數(shù)據(jù)。同時(shí),每張人臉均附帶詳細(xì)信息,包括模糊程度、遮擋、表情、光照和姿態(tài)等。這些人臉在遮擋、妝容、姿勢(shì)、尺度、表情和光照上均存在較大的差異。在數(shù)據(jù)集中方面,根據(jù)事件場(chǎng)景的類型分為了61類。對(duì)于每個(gè)事件類別,隨機(jī)選擇40%,10%,50%的數(shù)據(jù)分別作為訓(xùn)練、驗(yàn)證和測(cè)試集。

2)CelebA數(shù)據(jù)庫(kù)是CelebFacesattribute的縮寫,是一個(gè)大規(guī)模的人臉屬性數(shù)據(jù)集,擁有超過200 000張人臉圖像,每張圖像有40個(gè)屬性標(biāo)注,該數(shù)據(jù)集中的圖像覆蓋了大部分的姿勢(shì)變化和雜亂的背景。該數(shù)據(jù)集可用作人臉關(guān)鍵點(diǎn)定位、人臉屬性檢測(cè)和人臉識(shí)別等計(jì)算機(jī)視覺任務(wù)的訓(xùn)練和測(cè)試集。

3)FDDB數(shù)據(jù)集被廣泛用于人臉檢測(cè)方法評(píng)價(jià),其是最具權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái)之一。圖像大部分是名人在自然環(huán)境下拍攝的圖像。該數(shù)據(jù)共有5 171張人臉圖像,包含彩色圖像和灰度圖像。圖像的人臉采用橢圓標(biāo)注。這些人臉以各種狀態(tài)出現(xiàn),包括罕見姿勢(shì)、低分辨率、遮擋和失焦情況。

4.2 網(wǎng)絡(luò)模型訓(xùn)練

訓(xùn)練環(huán)境:操作系統(tǒng)采用的是Ubuntu 18.04,編程語言采用的是Python3.6,深度學(xué)習(xí)框架為Tensorflow-GPU 1.15.0,GPU加速工具為CUDA 10.0。硬件配置主要包括CPU為2張Intel Xeon Silver 4210@2.20 GHz,GPU為2張NVDIA GeForce RTX 2080 Ti@11 GB,RAM為64 GB。

網(wǎng)絡(luò)模型:改進(jìn)的MTCNN由APN24、修改后的R-Net和O-Net3級(jí)網(wǎng)絡(luò)結(jié)構(gòu)組成,訓(xùn)練多個(gè)任務(wù)(人臉/非人臉分類、包圍盒回歸、人臉關(guān)鍵點(diǎn)位置)的人臉框檢測(cè)和關(guān)鍵點(diǎn)檢測(cè)算法。選用APN24來替代P-Net,采用錨框思路增加生成框密度,減少圖像金字塔層數(shù),構(gòu)造基于錨框的稀疏圖像金字塔,錨框數(shù)選用n=4。對(duì)R-Net的卷積層進(jìn)行深度可分離卷積改造,去掉池化層,將前2個(gè)卷積層的步幅修改為2,第3個(gè)卷積層修改為可分離卷積;從而減少參數(shù)量和計(jì)算量,用于提高R-Net檢測(cè)速度。O-Net網(wǎng)絡(luò)結(jié)構(gòu)保持不變。

由于網(wǎng)絡(luò)級(jí)聯(lián),在訓(xùn)練時(shí)按照APN24、修改后R-Net和O-Net的順序進(jìn)行訓(xùn)練。因此,前面網(wǎng)絡(luò)性能對(duì)后面的網(wǎng)絡(luò)產(chǎn)生影響。在每個(gè)網(wǎng)絡(luò)訓(xùn)練前都會(huì)生成訓(xùn)練樣本,由前面網(wǎng)絡(luò)生成第2個(gè)和第3個(gè)網(wǎng)絡(luò)訓(xùn)練樣本。為了提高算法精度,網(wǎng)絡(luò)使用在線挖掘困難樣本策略進(jìn)行訓(xùn)練。即每個(gè)mini-batch所有樣本損失值的前70%的樣本loss值用于計(jì)算后向傳播。

APN24采用和P-Net一樣截取圖像切片的方式進(jìn)行訓(xùn)練,因?yàn)槭褂昧硕噱^框思想,每個(gè)圖像切片需要為每一個(gè)錨框都分配一個(gè)label值和一組回歸值。筆者項(xiàng)目中錨框數(shù)n=4,因此每個(gè)圖像切片有n(4+1)=20個(gè)標(biāo)簽數(shù)據(jù)(和YOLO相似)。

為了使樣本采樣充分且分布均勻,獲得真實(shí)人臉對(duì)應(yīng)不同尺寸錨框的樣本,正樣本和部分樣本的采樣方式:1)在真實(shí)人臉框附近獲取IOU>0.5的隨機(jī)選框;2)將選框中心固定,尺寸縮放scale^i(i=0,1,2,3)倍,獲得裁切框;3)計(jì)算裁切框?qū)?yīng)的各個(gè)錨框,并計(jì)算其與真實(shí)人臉框的IOU;4)將裁切框縮放至24×24并保存圖像和標(biāo)簽;循環(huán)式(1~4),生成正樣本和部分樣本。

負(fù)樣本的采樣包括兩部分:一是在原圖中隨機(jī)尺度隨機(jī)位置切片;二是仿照正樣本和部分樣本的方式在真實(shí)人臉附近選取隨機(jī)選框,其作用是采集到真實(shí)人臉附近的困難負(fù)樣本。

當(dāng)生成APN24訓(xùn)練樣本數(shù)據(jù)時(shí),回歸值特征采用Fast-RCNN的方式,即輸出中心點(diǎn)偏移值和寬高對(duì)數(shù)偏移值,正樣本、部分樣本、負(fù)樣本的IOU閾值分別設(shè)置為0.5,0.3,0.2;當(dāng)生成R-Net和O-Net樣本數(shù)據(jù)時(shí),采用傳統(tǒng)MTCNN的方式,即輸出邊界偏移值,正樣本、部分樣本、負(fù)樣本的IOU閾值分別設(shè)置為0.65,0.4,0.3。

當(dāng)APN24和R-Net訓(xùn)練時(shí),正樣本、部分樣本、負(fù)樣本的數(shù)據(jù)比例為1∶1∶3;當(dāng)O-Net訓(xùn)練時(shí),正樣本、部分樣本、負(fù)樣本的數(shù)據(jù)比例為1∶1∶1,其原因是R-Net檢測(cè)出的候選框中負(fù)樣本比例較低。

4.3 測(cè)試結(jié)果

測(cè)試環(huán)境:前向推理框架使用OpenCVDNN模塊。Windows平臺(tái):Windows 10操作系統(tǒng),處理器為Intel(R)Core(TM)i7-1165G7@2.80 GHz 2.80 GHz,編譯工具為Visual studio 2015;Android平臺(tái):Android 7操作系統(tǒng),處理器為RK3399雙核Cortex-A72及四核Cortex-A53@1.8 GHz,編譯工具為Android Studio。用C++語言開發(fā)。

采用FDDB數(shù)據(jù)集對(duì)MTCNN和改進(jìn)的MTCNN在Windows和Android平臺(tái)使用CPU處理器,采用單線程方式進(jìn)行算法對(duì)比測(cè)試,測(cè)試結(jié)果如圖7和表3所示。由測(cè)試結(jié)果可以看出:改進(jìn)的MTCNN在檢測(cè)精度得到了提升的情況下,檢測(cè)速度提升幅度較大。

表3 MTCNN和改進(jìn)的MTCNN在單線程情況下的速度對(duì)比測(cè)試結(jié)果

圖7 MTCNN和改進(jìn)的MTCNN精度對(duì)比測(cè)試結(jié)果

為了進(jìn)一步分析設(shè)計(jì)方法的性能,驗(yàn)證設(shè)計(jì)方法的收斂性,改進(jìn)算法前后的對(duì)比結(jié)果如圖8所示。圖8中:深色實(shí)線為MTCNN算法濾波處理收斂性曲線;深色段虛線為MTCNN算法整體收斂性;深色點(diǎn)虛線為MTCNN算法的卷積層收斂性曲線;淺色曲線為改進(jìn)的MTCNN算法曲線,其對(duì)應(yīng)的收斂性曲線與MTCNN算法一致。由圖8可知:MTCNN算法改進(jìn)前,所有狀態(tài)在50次迭代時(shí)達(dá)到收斂。改進(jìn)的MTCNN算法在25次迭代時(shí)達(dá)到了收斂效果,算法的濾波處理收斂性在20次迭代時(shí)達(dá)到了收斂狀態(tài),其他處理過程在25次時(shí)達(dá)到收斂狀態(tài)。兩種方法相比,改進(jìn)后比改進(jìn)前迭代降低了25次,因此,測(cè)試結(jié)果表明改進(jìn)的MTCNN的人臉檢測(cè)方法有效提高了算法的收斂性。

圖8 MTCNN和改進(jìn)的MTCNN收斂性對(duì)比測(cè)試結(jié)果

5 結(jié) 論

為了提高人臉檢測(cè)效果和檢測(cè)速度等,提出了基于錨框稀疏圖像金字塔的MTCNN人臉檢測(cè)方法。該方法引入錨框思路,構(gòu)建基于錨框的稀疏圖像金字塔,采用深度可分離卷積的思路改進(jìn)R-Net網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)人臉檢測(cè)。通過實(shí)驗(yàn)分析可知:改進(jìn)方法的人臉檢測(cè)耗時(shí)最低平均值僅為8.5 ms,在迭代25次時(shí)達(dá)到收斂狀態(tài)。因此,測(cè)驗(yàn)結(jié)果驗(yàn)證了筆者算法框架的合理性。在未來的研究中,將進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,使用更多的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,提高人臉的檢測(cè)能力和檢測(cè)效率。

猜你喜歡
錨框網(wǎng)絡(luò)結(jié)構(gòu)金字塔
基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
“金字塔”
基于SSD算法的輕量化儀器表盤檢測(cè)算法*
基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
A Study of the Pit-Aided Construction of Egyptian Pyramids
海上有座“金字塔”
神秘金字塔
童話世界(2017年11期)2017-05-17 05:28:25
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
南京市| 云林县| 万山特区| 繁峙县| 霍邱县| 南安市| 高唐县| 建阳市| 汽车| 绥宁县| 鄯善县| 嵩明县| 勃利县| 广元市| 阳高县| 蒙自县| 嘉义市| 昭苏县| 龙游县| 荣成市| 蕲春县| 兰考县| 奉新县| 青冈县| 大方县| 英山县| 容城县| 曲水县| 栾川县| 旅游| 利川市| 海城市| 湟源县| 常熟市| 赤水市| 宣城市| 璧山县| 白水县| 辽源市| 泰顺县| 绥宁县|