基于深度學習的多角度人臉檢測方法研究

2020-11-14 11:31:42厚佳琪張子昊

計算機技術與發(fā)展 2020年9期

李欣，張童，厚佳琪，張子昊

(中國人民公安大學信息技術與網(wǎng)絡安全學院，北京 100038)

0 引言

與其他生物特征相比，人臉特征信息具有非接觸性、易采集性和易接受性等優(yōu)點，所以人臉識別在模式識別領域一直備受關注[1]。近年來，通過捕捉人臉圖像對犯罪嫌疑人進行檢測識別，在公安領域偵破案件過程中廣泛應用。人臉檢測是人臉識別的基礎，也是其中最重要的一個環(huán)節(jié)，常用于圖像中人臉位置的定位。但是在實際圖像采集過程中，由于人臉姿勢以及光照等環(huán)境因素的不確定性和多變性，往往會導致人臉系統(tǒng)無法對該類人臉進行較為精確的定位。因此，基于多角度的人臉檢測越來越受到廣大學者的關注。

傳統(tǒng)的人臉檢測方法是采用模板匹配技術，也就是將被檢測圖像與給定人臉模板圖像各個位置進行對比，進而判斷是否存在人臉，最終對人臉進行定位。后來隨著深度學習的出現(xiàn)，通過卷積網(wǎng)絡來對圖像進行特征提取便應用到了人臉檢測領域。其中最具代表性的兩種方法是：基于區(qū)域的人臉檢測和基于滑動窗口的人臉檢測。前者是通過搭建物體建議產生器(object proposal generators)或選擇性搜索算法(selective search)來對人臉進行定位。后者是按照給定比例計算特征圖上每個位置的人臉得分值，實現(xiàn)人臉邊界框的定位和回歸。Zhang等[2]采用多任務的級聯(lián)卷積神經網(wǎng)絡將人臉檢測和人臉對齊兩個任務結合起來，提出了MTCNN模型。Joseph Redmon等[3]在YOLOV1的基礎上提出了YOLOV2檢測方法，將原本主干網(wǎng)絡換成Darknet-19網(wǎng)絡[4]，同時在人臉框定位方面結合帶有錨點框的卷積層大幅度地提高了定位精度。但是由于二者應用的特征提取的卷積網(wǎng)絡層數(shù)不深，通過卷積網(wǎng)絡提取到的特征魯棒性和準確性并不高。

文中在YOLOV2算法的基礎上提出了一種新的人臉檢測算法。該算法使用DenseNet作為人臉特征提取器，使提取到的特征具有更高的魯棒性和準確性。在人臉定位方面采用帶有錨點框的卷積層對提取到的特征進行定位，同時通過引入歸一化層，使模型的收斂速度加快。

1 基于YOLOV2的人臉檢測

1.1 YOLOV1算法

首先，將輸入圖像劃分為n×n的網(wǎng)格。如果某個物體中心位置坐標落在哪個網(wǎng)格內，就由哪個網(wǎng)格對該物體進行定位檢測。每個單元格生成B個預測邊界框以及對應的置信度，通過閾值限定以及非極大值抑制的方式對邊界框進行篩選，得到最終的人臉框。在網(wǎng)絡結構方面，YOLOV1[5]用1×1卷積層加3×3卷積層來代替GoogLeNet中的inception module[6]并行模塊，同時在網(wǎng)絡模型的末端使用全連接層來輸出類別。

1.2 YOLOV2算法

YOLOV2是YOLOV1的改進版本。對定位準確度和召回率進行了改進。YOLOV1算法存在兩個缺點：(1)對bounding box[7]的定位不夠準確，即對小目標檢測效果不佳；(2)相對于region proposal方法，YOLOV1的召回率較低。于是，YOLOV2在YOLOV1的基礎上進行了改進。具體改進方法如下：

(1)帶有錨點框的卷積。

YOLOV2中去掉全連接層，使用錨點框來預測邊界框。具體方法如下：

YOLOV2使用卷積層進行下采樣，使得最終的特征圖的尺寸為13×13。最終的特征圖的寬和高都為奇數(shù)，使得特征圖只有一個中心點。較大的物體通常占據(jù)圖像的中心位置，通過這種操作使用一個中心點來預測圖像位置，而不是使用相鄰的4個單元格進行預測。YOLOV1使用每個單元格預測物體類別，使用邊界框預測坐標值，而YOLOV2中使用錨點同時預測類別和邊界框的坐標。使用錨點進行預測會使得準確率稍微下降，但是召回率有明顯的提升。

(2)使用K-means聚類。

YOLOV2使用K-means[8]的方式對訓練數(shù)據(jù)集中的邊界框進行聚類分析，從而找到最優(yōu)的錨點框。由于歐氏距離會因bbox的大小產生不同程度上的誤差，而IOU[9]與bbox尺寸無關，所以選擇用IOU來計算距離，公式如下：

d(box,centroid)=1-IOU(box,centroid)

(1)

IOU表示網(wǎng)絡預測的邊界框和圖片標簽中實際的邊界框的重合率，計算公式如下：

(2)

分子表示預測邊界框和實際邊界框的交集部分，分母表示預測邊界框和實際邊界框的并集部分。

(3)直接預測邊界框位置。

YOLOV2中延續(xù)YOLOV1中直接預測的方法對邊界框進行預測。網(wǎng)絡在特征圖中每個單元格中預測5個邊界框，每個邊界框預測5個值：tx，ty，tw，th和t，其中tx和ty表示相對于單個網(wǎng)絡的邊界框的中心坐標的偏移值，tw和th表示相對于整幅圖像的邊界框的寬和高，t表示置信度，即表示預測的邊界框和真實邊界框的重合率。

(3)

其中，Pr(Object)表示邊界框是否包含物體。如果邊界框包含物體，即人臉，那么Pr(Object)=1，如果邊界框中不包含物體，則Pr(Object)=0。

假設此單元格距離圖像左上角頂點的偏移量為cx，cy，先驗框的寬和高為pw，ph，那么網(wǎng)絡的預測結果將如式(4)～式(8)所示，預測的邊界框參數(shù)如圖1所示。

圖1 邊界框預測參數(shù)圖

bx=σ(tx)+cx

(4)

by=σ(ty)+cy

(5)

bw=pwetw

(6)

bh=pheth

(7)

Pr(Object) × IOU(b,object)=σ(to)

(8)

(4)網(wǎng)絡架構。

在YOLOV2中，使用448×448分辨率的圖片代替原先的224×224作為預訓練圖像。采用Darknet-19[10]模型來提取圖像中的特征信息。Darknet-19采用全局平均池化層做預測，并在3×3卷積之間使用1×1卷積來實現(xiàn)特征圖通道數(shù)量的壓縮，進而減少模型參數(shù)和計算量。最后，Darknet-19在每個卷積層后面使用了BN層，以加快模型收斂速度，降低模型過擬合。

YOLOV2人臉檢測算法流程如圖2所示。

圖2 YOLOV2人臉檢測算法流程

2 基于DenseNet-201改進的YOLOV2人臉檢測算法

YOLOV2中使用的主干網(wǎng)絡是DarkNet-19，但是由于網(wǎng)絡層數(shù)較淺，無法提取到更加細粒和有效的人臉特征信息。而DenseNet[11]網(wǎng)絡在圖像分類任務中取得了較高的準確率，所以文中采用DenseNet-201網(wǎng)絡結構代替DarkNet-19模型用做人臉特征提取模塊。

2.1 DenseNet網(wǎng)絡結構

密集連接的操作需要特征圖的大小統(tǒng)一，這就需要引入池化層來進行限定，同時為了引入池化層，需要添加過渡層來將Dense Block連接起來，這樣就把網(wǎng)絡劃分成了若干個不同的Dense Bloc。其中每一個Dense Bloc為瓶頸結構，包含3×3和1×1兩種類型的卷積。可以通過設置參數(shù)k來限定每一個Dense Bloc輸出的特征圖的數(shù)量，卷積表示為3×3×k。同時由于過渡層包括BN層，1×1的卷積層以及2×2的平均池化，過渡層中的BN層會進一步對特征進行歸一化，從而加快模型的收斂速度。

2.2 基于DenseNet-201改進的YOLOV2人臉檢測

相比于DarkNet-19，DenseNet-201模型網(wǎng)絡的層數(shù)明顯得到增加。DenseNet-201中的密集連接的方式不僅使得網(wǎng)絡每一層提取到的人臉特征信息盡可能得到利用，并且在訓練過程中可以學習到新的人臉特征信息。因此，文中使用DenseNet-201作為人臉檢測器的特征提取部分，其他部分與YOLOV2算法相同。改進的YOLOV2人臉檢測算法流程如圖3所示。

圖3 基于DenseNet-201的YOLOV2人臉檢測算法流程

由于DenseNet-201采用的是密集連接的方式，會使特征圖的數(shù)量大大增加，同時參數(shù)的數(shù)量也會大大增加。于是文中在DenseNet-201[12]的部分提出了三點來控制網(wǎng)絡參數(shù)和特征圖的數(shù)量。具體參數(shù)設置過程如下：

第一，引入超參數(shù)k作為網(wǎng)絡的增長率。網(wǎng)絡的增長率表示每一個Dense Block輸出的特征圖的個數(shù)為k個，為了防止網(wǎng)絡變得太寬，并且提升網(wǎng)絡的計算效率，將k值限制成一個較小的整數(shù)。在DenseNet中，將每一個Dense Block輸出的特征圖的個數(shù)設置為32，即k=32。實驗證明，當k值是一個較小的正整數(shù)時，網(wǎng)絡的表現(xiàn)性能也更好。

第二，引入瓶頸層。DenseNet采取密集連接的方式，雖然每一層產生k個特征圖，但是整個網(wǎng)絡產生的特征圖的數(shù)量是巨大的。為了控制DenseNet網(wǎng)絡中特征圖的數(shù)量，在網(wǎng)絡的構建中引入了瓶頸層。

第三，對網(wǎng)絡進行壓縮。通過壓縮過渡層中的特征圖，增強模型的緊湊性。在DenseNet中，當Dense Block包含m個特征圖時，網(wǎng)絡中隨后的過渡層產生的特征圖的個數(shù)為θm，其中0<θ<1。于是，將θ的值設置為0.5，即過渡層將前一個Dense Block產生的特征圖的數(shù)量減半。DenseNet-201網(wǎng)絡模型的具體設置細節(jié)如表1所示。

表1 DenseNet-201網(wǎng)絡模型

從以上表格可以看出，將每一個Dense Block的輸出特征圖的數(shù)量以及大小設置為3×3×32，同時每經過一個過渡層輸出的特征圖尺寸以及數(shù)量均減小一半，大大壓縮了特征網(wǎng)絡，使網(wǎng)絡的運行速度加快。

3 仿真實驗與結果分析

3.1 數(shù)據(jù)預處理

文中使用CelebA和FDDB人臉數(shù)據(jù)集作為人臉檢測的訓練數(shù)據(jù)集和測試數(shù)據(jù)集。CelebA人臉數(shù)據(jù)集包括202 599張人臉圖像[13]。每一張圖像的標簽包括人臉邊界框，5個人臉關鍵點以及40個人臉屬性。FDDB人臉數(shù)據(jù)集包括2 845張人臉圖像和5 171個人臉區(qū)域，數(shù)據(jù)集包括不同人臉姿態(tài)、不同分辨率以及旋轉和遮擋的人臉圖像。

文中選取CelebA人臉數(shù)據(jù)集中的190 000張圖像作為訓練集。將12 599張CelebA[14]數(shù)據(jù)中的人臉圖像和FDDB[15]人臉數(shù)據(jù)集作為測試集，測試算法性能。

3.2 仿真實驗

實驗一：在不同角度人臉圖像上進行算法性能測試。

實驗一中選擇三種不同角度的人臉圖像作為測試圖像，分別為正面人臉圖像，60度人臉偏轉圖像和90度人臉偏轉圖像，衡量改進前和改進后不同人臉檢測模型的性能，如圖4所示。

圖4 基于YOLOV2人臉檢測算法和基于DenseNet-201的YOLOV2人臉檢測算法效果示例(1)

由圖4可以看出，兩種人臉檢測模型都可以檢測出三種不同角度圖像中的人臉。在人臉角度一致的前提下，基于DenseNet-201的YOLOV2算法檢測效果最佳，其次是YOLOV2算法；在人臉角度不同的前提下，基于DenseNet-201的YOLOV2算法魯棒性最強，其次是YOLOV2算法。實驗結果表明，改進的YOLOV2人臉檢測算法相較于原始算法，檢測性能有明顯的提升。

實驗二：在不同光照人臉圖像上進行算法性能測試。

實驗二中選擇三種不同光照環(huán)境下的人臉圖像作為測試圖像，衡量改進前和改進后人臉檢測模型的性能，如圖5所示。

圖5 基于YOLOV2人臉檢測算法和基于DenseNet-201的YOLOV2人臉檢測算法效果示例(2)

由圖5得出兩種人臉檢測模型在不同光照條件下均可以檢測出人臉圖像，原來的YOLOV2人臉檢測算法和DenseNet-201人臉檢測算法在不同光照條件下檢測出的人臉框的大小幾乎是一致的，表明改進算法的魯棒性較好。并且基于DenseNet-201的YOLOV2人臉檢測算法在檢測的精確度最高。

實驗三：在CelebA人臉數(shù)據(jù)集上進行算法性能測試。

實驗三中選取CelebA的測試數(shù)據(jù)集對不同人臉檢測模型進行測試，算法測試指標如表2所示。

由表2可知，DenseNet-201的YOLOV2人臉檢測算法的各項性能指標相較于原模型，性能更優(yōu)。

表2 不同人臉檢測模型在CelebA的性能指標

實驗四：在FDDB人臉數(shù)據(jù)集上進行算法性能測試。

實驗四中選擇FDDB人臉數(shù)據(jù)集作為算法測試數(shù)據(jù)集，對人臉檢測模型進行性能評測，得出ROC曲線圖，如圖6、圖7所示。

圖6 YOLOV2人臉檢測模型和改進的模型ROC曲線

圖7 基于DenseNet-201的YOLOV2模型與其他模型對比

由上圖可得，在YOLOV2系列的人臉檢測算法中，DenseNet-201模型在FDDB數(shù)據(jù)集上的效果最好，并且與其他人臉算法進行比較時，基于DenseNet-201的YOLOV2人臉檢測算法的表現(xiàn)性能最好。

3.3 結果分析

實驗一到實驗四的結果均顯示，改進的DenseNet-201的YOLOV2人臉檢測模型相較于YOLOV2模型，性能得到較大的提升，并且在多角度、不同光照條件下，以及不同數(shù)據(jù)集的評測中，基于DenseNet-201的YOLOV2人臉檢測模型的魯棒性以及準確性等性能表現(xiàn)最優(yōu)。結果表明，DenseNet的密集連接的網(wǎng)絡結構相比于Darknet-19網(wǎng)絡，不僅能夠提取到更為細粒度、更為抽象的人臉特征，而且使得網(wǎng)絡提取到的人臉特征在整個任務中最大化地被網(wǎng)絡利用，并學習到新的人臉特征，提升人臉檢測算法的性能。

4 結束語

基于DenseNet-201對YOLOV2算法進行了改進，提出了一種新的多角度人臉檢測算法。該算法相較于之前YOLOV2中的DarkNet網(wǎng)絡，可以提取更為豐富的人臉特征，并且使提取到的特征更具準確性和魯棒性。在CelebA和FDDB兩個人臉數(shù)據(jù)集上對YOLOV2和改進后的YOLOV2方法進行測試，實驗結果表明，改進后的YOLOV2算法對多角度人臉檢測的準確性更高，且具有更強的魯棒性。經過對YOLOV2算法的改進，雖然在多角度人臉檢測的性能上有所提升，但是在算法的準確性上還存在一定的差距，尚需進一步完善。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡