基于級聯(lián)神經(jīng)網(wǎng)絡(luò)融合膚色特征的人臉檢測

2021-11-06 06:54廣西警察學(xué)院劉敏

中國安全防范技術(shù)與應(yīng)用 2021年4期

■ 文/廣西警察學(xué)院劉敏

關(guān)鍵字：人臉識別級聯(lián)神經(jīng)網(wǎng)絡(luò) 膚色模型人臉檢測

1 引言

人臉作為識別他人身份的重要生物特征之一，在交通安檢、工作考勤等諸多場合有著廣泛應(yīng)用。作為人臉識別的關(guān)鍵部分，人臉檢測的效果與最終識別效果息息相關(guān)。在實際檢測中，由于識別出來的圖像受環(huán)境、光線、表情、姿態(tài)等因素的干擾，會出現(xiàn)誤檢、漏檢、識別精度低等情況。

目前人臉檢測的主要方法是基于認(rèn)知的方法、基于不變特征的方法、基于模板匹配的方法和基于表象的方法等。

基于認(rèn)知的方法主要是根據(jù)預(yù)先定義的人臉描述規(guī)則對圖像進行檢測。但該方法難以定義規(guī)則，如果規(guī)則過于嚴(yán)格會導(dǎo)致無法檢測到臉部。反之，則會產(chǎn)生大量的錯誤檢測；基于不變特征的方法是根據(jù)人臉的眉毛、眼睛和鼻子等不變特征對人臉進行定位。但是容易受光線、表情等因素的干擾導(dǎo)致準(zhǔn)確率低；基于模板匹配的方法是先定義一些人臉標(biāo)準(zhǔn)模式描述人臉特征，然后根據(jù)輸入圖像與標(biāo)準(zhǔn)模式之間的相關(guān)性進行計算，最終確定輸入的圖像是否為人臉。但不能有效處理尺度、表情等變化，因此檢測結(jié)果也不準(zhǔn)確；基于表象的方法是通過機器學(xué)習(xí)的方法分析統(tǒng)計大量樣本圖像，得出的檢測模型能較好地顯示出人臉特征的多樣性，是當(dāng)前人臉識別研究的主流方法。

為了克服對以上幾種檢測結(jié)果的不利影響，本文提出一種將面部皮膚顏色特征與深度神經(jīng)網(wǎng)絡(luò)特征相結(jié)合的檢測方法，根據(jù)膚色特征對圖像進行濾波處理，用膚色模型刪除背景，用神經(jīng)網(wǎng)絡(luò)級聯(lián)確定最終的分類器，最后再對去除了背景的圖像進行人臉檢測。

2 總體算法流程

和傳統(tǒng)的人臉檢測方法相比，本文在人臉檢測方面做了以下改進：

1）提出了膚色+CNN級聯(lián)進行快速人臉檢測；

2）引入了級聯(lián)中基于CNN的人臉邊界框校準(zhǔn)步驟，加速CNN級聯(lián)和高質(zhì)量定位；

3）提出了一種多分辨率CNN架構(gòu)，比只有部分結(jié)構(gòu)架構(gòu)、單分辨率的CNN的識別力更大。

具體算法流程參見圖1。

圖1 總體算法流程

首先給定一個測試圖像，進行膚色處理后，利用12-net密集掃描不同尺度的圖像，快速過濾出90%以上的非人臉檢測窗口，剩下的檢測窗口由12-calibration-net處理，逐個處理12×12圖像，調(diào)整其大小和位置，以便著手處理鄰近的可能性人臉。

應(yīng)用非極大值抑制(NMS)用于快速消除重疊檢測窗口。剩下的檢測窗口被調(diào)整成適合24-net的24×24的輸入圖像，進一步過濾掉近90%的剩余探測窗口。與上一步驟類似，其余的檢測窗口由24-calibration-net調(diào)整，使用NMS來進一步減少檢測窗口數(shù)量。

最后，48-net接收通過的檢測圖像，并根據(jù)48×48的大小進行檢測。利用NMS和檢測評價函數(shù)（IOU）消除重疊的檢測窗口，然后用48-calibration-net校準(zhǔn)剩余檢測窗口的邊界和輸出。

3 相關(guān)設(shè)計

3.1神經(jīng)網(wǎng)絡(luò)對于人臉研究的相關(guān)介紹

人臉表情是計算機視覺中一個值得研究的問題。現(xiàn)代的人臉檢測方法比較容易檢測近距離正面人臉。當(dāng)前，這一領(lǐng)域的研究更多地集中在各種復(fù)雜條件下的人臉檢測問題，例如動作的變化、變幻的表情和極強極弱的光照等，這些都會導(dǎo)致人臉的視覺變化，從而大大降低人臉檢測的準(zhǔn)確性。

人臉檢測的困難主要來自兩個方面：一是復(fù)雜環(huán)境下人臉的視覺變化；二是合理的人臉位置和盡量減少人臉的搜索范圍。前者需要通過人臉檢測來準(zhǔn)確地處理人臉和非人臉問題，后者需要進一步提高人臉位置的準(zhǔn)確性和提高人臉的檢測效率。

自Viola等首次利用人臉特征進行人臉檢測后，帶有簡單特征的算法就成為最普遍和最有效的實用人臉檢測方法。這些簡單的特性能快速運算、快速判斷人臉與非人臉。與此同時，通過算法構(gòu)造一組簡單特征對人臉/非人臉進行精確分類。最初的Viola-Jones人臉檢測器使用的是快速運算可以足夠識別的正面人臉的Haar特征。但是，由于Haar特征的簡單特性，在人臉處于無法預(yù)知的光照中的各種姿態(tài)及各種表情下的復(fù)雜環(huán)境里，這種算法相對薄弱。

過去的10年里，Viola-Jones人臉檢測器在遵循帶有更多先進特征的算法框架基礎(chǔ)上有了很大改進。先進特征構(gòu)造的人臉檢測雖然增加了計算的復(fù)雜度，但提高了精確率。為了達到相似的準(zhǔn)確率，級聯(lián)階段會大大減少，級聯(lián)階段減少后總體計算可能保持不變或減少。

這一改進表明，只要能夠在早期快速過濾掉非人臉，就有可能在實際的人臉檢測解決方案中應(yīng)用更加先進的特征。在這項工作中，建議使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行人臉檢測。與之前人工選擇的特征相比，CNN可以在訓(xùn)練階段通過大量的數(shù)據(jù)訓(xùn)練自動獲取相關(guān)特征，從而去捕捉復(fù)雜的視覺變化。

3.2膚色處理

膚色處理是指在彩色圖像檢測中的圖像預(yù)處理和背景區(qū)域刪除。膚色處理通常使用的顏色空間是RGB，但RGB很容易受到光線的影響，所以直接利用RGB膚色預(yù)處理的效果較差。相比之下，YIQ顏色空間更穩(wěn)定，不同種族的膚色值基本上保持在一定頻率的間隔中。因此，在檢測彩色圖像之前，可以將圖像的顏色空間從RGB轉(zhuǎn)換為YIQ，保留皮膚區(qū)域，去掉非皮膚區(qū)域作為背景，這樣可以縮短后續(xù)測試過程的錯誤檢測，提高檢測速度和準(zhǔn)確率。

大量實驗數(shù)據(jù)證明，人體膚色的I值在0.03～0.25之間，所以，在檢測彩色圖像之前，應(yīng)先將顏色空間從RGB轉(zhuǎn)換為YIQ，然后保留I分量值在0.03和0.25之間的區(qū)域，刪除剩余區(qū)域作為背景。處理公式和處理效果圖分別如下所示：

圖2 膚色處理效果圖

3.3 CNN網(wǎng)絡(luò)結(jié)構(gòu)

3.3.1 12-net

在整個圖像處理流程中，12-net是指第一個CNN，這個CNN的結(jié)構(gòu)如圖3所示。

圖3 12-net結(jié)構(gòu)圖

3.3.2 12-calibration-net

12-calibration-net指的是12-net處理之后用于標(biāo)定邊界盒的CNN。結(jié)構(gòu)如圖4所示。

圖4 標(biāo)定邊界盒的CNN結(jié)構(gòu)圖

該網(wǎng)絡(luò)用于窗口校正，使用三個偏移變量：Xn:水平平移量，Yn:垂直平移量，Sn:寬高比縮放。給定一個檢測窗口(x,y,w,h)，左上點坐標(biāo)為(x,y)，寬和高為(w,h)，窗口的控制坐標(biāo)調(diào)整公式如下：

這里提供N=5×3×3=45個[s,x,y]偏移向量，用于修正位置和大小。三個參數(shù)包括以下值：

同時對偏移向量三個參數(shù)進行校正：

3.3.3 24-net

24-net是中間的人臉非人臉二分類CNN，進一步減少檢測窗口的數(shù)量。輸入為來自12-calibration-net的人臉檢測窗口，在此處理過程中圖像被調(diào)整成24×24圖像，并由24-net判斷二分類結(jié)果。CNN結(jié)構(gòu)如圖5所示。

除此之外，在24-net結(jié)構(gòu)圖中采用多分辨率結(jié)構(gòu)。除了輸入24×24，與12-net一樣，在24-net也將12×12分辨率輸入一個低層結(jié)構(gòu)。12-net低層結(jié)構(gòu)的全連接層被連接到128-output全連接層用以分類，如圖5所示。在這種多分辨率結(jié)構(gòu)下，補充12×12分辨率信息到24-net，便于檢測小尺寸人臉。整個CNN變得更有識別力，12-net低層結(jié)構(gòu)的高層也僅是整個運算的一小部分。

圖5 24-net結(jié)構(gòu)圖

同時，通過對比有多分辨率設(shè)計的檢測性能和沒有多分辨率設(shè)計的檢測性，結(jié)果發(fā)現(xiàn)，在相同的召回率下，多分辨率結(jié)構(gòu)的設(shè)計可以在較少的錯誤檢測窗口下達到相同的召回率。在高查全率中這種差距更明顯。

3.3.4 24-calibration-net

與12-calibration-net類似，24-calibration-net是另一個帶有N校準(zhǔn)圖的校準(zhǔn)網(wǎng)絡(luò)。結(jié)構(gòu)如圖6所示。

圖6 24-calibration-net結(jié)構(gòu)圖

除了24-calibration-net輸入大小是24×24以外，事先定義的圖案和校準(zhǔn)步驟與12-calibration-net相同。

3.3.5 48-net

48-net是最后一個人臉非人臉二分類CNN。在這個級聯(lián)階段，運用一個更強大但速度更慢的CNN是可行的。如圖7所示，48-net相對更復(fù)雜。和24-net類似，48-net中也采用多分辨率設(shè)計，額外的輸入副本24×24和低層結(jié)構(gòu)與24-net相同。

圖7 48-net結(jié)構(gòu)圖

3.3.6 48-calibration-net

48-calibration-net是級聯(lián)的最后一個階段。CNN結(jié)構(gòu)如圖8所示。

圖8 48-calibration-net結(jié)構(gòu)圖

事先定義同樣的N=45校準(zhǔn)圖提供給48-calibrationnet，如3.2.2部分，我們在這個CNN里僅用一個池化層來得到更多的精確校準(zhǔn)。

3.3.7非極大值抑制(NMS)

在對圖片掃描劃分的時候，因生成圖片較多，需要采用NMS的實施方案。用最高置信值反復(fù)選擇檢測窗口和高于預(yù)置臨界值的IOU比率來反復(fù)消除檢測窗口，最終確定檢測窗口。

在12-net和24-net中，低層CNN的識別力可能難以處理具有挑戰(zhàn)性的假陽性。因此，在12-calibrationnet和24-calibration-net處理之后，在相同尺寸檢測窗口中單獨應(yīng)用NMS，以避免出現(xiàn)較低的召回率。在不同尺寸的檢測窗口中普遍應(yīng)用48-net后的NMS，讓大多數(shù)精確的檢測窗口在48個校準(zhǔn)網(wǎng)中以正確的尺寸脫穎而出，從而避免多余的運算。

3.4校準(zhǔn)CNN

校準(zhǔn)網(wǎng)絡(luò)在人臉檢測級聯(lián)中有何作用？研究表明，在無校準(zhǔn)步驟條件下，下一個CNN在級聯(lián)中只能對更多的區(qū)域進行操作，以保持較好的召回率，整個測試的運行時間明顯增加。為解決這一問題，可訓(xùn)練一個多級分類CNN用于校準(zhǔn)。校準(zhǔn)回歸CNN需要更多的訓(xùn)練數(shù)據(jù)，而多級校準(zhǔn)CNN可在有限的訓(xùn)練數(shù)據(jù)中訓(xùn)練。結(jié)果表明，校準(zhǔn)之后檢測邊界框能更好地對齊真實的人臉中心。因此，多級校準(zhǔn)能通過更小范圍粗略掃描窗口，實現(xiàn)更精準(zhǔn)的人臉定位。

3.5訓(xùn)練步驟

在級聯(lián)CNN訓(xùn)練中，首先收集5800個背景圖，得到非人臉訓(xùn)練樣本，運用在AFLW數(shù)據(jù)集中的人臉作為人臉訓(xùn)練樣本。

對級聯(lián)中的二元分類CNN和多級分類CNN，運用多項邏輯回歸目標(biāo)函數(shù)來實現(xiàn)訓(xùn)練最優(yōu)化。

3.5.1校準(zhǔn)網(wǎng)絡(luò)

3.5.2檢測網(wǎng)絡(luò)

在級聯(lián)結(jié)構(gòu)下訓(xùn)練檢測網(wǎng)絡(luò)12-net，24-net,和48-net。把所有的訓(xùn)練人臉調(diào)整成12×12大小，并隨機從背景圖中取20萬個非人臉樣本訓(xùn)練12-net。然后運用一個在AFLW圖子集中包含12-net和12-calibration的2-階段級聯(lián)，來確定在99%召回率的臨界值T1。

接下來，用2-階段級聯(lián)密集掃描所有背景圖。置信度大于T1的所有檢測窗口變成24-net的非人臉樣本。用采集的非人臉訓(xùn)練樣本和24×24的所有訓(xùn)練人臉來訓(xùn)練24-net。之后，對于包含12-net、12-calibration-net、24-net和24-calibration-net的4-階段級聯(lián)，采用同樣的步驟。設(shè)置臨界值T2來保持97%的召回率。

在所有的背景圖中采用相同的程序，用4-階段級聯(lián)采集48-net的非人臉樣本。在48×48中用人臉和非人臉訓(xùn)練樣本來訓(xùn)練48-net。

在級聯(lián)的每個階段，訓(xùn)練CNN處理子問題比普遍處理人臉非人臉二分類更容易。與含有單獨CNN的設(shè)計去掃描整個人臉圖相比，級聯(lián)有可能使含有簡單的多個CNN達到相同甚至更好的精確度。

4 實驗結(jié)果

使用公眾人臉訓(xùn)練數(shù)據(jù)集上使用上述級聯(lián)檢測方法。在FDDB數(shù)據(jù)集中，檢測器在不連續(xù)值等式中勝過達到最先進水準(zhǔn)的方法。同時，檢測器通過較小地降低性能的方式可以變成更快的版本。

4.1 AFW

AFW是一個由Zhu等人創(chuàng)造的205個圖像數(shù)據(jù)源。在AFW上運算檢測器，AFW等式中，采用Mathias等人的矯正方法去探尋檢測輸出的整體剛性轉(zhuǎn)換，使地面真值覆蓋率用共享運算工具達到最大值。但是邊界不能簡單的線性映射到AFW邊界，在普遍轉(zhuǎn)換階段之后，錯配仍然存在，所以需要使用手工運算輸出檢測，得到更好的結(jié)果。

4.2 FDDB

FDDB數(shù)據(jù)源在2845個圖像中，包含5171個邊界人臉。這是一個大規(guī)模運用標(biāo)準(zhǔn)化運算步驟的人臉檢測數(shù)據(jù)集。FDDB運用橢圓人臉邊界，運算定義不連續(xù)值和連續(xù)值。在不連續(xù)值運算中，計算出被檢測人臉的數(shù)量相對于誤報的數(shù)量。只有當(dāng)含有大于0.5的IOU比率才能把檢測邊界框（或橢圓）認(rèn)作是真人臉。在連續(xù)值運算中，可以通過把IOU比率當(dāng)作檢測邊界框的匹配度量的方式來運算出在多大程度上定位人臉。

4.3運行時間效率

檢測工作的重要優(yōu)勢之一是運行時間效率。CNN級聯(lián)可以快速實現(xiàn)人臉檢測。此外，簡單改變臨界值T1和T2，會出現(xiàn)一個特定的精度計算交換任務(wù)。結(jié)果表明，本文提出的CNN級聯(lián)可以和AFW的Picasa相比。

通過設(shè)置過高臨界值過濾掉早期階段的大部分檢測窗口，使用校準(zhǔn)網(wǎng)絡(luò)把邊界框校正回到人臉中心，更能增加晚期階段的召回。一般來說，對于12-net和12-calibration-net而言，只有2.36%的檢測窗口能夠通過；而對于24-net和24-calibration-net而言，再輸入48-net，則有14.3%的剩余檢測窗口可以通過。

在有相同臨界值的條件下運算檢測器，檢測來源于640×480VGA圖像。僅掃描12-net階段的80×80的人臉，使用校準(zhǔn)網(wǎng)絡(luò)，能在校準(zhǔn)范圍內(nèi)檢測比80×80更小或更大的人臉。在這個場景中，檢測器平均77毫秒處理一個在2.0GHzCPU核心的圖像。相同設(shè)置下，48-net檢測花費770毫秒可以掃描整個圖像，展示了級聯(lián)設(shè)計的時間效率。在GPU card上，無代碼優(yōu)化條件下，級聯(lián)檢測時間進一步減少到每張圖像10毫秒，這個檢測速度處于先進水平。

5結(jié)語

基于膚色的級聯(lián)神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用于人臉識別、手寫體識別等方面。文中初步探討了膚色模型與深度學(xué)習(xí)方法的圖像處理相結(jié)合在人臉檢測方面的應(yīng)用,提出了基于膚色的人臉檢測原理，進行了實驗,取得了令人滿意的結(jié)果，部分檢測圖像如圖9所示。該方法在人臉檢測的應(yīng)用中有著廣闊的前景，接下來的工作是進一步對該方法進行改進,希望可以進一步提高其性能。

圖9 部分監(jiān)測圖像

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡