■ 文/廣西警察學(xué)院 劉敏
關(guān)鍵字:人臉識別 級聯(lián)神經(jīng)網(wǎng)絡(luò) 膚色模型 人臉檢測
人臉作為識別他人身份的重要生物特征之一,在交通安檢、工作考勤等諸多場合有著廣泛應(yīng)用。作為人臉識別的關(guān)鍵部分,人臉檢測的效果與最終識別效果息息相關(guān)。在實際檢測中,由于識別出來的圖像受環(huán)境、光線、表情、姿態(tài)等因素的干擾,會出現(xiàn)誤檢、漏檢、識別精度低等情況。
目前人臉檢測的主要方法是基于認(rèn)知的方法、基于不變特征的方法、基于模板匹配的方法和基于表象的方法等。
基于認(rèn)知的方法主要是根據(jù)預(yù)先定義的人臉描述規(guī)則對圖像進行檢測。但該方法難以定義規(guī)則,如果規(guī)則過于嚴(yán)格會導(dǎo)致無法檢測到臉部。反之,則會產(chǎn)生大量的錯誤檢測;基于不變特征的方法是根據(jù)人臉的眉毛、眼睛和鼻子等不變特征對人臉進行定位。但是容易受光線、表情等因素的干擾導(dǎo)致準(zhǔn)確率低;基于模板匹配的方法是先定義一些人臉標(biāo)準(zhǔn)模式描述人臉特征,然后根據(jù)輸入圖像與標(biāo)準(zhǔn)模式之間的相關(guān)性進行計算,最終確定輸入的圖像是否為人臉。但不能有效處理尺度、表情等變化,因此檢測結(jié)果也不準(zhǔn)確;基于表象的方法是通過機器學(xué)習(xí)的方法分析統(tǒng)計大量樣本圖像,得出的檢測模型能較好地顯示出人臉特征的多樣性,是當(dāng)前人臉識別研究的主流方法。
為了克服對以上幾種檢測結(jié)果的不利影響,本文提出一種將面部皮膚顏色特征與深度神經(jīng)網(wǎng)絡(luò)特征相結(jié)合的檢測方法,根據(jù)膚色特征對圖像進行濾波處理,用膚色模型刪除背景,用神經(jīng)網(wǎng)絡(luò)級聯(lián)確定最終的分類器,最后再對去除了背景的圖像進行人臉檢測。
和傳統(tǒng)的人臉檢測方法相比,本文在人臉檢測方面做了以下改進:
1)提出了膚色+CNN級聯(lián)進行快速人臉檢測;
2)引入了級聯(lián)中基于CNN的人臉邊界框校準(zhǔn)步驟,加速CNN級聯(lián)和高質(zhì)量定位;
3)提出了一種多分辨率CNN架構(gòu),比只有部分結(jié)構(gòu)架構(gòu)、單分辨率的CNN的識別力更大。
具體算法流程參見圖1。
圖1 總體算法流程
首先給定一個測試圖像,進行膚色處理后,利用12-net密集掃描不同尺度的圖像,快速過濾出90%以上的非人臉檢測窗口,剩下的檢測窗口由12-calibration-net處理,逐個處理12×12圖像,調(diào)整其大小和位置,以便著手處理鄰近的可能性人臉。
應(yīng)用非極大值抑制(NMS)用于快速消除重疊檢測窗口。剩下的檢測窗口被調(diào)整成適合24-net的24×24的輸入圖像,進一步過濾掉近90%的剩余探測窗口。與上一步驟類似,其余的檢測窗口由24-calibration-net調(diào)整,使用NMS來進一步減少檢測窗口數(shù)量。
最后,48-net接收通過的檢測圖像,并根據(jù)48×48的大小進行檢測。利用NMS和檢測評價函數(shù)(IOU)消除重疊的檢測窗口,然后用48-calibration-net校準(zhǔn)剩余檢測窗口的邊界和輸出。
人臉表情是計算機視覺中一個值得研究的問題。現(xiàn)代的人臉檢測方法比較容易檢測近距離正面人臉。當(dāng)前,這一領(lǐng)域的研究更多地集中在各種復(fù)雜條件下的人臉檢測問題,例如動作的變化、變幻的表情和極強極弱的光照等,這些都會導(dǎo)致人臉的視覺變化,從而大大降低人臉檢測的準(zhǔn)確性。
人臉檢測的困難主要來自兩個方面:一是復(fù)雜環(huán)境下人臉的視覺變化;二是合理的人臉位置和盡量減少人臉的搜索范圍。前者需要通過人臉檢測來準(zhǔn)確地處理人臉和非人臉問題,后者需要進一步提高人臉位置的準(zhǔn)確性和提高人臉的檢測效率。
自Viola等首次利用人臉特征進行人臉檢測后,帶有簡單特征的算法就成為最普遍和最有效的實用人臉檢測方法。這些簡單的特性能快速運算、快速判斷人臉與非人臉。與此同時,通過算法構(gòu)造一組簡單特征對人臉/非人臉進行精確分類。最初的Viola-Jones人臉檢測器使用的是快速運算可以足夠識別的正面人臉的Haar特征。但是,由于Haar特征的簡單特性,在人臉處于無法預(yù)知的光照中的各種姿態(tài)及各種表情下的復(fù)雜環(huán)境里,這種算法相對薄弱。
過去的10年里,Viola-Jones人臉檢測器在遵循帶有更多先進特征的算法框架基礎(chǔ)上有了很大改進。先進特征構(gòu)造的人臉檢測雖然增加了計算的復(fù)雜度,但提高了精確率。為了達到相似的準(zhǔn)確率,級聯(lián)階段會大大減少,級聯(lián)階段減少后總體計算可能保持不變或減少。
這一改進表明,只要能夠在早期快速過濾掉非人臉,就有可能在實際的人臉檢測解決方案中應(yīng)用更加先進的特征。在這項工作中,建議使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行人臉檢測。與之前人工選擇的特征相比,CNN可以在訓(xùn)練階段通過大量的數(shù)據(jù)訓(xùn)練自動獲取相關(guān)特征,從而去捕捉復(fù)雜的視覺變化。
膚色處理是指在彩色圖像檢測中的圖像預(yù)處理和背景區(qū)域刪除。膚色處理通常使用的顏色空間是RGB,但RGB很容易受到光線的影響,所以直接利用RGB膚色預(yù)處理的效果較差。相比之下,YIQ顏色空間更穩(wěn)定,不同種族的膚色值基本上保持在一定頻率的間隔中。因此,在檢測彩色圖像之前,可以將圖像的顏色空間從RGB轉(zhuǎn)換為YIQ,保留皮膚區(qū)域,去掉非皮膚區(qū)域作為背景,這樣可以縮短后續(xù)測試過程的錯誤檢測,提高檢測速度和準(zhǔn)確率。
大量實驗數(shù)據(jù)證明,人體膚色的I值在0.03~0.25之間,所以,在檢測彩色圖像之前,應(yīng)先將顏色空間從RGB轉(zhuǎn)換為YIQ,然后保留I分量值在0.03和0.25之間的區(qū)域,刪除剩余區(qū)域作為背景。處理公式和處理效果圖分別如下所示:
圖2 膚色處理效果圖
3.3.1 12-net
在整個圖像處理流程中,12-net是指第一個CNN,這個CNN的結(jié)構(gòu)如圖3所示。
圖3 12-net結(jié)構(gòu)圖
3.3.2 12-calibration-net
12-calibration-net指的是12-net處理之后用于標(biāo)定邊界盒的CNN。結(jié)構(gòu)如圖4所示。
圖4 標(biāo)定邊界盒的CNN結(jié)構(gòu)圖
該網(wǎng)絡(luò)用于窗口校正,使用三個偏移變量:Xn:水平平移量,Yn:垂直平移量,Sn:寬高比縮放。給定一個檢測窗口(x,y,w,h),左上點坐標(biāo)為(x,y),寬和高為(w,h),窗口的控制坐標(biāo)調(diào)整公式如下:
這里提供N=5×3×3=45個[s,x,y]偏移向量,用于修正位置和大小。三個參數(shù)包括以下值:
同時對偏移向量三個參數(shù)進行校正:
3.3.3 24-net
24-net是中間的人臉非人臉二分類CNN,進一步減少檢測窗口的數(shù)量。輸入為來自12-calibration-net的人臉檢測窗口,在此處理過程中圖像被調(diào)整成24×24圖像,并由24-net判斷二分類結(jié)果。CNN結(jié)構(gòu)如圖5所示。
除此之外,在24-net結(jié)構(gòu)圖中采用多分辨率結(jié)構(gòu)。除了輸入24×24,與12-net一樣,在24-net也將12×12分辨率輸入一個低層結(jié)構(gòu)。12-net低層結(jié)構(gòu)的全連接層被連接到128-output全連接層用以分類,如圖5所示。在這種多分辨率結(jié)構(gòu)下,補充12×12分辨率信息到24-net,便于檢測小尺寸人臉。整個CNN變得更有識別力,12-net低層結(jié)構(gòu)的高層也僅是整個運算的一小部分。
圖5 24-net結(jié)構(gòu)圖
同時,通過對比有多分辨率設(shè)計的檢測性能和沒有多分辨率設(shè)計的檢測性,結(jié)果發(fā)現(xiàn),在相同的召回率下,多分辨率結(jié)構(gòu)的設(shè)計可以在較少的錯誤檢測窗口下達到相同的召回率。在高查全率中這種差距更明顯。
3.3.4 24-calibration-net
與12-calibration-net類似,24-calibration-net是另一個帶有N校準(zhǔn)圖的校準(zhǔn)網(wǎng)絡(luò)。結(jié)構(gòu)如圖6所示。
圖6 24-calibration-net結(jié)構(gòu)圖
除了24-calibration-net輸入大小是24×24以外,事先定義的圖案和校準(zhǔn)步驟與12-calibration-net相同。
3.3.5 48-net
48-net是最后一個人臉非人臉二分類CNN。在這個級聯(lián)階段,運用一個更強大但速度更慢的CNN是可行的。如圖7所示,48-net相對更復(fù)雜。和24-net類似,48-net中也采用多分辨率設(shè)計,額外的輸入副本24×24和低層結(jié)構(gòu)與24-net相同。
圖7 48-net結(jié)構(gòu)圖
3.3.6 48-calibration-net
48-calibration-net是級聯(lián)的最后一個階段。CNN結(jié)構(gòu)如圖8所示。
圖8 48-calibration-net結(jié)構(gòu)圖
事先定義同樣的N=45校準(zhǔn)圖提供給48-calibrationnet,如3.2.2部分,我們在這個CNN里僅用一個池化層來得到更多的精確校準(zhǔn)。
3.3.7非極大值抑制(NMS)
在對圖片掃描劃分的時候,因生成圖片較多,需要采用NMS的實施方案。用最高置信值反復(fù)選擇檢測窗口和高于預(yù)置臨界值的IOU比率來反復(fù)消除檢測窗口,最終確定檢測窗口。
在12-net和24-net中,低層CNN的識別力可能難以處理具有挑戰(zhàn)性的假陽性。因此,在12-calibrationnet和24-calibration-net處理之后,在相同尺寸檢測窗口中單獨應(yīng)用NMS,以避免出現(xiàn)較低的召回率。在不同尺寸的檢測窗口中普遍應(yīng)用48-net后的NMS,讓大多數(shù)精確的檢測窗口在48個校準(zhǔn)網(wǎng)中以正確的尺寸脫穎而出,從而避免多余的運算。
校準(zhǔn)網(wǎng)絡(luò)在人臉檢測級聯(lián)中有何作用?研究表明,在無校準(zhǔn)步驟條件下,下一個CNN在級聯(lián)中只能對更多的區(qū)域進行操作,以保持較好的召回率,整個測試的運行時間明顯增加。為解決這一問題,可訓(xùn)練一個多級分類CNN用于校準(zhǔn)。校準(zhǔn)回歸CNN需要更多的訓(xùn)練數(shù)據(jù),而多級校準(zhǔn)CNN可在有限的訓(xùn)練數(shù)據(jù)中訓(xùn)練。結(jié)果表明,校準(zhǔn)之后檢測邊界框能更好地對齊真實的人臉中心。因此,多級校準(zhǔn)能通過更小范圍粗略掃描窗口,實現(xiàn)更精準(zhǔn)的人臉定位。
在級聯(lián)CNN訓(xùn)練中,首先收集5800個背景圖,得到非人臉訓(xùn)練樣本,運用在AFLW數(shù)據(jù)集中的人臉作為人臉訓(xùn)練樣本。
對級聯(lián)中的二元分類CNN和多級分類CNN,運用多項邏輯回歸目標(biāo)函數(shù)來實現(xiàn)訓(xùn)練最優(yōu)化。
3.5.1校準(zhǔn)網(wǎng)絡(luò)
3.5.2檢測網(wǎng)絡(luò)
在級聯(lián)結(jié)構(gòu)下訓(xùn)練檢測網(wǎng)絡(luò)12-net,24-net,和48-net。把所有的訓(xùn)練人臉調(diào)整成12×12大小,并隨機從背景圖中取20萬個非人臉樣本訓(xùn)練12-net。然后運用一個在AFLW圖子集中包含12-net和12-calibration的2-階段級聯(lián),來確定在99%召回率的臨界值T1。
接下來,用2-階段級聯(lián)密集掃描所有背景圖。置信度大于T1的所有檢測窗口變成24-net的非人臉樣本。用采集的非人臉訓(xùn)練樣本和24×24的所有訓(xùn)練人臉來訓(xùn)練24-net。之 后,對于包含12-net、12-calibration-net、24-net和24-calibration-net的4-階段級聯(lián),采用同樣的步驟。設(shè)置臨界值T2來保持97%的召回率。
在所有的背景圖中采用相同的程序,用4-階段級聯(lián)采集48-net的非人臉樣本。在48×48中用人臉和非人臉訓(xùn)練樣本來訓(xùn)練48-net。
在級聯(lián)的每個階段,訓(xùn)練CNN處理子問題比普遍處理人臉非人臉二分類更容易。與含有單獨CNN的設(shè)計去掃描整個人臉圖相比,級聯(lián)有可能使含有簡單的多個CNN達到相同甚至更好的精確度。
使用公眾人臉訓(xùn)練數(shù)據(jù)集上使用上述級聯(lián)檢測方法。在FDDB數(shù)據(jù)集中,檢測器在不連續(xù)值等式中勝過達到最先進水準(zhǔn)的方法。同時,檢測器通過較小地降低性能的方式可以變成更快的版本。
AFW是一個由Zhu等人創(chuàng)造的205個圖像數(shù)據(jù)源。在AFW上運算檢測器,AFW等式中,采用Mathias等人的矯正方法去探尋檢測輸出的整體剛性轉(zhuǎn)換,使地面真值覆蓋率用共享運算工具達到最大值。但是邊界不能簡單的線性映射到AFW邊界,在普遍轉(zhuǎn)換階段之后,錯配仍然存在,所以需要使用手工運算輸出檢測,得到更好的結(jié)果。
FDDB數(shù)據(jù)源在2845個圖像中,包含5171個邊界人臉。這是一個大規(guī)模運用標(biāo)準(zhǔn)化運算步驟的人臉檢測數(shù)據(jù)集。FDDB運用橢圓人臉邊界,運算定義不連續(xù)值和連續(xù)值。在不連續(xù)值運算中,計算出被檢測人臉的數(shù)量相對于誤報的數(shù)量。只有當(dāng)含有大于0.5的IOU比率才能把檢測邊界框(或橢圓)認(rèn)作是真人臉。在連續(xù)值運算中,可以通過把IOU比率當(dāng)作檢測邊界框的匹配度量的方式來運算出在多大程度上定位人臉。
檢測工作的重要優(yōu)勢之一是運行時間效率。CNN級聯(lián)可以快速實現(xiàn)人臉檢測。此外,簡單改變臨界值T1和T2,會出現(xiàn)一個特定的精度計算交換任務(wù)。結(jié)果表明,本文提出的CNN級聯(lián)可以和AFW的Picasa相比。
通過設(shè)置過高臨界值過濾掉早期階段的大部分檢測窗口,使用校準(zhǔn)網(wǎng)絡(luò)把邊界框校正回到人臉中心,更能增加晚期階段的召回。一般來說, 對于12-net和12-calibration-net而言,只有2.36%的檢測窗口能夠通過;而對于24-net和24-calibration-net而言,再輸入48-net,則有14.3%的剩余檢測窗口可以通過。
在有相同臨界值的條件下運算檢測器,檢測來源于640×480VGA圖像。僅掃描12-net階段的80×80的人臉,使用校準(zhǔn)網(wǎng)絡(luò),能在校準(zhǔn)范圍內(nèi)檢測比80×80更小或更大的人臉。在這個場景中,檢測器平均77毫秒處理一個在2.0GHzCPU核心的圖像。相同設(shè)置下,48-net檢測花費770毫秒可以掃描整個圖像,展示了級聯(lián)設(shè)計的時間效率。在GPU card上,無代碼優(yōu)化條件下,級聯(lián)檢測時間進一步減少到每張圖像10毫秒,這個檢測速度處于先進水平。
基于膚色的級聯(lián)神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用于人臉識別、手寫體識別等方面。文中初步探討了膚色模型與深度學(xué)習(xí)方法的圖像處理相結(jié)合在人臉檢測方面的應(yīng)用,提出了基于膚色的人臉檢測原理,進行了實驗,取得了令人滿意的結(jié)果,部分檢測圖像如圖9所示。該方法在人臉檢測的應(yīng)用中有著廣闊的前景,接下來的工作是進一步對該方法進行改進,希望可以進一步提高其性能。
圖9 部分監(jiān)測圖像