薛 晨, 寧志剛
(南華大學(xué) 電氣工程學(xué)院,湖南 衡陽 421001)
隨著信息化技術(shù)的飛速發(fā)展,人臉識別技術(shù)在當前應(yīng)用越來越廣泛,尤其是在國家級公共安全信息和金融安全等領(lǐng)域有廣泛的應(yīng)用。隨著人臉識別應(yīng)用的推廣,人臉識別的研究面臨巨大的挑戰(zhàn)。在影響人臉識別技術(shù)中,光照條件變化就是人臉識別面臨的重要挑戰(zhàn)之一。因為在復(fù)雜的光照條件下,人臉部分將會產(chǎn)生明顯的明暗差異。由于人臉的3D形狀,在側(cè)光條件下,投射陰影尤為明顯。光照帶來的人臉特征急劇變化對人臉檢測及其后續(xù)的識別工作帶來了巨大的挑戰(zhàn)。
人臉檢測是目標檢測的一個分支。傳統(tǒng)的目標檢測算法是基于手工設(shè)計的特征,其識別效果的好壞完全取決于手工提取特征的表達能力,其應(yīng)用于人臉檢測的代表為基于Haar特征的Viola-Jones級聯(lián)檢測器[1],以及基于方向梯度直方圖(histogram of oriented gradient,HOG)特征的可變形模型(deformable part model,DPM)[2]。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,目前基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法已成為主流,根據(jù)是否生成備選框又分為Two-stage和One-stage方法,各自代表性的模型為Faster R-CNN[3]和YOLOv3[4]。通用模型可以直接進行人臉檢測,當然也有專為人臉檢測設(shè)計的模型。專用的人臉檢測模型如MTCNN[5]、Faceness-Net[6]和RetinaFace[7]等。MTCNN在進行實時人臉區(qū)域檢測的基礎(chǔ)上,給出了5個人臉關(guān)鍵點,更有利于進一步的人臉對齊和分類任務(wù),但在復(fù)雜光照場景下,會出現(xiàn)檢測精度下降,誤檢率上升等現(xiàn)象。
本文采用一種基于Retinex的光照預(yù)處理方案,能有效增強人臉區(qū)域,在不增加特定訓(xùn)練樣本以及不改動模型結(jié)構(gòu)的基礎(chǔ)上,有效提升MTCNN在復(fù)雜光照條件下,尤其是低光照下人臉檢測的精度。
在模擬光照影響的人臉圖像時,常使用基于全局的輻照度模型[8]:
I(x,y)=R(x,y)·L(x,y)
(1)
其在對數(shù)域的表現(xiàn)形式為:
i(x,y)=r(x,y)+l(x,y)
(2)
其中,I(x,y)為圖像在點(x,y)處的亮度,R(x,y)為該點處的反射系數(shù),L(x,y)為該點處的光照系數(shù),i(x,y)=log(I(x,y)),r(x,y)=log(R(x,y)),l(x,y)=log(L(x,y))。
單尺度Retinex(single scale Retinex,SSR)是D.J.Jobson[9]在基于全局的輻照度模型下根據(jù)中心/環(huán)繞Retinex理論提出的,相應(yīng)的表達式如下:
(3)
其中,i為波段號,i=1,2,…,N,如灰度圖N=1,RGB彩色圖像N=3。Ii(x,y)為第i個波段的原圖像,F(xiàn)(x,y)為高斯型環(huán)繞函數(shù),用來估計光照分量,Ri(x,y)為第i個波段增強的圖像。
傳統(tǒng)的SSR算法僅保留反射系數(shù),增強后的圖像顏色失真嚴重,且伴隨著圖像灰度化。文獻[10]提出的視覺增強算法在保留反射系數(shù)的基礎(chǔ)上,對光照分量進行動態(tài)范圍壓縮,降低了光照的影響,有效地保留了光照分量中的有效信息。
本文首先將圖像從RGB顏色空間轉(zhuǎn)換到HSV顏色空間,僅對V通道進行處理,并在處理前對V通道進行白平衡,將該通道的動態(tài)范圍拉伸到[0,255],增強其對比度。
光照分量的估計采用引導(dǎo)濾波器代替高斯濾波器,能夠有效抑制光暈現(xiàn)象,即L(x,y)=G×Fr,ε(I(x,y)),將其轉(zhuǎn)換到對數(shù)域中:l(x,y)=log(L(x,y)),r和ε分別為引導(dǎo)濾波器的濾波核大小和邊緣保留程度。根據(jù)輻照度模型可得反射分量:r(x,y)=log(I(x,y))-l(x,y)。
保留反射分量r(x,y)不變,對光照分量進行一個尺度為β的壓縮,并增加一項γ來提高整體的對比度,得到增強后的圖像:
u(x,y)=r(x,y)+β·l(x,y)+γ
(4)
(5)
γ=(1-β)max(l)
(6)
其中,T為目標對比度。然后將對數(shù)域的圖像轉(zhuǎn)換為實數(shù)域:U=exp(u)。最后將增強的V通道的HSV顏色空間的圖像轉(zhuǎn)換到RGB顏色空間。
多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)MTCNN是一個典型的多任務(wù)級聯(lián)的人臉檢測框架,它將人臉檢測與人臉關(guān)鍵點檢測融合在一個模型中,通過三個級聯(lián)的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)——P-Net(proposal network)、R-Net(refine network)和O-Net(output network),由粗到細地快速精確定位人臉框和關(guān)鍵點的位置。
基于MTCNN人臉檢測流程:首先對原始輸入圖片進行縮放,構(gòu)造圖像金字塔。
第一階段,將不同尺度的圖像輸入P-Net獲取建議的人臉區(qū)域。P-Net為一個全卷積網(wǎng)絡(luò),網(wǎng)絡(luò)輸出臉部區(qū)域候選窗口和邊界框回歸向量,利用非極大值抑制(non-maximum suppression, NMS)合并多余窗口。圖1所示為P-Net的網(wǎng)絡(luò)架構(gòu)。
圖1 MTCNN P-Net網(wǎng)絡(luò)架構(gòu)
第二階段,將P-Net輸出的候選框裁剪縮放后輸入到優(yōu)化網(wǎng)絡(luò)R-Net,進一步過濾掉非人臉候選框,同樣使用NMS對候選框進行合并處理。圖2所示為R-Net的網(wǎng)絡(luò)架構(gòu)。
圖2 MTCNN R-Net網(wǎng)絡(luò)架構(gòu)
第三階段,將第二階段得到的候選框輸入O-Net,其工作原理與R-Net相似,通過一個層次更深的網(wǎng)絡(luò)對候選框進行篩選,并給出5個人臉關(guān)鍵點定位。圖3所示為O-Net的網(wǎng)絡(luò)架構(gòu)。
圖3 MTCNN O-Net網(wǎng)絡(luò)架構(gòu)
仿射變換是能夠保持圖像平直性與平行性的二維坐標到二維坐標之間的線性變換。仿射變換的公式為:
(7)
其中,s為尺度參數(shù),θ為旋轉(zhuǎn)角度,T=(t1,t2)′為平移參數(shù)。
檢測到的人臉圖像大多不是正臉,由MTCNN得到的5個特征點,通過普氏分析歸一化到標準參考點。求解如下最小值問題:
(8)
其中,p和q分別為待對齊的人臉特征點矩陣和標準參考點矩陣,矩陣的每一行為一個特征點坐標。標準參考點由統(tǒng)計所得,人臉的長寬比為112∶96,因此,本文剪切對齊的人臉圖片均歸一化到112×96。5個特征點分別對應(yīng)左、右眼中心,鼻尖以及左、右嘴角,其對應(yīng)的參考點為:(30.294 6,51.396 3)、(65.531 8,51.501 4)、(48.025 2,71.736 6)、(33.549 3,92.365 5)和(62.729 9,92.204 1)。圖4(a)為MTCNN人臉檢測得到的人臉框及五個關(guān)鍵點坐標,圖4(b)為對齊后的人臉圖像。
圖4 基于5點的人臉對齊
為了驗證本文方法的有效性,實驗結(jié)果均在Matlab2016a環(huán)境下仿真得到。
基于Retinex的人臉圖像增強算法中,引導(dǎo)濾波器的濾波核r=[0.04max(w,h)],w和h為輸入圖像的寬度和高度,ε設(shè)置為0.01;目標對比度參數(shù)T設(shè)置為4。SSR的標準差σ設(shè)為80。
圖5(a)為原始圖像,人臉處于暗環(huán)境中,外部光照僅集中在右下側(cè)臉,人臉特征急劇變化,嚴重影響人臉檢測的精度。圖5(b)為SSR方法增強的圖像,人臉細節(jié)清晰可見,但圖像灰度化嚴重,顏色嚴重失真。圖5(c)為本文增強結(jié)果,暗部區(qū)域細節(jié)明顯增強,且顏色正常,與訓(xùn)練集所使用的人臉圖像更加接近,有利于后續(xù)的檢測與關(guān)鍵點的精確回歸。
圖5 不同算法增強的圖像
MTCNN采用caffee框架,人臉框回歸的訓(xùn)練集圖片來自WIDER FACE人臉數(shù)據(jù)庫,關(guān)鍵點的訓(xùn)練使用CelebA人臉數(shù)據(jù)庫已標注好的人臉,模型及參數(shù)配置均使用文獻作者提供的最優(yōu)參數(shù)。其在FDDB(face detection data set and benchmark)數(shù)據(jù)集上的準確率能夠達到95%左右,在2.6 GHz的CPU上檢測速度可達到16幀/s,但在復(fù)雜光照的影響下,人臉框的標定和關(guān)鍵點的定位會出現(xiàn)明顯偏差。
圖6第一行為原始圖片的檢測效果,第二行為本文方法的檢測效果。圖片中的人臉圖像的光照水平從整體過暗、半臉過暗、局部過暗到光照漸變。在復(fù)雜光照條件下,原始MTCNN的檢測精度明顯下降,關(guān)鍵點的位置出現(xiàn)明顯偏移,甚至出現(xiàn)誤檢現(xiàn)象。
圖6 人臉檢測結(jié)果
現(xiàn)實生活中,低光照及不均勻光照使人臉特征發(fā)生變化,與訓(xùn)練集中的樣本形成巨大差異,導(dǎo)致在測試階段取得很好性能的檢測器在實際運用階段精度下降。在采用本文方法增強后的人臉圖片,人臉區(qū)域得到明顯增強,人臉的五官細節(jié)清晰可見,表現(xiàn)出很好的視覺可視性,與WIDER FACE人臉數(shù)據(jù)集中用來訓(xùn)練的人臉圖像具有高度的一致性。在人臉檢測方面,本文方法增強的人臉圖像能夠在復(fù)雜的光照條件下,使MTCNN人臉檢測器較精確地回歸出關(guān)鍵點的位置,且能夠在一定程度上減少由于光照影響所引起的人臉誤檢現(xiàn)象。此外,本文增強算法時間復(fù)雜度低,對于200×200的單張彩色圖片在2.6 GHz的CPU下,平均運行時間為71 ms,結(jié)合MTCNN網(wǎng)絡(luò)可以達到近實時檢測的效果。
本文采用基于Retinex的人臉圖像增強算法,該方法在HSV顏色空間中對V通道進行增強,利用引導(dǎo)濾波器有效地保留了人臉細節(jié),對光照分量進行壓縮,該方法算法復(fù)雜度低,能有效增強復(fù)雜光照下的人臉區(qū)域,保留良好的視覺可視性。在人臉檢測方面,能夠有效解決復(fù)雜光照條件下MTCNN人臉檢測及關(guān)鍵點回歸的精度,在一定程度上降低誤檢率,實現(xiàn)近實時人臉檢測。