魏小莉 沈未名
(武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室 武漢 430079)
近幾年出現(xiàn)了許多比較流行的人臉檢測(cè)方法,都是基于數(shù)據(jù)學(xué)習(xí)的技術(shù),如文獻(xiàn)[1-2]中采用了統(tǒng)計(jì)建模的方法,文獻(xiàn)[3]實(shí)現(xiàn)了基于人工神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè),文獻(xiàn)[4]是基于統(tǒng)計(jì)學(xué)習(xí)和支持向量機(jī)的方法,而文獻(xiàn)[5]采用的是基于膚色的人臉檢測(cè)算法.本文通過建立仿射模型對(duì)運(yùn)動(dòng)物體進(jìn)行運(yùn)動(dòng)估計(jì),然后運(yùn)用該模型進(jìn)行區(qū)域分類、提取,再基于該區(qū)域的DFA(discriminating features analysis)與支持向量機(jī)相結(jié)合的方法檢測(cè)人臉.實(shí)驗(yàn)表明,本文提出的方法與基于單一神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法相比能夠取得較高的檢測(cè)率和較低的耗時(shí).
為了減少計(jì)算時(shí)間,建立仿射運(yùn)動(dòng)模型Gi,其代表區(qū)域Ri的運(yùn)動(dòng)過程,為六參數(shù)的模型Gi(x,y;Ri),其中每個(gè)相關(guān)的像素(x,y)∈Ri.而Gi(x,y;Ri)=(Ui(x,y),Vi(x,y)),(Ui(x,y),Vi(x,y))代表像素(x,y)的運(yùn)動(dòng)矢量
ai(1),ai(2),ai(3),ai(4),ai(5),ai(6)為 Gi的 6 個(gè)參數(shù),進(jìn)一步用矩陣表示為
式中:區(qū)域Ri中所有像素的參數(shù)運(yùn)動(dòng)都由Gi來描述;u(x,y),v(x,y)表示像素(x,y)在2幅連續(xù)圖像幀I(t-1)和I(t)之間的運(yùn)動(dòng)矢量[6],分別由式(3)、(4)得到
式中:Ex,Ey和Et分別為圖像密度E(x,y,t)在(x,y)處對(duì)x,y和t的偏導(dǎo)數(shù).
相同對(duì)象的區(qū)域中的運(yùn)動(dòng)模型的參數(shù)具有一定的相似性,因此可以利用這個(gè)性質(zhì)對(duì)區(qū)域進(jìn)行分類,從而提取出運(yùn)動(dòng)對(duì)象.本文使用k均值模糊聚類算法對(duì)求得的一系列仿射運(yùn)動(dòng)模型的參數(shù)進(jìn)行歸類,從而實(shí)現(xiàn)對(duì)區(qū)域的分類.
分類完成之后,引入運(yùn)動(dòng)誤差函數(shù)em(x,y)=|(u(x,y),v(x,y))-Gi(x,y;Ri)|,對(duì)于區(qū)域Ri中的像素(x,y),若誤差函數(shù)的值大于預(yù)先設(shè)定的門限值Thm,那么就將像素(x,y)從區(qū)域Ri中排除.
用M={Mi|i=1,2,…,m}表示分割后得到的一系列運(yùn)動(dòng)對(duì)象,m表示分割后的運(yùn)動(dòng)對(duì)象的個(gè)數(shù),對(duì)于每一個(gè)運(yùn)動(dòng)對(duì)象,Mi代表一個(gè)分割區(qū)域.
經(jīng)過以上的算法進(jìn)行分割后得到N個(gè)區(qū)域{R1,R2,…,RN},Ni為區(qū)域Ri的像素個(gè)數(shù).假設(shè)在分割中區(qū)域之間的空域聯(lián)系已知,I(x,y)=(I1(x,y),I2(x,y),I3(x,y))表示當(dāng)前幀的三個(gè)顏色分量(Y,Cr,Cb)的密度函數(shù).Ai=(,)表示3個(gè)顏色分量的均值向量,且
式(7)中的第一步求和是由所有的4連接的像素(xi,yi)∈Ri,(xj,yj)∈Rj和它們的維數(shù)Nij計(jì)算得到的.Aij表示2個(gè)區(qū)域平均密度的差值,Cij為度量2個(gè)區(qū)域間共同邊界的權(quán)值.鄰域Ri和Rj之間的空域距離Dij用式(8)表示
除此之外,本文還定義了一種時(shí)域距離度量方法來度量當(dāng)前幀和代表幀之間的差異.區(qū)域Ri和Rj之間的時(shí)域距離Bij由式(9)表示.
式中:dk(x,y)=|(x,y)-I(x,y)|表示k幀和k+1幀圖像之間亮度差值的絕對(duì)值.Bij為區(qū)域Ri和Rj共同邊界的亮度差值在連續(xù)兩幀之間的差,若Bij的值較高,說明這些區(qū)域中有一個(gè)區(qū)域發(fā)生位移;若Bij的值較低,則說明這些區(qū)域或者同屬于背景,或者同屬于一個(gè)單獨(dú)的運(yùn)動(dòng)對(duì)象,可以被融合.因此,增加Bij來進(jìn)行約束,可以避免將運(yùn)動(dòng)區(qū)域融合進(jìn)了背景中.
首先通過基于統(tǒng)計(jì)的方法,對(duì)人臉與非人臉建立模型;文獻(xiàn)[7]中提出的DFA特征分析方法,主要包括原始輸入圖像、1DHarr小波變換、水平和垂直投影變換三部分.用于訓(xùn)練的人臉樣本如圖1所示,非人臉樣本如圖2所示,這里只列出了其中一部分;對(duì)于訓(xùn)練得到的人臉模型的DFA分析如圖3所示,圖a)為訓(xùn)練所得的平均人臉,圖b)、c)為1DHarr小波變換圖,圖d)、e)分別為水平和垂直投影變換結(jié)果;如圖4為非人臉模型的DFA特征分析,圖a)為訓(xùn)練所得的平均非人臉類別,圖b)、c)為1DHarr小波變換圖,圖d)、e)分別為水平和垂直投影變換結(jié)果.
圖1 訓(xùn)練人臉部分樣本圖片
圖2 訓(xùn)練非人臉部分樣本圖片
圖3 人臉類別DFA特征
圖4 非人臉類別DFA特征
根據(jù) 貝 葉 斯 公 式,后 驗(yàn) 概 率P(ωf|Y)和P(ωn|Y)可以由先前計(jì)算的條件概率得到
式中:P(ωf),P(ωn)為人臉類ωf和非人臉類ωn先驗(yàn)概率,而P(Y)為實(shí)際圖像的混合密度函數(shù).
貝葉斯分類器被稱為最優(yōu)分類器[8],文獻(xiàn)[7]將圖像中各區(qū)域分為人臉類ωf與非人臉類ωn
即當(dāng)輸入的特征圖像假設(shè)為人臉的概率大于非人臉的概率,則判斷為人臉;否則就為非人臉特征.這是一個(gè)比較理想的判斷條件,然而實(shí)際上當(dāng)假設(shè)為人臉與非人臉的概率極為相近時(shí),容易造成誤分類,比如:輸入的原始圖像比較模糊,或者人臉區(qū)域有遮擋物,或者圖像中噪聲分量比較多的時(shí)候,對(duì)于該條件假設(shè)的計(jì)算容易受到很大的影響.因而需要對(duì)分類的條件進(jìn)行改進(jìn),正如文獻(xiàn)[7-8]中引入了一個(gè)控制參數(shù)θ,用于限制誤判為人臉類別的可能性,即對(duì)于是否為人臉類的判斷新增加了一個(gè)閾值,從而降低了錯(cuò)誤分類為人臉的概率,因此上式分類條件可以改進(jìn)為
但是,從理論和實(shí)驗(yàn)分析,如果θ取值不合適,很容易造成人臉的誤分類,即原本屬于人臉特征的局部圖像,由于其概率較小,即δf較大時(shí),被誤分類為非人臉特征,從而降低了人臉檢測(cè)的全面性;當(dāng)然,當(dāng)θ取值合適時(shí),可以得到比較理想的檢測(cè)結(jié)果.
本文針對(duì)這個(gè)問題,采取了以下改進(jìn)的方案:首先將輸入的原始圖像假設(shè)為三類,即人臉類別、非人臉類別、不確定類別.用數(shù)學(xué)表述如下
當(dāng)然,上式中被歸類為人臉或非人臉的特征可以準(zhǔn)確判斷是正確的分類,然后對(duì)于不確定分類ωu,進(jìn)一步運(yùn)用支持向量機(jī)分類器進(jìn)行精確分類,即一個(gè)精煉的過程.
假設(shè)(x1,y1),(x2,y2),…,(xM,yM),xi∈RN為輸入訓(xùn)練圖像的數(shù)據(jù)特征,yi∈{+1,-1}表示xi的類別.用Φ表示將輸入特征進(jìn)行非線性變換到特征空間,即:Φ:RN→F(x→Φ(x)).因此特征空間的最優(yōu)決策平面定義如下.
在文獻(xiàn)[9]中,矢量xi滿足yi(w0·Φ(x)+b0)=1,則權(quán)值矢量w0可以由支持向量線性組成,即
當(dāng)滿足上式取最大值時(shí),αi為最優(yōu)取值,且SVM的求解可由核函數(shù)k(x,y)=Φ(x)·Φ(y)得到.
本文基于支持向量機(jī)(SVM)的優(yōu)越性,即:(1)將輸入圖像特征進(jìn)行非線性映射到高維空間;(2)SVM具有最優(yōu)的決策面,可以很好的區(qū)分邊界特征,因此將其應(yīng)用到人臉檢測(cè)中,對(duì)人臉與非人臉特征進(jìn)行很好的分類.令
運(yùn)用支持向量機(jī)分類器對(duì)不確定特征ωu進(jìn)行再一次計(jì)算,以確定其為人臉或非人臉的可能性.實(shí)驗(yàn)證明,該方法可以進(jìn)行有效的分類.
本文是基于貝葉斯理論的方法,采用了DFA特征模型提取人臉特征,并通過貝葉斯與支持向量機(jī)的分類方法區(qū)分人臉與非人臉特征.算法實(shí)現(xiàn)中,選用分辨率為20×20的人臉訓(xùn)練模板進(jìn)行檢測(cè)搜索,輸入的檢測(cè)圖像均是分辨率大于20×20的圖像,彩色或灰白圖像均可.其檢測(cè)算法如下.(1)根據(jù)運(yùn)動(dòng)仿射模型,獲取視頻中的運(yùn)動(dòng)區(qū)域;(2)對(duì)樣本進(jìn)行訓(xùn)練,得到人臉與非人臉類別的特征矢量;(3)將所獲得的運(yùn)動(dòng)區(qū)域進(jìn)行預(yù)處理:去噪濾波、亮度調(diào)整,灰度歸一化處理;(4)將人臉圖像與預(yù)處理圖像進(jìn)行卷積,通過局部最大化算法計(jì)算區(qū)域最大值,從而得到感興趣區(qū)域,即很可能為人臉圖像的區(qū)域,計(jì)算得到的最大值的位置即很可能為人臉圖像的中心區(qū)域;(5)局部特征搜索.即對(duì)每一個(gè)感興趣區(qū)域的中心遍歷搜索,提取出以該最大值為中心的分辨率為20×20的圖像區(qū)域——子圖像;對(duì)該子圖像進(jìn)行DFA特征分析,計(jì)算其后驗(yàn)概率,將該后驗(yàn)概率P(ωf|Y)與判斷是否為人臉的閾值τf進(jìn)行對(duì)比,從而得出是否為人臉.如果不是人臉類別,則再計(jì)算P(ωn|Y)的概率,并與非人臉的閾值τn對(duì)比,從而確定是否為非人臉;如果既不是人臉類別,又不是非人臉類別,則歸為不確定分類中,然后采用支持向量機(jī)分類器進(jìn)行計(jì)算,進(jìn)而將不確定分類進(jìn)行概率計(jì)算,通過支持向量機(jī)分類器可以得到比較精確的人臉與非人臉類別的區(qū)分.
本文實(shí)驗(yàn)是在CPU為P4 3.0G,內(nèi)存為1G,Windows xp操作系統(tǒng)環(huán)境下,使用 Matlab7.0進(jìn)行算法測(cè)試.實(shí)驗(yàn)選取多組視頻序列,如“Foreman”,“Akiyo”,“PaRis”,“Mother &Daughter”等序列.這里選取了部分實(shí)驗(yàn)結(jié)果,并分析如下.
圖5a)表示“PaRis”序列中的第9幀原始彩色圖像;圖5b)表示了“PaRis”序列中從第9幀到第10幀的運(yùn)動(dòng)目標(biāo)的光流軌跡,可以看到一共分為4類運(yùn)動(dòng)方向:圖中男士動(dòng)作、女士的頭部動(dòng)作、女士的左手和右手動(dòng)作;圖5c)表示運(yùn)用仿射模型得到的運(yùn)動(dòng)對(duì)象的大致輪廓;圖5d)為仿射運(yùn)動(dòng)模型的對(duì)象區(qū)域的提取.根據(jù)圖5d)所得的對(duì)象區(qū)域計(jì)算出覆蓋該區(qū)域的最小長(zhǎng)方形框架,有利于搜索的全面性;圖5f)為運(yùn)用本文的人臉檢測(cè)算法得到的“PaRis”序列中的第9幀檢測(cè)結(jié)果;圖5g),h),i)分別為“PaRis”序列中的第100,104,110幀的人臉圖像檢測(cè)結(jié)果.其中圖5f)中由于男士的面部角度過大,非正面角度,而女士面部角度較小,因而只檢測(cè)到一個(gè)人臉;圖5g),h),i)中都檢測(cè)到了兩個(gè)人臉圖像,檢測(cè)效果較好.圖6中分別為“Akiyo”序列中的第2,50,86,278幀的人臉圖像檢測(cè)結(jié)果.
圖5 PaRis序列分割結(jié)果
圖6 “Akiyo”序列分割結(jié)果
為了驗(yàn)證本文算法的有效性,將基于神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)方法與本文提出的DFA與支持向量機(jī)結(jié)合的方法對(duì)比,并引入查全率和查準(zhǔn)率概念[11]:查全率=正確檢測(cè)到的人臉數(shù)目/總的人臉數(shù)目;查準(zhǔn)率=正確檢測(cè)到的人臉數(shù)目/總的檢測(cè)數(shù)目.
圖7為本文提出的人臉檢測(cè)算法與基于神經(jīng)網(wǎng)絡(luò)算法的檢測(cè)方法在“PaRis”序列中的結(jié)果對(duì)比,實(shí)驗(yàn)表明,本文提出的算法具有更高的查全率與查準(zhǔn)率.圖8為上述兩種算法的耗時(shí)對(duì)比,可以得到本文算法比神經(jīng)網(wǎng)絡(luò)算法耗時(shí)更少,每秒可以檢測(cè)15幀以上,而神經(jīng)網(wǎng)絡(luò)算法只能檢測(cè)10幀左右.經(jīng)過大量的實(shí)驗(yàn)說明,本文的算法可以有效從視頻序列中檢測(cè)出人臉圖像.
圖7 本文算法和單一神經(jīng)網(wǎng)絡(luò)算法在查全率和查準(zhǔn)率方面的對(duì)比圖
圖8 本文算法和單一神經(jīng)網(wǎng)絡(luò)算法在“PaRis”序列中的耗時(shí)比較
本文通過仿射模型提取出視頻中運(yùn)動(dòng)對(duì)象區(qū)域,對(duì)該運(yùn)動(dòng)區(qū)域進(jìn)行搜索;通過訓(xùn)練圖像提取人臉與非人臉圖像的統(tǒng)計(jì)特征,建立人臉與非人臉類別的后驗(yàn)概率,根據(jù)貝葉斯分類器將圖像特征分為人臉類、非人臉類和不確定類,對(duì)不確定類用支持向量機(jī)分類器進(jìn)一步分析,得到最后的檢測(cè)結(jié)果.實(shí)驗(yàn)表明,本文的方法可以實(shí)現(xiàn)有效的檢測(cè)人臉圖像,證明了本文算法的可行性.
[1] Moghaddam B,Pentland A.Probabilistic visual learning for object representation[J].IEEE Trans.PAMI,1997,19(7):696-710.
[2]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[J].Kauai,Hawaii:In Proc.IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001:511-518.
[3]Rowley H A,Baluja S,Kanade T.Nerual network based face detection[J].IEEE Trans.PAMI,1998,20(1):23-28.
[4]Mohan A,PapageorGiou C,PogGio T.Examplefbased object detection in images by components[J].IEEE Trans.PAMI,2001,23(4):349-361.
[5]Hsu R L,Mottaleb M A,Jain A K.Face detection in color images[C]//Thessaloniki,Greece:In International Conference on Image Processing,2001:1 046-1 049.
[6]John Y,Wang A,Adelson E H.Representing moving images with layers[J].IEEE Transactions on Image Processing Special Issue:Image Sequence Compression,1994,3(5):625-638.
[7] Cheng Junliu.A bayesian discriminating features method for face detection[J].IEEE Trans.PAMI,2003,25(6):725-740.
[8]Hjelmas E,Low B K.Face detection:a survey[J].Computer Vision and Image Understanding,2001,83:236-274.
[9]Liu Y H,Chen Y T.Face recognition using total MarGin based adaptive Fuzzy Support Vector Machines[J].IEEE Trans.On Neural Networks,2007,18:178-192.