梁露花,鄢展鵬
(1.沈陽藥科大學(xué)數(shù)學(xué)教研室,遼寧沈陽110016;2.蘇州科達(dá)科技有限公司上海研發(fā)中心,上海200233)
基于人臉檢測和特征的跟蹤方法
梁露花1,鄢展鵬2
(1.沈陽藥科大學(xué)數(shù)學(xué)教研室,遼寧沈陽110016;2.蘇州科達(dá)科技有限公司上海研發(fā)中心,上海200233)
在智能視頻監(jiān)控中,常常會發(fā)生對同一人臉重復(fù)定位的問題.通過分析人臉的非剛體特征和人臉監(jiān)控視頻的特點(diǎn),提出了一種基于幀間人臉位置匹配的思想和基于顏色直方圖的Meanshift算法二者相結(jié)合的方法.實(shí)驗(yàn)結(jié)果表明,提出的方法具有一定的實(shí)時性,并能夠降低對同一人臉的重復(fù)識別率.
人臉檢測;跟蹤;位置匹配
在人臉視頻監(jiān)控分析中,由于人員極易產(chǎn)生轉(zhuǎn)頭、低頭、扭頭的現(xiàn)象,加之可能由于惡劣天氣、相機(jī)振動、相機(jī)鏡頭沾有灰塵等導(dǎo)致的像質(zhì)模糊、人臉被遮擋等不利因素,常常會發(fā)生對同一人臉重復(fù)定位的問題.在實(shí)際的系統(tǒng)中,即常說的重復(fù)報警問題,簡稱重報問題.要解決該問題,常見的思路分為四類.一類是以人臉定位算法為主,這類方法多以檢測得到的人臉作為參考,實(shí)施幀間位置匹配[1];另一類則是將人臉檢測與跟蹤結(jié)合起來,其主要思想是,根據(jù)實(shí)時性要求確定一個對視頻降采樣的頻率,當(dāng)一個降采樣周期到來時,就實(shí)施一次人臉檢測,一個周期內(nèi)的其他時間就對周期開始時通過檢測得到的人臉進(jìn)行跟蹤[2];第三類一般將人臉的出現(xiàn)看做一個Markov過程,其把不同人臉看作樣本,并建立隨機(jī)的馬爾科夫場,通過對場模型進(jìn)行動態(tài)的參數(shù)估計,確定樣本屬于的人臉標(biāo)簽[3];第四類方法多基于人臉中的特征點(diǎn)處的特征,然后用相應(yīng)的模版匹配的思想進(jìn)行跟蹤[4].本文進(jìn)一步再分析視頻監(jiān)控領(lǐng)域中的人臉成像特點(diǎn).考慮如果視頻中的人員并排行走,由于行人之間一般會保持一定的距離(即使他們沒有親密無間,人臉也定會位于人員的兩肩之間,人臉寬度必然還小于兩肩寬度);如果人員前后行走,由于監(jiān)控相機(jī)架設(shè)角度一般與地面呈俯視狀態(tài),所以盡管后面的人員可能發(fā)生了遮擋,但上面的人臉多半還是會露出來.因此由遮擋引起的情況一般來自于外物(比如道路兩旁的花卉樹枝).基于這種思考,認(rèn)為遮擋不是人臉視頻監(jiān)控中的主要因素,所以急需一個比較優(yōu)越的方法來解決本文提出的問題.文章的結(jié)構(gòu)安排如下,第一節(jié)通過對常用的四種解決此類似問題方法的分析,給出了本文方法提出的背景.第二節(jié)指出一些與跟蹤相關(guān)的工作,主要是基于視頻的人臉檢測的方法;第三節(jié)說明位置匹配思想和Meanshift算法[5]結(jié)合的原理,并給出了待刪鏈表的定義和作用;第四節(jié)是該文方法的實(shí)驗(yàn)例子說明.
事實(shí)上,第一類方法得到的位置信息準(zhǔn)確可靠,并且單純采用第一類方法就能解決對發(fā)生較短時間較小角度的低頭、扭頭、轉(zhuǎn)頭的情形引起的重復(fù)識別問題,但如果出現(xiàn)較長時間大角度的扭頭、低頭、轉(zhuǎn)頭,第一類方法就顯得力不從心了.第二類方法由于是以一個降采樣頻率對人臉實(shí)施定位,所以該方法最突出特點(diǎn)是系統(tǒng)能較好的滿足實(shí)時性要求,但是由于特征一般缺乏模版更新手段,在具有較多的與人臉特征相似的情況下,特征漂移現(xiàn)象會導(dǎo)致跟蹤失敗.第三類方法能夠?qū)崿F(xiàn)多人臉跟蹤,并且對于人臉遮擋的情形具有較高的魯棒性.但是,算法頗為耗時,且其在初始化和釋放該樣本的跟蹤句柄時缺乏快速的適應(yīng)機(jī)制,在一個幀率較高的視頻中,如果人員移動速度過快,那么也將導(dǎo)致算法跟蹤失?。?].值得一提的是,第三類方法卻能夠較好的解決由遮擋引起的重復(fù)定位,這也是第三類方法的突出特點(diǎn).雖然前兩類方法能通過引入一定的濾波手段對遮擋的情況進(jìn)行預(yù)估校正,但仍然存在缺陷.例如Kalman濾波策略[5],其預(yù)測和校正過程能較好的滿足實(shí)時性要求,但由于現(xiàn)實(shí)人臉特征因?yàn)槿藛T的隨機(jī)運(yùn)動中產(chǎn)生了極為豐富的非線性特點(diǎn),而系統(tǒng)狀態(tài)和噪聲必須滿足高斯分布的線性Kalman模型,往往無法描述人臉的真實(shí)情況;再如粒子濾波策略[6],又稱Condension算法,其能在遮擋問題中保持一定的跟蹤魯棒性.但根據(jù)大數(shù)定律知道,Monte-Carlo采樣需要大量的試驗(yàn),而每個試驗(yàn)點(diǎn)就是粒子,知道這些粒子的信息就能保證特征模型依概率收斂,但對眾多粒子的特征匹配和更新將導(dǎo)致算法復(fù)雜度的急劇升高,最終影響實(shí)時性.所以由遮擋引起的重復(fù)定位是第一、二類算法的軟肋,而實(shí)時性問題則是第三類算法的軟肋.第四類方法對剛體這樣輪廓鮮明,角點(diǎn)豐富的的物體較為奏效,由于僅跟蹤特征點(diǎn),因此滿足實(shí)時性要求,但對非剛體,運(yùn)動隨機(jī)的人臉,卻極易出現(xiàn)特征點(diǎn)的丟失和漂移問題,因此其不適用于非剛體跟蹤.故急需一個比較優(yōu)越的方法來解決本文提出的問題.
因此,本文的思路多半來自于第一類和第二類方法.如前所述,第一類和第二類方法各有優(yōu)點(diǎn).本文解決此類問題使用方法是,優(yōu)先使用第一類的幀間位置匹配跟蹤人臉,如果第一類方法失效,那么則采用第二類特征跟蹤法對人臉進(jìn)行跟蹤.在幀間位置匹配上,沒有使用IF―>THEN式的武斷匹配,而是采用了一個叫做待刪鏈表的數(shù)據(jù)結(jié)構(gòu),并在特征跟蹤上,也充分利用了這個待刪鏈表.
2.1 單幀下的人臉檢測
對于單幀的人臉檢測主要還是基于Viola P等提出的Haar+Adaboost+Cascade框架[7],可以自行訓(xùn)練分類器,并利用分類器實(shí)施人臉檢測.在算法的評估階段,可以參考Intel公司開源機(jī)器視覺庫OpenCV的通用正臉分類器實(shí)施單幀的人臉檢測.具體操作是:調(diào)用cv Load函數(shù)把分類器結(jié)構(gòu)體加載進(jìn)來,利用cv Haar Object Detect函數(shù)實(shí)施人臉檢測,這里縮放圖像或縮放分類器步長取1.2,最小矩形合框鄰居判決數(shù)取3,最小人臉檢測尺寸為20* 20,最大人臉檢測尺寸可根據(jù)視頻的分辨率自動調(diào)整,并要求連帶輸出被是16層以上、20層以下的Cascade分類器拒絕的人臉矩形區(qū)域.
值得說明的是,由于要求連帶輸出被是16層以上、20層以下Cascade分類器拒絕的矩形區(qū)域,這在提高少量定位率的同時,也帶來了大量虛警.因此,需要對這些矩形區(qū)域進(jìn)行審核,具體操作是將分類器得到的矩形區(qū)域還原到原始RGB視頻序列中,并使用膚色模型對這些人臉進(jìn)行審核.通過實(shí)驗(yàn)前期的預(yù)研究,發(fā)現(xiàn)人臉的膚色區(qū)域最容易出現(xiàn)在鼻子部分,而鼻子又通常位于整個人臉的中心區(qū)域,基于這樣的事實(shí),將由分類器得到的RGB子圖像分成十六宮格,又從中摳出中心4個宮格的RGB子圖,接著把RGB空間轉(zhuǎn)化到Y(jié)CbCr Cg空間[8],通過閾值聚類技術(shù)對膚色進(jìn)行判定,并記錄具有膚色像素的RGB子圖的面積比例,通過這一信息實(shí)現(xiàn)了對虛警的抑制.事實(shí)上,本文并沒有照搬文獻(xiàn)[8]的閾值,而是通過實(shí)驗(yàn),對Cb、Cr、Cg三個閾值進(jìn)行了一定的放寬,這主要是考慮到膚色模型僅是在系統(tǒng)中充當(dāng)后處理的角色.事實(shí)上,利用膚色特征的初衷是在保證定位率的基礎(chǔ)上降低虛警率.
2.2 單幀下人臉檢測的預(yù)處理
進(jìn)一步可以對視頻中的每幀圖像實(shí)施2.1的單幀檢測機(jī)制,但是,巨大的計算量將使我們的想法變得不且實(shí)際.考慮到視頻中的背景是沒有必要對其實(shí)施人臉檢測的.因此可以采用前景檢測的方法,得到一個掩膜圖像,然后對掩膜圖像進(jìn)行輪廓閉合,形成一個個的小矩形區(qū)域.然后在這些小矩形區(qū)域的基礎(chǔ)上實(shí)施人臉檢測即可.但是,如果這種預(yù)處理模塊耗時,那么留給檢測的時間就不多,但如果預(yù)處理效果較差,預(yù)處理加快后續(xù)檢測速度的初衷就要打折.因而通過實(shí)驗(yàn),采用VIBe算法對視頻實(shí)施運(yùn)動檢測[9],并通過區(qū)域生長算法得到包含運(yùn)動信息的輪廓集合,把輪廓以其外接矩形集合的形式作為分類器的輸入級.
3.1 基于位置的匹配
位置匹配的思想是,如果兩個矩形區(qū)域相交的面積較多,并且兩個矩形區(qū)域的寬高相差不大,那么說明兩矩形匹配.為此,設(shè)計三個循環(huán)鏈表,空閑鏈表、已用鏈表、待刪鏈表.鏈表中的節(jié)點(diǎn)主要存儲檢測矩形框信息和位置是否匹配信息,以及它在已用鏈表和待刪鏈表中存活的時間.為了避免由于反復(fù)申請和刪除鏈表中節(jié)點(diǎn)產(chǎn)生的內(nèi)存碎片,可以將這些鏈表共享一整塊內(nèi)存區(qū)域,即利用數(shù)組和指針來模擬這一過程.第一幀初始化時,空閑鏈表被賦予首地址.其他鏈表指向空地址.以后各幀采用如下算法進(jìn)行人臉跟蹤.
第一步:當(dāng)分類器檢測并驗(yàn)證完得到最終矩形框序列后,先將這些矩形序列與已用鏈表的每個節(jié)點(diǎn)的矩形區(qū)域進(jìn)行位置匹配,如果位置匹配成功,則更新相應(yīng)節(jié)點(diǎn)的位置信息,并且更新節(jié)點(diǎn)在已用鏈表中存活的時間.否則,將這些序列與待刪鏈表的每個節(jié)點(diǎn)進(jìn)行位置匹配,如果位置匹配成功,則將待刪鏈表的節(jié)點(diǎn)調(diào)整到已用鏈表中,更新節(jié)點(diǎn)在已用鏈表中存活的時間,并將節(jié)點(diǎn)存活在待刪鏈表中的時間重新賦0.
第二步:查看已用鏈表中的節(jié)點(diǎn)是否完成過更新,如果沒有更新,那么將這些節(jié)點(diǎn)放置待刪鏈表中,并初始化該節(jié)點(diǎn)在待刪鏈表中存活的時間.
第三步:查看待刪鏈表中的節(jié)點(diǎn)是否完成過更新,如果沒有更新,那么更新該節(jié)點(diǎn)在待刪隊列中存活的時間,如果該時間達(dá)到一定閾值(比如30幀),則將待刪鏈表中的節(jié)點(diǎn)調(diào)整到空閑鏈表中.
第四步:如果分類器檢測并驗(yàn)證后得到的某個矩形框與已用鏈表和待刪鏈表的節(jié)點(diǎn)內(nèi)的矩形區(qū)域都沒有匹配,那么,將從空閑鏈表尾(如果空閑鏈表沒有空間了,那么就從待刪鏈表頭申請空間)申請一個節(jié)點(diǎn)到已鏈表,并將這個矩形框信息賦值到已用鏈表的該節(jié)點(diǎn)中,并初始化其存在于已用鏈表的時間.
3.2 融合基于顏色直方圖的跟蹤
基于顏色的Meanshift跟蹤方法被大量文獻(xiàn)證明了是一種對單目標(biāo)實(shí)時的算法,其算法的思想是使得原始點(diǎn)和候選跟蹤點(diǎn)的特征在巴氏相似度上達(dá)到最大.因此,只需對這個以候選點(diǎn)為自變量的巴氏相似度函數(shù)在初始點(diǎn)處一階Taylor展開,并根據(jù)一階條件,得到跟蹤迭代過程的候選點(diǎn),最后利用Meanshift算法進(jìn)行迭代[5].基于上一節(jié)的討論,可以對鏈表中的每個節(jié)點(diǎn)再添加一個成員,即跟蹤器的句柄.但是,如果對于視頻中的多個人臉,如5個以上的人臉都實(shí)施Meanshift算法跟蹤,其跟蹤模塊的耗時將開始嚴(yán)重影響實(shí)時性.
為了滿足實(shí)時性要求,本文的思路是,在已用鏈表節(jié)點(diǎn)調(diào)整到待刪鏈表時才初始化跟蹤句柄,而且僅對在待刪鏈表的節(jié)點(diǎn)處實(shí)施Meanshift人臉跟蹤.同時考慮當(dāng)待刪鏈表的節(jié)點(diǎn)調(diào)整到空閑鏈表的節(jié)點(diǎn)時,釋放跟蹤器句柄.
3.3 其他拓展
增加如下改進(jìn)手段,重報率將進(jìn)一步降低,但也勢必帶來更大的計算量.
在定位模塊中,認(rèn)為如果分類器和膚色校驗(yàn)得到的最終矩形框在已用鏈表存活的時間達(dá)到一個閾值(比如3幀),則產(chǎn)生人臉告警.
在待刪鏈表的節(jié)點(diǎn)也采取與定位模塊類似的方法實(shí)施初始化.這樣,既可以減少虛警,又可以減少可能不必要的跟蹤模塊.
并不是每個人臉跟蹤器句柄的釋放一定要到矩形框存活在待刪鏈表節(jié)點(diǎn)的時間達(dá)到預(yù)先設(shè)定的閾值才進(jìn)行.事實(shí)上,如果該矩形框已經(jīng)位于視頻圖像的下沿,那么也可以釋放待刪鏈表的相應(yīng)節(jié)點(diǎn).
在位置匹配過程中,在遍歷中采用IF―>THEN式的匹配可能導(dǎo)致人臉跟錯的情況,如1號人臉被跟蹤到2號人臉上,可通過貪心策略來降低這種情況的發(fā)生.具體的做法是,在遍歷的同時,對幀間位置匹配信息排序.如果幀間人臉位置最為匹配(兩矩形框之間位置偏移最少,尺寸最為接近),則被認(rèn)為是同一個人臉.
實(shí)驗(yàn)中的視頻序列主要來源于與機(jī)動車平行的人行道卡口得到的錄像,人員行走的中間有路邊綠化種植的樟樹遮擋,人流較為密集,視頻分辨率為720P和1080P,實(shí)現(xiàn)環(huán)境為VC2005,在沒有經(jīng)過任何優(yōu)化的情況下,在2.2GHz雙核的CPU上,整個人臉檢測與跟蹤系統(tǒng)實(shí)時性能達(dá)到10fps.我們考慮的人臉是在光照良好的情況下拍攝的,而且主要以正臉為主,容許的上下俯仰角度為15°之間,左右側(cè)臉和左右偏搖角度為45°之間,最小人臉尺寸為20 *20,最大人臉尺寸為150*150.以下是實(shí)驗(yàn)數(shù)據(jù),見表1.這里定位率和虛警率無需解釋,重復(fù)識別率反應(yīng)了同一張人臉被重報定位的次數(shù),其比例越低,跟蹤算法越優(yōu)越.實(shí)驗(yàn)結(jié)論是,通過表1可知,本文改進(jìn)的方法與改進(jìn)前的方法比較,發(fā)現(xiàn)定位率、虛警率不管是雨天還是晴天都有所提高,從而使得重復(fù)辨識率也相應(yīng)的降低,即說明基于檢測和特征的跟蹤能具有一定的實(shí)時性,且能在一定程度上克服重復(fù)識別的問題.
表1 實(shí)驗(yàn)結(jié)果數(shù)據(jù)
[1]Kasturi R,Goldgof D,Soundararajan P,et al.Framework for performance evaluation of face,text,and vehicle detection and tracking in video:data metrics and protocol[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31 (2):319-336.
[2]陳煜.人臉檢測跟蹤算法的研究與基于Da Vinci的人臉檢測系統(tǒng)實(shí)現(xiàn)[D].上海:上海交通大學(xué),2009.
[3]時磊,謝曉方,喬勇軍.基于SURF算法的人臉跟蹤技術(shù)研究[J].計算機(jī)仿真,2010,27(12):227-230.
[4]Dockstader S L,Imennov N S,Tekalp A M.Markov-based failure prediction for human motion analysis[J].Computer Vision, 2003,Proceedings.Ninth IEEE International Canference,2003, 2:1283-1288.
[5]Omaniciu D C,Ramesh V,Meer P.Kernel-based object tracking[J].IEEE Transactions on Pattern and Analysis and Machine Intelligence,2003,25(5):564-577.
[6]張波.基于粒子的濾波圖像跟蹤算法研究[D].上海:上海交通大學(xué),2007.
[7]Voila P,Jones M.Rapid object detection using a boosted cascade of simple features[J].Computer Vision and Pattern Recognition,2001.CVPR 2001.Proceedings of the 2001 IEEE Computer Society Conference.I,2001,1:511-518.
[8]李偉生,楊瑞娟,周麗芳,等.基于多膚色空間及AdaBoost算法的人臉檢測方法[J].計算機(jī)應(yīng)用研究,2012,29(6):2368-2370.
[9]Barnich O,Van Droogenbroeck M.ViBe:A universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2011,20(6):1709-1724.
(編輯:姚佳良)
A tracking method-based on face detection and feature
LIANG Lu-hua1,YAN Zhan-peng2
(1 Mathematics Teaching and Researching Office,Shenyang Pharmaceutical University,Shenyang 110016,China;2.Shanghai Reaserch Center of Kedacom,Shanghai 200233,China)
A face could be detected and labeled more than once when analysising the video. Through analyzing norigid features as well as the face-video′s characters,the paper proposed a method combined with the position matching and the Meanshift tracking.The experimental result shows that the propeosed method can reduce the ratio that a face is labeled more than once,and meanwhile,enjoys a real-time requirement.
face detection;tracking;position matching
1672―6197(2013)01―0046―04
TP277
A
2012- 11- 14
梁露花,女,liangluhua1988@163.com