趙新超 袁家政
1(北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室 北京 100101) 2(北京聯(lián)合大學(xué)計(jì)算機(jī)技術(shù)研究所 北京100101)
?
面向智能人機(jī)交互的魯棒的實(shí)時(shí)多人臉檢測(cè)
趙新超1袁家政2
1(北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室 北京 100101)2(北京聯(lián)合大學(xué)計(jì)算機(jī)技術(shù)研究所 北京100101)
人臉檢測(cè)在人機(jī)交互HRI(Human-Robot Interaction)過(guò)程中起著重要作用,它能夠讓智能教育機(jī)器人IER(Intelligent Educational Robot)識(shí)別用戶或說(shuō)話人。提出一種智能視覺(jué)算法,可以實(shí)時(shí)地從復(fù)雜的場(chǎng)景中檢測(cè)出所出現(xiàn)的多個(gè)人臉,并過(guò)濾掉那些看起來(lái)像人臉但并不是人臉的圖像。實(shí)時(shí)的人臉檢測(cè)使用基于Adaboost的角點(diǎn)級(jí)聯(lián)分類器[1,2,23,29],并對(duì)該檢測(cè)算法進(jìn)行了改進(jìn),以實(shí)現(xiàn)從單一人臉檢測(cè)到多人臉檢測(cè)。此外,改進(jìn)的算法也考慮了各種可能的頭部姿態(tài),如俯仰、偏轉(zhuǎn)、傾斜等。實(shí)驗(yàn)結(jié)果充分證明了所提出的機(jī)器人視覺(jué)算法進(jìn)行人臉檢測(cè)的魯棒性和高效性。
人機(jī)交互 人臉檢測(cè) 智能機(jī)器人 多姿態(tài)
人臉檢測(cè)和人臉識(shí)別是智能機(jī)器人在進(jìn)行人機(jī)交流和合作過(guò)程中必須具備的基本功能之一[3-4]。在本文中,主要關(guān)注于各種人機(jī)交互技術(shù)中的一個(gè)重要問(wèn)題:人臉檢測(cè)。我們提出一個(gè)智能的視覺(jué)算法幫助機(jī)器人魯棒地從各種復(fù)雜的場(chǎng)景中檢測(cè)出人臉。近年來(lái),人臉相關(guān)的視覺(jué)算法在眾多實(shí)際應(yīng)用領(lǐng)域中吸引了人們的廣泛關(guān)注[5-7],這是因?yàn)樗鳛槿藱C(jī)交互的重要的一部分,直接關(guān)系到機(jī)器人能否在實(shí)際應(yīng)用環(huán)境中和用戶進(jìn)行正常的交流和合作[28,30]。不精確的人臉檢測(cè)將導(dǎo)致不良的人機(jī)交互和用戶體驗(yàn)效果。因此,一個(gè)高準(zhǔn)確率的魯棒的實(shí)時(shí)多人臉檢測(cè)算法對(duì)于智能教育機(jī)器人來(lái)說(shuō)是至關(guān)重要的[26,31]。
從近幾年的文獻(xiàn)中看出,許多國(guó)內(nèi)外研究人員致力于智能交互機(jī)器人的研究。Bernhard Froba等使用卡爾曼濾波[13-14]解決智能移動(dòng)機(jī)器人系統(tǒng)中的人臉跟蹤問(wèn)題[8]。Kwang Ho An等通過(guò)Adaboost學(xué)習(xí)算法選擇和訓(xùn)練用盡可能少的具有決定性的特征,以達(dá)到準(zhǔn)確檢測(cè)人臉初始位置、大小、視角的目的[9]。Paul Viola等用Adaboost訓(xùn)練算法實(shí)現(xiàn)基于完整圖像的實(shí)時(shí)人臉檢測(cè)[10]。X Xie等提出一種基于人眼特征跟蹤的實(shí)時(shí)跟蹤算法[11]。相比之前的方法,為了實(shí)現(xiàn)從圖像或視頻序列幀中快速檢測(cè)出其中包含的多個(gè)人臉[24,27],我們修改和完善Adaboost人臉檢測(cè)算法[15,21],提出一種新方案,它對(duì)場(chǎng)景和頭部姿態(tài)多變的問(wèn)題具有較高的魯棒性。該方法不僅提高了人臉檢測(cè)的準(zhǔn)確率,同時(shí)也保證了實(shí)時(shí)檢測(cè)的速度。
2.1 傳統(tǒng)方法
盡管在過(guò)去,國(guó)內(nèi)外研究人員曾提出一些人臉檢測(cè)算法用于實(shí)時(shí)應(yīng)用環(huán)境[16],如機(jī)器人系統(tǒng)。但仍有一些不足之處常常限制著這些應(yīng)用的使用和推廣[20]。
(1) 場(chǎng)景問(wèn)題
當(dāng)一個(gè)新的人物對(duì)象進(jìn)入場(chǎng)景的可視區(qū)域,那么他理應(yīng)被檢測(cè)到,此時(shí)檢測(cè)器該如何響應(yīng)。另外,當(dāng)周圍場(chǎng)景與待檢測(cè)目標(biāo)人物比較接近的時(shí)候,具有較強(qiáng)的混淆性,此時(shí)檢測(cè)器又會(huì)做何響應(yīng)。
(2) 頭部姿態(tài)問(wèn)題[18,25]
一般情況下,有兩種可能導(dǎo)致檢測(cè)器失效。第一是目標(biāo)人物離開(kāi)場(chǎng)景的可視區(qū)域,這個(gè)屬于正常情況。而第二是目標(biāo)人物的頭部姿態(tài)超出了常規(guī)的變化范圍,但目標(biāo)人物仍在場(chǎng)景可視區(qū)域范圍內(nèi),這屬于異常情況。根據(jù)我們的調(diào)查和分析,頭部姿態(tài)主要分為三類:俯仰(繞X軸方向)、偏轉(zhuǎn)(繞Y軸方向)、和傾斜(繞Z軸方向)。
因此,我們改進(jìn)并提出新的人臉檢測(cè)算法來(lái)解決傳統(tǒng)算法的不足之處。整個(gè)系統(tǒng)的流程框架如圖1所示。
圖1 人臉檢測(cè)系統(tǒng)流程圖
2.2 改進(jìn)的方法
所提算法原理如圖2所示。傳統(tǒng)的AdaBoost算法基于圖像序列進(jìn)行人臉檢測(cè)[12],將圖像序列加載到系統(tǒng)將花費(fèi)大量的時(shí)間,我們將它稱之為全局AdaBoost人臉檢測(cè)GAFD(Global AdaBoost Face Detection)算法,該算法執(zhí)行效率很低,尤其是當(dāng)它運(yùn)行在實(shí)時(shí)智能機(jī)器人系統(tǒng)中時(shí)。
圖2 算法的流程圖
為了滿足快速多人臉檢測(cè)的需求,我們改進(jìn)傳統(tǒng)的AdaBoost算法,利用跟蹤到的人臉的狀態(tài)來(lái)減少算法的執(zhí)行時(shí)間,我們將它稱之為局部Adaboost人臉檢測(cè)LAFD(Local AdaBoost Face Detection algorithm)算法。LAFD首先假設(shè)在圖像中只有一個(gè)人臉,跟蹤并展示人臉的當(dāng)前狀態(tài)[8]。然后,跟蹤器通過(guò)卡爾曼濾波檢測(cè)[13-14]、預(yù)測(cè)序列化圖像之間的人臉的最新?tīng)顟B(tài)。根據(jù)對(duì)跟蹤器的預(yù)測(cè)結(jié)果的分析,可以獲得被稱為感興趣區(qū)域ROI(Region Of Interest)的局部圖像。這樣LAFD算法在實(shí)時(shí)環(huán)境中將有很大的執(zhí)行效率提升。其中的跟蹤控制器控制GAFD和LAFD的運(yùn)行時(shí)間,并維護(hù)所跟蹤的人臉的狀態(tài)。
本文中提出了一些針對(duì)傳統(tǒng)Adaboost算法缺陷的改進(jìn)。改進(jìn)的算法提供了人臉的相關(guān)性,用于感興趣區(qū)域的選擇,而對(duì)于從選擇的感興趣區(qū)域中檢測(cè)人臉來(lái)說(shuō)不必要的冗余信息,該方法可以將其減至最小。首先選擇并標(biāo)記一定數(shù)量的正樣本和負(fù)樣本,然后將它們作為訓(xùn)練集進(jìn)行訓(xùn)練,再用所提出的方法從感興趣區(qū)域提取特征。通過(guò)如下步驟,一些弱的分類器逐漸被提升為一個(gè)強(qiáng)大的分類器。
(3) 歸一化權(quán)重ωt,t=1,2,…,T。使它服從概率分布:
(4) 優(yōu)化權(quán)重誤差:
一個(gè)弱分類器h(x,f,p,θ)由特征f,閾值θ和一個(gè)極性p組成:
其中x表示一幅圖像的一個(gè)24×24像素的子窗口,p表示不等式的方向。
(5) 選擇最優(yōu)化權(quán)重誤差的分類器:
ht(x)=h(x,ft,pt,θt)
其中ft、pt和θt對(duì)應(yīng)最小化的εt。
當(dāng)樣本xi分類正確時(shí),ei=0;反之,ei=1。
為了評(píng)估本文所提出的方法的效率和準(zhǔn)確率,我們使用兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。一個(gè)是MIT+CMU正面人臉數(shù)據(jù)集和CMU側(cè)面人臉數(shù)據(jù)集,這個(gè)數(shù)據(jù)集和Viola-Jones算法[19]使用的數(shù)據(jù)集相同。另外一個(gè)是我們自己的數(shù)據(jù)集。我們使用6 500幅560×420像素的彩色圖像對(duì)所提出的方法進(jìn)行測(cè)試,這些圖像是從互聯(lián)網(wǎng)上的照片和視頻中采集的。每幅圖像都有著不同復(fù)雜程度的場(chǎng)景和不同的光照條件,其中包含一個(gè)或多個(gè)人臉。每個(gè)人臉的大小、姿態(tài)、位置和表情都各不相同。尤其是大部分圖像中的人臉是多姿態(tài)的,包括旋轉(zhuǎn)的正面人臉和不同情況的側(cè)面人臉。
我們?cè)谂渲脼橛⑻貭柨犷?雙核2.8 GHz CPU、4 GB內(nèi)存的主機(jī)上進(jìn)行測(cè)試。圖3展示了一個(gè)單一的人臉檢測(cè)結(jié)果,我們只將人臉區(qū)域用一個(gè)盡可能小的矩形框標(biāo)記出來(lái),而不關(guān)心其他區(qū)域。圖4展示了一個(gè)復(fù)雜場(chǎng)景下的多人臉檢測(cè)結(jié)果,圖像中的場(chǎng)景和目標(biāo)人物對(duì)象比較相似,具有很高的混淆性;另外,目標(biāo)人物的表情也不相同。圖5展示了一個(gè)多姿態(tài)的多人臉檢測(cè)結(jié)果,候選圖像中每個(gè)人的頭部姿態(tài)、朝向、位置、大小都不相同。
圖3 單一人臉檢測(cè)結(jié)果圖
圖4 復(fù)雜場(chǎng)景下的多人臉檢測(cè)結(jié)果圖
圖5 多姿態(tài)多人臉檢測(cè)結(jié)果圖
用不同算法進(jìn)行人臉檢測(cè)的實(shí)驗(yàn)結(jié)果之間的比較如表1所示。
表1 人臉檢測(cè)結(jié)果比較
我們?cè)贛IT+CMU數(shù)據(jù)集和我們自己的數(shù)據(jù)集上,將我們的方法與前人的工作進(jìn)行了性能比較?;诟鞣N各樣的人臉檢測(cè)實(shí)驗(yàn)結(jié)果比較,表明我們的檢測(cè)算法可以獲得較高的檢測(cè)正確率(最高達(dá)96.3%),比文獻(xiàn)[15]傳統(tǒng)的Adaboost方法高出約10個(gè)百分點(diǎn),比文獻(xiàn)[22]改進(jìn)的Adaboost方法高出約7個(gè)百分點(diǎn);另外,檢測(cè)的平均速度上也比兩者分別快了大約25 ms和22 ms。
我們的算法能夠提高檢測(cè)的正確率,同時(shí)保持相對(duì)較低的誤檢率的原因是我們?cè)谠O(shè)計(jì)算法和處理樣本的時(shí)候,考慮了多種的復(fù)雜場(chǎng)景以及多變的頭部姿態(tài)可能對(duì)最終檢測(cè)結(jié)果產(chǎn)生的影響,以期提高算法的正確性和魯棒性。因此,我們的算法能夠比其他算法獲得相對(duì)較好的檢測(cè)效果。
此外,我們的算法能以26幀/秒的速度在視頻幀上執(zhí)行,其中每幀大小為560×420像素。因此,該算法能滿足實(shí)時(shí)人臉檢測(cè)的要求,并為實(shí)時(shí)的人臉識(shí)別、表情識(shí)別等任務(wù)提供良好的輸入[17]。
本文實(shí)現(xiàn)了一種新的基于圖像序列的魯棒的多人臉檢測(cè)方法,用于面向智能教育機(jī)器人應(yīng)用的智能人機(jī)交互系統(tǒng)。實(shí)驗(yàn)結(jié)果證實(shí)了所提出的方法的有效性和計(jì)算效率的提高,證明了該方法的優(yōu)勢(shì),保證正確性的同時(shí)結(jié)合效率的提升,兼具準(zhǔn)確性和魯棒性等優(yōu)點(diǎn)。
我們計(jì)劃將所提出的方法用于智能自主導(dǎo)航機(jī)器人以實(shí)現(xiàn)人機(jī)的自然互動(dòng),使得機(jī)器人在展覽中心和博物館中引導(dǎo)游客自主地進(jìn)行參觀和游覽。具體來(lái)說(shuō),所提出的方法將為人臉識(shí)別和人臉屬性分析提供有效的輸入,以供人們用于不同的會(huì)話場(chǎng)景。
未來(lái)的工作包括利用極線約束處理立體視覺(jué)來(lái)擴(kuò)展人臉檢測(cè)算法,使得本文所提出的方法能夠更加廣泛地應(yīng)用于集成的智能人機(jī)交互系統(tǒng)。
[1] Zhu J, Chen Z. Real Time Face Detection System Using Adaboost and Haar-like Features[C]// International Conference on Information Science and Control Engineering. IEEE, 2015:404-407.
[2] Sun S, Xu Z, Wang X, et al. Real-time vehicle detection using Haar-SURF mixed features and gentle AdaBoost classifier[C]// Control and Decision Conference. IEEE, 2015:1888-1894.
[3] Ge S S, Fua C H. Queues and Artificial Potential Trenches for Multirobot Formations[J]. Robotics IEEE Transactions on, 2005, 21(4):646-656.
[4] Ge S S. Social robotics: Integrating advances in engineering and computer science [J]. Computer Telecommunications & Information Technology Mae Fah Luang University Chang Rai, 2007, 5(1):9-12.
[5] Yang M H, Kriegman D J, Ahuja N. Detecting Faces in Images: A Survey[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002, 24(1):34-58.
[6] Zhao W, Chellappa R, Phillips P J, et al. Face recognition:A literature survey[J]. Acm Computing Surveys, 2003, 35(4):399-458.
[7] Osadchy M, Cun Y L, Miller M L. Synergistic face detection and pose estimation with energy-based model [J]. Journal of Machine Learning Research, 2007, 8(1):1017-1024.
[8] Froba B, Kublbeck C. Face Tracking by Means of Continuous Detection[C]// Conference on Computer Vision and Pattern Recognition Workshop. IEEE Computer Society, 2004:65.
[9] Kwang Ho An, Dong Hyun Yoo, Sung Uk Jung, et al. Robust multi-view face tracking [C]// 2005 IEEE/IRSJ International Conference on Intelligent Robots and Systems. 2005:1905-1910.
[10] Viola P, Jones M. Robust Real-time Object Detection [J]. International Journal of Computer Vision, 2001, 57(2):87-89.
[11] Xie Xangdong, Sudhakar R, Zhuang Hanqi. Real-time eye feature tracking from a video image sequence using Kalman filter [J]. IEEE Transactions on Systems, Man and Cybernetics, 1995, 25(12):1568-1577.
[12] Blais F. Review of 20 Years of Ranges Sensor Development [J]. SPIE-the international society for optics and photonics, 2004, 13(1):228-240.
[13] Kalman R E. A New Approach to Linear Filtering and Prediction Problems [J]. Transactions of the ASME-Journal of Basic Engineering, 1960, 82 (Series D): 35-45.
[14] Greg Welch, Gary Bishop. An Introduction to the Kalman Filter [J]. University of North Carolina at Chapel Hill, 1995, 32(7):127-132.
[15] Wu B, Ai H, Huang C, et al. Fast rotation invariant multi-view face detection based on real Adaboost[C]// IEEE International Conference on Automatic Face and Gesture Recognition, 2004. Proceedings. IEEE Xplore, 2004:79-84.
[16] Abualkibash M, Mahmood A, Moslehpour S. A near real-time, parallel and distributed adaptive object detection and retraining framework based on AdaBoost algorithm [C] //High Performance Extreme Computing Conference. 2015:1-8.
[17] Liu W, Lv J, Yu B, et al. Multi-type road marking recognition using adaboost detection and extreme learning machine classification [C] //2015 IEEE Intelligent Vehicles Symposium (IV). 2015:41-46.
[18] Wei Liuliu, Liu Mingyang. Multi-pose Face Detection Research based on Adaboost [C] //2016 Eighth International Conference on Measuring Technology and Mechatronics Automation (ICMTMA). 2016:409-412.
[19] Putro M D, Adji T B, Winduratna B. Adult image classifiers based on face detection using Viola-Jones method [C] //International Conference on Wireless and Telematics. 2015:1-6.
[20] Cheney J, Klein B, Jain A K, et al. Unconstrained face detection: State of the art baseline and challenges [C] //International Conference on Biometrics. 2015:229-236.
[21] Abualkibash M, Mahmood A, Moslehpour S. A near real-time, parallel and distributed adaptive object detection and retraining framework based on AdaBoost algorithm [C] //High Performance Extreme Computing Conference. 2015:1-8.
[22] Ma S, Du T. Improved Adaboost Face Detection [C] //International Conference on Measuring Technology & Mechatronics Automation, 2010, 2:434-437.
[23] Zhu J, Chen Z. Real Time Face detection System Using Adaboost and Haar-like Features [C] //International Conference on Information Science & Control Engineering. 2015:404-407.
[24] Aniruddha Dey. A contour based procedure for face detection and tracking from video [C] //International Conference on Recent Advances in Information Technology. 2016:483-488.
[25] Wei L, Liu M. Multi-pose Face Detection Research based on Adaboost [C] //Eighth International Conference on Measuring Technology & Mechatronics Automation. 2016:409-412.
[26] Meyer G P, Alfano S, Do M N. Improving face detection with depth [C] //IEEE International Conference on Acoustics, Speech and Signal Processing. 2016:1288-1292.
[27] Dutta Pranti, Nachamai M. Detection of faces from video files with different file formats [C] //International Conference on Microelectronics, Computing and Communications. 2016:1-6.
[29] Savas B K, Ilkin S, Becerikli Y. The realization of face detection and fullness detection in medium by using Haar Cascade Classifiers[C]// Signal Processing and Communication Application Conference. 2016:2217-2220.
[30] Mykoniatis K, Angelopoulou A, Akbas A S, et al. Multi-method modeling and simulation of a face detection robotic system[C]// IEEE Systems Conference. IEEE, 2016:1-6.
[31] Dahal B, Alsadoon A, Prasad P W C, et al. Incorporating skin color for improved face detection and tracking system [C] //IEEE Southwest Symposium on Image Analysis and Interpretation. 2016:173-176.
ROBUSTREAL-TIMEMULTI-FACEDETECTIONFORINTELLIGENTHUMAN-ROBOTINTERACTION
Zhao Xinchao1Yuan Jiazheng2
1(BeijingKeyLaboratoryofInformationServiceEngineering,Beijing100101,China)2(InstituteofComputerTechnology,BeijingUnionUniversity,Beijing100101,China)
Face detection plays a crucial role in developing Human-Robot Interaction (HRI) for Intelligent Educational Robot (IER) to recognize users or speakers. In this paper, we introduce an intelligent vision algorithm that is able to detect human face from complex scene and filter out all the non-face but face-like images. The human face is detected in real-time environment using the approach called Adaboost-based Corner Cascade Classifier[1,2,23,29], and the real human face detection is improved to implement from single-face detection to multi-face detection. Furthermore, variable head pose is taken into account, such as pitch, roll, yaw, etc. The proposed robot vision algorithm for human detection is tested to be effective and robust through real-time experiments.
Human-robot interaction Face detection Intelligent robot Multi-pose
2016-08-11。國(guó)家自然科學(xué)基金項(xiàng)目(61571045);國(guó)家科技支撐計(jì)劃項(xiàng)目(2014BAK08B02)。趙新超,碩士生,主研領(lǐng)域:深度學(xué)習(xí),數(shù)據(jù)挖掘,模式識(shí)別。袁家政,教授。
TP242.6+2
A
10.3969/j.issn.1000-386x.2017.08.029