摘要:瞳孔中心是眼動追蹤、人臉識別等計算機視覺領域中的精細參數,實現瞳孔中心自動檢測具有廣泛的應用價值。論文結合Faster RCNN模型,提出一種細分虹膜形狀特征與圖像梯度法的人眼瞳孔定位算法。首先,對圖像進行光照補償預處理,在此基礎上,利用改進的ResNet50作為Faster RCNN模型的骨干網絡來檢測人臉和眼睛;其次,通過幾何約束對眼睛區(qū)域進行選擇,采用積分圖像法實現虹膜區(qū)域檢測;最后,通過圖像梯度算法進行瞳孔中心定位。實驗結果表明:該算法在GI4E數據集及自建的面部數據集上能夠較精確地實現瞳孔中心定位,并且在歸一化誤差0.2閾值內,分別達到了100%和99.46%的定位精度,具有較好的魯棒性和實時性。
關鍵詞:瞳孔中心定位;Faster RCNN;圖像梯度;ResNet50;積分圖像
中圖分類號:TP391.4;TP183文獻標志碼:A眼睛是面部特征歸一化的突出特征,瞳孔識別是計算機視覺應用和眾多面部生物識別應用的關鍵步驟。對于瞳孔中心定位,眼睛的檢測起著重要的作用。然而,由于眼睛外觀的高度差異性,眼中心定位仍然是一項艱巨的任務。所謂差異性是指眼睛結構差異,以及外部環(huán)境因素引起的變化,特別是虹膜大小、顏色的變化、圖像質量和遮擋等。為了解決此問題,研究人員試圖將面部和眼睛作為感興趣區(qū)域(region of interest,ROI),以更好地定位眼中心。Voila-Jones和Boosted cascade人臉檢測器[1]是目前常用的基于淺結構的人臉檢測技術。對于眼睛檢測,多使用圖像梯度信息[2],也有實驗使用卷積神經網絡進行眼部檢測,但性能在姿態(tài)和尺度變化下易下降。一般來說,瞳孔中心定位方法分為3類: 基于幾何特征的方法、基于外觀統計的方法以及混合方法。TIMM等[3]提出基于梯度向量和位移向量的點積進行眼中心定位,但鏡面反射以及眼睛的反光會對梯度向量造成影響; 張婉琦等[4]通過改進的支持向量機(support vector machine,SVM)對低分辨率眼部圖像進行瞳孔識別,雖然魯棒性較好,但不滿足實時性; LEVINSHTEIN等[5]提出一種基于級聯回歸樹和梯度直方圖特征的兩階段瞳孔中心檢測方法,雖然精度較高,但計算量大; CHOI等[6]基于卷積神經網絡定位出戴眼鏡用戶的瞳孔中心,但在姿勢變化和模糊的圖像中存在一定的局限性。
針對上述既有方法的不足之處,本文在Faster RCNN模型的基礎上,提出一種基于強度和梯度的瞳孔中心定位方法。該方法利用Faster RCNN進行人臉檢測確定ROI,并在ROI中重新利用Faster RCNN檢測眼睛,加入高效通道注意力(efficient channel attention,ECA)的ResNet50作為其主干網絡,完成眼部圖像預處理; 通過細分虹膜形狀特征并結合基于梯度的方法精確定位瞳孔中心。
1人臉和眼睛檢測
1.1預處理
在實際的人臉和眼睛檢測過程中,由于外界環(huán)境因素的影響,從而導致圖像退化和應用價值減弱。為了確保目標模型檢測的準確性,本文進行直方圖均衡化[7],通過減少強度差來改善圖像的光照變化。此外,由于深度學習的目標檢測模型受到數據庫的限制,因此,有必要進行數據增強,本文通過旋轉、平移、翻轉等多種方式處理現有數據集,以提高模型泛化能力。
1.2基于Faster RCNN的人眼粗定位
Faster RCNN[8]由兩個模塊組成,深度卷積神經網絡(deep convolutional neural network,DCNN)作為區(qū)域建議網絡(region proposal network,RPN),隨后Faster RCNN檢測器基于建議區(qū)域進行檢測。本文使用ResNet50[9]作為特征圖提取的基礎網絡。RPN模塊使用注意力機制,使得Faster RCNN模塊關注與目標相關的區(qū)域。Faster RCNN基礎架構如圖1所示。
RPN從基礎網絡的最后一層獲取卷積特征映射,生成區(qū)域建議并預測目標的概率。非最大抑制(non-maximum suppression,NMS)刪除與其他框重疊的框,然后將特征送入分類層和回歸層,回歸層將細化對象上的邊界框,根據目標實際的位置和尺寸調整初始中心點和錨框的大小。
眼睛檢測性能不僅取決于圖像標注過程,同時受模型選擇的影響。ResNet50可以直接用于人臉和眼睛檢測,但精度并不理想,通過引入注意力機制雖然可以提高性能,但也會增加整體計算負擔。殘差網絡可以在不使梯度消失的情況下幫助構建更深的網絡,其計算復雜度不受殘差網絡的影響。因此,本文在ResNet50的殘差塊中引入ECA[10]模塊,在提高識別精度的同時,盡可能地降低其帶來的計算復雜度影響。圖2為加入ECA模塊前后的殘差塊結構圖。
2瞳孔中心定位
虹膜區(qū)域的平均強度小于眼睛特征周圍區(qū)域,細分虹膜形狀特征主要對比區(qū)域的平均強度信息來區(qū)分虹膜和其它區(qū)域。在基于梯度的方法中,閉合的梯度向量朝目標中心對齊,梯度向量和位移向量的點積最大值提供瞳孔中心的位置信息[11],并且?guī)в悬c積和位移向量的梯度向量角度分布可以更好地定位瞳孔中心,其中,角度分布是軸和位移向量間的夾角。
虹膜的原始形狀特征由1個中心單元和周圍8個相同大小的相鄰單元組成。圖3(a)為原始虹膜形狀特征,由于虹膜區(qū)域的強度與眉毛、遮擋在眼部周圍的頭發(fā)以及鏡片的強度相似,原始虹膜形狀特征提取技術受此影響往往無法精準定位瞳孔中心,因此,本文提出了4種細分虹膜形狀特征,細分區(qū)域僅包含虹膜及其鄰近區(qū)域,如圖3(b)—(e)所示,將4種特征進行組合以檢測眼睛中心。周邊區(qū)域(R1,R2,R3,R4)的平均強度大于虹膜區(qū)域(R0)的強度,如果R0的平均強度大于周圍區(qū)域,則該像素位置為非眼睛像素。虹膜大小為面部的7%,其計算公式為
對于虹膜檢測,僅考慮細分虹膜形狀特征尋找虹膜區(qū)域,如果滿足細分虹膜特征約束條件,則計算梯度向量的對齊分數。在瞳孔中心定位中,梯度向量對齊也是其中關鍵因素之一,大多數閉合的梯度向量向眼中心對齊[13],其更傾向于圖像中圓形和半圓形物體的中心。進一步地,通過計算梯度與位移向量間的點積關系確定瞳孔中心,其目標函數表達如下:
3實驗結果與分析
3.1實驗數據
3.2評價指標
3.3結果與分析
為了證明所提出的方法在檢測面部和眼睛方面的有效性,在labelimg中標記數據集用于訓練Faster RCNN,eopch為100,批次為32,學習率為1×10-4,優(yōu)化器為Adam。通過手動調整閾值獲得具有高置信度分數的人臉和眼睛。表1展示了與現有人臉檢測方法的對比,表中Faster RCNN的特征提取網絡為原始ResNet50,“+”代表在其基礎上添加模塊。
從表1可以看出,Voila-jones和Boosted cascade人臉檢測器使用手工制作的特征,在受控環(huán)境下表現良好,而在復雜環(huán)境下,性能會出現下降。相較之下,在經過數據增強和訓練后的Faster RCNN模型中,準確率得到顯著提升,在此基礎上加入ECA模塊改進特征提取網絡,模型的準確率進一步提升,在GI4E和自行收集的數據集上準確率分別為97.42%和91.89%,計算時間分別為0.188 s和0.195 s。相比較基礎Faster RCNN,所加入的ECA模塊在提高性能的同時并沒有過多的增加計算復雜度。
表2展示了本文方法與現有技術檢測眼睛性能的對比,結果表明人臉檢測將面部識別為ROI,Faster RCNN只在面部上進行眼睛檢測,提高了精度和計算速度,在兩個數據集上準確率分別為98.89%和93.07%,計算耗時分別為0.175 s和0.189 s。圖7顯示了在兩個數據集上的人臉和眼睛檢測結果,其中,第一行為GI4E數據集,第二行為自行收集的數據集的部分圖例。
圖8為本文在兩個數據集中的瞳孔中心定位結果,白色圓心點即為定位的瞳孔中心位置。表3給出了瞳孔中心定位在兩個數據集中的性能分析。實驗結果表明本文方法在不同指標下的定位精度是可靠的,甚至在佩戴眼睛的情況下也能正確定位瞳孔中心。特別地是,自行采集的數據集是由50個兒童連續(xù)20幀圖像組成,所獲得的精準瞳孔中心定位對于實時性眼動追蹤的研究具有代表性。
表4提供了在GI4E數據集上與現有先進方法的準確率比較。多數工作檢測到的眼睛較為粗糙,并且使用手工制作的特征訓練模型,造成后續(xù)眼睛中心定位精度不佳。本文通過深層特征進行眼睛檢測,有效地提升了瞳孔中心定位性能。
表5展示了本文算法從檢測眼睛到定位瞳孔中心的處理時間與其他文獻的對比,可以看出,所提方法效率更高,速度更快,平均每張圖像處理時間為41.25 ms。
4結語
實現瞳孔中心的自動檢測,在疾病診斷、生物識別和駕駛員困意監(jiān)測等領域有著廣泛且重要的應用價值。本文提出一種基于光照補償技術、Faster RCNN模型、虹膜形狀特征和圖像梯度的瞳孔中心定位方法。本文首先使用直方圖均衡化對圖像進行光照補償,然后基于Faster RCNN模型定位人臉ROI,結合幾何約束再次運用Faster RCNN模型提取眼部區(qū)域,通過積分圖像計算強度以檢測虹膜區(qū)域,最后基于虹膜形狀的梯度信息求解目標函數的最大值獲取雙眼瞳孔中心位置。實驗結果表明,本文所提算法較好地實現了瞳孔中心的精準快速定位,具有一定的實用性,但在實際應用中還需考慮閉眼、部分遮擋等情況下算法的優(yōu)化。參考文獻:
[1]AHMED M, LASKAR R H. Eye detection and localization in a facial image based on partial geometric shape of iris and eyelid under practical scenarios[J]. Journal of Electronic Imaging, 2019, 28(3): 033009.1-033009.17.
[2] 王晶儀, 王艷霞, 朱原雨潤, 等. 一種基于ALO優(yōu)化和圖像梯度的瞳孔中心定位算法[J]. 電腦知識與技術, 2022, 18(17): 86-88.
[3] TIMM F, BARTH E. Accurate eye centre localisation by means of gradients[C]//Proceedings of the Sixth International Conference on Computer Vision Theory and Applications. Vilamoura: SciTePress, 2011.
[4] 張婉綺, 王志永, 劉洪海. 基于改進SVR的眼睛中心定位方法[J]. 模式識別與人工智能, 2019, 32(1): 17-23.
[5] LEVINSHTEIN A, PHUNG E, AARABI P. Hybrid eye center localization using cascaded regression and hand-crafted model fitting[J]. Image and Vision Computing, 2018, 71: 17-24.
[6] CHOI J H, LEE K I, KIM Y C, et al. Accurate eye pupil localization using heterogeneous CNN models[C]//Proceedings of 2019 IEEE International Conference on Image Processing (ICIP). Taipei: IEEE, 2019.
[7] 涂毅晗, 汪普慶. 基于多尺度局部直方圖均衡化的礦井圖像增強方法[J]. 工礦自動化, 2023, 49(8): 94-99.
[8] 張杰. 基于改進Faster-RCNN的小目標檢測[J]. 現代計算機, 2023, 29(14): 14-18.
[9] 張典范, 楊鎮(zhèn)豪, 程淑紅. 基于ResNet50與遷移學習的輪轂識別[J]. 計量學報, 2022, 43(11): 1412-1417.
[10]李秉濤, 何勇, 袁琳琳. 基于ECA和YOLOv4的輕量級目標檢測網絡設計[J]. 傳感器與微系統, 2023, 42(9): 100-104.
[11]AHMED M, LASKAR R H. Evaluation of accurate iris center and eye corner localization method in a facial image for gaze estimation[J]. Multimedia Systems, 2021, 27(3): 429-448.
[12]蔣睿, 張素文, 汪創(chuàng). 基于智能手機平臺的積分圖像并行算法優(yōu)化與實現[J]. 電子技術與軟件工程, 2018(14): 61-62.
[13]王鵬, 苑碩, 董鑫, 等. 基于圖像梯度和改進橢圓擬合算法的視線追蹤方法[J]. 揚州大學學報(自然科學版), 2023, 26(4): 48-53,60.
[14]VILLANUEVA A, PONZ V, SESMA L, et al. Hybrid method based on topography for robust detection of iris center and eye corners[J]. ACM Trans Multim Comput Commun Appl, 2013, 9(4):1-20.
[15]JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the hausdorff distance[C]//Proceedings of Audio-and Video-Based Biometric Person Authentication(AVBPA). Heidelberg: Springer, 2001.
[16]KIM H, KIM J, PARK R. Efficient and fast iris localization using binary radial gradient features for human-computer interaction[J]. Int J Pattern Recognit Artif Intell, 2017, 31(11): 1756015.1-1756015.19.
[17]AHMED M, LASKAR R H. Eye center localization in a facial image based on geometric shapes of iris and eyelid under natural variability[J]. Image and Vision Computing, 2019, 88: 52-66.
[18]王鵬, 溫宏韜, 王世龍. 基于近眼紅外圖像的高精度瞳孔中心定位方法[J]. 哈爾濱理工大學學報, 2022, 27(5): 38-46.
[19]XIA Y, LOU J, DONG J, et al. Hybrid regression and isophote curvature for accurate eye center localization[J]. Multimedia Tools and Applications, 2020, 79(1): 805-824.
[20]AHMED N Y. Real-time accurate eye center localization for low-resolution grayscale images[J]. Journal of Real-Time Image Processing, 2021, 18(1): 193-220.
(責任編輯:于慧梅)
Pupil Center Localization Based on Intensity and Image Gradient
CHENG Zihao1, PEI Yuyao1, ZHOU Yixiang3, ZHANG Wendong1, WANG Changqing1,
ZHOU Xuan WANG Yanling WU Qian
(1.School of Biomedical Engineering, Anhui Medical University, Hefei 230012, China; 2.School of Humanistic
Medicine, Anhui Medical University, Hefei 230032, China; 3.School of Health Management, Anhui Medical
University, Hefei 230012, China; 4.The Third People's Hospital of Hefei, Hefei 230022, China)Abstract: Pupil center is a precise parameter in eye tracking, face recognition and other computer vision fields, and the realization of automatic pupil center detection has a wide range of application value. Combined with the Faster RCNN model, this study proposes a pupil localization algorithm for the human eye based on the segmented iris shape features and the image gradient method. First, the image is preprocessed with light compensation, and on this basis, the improved ResNet50 is used as the backbone network of the Faster RCNN model to detect the face and eyes. Then, the eye region is selected by geometric constraints, the iris region is detected by the integral image method, and finally the pupil center is localized by the image gradient algorithm. The experimental results show that the algorithm can achieve pupil center localization accurately on the GI4E dataset and the self-built facial dataset, and achieves 100% and 99.46% localization accuracies within the normalized error threshold of 0.2, respectively, with good robustness and real-time performance.
Key words: pupil center localization; Faster RCNN; image gradient; ResNet50; integral image