王 鑒,張榮福
(1.上海理工大學 光電信息與計算機工程學院,上海 200093)
眼球定位追蹤的研究就是指研究跟蹤視頻中眼球的運動軌跡,該研究廣受人們的關(guān)注。目前眼球定位追蹤主要應(yīng)用于電子設(shè)備、人機交互和虛擬現(xiàn)實中[1-2]。近年來,隨著深度學習網(wǎng)絡(luò)在計算機視覺取得重大突破,基于深度學習網(wǎng)絡(luò)的眼球追蹤技術(shù)也逐漸成為主要研究方向[3]?;谏疃葘W習的眼球追蹤主要分為單幀的目標圖像檢測任務(wù)以及基于視頻幀的目標追蹤任務(wù)[4]。本文主要對單幀的目標圖像檢測進行研究,以解決定位精確度不足的問題。
目前,單幀的目標圖像檢測已經(jīng)取得了重大進展,但是仍然是一項具有挑戰(zhàn)性的研究[5],例如平衡檢測算法的實時性和精準性。快速區(qū)域卷積 神 經(jīng) 網(wǎng) 絡(luò)(fast region convolutional neural network)[6]是利用提取相應(yīng)候選區(qū)進行眼球的定位跟蹤,該網(wǎng)絡(luò)在眼球區(qū)域位置的定位精準度方面較為優(yōu)異,但是通過數(shù)個卷積層計算處理,會使網(wǎng)絡(luò)在整體分類速度上處于劣勢,從而導(dǎo)致檢測算法的實時性不佳。2016年提出的YOLO(you only look once)[7]檢測算法,將單幀的目標圖像檢測任務(wù)轉(zhuǎn)換為目標回歸任務(wù),通過對網(wǎng)格進行系統(tǒng)性的劃分,將圖像中快速檢測出的目標類別通過邊框回歸的方式進行眼球追蹤定位。然而YOLO算法網(wǎng)絡(luò)的精準度不佳,普遍低于主流的神經(jīng)網(wǎng)絡(luò)算法[8]。在YOLO算法基礎(chǔ)上,本文結(jié)合可變形卷積的相關(guān)算法對YOLO網(wǎng)絡(luò)進行改進,在保證實時性的同時,進一步提升整體網(wǎng)絡(luò)的精準度。
本文對YOLO算法進行改進,利用可變形卷積的形變建模特性對網(wǎng)絡(luò)的采樣方式進行進一步的改進[9]。傳統(tǒng)卷積(CNN)采用的是基于單一滑動窗口的區(qū)域采樣策略,沒有目標針對性,因此存在窗口冗余較大及時間復(fù)雜度較高的問題。傳統(tǒng)卷積對未知大型形狀變換目標的建模存在固有缺陷[10],此缺陷源于卷積模塊是基于單一幾何結(jié)構(gòu)設(shè)計。卷積模塊對輸入的特征圖進行固定位置的采樣,在池化層方面同樣以固定的比例池化。該特性對算法整體性能有較大的影響,例如,在同一層級的卷積核中,所含激活單元的感受野相同,但是各個采樣點的位置存在對應(yīng)著不同尺度或者變形的物體情況。因此,對感受野大小或者尺度變化進行自適應(yīng)建模是精確定位的重要條件。研究證明,標準卷積中的固定規(guī)格采樣難以適應(yīng)目標區(qū)域的幾何形變[10]。為了解決這個問題,本文使用可變形卷積以及相應(yīng)的可變形感興趣區(qū)域池化,增強對目標多尺度形變的建模能力。這兩種處理模塊是基于相同平行網(wǎng)絡(luò)學習偏移量(偏移),使得卷積核在輸入的特征圖中的采樣點發(fā)生定量的偏移,使網(wǎng)絡(luò)能較集中于目標區(qū)域或者感興趣區(qū)域。經(jīng)過多次實驗,證明本文的方法在精準度方面與未改進YOLO網(wǎng)絡(luò)相比提升了4.7%,并可以實現(xiàn)網(wǎng)絡(luò)的完整端到端訓練。
可變形卷積網(wǎng)絡(luò)主要是處理稠密空間圖像信息的算法網(wǎng)絡(luò),有著簡單、高效以及可進行端到端網(wǎng)絡(luò)學習的優(yōu)勢。
可變形卷積和標準卷積都是基于二維空間操作,且都是在相同的通道上進行。標準的卷積操作通??梢苑譃閮刹糠郑海?)在輸入的特征圖上使用標準固定網(wǎng)格進行采樣;(2)對各個采樣點的數(shù)值進行加權(quán)運算。
特征圖的標準卷積[10]可表示為
式中:P0為特征圖的原始位置;Pn包含采樣點中所列位置;R為每個分塊的索引編號;w(Pn)為權(quán)重;x(P0+Pn) 為原始圖。由式(1)可知,標準卷積操作只是對輸入的圖像作相應(yīng)的采樣加權(quán)處理,缺少形變建模的能力。而可變形卷積引入了偏移量的概念,通過在標準采樣網(wǎng)格中增加一個偏移量進行形變。因此同樣的特征圖位置P0可表示為
式中:ΔPn為偏移量;x(P0+Pn+ΔPn) 和y(P0)是原始圖和經(jīng)過卷積采集后的特征圖的映射關(guān)系。通過設(shè)計網(wǎng)絡(luò)對偏移量的學習,可以將固定的采樣點位置改進為不規(guī)則的采樣位置,如圖1所示。
圖1 可變形卷積示意圖Fig.1 Schematic diagram of deformable convolution
偏移量 ΔPn的獲取是通過在相同的輸入特征映射上使用標準卷積層計算獲得,如圖1所示。卷積核的尺寸與當前標準卷積層尺寸相同,例如圖1中的卷積核尺寸為3*3。偏移域的輸出值與輸入特征映射具有相同的空間尺寸,通道維數(shù)為2N對應(yīng)N維的2D偏移量。在網(wǎng)絡(luò)訓練階段,可同時學習輸出特征的標準卷積核和可變形卷積偏移量。為了學習偏移量可以反向傳播誤差,使用雙線性運算計算反向傳播。
感興趣區(qū)域池化模塊是目標檢測中常用的池化策略,是基于目標檢測方法中的目標區(qū)域。在標準區(qū)域池化中,通常將任意輸入大小的區(qū)域調(diào)整為固定尺寸大小的特征圖。設(shè)給定的輸入特征圖為x,待池化區(qū)域尺寸為w*h,初始分塊區(qū)域為P0,臨近分塊區(qū)域為P,感興趣區(qū)域池化將目標區(qū)域劃分為k*k個小區(qū)塊并記為bin,同時經(jīng)過處理后輸出一個尺寸同樣為k*k的特征圖。該特征圖可表示為[9]
式中nij為bin區(qū)塊中的像素數(shù)。
通過以上標準池化層,可以類比得到可變形池化,即
相較于標準的感興趣池化操作,同樣對各個池化點增加相應(yīng)的偏移量。首先,通過標準的感興趣區(qū)域得到該輸入對于位置的特征圖。然后,通過該特征圖加上全連接層計算生成每個對應(yīng)區(qū)域的歸一化偏移量最后,根據(jù)感興趣區(qū)域的高度和寬度尺寸進行元素對轉(zhuǎn)換為 ΔPij。為了使偏移量的輸出與感興趣區(qū)域大小保持不變,有必要對偏移量進行歸一化。可變形池化的計算流程如圖2所示。
圖2 可變形池化示意圖Fig.2 Schematic diagram of deformable pooling
YOLO網(wǎng)絡(luò)是近幾年目標檢測領(lǐng)域的創(chuàng)新算法,該算法舍棄通過復(fù)雜網(wǎng)絡(luò)模型對目標物體進行分類和修改定位精度的主流目標檢測思想,而是將一般目標檢測問題轉(zhuǎn)化成一個回歸,能直接在待處理圖像中的多個位置上回歸分析出目標的邊界框(bounding box)及其所屬分類類別。對比其他目標檢測算法,YOLO算法的檢測算法較快,標準版的YOLO算法在Titan X顯卡上刷新率可以達到45幀/s,更快的Fast -YOLO的刷新率更是達到155幀/s。并且可以很好地利用圖像的整體信息,具有更好的泛化能力和遷移能力。但是YOLO網(wǎng)絡(luò)對目標邊界框會施加較高的空間限制,只能預(yù)測有限的目標類。因此,YOLO網(wǎng)對物體檢測的精度不是最優(yōu),較容易產(chǎn)生定位錯誤,尤其是在密集度高且物體偏小的情況,例如對人物面部眼球的定位。
因此,本文利用可變形卷積對YOLO網(wǎng)絡(luò)的卷積方式進行改進,改變YOLO網(wǎng)絡(luò)較高的空間限制,從而提高網(wǎng)絡(luò)整體的分類精準度。圖3為可變形卷積YOLO網(wǎng)絡(luò)模型示意圖。
圖3 可變形卷積YOLO網(wǎng)絡(luò)模型示意圖Fig.3 Schematic diagram of deformable convolutional YOLO network model
為檢驗本文的可變形卷積YOLO網(wǎng)絡(luò)在目標檢測精準度和處理速度上的變化,將本文網(wǎng)絡(luò)與其他實時檢測方法Fast-YOLO網(wǎng)絡(luò)[7]進行比較。實驗使用kaggle中的Fakefaces數(shù)據(jù)作為訓練集,該數(shù)據(jù)集包含6 400張人臉彩色圖像,像素分辨率為1 024*1 024。實驗設(shè)備為Tesla P100顯卡,Ubantu操作系統(tǒng)。
YOLO網(wǎng)絡(luò)在原有的基礎(chǔ)上已進行了多次改進,目前已經(jīng)發(fā)展到Y(jié)OLO V3版本。通過改變YOLO網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度,可以提高目標檢測速度和目標檢測精準度。雖然YOLO V3在TitanX上的處理速度可以達到51幀/s,最高精準度達到57.9%,但是仍有可提升的空間??勺冃尉矸eYOLO網(wǎng)絡(luò)與其他YOLO網(wǎng)絡(luò)的對比如表1所示。
表1 可變形卷積YOLO網(wǎng)絡(luò)與其他YOLO網(wǎng)絡(luò)對比表Tab.1 Comparison of deformable YOLO network and other YOLO networks
作為實時檢測的早期網(wǎng)絡(luò),YOLO V1網(wǎng)絡(luò)的檢測精準度高達63.4%,同時仍保持較高的實時性,刷新率達到45幀/s。為全面對比YOLO網(wǎng)絡(luò)的各個版本,本文使用YOLO V3和Fast-YOLO進行對比。Fast-YOLO網(wǎng)絡(luò)是目前最快的YOLO版本,刷新率達到155幀/s,但檢測精準度明顯低于YOLO V1。而YOLO V3網(wǎng)絡(luò)則更加均衡,在控制網(wǎng)絡(luò)結(jié)構(gòu)規(guī)模的情況下,處理速度有穩(wěn)步的提升,但是精準度降低較大,與速度最高的Fast-YOLO網(wǎng)絡(luò)相比也并沒有較高精準度的提升,反而犧牲過多的處理速度。使用可變形卷積改進的YOLO網(wǎng)絡(luò)在精準度方面有較大提升,可達到0.685,而在圖像處理速度方面幾乎與最早版本的YOLO V1網(wǎng)絡(luò)持平。綜合以上情況,對YOLO網(wǎng)絡(luò)進行可變形卷積的改進有助于目標檢測網(wǎng)絡(luò)的整體提升。
通過以上YOLO網(wǎng)絡(luò)各個版本對比實驗,可以得出,可變形卷積YOLO網(wǎng)絡(luò)表現(xiàn)較佳。在此基礎(chǔ),本文通過與當前先進目標檢測網(wǎng)絡(luò)進行對比,進一步驗證可變形卷積YOLO網(wǎng)絡(luò)在目標檢測領(lǐng)域中的表現(xiàn)。
在目標檢測方面,本文選取可變形部件模型(deformable part model, DPM)[11]和Region-CNN(R-CNN)[12]系列網(wǎng)絡(luò)進行對比,實驗結(jié)果如表2所示。
由表2對比可知:100 Hz DPM模型的速度最高,刷新率達到100幀/s,但是相對的檢測精準度也是最低的,只有0.160;Fastest DPM犧牲過多的檢測處理速度,提高的精準度卻相對有限;R-CNN網(wǎng)絡(luò)的檢測精準度較高,尤其是Fast R-CNN的檢測精準度最高,高達0.701,但是處理速度過慢,無法用于實時檢測。綜上所示,使用可變形卷積改進的YOLO網(wǎng)絡(luò)在檢測速度和精準度上都取得較高的成績,更加適用于眼球定位追蹤任務(wù)中。
表2 可變形卷積YOLO網(wǎng)絡(luò)與其他先進網(wǎng)絡(luò)對比表Tab.2 Comparison of deformable YOLO network and other advanced networks
本文引用可變形卷積解決YOLO網(wǎng)絡(luò)的空間限制問題,使YOLO網(wǎng)絡(luò)在眼球定位追蹤領(lǐng)域這類目標物體較密集且目標較小的檢測中具有較好的精準度表現(xiàn)。通過對YOLO網(wǎng)絡(luò)的改進,生成可變形卷積YOLO網(wǎng)絡(luò),該網(wǎng)絡(luò)可以更好地實現(xiàn)眼球追蹤定位的適用性,并在實時性和目標檢測精準度上取得平衡。
實驗結(jié)果表明:本文的可變形卷積YOLO網(wǎng)絡(luò)可以用于快速重掃描眼球追蹤檢測,在較小地降低實時性的情況下可大幅提升目標檢測的精準度,減少背景誤報造成的誤差,具有重要的應(yīng)用價值。目前,該方法還有待進一步地擴大其應(yīng)用范圍,例如,在多幀視頻中的應(yīng)用,在保證視頻處理的實時性的同時也能有較強的定位精準度,網(wǎng)絡(luò)泛化能力的提升,等等。