何婧媛,謝生龍,田 原,田琴琴
(延安大學數(shù)學與計算機科學學院,陜西延安 716000)
計算機視覺是人工智能的一個領域,它訓練計算機以類似于人類的方式解釋視覺世界.由于技術的快速發(fā)展和足夠大的訓練數(shù)據(jù)集可用性的增加,計算機視覺領域的主題急劇增長,其中最有前途的領域之一是目標檢測.隨著目標檢測技術的發(fā)展,精度和準確性不再是唯一的衡量標準,檢測速度也是至關重要的.目標檢測在機器人導航、智能視頻監(jiān)控、智能交通、醫(yī)療服務、人臉檢測等領域應用非常廣泛[1-3].目前大多數(shù)目標檢測是基于卷積神經(jīng)網(wǎng)絡的,而如何設計更好的網(wǎng)絡結(jié)構(gòu)是當前目標檢測的一個非常關鍵的問題.
目標檢測可以看作是由目標定位和目標分類組成的多任務學習問題.目標檢測算法分為實例檢測和類別檢測,在檢測過程中最重要的是特征,而人工設計的特征由于可分性差出現(xiàn)較高的分類錯誤率,低層特征表達能力弱,難以實現(xiàn)多目標檢測.傳統(tǒng)的目標檢測方法大多數(shù)都是分為區(qū)域選擇、提取特征和分類回歸這三個步驟,然而這樣的過程存在兩個問題,一個是區(qū)域選擇的策略效果差、時間復雜度高,還有一個是手工提取的特征魯棒性較差.基于深度學習的目標檢測算法分為兩階段方法和一階段方法,兩階段方法主要是指R-CNN系列、SPP-Net、R-FCN和FPN等,該方法通過Selective Search或CNN產(chǎn)生候選框,然后對候選框進行分類和回歸,其檢測準確率高[2];一階段方法主要有YOLO系列、SSD系列、CornerNet、ExtremeNet及其變形,該方法使用CNN提取特征后直接對目標物體進行分類和回歸,其檢測速度快,可實現(xiàn)實時檢測,但由于正負樣本的不均衡使得準確率較低.大范圍的尺度和位置上對多目標進行識別和定位仍然是目標檢測主要內(nèi)容之一,因此也出現(xiàn)了許多利用特征金字塔網(wǎng)絡[4]對圖像多尺度特征進行表示的目標檢測算法.表1對一些典型的目標檢測模型進行了對比[3,5-7].
表1 典型的目標檢測模型對比Tab.1 Comparison of typical target detection models
對表1中的幾種模型進行簡單介紹,R-CNN模型結(jié)合了候選區(qū)域與卷積神經(jīng)網(wǎng)絡,將高容量卷積神經(jīng)網(wǎng)絡應用于自下而上的候選區(qū)域,從而對物體進行局部化和分割,同時監(jiān)督輔助任務的預訓練,對特定領域進行微調(diào),從而提升性能.Fast R-CNN模型較R-CNN具有更高的平均精度,將圖像作為輸入并獲得候選區(qū)域集,然后使用卷積和最大池化圖層處理圖像以生成卷積特征圖,在每個特征圖中對每個候選區(qū)域的感興趣區(qū)域池化層提取固定大小的特征向量.Faster R-CNN模型利用候選區(qū)域網(wǎng)絡實現(xiàn)實時目標檢測,提出了一種可以對候選區(qū)域任務進行微調(diào),并對目標檢測進行微調(diào)的訓練機制.YOLO模型是單一的神經(jīng)網(wǎng)絡,采用分治思想將輸入圖像分為S×S的網(wǎng)格,不同網(wǎng)格采用性能優(yōu)良的分類器進行分類,YOLO模型將目標檢測視為回歸問題,實時處理速度非???YOLOv2是YOLO模型的改進與升級,它的網(wǎng)絡包括19個卷積層,5個最大池化層和1個全局平均池化層,在進行目標檢測時,只用尺寸大小為13×13特征圖進行檢測,使得感受野大小有限,導致在處理較遠、較小、有遮擋等情況下的目標時,可能會造成漏檢或者錯檢情況.SSD模型是在YOLO上添加了Faster R-CNN的Anchor概念,同時融合不同卷積層的特征做出預測,在準確度上比YOLO更好,而且對于小目標檢測效果也相對好一些.
SSD作為一階段目標檢測的主要方法,不像兩階段方法在得到候選框后再對其實施分類和回歸,也不像YOLO一樣在全連接后再進行檢測,而是直接對物體采用CNN做檢測.具體來說,對大物體的檢測是通過較小尺度的特征圖實現(xiàn)的,而對于小物體的檢測則是通過較大尺度的特征圖來實現(xiàn),大量實驗表明SSD算法可用于檢測小物體,且精確率要高于YOLO算法.SSD[3]算法的思想是對輸入圖像采用卷積網(wǎng)絡來得到特征映射,然后再對邊界框和分類概率進行預測,采用的是3×3大小的卷積核實現(xiàn)的.多尺度特征圖的采用使得SSD算法對大目標和小目標都能夠得到較好的檢測精確率,不同尺度和長寬比的先驗框一定程度上降低了模型訓練難度.在做檢測時,偏移的學習是通過不同比例的先驗框?qū)崿F(xiàn)的,而對邊界框的預測是在卷積層之后實施的,通過在不同卷積層上采用不同比例的操作來檢測不同尺度的目標.
一般的CNN結(jié)構(gòu),高層網(wǎng)絡感受野比較大,語義信息表征能力強,分辨率低,幾何細節(jié)信息表征能力弱.而低層網(wǎng)絡與高層網(wǎng)絡恰好相反,感受野比較小,幾何細節(jié)信息表征能力強,語義信息表征能力弱,下采樣定位更準確.SSD采用的基礎網(wǎng)絡結(jié)構(gòu)是VGG16,同時引入YOLO[3]的回歸思想和Faster R-CNN的先驗框機制,為了得到多尺度特征圖來進行目標檢測,采用的方法是在VGG16上增加卷積層實現(xiàn)的.SSD網(wǎng)絡結(jié)構(gòu)如圖1所示,SSD在進行檢測時采用的是多尺度特征圖,輸入圖像大小[3]可以是300×300,也可以是512×512.網(wǎng)絡模型從不同的卷積層來提取特征用于目標檢測,所采用的卷積層分別是Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2,共提取大小分別是(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1)的6個特征圖[8].
圖1 SSD結(jié)構(gòu)圖Fig.1 SSD structure
SSD網(wǎng)絡生成的預測框質(zhì)量較低,導致小尺度目標或遮擋目標定位失敗,影響檢測效果.針對SSD算法在檢測小目標物體存在的檢測視野范圍小、檢測圖像長寬比單一、檢測精度較低、檢測實時性較差等問題[1,8-9],提出一種基于SSD結(jié)構(gòu)的多尺度特征融合(Multi-scale Feature Fusion Single Shot Detector,MFF-SSD)模型.MFF-SSD模型對SSD網(wǎng)絡結(jié)構(gòu)的后4層進行反卷積,得到MFF-SSD模型的4個反卷積模塊(Conv12_2、Conv13_2、Conv14_2和Conv15_2).同時合理利用融合了高層網(wǎng)絡和低層網(wǎng)絡的優(yōu)勢,將高層反卷積特征圖與低層卷積特征圖進行多尺度融合,然后將特征融合模塊與SSD網(wǎng)絡的7~11層同時輸入到網(wǎng)絡的檢測模塊進行檢測,結(jié)構(gòu)如圖2所示.
圖2 MFF-SSD模型Fig.2 MFF-SSD model
高層特征圖對目標的抽象程度更深,包含充分的全局信息,具有較大的感受野和較強的上下文語義信息表征能力,因此對目標位置的判定更加準確,低層特征圖的空間分辨率要高于高層特征圖,能夠更加準確地識別出更多的邊緣、輪廓和紋理等細節(jié)信息,對目標類別做出準確判定.MFF-SSD模型從不同的卷積層來提取特征用于目標檢測,所采用的卷積層分別是Conv2_2、Conv3_3、Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2,共提取大小分別是(150,150)、(75,75)、(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1)的8個特征圖.該模型實現(xiàn)了來自不同卷積層、不同尺度、不同特征的多元信息的分類檢測與位置回歸[8].
MFF-SSD模型有4個融合模塊,他們的融合方式是相同的,采用的都是跳躍連接方式.以模塊1為例對融合模塊進行說明,在特征融合的過程中,對高層特征圖Conv15_2進行上采樣,使用大小為2×2的卷積核以及256的通道數(shù)的反卷積,將反卷積的輸出采用大小為3×3的卷積核的卷積層輸出到ReLU.接著輸出到BN層采用L2正則化對數(shù)據(jù)進行批量歸一化,然后到下一個反卷積層,這個反卷積層與第一個反卷積層不同的是采用的卷積核大小為3×3,卷積層輸出后跳過ReLU直接到BN層.對低層特征圖Conv2_2不需要進行反卷積,采用大小為3×3的卷積核輸出到ReLU層,然后輸出到BN層[8].對高層特征圖Conv15_2反卷積的輸出與低層特征圖Conv2_2卷積層的輸出做求和操作(Eltw Sum),求和后輸出至ReLU層,然后再進行一次卷積和ReLU之后就能夠?qū)崿F(xiàn)融合.融合模塊如圖3所示.
圖3 融合模塊Fig.3 Fusion module
MFF-SSD模型采用跳躍連接的方式使得模型的運算得到了簡化,降低了復雜度,輸出的特征圖的數(shù)量和種類也得到了增加,同時提供的幾何信息和語義信息更加準確,主要是網(wǎng)絡上下文的語義信息得到了充分利用.
MFF-SSD模型檢測流程是首先對輸入圖像進行預處理,包括尺度歸一化,即將圖像調(diào)整為合適的尺寸,并將其劃分為S×S個網(wǎng)格,然后通過卷積神經(jīng)網(wǎng)絡對圖像特征進行提取,對提取的特征圖進行多尺度融合后再做檢測.每個網(wǎng)格檢測目標中心位于該網(wǎng)格的目標,預測B個邊界框和C個類別,不同尺度的特征圖預測的邊界框和類別數(shù)目是不同的,對于檢測結(jié)果采用置信度對其做閾值處理,從而得到最終檢測結(jié)果[10],流程圖如圖4所示.
圖4 MFF-SSD檢測流程圖Fig.4 MFF-SSD detection flow chart
模型訓練過程可劃分為兩個階段,第一階段進行預訓練,在SSD模型訓練的基礎上得到MFF-SSD模型的一些初始化參數(shù);第二階段進行微調(diào),主要是通過實驗數(shù)據(jù)的訓練集對相關權重進行微調(diào).為了確保模型的訓練性能,通常對數(shù)據(jù)采用的方式是通過數(shù)據(jù)增強來提升模型的訓練能力,主要方法有水平翻轉(zhuǎn)、隨機裁剪與顏色扭曲、隨機采集塊域(獲取小目標訓練樣本).
網(wǎng)絡模型在做目標檢測時產(chǎn)生不同尺度的特征圖,這要求設置的先驗框具有不同的尺度和長寬比,先驗框設置[8]遵循公式(1)的原則.
其中:n表示特征圖數(shù)量,用于目標的預測和分類;S代表特征圖的大?。籗k代表第k個特征圖上先驗框相對于圖像的比例;而Smax和Smin代表比例的最大值和最小值,一般取Smax=0.9和Smin=0.2.
先驗框匹配[8,11-12]就是要確定哪個先驗框與圖像中的真實目標進行匹配,相匹配的先驗框所對應的邊界框?qū)⒇撠燁A測它.匹配原則有以下兩個:
1)圖像中每個真實目標與其交并比(Intersection Over Union,IOU)最大的先驗框進行匹配,以確保每個真實目標都有一個先驗框與之相匹配,與真實目標相匹配的先驗框稱為正樣本,沒有與任何真實目標相匹配的先驗框稱為負樣本[8,13].由于先驗框數(shù)目較多真實目標數(shù)目較少,導致正負樣本不均衡,因此需要采用另一個原則.
2)如果某個先驗框與真實目標的交并比大于給定閾值(0.6),則將先驗框與真實目標進行匹配,對于先驗框與多個真實目標的交并比大于閾值的情況,與先驗框相匹配的真實目標取交并比最大的一個[7].原則1)的優(yōu)先級高于原則2).
為了使得正負樣本均衡,可以通過難例挖掘(hard negative mining)來實現(xiàn),對置信度誤差采取降序排列的方式.設置置信度閾值0.01,將誤差較大的top-200作為負樣本進行訓練,以確保正負樣本達到1∶3的比例[13].
損失函數(shù)[8,14]由置信度誤差(Confidence Loss,LConf)與位置誤差(Locatization Loss,LLoc)的加權和構(gòu)成,如公式(3)所示.
其中:m表示先驗框與真實目標是否匹配,若匹配m取值為1,不匹配m取值為0;c為多類別目標的置信度預測值;b為對應于先驗框的邊界框位置預測值;g是真實目標的位置參數(shù);N是與真實目標相匹配的先驗框數(shù)量,即先驗框的正樣本數(shù)量;λ是對位置誤差與置信度誤差之間的比例進行調(diào)整的參數(shù),一般是通過交叉驗證進行設置,通常取為1.
位置誤差[8,15]LLoc的計算使用真實目標和先驗框之間的SmoothL1損失,如公式(4)所示.
置信度誤差LConf是多類別置信度c的softmax損失,如公式(10)所示.
在實際的訓練過程中,對損失函數(shù)的參數(shù)進行改變可以提高預測框的位置以及類別置信度,再對訓練結(jié)果進行多次優(yōu)化,能夠進一步提高網(wǎng)絡模型的目標檢測準確率,訓練出的網(wǎng)絡模型的檢測效果也會更好.
通過人臉檢測實驗驗證本文提出的MFF-SSD模型,人臉檢測數(shù)據(jù)集很多,我們采用的是Wider Face數(shù)據(jù)集,該數(shù)據(jù)集在人臉檢測領域被認為是目前最有難度的數(shù)據(jù)集,場景豐富,具有不同的尺度、姿態(tài)、角度、表情、光照和遮擋,分辨率較高.該數(shù)據(jù)集的數(shù)據(jù)量較大、注釋豐富,包含許多難以檢測的小臉,具有一定的可靠性,同時避免了過擬合現(xiàn)象的出現(xiàn),廣泛應用于性能評估更好的卷積神經(jīng)網(wǎng)絡.實驗選取該數(shù)據(jù)集中所有事件類別,每個類別的訓練集和測試集都是隨機選擇的,其中用于訓練集的樣本數(shù)是158 989,用于測試集的樣本數(shù)是195 218.
數(shù)據(jù)增廣技術主要有水平翻轉(zhuǎn)、隨機裁剪和顏色扭曲、隨機采集塊域,通過數(shù)據(jù)增廣可以提升算法性能.因此,很多時候可以通過對采集到的數(shù)據(jù)集進行數(shù)據(jù)增廣來進一步提高算法性能.
實驗輸入圖像尺寸大小為300×300,參數(shù)[10]設置為:迭代次數(shù)為5000,學習率為0.000 1,動量因子為0.9,權值衰減參數(shù)是0.000 5,IoU為0.6.根據(jù)檢測的難易程度將數(shù)據(jù)集劃分為三個等級:Easy、Medium和Hard.Easy類別的圖像尺寸較大,容易檢測,且準確率較高;Medium類別場景復雜度一般,人臉尺寸適中,檢測難度居中;Hard類別人臉分布密集程度高,場景相對復雜,且人臉尺寸較小,難以檢測,準確率較低.對常用的目標檢測算法[16]與本文提出的MFF-SSD算法進行對比,實驗結(jié)果見表2.
表2 各種算法檢測結(jié)果對比Tab.2 Comparison of detection results of various algorithms
表2中mAP(mean Average Precision)指的是不同類別下的均值平均精度,用來對模型精度進行定量分析;FPS(每秒傳輸幀數(shù))是目標檢測過程中處理速度的衡量指標.對表2中mAP和FPS兩列數(shù)據(jù)進行對比,在Wider Face數(shù)據(jù)集中,MFF-SSD模型的目標的檢測均值平均精度達到78.9%,檢測速度達到57 FPS.實驗結(jié)果表明,MFF-SSD算法檢測分類更準確,定位更精確,總體性能較好,滿足了均值平均精度和實時性的雙重要求.
本文提出的MFF-SSD目標檢測算法在滿足檢測精度的基礎上也達到了實時性要求,通過驗證實驗表明算法達到了對自然場景下人臉進行檢測的需求,并且相對于現(xiàn)有的目標檢測算法如SSD、DSSD等更加高效,不僅檢測精度高、速度快,同時對于智慧城市建設以及采用人臉檢測進行識別的各種智能系統(tǒng)等都具有一定的理論依據(jù)與現(xiàn)實意義.今后研究中可以利用上下文相關信息、語義信息以及場景信息等設計并實現(xiàn)檢測精度與速度更高效、更快速的新的目標檢測算法,力求滿足更加復雜條件下的目標檢測.