趙 珊,鄭愛玲
河南理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454003
目標(biāo)檢測是一種基于統(tǒng)計特征和幾何特征的圖像自動檢測過程,需要對圖像中的目標(biāo)進(jìn)行準(zhǔn)確的分類和定位。作為機(jī)器視覺領(lǐng)域的研究熱點,廣泛地應(yīng)用于智能監(jiān)控、無人機(jī)導(dǎo)航、智能交通等領(lǐng)域,但對于復(fù)雜環(huán)境中的目標(biāo),多變的光線和復(fù)雜的背景增加了目標(biāo)檢測的難度。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)成為研究的熱點。
目前基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩種,一種是以R-CNN[1]系列為代表的two-stage 目標(biāo)檢測算法,此類算法首先產(chǎn)生區(qū)域候選框,然后再對候選區(qū)域進(jìn)行分類和回歸,精度高但速度慢。另一種是以YOLO[2]、SSD[3]為代表的基于回歸的one-stage目標(biāo)檢測算法,此類算法直接對目標(biāo)物進(jìn)行回歸,速度快但精度低。針對two-stage 以及one-stage 算法的現(xiàn)存缺點,如何提高算法的檢測性能近年來備受關(guān)注。
由于網(wǎng)絡(luò)結(jié)構(gòu)的改善可增加模型的魯棒性,Shen等人[4]提出了基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的圖像識別,將視覺特征學(xué)習(xí)最大化,以實現(xiàn)精確的相似度估計。He等人[5]提出基于雙分支體素特征提取的三維物體檢測網(wǎng)絡(luò),在小尺度目標(biāo)物基礎(chǔ)上可捕捉更精細(xì)的幾何特征。熊偉華等人[6]提出將集成蒸餾策略和反卷積相結(jié)合用于目標(biāo)檢測,對于微小物體可達(dá)到與大型物體相似的精確度。為了獲得更多的特征細(xì)節(jié)信息,將全局信息和局部信息融合在一起的思想在視覺任務(wù)中得到了廣泛的應(yīng)用。Zhao等人[7]設(shè)計了金字塔池化模塊用于場景解析,提取分層的全局上下文先驗信息與局部FCN 特征連接,增加了網(wǎng)絡(luò)的利用率。陳灝然等人[8]基于感受野特征提取,融入特征融合模塊用于目標(biāo)檢測,保證了算法的識別率。Felzenszwalb 等人[9]結(jié)合全局根模型和精細(xì)的局部模型來表示高度可變的目標(biāo),緩解了小目標(biāo)的漏檢率。以上算法通過對細(xì)節(jié)特征的關(guān)注有效改善了算法性能,但在分類過程中,常會因算法模型忽略物體類別間的相關(guān)性而導(dǎo)致模型訓(xùn)練時間過長。
典型相關(guān)分析(canonical correlation analysis,CCA[10])通過學(xué)習(xí)兩個模態(tài)的投影矩陣,來實現(xiàn)跨模態(tài)之間的整體相關(guān)性,可直接對兩組隨機(jī)變量的相關(guān)關(guān)系進(jìn)行研究,但沒有考慮多物體的多類別信息,一定程度上影響了算法的性能。Haghighat 等人[11]基于此提出了判別相關(guān)分析(discriminant correlation analysis,DCA)的特征融合方法,充分利用單模態(tài)類別信息,有效地將同類特征信息進(jìn)行關(guān)聯(lián),同時消除不同類別樣本之間的相關(guān)性,緩解了網(wǎng)絡(luò)訓(xùn)練過程中的部分缺陷。后續(xù)學(xué)者[12-13]將相關(guān)分析算法同其他模型結(jié)合,并廣泛地應(yīng)用于整個計算機(jī)視覺領(lǐng)域,但對重點信息的關(guān)注和對無關(guān)信息的抑制仍然不夠。
為解決上述局限性,Hu 等人提出注意力機(jī)制SENet[14],較好地實現(xiàn)了特征通道間的相互依賴關(guān)系,但模型復(fù)雜度仍較高。針對此問題,Li 等人[15-17]提出很多改進(jìn)方法。近年來,雙注意力機(jī)制的提出有助于獲得對多種語義抽象的視覺關(guān)注,但增加注意力機(jī)制的層數(shù)也容易發(fā)生過擬合。
上述算法均在不同程度上提高了檢測精度,但大部分模型經(jīng)過多次卷積運算后無法檢測出分辨率較低的小目標(biāo),且受噪聲影響較大。本文針對該問題,提出一種判別相關(guān)分析的雙注意力機(jī)制的目標(biāo)檢測算法,以提高小目標(biāo)為出發(fā)點,將雙注意力機(jī)制與多尺度層次特征融合技術(shù)相結(jié)合,通過提取不同卷積級別的特征來檢測小目標(biāo)并合理的給不同的通道分配權(quán)重,實驗表明,本文提出的算法具有可行性。
Faster R-CNN[18]是兩階段目標(biāo)檢測的代表性算法,主要工作原理圖如圖1 所示。首先將圖片輸入到主干網(wǎng)絡(luò)中進(jìn)行目標(biāo)的特征提取,隨后將得到的特征圖采用區(qū)域生成網(wǎng)絡(luò)(region proposal networks,RPN)進(jìn)行k個目標(biāo)候選域(anchors)的生成,并選取不同的尺寸和比例,接著對生成的感興趣區(qū)域進(jìn)行二分類,在模型測試過程中,使用NMS 算法剔除冗余建議框,并將得分較高的建議框作為感興趣區(qū)域(ROIs),通過ROI pooling層統(tǒng)一大小后,送入多分類器進(jìn)行最后階段的分類與回歸。較原CNN 系列算法更新了區(qū)域生成方式,并通過兩次候選框的篩選,得到了較高的精度值,但正因為如此,網(wǎng)絡(luò)的耗時性也成為該算法的一大劣勢,再加上訓(xùn)練過程中特征圖經(jīng)過一系列操作后信息損失較多,小物體的漏檢也成為一個不可忽視的問題。
Faster R-CNN 之所以會導(dǎo)致小目標(biāo)的漏檢是因為它是一個單尺度檢測網(wǎng)絡(luò),經(jīng)過深度卷積后會導(dǎo)致特征提取不充分。針對尺度多變性問題,本文首先通過一種結(jié)合判別相關(guān)分析的特征融合技術(shù)代替常規(guī)特征融合方式,去分析變量間的相關(guān)關(guān)系來增強(qiáng)同類特征之間的相關(guān)性,同時最大化不同類之間的差異,保證特征間的信息交互,以緩解自然場景圖像中存在的尺度多變性問題。再者提出殘差雙注意力機(jī)制(residual attention mechanism,RAM)來挖掘類標(biāo)簽和局部特征關(guān)鍵區(qū)域之間的相關(guān)性,通過調(diào)整通道的權(quán)重比,獲取更豐富的特征信息以提高算法的檢測精度。在通道注意力模型的構(gòu)造過程中,通過結(jié)合空洞卷積技術(shù)設(shè)計混合卷積層,擴(kuò)大感受野的同時又減少了信息損失,另外殘差結(jié)構(gòu)的引入,使得全局信息和局部信息得到了有效整合,最大限度地保證了網(wǎng)絡(luò)的特征提取性能。本文算法的網(wǎng)絡(luò)模型如圖2所示。
信息融合是將多個信息源中獲取的數(shù)據(jù)進(jìn)行綜合、以獲得精確位置的過程。在這個過程中,信息處理也在不斷地自我修正,作為圖像識別算法的關(guān)鍵環(huán)節(jié),信息融合的方式極其重要。
對于原Faster R-CNN 使用的Concat 融合技術(shù),隨著分辨率小的特征通道數(shù)的增多,會帶來不必要的參數(shù)的增加,且當(dāng)數(shù)據(jù)集種類較多時,會對神經(jīng)網(wǎng)絡(luò)產(chǎn)生無形的壓力,不僅需要分析各類別之間的聯(lián)系與區(qū)別來提高算法的準(zhǔn)確率,還要考慮如何減少時間的消耗來提高算法的性能。
為解決這一問題,本文引入判別相關(guān)分析技術(shù)(DCA)代替常規(guī)特征融合方式,通過最大化兩個特征集對應(yīng)特征之間的相關(guān)性,同時最大化類間差異性的方法來實現(xiàn)特征融合。其中矩陣降維作為DCA算法的核心部分,用來揭示內(nèi)在線性結(jié)構(gòu),合并相似特征,去除冗余特征,數(shù)據(jù)集維數(shù)的縮減,可有效解決多類別目標(biāo)特征映射訪問內(nèi)存時所需的成本問題,從而加快計算速度。同時通過計算高層特征的類間散布矩陣,來突出不同類特征之間的差異,提高特征的判別能力,最后選擇串聯(lián)或相加兩種方式對不同高層特征間的顯著信息進(jìn)行融合,真正做到在降低特征維數(shù)的同時提高特征的表達(dá)能力,從而提高算法檢測效果。
DCA特征融合結(jié)構(gòu)如圖2中Feature Fusion部分所示。為了保證融合特征向量的最大可能長度,對于圖示五組特征,首先將秩最高的兩個特征集C1和C2通過DCA 算法融合在一起得到M12,接著將結(jié)果與下一個秩最高的特征集C3融合得到M123,對于相同等級的特征集,可隨時融合在一起,以此類推,直到最短的特征向量長度可在最后一步中確定,通過對此特征向量計算后得到兩個變換特征Z1和Z2,再對其使用串聯(lián)或相加操作得到最終融合特征,以圖像數(shù)據(jù)集的兩組高層特征矩陣C1、C2為例,DCA具體計算過程如下:
圖2 本文總體網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Overall network structure of article
假設(shè)A表示圖像數(shù)據(jù)集,N是數(shù)據(jù)集的類別數(shù)量屬于A,令上述圖像數(shù)據(jù)集A采集到的特征集的兩組高層特征矩陣C1和C2為X、Y,高層特征融合后的特征M12為Z,首先根據(jù)式(1)、(2)計算出類內(nèi)特征向量平均值以及類間特征向量平均值。
式(1)中表示第i類下的xij向量的平均值,ni表示第i類圖像的數(shù)量,xij∈X表示第i類的第j個樣本,式(2)中表示整個特征矩陣Q的平均值,由和可得出不同特征類間關(guān)系的散布矩陣Sbx,如式(3)所示:
式中,Q是的正交特征向量矩陣,Λ為降序排列特征值的對角陣,為了得到r階最大非零特征,取Q中前r個特征向量用φ(N×r)表示,則:
令轉(zhuǎn)換矩陣Wbx=ΦbxφΛ-1/2將Sbx單位化,并且可使得特征矩陣X的維數(shù)從p降到r,如式(7)、(8)所示:
式中,I是經(jīng)過Wbx轉(zhuǎn)換降維后的類間散布矩陣,經(jīng)過變換后,大大減少了高層特征中不同類別之間的聯(lián)系。
重復(fù)上述計算過程,可求得另一特征集變換矩陣Y′,為了增加X中的特征與Y中對應(yīng)同類特征之間的相關(guān)性,需使用奇異值分解來對角化變換后兩個高層特征矩陣X′和Y′的類間協(xié)方差矩陣S′xy,即S′xy=X′Y′T,S′xy(r×r)=UΣVT,式中,Σ是含有非零元素的對角矩陣,則(UΣ-1/2)TS′xy(VΣ-1/2)=I。同理,令Wcx=UΣ-1/2,Wcy=VΣ-1/2為轉(zhuǎn)換矩陣,可得到最終的轉(zhuǎn)換特征集X*和Y*,如式(9)、(10)所示:
式中,Wx與Wy分別為高層特征X和Y的轉(zhuǎn)換矩陣,且X和Y經(jīng)過DCA 降維后,轉(zhuǎn)換特征集的類間散度矩陣同為對角矩陣,由此可見,該算法最大化相同類之間的聯(lián)系以及不同類之間的差異的性能進(jìn)一步得以體現(xiàn),最后,為了不增加特征向量的維度,本文選用相加操作進(jìn)行特征融合,如式(11)所示:
一般來說,網(wǎng)絡(luò)經(jīng)過一系列卷積之后,會得到部分特征信息,但不會自動區(qū)分高低頻間的詳細(xì)信息與各個類別特征間的差異性,網(wǎng)絡(luò)選擇性地使用特征的能力有限,鑒于注意力機(jī)制能夠選擇聚焦位置,產(chǎn)生更具分辨性的特征表示,且加入注意力模塊后的特征會隨著網(wǎng)絡(luò)的加深產(chǎn)生適應(yīng)性的改變,本文參考雙注意力網(wǎng)絡(luò)CBAM[19],并在此基礎(chǔ)上進(jìn)行改進(jìn)。通過引入殘差結(jié)構(gòu),將其與提出的雙注意力網(wǎng)絡(luò)相結(jié)合來構(gòu)造殘差雙注意力模型,此模型將空間注意力和通道注意力并行組合,使得不同類型的有效信息被大量捕捉到,可有效增強(qiáng)特征辨別學(xué)習(xí)能力,在網(wǎng)絡(luò)訓(xùn)練過程中,任務(wù)處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中顯著的與當(dāng)前輸出相關(guān)的有用信息,從而提高輸出的質(zhì)量,且漸增的注意力模塊將帶來持續(xù)的性能提升,具體如圖3所示。首先將輸入圖像F分別進(jìn)行通道注意力和空間注意力操作進(jìn)行特征提取,接著通過結(jié)合判別相關(guān)分析的特征融合技術(shù)將通道注意力特征圖FMC和空間注意力特征圖FMS相加,分析變量的相關(guān)關(guān)系來增強(qiáng)同類特征之間的相關(guān)性,然后經(jīng)過一個Sigmoid函數(shù)來學(xué)習(xí)特征通道間的非線性關(guān)系,再逐元素與原特征相乘,得到經(jīng)過自適應(yīng)特征學(xué)習(xí)后的加權(quán)特征圖F′,最后經(jīng)過一個全局跳連將深淺層特征融合來進(jìn)行信息重構(gòu),避免了高分辨率特征經(jīng)過一系列操作后導(dǎo)致的信息丟失問題,其目標(biāo)特征得到了充分學(xué)習(xí)與強(qiáng)化。
圖3 殘差雙注意力機(jī)制模型結(jié)構(gòu)圖Fig.3 Structure diagram of residual attention mechanism model
對于一個輸入特征圖F∈RC×H×W(C、H、W表示的是特征圖的通道數(shù)、長度和寬度),殘差雙注意力模塊的計算過程如式(12)所示:
式中,MC(·)表示通道注意力操作,MS(·)表示空間注意力操作,DCA(·)為判別分析操作,σ為Sigmoid函數(shù),F(xiàn)為輸入圖像,?表示元素乘法,在乘法過程中注意特征值被相應(yīng)地傳播,F(xiàn)′為經(jīng)過自適應(yīng)特征學(xué)習(xí)后的加權(quán)特征圖,+表示全局跳連操作,F(xiàn)″為最終輸出。
2.2.1 殘差結(jié)構(gòu)
隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)的分類準(zhǔn)確度得到一定程度的提高,但超過一定的深度后,會受低分辨率的影響,導(dǎo)致網(wǎng)絡(luò)損失值變大,分類性能發(fā)生退化。針對此問題,何凱明等人提出殘差模塊ResNet,如圖4 所示。通過在卷積層的輸入和輸出之間添加Skip Connection實現(xiàn)層數(shù)回退機(jī)制,經(jīng)過特征圖的維度匹配后,將低層特征圖直接映射到高層,進(jìn)行對應(yīng)位置元素相加,得到最終殘差模塊輸出H(x)=F(x)+x。
圖4 殘差模塊Fig.4 Residual model
考慮到本文提出的雙注意力模型的深度,將殘差模塊引入本文模型中進(jìn)行信息重構(gòu),在保留結(jié)構(gòu)化信息的同時彌補(bǔ)高、低分辨率圖像之間的高頻信息損失。首先使用卷積神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)到的結(jié)構(gòu)化的圖像信息訓(xùn)練一個端到端的網(wǎng)絡(luò)模型,再采用殘差模型將原始圖像信息與經(jīng)過一系列操作后得到的對分類有利的語義信息進(jìn)行結(jié)合,對丟失的高頻信息進(jìn)行補(bǔ)償,使得目標(biāo)特征得到了充分學(xué)習(xí)與強(qiáng)化,從而獲得具有更好視覺效果的高分辨率圖像。
2.2.2 通道注意力模型
通道注意力模型利用特征的通道間關(guān)系生成通道注意力特征圖,用來關(guān)注輸入的圖像中是否包含有意義的輸入目標(biāo),在改善深度卷積神經(jīng)網(wǎng)絡(luò)性能方面具有巨大的潛力,具體通過自動學(xué)習(xí)的方式獲取每個通道的重要程度并為其賦予不同的權(quán)值,使得神經(jīng)網(wǎng)絡(luò)達(dá)到對重點信息的關(guān)注以及對無關(guān)信息的抑制效果,來提高特征提取網(wǎng)絡(luò)的表征能力,另外通過結(jié)構(gòu)化地選取輸入的子集,可有效減小處理高維輸入數(shù)據(jù)的計算負(fù)擔(dān),降低數(shù)據(jù)維度。本文提出的通道注意力模塊具體如圖5 所示。首先將特征圖F輸入混合卷積層(mixed convolution layer,MCL)中,此模塊的設(shè)計包括并聯(lián)的四個分支,由一個卷積核大小為3×3的普通卷積層以及三個卷積核大小為3×3的空洞卷積層構(gòu)成,分別對輸入特征圖進(jìn)行操作,將空洞卷積三個分支的擴(kuò)張率分別設(shè)置為2、3、4,通過不同擴(kuò)張率的設(shè)置可獲得不同感受域的圖像信息,即可得到不同尺度的特征圖,在擴(kuò)大感受野的同時,又避免了下采樣損失信息,接著將4 個分支特征圖進(jìn)行融合,使得采樣更為密集,既擁有了高層特征,也沒有增加額外的參數(shù)量?;旌暇矸e層得到的特征通過全局平均池化將每個通道上的二維特征圖壓縮為一個實數(shù),作為該通道的權(quán)重,通道注意力分支通過自動學(xué)習(xí)特征在通道維度上的權(quán)重分布來獲取每個通道的重要程度,最后經(jīng)過一層全連接層將所得到的權(quán)重信息有效整合并作為預(yù)測向量進(jìn)行輸出,在訓(xùn)練過程中,對通道權(quán)重比不斷優(yōu)化,最大限度地保證網(wǎng)絡(luò)的特征提取性能,生成最終需要的通道注意力特征圖。
圖5 通道注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Channel attention network structure
對于輸入特征圖F∈RC×H×W,通道注意力模塊的計算過程如式(13)所示:
式中,F(xiàn)MC表示通道注意力特征圖,MC(·)表示通道注意力模塊的內(nèi)部操作,F(xiàn)為輸入圖像,W為Softmax 函數(shù),F(xiàn)C表示全連接層操作符,GAP(·)為全局平均池化操作,MCL(·)表示混合卷積層的內(nèi)部操作,其中conv為標(biāo)準(zhǔn)卷積,dconvi為空洞卷積,i為空洞卷積的第幾分支,⊕表示元素加法。
2.2.3 空間注意力模型
空間注意力模型利用特征間的空間關(guān)系生成空間注意力特征圖,是對通道注意力特征圖的一個強(qiáng)化補(bǔ)充,兩者不同的是通道注意力關(guān)注的是每個特征面的權(quán)重,而空間注意力關(guān)注的是面上每一個局部的權(quán)重,即目標(biāo)所在位置的特征信息,具體通過不同的卷積器提取圖像中的邊緣和紋理信息,來增強(qiáng)網(wǎng)絡(luò)辨別學(xué)習(xí)能力,提升算法的檢測精度,如圖6所示。首先將輸入特征圖F沿通道進(jìn)行平均池化和最大池化操作,接著將聚合的通道注意力特征分成兩個二維映射:FMSAX和FASvg,分別表示通道中的平均池化特征和最大池化特征,通過標(biāo)準(zhǔn)卷積后再經(jīng)過Sigmoid函數(shù)激活,最終生成二維空間注意力特征圖。
圖6 空間注意力網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Spatial attention network structure
對于輸入特征圖F∈RC×H×W,空間注意力模塊的計算過程如式(14)所示:
式中,表示空間注意力特征圖,MS(·)表示空間注意力模塊的內(nèi)部操作,F(xiàn)為輸入圖像,σ為Sigmoid 函數(shù),f7×7表示卷積核為7×7的卷積操作,AvgPool(·)和MaxPool(·)分別表示平均池化和最大池化操作。
本文所用實驗配置為Windows10操作系統(tǒng),CPU為Intel i5-3337U,主頻為1.80 GHz,內(nèi)存為8 GB,GPU 為NVIDIA TITAN V,顯存大小為12 GB,開發(fā)語言為Python3,深度學(xué)習(xí)框架為TensorFlow,在梯度下降優(yōu)化過程中,初始學(xué)習(xí)率設(shè)置為0.001,動量更新和正則化權(quán)重衰減分別設(shè)置為0.9 和0.000 5,batch size 設(shè)置為32,用loss函數(shù)反向傳播來調(diào)整網(wǎng)絡(luò)各層的權(quán)值,用平均精度(mean average precision,MAP)作為算法的衡量指標(biāo),用每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)來衡量算法的檢測速度。
本節(jié)選用PASCAL VOC2007作為實驗數(shù)據(jù)集,共有9 963張圖片,其中訓(xùn)練集5 011張圖片,測試集4 952張圖片,包含20個類別。大部分圖片背景復(fù)雜,包含多種類別的多個物體,為了保證測試的公平性,所有算法迭代次數(shù)均設(shè)置為20 000 次,當(dāng)?shù)?5 000 步時,將學(xué)習(xí)率衰減為0.000 1。
本文提出的算法與其他4 種檢測模型在PASCAL VOC2007 數(shù)據(jù)集上的精度對比結(jié)果如表1 所示。其中YOLO[2]算法、SSD[3]算法作為一階段檢測的代表性算法,實時性較強(qiáng),但因為本身固有的局限性,導(dǎo)致網(wǎng)絡(luò)利用率不高。較一階段檢測算法,F(xiàn)ast R-CNN[20]與Faster R-CNN[18]算法定位誤差較小,但部分物體精度值較低。而本文提出的算法以提高小目標(biāo)為出發(fā)點,重點關(guān)注細(xì)節(jié)信息,通過對常規(guī)融合方式的改進(jìn),減少了不必要的參數(shù)的增加。同時殘差雙注意力機(jī)制的提出,使得神經(jīng)網(wǎng)絡(luò)自動關(guān)注重點信息,抑制無關(guān)信息,有效提高了網(wǎng)絡(luò)的利用率,最終準(zhǔn)確率達(dá)到了77.5%,與原Faster R-CNN 模型相比,精度值提升了5.3 個百分點,取得了較為不錯的檢測結(jié)果。
表1 不同目標(biāo)檢測算法的實驗結(jié)果對比Table 1 Comparison of experimental results of different object detection algorithms %
對應(yīng)表1數(shù)據(jù)值,將實驗結(jié)果以散點圖的形式展現(xiàn)如圖7所示,可以更清晰地看出本文所提算法同其他算法相比具有較好的檢測效果。
圖7 不同檢測算法的精度結(jié)果對比圖Fig.7 Comparison of accuracy results of different detection algorithms
訓(xùn)練過程中的Loss 曲線圖如圖8 所示,由圖可知,在經(jīng)過15 000 次迭代后本文提出的算法模型可以很好地實現(xiàn)收斂。
圖8 模型訓(xùn)練Loss曲線圖Fig.8 Loss curves of model training
為了進(jìn)一步驗證本文算法的檢測效果,不同算法在PASCAL VOC2007 數(shù)據(jù)集上的檢測結(jié)果示例如圖9 所示。由圖可知,YOLO[2]算法在很大幾率上存在漏檢、錯檢問題,F(xiàn)aster R-CNN[18]算法雖說能檢測出大部分目標(biāo)物,但也存在不能精細(xì)化回歸定位問題,SSD[3]算法結(jié)合特征金字塔思想,部分小目標(biāo)的檢測率得到了一定的提高,但檢測精度較低。本文算法吸取經(jīng)驗,以關(guān)注小目標(biāo)為出發(fā)點,解決了各個算法中存在的精細(xì)化回歸定位問題且各目標(biāo)物的分值也有了明顯的提升,檢測效果均優(yōu)于其他幾種模型,進(jìn)一步證明了本文算法的可行性。
圖9 不同目標(biāo)檢測算法的實驗結(jié)果對比圖Fig.9 Comparison of experimental results of different object detection algorithms
本節(jié)選用KITTI數(shù)據(jù)集作為實驗數(shù)據(jù)集,共有7 482張圖片,其中訓(xùn)練集6 001張圖片,測試集1 481張圖片,包含8個類別。為了便于統(tǒng)計分析,現(xiàn)將其融合為3個類別:Car、Person、Cyclist,在街景圖像中,大部分目標(biāo)物與背景相似或相融,識別結(jié)果能進(jìn)一步體現(xiàn)出算法的檢測性能,為了保證測試的公平性,所有算法模型均訓(xùn)練50個Epoch。
本文提出的算法與其他4種檢測模型在KITTI數(shù)據(jù)集上的對比結(jié)果如表2 所示,其中SSD[3]的實驗結(jié)果引自文獻(xiàn)[21],YOLOV3[22]、AM-YOLOV3的實驗結(jié)果引自文獻(xiàn)[22],由實驗結(jié)果可知,本文檢測效果較為理想,檢測速度較YOLOV3只慢了2 FPS,基本達(dá)到了實時檢測的要求。
表2 在KITTI數(shù)據(jù)集上不同目標(biāo)檢測算法的結(jié)果對比Table 2 Comparison of results of different object detection algorithms on KITTI dataset
在KITTI 數(shù)據(jù)集上不同算法及各類目標(biāo)精度值的結(jié)果對比如圖10 所示。由圖可知,結(jié)合判別相關(guān)分析的特征融合技術(shù)可有效保證信息間的交互,在降低特征維數(shù)的同時能夠有效提高特征的判別能力。較Faster R-CNN[18]、SSD[3]以及YOLOV3[22]算法相比,本文算法提高了數(shù)據(jù)集中每一類目標(biāo)的平均精準(zhǔn)度。對于AM-YOLOV3[22]算法,汽車的檢測精度值略有下降,但人和自行車的精度值均有一定的提升。
圖10 不同檢測算法各類目標(biāo)物的精度結(jié)果對比圖Fig.10 Comparison of accuracy results of various targets with different detection algorithms
本節(jié)選用從各個數(shù)據(jù)集中挑選出來部分?jǐn)?shù)據(jù)所組成小型人像數(shù)據(jù)集作為實驗數(shù)據(jù)集,將其命名為Portrait數(shù)據(jù)集,并用LabelImg 工具做好標(biāo)注信息。此類數(shù)據(jù)集一共包含5 769 張圖片,其中訓(xùn)練集4 633 張圖片,測試集1 136 張圖片,分為真人、擺件、海報、雕塑等類別,為了保證測試的公平性,所有算法模型均訓(xùn)練50個Epoch。
本文提出的改進(jìn)算法與其他幾種檢測模型在人像數(shù)據(jù)集上的對比結(jié)果如表3 所示,由實驗數(shù)據(jù)可知,一階段檢測算法較Faster R-CNN[18]具有明顯的速度優(yōu)勢,但隨著IOU 的增大,不能與真實數(shù)據(jù)完美契合,最終達(dá)不到理想檢測效果。本文算法對于不同尺度的高低層信息,使用基于判別相關(guān)分析的方法進(jìn)行特征融合,使得每個尺度特征都具有豐富的語義信息,另外混合卷積層的設(shè)計,在一定程度上融合了不同尺度的特征信息,在應(yīng)對不同類別的人像時可表現(xiàn)出較好的檢測性能,最終達(dá)到了80.9%的準(zhǔn)確率,檢測精度和速度較原Faster R-CNN 算法[18]分別提升了3.7%和23 FPS,取得了較為不錯的檢測結(jié)果。
表3 在Portrait數(shù)據(jù)集上不同目標(biāo)檢測算法的結(jié)果對比Table 3 Comparison of results of different object detection algorithms on Portrait dataset
為了更好地理解本文各個改進(jìn)模塊對檢測效果的影響,在Portrait數(shù)據(jù)集上進(jìn)行消融實驗,實驗結(jié)果如表4所示。從實驗結(jié)果可以看出,DCA[11]算法的引入,有效緩解了常規(guī)特征融合方式存在的特征提取能力不足問題,保證了特征間的信息交互,且數(shù)據(jù)降維能夠有效解決多類別目標(biāo)特征映射訪問內(nèi)存時的所需成本問題,從而提高算法運行速度,與原Faster R-CNN[18]算法相比,MAP值從77.2%提高到77.8%,且檢測速度提升了2 FPS。殘差雙注意力網(wǎng)絡(luò)(RAM)的提出,不僅有助于模型有針對性地處理具有不同屬性的層次特征,而且增加了每一特征所表征的信息量,其中混合卷積層的設(shè)計在擴(kuò)大感受野的同時又減少了信息損失,最大限度地保證了網(wǎng)絡(luò)的特征提取性能,較Faster R-CNN算法提升了3.1個百分點,速度提高了18 FPS,同時較另外兩種注意力機(jī)制SENet[14]、CBAM[19],MAP 值分別提升了1.2 個百分點以及0.7 個百分點,檢測速度分別提升了5 FPS 以及3 FPS,完全滿足實時性檢測的要求,體現(xiàn)了其較好的檢測性能。
表4 在Portrait數(shù)據(jù)集上的消融實驗對比Table 4 Comparison of ablation experiments on Portrait dataset
分別將注意力機(jī)制SENet[14]、CBAM[19]以及本文提出的RAM結(jié)構(gòu)結(jié)合Faster R-CNN進(jìn)行訓(xùn)練,三種網(wǎng)絡(luò)模型第一個全連接層中的參數(shù)可視化如圖11所示。由圖可知,F(xiàn)aster R-CNN+RAM模型結(jié)構(gòu)在保證識別準(zhǔn)確率的基礎(chǔ)上使用了更少的參數(shù),具體歸因于三個方面:首先通道注意力機(jī)制采用混合卷積層的設(shè)計不僅可融合不同尺度的特征信息,且引入空洞卷積擴(kuò)大感受野的同時沒有增加額外的參數(shù)量,其次使用DCA 算法代替常規(guī)融合方式,在保證信息交互的同時進(jìn)行數(shù)據(jù)降維,減少了不必要的參數(shù)的增加,最后選擇不增加矩陣維度的相加操作方式進(jìn)行高層特征信息集成,在一定程度上同樣保證了模型的計算量,進(jìn)一步說明了本文提出的殘差雙注意力模型的優(yōu)勢。
圖11 不同注意力機(jī)制模型參數(shù)對比圖Fig.11 Comparison chart of parameters of different attention mechanism models
為了進(jìn)一步驗證本文算法的有效性,將本文算法應(yīng)用在Portrait 數(shù)據(jù)集上進(jìn)行真值圖與預(yù)測圖的對比,結(jié)果如圖12所示,由圖可知,本文算法能夠很好地檢測出人像,使得預(yù)測圖在很大程度上接近真值圖。圖13 示例了本文算法在Portrait 數(shù)據(jù)集上的部分檢測結(jié)果,可見經(jīng)過訓(xùn)練的模型可以較好地實現(xiàn)目標(biāo)檢測的功能,對于數(shù)據(jù)集中的真人,檢測效果較理想,精度值較高。對于海報中的肖像,因其特征大概率接近真人,所以檢測效果也很明顯,但對于雕塑以及小型擺件來說,由于主體缺少靈活性且部分特征不突出,導(dǎo)致檢測精度與另外兩類相比略有差距,此類問題也是今后研究過程中需要關(guān)注的問題。
圖12 在Portrait數(shù)據(jù)集上真值圖和預(yù)測圖的對比結(jié)果Fig.12 Comparison results of truth map and prediction map on Portrait dataset
圖13 本文算法在Portrait數(shù)據(jù)集上的部分檢測結(jié)果圖Fig.13 Part of detection results of proposed algorithm on Portrait dataset
為解決Faster R-CNN 算法檢測小目標(biāo)的不足,提出了一種基于判別相關(guān)分析的雙注意力機(jī)制的目標(biāo)檢測算法。對于輸入圖像經(jīng)過深度CNN 后的多尺度特征,通過結(jié)合判別相關(guān)分析的特征融合技術(shù)最大化兩個特征集中對應(yīng)特征的相關(guān)關(guān)系,同時最大化不同類之間的差異,來保證信息間的交互,在降低特征維數(shù)的同時提高了特征的判別能力。對于融合后的特征,選擇引入雙注意力機(jī)制來增強(qiáng)網(wǎng)絡(luò)的信息表征能力,使得神經(jīng)網(wǎng)絡(luò)可自動學(xué)習(xí)特征間的重要性,可有效地提升小目標(biāo)的特征信息,其中混合卷積層的設(shè)計,在擴(kuò)大感受野的同時,又避免了下采樣損失信息,最后結(jié)合殘差結(jié)構(gòu)進(jìn)行信息重構(gòu),避免了高分辨率特征信息弱化問題,大大改善了網(wǎng)絡(luò)的檢測性能,實驗表明,本文提出算法具有可行性。下一步將進(jìn)一步改進(jìn)本文方法,并嘗試與其他網(wǎng)絡(luò)模型結(jié)合,尋找最優(yōu)的網(wǎng)絡(luò)模型去解決不同光照條件下的多尺度的目標(biāo)檢測問題。