劉 富,羅 冰,裴 崢
(西華大學(xué)無線電管理技術(shù)研究中心,四川 成都 610039)
目標(biāo)定位已被應(yīng)用至監(jiān)控、二維碼識別等領(lǐng)域,它要求生成準(zhǔn)確圍繞目標(biāo)的檢測框[1?2]。目標(biāo)定位以目標(biāo)檢測框作為監(jiān)督信息,需要大量的訓(xùn)練數(shù)據(jù)。隨著其應(yīng)用領(lǐng)域的不斷拓展,在新場景下制作準(zhǔn)確且大量的標(biāo)簽便成為了一個棘手的問題,于是研究者探索弱監(jiān)督下的解決辦法[3?4],即僅使用圖像類別標(biāo)簽。Class activation maps(CAM)[4]在圖像分類網(wǎng)絡(luò)[5]中引入全局均值池化并取消部分全連接層,在網(wǎng)絡(luò)中間層得到與目標(biāo)類別對應(yīng)的激活區(qū)域,利用該區(qū)域,加以閾值篩選,完成目標(biāo)定位。然而,CAM 所得的結(jié)果趨向于覆蓋目標(biāo)的顯著性區(qū)域。這是因為在圖像分類任務(wù)中,目標(biāo)的顯著性區(qū)域,如鳥的頭、人的軀干等,能夠提供強大的類別信息,這便導(dǎo)致網(wǎng)絡(luò)在分類預(yù)測時會過于依賴它們。在這樣的情況下,中間層特征往往僅在目標(biāo)顯著性區(qū)域激活,以致無法得到準(zhǔn)確的定位結(jié)果。
針對上述問題,一系列擦除式方法[6?7]被提出。Adversarial erasing(AE)[6]將所得激活區(qū)域在原圖像上進行擦除,在擦除后的圖像上進行分類訓(xùn)練,迫使網(wǎng)絡(luò)關(guān)注目標(biāo)的其他部位。Attentionbased dropout layer(ADL)[7]通過注意力機制探索顯著性區(qū)域并隨機地擦除它們,其訓(xùn)練過程更為簡便。當(dāng)顯著性區(qū)域被擦除后,網(wǎng)絡(luò)只能從目標(biāo)其余部位獲取類別信息,其對這些部位的依賴程度越高,對應(yīng)激活值也就越大,這樣便達到了平衡顯著性區(qū)域與其余部位的目的。不同于以往修正特征的方法,本文從損失函數(shù)上探索區(qū)域平衡策略。筆者發(fā)現(xiàn),經(jīng)卷積神經(jīng)網(wǎng)絡(luò)所提取的視覺特征通常在不同通道表征不同的區(qū)域,并且目標(biāo)激活區(qū)域由這些通道及它們對應(yīng)的分類層權(quán)重決定,但是極少數(shù)的通道卻占據(jù)了較大的權(quán)重,而這些通道的視覺信息恰好對應(yīng)顯著性區(qū)域,這便導(dǎo)致了定位區(qū)域響應(yīng)的稀疏性。為使網(wǎng)絡(luò)在定位目標(biāo)時充分考慮各個通道所攜帶的視覺信息,本文提出分類層權(quán)重的自適應(yīng)標(biāo)準(zhǔn)差正則項(standard deviation regularization,SDR),通過控制正則項所涵蓋的權(quán)重范圍,分類層能夠在學(xué)習(xí)到相近權(quán)重的同時保留分類能力,這樣便能完成目標(biāo)區(qū)域平滑。
由于缺少檢測框標(biāo)簽信息,弱監(jiān)督目標(biāo)定位無法如目標(biāo)檢測那般直接進行回歸,更多的是采用由視覺特征生成檢測框這樣自下而上的方法。
弱監(jiān)督目標(biāo)定位方法大多基于CAM[4]。CAM首先訓(xùn)練圖像分類網(wǎng)絡(luò),然后將所得分類層權(quán)重與對應(yīng)視覺特征進行卷積,得到定位區(qū)域。然而,這樣的方法通常只能得到目標(biāo)的顯著性區(qū)域。為了解決該問題,AE[6]利用所得顯著性區(qū)域?qū)υ瓐D像進行擦除,迫使網(wǎng)絡(luò)關(guān)注整個目標(biāo)。Hide-and-seek(Has)[8]則采用了隨機擦除圖像塊的方式,簡便同時有效。在擦除后的圖像上提取信息會導(dǎo)致性能下降,于是,Adversarial complementary learning(Acol)[9]融合顯著性區(qū)域與擦除后結(jié)果,得到了更為整體的目標(biāo)。上述方法需要先得到顯著性區(qū)域后,才能進行擦除,訓(xùn)練步驟繁瑣。ADL[7]則直接利用注意力機制[10]提取顯著性區(qū)域,并隨機擦除視覺特征,能夠在減少訓(xùn)練步驟的同時提升準(zhǔn)確率。不同于上述擦除式的方法,Divergent activation(DANet)[11]從相似的物種間提取共性并引入空間位置差異,迫使網(wǎng)絡(luò)學(xué)習(xí)到更多視覺模式。然而,這些方法均從修正視覺特征的角度出發(fā),并未關(guān)注到分類層權(quán)重對激活區(qū)域的影響。
目標(biāo)檢測方法按回歸次數(shù)可分為:一階段檢測方法、二階段檢測方法。整體上,一階段方法僅進行單次回歸,處理速度快,但準(zhǔn)確率不如后者。You only look once(YOLO)[12]將特征譜分為數(shù)個網(wǎng)格,并在網(wǎng)格上進行回歸??紤]到較小的目標(biāo)在網(wǎng)絡(luò)的最高層可能丟失,Single shot multibox detector(SSD)[13]采用了多級檢測方法。Focal Loss[14]針對訓(xùn)練樣例中正負例不均衡的問題,將focal loss用于平衡正負例損失。上述方法雖擁有較快的檢測速度,但對設(shè)備性能的要求仍然較高,無法應(yīng)用于輕量化終端。文獻[15]使用MobileNetV2 替換YOLOv3 特征提取網(wǎng)絡(luò),并提出針對紅外圖像的增強算法,能夠在提升檢測精度的同時大大減少模型參數(shù)量。在二階段檢測方法中,R-CNN[16]首先提取候選區(qū)域,然后進行回歸。在R-CNN 中,每個候選區(qū)域均會進行單獨的特征提取,速度較慢。FAST R-CNN[17]針對整幅對象僅提取一次特征,并直接利用候選區(qū)域選擇特征,能夠大大加快檢測速度。傳統(tǒng)算法由于無法使用GPU 加速處理,提取候選區(qū)域的速度較慢。Faster R-CNN[18]則提出直接由卷積網(wǎng)絡(luò)生成候選區(qū)域,速度更快。這類方法需要檢測框標(biāo)簽,但標(biāo)簽制作較為繁瑣。本文則考慮僅使用弱標(biāo)簽,意在減輕標(biāo)注工作量。
現(xiàn)有方法較少關(guān)注分類層權(quán)重對目標(biāo)區(qū)域的影響。本文通過引入分類層權(quán)重的自適應(yīng)標(biāo)準(zhǔn)差正則項,迫使網(wǎng)絡(luò)學(xué)習(xí)到相近的權(quán)重,能夠在降低顯著性區(qū)域關(guān)注度的同時提升其余區(qū)域所占比重。網(wǎng)絡(luò)框架圖如圖1 所示。圖中GAP 表示全局均值池化,Conv 表示卷積操作。
圖1 網(wǎng)絡(luò)框架圖
目標(biāo)區(qū)域生成需要首先訓(xùn)練圖像分類網(wǎng)絡(luò)。對于一幅圖片I,利用卷積網(wǎng)絡(luò)提取其視覺特征X,X=f(I,W1),其中f、W1分別表示卷積網(wǎng)絡(luò)及其參數(shù)。X∈RK×H×W,K、H、W分別表示視覺特征的通道數(shù)、高和寬。然后池化視覺特征并進行類別預(yù)測,其損失函數(shù)可表示為:
式中:yi表 示圖像類別標(biāo)簽;pi表示圖片屬于類別i的 概率;C表示類別總數(shù);Xavg∈RK,表示在特征譜X上進行全局均值池化的結(jié)果;f2、W2分別表示分類層及其權(quán)重,W2∈RC×K;softmax表示激活函數(shù)。W2表示了網(wǎng)絡(luò)對各個通道所攜帶類別信息的依賴程度,值越高,表明對應(yīng)通道池化前的視覺區(qū)域越能提供強大的類別信息,利用這樣的對應(yīng)關(guān)系便可得到目標(biāo)區(qū)域。在具體實現(xiàn)上,使用W2在X上進行卷積,并進行歸一化后,得到目標(biāo)區(qū)域Gn,為
式中:G表 示卷積結(jié)果;min、max分別表示取最小值與最大值。此外,為剔除背景,需進行閾值篩選,其篩選結(jié)果為
式中Gs表示目標(biāo)區(qū)域經(jīng)閾值 γ篩選后的結(jié)果。然而,這樣的方法趨向于覆蓋目標(biāo)最具有顯著性類別信息的部位。為得到覆蓋目標(biāo)全局的結(jié)果,本文提出了分類層權(quán)重的自適應(yīng)標(biāo)準(zhǔn)差正則項。
分類層權(quán)重W2在 視覺特征X上的卷積可以拆分為乘積的和。記二者乘積的結(jié)果為M,則M∈RC×K×H×W。在M的通道維度求和,即可得到卷積結(jié)果G,G∈RC×H×W。該結(jié)果能夠表示圖像I中不同類別目標(biāo)的激活區(qū)域。在M的空間維度求均值得到S,S∈RC×K。該結(jié)果能夠表示特定類別下各個通道在生成激活區(qū)域時所占的比重。然而,在通道重要性S中,極少數(shù)通道產(chǎn)生了較大的值,并支配了最終定位區(qū)域。如圖2 所示,S由大至小排序后,前3 個值遠遠大于其他,這表明激活區(qū)域易受少部分通道影響。它們對應(yīng)通道的激活區(qū)域如圖3 中第1 行所示,均落在了鳥的頭頂位置。圖3 中第2 行則是那些較小的值所對應(yīng)的區(qū)域,它們雖然能夠覆蓋目標(biāo)的其余位置,如鳥頭、鳥嘴,但由于遠遠低于前3 個值,經(jīng)閾值篩選后往往被視為背景。對激活區(qū)影響最大的3 個通道僅覆蓋鳥的頭部,而其他通道雖覆蓋更多部位,但由于權(quán)重過低,往往被視為背景,這導(dǎo)致了激活區(qū)域的不平滑??s小通道重要性S之間的差距,便可保留更多目標(biāo)區(qū)域。引入分類層權(quán)重W2的標(biāo)準(zhǔn)差正則項能驅(qū)使網(wǎng)絡(luò)學(xué)習(xí)到相近的權(quán)重,這樣便能平衡各個通道所占比重,但是,當(dāng)所有權(quán)重相近時,網(wǎng)絡(luò)將無法進行類別判斷。因此,本文僅考慮對生成激活區(qū)域貢獻最大的前Q項。記S最大值與閾值 γ的乘積為通道閾值Ss,則大于Ss的項表征前景的可能性更高,那么將Q初步確定為S中大于Ss的項數(shù)便能將權(quán)重平滑控制在表征前景的通道上。在該情況下,引入的標(biāo)準(zhǔn)差正則項為
圖2 通道重要性S
圖3 通道重要性S 中各序號對應(yīng)激活區(qū)域
式中:λ表示超參數(shù),用于控制正則項在損失中的比重。這樣便能迫使網(wǎng)絡(luò)在保持分類性能的同時學(xué)習(xí)到相近的權(quán)重。使用平衡后的權(quán)重在視覺特征上進行卷積便可得到更為整體的目標(biāo)區(qū)域。與以往方法[4]相同,經(jīng)閾值 γ篩選后,在所得區(qū)域上計算聯(lián)通圖便可得到檢測框。
本文在CUB200-2011[19]、OpenImages[20]數(shù)據(jù)集上進行實驗。CUB200-2011 共有11 778 張圖片,其中5 994 張圖片用于訓(xùn)練,5 794 張圖片用于測試,共涵蓋200 個類別。在OpenImages 方面,有29 819 張圖片用于訓(xùn)練,2 500 張圖片用于驗證,5 000 張圖片用于測試,共涵蓋100 個類別。與文獻[4]中方法相同,量化指標(biāo)選擇TOP-1Loc、TOP-1Clas、MaxBoxAccV2[20](Max)、PxAP[20]。TOP-1Loc 表示預(yù)測檢測框與真實檢測框交并比超過50%且類別預(yù)測正確的圖片比例。TOP-1Clas 表示圖片分類預(yù)測的正確率。與TOP-1Loc 不同,Max 不考慮類別預(yù)測是否正確,并且在生成檢測框時,Max 選擇多個閾值篩選,并保留全體測試數(shù)據(jù)在不同閾值下效果最佳的一項。相較于TOP-1Loc,Max 更側(cè)重體現(xiàn)與類別無關(guān)且最適合當(dāng)前方法閾值的定位性能。PxAP 同樣不考慮類別預(yù)測結(jié)果,但其測試數(shù)據(jù)不再是檢測框,而是像素級的目標(biāo)區(qū)域,其目的是探索不同方法間的細節(jié)差異。這4 個指標(biāo)均是值越大,效果越好。
本文選擇Has[8]作為實驗基準(zhǔn)。為排除不相關(guān)因素的干擾,引入自適應(yīng)標(biāo)準(zhǔn)差正則項(SDR)后,除新增的超參數(shù)Q、λ以外,其余結(jié)構(gòu)及參數(shù)均保持一致。具體地,網(wǎng)絡(luò)結(jié)構(gòu)選擇經(jīng)ImageNet 預(yù)訓(xùn)練的VGG 分類網(wǎng)絡(luò)。在訓(xùn)練階段,網(wǎng)絡(luò)執(zhí)行分類任務(wù)并迭代50 次。參數(shù)設(shè)置方面,本文使用SGD Optimizer,并設(shè)置初始學(xué)習(xí)率為0.00016,沖量為0.9,權(quán)重衰減為0.0005。此外,網(wǎng)絡(luò)每迭代15 次學(xué)習(xí)率降低90%。超參數(shù)設(shè)置方面,Q取 70,λ取0.5。在測試時,選擇類別預(yù)測P最大的一項作為分類結(jié)果。之后以該項對應(yīng)卷積核權(quán)重在全局池化前一層視覺特征上進行卷積,便可得到激活區(qū)域。檢測框生成選擇與CAM[4]相同的方法。
本文在CUB200-2011[19]、OpenImages[20]數(shù)據(jù)集上與近幾年主流方法CAM[4]、CutMix[21]、Has[8]等進行了對比。網(wǎng)絡(luò)結(jié)構(gòu)方面,CAM、Has 及本文所提方法(SDR)均使用16 層的VGG 網(wǎng)絡(luò)(VGG16),而CutMix、ACol 則是選擇使用卷積層替換掉VGG 網(wǎng)絡(luò)尾部的最大池化層(VGG16-L)用以獲取更高分辨率的激活區(qū)域。這樣的替換操作并非總是有效,因此后續(xù)的方法,如Has 并未采用該策略。此外,上述方法均使用了ImageNet 預(yù)訓(xùn)練權(quán)重。訓(xùn)練時,上述所有方法的輸入圖像大小調(diào)整為224×224,并將batchsize 設(shè)置為32。網(wǎng)絡(luò)共迭代50 次,并且每迭代15 次,學(xué)習(xí)率降低90%。測試時,由于閾值 γ對TOP-1Loc 影響較大,各方法設(shè)定了不同值,如表1 所示,“*”表示本文實驗所得結(jié)果。對于其他指標(biāo),各方法采用完全一致的參數(shù)設(shè)置。
表1 各方法在Top-1Loc 指標(biāo)下閾值 γ的設(shè)定
CUB200-2011 上的實驗結(jié)果如表2 所示,“*”表示本文實驗所得結(jié)果,SDR 表示本文所提方法實驗結(jié)果。在Top-1Loc 指標(biāo)下,CutMix[21]相對于基準(zhǔn)CAM[4]產(chǎn)生了較大提升,這是因為它在一幅圖像中隨機裁剪圖像塊對目標(biāo)圖像進行替換,以擾亂網(wǎng)絡(luò)對目標(biāo)圖像關(guān)鍵區(qū)域的關(guān)注度,進而生成更為均勻的激活區(qū)域。Has[8]則是隨機擦除圖像中的多個塊,在該情況下,網(wǎng)絡(luò)為提取類別信息將更多地關(guān)注目標(biāo)各個部位,因此其所得激活區(qū)域更為平滑,定位準(zhǔn)確率也更高。CutMix 與Has 分別通過替換、擦除隱式地降低網(wǎng)絡(luò)對目標(biāo)顯著性區(qū)域的關(guān)注度,而本文則是在擦除的基礎(chǔ)上通過正則項顯式地降低顯著性區(qū)域關(guān)注度,因而獲得了更好的定位性能。在Max 指標(biāo)下,SDR 定位精度產(chǎn)生了較為明顯地提升,這是因為對區(qū)域的平滑造成了區(qū)域最大值的下降,而表征背景像素的值并未產(chǎn)生相應(yīng)變化,此時使用固定的背景篩選閾值 γ將導(dǎo)致更多像素被視為前景。因此,對于固定 γ的TOP-1Loc指標(biāo),Max 提升更為明顯。
表2 CUB 數(shù)據(jù)集下的實驗結(jié)果
考慮到背景像素篩選閾值 γ對Top-1Loc 指標(biāo)影響較大,圖4 示出了各個閾值下的定位精度。可以看出,定位精度隨閾值增加呈現(xiàn)出先增大后減小的變化趨勢。這是因為,當(dāng) γ較小時,過多的背景像素被視為前景,導(dǎo)致定位性能較差,而隨著γ 逐漸增加,背景像素得以正確識別,因此定位性能不斷上升;當(dāng) γ達到最佳值后,若繼續(xù)增加,將導(dǎo)致本應(yīng)是前景的區(qū)域被視為背景,因而定位精度產(chǎn)生了退化。SDR、Has 的最佳精度為58.81%、58.21%,分別在 γ取0.12、0.13 時得到,表明在平衡通道重要性后應(yīng)當(dāng)選取較低的γ。
圖4 CUB 數(shù)據(jù)集不同閾值γ 下定位精度
OpenImages 實驗結(jié)果如表3 所示,其中SDRCAM 表示將本文所提標(biāo)準(zhǔn)差正則項引入CAM。在該指標(biāo)下,SDR 較Has 提升了0.6%、SDR-CAM較CAM 提升了0.69%,表明本文所提方法在各個閾值下的綜合結(jié)果更為準(zhǔn)確。
表3 OpenImages 數(shù)據(jù)集下的實驗結(jié)果
CUB200-2011 數(shù)據(jù)集下主觀結(jié)果如圖5 所示,每一幅子圖中:第1 行表示激活區(qū)域,色彩深淺對應(yīng)激活值大小,色彩越深表明該處存在目標(biāo)的可能性越大;第2 行表示定位結(jié)果,其中綠色邊界框表示測試標(biāo)簽,紅色檢測框表示預(yù)測結(jié)果,二者重合度越高表示定位效果越好。通過比較圖5(a)、5(b)、5(c)能夠發(fā)現(xiàn):CAM 無法在鳥的頭部激活,其對應(yīng)檢測框覆蓋范圍最??;Has 由于頭部激活值較低,被視為了背景;本文所提方法(SDR)通過平衡通道權(quán)重縮小不同區(qū)域激活值之間的差異,在鳥頭部分得到了較大值,所生成的檢測框也更緊湊。
圖5 CUB200-2011 數(shù)據(jù)集下各算法激活區(qū)域及定位結(jié)果
檢測框由激活區(qū)域各方位頂點生成,雖能定位目標(biāo)卻無法精確評估激活區(qū)域。為了細致地探究各方法間的差異,OpenImages 提供了像素級的目標(biāo)區(qū)域作為測試數(shù)據(jù),該數(shù)據(jù)集下的測試結(jié)果如圖6 所示。圖像由左至右分別表示輸入、Has 預(yù)測結(jié)果、SDR 預(yù)測結(jié)果、標(biāo)簽。從圖中可以看出:Has 對目標(biāo)中遠離顯著性類別信息的部位響應(yīng)效果較差,如第1 行中熱氣球的左上角及第2 行中左側(cè)的鞋子;本方法由于降低了對顯著性區(qū)域的關(guān)注度,能夠更多地從目標(biāo)其余部位提取類別信息,因而所得響應(yīng)區(qū)域更為準(zhǔn)確。
圖6 OpenImages 數(shù)據(jù)集下的定位區(qū)域
本方法中超參數(shù)Q、λ對預(yù)測結(jié)果具有顯著的影響。表4 給出了固定正則項權(quán)重 λ=0.9,調(diào)整最大通道數(shù)Q時的實驗結(jié)果。Q越大表示用于平衡的權(quán)重越多。當(dāng)Q過高時,會導(dǎo)致不具有類別信息的通道產(chǎn)生較大的值,而原本具有類別信息的通道所對應(yīng)權(quán)重反而會降低,從而造成性能下降。表5 示出固定Q=50,調(diào)整 λ 的實驗結(jié)果。λ用于平衡分類損失與正則項。由于弱監(jiān)督目標(biāo)定位依賴分類網(wǎng)絡(luò)所得的具有類別信息的視覺特征,需設(shè)置較小的λ。本文發(fā)現(xiàn)當(dāng)Q=70且 λ=0.5時,效果最好。
表4 Q 對實驗的影響
表5 λ 對實驗的影響
針對弱監(jiān)督定位中激活區(qū)域趨向于覆蓋目標(biāo)局部的問題,本文提出了一種基于區(qū)域權(quán)重平滑的目標(biāo)定位方法,使網(wǎng)絡(luò)能夠關(guān)注到視覺特征中不同通道所表征的區(qū)域信息,從而得到更為緊湊的目標(biāo)檢測框。