楊 貞,單孟姣,殷志堅,楊 凡,李翠梅
(江西科技師范大學(xué)通信與電子學(xué)院,江西 南昌 330013)
細(xì)粒度圖像分類與識別是機器視覺中最具挑戰(zhàn)性的任務(wù)之一。在粗粒度圖像分類任務(wù)中,所構(gòu)建的網(wǎng)絡(luò)只需區(qū)分出物體的類別,例如圖像中的狗、貓、車等。粗粒度圖像分類研究的過程中,涌現(xiàn)出了一大批優(yōu)秀的網(wǎng)絡(luò),例如VGG-Net[1]、ResNet[2]、Inception[3]等,這些網(wǎng)絡(luò)的識別準(zhǔn)確率已經(jīng)超過人類。然而細(xì)粒度圖像分類致力于從某一類粗粒度圖像中區(qū)分出下屬子類。細(xì)粒度圖像具有以下特點:1)包含背景噪聲且各種尺度的對象;2)不同子類類間差異不明顯,如圖1(a)所示;同一子類類內(nèi)差異較大,如圖1(b)所示。
為了克服上述挑戰(zhàn),近年來,科研人員提出了很多方法來解決細(xì)粒度圖像分類任務(wù)。較早的解決方案引入人工標(biāo)注邊界框以及注釋信息以提供可區(qū)分的信息標(biāo)記,例如SPDA-CNN[4]、HSnet[5]等借助標(biāo)記信息構(gòu)建出的網(wǎng)絡(luò)可以有針對性地提取特征,以提高分類精度。然而,此類方法需要大量的標(biāo)注數(shù)據(jù),很難應(yīng)用在實際中,因此它們逐漸被弱監(jiān)督方法WS[6]、RA-CNN[7]、NTS[8]、MAMC[9]所取代。這些方法利用感興趣邊界框區(qū)域?qū)W習(xí)來定位判別對象零件而不需要額外的注釋,只依賴于基礎(chǔ)的類別信息。近年來,物體定位方法也從最初的邊界框和零件注釋發(fā)展到掩模Mask-CNN[10]和使用卷積層響應(yīng)的無監(jiān)督方法MA-CNN[11]、SCDA[12]。此外,Mask-CNN[10]、WS-DAN[13]、TASN[14]通過增加判別區(qū)域的數(shù)量,以減少由于視角和姿態(tài)變化等問題導(dǎo)致的小目標(biāo)對象的誤判。同時,一些致力于獲得高級編碼特征的方法BCNN[15]、CBP[16]、LRBP[17]、HBP[18]也取得了不錯的效果。還有,基于補充特征信息的WS-CPM[19]、CIN[20]也被用來從有限數(shù)據(jù)集中獲得更多的判別特征??梢娬_地利用卷積層信息對于細(xì)粒度圖像分類至關(guān)重要。
具體地,人們常用注意力圖來引導(dǎo)判別性區(qū)域的學(xué)習(xí),例如WS-DAN通過CNN網(wǎng)絡(luò)得到特征圖,再從特征圖中得到注意力裁剪區(qū)域,并將這些區(qū)域和原圖疊加得到增強后的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)專注于一些細(xì)節(jié)以及判別性區(qū)域,從而提升網(wǎng)絡(luò)的分類性能;另外,CNN網(wǎng)絡(luò)中不同層的特征圖交互也有助于提升網(wǎng)絡(luò)的分類性能,例如HBP網(wǎng)絡(luò),通過將深度殘差網(wǎng)絡(luò)不同層的特征圖進行交互,具體操作是特征圖逐元素相乘,又叫做雙線性池化,從而得到高階的細(xì)粒度特征。
雖然,HBP利用不同卷積層之間的層間特征交互,集成了多個跨層雙線性特征,但是卷積激活包含背景噪聲,也會帶來冗余信息。OL-MBP[21]提出了一種基于定位模塊的層間交互模型,該模型通過對待識別物體進行定位預(yù)訓(xùn)練以減少背景噪聲,進而提升分類精度。另外,HBPASM[22]提出了一種結(jié)合掩模增強和層間特征交互的方法,該方法對CNN網(wǎng)絡(luò)通道上的特征圖求和,并設(shè)定基于卷積層上的閾值得到單一的注意力掩模,得到了比HBP更加魯棒的特征。但是,HBPASM將所有通道的特征圖求和得到的單一掩模,會使特征圖的各通道上包含較多的背景信息和非判別性信息;另外,HBPASM采用基于卷積層上的閾值來確定掩模,沒有考慮到通道與通道之間的差異性,并不能自適應(yīng)地增強網(wǎng)絡(luò)對細(xì)粒度物體的判別性學(xué)習(xí)?;诖?,本文提出細(xì)粒度圖像分類的通道自適應(yīng)判別性學(xué)習(xí)(Channel Adaptive Discriminative Learning, CADL)方法。CADL的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中∩表示對3個卷積層上對應(yīng)通道的掩模取交集,⊙表示將原始通道特征圖和通道聚集掩模逐元素相乘,?表示將層間對應(yīng)通道的感興趣區(qū)域特征圖矩陣交互逐元素相乘。本網(wǎng)絡(luò)充分考慮特征圖中不同通道所關(guān)注區(qū)域的差異性,對每個通道生成一張通道掩模,使各個通道更加關(guān)注于該通道所表征的判別性區(qū)域;并且,由于各個通道所關(guān)注區(qū)域形態(tài)不同、位置不同,其所需的用于產(chǎn)生掩模的閾值也會有較大不同,因此,本文提出自適應(yīng)掩模產(chǎn)生模塊,根據(jù)通道自身的特點計算出自適應(yīng)閾值,增強每個通道掩模的判別性學(xué)習(xí)能力。
在常用的細(xì)粒度圖像分類數(shù)據(jù)集上進行大量的實驗,驗證了本文方法的有效性且可以在較小的Batch Size下跑出競爭性的結(jié)果。本文的工作可以總結(jié)如下:
1)提出生成通道的自適應(yīng)掩模,充分考慮到網(wǎng)絡(luò)中各通道間的差異,提高模型的泛化能力。
2)提出將不同卷積層上的通道自適應(yīng)掩模聚集,可以得到不同通道上的感興趣區(qū)域,提高模型判別性學(xué)習(xí)的能力。
3)只需要一個主干網(wǎng)絡(luò),通道判別性特征和通道感興趣區(qū)域自適應(yīng)生成模塊相互增強學(xué)習(xí),讓深度神經(jīng)網(wǎng)絡(luò)能夠自適應(yīng)地學(xué)習(xí)新圖片的感興趣區(qū)域,同時增強通道視覺模式的特征學(xué)習(xí)。
目前,WS-DAN、TASN、S3Ns[23]使用注意力圖表示零部件和視覺模式,能夠增強細(xì)粒度特征的學(xué)習(xí):WS-DAN隨機選擇注意力圖進行裁剪和丟棄,實現(xiàn)弱監(jiān)督數(shù)據(jù)增強;TASN采用三線注意力裁剪網(wǎng)絡(luò)學(xué)習(xí)大量提議的區(qū)域,得到更多判別性區(qū)域信息;S3Ns將注意力圖的高響應(yīng)部位作為信息區(qū)域,保留上下文信息的同時放大部分區(qū)域。BCNN、CBP、LRBP、HBP、HBPASM通過模擬高階信息以增強細(xì)粒度特征的表示。除此之外,WS-CPM利用互補模塊模型補充細(xì)粒度特征,CIN利用負(fù)相關(guān)性得到同一樣本每個通道的互補信息,AP-CNN[24]使用感興趣區(qū)域的引導(dǎo)裁剪及低級特征圖的丟棄分支,以及金字塔結(jié)構(gòu)能夠有效融合多層級特征,從而表達(dá)出圖片的各種維度特征。
最早的STN[25]方法使空間網(wǎng)絡(luò)轉(zhuǎn)換器具有空間變換不變性,在訓(xùn)練過程中自動選擇感興趣區(qū)域。WS、SCDA、MA-CNN則通過選擇卷積和濾波器響應(yīng)定位零件:WS用最后一層卷積層得到的特征圖進行區(qū)域候選;SCDA進一步聚集卷積描述符,采用平均閾值策略得到掩模;MA-CNN將峰值響應(yīng)區(qū)域相鄰?fù)ǖ婪旁谝黄?,獲得多個判別性區(qū)域。此外,RA-CNN、NTS采用弱監(jiān)督學(xué)習(xí)方法和注意力機制,使用邊界框提議感興趣區(qū)域同時增強細(xì)粒度特征的學(xué)習(xí):RA-CNN在多區(qū)域尺度上設(shè)置分類子網(wǎng)和注意力建議子網(wǎng),探索判別性區(qū)域;NTS用一種多結(jié)構(gòu)自監(jiān)督的網(wǎng)絡(luò)進行信息區(qū)域的檢測,來有效定位信息區(qū)域。在此基礎(chǔ)上,CAM[26]通過疊加全連接層對應(yīng)的分類權(quán)重到特征圖生成類激活圖,進而識別最有判別性的部位。MAMC則使用SE[27]的Squeeze Excitation和度量約束獲得多樣的注意力區(qū)域。Mask-CNN在訓(xùn)練階段需要區(qū)域標(biāo)注的標(biāo)簽,全卷積生成物體區(qū)域掩模來定位物體。
如圖3中流程所示,本文的CADL方法包含通道感興趣區(qū)域自適應(yīng)生成(Channel Interested Region Adaptive Generation, CIRAG)模塊和層間交互特征增強(Interactive Feature Enhancement, IFE)模塊。使用常用的殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet34[2]作為本文的主干網(wǎng)絡(luò),主要作用是提取圖像的細(xì)粒度特征。首先,將ResNet34的3個卷積層的特征圖輸入到通道感興趣區(qū)域自適應(yīng)生成模塊,得到每個通道的掩模,每個通道上掩模的閾值都是不同的,再將多個通道聚集掩模和最后3個卷積層的原始特征圖逐通道逐元素相乘,通道聚集掩模選擇性提取通道特征圖上的感興趣區(qū)域的通道判別性特征,得到感興趣區(qū)域增強后的通道特征圖。最后,將增強后的特征圖分別輸入到層間交互特征增強模塊,將通道判別性區(qū)域特征進行層間交互,充分利用多個卷積層上的特征,避免只用最后一個卷積層上輸出的特征進行分類而造成其它卷積層上判別性信息的丟失,并將輸出的特征向量進行拼接,得到增強后的特征向量。最后將特征向量進行全連接降維操作,即得到最終的特征向量,并用于最終分類。
本節(jié)介紹細(xì)粒度圖像分類的通道感興趣區(qū)域自適應(yīng)生成模塊,如圖4所示。該模塊主要由2部分組成:通道自適應(yīng)掩模產(chǎn)生模塊和通道特征增強模塊。該網(wǎng)絡(luò)通過無監(jiān)督的方式從每個通道特征圖上自適應(yīng)地選取閾值,可以更好地定位出每個通道的感興趣區(qū)域,提高網(wǎng)絡(luò)的性能。
2.1.1 通道自適應(yīng)掩模產(chǎn)生模塊
通道自適應(yīng)掩模產(chǎn)生的具體步驟如下:
1)將圖片輸入ResNet34網(wǎng)絡(luò),并從網(wǎng)絡(luò)中提取conv4_0、conv4_1、conv4_2這3個卷積層的輸出為X、Y、Z。其中X=[X1,X2,…,Xc]T為卷積層上一個空間位置(i,j)的c維描述符,i∈{1,…,h},j∈{1,…,w},Xk∈Rh×w為第k個通道的特征圖,h為特征圖的高,w為特征圖的寬,k∈{1,…,c},c為通道的總個數(shù)。
2)將conv4_0、conv4_1、conv4_2輸出的特征圖X、Y、Z輸入到一種新的自適應(yīng)激活函數(shù)meta-ACON[28]中,該激活函數(shù)定義如下:
ACON_C(x)=Sβ(p1x,p2x)
(1)
Sβ(p1x,p2x)=(p1-p2)xσ[β(p1-p2)x]+p2x
(2)
其中:σ為sigmoid函數(shù);p1和p2是自定義學(xué)習(xí)參數(shù),跟隨訓(xùn)練過程而更新;Sβ為MAX激活函數(shù)的平滑可微分變體。Sβ的大小控制著通道的激活程度,當(dāng)Sβ為0時通道不激活。
這里,β通過2個卷積層計算得到:
(3)
其中W1和W2為2個全連接層。為了節(jié)省參數(shù)量,W1的輸入通道數(shù)和conv4_0、conv4_1、conv4_2的通道數(shù)相同,為c,輸出通道為c/16;W2的輸入通道數(shù)為c/16,輸出通道數(shù)為c。受ACON[28]的啟發(fā),激活函數(shù)為通道方向的激活,且每個通道共享權(quán)重,保證了通道間的相互獨立性。
3)對激活后的通道特征圖計算自適應(yīng)閾值系數(shù)。計算公式如下:
(4)
4)得到閾值系數(shù)alpha之后,通過如下公式得到每個通道的自適應(yīng)掩模:
(5)
其中ξ∈(0,1)是松弛變量,為了方便實驗對照,將ξ設(shè)置為0.1。由于自適應(yīng)閾值系數(shù)由每個通道的差異性決定,即可對每一個通道的特征圖Xk都生成一個自適應(yīng)激活掩模Mk。
2.1.2 通道特征增強模塊
通道自適應(yīng)掩模包含了每個通道所關(guān)注的區(qū)域,將3個卷積層的通道自適應(yīng)掩模層間聚集得到每個通道的聚集掩模。經(jīng)過可視化實驗驗證,通道聚集掩??梢愿訙?zhǔn)確地定位出通道的感興趣區(qū)域。因此,通道聚集掩模可用于原始通道特征圖的特征增強。
通道特征增強的具體步驟如下:
1)將conv4_0、conv4_1、conv4_2通過通道自適應(yīng)掩模產(chǎn)生模塊得到3個不同卷積層上的通道自適應(yīng)掩模M4_0、M4_1、M4_2。接著,將掩模進行交集得到聚集掩模:
Magg=M4_0∩M4_1∩M4_2
(6)
其中,求交集張量操作∩定義為:如果所有掩模相同位置元素均為1,那么生成掩模的對應(yīng)位置才為1,否則為0。
2)將聚集掩模和原始特征圖進行逐元素相乘操作,即可得到增強后的特征圖:
(7)
其中,F(xiàn)M表示ResNet34網(wǎng)絡(luò)上conv4_0、conv4_1、conv4_2對應(yīng)卷積層上所有通道特征圖的集合。
本節(jié)介紹使用多個跨層雙線性池化模型實現(xiàn)層間交互特征增強的機制和具體操作步驟。
1)層間交互特征增強的機制。
雙線性池化模型包括雙線性層和池化層。雙線性池化模型主要用來融合不同的特征,如BCNN中通過2個特征提取器得到成對的特征,將成對的特征經(jīng)過矩陣外積和池化后輸出固定長度的高維特征表示,從而實現(xiàn)成對特征交互的建模。但是雙線性池化得到的特征維數(shù)過高,可以通過矩陣的低秩分解來降低維度。由CBP和LRBP分解雙線性池化的思想得到矩陣因式分解后低秩外積形式的雙線性池化模型表示為以下形式:
FX,Y=PT(UTX°VTY)
(8)
其中U∈Rc×d、V∈Rc×d是得到d維特征向量的投影矩陣,P∈Rd×w是得到w維特征向量的分類矩陣,X、Y為不同卷積層上的c維描述符,w為輸出類別數(shù)目,°為Hadamard乘積操作,F(xiàn)X,Y∈Rw表示輸出的特征向量。
為了充分利用多個卷積層上的特征,HBP在多個卷積層上使用雙線性池化模型。使用多個跨層雙線性池化模型的思想得到本文層間交互特征增強機制的公式如下:
ZHBP=PTconcat(FBPX*,Y*,FBPX*,Z*,FBPY*,Z*)
(9)
2)層間交互特征增強的具體操作步驟如下:
首先將增強后的特征圖FM(4_0)enhanced、FM(4_1)enhanced、FM(4_2)enhanced兩兩進行逐通道逐元素相乘,得到層間交互特征:
(10)
然后將得到的層間交互特征經(jīng)過平均池化和L2歸一化后得到的雙線性矢量串聯(lián),得到多個跨層雙線性池化向量融合后的增強特征。
在公共的細(xì)粒度圖像分類數(shù)據(jù)集CUB-200-2011[29]、Stanford Cars[30]和FGVC-Aircraft[31]上開展大量的實驗,數(shù)據(jù)集圖像的類別數(shù)目和劃分策略總結(jié)如表1所示。
表1 3個公共數(shù)據(jù)集的介紹
實驗采用在ImageNet上預(yù)訓(xùn)練的ResNet34架構(gòu),去掉網(wǎng)絡(luò)最后的全連接層,加上模型中的通道感興趣區(qū)域自適應(yīng)生成組件和層間交互特征增強組件。先用邏輯回歸訓(xùn)練新加入的層和分類器,然后使用隨機梯度下降法在整個網(wǎng)絡(luò)上進行參數(shù)的迭代更新和訓(xùn)練。2步訓(xùn)練的初始學(xué)習(xí)率分別為1和0.1,epoch分別為80和160,學(xué)習(xí)率衰減策略采用固定步長衰減,每40步減小為其1/10, Batch Size都為8,權(quán)重衰減為1×10-5,動量為0.9,輸入圖片的固定尺寸為448×448,訓(xùn)練階段采用隨機水平翻轉(zhuǎn)和隨機裁剪,測試階段采用中心裁剪。選取3個卷積層conv4_0、conv4_1、conv4_2進行全連接,全連接層的輸入通道數(shù)為8192×3,輸出通道數(shù)設(shè)置為訓(xùn)練數(shù)據(jù)集的類別數(shù)。具體地,對CUB-200-2011、Stanford Cars、FGVC-Aircraft數(shù)據(jù)集來說全連接層輸出通道數(shù)分別為200、196、100。所有的實驗采用PyTorch深度學(xué)習(xí)框架實現(xiàn),在Ubuntu 20.04 64 bit操作系統(tǒng)上完成。硬件配置如下:CPU為Intel Core i7-10700,內(nèi)存為16 GB;GPU為NVIDIA Geforce GTX 1660Ti,顯存為6 GB。
本節(jié)將驗證通道感興趣區(qū)域自適應(yīng)生成模塊產(chǎn)生的通道聚集掩模的有效性,并對于其中的通道自適應(yīng)掩模和通道聚集掩模對本文算法的貢獻進行消融實驗。不同掩模對網(wǎng)絡(luò)分類精度的影響結(jié)果如表2所示,包括傳統(tǒng)掩模、HBPASM中的松弛聚集掩模、本文中的聚集掩模。
表2 不同掩模對網(wǎng)絡(luò)分類平均精度的影響結(jié)果/%
傳統(tǒng)掩模和松弛聚集掩模都忽略了同一空間位置不同通道對不同視覺模式的選擇激活的程度。從表2中可以看出,本文提出的通道自適應(yīng)掩模產(chǎn)生模塊中的聚集掩模的精度最高,說明與傳統(tǒng)掩模相比,聚集掩??梢杂行コ诸悓ο蟮谋尘霸肼暎玫礁_的判別性學(xué)習(xí);同時與HBPASM相比,本文提出的聚集掩??梢圆捎脽o監(jiān)督學(xué)習(xí)的方法得到自適應(yīng)掩模閾值系數(shù)alpha,能夠得到更豐富的通道感興趣區(qū)域,且不用引入額外的參數(shù),增強了通道的判別性學(xué)習(xí)和網(wǎng)絡(luò)的泛化能力。
傳統(tǒng)掩模為獨立掩模沒有聚集,具體為傳統(tǒng)細(xì)粒度圖像分類中用到的獨立掩模,首先讓相關(guān)位置所有通道響應(yīng)求和得到卷積層上的激活圖,然后采用平均閾值策略對激活圖上的相關(guān)位置是否激活作出0和1的響應(yīng),得到卷積層上的掩模。松弛聚集掩模為使用松弛變量的聚集掩模,具體為HBPASM中考慮到如果直接用0和1二值化處理掩模過于武斷,容易造成前景區(qū)域誤判成背景區(qū)域,丟失物體的定位信息;區(qū)別于傳統(tǒng)掩模直接將非顯著激活區(qū)域設(shè)置為0響應(yīng)的做法,它將響應(yīng)值設(shè)置為0.1,以此來減少前景區(qū)域的誤判;同時HBPASM針對感興趣區(qū)域的定位使用了多個卷積層激活圖上得到的掩模,對多個掩模進行交集得到聚集掩模。不同于傳統(tǒng)圖像掩模的生成方式和松弛聚集掩模的設(shè)置,本文中的聚集掩模為通道聚集掩模,在通道上生成掩模并對通道上的掩模進行聚集,每個通道都會得到一個聚集掩模,因此可以得到通道的判別性區(qū)域特征。同時本文的掩??紤]到了通道間的差異性,在通道方向上使用自適應(yīng)激活函數(shù),自適應(yīng)選擇是否激活神經(jīng)元。本文用通過自適應(yīng)激活函數(shù)后得到的通道特征圖上的均值來替換HBPASM中的交叉驗證得到參數(shù)0.6,得到通道自適應(yīng)的掩模閾值系數(shù),這樣一來各個通道上掩模的閾值是自適應(yīng)學(xué)習(xí)的。此外考慮到HBPASM在卷積層上生成掩模時,非顯著響應(yīng)0.1的松弛設(shè)置通過聚集掩模的計算并沒有減少前景區(qū)域的誤判,本文中0.1的響應(yīng)設(shè)置只是為了學(xué)習(xí)更多通道的判別性區(qū)域特征,并方便實驗對照。
將各個通道上生成的自適應(yīng)掩模和聚集掩模上采樣后疊加到原始圖片上進行可視化,結(jié)果如圖5所示。3個卷積層上獨立的通道自適應(yīng)掩模對應(yīng)進行層間聚集,生成c個通道自適應(yīng)聚集掩模,選取1個聚集掩模進行展示。其中第1列為原圖,第2~第4列為獨立通道自適應(yīng)掩模疊加到原圖的效果,第5列為聚集掩模疊加到原圖的效果。從圖5可以看出通道聚集掩模相比獨立的通道自適應(yīng)掩模生成了更加精確的感興趣區(qū)域,并自動丟棄背景噪聲,使層間特征交互在更細(xì)粒度的特征上進行。
為了展示模型的泛化能力和有效性,分別選取細(xì)粒度數(shù)據(jù)集CUB-200-2011、Stanford Cars和FGVC-Aircraft中的多個樣本進行可視化實驗,來驗證通道聚集掩模在多個細(xì)粒度數(shù)據(jù)集上的有效性。多個數(shù)據(jù)集樣本上通道聚集掩模的可視化實驗結(jié)果如圖6所示。選取一個通道進行展示,可以看出通道聚集掩模在多個數(shù)據(jù)集上都可以很好地定位出細(xì)粒度對象的位置和輪廓,得到樣本的通道感興趣區(qū)域。
為了進一步驗證通道自適應(yīng)掩模和通道聚集掩模2個環(huán)節(jié)以及層間交互增強模塊對本文算法的影響,對其進行消融實驗。以CUB-200-2011數(shù)據(jù)集為例,不同環(huán)節(jié)對本文模型分類平均精度的影響結(jié)果如表3所示。
表3 不同環(huán)節(jié)對模型分類平均精度的影響結(jié)果
表3的結(jié)果中通道自適應(yīng)掩模考慮到通道的差異性,生成了自適應(yīng)的通道掩模,有助于通道判別性區(qū)域的學(xué)習(xí)。通道聚集掩模充分利用了多個卷積層的信息,并進一步生成了通道上的感興趣區(qū)域,促進了通道感興趣區(qū)域的生成,同時又增強了通道判別性區(qū)域的學(xué)習(xí)。通道自適應(yīng)掩模和通道聚集掩模相互增強學(xué)習(xí)。層間交互增強模塊使用多個跨層雙線性池化,實現(xiàn)對多個卷積層特征的建模,進一步增強了通道判別性特征的表示能力。
將本文提出的模型與傳統(tǒng)的圖像分類網(wǎng)絡(luò)VGG-19、ResNet50[2]、使用注意力機制和感興趣框的方法RA-CNN、NTS、定位更多判別性區(qū)域的方法MA-CNN、MAMC、基于池化的方法BCNN、CBP、LRBP、HBPASM、帶有目標(biāo)定位的雙線性池化模型OL-MBP進行對比,結(jié)果的平均精度如表4所示,表明本文的方法可以在保持簡單性的同時實現(xiàn)較好的分類精度。具體地,與傳統(tǒng)的圖像分類網(wǎng)絡(luò)相比,它充分利用了多層卷積層的特征,減少了卷積層上細(xì)粒度特征的丟失;與使用注意力機制和感興趣框的方法相比,它可以方便地提取感興趣區(qū)域的特征,避免定位模塊和分類網(wǎng)絡(luò)交替或多層疊加使網(wǎng)絡(luò)調(diào)諧復(fù)雜化,影響單個集成網(wǎng)絡(luò)的分類性能;與定位更多判別性區(qū)域的方法相比,它在全局上保留了對象的結(jié)構(gòu)信息,同時利用判別性部位和非判別性區(qū)域的信息,在局部上使用通道自適應(yīng)掩模方便地生成更加多樣化的通道感興趣區(qū)域,在通道方向上實現(xiàn)模型判別性特征學(xué)習(xí)和判別性區(qū)域?qū)W習(xí)的相互增強;與基于池化的方法相比,它結(jié)合了掩模對對象的精確定位、通道特征的增強以及層間交互特征增強,使它在避免背景噪聲的干擾下更好地實現(xiàn)特征的增強,同時增強了通道方向上網(wǎng)絡(luò)關(guān)于對象的視覺模式的學(xué)習(xí),實現(xiàn)了更好的細(xì)粒度圖像分類;與帶有目標(biāo)定位的雙線性池化模型OL-MBP相比,它無需2次經(jīng)過主干網(wǎng)絡(luò),只需要一個主干網(wǎng)絡(luò)就實現(xiàn)了物體邊緣的精確定位且得到多樣化的通道判別性區(qū)域,并且在Stanford Cars和FGVC-Aircraft上得到了相對更高的分類精度。細(xì)粒度圖像分類的通道自適應(yīng)判別性學(xué)習(xí)方法,使用無監(jiān)督方式生成c個通道感興趣區(qū)域,得到細(xì)粒度圖像在通道上的判別性特征,對人類較難識別的細(xì)粒度圖像數(shù)據(jù)集來說,它在通道上實現(xiàn)了對物體判別性特征的學(xué)習(xí)和感興趣區(qū)域的定位,有助于卷積神經(jīng)網(wǎng)絡(luò)對難以區(qū)分的細(xì)粒度圖像數(shù)據(jù)集的識別。
表4 平均精度對比/%
本文提出了一個新的無監(jiān)督細(xì)粒度圖像分類的通道自適應(yīng)判別性學(xué)習(xí)網(wǎng)絡(luò),它通過通道自適應(yīng)掩模產(chǎn)生模塊得到更細(xì)節(jié)的通道感興趣區(qū)域,再經(jīng)過特征增強模塊得到更加精確的通道聚集掩模,進而得到避免背景干擾的對象特征,保留了對象的結(jié)構(gòu)特征和更精細(xì)的特征,最后通過層間交互特征增強模塊集成多個跨層雙線性特征獲得高層次特征,增強了細(xì)粒度特征的表示。其能夠有效定位通道感興趣區(qū)域,實現(xiàn)了通道判別性特征的學(xué)習(xí),并充分利用了多個卷積層上的特征。此外,使用通道自適應(yīng)掩模產(chǎn)生的模塊在通道方向上依照激活響應(yīng)的強度可自適應(yīng)生成差異化的通道掩模,實現(xiàn)了通道自適應(yīng)判別性學(xué)習(xí),因而增強了模型的泛化能力??傊疚奶岢龅木W(wǎng)絡(luò)架構(gòu)無需邊界框和零件注釋,具有端到端的訓(xùn)練機制,可直接使用對象的全局信息實現(xiàn)細(xì)粒度圖像分類,并隱式地增強了通道判別性區(qū)域的學(xué)習(xí),在3個公共數(shù)據(jù)集上進行實驗,證實了網(wǎng)絡(luò)框架的有效性。