司學(xué)飛,張起貴
(太原理工大學(xué)信息與計算機(jī)學(xué)院,山西晉中 030600)
細(xì)粒度視覺分類(FGVC)任務(wù)著重于將對象的子類別與同一類別區(qū)分開,例如鳥類、汽車和飛機(jī)模型。由于高級圖像識別、智能農(nóng)業(yè)技術(shù)、智能零售和智能交通等的廣泛應(yīng)用,近來FGVC 引起了廣泛的關(guān)注。與傳統(tǒng)的圖像分類任務(wù)不同,F(xiàn)GVC 極具挑戰(zhàn)性,僅靠最新的粗粒度卷積神經(jīng)網(wǎng)絡(luò)(CNN),例如VGG、ResNet 和Inception,很難獲得準(zhǔn)確的分類結(jié)果。正如最近的研究表明,F(xiàn)GVC 的關(guān)鍵步驟是在多個對象部位中提取更具區(qū)分性的局部特征。但是,很難定義對象的各個部分,并且各個對象之間的差異也很大。此外,標(biāo)記這些對象的零件需要額外的人工費用。在這項工作中,文中利用弱監(jiān)督學(xué)習(xí),僅通過圖像級注釋來定位對象的區(qū)別性部位。文中不是關(guān)注區(qū)域邊界框,而是通過卷積生成的注意力圖來表示對象的部分或視覺模式。文中還提出利用雙線性注意力模型和以對抗數(shù)據(jù)擴(kuò)充為導(dǎo)向的數(shù)據(jù)增強(qiáng)方法來增強(qiáng)注意力集中過程。與其他本地化模型相比,該模型可以更輕松地定位大量對象部位(超過20 個),從而獲得更好的性能。此外,還提出聯(lián)合優(yōu)化方法解決因自然圖像的長尾分布[1]而導(dǎo)致的訓(xùn)練問題。
細(xì)粒度視覺分類一直是計算機(jī)視覺領(lǐng)域研究的熱門話題之一。為了解決大規(guī)模圖像分類問題,提出了卷積神經(jīng)網(wǎng)絡(luò)(CNN)。但是經(jīng)過研究發(fā)現(xiàn),這些基本模型只能實現(xiàn)中等性能,如果沒有特殊設(shè)計,其很難集中精力于目標(biāo)部位的細(xì)微差別。
為了更多關(guān)注局部特征,許多方法都依賴于部位位置或?qū)傩缘淖⑨?。Part R-CNN[2]擴(kuò)展了R-CNN[3]來檢測對象,并在幾何先驗條件下定位它們的部位,然后從姿勢歸一化表示中預(yù)測出細(xì)粒度的類別。文獻(xiàn)[4]提出了一個反饋控制框架Deep LAC,以反向傳播比對和分類錯誤進(jìn)行本地化。為了減少大量的位置標(biāo)注成本,僅通過圖像級注釋的方法引起人們的關(guān)注。文獻(xiàn)[5-6]提出了雙線性池化[5]和改進(jìn)的雙線性池化[6],其中使用外部乘積在每個位置組合了兩個特征,并考慮了它們成對的相互作用。MPN-COV[7]通過矩陣平方改善了二階合并,并實現(xiàn)了最新的準(zhǔn)確性。
空間轉(zhuǎn)換網(wǎng)絡(luò)(ST-CNN)[8]旨在通過幾何變換和圖像對齊來實現(xiàn)準(zhǔn)確的分類。該方法還可以同時定位目標(biāo)的多個部位。文獻(xiàn)[9]提出的遞歸注意卷積神經(jīng)網(wǎng)絡(luò)(RA-CNN)遞歸地預(yù)測一個關(guān)注區(qū)域的位置并提取相應(yīng)的特征,而該方法僅關(guān)注一個局部部分,因此將3 個尺度特征(即目標(biāo)的3 個部位)組合在一起,預(yù)測最終類別。文獻(xiàn)[10]提出了MultiAttention CNN(MA-CNN),同時定位多個部位。但是,對象部位的數(shù)量有限(2或4),限制其準(zhǔn)確性。文中提出了將注意力層與特征層結(jié)合起來的雙線性注意力池,其注意力區(qū)域的數(shù)量更容易增加,并提高了分類準(zhǔn)確性。
此外,在FGVC任務(wù)中引入了度量學(xué)習(xí)。文獻(xiàn)[11]提出的多注意多類別(MAMC)損失將正特征拉近錨點,同時將負(fù)特征推開。文獻(xiàn)[12]提出的PC 結(jié)合成對的混淆損失和交叉熵?fù)p失來學(xué)習(xí)具有更泛化的特征,從而防止過擬合。在該模型中,提出了注意力正則化損失來規(guī)則化注意力區(qū)域和相應(yīng)的局部特征,從而提高了目標(biāo)部分的定位和分類準(zhǔn)確性。
文中的數(shù)據(jù)增強(qiáng)方法專注于圖像的空間增強(qiáng)。在此之前,已經(jīng)提出了隨機(jī)空間圖像增強(qiáng)方法,例如圖像裁剪和圖像丟棄,并被證明可以有效地提高深度模型的魯棒性。Maxdrop[13]的目的是刪除最大激活的功能,以鼓勵網(wǎng)絡(luò)考慮不太突出的功能。缺點是Maxdrop 只能刪除每個圖像的一個區(qū)分區(qū)域,從而限制了性能。Hide-and-Seek[14]通過從訓(xùn)練圖像中隨機(jī)遮掩若干正方形區(qū)域來提高CNN 的魯棒性。但是,很多擦除區(qū)域都是不相關(guān)的背景,否則可能會擦除整個對象,特別是對于較小的目標(biāo)。為了克服這些問題,文中考慮了數(shù)據(jù)分配策略,提出對抗性數(shù)據(jù)增強(qiáng),引用弱監(jiān)督學(xué)習(xí)領(lǐng)域強(qiáng)有力的網(wǎng)絡(luò)模型,生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)以共同優(yōu)化數(shù)據(jù)增強(qiáng)和深度模型訓(xùn)練,在線生成部位數(shù)據(jù)以提高深度模型的魯棒性。
文中詳述了該細(xì)粒度視覺分類算法的原理,包括弱監(jiān)督的注意力學(xué)習(xí),基于對抗性的數(shù)據(jù)增強(qiáng)和聯(lián)合優(yōu)化。該方法原理結(jié)構(gòu)如圖1 所示。
該模型的第一部分采用雙線性注意力網(wǎng)絡(luò)[15]。將特征圖F與注意力圖A進(jìn)行逐元素相乘,生成M個部位特征圖Fk,如圖2 所示。
文中主干網(wǎng)絡(luò)采用Inception v3,首先,分別生成特征圖集和注意力圖集。通過將每個注意力圖與特征圖逐元素相乘來生成部位特征圖。然后,通過卷積提取特征,最終特征矩陣包含所有這些部位特征。
其中,⊙表示兩個張量逐元素相乘。然后,通過特征提取函數(shù)g(·)進(jìn)一步提取判別性局部特征,例如全局平均池化(GAP),全局最大池化(GMP)或卷積,以獲取關(guān)注特征fk∈R1×N。
圖1 整體原理圖
圖2 雙線性注意力模型
目標(biāo)的特征由部位特征矩陣P∈RM×N表示,它們是由部位特征fk堆疊而來。用Γ(A,F)表示注意力圖A和特征圖之間的雙線性池化,其可用式(3)表示為:
從靜態(tài)分布中采樣的隨機(jī)數(shù)據(jù)增強(qiáng)幾乎不能遵循動態(tài)訓(xùn)練狀態(tài),可能會產(chǎn)生許多無效的變化,文中建議利用對抗學(xué)習(xí)共同優(yōu)化數(shù)據(jù)擴(kuò)充和網(wǎng)絡(luò)培訓(xùn)。主要思想是學(xué)習(xí)一個生成“硬”增強(qiáng)的增強(qiáng)網(wǎng)絡(luò)G(·|θG),可能會增加分類網(wǎng)絡(luò)的損失。同時分類網(wǎng)絡(luò)D(·|θG) 嘗試從對抗性增強(qiáng)中學(xué)習(xí),同時評估質(zhì)量。生成器充當(dāng)增強(qiáng)網(wǎng)絡(luò),輸出一組擴(kuò)充操作。在數(shù)學(xué)上,增強(qiáng)網(wǎng)絡(luò)G通過最大化期望,輸出對抗性增強(qiáng)τa(·)與隨機(jī)對抗τr(·)相比可能增加D的損失。
其中,Ω是訓(xùn)練圖像集,Γ是隨機(jī)增強(qiáng)空間,L(·,·)是預(yù)定義的損失函數(shù),y是圖像注釋,G的生成要同時滿足輸入圖像X和目標(biāo)網(wǎng)絡(luò)D的當(dāng)前狀態(tài)。
分類器充當(dāng)鑒別器有兩個作用:1)評估生成質(zhì)量;2)通過最小化期望試圖向?qū)箶?shù)據(jù)學(xué)習(xí)。
對抗性增強(qiáng)τa(·)可以比隨機(jī)增強(qiáng)τr(·)更好地反映D的弱點,從而可以更高效地訓(xùn)練網(wǎng)絡(luò)。
G和D的聯(lián)合訓(xùn)練是一項艱巨的任務(wù)。增強(qiáng)操作通常是不可區(qū)分的,這會阻止梯度在反向傳播中從D流動到G。為解決此問題,提出了獎勵和懲罰策略來創(chuàng)建G的基本信息。因此,可以隨時更新G以遵循D的訓(xùn)練狀態(tài)。
2.2.1 對抗策略
預(yù)訓(xùn)練增強(qiáng)網(wǎng)絡(luò)非常關(guān)鍵,這樣它才能在聯(lián)合訓(xùn)練之前獲得增強(qiáng)分布感。對于每個訓(xùn)練圖像,總共采樣m×n個增強(qiáng),每個增強(qiáng)都來自一對高斯。然后,將增強(qiáng)轉(zhuǎn)發(fā)到目標(biāo)網(wǎng)絡(luò)以計算損失,該損失表示增強(qiáng)的“難度”。將m×n的損失累積到相應(yīng)的縮放和旋轉(zhuǎn)箱中。通過將bin 的總和標(biāo)準(zhǔn)化為1,生成兩個概率向量:Pm∈Rm和Pr∈Rn,分別逼近縮放比例和旋轉(zhuǎn)分布的真值。
除了縮放和旋轉(zhuǎn)外,增強(qiáng)網(wǎng)絡(luò)更重要的是生成遮擋操作,細(xì)粒度識別目標(biāo)部位的位置彼此高度相關(guān)。通過遮擋圖像的某些部分,可以激勵特征提取網(wǎng)絡(luò)學(xué)習(xí)可見部分和不可見部位更牢固的關(guān)系。與旋轉(zhuǎn)和縮放不同,要遮擋深層特征而不是圖像像素。具體地,增強(qiáng)網(wǎng)絡(luò)生成指示,要遮擋特征的哪一部分的掩碼,從而使主干網(wǎng)絡(luò)具有更多的估計誤差。遮擋塊以最低分辨率生成,然后按比例放大,以應(yīng)用于主干網(wǎng)絡(luò)的特征提取層。
2.2.2 獎懲策略
獎勵和懲罰策略的核心思想是,根據(jù)目標(biāo)網(wǎng)絡(luò)的當(dāng)前狀態(tài)來更新增強(qiáng)網(wǎng)絡(luò)的預(yù)測,同時通過對比參考評估其質(zhì)量。為每個圖像采樣了一對增強(qiáng):對抗增強(qiáng)τa和隨機(jī)增強(qiáng)τr。如果對抗增強(qiáng)比隨機(jī)增強(qiáng)難,將通過增加采樣bin 或旋轉(zhuǎn)縮放的概率來獎勵增強(qiáng)網(wǎng)絡(luò)。否則,將通過相應(yīng)地降低概率來懲罰它。用公式表現(xiàn)出來,令表示增強(qiáng)網(wǎng)絡(luò)的預(yù)測分布,P∈Rk表示要尋找的真實分布。k是旋轉(zhuǎn)或裁剪的數(shù)量,i是采樣數(shù)量。如果對抗性增強(qiáng)τa與參考值τr相比造成更高的目標(biāo)網(wǎng)絡(luò)損失,通過獎勵更新P:
相反,如果τa比τr導(dǎo)致更低的目標(biāo)網(wǎng)絡(luò)損失將通過懲罰更新P:
其中,0<α,β≤1 是控制獎勵和懲罰量的超參數(shù)。增強(qiáng)網(wǎng)絡(luò)不斷在線更新,而不受獎勵或懲罰,從而產(chǎn)生旨在增強(qiáng)目標(biāo)網(wǎng)絡(luò)的對抗性增強(qiáng)。
聯(lián)合訓(xùn)練流程如算法1、2 所示。
算法1:小批量訓(xùn)練方案
輸入:小批量X,增強(qiáng)網(wǎng)絡(luò)G,判別網(wǎng)絡(luò)D
輸出:G,D
1)將X隨機(jī)等分為X1、X2、X3;
2)使用X1訓(xùn)練D;
從格拉斯哥到盎散克之旅顯然是虛無的,從象征意義上來說,所謂的空間轉(zhuǎn)換根本不存在,盎散克就是格拉斯哥,或者說是格拉斯哥的反烏托邦版本。貧困、失業(yè)、疾病、壓迫和衰落,這些困擾格拉斯哥的社會問題在盎散克同樣存在,甚至被加以夸大變形,正如科林·曼羅夫所說的那樣,“它關(guān)注的都是大城市的問題:政治、社會、藝術(shù)和權(quán)力機(jī)構(gòu)?!保∕anlove 1994:198)
3)根據(jù)算法2 使用X2對G和D進(jìn)行對抗性縮放和旋轉(zhuǎn)訓(xùn)練;
4)根據(jù)算法2 使用X3對G和D進(jìn)行對抗性分層遮擋訓(xùn)練。
算法2:單個圖像訓(xùn)練方案
輸入:圖像X,增強(qiáng)網(wǎng)絡(luò)G,判別網(wǎng)絡(luò)D
輸出:G,D
1)前向?qū)W習(xí)D獲得網(wǎng)橋特征f;
2)根據(jù)f前向?qū)W習(xí)G得到分布P;
3)從P中采樣一個對抗性增強(qiáng)
5)隨機(jī)增強(qiáng)x得到
8)更新D。
傳統(tǒng)意義上,通過輸入層即前饋網(wǎng)絡(luò)的第一層如圖3(a)所示,將潛在分布提供給生成器。文中完全省略了輸入層,而是從一個學(xué)習(xí)到的常量開始,從而偏離了這種設(shè)計如圖3(b)所示。給定一個在潛在輸入空間Z中的潛在分布z,一個非線性映射網(wǎng)絡(luò)f:Z→W首先產(chǎn)生w∈W(圖1(b),左)。為了簡單起見,設(shè)置了兩者的維數(shù)在512 之內(nèi),并且映射f是使用8層MLP 實現(xiàn)的。綜合網(wǎng)絡(luò)g由18 層組成,每種分辨率為兩層(42-1 0242)。使用單獨的1×1 卷積將最后一層的輸出轉(zhuǎn)換為RGB。
圖3 增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)圖
文中在CUB-200-2011、Stanford Cars 和FGVC Aircraft 數(shù)據(jù)集上全面評估了算法性能,表1 中顯示了3 個數(shù)據(jù)集的統(tǒng)計信息。
表1 數(shù)據(jù)集參數(shù)設(shè)置
使用PyTorch 框架進(jìn)行實驗,GPU 型號為GTX1080Ti。選擇Mix6e 圖層作為特征圖。注意,圖是通過1×1 卷積核獲得的。采用GAP 作為特征池函數(shù)g(·)。RMSProp[16-18]用于優(yōu)化網(wǎng)絡(luò)。對圖像進(jìn)行預(yù)處理,將注意力圖的聚焦點M初設(shè)為3。對抗訓(xùn)練包括3 個階段。首先,訓(xùn)練鑒別器的幾個紀(jì)元,學(xué)習(xí)速率為0.000 25。然后,凍結(jié)鑒別器,并使用它訓(xùn)練學(xué)習(xí)率為0.000 25的裁剪旋轉(zhuǎn)網(wǎng)絡(luò)和遮擋網(wǎng)絡(luò)。一旦對它們進(jìn)行了預(yù)訓(xùn)練,就將這兩個網(wǎng)絡(luò)的學(xué)習(xí)率降低到0.000 05,并共同訓(xùn)練這3 個網(wǎng)絡(luò)。驗證精度達(dá)到穩(wěn)定水平后,主干網(wǎng)絡(luò)的學(xué)習(xí)率下降到0.000 05。
在CUB-200-2011 數(shù)據(jù)集上對去掉增強(qiáng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)進(jìn)行單獨訓(xùn)練。主干網(wǎng)絡(luò)以Inception v3 為骨干,使用隨機(jī)梯度下降(SGD)訓(xùn)練模型,其動量為0.9,迭代次數(shù)為80,重量衰減為0.000 01,最小批量為16。初始學(xué)習(xí)率設(shè)置為0.001,每兩個周期后指數(shù)衰減為0.9。
首先,對比具有增強(qiáng)網(wǎng)絡(luò)的完備模型和原始模型在3 個數(shù)據(jù)集上的訓(xùn)練過程中,不同時期對測試集圖像產(chǎn)生的平均注意力圖數(shù)量M的變化,并進(jìn)行了實驗。如圖4 所示,隨著訓(xùn)練時長的增加,原始模型可在圖像上學(xué)習(xí)到的平均最多聚焦點為15個,完備模型在增強(qiáng)網(wǎng)絡(luò)的激勵下可將平均最大聚焦點個數(shù)提升至32個,甚至更高。說明該模型可以挖掘更多圖像的區(qū)別特征。然后,在Stanford Cars 數(shù)據(jù)集上進(jìn)行了關(guān)于注意圖數(shù)量M有效性的實驗,表2 顯示隨著M的增加,分類準(zhǔn)確率也會提高。當(dāng)M達(dá)到32時,性能逐漸趨于穩(wěn)定,準(zhǔn)確率達(dá)93.2%。特征池模型使得設(shè)置任意數(shù)量的對象部分變得很容易??梢酝ㄟ^增加注意力圖的數(shù)量來獲得更準(zhǔn)確的結(jié)果。再對比了文中方法與現(xiàn)有一些方法的準(zhǔn)確性,并分析衡量了該模型的性能。
圖4 兩種模型生成注意力圖數(shù)量對比
表2 注意力圖數(shù)量的影響評估
如表3 所示,通過對比可知,文中方法在CUB-200-2011 和FGVC-Aircraft 這兩個數(shù)據(jù)集上的表現(xiàn)優(yōu)于現(xiàn)有方法,在Stanford Cars 上的表現(xiàn)接近現(xiàn)有最先進(jìn)方法的精度??傮w而言,文中的方法在細(xì)粒度視覺分類任務(wù)中表現(xiàn)良好,具有較高的性能。同時,通過對實驗流程的監(jiān)控,發(fā)現(xiàn)在增強(qiáng)網(wǎng)絡(luò)的鼓勵下,主干網(wǎng)絡(luò)注意力圖的聚焦點M由初始值3 最大可增加至32。說明該方法可以使網(wǎng)絡(luò)關(guān)注更多的圖像部位特征。由于鑒別器是通過隨機(jī)數(shù)據(jù)增強(qiáng)進(jìn)行預(yù)訓(xùn)練的。然而,隨著訓(xùn)練的繼續(xù),分布變得更平坦,這意味著增強(qiáng)網(wǎng)絡(luò)可以跟蹤目標(biāo)網(wǎng)絡(luò)的訓(xùn)練狀態(tài),并生成有效的數(shù)據(jù)增強(qiáng)。
表3 文中方法與已有方法準(zhǔn)確率對比
如圖5 所示,在CUB-200-2011 和Stanford Cars數(shù)據(jù)集中通過隨機(jī)數(shù)據(jù)增強(qiáng)和注意力引導(dǎo)數(shù)據(jù)增強(qiáng)來可視化增強(qiáng)的圖像。直觀地說,隨機(jī)數(shù)據(jù)擴(kuò)充在訓(xùn)練數(shù)據(jù)中引入了很多背景。注意引導(dǎo)的數(shù)據(jù)增強(qiáng)由于對象部件位置的引導(dǎo)而在裁剪或刪除時更有效。
圖5(a)中隨機(jī)裁剪將包含比例較高的背景作為輸入圖像,注意裁剪能準(zhǔn)確地定位物體的位置。圖5(b)中注意力下降與隨機(jī)下降比較。隨機(jī)遮擋可能會從圖像中擦除整個對象,或者只是擦除背景。注意遮擋對于擦除有區(qū)別的對象部分和促進(jìn)多重注意更為有效。
圖5 注意引導(dǎo)數(shù)據(jù)增強(qiáng)與隨機(jī)數(shù)據(jù)增強(qiáng)實驗結(jié)果對比
文中提出了弱監(jiān)督對抗數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò)。將弱監(jiān)督學(xué)習(xí)與生成對抗網(wǎng)絡(luò)(GAN)相結(jié)合。弱監(jiān)督學(xué)習(xí)提供對象的空間分布,增強(qiáng)網(wǎng)絡(luò)提供對抗數(shù)據(jù)擴(kuò)充、鼓勵主干網(wǎng)絡(luò)的注意力學(xué)習(xí)過程。促進(jìn)模型挖掘更多的具有圖像區(qū)別性的部位特征,以此保證其優(yōu)良的性能。在細(xì)粒度視覺分類方面達(dá)到了較高的準(zhǔn)確率,但是聯(lián)合訓(xùn)練的穩(wěn)定性也是有待解決的問題。