国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本學(xué)習(xí)

2022-07-15 01:05賀小箭林金福
關(guān)鍵詞:分類(lèi)器卷積樣本

賀小箭,林金福

華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣州 510006

0 引 言

近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在圖像識(shí)別任務(wù)上取得了巨大進(jìn)步。通過(guò)大量的標(biāo)注數(shù)據(jù),CNN可以獲得豐富的圖像表征,從而提升下游任務(wù)(識(shí)別、分類(lèi)等)性能。但當(dāng)訓(xùn)練樣本很有限時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)通常會(huì)遇到過(guò)擬合和泛化性能差等問(wèn)題。而人卻可以僅從一幅或幾幅圖像中學(xué)習(xí)到全新的類(lèi)別,例如一個(gè)孩子在看過(guò)一幅或幾幅貓的圖像后,便可以形成“貓”的概念。小樣本學(xué)習(xí)的任務(wù)就是從少量的數(shù)據(jù)中學(xué)習(xí)如何識(shí)別全新的類(lèi)別。

進(jìn)一步地,細(xì)粒度圖像識(shí)別旨在對(duì)屬于相同類(lèi)別的不同子類(lèi)的圖像進(jìn)行分類(lèi),例如各種鳥(niǎo)類(lèi)、各種狗類(lèi)和各種汽車(chē)的識(shí)別。區(qū)分一個(gè)子類(lèi)與另一子類(lèi)的特征通常是細(xì)微的和局部的,這使得細(xì)粒度圖像分類(lèi)比常規(guī)圖像分類(lèi)更具挑戰(zhàn)性。因此大多數(shù)現(xiàn)有的細(xì)粒度分類(lèi)方法需要大量的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)一個(gè)更魯棒性的分類(lèi)器。但是由于標(biāo)注細(xì)粒度圖像需要專業(yè)知識(shí),例如標(biāo)注各種鳥(niǎo)類(lèi)可能需要求助鳥(niǎo)類(lèi)學(xué)家等,而且許多細(xì)粒度方法還需要有邊界框標(biāo)注等。這些都給細(xì)粒度圖像標(biāo)注帶來(lái)巨大成本。此外,許多瀕臨滅絕和稀有物種的圖像很難收集。因此在數(shù)據(jù)量極其有限的情況下識(shí)別出細(xì)粒度圖像是一個(gè)極具實(shí)際應(yīng)用價(jià)值的問(wèn)題,但是這方面的深入研究目前還很少。

小樣本學(xué)習(xí)正是用來(lái)解決數(shù)據(jù)量有限情況下圖像分類(lèi)的一種技術(shù)。許多小樣本學(xué)習(xí)方法主要關(guān)注于學(xué)習(xí)圖像的全局表征,在常規(guī)的小樣本分類(lèi)任務(wù)上取得了不錯(cuò)的性能,但是卻無(wú)法很好處理細(xì)粒度的小樣本分類(lèi)任務(wù),可能是因?yàn)槿值谋碚鳠o(wú)法捕獲細(xì)粒度圖像分類(lèi)所需的局部的和細(xì)微的特征。此外,許多細(xì)粒度圖像分類(lèi)方法嚴(yán)重依賴于大量的標(biāo)注數(shù)據(jù),例如邊界框標(biāo)注和目標(biāo)部位標(biāo)注等細(xì)粒度級(jí)別的標(biāo)注。在小樣本的場(chǎng)景下,基本沒(méi)有提供細(xì)粒度的標(biāo)注,導(dǎo)致這些細(xì)粒度分類(lèi)方法同樣無(wú)法直接使用。因此,提出一種可以同時(shí)處理常規(guī)小樣本學(xué)習(xí)和細(xì)粒度小樣本學(xué)習(xí)的方法具有重要意義。

已有工作表明,通過(guò)目標(biāo)定位可以提高常規(guī)圖像的分類(lèi)性能(Oquab等,2015;Wei等,2017,2018)。受此啟發(fā),本文認(rèn)為通過(guò)弱監(jiān)督目標(biāo)定位獲得圖像的區(qū)分性區(qū)域,對(duì)于常規(guī)的小樣本分類(lèi)和細(xì)粒度的小樣本分類(lèi)都會(huì)有幫助。因?yàn)槟繕?biāo)定位直接提供了最具區(qū)分性區(qū)域的特征。弱監(jiān)督目標(biāo)定位旨在僅通過(guò)圖像標(biāo)簽級(jí)別的標(biāo)注實(shí)現(xiàn)目標(biāo)定位。但是現(xiàn)有的許多弱監(jiān)督目標(biāo)定位的方法無(wú)法完整地定位目標(biāo)。例如,CAM(class activation map)(Zhou等,2016)用全局最大池化和全連接層代替分類(lèi)網(wǎng)絡(luò)的最后幾層獲得類(lèi)激活圖。但CAM僅關(guān)注那些最有利于分類(lèi)性能提升的區(qū)域而不是整體,無(wú)法直接用于細(xì)粒度小樣本學(xué)習(xí)。為了彌補(bǔ)這一缺點(diǎn),本文提出一個(gè)基于自注意力的互補(bǔ)定位模塊(self-attention based complementary module,SACM)。如圖1所示,所提出的模塊是輕量級(jí)的,主要包括顯著性掩膜生成模塊和分類(lèi)器模塊。顯著性掩膜生成模塊基于通道自注意力,為輸入的特征圖產(chǎn)生顯著性掩膜,與其互補(bǔ)的非顯著性掩膜通過(guò)設(shè)定的閾值產(chǎn)生。顯著性掩膜對(duì)應(yīng)圖像最具區(qū)分性區(qū)域,互補(bǔ)的非顯著性掩膜對(duì)應(yīng)擦除最具區(qū)分性區(qū)域。顯著性掩膜和互補(bǔ)非顯著性掩膜彼此作用于特征圖,得到顯著性特征圖和互補(bǔ)非顯著性特征圖。分類(lèi)器通過(guò)將這兩個(gè)互補(bǔ)的特征圖分到同一類(lèi)來(lái)捕獲更多有利于分類(lèi)的特征,從而產(chǎn)生更加完整的類(lèi)激活圖。圖中全局平均池化(global average pooling,GAP),本文提出的SACM模塊不需要訓(xùn)練多個(gè)分類(lèi)器,也不需要額外的步驟產(chǎn)生類(lèi)激活圖且輕量級(jí)可以應(yīng)用于許多網(wǎng)絡(luò)。

圖1 自注意力互補(bǔ)定位模塊結(jié)構(gòu)Fig.1 The structure of self-attention complementary module

許多小樣本學(xué)習(xí)方法(Snell等,2017;Vinyals等,2016;Hariharan和Girshick,2017)通過(guò)求圖像全局特征(單一高維向量)的平均值獲得圖像對(duì)應(yīng)類(lèi)別的原型,進(jìn)而利用歐氏距離或余弦距離進(jìn)行最近鄰分類(lèi)。這種方法盡管高效,但容易受到噪聲影響。而且這種基于全局表征的度量方式也不適用于細(xì)粒度圖像分類(lèi)。為了解決這個(gè)問(wèn)題,本文提出特征描述子表示與語(yǔ)義對(duì)齊距離。特征描述子表示假設(shè)每個(gè)特征描述子是獨(dú)立的,用篩選得到特征描述子集合作為圖像的表征。相比使用一個(gè)高維向量作為表征,特征描述子表示更加細(xì)粒度,能更好地捕獲和利用圖像豐富的局部特征,因此特征描述子表示是一種表達(dá)能力更強(qiáng)的數(shù)據(jù)表征。此外,為了適應(yīng)特征描述子表示,受樸素貝葉斯最近鄰(naive Bayes nearest neighbor,NBNN)(Boiman等,2008)和DN4(deep nearest neighbor neural network)(Li等,2019a)的啟發(fā),提出了一種語(yǔ)義對(duì)齊距離來(lái)度量?jī)蓚€(gè)特征描述子表示的相似度。由于特征描述子表示是根據(jù)圖像的類(lèi)激活圖信息篩選得到的,對(duì)應(yīng)著圖像語(yǔ)義的最相關(guān)部分,因此提出的語(yǔ)義對(duì)齊距離可以直接度量?jī)蓚€(gè)圖像最具區(qū)分性區(qū)域的相似度。與DN4不同,本文利用弱監(jiān)督目標(biāo)定位信息對(duì)圖像的特征描述子集合進(jìn)行篩選,在保留目標(biāo)語(yǔ)義信息的同時(shí),抑制了背景噪聲,而且篩選可以進(jìn)一步減少特征描述子個(gè)數(shù),一定程度上提高了NBNN的執(zhí)行效率。本文提出的融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本學(xué)習(xí)方法是一個(gè)二階段網(wǎng)絡(luò),融合了弱監(jiān)督目標(biāo)定位網(wǎng)絡(luò)和小樣本圖像分類(lèi)網(wǎng)絡(luò)。

本文的主要貢獻(xiàn)包括:1)提出一個(gè)輕量級(jí)的弱監(jiān)督目標(biāo)定位模塊SACM,利用通道自注意力,通過(guò)擦除互補(bǔ)的方式獲得更完整的類(lèi)激活圖,可以很容易地應(yīng)用到許多現(xiàn)有的分類(lèi)網(wǎng)絡(luò)。2)基于特征描述子表示,設(shè)計(jì)了一種語(yǔ)義對(duì)齊距離來(lái)提升細(xì)粒度小樣本分類(lèi)的性能?;诤Y選的特征描述子表示,提出的語(yǔ)義對(duì)齊距離可以對(duì)齊兩幅圖像之間的內(nèi)容。3)進(jìn)行了大量的性能分析實(shí)驗(yàn)。提出的方法在小樣本數(shù)據(jù)集和細(xì)粒度小樣本數(shù)據(jù)集上都取得了有競(jìng)爭(zhēng)性的性能。泛化性實(shí)驗(yàn)也進(jìn)一步驗(yàn)證了提出方法可以同時(shí)很好地解決小樣本學(xué)習(xí)和細(xì)粒度小樣本學(xué)習(xí)任務(wù)。此外,可視化也證實(shí)了提出的模塊可以更加完整地實(shí)現(xiàn)弱監(jiān)督目標(biāo)定位。

1 相關(guān)工作

1.1 元學(xué)習(xí)和度量學(xué)習(xí)

小樣本學(xué)習(xí)方法主要包括基于元學(xué)習(xí)的方法和基于度量學(xué)習(xí)的方法?;谠獙W(xué)習(xí)的方法利用元學(xué)習(xí)范式,Santoro等人(2016)訓(xùn)練一個(gè)跨任務(wù)元學(xué)習(xí)器,可以快速準(zhǔn)確地更新模型中的參數(shù)。Finn等人(2017)訓(xùn)練了一個(gè)與模型無(wú)關(guān)的元學(xué)習(xí)器,并找到適應(yīng)各種具有相似分布任務(wù)的初始參數(shù),通過(guò)設(shè)置學(xué)習(xí)得到的初始化參數(shù)以及對(duì)應(yīng)的參數(shù)更新方式,只需很少的訓(xùn)練樣本就可以快速推廣到新任務(wù)。Ravi和Larochelle(2017)提出一種基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的元學(xué)習(xí)模型,學(xué)習(xí)分類(lèi)器參數(shù)的更新規(guī)則和分類(lèi)器參數(shù)的一般初始化。此外,參數(shù)生成方法(Qiao等,2018;Lifchitz等,2019;Gidaris和Komodakis,2018)學(xué)習(xí)直接生成分類(lèi)器的權(quán)重,而不是學(xué)習(xí)如何更新網(wǎng)絡(luò)的參數(shù)。該類(lèi)方法的本質(zhì)是利用卷積神經(jīng)網(wǎng)絡(luò)最后一層的激活輸出和全連接層的分類(lèi)權(quán)重在分布上的相似性直接預(yù)測(cè)分類(lèi)權(quán)重?;诙攘繉W(xué)習(xí)的方法是一種通過(guò)學(xué)習(xí)嵌入函數(shù)來(lái)度量查詢圖像和支持圖像之間相似性的分類(lèi)方法。在測(cè)試期間,使用最近鄰方法對(duì)嵌入空間中的新類(lèi)別進(jìn)行分類(lèi),其中相同類(lèi)別的樣本比不同類(lèi)別的樣本距離更近。結(jié)合注意機(jī)制,匹配網(wǎng)絡(luò)(Vinyals等,2016)使用余弦距離在嵌入空間訓(xùn)練一個(gè)K鄰居分類(lèi)器,并設(shè)計(jì)插曲(episode)訓(xùn)練模式,使訓(xùn)練階段更加貼近測(cè)試階段。Snell等人(2017)提出一個(gè)原型網(wǎng)絡(luò)(prototypical networks,Proto-Net)學(xué)習(xí)每個(gè)類(lèi)別的原型,并通過(guò)計(jì)算查詢圖像與原型在嵌入空間的歐氏距離進(jìn)行分類(lèi)。與匹配網(wǎng)絡(luò)和原型網(wǎng)絡(luò)手動(dòng)選擇固定度量(例如余弦和歐氏距離)不同,關(guān)系網(wǎng)絡(luò)(relation net)(Sung等,2018)使用非線性比較器進(jìn)行學(xué)習(xí),直接比較查詢圖像與支持圖像在嵌入空間之間的度量距離,通過(guò)網(wǎng)絡(luò)直接給出兩個(gè)圖像之間的相似度分?jǐn)?shù)來(lái)判斷圖像的類(lèi)別。

上述度量方法均采用嵌入空間中的單一高維特征表示每個(gè)類(lèi)別,進(jìn)而利用歐氏距離或余弦相似度進(jìn)行圖像分類(lèi)。與這些方法不同,本文采用特征描述子表示來(lái)表征一個(gè)類(lèi)別。同時(shí),基于特征描述子表示和NBNN算法,設(shè)計(jì)了一種語(yǔ)義對(duì)齊距離來(lái)更好地度量?jī)蓚€(gè)細(xì)粒度圖像之間的距離。

1.2 細(xì)粒度圖像分類(lèi)

細(xì)粒度圖像分類(lèi)面臨著子類(lèi)別之間差異微小而類(lèi)內(nèi)圖像差異巨大的問(wèn)題。目前的主流方法(馮語(yǔ)姍和王子磊,2016;翁雨辰 等,2017;Wei等,2018;Sun等,2021;Fu等,2017)是先定位出細(xì)粒度圖像中最具區(qū)分性的區(qū)域,再利用得到的局部特征進(jìn)行分類(lèi)。Mask-CNN(Wei等,2018)借助全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)(Long等,2015)學(xué)習(xí)一個(gè)部位分割模型,為后續(xù)細(xì)粒度分類(lèi)網(wǎng)絡(luò)提供頭部和軀干等局部特征,實(shí)現(xiàn)細(xì)粒度分類(lèi)。MA-CNN (multi-attention CNN) (Zheng等,2017)通過(guò)交叉訓(xùn)練channel grouping 和part classification兩個(gè)子網(wǎng)絡(luò)來(lái)更好地學(xué)習(xí)細(xì)粒度的特征。channel grouping網(wǎng)絡(luò)基于特征圖通道,利用聚類(lèi)、加權(quán)和池化生成多個(gè)部位信息。part classification網(wǎng)絡(luò)則對(duì)channel grouping 網(wǎng)絡(luò)生成的部位進(jìn)行分類(lèi),使網(wǎng)絡(luò)學(xué)習(xí)到更多細(xì)粒度特征。針對(duì)現(xiàn)有細(xì)粒度方法中區(qū)域檢測(cè)和細(xì)粒度特征學(xué)習(xí)彼此對(duì)立的情況,F(xiàn)u等人(2017)提出多尺度循環(huán)注意力卷積網(wǎng)絡(luò),通過(guò)相互強(qiáng)化的方式,對(duì)判別區(qū)域注意力和基于區(qū)域的特征表征進(jìn)行遞歸學(xué)習(xí)。多尺度網(wǎng)絡(luò)通過(guò)交替訓(xùn)練的方式,不斷聚焦關(guān)鍵區(qū)域,同時(shí)不斷提高細(xì)粒度特征分類(lèi)的性能。相似地,本文方法遵循兩階段網(wǎng)絡(luò)的方式,先訓(xùn)練得到一個(gè)弱監(jiān)督目標(biāo)定位網(wǎng)絡(luò),再訓(xùn)練細(xì)粒度圖像分類(lèi)網(wǎng)絡(luò)。不同于常規(guī)細(xì)粒度圖像分類(lèi)的訓(xùn)練方式,本文提出的細(xì)粒度小樣本分類(lèi)網(wǎng)絡(luò)采用插曲訓(xùn)練機(jī)制進(jìn)行訓(xùn)練。

1.3 弱監(jiān)督目標(biāo)定位

弱監(jiān)督目標(biāo)定位(weakly-supervised object localization,WSOL)是一種僅使用標(biāo)簽級(jí)別標(biāo)注來(lái)實(shí)現(xiàn)目標(biāo)定位的技術(shù)。CAM(Zhou等,2016)將分類(lèi)網(wǎng)絡(luò)最后幾層替換為全局平均池化和全連接層,通過(guò)加權(quán)融合最后一個(gè)卷積層的特征圖得到類(lèi)激活圖。但是CAM嚴(yán)重依賴目標(biāo)的某些特征,導(dǎo)致CAM方法只能定位目標(biāo)的一部分區(qū)域。為了解決CAM過(guò)度依賴某些顯著性的特征,Zhang等人(2018a)提出基于對(duì)抗擦除學(xué)習(xí)(adversarial complementary learning,Acol)的方法,利用額外的分類(lèi)器對(duì)擦除后的特征分類(lèi),使網(wǎng)絡(luò)學(xué)習(xí)更多有利于分類(lèi)的特征。通過(guò)融合多個(gè)分類(lèi)器的結(jié)果,Acol能得到完整的類(lèi)激活圖,但存在訓(xùn)練多個(gè)分類(lèi)器的缺點(diǎn),對(duì)此,Choe和Shim(2019)提出ADL(attention-based dropout layer)對(duì)特征圖最具區(qū)分性的區(qū)域進(jìn)行擦除,使網(wǎng)絡(luò)可以學(xué)習(xí)更多有利于圖像分類(lèi)的特征,但需要額外步驟獲得類(lèi)激活圖。與擦除方式不同,Zhang等人(2018b)通過(guò)生成引導(dǎo)掩膜,將圖像分為背景、前景和不確定區(qū)域,向分類(lèi)網(wǎng)絡(luò)提供像素輔助監(jiān)督,利用分階段的方法,逐步精細(xì)化前景區(qū)域,進(jìn)而得到更加精確的定位信息。本文提出的自注意力互補(bǔ)定位模塊,利用擦除方式獲得更多關(guān)鍵特征,實(shí)現(xiàn)了完整的目標(biāo)定位。本文設(shè)計(jì)了一個(gè)全新的顯著性掩膜生成模塊來(lái)更加準(zhǔn)確地獲取特征圖的顯著性區(qū)域,無(wú)需依賴額外的分類(lèi)器和額外的向后反饋。

2 細(xì)粒度小樣本分類(lèi)方法

融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本分類(lèi)方法如圖2所示,其中w、h和d分別為特征圖的寬度、高度和深度。該方法的具體步驟為:1)訓(xùn)練WSOL網(wǎng)絡(luò),采用SACM組合VGG16(Visual Geometry Group 16 layer)的卷積層得到WSOL網(wǎng)絡(luò)并進(jìn)行訓(xùn)練。2)利用Conv64或ResNet12(residual network)作為特征提取網(wǎng)絡(luò)獲得特征圖。3)使用WSOL網(wǎng)絡(luò)生成的類(lèi)激活圖進(jìn)行特征描述子篩選。4)將選定的特征描述子饋送到SAM模塊以計(jì)算語(yǔ)義對(duì)齊距離,并實(shí)現(xiàn)細(xì)粒度小樣本圖像的分類(lèi)。

圖2 融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本圖像分類(lèi)流程圖Fig.2 Flow chart of fine-grained few-shot image classification based on weakly-supervised object localization

2.1 顯著性掩膜生成模塊

本文提出的自注意力互補(bǔ)定位模塊采用擦除方式獲得更多的有用的分類(lèi)特征,產(chǎn)生更加完整的類(lèi)激活圖。為了更加精確地獲得顯著性區(qū)域,設(shè)計(jì)了一個(gè)顯著性掩膜生成模塊,基于特征圖的通道自注意力機(jī)制,為特征圖生成顯著性掩膜。同時(shí)通過(guò)閾值獲得一個(gè)互補(bǔ)的非顯著性掩膜。特征圖先通過(guò)全局最大池化、全局平均池化和1×1卷積操作,然后串聯(lián)3個(gè)操作的輸出,利用1×1卷積和sigmoid函數(shù)得到顯著性掩膜。本文的顯著性掩膜生成模塊的結(jié)構(gòu)圖如圖3所示。其中,C、W和H分別為特征圖的通道數(shù),寬度和高度。

圖3 顯著性掩膜生成模塊Fig.3 Saliency mask generation module

2.2 分類(lèi)器模塊

CAM需要額外的梯度回傳步驟來(lái)獲得類(lèi)激活圖。與此不同,Acol提出了一個(gè)新的方式從卷積層中直接獲取類(lèi)激活圖。假設(shè)訓(xùn)練階段有C個(gè)類(lèi)別,最后的一層為1×1卷積。假設(shè)1×1卷積層的輸入特征圖為Sk,卷積核的參數(shù)為W1×1∈RK×C,K為通道數(shù)。直接由卷積層獲得類(lèi)激活圖的公式為

(1)

基于Acol中的類(lèi)激活圖產(chǎn)生方法,本文的分類(lèi)器結(jié)構(gòu)如圖4所示。分類(lèi)器由分類(lèi)器卷積層、全局平均池化和softmax函數(shù)組成。其中,分類(lèi)器卷積層包括3個(gè)3×3的卷積塊和1個(gè)1×1的卷積塊。每個(gè)3×3卷積塊包含1 024個(gè)大小為3×3的卷積核,1×1的卷積塊包含1 024個(gè)大小為1×1的卷積核。本文方法的類(lèi)激活圖是基于1×1的卷積層得到的。

圖4 分類(lèi)器結(jié)構(gòu)圖和產(chǎn)生類(lèi)激活圖的過(guò)程圖Fig.4 Classifier structure diagram and process diagram for generating class activation map

(2)

式中,max操作具體為對(duì)于輸入的兩個(gè)大小相同的矩陣,輸出矩陣每個(gè)位置的元素為兩個(gè)輸入矩陣在對(duì)應(yīng)位置的最大值。

2.3 特征描述子

給定圖像X,通過(guò)小樣本圖像特征提取網(wǎng)絡(luò)(Conv64或ResNet12)輸出一個(gè)對(duì)應(yīng)的特征圖,特征圖是一個(gè)3維張量,記為E(X)=Rd×w×h。一方面,E(X) 包含d個(gè)大小為w×h的特征圖;另一方面,E(X)=Rd×w×h也可看成包含了m=w×h個(gè)特征描述子,每個(gè)特征描述子都是一個(gè)維度為d的向量,本文假設(shè)每個(gè)特征描述子都是獨(dú)立的。因此,卷積層的輸出也可以記為

E(X)={d(1,1),d(1,2),d(1,3),…,d(i,j),…,d(w,h)}=
{d1,d2,d3,…,dm}

(3)

式中,d(i,j)表示該特征描述子在特征圖中位于坐標(biāo)(i,j)的位置。相比于全局表征,利用特征描述子集合表示特征圖能捕獲更多局部特征信息,更適合于細(xì)粒度圖像分類(lèi)。

2.4 特征描述子篩選

利用訓(xùn)練好的WSOL網(wǎng)絡(luò)獲取圖像的類(lèi)激活圖,對(duì)圖像進(jìn)行特征描述子篩選,得到圖像的特征描述子表示。其過(guò)程為:1)圖像的類(lèi)激活圖按設(shè)定的閾值(類(lèi)激活圖的均值)進(jìn)行二值化,得到二值化類(lèi)激活掩膜。2)二值化激活掩膜通過(guò)最近鄰插值,得到尺寸為w×h的篩選掩膜。3)將圖像的篩選掩膜作用于特征圖,去除所有零向量,得到的特征描述子集合便是圖像的特征描述子表示。記為

E(X)={d1,d2,d3,…,dn}

(4)

式中,n表示篩選后剩下的特征描述子的數(shù)量。通過(guò)篩選,可以去掉背景相關(guān)的特征描述子,減少背景噪聲影響。同時(shí),保留的特征描述子對(duì)應(yīng)圖像內(nèi)容最具區(qū)分性區(qū)域的語(yǔ)義。

2.5 語(yǔ)義對(duì)齊模塊

語(yǔ)義對(duì)齊模塊(semantic alignment module,SAM)用于計(jì)算兩個(gè)圖像最具區(qū)分性區(qū)域的相關(guān)性?;跇闼刎惾~斯最近鄰分類(lèi)器的啟發(fā),本文假設(shè)特征描述子表示E(X)={d1,d2,d3,…,dn}中每個(gè)特征描述子都是獨(dú)立的。特征描述子獨(dú)立性假設(shè)可以利用卷積神經(jīng)網(wǎng)絡(luò)的平移不變性。例如,目標(biāo)平移后其響應(yīng)的位置發(fā)生改變,但是對(duì)應(yīng)的特征描述子表示變化不大。然而使用單個(gè)高維向量表示,其對(duì)應(yīng)的維度信息便會(huì)改變,這不利于表征的穩(wěn)定性。針對(duì)細(xì)粒度圖像識(shí)別,基于圖像的特征描述子表示,本文提出了一種新的度量方式,稱為語(yǔ)義對(duì)齊距離。其計(jì)算過(guò)程為

(5)

(6)

通過(guò)累加查詢圖像的特征描述子表示中所有的特征描述子的最近鄰余弦距離,得到查詢圖像到支持圖像的語(yǔ)義對(duì)齊距離D(qk,sk)。

基于特征描述子的獨(dú)立性假設(shè),查詢圖中每個(gè)特征描述子通過(guò)最近鄰余弦距離,都能在支持圖像中搜索到與之匹配的特征描述子。這保證了查詢圖像與支持圖像之間的關(guān)鍵內(nèi)容在語(yǔ)義上達(dá)到對(duì)齊。此外,基于特征描述子表示的方式,每個(gè)特征描述子比之前的單個(gè)高維特征向量表示方式,其搜索的空間變大,這相當(dāng)于在一個(gè)“多樣本”的情況下進(jìn)行分類(lèi),進(jìn)而提高了度量對(duì)噪聲的容忍性。

對(duì)于C-wayK-shot設(shè)置下的小樣本圖像分類(lèi)任務(wù),查詢圖像(x,y)屬于支持圖中第k∈{0,1,2,…,C-1}類(lèi)的概率為

(7)

對(duì)于每個(gè)插曲中的N幅查詢圖,其損失函數(shù)為

(8)

3 實(shí)驗(yàn)和分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)所用的數(shù)據(jù)集包括小樣本數(shù)據(jù)集和基準(zhǔn)細(xì)粒度數(shù)據(jù)集。

1)miniImageNet數(shù)據(jù)集。作為ImageNet的微型版本,miniImageNet數(shù)據(jù)集包含100個(gè)類(lèi),每個(gè)類(lèi)包含600幅彩色圖像。實(shí)驗(yàn)時(shí)按64、16和20個(gè)類(lèi)別分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

2)Few-Shot Fine-Grained 數(shù)據(jù)集。選擇了3個(gè)基準(zhǔn)細(xì)粒度數(shù)據(jù)集進(jìn)行細(xì)粒度小樣本學(xué)習(xí)任務(wù)實(shí)驗(yàn)。包括Stanford Dogs(Khosla等,2011)、Stanford Cars(Makadia和Yumer,2015)和CUB 200-2011(Caltech-UCSD birds)(Wah等,2011)。Stanford Dogs包含120個(gè)類(lèi)別,20 580幅彩色圖像,實(shí)驗(yàn)時(shí)按70、20和30個(gè)類(lèi)別分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。Stanford Cars包含196個(gè)類(lèi)別,16 185幅汽車(chē)彩色圖像,實(shí)驗(yàn)時(shí)按130、17和49個(gè)類(lèi)別分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。CUB 200-2011包括200個(gè)類(lèi)別,6 033幅鳥(niǎo)類(lèi)彩色圖像,實(shí)驗(yàn)時(shí)按130、20和50個(gè)類(lèi)別分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)的軟硬件配置為Intel(R)Core(TM)i7-5930K @ 3.50 GHz 12 CPU,64 GB內(nèi)存,GeForce GTX TITAN X GPU,顯存大小11 GB。服務(wù)器系統(tǒng)為Ubuntu 16.04 LTS 64位,深度學(xué)習(xí)框架為Pytorch。

3.2.1 WSOL網(wǎng)絡(luò)

與CAM一樣,以VGG-16作為分類(lèi)網(wǎng)絡(luò)的骨干。具體地說(shuō),即用本文提出的SACM模塊代替VGG16的最后一個(gè)池化層和3個(gè)完全連接的層,得到本文的WSOL網(wǎng)絡(luò),在miniImageNet、Stanford Dogs、Stanford Cars和CUB 200-2011數(shù)據(jù)集的訓(xùn)練集上進(jìn)行端到端訓(xùn)練。為了公平比較,輸入圖像統(tǒng)一設(shè)為224×224像素(本文模塊為全卷積結(jié)構(gòu),可處理任意大小的輸入)。采用SDG(stochastic gradient descent)為優(yōu)化器,初始學(xué)習(xí)率設(shè)為1×10-3,學(xué)習(xí)率每20 000個(gè)epoch減少一半,互補(bǔ)非顯著掩膜生成的閾值設(shè)定為0.9。

3.2.2 小樣本分類(lèi)網(wǎng)絡(luò)

采用插曲訓(xùn)練機(jī)制訓(xùn)練小樣本圖像分類(lèi)網(wǎng)絡(luò)。每個(gè)訓(xùn)練插曲包含隨機(jī)抽取的C個(gè)類(lèi)別,每個(gè)類(lèi)別除包含K幅支持圖像外,設(shè)置C-way 1-shot包含15幅查詢圖像,C-way 5-shot包含10幅查詢圖像。即對(duì)于5-way 1-shot任務(wù),每類(lèi)有5幅支持圖像和15幅查詢圖像,因此每個(gè)插曲共5×1=5幅支持圖像和15×5=75幅查詢圖像。類(lèi)似地,對(duì)于5-way 5-shot任務(wù),共5×5=25幅支持圖像和10×5=50幅查詢圖像。另外,將所有輸入圖像尺寸調(diào)整為84×84像素。在訓(xùn)練階段,隨機(jī)采樣300 000個(gè)插曲,選擇Adam作為優(yōu)化器,初始學(xué)習(xí)設(shè)置為5×10-3。學(xué)習(xí)率每10萬(wàn)個(gè)插曲減少一半。在測(cè)試階段,采用600個(gè)插曲的均值,95%的置信區(qū)間作為性能指標(biāo)。

3.3 小樣本數(shù)據(jù)集miniImageNet實(shí)驗(yàn)分析

首先在miniImageNet數(shù)據(jù)集上進(jìn)行小樣本圖像分類(lèi)準(zhǔn)確率的比較,實(shí)驗(yàn)結(jié)果如表1所示。當(dāng)采用ResNet12作為嵌入網(wǎng)絡(luò)時(shí),本文模型在5-way 1-shot和5-way 5-shot任務(wù)中取得了最好的成績(jī),特別是在5-shot任務(wù)中獲得最好結(jié)果,比DN4(Li等,2019a)高出3.29%。此外,當(dāng)同時(shí)使用Conv64作為嵌入網(wǎng)絡(luò)時(shí),本文模型在5-way 5-shot任務(wù)上實(shí)現(xiàn)了最高的精度,比CovaMNet(covariance metric networks)(Li等,2019b)、DN4和Sal-Net(saliency-guided networks)(Zhang等,2019)的性能分別提高了4.40%、1.03%和0.04%。使用Conv64嵌入網(wǎng)絡(luò)在5-way 1-shot任務(wù)中也獲得了非常有競(jìng)爭(zhēng)力的準(zhǔn)確性,與R2D2(recurrent replay distributed DQN)(Bertinetto等,2019)、CovaMNet和DN4相比,分別提高了3.82%、2.13%和2.08%。在5-way 1-shot任務(wù)中,Dynamic-Net(Gidaris和Komodakis,2018)和Sal-Net執(zhí)行非常復(fù)雜的訓(xùn)練步驟,以獲得優(yōu)異的結(jié)果。前者也采用兩階段模型,但是需要對(duì)小樣本圖像分類(lèi)的嵌入網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,而本文方法則不用。后者利用最新的顯著性檢測(cè)模型生成顯著性掩膜,從而定位關(guān)鍵對(duì)象,但是其需要像素級(jí)別的標(biāo)注數(shù)據(jù)。相反,本文方法僅需要圖像級(jí)別標(biāo)注。實(shí)驗(yàn)結(jié)果表明,對(duì)于常規(guī)的小樣本圖像分類(lèi)任務(wù),本文方法在5-way 1-shot和5-way 5-shot設(shè)置下都優(yōu)于先前的方法。

表1 在miniImageNet數(shù)據(jù)集上小樣本分類(lèi)精度Table 1 Few-shot classification accuracies on miniImageNet /%

3.4 細(xì)粒度小樣本數(shù)據(jù)集實(shí)驗(yàn)分析

與一般的小樣本分類(lèi)任務(wù)相比,細(xì)粒度數(shù)據(jù)集由于類(lèi)間差異小、類(lèi)內(nèi)差異大,因此細(xì)粒度的小樣本分類(lèi)更具挑戰(zhàn)性。實(shí)驗(yàn)在3個(gè)主流的細(xì)粒度小樣本數(shù)據(jù)集上全面評(píng)估本文的方法。同時(shí),與DN4、CovaMNet、GNN(graph neural networks)(Garcia和Bruna,2018)、Proto-Net(Snell等,2017)、MattML(multi-attention meta learning)(Zhu等,2020)和LRPABN(low-rank pairwise alignment bilinear network)(Huang等,2021)等方法進(jìn)行比較。如表2所示,本文方法在5-way 1-shot任務(wù)和5-way 5-shot任務(wù)下,在3個(gè)細(xì)粒度數(shù)據(jù)集上均實(shí)現(xiàn)了最佳性能。更詳細(xì)地講,本文方法在Stanford Dogs數(shù)據(jù)集上,在1-shot和5-shot設(shè)置下分別比第2名提高了4.18%和15.79%。在Stanford Cars數(shù)據(jù)集上,在1-Shot和5-Shot方面均達(dá)到了最先進(jìn)的性能,與第2名相比分別提高了16.13%和5.83%。對(duì)于CUB 200-2011數(shù)據(jù)集,本文方法在1-shot設(shè)置下獲得競(jìng)爭(zhēng)準(zhǔn)確性,在5-shot設(shè)置下獲得最佳性能。實(shí)驗(yàn)結(jié)果表明,弱監(jiān)督目標(biāo)定位有助于提高細(xì)粒度小樣本圖像的分類(lèi)性能。本文提出的融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本分類(lèi)方法能夠極大提高細(xì)粒度圖像的分類(lèi)性能。

表2 3個(gè)細(xì)粒度數(shù)據(jù)集上的細(xì)粒度小樣本分類(lèi)精度Table 2 Classification accuracy of fine-grained few-shot learning on three fine-grained datasets /%

3.5 泛化性實(shí)驗(yàn)

為了驗(yàn)證小樣本學(xué)習(xí)模型的泛化性能并證明本文方法可以同時(shí)很好地處理小樣本學(xué)習(xí)和細(xì)粒度小樣本學(xué)習(xí)任務(wù),在完全不同的數(shù)據(jù)集上對(duì)模型進(jìn)行評(píng)估。與訓(xùn)練數(shù)據(jù)集完全不同的新數(shù)據(jù)集會(huì)出現(xiàn)顯著的數(shù)據(jù)分布偏移(Li等,2020;Recht等,2019),導(dǎo)致模型的性能顯著下降。訓(xùn)練類(lèi)和測(cè)試類(lèi)沒(méi)有交集,但是由于它們來(lái)自同一數(shù)據(jù)集,因此它們?nèi)跃哂邢嗤臄?shù)據(jù)分布。實(shí)驗(yàn)中,在miniImageNet上訓(xùn)練模型,在細(xì)粒度數(shù)據(jù)集上進(jìn)行測(cè)試以評(píng)估泛化能力。為了公平比較,所有模型的嵌入網(wǎng)絡(luò)均為ResNet12,實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯?,在3個(gè)新數(shù)據(jù)集上,本文模型優(yōu)于Proto-Net(Snell等,2017)、Relation Net(Sung等,2018)和K-tuplet loss (Li等,2020),表明本文方法具有良好的泛化能力。結(jié)合小樣本分類(lèi)實(shí)驗(yàn)和細(xì)粒度小樣本分類(lèi)實(shí)驗(yàn)結(jié)果可知,本文方法可以同時(shí)很好地處理小樣本學(xué)習(xí)和細(xì)粒度小樣本學(xué)習(xí)。

表3 模型泛化性能下的分類(lèi)精度Table 3 Accuracy comparison of model generalization performance /%

3.6 弱監(jiān)督目標(biāo)定位實(shí)驗(yàn)分析

CUB 200-2011數(shù)據(jù)集是WSOL任務(wù)的基準(zhǔn)數(shù)據(jù)集,包含200 種鳥(niǎo)類(lèi),有5 994幅訓(xùn)練圖像和5 794幅測(cè)試圖像,對(duì)每幅圖像都提供了本地化的邊界框。實(shí)驗(yàn)時(shí),在訓(xùn)練集上訓(xùn)練模型,但是沒(méi)有使用任何邊界框作為監(jiān)督信息。在元測(cè)試階段,為每個(gè)輸入圖像預(yù)測(cè)邊界框和標(biāo)簽。使用Top-1定位精度(Top-1 Loc)、Top-1分類(lèi)精度和已知真實(shí)(ground truth,GT)類(lèi)別下的定位準(zhǔn)確度(GT-Known Loc)作為評(píng)價(jià)指標(biāo)。當(dāng)基準(zhǔn)真實(shí)框與預(yù)測(cè)框之間的交并比超過(guò)50%時(shí),GT-Known Loc為正確。當(dāng)Top-1分類(lèi)結(jié)果Top-1 Clas和GT-Known Loc都正確時(shí),Top-1 Loc才為正確。為了公平比較,采用VGG-16作為分類(lèi)網(wǎng)絡(luò)骨干,實(shí)驗(yàn)結(jié)果如表4所示。可以看出,本文方法在Top-1 Loc acc和Top-1 Clas acc上的表現(xiàn)均優(yōu)于對(duì)比方法。

表4 在CUB 200-2011數(shù)據(jù)集上的弱監(jiān)督目標(biāo)定位精度比較Table 4 Comparison of WSOL accuracy on CUB 200-2011 dataset /%

圖5是在細(xì)粒度小樣本數(shù)據(jù)集CUB 200-2011上本文方法與CAM方法的目標(biāo)定位的可視化對(duì)比??梢钥闯觯cCAM方法相比,本文方法可以定位到更加全面的對(duì)象區(qū)域。

圖5 弱監(jiān)督物體定位性能對(duì)比Fig.5 Comparison of weakly-supervised object localization performance((a)CAM;(b)ours)

4 討 論

4.1 消融實(shí)驗(yàn)

4.1.1 嵌入網(wǎng)絡(luò)的影響

通過(guò)實(shí)驗(yàn)探究嵌入網(wǎng)絡(luò)Conv64和ResNet12對(duì)小樣本學(xué)習(xí)和細(xì)粒度小樣本學(xué)習(xí)的影響。Conv64是具有4個(gè)卷積塊的淺層網(wǎng)絡(luò),每個(gè)卷積塊包含64個(gè)3×3卷積核、批歸一化層(batch normalization)和最大池化層(max pooling)。ResNet12是一個(gè)基于4層殘差塊的深層網(wǎng)絡(luò),每個(gè)殘差塊由3個(gè)卷積層構(gòu)造。二者在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示??梢钥闯觯cConv64相比,ResNet12在1-shot和5-shot設(shè)置下,在所有數(shù)據(jù)集上的性能都有顯著提升。表明了ResNet12比淺層網(wǎng)絡(luò)Conv64能提取到更多特征,獲得語(yǔ)義更加豐富的嵌入空間。

表5 不同嵌入網(wǎng)絡(luò)下小樣本分類(lèi)精度Table 5 Influence of the embedding network on few-shot classification accuracy /%

4.1.2 SACM模塊和SAM模塊的影響

為了探究各種模塊在所提出方法中的作用,進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表6所示。其中,w/表示包含,w/o表示不包含。首先,w/ SACM和w/o SACM用來(lái)探究特征描述子篩選的作用,歐氏距離(ED)和SAM用于探究語(yǔ)義對(duì)齊距離(SAM模塊)的作用。ED分類(lèi)器的實(shí)現(xiàn)與原型網(wǎng)絡(luò)相似。在原型網(wǎng)絡(luò)中,通過(guò)拍平嵌入空間中的特征圖獲得一個(gè)高維向量來(lái)表示該全局表征。w/ SACM + SAM在不同的設(shè)置下都優(yōu)于w/ SACM + ED,尤其是使用ResNet12作為嵌入網(wǎng)絡(luò)時(shí),在5-shot設(shè)置下獲得了約25.11%的改善,在1-shot設(shè)置下獲得了約14.37%的改善,表明所提出的語(yǔ)義對(duì)齊距離可以提高小樣本分類(lèi)任務(wù)的性能。其次,根據(jù)w/ SACM + SAM和w/o SACM + SAM可知,使用SACM模塊進(jìn)行特征描述符篩選,可以顯著提高細(xì)粒度小樣本分類(lèi)的性能。但是w/ SACM + ED和w/o SACM + ED表明SACM無(wú)法與ED很好地配合。消融實(shí)驗(yàn)表明,本文方案中的各個(gè)模塊都是有效的,且融合使用時(shí)能起到最大的作用。

表6 本文方法不同模塊下的分類(lèi)精度Table 6 Accuracy comparison of each module in this scheme /%

4.2 可視化實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證本文方法的性能,將小樣本數(shù)據(jù)集和細(xì)粒度小樣本數(shù)據(jù)集的輸入對(duì)應(yīng)的類(lèi)激活圖可視化,并與主流的WSOL方法CAM進(jìn)行比較,在miniImageNet和Few-Shot Fine-Grained數(shù)據(jù)集上的可視化結(jié)果如圖6和圖7所示。可以看出,與CAM相比,無(wú)論在miniImageNet還是細(xì)粒度小樣本數(shù)據(jù)集中,本文模型都可以更完整地定位出關(guān)鍵對(duì)象。值得一提的是,兩個(gè)模型都可以識(shí)別出之前未見(jiàn)過(guò)的全新類(lèi)別(尤其是細(xì)粒度數(shù)據(jù)集)。這可能是因?yàn)闇y(cè)試階段這些全新的類(lèi)別始終包含與訓(xùn)練集相似的區(qū)域(例如細(xì)粒度圖像),分類(lèi)器會(huì)將新樣本分類(lèi)為訓(xùn)練集中與之最相似的類(lèi)別,并以該區(qū)域?yàn)閳D像產(chǎn)生類(lèi)激活圖。

圖6 在miniImageNet數(shù)據(jù)集上的弱監(jiān)督目標(biāo)定位可視化Fig.6 Visualization of weakly-supervised object localization on miniImageNet dataset((a)original images;(b)CAM;(c)ours)

圖7 在Few-Shot Fine-Grained數(shù)據(jù)集上的弱監(jiān)督目標(biāo)定位可視化Fig.7 Visualization of weakly-supervised object localization on Few-Shot Fine-Grained datasets((a)original images;(b)CAM;(c)ours)

5 結(jié) 論

為了能同時(shí)處理好小樣本圖像分類(lèi)和細(xì)粒度小樣本圖像分類(lèi)任務(wù),本文提出了一種融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本圖像分類(lèi)方法。首先,設(shè)計(jì)了SACM模塊實(shí)現(xiàn)弱監(jiān)督目標(biāo)定位,更重要的是進(jìn)行特征描述子的篩選,得到適用于細(xì)粒度分類(lèi)的特征描述子表示。接著,基于NBNN算法,提出了語(yǔ)義對(duì)齊距離模塊SAM,通過(guò)在每個(gè)選定的特征描述子上執(zhí)行余弦最近鄰算法,實(shí)現(xiàn)查詢圖像和支持圖像之間語(yǔ)義內(nèi)容的對(duì)齊。對(duì)比實(shí)驗(yàn)表明,本文方法在小樣本圖像分類(lèi)和細(xì)粒度的小樣本圖像分類(lèi)任務(wù)上均優(yōu)于最新方法。而且,結(jié)合泛化性實(shí)驗(yàn),充分表明了本文方法可以同時(shí)處理常規(guī)的和細(xì)粒度的小樣本圖像分類(lèi)。

本文提出的融合弱監(jiān)督目標(biāo)定位的細(xì)粒度小樣本學(xué)習(xí)方法是一個(gè)二階段網(wǎng)絡(luò)模型,需要分兩階段訓(xùn)練。在未來(lái)的工作中,將嘗試把弱監(jiān)督目標(biāo)定位網(wǎng)絡(luò)和細(xì)粒度小樣本圖像分類(lèi)網(wǎng)絡(luò)融合到同一個(gè)網(wǎng)絡(luò)中,提出一個(gè)可以完全端到端訓(xùn)練的細(xì)粒度小樣本圖像分類(lèi)模型,進(jìn)一步優(yōu)化和提高細(xì)粒度小樣本圖像分類(lèi)模型的準(zhǔn)確率。

猜你喜歡
分類(lèi)器卷積樣本
分類(lèi)器集成綜述
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
少樣本條件下基于K-最近鄰及多分類(lèi)器協(xié)同的樣本擴(kuò)增分類(lèi)
學(xué)貫中西(6):闡述ML分類(lèi)器的工作流程
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
卷積神經(jīng)網(wǎng)絡(luò)概述
直擊高考中的用樣本估計(jì)總體
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)