摘 要:圖像檢索算法在化工廠安全防護(hù)中起著重要作用,但是部分化工廠圖像檢索任務(wù)由于其場(chǎng)景特殊,缺乏標(biāo)記樣本,圖像檢索精度較低。為解決上述問題,提出基于元學(xué)習(xí)和輕量化注意力機(jī)制的小樣本圖像檢索方法,基于元學(xué)習(xí)思想構(gòu)建小樣本圖像檢索框架,使用深度可分離卷積提取圖像特征時(shí)能夠降低網(wǎng)絡(luò)復(fù)雜度;為增強(qiáng)網(wǎng)絡(luò)的特征提取能力,在深度可分離卷積中引入注意力模塊,構(gòu)建輕量化注意力機(jī)制的特征提取網(wǎng)絡(luò)。試驗(yàn)結(jié)果表明,采用該方法進(jìn)行圖像檢索時(shí)的mAP是65.41%,參數(shù)量是2.13 MB,計(jì)算量是5.98 GFLOPs;與其他網(wǎng)絡(luò)相比,降低了參數(shù)量和計(jì)算量,提高了檢索精度。
關(guān)鍵詞:圖像檢索;小樣本;元學(xué)習(xí);深度可分離卷積;注意力機(jī)制;輕量化
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)05-00-04
0 引 言
與一般的圖像檢索場(chǎng)景[1]相比,化工廠的圖像檢索任務(wù)場(chǎng)景比較特殊,受安全性和隱私性限制,部分圖像檢索任務(wù)缺少訓(xùn)練樣本,此時(shí)傳統(tǒng)的圖像檢索算法的檢索精度較低。因此,亟需基于少量圖像構(gòu)建泛化能力強(qiáng)的圖像檢索模型。
目前,主流的小樣本[2]問題解決方法是元學(xué)習(xí)(Meta-Learning)[3],元學(xué)習(xí)方法模型可從不同的子任務(wù)中學(xué)習(xí)面對(duì)一個(gè)新任務(wù)時(shí)如何較好地進(jìn)行泛化。與模型無(wú)關(guān)[4]的元學(xué)習(xí)(Model-Agnostic Meta-Learning, MAML)方法是其中重要的一種,其核心思想是使模型能夠在一系列任務(wù)上學(xué)習(xí),快速、有效地適應(yīng)新任務(wù)。
將元學(xué)習(xí)和度量學(xué)習(xí)(Metric Learning)[5]相結(jié)合是針對(duì)元學(xué)習(xí)方法進(jìn)行研究的主流方向之一。文獻(xiàn)[6]提出了關(guān)系網(wǎng)絡(luò)(Relation Network),對(duì)輸入的關(guān)系進(jìn)行建模,通過學(xué)習(xí)樣本之間的關(guān)系進(jìn)行圖像處理。文獻(xiàn)[7]提到的原型網(wǎng)絡(luò)(Prototypical Network)是通過學(xué)習(xí)每個(gè)類別的原型向量,將輸入樣本映射到這些原型向量的空間中,再通過最接近的原型進(jìn)行圖像匹配。
上述元學(xué)習(xí)方法均面向的是圖像分類任務(wù),對(duì)于圖像檢索問題,情況有所不同。圖像檢索是在一個(gè)圖像數(shù)據(jù)庫(kù)中根據(jù)查詢圖像找到相似的圖像,這種任務(wù)不同于圖像分類任務(wù),因?yàn)樗恍枰R(shí)別圖像的類別,只需要在圖像集合中尋找與查詢圖像相似的圖像。上述元學(xué)習(xí)方法對(duì)樣本質(zhì)量要求高,且要求模型不能太復(fù)雜?;谏鲜鲈?,提出一種基于元學(xué)習(xí)和輕量化注意力機(jī)制的小樣本圖像檢索方法MS-LCAM。該方法通過構(gòu)建小樣本圖像檢索框架和輕量化特征提取網(wǎng)絡(luò),有效地提高小樣本圖像檢索的精度。
1 MAML算法概述
1.1 MAML算法原理
元學(xué)習(xí)與傳統(tǒng)的深度學(xué)習(xí)思想不同,傳統(tǒng)的深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù),從而模擬該任務(wù)的模型參數(shù),而元學(xué)習(xí)是從不同的任務(wù)中學(xué)習(xí)經(jīng)驗(yàn)與知識(shí),做到“學(xué)會(huì)學(xué)習(xí)”。元學(xué)習(xí)分為元訓(xùn)練和元測(cè)試兩個(gè)階段,元學(xué)習(xí)問題一般包含兩個(gè)數(shù)據(jù)集:目標(biāo)數(shù)據(jù)集Ds和輔助數(shù)據(jù)集Dh,Ds內(nèi)僅含有少量的帶標(biāo)記目標(biāo)樣本,Dh數(shù)據(jù)集內(nèi)包含足夠多的帶有標(biāo)簽的樣本,可以根據(jù)目標(biāo)數(shù)據(jù)集制作。在元訓(xùn)練階段,每次會(huì)在輔助數(shù)據(jù)集Dh中采樣得到不同子任務(wù),在每個(gè)子任務(wù)中,從輔助數(shù)據(jù)集中選擇出N個(gè)類,然后從N個(gè)類中選取K個(gè)樣本構(gòu)成了支持集Support Set,查詢集Query Set會(huì)在N個(gè)類中的剩余樣本數(shù)據(jù)中采樣得到,這種任務(wù)被稱為N-way K-shot任務(wù)[8]。在元學(xué)習(xí)訓(xùn)練階段,使用構(gòu)建的子任務(wù)訓(xùn)練模型,學(xué)習(xí)經(jīng)驗(yàn)與知識(shí)。在元學(xué)習(xí)測(cè)試階段,使用目標(biāo)數(shù)據(jù)集Ds提供的帶標(biāo)簽的數(shù)據(jù)與元訓(xùn)練階段學(xué)到的知識(shí)對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),可以在新任務(wù)上迅速學(xué)習(xí)和適應(yīng)。
1.2 MAML算法缺點(diǎn)
MAML是一種元學(xué)習(xí)框架,可以幫助模型在小樣本情況下快速適應(yīng)新任務(wù)。然而,MAML并不是設(shè)計(jì)用于解決小樣本圖像檢索任務(wù)的框架,在解決小樣本圖像檢索任務(wù)時(shí),需對(duì)MAML框架進(jìn)行優(yōu)化。
在MAML框架下,對(duì)模型要求嚴(yán)格,要求模型不能太復(fù)雜。在每個(gè)子任務(wù)的訓(xùn)練樣本數(shù)量很少的情況下,如果模型過于復(fù)雜,可能會(huì)在任務(wù)訓(xùn)練階段學(xué)習(xí)到任務(wù)特定的噪聲,而不是泛化到新任務(wù)的規(guī)律。
2 MAML框架改進(jìn)
對(duì)MAML框架進(jìn)行改進(jìn),使其適用于小樣本圖像檢索任務(wù),得到小樣本圖像檢索框架MS。MS分為2個(gè)階段:第1個(gè)階段是元訓(xùn)練階段,根據(jù)MAML思想在輔助數(shù)據(jù)集上劃分小樣本圖像分類子任務(wù),訓(xùn)練出圖像分類網(wǎng)絡(luò);第2個(gè)階段是元測(cè)試階段,在這個(gè)階段會(huì)刪除元訓(xùn)練階段的圖像分類網(wǎng)絡(luò)的最后一層分類層,保留其他層作為元測(cè)試階段的特征體提取網(wǎng)絡(luò),在元測(cè)試階段對(duì)特征提取網(wǎng)絡(luò)進(jìn)行微調(diào),使其提取的特征更適用于圖像檢索任務(wù)。MS框架如圖1所示。
元訓(xùn)練階段的具體過程分為內(nèi)循環(huán)和外循環(huán)兩部分。首先,初始化模型參數(shù)?。內(nèi)循環(huán)時(shí),從任務(wù)集合中隨機(jī)選擇一個(gè)子任務(wù),模型使用子任務(wù)的支持集來(lái)進(jìn)行訓(xùn)練并更新模型參數(shù),對(duì)于每個(gè)子任務(wù)都要進(jìn)行類似的參數(shù)更新,第n個(gè)子任務(wù)得到新的模型參數(shù)θn,使用得到的模型參數(shù)計(jì)算子任務(wù)對(duì)應(yīng)查詢集的損失loss n′。外循環(huán)時(shí),將所有子任務(wù)的損失累積,使用梯度下降來(lái)更新模型的初始化參數(shù)?。通過進(jìn)行內(nèi)循環(huán)和外循環(huán)的多次迭代,可以學(xué)習(xí)到一組初始化參數(shù),使得模型在面對(duì)新任務(wù)時(shí)能夠通過少量的梯度更新快速適應(yīng)新任務(wù)。
在元測(cè)試階段,需要使用元訓(xùn)練階段得到的初始化參數(shù),由于元訓(xùn)練階段得到的初始化參數(shù)的模型是圖像分類網(wǎng)絡(luò),并不適用于圖像檢索任務(wù)。因此,在元測(cè)試階段對(duì)模型進(jìn)行微調(diào)時(shí),去掉圖像分類網(wǎng)絡(luò)的最后一層分類層,使網(wǎng)絡(luò)變?yōu)橐粋€(gè)特征提取網(wǎng)絡(luò),提取到圖像的一維特征。根據(jù)孿生網(wǎng)絡(luò)思想,使用目標(biāo)數(shù)據(jù)集構(gòu)建少量樣本對(duì)圖像,將樣本對(duì)圖像輸入到特征提取網(wǎng)絡(luò),得到成對(duì)一維特征,使用對(duì)比損失對(duì)模型進(jìn)行微調(diào),加大同類圖像對(duì)之間的相似度,減小不同類圖像對(duì)之間的相似度。通過少量樣本對(duì)圖像的微調(diào),使特征提取網(wǎng)絡(luò)適應(yīng)目標(biāo)數(shù)據(jù)集上的圖像檢索任務(wù)。
3 特征提取網(wǎng)絡(luò)的改進(jìn)
3.1 網(wǎng)絡(luò)整體結(jié)構(gòu)
為提取輸入圖像的一維特征,衡量圖像相似性,構(gòu)建輕量化特征提取網(wǎng)絡(luò)LCAM,LCAM主要由標(biāo)準(zhǔn)卷積和添加卷積注意力機(jī)制(Convolutional Block Attention Module, CBAM)[9]的深度可分離卷積D-CBAM模塊組成。LCAM的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
LCAM主要包含5層,每層都包含1個(gè)最大池化的下采樣操作,用于改變特征圖的大小,第1層和第2層操作相同。首先使用了2個(gè)標(biāo)準(zhǔn)卷積提取圖像的低維特征,然后使用最大池化降低維度的特征,增加模型的魯棒性。后3層操作相同,使用3個(gè)相同的D-CBAM模塊提取圖像的高維特征,然后經(jīng)過最大池化降低維度特征,減輕模型的過擬合風(fēng)險(xiǎn)并保留主要特征。經(jīng)過5層操作后,特征進(jìn)入全連接層輸出圖像一維特征。LCAM同時(shí)兼?zhèn)渖疃瓤煞蛛x卷積和CBAM的優(yōu)點(diǎn),使得網(wǎng)絡(luò)更加輕量、高效。
3.2 輕量化特征提取模塊
使用深度可分離卷積提取特征時(shí),網(wǎng)絡(luò)復(fù)雜度雖然下降,但特征提取能力也隨之下降。為增強(qiáng)網(wǎng)絡(luò)判別性特征的提取能力,在特征提取網(wǎng)絡(luò)中使用CBAM注意力模塊。構(gòu)建了輕量化注意力特征提取模塊D-CBAM,如圖3所示。
對(duì)于大小是C×H×W的輸入特征,D-CBAM模塊首先進(jìn)行深度卷積,沿通道將特征分為C個(gè),每個(gè)特征的大小都是1×H×W,對(duì)C個(gè)子特征分別進(jìn)行標(biāo)準(zhǔn)卷積,提取圖像特征。深度卷積通過多個(gè)卷積層逐層堆疊,可以逐漸學(xué)習(xí)到輸入數(shù)據(jù)的層次化特征,捕獲輸入數(shù)據(jù)的局部和全局特征。
將深度卷積的結(jié)果經(jīng)過CBAM注意力模塊,CBAM模塊能夠自適應(yīng)地學(xué)習(xí)圖像中不同區(qū)域的通道注意力和空間注意力,有助于提取更具區(qū)分性的特征,強(qiáng)化關(guān)鍵信息,增強(qiáng)模型對(duì)圖像中重要特征的關(guān)注,從而提高圖像檢索性能。
在CBAM后使用一個(gè)1×1逐點(diǎn)卷積,對(duì)特征進(jìn)行降維,改變特征的通道數(shù),并且對(duì)不同位置上的特征進(jìn)行信息整合。為了防止網(wǎng)絡(luò)退化和梯度消失,在D-CBAM模塊上添加了殘差操作,將D-CBAM的輸入與逐點(diǎn)卷積之后的結(jié)果相加,作為整個(gè)模塊的輸出。
4 實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)
采集化工廠圖像數(shù)據(jù)構(gòu)建目標(biāo)數(shù)據(jù)集(Target Dataset, TD),將其應(yīng)用于元測(cè)試階段,以此評(píng)價(jià)本文提出的方法,TD共有5個(gè)類別,每個(gè)類別包含50張圖像。同時(shí),從其他公開數(shù)據(jù)集上選取與目標(biāo)數(shù)據(jù)集TD相似的數(shù)據(jù)構(gòu)建輔助數(shù)據(jù)集(Auxiliary Dataset for Chemical Plants, ADCP),ADCP共由16個(gè)類別組成,每個(gè)類別包含100張圖像。
實(shí)驗(yàn)使用平均精度均值(mean Average Precision, mAP)評(píng)價(jià)算法性能。精度表示前n個(gè)結(jié)果中有多少是同一類別的,平均精度是不同召回率上的平均值,mAP是對(duì)所有平均精度進(jìn)行平均的結(jié)果。將mAP作為綜合性評(píng)價(jià)指標(biāo),能夠更全面準(zhǔn)確地評(píng)估模型。
4.2 實(shí)驗(yàn)設(shè)置
本文方法基于Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),在元訓(xùn)練階段,子任務(wù)通過5-way和1-shot的元學(xué)習(xí)思想對(duì)ADCP數(shù)據(jù)集進(jìn)行數(shù)據(jù)劃分,每個(gè)子任務(wù)中含有5個(gè)支持集和5個(gè)查詢集,訓(xùn)練任務(wù)每代有24個(gè)子任務(wù),使用Adam優(yōu)化算法[10],內(nèi)部學(xué)習(xí)率為0.04,外部學(xué)習(xí)率為0.001,輸入圖像大小為224×224×3。在元測(cè)試階段,根據(jù)孿生網(wǎng)絡(luò)思想對(duì)TD數(shù)據(jù)集進(jìn)行小樣本圖像檢索任務(wù)劃分,輸入成對(duì)圖像,將輸出成對(duì)特征的余弦相似度作為損失函數(shù),使用SGD優(yōu)化算法[11]對(duì)模型進(jìn)行微調(diào)。
4.3 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證對(duì)MAML框架的改進(jìn)是否有利于小樣本圖像檢索任務(wù),將其與其他元學(xué)習(xí)方法進(jìn)行了對(duì)比實(shí)驗(yàn)。具體而言,其他方法在元訓(xùn)練和元測(cè)試階段均以圖像分類任務(wù)為目標(biāo)進(jìn)行訓(xùn)練和微調(diào),獲得圖像分類模型后,直接使用其全連接層輸出作為圖像的一維特征表示。在此基礎(chǔ)上,本文將基于此方法的圖像檢索結(jié)果與所提方法進(jìn)行了對(duì)比分析,結(jié)果見表1。
相較于直接使用圖像分類模型的全連接層作為圖像特征,本文提出的方法在TD上的圖像檢索準(zhǔn)確率最高,mAP達(dá)到了65.41%。相較于性能較好的Meta-baseline,本文方法的mAP提高了2.04個(gè)百分點(diǎn)。Prototypical Network和Relation Network方法的mAP很低,不適用于小樣本圖像檢索任務(wù)。由此驗(yàn)證了MS-LCAM算法在小樣本圖像檢索任務(wù)中的有效性。
由表2可知,LCAM網(wǎng)絡(luò)在小樣本圖像檢索任務(wù)中取得了最高的mAP,在TD數(shù)據(jù)集上達(dá)到65.41%。相較于VGG16、ViT,LCAM網(wǎng)絡(luò)的參數(shù)量和計(jì)算量明顯降低,檢索性能反而更高。與RepVGG相比,盡管RepVGG計(jì)算量較低,但是它的參數(shù)量卻是LCAM的3.68倍,且RepVGG的mAP比LCAM低了5.5個(gè)百分點(diǎn)。ResNet50的計(jì)算量較低,同時(shí)圖像檢索性能只比LCAM模型低了1.78個(gè)百分點(diǎn),然而ResNet50的參數(shù)量卻是LCAM的11倍。總體而言,LCAM模型不僅在性能上有顯著優(yōu)勢(shì),而且在參數(shù)和計(jì)算效率上相對(duì)較優(yōu)。
為了驗(yàn)證文中所提出的網(wǎng)絡(luò)改進(jìn)策略對(duì)小樣本圖像檢索性能的影響,在網(wǎng)絡(luò)改進(jìn)前后進(jìn)行了圖像檢索實(shí)驗(yàn)對(duì)比,結(jié)果見表3。改進(jìn)后網(wǎng)絡(luò)的參數(shù)量降低12.59 MB,計(jì)算量降低9.42 GFLOPs,mAP提高了8.19個(gè)百分點(diǎn),證明了改進(jìn)模型的有效性,在小樣本圖像檢索任務(wù)中使用輕量化網(wǎng)絡(luò)可以取得更好的檢索結(jié)果。
5 結(jié) 語(yǔ)
針對(duì)化工廠圖像檢索任務(wù)中樣本數(shù)據(jù)缺乏的問題,提出基于元學(xué)習(xí)和輕量化注意力機(jī)制的小樣本圖像檢索方法?;贛AML和孿生網(wǎng)絡(luò)思想構(gòu)建了小樣本圖像檢索框架MS,同時(shí)構(gòu)建了輕量化注意力機(jī)制的特征提取網(wǎng)絡(luò)LCAM,在深度可分離卷積中加入CBAM模塊,構(gòu)建了D-CBAM模塊,降低了網(wǎng)絡(luò)復(fù)雜度并提高了其在小樣本情況下的特征提取能力。實(shí)驗(yàn)通過構(gòu)建的輔助數(shù)據(jù)集ADCP進(jìn)行訓(xùn)練,在采集的化工廠小樣本數(shù)據(jù)集TD上進(jìn)行驗(yàn)證。結(jié)果表明,相比于現(xiàn)有的模型和元學(xué)習(xí)方法,本文方法擁有更高的mAP,達(dá)到65.41%,為小樣本圖像檢索提供了一個(gè)有效的方法。下一步的研究將考慮設(shè)計(jì)一種損失函數(shù),將評(píng)價(jià)指標(biāo)mAP直接應(yīng)用于模型訓(xùn)練過程,以提高圖像檢索的性能。
參考文獻(xiàn)
[1] 楊慧,施水才.基于內(nèi)容的圖像檢索技術(shù)研究綜述[J].軟件導(dǎo)刊,2023,22(4):229-244.
[2] ZHANG D, PU H, LI F, et al. Few shot object detection via a generalized feature extraction net [J]. Journal of internet technology, 2023, 24(2): 305-312.
[3] 李凡長(zhǎng),劉洋,吳鵬翔,等.元學(xué)習(xí)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2021,44(2):422-446.
[4] FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks [C]// Proceedings of the 34th International Conference on Machine Learning. Sydney, NSW, Australia: JMLR.org, 2017: 1126-1135.
[5] HU J, LU J, TAN Y P, et al. Deep transfer metric learning [J]. IEEE transactions on image processing, 2016, 25(12): 5576-5588.
[6] SUNG F, YANG Y, ZHANG L, et al. Learning to compare: Relation network for few-shot learning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 1199-1208.
[7] SNELL J, SWERSKY K, ZEMEL R S. Prototypical networks for few-shot learning [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: Curran Associates Inc, 2017: 4080-4090.
[8] 王圣杰,王鐸,梁秋金,等.小樣本學(xué)習(xí)綜述[J].空間控制技術(shù)與應(yīng)用,2023,49(5):1-10.
[9] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Springer, Cham, 2018.
[10] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [C]// Proceedings of the European International Conference on Learning Representations. [S.l.]: [s.n.], 2017.
[11] LU F. An overview of improved gradient descent algorithms for DNN training within significant revolutions of training frameworks [C]// 2021 2nd International Conference on Computing and Data Science (CDS). Stanford, CA, USA: IEEE, 2021: 181-186.