多尺度通道注意力機(jī)制的小樣本圖像分類算法

2022-02-28 06:49靳華中李文萱李晴晴

湖北工業(yè)大學(xué)學(xué)報(bào) 2022年1期

王奇，靳華中，李文萱，李晴晴

(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，湖北武漢 430068)

隨著大數(shù)據(jù)時(shí)代的到來，基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型在圖像分類任務(wù)中取得了巨大成功[1]。一般來說，深度學(xué)習(xí)的成功可歸因于三個(gè)關(guān)鍵因素：充足的計(jì)算資源、復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù)集。然而，許多現(xiàn)實(shí)的應(yīng)用場景中，例如在醫(yī)學(xué)、軍事和金融領(lǐng)域，由于涉及隱私安全問題和較高的人力成本等因素，無法得到足夠多的訓(xùn)練樣本。訓(xùn)練模型時(shí)沒有足夠多的有監(jiān)督樣本，容易產(chǎn)生過擬合現(xiàn)象，即模型在訓(xùn)練樣本上表現(xiàn)良好，在測試集上的泛化效果不佳[2]。小樣本學(xué)習(xí)[3]使用遠(yuǎn)小于深度學(xué)習(xí)所需要的數(shù)據(jù)樣本量，達(dá)到接近甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。為了讓小樣本學(xué)習(xí)進(jìn)一步提高模型泛化性能，國內(nèi)外學(xué)者對(duì)其進(jìn)行大量的研究。阿里巴巴智能服務(wù)事業(yè)部團(tuán)隊(duì)[4]根據(jù)內(nèi)部實(shí)現(xiàn)機(jī)制將小樣本學(xué)習(xí)方法分為基于模型、基于度量和基于優(yōu)化三類。李新葉等人[5]和趙凱琳等人[6]從跨任務(wù)學(xué)習(xí)知識(shí)的角度將基于元學(xué)習(xí)和基于遷移學(xué)習(xí)的方法也歸為小樣本學(xué)習(xí)。祝鈞桃等人[7]根據(jù)小樣本分類中所采用的技術(shù)將小樣本學(xué)習(xí)的解決方案分為數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)、外部記憶、參數(shù)優(yōu)化四個(gè)策略。由于真實(shí)世界中樣本采集困難或成本昂貴，小樣本學(xué)習(xí)已成為當(dāng)前機(jī)器學(xué)習(xí)的研究熱點(diǎn)。

從宏觀角度來看，研究小樣本學(xué)習(xí)的理論和實(shí)踐意義主要來自三個(gè)方面[8]。1)小樣本學(xué)習(xí)方法不依賴大規(guī)模的訓(xùn)練樣本，從而避免了某些特定場景中數(shù)據(jù)準(zhǔn)備的高昂成本；2)小樣本學(xué)習(xí)可以縮小人工智能和人類智能之間的差距，是開發(fā)通用人工智能的必要研究；3)小樣本學(xué)習(xí)可以為一個(gè)新出現(xiàn)的任務(wù)實(shí)現(xiàn)低成本和快速的模型部署，為新任務(wù)闡明早期的規(guī)律。

在圖像分類中，依據(jù)不同的建模方式，小樣本圖像分類算法分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類[9]。其中基于卷積神經(jīng)網(wǎng)絡(luò)模型的算法包括四種學(xué)習(xí)范式：遷移學(xué)習(xí)[10]、元學(xué)習(xí)[11]、對(duì)偶學(xué)習(xí)[12]和貝葉斯學(xué)習(xí)[13]。元學(xué)習(xí)包括基于度量的元學(xué)習(xí)[14]、基于模型的元學(xué)習(xí)、基于優(yōu)化的元學(xué)習(xí)?；诙攘康脑獙W(xué)習(xí)方法依據(jù)不同的度量方式對(duì)成對(duì)的樣本進(jìn)行相似度度量，根據(jù)不同的度量方式，可被分為暹羅網(wǎng)絡(luò)[15]、匹配網(wǎng)絡(luò)[16]、原型網(wǎng)絡(luò)[17]以及關(guān)系網(wǎng)絡(luò)[18]。在基于度量的元學(xué)習(xí)方法中，暹羅網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)和原型網(wǎng)絡(luò)的分類器采用手動(dòng)設(shè)計(jì)的方法，使用歐氏距離或者余弦距離，關(guān)系網(wǎng)絡(luò)改進(jìn)了距離的度量方式，使用神經(jīng)網(wǎng)絡(luò)作為分類器來學(xué)習(xí)特征之間度量方式。

基于度量的元學(xué)習(xí)首先專注學(xué)習(xí)一個(gè)可嵌入的模塊，并預(yù)先定義固定的度量方式，在此基礎(chǔ)上關(guān)系網(wǎng)絡(luò)用來學(xué)習(xí)一個(gè)可轉(zhuǎn)移的深度度量模塊以提高圖像的分類精度。2018年，sung等人[18]首次提出關(guān)系網(wǎng)絡(luò)。從深度學(xué)習(xí)出發(fā)，關(guān)系網(wǎng)絡(luò)延續(xù)基于度量的元學(xué)習(xí)的基本原理，通過設(shè)計(jì)模型學(xué)習(xí)“如何度量”樣本間的距離。相比于固定距離的度量方式，關(guān)系網(wǎng)絡(luò)通過學(xué)習(xí)一種非線性的度量方式取得了更好的分類效果。但是關(guān)系網(wǎng)絡(luò)中的特征提取模塊忽略了很多重要的樣本信息，對(duì)樣本的關(guān)鍵信息提取不充分，導(dǎo)致仍然存在識(shí)別準(zhǔn)確率低的問題。通過將圖像裁剪與關(guān)系網(wǎng)絡(luò)相結(jié)合，龐振全等人[19]構(gòu)造的網(wǎng)絡(luò)取得了較好的圖像分類精度，但裁剪操作會(huì)造成樣本有效信息的損失。金璐等人[20]在關(guān)系網(wǎng)絡(luò)中引入inception模塊，融合多尺度特征后對(duì)紅外空中目標(biāo)分類取得了良好效果。王年等人[21]通過引入自注意力機(jī)制與感受野模塊提升了網(wǎng)絡(luò)的特征表達(dá)能力和度量能力。

注意力機(jī)制[22]能夠使網(wǎng)絡(luò)模型更加關(guān)注重要信息而減少與目標(biāo)任務(wù)無關(guān)的信息。2018年，胡杰等人提出SE-Net[23]，將它引入CNN中取得良好的圖像分類效果。此后，研究者提出ECA-Net[24]、SK-Net[25]、ResNeSt[26]、CBAM[27]等注意力機(jī)制，分別從通道域與空間域兩個(gè)方面增強(qiáng)了注意力機(jī)制的性能。注意力機(jī)制大幅度提升模型訓(xùn)練的速度與任務(wù)效果，同時(shí)其即插即用的特性極大方便了模型的設(shè)計(jì)。小樣本學(xué)習(xí)的訓(xùn)練樣本較少，能提取到的信息相對(duì)有限，而使用注意力機(jī)制可以在有限的訓(xùn)練樣本下提取到更多的有效信息。

基于上述分析，在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)中本文引入多尺度空間與通道的注意力機(jī)制，使關(guān)系網(wǎng)絡(luò)的嵌入模塊能夠?qū)W習(xí)更豐富的多尺度特征，同時(shí)自適應(yīng)地對(duì)多維度的通道注意力權(quán)重進(jìn)行特征重標(biāo)定，提升了模型對(duì)小樣本的分類能力。在MiniImageNet[15]與Omniglot[28]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)表明本文方法的分類精度比原方法明顯提高。

1 相關(guān)技術(shù)原理

1.1 小樣本問題描述

受人類智能的啟發(fā)，研究小樣本學(xué)習(xí)的目的是希望模型(算法)能夠像人腦一樣，在學(xué)習(xí)大量的基類后，僅需要少量樣本就能快速得到新類，獲取新的知識(shí)，做到舉一反三。

小樣本圖像分類流程(圖1)包括數(shù)據(jù)集處理，特征提取網(wǎng)絡(luò)和分類器三個(gè)部分。

圖 1 小樣本圖像分類流程

為了提取圖像的有效特征，分類時(shí)需要建立特征提取模型。對(duì)于模型，提取的圖像特征應(yīng)該盡可能有效地描述圖像，使分類器能夠更好地利用它們。可見，提高圖像特征描述和提取能力，將能夠獲得更好的分類結(jié)果。注意力機(jī)制、記憶力機(jī)制等是常見的圖像特征有效提取的技術(shù)手段。

分類器通過對(duì)特征進(jìn)行相似度度量，來獲取對(duì)象的不同類別。小樣本圖像分類中所使用的分類器大多數(shù)是在卷積神經(jīng)網(wǎng)絡(luò)的最后一層構(gòu)建帶有Softmax的全連接層，或者對(duì)提取的圖像特征應(yīng)用K近鄰算法等。本文分類器采用的是前者。

1.2 關(guān)系網(wǎng)絡(luò)

關(guān)系網(wǎng)絡(luò)是一個(gè)靈活、通用、端到端的小樣本學(xué)習(xí)框架，通過計(jì)算支持集和查詢集樣本圖像的關(guān)系得分，對(duì)新類別的樣本圖像進(jìn)行分類。關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)見圖2，它主要由嵌入模塊fφ和關(guān)系模塊gφ組成。

圖 2 關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)

嵌入模塊用于提取圖像樣本的抽象特征，生成支持集和查詢集圖像的特征表示，如圖3中fφ所示，由4個(gè)卷積塊和2個(gè)最大池化層組成，每個(gè)卷積塊包含一個(gè)卷積核大小為3×3，通道數(shù)為64的卷積層，一個(gè)BatchNorm層，一個(gè)ReLU層。嵌入模塊能提取出樣本的抽象特征，為模型提供可以用于對(duì)比的特征信息。支持集與查詢集圖片分別輸入嵌入模塊，首先提取圖像特征，接著將特征圖級(jí)聯(lián)后送入關(guān)系模塊。

圖 3 嵌入模塊與關(guān)系模塊

如圖3中g(shù)φ所示，關(guān)系模塊由2個(gè)卷積塊，2個(gè)最大池化層，2個(gè)全連接層組成。該模塊最終產(chǎn)生0-1范圍內(nèi)的標(biāo)量，該標(biāo)量表示支持集樣本和測試集樣本之間的相似性，為關(guān)系得分。計(jì)算該得分的公式如下：

ri,j=gφ(C(fφ(xi),fφ(xj))),i=1,2,…,S

(1)

其中，ri,j為相似度得分即關(guān)系得分，C(·)為特征級(jí)聯(lián)。

訓(xùn)練中的損失函數(shù)使用均方誤差MSE，如：

(2)

2 基于多尺度通道注意力機(jī)制的小樣本圖像分類模型

2.1 金字塔切分注意力模塊

金字塔切分注意力模塊(PSA)是一種多尺度空間與通道注意力機(jī)制[29]。金字塔切分注意力機(jī)制框架的結(jié)構(gòu)見圖4。

圖 4 金字塔切分注意力機(jī)制框架

PSA模塊包括以下四個(gè)部分：

1)使用分割和連接模塊(SPC module)將輸入轉(zhuǎn)換為通道方向上的多尺度特征圖。其中，分割和連接模塊的實(shí)現(xiàn)步驟如下，將輸入的特征圖X分割成S個(gè)部分，每個(gè)部分用[X0，X1，…，XS-1]和通道維度C′表示，C′=C/S。引入群卷積的方法對(duì)這些部分分別用多尺度并行處理。

SPC設(shè)計(jì)了新的準(zhǔn)則來處理多尺度內(nèi)核與組大小的關(guān)系：

(3)

其中，G是組大小，K是內(nèi)核大小。此外，當(dāng)內(nèi)核大小K=3時(shí)，G=1。經(jīng)過SPC模塊的多尺度特征圖的生成函數(shù)如下：

Fi=conv(ki×ki,Gi)(Xi),i=1,2,…,S-1

(4)

F=cat([F0,F1,…,FS-1])

(5)

2)使用SE權(quán)重模塊提取不同比例的特征圖的注意力權(quán)重，獲得通道方向的注意力向量。

Zi=SEWeight(Fi),i=1,2,…,S-1

(6)

Z=Z0⊕Z1⊕…⊕ZS-1

(7)

其中，⊕是級(jí)聯(lián)運(yùn)算符，Zi是Fi的注意力權(quán)重，Z是多尺度注意力權(quán)重向量。

SE模塊是通道注意力機(jī)制中的經(jīng)典模型，包括Squeeze操作與Excitation操作。SE模塊結(jié)構(gòu)見圖5。

圖 5 SE模塊結(jié)構(gòu)

對(duì)于任何給定的變換，將輸入X映射到特征映射U，其中U∈RH×W×C。特征U首先通過Squeeze操作在空間維度上被壓縮為1×1×C向量，即全局平均池化。Squeeze操作的公式如下：

(8)

Squeeze操作之后是Excitation操作，該操作通過兩個(gè)全連接層組成一個(gè)Bottleneck結(jié)構(gòu)去建模通道間的相關(guān)性，為每個(gè)通道生成一個(gè)權(quán)重值，得到各個(gè)通道權(quán)重的集合。Excitation操作的公式如下：

s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))

(9)

式中，δ為ReLU激活函數(shù)，W1、W2分別為兩個(gè)全連接層的參數(shù)。

最后通過Scale操作將得到的歸一化權(quán)重加權(quán)到每個(gè)通道的特征上，以生成SE模塊的輸出。Scale操作的公式如下：

(10)

3)使用Softmax重新校準(zhǔn)通道方向的注意力向量，得到多尺度通道重新校準(zhǔn)的注意力權(quán)重。

(11)

其中，Softmax用于獲得多尺度通道的重新校準(zhǔn)的權(quán)重，其包含空間上的所有位置信息和通道中的注意力權(quán)重。

att=att0⊕att1⊕…⊕attS-1

(12)

其中，att表示注意力級(jí)聯(lián)后的多尺度通道權(quán)重。

4)將得到的多尺度通道的權(quán)重加權(quán)到對(duì)應(yīng)的特征圖Fi中：

Yi=Fi⊙a(bǔ)tti,i=1,2,…,S-1

(13)

其中，⊙表示通道乘法。

最后得到一個(gè)多尺度特征信息更豐富的細(xì)化特征圖作為輸出。

out=cat([Y0,Y1,…,Ys-1])

(14)

2.2 基于多尺度通道注意力機(jī)制的小樣本圖像分類算法

本文提出的基于多尺度通道注意力機(jī)制的小樣本圖像分類網(wǎng)絡(luò)模型見圖6。

圖 6 小樣本圖像分類網(wǎng)絡(luò)模型

嵌入模塊由一層卷積塊、三層PSA模塊以及兩層最大池化層組成；關(guān)系模塊由兩層卷積塊、兩層最大池化層，兩層全連接層組成。將得到的支持集圖像特征與查詢集圖像特征級(jí)聯(lián)并輸入關(guān)系模型。

PSA模塊網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)金字塔切分注意力模塊[29]，其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。它將輸入的特征圖分為四個(gè)尺度，用大小不同的卷積核并行處理，其中，K0=3，K1=5，K2=7，K3=9。圖中，SE權(quán)重模塊得到通道注意力先計(jì)算不同通道特征圖的權(quán)重，再通過Softmax層對(duì)權(quán)重校準(zhǔn)，最后得到通道權(quán)值不同的特征圖。

圖 7 PSA模塊網(wǎng)絡(luò)結(jié)構(gòu)

本文使用PSA模塊替換嵌入模塊中后三層卷積塊，從而得到改進(jìn)后的嵌入模塊(圖7)。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

MiniImageNet數(shù)據(jù)集是元學(xué)習(xí)和小樣本領(lǐng)域的基準(zhǔn)數(shù)據(jù)集，由google DeepMind團(tuán)隊(duì)Oriol Vinyals等人在ImageNet的基礎(chǔ)上提取并提出，數(shù)據(jù)集復(fù)雜，包含100類共60 000張彩色圖片，其中每類有600個(gè)樣本，每張圖片的規(guī)格為84×84，適合進(jìn)行原型設(shè)計(jì)和實(shí)驗(yàn)研究(圖8)。

圖 8 MiniImageNet數(shù)據(jù)集圖像示例

Omniglot數(shù)據(jù)集包含來自50個(gè)不同字母的1623個(gè)不同手寫字符。每個(gè)字符由20個(gè)不同的人通過亞馬遜的Mechanical Turk在線繪制的。對(duì)現(xiàn)有數(shù)據(jù)旋轉(zhuǎn)90°，180°和270°來擴(kuò)充數(shù)據(jù)集，1200個(gè)原始類加上來進(jìn)行訓(xùn)練，剩余的423個(gè)類來進(jìn)行測試。輸入圖像都調(diào)整到28×28(圖9)。

圖 9 Omniglot數(shù)據(jù)集圖像示例

3.2 實(shí)驗(yàn)設(shè)置

遵循大多數(shù)現(xiàn)有的小樣本學(xué)習(xí)工作采用的標(biāo)準(zhǔn)設(shè)置，對(duì)于MiniImagenet數(shù)據(jù)集，使用5-way 1-shot和5-way 5-shot兩種模式進(jìn)行訓(xùn)練，在訓(xùn)練階段隨機(jī)采樣并構(gòu)建500 000個(gè)episode，在每個(gè)訓(xùn)練的episode中，5-way 1-shot每類包含15個(gè)查詢圖像，5-way 5-shot每類包含10個(gè)查詢圖像。即，在一個(gè)episode中5-way 1-shot有15×5+1×5=80個(gè)圖像，5-way 5-shot有10×5+5×5=75個(gè)圖像，實(shí)驗(yàn)設(shè)置見表1。對(duì)于Omniglot數(shù)據(jù)集，20-way 1-shot和20-way 5-shot兩種模式進(jìn)行訓(xùn)練，在訓(xùn)練階段隨機(jī)采樣并構(gòu)建1 000 000個(gè)episode，在每個(gè)訓(xùn)練的episode中，20-way 1-shot每類包含10個(gè)查詢圖像，20-way 5-shot每類包含5個(gè)查詢圖像。即，在一個(gè)episode中20-way 1-shot有10×20+1×20=220個(gè)圖像，20-way 5-shot有5×20+5×20=200個(gè)圖像，實(shí)驗(yàn)設(shè)置見表2。

表1 MiniImagenet實(shí)驗(yàn)設(shè)置

表2 Omniglot實(shí)驗(yàn)設(shè)置

3.3 實(shí)驗(yàn)結(jié)果

在MiniImagenet和Omniglot數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表3和表4。

表3 MiniImagenet數(shù)據(jù)集上識(shí)別率

表4 Omniglot數(shù)據(jù)集上識(shí)別率

從實(shí)驗(yàn)數(shù)據(jù)可以看出，本文改進(jìn)后的網(wǎng)絡(luò)在MiniImageNet數(shù)據(jù)集上5-way 1-shot與5-way 5-shot的分類精度分別提升到了51.22%與65.86%，比原網(wǎng)絡(luò)分別提高了0.78%和0.54%；在Omniglot數(shù)據(jù)集上20-way 1-shot與20-way 5-shot的分類精度，比原網(wǎng)絡(luò)提高了0.2%和0.1%。

4 結(jié)論

本文在關(guān)系網(wǎng)絡(luò)的嵌入模塊中引入多尺度空間與通道注意力機(jī)制PSA模塊，提出了一種基于多尺度通道注意力機(jī)制的小樣本圖像分類方法，用不同尺度的卷積核對(duì)圖像進(jìn)行特征提取，豐富了特征空間。實(shí)驗(yàn)表明，在標(biāo)準(zhǔn)的MiniImageNet與Omniglot數(shù)據(jù)集中，本文提出的方法提升了關(guān)系網(wǎng)絡(luò)中嵌入模塊的特征提取效率，提高了小樣本圖像的分類精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡