王 奇,靳華中,李文萱,李晴晴
(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430068)
隨著大數(shù)據(jù)時(shí)代的到來,基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型在圖像分類任務(wù)中取得了巨大成功[1]。一般來說,深度學(xué)習(xí)的成功可歸因于三個(gè)關(guān)鍵因素:充足的計(jì)算資源、復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù)集。然而,許多現(xiàn)實(shí)的應(yīng)用場景中,例如在醫(yī)學(xué)、軍事和金融領(lǐng)域,由于涉及隱私安全問題和較高的人力成本等因素,無法得到足夠多的訓(xùn)練樣本。訓(xùn)練模型時(shí)沒有足夠多的有監(jiān)督樣本,容易產(chǎn)生過擬合現(xiàn)象,即模型在訓(xùn)練樣本上表現(xiàn)良好,在測試集上的泛化效果不佳[2]。小樣本學(xué)習(xí)[3]使用遠(yuǎn)小于深度學(xué)習(xí)所需要的數(shù)據(jù)樣本量,達(dá)到接近甚至超越大數(shù)據(jù)深度學(xué)習(xí)的效果。為了讓小樣本學(xué)習(xí)進(jìn)一步提高模型泛化性能,國內(nèi)外學(xué)者對(duì)其進(jìn)行大量的研究。阿里巴巴智能服務(wù)事業(yè)部團(tuán)隊(duì)[4]根據(jù)內(nèi)部實(shí)現(xiàn)機(jī)制將小樣本學(xué)習(xí)方法分為基于模型、基于度量和基于優(yōu)化三類。李新葉等人[5]和趙凱琳等人[6]從跨任務(wù)學(xué)習(xí)知識(shí)的角度將基于元學(xué)習(xí)和基于遷移學(xué)習(xí)的方法也歸為小樣本學(xué)習(xí)。祝鈞桃等人[7]根據(jù)小樣本分類中所采用的技術(shù)將小樣本學(xué)習(xí)的解決方案分為數(shù)據(jù)增強(qiáng)、度量學(xué)習(xí)、外部記憶、參數(shù)優(yōu)化四個(gè)策略。由于真實(shí)世界中樣本采集困難或成本昂貴,小樣本學(xué)習(xí)已成為當(dāng)前機(jī)器學(xué)習(xí)的研究熱點(diǎn)。
從宏觀角度來看,研究小樣本學(xué)習(xí)的理論和實(shí)踐意義主要來自三個(gè)方面[8]。1)小樣本學(xué)習(xí)方法不依賴大規(guī)模的訓(xùn)練樣本,從而避免了某些特定場景中數(shù)據(jù)準(zhǔn)備的高昂成本;2)小樣本學(xué)習(xí)可以縮小人工智能和人類智能之間的差距,是開發(fā)通用人工智能的必要研究;3)小樣本學(xué)習(xí)可以為一個(gè)新出現(xiàn)的任務(wù)實(shí)現(xiàn)低成本和快速的模型部署,為新任務(wù)闡明早期的規(guī)律。
在圖像分類中,依據(jù)不同的建模方式,小樣本圖像分類算法分為卷積神經(jīng)網(wǎng)絡(luò)模型和圖神經(jīng)網(wǎng)絡(luò)模型兩大類[9]。其中基于卷積神經(jīng)網(wǎng)絡(luò)模型的算法包括四種學(xué)習(xí)范式:遷移學(xué)習(xí)[10]、元學(xué)習(xí)[11]、對(duì)偶學(xué)習(xí)[12]和貝葉斯學(xué)習(xí)[13]。元學(xué)習(xí)包括基于度量的元學(xué)習(xí)[14]、基于模型的元學(xué)習(xí)、基于優(yōu)化的元學(xué)習(xí)?;诙攘康脑獙W(xué)習(xí)方法依據(jù)不同的度量方式對(duì)成對(duì)的樣本進(jìn)行相似度度量,根據(jù)不同的度量方式,可被分為暹羅網(wǎng)絡(luò)[15]、匹配網(wǎng)絡(luò)[16]、原型網(wǎng)絡(luò)[17]以及關(guān)系網(wǎng)絡(luò)[18]。在基于度量的元學(xué)習(xí)方法中,暹羅網(wǎng)絡(luò)、匹配網(wǎng)絡(luò)和原型網(wǎng)絡(luò)的分類器采用手動(dòng)設(shè)計(jì)的方法,使用歐氏距離或者余弦距離,關(guān)系網(wǎng)絡(luò)改進(jìn)了距離的度量方式,使用神經(jīng)網(wǎng)絡(luò)作為分類器來學(xué)習(xí)特征之間度量方式。
基于度量的元學(xué)習(xí)首先專注學(xué)習(xí)一個(gè)可嵌入的模塊,并預(yù)先定義固定的度量方式,在此基礎(chǔ)上關(guān)系網(wǎng)絡(luò)用來學(xué)習(xí)一個(gè)可轉(zhuǎn)移的深度度量模塊以提高圖像的分類精度。2018年,sung等人[18]首次提出關(guān)系網(wǎng)絡(luò)。從深度學(xué)習(xí)出發(fā),關(guān)系網(wǎng)絡(luò)延續(xù)基于度量的元學(xué)習(xí)的基本原理,通過設(shè)計(jì)模型學(xué)習(xí)“如何度量”樣本間的距離。相比于固定距離的度量方式,關(guān)系網(wǎng)絡(luò)通過學(xué)習(xí)一種非線性的度量方式取得了更好的分類效果。但是關(guān)系網(wǎng)絡(luò)中的特征提取模塊忽略了很多重要的樣本信息,對(duì)樣本的關(guān)鍵信息提取不充分,導(dǎo)致仍然存在識(shí)別準(zhǔn)確率低的問題。通過將圖像裁剪與關(guān)系網(wǎng)絡(luò)相結(jié)合,龐振全等人[19]構(gòu)造的網(wǎng)絡(luò)取得了較好的圖像分類精度,但裁剪操作會(huì)造成樣本有效信息的損失。金璐等人[20]在關(guān)系網(wǎng)絡(luò)中引入inception模塊,融合多尺度特征后對(duì)紅外空中目標(biāo)分類取得了良好效果。王年等人[21]通過引入自注意力機(jī)制與感受野模塊提升了網(wǎng)絡(luò)的特征表達(dá)能力和度量能力。
注意力機(jī)制[22]能夠使網(wǎng)絡(luò)模型更加關(guān)注重要信息而減少與目標(biāo)任務(wù)無關(guān)的信息。2018年,胡杰等人提出SE-Net[23],將它引入CNN中取得良好的圖像分類效果。此后,研究者提出ECA-Net[24]、SK-Net[25]、ResNeSt[26]、CBAM[27]等注意力機(jī)制,分別從通道域與空間域兩個(gè)方面增強(qiáng)了注意力機(jī)制的性能。注意力機(jī)制大幅度提升模型訓(xùn)練的速度與任務(wù)效果,同時(shí)其即插即用的特性極大方便了模型的設(shè)計(jì)。小樣本學(xué)習(xí)的訓(xùn)練樣本較少,能提取到的信息相對(duì)有限,而使用注意力機(jī)制可以在有限的訓(xùn)練樣本下提取到更多的有效信息。
基于上述分析,在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)中本文引入多尺度空間與通道的注意力機(jī)制,使關(guān)系網(wǎng)絡(luò)的嵌入模塊能夠?qū)W習(xí)更豐富的多尺度特征,同時(shí)自適應(yīng)地對(duì)多維度的通道注意力權(quán)重進(jìn)行特征重標(biāo)定,提升了模型對(duì)小樣本的分類能力。在MiniImageNet[15]與Omniglot[28]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明本文方法的分類精度比原方法明顯提高。
受人類智能的啟發(fā),研究小樣本學(xué)習(xí)的目的是希望模型(算法)能夠像人腦一樣,在學(xué)習(xí)大量的基類后,僅需要少量樣本就能快速得到新類,獲取新的知識(shí),做到舉一反三。
小樣本圖像分類流程(圖1)包括數(shù)據(jù)集處理,特征提取網(wǎng)絡(luò)和分類器三個(gè)部分。
圖 1 小樣本圖像分類流程
小樣本學(xué)習(xí)的基本模型定義為r=g(f(x|θ)|ω),它由特征提取網(wǎng)絡(luò)f(·|θ)和分類器g(·|ω)組成,θ和ω分別表示f和g的參數(shù),x表示待識(shí)別的圖像,f(x|θ)表示對(duì)圖像x提取的特征,r表示對(duì)圖像x識(shí)別的結(jié)果。
為了提取圖像的有效特征,分類時(shí)需要建立特征提取模型。對(duì)于模型,提取的圖像特征應(yīng)該盡可能有效地描述圖像,使分類器能夠更好地利用它們。可見,提高圖像特征描述和提取能力,將能夠獲得更好的分類結(jié)果。注意力機(jī)制、記憶力機(jī)制等是常見的圖像特征有效提取的技術(shù)手段。
分類器通過對(duì)特征進(jìn)行相似度度量,來獲取對(duì)象的不同類別。小樣本圖像分類中所使用的分類器大多數(shù)是在卷積神經(jīng)網(wǎng)絡(luò)的最后一層構(gòu)建帶有Softmax的全連接層,或者對(duì)提取的圖像特征應(yīng)用K近鄰算法等。本文分類器采用的是前者。
關(guān)系網(wǎng)絡(luò)是一個(gè)靈活、通用、端到端的小樣本學(xué)習(xí)框架,通過計(jì)算支持集和查詢集樣本圖像的關(guān)系得分,對(duì)新類別的樣本圖像進(jìn)行分類。關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)見圖2,它主要由嵌入模塊fφ和關(guān)系模塊gφ組成。
圖 2 關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)
嵌入模塊用于提取圖像樣本的抽象特征,生成支持集和查詢集圖像的特征表示,如圖3中fφ所示,由4個(gè)卷積塊和2個(gè)最大池化層組成,每個(gè)卷積塊包含一個(gè)卷積核大小為3×3,通道數(shù)為64的卷積層,一個(gè)BatchNorm層,一個(gè)ReLU層。嵌入模塊能提取出樣本的抽象特征,為模型提供可以用于對(duì)比的特征信息。支持集與查詢集圖片分別輸入嵌入模塊,首先提取圖像特征,接著將特征圖級(jí)聯(lián)后送入關(guān)系模塊。
圖 3 嵌入模塊與關(guān)系模塊
如圖3中g(shù)φ所示,關(guān)系模塊由2個(gè)卷積塊,2個(gè)最大池化層,2個(gè)全連接層組成。該模塊最終產(chǎn)生0-1范圍內(nèi)的標(biāo)量,該標(biāo)量表示支持集樣本和測試集樣本之間的相似性,為關(guān)系得分。計(jì)算該得分的公式如下:
ri,j=gφ(C(fφ(xi),fφ(xj))),i=1,2,…,S
(1)
其中,ri,j為相似度得分即關(guān)系得分,C(·)為特征級(jí)聯(lián)。
訓(xùn)練中的損失函數(shù)使用均方誤差MSE,如:
(2)
金字塔切分注意力模塊(PSA)是一種多尺度空間與通道注意力機(jī)制[29]。金字塔切分注意力機(jī)制框架的結(jié)構(gòu)見圖4。
圖 4 金字塔切分注意力機(jī)制框架
PSA模塊包括以下四個(gè)部分:
1)使用分割和連接模塊(SPC module)將輸入轉(zhuǎn)換為通道方向上的多尺度特征圖。其中,分割和連接模塊的實(shí)現(xiàn)步驟如下,將輸入的特征圖X分割成S個(gè)部分,每個(gè)部分用[X0,X1,…,XS-1]和通道維度C′表示,C′=C/S。引入群卷積的方法對(duì)這些部分分別用多尺度并行處理。
SPC設(shè)計(jì)了新的準(zhǔn)則來處理多尺度內(nèi)核與組大小的關(guān)系:
(3)
其中,G是組大小,K是內(nèi)核大小。此外,當(dāng)內(nèi)核大小K=3時(shí),G=1。經(jīng)過SPC模塊的多尺度特征圖的生成函數(shù)如下:
Fi=conv(ki×ki,Gi)(Xi),i=1,2,…,S-1
(4)
F=cat([F0,F1,…,FS-1])
(5)
2)使用SE權(quán)重模塊提取不同比例的特征圖的注意力權(quán)重,獲得通道方向的注意力向量。
Zi=SEWeight(Fi),i=1,2,…,S-1
(6)
Z=Z0⊕Z1⊕…⊕ZS-1
(7)
其中,⊕是級(jí)聯(lián)運(yùn)算符,Zi是Fi的注意力權(quán)重,Z是多尺度注意力權(quán)重向量。
SE模塊是通道注意力機(jī)制中的經(jīng)典模型,包括Squeeze操作與Excitation操作。SE模塊結(jié)構(gòu)見圖5。
圖 5 SE模塊結(jié)構(gòu)
對(duì)于任何給定的變換,將輸入X映射到特征映射U,其中U∈RH×W×C。特征U首先通過Squeeze操作在空間維度上被壓縮為1×1×C向量,即全局平均池化。Squeeze操作的公式如下:
(8)
Squeeze操作之后是Excitation操作,該操作通過兩個(gè)全連接層組成一個(gè)Bottleneck結(jié)構(gòu)去建模通道間的相關(guān)性,為每個(gè)通道生成一個(gè)權(quán)重值,得到各個(gè)通道權(quán)重的集合。Excitation操作的公式如下:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(9)
式中,δ為ReLU激活函數(shù),W1、W2分別為兩個(gè)全連接層的參數(shù)。
最后通過Scale操作將得到的歸一化權(quán)重加權(quán)到每個(gè)通道的特征上,以生成SE模塊的輸出。Scale操作的公式如下:
(10)
3)使用Softmax重新校準(zhǔn)通道方向的注意力向量,得到多尺度通道重新校準(zhǔn)的注意力權(quán)重。
(11)
其中,Softmax用于獲得多尺度通道的重新校準(zhǔn)的權(quán)重,其包含空間上的所有位置信息和通道中的注意力權(quán)重。
att=att0⊕att1⊕…⊕attS-1
(12)
其中,att表示注意力級(jí)聯(lián)后的多尺度通道權(quán)重。
4)將得到的多尺度通道的權(quán)重加權(quán)到對(duì)應(yīng)的特征圖Fi中:
Yi=Fi⊙a(bǔ)tti,i=1,2,…,S-1
(13)
其中,⊙表示通道乘法。
最后得到一個(gè)多尺度特征信息更豐富的細(xì)化特征圖作為輸出。
out=cat([Y0,Y1,…,Ys-1])
(14)
本文提出的基于多尺度通道注意力機(jī)制的小樣本圖像分類網(wǎng)絡(luò)模型見圖6。
圖 6 小樣本圖像分類網(wǎng)絡(luò)模型
嵌入模塊由一層卷積塊、三層PSA模塊以及兩層最大池化層組成;關(guān)系模塊由兩層卷積塊、兩層最大池化層,兩層全連接層組成。將得到的支持集圖像特征與查詢集圖像特征級(jí)聯(lián)并輸入關(guān)系模型。
PSA模塊網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)金字塔切分注意力模塊[29],其網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。它將輸入的特征圖分為四個(gè)尺度,用大小不同的卷積核并行處理,其中,K0=3,K1=5,K2=7,K3=9。圖中,SE權(quán)重模塊得到通道注意力先計(jì)算不同通道特征圖的權(quán)重,再通過Softmax層對(duì)權(quán)重校準(zhǔn),最后得到通道權(quán)值不同的特征圖。
圖 7 PSA模塊網(wǎng)絡(luò)結(jié)構(gòu)
本文使用PSA模塊替換嵌入模塊中后三層卷積塊,從而得到改進(jìn)后的嵌入模塊(圖7)。
MiniImageNet數(shù)據(jù)集是元學(xué)習(xí)和小樣本領(lǐng)域的基準(zhǔn)數(shù)據(jù)集,由google DeepMind團(tuán)隊(duì)Oriol Vinyals等人在ImageNet的基礎(chǔ)上提取并提出,數(shù)據(jù)集復(fù)雜,包含100類共60 000張彩色圖片,其中每類有600個(gè)樣本,每張圖片的規(guī)格為84×84,適合進(jìn)行原型設(shè)計(jì)和實(shí)驗(yàn)研究(圖8)。
圖 8 MiniImageNet數(shù)據(jù)集圖像示例
Omniglot數(shù)據(jù)集包含來自50個(gè)不同字母的1623個(gè)不同手寫字符。每個(gè)字符由20個(gè)不同的人通過亞馬遜的Mechanical Turk在線繪制的。對(duì)現(xiàn)有數(shù)據(jù)旋轉(zhuǎn)90°,180°和270°來擴(kuò)充數(shù)據(jù)集,1200個(gè)原始類加上來進(jìn)行訓(xùn)練,剩余的423個(gè)類來進(jìn)行測試。輸入圖像都調(diào)整到28×28(圖9)。
圖 9 Omniglot數(shù)據(jù)集圖像示例
遵循大多數(shù)現(xiàn)有的小樣本學(xué)習(xí)工作采用的標(biāo)準(zhǔn)設(shè)置,對(duì)于MiniImagenet數(shù)據(jù)集,使用5-way 1-shot和5-way 5-shot兩種模式進(jìn)行訓(xùn)練,在訓(xùn)練階段隨機(jī)采樣并構(gòu)建500 000個(gè)episode,在每個(gè)訓(xùn)練的episode中,5-way 1-shot每類包含15個(gè)查詢圖像,5-way 5-shot每類包含10個(gè)查詢圖像。即,在一個(gè)episode中5-way 1-shot有15×5+1×5=80個(gè)圖像,5-way 5-shot有10×5+5×5=75個(gè)圖像,實(shí)驗(yàn)設(shè)置見表1。對(duì)于Omniglot數(shù)據(jù)集,20-way 1-shot和20-way 5-shot兩種模式進(jìn)行訓(xùn)練,在訓(xùn)練階段隨機(jī)采樣并構(gòu)建1 000 000個(gè)episode,在每個(gè)訓(xùn)練的episode中,20-way 1-shot每類包含10個(gè)查詢圖像,20-way 5-shot每類包含5個(gè)查詢圖像。即,在一個(gè)episode中20-way 1-shot有10×20+1×20=220個(gè)圖像,20-way 5-shot有5×20+5×20=200個(gè)圖像,實(shí)驗(yàn)設(shè)置見表2。
表1 MiniImagenet實(shí)驗(yàn)設(shè)置
表2 Omniglot實(shí)驗(yàn)設(shè)置
在MiniImagenet和Omniglot數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表3和表4。
表3 MiniImagenet數(shù)據(jù)集上識(shí)別率
表4 Omniglot數(shù)據(jù)集上識(shí)別率
從實(shí)驗(yàn)數(shù)據(jù)可以看出,本文改進(jìn)后的網(wǎng)絡(luò)在MiniImageNet數(shù)據(jù)集上5-way 1-shot與5-way 5-shot的分類精度分別提升到了51.22%與65.86%,比原網(wǎng)絡(luò)分別提高了0.78%和0.54%;在Omniglot數(shù)據(jù)集上20-way 1-shot與20-way 5-shot的分類精度,比原網(wǎng)絡(luò)提高了0.2%和0.1%。
本文在關(guān)系網(wǎng)絡(luò)的嵌入模塊中引入多尺度空間與通道注意力機(jī)制PSA模塊,提出了一種基于多尺度通道注意力機(jī)制的小樣本圖像分類方法,用不同尺度的卷積核對(duì)圖像進(jìn)行特征提取,豐富了特征空間。實(shí)驗(yàn)表明,在標(biāo)準(zhǔn)的MiniImageNet與Omniglot數(shù)據(jù)集中,本文提出的方法提升了關(guān)系網(wǎng)絡(luò)中嵌入模塊的特征提取效率,提高了小樣本圖像的分類精度。