鄭欣悅 黃永輝
(中國(guó)科學(xué)院國(guó)家空間科學(xué)中心復(fù)雜航天系統(tǒng)電子信息技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 100190)(中國(guó)科學(xué)院大學(xué) 北京 100049)
近年來(lái),人工智能技術(shù)研究飛速發(fā)展,深度學(xué)習(xí)算法已在圖像識(shí)別領(lǐng)域取得了突破性的進(jìn)展,但算法也逐漸顯露出泛化能力差、所需訓(xùn)練數(shù)據(jù)大等缺點(diǎn)。目前,以CNN為基礎(chǔ)的圖像識(shí)別方法通常需要海量的訓(xùn)練數(shù)據(jù)和充足的迭代次數(shù),才可對(duì)特定的圖像類別進(jìn)行精準(zhǔn)的分類。然而,實(shí)際應(yīng)用中研究者常面臨數(shù)據(jù)稀缺的情況,比如罕見物種圖片、珍貴的醫(yī)療診斷圖片、稀有遙感圖像等,采集這些數(shù)據(jù)的難度大且成本高。而少量的樣本通常不足以訓(xùn)練出一個(gè)較好的深度神經(jīng)網(wǎng)絡(luò)。因此,如何實(shí)現(xiàn)小樣本圖像識(shí)別成為了計(jì)算機(jī)視覺領(lǐng)域的重要研究方向。
針對(duì)小樣本學(xué)習(xí)問題,深度學(xué)習(xí)領(lǐng)域存在著許多不同的解決方案,其中元學(xué)習(xí)方法取得了尤為顯著的成效。元學(xué)習(xí)(Meta-learning)是指導(dǎo)分類器學(xué)會(huì)如何學(xué)習(xí)的過(guò)程。元學(xué)習(xí)器在有限的樣例中對(duì)結(jié)構(gòu)基礎(chǔ)層次和參數(shù)空間進(jìn)行優(yōu)化,以獲得跨任務(wù)泛化性能[1],具備小樣本學(xué)習(xí)的能力。訓(xùn)練完成的元學(xué)習(xí)器可以僅根據(jù)1至5個(gè)輸入-輸出樣例對(duì)新的測(cè)試樣本進(jìn)行分類。
目前元學(xué)習(xí)的方法可以歸類為以下幾種:基于記憶存儲(chǔ)的方法[2,9]通過(guò)權(quán)重更新來(lái)調(diào)整偏差,并不斷地從記憶中學(xué)習(xí)。Santoro等[2-3]利用神經(jīng)圖靈機(jī)引入的外部存儲(chǔ)器來(lái)實(shí)現(xiàn)短期記憶并在標(biāo)簽和輸入圖像之間建立連接,使輸入能夠與存儲(chǔ)器中的相關(guān)圖像進(jìn)行比較,以實(shí)現(xiàn)更好的預(yù)測(cè)。基于梯度的方法[4-5]通常通過(guò)訓(xùn)練額外的網(wǎng)絡(luò)來(lái)預(yù)測(cè)分類器更新策略,如Larochelle等[5]提出訓(xùn)練LSTM優(yōu)化器以學(xué)習(xí)分類器網(wǎng)絡(luò)的參數(shù)優(yōu)化規(guī)則。關(guān)系網(wǎng)絡(luò)[6]和匹配網(wǎng)絡(luò)[7]采用度量學(xué)習(xí)的思想,不再使用人工設(shè)計(jì)的指標(biāo),而是完全利用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)深度距離度量。Finn等[8]提出了一種稱為MAML模型無(wú)關(guān)的元學(xué)習(xí)方法。該方法的基本思想是同時(shí)啟動(dòng)多個(gè)任務(wù),然后獲取不同學(xué)習(xí)任務(wù)的合成梯度方向來(lái)更新神經(jīng)網(wǎng)絡(luò)。這樣的優(yōu)化方式能找到最適合網(wǎng)絡(luò)的初始化位置,這里的初始化位置被定義為:僅通過(guò)幾個(gè)小樣本的訓(xùn)練可以調(diào)整到最好表現(xiàn)。Reptile[10]是OpenAI提出的簡(jiǎn)化版MAML算法,MAML需要在反向傳播中計(jì)算二階導(dǎo)數(shù),而Reptile只需要計(jì)算一階導(dǎo)數(shù),消耗更少的計(jì)算資源且更易于實(shí)現(xiàn)。
雖然上述方法取得了令人矚目的成果,但普遍存在兩個(gè)缺陷:一是算法引入人為設(shè)計(jì)的規(guī)則來(lái)約束學(xué)習(xí);二是需要更多額外的存儲(chǔ)空間對(duì)經(jīng)驗(yàn)進(jìn)行存儲(chǔ),并且沒有提供將知識(shí)轉(zhuǎn)移到其他任務(wù)的理論手段。因此本文提出一種結(jié)合表征學(xué)習(xí)和注意力機(jī)制[18-19]的元學(xué)習(xí)方法VAE-ATTN。表征模塊利用過(guò)去的知識(shí),將高維圖像數(shù)據(jù)表達(dá)為有意義的高級(jí)表征;注意力模塊引導(dǎo)學(xué)習(xí)器關(guān)注關(guān)鍵特征,以快速適應(yīng)新的學(xué)習(xí)任務(wù)。
VAE-ATTN算法首先運(yùn)用變分自編碼器VAE[11-12]通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法獲取各個(gè)任務(wù)內(nèi)部共享的特征。VAE的編碼器保留預(yù)訓(xùn)練后的網(wǎng)絡(luò)模型參數(shù),將提取的低維高級(jí)表征遷移到不同的識(shí)別任務(wù)中。同時(shí),在通道維度引入注意力機(jī)制,通過(guò)計(jì)算概率分布選擇性加強(qiáng)對(duì)當(dāng)前學(xué)習(xí)任務(wù)更重要的特征。本文使用Reptile元學(xué)習(xí)算法作為基準(zhǔn)算法。實(shí)驗(yàn)結(jié)果表明,VAE-ATTN算法整體性能優(yōu)于MAML、MatchingNets、Meta-LSTM等對(duì)比算法,驗(yàn)證了有效的表征學(xué)習(xí)和注意力機(jī)制的結(jié)合能獲得更加精準(zhǔn)的小樣本分類結(jié)果。
本文使用變分自編碼器進(jìn)行表征學(xué)習(xí),表征學(xué)習(xí)的目標(biāo)是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到從原始數(shù)據(jù)到數(shù)據(jù)表征之間的映射。VAE作為深度神經(jīng)網(wǎng)絡(luò),由編碼器和解碼器構(gòu)成。如圖1所示,VAE本質(zhì)是提取數(shù)據(jù)的隱特征,構(gòu)建從隱特征到生成目標(biāo)的模型。編碼器從原始數(shù)據(jù)中提取潛在的合理變量,再對(duì)編碼結(jié)果加上高斯噪聲加以約束,使之成為服從高斯分布的隱含特征。解碼器構(gòu)建的模型將隱特征映射到重新生成的概率分布中,重構(gòu)的分布需盡量與原始分布相同。
圖1 VAE的工作原理
網(wǎng)絡(luò)有兩個(gè)組件:具有參數(shù)φ的編碼器網(wǎng)絡(luò)E和具有參數(shù)θ的解碼器D,其損失函數(shù)為:
L(φ,θ,x)=Eqφ(z|x)[logpθ(x|z)]-DKL(qφ(z|x)‖pθ(z))
(1)
式中:qφ(z|x)表示從數(shù)據(jù)空間到隱含空間的編碼器;pθ(x|z)表示從隱含空間到數(shù)據(jù)空間的解碼器。
損失函數(shù)由兩方面構(gòu)成:式(1)第一項(xiàng)為重構(gòu)誤差,驅(qū)使重構(gòu)的pθ(x|z)分布更接近于輸入分布pθ(x);第二項(xiàng)旨在減小KL散度,驅(qū)使qφ(z|x)更接近于先驗(yàn)分布pθ(z)。為了實(shí)現(xiàn)這種重構(gòu),VAE將捕捉到可以代表原始輸入數(shù)據(jù)的最重要的特征因素。
特別地,我們嘗試用VAE的變體β-VAE[13-15]進(jìn)行實(shí)驗(yàn)。β-VAE引入解纏性先驗(yàn)[21],假設(shè)數(shù)據(jù)是基于互相獨(dú)立的因素生成的,因此可以用表征中不同的獨(dú)立變量表示這些因素。該解纏性先驗(yàn)可促進(jìn)編碼器學(xué)習(xí)數(shù)據(jù)簡(jiǎn)潔的抽象表示,從而用于各種下游任務(wù)并提升樣本效率。
如式(2)所示,β-VAE引入了一個(gè)可調(diào)節(jié)的超參數(shù)β,它可控制隱變量的維度以及重建精度之間的平衡,同時(shí)高斯先驗(yàn)的各向同性性質(zhì)也給學(xué)習(xí)的后驗(yàn)帶來(lái)了隱形的約束。β變化會(huì)改變訓(xùn)練期間學(xué)習(xí)程度,從而鼓勵(lì)不同的學(xué)習(xí)表征,實(shí)驗(yàn)中需要調(diào)整的值以促進(jìn)使用解纏后的表征。
L(φ,θ,x)=Eqφ(z|x)[logpθ(x|z)]-βDKL(qφ(z|x)‖pθ(z))
(2)
VAE的無(wú)監(jiān)督學(xué)習(xí)階段需要編碼器對(duì)輸入數(shù)據(jù)降維,并從中提取通用而高級(jí)的表征,以適用于小樣本學(xué)習(xí)中不同圖像類別的一系列任務(wù)分布。從元學(xué)習(xí)的角度處理這個(gè)問題,將目標(biāo)定義為一個(gè)有效的學(xué)習(xí)過(guò)程,可以從無(wú)標(biāo)記數(shù)據(jù)轉(zhuǎn)移到少標(biāo)記樣本的任務(wù)。
Bengio等[21]提出具有適合特定任務(wù)和數(shù)據(jù)域的表征可以顯著提高訓(xùn)練模型的學(xué)習(xí)成功率和穩(wěn)健性。因此,本文對(duì)VAE提取的高級(jí)表征構(gòu)建注意力機(jī)制,使元學(xué)習(xí)器能在全局信息中關(guān)注更有利于當(dāng)前學(xué)習(xí)任務(wù)的目標(biāo)表征。自注意機(jī)制與人類視覺注意力機(jī)制起著類似的作用,從大量的信息中篩選出部分關(guān)鍵的信息,并聚焦到這些重要的信息上。
圖2闡述了注意力模型的內(nèi)部結(jié)構(gòu)。該模塊通過(guò)分析輸入數(shù)據(jù)的總特征,捕獲通道間依賴關(guān)系,預(yù)測(cè)通道重要性,以此選擇性地強(qiáng)調(diào)某些特征。
圖2 注意力模型的網(wǎng)絡(luò)結(jié)構(gòu)以及相應(yīng)特征的維度
根據(jù)預(yù)訓(xùn)練過(guò)編碼器產(chǎn)生的隱特征γ構(gòu)建注意力模塊的輸入,γ∈Rb×h×w×c,其中b為批大小(Batch size),h和w為特征圖的長(zhǎng)和寬,c是通道數(shù)。由式(3)-式(6)所示,Q和K由輸入特征γ通過(guò)1×1卷積的跨通道信息整合而得的新的特征圖,并將維度變換為Rx×c,其中x=h×w,接著在Q和K的轉(zhuǎn)置之間執(zhí)行矩陣乘法,最后使用softmax函數(shù)進(jìn)行歸一化,得到維度為c×c注意力概率分布αji。這樣設(shè)計(jì)的意義在于計(jì)算γ的每個(gè)通道數(shù)之間的影響力權(quán)重,可以突出關(guān)鍵特征圖的作用,減少冗余特征對(duì)整體分類性能的影響。
Q=reshape(FCNN(γ;θ1))
(3)
K=reshape(FCNN(γ;θ2))
(4)
V=reshape(γ)
(5)
(6)
最后,將權(quán)重系數(shù)αij與原始特征進(jìn)行加權(quán)求和,再用尺度系數(shù)β加以調(diào)整,即可獲得辨別性高的特征表達(dá)Oj:
(7)
其中:β初始化為0,在學(xué)習(xí)的過(guò)程中逐漸分配到更大的權(quán)重。
該注意力模塊能自適應(yīng)地整合局部特征并明確全局依賴,使得元學(xué)習(xí)器能注意到更有用的特征,在樣本匱乏的情況下出色地完成分類工作。
針對(duì)傳統(tǒng)深度學(xué)習(xí)方法的局限性,VAE-ATTN提供了很好的解決方案。VAE-ATTN提出通過(guò)預(yù)訓(xùn)練VAE學(xué)習(xí)任務(wù)高級(jí)表征,混合使用注意力機(jī)制快速運(yùn)用關(guān)鍵表征的方法,最大化從少量樣本中獲取的有效信息。
方法分為兩個(gè)階段,第一階段為表征模塊的預(yù)訓(xùn)練。算法使用深度生成模型VAE構(gòu)建一個(gè)提供數(shù)據(jù)嵌入或特征表征的模型。預(yù)訓(xùn)練集由大規(guī)模圖像分類數(shù)據(jù)集ImageNet上隨機(jī)抽取的150個(gè)類組成,這些類別和元數(shù)據(jù)集中的類別沒有重疊。VAE從預(yù)訓(xùn)練集中學(xué)習(xí)各個(gè)圖像類別共享的特征子集。特別地,實(shí)驗(yàn)嘗試使用β-VAE作為表征模塊,相比于線性嵌入或從常規(guī)變分自編碼器獲得的特征,β-VAE能夠提取解纏的特征,具有更加有效的表征能力。
第二階段為元學(xué)習(xí)階段。將預(yù)訓(xùn)練完成的VAE編碼器,作為特征提取器遷移至新的識(shí)別任務(wù)中。VAE輸出的通道響應(yīng)彼此關(guān)聯(lián),每個(gè)通道映射可以被視作特定于類別的響應(yīng)。因此對(duì)VAE的輸出特征引入注意力機(jī)制,利用通道映射之間的相互依賴性,選擇性地強(qiáng)調(diào)相互依賴的特征映射,并改進(jìn)特定類別的特征表示。本文使用的基準(zhǔn)元學(xué)習(xí)算法為模型無(wú)關(guān)的Reptile元學(xué)習(xí)方法,Reptile掌握任務(wù)分布規(guī)律,從特征空間和參數(shù)空間對(duì)元學(xué)習(xí)器進(jìn)行聯(lián)合優(yōu)化。
圖3為基于VAE和注意力機(jī)制的元學(xué)習(xí)圖像分類架構(gòu)。編碼器是深度為4的卷積網(wǎng)絡(luò),解碼器由4層反卷積構(gòu)成。對(duì)編碼器提取的特征輸入注意力模塊,進(jìn)行特征加強(qiáng)。最后通過(guò)由全連接層和Softmax層組成的分類器,得到圖像分類成果。這樣的結(jié)構(gòu)即保留了抽象的圖像特征,又為在面臨新任務(wù)的學(xué)習(xí)時(shí)保留了調(diào)整的余地。算法運(yùn)行的偽代碼如算法1所示。
圖3 VAE-ATTN圖像分類框架
算法1VAE-ATTN元學(xué)習(xí)算法
1 預(yù)訓(xùn)練VAE模型,重復(fù)步驟1)-步驟2)直至圖像重構(gòu)誤差小于σ:
1) 從預(yù)訓(xùn)練集中采樣n張圖片P(0)~P(n-1);
2) 在每幅圖像上執(zhí)行隨機(jī)梯度下降,優(yōu)化網(wǎng)絡(luò)編碼器參數(shù)φ和解碼器參數(shù)θ。
2 將預(yù)訓(xùn)練好的編碼器的參數(shù)值φ固定,連接Attention模塊。
3 Attention模塊參數(shù)A在元數(shù)據(jù)集上通過(guò)Reptile算法進(jìn)行訓(xùn)練以學(xué)會(huì)強(qiáng)調(diào)關(guān)鍵的特征圖,步驟1)-步驟3)預(yù)定義的J次:
1) 從元數(shù)據(jù)集中采樣n個(gè)任務(wù)τ(0)~τ(n-1);
2) 在每個(gè)任務(wù)τi上執(zhí)行連續(xù)k步梯度下降,計(jì)算權(quán)值Wi=SGD(Lτi,k,A);
4 在測(cè)試集上驗(yàn)證模型,獲得最終準(zhǔn)確率。
Reptile[10]作為基準(zhǔn)元學(xué)習(xí)算法,本質(zhì)上是通過(guò)不斷地采樣不同類別的任務(wù),在任務(wù)層面實(shí)現(xiàn)知識(shí)的泛化。算法的優(yōu)化目標(biāo)如下:
(8)
為了驗(yàn)證基于VAE和注意力機(jī)制的元學(xué)習(xí)方法的有效性,實(shí)驗(yàn)選取兩個(gè)重要的基準(zhǔn)數(shù)據(jù)集Mini-ImageNet和Omniglot進(jìn)行實(shí)驗(yàn),并將測(cè)試結(jié)果與其他元學(xué)習(xí)方法進(jìn)行比較。Omniglot[16]是Lake等提出的語(yǔ)言文字?jǐn)?shù)據(jù)集,該數(shù)據(jù)集包含50種文字,1 623類手寫字符,每一類字符僅擁有20個(gè)樣本,且這些樣本均為不同的人繪制而成。Mini-ImageNet[7]數(shù)據(jù)集由DeepMind于2016年提出,是計(jì)算機(jī)視覺領(lǐng)域的重要基準(zhǔn)數(shù)據(jù)集,它通過(guò)從ImageNet隨機(jī)抽樣100個(gè)類并為每個(gè)類選擇600個(gè)樣本創(chuàng)建而成。其中:訓(xùn)練集包含64個(gè)類別,共計(jì)38 400幅圖像;測(cè)試集包含20個(gè)類別,共計(jì)12 000幅圖像;驗(yàn)證集包含16個(gè)類,9 600張圖像。
預(yù)訓(xùn)練階段:變分自編碼器從原始的,未標(biāo)記的預(yù)訓(xùn)練集數(shù)據(jù)中進(jìn)行學(xué)習(xí)。從ImageNet中隨機(jī)抽取150類,每類600張圖片組成預(yù)訓(xùn)練集。預(yù)訓(xùn)練集沒有與Mini-ImageNet數(shù)據(jù)集中的類別重疊。在β-VAE訓(xùn)練階段,本文采用Adam優(yōu)化器,固定學(xué)習(xí)率為0.001。編碼器模型運(yùn)用4層CNN卷積層,每層使用64個(gè)大小為3×3的卷積核,輸出為100維的隱變量。損失函數(shù)一方面通過(guò)交叉熵來(lái)度量圖片的重構(gòu)誤差,另一方面,通過(guò)KL散度來(lái)度量隱變量的分布和單位高斯分布的差異。根據(jù)損失函數(shù)的收斂特性,本文選取的批大小為32,以獲得隨機(jī)性避免陷入局部最優(yōu)化。
元學(xué)習(xí)階段:網(wǎng)絡(luò)運(yùn)用訓(xùn)練集中有標(biāo)記的,訓(xùn)練集數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)。在預(yù)訓(xùn)練階段之后,β-VAE已經(jīng)從預(yù)訓(xùn)練集中學(xué)習(xí)了低維的高級(jí)特征,元學(xué)習(xí)器只需要通過(guò)快速調(diào)整其注意力模塊來(lái)學(xué)習(xí)如何適應(yīng)新的學(xué)習(xí)任務(wù)。網(wǎng)絡(luò)使用Reptile算法對(duì)注意力模塊進(jìn)行2萬(wàn)次的訓(xùn)練迭代,每次連續(xù)計(jì)算8步梯度下降來(lái)更新網(wǎng)絡(luò)參數(shù),詳細(xì)超參設(shè)置見表1。
表1 元學(xué)習(xí)參數(shù)表
實(shí)驗(yàn)考慮解決小樣本分類中K-樣本,N-類別[7]學(xué)習(xí)問題。對(duì)于K-樣本,N-類別(K-shot,N-way)分類的每個(gè)任務(wù),學(xué)習(xí)器訓(xùn)練N個(gè)相關(guān)類,每個(gè)類都有K個(gè)例子,首先從元數(shù)據(jù)集中采樣N個(gè)類,為每個(gè)類選擇K+1個(gè)樣本。然后,將這些示例拆分為訓(xùn)練和測(cè)試集,其中訓(xùn)練集包含每個(gè)類的K個(gè)示例,測(cè)試集包含剩余樣本。以5-樣本,5-類別分類為例,實(shí)驗(yàn)中共抽取30個(gè)樣例,使用其中25個(gè)樣本5(圖像)×5(類)訓(xùn)練學(xué)習(xí)器并使用剩余的示例來(lái)測(cè)試模型。
4.2.1β-VAE的重構(gòu)分析
對(duì)于無(wú)監(jiān)督學(xué)習(xí)階段,實(shí)驗(yàn)考察了β參數(shù)對(duì)提取解纏特征的影響。實(shí)驗(yàn)發(fā)現(xiàn)β=8是對(duì)于最終學(xué)習(xí)器進(jìn)行小樣本分類的最合適的參數(shù)值,實(shí)驗(yàn)中大約一半的隱變量已經(jīng)收斂到單位高斯先驗(yàn)。如圖4所示,(a)為測(cè)試圖片,(b)為β=8時(shí)的β-VAE重構(gòu)圖像。從圖像重建的質(zhì)量上分析,由于隱變量的維度受限,良好的解纏表征可能會(huì)導(dǎo)致模糊的重建[12]。但解纏表征例如旋轉(zhuǎn)、大小、位置等有助于加速后期元學(xué)習(xí)階段的學(xué)習(xí),幫助注意力模塊理解不同任務(wù)之間的共享特征,對(duì)提升小樣本分類性能有更明顯的成效。
(a) 測(cè)試圖像
(b) β-VAE的輸出(β=8)圖4 測(cè)試圖像與重構(gòu)圖像
4.2.2注意力影響可視化分析
該部分實(shí)驗(yàn)成果可視化了注意力機(jī)制給小樣本分類帶來(lái)的影響。實(shí)驗(yàn)使用t-SNE算法[20]將網(wǎng)絡(luò)輸出的特征值降維并投影至2維空間。圖5是Mini-ImageNet實(shí)驗(yàn)中測(cè)試場(chǎng)景的特征可視化圖,(a)為特征在進(jìn)入注意力模塊之前的前期特征,(b)為經(jīng)過(guò)注意力機(jī)制增強(qiáng)之后的特征。為使圖像表述更加清晰,t-SNE實(shí)驗(yàn)中共采樣3種類別,每種類別200幅圖像進(jìn)行降維,圖中的3種標(biāo)記符號(hào)分別代表3個(gè)不同的類別。
(a) (b)圖5 特征通過(guò)t-SNE投影至2維空間的可視化結(jié)果
可以看出,在經(jīng)過(guò)注意力模塊的特征改進(jìn)之后,不同圖像類別之間的分布差異更加明顯,類內(nèi)距離的標(biāo)準(zhǔn)差縮小,而類間距標(biāo)準(zhǔn)差增大。實(shí)驗(yàn)結(jié)果表明,注意力機(jī)制可以捕獲高級(jí)特征里的關(guān)鍵特征,有助于元學(xué)習(xí)器更好地區(qū)分不同類別的圖像。
4.2.3小樣本圖像分類結(jié)果
將VAE-ATTN元學(xué)習(xí)方法與現(xiàn)有元學(xué)習(xí)方法相比較,表2及表3展示了基礎(chǔ)設(shè)置和直推設(shè)置的實(shí)驗(yàn)成果。在直推模式中,元學(xué)習(xí)器允許同時(shí)擁有標(biāo)簽訓(xùn)練樣本和無(wú)標(biāo)簽測(cè)試樣本,訓(xùn)練后的模型一次性對(duì)測(cè)試集中的所有樣本進(jìn)行分類,因此允許信息通過(guò)批量標(biāo)準(zhǔn)化在測(cè)試樣本之間共享[9]。也就是說(shuō),測(cè)試樣本的類標(biāo)簽預(yù)測(cè)過(guò)程會(huì)受到彼此的影響,不再是相互獨(dú)立的。表2與表3中,Y表示運(yùn)用了直推設(shè)置,N表示未運(yùn)用直推設(shè)置。觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),使用直推設(shè)置的分類結(jié)果明顯優(yōu)于未使用該設(shè)置的結(jié)果。
表2 Mini-ImageNet 小樣本分類結(jié)果 %
表3 Omniglot小樣本分類結(jié)果 %
續(xù)表3 %
從表2中可以看出,在Mini-ImageNet上,本文提出的算法超過(guò)了當(dāng)前性能優(yōu)異的元學(xué)習(xí)算法,如MAML、MatchingNets、Meta-LSTM等。在5-樣本,5-類別以及1-樣本,5-類別的測(cè)試場(chǎng)景中分別獲得72.5%和53.5%的準(zhǔn)確率,顯著超越原始Reptile算法的分類性能。由表3可知,在Omniglot數(shù)據(jù)集上,β-VAE在5-樣本,20-類別以及1-樣本,20-類別的測(cè)試場(chǎng)景中,取得了98.8%和96.5%的高分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果說(shuō)明基于表征學(xué)習(xí)和注意力機(jī)制的方法改善了元學(xué)習(xí)器,證明了VAE-ATTN算法的合理性。
圖6是Mini-ImageNet中5-樣本,5-類別的直推實(shí)驗(yàn)的分類準(zhǔn)確率曲線圖。可以看出,VAE-ATTN算法均超出Reptile基準(zhǔn)元學(xué)習(xí)算法,且運(yùn)用β-VAE進(jìn)行預(yù)訓(xùn)練的分類效果也優(yōu)于常規(guī)VAE的訓(xùn)練效果。這一結(jié)果說(shuō)明β-VAE提取的解纏表征加速元學(xué)習(xí)器結(jié)構(gòu)化地理解多樣的任務(wù),實(shí)現(xiàn)更高的小樣本分類準(zhǔn)確率。
圖6 Mini-ImageNet實(shí)驗(yàn)分類準(zhǔn)確率對(duì)比
小樣本圖像識(shí)別在人工智能領(lǐng)域是復(fù)雜且具有挑戰(zhàn)性的研究方向,極具探索價(jià)值和意義。本文通過(guò)分析以往元學(xué)習(xí)方法存在的問題,提出結(jié)合表征學(xué)習(xí)和注意力機(jī)制的新元學(xué)習(xí)方法VAE-ATTN。算法運(yùn)用β-VAE學(xué)習(xí)的高級(jí)的解纏表征,并通過(guò)注意力機(jī)制增強(qiáng)重要的信息并抑制冗余的信息,從而引導(dǎo)元學(xué)習(xí)器進(jìn)行小樣本學(xué)習(xí)。本文算法在Mini-ImageNet和Omniglot數(shù)據(jù)集上的小樣本學(xué)習(xí)測(cè)試中均展現(xiàn)了良好的性能,表明了算法的有效性和可行性。
在后續(xù)工作中,我們將考慮更具泛化性的元學(xué)習(xí)方法,目標(biāo)是提取可跨任務(wù)或遠(yuǎn)距離遷移的特征,使得小樣本學(xué)習(xí)能根據(jù)更充分的先驗(yàn)知識(shí)進(jìn)行新任務(wù)的快速學(xué)習(xí)。