謝少軍 袁鑫攀 曾志高
摘? 要:小樣本學(xué)習(xí)的核心問題是將學(xué)習(xí)過程中不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,優(yōu)化這一問題的關(guān)鍵是在學(xué)習(xí)過程中如何獲取蘊(yùn)含在少量樣本中更多的先驗(yàn)知識(shí),以使得模型最終獲取的特征更加準(zhǔn)確和穩(wěn)定。為了充分挖掘先驗(yàn)知識(shí),文章提出了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義聯(lián)合的注意力機(jī)制,來指導(dǎo)模型在視覺特征中更好地學(xué)習(xí)和區(qū)分共性與個(gè)性。對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)證明,文中這種注意力指導(dǎo)機(jī)制提升了模型的性能,尤其在5way-1shot的情況下,模型達(dá)到了最優(yōu)。
關(guān)鍵詞:小樣本學(xué)習(xí);注意力機(jī)制;多模態(tài);關(guān)聯(lián)語(yǔ)義;對(duì)比語(yǔ)義
中圖分類號(hào):TP18;TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)10-0088-04
Abstract: The core problem of small sample learning is to minimize the unreliable empirical risk in the learning process. The key to optimizing this problem is how to obtain more prior knowledge contained in a small number of samples during the learning process, in order to make the final features obtained by the model more accurate and stable. In order to fully explore prior knowledge, this paper proposes an attention mechanism that combines associative semantics and contrastive semantics to guide the model in better learning and distinguishing commonalities and personalities in visual features. Comparative experiments and ablation experiments have shown that this attention guidance mechanism proposed in this paper improves the performance of the model, especially in the case of 5way-1shot, the model reaches its optimal performance.
Keywords: small sample learning; attention mechanism; multi-modal; associative semantic; contrastive semantic
0? 引? 言
目前的深度學(xué)習(xí)模型從大量帶標(biāo)簽的基類數(shù)據(jù)集中學(xué)習(xí)后,在面對(duì)屬于基類樣本的分類測(cè)試中,其性能已經(jīng)非常優(yōu)秀了,甚至在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽中超過了人類平均水平(例如:ResNet[1])。然而,當(dāng)模型在面對(duì)從未見過的類別(新類)樣本時(shí),特別是在這類樣本數(shù)量非常少,不足以提供豐富的信息支持模型訓(xùn)練時(shí),此時(shí)模型表現(xiàn)的分類能力就顯得不盡人意。
但對(duì)比于人類學(xué)習(xí),以一個(gè)學(xué)齡小孩為例,他只需要在原有知識(shí)儲(chǔ)備基礎(chǔ)上,通過幾個(gè)樣本就能學(xué)會(huì)一個(gè)知識(shí)點(diǎn)。例如:當(dāng)小孩在學(xué)會(huì)加法運(yùn)算之后,通過幾個(gè)簡(jiǎn)單的乘法例
子,就能領(lǐng)悟乘法運(yùn)算(如:2×3=2+2+2,1×3=1+1+1)。還如:當(dāng)給小孩一張陌生人照片,小孩可以很容易從一些人像照片中快速識(shí)別出這個(gè)陌生人是否包含其中。
上述兩個(gè)例子體現(xiàn)了目前深度學(xué)習(xí)與人類學(xué)習(xí)在學(xué)習(xí)過程中樣本數(shù)量這個(gè)因素上之間的差距,為了縮小這種學(xué)習(xí)能力的差距,計(jì)算機(jī)視覺領(lǐng)域提出了小樣本學(xué)習(xí)(Few-ShotLearning, FSL)來研究和模擬這種行為。小樣本學(xué)習(xí)旨在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過對(duì)新類的少量樣本進(jìn)行學(xué)習(xí)后,獲得這些新類的豐富特征,以便進(jìn)行下游任務(wù),例如分類任務(wù)。這種研究是非常具有應(yīng)用價(jià)值的,并且也非常符合現(xiàn)實(shí)生活場(chǎng)景,因?yàn)橛行╊悇e樣本存在倫理、安全、法律、隱私等各種因素難以獲取。
為了縮小模型與人類的學(xué)習(xí)能力差距,計(jì)算機(jī)視覺領(lǐng)域提出了小樣本學(xué)習(xí)(Few-ShotLearning, FSL)來研究和模擬這種行為。現(xiàn)在的小樣本學(xué)習(xí)大都是將預(yù)訓(xùn)練模型學(xué)到提取特征的能力轉(zhuǎn)移到?jīng)]見過的新類別上來,即都是考慮如何將先驗(yàn)知識(shí)從基類轉(zhuǎn)移到新類上,Wang[2]指出這種轉(zhuǎn)移在小樣本情景下是不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化過程。為了縮小這種不可靠性,Yang提出了SEGA[3]機(jī)制,認(rèn)為語(yǔ)義先驗(yàn)知識(shí)在人類學(xué)習(xí)中也起著關(guān)鍵作用,于是提出了基于類標(biāo)簽的語(yǔ)義注意力指導(dǎo)模塊,來指導(dǎo)視覺特征,以便獲得更加準(zhǔn)確的特征。
但家長(zhǎng)在教孩子認(rèn)識(shí)新類別的過程中,除了對(duì)樣本和樣本標(biāo)簽做一對(duì)一的語(yǔ)義解釋之外,在不同樣本間,還有聯(lián)系和比較等學(xué)習(xí)總結(jié)過程,例如在對(duì)動(dòng)物進(jìn)行學(xué)習(xí)時(shí),會(huì)比較和聯(lián)系身體、眼睛等同類屬性,在對(duì)動(dòng)物與植物類別學(xué)習(xí)時(shí),會(huì)比較動(dòng)物與植物的區(qū)別,使得小孩對(duì)物體是否有生命狀態(tài)進(jìn)行思考。因此,我們不應(yīng)該忽略在學(xué)習(xí)過程中對(duì)不同物體的聯(lián)系與比較過程。所以,在SEGA機(jī)制的基礎(chǔ)上,我們提出了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義指導(dǎo)注意力(Associative and Contrastive Semantics Guided Attention, AC-SEGA)的小樣本學(xué)習(xí)。SEGA與AC-SEGA的區(qū)別如圖1所示,可以看出,SEGA是單點(diǎn)的,離散的,沒有關(guān)系的,而AC-SEGA通過豐富樣本標(biāo)簽,形成了關(guān)聯(lián)的,有聯(lián)系的語(yǔ)義。
綜上所述,我們的貢獻(xiàn)主要有以下幾點(diǎn):1)提出了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義聯(lián)合的注意力機(jī)制來指導(dǎo)小樣本學(xué)習(xí);2)設(shè)計(jì)了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義的語(yǔ)義特征提取器;3)模型在兩個(gè)著名的小樣本學(xué)習(xí)訓(xùn)練集上性能表現(xiàn)突出。
1? 近期相關(guān)工作
從如何優(yōu)化模型訓(xùn)練時(shí)不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化過程,以及利用先驗(yàn)知識(shí)的不同方式,近期工作可以分為三類,分別是對(duì)模型進(jìn)行改進(jìn),對(duì)算法進(jìn)行優(yōu)化以及引入多模態(tài)信息。
在模型改進(jìn)方面,目前關(guān)于嵌入/度量學(xué)習(xí)研究比較熱門,在嵌入/度量學(xué)習(xí)中,通過將樣本嵌入到低維空間中,使得相似的距離近,不相似的距離遠(yuǎn)。比較典型的三種網(wǎng)絡(luò)結(jié)構(gòu)為MatchNetwork及其變種[4,5]、Prototype Network及其變種[6,7]和RelationNetwork[8]。在此基礎(chǔ)之上,有的還通過注入各種注意力機(jī)制或以任務(wù)為導(dǎo)向來改進(jìn)模型[9,10]。我們的方法在學(xué)習(xí)視覺特征層面屬于這一類型。
在優(yōu)化算法方面,大都是基于隨機(jī)梯度下降算法(Stochastic gradient descent, SGD)演化而來。目前比較熱門的是基于模型未知的元學(xué)習(xí)(Model-Agnostic Meta-Learning, MAML)及其變種[11,12]。不像經(jīng)典的學(xué)習(xí)范式,在計(jì)算損失后通過求梯度對(duì)模型直接更新,MAML有兩次更新,可以把第一次認(rèn)為是臨時(shí)模型參數(shù)更新,第二次則是對(duì)模型的參數(shù)更新。我們方法中的元學(xué)習(xí)屬于這一類型。
近年來,隨著多模態(tài)融合和自然語(yǔ)言處理的發(fā)展,將語(yǔ)義這一模態(tài)融入小樣本學(xué)習(xí)也非?;馃帷M3[13]使用標(biāo)簽嵌入生成語(yǔ)義原型,用于與視覺原型進(jìn)行融合,形成最終的類表示。此除了來自語(yǔ)言的語(yǔ)義知識(shí)外,還可以從知識(shí)圖(如NEIL[14]、WordNet[15]等)中獲得的先驗(yàn)知識(shí)。我們的方法因?yàn)槿谌肓藰?biāo)簽語(yǔ)義性這一模態(tài),所以也屬于這一類別。
2? 方? 法
2.1? 符號(hào)描述與小樣本問題定義
Dbase表示預(yù)訓(xùn)練模型的數(shù)據(jù)集,它的每個(gè)類包含了大量樣本;Dnovel表示元學(xué)習(xí)階段的數(shù)據(jù)集;Dtest表示測(cè)試數(shù)據(jù)集;這些數(shù)據(jù)集分別對(duì)應(yīng)的標(biāo)簽集合為C base、C novel和C test,其約束條件為C base ∩ C novel ∩ C test=?。在小樣本學(xué)習(xí)過程中,模型的輸入是以任務(wù)(Task)為單位的,用T={T base, T novel, Ttest}中的元素分別表示從訓(xùn)練集,驗(yàn)證集和測(cè)試集中抽樣得到的任務(wù)集合,其中任務(wù)Ti ={S, Q},S表示這個(gè)任務(wù)的訓(xùn)練集或支持集(supportset),Q表示這個(gè)任務(wù)的測(cè)試集或查詢集(query set)。,n表示從對(duì)應(yīng)數(shù)據(jù)集中任取n個(gè)類別,k表示在對(duì)應(yīng)類別中任取k個(gè)樣本,通常在小樣本學(xué)習(xí)的任務(wù)配置中,n與k的取值都非常小,例如n=5、k=1or5,這種配置被稱為n-way k-shot。Q表示在S對(duì)應(yīng)的n個(gè)類別中隨機(jī)抽取的一些樣本。
小樣本學(xué)習(xí)過程為首先在Dbase數(shù)據(jù)集上進(jìn)行主干模型進(jìn)行預(yù)訓(xùn)練,公式為:
其中,Θ0表示預(yù)訓(xùn)練模型參數(shù),?表示交叉熵?fù)p失函數(shù)。然后再在Dnovel數(shù)據(jù)集上進(jìn)行元學(xué)習(xí),公式為:
其中,Θ表示元學(xué)習(xí)階段學(xué)到的參數(shù)。最后小樣本學(xué)習(xí)問題可以定義為元學(xué)習(xí)者在對(duì)從未見過的新類別的分類映射能力,即:fΘ:{S, Q}∈T test?C test。
2.2? 語(yǔ)義聯(lián)系與語(yǔ)義對(duì)比的標(biāo)簽構(gòu)建
對(duì)于S中的樣本,在SEGA基礎(chǔ)上分別找標(biāo)簽的一個(gè)上義詞和一個(gè)隨機(jī)噪聲詞進(jìn)行樣本標(biāo)簽擴(kuò)充。上義詞指的是標(biāo)簽所從屬的類別詞,例如老虎屬于動(dòng)物,則老虎的上義詞即為動(dòng)物。這樣,,其中ylabel、yassociative和ycontrastive分別屬于樣本x的原類別標(biāo)簽,上義詞標(biāo)簽和噪聲標(biāo)簽,這樣(ylabel, yassociative)就形成了語(yǔ)義聯(lián)系標(biāo)簽對(duì),(ylabel, yassociative)就形成了語(yǔ)義對(duì)比標(biāo)簽對(duì)。我們使用WordNet這個(gè)工具來對(duì)標(biāo)簽進(jìn)行構(gòu)建,然后使用Glove[16]語(yǔ)義嵌入模型將一個(gè)標(biāo)簽對(duì)轉(zhuǎn)換為對(duì)應(yīng)語(yǔ)義向量Slabel、Sassociative、Scontrastive。
2.3? 語(yǔ)義聯(lián)系與語(yǔ)義對(duì)比的特征提取
對(duì)于一個(gè)樣本語(yǔ)義信息,我們分別設(shè)計(jì)兩個(gè)多層感知機(jī)(MLP)來分別對(duì)(ylabel, yassociative)與(ylabel, ycontrastive)提取語(yǔ)義特征。MLP是由全連接層,Leak ReLU激活函數(shù)層,Dropout層,全連接層和Sigmoid層組成,最后Sigmoid層使得輸出的每個(gè)維度都在[0, 1]之間。S1=MLP([Slabel, Sassociative])∈Rs,S2=MLP([Slabel, Scontrastive])∈Rs,最終的語(yǔ)義向量通過對(duì)這兩個(gè)向量取均值得到,即:S=(S1+S2) / 2 ∈ Rs。
2.4? 語(yǔ)義特征與視覺特征融合
對(duì)于一個(gè)樣本圖像信息,我們使用卷積神經(jīng)網(wǎng)絡(luò)來對(duì)x提取視覺特征V,即。V=Conv(x) ∈ Rv=Rs。這樣當(dāng)語(yǔ)義特征S與視覺特征V都獲取到后,將兩者通過Hadamard積運(yùn)算,得到該樣本的最終特征Feat=S?V。模型框架圖如圖2所示,在關(guān)聯(lián)語(yǔ)義和特征語(yǔ)義特征提取器中(Associative and Contrastive Semantic feature extractor),左邊從上到下分別是關(guān)聯(lián)語(yǔ)義詞向量和對(duì)比語(yǔ)義詞向量?!?”表示向量相加,“?”表示向量做Hadamard積,“cos”代表余弦分類器。
3? 實(shí)驗(yàn)分析
3.1? 數(shù)據(jù)集描述
miniImageNet數(shù)據(jù)集是ImageNet數(shù)據(jù)集子集,從中隨機(jī)抽取100個(gè)類別,每個(gè)類包含600張圖像,按照64、16、20的類別數(shù)量分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。tieredImageNet數(shù)據(jù)集也是ImageNet的子集,但它比miniImagenet更大,tieredImageNet將類別與ImageNet層次結(jié)構(gòu)中的節(jié)點(diǎn)相對(duì)應(yīng),它共有34個(gè)大類別,其中20個(gè)用于訓(xùn)練(351個(gè)子類),6個(gè)用于驗(yàn)證(97個(gè)子類)和8個(gè)用于測(cè)試(160個(gè)子類)。它共計(jì)608個(gè)子類,而miniImageNet則為100個(gè)類。
3.2? 實(shí)驗(yàn)過程
模型的所有實(shí)現(xiàn)都是在PyTorch深度學(xué)習(xí)框架下實(shí)現(xiàn)的,模型的所有訓(xùn)練和測(cè)試都是在一張NVIDIA 3060 GPU上運(yùn)行的。訓(xùn)練分為兩個(gè)階段。第一階段是訓(xùn)練主網(wǎng)絡(luò)中提取不同特征的卷積核參數(shù),與SEGA一樣,這階段模型訓(xùn)練周期是60個(gè)epoch(tieredImageNet為90個(gè)),其中每個(gè)epoch由1 000個(gè)episode組成。在第二階段訓(xùn)練與標(biāo)準(zhǔn)的元學(xué)習(xí)過程一樣,訓(xùn)練周期是20個(gè)epoch,每個(gè)epoch中包含1 000個(gè)episode。注意,在第二階段開始訓(xùn)練我們提出的語(yǔ)義對(duì)比和語(yǔ)義關(guān)聯(lián)注意力模塊。同時(shí),我們?cè)谟?xùn)練過程中與大多數(shù)現(xiàn)有工作一樣,采用了隨機(jī)裁剪等方式來避免過擬合,期間還采用了經(jīng)驗(yàn)學(xué)習(xí)率調(diào)度器。模型在miniImagenet數(shù)據(jù)集上兩個(gè)階段訓(xùn)練的損失與準(zhǔn)確率折線圖如圖3所示。
4? 實(shí)驗(yàn)結(jié)果
表1和表2數(shù)據(jù)都是在5 000 episodes的測(cè)試階段中,對(duì)新類的分類平均準(zhǔn)確率(%)?!癝emantic列”代表模型是否加入了語(yǔ)義,“base”代表基模型。
4.1? 對(duì)比實(shí)驗(yàn)
我們分別在miniImagenet數(shù)據(jù)集和tieredImageNet數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)表明我們的結(jié)果都優(yōu)于我們的基模型SEGA,尤其在5way-1shot情景下,我們的模型性能達(dá)到了最優(yōu)。實(shí)驗(yàn)數(shù)據(jù)如表1所示。
4.2? 消融實(shí)驗(yàn)
我們也在miniImagenet數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),通過控制變量法,分別在只有語(yǔ)義關(guān)聯(lián)、只有語(yǔ)義對(duì)比和兩者都有的情況下進(jìn)行了從5way-1shot到5way-5shot的實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)如表2所示。
4.3? 實(shí)驗(yàn)總結(jié)
通過對(duì)比實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),加入關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義的注意力指導(dǎo)小樣本學(xué)習(xí)模型在性能上提升比較大。而通過消融實(shí)驗(yàn)數(shù)據(jù)可以看到,在僅只有關(guān)聯(lián)語(yǔ)義或僅只有對(duì)比語(yǔ)義的注意力指導(dǎo)情況下,模型性能表現(xiàn)效果不如基模型。這說明我們加入的這兩種語(yǔ)義是在一起疊加相互后,使得模型最終性能提升。另外,從消融實(shí)驗(yàn)結(jié)果來看,隨著shot值增加,即同一類樣本數(shù)增加,準(zhǔn)確率的增長(zhǎng)率越來越慢,這說明隨著視覺樣本數(shù)增加,模型在視覺層面獲取的可分類特征越來越準(zhǔn)確,語(yǔ)義指導(dǎo)作用慢慢減弱,但在1shot或2shot情況下,語(yǔ)義指導(dǎo)是非常有用的。
5? 結(jié)? 論
在本文中,我們通過分析認(rèn)為人類在學(xué)習(xí)新概念時(shí),關(guān)聯(lián)和對(duì)比能力非常重要,因此提出了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義聯(lián)合的注意力機(jī)制來指導(dǎo)視覺特征學(xué)習(xí)。與基模型僅引入樣本標(biāo)簽這種單點(diǎn)語(yǔ)義不同,我們對(duì)樣本的標(biāo)簽做了擴(kuò)充,構(gòu)造了關(guān)聯(lián)語(yǔ)義和對(duì)比語(yǔ)義標(biāo)簽,設(shè)計(jì)了對(duì)應(yīng)的語(yǔ)義特征提取器,然后將語(yǔ)義特征與視覺特征融合來進(jìn)行分類任務(wù),通過對(duì)比和消融實(shí)驗(yàn)可以得出,我們加入的關(guān)聯(lián)語(yǔ)義與對(duì)比語(yǔ)義在聯(lián)合作用下,使得模型的性能得到了提升,從而證明了我們提出的機(jī)制有效性。
參考文獻(xiàn):
[1] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
[2] WANG Y Q,YAO Q M,KWOK J T,et al. Generalizing from a Few Examples: A Survey on Few-Shot Learning [J].ACM Computing SurveysVolume,2021,53(3):1-34.
[3] YANG F Y,WANG R P,CHEN X L. SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot Learning [J/OL].arXiv:2111.04316 [cs.CV].[2022-11-28].https://arxiv.org/abs/2111.04316.
[4] VINYALS O,BLUNDELL C,LILLICRAP T,et al. Matching Networks for One Shot Learning [J/OL].arXiv:1606.04080 [cs.LG].[2022-11-29].https://arxiv.org/abs/1606.04080v1.
[5] CHOI J,KRISHNAMURTHY J,KEMBHAVI A,et al. Structured Set Matching Networks for One-Shot Part Labeling [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:3627-3636.
[6] SNELL J,SWERSKY K,ZEMEL R. Prototypical Networks for Few-shot Learning [J/OL].arXiv:1703.05175 [cs.LG].[2022-11-28].https://arxiv.org/abs/1703.05175.
[7] LAENEN S,BERTINETTO L. On Episodes,Prototypical Networks,and Few-Shot Learning [J/OL].arXiv:2012.09831 [cs.LG].[2022-11-29].https://arxiv.org/abs/2012.09831.
[8] SUNG F,YANG Y X,ZHANG L,et al. Learning to Compare: Relation Network for Few-Shot Learning [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake:IEEE,2018:1199-1208.
[9] HOU R B,CHANG H,MA B P,et al. Cross Attention Network for Few-shot Classification [J/OL].arXiv:1910.07677[cs.CV].[2021-12-17].https://arxiv.org/abs/1910.07677v1.
[10] HONG J,F(xiàn)ANG P F,LI W H,et al. Reinforced Attention for Few-Shot Learning and Beyond [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:913-923.
[11] FINN C,ABBEEL P,LEVINE S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [J/OL].arXiv:1703.03400[cs.LG].[2022-11-29].https://arxiv.org/abs/1703.03400v1.
[12] YE H J,CHAO W L. How to Train Your MAML to Excel in Few-Shot Classification [J/OL].arXiv:2106.16245[cs.LG].[2022-11-30].https://arxiv.org/abs/2106.16245v3.
[13] XING C,ROSTAMZADEH N,ORESHKIN B N,et al. Adaptive Cross-Modal Few-Shot Learning [J/OL].arXiv:1902.07104 [cs.LG].[2023-02-08].https://arxiv.org/abs/1902.07104.
[14] MITCHELL T,COHEN W,HRUSCHKA E,et al. Never-Ending Learning [C]//Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. Austin:AAAI Press.2015:2302–2310.
[15] MILLER A G. WordNet: A Lexical Database for English [J].Communications of the ACM,1995,38(11):39-41.
[16] PENNINGTON J,SOCHER R,MANNING C. Glove: Global Vectors for Word Representation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha:Association for Computational Linguistics,2014:1532-1543.
作者簡(jiǎn)介:謝少軍(1995—),男,漢族,湖南衡陽(yáng)人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺、小樣本學(xué)習(xí)。