王 年,孟樹(shù)林,吳洛天,汪曙光,張 艷
(1.安徽大學(xué) 電子信息工程學(xué)院 安徽 合肥 230601;2.清華大學(xué) 合肥公共安全研究院 安徽 合肥 230601)
一般情況下,深度學(xué)習(xí)需要大量的數(shù)據(jù)作為訓(xùn)練樣本.而大量數(shù)據(jù)的獲取、標(biāo)注等環(huán)節(jié)無(wú)疑是一項(xiàng)耗時(shí)、耗力和繁瑣性的工作,而且還存在大量數(shù)據(jù)無(wú)法收集的情況,例如醫(yī)學(xué)影像的獲取需要考慮倫理、道德等因素,稀有動(dòng)物、植物數(shù)據(jù)稀少,不易收集等.人類(lèi)作為高等智能生物,從出生那刻開(kāi)始,就不停地接受各種各樣的訓(xùn)練,包括語(yǔ)言知識(shí)和行為能力等.但人類(lèi)有能力通過(guò)很少的樣本學(xué)習(xí)新的知識(shí),因此,設(shè)計(jì)出像人類(lèi)一樣具有出色學(xué)習(xí)能力的模型成為新的挑戰(zhàn).小樣本學(xué)習(xí)[1]就是通過(guò)概括、類(lèi)比有限先驗(yàn)知識(shí)(少量標(biāo)記樣本),推廣到新任務(wù)中(識(shí)別新的類(lèi)).基于微調(diào)的方法[2-4]核心是遷移思想,用源域大量標(biāo)注好的數(shù)據(jù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò),然后采用少量目標(biāo)域標(biāo)注數(shù)據(jù)對(duì)這個(gè)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行微調(diào),可以達(dá)到不錯(cuò)的效果.數(shù)據(jù)生成[5-6]是小樣本學(xué)習(xí)的一種處理方式,它可以避免模型在有限的數(shù)據(jù)上訓(xùn)練、優(yōu)化,有很大的提升空間.現(xiàn)在,小樣本問(wèn)題常常與元學(xué)習(xí)聯(lián)系在一起.元學(xué)習(xí)[2,4,7-8]也被稱為學(xué)會(huì)學(xué)習(xí),在元訓(xùn)練階段將數(shù)據(jù)集分為不同的元任務(wù),在類(lèi)別變化的情況下提升神經(jīng)網(wǎng)絡(luò)的泛化能力.在元測(cè)試時(shí),面對(duì)全新的類(lèi)別,不需要改變已有模型就能實(shí)現(xiàn)識(shí)別任務(wù).孿生網(wǎng)絡(luò)[9]和原型網(wǎng)絡(luò)[10]關(guān)注提取輸入數(shù)據(jù)的特征,這樣就可以用固定的最近鄰或線性分類(lèi)器識(shí)別.關(guān)系網(wǎng)絡(luò)[11]與其他高效的比較網(wǎng)絡(luò)或度量方式類(lèi)似,不同之處在于關(guān)系網(wǎng)絡(luò)不滿足單一且固定的距離度量方式,由訓(xùn)練好的網(wǎng)絡(luò)充當(dāng)分類(lèi)器,稱之為關(guān)系模型.
論文在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)高效、通用并且端到端的小樣本學(xué)習(xí)框架.該網(wǎng)絡(luò)由兩部分組成,一是嵌入模型,二是關(guān)系模型.嵌入模型用來(lái)提取圖像的特征,由4個(gè)卷積層組成.論文采用inception塊[12]代替原有的第3個(gè)卷積層,來(lái)提升網(wǎng)絡(luò)的特征表達(dá)能力.關(guān)系模型獲得查詢樣本與對(duì)照樣本之間的相關(guān)性得分,即度量它們之間的相似性,實(shí)現(xiàn)小樣本的識(shí)別任務(wù).感受野塊(receptive field block,簡(jiǎn)稱RFB)[13]是受到人類(lèi)視覺(jué)系統(tǒng)的啟發(fā),應(yīng)用多分支的膨脹卷積設(shè)計(jì)的一種類(lèi)似于inception塊的網(wǎng)絡(luò)結(jié)構(gòu).把RFB置于關(guān)系模型的起始位置,來(lái)提高關(guān)系模型的度量能力.在公開(kāi)的miniImagenet和Omniglot數(shù)據(jù)集上實(shí)驗(yàn)表明,這兩種卷積塊在提升關(guān)系網(wǎng)絡(luò)特征表達(dá)能力的同時(shí),也提升了網(wǎng)絡(luò)的度量能力,使得關(guān)系網(wǎng)絡(luò)能更高效地識(shí)別新的樣本.
關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,是一種端到端的結(jié)構(gòu).嵌入模型用來(lái)提取輸入樣本的抽象特征,由4個(gè)卷積層和兩個(gè)最大池化層構(gòu)成,每個(gè)卷積層包含卷積核尺寸為3*3、通道數(shù)為64的卷積層,Relu層和batch norm層.訓(xùn)練好的嵌入模型對(duì)輸入數(shù)據(jù)擁有抽象概括和歸納的能力,網(wǎng)絡(luò)一般不宜過(guò)深.常用4個(gè)卷積層或淺層ResNet網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò).嵌入模型提取對(duì)照樣本和查詢樣本的特征,將查詢樣本復(fù)制C份,與每類(lèi)提取的對(duì)照樣本特征按通道級(jí)聯(lián)在一起,輸入關(guān)系模型.關(guān)系模型由兩個(gè)卷積層和兩個(gè)全連接層組成,最后輸出對(duì)照樣本和查詢樣本的相似性得分,即關(guān)系得分.與傳統(tǒng)固定度量方式如歐式度量、余弦度量等不同,關(guān)系網(wǎng)絡(luò)的創(chuàng)新點(diǎn)之一是通過(guò)網(wǎng)絡(luò)訓(xùn)練得到一個(gè)高效的非線性距離度量.
關(guān)系網(wǎng)絡(luò)采用的均方差損失函數(shù)為
ri,j=gφ(C(fφ(xi),fφ(xj))),i=1,2,…,C,
(1)
其中:ri,j為查詢樣本i與對(duì)照樣本j的相關(guān)得分,C(·)為級(jí)聯(lián)提取到的查詢樣本和對(duì)照樣本的特征.
(2)
其中:I(·)為指數(shù)函數(shù).當(dāng)條件為真時(shí),即查詢樣本和對(duì)照樣本屬于同一類(lèi)時(shí),函數(shù)值為1;當(dāng)查詢樣本與對(duì)照樣本不屬于同一類(lèi),函數(shù)值為0.通過(guò)最小化均方差損失來(lái)優(yōu)化嵌入模型和關(guān)系模型的參數(shù).
圖1 關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)
圖2為基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)框架.由圖2可知,基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)分為兩個(gè)部分:①嵌入模型fφ.它作為特征提取模塊,提取查詢樣本和對(duì)照樣本的特征.論文采用inception塊替換原有的卷積層3,提高嵌入模型的特征提取能力.②關(guān)系模型gφ.關(guān)系模型得出級(jí)聯(lián)后的查詢樣本和對(duì)照樣本的相關(guān)得分,由此判斷查詢樣本的類(lèi)別.論文在關(guān)系模型的第一個(gè)卷積層前加入感受野塊,提升關(guān)系模型的度量能力.模型采用均方差損失函數(shù)和Adam優(yōu)化器.
圖2 基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)框架(FC代表全連接層)
獲得高質(zhì)量模型可以通過(guò)增加網(wǎng)絡(luò)深度或網(wǎng)絡(luò)寬度,論文從增加網(wǎng)絡(luò)寬度的角度出發(fā),用一個(gè)inception塊[12]替換原嵌入模型的第3個(gè)卷積層,如圖3所示.inception塊可以代替人工確定卷積層中過(guò)濾器的類(lèi)型或者確定是否需要?jiǎng)?chuàng)建卷積層和池化層.通常情況下,直接采用最大或平均池化來(lái)降低特征圖的大小,可能會(huì)帶來(lái)特征表達(dá)方面的問(wèn)題.
論文采用的inception塊共有3條分支:分支1中的1*1的卷積層起到了降低通道數(shù)的作用,后面的兩個(gè)3*3的卷積層可以獲得更加抽象的語(yǔ)義特征;分支2采用常規(guī)3*3大小、步長(zhǎng)為2的卷積層;分支3是一個(gè)最大池化層,用來(lái)保留更多的紋理信息.將這3條分支得到的不同特征圖拼接在一起,可提高嵌入模型的特征表達(dá)能力.
圖3 inception塊的網(wǎng)絡(luò)結(jié)構(gòu)(k,s,p分別代表卷積核大小、步長(zhǎng)和補(bǔ)白)
神經(jīng)科學(xué)研究發(fā)現(xiàn),在人類(lèi)視覺(jué)皮層中,感受野(population receptive fields,簡(jiǎn)稱pRF)的大小與視網(wǎng)膜腦圖偏心率成函數(shù)關(guān)系.Liu等[13]受到人類(lèi)視覺(jué)系統(tǒng)的RF(receptive fields)結(jié)構(gòu)[14]啟發(fā),設(shè)計(jì)一種類(lèi)似于inception塊的結(jié)構(gòu),稱之為感受野塊.不同大小卷積核與感受野尺寸相對(duì)應(yīng),并利用膨脹卷積的膨脹率來(lái)控制偏心率.總的來(lái)說(shuō),利用RF的尺寸和偏心率的關(guān)系,可增強(qiáng)特征的可分性和魯棒性.RFB的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 RFB的網(wǎng)絡(luò)結(jié)構(gòu)(“rate”代表膨脹卷積的膨脹率)
由圖4可知,RFB的網(wǎng)絡(luò)結(jié)構(gòu)大量采用1×1的卷積層來(lái)減少特征的通道數(shù).采用兩個(gè)3×3的卷積層替換5×5的卷積層,可以減少網(wǎng)絡(luò)的參數(shù)量以及加深網(wǎng)絡(luò)的非線性程度;使用1×n和n×1的卷積層代替n×n的卷積層,同樣達(dá)到減少網(wǎng)絡(luò)參數(shù)和增強(qiáng)非線性的功能;最后,將所有分支提取的特征連接在一起.論文將RFB添加在關(guān)系模型中,提升關(guān)系模型的度量能力.
實(shí)驗(yàn)在miniImagenet和 Omniglot數(shù)據(jù)集上進(jìn)行,針對(duì)C-wayK-shot問(wèn)題,實(shí)驗(yàn)設(shè)置不同的C,K值驗(yàn)證論文所設(shè)計(jì)模型的性能.初始學(xué)習(xí)率設(shè)為5×10-4,采用Adam梯度下降算法,總迭代105次.
Omniglot[15]數(shù)據(jù)集一共32 460幅單通道字符圖像,包含1 623類(lèi)不同種類(lèi)的字符,來(lái)自50個(gè)不同的字符表(alphbets),每個(gè)字符由20個(gè)不同的人通過(guò)亞馬遜的Mechanical Turk在線繪制.其中1 200類(lèi)字符通過(guò)90,180,270°旋轉(zhuǎn)擴(kuò)充數(shù)據(jù)集,剩余423類(lèi)用于測(cè)試,所有輸入圖像尺寸為28×28,如圖5所示.
圖5 Omniglot數(shù)據(jù)庫(kù)圖像樣本示例
論文提出的方法沒(méi)有進(jìn)行微調(diào).在測(cè)試時(shí),準(zhǔn)確率是600個(gè)批樣本準(zhǔn)確率的均值并且置信為95%.在Omniglot數(shù)據(jù)集上的識(shí)別率如表1所示.由表1可知,論文提出的方法僅在5-way 5-shot上實(shí)驗(yàn)時(shí),比MAML低0.1%.在其他情況下,達(dá)到最好的識(shí)別準(zhǔn)確率,尤其是在20-way上,分別比關(guān)系網(wǎng)絡(luò)提高了0.2%,0.3%,并且高于其他方法.在5-way 1-shot上,論文提出的方法比關(guān)系網(wǎng)絡(luò)高0.1%,達(dá)到99.7%.總的來(lái)說(shuō),在Omniglot數(shù)據(jù)集上,基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)的識(shí)別率整體高于關(guān)系網(wǎng)絡(luò),與其他小樣本學(xué)習(xí)方法相比,論文提出的改進(jìn)算法同樣具有優(yōu)異性能.
表1 在Omniglot數(shù)據(jù)集上的識(shí)別率
miniImagenet數(shù)據(jù)集由文獻(xiàn)[20]提出,共6萬(wàn)張84*84大小的RGB圖像,包含100類(lèi)、每類(lèi)600張圖像樣本.參照文獻(xiàn)[20]把數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別為64,16,20類(lèi)樣本.在5-way 1-shot 和5-way 5-shot上進(jìn)行實(shí)驗(yàn),樣本示例如圖6所示.
圖6 miniImagenet數(shù)據(jù)庫(kù)圖像樣本示例
由于背景復(fù)雜、類(lèi)間差異小等因素,miniImagnet的識(shí)別難度整體比Omniglot高.在miniImagenet數(shù)據(jù)集上的識(shí)別率如表2所示.在miniImagenet數(shù)據(jù)集上,基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)在5-way 1-shot,5-way 5-shot上識(shí)別率分別達(dá)到52.89%,67.15%,比關(guān)系網(wǎng)絡(luò)分別提高2.4%,1.8%.相較于其他方法,基于改進(jìn)關(guān)系網(wǎng)絡(luò)在5-way 5-shot上仍然有一些差距,比MxML低2.2%,比MAML++低1.2%.但在5-way 1-shot實(shí)驗(yàn)中,論文方法的識(shí)別率比MxML高了1.5%,比MAMA++高0.7%.總之,基于改進(jìn)關(guān)系網(wǎng)絡(luò)能夠有效提升關(guān)系網(wǎng)絡(luò)在miniImagenet數(shù)據(jù)集上的識(shí)別率.
表2 在miniImagenet數(shù)據(jù)集上的識(shí)別率
由于改進(jìn)關(guān)系網(wǎng)絡(luò)在Omniglot數(shù)據(jù)集上已經(jīng)達(dá)到很高的準(zhǔn)確率,論文只在miniImagenet數(shù)據(jù)集上對(duì)比兩種卷積塊對(duì)實(shí)驗(yàn)結(jié)果的影響.在miniImagent數(shù)據(jù)集上不同方法的準(zhǔn)確率對(duì)比如表3所示.從表3可知:首先單獨(dú)用inception塊替換嵌入模型的卷積層3,在5-way 1-shot,5-way 5-shot上分別有0.7%,0.3%的提升,表明運(yùn)用inception塊能夠提升網(wǎng)絡(luò)的特征表達(dá)能力;其次,感受野塊在1-shot,5-shot上分別提升0.9%,0.3%;最后,在inception 塊的基礎(chǔ)上,添加感受野塊,比單獨(dú)使用inception塊分別提高了1.7%,1.5%,證明采用結(jié)合人類(lèi)視覺(jué)系統(tǒng)設(shè)計(jì)的RFB在小樣本學(xué)習(xí)中的有效性.
表3 在miniImagent數(shù)據(jù)集上不同方法的準(zhǔn)確率對(duì)比
論文在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,采用兩種卷積塊結(jié)構(gòu)設(shè)計(jì)了一個(gè)新的小樣本學(xué)習(xí)框架.這兩種卷積塊在提高關(guān)系網(wǎng)絡(luò)的特征表達(dá)能力的同時(shí),也提升了網(wǎng)絡(luò)的度量能力.實(shí)驗(yàn)結(jié)果表明基于改進(jìn)關(guān)系網(wǎng)絡(luò)極大地提升了網(wǎng)絡(luò)在小樣本領(lǐng)域的識(shí)別能力.