趙金偉,任文靜,周錦繡,黑新宏*
(1.西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,陜西 西安 710048;2.網(wǎng)絡(luò)計(jì)算與安全技術(shù)陜西省重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710048)
人類顯著的一個(gè)標(biāo)志是能夠僅通過一個(gè)或幾個(gè)示例就快速建立對新概念的認(rèn)知能力,可以將先驗(yàn)知識(shí)快速推廣到僅包含少量具有監(jiān)督信息樣本的學(xué)習(xí)任務(wù)中。例如,兒童只需觀察幾張有關(guān)斑馬與犀牛的圖片就能輕松通過以前的認(rèn)知經(jīng)驗(yàn)識(shí)別出“斑馬”與“犀牛”。相比之下,大多數(shù)機(jī)器學(xué)習(xí)算法需要大量數(shù)據(jù)。在實(shí)際應(yīng)用中,由于采集得到的數(shù)據(jù)往往難以標(biāo)注或標(biāo)注成本很高,所以只能得到大量未標(biāo)記數(shù)據(jù)。這時(shí)模型容易陷入過擬合或者欠擬合的困境。由此可見,目前人工智能與人類智能仍存在巨大差距。
受到人類學(xué)習(xí)觀點(diǎn)的啟發(fā),小樣本學(xué)習(xí)(few-shot learning)的概念被提出,近幾年得到廣泛關(guān)注,在圖像分類任務(wù)上已取得重大發(fā)展。如Li等人[1]使用貝葉斯學(xué)習(xí)框架求解單樣本學(xué)習(xí)問題。人們又提出了許多基于元學(xué)習(xí)的解決方案,其核心思想是將從其它學(xué)習(xí)任務(wù)中得到的元模型遷移到新學(xué)習(xí)任務(wù)中。但是訓(xùn)練得到的元模型的結(jié)構(gòu)往往過于復(fù)雜,如網(wǎng)絡(luò)層數(shù)太深或者網(wǎng)絡(luò)參數(shù)過多,模型訓(xùn)練過程十分困難。在這類方法中通常假設(shè)目標(biāo)小樣本學(xué)習(xí)任務(wù)的訓(xùn)練樣本集的分布特征與輔助訓(xùn)練樣本集的分布特征一致。
除了圖像分類任務(wù),在其他領(lǐng)域中也存在著小樣本問題。在計(jì)算機(jī)視覺領(lǐng)域,利用小樣本學(xué)習(xí)進(jìn)行人臉識(shí)別[2]、手寫字體識(shí)別[3]等。在自然語言處理領(lǐng)域,使用小樣本方法實(shí)現(xiàn)對話系統(tǒng)[4]、口語理解[5]等。在生物與醫(yī)學(xué)領(lǐng)域, 可以應(yīng)用于疾病診斷[6]、水量分析[7]等。
最近的工作試圖利用有限數(shù)量的樣本來評(píng)估樣本的真實(shí)分布。因?yàn)闃颖咎卣骺臻g的分布更具有可分性,所以這類方法嘗試對小樣本特征空間的分布進(jìn)行校準(zhǔn),將有偏差的小樣本分布向真實(shí)分布逼近[8]。他們假設(shè)特征向量的每個(gè)維度服從高斯分布,基于“相似的類別具有相似的分布和相似的屬性值域”的思想提出將基類特征分布的統(tǒng)計(jì)量遷移到相似的小樣本類中以校正其特征分布[9]?;谶@種校準(zhǔn)分布方法即可得到更精確的小樣本特征分布,再通過隨機(jī)采樣即可增廣出更多的樣本。然而,該類方法直接遷移距離小樣本均值中心最近的前k個(gè)基類的特征分布,且只考慮最近鄰類分布特征在校正中的正作用,未考慮遠(yuǎn)域類分布特征的負(fù)作用,另外計(jì)算兩類之間的相似度時(shí)未考慮樣本特征的量綱差異,在分布校正階段,更多地強(qiáng)調(diào)了基類的分布特征,忽略了新類本身的分布特征。這些問題極易引起知識(shí)的負(fù)遷移現(xiàn)象。
為此,該文提出了動(dòng)態(tài)分布校正方法來解決上述問題,貢獻(xiàn)如下:
(1)為了減弱基類特征分布統(tǒng)計(jì)量造成的負(fù)遷移現(xiàn)象,提出通過主動(dòng)或自適應(yīng)地基于閾值來選擇近鄰基類或遠(yuǎn)域基類的正向校正或負(fù)向校正,并主要研究基于閾值動(dòng)態(tài)選擇近鄰基類。通過實(shí)驗(yàn)證明提出的動(dòng)態(tài)篩選基類的方法比靜態(tài)篩選方法更有利于實(shí)現(xiàn)分布特征的正遷移。
(2)因?yàn)榍度胩卣髁烤V不同易導(dǎo)致嵌入特征分布各向異性,從而造成對新類分布特征的負(fù)遷移。故該文提出對嵌入特征進(jìn)行冪變換后,再對其進(jìn)行標(biāo)準(zhǔn)化處理,以消除嵌入特征量綱之間的差異。并通過實(shí)驗(yàn)證明加入標(biāo)準(zhǔn)化操作后的分類精度要優(yōu)于不加標(biāo)準(zhǔn)化的分類精度。
(3)引入懲罰參數(shù)來校正基類對新類嵌入特征分布的影響,并通過實(shí)驗(yàn)證明加入懲罰參數(shù)有利于實(shí)現(xiàn)分布特征的正遷移。
在常規(guī)的數(shù)據(jù)集miniImageNet和CUB上與其它最新方法的對比實(shí)驗(yàn)驗(yàn)證了提出的動(dòng)態(tài)分布校正方法可以有效地提升小樣本分類任務(wù)的性能。
小樣本學(xué)習(xí)是一個(gè)具有挑戰(zhàn)性的機(jī)器學(xué)習(xí)問題。研究人員提出基于模型微調(diào)的方法解決小樣本問題。該方法是小樣本學(xué)習(xí)中較為傳統(tǒng)的方法,通常在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,在目標(biāo)小樣本數(shù)據(jù)集上對模型的全連接層或者頂端幾層進(jìn)行參數(shù)微調(diào),得到微調(diào)后的模型。目前許多工作已經(jīng)證明,與基線模型相比,加入微調(diào)可以有效提高5-way-1-shot任務(wù)的準(zhǔn)確率。目前基于模型微調(diào)方法的研究取得了較好效果。Cai等人[10]通過利用基于一階MAML的元學(xué)習(xí)算法將微調(diào)集成到訓(xùn)練過程中并在微調(diào)期間對支持集進(jìn)行數(shù)據(jù)增強(qiáng)?;谀P臀⒄{(diào)的方法較為簡單,適用于目標(biāo)域與源域數(shù)據(jù)分布較為類似的情況,但是在現(xiàn)實(shí)場景中該條件難以保證,采用模型微調(diào)的方法會(huì)導(dǎo)致在目標(biāo)任務(wù)上出現(xiàn)欠擬合或過擬合現(xiàn)象。
基于數(shù)據(jù)增強(qiáng)方法是指借助輔助數(shù)據(jù)或輔助信息,對原有的小樣本數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充或特征增強(qiáng)。對于數(shù)據(jù)集數(shù)據(jù)增強(qiáng)主要是對輸入數(shù)據(jù)的轉(zhuǎn)換,旨在通過對數(shù)據(jù)進(jìn)行少量修改來擴(kuò)展現(xiàn)有數(shù)據(jù)來實(shí)現(xiàn)模型輸入的多樣性。Zhang等人[11]提出當(dāng)源類和目標(biāo)類都只有有限數(shù)量的樣本時(shí),實(shí)現(xiàn)從互聯(lián)網(wǎng)資源中抓取數(shù)據(jù),并自動(dòng)去除無關(guān)噪聲,以實(shí)現(xiàn)可控的數(shù)據(jù)擴(kuò)充。對于特征級(jí)數(shù)據(jù)增強(qiáng),主要將像素信息映射到高維潛在空間,它比原始像素?cái)y帶更多有效信息。如Chu等人[12]提出一種基于最大熵圖塊采樣算法的強(qiáng)化學(xué)習(xí)模型來解決小樣本學(xué)習(xí)問題。Zhang等人[13]提出兩種前景背景融合策略,將圖像分割成前景與背景,選擇原始圖像、前景圖像和背景圖像重新縫合為新的視覺特征。Li等人[14]提出可微分自動(dòng)數(shù)據(jù)增強(qiáng),可大幅度降低成本。Kang等人[15]針對特殊數(shù)據(jù)缺失、連續(xù)長期數(shù)據(jù)缺失等問題,提出一種圖矢量化算法與條件Wasserstein生成對抗網(wǎng)(CWGAN)相結(jié)合的方法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。Schwartz等人[16]基于一個(gè)經(jīng)過修改的自動(dòng)編碼器,只需通過幾個(gè)示例,就可以學(xué)習(xí)為一個(gè)看不見的類別合成新樣本。然而基于數(shù)據(jù)增強(qiáng)方法有可能引入許多噪聲,對小樣本分類的效果造成負(fù)面影響。
基于遷移學(xué)習(xí)的方法是目前較為前沿的方法,是指將舊知識(shí)遷移到一個(gè)新的領(lǐng)域中?;谶w移學(xué)習(xí)的方法又可分為基于度量學(xué)習(xí)、基于元學(xué)習(xí)的方法。度量學(xué)習(xí)也稱為相似度學(xué)習(xí),是指通過給定的距離函數(shù)計(jì)算兩個(gè)樣本之間的距離,從而度量它們的相似度。將度量學(xué)習(xí)的框架應(yīng)用到小樣本學(xué)習(xí),通過計(jì)算待分類樣本和已知分類樣本之間的距離,找到鄰近類別來確定待分類樣本的分類結(jié)果。Koch等人[17]最先提出使用孿生神經(jīng)網(wǎng)絡(luò)進(jìn)行單樣本圖像識(shí)別。通過有監(jiān)督的方式訓(xùn)練孿生網(wǎng)絡(luò),并將網(wǎng)絡(luò)所提取的特征進(jìn)行單樣本或小樣本學(xué)習(xí)。Vinyals等人[18]繼續(xù)就單樣本學(xué)習(xí)問題進(jìn)行深入探討,提出了匹配網(wǎng)絡(luò),該網(wǎng)絡(luò)為支持集和查詢集構(gòu)建不同的編碼器,最終分類器的輸出為支持集樣本與查詢集之間預(yù)測值的加權(quán)求和。為進(jìn)一步深入解決小樣本問題,Snell等人[19]提出原型網(wǎng)絡(luò),該網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)將圖像映射成向量,對同屬一個(gè)類別的樣本,求得這一類樣本向量的均值作為原型,并比較查詢集與每個(gè)類別原型的歐氏距離。基于度量學(xué)習(xí)的方法最簡單、容易操作,只需通過距離來衡量樣本之間的相似度。但是學(xué)到的知識(shí)較少,并且在樣本數(shù)量較少的情況下,簡單地通過距離衡量相似度的方法準(zhǔn)確率會(huì)有所降低。基于元學(xué)習(xí)比基于度量學(xué)習(xí)的方法學(xué)習(xí)能力更強(qiáng),可以學(xué)到更多的知識(shí)。元學(xué)習(xí)是目前解決小樣本學(xué)習(xí)的主流方法。元學(xué)習(xí)也叫做學(xué)會(huì)學(xué)習(xí)[20],是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)前沿的研究框架,針對于解決模型如何學(xué)習(xí)的問題。元學(xué)習(xí)的目的是讓模型獲得一種學(xué)習(xí)能力,這種學(xué)習(xí)能力可以讓模型自動(dòng)學(xué)習(xí)到一些元知識(shí)。例如,UMTRA[21]、MAML[22]、Meta-SGD[23]、爬行動(dòng)物[24]和LEO[25]優(yōu)化了模型,使其能夠快速適應(yīng)新任務(wù)。然而,基于元學(xué)習(xí)解決小樣本問題時(shí)時(shí)空復(fù)雜度較高,而且對于目標(biāo)域與源域數(shù)據(jù)分布要求較高。
框架主要包括兩個(gè)階段。在第一階段,利用預(yù)訓(xùn)練的模型提取樣本特征,計(jì)算基類的統(tǒng)計(jì)信息。在第二階段,為使特征分布更像高斯分布,使用冪階變換操作保證目標(biāo)任務(wù)中的支持集和查詢集的特征接近于高斯分布,并加入特征向量標(biāo)準(zhǔn)化處理來消除特征量綱影響。為了避免“負(fù)遷移”,通過距離閾值動(dòng)態(tài)挑選近鄰基類與遠(yuǎn)域基類,并引入校正參數(shù),校正新類的樣本特征分布。最后利用校正后的分布生成特征與小樣本任務(wù)的原始支持集特征一起用作特定任務(wù)分類器的訓(xùn)練數(shù)據(jù)。
整個(gè)過程如圖1所示。新類樣本分布的校正過程分為兩個(gè)階段。第一階段為計(jì)算基類分布的統(tǒng)計(jì)量。第二階段是動(dòng)態(tài)分布校正階段,計(jì)算基類與新類之間的嵌入空間的距離,基于閾值選擇近鄰基類與遠(yuǎn)域基類的分布特征,將其遷移到新類中對其分布進(jìn)行校正,基于校正后的分布采樣足夠數(shù)量的樣本來增廣新類的訓(xùn)練樣本集。
圖1 動(dòng)態(tài)分布校正方法
假設(shè)基類的特征分布為高斯分布。基類i的特征向量均值為該類所有數(shù)據(jù)的特征向量在每個(gè)維度上的均值。
(1)
(2)
2.3.1 冪變換
為了實(shí)現(xiàn)嵌入空間不同類分布特征的正遷移,除了將每個(gè)類的樣本從原始樣本空間映射到嵌入空間,還需將嵌入空間的特征向量進(jìn)行冪階變換,將每個(gè)類的支持集和查詢集樣本的嵌入空間分布變換為類高斯分布。該文基于單位方差投影給出類似于Tukey的冪階變換(Power Transform,PT),其公式如下:
(3)
為了避免除數(shù)為零,其中,ε=1e-6。β為指數(shù),通過調(diào)整β來減少冪變換結(jié)果分布的扁平程度,其中β=1時(shí)為線性變換。單位方差投影將特征向量縮放到單位空間,以進(jìn)一步縮小相似類間的分布差異。
將經(jīng)過冪變換的特征向量x'的每一維進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理來實(shí)現(xiàn)特征向量的各向同性。
(4)
2.3.2 基于分布特征遷移的新類分布校正
(5)
(6)
(7)
(8)
(9)
其中,φ為對新類中心點(diǎn)進(jìn)行校準(zhǔn)的權(quán)值參數(shù)以表征鄰域內(nèi)基類的正遷移作用強(qiáng)度,a為新類分布中樣本嵌入特征分散程度的偏置。
(10)
(11)
其中,b,c∈[-1,1],n,v∈[-1,1]為對新類中心點(diǎn)進(jìn)行校準(zhǔn)的權(quán)值參數(shù),b和n為正遷移作用的強(qiáng)度,c和v為負(fù)遷移作用強(qiáng)度,e∈[0,1]為新類分布中樣本特征分散程度的偏置。
2.3.3 數(shù)據(jù)增強(qiáng)
為了避免一個(gè)特定樣本所提供的偏差并獲得更多樣化和更準(zhǔn)確的新類分布特征估計(jì),基于新類支持集中的每個(gè)樣本的嵌入特征向量都要進(jìn)行動(dòng)態(tài)分布校正。因此,對于每個(gè)新類進(jìn)行動(dòng)態(tài)分布校正后,會(huì)得到一組分布特征,將校正后的分布表示為一組統(tǒng)計(jì)數(shù)據(jù)。對于類別y∈Cn,將新類特征分布的統(tǒng)計(jì)數(shù)據(jù)表示為:
對于類別y的目標(biāo)任務(wù),利用其校正分布集合中的所有分布組合全部采樣,生成一組標(biāo)簽為Dy的特征向量:
Dy={(x,y)|x~N(μ,γ),?(μ,γ)∈Uy}
其中,將每個(gè)類別生成的特征總數(shù)設(shè)置為超參數(shù)。將生成的樣本特征與原始支持集特征一起作為任務(wù)分類器的訓(xùn)練數(shù)據(jù),并通過最小化支持集特征和生成特征上的分類交叉熵?fù)p失來訓(xùn)練分類器。
該文使用miniImageNet、CUB兩種數(shù)據(jù)集,并利用查詢集的準(zhǔn)確率作為評(píng)估指標(biāo)來衡量方法的性能。在5-way-1-shot和5-way-5-shot分類設(shè)置上進(jìn)行評(píng)估實(shí)驗(yàn),并且實(shí)驗(yàn)結(jié)果是10 000個(gè)任務(wù)的平均分類精度。
本章節(jié)使用文獻(xiàn)[26]訓(xùn)練的WideResNet作為特征提取器,并分別使用SVM與LR兩種分類器來驗(yàn)證所提方法的有效性。其中Logistic Regression/SVM with DC (ours)表示分類器為Logistic Regression或SVM的基于閾值選擇近鄰基類的方法,利用粒子群算法對動(dòng)態(tài)分布校正算法的超參數(shù)進(jìn)行尋優(yōu),兩種數(shù)據(jù)集下最終得到的最優(yōu)超參數(shù)為:miniImageNet:threshold=3.3,β=0.7,φ=0.2,a=0.1,生成樣本的個(gè)數(shù)為850;CUB: threshold=3.3,β=0.8,φ=0.5,a=0.1,生成樣本的個(gè)數(shù)為850。Logistic Regression/SVM with RDC (ours)表示在分類器為Logistic Regression或SVM的基于閾值同時(shí)選擇近鄰基類與遠(yuǎn)域基類的方法。同樣采用粒子群算法獲得最優(yōu)超參數(shù)。miniImageNet:threshold=2.5,t=2,β=0.7,b=0.15,c=0.05,n=0.4,v=0.05,e=0.3,生成樣本的個(gè)數(shù)為850;CUB:threshold=2.5,t=2,β=0.8,b=0.6,c=0.0,n=0.65,v=0.05,e=0.3,生成樣本的個(gè)數(shù)為850。3.2節(jié)中其他先進(jìn)技術(shù)的具體實(shí)驗(yàn)細(xì)節(jié)設(shè)置引用于他們的來源論文。
表1給出了動(dòng)態(tài)分布校正算法與目前最先進(jìn)的小樣本學(xué)習(xí)技術(shù)的分類性能對比。從表中的結(jié)果發(fā)現(xiàn),所提方法的分布校準(zhǔn)性能遠(yuǎn)高于最先進(jìn)的小樣本分類方法,這證明所提方法能夠更好地處理極低的樣本的分類任務(wù)。從表1發(fā)現(xiàn),所有分布校正方法在四個(gè)任務(wù)上的分類精度明顯高于其它方法。說明分布校正方法在解決小樣本分類問題上性能是很優(yōu)秀的。表中將提出的兩種動(dòng)態(tài)分布校正算法與分布校正算法進(jìn)行對比。兩種數(shù)據(jù)集下的兩種動(dòng)態(tài)分布校正方法相比分布校正方法的分類精度都平均提升2%左右,并且所提方法的分類精度的方差更小。這些結(jié)果說明,提出的兩種方法能進(jìn)一步提升分布校正方法的性能,并且相對于分布校正算法,進(jìn)一步說明所提動(dòng)態(tài)篩選基類的方法比靜態(tài)篩選方法更有利于實(shí)現(xiàn)分布特征的正遷移。
表1 miniImagenet和CUB數(shù)據(jù)集上的分類準(zhǔn)確率 %
將Logistic Regression/SVM with RDC與Logistic Regression/SVM with DC相比較。對于兩種數(shù)據(jù)集的5-way-1-shot分類任務(wù),從表1中可以觀測到Logistic Regression/SVM with RDC算法的分類精度比Logistic Regression/SVM with DC算法平均提升了1%左右。在兩種數(shù)據(jù)集的5-way-5-shot分類任務(wù)上,Logistic Regression/SVM with RDC算法的分類精度比Logistic Regression/SVM with DC算法平均降低了1%左右。說明當(dāng)小樣本分類任務(wù)的原始樣本較多,樣本分布多樣性較強(qiáng)時(shí),遠(yuǎn)離新類的基類分布特征會(huì)帶來負(fù)遷移。相反,當(dāng)小樣本分類任務(wù)的原始樣本較少,樣本分布多樣性較弱時(shí),遠(yuǎn)離新類的基類分布特征會(huì)增強(qiáng)原始樣本分布的多樣性,從而帶來正遷移。
將基于閾值動(dòng)態(tài)選擇近鄰基類(Logistic Regression/SVM with DC(ours))作為主要的研究方法。在兩個(gè)數(shù)據(jù)集的5-way-1-shot分類設(shè)置且分類器選為LR的情況下,研究超參數(shù)的設(shè)置對該方法分類性能的影響。
圖2顯示了k值固定的情況下閾值threshold的變化對分類準(zhǔn)確率的影響。從圖2中的結(jié)果發(fā)現(xiàn),當(dāng)k∈{0,1,2,3}時(shí),隨著閾值threshold的不斷增大,準(zhǔn)確率呈不斷增大的趨勢。且對于兩種數(shù)據(jù)集,在閾值threshold=3.3時(shí)準(zhǔn)確率都達(dá)到最高值。其原因?yàn)?隨著閾值的不斷增大,用于校正新類特征分布的基類個(gè)數(shù)不斷增多,當(dāng)閾值達(dá)到3.3時(shí),由該閾值確定的鄰域內(nèi)的基類統(tǒng)計(jì)信息遷移到新類中能較好地校正新類的特征分布。隨之閾值的不斷增大,鄰域內(nèi)會(huì)引入一些對新類分布產(chǎn)生負(fù)遷移現(xiàn)象的基類,從而造成測試準(zhǔn)確率下降的狀態(tài)。當(dāng)k∈{0,1,2,3}時(shí),曲線處于重合狀態(tài),說明不考慮k時(shí)僅通過threshold選擇基類可以獲得較好的小樣本分類性能。
圖2 threshold的取值對實(shí)驗(yàn)結(jié)果的影響
從圖3中的結(jié)果觀測到,對于miniImagenet數(shù)據(jù)集(左圖)和CUB數(shù)據(jù)集(右圖),隨著φ值不斷增大,平均分類準(zhǔn)確率(Test Accuracy)呈現(xiàn)先穩(wěn)定再下降的趨勢。曲線變化的主要原因在于,隨著φ不斷增大,新類的特征分布受基類影響程度也不斷增大,但當(dāng)φ取值太大,又會(huì)產(chǎn)生負(fù)遷移,造成準(zhǔn)確率下降。
圖3 φ的取值對實(shí)驗(yàn)結(jié)果的影響
公式(9)中的a確定從校正后的分布中樣本嵌入特征分散的程度。圖4顯示了不同的a取值對測試準(zhǔn)確率的影響。隨著a的增大,測試精度快速上升達(dá)到最大值后幾乎保持穩(wěn)定。其主要原因在于,當(dāng)a的值等于0.1的時(shí)候,校正的新類協(xié)方差是逼近它的真實(shí)樣本嵌入特征分布。a隨后繼續(xù)增大,校正的新類協(xié)方差又偏離了真實(shí)樣本嵌入特征分布,所以預(yù)測精度會(huì)有所降低。
圖4 a的取值對實(shí)驗(yàn)結(jié)果的影響
為研究提出的動(dòng)態(tài)分布校正方法(Logistic Regression/SVM with DC(ours))中每一計(jì)算過程對小樣本分類性能的影響,進(jìn)行了消融實(shí)驗(yàn)。表2展示了在訓(xùn)練模型時(shí)未基于閾值選擇近鄰基類、在訓(xùn)練模型時(shí)未進(jìn)行冪變換(Power Transform,TP)與數(shù)據(jù)標(biāo)準(zhǔn)化(Data Standardization,DS)而是使用Tukey的冪階變換以及在訓(xùn)練模型時(shí)未引入校正參數(shù)處理時(shí)的分類結(jié)果。由表2知,通過TP與DS操作使小樣本的分類精度提高接近1%,引入校正參數(shù)后的分類精度提高2%左右,基于閾值選擇近鄰基類對于分類精度提高0.1%。由此可知,三步過程對解決分布校正算法負(fù)遷移問題起著積極作用。
表2 在miniImagenet數(shù)據(jù)集上的分類準(zhǔn)確率 %
為了研究冪變換之后的數(shù)據(jù)標(biāo)準(zhǔn)化處理對小樣本分類性能的影響,在miniImageNet數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)的結(jié)果為10個(gè)任務(wù)的測試集平均分類精度。由表3中的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在冪變換之后加入數(shù)據(jù)標(biāo)準(zhǔn)化處理,分類準(zhǔn)確率提高接近1%。實(shí)驗(yàn)證明數(shù)據(jù)標(biāo)準(zhǔn)化處理對于分類性能同樣能夠起著積極作用。
表3 在miniImagenet數(shù)據(jù)集上的分類準(zhǔn)確率 %
基于分布校正方法,提出了一種動(dòng)態(tài)分布校正方法來解決分布校正過程中的負(fù)遷移問題。具體來說,首先,通過冪變換使新類的嵌入特征分布近似于高斯分布,再對新類嵌入特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理來消除由特征量綱不同造成的負(fù)遷移現(xiàn)象;其次,基于閾值提取了近鄰基類與遠(yuǎn)域基類嵌入特征的分布統(tǒng)計(jì)量后,遷移到新類中來校正新類的嵌入特征分布;最后,基于校正后分布擴(kuò)增新類的嵌入特征數(shù)據(jù)來提高預(yù)測模型的分類性能。在CUB和miniImageNet兩個(gè)數(shù)據(jù)集上評(píng)估了所提方法,實(shí)驗(yàn)證明所提方法得到的預(yù)測模型分類性能要高于目前最先進(jìn)的小樣本學(xué)習(xí)方法。在未來的工作中,會(huì)探索更高效的小樣本學(xué)習(xí)方法。