胡西范 陳世平
摘 要:機器學(xué)習(xí)在數(shù)據(jù)密集型應(yīng)用中十分廣泛,但缺點是當(dāng)數(shù)據(jù)集很小時往往效果欠佳。近年來,人們提出了小樣本學(xué)習(xí)來解決這個問題。小樣本學(xué)習(xí)指只利用少量樣本來訓(xùn)練識別這些樣本的機器學(xué)習(xí)模型。由于小樣本學(xué)習(xí)的實用價值,業(yè)界提出很多針對的研究方法,但是目前國內(nèi)缺少該問題的綜述。本文中,對目前業(yè)界提出的小樣本學(xué)習(xí)模型及算法進行了總結(jié)和探索。首先,給出了小樣本學(xué)習(xí)的問題定義,并介紹了其他一些相關(guān)的機器學(xué)習(xí)問題;然后,根據(jù)先驗知識,通過從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學(xué)習(xí)方法;最后,對小樣本的未來發(fā)展進行了展望。
關(guān)鍵詞:機器學(xué)習(xí); 小樣本學(xué)習(xí); 圖像分類; 數(shù)據(jù)增強
文章編號:2095-2163(2021)07-0191-06中圖分類號:[HT5”XBS〗TP391文獻標(biāo)志碼:A
A survey of few-shot learning based on machine learning
HU Xifan, CHEN Shiping
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology,
Shanghai 200093, China)
【Abstract】Machine learning is widely used in data-intensive applications, but the drawback is that it tends to be less effective when the data set is small.In recent years, few-shot learning has been proposed to solve this problem. Few-shot learning refers to a machine learning model that uses only a small number of samples to train the recognition of these samples.Due to the practical value of few-shot learning, the industry has put forward a lot of research methods, but there is a lack of domestic review on this issue. This paper summarizes and explores the few-shot learning models and algorithms proposed by the industry. Firstly, the paper defines the problem of few-shot learning and introduces some other related machine learning problems.Then, according to the prior knowledge, the paper introduces the few-shot learning method in detail through three data enhancement methods and four models. Finally, the future development of small sample is prospected.
【Keywords】machine learning; few-shot learning; image classification; data enhancement
0 引 言
相比于機器學(xué)習(xí),人類能夠通過利用過去學(xué)到的少量樣本數(shù)據(jù)來快速完成新概念的學(xué)習(xí)任務(wù),并且做出準確的預(yù)測和評估[1]。例如,給一個兒童看一個陌生人的幾張照片,那么就可以從其他若干新的照片中找出包含該陌生人的照片。模仿人類的學(xué)習(xí)過程,縮小人工智能和人類之間的差距是機器學(xué)習(xí)非常重要的一個方向。
1 小樣本學(xué)習(xí)
針對樣本缺失的應(yīng)用場景,國內(nèi)外學(xué)者提出了一種新的機器學(xué)習(xí)概念:小樣本學(xué)習(xí)(Few-Shot Learning)[2-4]。典型的機器學(xué)習(xí)應(yīng)用程序[5],如上面的舉例,需要大量具有監(jiān)督信息[6]的數(shù)據(jù)。然而,正如引言中提到的,這可能是困難且復(fù)雜的。小樣本學(xué)習(xí)是機器學(xué)習(xí)的一種特殊情況,下面給出其正式的定義。
1.1 問題定義
小樣本學(xué)習(xí)是在只有目標(biāo)少量訓(xùn)練樣本的環(huán)境中,如何訓(xùn)練一個可以有效地識別這些目標(biāo)樣本的一類機器學(xué)習(xí)模型?,F(xiàn)在的小樣本問題主要是監(jiān)督學(xué)習(xí)問題,例如小樣本分類問題只給出每個類的幾個帶標(biāo)簽的例子來學(xué)習(xí)分類器。在工業(yè)應(yīng)用領(lǐng)域,小樣本學(xué)習(xí)因其可以大大降低數(shù)據(jù)采集和標(biāo)定成本,在諸多視覺任務(wù)中已經(jīng)得到研究人員的關(guān)注,其中包括:圖像分類[7]、圖像檢索[8]、目標(biāo)跟蹤[9]、短文本情感分析[10]、語言模型[11]、網(wǎng)絡(luò)結(jié)構(gòu)搜索[12]等問題。
1.2 相關(guān)的機器學(xué)習(xí)任務(wù)
(1)弱監(jiān)督學(xué)習(xí)(Weakly supervised learning)[13]:弱監(jiān)督學(xué)習(xí)是介于有監(jiān)督和無監(jiān)督之間的一類學(xué)習(xí)方法[14],從經(jīng)驗E中學(xué)習(xí),只包含弱監(jiān)督信息(如不完整、不準確、或嘈雜的監(jiān)督信息)。與小樣本學(xué)習(xí)相關(guān)的問題是在監(jiān)督信息不完全的情況下,小樣本學(xué)習(xí)的經(jīng)驗只有少量標(biāo)簽信息。根據(jù)有無人為干預(yù),弱監(jiān)督學(xué)習(xí)又可分為以下2類:
①半監(jiān)督學(xué)習(xí)(Semi-supervised learning)[15]:半監(jiān)督學(xué)習(xí)通過使用少量標(biāo)記,同時使用大量未標(biāo)記數(shù)據(jù)對模型進行訓(xùn)練,是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種機器學(xué)習(xí)方法。正例-未標(biāo)注學(xué)習(xí)(Positive and Unlabeled Learning)[16]是半監(jiān)督學(xué)習(xí)的一個特例,指在只有正類和無標(biāo)記數(shù)據(jù)的情況下,訓(xùn)練二分類器。例如,在社交網(wǎng)絡(luò)中推薦朋友[17],根據(jù)朋友列表只能了解用戶當(dāng)前的朋友,而用戶與其他人的關(guān)系是未知的。
②不平衡學(xué)習(xí)(Imbalanced learning)[18]:不平衡學(xué)習(xí)的根本問題是,不平衡數(shù)據(jù)會極大地損害一般標(biāo)準學(xué)習(xí)算法的性能。一般標(biāo)準算法假設(shè)或期望平衡的類分布或相等的誤分類代價。因此,當(dāng)面對復(fù)雜的不平衡數(shù)據(jù)集時,這些算法不能很好地表示數(shù)據(jù)的分布特征,這樣便會使跨類數(shù)據(jù)的準確性較差。相反,小樣本學(xué)習(xí)用少量的樣本訓(xùn)練和測試輸出,同時可能以其他輸出作為學(xué)習(xí)的先驗知識。
(2)遷移學(xué)習(xí)(Transfer learning)[19-20]:遷移學(xué)習(xí)將某個領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識或模式應(yīng)用到不同但相關(guān)的數(shù)據(jù)缺乏的領(lǐng)域或問題中。還可以用于跨域推薦、跨時間空間和移動設(shè)備的WiFi定位等應(yīng)用。領(lǐng)域自適應(yīng)(Domain Adaptation)[21]是遷移學(xué)習(xí)中的一種代表性方法,指的是利用信息豐富的源域(source domain)樣本來提升目標(biāo)域(target domain)模型的性能。源域和目標(biāo)域往往屬于同一類任務(wù),但是分布不同。例如,在情感分析中,源域數(shù)據(jù)包含用戶對電影的評論,而目標(biāo)域數(shù)據(jù)包含客戶對日用商品的評論。
(3)元學(xué)習(xí)(Meta-learning):或者稱為學(xué)會學(xué)習(xí)(Learning to learn)[22],這一類學(xué)習(xí)隨著經(jīng)驗和任務(wù)數(shù)量的增長,在每個任務(wù)上的表現(xiàn)得到改進,每當(dāng)學(xué)會解決一個新的任務(wù),就越有能力解決其他新的任務(wù)。具體來說,元學(xué)習(xí)器在多輪任務(wù)中迭代學(xué)習(xí)到一些通用性的知識(元知識),利用學(xué)習(xí)到的元知識可以幫助新的任務(wù)快速迭代,提高新任務(wù)的性能。元學(xué)習(xí)方法可以用來處理小樣本學(xué)習(xí)問題。
1.3 問題分類
在所有的機器學(xué)習(xí)問題中,通常都存在預(yù)測誤差,無法獲得完美的預(yù)測。在小樣本學(xué)習(xí)中,由于樣本量不夠?qū)е陆?jīng)驗風(fēng)險最小化帶來的最優(yōu)解和真實解之間的誤差將變大[23-25],因此必須使用先驗知識來解決以上問題。
這里將現(xiàn)有的小樣本學(xué)習(xí)研究分為3類,即:利用先驗知識增強監(jiān)督信號;利用先驗知識縮小假設(shè)空間的大小;利用先驗知識更改給定假設(shè)空間中對最優(yōu)假設(shè)的搜索,也就是數(shù)據(jù)、模型、算法三類。接下來的的章節(jié)會對每類研究方法進行詳細介紹。
2 數(shù)據(jù)
基于數(shù)據(jù)的小樣本學(xué)習(xí)方法主要是利用先驗知識增強樣本數(shù)據(jù)Dtrain,從而將監(jiān)督信息進一步增強,利用充足的數(shù)據(jù)樣本來實現(xiàn)可靠的經(jīng)驗風(fēng)險最小化,如圖1所示。
以圖像數(shù)據(jù)擴充為例,經(jīng)典的圖像數(shù)據(jù)擴充方法主要有:翻轉(zhuǎn)[26]、裁剪[27]、縮放[28]、旋轉(zhuǎn)[29]、改變亮度、圖像模糊等。然而這些人工設(shè)計的方法有很大的依賴性,需要耗費大量的人力和專業(yè)知識。此外,這種方法的遷移性比較差,對一個數(shù)據(jù)集制定的數(shù)據(jù)增強方法很難適用到另一個數(shù)據(jù)集當(dāng)中。因為人類不可能列舉出所有可能的不變性,因此傳統(tǒng)的人工增強數(shù)據(jù)方法不能完全適用于解決小樣本問題。
除了人工設(shè)計的樣本數(shù)據(jù)擴充方法,根據(jù)增強數(shù)據(jù)的來源將小樣本數(shù)據(jù)擴充方法分為3類:從訓(xùn)練集轉(zhuǎn)換樣本、從弱標(biāo)簽或無標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化樣本、從相似數(shù)據(jù)集轉(zhuǎn)換樣本。
2.1 從訓(xùn)練集轉(zhuǎn)換樣本
這種策略通過將每個屬于Dtrain的樣本轉(zhuǎn)化為幾個不同的樣本來增強Dtrain。轉(zhuǎn)換過程作為先驗知識包含在經(jīng)驗E中,以便生成額外的樣本。一篇早期的小樣本學(xué)習(xí)論文[30]通過迭代地將每個樣本與其他樣本對齊,從類似的類中學(xué)習(xí)一組幾何變換。將學(xué)習(xí)過的轉(zhuǎn)換過程應(yīng)用到更大的數(shù)據(jù)集中,然后通過標(biāo)準的機器學(xué)習(xí)方法來學(xué)習(xí)。同樣,一組自編碼器,每個從類似的類中學(xué)習(xí),代表一個類的可能性,通過向訓(xùn)練樣本添加新屬性獲得新的生成樣本。通過假設(shè)所有類別在樣本之間共享一些可轉(zhuǎn)換的變異性,則可以學(xué)習(xí)到一個轉(zhuǎn)換函數(shù)[31],再將學(xué)習(xí)到的轉(zhuǎn)換函數(shù)應(yīng)用到輸入樣本。
2.2 從弱標(biāo)簽或無標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化樣本
這種策略通過從弱標(biāo)簽或無標(biāo)簽的大數(shù)據(jù)集中選擇帶有目標(biāo)標(biāo)簽的樣本來增強Dtrain。例如,在監(jiān)控拍攝到的照片中,有人、汽車、綠化和道路,但都不包含標(biāo)簽。再例如一段長時間的演講視頻,演講者在視頻中有一系列手勢,所有的手勢都沒有明確的注釋。作為這樣的數(shù)據(jù)集通常包含大量不同的樣本,將其增強到Dtrain有助于增強模型的泛化性。收集這樣的數(shù)據(jù)集很容易,因為不需要人來做標(biāo)記。然而,雖然收集成本很低,但一個主要問題是如何選擇帶有目標(biāo)標(biāo)簽的樣本來增強Dtrain。在文獻[32]中,研究為Dtrain中的每個目標(biāo)標(biāo)簽學(xué)習(xí)了一個SVM,用于預(yù)測來自弱標(biāo)簽數(shù)據(jù)集的樣本的標(biāo)簽,然后將具有目標(biāo)標(biāo)簽的樣本添加到Dtrain。
2.3 從相似數(shù)據(jù)集轉(zhuǎn)換樣本
這種策略通過從相似、但更大的數(shù)據(jù)集聚合和調(diào)整輸入-輸出對來增強訓(xùn)練集。聚合權(quán)重通?;跇颖局g的一些相似性度量。在Tsai等人[33-34]的研究中,可從輔助的文本語料庫中提取了聚合的權(quán)重。由于這些樣本可能不來自目標(biāo)小樣本類,直接將聚合樣本增強到Dtrain可能產(chǎn)生更大的誤差。生成對抗網(wǎng)絡(luò)(GAN)[34]可以生成與目標(biāo)樣本相似、甚至和目標(biāo)樣本無法區(qū)分的樣本數(shù)據(jù)。具體地,是由一個生成器和一個判別器構(gòu)成,通過對抗學(xué)習(xí)的方式來訓(xùn)練[35]。
2.4 結(jié)論
使用哪一種數(shù)據(jù)增強策略取決于實際的應(yīng)用程序。通過利用目標(biāo)任務(wù)的先驗信息來增強數(shù)據(jù)是簡單易懂的,另一方面,這種方法的缺陷是不能很好地遷移到其他數(shù)據(jù)集(特別是來自其他領(lǐng)域的數(shù)據(jù)集)上使用。除此之外,現(xiàn)有的方法主要是為圖像問題設(shè)計的,因為生成的圖像可以很容易地被人類視覺評估。相反,文本和音頻涉及語法和結(jié)構(gòu)的領(lǐng)域更難生成。在文獻[36]的研究中進行了使用數(shù)據(jù)增強文本的嘗試。
3 模型
若只給定少數(shù)樣本的訓(xùn)練集Dtrain,同時僅使用簡單模型(例如線性分類器)就可以選擇較小的假設(shè)空間[37-38]。但是,現(xiàn)實世界中的問題通常更為復(fù)雜,并且不能由一個小型的假設(shè)空間很好地表示[39]。根據(jù)所使用的先驗知識,可以將屬于本類別的方法進一步分為多任務(wù)學(xué)習(xí)、嵌入式學(xué)習(xí)、借助外部存儲學(xué)習(xí)和生成模型四種類型。下面,將分別介紹這四種類型。
3.1 多任務(wù)學(xué)習(xí)
在存在多個相關(guān)任務(wù)的情況下,多任務(wù)學(xué)習(xí)[40]通過利用任務(wù)通用信息和特定于任務(wù)的信息同時學(xué)習(xí)這些任務(wù)。因此,可以將多任務(wù)學(xué)習(xí)用于小樣本問題中。假設(shè)有一個機器學(xué)習(xí)任務(wù)T,該任務(wù)有相關(guān)的若干個子任務(wù)T1,T2,…,Tn,其中一些任務(wù)的樣本很少,另一些的樣本數(shù)很多。每個任務(wù)Ti都有一個數(shù)據(jù)集Di={Ditrain,Ditest},其中前者是訓(xùn)練集,后者是測試集。在這些Ti任務(wù)中,將小樣本任務(wù)作為目標(biāo)任務(wù),其余作為源任務(wù)。多任務(wù)學(xué)習(xí)從Ditrain學(xué)習(xí)Ti的參數(shù)。
由于這些任務(wù)是聯(lián)合學(xué)習(xí)的,因此為任務(wù)Ti學(xué)習(xí)的參數(shù)受其他任務(wù)的約束。根據(jù)任務(wù)參數(shù)的約束方式,多任務(wù)學(xué)習(xí)方法又可以劃分為:參數(shù)共享[28,41-42],參數(shù)綁定[39,43]。
3.2 嵌入學(xué)習(xí)
嵌入學(xué)習(xí)[44-45]將每個樣本xi∈XRd嵌入到一個低維的zi∈ZRm,這樣相似的樣本距離會縮小,而差異較大的樣本則更容易分離。然后,利用這個較低維的Z中構(gòu)造一個更小的假設(shè)空間H,此時只需要少量的訓(xùn)練樣本。嵌入學(xué)習(xí)具有以下關(guān)鍵組成部分:
(1)將測試樣本xtest∈Dtest嵌入Z的函數(shù)f。
(2)將訓(xùn)練樣本xi∈Dtrain嵌入Z的函數(shù)g。
(3)相似性函數(shù)s(·,·)來測量f(xtest)和Z中的g(xi)之間的相似度。
根據(jù)該類的嵌入g(xi)與Z中的f(xtest)最相似,將測試樣本xtest分配給xi類。盡管可以為xi和xtest使用通用的嵌入函數(shù),但是使用2個單獨的嵌入函數(shù)可以獲得更好的準確性[46-47]。根據(jù)嵌入函數(shù)f和g的參數(shù)是否隨任務(wù)而變化,將這些小樣本學(xué)習(xí)方法歸為3類,即:特定于任務(wù)的嵌入模型;不變?nèi)蝿?wù)(即一般)嵌入模型;混合嵌入模型,可同時編碼特定于任務(wù)的信息和不變于任務(wù)的信息。
3.3 使用外部存儲器學(xué)習(xí)
使用外部存儲器學(xué)習(xí)[48-49]從Dtrain中提取知識,并將提取的信息存儲在特定的外部存儲器中。然后,將每個新樣本xtest由從內(nèi)存中提取的內(nèi)容用加權(quán)平均值表示。這限制了xtest由內(nèi)存中的內(nèi)容表示,因此實質(zhì)上減小了假設(shè)空間H的大小。小樣本學(xué)習(xí)中通常使用鍵值存儲器[50],根據(jù)存儲器的功能此類別方法又可以分為準確表達[51-52]和參數(shù)完善[53-54]兩類。
3.4 生成模型
生成模型方法借助先驗知識(如圖2所示)從觀測到的xi估計概率分布p(x)。p(x)的估計通常涉及p(x||y)和p(y)的估計。生成模型方法可以用于處理很多任務(wù),例如生成[55-58]、識別[57-58]、重構(gòu)[57]和圖像翻轉(zhuǎn)[56]。
3.5 模型方法總結(jié)
當(dāng)存在相似的任務(wù)或輔助任務(wù)時,可以使用多任務(wù)學(xué)習(xí)來約束小樣本任務(wù)的假設(shè)空間H。但是此方法需要共同訓(xùn)練所有任務(wù)。因此,當(dāng)添加一個新的任務(wù)時,整個多任務(wù)模型必須再次共同訓(xùn)練,這將導(dǎo)致訓(xùn)練的成本增加。當(dāng)存在一個由各類樣本數(shù)據(jù)組成的大規(guī)模數(shù)據(jù)集時,可以考慮使用嵌入學(xué)習(xí)方法。此方法的優(yōu)點是可以將樣本映射到良好的嵌入空間,并易于分離來自不同類別的樣本,因此需要較小的H[TX~]。但是,當(dāng)小樣本任務(wù)與其他任務(wù)沒有密切關(guān)系時,實驗效果將會不佳。當(dāng)有可用的內(nèi)存網(wǎng)絡(luò)時,可以通過在內(nèi)存的基礎(chǔ)上訓(xùn)練一個簡單的模型(例如分類器),將其簡單地用于小樣本學(xué)習(xí)任務(wù)。通過使用專門設(shè)計的更新規(guī)則,可以有選擇地保護內(nèi)存插槽。但是本方法的缺點是會導(dǎo)致額外的存儲空間和計算成本,隨著內(nèi)存大小的增加缺點越明顯,而使用的外部存儲器大小通常也會受到限制。最后,當(dāng)除了小樣本任務(wù)之外還想要執(zhí)行諸如生成和重構(gòu)之類的任務(wù)時,可以使用生成模型。訓(xùn)練好的生成模型也可以用于生成樣本對數(shù)據(jù)進行擴充。
4 總結(jié)與展望
由于獲取大量標(biāo)注樣本會消耗不少的時間和人力,小樣本學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域逐漸受到人們重視。目前小樣本學(xué)習(xí)研究主要集中在圖像分類、字符識別等方向。在其他監(jiān)督學(xué)習(xí)場景中同樣可以發(fā)揮小樣本學(xué)習(xí)理論的作用,包括目標(biāo)檢測、語義分割、圖像檢索、手勢識別、視頻目標(biāo)檢測等問題。除了視覺任務(wù),在自然語言處理中領(lǐng)域的文本和計算機視覺的視頻問題同樣是小樣本學(xué)習(xí)值得探索的研究方向。
隨著深度學(xué)習(xí)的不斷發(fā)展,小樣本學(xué)習(xí)應(yīng)用的領(lǐng)域?qū)粩鄶U大,小樣本學(xué)習(xí)研究的前景將會十分廣闊。
5 結(jié)束語
本文首先介紹了小樣本學(xué)習(xí)的研究背景和問題定義,接著從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學(xué)習(xí)方法,最后對小樣本學(xué)習(xí)研究進行了前景展望。
參考文獻
[1] SEBASTIAN T, PRATT L. Learning to learn[M]. New York:Springer Science & Business Media, 2012.
[2]? GARCIA V, BRUNA J. Few-shot learning with graph neural networks[J]. arXiv preprint arXiv:1711.04043, 2017.
[3] DUAN Y, ANDRYCHOWICZ M, STADIE B, et al. One-shot imitation learning[C]//Advances in Neural Information Processing Systems. Long Beach,CA:Microsoft, 2017: 1087-1098.
[4] ORESHKIN B, LPEZ P R, LACOSTE A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal, Canada: NIPS, 2018: 721-731.
[5] REN M, TRIANTAFILLOU E, RAVI S, et al. Metalearning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
[6] MITCHELL M T.? Machine learning[M]. New York: McGraw-Hill,1997.
[7] MOHRI M, ROSTAMIZADEH A, TALWALKAR A. Foundations of machine learning[M]. Cambridge:MIT Press,2018.
[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Nevada,USA:Winton,2012: 1097-1105.
[9] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000 (12): 1349-1380.
[10]BLACKMAN S S. Multiple-target tracking with radar applications[M]. Norwood:Artech House , 1986.
[11]YU Mo, GUO Xiaoxiao, YI Jinfeng, et al. Diverse few-shot text classification with multiple metrics[C]//Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans,Louisiana:Bloomberg, 2018:1206-1215.
[12]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(2): 1137-1155.
[13]ZOPH B, LE Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1611.01578, 2016.
[14]DIBA A, SHARMA V, PAZANDEH A, et al. Weakly supervised cascaded convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA:IEEE, 2017: 914- 922.
[15]ZHOU Zhihua. A brief introduction to weakly supervised learning[J]. National Science Review, 2018(1):44-53.
[16]ZHU X J. Semi-supervised learning literature survey[R]. Madison:University of Wisconsin-Madison,2005.
[17]LI Xiaoli, YU P S, LIU Bing, et al. Positive unlabeled learning for data stream classification[C]// SIAM International Conference on Data Mining. Sparks, Nevada,USA:dblp,2009:259-270.
[18]SETTLES B. Active learning literature survey[R]. Madison:University of Wisconsin-Madison,2010.
[19]HE H, GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering,2009, 21 (9):1263-1284.
[20]PANS J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering,2010,? 22 (10): 1345-1359.
[21]FU Y, HOSPEDALES T M, XIANG T, et al. Transductive multi-view zero-shot learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(11): 2332-2345.
[22]BEN-DAVID S, BLITZER J, CRAMMER K, et al. Analysis of representations for domain adaptation[C]// Advances in Neural Information Processing Systems. Vancouver,BC, Canada:NIPS Foundation,2007:137-144.
[23]HOCHREITERS, YOUNGER A S, CONWELL P R. Learning to learn using gradient descnt[C]// International Conference on Artificial Neural Networks. Vienna,Austria:Springer, 2001: 87-94.
[24]CHEN Zitian, FU Yanwei, ZHANG Yinda, et al. Multi-level semantic feature augmentation for one-shot learning[J]. IEEE Transactions on Image Processing, 2019,28(9):4594-4605.
[25]ANTONIOU A, STORKEY A, EDWARDS H. Data augmentation generative adversarial networks[J]. arXiv preprint arXiv:1711.04340, 2017.
[26]CHEN Z, FU Y, CHEN K, et al. Image block augmentation for one-shot learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii,USA:AAAI, 2019, 33: 3379-3386.
[27]QI H, BROWN M, LOWE D G. Low-shot learning with imprinted weights[C]//Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT, USA:IEEE, 2018:5822-5830.
[28]SHYAM P, GUPTA S, DUKKIPATI A. Attentive recurrent comparators[C]//International Conference on Machine Learning. Sydney, NSW, Australia:IMLS,2017:3173-3181.
[29]ZHANG Yabin, TANG Hui, JIA Kui. Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data[M]// FERRARI V, HEBERT M, SMINCHISESCU C, et al. Computer Vision - ECCV 2018. Lecture Notes in Computer Science.? Cham:Springer,2018,11212:241-256.
[30]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press,2016:3630-3638.
[31]MILLER E G, MATSAKIS N E, VIOLA P A.Learning from one example through shared densities on transforms[C]//Conference on Computer Vision and Pattern Recognition. Hilton Head, SC, USA:IEEE, 2000,1:464-471.
[32]HARIHARAN B,GIRSHICK R. Low-shot visual recognition by shrinking and hallucinating features[C]// International Conference on Computer Vision. Venice, Italy:IEEE,2017:3037-3046.
[33]PFISTER T, CHARLES J, ZISSERMAN A. Domain-adaptive discriminative one-shot learning of gestures[C]//European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing,2014:814-829.
[34]TSAI Y H, SALAKHUTDINOV R. Improving one-shot learning through fusing side information[J]. arXiv preprint arXiv:1710.08347,2017.
[35]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montréal CANADA:Google,2014:2672-2680.
[36]王坤峰,茍超,段艷杰,等. 生成式對抗網(wǎng)絡(luò) GAN 的研究進展與展望[J]. 自動化學(xué)報, 2017, 43(3):321-332.
[37]WEI J, ZOU K. EDA: Easy data augmentation techniques for boosting performance on text classification tasks[C]//Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing.Hong Kong, China:ACL,2019: 6383-6389.
[38]MITCHELL M T. Machine Learning[M].? New York:McGraw-Hill,1997.
[39]MOHRIM, ROSTAMIZADEH A, TALWALKAR A. Foundations of machine learning[M]. Cambridge:MIT Press,2018.
[40]GOODFELLOWI, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge:MIT Press,2016.
[41]ZHANG Yu, YANG Qiang. A survey on multi-task learning[J]. arXiv preprint arXiv:1707.08114 ,2017.
[42]HU Zikun, LI Xiang, TU Cunchao, et al. Few-shot charge prediction with discriminative legal attributes[C]//International Conference on Computational Linguistics.New Mexico, USA:ACL,2018: 487-498.
[43]BENAIM S, WOLF L. One-shot unsupervised cross domain translation[C]//Advances in Neural Information Processing Systems. Montreal, Canada:NIPS,2018:2104-2114.
[44]LUO Z, ZOU Y, HOFFMAN J, et al. Label efficient learning of transferable representations acrosss domains and tasks[C]//Advances in Neural Information Processing Systems. Long Beach:Microsoft,2017:165-177.
[45]JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]// ACM International Conference on Multimedia.Orlando, Florida:ACM,2014: 675-678.
[46]SPIVAK M D. A comprehensive introduction to differential geometry[M]. Houston,Texas:Publish or Perish, inc,1970.
[47]BERTINETTOL, HENRIQUES J F, VALMADRE J, et al. Learning feed-forward one-shot learners[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:523-531.
[48]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:3630-3638.
[49]SUKHBAATAR S, WESTON J, FERGUS R, et al. End-to-end memory networks[C]//Advances in Neural Information Processing Systems. Montréal,Canada: Google,2015:2440-2448.
[50]WESTON J, CHOPRA S, BORDES A. Memory networkss[J]. arXiv preprint arXiv:1410.3916,2014.
[51]MILLER A, FISCH A, DODGE J, et al. Key-value memory networks for directly reading documents[C]// Conference on Empirical Methods in Natural Language Processing. Austin, Texas,USA:ACL,2016:1400-1409.
[52]RAMALHO T, GARNELO M. Adaptive posterior learning: Few-shot learning with a surprise-based memory module[C]//International Conference on Learning Representations. Louisiana, United States:ICLR,2019:1-14.
[53]SNELL J, SWERSKY K, ZEMEL R S. Prototypical networks for few-shot learning[C]// Advances in Neural Information Processing Systems. Long Beach:Microsoft, 2017:4077-4087.
[54]BERTINETTO L, HENRIQUES J F, VALMADRE J, et al. Learning feed-forward one-shot learners[C]// Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:523-531.
[55]MUNKHDALAI T, YUAN X, MEHRI S, et al. Rapid adaptation with conditionally shifted neurons[C]//International Conference on Machine Learning. Stockholm, Sweden:Intuit, 2018:3661-3670.
[56]EDWARDS H, STORKEY A. Towards a neural statistician[C]//International Conference on Learning Representations. Toulon, France: Bengio ,2017:1-14.
[57]REED S, CHEN Y, PAINE T, et al. Few-shot autoregressive density estimation: Towards learning to learn distributions[C]//International Conference on Learning Representations.Vancouver,BC,Canada: Google ,2018:1-11.
[58]GORDON J, BRONSKILL J, BAUER M, et al. Meta-learning probabilistic inference for prediction[C]//International Conference on Learning Representations. Louisiana,USA:DeepMind,2019:1-22.
[59]ZHANG Rruixiang, CHE Tong, GHAHRAMANI Z, et al. MetaGAN: An adversarial approach to few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal, Canada:NIPS,2018:2371-2380.
基金項目:國家自然科學(xué)基金(61472256,61170277); 上海市一流學(xué)科建設(shè)項目(S1201YLXK); 上海理工大學(xué)科技發(fā)展基金資助項目(16KJFZ035,2017KJFZ033); 滬江基金資助項目(A14006)。
作者簡介:胡西范(1995-),男,碩士研究生,主要研究方向:小樣本學(xué)習(xí); 陳世平(1964-),男,博士,教授,主要研究方向:云計算、信息檢索及深度學(xué)習(xí)。
通訊作者:陳世平Email:huxifan6@163.com
收稿日期:2021-03-06