基于機器學(xué)習(xí)的小樣本學(xué)習(xí)綜述

2021-12-07 13:07胡西范陳世平

智能計算機與應(yīng)用 2021年7期

胡西范　陳世平

摘要：機器學(xué)習(xí)在數(shù)據(jù)密集型應(yīng)用中十分廣泛，但缺點是當(dāng)數(shù)據(jù)集很小時往往效果欠佳。近年來，人們提出了小樣本學(xué)習(xí)來解決這個問題。小樣本學(xué)習(xí)指只利用少量樣本來訓(xùn)練識別這些樣本的機器學(xué)習(xí)模型。由于小樣本學(xué)習(xí)的實用價值，業(yè)界提出很多針對的研究方法，但是目前國內(nèi)缺少該問題的綜述。本文中，對目前業(yè)界提出的小樣本學(xué)習(xí)模型及算法進行了總結(jié)和探索。首先，給出了小樣本學(xué)習(xí)的問題定義，并介紹了其他一些相關(guān)的機器學(xué)習(xí)問題;然后，根據(jù)先驗知識，通過從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學(xué)習(xí)方法;最后，對小樣本的未來發(fā)展進行了展望。

關(guān)鍵詞：機器學(xué)習(xí); 小樣本學(xué)習(xí); 圖像分類; 數(shù)據(jù)增強

文章編號：2095-2163（2021）07-0191-06中圖分類號：[HT5”XBS〗TP391文獻標(biāo)志碼：A

A survey of few-shot learning based on machine learning

HU Xifan， CHEN Shiping

（School of Optical-Electrical & Computer Engineering， University of Shanghai for Science & Technology，

Shanghai 200093， China）

【Abstract】Machine learning is widely used in data-intensive applications， but the drawback is that it tends to be less effective when the data set is small.In recent years， few-shot learning has been proposed to solve this problem. Few-shot learning refers to a machine learning model that uses only a small number of samples to train the recognition of these samples.Due to the practical value of few-shot learning， the industry has put forward a lot of research methods， but there is a lack of domestic review on this issue. This paper summarizes and explores the few-shot learning models and algorithms proposed by the industry. Firstly， the paper defines the problem of few-shot learning and introduces some other related machine learning problems.Then， according to the prior knowledge， the paper introduces the few-shot learning method in detail through three data enhancement methods and four models. Finally， the future development of small sample is prospected.

【Keywords】machine learning; few-shot learning; image classification; data enhancement

0 引言

相比于機器學(xué)習(xí)，人類能夠通過利用過去學(xué)到的少量樣本數(shù)據(jù)來快速完成新概念的學(xué)習(xí)任務(wù)，并且做出準確的預(yù)測和評估[1]。例如，給一個兒童看一個陌生人的幾張照片，那么就可以從其他若干新的照片中找出包含該陌生人的照片。模仿人類的學(xué)習(xí)過程，縮小人工智能和人類之間的差距是機器學(xué)習(xí)非常重要的一個方向。

1 小樣本學(xué)習(xí)

針對樣本缺失的應(yīng)用場景，國內(nèi)外學(xué)者提出了一種新的機器學(xué)習(xí)概念：小樣本學(xué)習(xí)（Few-Shot Learning）[2-4]。典型的機器學(xué)習(xí)應(yīng)用程序[5]，如上面的舉例，需要大量具有監(jiān)督信息[6]的數(shù)據(jù)。然而，正如引言中提到的，這可能是困難且復(fù)雜的。小樣本學(xué)習(xí)是機器學(xué)習(xí)的一種特殊情況，下面給出其正式的定義。

1.1 問題定義

小樣本學(xué)習(xí)是在只有目標(biāo)少量訓(xùn)練樣本的環(huán)境中，如何訓(xùn)練一個可以有效地識別這些目標(biāo)樣本的一類機器學(xué)習(xí)模型?，F(xiàn)在的小樣本問題主要是監(jiān)督學(xué)習(xí)問題，例如小樣本分類問題只給出每個類的幾個帶標(biāo)簽的例子來學(xué)習(xí)分類器。在工業(yè)應(yīng)用領(lǐng)域，小樣本學(xué)習(xí)因其可以大大降低數(shù)據(jù)采集和標(biāo)定成本，在諸多視覺任務(wù)中已經(jīng)得到研究人員的關(guān)注，其中包括：圖像分類[7]、圖像檢索[8]、目標(biāo)跟蹤[9]、短文本情感分析[10]、語言模型[11]、網(wǎng)絡(luò)結(jié)構(gòu)搜索[12]等問題。

1.2 相關(guān)的機器學(xué)習(xí)任務(wù)

（1）弱監(jiān)督學(xué)習(xí)（Weakly supervised learning）[13]：弱監(jiān)督學(xué)習(xí)是介于有監(jiān)督和無監(jiān)督之間的一類學(xué)習(xí)方法[14]，從經(jīng)驗E中學(xué)習(xí)，只包含弱監(jiān)督信息（如不完整、不準確、或嘈雜的監(jiān)督信息）。與小樣本學(xué)習(xí)相關(guān)的問題是在監(jiān)督信息不完全的情況下，小樣本學(xué)習(xí)的經(jīng)驗只有少量標(biāo)簽信息。根據(jù)有無人為干預(yù)，弱監(jiān)督學(xué)習(xí)又可分為以下2類：

①半監(jiān)督學(xué)習(xí)（Semi-supervised learning）[15]：半監(jiān)督學(xué)習(xí)通過使用少量標(biāo)記，同時使用大量未標(biāo)記數(shù)據(jù)對模型進行訓(xùn)練，是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相結(jié)合的一種機器學(xué)習(xí)方法。正例-未標(biāo)注學(xué)習(xí)（Positive and Unlabeled Learning）[16]是半監(jiān)督學(xué)習(xí)的一個特例，指在只有正類和無標(biāo)記數(shù)據(jù)的情況下，訓(xùn)練二分類器。例如，在社交網(wǎng)絡(luò)中推薦朋友[17]，根據(jù)朋友列表只能了解用戶當(dāng)前的朋友，而用戶與其他人的關(guān)系是未知的。

②不平衡學(xué)習(xí)（Imbalanced learning）[18]：不平衡學(xué)習(xí)的根本問題是，不平衡數(shù)據(jù)會極大地損害一般標(biāo)準學(xué)習(xí)算法的性能。一般標(biāo)準算法假設(shè)或期望平衡的類分布或相等的誤分類代價。因此，當(dāng)面對復(fù)雜的不平衡數(shù)據(jù)集時，這些算法不能很好地表示數(shù)據(jù)的分布特征，這樣便會使跨類數(shù)據(jù)的準確性較差。相反，小樣本學(xué)習(xí)用少量的樣本訓(xùn)練和測試輸出，同時可能以其他輸出作為學(xué)習(xí)的先驗知識。

（2）遷移學(xué)習(xí)（Transfer learning）[19-20]：遷移學(xué)習(xí)將某個領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識或模式應(yīng)用到不同但相關(guān)的數(shù)據(jù)缺乏的領(lǐng)域或問題中。還可以用于跨域推薦、跨時間空間和移動設(shè)備的WiFi定位等應(yīng)用。領(lǐng)域自適應(yīng)（Domain Adaptation）[21]是遷移學(xué)習(xí)中的一種代表性方法，指的是利用信息豐富的源域（source domain）樣本來提升目標(biāo)域（target domain）模型的性能。源域和目標(biāo)域往往屬于同一類任務(wù)，但是分布不同。例如，在情感分析中，源域數(shù)據(jù)包含用戶對電影的評論，而目標(biāo)域數(shù)據(jù)包含客戶對日用商品的評論。

（3）元學(xué)習(xí)（Meta-learning）：或者稱為學(xué)會學(xué)習(xí)（Learning to learn）[22]，這一類學(xué)習(xí)隨著經(jīng)驗和任務(wù)數(shù)量的增長，在每個任務(wù)上的表現(xiàn)得到改進，每當(dāng)學(xué)會解決一個新的任務(wù)，就越有能力解決其他新的任務(wù)。具體來說，元學(xué)習(xí)器在多輪任務(wù)中迭代學(xué)習(xí)到一些通用性的知識（元知識），利用學(xué)習(xí)到的元知識可以幫助新的任務(wù)快速迭代，提高新任務(wù)的性能。元學(xué)習(xí)方法可以用來處理小樣本學(xué)習(xí)問題。

1.3 問題分類

在所有的機器學(xué)習(xí)問題中，通常都存在預(yù)測誤差，無法獲得完美的預(yù)測。在小樣本學(xué)習(xí)中，由于樣本量不夠?qū)е陆?jīng)驗風(fēng)險最小化帶來的最優(yōu)解和真實解之間的誤差將變大[23-25]，因此必須使用先驗知識來解決以上問題。

這里將現(xiàn)有的小樣本學(xué)習(xí)研究分為3類，即：利用先驗知識增強監(jiān)督信號;利用先驗知識縮小假設(shè)空間的大小;利用先驗知識更改給定假設(shè)空間中對最優(yōu)假設(shè)的搜索，也就是數(shù)據(jù)、模型、算法三類。接下來的的章節(jié)會對每類研究方法進行詳細介紹。

2 數(shù)據(jù)

基于數(shù)據(jù)的小樣本學(xué)習(xí)方法主要是利用先驗知識增強樣本數(shù)據(jù)Dtrain，從而將監(jiān)督信息進一步增強，利用充足的數(shù)據(jù)樣本來實現(xiàn)可靠的經(jīng)驗風(fēng)險最小化，如圖1所示。

以圖像數(shù)據(jù)擴充為例，經(jīng)典的圖像數(shù)據(jù)擴充方法主要有：翻轉(zhuǎn)[26]、裁剪[27]、縮放[28]、旋轉(zhuǎn)[29]、改變亮度、圖像模糊等。然而這些人工設(shè)計的方法有很大的依賴性，需要耗費大量的人力和專業(yè)知識。此外，這種方法的遷移性比較差，對一個數(shù)據(jù)集制定的數(shù)據(jù)增強方法很難適用到另一個數(shù)據(jù)集當(dāng)中。因為人類不可能列舉出所有可能的不變性，因此傳統(tǒng)的人工增強數(shù)據(jù)方法不能完全適用于解決小樣本問題。

除了人工設(shè)計的樣本數(shù)據(jù)擴充方法，根據(jù)增強數(shù)據(jù)的來源將小樣本數(shù)據(jù)擴充方法分為3類：從訓(xùn)練集轉(zhuǎn)換樣本、從弱標(biāo)簽或無標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化樣本、從相似數(shù)據(jù)集轉(zhuǎn)換樣本。

2.1 從訓(xùn)練集轉(zhuǎn)換樣本

這種策略通過將每個屬于Dtrain的樣本轉(zhuǎn)化為幾個不同的樣本來增強Dtrain。轉(zhuǎn)換過程作為先驗知識包含在經(jīng)驗E中，以便生成額外的樣本。一篇早期的小樣本學(xué)習(xí)論文[30]通過迭代地將每個樣本與其他樣本對齊，從類似的類中學(xué)習(xí)一組幾何變換。將學(xué)習(xí)過的轉(zhuǎn)換過程應(yīng)用到更大的數(shù)據(jù)集中，然后通過標(biāo)準的機器學(xué)習(xí)方法來學(xué)習(xí)。同樣，一組自編碼器，每個從類似的類中學(xué)習(xí)，代表一個類的可能性，通過向訓(xùn)練樣本添加新屬性獲得新的生成樣本。通過假設(shè)所有類別在樣本之間共享一些可轉(zhuǎn)換的變異性，則可以學(xué)習(xí)到一個轉(zhuǎn)換函數(shù)[31]，再將學(xué)習(xí)到的轉(zhuǎn)換函數(shù)應(yīng)用到輸入樣本。

2.2 從弱標(biāo)簽或無標(biāo)簽數(shù)據(jù)集轉(zhuǎn)化樣本

這種策略通過從弱標(biāo)簽或無標(biāo)簽的大數(shù)據(jù)集中選擇帶有目標(biāo)標(biāo)簽的樣本來增強Dtrain。例如，在監(jiān)控拍攝到的照片中，有人、汽車、綠化和道路，但都不包含標(biāo)簽。再例如一段長時間的演講視頻，演講者在視頻中有一系列手勢，所有的手勢都沒有明確的注釋。作為這樣的數(shù)據(jù)集通常包含大量不同的樣本，將其增強到Dtrain有助于增強模型的泛化性。收集這樣的數(shù)據(jù)集很容易，因為不需要人來做標(biāo)記。然而，雖然收集成本很低，但一個主要問題是如何選擇帶有目標(biāo)標(biāo)簽的樣本來增強Dtrain。在文獻[32]中，研究為Dtrain中的每個目標(biāo)標(biāo)簽學(xué)習(xí)了一個SVM，用于預(yù)測來自弱標(biāo)簽數(shù)據(jù)集的樣本的標(biāo)簽，然后將具有目標(biāo)標(biāo)簽的樣本添加到Dtrain。

2.3 從相似數(shù)據(jù)集轉(zhuǎn)換樣本

這種策略通過從相似、但更大的數(shù)據(jù)集聚合和調(diào)整輸入-輸出對來增強訓(xùn)練集。聚合權(quán)重通?；跇颖局g的一些相似性度量。在Tsai等人[33-34]的研究中，可從輔助的文本語料庫中提取了聚合的權(quán)重。由于這些樣本可能不來自目標(biāo)小樣本類，直接將聚合樣本增強到Dtrain可能產(chǎn)生更大的誤差。生成對抗網(wǎng)絡(luò)（GAN）[34]可以生成與目標(biāo)樣本相似、甚至和目標(biāo)樣本無法區(qū)分的樣本數(shù)據(jù)。具體地，是由一個生成器和一個判別器構(gòu)成，通過對抗學(xué)習(xí)的方式來訓(xùn)練[35]。

2.4 結(jié)論

使用哪一種數(shù)據(jù)增強策略取決于實際的應(yīng)用程序。通過利用目標(biāo)任務(wù)的先驗信息來增強數(shù)據(jù)是簡單易懂的，另一方面，這種方法的缺陷是不能很好地遷移到其他數(shù)據(jù)集（特別是來自其他領(lǐng)域的數(shù)據(jù)集）上使用。除此之外，現(xiàn)有的方法主要是為圖像問題設(shè)計的，因為生成的圖像可以很容易地被人類視覺評估。相反，文本和音頻涉及語法和結(jié)構(gòu)的領(lǐng)域更難生成。在文獻[36]的研究中進行了使用數(shù)據(jù)增強文本的嘗試。

3 模型

若只給定少數(shù)樣本的訓(xùn)練集Dtrain，同時僅使用簡單模型（例如線性分類器）就可以選擇較小的假設(shè)空間[37-38]。但是，現(xiàn)實世界中的問題通常更為復(fù)雜，并且不能由一個小型的假設(shè)空間很好地表示[39]。根據(jù)所使用的先驗知識，可以將屬于本類別的方法進一步分為多任務(wù)學(xué)習(xí)、嵌入式學(xué)習(xí)、借助外部存儲學(xué)習(xí)和生成模型四種類型。下面，將分別介紹這四種類型。

3.1 多任務(wù)學(xué)習(xí)

在存在多個相關(guān)任務(wù)的情況下，多任務(wù)學(xué)習(xí)[40]通過利用任務(wù)通用信息和特定于任務(wù)的信息同時學(xué)習(xí)這些任務(wù)。因此，可以將多任務(wù)學(xué)習(xí)用于小樣本問題中。假設(shè)有一個機器學(xué)習(xí)任務(wù)T，該任務(wù)有相關(guān)的若干個子任務(wù)T1，T2，…，Tn，其中一些任務(wù)的樣本很少，另一些的樣本數(shù)很多。每個任務(wù)Ti都有一個數(shù)據(jù)集Di={Ditrain，Ditest}，其中前者是訓(xùn)練集，后者是測試集。在這些Ti任務(wù)中，將小樣本任務(wù)作為目標(biāo)任務(wù)，其余作為源任務(wù)。多任務(wù)學(xué)習(xí)從Ditrain學(xué)習(xí)Ti的參數(shù)。

由于這些任務(wù)是聯(lián)合學(xué)習(xí)的，因此為任務(wù)Ti學(xué)習(xí)的參數(shù)受其他任務(wù)的約束。根據(jù)任務(wù)參數(shù)的約束方式，多任務(wù)學(xué)習(xí)方法又可以劃分為：參數(shù)共享[28，41-42]，參數(shù)綁定[39，43]。

3.2 嵌入學(xué)習(xí)

嵌入學(xué)習(xí)[44-45]將每個樣本xi∈XRd嵌入到一個低維的zi∈ZRm，這樣相似的樣本距離會縮小，而差異較大的樣本則更容易分離。然后，利用這個較低維的Z中構(gòu)造一個更小的假設(shè)空間H，此時只需要少量的訓(xùn)練樣本。嵌入學(xué)習(xí)具有以下關(guān)鍵組成部分：

（1）將測試樣本xtest∈Dtest嵌入Z的函數(shù)f。

（2）將訓(xùn)練樣本xi∈Dtrain嵌入Z的函數(shù)g。

（3）相似性函數(shù)s（·，·）來測量f（xtest）和Z中的g（xi）之間的相似度。

根據(jù)該類的嵌入g（xi）與Z中的f（xtest）最相似，將測試樣本xtest分配給xi類。盡管可以為xi和xtest使用通用的嵌入函數(shù)，但是使用2個單獨的嵌入函數(shù)可以獲得更好的準確性[46-47]。根據(jù)嵌入函數(shù)f和g的參數(shù)是否隨任務(wù)而變化，將這些小樣本學(xué)習(xí)方法歸為3類，即：特定于任務(wù)的嵌入模型;不變?nèi)蝿?wù)（即一般）嵌入模型;混合嵌入模型，可同時編碼特定于任務(wù)的信息和不變于任務(wù)的信息。

3.3 使用外部存儲器學(xué)習(xí)

使用外部存儲器學(xué)習(xí)[48-49]從Dtrain中提取知識，并將提取的信息存儲在特定的外部存儲器中。然后，將每個新樣本xtest由從內(nèi)存中提取的內(nèi)容用加權(quán)平均值表示。這限制了xtest由內(nèi)存中的內(nèi)容表示，因此實質(zhì)上減小了假設(shè)空間H的大小。小樣本學(xué)習(xí)中通常使用鍵值存儲器[50]，根據(jù)存儲器的功能此類別方法又可以分為準確表達[51-52]和參數(shù)完善[53-54]兩類。

3.4 生成模型

生成模型方法借助先驗知識（如圖2所示）從觀測到的xi估計概率分布p（x）。p（x）的估計通常涉及p（x||y）和p（y）的估計。生成模型方法可以用于處理很多任務(wù)，例如生成[55-58]、識別[57-58]、重構(gòu)[57]和圖像翻轉(zhuǎn)[56]。

3.5 模型方法總結(jié)

當(dāng)存在相似的任務(wù)或輔助任務(wù)時，可以使用多任務(wù)學(xué)習(xí)來約束小樣本任務(wù)的假設(shè)空間H。但是此方法需要共同訓(xùn)練所有任務(wù)。因此，當(dāng)添加一個新的任務(wù)時，整個多任務(wù)模型必須再次共同訓(xùn)練，這將導(dǎo)致訓(xùn)練的成本增加。當(dāng)存在一個由各類樣本數(shù)據(jù)組成的大規(guī)模數(shù)據(jù)集時，可以考慮使用嵌入學(xué)習(xí)方法。此方法的優(yōu)點是可以將樣本映射到良好的嵌入空間，并易于分離來自不同類別的樣本，因此需要較小的H[TX～]。但是，當(dāng)小樣本任務(wù)與其他任務(wù)沒有密切關(guān)系時，實驗效果將會不佳。當(dāng)有可用的內(nèi)存網(wǎng)絡(luò)時，可以通過在內(nèi)存的基礎(chǔ)上訓(xùn)練一個簡單的模型（例如分類器），將其簡單地用于小樣本學(xué)習(xí)任務(wù)。通過使用專門設(shè)計的更新規(guī)則，可以有選擇地保護內(nèi)存插槽。但是本方法的缺點是會導(dǎo)致額外的存儲空間和計算成本，隨著內(nèi)存大小的增加缺點越明顯，而使用的外部存儲器大小通常也會受到限制。最后，當(dāng)除了小樣本任務(wù)之外還想要執(zhí)行諸如生成和重構(gòu)之類的任務(wù)時，可以使用生成模型。訓(xùn)練好的生成模型也可以用于生成樣本對數(shù)據(jù)進行擴充。

4 總結(jié)與展望

由于獲取大量標(biāo)注樣本會消耗不少的時間和人力，小樣本學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域逐漸受到人們重視。目前小樣本學(xué)習(xí)研究主要集中在圖像分類、字符識別等方向。在其他監(jiān)督學(xué)習(xí)場景中同樣可以發(fā)揮小樣本學(xué)習(xí)理論的作用，包括目標(biāo)檢測、語義分割、圖像檢索、手勢識別、視頻目標(biāo)檢測等問題。除了視覺任務(wù)，在自然語言處理中領(lǐng)域的文本和計算機視覺的視頻問題同樣是小樣本學(xué)習(xí)值得探索的研究方向。

隨著深度學(xué)習(xí)的不斷發(fā)展，小樣本學(xué)習(xí)應(yīng)用的領(lǐng)域?qū)粩鄶U大，小樣本學(xué)習(xí)研究的前景將會十分廣闊。

5 結(jié)束語

本文首先介紹了小樣本學(xué)習(xí)的研究背景和問題定義，接著從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學(xué)習(xí)方法，最后對小樣本學(xué)習(xí)研究進行了前景展望。

參考文獻

[1] SEBASTIAN T， PRATT L. Learning to learn[M]. New York：Springer Science & Business Media， 2012.

[2]? GARCIA V， BRUNA J. Few-shot learning with graph neural networks[J]. arXiv preprint arXiv：1711.04043， 2017.

[3] DUAN Y， ANDRYCHOWICZ M， STADIE B， et al. One-shot imitation learning[C]//Advances in Neural Information Processing Systems. Long Beach，CA：Microsoft， 2017： 1087-1098.

[4] ORESHKIN B， LPEZ P R， LACOSTE A. Tadam： Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal， Canada： NIPS， 2018： 721-731.

[5] REN M， TRIANTAFILLOU E， RAVI S， et al. Metalearning for semi-supervised few-shot classification[J]. arXiv preprint arXiv：1803.00676， 2018.

[6] MITCHELL M T.? Machine learning[M]. New York： McGraw-Hill，1997.

[7] MOHRI M， ROSTAMIZADEH A， TALWALKAR A. Foundations of machine learning[M]. Cambridge：MIT Press，2018.

[8] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Nevada，USA：Winton，2012： 1097-1105.

[9] SMEULDERS A W M， WORRING M， SANTINI S， et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence， 2000 （12）： 1349-1380.

[10]BLACKMAN S S. Multiple-target tracking with radar applications[M]. Norwood：Artech House ， 1986.

[11]YU Mo， GUO Xiaoxiao， YI Jinfeng， et al. Diverse few-shot text classification with multiple metrics[C]//Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. New Orleans，Louisiana：Bloomberg， 2018：1206-1215.

[12]BENGIO Y， DUCHARME R， VINCENT P， et al. A neural probabilistic language model[J]. Journal of machine learning research， 2003， 3（2）： 1137-1155.

[13]ZOPH B， LE Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint arXiv：1611.01578， 2016.

[14]DIBA A， SHARMA V， PAZANDEH A， et al. Weakly supervised cascaded convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu，HI，USA：IEEE， 2017： 914- 922.

[15]ZHOU Zhihua. A brief introduction to weakly supervised learning[J]. National Science Review， 2018（1）：44-53.

[16]ZHU X J. Semi-supervised learning literature survey[R]. Madison：University of Wisconsin-Madison，2005.

[17]LI Xiaoli， YU P S， LIU Bing， et al. Positive unlabeled learning for data stream classification[C]// SIAM International Conference on Data Mining. Sparks， Nevada，USA：dblp，2009：259-270.

[18]SETTLES B. Active learning literature survey[R]. Madison：University of Wisconsin-Madison，2010.

[19]HE H， GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering，2009， 21 （9）：1263-1284.

[20]PANS J， YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering，2010，? 22 （10）： 1345-1359.

[21]FU Y， HOSPEDALES T M， XIANG T， et al. Transductive multi-view zero-shot learning[J]. IEEE transactions on pattern analysis and machine intelligence， 2015， 37（11）： 2332-2345.

[22]BEN-DAVID S， BLITZER J， CRAMMER K， et al. Analysis of representations for domain adaptation[C]// Advances in Neural Information Processing Systems. Vancouver，BC， Canada：NIPS Foundation，2007：137-144.

[23]HOCHREITERS， YOUNGER A S， CONWELL P R. Learning to learn using gradient descnt[C]// International Conference on Artificial Neural Networks. Vienna，Austria：Springer， 2001： 87-94.

[24]CHEN Zitian， FU Yanwei， ZHANG Yinda， et al. Multi-level semantic feature augmentation for one-shot learning[J]. IEEE Transactions on Image Processing， 2019，28（9）：4594-4605.

[25]ANTONIOU A， STORKEY A， EDWARDS H. Data augmentation generative adversarial networks[J]. arXiv preprint arXiv：1711.04340， 2017.

[26]CHEN Z， FU Y， CHEN K， et al. Image block augmentation for one-shot learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii，USA：AAAI， 2019， 33： 3379-3386.

[27]QI H， BROWN M， LOWE D G. Low-shot learning with imprinted weights[C]//Conference on Computer Vision and Pattern Recognition.Salt Lake City，UT， USA：IEEE， 2018：5822-5830.

[28]SHYAM P， GUPTA S， DUKKIPATI A. Attentive recurrent comparators[C]//International Conference on Machine Learning. Sydney， NSW， Australia：IMLS，2017：3173-3181.

[29]ZHANG Yabin， TANG Hui， JIA Kui. Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data[M]// FERRARI V， HEBERT M， SMINCHISESCU C， et al. Computer Vision - ECCV 2018. Lecture Notes in Computer Science.? Cham：Springer，2018，11212：241-256.

[30]VINYALS O， BLUNDELL C， LILLICRAP T， et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona：MIT Press，2016：3630-3638.

[31]MILLER E G， MATSAKIS N E， VIOLA P A.Learning from one example through shared densities on transforms[C]//Conference on Computer Vision and Pattern Recognition. Hilton Head， SC， USA：IEEE， 2000，1：464-471.

[32]HARIHARAN B，GIRSHICK R. Low-shot visual recognition by shrinking and hallucinating features[C]// International Conference on Computer Vision. Venice， Italy：IEEE，2017：3037-3046.

[33]PFISTER T， CHARLES J， ZISSERMAN A. Domain-adaptive discriminative one-shot learning of gestures[C]//European Conference on Computer Vision. Zurich， Switzerland： Springer International Publishing，2014：814-829.

[34]TSAI Y H， SALAKHUTDINOV R. Improving one-shot learning through fusing side information[J]. arXiv preprint arXiv：1710.08347，2017.

[35]GOODFELLOW I， POUGET-ABADIE J， MIRZA M， et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montréal CANADA：Google，2014：2672-2680.

[36]王坤峰，茍超，段艷杰，等. 生成式對抗網(wǎng)絡(luò) GAN 的研究進展與展望[J]. 自動化學(xué)報， 2017， 43（3）：321-332.

[37]WEI J， ZOU K. EDA： Easy data augmentation techniques for boosting performance on text classification tasks[C]//Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing.Hong Kong， China：ACL，2019： 6383-6389.

[38]MITCHELL M T. Machine Learning[M].? New York：McGraw-Hill，1997.

[39]MOHRIM， ROSTAMIZADEH A， TALWALKAR A. Foundations of machine learning[M]. Cambridge：MIT Press，2018.

[40]GOODFELLOWI， BENGIO Y， COURVILLE A. Deep learning[M]. Cambridge：MIT Press，2016.

[41]ZHANG Yu， YANG Qiang. A survey on multi-task learning[J]. arXiv preprint arXiv：1707.08114 ，2017.

[42]HU Zikun， LI Xiang， TU Cunchao， et al. Few-shot charge prediction with discriminative legal attributes[C]//International Conference on Computational Linguistics.New Mexico， USA：ACL，2018： 487-498.

[43]BENAIM S， WOLF L. One-shot unsupervised cross domain translation[C]//Advances in Neural Information Processing Systems. Montreal， Canada：NIPS，2018：2104-2114.

[44]LUO Z， ZOU Y， HOFFMAN J， et al. Label efficient learning of transferable representations acrosss domains and tasks[C]//Advances in Neural Information Processing Systems. Long Beach：Microsoft，2017：165-177.

[45]JIA Y， SHELHAMER E， DONAHUE J， et al. Caffe： Convolutional architecture for fast feature embedding[C]// ACM International Conference on Multimedia.Orlando， Florida：ACM，2014： 675-678.

[46]SPIVAK M D. A comprehensive introduction to differential geometry[M]. Houston，Texas：Publish or Perish， inc，1970.

[47]BERTINETTOL， HENRIQUES J F， VALMADRE J， et al. Learning feed-forward one-shot learners[C]//Advances in Neural Information Processing Systems. Barcelona：MIT Press， 2016：523-531.

[48]VINYALS O， BLUNDELL C， LILLICRAP T， et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona：MIT Press， 2016：3630-3638.

[49]SUKHBAATAR S， WESTON J， FERGUS R， et al. End-to-end memory networks[C]//Advances in Neural Information Processing Systems. Montréal，Canada： Google，2015：2440-2448.

[50]WESTON J， CHOPRA S， BORDES A. Memory networkss[J]. arXiv preprint arXiv：1410.3916，2014.

[51]MILLER A， FISCH A， DODGE J， et al. Key-value memory networks for directly reading documents[C]// Conference on Empirical Methods in Natural Language Processing. Austin， Texas，USA：ACL，2016：1400-1409.

[52]RAMALHO T， GARNELO M. Adaptive posterior learning： Few-shot learning with a surprise-based memory module[C]//International Conference on Learning Representations. Louisiana， United States：ICLR，2019：1-14.

[53]SNELL J， SWERSKY K， ZEMEL R S. Prototypical networks for few-shot learning[C]// Advances in Neural Information Processing Systems. Long Beach：Microsoft， 2017：4077-4087.

[54]BERTINETTO L， HENRIQUES J F， VALMADRE J， et al. Learning feed-forward one-shot learners[C]// Advances in Neural Information Processing Systems. Barcelona：MIT Press， 2016：523-531.

[55]MUNKHDALAI T， YUAN X， MEHRI S， et al. Rapid adaptation with conditionally shifted neurons[C]//International Conference on Machine Learning. Stockholm， Sweden：Intuit， 2018：3661-3670.

[56]EDWARDS H， STORKEY A. Towards a neural statistician[C]//International Conference on Learning Representations. Toulon， France： Bengio ，2017：1-14.

[57]REED S， CHEN Y， PAINE T， et al. Few-shot autoregressive density estimation： Towards learning to learn distributions[C]//International Conference on Learning Representations.Vancouver，BC，Canada： Google ，2018：1-11.

[58]GORDON J， BRONSKILL J， BAUER M， et al. Meta-learning probabilistic inference for prediction[C]//International Conference on Learning Representations. Louisiana，USA：DeepMind，2019：1-22.

[59]ZHANG Rruixiang， CHE Tong， GHAHRAMANI Z， et al. MetaGAN： An adversarial approach to few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal， Canada：NIPS，2018：2371-2380.

基金項目：國家自然科學(xué)基金（61472256，61170277）; 上海市一流學(xué)科建設(shè)項目（S1201YLXK）; 上海理工大學(xué)科技發(fā)展基金資助項目（16KJFZ035，2017KJFZ033）; 滬江基金資助項目（A14006）。

作者簡介：胡西范（1995-），男，碩士研究生，主要研究方向：小樣本學(xué)習(xí); 陳世平（1964-），男，博士，教授，主要研究方向：云計算、信息檢索及深度學(xué)習(xí)。

通訊作者：陳世平Email：huxifan6@163.com

收稿日期：2021-03-06

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機器學(xué)習(xí)的小樣本學(xué)習(xí)綜述