李永盛,何佳洲,趙國(guó)清,劉義海
(江蘇自動(dòng)化研究所,江蘇 連云港 222061)
遷移學(xué)習(xí)能高效準(zhǔn)確地處理小樣本數(shù)據(jù)得到廣泛地研究和使用。傳統(tǒng)機(jī)器學(xué)習(xí)要求有大量的新數(shù)據(jù),同時(shí)必須滿(mǎn)足新舊數(shù)據(jù)同分布。這種要求是非??量痰?在實(shí)際應(yīng)用中,企業(yè)面臨的是如何處理小數(shù)據(jù),并且往往也無(wú)法滿(mǎn)足新舊數(shù)據(jù)同分布的條件。此時(shí)企業(yè)面臨一個(gè)難題,該如何使用舊數(shù)據(jù)和新數(shù)據(jù)。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,遷移學(xué)習(xí)可以允許兩個(gè)新舊數(shù)據(jù)之間有較大的差異,并且在新標(biāo)注數(shù)據(jù)較少情況下,它仍然可以獲得良好效果[1]。
簡(jiǎn)單地說(shuō),將在舊領(lǐng)域上的知識(shí)運(yùn)用到新領(lǐng)域上,幫助新領(lǐng)域進(jìn)行訓(xùn)練學(xué)習(xí),這就是遷移學(xué)習(xí)。通常,把舊領(lǐng)域叫作源域,用字母Ds來(lái)表示;把新領(lǐng)域叫作目標(biāo)域[2],用字母DT來(lái)表示。源任務(wù)是指機(jī)器已經(jīng)掌握的相對(duì)于新任務(wù)不同的數(shù)據(jù)集,用字母Ts表示;目標(biāo)任務(wù)是指機(jī)器要學(xué)習(xí)的新任務(wù)的數(shù)據(jù)集,用字母TT表示。Pan J等人[3]根據(jù)兩領(lǐng)域間相似度,分成歸納遷移學(xué)習(xí)、無(wú)監(jiān)督遷移學(xué)習(xí)和直推式遷移學(xué)習(xí),如表1所示。Lu等人[4]根據(jù)遷移學(xué)習(xí)技術(shù)的發(fā)展,將遷移學(xué)習(xí)分為四類(lèi):基于神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)、基于貝葉斯的遷移學(xué)習(xí)、模糊轉(zhuǎn)移學(xué)習(xí)和基于計(jì)算智能的遷移學(xué)習(xí)。
表1 傳統(tǒng)學(xué)習(xí)與遷移學(xué)習(xí)的對(duì)比
遷移學(xué)習(xí)是近些年來(lái)的研究熱點(diǎn)之一,目前已在較多方面取得研究進(jìn)展。Dai等人[5]針對(duì)文本處理問(wèn)題,提出了一種基于聚類(lèi)的分類(lèi)算法,在共享相同詞特征的不同領(lǐng)域之間,進(jìn)行知識(shí)遷移,提高了傳統(tǒng)學(xué)習(xí)算法的分類(lèi)性能。Zhu等人[6]在圖像處理方面,提出了一種異構(gòu)遷移學(xué)習(xí)方法,把圖像上的標(biāo)簽信息作為圖像和文本之間的橋梁,從而達(dá)到更好的圖像分類(lèi)效果。Zhou等人[7]在智能規(guī)劃方面,提出了一種遷移學(xué)習(xí)框架TRAMP,通過(guò)建立目標(biāo)域和源域之間的結(jié)構(gòu)映射來(lái)遷移知識(shí)。宋鵬等人[8]在語(yǔ)音情感識(shí)別方面,提出一種基于特征遷移學(xué)習(xí)的跨庫(kù)語(yǔ)音情感識(shí)別方法,通過(guò)最大均值差異嵌入MMD描述不同數(shù)據(jù)庫(kù)之間的特征分布相似度,同時(shí)通過(guò)半監(jiān)督判別分析方法SDA進(jìn)行特征降維,實(shí)驗(yàn)表明能有效提高語(yǔ)音情感識(shí)別率。
本文將負(fù)遷移定義為:已有的經(jīng)驗(yàn)知識(shí)會(huì)影響新知識(shí)的學(xué)習(xí)。如何解決負(fù)遷移問(wèn)題,是在研究遷移學(xué)習(xí)中不可回避的問(wèn)題。在學(xué)者們研究工作的基礎(chǔ)上[9-36],根據(jù)遷移學(xué)習(xí)的特點(diǎn),把改善負(fù)遷移的方法分為三類(lèi)。
1)增加有效的源域知識(shí)數(shù)量。遷移的有效知識(shí)經(jīng)驗(yàn)越豐富,學(xué)習(xí)效果就會(huì)相對(duì)越好。因此,可以考慮通過(guò)綜合更多有效的源域一起學(xué)習(xí),進(jìn)而改善遷移學(xué)習(xí)。本文中,介紹的方法是多源域數(shù)據(jù)學(xué)習(xí)[9-19]。
2)增加目標(biāo)領(lǐng)域的樣本數(shù)量。遷移學(xué)習(xí)就是為了解決小數(shù)據(jù)樣本,但是由于訓(xùn)練學(xué)習(xí)樣本數(shù)量少,會(huì)容易導(dǎo)致遷移失敗。如果能夠大量增加樣本數(shù)量,那么就可以改善負(fù)遷移。本文中,主要介紹了兩種方法,即多任務(wù)學(xué)習(xí)[20-24]和生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)[25-27]。
3)減少領(lǐng)域間的數(shù)據(jù)分布差異。數(shù)據(jù)分布差異大小是影響遷移學(xué)習(xí)的根本原因。通常認(rèn)為,數(shù)據(jù)分布差異越大,負(fù)遷移現(xiàn)象就會(huì)越嚴(yán)重。解決數(shù)據(jù)分布差異問(wèn)題,一方面通過(guò)度量領(lǐng)域間的相似性,選擇數(shù)據(jù)分布差異小的源域;另一方面,可以將源域和目標(biāo)域的數(shù)據(jù),先進(jìn)行一次特征提取,從而減少數(shù)據(jù)間的差異,然后再進(jìn)行知識(shí)遷移。本文中,主要介紹了兩種方法,即稀疏字典學(xué)習(xí)法[28-33]和圖正則化遷移學(xué)習(xí)[34-36]。
根據(jù)源領(lǐng)域的個(gè)數(shù),遷移學(xué)習(xí)分為單個(gè)源領(lǐng)域和多源領(lǐng)域。單個(gè)源領(lǐng)域的經(jīng)驗(yàn)知識(shí)總是有限的,有時(shí)不能足夠有效地給予目標(biāo)領(lǐng)域?qū)W習(xí)幫助,因此可以想到結(jié)合多個(gè)源領(lǐng)域的知識(shí),幫助目標(biāo)域完成任務(wù),從而使得遷移學(xué)習(xí)結(jié)果變得更加可靠。
根據(jù)Sun等人[9]的研究,可以將多源域遷移學(xué)習(xí)劃分為兩大類(lèi)。1)將不同源域訓(xùn)練學(xué)習(xí)得到的分類(lèi)器進(jìn)行加權(quán)組合,典型算法有MCC-SVM算法[10]和A-SVM算法[11];2)進(jìn)一步考慮對(duì)無(wú)標(biāo)簽?zāi)繕?biāo)數(shù)據(jù)的利用,典型算法有DAM[12]和DSM[13]等。
近幾年,學(xué)者們進(jìn)行了許多關(guān)于多源域的遷移學(xué)習(xí)研究。Yao等人[14]提出了兩個(gè)新算法MultiSource-TrAdaBoost和 TaskTrAdaBoost,實(shí)驗(yàn)結(jié)果表明隨著源域數(shù)量的增加,負(fù)遷移大大減少。Gao等人[15]提出了一種多模型局部結(jié)構(gòu)映射方案,根據(jù)目標(biāo)樣本的分布特性來(lái)設(shè)置來(lái)自多個(gè)源領(lǐng)域的學(xué)習(xí)模型的權(quán)重。Luo等人[16-17]提出了一致性正則化框架,進(jìn)一步地挖掘多源域數(shù)據(jù)的內(nèi)部信息。季鼎承等人[18]提出了基于域與樣例平衡的多源遷移學(xué)習(xí)方法,其思想是把域和樣例兩個(gè)層面進(jìn)行雙加權(quán)平衡,然后加入到遷移學(xué)習(xí)的目標(biāo)函數(shù)中。劉振等人[19]提出了一種基于多重相似性的多源域遷移學(xué)習(xí)方法,先從域-域和樣本-域這兩個(gè)層面刻畫(huà)目標(biāo)域和多個(gè)源域的相關(guān)性,然后根據(jù)平滑性流形假設(shè),實(shí)現(xiàn)從源域到目標(biāo)域的知識(shí)遷移。
3.2.1 多任務(wù)學(xué)習(xí)
在單任務(wù)學(xué)習(xí)中,如果用于訓(xùn)練的樣本數(shù)據(jù)數(shù)量有限,則容易出現(xiàn)泛化能力差的結(jié)果。1994 年, Caruana[20]提出了多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)的前提是假設(shè)不同任務(wù)的樣本數(shù)據(jù)具有相似性,而單任務(wù)學(xué)習(xí)只使用了單個(gè)任務(wù)的樣本數(shù)據(jù),那么多任務(wù)學(xué)習(xí)使用了它們所有的樣本數(shù)據(jù),等于擴(kuò)大了訓(xùn)練數(shù)據(jù)集,并且還可以平均多任務(wù)之間各自的噪聲差異,大大提高了泛化能力。由于多任務(wù)學(xué)習(xí)的目的不一定都一樣,所以不能簡(jiǎn)單地視為合并成一個(gè)新任務(wù),它本質(zhì)上是屬于多任務(wù)聯(lián)合學(xué)習(xí)。圖1顯示的參數(shù)共享機(jī)制是多任務(wù)深度學(xué)習(xí)中比較常見(jiàn)的一種方式。如果多個(gè)任務(wù)間有相關(guān)聯(lián)的數(shù)據(jù)信息,那么多任務(wù)學(xué)習(xí)是有效的,反之會(huì)影響原來(lái)的學(xué)習(xí)效果。
圖1 多任務(wù)深度學(xué)習(xí)中的參數(shù)共享機(jī)制
Ben-David 和 Schuler[21]研究了多任務(wù)學(xué)習(xí)中具有共同特征的相關(guān)任務(wù)集,提出了生成框模型以及誤差界限。2005年,Carroll 和 Seppi等人[22]提出了度量任務(wù)相似性的指標(biāo),比如時(shí)間、策略覆蓋、Q值和獎(jiǎng)賞結(jié)構(gòu)等。2008年,Mahmud 和 Ray[23]采用貝葉斯的觀點(diǎn)來(lái)計(jì)算任務(wù)相似度,很好地解決了任務(wù)相似度的度量。Zheng等人[24]提出了一種多任務(wù)學(xué)習(xí)算法,先假設(shè)潛在特征空間的學(xué)習(xí)是相似的,采用交替優(yōu)化方法進(jìn)行迭代學(xué)習(xí)特征映射和設(shè)備的多任務(wù)回歸模型,并證明了其有效性。
目前的多任務(wù)學(xué)習(xí)是狹義的,因?yàn)樗鼈冃枰Y(jié)合專(zhuān)業(yè)知識(shí),來(lái)設(shè)計(jì)任務(wù)之間的信息交互遷移形式。而廣義的多任務(wù)學(xué)習(xí),應(yīng)該是在數(shù)據(jù)差異性很大時(shí),仍能實(shí)現(xiàn)有效遷移。
3.2.2 生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)
為了便于理解生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí),先舉一個(gè)簡(jiǎn)單的例子。假設(shè)有一臺(tái)印鈔機(jī)負(fù)責(zé)生成假鈔,同時(shí)另外一臺(tái)驗(yàn)鈔機(jī)負(fù)責(zé)鑒別鈔票的真?zhèn)?。若?yàn)鈔機(jī)能鑒別出假鈔,則印鈔機(jī)進(jìn)行修改;若驗(yàn)鈔機(jī)鑒別假鈔失敗,則驗(yàn)鈔機(jī)進(jìn)行修改。如此往復(fù)循環(huán),在兩臺(tái)機(jī)器的對(duì)抗中,印鈔機(jī)的造假能力越來(lái)越高,驗(yàn)鈔機(jī)的鑒別能力越來(lái)越強(qiáng),最后形成的效果是印鈔機(jī)可生成以假亂真的假鈔。那么,由此聯(lián)想到小樣本數(shù)據(jù)問(wèn)題,既然樣本數(shù)量少是關(guān)鍵因素,那么能否有一個(gè)生成模型可以像印鈔機(jī)生成假鈔那樣去偽造樣本數(shù)據(jù)?基于這種對(duì)抗的學(xué)習(xí)思想,生成對(duì)抗網(wǎng)絡(luò)便產(chǎn)生了。
生成對(duì)抗網(wǎng)絡(luò)GAN,是由Goodfellow等人[25]提出的生成模型,如圖2所示。
圖2 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)
GAN由生成器G和判別器D組成。把從某個(gè)分布中采樣的隨機(jī)噪聲z作為生成器G的輸入,生成器G努力擬合真實(shí)數(shù)據(jù)x的分布,期望能夠欺騙判別器D。然后把真實(shí)數(shù)據(jù)x和生成數(shù)據(jù)G(z)一起輸入判別器D,讓判別器D區(qū)分樣本數(shù)據(jù)來(lái)源于哪個(gè)部分。它們進(jìn)行相互對(duì)抗學(xué)習(xí),然后不停地迭代更新,直至達(dá)到判別器D無(wú)法準(zhǔn)確地區(qū)分生成樣本和真實(shí)樣本為止。在此期間不需要做任何近似推理,也無(wú)須采樣過(guò)程,它是直接進(jìn)行新樣本的采樣。通過(guò)生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí),可以獲得大量近似真實(shí)數(shù)據(jù)的樣本,解決了如何生成有效樣本數(shù)據(jù)的難題,從而彌補(bǔ)了目標(biāo)領(lǐng)域中樣本數(shù)據(jù)少的不足。另外,生成器不是簡(jiǎn)單地復(fù)制真實(shí)樣本數(shù)據(jù),由于它是從隨機(jī)噪聲產(chǎn)生的,所以也增加了生成樣本的多樣性。
臧文華[26]提出了兩種對(duì)抗遷移學(xué)習(xí)算法。一種是基于殘差的對(duì)抗遷移學(xué)習(xí)算法RAN,利用對(duì)抗的方法對(duì)齊兩個(gè)域的特征,同時(shí)分類(lèi)器能自適應(yīng),得到區(qū)分性更好的特征。另一種是基于特征和標(biāo)簽的聯(lián)合分布對(duì)抗遷移學(xué)習(xí)算法FLAN,利用對(duì)抗學(xué)習(xí)匹配兩個(gè)域之間的聯(lián)合分布,增強(qiáng)了特征的區(qū)分性。滿(mǎn)子健[27]將生成對(duì)抗網(wǎng)絡(luò)GAN和變分自編碼器VAE結(jié)合起來(lái),利用迭代學(xué)習(xí)訓(xùn)練促使生成器去學(xué)習(xí)真實(shí)圖像的數(shù)據(jù)分布,能明顯改善生成圖像的質(zhì)量及多樣性。
3.3.1 稀疏字典學(xué)習(xí)法
稀疏表示理論,基于其優(yōu)秀的數(shù)據(jù)特征表示能力和對(duì)數(shù)據(jù)特征的自動(dòng)提取,在許多領(lǐng)域取到了較好的效果。稀疏字典是稀疏表示理論中的關(guān)鍵部分[28],直接影響稀疏編碼的性能。
面臨大數(shù)據(jù)時(shí)代,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的遷移是一件棘手的事情,因?yàn)楹A康臄?shù)據(jù)里面包含了大量的冗余信息,既含有有用信息也含有無(wú)用信息。而稀疏字典學(xué)習(xí)方法[29]可以將海量數(shù)據(jù)壓縮為字典,那么字典代表了數(shù)據(jù)中最本質(zhì)的基本信息,此時(shí)再進(jìn)行知識(shí)的遷移就會(huì)變得容易。它先在目標(biāo)領(lǐng)域的數(shù)據(jù)字典中找出判別性的原子,再根據(jù)初始目標(biāo)聚類(lèi)中心,從源領(lǐng)域中找出與目標(biāo)判別性原子相似的特征知識(shí),將其遷移到目標(biāo)字典中,增強(qiáng)目標(biāo)字典的判別性。若結(jié)合多源域?qū)W習(xí),則可進(jìn)一步降低負(fù)遷移的可能性。
學(xué)者們已經(jīng)對(duì)稀疏字典學(xué)習(xí)方法進(jìn)行了諸多研究。Chen等人[30]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的視覺(jué)情感分類(lèi)方法,是從網(wǎng)絡(luò)照片的標(biāo)簽中自動(dòng)挖掘原子信息,作為檢測(cè)圖像情感的有效統(tǒng)計(jì)線(xiàn)索,取得了顯著效果。Wright等人[31]基于稀疏表示方法,提出了一種通用的基于圖像的目標(biāo)識(shí)別分類(lèi)算法,為解決人臉識(shí)別中的特征選擇問(wèn)題提供了新的方法。Ma Y等人[32]詳細(xì)介紹了稀疏信號(hào)表示和計(jì)算機(jī)實(shí)際之間的相互作用,并在自然圖像分割方面進(jìn)行應(yīng)用,實(shí)驗(yàn)結(jié)果顯示降低了錯(cuò)誤率。崔鵬等人[33]結(jié)合稀疏編碼和背景差分進(jìn)行行人檢測(cè),提出了一種新的遷移學(xué)習(xí)框架,通過(guò)稀疏編碼對(duì)所有樣本進(jìn)行權(quán)重分配,實(shí)驗(yàn)結(jié)果比其他傳統(tǒng)方法取得了顯著提高。
3.3.2 圖正則化遷移學(xué)習(xí)
研究分析數(shù)據(jù)時(shí),通常會(huì)得到數(shù)據(jù)的統(tǒng)計(jì)信息和幾何信息。簡(jiǎn)單來(lái)講,數(shù)據(jù)的統(tǒng)計(jì)信息[34]是指對(duì)數(shù)據(jù)的描述性統(tǒng)計(jì),比如數(shù)據(jù)的樣本均值或方差等。而數(shù)據(jù)的幾何信息[35]與數(shù)據(jù)里面嵌入的流形有關(guān),它是描述數(shù)據(jù)的內(nèi)在分布。它們是從不同的角度來(lái)關(guān)注原始數(shù)據(jù),在描述原始數(shù)據(jù)信息時(shí)具有相互補(bǔ)充的作用。所以將數(shù)據(jù)的統(tǒng)計(jì)信息和幾何信息結(jié)合起來(lái),可以提高潛在因子的平滑性,進(jìn)而改善遷移學(xué)習(xí)。
圖3 圖正則化聯(lián)合矩陣分解框架
眾所周知,非負(fù)矩陣分解技術(shù)[39](NMF)是處理多維數(shù)據(jù)的有效工具之一,在聚類(lèi)處理方面有著極大地優(yōu)勢(shì)。而GTL,它是一種通用的模型框架,可以使用多種矩陣分解模型,如NMF和Semi-NMF[40],都能容易地集成到GTL框架中來(lái)解決遷移學(xué)習(xí)問(wèn)題。另外,在每個(gè)領(lǐng)域內(nèi)進(jìn)行圖正則化,可以保持各自領(lǐng)域內(nèi)的幾何流形結(jié)構(gòu)不被領(lǐng)域外的知識(shí)結(jié)構(gòu)破壞。
關(guān)于遷移學(xué)習(xí),當(dāng)源領(lǐng)域和目標(biāo)領(lǐng)域的差異足夠大時(shí),Qiang Yang等人認(rèn)為需要保留源域和目標(biāo)域的幾何結(jié)構(gòu)。這樣即使兩領(lǐng)域間傳遞的公共因子相沖突,也不會(huì)破壞目標(biāo)域的幾何結(jié)構(gòu)。在GTL[36]里,通過(guò)保留跨域的統(tǒng)計(jì)信息來(lái)提取共同的潛在因素,同時(shí)通過(guò)保留每個(gè)域的幾何信息來(lái)細(xì)化潛在因素,從而緩解負(fù)遷移。
在實(shí)現(xiàn)對(duì)小數(shù)據(jù)集準(zhǔn)確高效的學(xué)習(xí)方面,遷移學(xué)習(xí)有著天然的優(yōu)勢(shì),是推動(dòng)未來(lái)人工智能發(fā)展的重要技術(shù),但負(fù)遷移的出現(xiàn)引起了學(xué)者們的廣泛關(guān)注。在本文中為了解決負(fù)遷移問(wèn)題,我們從源域、目標(biāo)域、領(lǐng)域間數(shù)據(jù)分布差異三個(gè)方面展開(kāi)分析,提出多源領(lǐng)域數(shù)據(jù)學(xué)習(xí)、增加目標(biāo)領(lǐng)域的樣本數(shù)量、減少領(lǐng)域間的數(shù)據(jù)分布差異等三個(gè)方向,并匯總了改善負(fù)遷移的相關(guān)研究工作。
隨著對(duì)遷移學(xué)習(xí)的研究深入,下面方向在改善負(fù)遷移現(xiàn)象方面值得未來(lái)進(jìn)一步研究。
1)尋找更好的度量領(lǐng)域間相似度的方法。在源域中無(wú)效數(shù)據(jù)樣本的訓(xùn)練知識(shí),在遷移時(shí)就會(huì)引起負(fù)遷移。通過(guò)相似度將源領(lǐng)域的數(shù)據(jù)劃分為有效數(shù)據(jù)和無(wú)效數(shù)據(jù),只把有效數(shù)據(jù)遷移到目標(biāo)數(shù)據(jù)集中,增加目標(biāo)數(shù)據(jù)集的數(shù)量,從而減弱負(fù)遷移。目前已經(jīng)有人提出了一些相關(guān)算法,如Boosting算法[41]、TCSBoost算法[42]等,但這些算法都還有各自的局限。
2)多線(xiàn)索學(xué)習(xí)。之前考慮的遷移學(xué)習(xí),大多是從一個(gè)源域到目標(biāo)域,或者從多個(gè)源域到目標(biāo)域,而忽視了對(duì)目標(biāo)域數(shù)據(jù)的多方面研究。換個(gè)角度,是否可以考慮多線(xiàn)索地學(xué)習(xí)目標(biāo)域的數(shù)據(jù)?根據(jù)集成學(xué)習(xí)思想,可以將最終的目標(biāo)任務(wù)劃分成若干個(gè)與目標(biāo)任務(wù)相關(guān)的次任務(wù),然后分別通過(guò)遷移學(xué)習(xí)得到每個(gè)次任務(wù)對(duì)應(yīng)的單分類(lèi)器,再通過(guò)權(quán)重策略將若干個(gè)單分類(lèi)器整合得最終所需的目標(biāo)任務(wù)的學(xué)習(xí)結(jié)果。羅娟等人[43]提出了基于遷移學(xué)習(xí)的多線(xiàn)索植物識(shí)別方法,先通過(guò)對(duì)植物的花、果、葉、株等進(jìn)行學(xué)習(xí)得到四個(gè)單器官學(xué)習(xí)模型,然后通過(guò)組合這四個(gè)單器官學(xué)習(xí)模型得到植物最終的識(shí)別結(jié)果,實(shí)驗(yàn)證明識(shí)別準(zhǔn)確率得到了顯著提升。
3)多步傳導(dǎo)式遷移學(xué)習(xí)。目前的遷移學(xué)習(xí)是指從領(lǐng)域A遷移到領(lǐng)域B,這是單步的遷移。而現(xiàn)實(shí)中有些遷移只能是先從領(lǐng)域A到領(lǐng)域C,再?gòu)念I(lǐng)域C到領(lǐng)域B,它并不是簡(jiǎn)單地從領(lǐng)域A到領(lǐng)域B,而是多步傳導(dǎo)的。由此可推,從源域到目標(biāo)域的學(xué)習(xí),是否也可以找到一個(gè)或多個(gè)中間層,使得它們既可以考慮到源域,又可以考慮到目標(biāo)域?
4)層次型的遷移學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)CNN最早由LeCun[44]提出,在此基礎(chǔ)上,又陸續(xù)出現(xiàn)了AlexNet、ZF-Net、VGGNet、GoogleNet、ResNet、DenseNet[45]等。如今的深度學(xué)習(xí),其神經(jīng)網(wǎng)絡(luò)可以多達(dá)幾十層。經(jīng)研究表明,卷積網(wǎng)絡(luò)前幾層提取的是基礎(chǔ)特征,越往后提取的特征就越抽象。因此它表明不同層次的網(wǎng)絡(luò)具有不同的遷移能力。在遷移源域的知識(shí)時(shí),可以只遷移源域中前幾層網(wǎng)絡(luò)的卷積參數(shù)到目標(biāo)域,而后面幾層的網(wǎng)絡(luò)參數(shù)通過(guò)小數(shù)據(jù)來(lái)訓(xùn)練學(xué)習(xí)得到。層次型的遷移學(xué)習(xí)已經(jīng)在文本分類(lèi)和圖像識(shí)別方面獲得了成功應(yīng)用。