国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小樣本關(guān)系分類研究綜述

2022-04-12 04:14:48劉鵬遠(yuǎn)
中文信息學(xué)報(bào) 2022年2期
關(guān)鍵詞:實(shí)體分類領(lǐng)域

胡 晗,劉鵬遠(yuǎn)

(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語言大學(xué) 國(guó)家語言資源監(jiān)測(cè)與研究平面媒體中心,北京 100083)

0 引言

關(guān)系分類是自然語言處理領(lǐng)域中的一項(xiàng)重要任務(wù),它致力于判斷給定語句中兩個(gè)目標(biāo)實(shí)體之間的預(yù)定義關(guān)系,為構(gòu)建結(jié)構(gòu)化知識(shí)(如知識(shí)圖譜)提供了基礎(chǔ)。當(dāng)前用于該任務(wù)的主流深度學(xué)習(xí)模型以大量監(jiān)督數(shù)據(jù)為驅(qū)動(dòng),導(dǎo)致模型泛化能力依賴于監(jiān)督數(shù)據(jù)的數(shù)量和質(zhì)量。盡管正則技術(shù)被廣泛用來降低深度學(xué)習(xí)模型對(duì)訓(xùn)練數(shù)據(jù)的過擬合,但其并不能為模型提供額外的監(jiān)督信息。因此當(dāng)監(jiān)督數(shù)據(jù)不足時(shí),簡(jiǎn)單地對(duì)模型加以正則并不能真正解決泛化問題。[1]為了緩解訓(xùn)練數(shù)據(jù)不足的問題,節(jié)省人工標(biāo)注成本,Mintz等人[2]采用了遠(yuǎn)程監(jiān)督的方法。該方法假設(shè)“兩個(gè)實(shí)體如果在知識(shí)庫中存在某種關(guān)系,則包含這兩個(gè)實(shí)體的語句在某種程度上能表示出這種關(guān)系”,啟發(fā)式地將語句中的目標(biāo)實(shí)體與知識(shí)庫中的實(shí)體對(duì)齊,達(dá)到自動(dòng)標(biāo)注語句的目的。但這個(gè)假設(shè)也帶來了以下問題: ①同一實(shí)體對(duì)在不同語句中所蘊(yùn)涵的關(guān)系可能不同,利用遠(yuǎn)程監(jiān)督方法會(huì)產(chǎn)生噪聲數(shù)據(jù),如圖1所示; ②很多領(lǐng)域的知識(shí)庫并不完善(如醫(yī)療領(lǐng)域),且大部分實(shí)體對(duì)和關(guān)系呈長(zhǎng)尾分布,通過這種方法獲取的可用于訓(xùn)練的數(shù)據(jù)仍然不足,如圖2所示。

圖1 遠(yuǎn)程監(jiān)督方法引入了噪聲數(shù)據(jù)[3]

圖2 DBpedia中關(guān)系出現(xiàn)的頻率與對(duì)應(yīng)未見實(shí)體占比分布圖[4]

相比之下,人類擁有利用過去所學(xué)知識(shí)快速學(xué)習(xí)新概念的能力。因此,研究者們希望構(gòu)建一種新的訓(xùn)練方法,使模型僅在少量訓(xùn)練樣本的情況下學(xué)習(xí),并具備良好的泛化能力。Feifei等人[5]首次提出單樣本學(xué)習(xí)(one-shot learning),采用貝葉斯模型,利用已學(xué)習(xí)的類別知識(shí)幫助模型在每個(gè)新類別僅有單個(gè)訓(xùn)練樣本的情況下進(jìn)行學(xué)習(xí)。至今,已有大量研究工作投入到單/小樣本學(xué)習(xí)(one/few-shot learning)領(lǐng)域,其中最具有代表性且主流的方法是元學(xué)習(xí)(meta learning)方法。元學(xué)習(xí),也稱“學(xué)會(huì)學(xué)習(xí)”,是系統(tǒng)地觀察模型在不同的學(xué)習(xí)任務(wù)中的表現(xiàn),從這種經(jīng)驗(yàn)或元數(shù)據(jù)(meta data)中學(xué)習(xí),然后以更快的速度學(xué)習(xí)新任務(wù)。[6]

目前,小樣本學(xué)習(xí)的研究主要集中于計(jì)算機(jī)視覺領(lǐng)域。啟發(fā)于人類的記憶,Weston等人[7-8]提出記憶網(wǎng)絡(luò),將先驗(yàn)知識(shí)存儲(chǔ)在記憶模塊中以供檢索與更新。從優(yōu)化的角度出發(fā),Andrychowicd等人[9]訓(xùn)練一個(gè)元優(yōu)化器,幫助模型高效搜索合適的任務(wù)參數(shù)。Finn等人[10]則通過學(xué)習(xí)一個(gè)與任務(wù)無關(guān)的通用初始化參數(shù),使得模型僅在少量訓(xùn)練樣本情況下快速適應(yīng)新任務(wù)。Vinyals等人[11]從度量的角度提出了匹配網(wǎng)絡(luò),并首次提出了訓(xùn)練與測(cè)試過程相匹配的情境(episode)訓(xùn)練原則,如圖3所示。

圖3 元學(xué)習(xí)情境訓(xùn)練方法

在自然語言處理領(lǐng)域,小樣本學(xué)習(xí)剛剛興起。Yu等人[12]利用多個(gè)度量函數(shù)來解決任務(wù)多樣性小樣本分類問題。Geng等人[13-14]提出靜態(tài)和動(dòng)態(tài)記憶的歸納網(wǎng)絡(luò)來解決因類別樣本過少而帶來的樣本方差問題。Han等人[15]首次將小樣本學(xué)習(xí)引入關(guān)系分類任務(wù),構(gòu)建了小樣本關(guān)系分類數(shù)據(jù)集FewRel,并嘗試了幾種典型的小樣本學(xué)習(xí)方法與人類基準(zhǔn)做比較。許多研究者在此基礎(chǔ)上進(jìn)行了探索,Soares等人[16]提出的無監(jiān)督句子匹配方法在這一任務(wù)上的表現(xiàn)甚至超越了人類基準(zhǔn)。針對(duì)小樣本關(guān)系任務(wù)的多樣性及任務(wù)中可能存在的噪聲樣本,Gao等人[17]利用層級(jí)注意力來增強(qiáng)模型對(duì)小樣本任務(wù)多樣性以及噪聲樣本的魯棒性。Xie等人[18]則通過異構(gòu)圖網(wǎng)絡(luò)與對(duì)抗訓(xùn)練減少模型對(duì)噪聲樣本的敏感性。Obamuyide等人[19]將監(jiān)督式關(guān)系分類任務(wù)視為元學(xué)習(xí)的一個(gè)例子,提出模型無關(guān)的元學(xué)習(xí)方案,力求模型在數(shù)據(jù)充足與數(shù)據(jù)稀缺兩種情況下都有良好表現(xiàn)。由于一些領(lǐng)域的元數(shù)據(jù)不足以訓(xùn)練一個(gè)在該領(lǐng)域任務(wù)間有較好泛化能力的元模型,Gao等人[20]在FewRel數(shù)據(jù)集的基礎(chǔ)上提出了Few-Rel 2.0數(shù)據(jù)集,探索元學(xué)習(xí)跨領(lǐng)域泛化以及非預(yù)定義類別檢測(cè)問題。Geng等人[21]則提出了更嚴(yán)苛的元訓(xùn)練條件,探索元學(xué)習(xí)模型在有限元數(shù)據(jù)情況下的學(xué)習(xí)能力。

本文系統(tǒng)回顧了小樣本關(guān)系分類任務(wù)具有代表性和啟發(fā)性的工作(圖4),探討了這些工作在當(dāng)前用于解決該任務(wù)的元學(xué)習(xí)設(shè)定下的優(yōu)勢(shì)與不足,并給出了未來小樣本關(guān)系分類的發(fā)展方向。

圖4 小樣本關(guān)系分類算法分類導(dǎo)圖

1 問題定義

1.1 N-way K-shot小樣本分類

小樣本學(xué)習(xí)是監(jiān)督式機(jī)器學(xué)習(xí)的一種特殊情況,其目標(biāo)是在限制目標(biāo)任務(wù)訓(xùn)練數(shù)據(jù)數(shù)量的情況下,訓(xùn)練出對(duì)該任務(wù)新數(shù)據(jù)具有良好泛化能力的模型。

由于訓(xùn)練集所提供的訓(xùn)練數(shù)據(jù)有限,用經(jīng)驗(yàn)風(fēng)險(xiǎn)近似期望風(fēng)險(xiǎn)不夠精準(zhǔn)。當(dāng)前以數(shù)據(jù)驅(qū)動(dòng)為主的深度學(xué)習(xí)方法在這種任務(wù)上會(huì)出現(xiàn)過擬合的現(xiàn)象。盡管正則技術(shù)被廣泛用來降低深度學(xué)習(xí)模型對(duì)訓(xùn)練數(shù)據(jù)的過擬合,但其并不能為模型提供額外的監(jiān)督信息。因此,正則方法并不能提高小樣本情況下用經(jīng)驗(yàn)風(fēng)險(xiǎn)替代期望風(fēng)險(xiǎn)的可靠性。為了提高小樣本情況下模型的泛化能力,結(jié)合先驗(yàn)知識(shí)至關(guān)重要。

1.2 元學(xué)習(xí)

元學(xué)習(xí),或稱“學(xué)會(huì)學(xué)習(xí)”,是元學(xué)習(xí)器(meta learner)系統(tǒng)地觀察基學(xué)習(xí)器(base learner)在不同的學(xué)習(xí)任務(wù)(task)中的表現(xiàn),從這種經(jīng)驗(yàn)或元數(shù)據(jù)中學(xué)習(xí),然后以更快的速度學(xué)習(xí)未曾見過的新任務(wù)(novel task)的方法。

在這個(gè)過程中,存在兩個(gè)層面的學(xué)習(xí): ①元學(xué)習(xí)器迭代地學(xué)習(xí)不同任務(wù)間的元知識(shí)(meta know-ledge); ②基學(xué)習(xí)器基于元知識(shí)以及新任務(wù)中的特定信息快速學(xué)習(xí)并處理該任務(wù)。

對(duì)于一個(gè)小樣本分類任務(wù),基學(xué)習(xí)器的目標(biāo)是找到最優(yōu)假設(shè)o*。為了接近o*,基學(xué)習(xí)器確定了假設(shè)空間H,其中包含了由φ參數(shù)化的假設(shè)h(·,φ)。優(yōu)化算法通過搜索假設(shè)空間H來找到一個(gè)對(duì)于Dtrain最優(yōu)的假設(shè)h。Wang等人[1]系統(tǒng)分析了經(jīng)驗(yàn)風(fēng)險(xiǎn)的可靠性與樣本復(fù)雜度和假設(shè)空間之間的聯(lián)系,為了使經(jīng)驗(yàn)風(fēng)險(xiǎn)對(duì)期望風(fēng)險(xiǎn)的近似以一定概率達(dá)到一定精度,模型決定的假設(shè)空間越復(fù)雜,所需要的訓(xùn)練樣本就越多。

θ=argminθETs~p(T)lθ(DTs)

(1)

lmeta(gφ(Dtrain|θ),h*)=|Ltest(h)-Ltest(h*)|

(2)

(3)

2 常規(guī)小樣本關(guān)系分類

2.1 數(shù)據(jù)集

FewRel是第一個(gè)英文小樣本關(guān)系分類數(shù)據(jù)集,它包含100種關(guān)系,每種關(guān)系700個(gè)樣本。作者以Wikipedia為數(shù)據(jù)庫,Wikidata為知識(shí)庫,通過遠(yuǎn)程監(jiān)督的方法將數(shù)據(jù)庫中的句子與知識(shí)庫中的事實(shí)對(duì)齊。為了擴(kuò)大實(shí)體集,作者首先利用命名實(shí)體識(shí)別技術(shù)挖掘文章中的非錨點(diǎn)實(shí)體,然后通過實(shí)體鏈接技術(shù)將挖掘出的實(shí)體與Wikidata中的實(shí)體進(jìn)行匹配。由于對(duì)于表達(dá)某種關(guān)系的一組句子來說,其包含的可能是同一對(duì)實(shí)體。為了避免模型機(jī)械地根據(jù)句子中出現(xiàn)的實(shí)體對(duì)而不是句子本身的語義來進(jìn)行關(guān)系分類,作者在每種關(guān)系中,對(duì)于同一對(duì)實(shí)體只保留一個(gè)樣本。之后,去除樣本量不足1 000的關(guān)系,對(duì)剩余的關(guān)系,每種關(guān)系隨機(jī)抽取1 000個(gè)樣本。經(jīng)過標(biāo)注人員的篩選標(biāo)注,去除正樣本不足700的關(guān)系,以Kappa值對(duì)剩余的關(guān)系進(jìn)行降序排列,保留前100種關(guān)系。最終,數(shù)據(jù)集以64∶16∶20的比例被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

2.2 常規(guī)小樣本關(guān)系分類算法

在常規(guī)小樣本關(guān)系分類算法中,基于度量和優(yōu)化的元學(xué)習(xí)方法最為常見。Han等人[15]測(cè)試了基于參數(shù)生成的元學(xué)習(xí)MetaNet[23],基于圖網(wǎng)絡(luò)的元學(xué)習(xí)GNN[24],基于時(shí)序卷積的元學(xué)習(xí)SNAIL[25]。但這些復(fù)雜的方法在小樣本關(guān)系分類任務(wù)上的表現(xiàn)并不如簡(jiǎn)單的基于度量的方法。后續(xù)的研究者在此基礎(chǔ)上進(jìn)行探索,本文將這些模型分為基于原型和基于分布式表達(dá)兩大類。

2.2.1 原型式小樣本關(guān)系分類算法

原型式小樣本關(guān)系分類算法是基于度量的一類算法。度量方法將樣本嵌入到一個(gè)更小的空間中,使得相似的樣本聚在一起,不相似的樣本分離。這些方法的不同點(diǎn)在于用于生成類別原型的向量表示以及生成類別原型的方法。

(4)

最后衡量fθ(xtest)與cn之間的距離d(fθ(xtest),cn)(如歐氏距離)對(duì)其做最近鄰分類。最終,通過分類損失對(duì)嵌入空間進(jìn)行優(yōu)化。在原型網(wǎng)絡(luò)中,編碼器fθ(·)既是元學(xué)習(xí)器,也是基學(xué)習(xí)器。類似于多任務(wù)學(xué)習(xí),其假設(shè)如果學(xué)習(xí)到的嵌入空間能夠處理很多任務(wù),那么這個(gè)空間也有足夠的能力處理新任務(wù)。支持集不再用于基學(xué)習(xí)器的參數(shù)更新,而是作為嵌入空間中的類別錨點(diǎn)。

(2) 大間隔原型網(wǎng)絡(luò)(large margin prototypical network)[27]在原型網(wǎng)絡(luò)的基礎(chǔ)上,采用了更加細(xì)粒度的特征表示以及額外的目標(biāo)函數(shù)。除了利用句子級(jí)別的表示fsentence(x)=fθ(x)以外,作者根據(jù)關(guān)系分類的特點(diǎn),將句子分為五個(gè)部分,頭實(shí)體之前的部分rf,頭實(shí)體eh,頭實(shí)體和尾實(shí)體之間的部分rm,尾實(shí)體et,尾實(shí)體之后的部分rb,利用多個(gè)CNN對(duì)其分別做嵌入得到嵌入表示。之后,將得到的表示拼接起來送入一個(gè)全連接層并用ReLU函數(shù)激活,獲取這些表示的非線性關(guān)系,如式(5)所示。

fphrase(x)=ReLU(fφ(rf⊕eh⊕rm⊕et⊕rb))

(5)

然后將句子級(jí)表示和短語級(jí)表示拼接起來得到最終的表示,如式(6)所示。

f(x)=fsentence(x)⊕fphrase(x)

(6)

為了在嵌入空間中增加類間距離,縮短類內(nèi)距離,作者額外采用了三元組損失函數(shù)作為輔助,如式(7)所示。

其中,N為Episode(task)的大小,ai=cn是錨點(diǎn),pi是正樣例,ni是負(fù)樣例。平衡交叉熵?fù)p失與三元組損失得到最終的損失函數(shù),如式(8)所示。

L=Lsoftmax+λLtriplet

(8)

(14)

(15)

最終進(jìn)行類別匹配,對(duì)問題樣例作出分類,如式(18)所示。

(18)

為了生成更具代表性的類別原型,除了分類損失外,作者額外加入了非一致性度量損失,保證同一類別中的樣本不會(huì)互相偏離,如式(19)、式(20)所示。

(4) 基于GPT的原型網(wǎng)絡(luò)(prototypical GP-Transformer)[29]采用預(yù)訓(xùn)練語言模型GPT替代原始原型網(wǎng)絡(luò)中的CNN作為編碼器,以獲得更好的類別原型的表示。在GPT中每個(gè)句子首尾由標(biāo)記符標(biāo)記句子的開始和結(jié)束,由于Transformer是自注意力模型,能夠注意到整個(gè)句子,因此其嵌入表示h被用于后續(xù)的分類。為了標(biāo)示出句子中的目標(biāo)實(shí)體,作者嘗試了不同的標(biāo)記目標(biāo)實(shí)體的方法: ①在目標(biāo)實(shí)體兩側(cè)添加標(biāo)記符(常用于RNN); ②位置嵌入(常用于CNN); ③將目標(biāo)實(shí)體的平均嵌入表示與句子的平均嵌入表示拼接;④根據(jù)目標(biāo)實(shí)體劃分句子做分段編碼并拼接; ⑤將實(shí)體的平均嵌入表示與h拼接。為了加速模型的收斂,作者在任務(wù)微調(diào)階段加入了語言模型作為輔助目標(biāo)函數(shù),如式(21)所示。

L=Lsoftmax+λLLM

(21)

2.2.2 分布式小樣本關(guān)系分類算法

分布式小樣本關(guān)系分類算法主要分為兩類,一類是建模句子間的分布式表示,另一類是建模句子中詞對(duì)類的分布式表示。

(1) 空白填補(bǔ)網(wǎng)絡(luò)(matching the blanks)[16]將Harris分布式假設(shè)拓展到關(guān)系領(lǐng)域,利用預(yù)訓(xùn)練語言模型BERT,從無標(biāo)注非結(jié)構(gòu)化文本中學(xué)習(xí)任務(wù)無關(guān)的關(guān)系表示。其假設(shè),對(duì)于任意一對(duì)關(guān)系陳述句r和r′,如果它們表示的關(guān)系語義相似,那么兩者的內(nèi)積fθ(r)Tfθ(r′)應(yīng)該很大,否則很小。作者觀察到,在網(wǎng)絡(luò)文本中,任意一對(duì)實(shí)體之間的每種關(guān)系都可能被陳述多次。利用這一冗余特性,作者運(yùn)用實(shí)體鏈接方法構(gòu)建了無監(jiān)督數(shù)據(jù)集,提出了matching the blanks方法來學(xué)習(xí)判斷兩個(gè)關(guān)系陳述句是否表達(dá)同一關(guān)系的編碼器fθ,如式(22)、式(23)所示。

其中,l=1表示r與r′表達(dá)同一種關(guān)系,否則表達(dá)不同關(guān)系。α=δe1,e′1δe2,e′2,δe,e′為克羅內(nèi)克函數(shù),當(dāng)且僅當(dāng)e=e′時(shí)為1,否則為0。

為了避免模型只是機(jī)械地記憶目標(biāo)實(shí)體,而忽略了句子的語義,作者以概率β將目標(biāo)實(shí)體隨機(jī)替換為空白符[BLANK]。在如何標(biāo)記句子目標(biāo)實(shí)體問題上,作者采用了與基于GPT的原型網(wǎng)絡(luò)相同的方法: ①在目標(biāo)實(shí)體兩側(cè)添加標(biāo)記符; ②位置嵌入。同時(shí)探索了如何從BERT的輸出中得到固定長(zhǎng)度的關(guān)系表示向量: ①利用BERT原始的[CLS]; ②拼接兩個(gè)目標(biāo)實(shí)體的池化表示; ③在目標(biāo)實(shí)體兩側(cè)添加標(biāo)記符的基礎(chǔ)上,拼接標(biāo)記符[E1start]與[E2start]作為最終的關(guān)系表示向量。

由于數(shù)據(jù)集過大,不可能比較所有的r與r′。作者采用了噪聲對(duì)比估計(jì)訓(xùn)練方法(noise-contrastive estimation),將所有包含同一對(duì)實(shí)體的關(guān)系陳述句視為正例對(duì),從所有關(guān)系陳述句中隨機(jī)選取一對(duì)句子或者選取只共享其中一個(gè)實(shí)體的句對(duì)構(gòu)建負(fù)例對(duì)。最終,與BERT相似,作者平衡兩種損失函數(shù)對(duì)模型進(jìn)行無監(jiān)督訓(xùn)練,如式(24)所示。

L=Lmatch+λLMLM

(24)

(2) 詞-類分布特征網(wǎng)絡(luò)(distributional signatures)[30]通過學(xué)習(xí)在任務(wù)間具有一致性的詞對(duì)類的分布特征來遷移任務(wù)間共享的元知識(shí),同時(shí)根據(jù)詞對(duì)類的重要程度構(gòu)造句子表示,避免池化帶來的信息丟失。模型分為兩個(gè)部分,一個(gè)是注意力權(quán)重生成器,另一個(gè)是用于分類的任務(wù)特定的嶺回歸器。權(quán)重生成器的目標(biāo)是根據(jù)句子中詞的分布特征生成詞的重要程度。作者選用一元模型(unigram)作為統(tǒng)計(jì)特征,增強(qiáng)對(duì)詞替換擾動(dòng)的魯棒性。由于高頻詞通常不包含有用信息,為了降低高頻詞權(quán)重,增大低頻詞權(quán)重,作者度量了通用的詞-詞表重要程度,如式(25)所示。

(25)

其中,ε=10-3,xi是句子x的第i個(gè)詞,P(xi)是詞xi在整個(gè)元訓(xùn)練集上的一元模型似然。

同時(shí),在支持集中相對(duì)具有辨識(shí)度的詞,對(duì)于問題集可能也相對(duì)具有辨識(shí)度。因此,作者度量了特定的詞-類別重要程度,如式(26)所示。

t(xi)=H(P(y|xi))-1

(26)

其中,H(·)表示熵操作,P(y|xi)通過一個(gè)正則線性分類器在支持集上的估計(jì)得到。

考慮到這兩種統(tǒng)計(jì)特征信息互補(bǔ),且存在一定的噪聲。作者通過Bi-LSTM將兩者融合hi=Bi-LSTM([s(xi);t(xi)]),最終得到詞xi的權(quán)重(v是可學(xué)習(xí)的元參數(shù)),如式(27)所示。

(27)

在權(quán)重生成器的基礎(chǔ)上,根據(jù)支持集構(gòu)建嶺回歸器對(duì)問題集樣本進(jìn)行分類。作者首先根據(jù)詞的權(quán)重,構(gòu)建句子表示,如式(28)所示。

(28)

然后,通過對(duì)支持集的擬合構(gòu)建嶺回歸器(閉式解避免了梯度的二次迭代),如式(29)、式(30)所示。

其中,ΦS∈RNK×d表示整個(gè)支持集,YS∈RNK×N表示獨(dú)熱標(biāo)簽,I為單位矩陣。

根據(jù)得到的嶺回歸器,對(duì)問題集樣本進(jìn)行分類,如式(31)所示。

(31)

其中,a∈R+,b∈R為通過元學(xué)習(xí)得到的用于校正嶺回歸器參數(shù)的元參數(shù)。

最終,通過計(jì)算預(yù)測(cè)值與真實(shí)值之間的交叉熵?fù)p失訓(xùn)練整個(gè)模型。

3 稀缺資源小樣本關(guān)系分類

當(dāng)前元學(xué)習(xí)方法假設(shè)模型處理的任務(wù)服從同一分布。但在真實(shí)場(chǎng)景中,模型所遇到的新任務(wù)可能并不滿足這一假設(shè)。其次,盡管在元測(cè)試階段,元學(xué)習(xí)器只需要少量的監(jiān)督數(shù)據(jù),但在元訓(xùn)練階段,訓(xùn)練元學(xué)習(xí)器所需要的監(jiān)督數(shù)據(jù)依然很龐大,例如,F(xiàn)ewRel數(shù)據(jù)集中每個(gè)類別700個(gè)樣本。在一些領(lǐng)域,比如醫(yī)療、金融領(lǐng)域,獲取元數(shù)據(jù)是十分困難的。直覺上,如果一些類別的樣例很少,同領(lǐng)域的其他類別的樣例也不足以構(gòu)建一個(gè)足夠大的數(shù)據(jù)集用以訓(xùn)練元學(xué)習(xí)器。[21]因此,為了使元學(xué)習(xí)器能夠在這些領(lǐng)域中發(fā)揮作用,研究者們從不同角度提出了不同的解決方法。

3.1 小樣本領(lǐng)域適應(yīng)

Gao等人[20]在FewRel數(shù)據(jù)集的基礎(chǔ)上提出了FewRel 2.0數(shù)據(jù)集。作者以包含大量生物醫(yī)學(xué)文獻(xiàn)的PubMed作為數(shù)據(jù)庫,以UMLS作為知識(shí)庫,利用FewRel 1.0數(shù)據(jù)集的構(gòu)建方法,構(gòu)建了一個(gè)包含25種關(guān)系,每種關(guān)系100個(gè)樣本的生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)集。FewRel 2.0沿用了FewRel 1.0的訓(xùn)練集,但是以新數(shù)據(jù)集為測(cè)試集,以此探究元學(xué)習(xí)模型從高資源領(lǐng)域向低資源領(lǐng)域適應(yīng)的問題。同時(shí),文章提出利用BERT序列分類模型解決此問題,在表現(xiàn)上遠(yuǎn)遠(yuǎn)超越了基于對(duì)抗的領(lǐng)域適應(yīng)方法。

Wang等人[31]在預(yù)訓(xùn)練語言模型的基礎(chǔ)上,結(jié)合知識(shí)嵌入模型(KE),將知識(shí)圖譜中的事實(shí)知識(shí)融入預(yù)訓(xùn)練語言模型,提出了開普勒(KEPLER)模型。作者利用預(yù)訓(xùn)練語言模型RoBERTa,將句子中目標(biāo)實(shí)體的文本表示與整個(gè)句子編碼到統(tǒng)一的語義空間中,在預(yù)訓(xùn)練過程中聯(lián)合優(yōu)化知識(shí)嵌入模型與掩碼語言模型。以KEPLER模型作為原型網(wǎng)絡(luò)的編碼器,整個(gè)網(wǎng)絡(luò)在FewRel 2.0數(shù)據(jù)集上取得了最優(yōu)的表現(xiàn)。

3.2 小-小樣本學(xué)習(xí)

Geng等人[21]通過遠(yuǎn)程監(jiān)督和人員篩選的方法,構(gòu)建了一個(gè)新的中文醫(yī)療健康領(lǐng)域的小樣本關(guān)系分類數(shù)據(jù)集TinyRel-CM,以探索在限制元數(shù)據(jù)情況下的小樣本學(xué)習(xí)(Few-few-shot learning)。數(shù)據(jù)集包含27種4個(gè)實(shí)體間的二元關(guān)系,每種關(guān)系50個(gè)樣本。作者根據(jù)實(shí)體類別將其分為6個(gè)部分,其中1個(gè)作為測(cè)試集,其余5個(gè)作為訓(xùn)練集,構(gòu)建了6個(gè)任務(wù)。為了解決元訓(xùn)練數(shù)據(jù)不足的問題,作者提出了利用內(nèi)部支持與跨領(lǐng)域支持的元學(xué)習(xí)框架MICK。該框架除了對(duì)問題集進(jìn)行分類外,還對(duì)支持集進(jìn)行了分類,以挖掘支持集內(nèi)部的知識(shí)。此外,作者利用跨領(lǐng)域關(guān)系分類數(shù)據(jù)集對(duì)小樣本任務(wù)進(jìn)行數(shù)據(jù)增強(qiáng)。

Gao等人[32]提出滾雪球網(wǎng)絡(luò),一種新的自舉方法,利用現(xiàn)有關(guān)系的語義知識(shí)來挖掘新關(guān)系的樣本。作者利用關(guān)系孿生網(wǎng)絡(luò),基于現(xiàn)有關(guān)系分類數(shù)據(jù)集學(xué)習(xí)樣例間的關(guān)系相似度度量。在此基礎(chǔ)上,給定一個(gè)新關(guān)系及其少量標(biāo)記樣本,使用關(guān)系孿生網(wǎng)絡(luò)從無標(biāo)記語料庫中累積可靠樣本。然后利用這些樣本訓(xùn)練關(guān)系分類器,提高分類器對(duì)新關(guān)系的泛化能力。

4 當(dāng)前技術(shù)挑戰(zhàn)與未來研究趨勢(shì)

4.1 當(dāng)前小樣本關(guān)系分類的技術(shù)挑戰(zhàn)

當(dāng)前小樣本關(guān)系分類的研究主要集中在同領(lǐng)域任務(wù)間的知識(shí)遷移,且依然需要龐大的元數(shù)據(jù)訓(xùn)練元學(xué)習(xí)器。但這種利用一個(gè)領(lǐng)域大量元數(shù)據(jù)訓(xùn)練出的元學(xué)習(xí)器很難直接應(yīng)用到其他領(lǐng)域。盡管大型預(yù)訓(xùn)練語言模型可以用來解決這個(gè)問題,但其并沒有顯式地用到目標(biāo)領(lǐng)域的信息。因此,這些方法實(shí)際上是領(lǐng)域泛化的方法。

從領(lǐng)域適應(yīng)的角度來看,將元學(xué)習(xí)視為以(Dtrain,h*)為訓(xùn)練樣本對(duì)的監(jiān)督式機(jī)器學(xué)習(xí),其處理的基本單位不再是樣本x而是任務(wù)T。目前,小樣本關(guān)系分類都是同構(gòu)遷移學(xué)習(xí),因此源領(lǐng)域與目標(biāo)領(lǐng)域任務(wù)的特征空間相同TS=TT,任務(wù)的分布不同p(TS)≠p(TT)。但無論是源領(lǐng)域還是目標(biāo)領(lǐng)域,其最終目的都是學(xué)習(xí)一個(gè)對(duì)應(yīng)于任務(wù)T的基學(xué)習(xí)器h*,即兩個(gè)領(lǐng)域的元任務(wù)(meta-task)相同。因此,小樣本領(lǐng)域適應(yīng)實(shí)際上應(yīng)稱為元學(xué)習(xí)領(lǐng)域適應(yīng),其本質(zhì)是將元學(xué)習(xí)器從源領(lǐng)域適應(yīng)到目標(biāo)領(lǐng)域。但是,如果希望利用傳統(tǒng)機(jī)器學(xué)習(xí)中的領(lǐng)域適應(yīng)思想來解決元學(xué)習(xí)領(lǐng)域適應(yīng)問題,需要面對(duì)兩個(gè)挑戰(zhàn)。

(1) 如何獲取目標(biāo)領(lǐng)域的任務(wù)

在傳統(tǒng)領(lǐng)域適應(yīng)中,為了將模型適應(yīng)到目標(biāo)領(lǐng)域,需要目標(biāo)領(lǐng)域的樣本(無論有無標(biāo)簽)。對(duì)應(yīng)元領(lǐng)域適應(yīng),則需要目標(biāo)領(lǐng)域的任務(wù)。由于元訓(xùn)練集與元測(cè)試集類別互斥,因此,目標(biāo)領(lǐng)域的任務(wù)是未知的。如何從目標(biāo)領(lǐng)域的無標(biāo)注樣本中構(gòu)建合理的任務(wù),是元學(xué)習(xí)領(lǐng)域適應(yīng)的第一個(gè)挑戰(zhàn)。一種最直觀的方法是對(duì)目標(biāo)領(lǐng)域無標(biāo)簽數(shù)據(jù)進(jìn)行聚類,核心問題在于特征的抽取。從表1結(jié)果中發(fā)現(xiàn),在源領(lǐng)域訓(xùn)練的元學(xué)習(xí)器,雖然在目標(biāo)領(lǐng)域數(shù)據(jù)集上的表現(xiàn)有大幅下降,但也有一定的效果。因此,可以利用源領(lǐng)域的元學(xué)習(xí)器輔助目標(biāo)領(lǐng)域聚類。Cong等人[33]從對(duì)抗訓(xùn)練的角度出發(fā),通過最小熵原理保證目標(biāo)領(lǐng)域的聚類效果。

表1 小樣本關(guān)系分類算法在常規(guī)和跨領(lǐng)域設(shè)定下的準(zhǔn)確率

(2) 如何抽取任務(wù)特征

在傳統(tǒng)領(lǐng)域適應(yīng)中,源領(lǐng)域與目標(biāo)領(lǐng)域的輸出空間相同,但是輸入的分布不同,一種有效的方法是抽取領(lǐng)域無關(guān)的樣本特征。盡管通過對(duì)抗訓(xùn)練,抽取樣本層面的領(lǐng)域無關(guān)特征能在一定程度上解決元領(lǐng)域適應(yīng)問題。但元學(xué)習(xí)模型處理的基本單位為任務(wù)。一個(gè)任務(wù)并不只包含樣本這一個(gè)屬性。任務(wù)中類別之間的相似度,也決定了這個(gè)任務(wù)的難易程度。因此,如何合理地表達(dá)一個(gè)任務(wù)的特征是元學(xué)習(xí)領(lǐng)域適應(yīng)的第二個(gè)挑戰(zhàn)。同時(shí),當(dāng)前基于度量的元學(xué)習(xí)方法本質(zhì)上是在抽取同領(lǐng)域任務(wù)間的通用特征,如果在此基礎(chǔ)上同時(shí)抽取領(lǐng)域無關(guān)的特征,如何保證最終抽取的特征的辨識(shí)度能夠滿足分類需要也有待解決。在保證集合無序性條件下,一種簡(jiǎn)單的獲取任務(wù)特征的方法是統(tǒng)計(jì)法,如對(duì)支持集向量逐元素取均值、求和、求積、求幾何平均或取最值[34-36]。為了抓取任務(wù)中的類別特征及樣本數(shù)量,Lee等人[37]則采用更高階的統(tǒng)計(jì)特征,如方差、偏度和峰度,并對(duì)DeepSets[38]進(jìn)行了改進(jìn)。除此之外,根據(jù)支持集向量構(gòu)造無向圖,通過圖嵌入方法也能獲取任務(wù)特征。

4.2 未來的研究趨勢(shì)

4.2.1多模態(tài)多領(lǐng)域泛化

無論是從領(lǐng)域適應(yīng)的角度,還是從小-小樣本學(xué)習(xí)的角度,解決單個(gè)領(lǐng)域元數(shù)據(jù)不足的方法都是遷移其他領(lǐng)域的知識(shí)。領(lǐng)域適應(yīng)方法從單領(lǐng)域?qū)晤I(lǐng)域的適應(yīng)方向解決問題,但需要獲取目標(biāo)領(lǐng)域的任務(wù)。小-小樣本學(xué)習(xí)從數(shù)據(jù)增強(qiáng)的角度,直接利用多個(gè)領(lǐng)域的小樣本關(guān)系數(shù)據(jù)集。但從領(lǐng)域泛化的角度出發(fā),訓(xùn)練一個(gè)可以從多領(lǐng)域泛化到多領(lǐng)域的元學(xué)習(xí)器,就避免了獲取大量單個(gè)領(lǐng)域任務(wù)或樣本的麻煩。盡管每個(gè)領(lǐng)域的元訓(xùn)練集樣本量不大,但是多個(gè)領(lǐng)域合成的元訓(xùn)練集在一定程度上也滿足了元學(xué)習(xí)器的訓(xùn)練要求[39-40]。此外,除了遷移同構(gòu)領(lǐng)域之間的知識(shí)之外,異構(gòu)領(lǐng)域可能包含更多的監(jiān)督信息。利用多模態(tài)信息訓(xùn)練元學(xué)習(xí)器也能緩解單個(gè)領(lǐng)域元訓(xùn)練集不足的問題。

4.2.2 預(yù)訓(xùn)練語言模型壓縮

預(yù)訓(xùn)練語言模型被證明很適合處理小樣本學(xué)習(xí)任務(wù)[41]。但是,龐大的參數(shù)量以及所需的算力,限制了其在一些線下場(chǎng)景的應(yīng)用。而且,隨著參數(shù)量的降低,其在小樣本任務(wù)上的效果也會(huì)出現(xiàn)下降。如何在不損失模型效果的情況下,壓縮模型的大小,是未來的一個(gè)發(fā)展方向。

4.2.3 更合理的小樣本學(xué)習(xí)設(shè)定

目前大部分小樣本關(guān)系分類模型的本質(zhì)是元學(xué)習(xí)在極端小樣本設(shè)定下的應(yīng)用(N-wayK-shot)。一方面,從定義上來講,小樣本問題并不等同于元學(xué)習(xí)問題。另一方面,在真實(shí)場(chǎng)景中,任務(wù)的類別數(shù)N與其包含的樣本數(shù)K并不是固定的[37]。近來,有研究者發(fā)現(xiàn)最樸素的微調(diào)方法,在小樣本任務(wù)上超越了元學(xué)習(xí)方法[42-43],也有研究者分別從理論與實(shí)驗(yàn)的角度證明了學(xué)習(xí)一個(gè)好的表示對(duì)小樣本任務(wù)至關(guān)重要[44-45]。因此,元學(xué)習(xí)方法并不是解決小樣本問題的唯一出路。如何確立更接近真實(shí)場(chǎng)景的小樣本學(xué)習(xí)設(shè)定也需要進(jìn)一步研究。

5 總結(jié)

本文系統(tǒng)梳理了小樣本關(guān)系分類算法,從度量方法上,將現(xiàn)有方法分為基于原型的方法和基于分布式表示的方法。從是否利用額外信息的角度,將現(xiàn)有方法分為預(yù)訓(xùn)練式與非預(yù)訓(xùn)練式?;谠偷姆椒ㄖ饕獜奶卣鞒槿∑鞯慕嵌热胧?,根據(jù)小樣本分類的特點(diǎn)對(duì)特征抽器做特定的設(shè)計(jì)?;诜植际降姆椒◤木渥訉用婧驮~的層面建模各自的分布表示。此外,本文介紹了稀缺資源場(chǎng)景下的小樣本關(guān)系分類任務(wù),指出當(dāng)前用于這些任務(wù)的方法在一些應(yīng)用場(chǎng)景的局限性。最后,針對(duì)這些局限性,展望了小樣本關(guān)系分類未來的發(fā)展方向。

猜你喜歡
實(shí)體分類領(lǐng)域
分類算一算
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
領(lǐng)域·對(duì)峙
青年生活(2019年23期)2019-09-10 12:55:43
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
玉溪市| 含山县| 衡阳县| 论坛| 龙南县| 三原县| 泉州市| 双流县| 连南| 太白县| 临泉县| 天峨县| 平安县| 百色市| 叙永县| 久治县| 白银市| 彭水| 阿瓦提县| 行唐县| 玉树县| 沙洋县| 滕州市| 闻喜县| 涪陵区| 芦溪县| 连云港市| 井陉县| 佛山市| 阿鲁科尔沁旗| 望江县| 红河县| 太仓市| 上蔡县| 承德市| 虎林市| 织金县| 米脂县| 玛纳斯县| 永年县| 噶尔县|