国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

半監(jiān)督跨領(lǐng)域語義依存分析技術(shù)研究

2022-04-12 04:14:54毛達(dá)展李華勇邵艷秋
中文信息學(xué)報 2022年2期
關(guān)鍵詞:編碼器語義損失

毛達(dá)展,李華勇,邵艷秋

(北京語言大學(xué) 國家語言資源監(jiān)測與研究平面媒體中心,北京 100083)

0 引言

依存分析是一種句子結(jié)構(gòu)的解析方式,其將句子的句法或語義結(jié)構(gòu)解析為一系列二元、非對稱依存關(guān)系,這些依存關(guān)系構(gòu)成了句子的依存樹(或依存圖)。不同于句法依存樹分析,語義依存圖分析是一種深層次的語義解析,其描述的是句子各個組成部分間的語義關(guān)系[1],具體示例如圖1所示,其允許更復(fù)雜的依存結(jié)構(gòu)(如多父節(jié)點、非投射等)。由于其能夠直接表達(dá)深層語義信息,因此應(yīng)用價值更大。然而,現(xiàn)有的語義依存分析研究使用的數(shù)據(jù)集往往來自課本或者新聞等單個領(lǐng)域, 這樣即使依存分析器在一個數(shù)據(jù)集上取得了較高的性能,當(dāng)遷移到其他目標(biāo)領(lǐng)域時,分析器的性能也會大幅度下降。

圖1 語義依存分析示例

根據(jù)目標(biāo)領(lǐng)域的數(shù)據(jù)有無標(biāo)注,領(lǐng)域適應(yīng)可以劃分為無監(jiān)督領(lǐng)域適應(yīng)(目標(biāo)領(lǐng)域完全沒有標(biāo)注數(shù)據(jù))和半監(jiān)督領(lǐng)域適應(yīng)[2](目標(biāo)領(lǐng)域存在少量標(biāo)注數(shù)據(jù),同時也有大量無標(biāo)注數(shù)據(jù))。 由于語義依存分析本身的復(fù)雜性,目前純粹基于無監(jiān)督的跨領(lǐng)域語義依存分析的研究進(jìn)展相對滯后。而半監(jiān)督的領(lǐng)域適應(yīng)雖然仍需要少量的數(shù)據(jù)標(biāo)注,但是其可以利用一定的監(jiān)督信號指導(dǎo)領(lǐng)域適應(yīng),領(lǐng)域遷移效果更好,遷移后的模型實用價值更大,也能更好地與語義依存分析任務(wù)結(jié)合。因此本文關(guān)注于針對語義依存分析任務(wù)的半監(jiān)督領(lǐng)域適應(yīng)。本文的主要貢獻(xiàn)如下:

(1) 提出了一個新的基于對抗學(xué)習(xí)的領(lǐng)域適應(yīng)框架。該框架支持一個模型同時解決面向多個目標(biāo)領(lǐng)域的領(lǐng)域適應(yīng)問題。該框架在實驗數(shù)據(jù)集上的性能明顯優(yōu)于基線模型。

(2) 將預(yù)訓(xùn)練語言模型融合到了對抗領(lǐng)域適應(yīng)框架中,從而進(jìn)一步提升了模型的領(lǐng)域適應(yīng)能力。同時本文詳盡討論分析了應(yīng)用預(yù)訓(xùn)練語言模型解決語義依存分析任務(wù)以及領(lǐng)域適應(yīng)時的一系列細(xì)節(jié)問題。

1 相關(guān)工作

1.1 依存分析

現(xiàn)有的依存分析方法主要有兩種,分別是基于轉(zhuǎn)移的算法[3]和基于圖[4-5]的算法。早期的這兩種依存分析器需要手動定義復(fù)雜的特征模板,這費時費力且需要很強的背景知識,限制了分析器的進(jìn)一步發(fā)展。[6]

近年來,神經(jīng)網(wǎng)絡(luò)方法被廣泛應(yīng)用在依存分析中[3,7]。在這些基于神經(jīng)網(wǎng)絡(luò)的依存分析器的研究工作中,雙仿網(wǎng)絡(luò)依存分析器取得了目前最優(yōu)的性能[7]。因此,雙仿網(wǎng)絡(luò)依存分析器在本文中將作為后續(xù)對依存分析進(jìn)行領(lǐng)域適應(yīng)研究的基礎(chǔ)。

1.2 領(lǐng)域適應(yīng)

最近,隨著ELMO、 BERT[8]等上下文表示的預(yù)訓(xùn)練模型興起,大量工作開始研究基于預(yù)訓(xùn)練上下文表示的領(lǐng)域適應(yīng)方法,并取得了較好的結(jié)果,展示了其在領(lǐng)域適應(yīng)任務(wù)上的巨大潛力,Liu等人[9]分析了上下文表示中的語言學(xué)知識和可遷移性,Mulcaire等人[10]使用上下文表示提升了跨語言任務(wù)的遷移效果。受到這些工作的啟發(fā),本文將預(yù)訓(xùn)練模型融入到依存分析的領(lǐng)域適應(yīng)模型中,探究上下文信息對跨領(lǐng)域依存分析是否有幫助。

對抗學(xué)習(xí)已經(jīng)被證明可以明顯提升跨領(lǐng)域依存分析器的性能[11-12]。但是大部分的工作為了抽取不同領(lǐng)域之間的無關(guān)特征,都把領(lǐng)域無關(guān)的特征和領(lǐng)域私有的特征混合在一起,這就不可避免地?fù)p失一些領(lǐng)域私有的信息[13]。陳等人[14]針對中文多粒度分詞任務(wù),提出了一個Shared-Private模型。在這個模型的基礎(chǔ)上,本文對私有編碼器進(jìn)行簡化,不同領(lǐng)域的私有編碼器統(tǒng)一成一個,并增加領(lǐng)域預(yù)測的輔助任務(wù)。Liu等人[15-16]引入了正交約束來消除共享空間和私有空間之間的冗余信息。

2 基于對抗學(xué)習(xí)的領(lǐng)域適應(yīng)依存分析模型

與一般基于對抗的跨領(lǐng)域依存分析做法一樣,把混合源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)輸入到Biaffine編碼器[7],但本模型增加了BERT通用編碼層、領(lǐng)域共享雙編碼器、領(lǐng)域分類輔助任務(wù)以及正交約束等可能對模型性能有提升作用的組件,模型結(jié)構(gòu)如圖2 所示。

圖2 基于對抗學(xué)習(xí)的領(lǐng)域適應(yīng)依存分析模型結(jié)構(gòu)

2.1 BERT通用編碼層

經(jīng)典的依存分析器采用詞向量加詞性向量的靜態(tài)表征,有時也會以字符向量表示加以輔助,這種經(jīng)典的組合方式不能為每個詞提供基于上下文的正確表示,也無法很好地解決未登錄詞問題。近年來,隨著BERT等預(yù)訓(xùn)練語言模型的涌現(xiàn),越來越多的研究開始使用預(yù)訓(xùn)練語言模型替換經(jīng)典的詞向量輸入,同時也有大量研究表明BERT等預(yù)訓(xùn)練語言模型對于跨領(lǐng)域遷移有著很好的幫助,因此本文使用BERT作為底層編碼。BERT是多層Transformer神經(jīng)網(wǎng)絡(luò)[12]的堆疊,形式化地,BERT每層的處理過程可表示,如式(1)所示。

hi,j=BERTj(xi)

(1)

其中,i表示第i個輸入,j表示第j層BERT,xi是輸入的字符。

BERT默認(rèn)選擇使用最后一層BERT輸出作為整體輸出,但是已有大量研究表明,BERT等預(yù)訓(xùn)練語言模型每層的編碼信息并不相同,一般BERT底層涉及一些語言基礎(chǔ)知識,BERT中層編碼了一定的句法結(jié)構(gòu)知識,BERT高層則編碼了語義知識,且BERT和訓(xùn)練時的任務(wù)相關(guān)度很高。因此直接使用最后一層BERT輸出可能不是最好的方案,為此,本文引入了層加權(quán)機制,以一種可訓(xùn)練的方式加權(quán)平均不同BERT層的輸出。層加權(quán)機制可形式化,如式(2)所示。

(2)

其中,wj是一個可訓(xùn)練的“權(quán)重”標(biāo)量,用來對應(yīng)每一層BERT輸出;c是一個可訓(xùn)練的縮放標(biāo)量,用于縮放最后的加權(quán)表示;BERTj,i表示第j層BERT在第i個位置的輸出。

經(jīng)過層加權(quán)機制后,可以得到對應(yīng)輸入的字符序列表示。由于依存分析是基于詞語級別的,所以需要從字符序列映射到詞語序列。本文采用簡單的尾字表示法完成映射,即對于每個詞語只選擇尾字對應(yīng)的表示來作為整個詞語的表示。

2.2 領(lǐng)域共享雙編碼器

TS(X)=Skip(FF,Skip(MultiHead,X))

(3)

Skip(f,h)=LayerNorm(h+Dropout(f(h))

(4)

(5)

其中,GELU[18]代表高斯誤差線性單元激活(Gaussian error linear units)函數(shù)。

為了保證領(lǐng)域無關(guān)特征編碼器可以提取到領(lǐng)域共享的特征,我們在領(lǐng)域無關(guān)編碼器上額外連接了一個對抗判別器——W距離分類器基于對抗學(xué)習(xí)的方式強制編碼器編碼領(lǐng)域無關(guān)特征。同時,為了保證領(lǐng)域私有編碼器可以提取到每個領(lǐng)域的私有信息,我們在領(lǐng)域私有編碼器上也額外連接了一個領(lǐng)域分類器。

2.3 對抗判別器

“領(lǐng)域無關(guān)”特征編碼器除了連接依存任務(wù)所需的解碼器Biaffineedge和Biaffinelabel外,還額外連接一個對抗判別器Dadv(x),負(fù)責(zé)提取領(lǐng)域之間的不變特征。

參考WGAN的實現(xiàn),本文采用基于W-asserstein距離(以下簡稱W距離)[19-20]的對抗判別器。在使用基于W距離的損失作為對抗損失時,對抗判別器實際上是一個W距離回歸網(wǎng)絡(luò)。

形式化地,對于源領(lǐng)域的輸入數(shù)據(jù)Xsource和目標(biāo)領(lǐng)域的輸入數(shù)據(jù)Xtarget,經(jīng)過領(lǐng)域特征編碼器后,我們分別得到對應(yīng)的表示分布Ps和Pt,則Ps和Pt之間的W距離等于:

(6)

由上述可知,基于W距離的對抗學(xué)習(xí)過程是一個minmax訓(xùn)練,即:

其中,Θdis表示判別器的參數(shù),Θshare表示領(lǐng)域無關(guān)特征編碼器的參數(shù)。

在訓(xùn)練時我們通過先進(jìn)行minΘdis訓(xùn)練,然后再進(jìn)行maxΘshare訓(xùn)練的方式交替完成整個訓(xùn)練過程。

2.4 Biaffine解碼層

(8)

(9)

(10)

(11)

(12)

訓(xùn)練時,依存弧解碼器的損失定義為,如式(13)所示。

(13)

訓(xùn)練時,依存標(biāo)簽解碼的損失定義如式(15)所示。

最后將依存弧概率和依存標(biāo)簽概率傳給解碼算法,就能得到最后的依存圖。

在訓(xùn)練時,通過最小化依存損失Jparser(Θp)從而訓(xùn)練得到一個領(lǐng)域內(nèi)依存分析器,依存分析損失由依存弧損失和依存標(biāo)簽損失相加得到如式(16)所示。

Jparser(Θp)=βJlabel(Θp)+(1-β)Jedge(Θp)

(16)

其中,β是一個超參數(shù),用來控制最終損失中兩個解碼器損失的相對大小。

2.5 領(lǐng)域分類輔助任務(wù)

我們希望私有編碼器能夠提取領(lǐng)域私有的信息,但僅通過最小化依存任務(wù)的損失Lparser無法保證私有特征編碼器真正提取到對應(yīng)領(lǐng)域的私有信息,因此本工作又額外引入了一個私有輔助任務(wù),即領(lǐng)域分類任務(wù),負(fù)責(zé)判斷編碼器編碼的特征屬于哪一個領(lǐng)域。這一輔助任務(wù)類似于文本領(lǐng)域分類,由一個領(lǐng)域分類器fc(x)實現(xiàn),其包括一層全連接神經(jīng)網(wǎng)絡(luò)和一個softmax 層,如式(17)所示。

訓(xùn)練時,領(lǐng)域分類器的交叉熵?fù)p失Lclassify定義,如式(18)所示。

通過最小化Lclassify,可以迫使領(lǐng)域私有特征編碼器編碼對應(yīng)領(lǐng)域的私有特征。

2.6 正交約束

加入輔助任務(wù)后可以保證領(lǐng)域私有特征編碼器學(xué)習(xí)到了領(lǐng)域的私有信息,但是私有特征編碼器可能會學(xué)習(xí)到一部分領(lǐng)域無關(guān)特征,造成特征冗余表達(dá)。為了確保這兩個編碼器之間不存在冗余的特征,本工作在兩個編碼器之間增加了一個正交約束,在訓(xùn)練時懲罰領(lǐng)域私有編碼器中和“領(lǐng)域無關(guān)”編碼器重合的特征,從而促使領(lǐng)域私有信息編碼器不提取領(lǐng)域間的不變特征。正交約束損失的定義如式(19)所示。

由上述公式可知,F(xiàn)robenius范數(shù)代表了矩陣的所有元素平方和的開方。因此,通過最小化正交約束Ldiff,就迫使STP的乘積最小化,進(jìn)而等價于迫使兩個矩陣相互“正交”,從而使得兩個編碼器的輸出特征互不重疊。

2.7 聯(lián)合訓(xùn)練

其中,依存分析的任務(wù)損失定義,如式(22)所示。

Lparser(Θp)=βLlabel(Θp)+(1-β)Ledge(Θp)

(22)

上述β、λ、γ、η均為控制損失大小的超參數(shù)。注意,當(dāng)使用目標(biāo)領(lǐng)域的無標(biāo)注數(shù)據(jù)時,Lparser只在源領(lǐng)域的數(shù)據(jù)上計算。

3 實驗部分

3.1 數(shù)據(jù)集介紹

本研究的源領(lǐng)域數(shù)據(jù)集來自the SemEval-2016 task9和《博雅漢語》。經(jīng)過調(diào)研,選擇兩大類4小類目標(biāo)領(lǐng)域,一大類是文學(xué)風(fēng)格,主要包括散文(《文化苦旅》)、小說(《小王子》《少女小漁》)、劇本(《武林外傳》)三個子目標(biāo)領(lǐng)域。另一大類是下游應(yīng)用,主要是醫(yī)療診斷文本子目標(biāo)領(lǐng)域。

依據(jù)中文語義依存圖標(biāo)注規(guī)范,依托語義依存圖標(biāo)注平臺,我們組織了6名語言學(xué)專業(yè)的學(xué)生做數(shù)據(jù)標(biāo)注。對于每個目標(biāo)領(lǐng)域,我們只標(biāo)注了少部分?jǐn)?shù)據(jù),然后將其劃分為訓(xùn)練集、驗證集、測試集,并對剩余的無標(biāo)注數(shù)據(jù)做了清洗和篩選,如表1所示。

表1 數(shù)據(jù)集劃分

3.2 實驗設(shè)置

我們嘗試了多種預(yù)訓(xùn)練語言模型,其層數(shù)均為12,隱層向量維度均為768。領(lǐng)域私有特征編碼器和領(lǐng)域無關(guān)特征編碼器都使用兩層Transformer神經(jīng)網(wǎng)絡(luò),其中Transformer層的注意力頭數(shù)為8,隱層向量維度為768,dropout比例為0.2,使用ReLU激活函數(shù)。對抗損失的控制參數(shù)λ為0.5;領(lǐng)域分類輔助任務(wù)損失的控制參數(shù)γ為0.05;正交約束損失的控制參數(shù)η為0.001;依存損失的控制參數(shù)β為0.5。對抗判別器的學(xué)習(xí)率設(shè)置為0.000 1,模型的其他部分的學(xué)習(xí)率設(shè)置為0.001。在訓(xùn)練時使用帶L2正則的Adam優(yōu)化算法,min訓(xùn)練和max訓(xùn)練的交替比例為5∶1。輸入最大句長為100,超過此長度的句子將被跳過。本文使用4張NVIDIA Tesla V100-16GB顯卡完成訓(xùn)練,單卡的批量大小設(shè)置為32。

3.3 基線模型

為了更好地比較提出的模型的領(lǐng)域適應(yīng)能力,我們選擇了兩個基線模型,分別是遷移模型Transfer和基于領(lǐng)域分類對抗損失的“共享-私有”模型SP-Adv:

?Transfer: 使用基于LSTM+Biaffine的單領(lǐng)域依存分析模型,在訓(xùn)練時,Transfer模型先在源領(lǐng)域的數(shù)據(jù)上預(yù)訓(xùn)練,然后再在對應(yīng)的目標(biāo)領(lǐng)域上進(jìn)一步微調(diào)。

?SP-Adv: 模型使用經(jīng)典的“共享-私有”框架,同樣使用對抗訓(xùn)練,但是既不采用正交約束,也不采用領(lǐng)域預(yù)測的輔助任務(wù)。

此外,為了進(jìn)一步對比基于預(yù)訓(xùn)練語言模型的動態(tài)表征和傳統(tǒng)的基于詞向量的靜態(tài)表征之間的差別,我們將預(yù)訓(xùn)練語言模型替換為詞向量加詞性向量,模型其他部分保持不變,得到另一個基線模型,稱為LSTM-WAdv。

3.4 實驗結(jié)果

3.4.1 與基線模型的對比

表2展示了本文模型和基線模型在4個目標(biāo)領(lǐng)域上的LAS指標(biāo),其中Transfer、SP-Adv分別代表兩個基線模型的結(jié)果,LSTM-WAdv代表在本文提出的模型上去掉預(yù)訓(xùn)練語言模型之后的結(jié)果,BERT-Wadv、XLNet-WAdv、RoBERTa-WAdv 分別代表使用BERT[22]、XLNET[23]、RoBERTa[24]預(yù)訓(xùn)練語言模型的結(jié)果。

表2 本工作的模型和基線模型在4個目標(biāo)領(lǐng)域上的LAS指標(biāo)

為了更加直觀地比較差異,我們繪制了模型之間的對比折線圖(圖3),由圖3可以看出,本文提出的基于預(yù)訓(xùn)練語言模型和對抗學(xué)習(xí)的領(lǐng)域適應(yīng)框架都明顯優(yōu)于兩個基線模型。同時使用預(yù)訓(xùn)練語言模型的領(lǐng)域適應(yīng)框架也要優(yōu)于使用詞向量的框架。同時在三種預(yù)訓(xùn)練語言模型中,RoBERTa展現(xiàn)了最好的領(lǐng)域適應(yīng)性能。

圖3 本工作的模型和基線模型的對比

3.4.2 無標(biāo)注數(shù)據(jù)量對領(lǐng)域適應(yīng)的影響

為了進(jìn)一步探索無監(jiān)督數(shù)據(jù)量在半監(jiān)督學(xué)習(xí)中的影響,我們又做了兩組對比實驗。這兩組實驗分別選擇前述實驗中LAS最高的小說目標(biāo)領(lǐng)域和LAS最低的醫(yī)療目標(biāo)領(lǐng)域。本文將這兩個領(lǐng)域的所有無標(biāo)注數(shù)據(jù)劃分為相等的10份,從不使用無標(biāo)注數(shù)據(jù)到使用全部的無標(biāo)注數(shù)據(jù),逐步增加無標(biāo)注數(shù)據(jù)的數(shù)量訓(xùn)練模型,并記錄對應(yīng)的LAS指標(biāo)。

如圖4所示,無論是醫(yī)療領(lǐng)域還是小說領(lǐng)域,LAS指標(biāo)都隨著無標(biāo)注數(shù)據(jù)量的增加呈現(xiàn)接近線性關(guān)系的增長。注意,在小說領(lǐng)域,當(dāng)無標(biāo)注數(shù)據(jù)使用超過七成的時候,LAS指標(biāo)的提升已經(jīng)非常微弱,這說明此時兩個編碼器已經(jīng)基本收斂,無法進(jìn)一步提升。

圖4 無標(biāo)注數(shù)據(jù)量對領(lǐng)域適應(yīng)的影響

3.4.3 消融實驗

為了進(jìn)一步分析本文提出的不同組件對最終模型領(lǐng)域適應(yīng)性能的影響,我們在LSTM-WAdv的基礎(chǔ)上又做了相應(yīng)的消融實驗,如表3所示,分別記錄了去掉對抗損失、去掉正交約束、去掉輔助任務(wù)以及去掉私有特征編碼器時的實驗結(jié)果。

表3 消融實驗

從表中可以看出,以上四個組件中,對模型最終效果影響最大的是對抗損失,去掉其之后模型在4個目標(biāo)領(lǐng)域上平均LAS下降了0.89,這再次證明了對抗學(xué)習(xí)技術(shù)在領(lǐng)域適應(yīng)任務(wù)中的重要作用;其次,影響模型性能的組件是私有特征,去掉其之后模型LAS平均下降了0.525,這里需要注意一旦去掉私有特征編碼器,正交約束和輔助任務(wù)也相應(yīng)地失去了作用,因此私有特征的影響要大于其他兩個組件。同時從表中也可以看出,四個組件均對模型最終的性能有積極作用,其中影響最小的輔助任務(wù)也有0.245的平均共享。上述實驗充分證明本文提出的模型方法是有效的。

4 結(jié)論

在之前提到的跨領(lǐng)域分析數(shù)據(jù)集上,本文提出的基于預(yù)訓(xùn)練語言模型和對抗學(xué)習(xí)的領(lǐng)域適應(yīng)框架都明顯優(yōu)于兩個基線模型,在嘗試的三種預(yù)訓(xùn)練模型中,RoBERTa展現(xiàn)了最好的領(lǐng)域適應(yīng)性能。在消融實驗中,也驗證了本文提出的領(lǐng)域適應(yīng)框架的各個組件對模型最終性能的提升具有積極作用。

猜你喜歡
編碼器語義損失
少問一句,損失千金
胖胖損失了多少元
語言與語義
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于FPGA的同步機軸角編碼器
基于PRBS檢測的8B/IOB編碼器設(shè)計
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
一般自由碰撞的最大動能損失
認(rèn)知范疇模糊與語義模糊
轮台县| 边坝县| 平邑县| 常德市| 芜湖县| 紫云| 池州市| 肃南| 保靖县| 寿阳县| 龙南县| 尼勒克县| 江山市| 洛扎县| 星座| 葫芦岛市| 南阳市| 鲁甸县| 江城| 咸阳市| 和田县| 大宁县| 苏尼特左旗| 荥阳市| 普陀区| 南汇区| 大兴区| 仁怀市| 赣州市| 台南市| 泗水县| 民丰县| 集贤县| 宜兰县| 京山县| 通道| 和林格尔县| 宁强县| 武山县| 玉龙| 淳化县|