崔東虎, 崔榮一, 趙亞慧
(延邊大學(xué) 智能信息處理研究室,吉林 延吉 133002)
文本分類是處理文本信息的重要方法之一。在跨語(yǔ)言文本分類研究中,針對(duì)不同的語(yǔ)言對(duì)其進(jìn)行文本分類需要使用不同的文本分類模型,但如果對(duì)每一種語(yǔ)言都分別構(gòu)建一個(gè)文本分類模型,則會(huì)消耗大量的資源,并且有些低資源語(yǔ)言缺少帶標(biāo)注的數(shù)據(jù)集,導(dǎo)致進(jìn)行文本分類時(shí)效果不理想。為了解決上述問(wèn)題,需要構(gòu)建一個(gè)不依賴于低資源語(yǔ)言標(biāo)注數(shù)據(jù)而且能完成跨語(yǔ)言分類的模型。因此,如何有效利用高資源語(yǔ)言的資源提高低資源語(yǔ)言的文本分類性能是當(dāng)前的一個(gè)研究熱點(diǎn)[1]。
跨語(yǔ)言文本分類(Cross-language Text Classification, CLTC)的核心工作是依靠源語(yǔ)言的訓(xùn)練數(shù)據(jù)訓(xùn)練出可以應(yīng)用于目標(biāo)語(yǔ)言的模型,緩解低資源語(yǔ)言訓(xùn)練數(shù)據(jù)不足的問(wèn)題[2]。傳統(tǒng)的跨語(yǔ)言文本分類方法通常依賴于翻譯詞典或平行語(yǔ)料庫(kù)來(lái)尋找不同語(yǔ)言中單詞和短語(yǔ)之間的聯(lián)系。Bel等人[3]最早提出了跨語(yǔ)言文本分類方法,先通過(guò)特征詞和雙語(yǔ)詞典進(jìn)行翻譯,然后采用相似度比較的方法進(jìn)行文本分類。另外,還有基于機(jī)器翻譯的方法,需要將目標(biāo)語(yǔ)言翻譯成源語(yǔ)言后進(jìn)行文本分類。Rigutini等人[4]利用EM算法和機(jī)器翻譯模型對(duì)不同語(yǔ)言的文本成功分類;Wei等人[5]將特征詞翻譯后對(duì)文本進(jìn)行分類。
最近,基于深度學(xué)習(xí)方法的多語(yǔ)言BERT模型在聯(lián)合多語(yǔ)言表示方面取得了重要進(jìn)展[6-8]。該模型通過(guò)將不同語(yǔ)言的文本輸入映射到一個(gè)共同的向量表示空間,能夠很好地完成跨語(yǔ)言任務(wù),這些研究已經(jīng)為跨語(yǔ)言訓(xùn)練帶來(lái)了實(shí)質(zhì)性的進(jìn)展[9]。盡管如此,在最近的對(duì)跨語(yǔ)言BERT的研究表明[10-12],這些跨語(yǔ)言表征并不能彌合不同語(yǔ)言之間存在的所有差異。在漢-朝跨語(yǔ)言文本分類中,雖然可以調(diào)用多語(yǔ)言編碼器在漢語(yǔ)訓(xùn)練數(shù)據(jù)上訓(xùn)練模型,然后將其應(yīng)用于朝鮮語(yǔ)文本,但是當(dāng)對(duì)朝鮮語(yǔ)文本進(jìn)行表示時(shí),由于漢語(yǔ)與朝鮮語(yǔ)的表示分布存在差異,該模型取得的效果不盡如人意。在上述跨語(yǔ)言文本分類的研究中,大多需要大規(guī)模的平行語(yǔ)料來(lái)訓(xùn)練高質(zhì)量的跨語(yǔ)言表示或機(jī)器翻譯模型,最后才可以得到較好的文本分類效果。但是朝鮮語(yǔ)屬于低資源語(yǔ)言,缺乏大規(guī)模的平行語(yǔ)料,故以上方法并不適用于朝鮮語(yǔ)。
本文采用端到端的模型,不需要經(jīng)過(guò)翻譯,也不需要用平行語(yǔ)料訓(xùn)練機(jī)器翻譯模型。而是通過(guò)將不同語(yǔ)言的特征編碼映射到同一空間中,在特征空間層面進(jìn)行對(duì)齊。但是映射出的跨語(yǔ)言詞向量不能做到完全的對(duì)齊,導(dǎo)致訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)在詞向量特征上存在差異,不可避免地在測(cè)試時(shí)引入各種干擾和錯(cuò)誤;輸入到神經(jīng)網(wǎng)絡(luò)時(shí)無(wú)法有效處理特征上的差異,嚴(yán)重影響跨語(yǔ)言文本分類的結(jié)果。目前有研究表明,神經(jīng)網(wǎng)絡(luò)的輸出會(huì)因輸入數(shù)據(jù)的微小擾動(dòng)而出現(xiàn)較大的波動(dòng)[13-15]。因此,構(gòu)建一個(gè)可以降低跨語(yǔ)言詞嵌入差異的特征提取方法對(duì)于提高跨語(yǔ)言文本分類效果有至關(guān)重要的作用。
針對(duì)上述問(wèn)題,本文結(jié)合無(wú)監(jiān)督跨語(yǔ)言詞嵌入映射和對(duì)抗訓(xùn)練的方法,構(gòu)建無(wú)監(jiān)督的漢-朝跨語(yǔ)言文本分類模型。實(shí)驗(yàn)結(jié)果表明,對(duì)抗訓(xùn)練可有效降低不同語(yǔ)言的特征差異,在完全不依賴平行語(yǔ)料的情況下,顯著提升漢-朝跨語(yǔ)言文本分類的效果。
在傳統(tǒng)的文本分類方法中,主要關(guān)注的研究?jī)?nèi)容是如何提取有效的分類特征以及選擇合適的分類算法。效果比較好的特征提取方法通常采用的是基于詞袋模型和詞頻逆文檔頻率(TF-IDF)的樸素貝葉斯分類算法[16]。但這類方法會(huì)出現(xiàn)數(shù)據(jù)稀疏的問(wèn)題,僅依靠訓(xùn)練數(shù)據(jù)提供的信息,無(wú)法獲得理想的效果。
深度學(xué)習(xí)方法通常先將文本轉(zhuǎn)化為低維的詞向量表示,再通過(guò)神經(jīng)網(wǎng)絡(luò)提取文本的分類特征,最終利用提取出的特征進(jìn)行分類。劉等人提出的Text-RNN[17]模型可以關(guān)注詞與詞之間的序列關(guān)系,但是會(huì)出現(xiàn)因?yàn)樾蛄刑L(zhǎng)而遺忘語(yǔ)義信息的問(wèn)題。Kim等人提出的 Text-CNN[18]模型基于卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積核獲取文本特征和位置信息。但是卷積神經(jīng)網(wǎng)絡(luò)關(guān)注的是局部信息,無(wú)法獲得全局依賴關(guān)系。目前,Transformer[19]通過(guò)Self-Attention在文本的長(zhǎng)距離依賴特征的提取方面具有很強(qiáng)的能力。因此,在本文研究中采用Transformer模型提取文本特征。
目前大多數(shù)訓(xùn)練跨語(yǔ)言詞嵌入的方法都使用對(duì)齊語(yǔ)料實(shí)現(xiàn)雙語(yǔ)關(guān)聯(lián)。按照在訓(xùn)練中的不同思路,大致分為聯(lián)合學(xué)習(xí)和單語(yǔ)映射兩種方法。
(1)跨語(yǔ)言聯(lián)合學(xué)習(xí)(Cross-language Joint Learning)在聯(lián)合學(xué)習(xí)方法中,Multilingual BERT (M-Bert)是一個(gè)成功的方法,其與單語(yǔ)BERT不同之處是使用了104種語(yǔ)言進(jìn)行訓(xùn)練,且在訓(xùn)練時(shí)沒(méi)有要求語(yǔ)料對(duì)齊。利用M-BERT的表征能力可以在Zero-Shot場(chǎng)景中很好地完成跨語(yǔ)言文本信息處理任務(wù),而且語(yǔ)言越相似,效果越好。
(2)單語(yǔ)映射(Monolingual Mapping)Mikolov等[20]和Artetxe等[21]根據(jù)觀察發(fā)現(xiàn)不同語(yǔ)言的詞向量在向量空間中有相似的幾何排列,圖1是兩種語(yǔ)言單語(yǔ)詞向量降維后的可視化結(jié)果?;谶@一發(fā)現(xiàn),提出了利用線性變換的方法將單語(yǔ)詞向量映射到同一向量空間中的技術(shù)。該方法可以使不同語(yǔ)言中語(yǔ)義相近詞的詞向量更相近,具體采用的方法是以雙語(yǔ)詞典作為監(jiān)督信息,使詞向量間歐氏距離的平方和最小,如式(1)所示。
圖1 英語(yǔ)詞向量(左)和西班牙語(yǔ)詞向量(右)的空間表示
(1)
其中,xi∈Rd是源語(yǔ)言詞向量,yi∈Rk是目標(biāo)語(yǔ)言詞向量,W∈Rk×d為映射矩陣。訓(xùn)練目標(biāo)是調(diào)整W矩陣使Wxi接近yi。
單語(yǔ)映射分為有監(jiān)督方法和無(wú)監(jiān)督方法。在有監(jiān)督方法中,雖然映射后的效果較好,但是需要利用高質(zhì)量的雙語(yǔ)詞典,這一條件限制了資源匱乏的語(yǔ)言在該領(lǐng)域中的應(yīng)用。
近來(lái),無(wú)監(jiān)督的映射方法較為流行,Conneau等人[22]通過(guò)對(duì)抗性識(shí)別器,不需要平行語(yǔ)料即可訓(xùn)練跨語(yǔ)言詞向量。Artetxe等人[23]通過(guò)研究發(fā)現(xiàn),不同語(yǔ)言中對(duì)應(yīng)的翻譯詞對(duì)擁有更相似的詞向量特征,并依據(jù)這一現(xiàn)象構(gòu)建初始種子詞典,利用自學(xué)習(xí)方法將種子詞典輸入自學(xué)習(xí)訓(xùn)練過(guò)程,經(jīng)過(guò)迭代優(yōu)化種子詞典,優(yōu)化目標(biāo)函數(shù)。
通常,使用雙語(yǔ)詞典以有監(jiān)督映射方法構(gòu)建跨語(yǔ)言詞向量可保證較高的質(zhì)量,但是過(guò)于依賴雙語(yǔ)詞典的質(zhì)量,在低資源語(yǔ)言中不便使用??紤]到朝鮮語(yǔ)沒(méi)有高質(zhì)量詞典的情況,本文采用無(wú)監(jiān)督自學(xué)習(xí)的方法訓(xùn)練漢-朝跨語(yǔ)言詞向量。實(shí)驗(yàn)證明,基于該模型生成的無(wú)監(jiān)督漢-朝跨語(yǔ)言詞向量可獲得良好的文本分類效果。
對(duì)抗訓(xùn)練(Adversarial Training)是增強(qiáng)神經(jīng)網(wǎng)絡(luò)魯棒性的一個(gè)重要手段。當(dāng)樣本存在一些擾動(dòng)時(shí),神經(jīng)網(wǎng)絡(luò)很可能會(huì)發(fā)生誤判,這時(shí)可經(jīng)過(guò)對(duì)抗訓(xùn)練的過(guò)程,分辨出擾動(dòng)樣本和正常樣本之間的差異,最終使神經(jīng)網(wǎng)絡(luò)正確判別擾動(dòng)樣本。最近,在文本分類、機(jī)器翻譯、對(duì)話生成等自然語(yǔ)言處理任務(wù)中對(duì)抗訓(xùn)練的思想得到廣泛應(yīng)用[24-26]。這些應(yīng)用通過(guò)不同的方法構(gòu)造出對(duì)抗樣本,如隨機(jī)替換、生成式改寫(xiě)、語(yǔ)法錯(cuò)誤等,加入擾動(dòng)。實(shí)驗(yàn)表明,利用對(duì)抗訓(xùn)練可以使模型適應(yīng)跨語(yǔ)言特征,使不同語(yǔ)種之間的特征分布盡可能一致,從而提高模型的性能。
本文將對(duì)抗訓(xùn)練的思想應(yīng)用到面向無(wú)監(jiān)督映射后的漢-朝跨語(yǔ)言詞向量中,將不同語(yǔ)言詞對(duì)的詞向量間的差異視為擾動(dòng),將目標(biāo)語(yǔ)言信息構(gòu)建為對(duì)抗樣本,通過(guò)對(duì)抗訓(xùn)練的方法使模型能夠適應(yīng)目標(biāo)語(yǔ)言在詞向量特征上的差異,降低對(duì)漢-朝跨語(yǔ)言造成的影響,從而提升模型的漢-朝跨語(yǔ)言性能。
跨語(yǔ)言文本分類任務(wù)是使用源語(yǔ)言訓(xùn)練的模型對(duì)目標(biāo)語(yǔ)言文本進(jìn)行分類。為完成這一任務(wù),本文首先構(gòu)建漢-朝跨語(yǔ)言詞向量,并針對(duì)朝鮮語(yǔ)缺少雙語(yǔ)詞典的問(wèn)題,采用不需要對(duì)齊語(yǔ)料的無(wú)監(jiān)督映射方法,再通過(guò)對(duì)抗訓(xùn)練的方式進(jìn)一步提取語(yǔ)言無(wú)關(guān)特征,并應(yīng)用于分類模型中。模型的目標(biāo)為: 對(duì)漢語(yǔ)文本具有良好的分類能力,同時(shí)對(duì)朝鮮語(yǔ)文本也具有良好的分類性能。
如圖2所示,本文模型分為四個(gè)部分: 自學(xué)習(xí)詞嵌入映射框架、聯(lián)合特征提取器F、語(yǔ)言判別器Q和分類器P。圖中朝鮮語(yǔ)文本數(shù)據(jù)流表示為虛線,漢語(yǔ)文本數(shù)據(jù)流表示為實(shí)線。兩種文本進(jìn)入特征提取器后進(jìn)入語(yǔ)言判別器,將有標(biāo)注的漢語(yǔ)文本放入分類器進(jìn)行訓(xùn)練,以這種方式可以用有標(biāo)記的漢語(yǔ)文本和無(wú)標(biāo)記的朝鮮語(yǔ)文本訓(xùn)練模型。
圖2 對(duì)抗訓(xùn)練結(jié)構(gòu)圖
模型的訓(xùn)練過(guò)程如下:
(1) 首先利用漢語(yǔ)和朝鮮語(yǔ)的預(yù)訓(xùn)練單語(yǔ)詞向量通過(guò)自學(xué)習(xí)映射框架學(xué)習(xí)漢-朝跨語(yǔ)言詞向量。此過(guò)程無(wú)需外部雙語(yǔ)詞典支持。
(2) 通過(guò)漢-朝跨語(yǔ)言詞向量將漢語(yǔ)和朝鮮語(yǔ)數(shù)據(jù)輸入特征提取器中,提取出的漢語(yǔ)和朝鮮語(yǔ)特征有助于分類器正確分類,同時(shí)阻礙語(yǔ)言判別器的判斷。
(3) 將漢語(yǔ)和朝鮮語(yǔ)文本經(jīng)過(guò)特征提取器后的輸出,輸入至語(yǔ)言判別器中,用于判斷輸入的特征向量是來(lái)自源語(yǔ)言(漢語(yǔ))還是目標(biāo)語(yǔ)言(朝鮮語(yǔ))。如果語(yǔ)言判別器的輸出可以很好地判斷出語(yǔ)言的類別,那么說(shuō)明特征提取器并來(lái)很好地提取出語(yǔ)言無(wú)關(guān)特征,致使判別器能夠判別兩種語(yǔ)言的特征差異。
(4) 最后利用特征提取器的漢語(yǔ)輸出作為分類器的輸入,訓(xùn)練分類器的分類能力。在訓(xùn)練完成后的測(cè)試階段利用特征提取器的朝鮮語(yǔ)輸出進(jìn)行分類。
一個(gè)成功的對(duì)抗訓(xùn)練模型應(yīng)該使分類器可以很好地利用特征提取器的輸出進(jìn)行文本分類,而特征提取器不能提供足夠的語(yǔ)言特征使語(yǔ)言判別器能夠判斷出是源語(yǔ)言還是目標(biāo)語(yǔ)言。
首先構(gòu)建漢語(yǔ)和朝鮮語(yǔ)的初始種子詞典,兩種語(yǔ)言的詞對(duì)作為輸入序列:X=(x1,x2,…,xm),Y=(y1,y2,…,ym),其中,xi和yi(i=1,2,…,m)分別表示種子詞典中的朝鮮語(yǔ)和漢語(yǔ)單詞,m表示詞的個(gè)數(shù)。將漢語(yǔ)和朝鮮語(yǔ)單詞通過(guò)詞向量表示,分別得到漢語(yǔ)和朝鮮語(yǔ)特征向量序列:S=(s1,s2,…,sm),T=(t1,t2,…,tm),其中,si和ti(i=1,2,…,m)是互為翻譯詞對(duì)的詞向量。優(yōu)化線性映射目標(biāo)如式(2)所示。
(2)
最終目的是將Wssi和Wtti統(tǒng)一到一個(gè)語(yǔ)義空間中,并使同一語(yǔ)義的詞向量盡可能相近。
將兩種變換約束為正交變換后可以利用奇異值分解優(yōu)化Ws和Wt[27],如式(3)所示。
(3)
其中,S和T是源語(yǔ)言和目標(biāo)語(yǔ)言詞向量矩陣,U∈Rk×k,V∈Rk×k,k為詞向量維度。在每次迭代中都使用優(yōu)化公式去優(yōu)化映射矩陣Ws和Wt。
自學(xué)習(xí)映射方法不需要外部字典作為監(jiān)督信息。首先基于不同語(yǔ)言下的對(duì)應(yīng)單詞有相似分布的現(xiàn)象,初始化種子詞典。其次的工作分為兩步: 第一步使用種子詞典計(jì)算當(dāng)前最佳映射矩陣Ws和Wt;第二步是計(jì)算映射后詞向量之間的最近詞對(duì)構(gòu)建出新的種子詞典。重復(fù)上述兩個(gè)步驟優(yōu)化映射目標(biāo)直至收斂。
在本文的模型中,采用Transformer模型構(gòu)建特征提取器,通過(guò)多頭自注意力機(jī)制獲取遠(yuǎn)距離信息,豐富不同詞之間的關(guān)聯(lián)信息,并通過(guò)全連接層進(jìn)行特征融合后輸入至分類器和語(yǔ)言判別器中。分類器和判別器采用前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)輸入的特征進(jìn)行分類。
本文先使用多頭注意力機(jī)制提取出文本特征,然后使用全連接層對(duì)特征進(jìn)行融合。特征提取器的結(jié)構(gòu)如圖3所示。注意力計(jì)算如式(4)所示。
(4)
其中,Q為用來(lái)查詢的Query,K表示被查詢的Key,V表示被查詢的Value:dk是K向量的維度,用于歸一化。多頭注意力的目的是在多個(gè)不同的投影空間中建立不同的投影信息,通過(guò)多頭去關(guān)注多個(gè)不同層次的語(yǔ)義信息,最后將多頭的信息融合到一起,構(gòu)建出擁有更豐富信息的語(yǔ)義特征。多頭注意力的計(jì)算如式(5)所示、式(6)所示。
Headi表示第i個(gè)頭計(jì)算的Attention結(jié)果。其中,WQ,WK,WV分別為每一個(gè)Head的Q、K、V對(duì)應(yīng)的變換矩陣,WO是隨機(jī)初始化的矩陣,目的是對(duì)每一個(gè)頭都做一次線性變換并得到輸出結(jié)果。
分類器利用特征提取器提供的文本特征,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類。
語(yǔ)言判別器是用前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的一個(gè)二分類器,源語(yǔ)言文本對(duì)應(yīng)輸出為1,目標(biāo)語(yǔ)言文本對(duì)應(yīng)輸出為0。
在對(duì)給定雙語(yǔ)文本通過(guò)詞向量層獲取詞向量s和t后,對(duì)抗訓(xùn)練目的使特征提取器生成相似的文本特征F(s)和F(t),同時(shí)使分類器輸出正確的文本類別。
具體優(yōu)化目標(biāo)如式(7)所示。
L=Lsrc+λ*Ladv
(7)
其中,Lsrc是分類系統(tǒng)的原始訓(xùn)練目標(biāo),當(dāng)輸入源語(yǔ)言文本時(shí),該目標(biāo)使分類器能輸出正確類別;Ladv是判斷語(yǔ)種的二分類目標(biāo)函數(shù),它鼓勵(lì)特征提取器生成相似的隱層向量。
特征提取器F和語(yǔ)言判別器Q使用極小化極大算法優(yōu)化,損失函數(shù)如式(8)所示。
Ladv(s,t)=-[logQ(F(s))]-[log(1-Q(F(t)))]
(8)
其中,F(·)表示特征提取器的特征提取操作,根據(jù)輸入的詞向量輸出文本特征,Q(·)表示語(yǔ)言判別器的判別輸出,值為0-1之間的實(shí)數(shù)(0和1分別對(duì)應(yīng)兩個(gè)語(yǔ)種),根據(jù)輸入的文本特征輸出語(yǔ)種分類結(jié)果。訓(xùn)練算法力求將Q(F(s))最大化,將Q(F(t))最小化,最終目的使特征提取器F可以對(duì)不同語(yǔ)言輸出相似的特征向量,從而使判別器Q無(wú)法區(qū)分輸入的信息語(yǔ)種是源語(yǔ)言還是目標(biāo)語(yǔ)言。
訓(xùn)練和測(cè)試的數(shù)據(jù)來(lái)源于本實(shí)驗(yàn)室構(gòu)建的漢-英-朝科技文獻(xiàn)文本分類語(yǔ)料。漢語(yǔ)和朝鮮語(yǔ)各有3萬(wàn)篇科技文獻(xiàn)摘要文本,文本的長(zhǎng)度均超過(guò)200,屬于較長(zhǎng)文本數(shù)據(jù)集,共有生物、海洋、航天三個(gè)領(lǐng)域。我們對(duì)語(yǔ)料進(jìn)行預(yù)處理,包括分詞和去除停用詞并分為訓(xùn)練集(24 000)、驗(yàn)證集(3 000)和測(cè)試集(3 000)。在無(wú)監(jiān)督方法中,朝鮮語(yǔ)語(yǔ)料不需要標(biāo)簽,僅使用漢語(yǔ)標(biāo)注數(shù)據(jù)訓(xùn)練。
為進(jìn)行有監(jiān)督的詞嵌入映射實(shí)驗(yàn),本文還需將漢-朝雙語(yǔ)詞典用于映射的監(jiān)督信息。由于目前沒(méi)有漢-朝雙語(yǔ)詞典可用,我們使用Facebook的MUSE詞典中的英-朝雙語(yǔ)詞典,并利用目前較為成熟的中英機(jī)器翻譯技術(shù),將英語(yǔ)翻譯為漢語(yǔ)。本文通過(guò)百度翻譯API將英-朝雙語(yǔ)詞典中的英語(yǔ)翻譯為漢語(yǔ),構(gòu)建漢-朝詞典,共包含1萬(wàn)個(gè)詞對(duì)。
為了完成漢-朝跨語(yǔ)言文本分類,首先需要構(gòu)建漢-朝跨語(yǔ)言詞向量。本文基于Facebook發(fā)布的FastText漢語(yǔ)和朝鮮語(yǔ)預(yù)訓(xùn)練單語(yǔ)詞向量,訓(xùn)練漢-朝跨語(yǔ)言詞向量,并利用有監(jiān)督和無(wú)監(jiān)督兩種方法對(duì)漢-朝詞向量的結(jié)果進(jìn)行對(duì)比,并分析產(chǎn)生質(zhì)量差異的原因。
本文通過(guò)雙語(yǔ)字典歸納任務(wù)的準(zhǔn)確率,并以此評(píng)價(jià)詞嵌入的質(zhì)量。詞典歸納任務(wù)為通過(guò)兩種語(yǔ)言的詞向量相似度來(lái)判定對(duì)應(yīng)的詞對(duì)是否為正確的翻譯。
表1給出了有監(jiān)督映射方法和無(wú)監(jiān)督映射方法的詞向量在漢-朝跨語(yǔ)言字典歸納任務(wù)中前N個(gè)相似詞中是否含有正確詞對(duì)的準(zhǔn)確率。
表1 對(duì)不同N值下詞典歸納的準(zhǔn)確率 (單位: %)
表2為詞典歸納的實(shí)例展示,其中第2列是與漢語(yǔ)詞向量最相似的朝鮮語(yǔ)詞向量,后續(xù)還對(duì)最相似的朝鮮語(yǔ)進(jìn)行了翻譯,同時(shí)展示了漢-朝詞典中的正確詞對(duì)。
表2 詞典歸納實(shí)例展示
從結(jié)果可以看出兩種方法都完成了漢-朝跨語(yǔ)言詞向量對(duì)齊的訓(xùn)練,有良好的詞向量對(duì)齊能力,但其中無(wú)監(jiān)督方法的準(zhǔn)確率比有監(jiān)督方法低。原因之一是本文所用的自學(xué)習(xí)方法受到初始隨機(jī)種子詞典質(zhì)量的影響,導(dǎo)致詞向量質(zhì)量的降低;而在有監(jiān)督的方法下采用的是外部雙語(yǔ)詞典,有可靠的雙語(yǔ)監(jiān)督信息,保證了詞向量的質(zhì)量。
另一個(gè)原因可從表2分析: 漢語(yǔ)中的“速度”和“狗”通過(guò)詞向量尋找到的最相似的朝鮮語(yǔ)詞語(yǔ)翻譯結(jié)果正確,但是由于朝鮮語(yǔ)是黏著語(yǔ),句子里詞根后面粘貼具有不同語(yǔ)法意義的詞綴來(lái)組成一個(gè)成分,導(dǎo)致最相似朝鮮語(yǔ)詞語(yǔ)與字典中的正確詞對(duì)不相符,被判斷成錯(cuò)誤,影響了準(zhǔn)確率。
雖然在漢-朝跨語(yǔ)言詞向量質(zhì)量方面,無(wú)監(jiān)督方法稍差于有監(jiān)督方法,但是依然有不錯(cuò)的漢-朝跨語(yǔ)言對(duì)齊能力,并且在語(yǔ)料依賴方面完全優(yōu)于有監(jiān)督方法。在后續(xù)實(shí)際使用中,通過(guò)加入對(duì)抗訓(xùn)練,可以看出無(wú)監(jiān)督與有監(jiān)督的漢-朝跨語(yǔ)言詞向量的性能相差不多。
本文通過(guò)Transformer模型進(jìn)行文本分類的特征提取,采用不同詞向量測(cè)試漢-朝跨語(yǔ)言分類效果并與加上對(duì)抗訓(xùn)練后的分類效果進(jìn)行對(duì)比,以驗(yàn)證對(duì)抗訓(xùn)練的有效性。
漢-朝跨語(yǔ)言訓(xùn)練方式為先使用帶標(biāo)記的漢語(yǔ)文本數(shù)據(jù)訓(xùn)練分類模型,再利用少量有標(biāo)記的朝鮮語(yǔ)文本測(cè)試模型的漢-朝跨語(yǔ)言分類性能。加入對(duì)抗訓(xùn)練后,除了使用帶標(biāo)記的漢語(yǔ)文本外,還需使用無(wú)標(biāo)記的朝鮮語(yǔ)文本數(shù)據(jù)訓(xùn)練特征提取器,再用朝鮮語(yǔ)文本進(jìn)行測(cè)試。
單語(yǔ)訓(xùn)練方式為用帶標(biāo)記的漢語(yǔ)文本數(shù)據(jù)訓(xùn)練特征提取器和分類器;加入對(duì)抗訓(xùn)練后,使用無(wú)標(biāo)記的朝鮮語(yǔ)文本數(shù)據(jù)一起訓(xùn)練特征提取器。
通過(guò)表3給出了漢-朝跨語(yǔ)言測(cè)試和單語(yǔ)測(cè)試中各個(gè)方法的實(shí)驗(yàn)結(jié)果,可以得出以下結(jié)論。
表3 不同分類方法的對(duì)比實(shí)驗(yàn)結(jié)果 (單位: %)
(1) 三種詞向量中有監(jiān)督漢-朝跨語(yǔ)言詞向量的漢-朝跨語(yǔ)言遷移能力最好,M-Bert和隨機(jī)詞向量的漢-朝跨語(yǔ)言遷移能力并不理想。另外,如果直接使用漢-朝跨語(yǔ)言詞向量,并不足以達(dá)到很好的漢-朝跨語(yǔ)言文本分類效果。
(2) 加入對(duì)抗訓(xùn)練后,漢-朝跨語(yǔ)言性能得到了顯著提高,達(dá)到了84.5%和84.10%,驗(yàn)證了本文方法可以更好地發(fā)揮漢-朝跨語(yǔ)言詞向量的跨語(yǔ)言能力。
(3) 通過(guò)與單語(yǔ)詞向量的對(duì)比可以看出,本文的方法還能夠提高單語(yǔ)分類的性能,說(shuō)明加入對(duì)抗訓(xùn)練后文本的特征提取能力也得到了增強(qiáng)。
(4) 通過(guò)對(duì)加入對(duì)抗訓(xùn)練后的有監(jiān)督和無(wú)監(jiān)督詞向量效果的對(duì)比,可以看出無(wú)監(jiān)督詞向量效果與有監(jiān)督情況相差不多,說(shuō)明本文的無(wú)監(jiān)督框架可以在不用任何平行語(yǔ)料的情況下能夠產(chǎn)生良好的漢-朝跨語(yǔ)言能力。
為了確定加入對(duì)抗訓(xùn)練后的漢-朝跨語(yǔ)言特征分布比直接使用漢-朝跨語(yǔ)言詞向量時(shí)更加一致,我們?cè)O(shè)計(jì)了漢-朝跨語(yǔ)言特征相似度對(duì)比實(shí)驗(yàn)。首先隨機(jī)從測(cè)試集選擇5對(duì)互為翻譯的漢語(yǔ)和朝鮮語(yǔ)文本,并采用無(wú)監(jiān)督詞向量的對(duì)抗訓(xùn)練、有監(jiān)督詞向量的對(duì)抗訓(xùn)練和不使用對(duì)抗訓(xùn)練的無(wú)監(jiān)督詞向量三種特征提取方法進(jìn)行比較,分別記作adv、sup_adv和un_adv。經(jīng)過(guò)特征提取器獲得文本特征后,計(jì)算互為翻譯的漢語(yǔ)和朝鮮語(yǔ)文本特征之間的余弦相似度,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 漢-朝跨語(yǔ)言特征相似度對(duì)比
實(shí)驗(yàn)結(jié)果表明,直接使用漢-朝跨語(yǔ)言詞向量不足以彌合兩個(gè)語(yǔ)種之間的特征差異,而加入對(duì)抗訓(xùn)練后,漢語(yǔ)和朝鮮語(yǔ)詞向量的特征分布差異得到改善;也可以看出對(duì)抗訓(xùn)練對(duì)于改善特征差異的能力有一個(gè)相似的上限,這也是有監(jiān)督詞向量和無(wú)監(jiān)督詞向量在引入對(duì)抗訓(xùn)練后的分類性能相似的原因。
本文針對(duì)朝鮮語(yǔ)的低資源問(wèn)題,通過(guò)結(jié)合無(wú)監(jiān)督的漢-朝跨語(yǔ)言詞嵌入線性映射以及對(duì)抗訓(xùn)練的方法,不依賴大規(guī)模對(duì)齊語(yǔ)料,成功地使不同語(yǔ)種的詞向量在特征空間中得到對(duì)齊;并通過(guò)實(shí)驗(yàn)驗(yàn)證了加入對(duì)抗訓(xùn)練對(duì)于漢-朝跨語(yǔ)言性能提升的有效性。本文的方法不僅能夠提高漢-朝跨語(yǔ)言的文本分類性能,也能提升單語(yǔ)文本分類性能。
未來(lái)工作中,我們將探索采用預(yù)訓(xùn)練語(yǔ)言模型實(shí)現(xiàn)漢-朝跨語(yǔ)言特征對(duì)齊的方法,以豐富文本特征,并以本文方法為基礎(chǔ)研究其它語(yǔ)種間的跨語(yǔ)言技術(shù)。