申影利, 鮑 薇, 趙小兵, 周毛克
(1. 中央民族大學(xué) 中國少數(shù)民族語言文學(xué)學(xué)院,北京100081;2. 中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京100007;3.中央民族大學(xué) 信息工程學(xué)院,北京100081;4.國家語言資源監(jiān)測(cè)與研究少數(shù)民族語言中心,北京100081)
隨著深度學(xué)習(xí)的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的詞嵌入(Word Embeddings)成為單詞分布表示的主流方法。從海量未標(biāo)注的語料中學(xué)習(xí)詞嵌入的過程被稱為預(yù)訓(xùn)練,而經(jīng)由預(yù)訓(xùn)練更新過參數(shù)的語言模型及其學(xué)習(xí)到的詞嵌入則被稱為預(yù)訓(xùn)練語言模型(Pre-trained Language Models,PLMs)[1]。早期以Word2Vec(CBOW、Skip-gram)[2]、Glove[3]為代表的靜態(tài)詞嵌入(Static Embeddings)預(yù)訓(xùn)練語言模型PLMs專注于學(xué)習(xí)詞嵌入表示,但只能將詞語映射到一個(gè)上下文無關(guān)的靜態(tài)詞表示空間上,無法解決一詞多義等問題,并且在下游任務(wù)中仍要從零學(xué)習(xí)上下文信息。為了解決上述問題,以ELMo[4]、GPT[5]、BERT[6]引領(lǐng)的上下文詞嵌入預(yù)訓(xùn)練語言模型(Contextual Embeddings PLMs),可以將詞匯的語境信息融入其表示中,并從各個(gè)方面提升了預(yù)訓(xùn)練模型的效果。
最近,以XLM-R[7]為代表的上下文詞嵌入預(yù)訓(xùn)練語言模型表現(xiàn)出驚人的跨語言能力,在多項(xiàng)跨語言理解任務(wù)中的應(yīng)用刷新了最好性能記錄。然而這種性能在很大程度上取決于跨語言詞嵌入的對(duì)齊質(zhì)量,相比于近距離語言對(duì)(如英語、德語),跨語言遷移能力在語言差異性較大的遠(yuǎn)距離語言對(duì)(如漢語與國內(nèi)少數(shù)民族語言)上表現(xiàn)很差。另一方面,盡管靜態(tài)詞嵌入的表示能力不如上下文詞嵌入,但靜態(tài)詞嵌入對(duì)齊[8-9]已經(jīng)得到了很好的研究,通過簡單的映射就可以產(chǎn)生高對(duì)齊質(zhì)量的跨語言詞嵌入表示,而由于上下文詞嵌入具有動(dòng)態(tài)特性,為跨語言對(duì)齊工作帶來一定的挑戰(zhàn)。
近期,哈工大訊飛聯(lián)合實(shí)驗(yàn)室[10]基于跨語言預(yù)訓(xùn)練模型XLM-R,在多種國內(nèi)少數(shù)民族語言語料上進(jìn)行了二次預(yù)訓(xùn)練,發(fā)布了首個(gè)面向少數(shù)民族語言以及漢語的多語言預(yù)訓(xùn)練模型CINO(Chinese Minority Pre-trained Language Model)(1)https://github.com/iflytek/cino,填補(bǔ)了民族語言預(yù)訓(xùn)練模型這一研究空白。為了改善預(yù)訓(xùn)練語言模型在漢語與少數(shù)民族語言這類遠(yuǎn)距離語言對(duì)上的跨語言遷移效果,我們?cè)诿嫦蛏贁?shù)民族語言的跨語言預(yù)訓(xùn)練模型CINO的基礎(chǔ)上,探討如何結(jié)合靜態(tài)詞嵌入、上下文詞嵌入各自的優(yōu)勢(shì),來提高民漢雙語空間的對(duì)齊質(zhì)量,以促進(jìn)自然語言處理技術(shù)更好地遷移到資源稀缺的民族語言信息化處理任務(wù)中。
本文的主要工作包括:
(1) 提出了一個(gè)將靜態(tài)詞嵌入對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語言模型CINO上下文詞嵌入空間中的新框架,以進(jìn)一步提升CINO預(yù)訓(xùn)練模型在下游任務(wù)中的表現(xiàn)。
(2) 通過設(shè)計(jì)雙語詞典歸納損失、對(duì)比學(xué)習(xí)損失兩個(gè)損失函數(shù),改善民漢遠(yuǎn)距離語言對(duì)的跨語言對(duì)齊表示。
由于國內(nèi)少數(shù)民族語言資源主要集中在蒙語、藏語以及維吾爾語,因此,我們?cè)诿烧Z-漢語、藏語-漢語、維吾爾語-漢語三種遠(yuǎn)距離語言對(duì)上開展相關(guān)實(shí)驗(yàn)。結(jié)果表明,與多個(gè)魯棒的基線系統(tǒng)相比,本文提出的基于跨語言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語言增強(qiáng)模型,應(yīng)用到雙語詞典歸納、文本分類以及機(jī)器翻譯下游任務(wù)中均取得了一致的效果提升,驗(yàn)證了方法的有效性。
為了將模型從資源豐富的語言遷移到資源匱乏的語言上,早期的工作通常利用大規(guī)模單語語料訓(xùn)練靜態(tài)詞嵌入進(jìn)行跨語言對(duì)齊研究,使用簡單的映射(包括線性映射[11]與非線性映射[12])就可以生成高質(zhì)量的跨語言詞嵌入。特別地,靜態(tài)詞嵌入在許多低資源場(chǎng)景具備無法替代的優(yōu)勢(shì): 無須使用大型標(biāo)注數(shù)據(jù),采用無監(jiān)督學(xué)習(xí)就能獲得良好的詞表示。例如,Conneau等人[13]提出了無監(jiān)督的跨語言詞對(duì)齊MUSE框架,通過對(duì)抗學(xué)習(xí)將兩個(gè)單語詞向量空間對(duì)齊,不斷迭代更新映射矩陣來建立兩種語言之間的雙語詞典。Artetxe等人[14]提出了跨語言詞嵌入映射框架VecMap,在不需要監(jiān)督信號(hào)的情況下學(xué)習(xí)跨語言詞嵌入映射,在標(biāo)準(zhǔn)數(shù)據(jù)集上的結(jié)果甚至超越了之前的監(jiān)督系統(tǒng)。但是這種詞嵌入是靜態(tài)的,一個(gè)單詞對(duì)應(yīng)唯一的詞向量表示,不會(huì)隨著新的上下文而變化,因而在許多應(yīng)用中逐漸被上下文詞嵌入對(duì)齊所取代。
相比靜態(tài)詞嵌入,上下文詞嵌入可以根據(jù)上下文語境動(dòng)態(tài)地獲得每個(gè)單詞的上下文表示,從而獲得更加合理和靈活的詞嵌入,在多語言及跨語言任務(wù)上表現(xiàn)出色。目前,上下文跨語言詞嵌入對(duì)齊工作通常依賴于平行語料或可比語料庫。例如,Aldarmaki等人[15]將學(xué)習(xí)到的句子級(jí)別對(duì)齊的映射關(guān)系應(yīng)用到單詞級(jí)上下文詞嵌入;Nagata等人[16]將詞對(duì)齊作為一項(xiàng)任務(wù),并利用詞對(duì)齊訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行微調(diào);Gritta等人[17]使用機(jī)器翻譯平行語料庫提升跨語種預(yù)訓(xùn)練語言模型XLM-R關(guān)于特定任務(wù)的對(duì)齊效果。然而,盡管上下文表示包含豐富的語義信息,但也正是由于其動(dòng)態(tài)特性,詞級(jí)別的跨語言對(duì)齊表現(xiàn)仍然不能超過靜態(tài)詞嵌入。
為了充分利用靜態(tài)詞嵌入和上下文詞嵌入之間互補(bǔ)的優(yōu)勢(shì),Zhang等人[18]提出結(jié)合靜態(tài)詞嵌入和上下文詞嵌入的相似性插值運(yùn)算實(shí)現(xiàn)跨語言詞嵌入對(duì)齊,在有監(jiān)督及無監(jiān)督雙語詞典歸納任務(wù)上帶來一定的性能提升。隨后,H?mmerl等人[19]在40種語言上結(jié)合靜態(tài)詞嵌入和上下文詞嵌入來改進(jìn)多語言詞嵌入對(duì)齊表示,并在問答系統(tǒng)、序列標(biāo)記、信息檢索任務(wù)上驗(yàn)證了有效性。
由于國內(nèi)少數(shù)民族語言自身的特點(diǎn),如蒙古語族的蒙古語動(dòng)詞變化豐富、藏緬語族的藏語黏著性強(qiáng)以及突厥語族的維吾爾語借詞豐富,導(dǎo)致民漢單語語義空間差異性大。而上述相關(guān)研究方法的性能在很大程度上取決于跨語言詞嵌入的對(duì)齊質(zhì)量,這對(duì)國內(nèi)少數(shù)民族語言與漢語之間這類數(shù)據(jù)不平衡以及遠(yuǎn)距離語言對(duì)并不友好;另一方面,目前專門針對(duì)民漢跨語言詞嵌入的研究相對(duì)匱乏,這嚴(yán)重阻礙了跨語言應(yīng)用在民族語言上的發(fā)展。因此,本文提出一種基于跨語言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語言增強(qiáng)模型,促進(jìn)預(yù)訓(xùn)練語言模型在低資源、遠(yuǎn)距離語言對(duì)上的遷移應(yīng)用,以期為相關(guān)研究提供參考。
為了充分利用靜態(tài)詞嵌入的魯棒性以及上下文詞嵌入包含的豐富句法及語義信息,改善民漢跨語言詞嵌入的對(duì)齊質(zhì)量。本文提出一個(gè)將靜態(tài)詞嵌入對(duì)齊到基于CINO模型抽取出來的上下文詞嵌入空間的新框架。具體地,本文方法分為三步: 首先,將兩種大規(guī)模單語語言的靜態(tài)詞嵌入進(jìn)行跨語言對(duì)齊;其次,給定民漢平行句對(duì),從CINO模型中抽取上下文詞嵌入,并設(shè)計(jì)兩種損失函數(shù)(雙語詞典歸納損失、對(duì)比學(xué)習(xí)損失)將靜態(tài)詞嵌入對(duì)齊到上下文詞嵌入的語義空間中;最后,將經(jīng)過跨語言詞嵌入對(duì)齊的CINO增強(qiáng)模型應(yīng)用于資源匱乏的民族語言下游任務(wù)(如雙語詞典歸納、文本分類、機(jī)器翻譯等)。以蒙語-漢語這一語言對(duì)為例,本文提出的模型框架如圖1所示。在這一部分中,首先介紹本文用到的符號(hào)定義(2.1節(jié)),再介紹靜態(tài)詞嵌入的跨語言對(duì)齊方式(2.2節(jié))以及將其對(duì)齊到上下文詞嵌入空間所設(shè)計(jì)的兩種損失函數(shù)(2.3節(jié))。
圖1 模型架構(gòu)圖
近年來,一些工作[13-14]在研究沒有任何監(jiān)督信號(hào)的情況下,采用從源語言到目標(biāo)語言的單向映射實(shí)現(xiàn)雙語空間對(duì)齊。但是,他們所提出的方法在很大程度上依賴于兩種語言相似的語言特性,即兩種語言之間含有大量的詞匯重疊。然而,國內(nèi)少數(shù)民族語言與漢語之間不存在任何詞匯重疊,并且語言形態(tài)不同,屬于遠(yuǎn)距離語言對(duì)。因此,受語法、構(gòu)詞上的差異及單語訓(xùn)練語料主題不一致等因素的影響,漢語與國內(nèi)少數(shù)民族語言的單語詞嵌入空間并不同構(gòu),而傳統(tǒng)單向投影的跨語言詞嵌入方法沒有考慮這種差異性帶來的影響,導(dǎo)致最終獲取到的民漢跨語言詞嵌入效果不佳。另一方面,在賴文等[20]的工作中對(duì)少數(shù)民族語言與漢語之間的跨語言詞向量進(jìn)行了深入研究,他們發(fā)現(xiàn),少數(shù)民族語言與漢語之間的無監(jiān)督跨語言詞嵌入的性能極差,但是在加入少量的雙語詞典作為監(jiān)督信號(hào)時(shí),會(huì)極大改善跨語言詞嵌入的表現(xiàn)。因此,本文參照相同思路,利用少量的雙語詞典,提升了跨語言詞嵌入對(duì)齊的性能。
(1)
(2)
在2.2節(jié)獲得兩種單語語言對(duì)齊的靜態(tài)跨語言詞嵌入之后,我們研究如何將對(duì)齊后的靜態(tài)詞嵌入進(jìn)一步對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語言模型CINO的上下文詞嵌入中。為此,本文設(shè)計(jì)了兩個(gè)目標(biāo)損失函數(shù): 雙語詞典歸納損失和對(duì)比學(xué)習(xí)損失。下面將分別詳細(xì)介紹這兩種損失函數(shù)。
2.3.1 雙語詞典歸納損失
最終,我們?cè)O(shè)計(jì)的雙語詞典歸納損失函數(shù)如式(5)所示。
LBLI=Distance+Coverage
(5)
2.3.2 對(duì)比學(xué)習(xí)損失
對(duì)比學(xué)習(xí)(Contrastive Learning)[21]目的是: 將模型中語義相似的實(shí)例(正樣本)在詞嵌入表示中盡可能地接近,而偏離那些語義不同的實(shí)例(負(fù)樣本),所以如何構(gòu)建正樣本和負(fù)樣本成為對(duì)比學(xué)習(xí)中最關(guān)鍵的問題。對(duì)于正樣本,已經(jīng)對(duì)齊的目標(biāo)語言單詞即為正樣本;在語義上相近但是并沒有對(duì)齊的單詞即為負(fù)樣本。更具體地,對(duì)于一個(gè)單詞ws,我們將集合Cstatic中除wt以外的單詞作為負(fù)樣本。
本文采用了InfoNCE損失[22],這是一個(gè)在對(duì)比學(xué)習(xí)研究中普遍使用的一個(gè)損失函數(shù)。我們將該損失結(jié)合目標(biāo)實(shí)現(xiàn)了靜態(tài)詞嵌入與上下文詞嵌入的對(duì)齊。具體地,目標(biāo)函數(shù)表示如式(6)所示。
(6)
其中,sim(·)計(jì)算的是兩個(gè)向量之間的余弦相似度,+和-分別表示正例和負(fù)例,R(s)(表示單詞的上下文詞向量,τ是一個(gè)溫度系數(shù),使用它來控制鑒別正例和負(fù)例的難度(τ越大表示從負(fù)例中鑒別正例的難度越大)。
2.3.3 靜態(tài)詞嵌入的跨語言對(duì)齊
我們最終的訓(xùn)練目標(biāo)由2.3.1和2.3.2節(jié)的兩部分損失函數(shù)進(jìn)行迭代優(yōu)化,如式(7)所示。
Ltotal=λ·LBLI+(1-λ)·LCL
(7)
其中,λ為超參數(shù)(我們將在5.3節(jié)中對(duì)該超參數(shù)進(jìn)行分析),來詳細(xì)說明雙語詞典歸納損失、對(duì)比學(xué)習(xí)損失對(duì)總體損失的重要程度。
單語數(shù)據(jù)集漢語單語數(shù)據(jù)來自CCMT2021(3)http: //sc.cipsc.org.cn/mt/conference/2021/,使用Jieba(4)https://github.com/fxsjy/jieba分詞。由于目前缺少開源的大規(guī)模蒙語、藏語以及維吾爾語的單語數(shù)據(jù),所以我們對(duì)相關(guān)民族語言文字網(wǎng)站進(jìn)行語料爬取,通過句子切分、過濾掉含有亂碼的句子、去重、Moses(5)https://github.com/moses-smt/mosesdecoder/tree/master/scripts預(yù)處理等步驟,最終構(gòu)建了1 000萬句漢語、蒙語、藏語以及維吾爾語的單語語料庫,用于單語靜態(tài)詞嵌入的訓(xùn)練。
雙語數(shù)據(jù)集本文使用第17屆全國機(jī)器翻譯大會(huì)(CCMT2021)提供的蒙漢、藏漢以及維漢機(jī)器翻譯平行句對(duì),通過CINO模型抽取上下文詞嵌入。
我們使用FastText(6)https://github.com/facebookresearch/fastText/對(duì)漢語、蒙語、藏語以及維吾爾語四種單語語料進(jìn)行靜態(tài)詞嵌入訓(xùn)練,詞嵌入維度設(shè)為300。對(duì)于上下文詞嵌入,本文使用X2Static[23]工具分別對(duì)少數(shù)民族預(yù)訓(xùn)練語言模型CINO的base和large版本抽取獲得,該工具即使利用少量數(shù)據(jù)也能取得更好的效果,其中當(dāng)使用CINO-base時(shí),詞嵌入維度為768;使用CINO-large時(shí),詞嵌入維度為1 024。同時(shí),我們使用詞對(duì)齊工具Fast_Align(7)https://github.com/clab/fast_align從民漢平行句對(duì)中獲得所有翻譯詞對(duì),并作為額外知識(shí)指導(dǎo)不同語言之間的詞嵌入的對(duì)齊訓(xùn)練。
預(yù)訓(xùn)練上下文語言模型在大量未標(biāo)注的語料上進(jìn)行預(yù)訓(xùn)練,能夠獲得通用的詞嵌入表示,然后應(yīng)用到下游任務(wù)中,并根據(jù)任務(wù)的特點(diǎn)進(jìn)行微調(diào)以修正網(wǎng)絡(luò),這種預(yù)訓(xùn)練加微調(diào)的方式不僅能大幅度提升下游任務(wù)性能,而且避免從頭訓(xùn)練的額外開銷。以下內(nèi)容將依次評(píng)估我們提出的基于跨語言詞嵌入對(duì)齊的少數(shù)民族預(yù)訓(xùn)練語言增強(qiáng)模型CINO在雙語詞典歸納、文本分類以及機(jī)器翻譯三個(gè)下游任務(wù)中的表現(xiàn)。
在有監(jiān)督雙語詞典歸納任務(wù)中,我們使用的雙語詞典來自本實(shí)驗(yàn)室經(jīng)相關(guān)母語專家人工標(biāo)注及校正的蒙漢、藏漢以及維漢詞典。由于上述民漢詞典中的一些詞語不一定出現(xiàn)在單語語料庫中,所以需要進(jìn)一步抽取出全部包含在單語數(shù)據(jù)集中的詞組。最終,我們篩選出蒙古語、藏語、維吾爾語與漢語之間相互6個(gè)方向的雙語詞典,并在詞典具有唯一的源語言單詞的情況下,劃分為5 000對(duì)訓(xùn)練集、1 000對(duì)驗(yàn)證集及測(cè)試集。該任務(wù)的基線系統(tǒng)包括:
(1)MUSE[13]: 基于普氏分析(Procrustes analysis,PA)[24]執(zhí)行對(duì)齊算法歸納種子詞典,使用對(duì)抗的方式學(xué)習(xí)映射矩陣。
(2)VecMap[14]: 一個(gè)學(xué)習(xí)雙語詞嵌入的通用框架,包括: 歸一化、白化、正交映射、重加權(quán)、去白化和降維等步驟。
(3)RCSLS[25]: 通過優(yōu)化跨域相似性局部縮放(Cross-domain similarity local scaling,CSLS)損失[13],學(xué)習(xí)非正交映射,其目標(biāo)函數(shù)直接面向雙語詞典歸納任務(wù)。
(4)InterpolationRCSLS[18]: 提出一種spring network來拉近翻譯詞對(duì)的詞嵌入距離,并建立靜態(tài)雙語詞嵌入和上下文雙語詞嵌入相結(jié)合的統(tǒng)一詞表示空間,隨后在統(tǒng)一詞表示空間和上下文詞嵌入空間之間執(zhí)行相似性插值運(yùn)算。
(5)X2S-MA[19]: 從XLM-R中提取靜態(tài)詞嵌入X2S-M,并使用VecMap對(duì)其進(jìn)行對(duì)齊獲得X2A-MA,再通過對(duì)齊損失將X2S-MA更好地對(duì)齊XLM-R的表示空間,我們利用這個(gè)方法在CINO模型上進(jìn)行實(shí)驗(yàn)。
(6)CINO[10]: 通過少數(shù)民族預(yù)訓(xùn)練語言模型CINO(包括base、large版本)編碼整個(gè)句子并抽取每個(gè)單詞的上下文詞嵌入表示,我們參照基線(5)使用VecMap(8)https://github.com/artetxem/vecmap工具進(jìn)行對(duì)齊。
表1展示了基于跨語言詞嵌入對(duì)齊的CINO模型與基線在雙語詞典歸納任務(wù)上的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)分為四組: ①靜態(tài)詞嵌入跨語言對(duì)齊(MUSE、VecMap和RCSLS); ②預(yù)訓(xùn)練語言模型CINO抽取的上下文詞嵌入跨語言對(duì)齊(CINO-base、CINO-large); ③結(jié)合靜態(tài)詞嵌入與上下文詞嵌入的跨語言對(duì)齊(Interpolation、X2S-MA); ④文本提出的靜態(tài)詞嵌入對(duì)齊到CINO模型上下文詞嵌入的跨語言對(duì)齊(Our-CINO-base、Our-CINO-large)。評(píng)價(jià)指標(biāo)使用詞匯對(duì)齊的準(zhǔn)確率P@k,選取k=1,5,即P@1、P@5表示基于跨語言詞嵌入的源語言中的某個(gè)單詞中尋找最近鄰的1,5個(gè)單詞,有多大的概率是在詞典測(cè)試集的目標(biāo)單詞中。
表1 雙語詞典歸納任務(wù)實(shí)驗(yàn)結(jié)果 (單位: %)
通過表1的實(shí)驗(yàn)結(jié)果,可得出以下結(jié)論:
(1) 預(yù)訓(xùn)練語言模型抽取的上下文詞嵌入(表中CINO-base和CINO-large)在沒有任何輔助信息的情況下,詞嵌入對(duì)齊準(zhǔn)確率遠(yuǎn)不如靜態(tài)詞嵌入對(duì)齊(MUSE、VecMap和RCSLS),這是因?yàn)轭A(yù)訓(xùn)練模型是在大規(guī)模單語語料中訓(xùn)練獲得并且其預(yù)訓(xùn)練目標(biāo)為一些常規(guī)的掩碼語言模型,并不是如雙語詞典歸納這種嚴(yán)格的詞級(jí)別的對(duì)齊任務(wù)。
(2) 相比于從預(yù)訓(xùn)練語言模型中抽取的上下文詞嵌入對(duì)齊,結(jié)合靜態(tài)詞嵌入與上下文詞嵌入的跨語言對(duì)齊(InterpolationRCSLS和X2S-MA)表現(xiàn)出較好的性能,但是在民漢語言對(duì)上,由于語言差異性大(如藏語的黏著性及曲折性變化、維吾爾語的形態(tài)豐富性等)而表現(xiàn)出不穩(wěn)定性,即并不能超過所有的靜態(tài)詞嵌入基線。
(3) 本文提出的方法,在雙語詞典歸納任務(wù)中具有更優(yōu)秀的表現(xiàn),其中Our-CINO-large方法超過了以上基線系統(tǒng)的對(duì)齊性能,這歸功于我們?cè)O(shè)計(jì)的雙語詞典歸納損失,進(jìn)一步提高了民族語言與漢語這類遠(yuǎn)距離語言對(duì)的跨語言詞嵌入對(duì)齊準(zhǔn)確率。
Yang等人[10]為了評(píng)估少數(shù)民族預(yù)訓(xùn)練語言模型CINO的跨語言及多語言能力,根據(jù)少數(shù)民族語言維基百科語料及其分類體系標(biāo)簽,首先構(gòu)建了分類任務(wù)數(shù)據(jù)集Wiki-Chinese-Minority(WCM),以及后來的WCM-v2(9)https://github.com/iflytek/cino版本調(diào)整了各類別與語言的樣本數(shù)量,分布相對(duì)更均衡。該數(shù)據(jù)集覆蓋蒙古語、藏語、維吾爾語、粵語、朝鮮語、哈薩克語以及漢語普通話,包括藝術(shù)、地理、歷史、自然、自然科學(xué)、人物、技術(shù)、教育、經(jīng)濟(jì)和健康十個(gè)類別,并在漢語訓(xùn)練集上訓(xùn)練模型,在其他語言上進(jìn)行zero-shot測(cè)試。
在該下游任務(wù)中,我們同樣使用少數(shù)民族分類數(shù)據(jù)集WCM-v2訓(xùn)練我們提出的基于詞嵌入對(duì)齊的預(yù)訓(xùn)練語言增強(qiáng)模型,并使用其中的蒙語測(cè)試集(2 973條)、藏語測(cè)試集(1 110條)以及維吾爾語測(cè)試集(300條)進(jìn)行測(cè)試?;€包括: XLM-R的base版本、large版本以及CINO的base版本、large版本。
為了考慮民族語言資源匱乏導(dǎo)致類別分布不均衡問題,比如在300條維吾爾語測(cè)試集,除地理類別占據(jù)256條外,其他9個(gè)類別的樣本數(shù)量為個(gè)位數(shù)或者是零樣本。因此,在這種極度不均衡情況下,評(píng)價(jià)指標(biāo)選取多分類評(píng)價(jià)指標(biāo)weight-F1值(10)https://scikit-learn.org/stable/modules/generated/sklearn.me-trics. f1_score. html,即通過把每個(gè)類別的樣本數(shù)量作為權(quán)重,計(jì)算加權(quán)F1值,以充分考慮不同類別的重要性。實(shí)驗(yàn)結(jié)果如圖2所示,其中所有基線系統(tǒng)中的實(shí)驗(yàn)結(jié)果源自CINO模型的github(11)https://github.com/iflytek/cino公布的最新實(shí)驗(yàn)結(jié)果。
圖2 WCM-v2數(shù)據(jù)集上文本分類任務(wù)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在文本分類任務(wù)中性能表現(xiàn)良好,超過了所有的基線。具體地,在蒙語測(cè)試集(覆蓋10個(gè)類別)上,weight-F1值相比基線中性能最優(yōu)的CINO-large-v2模型提升4.7%;同時(shí)在維吾爾語測(cè)試集(僅覆蓋6個(gè)類別)上,CINO-large-v2的weight-F1值已經(jīng)達(dá)到90.1%,而我們的方法仍能進(jìn)一步提高2.2個(gè)百分點(diǎn)。這一性能的取得很大程度上取決于我們?cè)O(shè)計(jì)的對(duì)比學(xué)習(xí)損失,因?yàn)閷?duì)比學(xué)習(xí)使得模型中同一類別的句子在表示空間中比較接近,而不同類別的句子在表示空間中距離比較遠(yuǎn)。
在該任務(wù)中,我們使用CCMT2021蒙漢、藏漢、維漢的訓(xùn)練集、驗(yàn)證集以及CWMT2018(12)http: //www.cipsc.org.cn/cwmt/2018/測(cè)試集,選取神經(jīng)機(jī)器翻譯模型Transformer[26]以及在機(jī)器翻譯任務(wù)上微調(diào)CINO模型作為基線,同時(shí)微調(diào)我們提出的預(yù)訓(xùn)練語言增強(qiáng)模型。評(píng)測(cè)指標(biāo)為機(jī)器雙語互譯評(píng)估值(BLEU)[27],實(shí)驗(yàn)結(jié)果如表2所示。
表2 民漢機(jī)器翻譯任務(wù)實(shí)驗(yàn)結(jié)果 (單位: %)
由表2可知,雖然預(yù)訓(xùn)練語言模型(CINO-base和CINO-large)在許多跨語言任務(wù)中表現(xiàn)出很強(qiáng)的性能,但是在機(jī)器翻譯這類傳統(tǒng)的句子級(jí)別對(duì)齊的任務(wù)中表現(xiàn)稍差。原因在于,預(yù)訓(xùn)練語言模型是在大規(guī)模單語語料上訓(xùn)練獲得的,盡管預(yù)訓(xùn)練加微調(diào)的方式能為低資源神經(jīng)機(jī)器翻譯模型提供更多的跨語言信息,其效果還是與有監(jiān)督神經(jīng)機(jī)器翻譯模型Transformer有一定的差距。不過,本文方法仍能遠(yuǎn)遠(yuǎn)超過不經(jīng)過任何修改的CINO系統(tǒng),其中Our-CINO-large方法的翻譯效果甚至可以與強(qiáng)大的Transformer基線相媲美。這主要?dú)w功于我們?cè)O(shè)計(jì)的兩種損失函數(shù)將兩種語言在詞級(jí)別的層次上做了很好的對(duì)齊,使得預(yù)訓(xùn)練語言模型可以在機(jī)器翻譯模型訓(xùn)練初期提供樸素的詞對(duì)翻譯信息,能夠有效改善翻譯質(zhì)量。
為了提升CINO模型的跨語言詞嵌入對(duì)齊效果,我們?cè)?.3節(jié)中引入了雙語詞典歸納損失LBLI、對(duì)比學(xué)習(xí)損失LCL兩個(gè)損失函數(shù),為了探究哪個(gè)損失函數(shù)更重要,我們?cè)O(shè)計(jì)了兩組實(shí)驗(yàn)進(jìn)行驗(yàn)證。第一組實(shí)驗(yàn),我們探究兩個(gè)損失函數(shù)在雙語詞典歸納任務(wù)中的表現(xiàn);第二組實(shí)驗(yàn),我們探究兩個(gè)損失函數(shù)在文本分類中的表現(xiàn)。我們將分別在5.1.1節(jié)和5.1.2節(jié)中分析這兩組實(shí)驗(yàn)。
5.1.1 雙語詞典歸納任務(wù)
以維漢雙語詞典歸納任務(wù)為例,基于跨語言詞嵌入對(duì)齊的預(yù)訓(xùn)練語言增強(qiáng)模型(Our-CINO-Large)的實(shí)驗(yàn)結(jié)果如表3所示。
表3 損失函數(shù)對(duì)維漢雙語詞典歸納的影響 (單位: %)
實(shí)驗(yàn)結(jié)果表明,在維吾爾語與漢語之間的詞典歸納任務(wù)中,如果不添加所設(shè)計(jì)的兩種損失函數(shù),我們的模型盡管結(jié)合了靜態(tài)與上下文詞嵌入,但是總體效果無法超越表1中的靜態(tài)詞嵌入對(duì)齊(MUSE、VecMap和RCSLS)表現(xiàn)。而一旦引入雙語詞典歸納損失LBLI或者對(duì)比學(xué)習(xí)損失LCL后,雙語詞嵌入對(duì)齊效果會(huì)得到明顯改善,其中LBLI對(duì)于性能的提升占據(jù)了主要的作用,例如,在維-漢方向P@1值相對(duì)提高5.68個(gè)百分點(diǎn),遠(yuǎn)遠(yuǎn)超過LCL的作用(提升僅3.16個(gè)百分點(diǎn))。此外,將兩個(gè)損失結(jié)合能夠進(jìn)一步提升性能,但加入LCL后提升的效果沒有LBLI明顯。
5.1.2 文本分類任務(wù)
我們使用少數(shù)民族分類數(shù)據(jù)集WCM-v2,記錄基于跨語言詞嵌入對(duì)齊的預(yù)訓(xùn)練語言增強(qiáng)模型(Our-CINO-large)分別在蒙語、藏語、維吾爾語測(cè)試集上的表現(xiàn),weight-F1值評(píng)價(jià)結(jié)果如表4所示。
表4 損失函數(shù)對(duì)文本分類的影響 (單位: %)
實(shí)驗(yàn)結(jié)果表明,模型在引入雙語詞典歸納損失LBLI或者對(duì)比學(xué)習(xí)損失LCL損失函數(shù)后,文本分類的效果會(huì)進(jìn)一步提高。其中,LCL起了更重要的作用,例如在蒙語測(cè)試集上,weight-F1值能夠再增加3.1個(gè)百分點(diǎn)。這一實(shí)驗(yàn)現(xiàn)象與4.2節(jié)中的結(jié)論保持一致,即對(duì)比學(xué)習(xí)損失使相同類別的句子盡可能地接近,并分散不同類別的句子。
在2.3.1節(jié)中,本文方法提到雙語詞典歸納損失中的超參數(shù)k,下面我們以藏-漢雙向翻譯任務(wù)為例,分析k的不同取值對(duì)實(shí)驗(yàn)性能的影響,使用BLEU值的評(píng)價(jià)結(jié)果如表5所示。
表5 k值對(duì)翻譯性能的影響 (單位: %)
由表5可知,在k=5的取值下,我們的方法在base和large版本均中取得了最優(yōu)的性能。這一現(xiàn)象符合我們的預(yù)期,因?yàn)?當(dāng)k=1的時(shí)候,這種方式為嚴(yán)格的雙語詞對(duì)齊,表1中的實(shí)驗(yàn)結(jié)果同樣顯示其詞對(duì)齊準(zhǔn)確率不佳,所以對(duì)機(jī)器翻譯任務(wù)沒有很好的性能提升;當(dāng)k=5時(shí),這種方式在詞的對(duì)齊層面取得了很好的效果,進(jìn)而對(duì)機(jī)器翻譯任務(wù)有了正面的提升。但是,當(dāng)k=10時(shí),因其在雙語對(duì)齊任務(wù)中含有大量的噪聲,在一定程度上阻礙了機(jī)器翻譯任務(wù)的性能。
在2.3.3節(jié)中提到訓(xùn)練目標(biāo)中的超參數(shù)λ,分別對(duì)這個(gè)參數(shù)取不同的值,基于跨語言詞嵌入對(duì)齊的預(yù)訓(xùn)練語言增強(qiáng)模型(Our-CINO-large),依次判斷其在雙語詞典歸納、文本分類以及機(jī)器翻譯各個(gè)任務(wù)中的重要程度,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 λ對(duì)下游任務(wù)的作用程度
實(shí)驗(yàn)結(jié)果表明,λ的不同取值與5.1節(jié)中的結(jié)論保持一致:
(1)λ作為雙語詞典歸納損失LBLI的權(quán)重,隨著λ取值的不斷增大,LBLI占據(jù)了目標(biāo)函數(shù)的主要成分,其詞嵌入對(duì)齊提升的效果越加明顯,即LBLI對(duì)雙語詞典歸納任務(wù)更重要。其中,最優(yōu)超參數(shù)取值分別為蒙漢方向(λ=0.8)以及漢蒙方向(λ=0.9),表示LBLI、LCL兩個(gè)損失結(jié)合,進(jìn)一步提升了性能。
(2) (1-λ)是對(duì)比學(xué)習(xí)損失LCL的權(quán)重,因此文本分類效果隨著λ的增大,整體呈現(xiàn)單調(diào)遞減,即LCL對(duì)文本分類任務(wù)更加重要。其中,當(dāng)λ=0.2時(shí),蒙語文本分類性能達(dá)到最優(yōu)。
(3) 與上述兩個(gè)任務(wù)不同的是,我們發(fā)現(xiàn),這兩種損失在機(jī)器翻譯任務(wù)中表現(xiàn)出相同的重要性,當(dāng)λ取值約為中間值時(shí),即兩個(gè)損失函數(shù)在訓(xùn)練目標(biāo)中的占比相當(dāng),蒙語與漢語互譯方向的翻譯效果達(dá)到最佳。
針對(duì)民漢低資源場(chǎng)景下語言差異性大、跨語言詞嵌入對(duì)齊效果差,導(dǎo)致預(yù)訓(xùn)練語言模型在下游任務(wù)中的遷移效果不佳的問題。本文提出將靜態(tài)詞嵌入對(duì)齊到少數(shù)民族預(yù)訓(xùn)練語言模型CINO的上下文詞嵌入空間中的新框架,進(jìn)一步提升下游任務(wù)的性能。我們通過設(shè)計(jì)雙語詞典歸納損失、對(duì)比學(xué)習(xí)損失兩個(gè)損失函數(shù)將靜態(tài)詞嵌入對(duì)齊到CINO模型的上下文詞嵌入,以提高遠(yuǎn)距離語言對(duì)的跨語言詞嵌入對(duì)齊質(zhì)量。此外,我們還進(jìn)行了一系列更精細(xì)的評(píng)估、分析和消融研究。在蒙語-漢語、藏語-漢語、維吾爾語-漢語三種民漢遠(yuǎn)距離語言對(duì)上的實(shí)驗(yàn)表明,相比魯棒的基線系統(tǒng),本文方法充分結(jié)合了靜態(tài)詞嵌入和上下文詞嵌入互補(bǔ)的優(yōu)點(diǎn),并在雙語詞典歸納、文本分類以及機(jī)器翻譯下游任務(wù)中都實(shí)現(xiàn)了顯著的性能提升,驗(yàn)證了本文方法的有效性。