基于深度編碼注意力的XLNet-Transformer漢-馬低資源神經(jīng)機(jī)器翻譯優(yōu)化方法

2024-05-24 22:37:14占思琦徐志展楊威謝搶來

計算機(jī)應(yīng)用研究 2024年3期

占思琦徐志展楊威謝搶來

摘要：神經(jīng)機(jī)器翻譯（NMT）在多個領(lǐng)域應(yīng)用中已取得顯著成效，在大規(guī)模語料庫上已充分論證其優(yōu)越性。然而，在語料庫資源不足的情形下，仍存在較大的改進(jìn)空間。由于漢語-馬來語（漢-馬）平行語料的匱乏，直接導(dǎo)致了漢-馬機(jī)器翻譯的翻譯效果不佳。為解決漢-馬低資源機(jī)器翻譯不理想的問題，提出了一種基于深度編碼注意力和漸進(jìn)式解凍的低資源神經(jīng)機(jī)器翻譯方法。首先，利用XLNet預(yù)訓(xùn)練模型重構(gòu)編碼器，在編碼器中使用了XLNet動態(tài)聚合模塊替代了傳統(tǒng)編碼層的輸出方式，有效彌補(bǔ)了低資源漢-馬語料匱乏的瓶頸；其次，在解碼器中使用并行交叉注意力模塊對傳統(tǒng)編碼-解碼注意力進(jìn)行了改進(jìn)，提升了源詞和目標(biāo)詞的潛在關(guān)系的捕獲能力；最后，對提出模型采用漸進(jìn)式解凍訓(xùn)練策略，最大化釋放了模型的性能。實驗結(jié)果表明，提出方法在小規(guī)模的漢-馬數(shù)據(jù)集上得到了顯著的性能提升，驗證了方法的有效性，對比其他的低資源NMT方法，所提方法結(jié)構(gòu)更為精簡，并改進(jìn)了編碼器和解碼器，翻譯效果提升更加顯著，為應(yīng)對低資源機(jī)器翻譯提供了有效的策略與啟示。

關(guān)鍵詞：神經(jīng)網(wǎng)絡(luò)；漢-馬機(jī)器翻譯；低資源；漸進(jìn)式解凍；預(yù)訓(xùn)練

中圖分類號：TP391?? 文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2024）03-022-0799-06

doi：10.19734/j.issn.1001-3695.2023.08.0331

XLNet-Transformer optimization method for Chinese-Malay low-resource

neural machine translation based on deep coded attention

Zhan Siqia， Xu Zhizhana， Yang Weib， Xie Qianglaib

（a.College of Information Engineering， b.Big Data Laboratory of Collaborative Innovation Center， Jiangxi University of Technology， Nanchang 330098， China）

Abstract：Neural machine translation（NMT） has achieved remarkable results in applications in many fields， and it has fully demonstrated its superiority on large-scale corpora. However， there is still a huge room for improvement when there are insufficient corpus resources. The lack of a Chinese-Malay parallel corpus directly affects the translation effect of Chinese-Malay machine translation. In order to solve the problem of unsatisfactory Chinese-Malay low-resource machine translation， this paper proposed a low-resource neural machine translation method based on deep encoded attention and progressive unfreezing. Firstly， this method reconstructed the encoder using the XLNet pre-training model and replaced the output mode of the traditional encoding layer with the XLNet dynamic aggregation module in order to effectively compensate for the bottleneck caused by the lack of Chinese-Malay corpus. Secondly， it improved the traditional encoding-decoding attention by using a parallel cross-attention module in the decoder， which enhanced the ability to capture the potential relationship between the source word and the target word. Finally， it adopted a progressive unfreezing training strategy to maximize the release of the models perfor-mance. The experimental results demonstrate that the proposed method significantly improves the performance on a small-scale Chinese-Malay dataset， thus confirming its effectiveness. Compared with other low-resource NMT methods， this method had a simpler structure， and improved the encoder and decode， resulting in a more significant enhancement in the translation effect. The approach provides effective strategies and insights to cope with low-resource machine translation.

Key words：neural network; Chinese-Malay machine translation; low resource; progressive unfreezing； pre-training

0 引言

隨著“一帶一路”倡議的提出和中國－東盟自貿(mào)區(qū)的不斷發(fā)展，中國和東盟國家之間的經(jīng)貿(mào)及文化交流日益頻繁［1］。據(jù)統(tǒng)計，“一帶一路”沿線連接了64個國家和地區(qū)，使用了約1/3的全球語言種類，包括許多小語種和方言［2］。由于這些語言的復(fù)雜性和多樣性，人工翻譯已經(jīng)無法滿足當(dāng)前規(guī)模巨大的翻譯需求，機(jī)器翻譯已成為自然語言處理（NLP）領(lǐng)域備受關(guān)注的研究領(lǐng)域。為了更好地支持漢語-馬來語的跨語言溝通和合作，小語種漢-馬機(jī)器翻譯技術(shù)變得尤為重要。

機(jī)器翻譯經(jīng)歷了從規(guī)則到統(tǒng)計再到深度學(xué)習(xí)的多次迭代，相對于傳統(tǒng)的基于規(guī)則或統(tǒng)計模型的機(jī)器翻譯方法，神經(jīng)機(jī)器翻譯模型具有更高的自適應(yīng)性、更強(qiáng)的上下文理解能力以及更高的翻譯質(zhì)量。當(dāng)前，基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù)成為了機(jī)器翻譯領(lǐng)域的研究熱點。

NMT是一種數(shù)據(jù)驅(qū)動的機(jī)器翻譯方法，隨著訓(xùn)練數(shù)據(jù)規(guī)模的增大，通?？梢垣@得更好的翻譯效果。然而，當(dāng)神經(jīng)機(jī)器翻譯模型的訓(xùn)練數(shù)據(jù)規(guī)模較小時，其翻譯效果并不佳，特別是對于一些資源稀缺型語言對（如漢語-馬來語）。由于缺乏充足的訓(xùn)練數(shù)據(jù)，漢-馬神經(jīng)機(jī)器翻譯面臨著重大挑戰(zhàn)，導(dǎo)致目前漢-馬機(jī)器翻譯的翻譯效果受到了很大的限制，所以，研究如何改進(jìn)神經(jīng)機(jī)器翻譯技術(shù)以提高其在低資源場景下的翻譯效果是該領(lǐng)域亟待解決的問題之一。

基于此，針對低資源場景下的漢-馬神經(jīng)機(jī)器翻譯的譯文質(zhì)量不理想的問題，本文利用Transformer［3］和XLNet［4］預(yù)訓(xùn)練模型提出了一種基于深度編碼注意力（XLNet-Transformer）和漸進(jìn)式解凍的神經(jīng)機(jī)器翻譯方法，該方法在少量漢-馬語料對（低資源）上表現(xiàn)出良好的性能。本文主要貢獻(xiàn)如下：a）提出使用XLNet重構(gòu)Transformer編碼器，在長距離依賴建模方面相對于傳統(tǒng)Transformer模型，能學(xué)習(xí)到源語句的更多依賴關(guān)系，同時使用了預(yù)訓(xùn)練權(quán)重初始化編碼器參數(shù)，能明顯提升漢-馬低資源機(jī)器翻譯的性能；b）提出動態(tài)聚合XLNet編碼模塊，能動態(tài)聚合XLNet各個編碼層的編碼信息，充分捕獲到源語言文本各個層面的信息，從而為解碼器提供更豐富的編碼特征；c）提出并行交叉注意力模塊，能夠有效地學(xué)習(xí)上下文特征，從而捕捉到源句子和目標(biāo)句子之間潛在的語義關(guān)聯(lián)；d）提出“漸進(jìn)式解凍”訓(xùn)練優(yōu)化策略，可以穩(wěn)定模型的訓(xùn)練過程，能更充分地整合源句子和目標(biāo)句子的特征，提高了模型在編碼-解碼任務(wù)中的效果。

1 相關(guān)工作

機(jī)器翻譯已成為NLP備受關(guān)注的研究領(lǐng)域，然而在漢語-馬來語低資源神經(jīng)翻譯領(lǐng)域，由于缺乏足夠的訓(xùn)練數(shù)據(jù)，漢-馬神經(jīng)機(jī)器翻譯模型的翻譯效果面臨嚴(yán)峻的挑戰(zhàn)。

當(dāng)前，漢語-馬來語低資源神經(jīng)機(jī)器翻譯領(lǐng)域所能夠依據(jù)的參考文獻(xiàn)相對匱乏，但是相對于其他語種低資源神經(jīng)機(jī)器翻譯方法卻積累了大量的研究成果與經(jīng)驗。文獻(xiàn)［5～8］通過實驗表明，相比傳統(tǒng)的基于大量平行語料訓(xùn)練的機(jī)器翻譯方法（如基于RNN［9］、CNN［10］和Transformer等結(jié)構(gòu)的神經(jīng)機(jī)器翻譯），基于預(yù)訓(xùn)練模型的低資源機(jī)器翻譯是一種有效且高效的方法。文獻(xiàn)［11，12］利用BERT［13］預(yù)訓(xùn)練模型對Transformer進(jìn)行改進(jìn)，實驗結(jié)果顯示這種新架構(gòu)比基線有明顯的提升。Wang等人［14］提出SimCSE和注意力學(xué)習(xí)句子嵌入和相應(yīng)詞嵌入的關(guān)系，在低資源語料對的實驗表明了該方法的可行性。Guo等人［15］通過將源語言和目標(biāo)語言領(lǐng)域的兩個預(yù)訓(xùn)練BERT模型集成到一個序列到序列模型中，提出的模型在實驗結(jié)果中明顯優(yōu)于基線模型。文獻(xiàn)［16，17］利用不同組合的BERT和GPT［18］改進(jìn)編碼器和解碼器，實驗結(jié)果表現(xiàn)出良好的翻譯效果。文獻(xiàn)［19，20］利用BERT分別融合到編碼器和解碼器的特征表示，結(jié)果顯示均能顯著提升翻譯性能，表明了預(yù)訓(xùn)練模型獲取知識表示的有效性。文獻(xiàn)［21，22］利用BERT和階段優(yōu)化策略逐步解凍網(wǎng)絡(luò)，驗證了預(yù)訓(xùn)練結(jié)合分步訓(xùn)練的有效性。文獻(xiàn)［23～26］利用XLNet預(yù)訓(xùn)練模型在各種NLP單語言任務(wù)中獲得了良好的表現(xiàn)，但XLNet應(yīng)用在NMT的研究相對匱乏。

以上工作為本文研究如何改善漢-馬低資源機(jī)器翻譯性能不佳的現(xiàn)狀提供了理論和實驗基礎(chǔ)?；诖?，本文提出了一種基于深度編碼注意力和“漸進(jìn)式解凍”的漢-馬低資源神經(jīng)機(jī)器翻譯方法，采用性能優(yōu)于BERT的XLNet預(yù)訓(xùn)練模型，模型性能明顯優(yōu)于文獻(xiàn)［22］提出的低資源NMT方法。相較于文獻(xiàn)［19，20］的方法，本文方法的結(jié)構(gòu)更為精簡，并改進(jìn)了編碼器和解碼器，翻譯的性能也得到了提升，最終的實驗驗證了本文方法在提升漢-馬低資源神經(jīng)機(jī)器翻譯質(zhì)量方面的有效性。

2 基于深度編碼注意力和漸進(jìn)式解凍的XLNet-Transformer神經(jīng)機(jī)器翻譯方法

本文提出的XLNet-Transformer模型的整體架構(gòu)如圖1所示，從圖中可以直觀地理解本文方法的結(jié)構(gòu)和各個組件之間的關(guān)系。模型由XLNet完全重構(gòu)Transformer編碼器的六層堆疊，利用XLNet編碼器直接對源語言句子進(jìn)行編碼，使得模型相對于傳統(tǒng)Transformer可以更好地捕捉源語言文本的信息，提高了其對輸入文本的表示能力。為了充分地利用XLNet模型中不同編碼層的特征，通過編碼動態(tài)聚合模塊有效地將各編碼層的深度編碼特征信息聚合，增強(qiáng)模型的表征能力。同時，在解碼器中，將第二個注意力子層改進(jìn)為并行交叉注意力模塊，模型能夠更加關(guān)注源語言句子的上下文信息，從而更準(zhǔn)確地捕捉句子的語義。本文模型的偽代碼如算法1所示。

3.4 不同學(xué)習(xí)率對本文模型的影響

本文提出的XLNet-Transformer模型在不同學(xué)習(xí)率下直接微調(diào)的對比結(jié)果如表4所示，粗體值表示最佳結(jié)果，#表示模型epoch數(shù)。

從實驗結(jié)果可以看出，直接采用XLNet默認(rèn)的動態(tài)學(xué)習(xí)率進(jìn)行訓(xùn)練，BLEU為0，這反映了動態(tài)學(xué)習(xí)率在當(dāng)前情景下未能充分發(fā)揮作用，由此對XLNet-Transformer模型的收斂性造成了限制。當(dāng)學(xué)習(xí)率為5×10－5時，BLEU分?jǐn)?shù)在第70個epoch達(dá)到最優(yōu)23.92，自此之后，提高學(xué)習(xí)率反而導(dǎo)致分?jǐn)?shù)下降。當(dāng)學(xué)習(xí)率為1.5×10－4之后，學(xué)習(xí)率過大導(dǎo)致模型發(fā)生了梯度爆炸現(xiàn)象，模型無法收斂；設(shè)置學(xué)習(xí)率為1×10-5時，模型的BLEU分?jǐn)?shù)比學(xué)習(xí)率為5×10-5時低6.80，說明學(xué)習(xí)率過小可能使模型發(fā)生局部最優(yōu)和過擬合的現(xiàn)象，進(jìn)而導(dǎo)致模型翻譯質(zhì)量下降。因此，給予合適的學(xué)習(xí)率時，直接微調(diào)模型也可以得到較理想的翻譯性能。故在后續(xù)實驗中，將本文模型在未采用漸進(jìn)式解凍策略訓(xùn)練的學(xué)習(xí)率默認(rèn)設(shè)置為5×10-5。

3.5 漢-馬低資源神經(jīng)機(jī)器翻譯的對比實驗

為了驗證本文方法的有效性，進(jìn)行了如表5所示的模型方法對比實驗，表中“+、-”表示相對于傳統(tǒng)Transformer模型的BLEU差值，粗體值表示最佳結(jié)果。其中：

a）XLNet-Decoder，本文提出的編碼器完全由XLNet（12-layer，768-hidden，12-heads）模型重構(gòu)，解碼器為Transformer結(jié)構(gòu)的參照模型。

b）BERT-Encoder［22］，編碼器完全由BERT（12-layer，768-hidden，12-heads）模型重構(gòu)，解碼器為Transformer結(jié)構(gòu)。

c）PhoBERT［20］，編碼器和解碼器分別融合了BERT（12-layer，768-hidden，12-heads）的輸出特征。

d）XLNet-Transformer，即XLNet-Decoder+編碼動態(tài)聚合模塊+并行交叉注意力模塊。

從表5可以看出，利用預(yù)訓(xùn)練做編碼器的BERT-Encoder和XLNet-Decoder在低資源數(shù)據(jù)集上相比于傳統(tǒng)的Transformer模型，均有明顯提升，而本文模型相較于Transformer模型的BLEU可以達(dá)到6.41的提升；相較于BERT-Encoder和PhoBERT方法，本文模型也分別提升了0.97和0.25。通過實驗結(jié)果表明，本文方法在結(jié)構(gòu)更加精簡的前提下，能夠在漢-馬低資源數(shù)據(jù)集上實現(xiàn)更好的低資源翻譯性能，也充分證明了通過引入XLNet預(yù)訓(xùn)練模型、動態(tài)聚合編碼信息以及并行交叉注意力等關(guān)鍵組件，可以較好地克服低資源條件下的翻譯困難，實現(xiàn)了性能改進(jìn)。

3.6 漢-馬低資源神經(jīng)機(jī)器翻譯的消融實驗

為探究本文方法使用XLNet重構(gòu)編碼器后使用編碼動態(tài)聚合模塊和在解碼器融合并行交叉注意力模塊的模型對翻譯模型性能的影響，進(jìn)行了如表6所示的消融實驗。其中：

a）Transformer with XLNet size。Transformer的網(wǎng)絡(luò)結(jié)構(gòu)，僅結(jié)構(gòu)參數(shù)大小與XLNet一致（12-layer，768-hidden，12-heads）。

b）XLNet-Decoder+編碼動態(tài)聚合。在XLNet-Decoder的基礎(chǔ)上只對編碼器進(jìn)行了動態(tài)聚合模塊改進(jìn)。

c）XLNet-Decoder+并行交叉注意力。在XLNet-Decoder的基礎(chǔ)上只對解碼器進(jìn)行了并行交叉注意力模塊的改進(jìn)。

根據(jù)表6的實驗結(jié)果可知，雖然Transformer with XLNet size模型參數(shù)量有所增加，但最優(yōu)BLEU仍比Transformer base size模型少1.56，說明模型容量對翻譯質(zhì)量的影響不大，增加參數(shù)的數(shù)量并沒有帶來更好的翻譯質(zhì)量，這也反映了XLNet-Transformer模型的優(yōu)勢是模型的學(xué)習(xí)性能而不是模型參數(shù)的數(shù)量。

將編碼動態(tài)聚合模塊和并行交叉注意力模塊分別應(yīng)用XLNet-Decoder模型后，均比XLNet-Decoder模型的BLEU值有一定的提高。當(dāng)編碼動態(tài)聚合模塊與并行交叉注意力模塊同時應(yīng)用于XLNet-Decoder模型（即XLNet-Transformer）后，實驗結(jié)果優(yōu)于其他實驗組，比傳統(tǒng)Transformer模型提高了6.41，說明兩個模塊在聯(lián)合使用時的有效性，表明了編碼動態(tài)聚合模塊和并行交叉注意力模塊在低資源數(shù)據(jù)集下對提高翻譯模型性能都起到了重要的作用。

3.7 “漸進(jìn)式解凍”策略的優(yōu)化訓(xùn)練

為探索提出的XLNet-Transformer模型在訓(xùn)練過程中使用提出的“漸進(jìn)式解凍”優(yōu)化策略對翻譯模型性能的影響，設(shè)計了如表7所示的實驗。由表4可以得出，提出的XLNet-Transformer模型直接微調(diào)的較優(yōu)學(xué)習(xí)率為5×10-5，基線模型Transformer的原始學(xué)習(xí)率為3×10-4，因此本文實驗主要對比的學(xué)習(xí)率為5×10-5和3×10-4。使用“漸進(jìn)式解凍”的策略訓(xùn)練XLNet-Transformer模型的實驗結(jié)果如表7所示，粗體值表示最佳結(jié)果，#表示epoch數(shù)。

由實驗結(jié)果可以看出，XLNet-Transformer模型先設(shè)置學(xué)習(xí)率為5×10-5進(jìn)行凍結(jié)編碼器訓(xùn)練模型至收斂，BLEU分?jǐn)?shù)可以達(dá)到11.64，再設(shè)置學(xué)習(xí)率為3×10-4進(jìn)行解凍微調(diào)，卻發(fā)現(xiàn)BLEU分?jǐn)?shù)為0.21，模型不收斂，說明需要梯度更新的參數(shù)太多而不適合太大的學(xué)習(xí)率。而將學(xué)習(xí)率對調(diào)，先設(shè)置學(xué)習(xí)率為3×10-4進(jìn)行凍結(jié)編碼器訓(xùn)練模型至收斂得到10.98的BLEU，再設(shè)置學(xué)習(xí)率為5×10-5進(jìn)行解凍微調(diào)，XLNet-Transformer的BLEU達(dá)到了23.78，而直接采用3×10-4進(jìn)行訓(xùn)練模型不收斂，這體現(xiàn)了在不同訓(xùn)練階段需要適合的學(xué)習(xí)率，證明了使用漸進(jìn)式解凍方法的有效性。當(dāng)凍結(jié)或者解凍學(xué)習(xí)率都設(shè)置為5×10-5時，在第59（27+32）個epoch達(dá)到了最優(yōu)的24.26，比直接微調(diào)減少了11個epoch，BLEU還提升了0.34。這表明在模型的分階段訓(xùn)練中，經(jīng)過逐步解凍凍結(jié)層，本文方法的性能得到了更為充分的釋放，驗證了“漸進(jìn)式解凍”方法的有效性。

3.8 漢-馬機(jī)器翻譯在不同規(guī)模語料上的翻譯質(zhì)量對比

為了研究本文方法在不同數(shù)量的漢-馬數(shù)據(jù)集上的翻譯質(zhì)量，本文從現(xiàn)有17.4 W訓(xùn)練集中分別隨機(jī)地抽取8W、11W、14W條漢-馬數(shù)據(jù)集作為獨立的實驗數(shù)據(jù)集，對比實驗結(jié)果如圖6所示。其中驗證集和測試集均保持一致。

從圖6不難看出，相較于基線Transformer模型，隨著訓(xùn)練集數(shù)量的減少，本文方法提升的幅度越明顯，翻譯質(zhì)量越高。證明通過本文方法能夠更好地補(bǔ)充在少量數(shù)據(jù)場景下缺乏的特征表示，從而提升了漢-馬低資源神經(jīng)機(jī)器翻譯的性能，驗證了本文模型在低資源場景下的漢-馬NMT任務(wù)中的有效性。

3.9 模型翻譯效果的案例分析

為了更直觀地比較各個模型的翻譯效果，本實驗選取一個漢語和馬來語的待翻譯語句和參考譯文作為案例分析的實驗樣本。各個模型的翻譯效果對比如表8所示。其中，相同顏色的標(biāo)注代表句子的語義相近（參見電子版）。

通過表8的案例分析可以清晰地看到各個模型的翻譯效果。RNN-NMT出現(xiàn)了重復(fù)翻譯（如perlu、enaman等）和大部分的少翻譯問題，導(dǎo)致翻譯結(jié)果不準(zhǔn)確；CNN-NMT出現(xiàn)了少翻譯的問題（如缺少“健康的生活方式”和“共同影響”等翻譯），未能準(zhǔn)確傳達(dá)句子的完整含義；Transformer基線模型雖然能產(chǎn)生大致準(zhǔn)確的翻譯，但在表達(dá)流暢性上存在問題（如未表達(dá)出對“情緒健康”的影響）；PhoBERT與本文方法的翻譯效果相似，但在流暢性和完整性方面略有不足；本文方法在案例中幾乎能夠準(zhǔn)確、流暢地傳達(dá)句子的含義（如相比PhoBERT表達(dá)出了“健康”是“一種生活方式”），在整體翻譯的流暢和完整性上具備優(yōu)勢，充分驗證了本文方法在漢-馬低資源神經(jīng)機(jī)器翻譯場景下的可行性和有效性。

4 結(jié)束語

本文介紹了一種基于深度編碼注意力和“漸進(jìn)式解凍”的XLNet-Transformer漢-馬神經(jīng)機(jī)器翻譯方法，旨在解決漢-馬低資源翻譯任務(wù)中性能不佳的問題。通過重構(gòu)Transformer編碼器和動態(tài)聚合XLNet編碼模塊，有效地整合了各編碼層的特征，增強(qiáng)了模型的表征能力。在解碼器方面，引入了并行交叉注意力模塊進(jìn)一步提高了對上下文信息的關(guān)注，從而改善了翻譯結(jié)果的語義準(zhǔn)確性。此外，還采用“漸進(jìn)式解凍”優(yōu)化訓(xùn)練策略穩(wěn)定了模型的訓(xùn)練過程，優(yōu)化了源句和目標(biāo)句特征的整合。實驗結(jié)果表明，本文方法在漢-馬低資源翻譯任務(wù)中性能提升顯著，驗證了本文方法的有效性和創(chuàng)新性。

為了更好地應(yīng)對低資源語言對的挑戰(zhàn)，在未來的工作中將從探索預(yù)訓(xùn)練模型和無監(jiān)督進(jìn)行有效結(jié)合，從而更進(jìn)一步提升漢-馬神經(jīng)機(jī)器翻譯模型的性能，為漢-馬低資源神經(jīng)機(jī)器翻譯領(lǐng)域的發(fā)展帶來更多的貢獻(xiàn)。

參考文獻(xiàn)：

［1］黃家裕，劉連芳，鄧姿嫻，等. 東南亞語言及信息處理研究進(jìn)展［J］. 廣西科學(xué)院學(xué)報， 2018， 34（1）： 27-31. （Huang Jiayu， Liu Lianfang， Deng Zixian， et al. Progress of studies on southeast Asian languages and information processing thereof［J］. Journal of Guangxi Academy of Sciences， 2018，34（1）： 27-31.）

［2］王銘玉. “一帶一路”建設(shè)與語言戰(zhàn)略構(gòu)建［J］. 中國外語教育， 2017（1）： 3-7，99. （Wang Mingyu. “Belt and Road” construction and language strategy construction［J］. Foreign Language Education in China， 2017（1）： 3-7，99. ）

［3］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 6000-6010.

［4］Yang Zhilin， Dai Zihang， Yang Yiming， et al. XLNet： generalized autoregressive pretraining for language understanding［C］//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2019： 5753-5763.

［5］Hujon A V， Singh T D， Amitab K. Transfer learning based neural machine translation of English-Khasi on low-resource settings［J］. Procedia Computer Science， 2023，218： 1-8.

［6］Xing Xiaolin， Hong Yu， Xu Minhan， et al. Taking actions separately： a bidirectionally-adaptive transfer learning method for low-resource neural machine translation［C］//Proc of the 29th International Conference on Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2022： 4481-4491.

［7］Li Zhaocong， Liu Xuebo， Wong D F， et al. ConsistTL： modeling consistency in transfer learning for low-resource neural machine translation［C］//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2022： 8383-8394.

［8］Zhuang Yimeng， Tu Mei. Pretrained bidirectional distillation for machine translation［C］//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： Association for Computational Linguistics， 2023：1132-1145.

［9］Bahdanau D， Cho K H， Bengio Y. Neural machine translation by jointly learning to align and translate［EB/OL］. （2016-05-19）. https：//arxiv.org/pdf/1409.0473.pdf.

［10］Gehring J， Auli M， Grangier D， et al. Convolutional sequence to sequence learning［C］//Proc of the 34th International Conference on Machine Learning.［S.l.］： JMLR.org， 2017： 1243-1252.

［11］Chen Xi， Wu Linhui， Zhang Yuanhao. Enhancing use of BERT information in neural machine translation with masking-BERT attention［C］//Proc of the 3rd International Conference on Artificial Intel-ligence， Automation， and High-Performance Computing.［S.l.］： SPIE， 2023： 795-808.

［12］Liu H I， Chen Weilin. X-Transformer： a machine translation model enhanced by the self-attention mechanism［J］. Applied Sciences， 2022，12（9）： 4502.

［13］Devlin J， Chang Mingwei， Lee K， et al. BERT： pre-training of deep bidirectional transformers for language understanding［EB/OL］. （2019-05-24）. https：//arxiv.org/pdf/1810.04805.pdf.

［14］Wang Dongsheng， Wang Shaoyong. SE-Former： incorporating sentence embeddings into Transformer for low-resource NMT［J］. Electronics Letters， 2023，59（11）： e12840.

［15］Guo Junliang， Zhang Zhirui， Xu Linli， et al. Adaptive adapters： an efficient way to incorporate BERT into neural machine translation［J］. IEEE/ACM Trans on Audio， Speech， and Language Proces-sing， 2021， 29： 1740-1751.

［16］Weng Rongxiang， Yu Heng， Huang Shujian， et al. Acquiring know-ledge from pre-trained model to neural machine translation［C］//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 9266-9273.

［17］Rothe S， Narayan S， Severyn A. Leveraging pre-trained checkpoints for sequence generation tasks［J］. Trans of the Association for Computational Linguistics， 2020， 8： 264-280.

［18］Radford A， Wu J， Child R， et al. Language models are unsupervised multitask learners［EB/OL］. （2019）.https：//cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.

［19］Zhu Jinhua， Xia Yingce， Wu Lijun， et al. Incorporating BERT into neural machine translation［EB/OL］. （2020-02-17）. https：//arxiv.org/pdf/2002.06823.pdf.

［20］Vu V H， Nguyen Q P， Tunyan E V， et al. Improving the perfor-mance of Vietnamese-Korean neural machine translation with contextual embedding［J］. Applied Sciences， 2021，11（23）： 11119.

［21］Yan Rong， Li Jiang， Su Xiangdong， et al. Boosting the Transformer with the BERT supervision in low-resource machine translation［J］. Applied Sciences， 2022，12（14）： 7195.

［22］Imamura K， Sumita E. Recycling a pre-trained BERT encoder for neural machine translation［C］//Proc of the 3rd Workshop on Neural Generation and Translation. Stroudsburg， PA： Association for Computational Linguistics， 2019： 23-31.

［23］Shi Fan， Kai Shaofeng， Zheng Jinghua， et al. XLNet-based prediction model for CVSS metric values［J］. Applied Sciences， 2022，12（18）： 8983.

［24］Wang Chenglong， Zhang Fenglei. The performance of improved XLNet on text classification［C］//Proc of the 3rd International Confe-rence on Artificial Intelligence and Electromechanical Automation.［S.l.］： SPIE， 2022： 154-159.

［25］Zamani N A M， Liew J S Y， Yusof A M. XLNET-GRU sentiment regression model for cryptocurrency news in English and Malay［C］//Proc of the 4th Financial Narrative Processing Workshop. Stroudsburg， PA： Association for Computational Linguistics， 2022： 36-42.

［26］Mohtaj S， Mller S. On the importance of word embedding in automated harmful information detection［C］//Proc of the 25th International Conference on Text， Speech， and Dialogue. Berlin： Springer-Verlag， 2022： 251-262.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度編碼注意力的XLNet-Transformer漢-馬低資源神經(jīng)機(jī)器翻譯優(yōu)化方法