李京諭,馮 洋
(1. 中國科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049)
神經(jīng)機(jī)器翻譯(neural machine translation, NMT)是目前主流的一種機(jī)器翻譯建模方法[1-3],利用神經(jīng)網(wǎng)絡(luò)搭建翻譯模型,并采用端到端(end-to-End)的方式進(jìn)行優(yōu)化。神經(jīng)機(jī)器翻譯提出至今,主要的關(guān)注點(diǎn)都在于句子級(jí)的翻譯,即給定一個(gè)段落,翻譯模型逐句進(jìn)行翻譯,句子與句子之間是相互獨(dú)立的,這忽略了篇章上下文信息在翻譯過程中的影響。一方面,在翻譯一個(gè)完整的段落時(shí),句子與句子之間需要保持一致和連貫,如果忽略篇章上下文的信息,則可能造成語義不連貫、語句不通順的現(xiàn)象。另一方面,篇章上下文信息可以提供給句子一些輔助信息,在翻譯的過程中減少句子存在的歧義問題。
神經(jīng)機(jī)器翻譯中根據(jù)注意力機(jī)制對(duì)源語言句子中的所有詞語生成對(duì)齊概率,這種對(duì)所有詞語進(jìn)行計(jì)算的方式被稱為“軟關(guān)注”(soft attention)。在篇章級(jí)別的機(jī)器翻譯中,篇章中的上下文信息有篇幅長(zhǎng)、信息量多的特點(diǎn),但在實(shí)際情況下,對(duì)翻譯句子有幫助的篇章信息往往十分有限。在篇章信息存在大量冗余的情況下,采用傳統(tǒng)的注意力機(jī)制在篇章機(jī)器翻譯中很難從中提取對(duì)翻譯有實(shí)際幫助的信息,這在篇章機(jī)器翻譯中是一個(gè)不可忽視的問題。針對(duì)篇章信息冗余的現(xiàn)象,本文提出一種“硬關(guān)注”(hard attention)的方式計(jì)算注意力,并應(yīng)用在篇章機(jī)器翻譯的任務(wù)上?!败涥P(guān)注”的方式計(jì)算注意力時(shí),每個(gè)輸入對(duì)應(yīng)的隱狀態(tài)都參與了權(quán)重計(jì)算,這種方法便于訓(xùn)練中梯度的反向傳播。對(duì)應(yīng)地,我們提出在對(duì)篇章信息進(jìn)行注意力計(jì)算時(shí),只賦予0 和1 這兩種權(quán)重,這也使得模型難以進(jìn)行梯度更新。因此,我們?cè)谄路g中通過強(qiáng)化學(xué)習(xí)[4]對(duì)硬關(guān)注模型梯度更新。在這里,引入強(qiáng)化學(xué)習(xí)有兩個(gè)目的。其一是由于硬關(guān)注機(jī)制在離散的信號(hào)中梯度無法回傳。通過強(qiáng)化學(xué)習(xí)的方法,我們可以獲得注意力機(jī)制的獎(jiǎng)勵(lì)信號(hào),從而對(duì)模型進(jìn)行梯度更新。其二是由于求解注意力本身是一個(gè)無監(jiān)督、無標(biāo)簽的問題,所以無法采用有監(jiān)督的任務(wù)中神經(jīng)網(wǎng)絡(luò)的損失函數(shù)對(duì)注意力進(jìn)行建模,而強(qiáng)化學(xué)習(xí)的方法可以解決這個(gè)問題。
本文提出了一種聯(lián)合注意力機(jī)制,將硬關(guān)注和軟關(guān)注兩種注意力機(jī)制相結(jié)合,共同在篇章級(jí)機(jī)器翻譯模型中對(duì)篇章上下文建模。聯(lián)合注意力機(jī)制的關(guān)鍵思想是通過“hard”的方法篩選出對(duì)翻譯當(dāng)前句子有幫助的部分篇章上下文的相關(guān)狀態(tài),在翻譯的每一步對(duì)候選狀態(tài)用“soft”的方式進(jìn)一步提取篇章信息,通過兩種注意力模型結(jié)合的方式得到每一步的篇章上下文的向量表示。利用在原始的神經(jīng)機(jī)器翻譯模型中融入篇章信息,構(gòu)成一個(gè)針對(duì)篇章數(shù)據(jù)的神經(jīng)機(jī)器翻譯模型。在兩個(gè)不同領(lǐng)域數(shù)據(jù)集上的實(shí)驗(yàn)表明,通過聯(lián)合注意力機(jī)制引入篇章信息的方法對(duì)機(jī)器翻譯模型的性能有明顯的提升。
注意力機(jī)制被提出以來,已廣泛應(yīng)用到了包括自然語言處理在內(nèi)的許多研究領(lǐng)域。雖然注意力機(jī)制最初是被用在機(jī)器翻譯領(lǐng)域,但隨后在各種任務(wù)上都占有一席之地,針對(duì)注意力的改進(jìn)也一直是研究的熱點(diǎn)。在機(jī)器翻譯中,許多研究針對(duì)注意力機(jī)制提出優(yōu)化和改進(jìn)。針對(duì)上下文信息較長(zhǎng)的情況下注意力機(jī)制對(duì)齊困難的現(xiàn)象,Luong等[5]提出了局部注意力(local attention)機(jī)制,在計(jì)算注意力尋找源端對(duì)齊信息的時(shí)候,局部注意力僅對(duì)一個(gè)窗口范圍內(nèi)的詞進(jìn)行分布式表示,而不是對(duì)整個(gè)句子的所有源端表示做加權(quán)求和,通過一個(gè)位置對(duì)齊參數(shù)計(jì)算當(dāng)前時(shí)刻對(duì)應(yīng)注意力的位置,然后對(duì)一個(gè)固定大小的窗口范圍內(nèi)所有的隱狀態(tài)進(jìn)行權(quán)重計(jì)算。Vaswani等[3]提出的自注意力(self-attention)和多頭注意力(multi-head attention)也是對(duì)注意力機(jī)制的改進(jìn)形式。
近年來,篇章級(jí)機(jī)器翻譯逐漸成為機(jī)器翻譯領(lǐng)域里的一個(gè)研究熱點(diǎn)。Wang等[6]首先嘗試在神經(jīng)機(jī)器翻譯模型中引入篇章信息,在RNNSearch 模型的基礎(chǔ)上利用層次化的循環(huán)神經(jīng)網(wǎng)絡(luò)建模篇章信息,采用兩個(gè)級(jí)別的RNN 分別對(duì)詞向量和句子向量進(jìn)行編碼,得到代表整個(gè)篇章信息的向量表征。Jean等[7]在RNNSearch模型中加入一套額外的編碼器和注意力機(jī)制,將篇章的前一個(gè)句子的信息引入神經(jīng)機(jī)器翻譯模型中。Tu等[8]為篇章信息設(shè)計(jì)了一個(gè)類似高速緩存(cache)的結(jié)構(gòu),Maruf等[9]采用額外的記憶單元(memory networks)存儲(chǔ)篇章信息,以擴(kuò)大對(duì)篇章信息的利用范圍。在基于自注意力機(jī)制的Transformer 模型的基礎(chǔ)上,Miculicich等[10]實(shí)現(xiàn)了基于多頭注意力機(jī)制的層次化網(wǎng)絡(luò),分別對(duì)篇章進(jìn)行詞級(jí)別和句子級(jí)別的表示。Zhang等[11]在Transformer 模型中加入一個(gè)額外的篇章信息編碼器,對(duì)篇章中源端的歷史句子進(jìn)行編碼。Xiong等[12]提出了一種多輪解碼方案,將篇章一致性作為強(qiáng)化學(xué)習(xí)的一個(gè)獎(jiǎng)勵(lì)函數(shù)來優(yōu)化模型。
其中,y 給定一個(gè)源端序列x=(x1,x2,…,xI),I表示源端句子的長(zhǎng)度。由于注意力機(jī)制在建模中丟失了時(shí)序信息,在Transformer中采用了一個(gè)Positional Encoding層擬合了位置編碼函數(shù)來模擬詞語序列的時(shí)序信息,如式(2)~式(3)所示。 通過詞向量和Positional Encoding層相加的方式,可以得到源端語言句子x的向量表示Ex=[E(x1);…;E(xl)]∈Rdmodel×l,dmodel表示模型的隱層單元個(gè)數(shù)大小。 Transformer編碼器由Nc層相同的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成,每一層都由一個(gè)多頭注意力子層和一個(gè)前向神經(jīng)網(wǎng)絡(luò)子層組成。多頭注意力模塊對(duì)源語言輸入序列之間的依賴關(guān)系建模,捕獲源語言句子中的內(nèi)部結(jié)構(gòu),編碼器中第n層計(jì)算如式(4)所示。 其中,A(n)∈Rdmodel×l表示第n層多頭注意力模塊的隱狀態(tài),H(n-1)表示第n-1層編碼器的隱狀態(tài)。當(dāng)n=1時(shí),第一層編碼器的輸入為H(0)=Ex。MultiHead(Q,K,V)表示多頭注意力函數(shù),將輸入映射到h個(gè)不同的子空間進(jìn)行注意力的計(jì)算,這里Q=K=V用作計(jì)算自注意力。由于Transformer模型使用深層次的網(wǎng)絡(luò)結(jié)構(gòu),在每?jī)蓚€(gè)子層之間都采用殘差結(jié)構(gòu)(Add)[13]和對(duì)層的規(guī)范化(LayerNorm)[14]來提升模型的能力,為簡(jiǎn)便起見,后文在書寫中省略這一過程,如式(5)所示。 第二個(gè)子層是前饋網(wǎng)絡(luò)層FFN(·),加強(qiáng)編碼器每個(gè)位置的表示能力。形式如式(6)所示。 其中,W1∈Rdmodel×dff、W2∈Rdff×dmodel分別表示可訓(xùn)練的參數(shù)矩陣。 對(duì)目標(biāo)端序列y=(y1,y2,…,yJ),J表示目標(biāo)端句子的長(zhǎng)度,通過目標(biāo)端的詞向量和Positional Encoding層,得到的向量表示Ey=[E(y1),…,E(yJ)]∈Rdmodel×J。 解碼器由Nc層相同的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成,每一層都由兩個(gè)多頭注意力子層和一個(gè)前饋網(wǎng)絡(luò)子層組成,如式(8)~式(9)所示。 第一個(gè)多頭注意力子層計(jì)算自注意力,對(duì)目標(biāo)端序列之間的依賴關(guān)系建模。解碼器的第一層輸入為S(0)=Ey。第二個(gè)多頭注意力子層用于建模目標(biāo)語言與源端語言之間的依賴關(guān)系,多頭注意力的輸入為編碼器最頂層的隱狀態(tài)(K=V)。最后通過前饋網(wǎng)絡(luò)子層,加強(qiáng)解碼器的表示能力,如式(10)所示。 其中,S(n)∈Rdmodel×J為第n層解碼器的隱狀態(tài)(n=1,…,Nc)。 將解碼器頂層的隱狀態(tài)S(Nc)=(s1,…,sJ)映射到目標(biāo)端詞表的空間,經(jīng)過softmax函數(shù)計(jì)算得到對(duì)目標(biāo)端的概率分布,對(duì)第j個(gè)位置,如式(11)所示。 其中,WO∈R|Vy|×dmodel是一個(gè)參數(shù)矩陣,Vy表示目標(biāo)端詞表,sj∈Rdmodel×1表示解碼器頂層SNc第j個(gè)位置的隱狀態(tài)。 (12) 其中,X 前人的研究工作中[6-7,11],由于目標(biāo)端依次解碼帶來的誤差累積問題,目標(biāo)端的篇章信息Y (13) 我們提出的模型如圖1所示,這里只示意了模型的編碼器結(jié)構(gòu),模型的解碼器與原始Transformer模型中相同,在圖中沒有給出具體的細(xì)節(jié)描述。聯(lián)合注意力機(jī)制分為硬關(guān)注和軟關(guān)注兩個(gè)部分。其中,硬關(guān)注是對(duì)篇章上下文和源端句子之間的關(guān)系建模,相當(dāng)于從上下文中選擇一個(gè)子集,能夠?yàn)榉g當(dāng)前句子篩選出所有需要的篇章上下文的部分。軟關(guān)注在源端句子的每一個(gè)位置對(duì)硬關(guān)注選擇的集合進(jìn)行更進(jìn)一步的計(jì)算,從而動(dòng)態(tài)地獲得翻譯不同位置時(shí)篇章信息的向量表示。 圖1 基于聯(lián)合注意力機(jī)制的編碼器結(jié)構(gòu) 其中,H(doc)∈Rdmodel×L為篇章上下文的向量表示,L表示篇章信息的長(zhǎng)度。 聯(lián)合注意力模型中,根據(jù)源語言句子和篇章上下文的向量表示計(jì)算注意力,硬關(guān)注將注意力作為采樣的概率來選擇上下文的部分區(qū)域,可以用Attentionhard函數(shù)表示,如式(16)所示。 其中,D為聯(lián)合注意力模型得到的篇章上下文的隱狀態(tài)表示。最后將篇章信息和源語言編碼融合起來作為編碼器的最終表示,如式(18)所示。 圖2 聯(lián)合注意力中的硬關(guān)注模塊 如圖2所示,采用兩個(gè)前向網(wǎng)絡(luò)分別將Hcur和Hdoc映射到不同的空間內(nèi),如式(20)~式(21)所示。 其中,Wp∈R2×dmodel為參數(shù)矩陣,Pz(zl)表示對(duì)zl的概率分布。由此,可以求解整個(gè)標(biāo)簽序列z=z1,…,zL的概率,如式(24)所示。 (24) 圖3 聯(lián)合注意力中的軟關(guān)注模塊和上下文門控單元 硬關(guān)注模塊篩選出與翻譯當(dāng)前句子相關(guān)的向量集合,然而,不同的篇章上下文向量在翻譯的每一個(gè)時(shí)間步的作用都占有不同的權(quán)重。因此,我們?cè)O(shè)計(jì)了軟關(guān)注模塊,如圖3所示,計(jì)算上下文表示C和Hcur之間的依賴關(guān)系,從而得到翻譯的每一個(gè)時(shí)間步中相關(guān)的篇章信息向量。 (25) di=FFN(MultiHead(qi,C,C)) (26) 其中,fq(·)是一個(gè)線性變換函數(shù),qi是用于計(jì)算多頭注意力的Q。MultiHead(·)表示多頭注意力函數(shù),F(xiàn)FN(·)表示一個(gè)前饋網(wǎng)絡(luò)。 在翻譯當(dāng)前句的每個(gè)位置時(shí),對(duì)篇章信息的依賴程度都不相同。因此,獲得篇章上下文的向量表示后,通過一個(gè)門控單元(gate)[16]學(xué)習(xí)句子與和篇章信息之間的關(guān)聯(lián),動(dòng)態(tài)地控制句子信息和篇章信息對(duì)翻譯的影響,如圖3所示。 其中,Wh、Wd分別表示參數(shù)矩陣。λi在經(jīng)過sigmoid函數(shù)計(jì)算后輸出在0到1之間,定義了篇章信息通過的程度。 在本文提出的篇章翻譯模型中,參數(shù)可以分為兩個(gè)部分: 硬關(guān)注模塊的θr和其余所有部分的θs。 由于硬關(guān)注模塊中存在離散的過程,其目標(biāo)函數(shù)是不可微分的,對(duì)參數(shù)θr的優(yōu)化采用策略梯度算法??梢哉J(rèn)為硬關(guān)注模型為強(qiáng)化學(xué)習(xí)中的智能體,實(shí)際上是一個(gè)策略網(wǎng)絡(luò),其動(dòng)作空間的大小為2,每一步可以執(zhí)行選中或者未選中兩種動(dòng)作。智能體根據(jù)全局信號(hào)做出決策,在智能體執(zhí)行一系列動(dòng)作之后,收到一個(gè)環(huán)境中得到的反饋信號(hào)。這里,我們將翻譯模型生成目標(biāo)譯文的翻譯概率作為獎(jiǎng)勵(lì),對(duì)待翻譯的數(shù)據(jù)對(duì)(x,y)和對(duì)應(yīng)的篇章上文X 參數(shù)θr的優(yōu)化學(xué)習(xí)被建模為通過策略梯度方法(即REINFORCE算法)解決的強(qiáng)化學(xué)習(xí)問題。訓(xùn)練硬關(guān)注的總體目標(biāo)是選擇部分上下文的同時(shí)保留與翻譯相關(guān)的信息,其目標(biāo)函數(shù)是得到獎(jiǎng)勵(lì)函數(shù)的最大期望,通過翻譯概率得到,如式(30)所示。 對(duì)其余參數(shù)θs,采用原始的端到端的方式直接通過反向傳播來進(jìn)行優(yōu)化。使用交叉熵作為損失函數(shù),其優(yōu)化目標(biāo)如式(31)所示。 硬關(guān)注模塊的訓(xùn)練過程中將翻譯模型輸出的概率作為其獎(jiǎng)勵(lì)函數(shù),而在翻譯模型的其余參數(shù)θs的訓(xùn)練中,同樣依賴于硬關(guān)注模塊的輸出。因此,參數(shù)θr和θs兩個(gè)部分的優(yōu)化是彼此依賴的,如何進(jìn)行有效的訓(xùn)練是本文中的一大難點(diǎn)。 在實(shí)際的訓(xùn)練過程中,為了降低訓(xùn)練難度,采用預(yù)訓(xùn)練(pre-train)和交替訓(xùn)練(cross-train)的方式。首先基于最大似然估計(jì)的標(biāo)準(zhǔn)訓(xùn)練Transformer模型直至收斂,如式(32)所示。 這樣,模型能具有相對(duì)完整的表示能力。在此基礎(chǔ)上,對(duì)我們提出的模型采用交替訓(xùn)練的方式,對(duì)兩個(gè)部分的參數(shù)分別進(jìn)行訓(xùn)練,訓(xùn)練中需要把另一部分參數(shù)固定。對(duì)于θs的優(yōu)化,硬關(guān)注模型生成完整的序列之后,才能得到在翻譯中使用的篇章信息,從而通過翻譯概率計(jì)算其獎(jiǎng)勵(lì),因此在采用式更新中,通過蒙特卡洛搜索(Monte-Carlo search)的方式得到選擇動(dòng)作序列。對(duì)參數(shù)θs進(jìn)行優(yōu)化時(shí),也需要通過硬關(guān)注生成完整的選擇序列,采用柱搜索(beam search)的方法得到完整序列,與機(jī)器翻譯中柱搜索方式略微不同之處在于,這里生成一個(gè)定長(zhǎng)的決策序列z=(z1,…,zL),其長(zhǎng)度與篇章上下文相同。由于硬關(guān)注模型的動(dòng)作空間非常小(選擇/不選擇),這里柱搜索的窗口設(shè)置為2。 我們?cè)谥杏C(jī)器翻譯任務(wù)上驗(yàn)證提出的模型,分別使用了兩個(gè)不同領(lǐng)域的篇章機(jī)器翻譯語料訓(xùn)練模型,統(tǒng)計(jì)信息如表1所示。其中,TED演講數(shù)據(jù)集(TED Talks),來自于IWSLT(international workshop on spoken language translation)國際口語機(jī)器翻譯評(píng)測(cè)大賽2014年的評(píng)測(cè)活動(dòng)(1)https://wit3.fbk.eu,數(shù)據(jù)集收錄了TED大會(huì)中的演講稿。我們使用dev2010作為開發(fā)集驗(yàn)證模型,tst2010—2013作為測(cè)試集檢驗(yàn)?zāi)P妥罱K的效果。第二個(gè)數(shù)據(jù)集是中英字幕數(shù)據(jù)集(TVSUB)[17],適用于研究多輪對(duì)話、篇章翻譯等具有篇章上下文的任務(wù),由影視劇的字幕匯編而成(2)數(shù)據(jù)來源于以下兩個(gè)字幕網(wǎng)站: http://www.zimuzu.tv, http://assrt.net。。在測(cè)試集中,每一句原文都有三句對(duì)應(yīng)的參考譯文。 對(duì)于譯文的質(zhì)量評(píng)估,使用大小寫不敏感的BLEU-4[18]作為評(píng)價(jià)指標(biāo),本文采用multi-bleu腳本進(jìn)行計(jì)算。 表1 數(shù)據(jù)集統(tǒng)計(jì)信息 對(duì)訓(xùn)練數(shù)據(jù),在漢語端使用ICTCLAS(3)http://ictclas.nlpir.org進(jìn)行了分詞預(yù)處理,英語端進(jìn)行了詞法預(yù)處理和小寫化。針對(duì)神經(jīng)翻譯面對(duì)的詞匯數(shù)據(jù)稀疏問題,在實(shí)驗(yàn)中分別采用詞和字節(jié)對(duì)編碼[19](byte pair encoding,BPE)作為基本的翻譯單元。以詞為翻譯單元的實(shí)驗(yàn),漢語端和英文端都采用30K的詞表大小,在TED演講數(shù)據(jù)集上分別覆蓋98.6%和99.3%的源端和目標(biāo)端文本,在TVSUB字幕數(shù)據(jù)集上分別覆蓋98.2%和99.4%的源端和目標(biāo)端文本。以字節(jié)對(duì)編碼為翻譯單元的實(shí)驗(yàn),BPE單元的詞匯表設(shè)置為16K,在兩個(gè)數(shù)據(jù)集上的訓(xùn)練數(shù)據(jù)中文本覆蓋率均為100%。 我們采用了Transformer Base模型的配置,詞向量維度和注意力計(jì)算的隱層單元個(gè)數(shù)都是512,前饋網(wǎng)絡(luò)的中間層單元為2 048,多頭注意力的層數(shù)為8。為了避免過擬合,我們?cè)谀P椭惺褂昧薉ropout方法,分別在編碼器和解碼器每一層的前饋網(wǎng)絡(luò)上加入,Dropout的比率設(shè)置為0.1。參數(shù)的優(yōu)化使用了批量的隨機(jī)梯度下降方法,根據(jù)數(shù)據(jù)的長(zhǎng)度對(duì)數(shù)據(jù)進(jìn)行批處理,批處理的大小限制為1 024個(gè)token以內(nèi),學(xué)習(xí)率采用自適應(yīng)的Adam算法[20]進(jìn)行調(diào)整學(xué)習(xí)(σ=10-9,β1=0.9,β2=0.98)。 我們使用與基線系統(tǒng)相同的預(yù)熱(warm up)和衰減(decay)策略,設(shè)置warm-up的步長(zhǎng)為4 000。 在模型測(cè)試的過程中,柱搜索的窗口大小設(shè)置為10,為了減小候選譯文的長(zhǎng)度對(duì)序列得分的影響,設(shè)置長(zhǎng)度懲罰(length penalty)的系數(shù)α=0.6對(duì)候選譯文進(jìn)行重排序,選擇得分最大的作為最終輸出的譯文。 實(shí)驗(yàn)結(jié)果參照表2,展示了TED Talks和TVSUB兩個(gè)中英文數(shù)據(jù)集上的BLEU-4指標(biāo)結(jié)果。 表2 不同數(shù)據(jù)集上的BLEU-4指標(biāo) 對(duì)比基于聯(lián)合注意力機(jī)制的篇章機(jī)器翻譯模型和基線系統(tǒng)Transformer模型,可以看出該文提出的模型在TED Talks數(shù)據(jù)集上BLEU值提升了+0.80,在TVSUB數(shù)據(jù)集上提升了+0.49個(gè)BLEU。對(duì)數(shù)據(jù)分別采用字節(jié)對(duì)編碼進(jìn)行處理后,我們的模型在TED Talks數(shù)據(jù)集和TVSUB數(shù)據(jù)集上比Transformer系統(tǒng)分別提升了+0.47和+0.36個(gè)BLEU,表明基于聯(lián)合注意力機(jī)制的篇章機(jī)器翻譯模型在針對(duì)不同粒度的語言表示方法上都能夠提升機(jī)器翻譯模型的效果。 本文提出的模型和Transformer模型中采用字節(jié)對(duì)編碼(BPE)的方式對(duì)語料進(jìn)行處理,翻譯模型的性能均有提升,這說明字節(jié)對(duì)編碼可以增加詞匯表覆蓋率,改善神經(jīng)機(jī)器翻譯中數(shù)據(jù)稀疏的問題。在模型中采用字節(jié)對(duì)編碼處理后,本文提出模型的提升沒有對(duì)原始Transformer模型的提升明顯,表明模型融合篇章信息后提升了原始Transformer模型的表達(dá)能力,與字節(jié)對(duì)編碼緩解詞匯數(shù)據(jù)稀疏問題有所重合。 表3列出的實(shí)驗(yàn)結(jié)果為TED數(shù)據(jù)集上各系統(tǒng)的BLEU-4指標(biāo)。從中可以看出,基于RNNSearch的三個(gè)篇章級(jí)機(jī)器翻譯系統(tǒng)[6-8]BLEU值明顯低于基于Transformer模型改進(jìn)的篇章級(jí)翻譯系統(tǒng)[10]。 表3 與前人工作的實(shí)驗(yàn)結(jié)果對(duì)比 我們的模型在TED數(shù)據(jù)集上輸出的譯文BLEU值最高,在引入篇章信息的機(jī)器翻譯模型中超過了所有現(xiàn)有系統(tǒng)的表現(xiàn),達(dá)到了最優(yōu)效果。在這里,通過與這些篇章級(jí)機(jī)器翻譯系統(tǒng)的性能對(duì)比,進(jìn)一步證明了本文提出的基于聯(lián)合注意力機(jī)制的篇章機(jī)器翻譯模型的有效性。 在實(shí)驗(yàn)所用的TED和TVSUB數(shù)據(jù)集中,一個(gè)完整的篇章通常由上百個(gè)句子構(gòu)成,將所有的句子都作為篇章信息在建模的過程中對(duì)計(jì)算能力的要求非常高,而且在翻譯的過程中考慮所有的篇章信息也并不符合直覺。因此,我們需要探究篇章信息的長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響。為了探索篇章信息的長(zhǎng)度對(duì)所提出模型的影響,我們對(duì)不同長(zhǎng)度的篇章信息做對(duì)比實(shí)驗(yàn)。這里,篇章信息的長(zhǎng)度指篇章翻譯模型中建模篇章上下文句子的數(shù)量。 表4列出結(jié)果為TED數(shù)據(jù)集上不同篇章信息長(zhǎng)度下翻譯模型的BLEU-4指標(biāo)??梢钥闯?,在Transformer模型中引入篇章信息后,翻譯模型的性能均有提升。當(dāng)加入篇章句子數(shù)量為1時(shí),模型的性能明顯低于篇章長(zhǎng)度大的系統(tǒng)。隨著篇章長(zhǎng)度的增加,翻譯的性能基本穩(wěn)定,加入句子數(shù)量為3和5的兩個(gè)系統(tǒng)基本沒有差異。當(dāng)句子數(shù)量為7時(shí),系統(tǒng)的性能相比句子數(shù)量為3和5的系統(tǒng)略微有下降??傮w上,我們的模型可以在篇章信息較長(zhǎng)的情況下依然維持比較好的性能,證明了我們的方法處理大量冗余信息的有效性。 表4 不同篇章長(zhǎng)度下的實(shí)驗(yàn)結(jié)果 針對(duì)篇章級(jí)機(jī)器翻譯中篇幅長(zhǎng)、信息冗余的問題,本文提出了一種將硬關(guān)注和軟關(guān)注兩種注意力相結(jié)合的聯(lián)合注意力機(jī)制對(duì)篇章信息建模,并將其應(yīng)用在篇章級(jí)別的神經(jīng)機(jī)器翻譯模型中。在兩個(gè)不同領(lǐng)域的公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于聯(lián)合注意力機(jī)制引入篇章信息的方法對(duì)機(jī)器翻譯模型的翻譯效果均有明顯的提升。不同篇章長(zhǎng)度下的實(shí)驗(yàn)結(jié)果表明,本文提出的模型在處理長(zhǎng)篇章時(shí)依然能維持其翻譯的性能,證明本文提出的聯(lián)合注意力機(jī)制可以有效地處理冗余的篇章信息。 在篇章結(jié)構(gòu)的數(shù)據(jù)中,遠(yuǎn)距離的語義依賴關(guān)系是廣泛存在的。如何挖掘篇章中更多潛在語義信息以及語句之間的遞進(jìn)關(guān)系,為篇章翻譯提供更加準(zhǔn)確的語境信息,是一個(gè)值得我們?cè)谖磥淼墓ぷ髦羞M(jìn)一步探索的問題。2.1 編碼器
2.2 解碼器
3 基于聯(lián)合注意力的篇章機(jī)器翻譯
3.1 問題定義
3.2 基于強(qiáng)化學(xué)習(xí)的硬關(guān)注模塊
3.3 基于多頭注意力的軟關(guān)注模塊
3.4 上下文門控單元
3.5 模型的訓(xùn)練
4 實(shí)驗(yàn)與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)和指標(biāo)
4.2 實(shí)驗(yàn)細(xì)節(jié)
4.3 主要實(shí)驗(yàn)結(jié)果
4.4 與現(xiàn)有工作的對(duì)比
4.5 篇章長(zhǎng)度的影響
5 總結(jié)與展望