張學(xué)強,蔡東風(fēng),葉 娜,吳 闖
(沈陽航空航天大學(xué) 人機智能研究中心,遼寧 沈陽 110136)
神經(jīng)機器翻譯(neural machine translation,NMT)作為一種全新的機器翻譯方法,近年來獲得迅速發(fā)展。然而,神經(jīng)機器翻譯僅僅使用一個非線性的神經(jīng)網(wǎng)絡(luò)實現(xiàn)自然語言之間的轉(zhuǎn)換[1],相比統(tǒng)計機器翻譯,譯文質(zhì)量對句子長度更為敏感[2]。如何在神經(jīng)機器翻譯中將一個句子在盡量不損失語義信息的前提下,進行長度上的縮減和結(jié)構(gòu)上的簡化是一個值得探究的方向。
一般認為,自然語言中語義的基本單位是短語。因此,將句子級別的對齊和翻譯進行到亞句子(sub-sentence)的短語一級顯得尤為重要。句子中的實體和概念通??捎擅~短語(noun phrase,NP)來描述,其捆綁了一個相對完整的語義信息,具有豐富的句法功能,可在句中充當(dāng)主語和賓語等成分。最長名詞短語[3](maximal-length noun phrase,MNP)指不被其他任何名詞短語嵌套的名詞短語。與一般名詞短語相比,MNP具有更大的粒度,邊界特征較為明顯,有利于句子的整體結(jié)構(gòu)分析。采用分治策略處理MNP,既能在亞句子一級上獲得更精準(zhǔn)的翻譯,也在一定程度上將句子縮短為包含主干信息的句子框架。因此,準(zhǔn)確識別和翻譯MNP,是利用分治策略提升機器翻譯性能的一個有力手段。
針對神經(jīng)機器翻譯在長句翻譯任務(wù)上的不足,考慮到MNP的處理可以在一定程度上簡化句子結(jié)構(gòu),本文提出一種基于MNP分治策略的神經(jīng)機器翻譯方法。該方法基于一個“抽取—翻譯—重組”的MNP處理框架,旨在將MNP獨立處理帶來更高質(zhì)量的MNP和句子框架譯文的優(yōu)勢,與神經(jīng)機器翻譯學(xué)習(xí)能力強、譯文具有較高準(zhǔn)確度和流暢度等優(yōu)勢相結(jié)合,以達到提升譯文整體質(zhì)量的目的。
在自然語言中,短語作為語義的基本單位,具有重要的意義。將雙語短語等語言學(xué)知識融入機器翻譯中,一直是研究人員孜孜追求的目標(biāo)。
針對基于短語的統(tǒng)計機器翻譯方法未充分利用語言學(xué)知識、長距離調(diào)序效果不好的問題,丁鵬[4]等提出一種基于雙語句法短語的統(tǒng)計機器翻譯方法。首先,采用一種基于期望最大化(expectation maximization,EM)的算法來抽取雙語句法短語。然后,通過三種方法將短語應(yīng)用到統(tǒng)計機器翻譯系統(tǒng)中: (1)將雙語句法短語加入訓(xùn)練語料中,訓(xùn)練翻譯模型; (2)將其加入短語表中,計算短語的特征值; (3)增加一個句法短語特征到短語表中,表征其是否為句法短語。實驗結(jié)果表明,這三種方法得到的譯文BLEU分值分別比基線系統(tǒng)提升了0.23、0.41和0.64。丁鵬等人的方法盡管利用了雙語句法短語,但整體框架仍然是基于短語的統(tǒng)計機器翻譯方法,長距離調(diào)序效果不佳。
針對上述問題,Ren X等[5]提出一種簡化專利句子結(jié)構(gòu)以提高翻譯性能和后處理效率的方法。首先,采用一種基于統(tǒng)計方法的識別器,對句中的MNP進行識別。在中文樹庫CTB 5.1的專利語料上識別結(jié)果的F值達到62.28%。然后,對MNP進行分析,在識別正確與錯誤的MNP中,分別有97.92%和38.94%,有利于后續(xù)的翻譯過程。最后,在統(tǒng)計機器翻譯方法上分別使用自動方法和人工方法對系統(tǒng)進行評價。與基線系統(tǒng)相比,該系統(tǒng)得到的譯文BLEU分值提升了0.62;語義準(zhǔn)確度和流暢度分別提升0.18和0.17,翻譯效率提升了約100字/小時。該方法的不足在于,沒有使用雙語MNP擴展語料,以訓(xùn)練短語表、翻譯模型和調(diào)序模型。MNP作為句子的一部分,翻譯規(guī)則卻與句子不盡相同。導(dǎo)致訓(xùn)練得到的模型能較好地翻譯簡化后的句子,卻不能準(zhǔn)確翻譯MNP。
統(tǒng)計機器翻譯(statistical machine translation,SMT)主要存在三個挑戰(zhàn)[10]*實際上,引文中作者給出了六個挑戰(zhàn),這里只列舉其三。: (1)線性不可分; (2)缺乏合適的語義表示; (3)難以設(shè)計特征。而深度學(xué)習(xí)可以較好地緩解上述問題,因此完全基于深度學(xué)習(xí)的端到端神經(jīng)機器翻譯應(yīng)運而生,并獲得迅速發(fā)展。
研究人員通過將現(xiàn)有的方法和策略引入端到端的神經(jīng)網(wǎng)絡(luò),以實現(xiàn)翻譯性能的不斷提升。Sutskever等[11]首次將長短期記憶[12](long short-term memory,LSTM)引入到神經(jīng)機器翻譯,以緩解遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)訓(xùn)練時“梯度消失”的問題,并且在“編碼—解碼”(encoder-decoder)框架兩端同時采用遞歸神經(jīng)網(wǎng)絡(luò)。圖1給出了Sutskever等人提出的神經(jīng)機器翻譯模型。
圖1 端到端神經(jīng)機器翻譯,隱狀態(tài)e3作為句子向量c
在源端,對于句子X={x0,x1,x2,x3},編碼器遞歸地依據(jù)前一時刻隱狀態(tài)et-1和詞xt計算當(dāng)前時刻隱狀態(tài)et。直到掃描尾詞xn隨即完成了編碼過程,并將最后一個隱狀態(tài)en作為表示源語言句子的向量c,指導(dǎo)并約束后續(xù)解碼過程。et的計算如式(1)所示。
et=g(et-1,xt)
(1)
在目標(biāo)端,解碼器遞歸地依據(jù)向量c和已生成的目標(biāo)詞yt-1以及上一時刻隱狀態(tài)dt-1共同作用于當(dāng)前時刻隱狀態(tài)dt,如式(2)所示。
dt=h(dt-1,yt-1,c)
(2)
得到解碼器隱狀態(tài)dt后,目標(biāo)詞yt的概率分布可由式(3)得到。
p(yt|y (3) 其中,g、h和f為非線性函數(shù)。通過解碼器遞歸地從左至右逐一生成目標(biāo)詞,最終得到完整譯文Y={y0,y1,y2,y3}。盡管引入長短期記憶的神經(jīng)機器翻譯在性能上獲得大幅提升,卻面臨著實現(xiàn)準(zhǔn)確編碼的挑戰(zhàn)。因為不論句子長短,編碼器都要將其映射為一個固定維度的向量。 針對上述問題,Bengio等[13]提出了基于注意力(attention)的神經(jīng)機器翻譯。解碼器在生成目標(biāo)詞yi時,動態(tài)地注意源語言句中與之相關(guān)的上下文ci,而不再關(guān)注整個源語言句子。圖2給出了引入注意力機制的神經(jīng)機器翻譯模型。 圖2 基于注意力機制的神經(jīng)機器翻譯,動態(tài)生成上下文向量c 引入注意力的神經(jīng)機器翻譯的關(guān)鍵在于基于注意力的上下文向量c的生成。當(dāng)前時刻待生成詞yt在源端對應(yīng)的上下文向量ct由源語言隱狀態(tài)序列e={e0,e1,e2,e3}和注意力權(quán)重at加權(quán)求和得到,而注意力權(quán)重at由上一時刻解碼器隱狀態(tài)dt-1和源端隱狀態(tài)ej共同作用產(chǎn)生。如式(4)~(6)所示。 其中,m為非線性函數(shù)。得到當(dāng)前時刻上下文向量ct后,當(dāng)前時刻解碼器隱狀態(tài)dt與待生成詞yi的條件概率分布分別可由式(2)和式(3)求解。 盡管長短期記憶和注意力機制的引入能夠更好地處理長距離依賴,從而提升神經(jīng)機器翻譯的性能。然而,自然語言中句子長短不一、結(jié)構(gòu)復(fù)雜,通過單一神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)翻譯知識的方法受到限制。如何利用語言學(xué)知識結(jié)合分治策略對句子的各部分進行分治與整合,是一個值得研究的問題。 盡管神經(jīng)機器翻譯近年來獲得了迅速發(fā)展,但目前的方法主要是從數(shù)據(jù)中自動學(xué)習(xí)翻譯知識,沒有充分利用語言學(xué)知識顯式地指導(dǎo)翻譯過程。并且,神經(jīng)機器翻譯使用固定維度的向量表示變化長度的詞句,造成結(jié)構(gòu)復(fù)雜的長句翻譯效果不佳。 針對上述問題,本文提出一種基于MNP分治策略的神經(jīng)機器翻譯。該方法主要基于分治法的思想,采用一個“抽取—翻譯—重組”的MNP處理框架,將單個復(fù)雜長句的翻譯問題,轉(zhuǎn)化為一個或多個攜帶子句信息的MNP和維系主干信息的句子框架的翻譯問題,以實現(xiàn)翻譯性能的整體提升。 在分治策略中,通常將單個復(fù)雜問題轉(zhuǎn)化為多個相對簡單的問題,并分而治之。鑒于MNP在句中使用頻率高、句法功能豐富以及邊界易于識別等事實,本文主要基于 “抽取—翻譯—重組”的MNP處理框架以實現(xiàn)分治策略的神經(jīng)機器翻譯。表1給出了該方法的完整示例。 表1 “抽取—翻譯—重組”框架示例 在示例中,抽取MNP時在句子框架中保留特殊標(biāo)識“MNPi”(i=1,2,)。作為對比,本文還使用了在句子框架中保留MNP核心詞的方法。將在2.3節(jié)、2.4節(jié)和2.5節(jié)中逐一說明“抽取—翻譯—重組”框架的三個步驟,并對抽取MNP時保留特殊標(biāo)識或MNP核心詞的方法作出詳細論述。 本文采用神經(jīng)機器翻譯系統(tǒng)分別對MNP和句子框架進行翻譯。因此,雙語MNP語料庫的構(gòu)建是其中重要的一個環(huán)節(jié)。為保證訓(xùn)練和測試過程中MNP的抽取規(guī)則一致,本文沒有采用雙語MNP對齊算法進行抽取,而是采用一個“抽取+查表”的方法。步驟描述如下: (1) 使用分析器對源語言句子進行短語結(jié)構(gòu)句法分析,依據(jù)標(biāo)記匹配和括號對齊等規(guī)則抽取MNP。 (2) 訓(xùn)練并查找短語表,匹配其中與源語言MNP對齊分值最高的目標(biāo)語言MNP。 上述方法的優(yōu)勢在于每一步都可以加入規(guī)則條件,以獲得較高質(zhì)量的雙語MNP。本文在抽取源語言MNP以及查找短語表匹配其對應(yīng)的目標(biāo)語言MNP時,過濾掉長度小于2或包含符號、標(biāo)點等特殊字符的MNP。得到雙語MNP后,神經(jīng)機器翻譯系統(tǒng)的訓(xùn)練和測試過程如下: 首先,將雙語MNP分別加入訓(xùn)練數(shù)據(jù)集和開發(fā)數(shù)據(jù)集中,利用擴展后的數(shù)據(jù)集訓(xùn)練神經(jīng)機器翻譯模型。這一做法旨在得到能同時翻譯句子和MNP的神經(jīng)機器翻譯模型。 其次,對測試數(shù)據(jù)集進行同樣的短語結(jié)構(gòu)句法分析,抽取MNP的同時在句子框架中保留特殊標(biāo)識或MNP核心詞。 最后,分別對句子框架和MNP進行翻譯,將譯文重新組合以得到原句的完整翻譯。 圖3給出了基于“抽取—翻譯—重組”框架的神經(jīng)機器翻譯系統(tǒng)翻譯的過程??紤]到短句子譯文質(zhì)量原本較高,本文只對長度超過閾值L且可成功抽取MNP的句子采用基于“抽取—翻譯—重組”框架的分治策略進行處理。 圖3 神經(jīng)機器翻譯系統(tǒng)的“抽取—翻譯—重組”過程 抽取過程的核心任務(wù)是對句子進行短語結(jié)構(gòu)句法分析。考慮到抽取較短的MNP對縮減句子長度、降低句子結(jié)構(gòu)復(fù)雜度影響較小。因此,本文只對長度不小于2的MNP進行抽取。 抽取過程的另一個重要問題是,抽取MNP時在句子框架中保留何種標(biāo)記以實現(xiàn)更好的分治效果。本文主要嘗試以下兩種保留標(biāo)記的方法。 方法一采用“MNPi”(i=1,2,)作為句子框架中的特殊標(biāo)識,以保留MNP與句子框架中標(biāo)記的對齊關(guān)系。 方法二將MNP的核心詞保留在句子框架中。通常,MNP的尾詞為其核心詞。 兩種方法各有其優(yōu)勢和不足: 方法一盡管可以保留MNP和句子框架譯文的對齊關(guān)系,為后續(xù)的譯文重組過程帶來積極影響,但是將“MNPi”保留在句子框架中破壞了句子的流暢度,甚至改變了原本含義。相反地,方法二在句子框架中保留核心詞,保證了流暢度和語義完整性,從而能夠獲得較好的句子框架譯文。然而,核心詞卻無法直接對齊到句子框架譯文中的相應(yīng)位置。為此,需額外訓(xùn)練詞對齊信息,以在句子框架譯文中匹配核心詞譯文,對其進行替換。 采用雙語MNP擴展后的平行語料可訓(xùn)練得到神經(jīng)機器翻譯模型。圖4給出了神經(jīng)機器翻譯模型采用分治策略,對句法樹中的句子框架和MNP進行“分治”翻譯的過程。其中,下側(cè)虛線方框表示神經(jīng)機器翻譯模型對MNP“流離失所 家庭”與“現(xiàn)金 救助”的翻譯,上側(cè)虛線方框給出了對保留特殊標(biāo)識或核心詞的句子框架的翻譯。 圖4 神經(jīng)機器翻譯模型對MNP及句子框架的“分治”翻譯 重組過程主要是對句子框架和MNP的譯文進行重新組合,即將MNP譯文替換到句子框架譯文中的相應(yīng)位置,以獲得完整譯文。根據(jù)MNP抽取時保留的特殊標(biāo)識不同,重組過程中也包含以下兩種方法。 方法一使用第i個MNP譯文替換句子框架譯文中的特殊標(biāo)識“MNPi”; 方法二通過預(yù)先訓(xùn)練得到的詞對齊信息查找MNP核心詞的可能譯文,當(dāng)譯文出現(xiàn)在句子框架譯文中時,對其進行替換。 本文實驗主要針對中英翻譯任務(wù),語料來源于聯(lián)合國語料庫*https: //conferences.unite.un.org/UNCorpus中的中英雙語平行語料。其中,訓(xùn)練數(shù)據(jù)集共15 886 041句,實驗過程只隨機抽取部分語料。官方開發(fā)數(shù)據(jù)集和測試數(shù)據(jù)集各4 000句。 針對雙語MNP語料庫的構(gòu)建問題,本文隨機從訓(xùn)練語料中抽取150 000句中英雙語平行句對。首先,采用Berkeley Parser*https: //github.com/slavpetrov/berkeleyparser對長度超過閾值L=15的中文句子進行句法分析,采用NiuTrans*http: //www.niutrans.com/niutrans/NiuTrans.html開源系統(tǒng)訓(xùn)練短語表。然后,依據(jù)2.2節(jié)所述抽取方法和過濾規(guī)則,抽取中文MNP,并在短語表中查找其對應(yīng)英文MNP,對不符合條件的雙語MNP進行過濾。最后,使用雙語MNP擴展訓(xùn)練數(shù)據(jù)集和開發(fā)數(shù)據(jù)集。表2給出了實驗數(shù)據(jù)的相關(guān)信息。 表2 訓(xùn)練數(shù)據(jù)集與開發(fā)數(shù)據(jù)集 針對測試語料,同樣采用Berkeley Parser對長度超過閾值L=15的句子進行句法分析,并使用標(biāo)記匹配和括號對齊等規(guī)則的方法抽取MNP。表3給出了測試語料的相關(guān)信息。 表3 測試語料信息 從表3可以看出,相比于成功抽取出MNP的句子平均長度,MNP和句子框架的平均長度分別縮短了19.64和27.10。 本文主要在深度學(xué)習(xí)框架Theano上采用DL4MT*https: //github.com/nyu-dl/dl4mt-tutorial/開源代碼,搭建基于注意力機制的神經(jīng)機器翻譯系統(tǒng)。表4給出了實驗中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置及部分說明。 表4 網(wǎng)絡(luò)參數(shù)設(shè)置及說明 表4中,eos和UNK是置于詞表首位的特殊詞。將eos追加在句尾,表示句子結(jié)束。當(dāng)編碼器掃描到eos時結(jié)束編碼,同樣地,當(dāng)解碼器生成目標(biāo)詞eos時,終止解碼過程。由于網(wǎng)絡(luò)訓(xùn)練過程中softmax函數(shù)的計算復(fù)雜度較高,而其與詞表規(guī)模成正相關(guān),因此詞表大小受到限制??紤]到集外詞對神經(jīng)機器翻譯系統(tǒng)的性能影響較大[14],本文將集外詞統(tǒng)一替換為特殊詞UNK。 在網(wǎng)絡(luò)訓(xùn)練過程中,采用隨機梯度下降(stochastic gradient descent,SGD)算法進行參數(shù)更新。模型測試時,本文采用束搜索(beam search)算法生成最終譯文,束大小設(shè)置為10。 3.3.1 MNP抽取 本文采用一種基于MNP分治策略的神經(jīng)機器翻譯方法,因此,能否準(zhǔn)確識別MNP直接影響到系統(tǒng)的翻譯性能。本文從成功抽取MNP的1 924個句子中隨機抽取200句,并對句中的MNP進行人工標(biāo)注。通過比對系統(tǒng)的MNP抽取結(jié)果和人工標(biāo)注結(jié)果,可計算得到系統(tǒng)MNP識別的準(zhǔn)確率、召回率、F值,如表5所示。 表5 MNP識別結(jié)果 由表5可以看出,約27%的MNP識別存在錯誤。但邊界錯誤的MNP并不全都給后續(xù)的翻譯過程造成消極影響[5]。 3.3.2 句長敏感度 為驗證句子長度對于譯文質(zhì)量的影響,本文分別在基線系統(tǒng)和MNP分治系統(tǒng)上,對測試數(shù)據(jù)集中的句子按照不同的長度分布進行測試。其中,基線系統(tǒng)指未采用“抽取—翻譯—重組”的MNP處理框架的神經(jīng)機器翻譯系統(tǒng)。MNP分治系統(tǒng)包含兩種方法,即抽取MNP時在句子框架中保留特殊標(biāo)識“MNPi”與保留MNP核心詞。 本文采用NiuTrans①開源系統(tǒng)中集成的大小寫不敏感的4-gram BLEU方法對譯文質(zhì)量進行自動評價。如圖5所示,橫坐標(biāo)表示不同句長分布,縱坐標(biāo)表示譯文BLEU分值。 圖5 系統(tǒng)在不同句長分布上的翻譯性能 由圖5可以看出,隨著句子長度的增加,譯文質(zhì)量呈明顯下降趨勢。特別地,當(dāng)句子長度超過20后譯文質(zhì)量顯著下降,基線系統(tǒng)的譯文BLEU分值下降了7.23,保留特殊標(biāo)識“MNPi”方法和MNP核心詞方法的譯文BLEU分值分別下降了6.55和6.31。 具體來看,主要有三點結(jié)論: (1)當(dāng)句長小于20時,基線系統(tǒng)略優(yōu)于MNP分治系統(tǒng)。原因分析如下: 首先,神經(jīng)機器翻譯方法原本在短句上翻譯性能較好。其次,MNP分治系統(tǒng)在“抽取—翻譯—重組”框架的三個步驟中都存在一定的損失,當(dāng)這種損失與分治方法帶來的提升持平時,分治系統(tǒng)的優(yōu)勢表現(xiàn)得并不明顯。(2)當(dāng)句長超過20后,隨著句子長度的增大,MNP分治系統(tǒng)越來越表現(xiàn)出更優(yōu)的翻譯性能。尤其當(dāng)句長在80和100之間時,相比于基線系統(tǒng),保留特殊標(biāo)識“MNPi”和保留MNP核心詞的方法,譯文BLEU分值分別提升了3.10和5.75。(3)保留MNP核心詞的方法在翻譯性能上優(yōu)于保留特殊標(biāo)識“MNPi”的方法,且隨著句長的增大,優(yōu)勢愈發(fā)明顯。 3.3.3 翻譯性能 本文采用“抽取—翻譯—重組”的MNP處理框架,對句子進行短語結(jié)構(gòu)句法分析后抽取MNP,并保留特殊標(biāo)識或MNP核心詞與其他部分組成句子框架。表6給出了基線系統(tǒng)、保留特殊標(biāo)識“MNPi”以及保留MNP核心詞的三種神經(jīng)機器翻譯系統(tǒng)的譯文質(zhì)量。 表6 譯文質(zhì)量對比 由表6可以看出,基于“抽取—翻譯—重組”的MNP處理框架,抽取MNP時保留特殊標(biāo)識“MNPi”和保留MNP核心詞的方法在基線系統(tǒng)的基礎(chǔ)上,都獲得一定的提升。相比于基線系統(tǒng),保留“MNPi”的方法BLEU分值提升了0.36,保留MNP核心詞的方法BLEU分值提升了0.89。 在分治系統(tǒng)中,由于抽取MNP時在句子框架中保留了MNP的核心詞,在一定程度上提高了句子框架的流暢度和語義完整性,從而相比于保留“MNPi”,表現(xiàn)出更好的性能,譯文的BLEU分值提升了0.53。 本文針對當(dāng)前神經(jīng)機器翻譯方法的譯文質(zhì)量對句子長度敏感的問題,提出一種基于MNP分治策略的神經(jīng)機器翻譯方法。依據(jù)組塊分析和分治法的思想,對長句進行MNP識別和抽取,進一步對MNP和句子框架進行獨立翻譯,從而在一定程度上緩解了神經(jīng)機器翻譯對句子長度敏感的問題。 實驗結(jié)果表明,該方法通過對訓(xùn)練數(shù)據(jù)的擴展、翻譯前對MNP的識別和抽取、翻譯中對MNP和句子框架的分而治之、翻譯后對譯文的重組等策略給神經(jīng)機器翻譯帶來積極的影響。相對基線系統(tǒng)的方法,BLEU分值提升了0.89。 然而,該方法在MNP抽取,句子框架與MNP的譯文重組等方面都存在一定的損失,并且,諸如目標(biāo)語言MNP的單復(fù)數(shù)等問題尚待解決。下一步研究工作的重心擬定在以下兩個方面: 首先,將該方法泛化到其他類型的短語結(jié)構(gòu),以對目前方法做進一步擴充;其次,因為過程中涉及對句子的拆分與整合,應(yīng)更多地從語言學(xué)角度重新思考“抽取—翻譯—重組”的分治策略,以采取更優(yōu)的方法。 [1] Zhang J, Zong C. Deep neural networks in machine translation: An overview[J]. IEEE Intelligent Systems, 2015, 30(5): 16-25. [2] Cho K, Merrienboer B V, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]//arXio: 1409.1259.2014. [3] 蔡東風(fēng),趙奇猛,饒齊,等. 基于馬爾科夫邏輯網(wǎng)的中文專利最大名詞短語識別[J]. 中文信息學(xué)報, 2016, 30(4): 21-28. [4] 丁鵬. 基于雙語句法短語的統(tǒng)計機器翻譯研究[D]. 大連: 大連理工大學(xué)碩士學(xué)位論文, 2013. [5] Ren X, Wei Y, Hu R. Simplify sentence structure for improving human post-editing efficiency on Chinese-to-English patent machine translation[C]//Proceedings of 6th Workshp on Patent and Scientific Literature Translation (PSLT6) Miami, 2015: 33-43. [6] Luong M T, Pham H, Manning C D. Effective Approaches to Attention-based Neural Machine Translation[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal, 2015: 1412-1421. [7] Sennrich R, Haddow B, Birch A. Neural Machine Translation of Rare Words with Subword Units[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016: 1715-1725. [8] Wu Y, Schuster M, Chen Z, et al. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. arXiv: 1609.08144 [9] Zhang J, Zong C. Bridging Neural Machine Translation and Bilingual Dictionaries[J]. arXiv: 1610.07272 [10] 劉洋. 基于深度學(xué)習(xí)的機器翻譯研究進展[J]. 中國人工智能學(xué)會通訊, 2015: 28-32. [11] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014(4): 3104-3112. [12] Graves A. Long short-term memory[M]. Supervised Sequence Labelling with Recurrent Neural Networks. Springer Berlin Heidelberg, 2012: 1735-1780. [13] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. arXiv: 1409.0473 [14] Li X, Zhang J, Zong C. Towards zero unknown word in neural machine translation[C]//Proceedings of the International Joint Conference on Artificial Intelligence. AAAI Press, 2016: 2852-2858.2 基于MNP分治策略的神經(jīng)機器翻譯
2.1 “抽取—翻譯—重組”框架
2.2 雙語MNP語料庫的構(gòu)建
2.3 抽取
2.4 翻譯
2.5 重組
3 實驗
3.1 語料說明
3.2 參數(shù)設(shè)置
3.3 結(jié)果與分析
4 總結(jié)與展望