張海玲,邵玉斌,楊 丹,龍 華,杜慶治
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)
隨著信息時(shí)代的快速發(fā)展,自然語(yǔ)言處理(Natural Language Processing,NLP)的研究更加如火如荼.機(jī)器翻譯是借機(jī)器的力量將一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言,是人工智能和自然語(yǔ)言處理領(lǐng)域的重要研究方向[1].機(jī)器翻譯研究一直在不斷的革新,從最初傳統(tǒng)的基于規(guī)則的機(jī)器翻譯,到基于統(tǒng)計(jì)的機(jī)器翻譯,再到目前主流的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation,NMT).神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯是基于詞、短語(yǔ)和句子,使用一個(gè)非線性網(wǎng)絡(luò)找到語(yǔ)言之間的關(guān)系,實(shí)現(xiàn)自然語(yǔ)言之間的轉(zhuǎn)換[2],NMT因其翻譯性能突出,已成為當(dāng)下工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn).目前在中文到英文的基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型取得了令人矚目的成績(jī),但仍然存在一些不足,其中一個(gè)很重要的原因是中文句式結(jié)構(gòu)的復(fù)雜性和語(yǔ)義的多變性造成了翻譯效果不佳,如何利用語(yǔ)言學(xué)的知識(shí)增強(qiáng)翻譯模型的性能是一個(gè)值得深入的研究方向.
句子的構(gòu)成總是依賴于句法結(jié)構(gòu),比如句子可分為主謂賓定狀補(bǔ)等成分,每種成分都會(huì)有對(duì)應(yīng)的單詞,在句法的約束下這些成分才能構(gòu)成完整、通順、流暢的句子.句法分析對(duì)語(yǔ)言是極其重要的.NMT在處理輸入源語(yǔ)言和輸出目標(biāo)語(yǔ)言時(shí),都采用序列化形式,往往忽略了語(yǔ)言中蘊(yùn)含的句法結(jié)構(gòu)知識(shí)[3].與其讓模型單獨(dú)依靠在訓(xùn)練過(guò)程中學(xué)會(huì)隱型句式結(jié)構(gòu),不如通過(guò)更為顯性的方式將句法結(jié)構(gòu)信息整合到模型中,強(qiáng)化翻譯模型.
本文針對(duì)NMT翻譯句式復(fù)雜的長(zhǎng)句效果欠佳的問(wèn)題,提出了一種基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯方法,利用該句法層次化分析方式,對(duì)長(zhǎng)度超過(guò)一定閾值的句子提取最長(zhǎng)短語(yǔ)(Maximal-length Phrase,MP),再分別翻譯MP和句子框架,翻譯內(nèi)容重新組合之后得到更高質(zhì)量的譯文.該方法通過(guò)在句法分析上縮短句子長(zhǎng)度、簡(jiǎn)化句子結(jié)構(gòu)的方式與神經(jīng)機(jī)器翻譯學(xué)習(xí)能力強(qiáng)等優(yōu)勢(shì)相結(jié)合,在一定程度上達(dá)到了增強(qiáng)NMT翻譯性能的目的.
句法分析在自然語(yǔ)言處理中起著承上啟下的作用,其基本任務(wù)是在句子分詞之后,對(duì)輸入的文本進(jìn)行分析得到句子的句法結(jié)構(gòu),識(shí)別出高層次的結(jié)構(gòu)單元來(lái)簡(jiǎn)化句子的描述,確定句子所包含的句法單位之間的依存關(guān)系,將成分使用樹(shù)狀或依存關(guān)系的形式表示出來(lái).句法分析方法主要有成分句法分析、依存句法分析、深層文法句法分析等.句法分析應(yīng)用較廣泛,如機(jī)器翻譯、文本校對(duì)、情感分析、信息抽取等.
在機(jī)器翻譯任務(wù)中,由于語(yǔ)種的特點(diǎn),特別是漢語(yǔ)不具有諸如英語(yǔ)、法語(yǔ)等其他語(yǔ)言那樣嚴(yán)格意義的形態(tài)變化[4,5],漢語(yǔ)句式和語(yǔ)義復(fù)雜性造成翻譯效果不佳,這時(shí)句法分析模型就顯得尤為重要.機(jī)器翻譯大都是詞語(yǔ)級(jí)的模型,所包含的句法信息較少.句法是重要的關(guān)于句子結(jié)構(gòu)的理論,將詞語(yǔ)級(jí)的翻譯模型擴(kuò)展至基于句法的翻譯模型,是神經(jīng)機(jī)器翻譯模型架構(gòu)創(chuàng)新的重要體現(xiàn).
將語(yǔ)言學(xué)知識(shí)融入機(jī)器翻譯,是眾多研究學(xué)者們一直在深入的任務(wù).宋鼎新等人提出了一種融合句法短語(yǔ)的漢英統(tǒng)計(jì)機(jī)器翻譯方法[6],將得到的句法短語(yǔ)對(duì)與基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)相融合,使用加入短語(yǔ)表和使用新特征的方式證明句法短語(yǔ)對(duì)短語(yǔ)翻譯模型的改進(jìn)作用,結(jié)果表明,在不同規(guī)模的訓(xùn)練語(yǔ)料環(huán)境下,BLEU值分別提高0.56和0.62.盡管融合了句法短語(yǔ)知識(shí),但統(tǒng)計(jì)機(jī)器翻譯的效果不如神經(jīng)機(jī)器翻譯好.汪琪等人提出一種融入依存關(guān)聯(lián)指導(dǎo)的神經(jīng)機(jī)器翻譯方法[7],通過(guò)在源端進(jìn)行關(guān)聯(lián)性建模,融入依存關(guān)聯(lián)指導(dǎo),以此加強(qiáng)源端單詞之間的關(guān)聯(lián)性,提高機(jī)器翻譯的性能,該方法僅考慮源端語(yǔ)句之間直接存在的依存信息,不考慮存在間接依存關(guān)聯(lián)的其他節(jié)點(diǎn),并且不區(qū)分當(dāng)前詞是與其有依存關(guān)系的子節(jié)點(diǎn)還是父節(jié)點(diǎn).張學(xué)強(qiáng)等人提出一種基于最長(zhǎng)名詞短語(yǔ)分治策略的神經(jīng)機(jī)器翻譯方法[8],該方法識(shí)別并抽取句子中的最長(zhǎng)名詞短語(yǔ),利用分治法的思想進(jìn)行翻譯,與基線系統(tǒng)相比BLEU值有一定的提升,緩解了神經(jīng)機(jī)器翻譯對(duì)句子長(zhǎng)度敏感的問(wèn)題.但是該方法僅針對(duì)名詞短語(yǔ)結(jié)構(gòu),沒(méi)有考慮到其他類型的短語(yǔ),結(jié)構(gòu)比較單一,還需在句法上進(jìn)一步擴(kuò)充.
機(jī)器翻譯的思想,最早提出的是基于規(guī)則的機(jī)器翻譯(Rule-based Machine Translation,RBMT).隨著統(tǒng)計(jì)學(xué)的發(fā)展,研究者通過(guò)對(duì)雙語(yǔ)文本語(yǔ)料庫(kù)的分析來(lái)生成翻譯結(jié)果,稱為統(tǒng)計(jì)機(jī)器翻譯(Statistical machine translation,SMT).2003年,Bengio等人提出了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,改善了傳統(tǒng) SMT 模型的數(shù)據(jù)稀疏性問(wèn)題[9],為未來(lái)神經(jīng)網(wǎng)絡(luò)在機(jī)器翻譯上的應(yīng)用奠定了基礎(chǔ).2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了端到端的“編碼器-解碼器”機(jī)器翻譯模型[10],該模型使用卷積神經(jīng)網(wǎng)絡(luò)將源文本編碼成一個(gè)連續(xù)向量,然后再使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器將該狀態(tài)向量轉(zhuǎn)換成目標(biāo)語(yǔ)言.使用深度學(xué)習(xí)方法獲取語(yǔ)言之間的映射關(guān)系,NMT 的非線性映射不同于線性的 SMT 模型,NMT使用了連接編碼器和解碼器的狀態(tài)向量來(lái)描述語(yǔ)義的等價(jià)關(guān)系.此外,循環(huán)神經(jīng)網(wǎng)絡(luò)理論上能得到無(wú)限長(zhǎng)句子的信息,從而解決長(zhǎng)距離重新排序(Long Distance Reordering)問(wèn)題[11].但是實(shí)際上梯度爆炸或消失問(wèn)題[12]讓循環(huán)神經(jīng)網(wǎng)絡(luò)難以處理長(zhǎng)距依存(long distance dependency).2014 年,Sutskever I和Cho K等人提出了序列到序列的模型,可以將循環(huán)神經(jīng)網(wǎng)絡(luò)用于編碼器和解碼器[13],并且還為NMT引入了長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM),梯度爆炸或消失問(wèn)題得到了控制,從而讓模型可以更好地捕獲句子中的長(zhǎng)距依存.2017年Vaswani A等人提出了完全基于注意力的Transformer神經(jīng)機(jī)器翻譯模型[14],更好地解決長(zhǎng)距離依賴,翻譯性能獲得大幅度提升.
Transformer模型完全使用注意力機(jī)制對(duì)源端的目標(biāo)端序列建模[15],它的主要特點(diǎn)在于僅通過(guò)自注意力機(jī)制計(jì)算輸入x=[x1,x2,x3,…,xm]和輸出y=[y1,y2,y3,…,ym]的表示,實(shí)現(xiàn)端到端的神經(jīng)機(jī)器翻譯.該模型將句子中的每個(gè)詞和所有詞進(jìn)行注意力計(jì)算,學(xué)習(xí)句子內(nèi)部的依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu).其較少的訓(xùn)練時(shí)間以及更好的翻譯效果使Transformer成為目前常用的模型.模型的整體結(jié)構(gòu)如圖1所示.
圖1 Transformer整體結(jié)構(gòu)圖
Transformer模型分為編碼器和解碼器兩部分,都是多層網(wǎng)絡(luò)結(jié)構(gòu),其內(nèi)部結(jié)構(gòu)如圖2所示.
圖2 Transformer內(nèi)部結(jié)構(gòu)圖
編碼端由N個(gè)相同層組成,每一層有兩個(gè)子層,第1個(gè)子層是多頭注意力機(jī)制,第2個(gè)子層是前饋神經(jīng)網(wǎng)絡(luò).解碼端同樣也是由N個(gè)相同層組成,每一層有3個(gè)子層,第1個(gè)子層是掩碼多頭自注意力機(jī)制,第2個(gè)子層是編碼-解碼多頭注意力機(jī)制,最后一個(gè)子層是前饋神經(jīng)網(wǎng)絡(luò).
(1)
多頭注意力是指采用h個(gè)注意力操作表示輸入信息,將各個(gè)注意頭的級(jí)聯(lián)輸出乘以權(quán)重矩陣計(jì)算所得.如式(2)所示.
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
(2)
FFN(x)=max(0,xW1+b1)W2+b2
(3)
由于attention不包含位置信息,所以需要根據(jù)句子中詞的位置信息給詞嵌入添加位置編碼向量.為了讓模型能夠?qū)W習(xí)到相對(duì)位置信息,使用位置編碼生成固定位置表示,如式(4)所示.
(4)
已知三角函數(shù)公式如式(5)所示.
(5)
因此,PEpos+k可以表明PEpos的線性變換,如式(6)所示.
(6)
盡管目前主流的基于注意力機(jī)制的神經(jīng)機(jī)器翻譯模型能有效捕獲長(zhǎng)距離依賴,提升翻譯效果.但是中文句式結(jié)構(gòu)的復(fù)雜性和語(yǔ)義的多變性對(duì)模型而言具有一定的挑戰(zhàn)性,這時(shí)利用語(yǔ)言學(xué)的知識(shí)增強(qiáng)翻譯性能就顯得至關(guān)重要.
近年來(lái),神經(jīng)機(jī)器翻譯飛速發(fā)展取得了令人矚目的成就,但目前的方法主要是從語(yǔ)料數(shù)據(jù)中自動(dòng)學(xué)習(xí)翻譯知識(shí),沒(méi)有在翻譯過(guò)程中充分融入語(yǔ)言學(xué)知識(shí)[16].除此之外,對(duì)于不同長(zhǎng)度的句子,神經(jīng)機(jī)器翻譯都使用固定維度的向量去表示,從而造成結(jié)構(gòu)復(fù)雜的長(zhǎng)句翻譯效果不佳.
針對(duì)以上問(wèn)題,本文提出了基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯,采用“句法分析——翻譯短語(yǔ)MP和句子框架——譯文重組”的方式進(jìn)行.該方法旨在將復(fù)雜長(zhǎng)句轉(zhuǎn)化為一個(gè)或多個(gè)攜帶子句信息的最長(zhǎng)短語(yǔ)和一個(gè)維系主要信息的主干句子框架,分別翻譯之后重組譯句,從而提升翻譯效果.
句子s=[w1|t1,w2|t2,w3|t3,…,wi-1|ti-1,wi|ti,wi+1|ti+1,…,wn|tn],其中,S表示由n個(gè)詞元有序組合而成的句子.字符wi表示S的第i個(gè)詞元,詞元wi的詞性為ti.按照句法合成規(guī)則,將句子S通過(guò)迭代合成的方式得到最優(yōu)結(jié)果.
3.1.1 句法規(guī)則庫(kù)的構(gòu)建
對(duì)于句法規(guī)則的制定,采用計(jì)算所漢語(yǔ)詞性標(biāo)記集[17],其共計(jì)99個(gè)(22個(gè)第1類,66個(gè)第2類,11個(gè)第3類).為了在規(guī)則制定中能夠?qū)崿F(xiàn)有效性及合理性,即采用詞性標(biāo)記集中的第1類標(biāo)記作為規(guī)則需要.
根據(jù)對(duì)漢語(yǔ)句子組合信息的分析以及現(xiàn)代漢語(yǔ)語(yǔ)法研究對(duì)漢語(yǔ)句法的解讀[18,19],通過(guò)提煉出的詞性標(biāo)記集和語(yǔ)言規(guī)則相結(jié)合的方式,實(shí)現(xiàn)句法合成規(guī)則庫(kù)的構(gòu)建,如表1所示.
表1 句法合成規(guī)則庫(kù)
說(shuō)明:
1)對(duì)標(biāo)注好詞性之后的語(yǔ)料,進(jìn)行詞性預(yù)處理.例如,將“nr”、“nsf”等第2類第3類詞性統(tǒng)一記為一類詞性“n”;
2)表1中第1列代表優(yōu)先級(jí),即每次迭代合成的順序;
3)表1中第2列pos1和第3列pos2表示句中兩相鄰詞分別對(duì)應(yīng)的詞性;
4)句子迭代過(guò)程通過(guò)規(guī)則Ri(pos1⊕pos2→synthetic_pos)實(shí)現(xiàn)兩相鄰詞元結(jié)合得到第4列新詞性.
據(jù)表1規(guī)則庫(kù),實(shí)現(xiàn)由pos1,pos2匹配合成得到Synthetic_pos的具體流程如圖3所示.其中,POS_t是由句子S=[w1w2w3…wi-1wiwi+1…wn]獲取的詞性序列[w1_t,w2_t,…,wi_t,…,wn_t],對(duì)該序列從右至左依次獲取,規(guī)則庫(kù)按照自頂向下的方式對(duì)連續(xù)詞元的詞性進(jìn)行匹配,合成新的hcc_t詞性,再對(duì)原詞性序列進(jìn)行替換,直至遍歷完P(guān)OS_t.
圖3 規(guī)則合成示意圖
3.1.2 層次化解析
在層次化語(yǔ)句分析過(guò)程中,利用分詞和詞性標(biāo)注模型對(duì)中文句子進(jìn)行處理,詞與詞之間用空格分開(kāi),每個(gè)詞元與其詞性之間用“|”分隔.例如,句子s=[中國(guó)|n人民|n政府|n給|v貧困|a的|ud農(nóng)村|n家庭|n提供|v了|ul一筆|m現(xiàn)金|n補(bǔ)助|n]的層次化解析過(guò)程如圖4所示.
圖4 層次化解析示例
將整個(gè)層次化語(yǔ)句解析過(guò)程轉(zhuǎn)化為樹(shù)形結(jié)構(gòu)格式,其可視化結(jié)果如圖5所示.
圖5 語(yǔ)句解析可視化示例
3.1.3 提取短語(yǔ)MP
句法規(guī)則層次化分析,可以對(duì)中文句子進(jìn)行短語(yǔ)結(jié)構(gòu)的識(shí)別.該方法的優(yōu)勢(shì)在于可以隨時(shí)調(diào)整規(guī)則庫(kù)文件,從而更新得到最優(yōu)合成方式,進(jìn)一步提取出完整且符合要求的高質(zhì)量最長(zhǎng)短語(yǔ)MP.
該方法主要針對(duì)結(jié)構(gòu)復(fù)雜的長(zhǎng)句,考慮到短句子的譯文質(zhì)量較好,所以只對(duì)長(zhǎng)度超過(guò)一定閾值(L=20)且可以進(jìn)行句法分析的句子進(jìn)行短語(yǔ)提取.由于較短的MP對(duì)縮短句子長(zhǎng)度,降低句子結(jié)構(gòu)復(fù)雜度的影響較小,提取過(guò)程中過(guò)濾掉長(zhǎng)度小于3的短語(yǔ),以及需要過(guò)濾掉符號(hào)標(biāo)點(diǎn)等特殊字符.
提取短語(yǔ)MP時(shí),本文采用兩種方式在句子框架中保留特殊標(biāo)記.
方法1:用MPi(i=1,2,3,…)代替最長(zhǎng)短語(yǔ)本身保留在句子框架中,從而保證了短語(yǔ)和句子框架的對(duì)齊關(guān)系.
方法2:用最長(zhǎng)短語(yǔ)的核心詞代替最長(zhǎng)短語(yǔ)本身保留在句子框架中,從而保證了語(yǔ)言的流暢度和語(yǔ)義的完整性.這兩種方式都能縮減句式結(jié)構(gòu)上的歧義帶來(lái)的消極影響,降低句子的復(fù)雜度,縮短翻譯句子的長(zhǎng)度.
利用句法規(guī)則層次化分析算法,從同源數(shù)據(jù)語(yǔ)料中獲取得到最長(zhǎng)短語(yǔ),使用GIZA++開(kāi)源工具訓(xùn)練得到中英MP對(duì)齊語(yǔ)料.訓(xùn)練神經(jīng)機(jī)器翻譯模型可以采用如下方式.
Model-Ⅰ:將MP語(yǔ)料加入到原訓(xùn)練語(yǔ)料中,擴(kuò)展訓(xùn)練語(yǔ)料,通過(guò)訓(xùn)練得到既可以翻譯MP又可以翻譯句子的神經(jīng)機(jī)器翻譯模型.
Model-Ⅱ:MP語(yǔ)料和原訓(xùn)練語(yǔ)料分別訓(xùn)練,得到兩個(gè)有針對(duì)性的翻譯模型:短語(yǔ)翻譯模型和句子翻譯模型.
將通過(guò)翻譯模型得到的MP譯文和句子框架譯文進(jìn)行重新組合,即把MP譯文替換到句子框架譯文中的相應(yīng)位置,從而得到最終譯文.由于提取短語(yǔ)時(shí),在句子框架中保留特殊標(biāo)記使用了兩種不同的方式,則重組過(guò)程分別為:1)使用第i個(gè)MP譯文替換句子框架中的特殊標(biāo)記MPi;2)找到句子框架譯文與MP譯文關(guān)聯(lián)度最高的詞,該詞即為核心詞譯文,再用MP譯文替換句子框架的核心詞譯文.
基于分治法的思想,將長(zhǎng)句子翻譯分解為若干個(gè)規(guī)模較小的短句進(jìn)行翻譯.即通過(guò)句法分析,分解得到短語(yǔ)部分和句子框架,再分別進(jìn)行翻譯,最后重組譯文.本文采用了“句法分析——翻譯短語(yǔ)MP和句子框架——譯文重組”的方式,增加了語(yǔ)言學(xué)的知識(shí),從而實(shí)現(xiàn)神經(jīng)機(jī)器翻譯性能的提升.整體翻譯的流程如圖6所示.
圖6 整體翻譯流程圖
據(jù)翻譯流程,表2給出了具體句子的翻譯示例.
表2 句子翻譯示例
本文實(shí)驗(yàn)語(yǔ)料來(lái)源于全國(guó)機(jī)器翻譯研討會(huì)(CWMT)的中英雙語(yǔ)平行語(yǔ)料.其中,訓(xùn)練數(shù)據(jù)集共900萬(wàn)句,對(duì)原始訓(xùn)練數(shù)據(jù)進(jìn)行清洗、去重處理,實(shí)驗(yàn)過(guò)程只隨機(jī)抽取600000句對(duì)語(yǔ)料作為訓(xùn)練數(shù)據(jù)集.開(kāi)發(fā)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集各2000句對(duì).
雙語(yǔ)MP數(shù)據(jù)集按照3.1.3節(jié)所述方式進(jìn)行構(gòu)建.本文隨機(jī)從訓(xùn)練數(shù)據(jù)集中抽取100000句對(duì)中英雙語(yǔ)平行語(yǔ)料,然后利用句法規(guī)則層次化分析的方法提取短語(yǔ),使用GIZA++開(kāi)源工具訓(xùn)練得到中英對(duì)齊MP語(yǔ)料359842句對(duì),對(duì)該語(yǔ)料進(jìn)行數(shù)據(jù)清洗,統(tǒng)一格式,刪除亂碼,統(tǒng)一全半角字符,去重等處理后得到162215句對(duì)中英對(duì)齊MP語(yǔ)料.實(shí)驗(yàn)語(yǔ)料的相關(guān)信息如表3所示.
表3 實(shí)驗(yàn)語(yǔ)料信息
實(shí)驗(yàn)開(kāi)發(fā)數(shù)據(jù)集和測(cè)試數(shù)據(jù)集語(yǔ)料信息如表4所示.
表4 驗(yàn)證/測(cè)試語(yǔ)料信息
對(duì)于測(cè)試語(yǔ)料,同樣按照句法規(guī)則層次化分析的方式進(jìn)行處理,測(cè)試語(yǔ)料句子的平均長(zhǎng)度由 26.51個(gè)詞降低到句子框架的12.73個(gè)詞,極大程度上縮減了翻譯句子的長(zhǎng)度.
本文的翻譯系統(tǒng),建立在基于完全注意力機(jī)制的Transformer神經(jīng)機(jī)器翻譯模型上,采用的深度學(xué)習(xí)框架tensorflow,以python作為開(kāi)發(fā)語(yǔ)言,操作系統(tǒng)為L(zhǎng)inux,使用RTX2080ti X4訓(xùn)練模型.表5給出實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)的主要參數(shù)設(shè)置和部分說(shuō)明.
表5中,由于詞表大小對(duì)神經(jīng)機(jī)器翻譯的影響較大,詞表不能包含所有的詞語(yǔ),本文根據(jù)詞出現(xiàn)的頻率排序后獲取前32000個(gè)得到詞表,此表包含、、表示句子的開(kāi)頭,表示句子的結(jié)束,未出現(xiàn)在詞表的詞統(tǒng)一用
表5 模型參數(shù)設(shè)置
在訓(xùn)練過(guò)程中,模型設(shè)置運(yùn)行20輪,使用目前工作性能比較優(yōu)秀的Adam優(yōu)化器[20]進(jìn)行參數(shù)更新,使用labelsmoothing平滑方式防止損失函數(shù)過(guò)擬合.
實(shí)驗(yàn)采用目前機(jī)器翻譯研究中比較常用的BLEU(Bilingual Evaluation Understudy)[21]自動(dòng)評(píng)價(jià)方法分析所述機(jī)器翻譯系統(tǒng)的性能,均使用大小寫不敏感的BLEU衡量測(cè)試集的翻譯質(zhì)量.
4.3.1 句法分析算法識(shí)別效果
本文采用基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯方法來(lái)實(shí)現(xiàn)翻譯性能的提升,因此,通過(guò)句法分析方式能否成功提取MP就顯得尤為重要.本文從成功進(jìn)行句法分析的句子中隨機(jī)抽取200句,對(duì)句中的MP進(jìn)行人工標(biāo)注,通過(guò)句法分析模型識(shí)別結(jié)果與人工標(biāo)注結(jié)果對(duì)比,得到該句法分析模型識(shí)別MP的準(zhǔn)確率、召回率和F值.如表6所示.
表6 MP識(shí)別結(jié)果
表6中,MP識(shí)別準(zhǔn)確率達(dá)到了80.57%,表明該句法分析模型的加入不會(huì)對(duì)后續(xù)的句子翻譯過(guò)程造成消極影響.
4.3.2 翻譯性能分析
實(shí)驗(yàn)以Transformer模型作為基準(zhǔn)系統(tǒng).按照2.2節(jié)所述方式得到兩種翻譯模型,Model-Ⅰ:MP語(yǔ)料加入到原語(yǔ)料得到既可以翻譯MP又可以翻譯句子的神經(jīng)機(jī)器翻譯模型;Model-Ⅱ:MP語(yǔ)料和原語(yǔ)料分別訓(xùn)練得到短語(yǔ)翻譯模型和句子翻譯模型.按照不同的標(biāo)識(shí)方式進(jìn)行譯文質(zhì)量對(duì)比.結(jié)果如表7所示.
表7 翻譯結(jié)果對(duì)比
由表7可知,相比較于基線系統(tǒng),Model-Ⅰ和Model-Ⅱ的翻譯性能都獲得了一定程度的提升.其中,Model-Ⅰ的MPi標(biāo)識(shí)方式提升了0.21個(gè)BLEU值,保留MP核心詞方式提升了0.62個(gè)BLEU值;Model-Ⅱ的MPi標(biāo)識(shí)方式提升了0.40個(gè)BLEU值,保留MP核心詞方式提升了0.95個(gè)BLEU值.
Model-Ⅱ的訓(xùn)練語(yǔ)料分布較為均勻,訓(xùn)練出的模型效果較好,即Model-Ⅱ翻譯性能優(yōu)于Model-Ⅰ;在翻譯句子中保留MP核心詞的方式保證了句子的流暢性和語(yǔ)義的完整性,所以其翻譯性能優(yōu)于MPi標(biāo)識(shí).
4.3.3 不同句長(zhǎng)翻譯分析
本文提出的基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯模型,主要針對(duì)長(zhǎng)句的翻譯.為驗(yàn)證本文模型的有效性,對(duì)測(cè)試集的句子按照不同長(zhǎng)度劃分后進(jìn)行翻譯實(shí)驗(yàn).以性能較好的Model-Ⅱ作為對(duì)比實(shí)驗(yàn).翻譯結(jié)果如圖7所示,橫坐標(biāo)表示不同句長(zhǎng)的分布情況,縱坐標(biāo)表示譯文質(zhì)量BLEU值.
圖7 不同句長(zhǎng)對(duì)應(yīng)譯文的BLEU 值
由圖7的結(jié)果表明,總體譯文質(zhì)量隨著句子長(zhǎng)度的增加而逐漸降低.在句長(zhǎng)小于20的句子翻譯中,Model-Ⅱ的譯文BLEU值相較于Baseline翻譯模型不但沒(méi)有提高,反而還有小幅度降低,這主要是由于在句法分析過(guò)程中造成了一定的損失,例如MP提取錯(cuò)誤對(duì)翻譯造成了一定的干擾;句長(zhǎng)在20-40區(qū)間內(nèi),Model-Ⅱ的譯文BLEU值比Baseline有小幅提升,之后隨著句子長(zhǎng)度的增加,基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯模型的翻譯效果較好,且保留了MP核心詞的方式的翻譯性能較優(yōu).
本文針對(duì)目前機(jī)器翻譯模型在翻譯復(fù)雜長(zhǎng)句時(shí)效果不佳的問(wèn)題,提出了一種基于句法規(guī)則層次化分析的神經(jīng)機(jī)器翻譯方法.利用句法規(guī)則層次化分析算法從長(zhǎng)句中提取短語(yǔ)MP,進(jìn)一步分別翻譯MP和句子框架,最后對(duì)譯文重新組合.通過(guò)在一定程度上降低句子復(fù)雜度的方式來(lái)提升翻譯性能.實(shí)驗(yàn)結(jié)果表明,相比于基線系統(tǒng),BLEU值整體提高了0.95,并且復(fù)雜長(zhǎng)句的翻譯優(yōu)勢(shì)更加明顯,該方法給神經(jīng)機(jī)器翻譯帶來(lái)了積極有效的影響,在利用語(yǔ)言學(xué)知識(shí)增強(qiáng)機(jī)器翻譯性能的研究中具有較好的參考價(jià)值.
實(shí)驗(yàn)主要是利用了中文的語(yǔ)言學(xué)知識(shí),來(lái)實(shí)現(xiàn)中英翻譯性能的提升,因此下一步可以考慮進(jìn)行將本文方法遷移到中文到其他語(yǔ)言的神經(jīng)機(jī)器翻譯實(shí)驗(yàn).由于中文本身的復(fù)雜性,語(yǔ)義多變性等特點(diǎn),句法規(guī)則層次化分析提取MP的過(guò)程,會(huì)在翻譯時(shí)對(duì)句子語(yǔ)義完整性造成一定的損失,后續(xù)還應(yīng)對(duì)目前方法做進(jìn)一步擴(kuò)充和完善.
小型微型計(jì)算機(jī)系統(tǒng)2021年11期