陳 雷,李 淼,張 健,曾偉輝
(中國(guó)科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥230031)
在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,互譯語(yǔ)言之間的語(yǔ)序差異往往較為顯著。為了提升最終的譯文質(zhì)量,調(diào)序模型在消除互譯語(yǔ)言之間的語(yǔ)序差異方面起到至關(guān)重要的作用。
通常來(lái)說(shuō)調(diào)序模型分為兩大類(lèi):一類(lèi)是將調(diào)序知識(shí)作為特征函數(shù),融入對(duì)數(shù)線(xiàn)性模型[1-2]。該模型在尋找所需要的特征時(shí)往往存在一些困難。同時(shí),將特征融入訓(xùn)練與解碼過(guò)程會(huì)導(dǎo)致調(diào)序模型更加復(fù)雜,也更加耗時(shí)。另一類(lèi)調(diào)序模型是在前處理過(guò)程中將源語(yǔ)言的語(yǔ)序盡可能地調(diào)整為與目標(biāo)語(yǔ)言一致。Visweswariah等提出了一個(gè)基于句法的調(diào)序方法[3],該方法從源語(yǔ)言的解析樹(shù)上自動(dòng)抽取重排序規(guī)則,并自動(dòng)生成詞對(duì)齊。Khalilov和Sima'an提出了一個(gè)類(lèi)似的依據(jù)源端解析樹(shù)的特征來(lái)決定重排序的源端重排序系統(tǒng)[4]。國(guó)內(nèi)在漢蒙統(tǒng)計(jì)機(jī)器翻譯調(diào)序方法的研究上,王斯日古楞[5]、Liang[6]、Chen[7]等均提出了一些基于規(guī)則的方法。這一類(lèi)調(diào)序模型的效果取決于重排序規(guī)則及其應(yīng)用方式,同時(shí)還需要依賴(lài)高精度的句法分析器。上述兩類(lèi)調(diào)序模型不是相互排斥的,一些調(diào)序模型既可以作為源端重排序的前處理過(guò)程,又可以作為特征函數(shù)融入到解碼器中[8]。
由以上國(guó)內(nèi)外相關(guān)研究現(xiàn)狀可知,現(xiàn)有的調(diào)序方法面向大規(guī)模平行語(yǔ)料行之有效。然而,無(wú)論是基于短語(yǔ)還是基于句法,都對(duì)平行語(yǔ)料的規(guī)模具有較高的要求,且存在一定的局限性:首先,基于語(yǔ)法樹(shù)的重排序依賴(lài)于句法分析,或利用短語(yǔ)結(jié)構(gòu)樹(shù)分析出句子由哪些短語(yǔ)類(lèi)型(例如,動(dòng)詞短語(yǔ)、名詞短語(yǔ)等)組成,或利用依存結(jié)構(gòu)樹(shù)分析出句子的語(yǔ)法成分(例如,主語(yǔ)、賓語(yǔ)等),根據(jù)這些句法分析所得信息,采用基于規(guī)則的方法實(shí)現(xiàn)相應(yīng)樹(shù)上的操作,例如,交換左右子樹(shù)等,從而完成對(duì)源語(yǔ)言語(yǔ)序的調(diào)整。然而一方面目前的句法分析準(zhǔn)確度不高;另一方面當(dāng)重排序規(guī)則較為復(fù)雜時(shí),容易產(chǎn)生規(guī)則的嵌套而影響調(diào)序效果。其次,基于詞性標(biāo)注的重排序方法能夠在保證較細(xì)粒度的前提下盡可能多地利用語(yǔ)言的語(yǔ)法信息進(jìn)行調(diào)序。然而目前自動(dòng)化詞性標(biāo)注的研究工作尚有不足,獲取精準(zhǔn)的詞性標(biāo)注仍然需要大量且繁瑣的人工校對(duì)工作,對(duì)語(yǔ)言學(xué)專(zhuān)家的依賴(lài)性很強(qiáng)。
與漢、英、日、法、德等語(yǔ)言百萬(wàn)句級(jí)規(guī)模的語(yǔ)料相比,我國(guó)少數(shù)民族語(yǔ)言的語(yǔ)料資源差距巨大,尤其是漢民平行語(yǔ)料規(guī)模還遠(yuǎn)遠(yuǎn)不能滿(mǎn)足需求,且短時(shí)間內(nèi)難以實(shí)現(xiàn)大規(guī)模增長(zhǎng)。從目前漢蒙統(tǒng)計(jì)機(jī)器翻譯研究現(xiàn)狀來(lái)看,公開(kāi)且可用于機(jī)器翻譯研究與測(cè)評(píng)的漢蒙雙語(yǔ)平行語(yǔ)料仍沒(méi)有超過(guò)10萬(wàn)句對(duì)。同時(shí),語(yǔ)言學(xué)專(zhuān)家數(shù)量不能滿(mǎn)足大規(guī)模語(yǔ)料的分析與處理,蒙文語(yǔ)言學(xué)知識(shí)相對(duì)不足且句法分析準(zhǔn)確率較低,導(dǎo)致現(xiàn)有的調(diào)序方法在漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中難以取得理想的譯文質(zhì)量。
針對(duì)上述問(wèn)題,本文提出了一種有限語(yǔ)料條件下漢蒙統(tǒng)計(jì)機(jī)器翻譯的調(diào)序方法。如上所述,在漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,第一類(lèi)調(diào)序模型的特征難以獲取,因此本文采用第二類(lèi)調(diào)序模型,即源端重排序。首先,借助于語(yǔ)言學(xué)知識(shí),在語(yǔ)料與譯文兩個(gè)層面上進(jìn)行分析,獲取對(duì)譯文語(yǔ)序影響顯著的短語(yǔ)類(lèi)型,研究這些短語(yǔ)類(lèi)型的調(diào)序規(guī)則,包括人工撰寫(xiě)規(guī)則與自動(dòng)抽取規(guī)則,然后基于規(guī)則進(jìn)行源端重排序。與傳統(tǒng)的基于規(guī)則的方法不同,本文僅關(guān)注對(duì)譯文語(yǔ)序影響顯著的短語(yǔ)類(lèi)型,借助于已有的語(yǔ)言學(xué)知識(shí)即可獲得,在對(duì)大規(guī)模平行語(yǔ)料以及語(yǔ)言學(xué)知識(shí)的需求方面尋找一個(gè)平衡點(diǎn),力求滿(mǎn)足現(xiàn)有的實(shí)際情況。實(shí)驗(yàn)表明本文的方法行之有效,在有限語(yǔ)料條件下能夠取得譯文質(zhì)量的顯著改善。
漢蒙統(tǒng)計(jì)機(jī)器翻譯一直是我國(guó)自然語(yǔ)言處理研究領(lǐng)域的重要課題,經(jīng)歷了基于規(guī)則、基于實(shí)例與基于統(tǒng)計(jì)的多個(gè)發(fā)展過(guò)程。2007年,侯宏旭等給出了用于漢蒙EBMT機(jī)器翻譯的實(shí)例搜索以及短語(yǔ)片段劃分、匹配、組合的方法[9],該方法基于詞語(yǔ)對(duì)齊,利用詞語(yǔ)對(duì)齊進(jìn)行詞語(yǔ)的匹配,并根據(jù)匹配詞數(shù)和長(zhǎng)度計(jì)算相似度,選取最好的實(shí)例;同時(shí)考慮到語(yǔ)料規(guī)模的限制,雙語(yǔ)詞典的詞匯覆蓋面往往不夠,采用雙語(yǔ)詞典進(jìn)行詞語(yǔ)對(duì)齊有召回率不高的缺點(diǎn),還需通過(guò)人工對(duì)齊工具進(jìn)行校對(duì)。由于漢蒙平行語(yǔ)料的稀缺,直到2009年,隨著漢蒙統(tǒng)計(jì)機(jī)器翻譯評(píng)測(cè)的出現(xiàn),其相關(guān)研究才逐步發(fā)展起來(lái)。楊攀等考慮到漢蒙語(yǔ)言形態(tài)信息的差異性以及當(dāng)前由于缺乏大規(guī)模漢蒙平行語(yǔ)料所造成的數(shù)據(jù)稀疏問(wèn)題,將形態(tài)學(xué)方法引入到漢蒙統(tǒng)計(jì)機(jī)器翻譯的研究中[10],在一定程度上解決了譯文的詞形選擇及語(yǔ)序混亂問(wèn)題。駱凱等提出了類(lèi)似的方法,將源語(yǔ)言句法信息和目標(biāo)語(yǔ)言形態(tài)信息引入到漢蒙統(tǒng)計(jì)機(jī)器翻譯的模型構(gòu)造中,以降低譯文的詞形錯(cuò)誤率,并部分解決了譯文的長(zhǎng)距離調(diào)序的問(wèn)題,從而提高譯文的忠實(shí)度[11]。朱海等在漢蒙平行語(yǔ)料的基礎(chǔ)上,借助漢蒙對(duì)齊詞典來(lái)構(gòu)造統(tǒng)計(jì)模型,并嘗試以混淆網(wǎng)絡(luò)的形式進(jìn)行詞級(jí)別的系統(tǒng)融合,在第五屆全國(guó)機(jī)器翻譯研討會(huì)的漢蒙日常用語(yǔ)評(píng)測(cè)項(xiàng)目中取得了良好的成績(jī)[12]。2010年,Li等將蒙古語(yǔ)詞素(詞干、詞綴)作為中間語(yǔ)言,構(gòu)造了多級(jí)的鏈?zhǔn)綑C(jī)器翻譯系統(tǒng)[13]:首先利用統(tǒng)計(jì)的方法將蒙古語(yǔ)切分為詞素,再構(gòu)造漢語(yǔ)與蒙古語(yǔ)詞素的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)將漢語(yǔ)翻譯為蒙古語(yǔ)詞素,然后構(gòu)造蒙古語(yǔ)詞素與蒙古語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)將蒙古語(yǔ)詞素翻譯為蒙古語(yǔ)。該方法通過(guò)構(gòu)造鏈?zhǔn)綑C(jī)器翻譯系統(tǒng),在第一個(gè)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中將蒙古語(yǔ)詞素作為普通單詞對(duì)待,其本質(zhì)上是削減了蒙古語(yǔ)的形態(tài)信息,在第二個(gè)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中利用了蒙古語(yǔ)詞素中所包含的語(yǔ)言信息以及蒙古語(yǔ)詞素與其表面詞形的內(nèi)在聯(lián)系,從而提高了最終的譯文質(zhì)量。2011年,王斯日古楞等針對(duì)漢蒙統(tǒng)計(jì)機(jī)器翻譯提出了一種基于人工撰寫(xiě)規(guī)則的重排序方案[5],依據(jù)漢蒙語(yǔ)言學(xué)知識(shí),給出12條調(diào)序規(guī)則,其中動(dòng)詞短語(yǔ)7條,介詞短語(yǔ)3條,主謂短語(yǔ)3條,這些規(guī)則較好地反映了漢蒙之間的語(yǔ)序差異,在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中取得了良好的效果。Liang等提出了類(lèi)似的基于人工撰寫(xiě)規(guī)則的源端重排序方案[6],依據(jù)這些規(guī)則來(lái)匹配源語(yǔ)言短語(yǔ)結(jié)構(gòu)樹(shù)的子樹(shù),并進(jìn)行左右子樹(shù)的交換操作,同時(shí)利用詞性標(biāo)注信息同步實(shí)現(xiàn)短語(yǔ)級(jí)別和詞級(jí)別的調(diào)序。在此基礎(chǔ)上,Chen等進(jìn)一步提出在源端重排序模型中借助源端依存關(guān)系信息來(lái)平衡漢蒙之間的形態(tài)信息差異[7]。上述基于規(guī)則的調(diào)序模型首先需要對(duì)源語(yǔ)言進(jìn)行句法分析,然而這一過(guò)程被認(rèn)為是這種方法主要的缺點(diǎn)[14]。尤其在蒙漢統(tǒng)計(jì)機(jī)器翻譯中,蒙古語(yǔ)句法分析器的精度偏低,在很大程度上影響了基于規(guī)則的調(diào)序模型的最終效果。2012年,斯·勞格勞等基于蒙古語(yǔ)依存樹(shù)庫(kù)MDTB,實(shí)現(xiàn)了一種基于詞匯依存概率的蒙古語(yǔ)依存句法分析模型[15],該模型對(duì)核心詞進(jìn)行分析的準(zhǔn)確率達(dá)到了93.05%。隨著句法分析器準(zhǔn)確率的提高,基于規(guī)則的調(diào)序模型的效果也將會(huì)隨之改善。
如上所述,目前漢蒙統(tǒng)計(jì)機(jī)器翻譯的研究主要是針對(duì)語(yǔ)序差異和形態(tài)差異的。然而在統(tǒng)計(jì)方法中解決這兩個(gè)問(wèn)題對(duì)語(yǔ)料規(guī)模的依賴(lài)性較大,在短時(shí)間內(nèi)難以實(shí)現(xiàn)質(zhì)的突破,因此許多研究都引入了語(yǔ)言學(xué)知識(shí),例如,調(diào)序規(guī)則、詞性標(biāo)注等信息,取得了一定的成果。本文與上述工作的不同,一方面是通過(guò)對(duì)語(yǔ)料與譯文兩個(gè)層面的分析,僅關(guān)注對(duì)譯文語(yǔ)序影響較大的短語(yǔ)類(lèi)型并研究其調(diào)序方案;另一方面是立足實(shí)際情況,充分利用現(xiàn)有的有限語(yǔ)料以及語(yǔ)言學(xué)知識(shí)來(lái)獲取更佳的譯文質(zhì)量。
總的來(lái)說(shuō),漢語(yǔ)的句子是主—謂—賓結(jié)構(gòu),蒙古語(yǔ)的句子是主—賓—謂結(jié)構(gòu),在短語(yǔ)級(jí)別與詞級(jí)別方面,漢蒙語(yǔ)序的差異則更加復(fù)雜,其具體表現(xiàn)為詞對(duì)齊關(guān)系存在很多交叉。如圖1所示,例子中的漢語(yǔ)句子與蒙古語(yǔ)句子(拉丁形式)的詞對(duì)齊連線(xiàn)存在很多交叉現(xiàn)象。語(yǔ)序的差異問(wèn)題很大程度上影響了譯文的質(zhì)量。源端重排序的任務(wù)就是消除圖1中這種詞對(duì)齊連線(xiàn)的交叉現(xiàn)象。
圖1 漢語(yǔ)句子的短語(yǔ)結(jié)構(gòu)樹(shù)以及與蒙古語(yǔ)句子的詞對(duì)齊關(guān)系
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯只解決了短距離的局部調(diào)序,而處理長(zhǎng)距離的調(diào)序,正是漢蒙機(jī)器翻譯語(yǔ)序調(diào)整必需的。在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,使用隱含長(zhǎng)距離調(diào)序信息的規(guī)則對(duì)漢語(yǔ)句子語(yǔ)序進(jìn)行調(diào)整,其中規(guī)則的獲取是至關(guān)重要的。規(guī)則可以由人工進(jìn)行歸納總結(jié),也可以從平行語(yǔ)料庫(kù)中自動(dòng)獲取。本文分別探討了基于自動(dòng)抽取短語(yǔ)結(jié)構(gòu)重排序規(guī)則的源端重排序和基于人工編寫(xiě)短語(yǔ)結(jié)構(gòu)重排序規(guī)則的源端重排序。
由于動(dòng)詞或謂語(yǔ)是句子的核心成分,且漢蒙語(yǔ)序的差異主要體現(xiàn)在動(dòng)詞相關(guān)的短語(yǔ)上[5-7],因此動(dòng)詞短語(yǔ)的調(diào)序在漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中至關(guān)重要。本文在漢蒙平行語(yǔ)料與機(jī)器翻譯系統(tǒng)產(chǎn)生的譯文兩個(gè)層面上分析對(duì)譯文語(yǔ)序影響顯著的動(dòng)詞短語(yǔ)類(lèi)型。
傳統(tǒng)矢量方法的優(yōu)點(diǎn)是對(duì)多邊形中軸的幾何特征和拓?fù)涮卣饔休^好保留,缺點(diǎn)是存在中軸定義問(wèn)題。柵格距離變換法的優(yōu)點(diǎn)是提取的中軸形態(tài)完備,能實(shí)現(xiàn)復(fù)雜多邊形的中軸提取。但隨著數(shù)據(jù)的多源化和大數(shù)據(jù)的廣泛應(yīng)用,逐漸產(chǎn)生了局限性:一是柵格數(shù)據(jù)的大容量存儲(chǔ)特點(diǎn)使得該方法的運(yùn)算效率較低;二是分辨率敏感性較高,針對(duì)多分辨率數(shù)據(jù)處理能力較低。而形態(tài)學(xué)方法,歷史上存在效率低、中軸精度不高、無(wú)法解決多分辨率等問(wèn)題,未能實(shí)現(xiàn)工程化提取。
借助于已有的語(yǔ)言學(xué)知識(shí),首先初始化一個(gè)包括所有可能顯著影響譯文語(yǔ)序的動(dòng)詞短語(yǔ)類(lèi)型的集合S;依據(jù)該集合對(duì)有限語(yǔ)料進(jìn)行劃分,去除沒(méi)有對(duì)應(yīng)劃分的動(dòng)詞短語(yǔ)類(lèi)型,得到精簡(jiǎn)后的集合S′;類(lèi)似地再用精簡(jiǎn)后的集合S′對(duì)機(jī)器翻譯系統(tǒng)輸出的譯文進(jìn)行劃分,再次對(duì)集合S′進(jìn)行精簡(jiǎn),得到最終包含所需的動(dòng)詞短語(yǔ)類(lèi)型的集合S″。
本文基于句法分析所得到的短語(yǔ)結(jié)構(gòu)樹(shù)[6]來(lái)定義針對(duì)集合中的動(dòng)詞短語(yǔ)的調(diào)序規(guī)則,其形式為VP:x→x′,w,其中VP表示動(dòng)詞短語(yǔ)在短語(yǔ)結(jié)構(gòu)樹(shù)上對(duì)應(yīng)的節(jié)點(diǎn),x表示VP的孩子節(jié)點(diǎn)序列(按照從左到右的順序,遵守漢蒙之間的語(yǔ)言規(guī)則),x′表示對(duì)x進(jìn)行重排序之后的節(jié)點(diǎn)序列,w表示該規(guī)則的權(quán)值,在人工撰寫(xiě)規(guī)則時(shí)可由人為指定取值,在自動(dòng)抽取規(guī)則時(shí)可從平行語(yǔ)料中訓(xùn)練獲得,用于在多條規(guī)則產(chǎn)生沖突時(shí)進(jìn)行規(guī)則的選取。圖1給出了一個(gè)漢語(yǔ)句子短語(yǔ)結(jié)構(gòu)樹(shù),可見(jiàn)每個(gè)短語(yǔ)可對(duì)應(yīng)短語(yǔ)結(jié)構(gòu)樹(shù)上的一棵子樹(shù)。
表1給出了人工撰寫(xiě)動(dòng)詞短語(yǔ)調(diào)序規(guī)則(不包含權(quán)值),其中VV表示動(dòng)詞,P表示介詞,PP表示介詞短語(yǔ),NP表示名詞短語(yǔ),QP表示量詞短語(yǔ)。
表1 人工撰寫(xiě)的動(dòng)詞短語(yǔ)調(diào)序規(guī)則
在調(diào)序時(shí),使用上述規(guī)則匹配源語(yǔ)言句子短語(yǔ)結(jié)構(gòu)樹(shù)的子樹(shù)進(jìn)行調(diào)序。因此首先需要構(gòu)造源語(yǔ)言句子的短語(yǔ)結(jié)構(gòu)樹(shù),可通過(guò)句法分析器獲??;其次查找短語(yǔ)結(jié)構(gòu)樹(shù)中滿(mǎn)足如下條件的節(jié)點(diǎn)n:標(biāo)注為VP且其孩子節(jié)點(diǎn)匹配某條規(guī)則r中x序列;然后根據(jù)規(guī)則r的x′序列重新排序節(jié)點(diǎn)n的孩子節(jié)點(diǎn),從而實(shí)現(xiàn)源語(yǔ)言句子的重排序。從上述過(guò)程可以看出,重排序規(guī)則的應(yīng)用其本質(zhì)上是短語(yǔ)結(jié)構(gòu)樹(shù)上的樹(shù)變換過(guò)程。
除上述人工撰寫(xiě)規(guī)則外,本文還研究了如何基于有限語(yǔ)料自動(dòng)抽取動(dòng)詞短語(yǔ)的重排序規(guī)則。給定一個(gè)源語(yǔ)言句子s,其短語(yǔ)結(jié)構(gòu)樹(shù)記為ts,ts中非葉子節(jié)點(diǎn)n的孩子節(jié)點(diǎn)集合記為Cn,對(duì)應(yīng)于目標(biāo)端,節(jié)點(diǎn)n的平均位置計(jì)算如式(1)所示。
其中pos(ω)表示單詞ω對(duì)應(yīng)于目標(biāo)端的位置,當(dāng)單詞ω與目標(biāo)端的任何單詞沒(méi)有對(duì)齊關(guān)系時(shí),將無(wú)須計(jì)算pos(ω)。類(lèi)似地可以計(jì)算短語(yǔ)結(jié)構(gòu)樹(shù)ts中的每個(gè)節(jié)點(diǎn)的平均位置,用以調(diào)整節(jié)點(diǎn)順序,得到重排序之后的短語(yǔ)結(jié)構(gòu)樹(shù),記為tr?;谡Z(yǔ)料中所有句子按照上述過(guò)程產(chǎn)生的樹(shù)對(duì)<ts,tr>,可以抽取所需的重排序規(guī)則,并依據(jù)最大概率P(tr|ts)來(lái)選取規(guī)則,如式(2)所示。
其中I(ts)表示ts的非葉子節(jié)點(diǎn)集合,cn表示節(jié)點(diǎn)n的孩子節(jié)點(diǎn)序列,r(cn)表示對(duì)cn重排序之后的節(jié)點(diǎn)序列。P(r(cn)|c(diǎn)n)計(jì)算如式(3)所示。
其中f(cn)是cn在短語(yǔ)結(jié)構(gòu)樹(shù)ts中出現(xiàn)的頻率,f(r(cn))是r(cn)在短語(yǔ)結(jié)構(gòu)樹(shù)tr中出現(xiàn)的頻率。
給定短語(yǔ)結(jié)構(gòu)樹(shù)ts上的一個(gè)具有k個(gè)孩子節(jié)點(diǎn)的節(jié)點(diǎn)n,其k個(gè)孩子節(jié)點(diǎn)的組合方式共有k!種,本文選擇概率最大的組合方式,即選擇概率最大的規(guī)則,從而獲得重排序規(guī)則。
利用上述方法,除能夠抽出表1給出的重排序規(guī)則之外,還能夠得到大量動(dòng)詞短語(yǔ)相關(guān)的重排序規(guī)則,如表2給出的規(guī)則(5),其中IP表示以屈折成分開(kāi)頭的簡(jiǎn)單從句。
表2 人工撰寫(xiě)的動(dòng)詞短語(yǔ)調(diào)序規(guī)則
應(yīng)用自動(dòng)抽取規(guī)則的方法與人工撰寫(xiě)規(guī)則相同,所不同的是自動(dòng)抽取規(guī)則數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)人工撰寫(xiě)的規(guī)則。從本文使用的有限語(yǔ)料中,即可抽出超過(guò)1千條重排序規(guī)則。通過(guò)去除錯(cuò)誤規(guī)則與合并類(lèi)似規(guī)則之后,仍然存在440條規(guī)則。在應(yīng)用重排序規(guī)則時(shí),容易導(dǎo)致規(guī)則選取上的沖突,或造成過(guò)度重排序問(wèn)題。因此定義規(guī)則時(shí)引入了權(quán)值w用以緩解此類(lèi)問(wèn)題。此外,加入一些語(yǔ)法限制條件也能起到類(lèi)似的作用[5]。
圖2給出了在圖1所示的漢語(yǔ)短語(yǔ)結(jié)構(gòu)樹(shù)上進(jìn)行源端重排序之后的結(jié)果,標(biāo)注陰影的節(jié)點(diǎn)分別匹配規(guī)則(3)和規(guī)則(5)??梢钥闯?,針對(duì)句中的兩個(gè)動(dòng)詞短語(yǔ)進(jìn)行調(diào)序,則完全消除了詞對(duì)齊的交叉現(xiàn)象,意味著重排序之后的漢語(yǔ)句子的語(yǔ)序與蒙古語(yǔ)一致。該例子表明針對(duì)動(dòng)詞短語(yǔ)類(lèi)型的調(diào)序在漢蒙統(tǒng)計(jì)機(jī)器翻譯的源端重排序中是行之有效的。
圖2 利用規(guī)則(3)和規(guī)則(5)對(duì)漢語(yǔ)句子進(jìn)行重排序之后的結(jié)果
實(shí)驗(yàn)軟硬件平臺(tái)為:操作系統(tǒng)Ubuntu 11.04,處理器Inter(R)Core(TM)2Quad CPU Q6700@2.66GHZ,內(nèi)存4G。
實(shí)驗(yàn)語(yǔ)料為第五屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2009)提供的漢蒙雙語(yǔ)平行評(píng)測(cè)語(yǔ)料,訓(xùn)練集為67288句對(duì),開(kāi)發(fā)集為400句對(duì),每句漢語(yǔ)對(duì)應(yīng)4句由蒙古語(yǔ)言學(xué)專(zhuān)家翻譯的蒙古語(yǔ)譯文,測(cè)試集與開(kāi)發(fā)集相同。
在數(shù)據(jù)處理方面,使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的分詞工具ICTCLAS 2.0進(jìn)行漢語(yǔ)分詞;使用斯坦福大學(xué)的句法分析器Stanford parser進(jìn)行漢語(yǔ)的句法分析,并進(jìn)行簡(jiǎn)單的結(jié)構(gòu)映射變換得到短語(yǔ)結(jié)構(gòu)樹(shù);在訓(xùn)練時(shí),將訓(xùn)練集、開(kāi)發(fā)集與測(cè)試集的傳統(tǒng)蒙文轉(zhuǎn)化為拉丁形式;采用開(kāi)源解碼器Moses[16]進(jìn)行翻譯模型的構(gòu)建與解碼,使用對(duì)數(shù)線(xiàn)性模型對(duì)各種參數(shù)特征進(jìn)行融合,使用的主要特征包括:正反向短語(yǔ)翻譯概率、正反向詞匯翻譯概率、SRILM[17]訓(xùn)練的三元語(yǔ)言模型、詞長(zhǎng)度懲罰、雙向msd調(diào)序模型;使用GIZA++并采用啟發(fā)式方法進(jìn)行詞對(duì)齊;使用最小錯(cuò)誤率訓(xùn)練MERT[18]來(lái)調(diào)參。
以標(biāo)準(zhǔn)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)為參考,本文設(shè)置了三組實(shí)驗(yàn):(1)僅使用標(biāo)準(zhǔn)的基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),作為基線(xiàn)系統(tǒng);(2)使用手動(dòng)撰寫(xiě)規(guī)則進(jìn)行源端重排序,包括逐個(gè)規(guī)則的使用與所有規(guī)則的同時(shí)使用;(3)使用440條自動(dòng)抽取規(guī)則進(jìn)行源端重排序。
上述三組實(shí)驗(yàn)的結(jié)果如表3所示,使用BLEU與NIST評(píng)分來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果。
表3 實(shí)驗(yàn)結(jié)果
從表3中的實(shí)驗(yàn)結(jié)果可以看出,無(wú)論是人工撰寫(xiě)規(guī)則還是自動(dòng)抽取規(guī)則的應(yīng)用,取得的結(jié)果評(píng)分均比基線(xiàn)系統(tǒng)顯著提高。令人感興趣的是,取得最佳成績(jī)即提高1.63個(gè)BLEU值的結(jié)果是應(yīng)用人工撰寫(xiě)的規(guī)則(1)所獲得的,而不是應(yīng)用所有人工撰寫(xiě)規(guī)則,也不是應(yīng)用數(shù)量更多的自動(dòng)抽取規(guī)則。這一結(jié)果標(biāo)明調(diào)序規(guī)則并不是越多越好。如上所述,數(shù)量眾多的規(guī)則容易導(dǎo)致規(guī)則選取上的沖突以及過(guò)度重排序問(wèn)題。
本文提出在有限語(yǔ)料條件下,分析并獲取對(duì)譯文語(yǔ)序影響顯著的短語(yǔ)類(lèi)型,利用這些短語(yǔ)類(lèi)型的調(diào)序規(guī)則來(lái)調(diào)整源語(yǔ)言漢語(yǔ)的語(yǔ)序,實(shí)驗(yàn)證明該方法在漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中取得了良好的效果。該方法為現(xiàn)階段語(yǔ)料資源稀少的其他語(yǔ)言的機(jī)器翻譯系統(tǒng)調(diào)序技術(shù)的研究提供了參考。
下一步將研究減少重排序規(guī)則選擇上的沖突與降低多個(gè)規(guī)則同時(shí)使用造成的過(guò)度排序等問(wèn)題。此外,由于目前本文的方法仍然依賴(lài)于句法分析器的準(zhǔn)確性,因此需要研究不依賴(lài)于句法分析器的調(diào)序方案,例如使用序列標(biāo)注模型(如:條件隨機(jī)場(chǎng)模型等)來(lái)進(jìn)行特殊短語(yǔ)的識(shí)別與匹配問(wèn)題。
致謝
感謝對(duì)本文工作提供幫助的老師和同學(xué)。感謝對(duì)本文撰寫(xiě)提出中肯建議的各位評(píng)審老師。
[1]薛永增,李生,趙鐵軍,等.短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯的句法調(diào)序模型[J].通信學(xué)報(bào),2008,29(1):7-14.
[2]侯宏旭,劉群,李錦濤.一種基于短語(yǔ)的漢蒙統(tǒng)計(jì)機(jī)器翻譯與調(diào)序模型[J].高技術(shù)通訊,2009,19(5):475-479.
[3]K Visweswariah,J Navratil,J Sorensen,et al.Syntax based reordering with automatically derived rules for improved statistical machine translation[C]//Proceeding of COLING,2010:1119-1127.
[4]M Khalilov,K Sima'an.Context-sensitive syntactic source-reordering by statistical transduction[C]//Proceeding of IJCNLP,2011:38-46.
[5]王斯日古楞,斯琴圖,那順烏日?qǐng)D.漢蒙統(tǒng)計(jì)機(jī)器翻譯中的調(diào)序方法研究[J].中文信息學(xué)報(bào),2011,25(4):88-92.
[6]F Liang,L Chen,M Li,et al.A rule-based sourceside reordering on phrase structure subtrees[C]//Proceeding of IALP,2011:173-176.
[7]L Chen,M Li,M He,et al.Dependency parsing on source language with reordering information in SMT[C]//Proceeding of IALP,2012:133-136.
[8]N Yang,M Li,D Zhang,et al.A ranking based approach to word reordering for statistical machine translation[C]//Proceeding of ACL,2012:912-920.
[9]侯宏旭,劉群,那順烏日?qǐng)D.基于實(shí)例的漢蒙機(jī)器翻譯[J].中文信息學(xué)報(bào),2007,21(4):65-72.
[10]楊攀,張建,李淼,等.漢蒙統(tǒng)計(jì)機(jī)器翻譯中的形態(tài)學(xué)方法研究[J].中文信息學(xué)報(bào),2009,23(1):50-57.
[11]駱凱,李淼,烏達(dá)巴拉,等.漢蒙翻譯模型中的依存語(yǔ)法與形態(tài)信息應(yīng)用研究[J].中文信息學(xué)報(bào),2009,23(6):98-104.
[12]朱海,應(yīng)玉龍,李文,等.第五屆全國(guó)機(jī)器翻譯研討會(huì)中科院智能所評(píng)測(cè)技術(shù)報(bào)告[C]//第五屆全國(guó)機(jī)器翻譯研討會(huì)論文集,2009.
[13]W Li,L Chen,Wudabala,M Li.A Chained Machine Translation Using Morphemes as Pivot Language[C]//Proceeding of COLING 2010workshop:ALR,2010:169-177.
[14]K Visweswariah,R Rajkumar,A Gandhe,et al.A word reordering model for improved machine translation[C]//Proceeding of EMNLP,2011:486-496.
[15]斯·勞格勞,華沙寶,薩如拉.基于統(tǒng)計(jì)方法的蒙古語(yǔ)依存句法分析模型[J].中文信息學(xué)報(bào),2012,26(3):27-32.
[16]P Koehn,H Hoang,A Birch,et al.Moses:open source toolkit for statistical machine translation[C]//Proceeding of ACL,2007:177-180.[17]A Stolcke.SRILM—an extensible language modeling toolkit[C]//Proceeding of Intl.Conf.on Spoken Language Processing,2002:901-904.
[18]F J Och.Minimum error rate training in statistical machine translation[C]//Proceeding of ACL,2003:160-167.