趙紅梅,呂雅娟,賁國(guó)生,黃 云,劉 群
(中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 中國(guó)科學(xué)院 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190)
中國(guó)中文信息學(xué)會(huì)主辦的第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011)于2011年9月23~24日在廈門召開。為了全面了解國(guó)內(nèi)外機(jī)器翻譯技術(shù)的現(xiàn)狀,促進(jìn)機(jī)器翻譯技術(shù)的研究,按照慣例,本屆機(jī)器翻譯研討會(huì)繼續(xù)組織了統(tǒng)一的機(jī)器翻譯評(píng)測(cè),以推進(jìn)參評(píng)單位的實(shí)質(zhì)性交流和機(jī)器翻譯技術(shù)的發(fā)展。
本次評(píng)測(cè)由中國(guó)科學(xué)院計(jì)算技術(shù)研究所組織,評(píng)測(cè)重點(diǎn)關(guān)注各種語(yǔ)言(包括我國(guó)蒙古族、藏族、維吾爾族、哈薩克族、柯爾克孜族的民族語(yǔ)言)到漢語(yǔ)的翻譯,評(píng)測(cè)共包含7個(gè)語(yǔ)言對(duì),9個(gè)評(píng)測(cè)項(xiàng)目和4個(gè)評(píng)測(cè)領(lǐng)域(新聞、科技、政府文獻(xiàn)和日常用語(yǔ))。在漢英—英漢新聞方向的評(píng)測(cè)中,除了英漢新聞的當(dāng)前(current)評(píng)測(cè)外,還設(shè)置了英漢和漢英新聞的進(jìn)展(progress)評(píng)測(cè)。
本次評(píng)測(cè)采用以下流程:通過(guò)網(wǎng)絡(luò),評(píng)測(cè)組織方在評(píng)測(cè)前一個(gè)月向參評(píng)單位提供評(píng)測(cè)訓(xùn)練語(yǔ)料和開發(fā)語(yǔ)料,評(píng)測(cè)時(shí)再統(tǒng)一發(fā)放測(cè)試語(yǔ)料,參評(píng)單位在測(cè)試語(yǔ)料發(fā)放后約三天之內(nèi)提交系統(tǒng)翻譯結(jié)果,組織方對(duì)翻譯結(jié)果進(jìn)行統(tǒng)一測(cè)評(píng)后,向所有參評(píng)單位公布評(píng)測(cè)結(jié)果。
此次評(píng)測(cè)主要的自動(dòng)評(píng)測(cè)指標(biāo)為BLEU-SBP(Chiang et al.,2008),在漢英方向還采用了WoodPecker評(píng)測(cè)(Zhou et al.,2008)。
本次評(píng)測(cè)吸引了國(guó)內(nèi)外19家教育科研機(jī)構(gòu)和企業(yè)單位參加,在9個(gè)評(píng)測(cè)項(xiàng)目上共提交了165個(gè)系統(tǒng)的翻譯結(jié)果。為了加強(qiáng)技術(shù)交流的效果,評(píng)測(cè)要求每個(gè)參評(píng)單位撰寫一份評(píng)測(cè)技術(shù)報(bào)告。技術(shù)上有特點(diǎn)的參評(píng)單位在CWMT2011研討會(huì)上就本單位的評(píng)測(cè)技術(shù)情況進(jìn)行了口頭報(bào)告。另外,研討會(huì)還設(shè)置了評(píng)測(cè)的海報(bào)展示環(huán)節(jié),每個(gè)參評(píng)單位都以海報(bào)的形式展示了自己參評(píng)系統(tǒng)的技術(shù)情況。評(píng)測(cè)組織方的總結(jié)報(bào)告(包括各參評(píng)單位主系統(tǒng)的系統(tǒng)描述)、各參評(píng)單位的技術(shù)報(bào)告以及研討會(huì)錄用的其它論文都被收錄進(jìn)研討會(huì)的論文集并發(fā)放給大家。
本次評(píng)測(cè)在語(yǔ)料提供方面得到了新疆大學(xué)等多家單位(詳細(xì)語(yǔ)料提供單位參見表4.1和表4.2)的鼎立支持。多名業(yè)內(nèi)專家在評(píng)測(cè)準(zhǔn)備會(huì)上為CWMT2011評(píng)測(cè)提出了很多很好的設(shè)想和建議。
本文給出了此次評(píng)測(cè)的組織準(zhǔn)備過(guò)程、評(píng)測(cè)結(jié)果和分析。文中將列出所有參評(píng)單位的名稱,但在評(píng)測(cè)結(jié)果中,不會(huì)給出對(duì)應(yīng)的單位名稱,而是代之以單位的匿名代號(hào)。
本文內(nèi)容僅供研究使用,可以在研究論文中引用,但不可用于任何出于商業(yè)目的的宣傳活動(dòng)。在研究論文中引用時(shí),如果沒(méi)有得到其他單位的許可,不得公開其他單位的評(píng)測(cè)結(jié)果。
CWMT2011評(píng)測(cè)項(xiàng)目的設(shè)置如表2.1所示。
表2.1 CWMT2011評(píng)測(cè)項(xiàng)目
本次評(píng)測(cè)共設(shè)置了9個(gè)評(píng)測(cè)項(xiàng)目,涉及到7個(gè)語(yǔ)言對(duì),4個(gè)評(píng)測(cè)領(lǐng)域(新聞、科技、政府文獻(xiàn)和日常用語(yǔ))。與往屆評(píng)測(cè)不同的是,本次評(píng)測(cè)重點(diǎn)關(guān)注了各種語(yǔ)言到漢語(yǔ)的翻譯,除了漢英、英漢、日漢三個(gè)曾經(jīng)評(píng)測(cè)過(guò)的語(yǔ)言對(duì)以外,評(píng)測(cè)首次增加了民族語(yǔ)言(藏語(yǔ)、蒙語(yǔ)、維語(yǔ)、哈薩克語(yǔ)、柯爾克孜語(yǔ))到漢語(yǔ)的翻譯評(píng)測(cè)。在漢英—英漢新聞方向的評(píng)測(cè)中,除了英漢新聞的當(dāng)前(current)評(píng)測(cè)外,還設(shè)置了英漢和漢英新聞的進(jìn)展(progress)評(píng)測(cè)。
本次評(píng)測(cè)共有19個(gè)單位報(bào)名參加,其中國(guó)內(nèi)單位15家,國(guó)外單位4家,教育和科研機(jī)構(gòu)16家,企業(yè)單位3家。參評(píng)單位名單如下:
CNGL,School of Computing,Dublin City University
NTT Communication Science Laboratories
SYSTRAN Software,Inc.
北京航空航天大學(xué)計(jì)算機(jī)學(xué)院智能所
北京交通大學(xué)
東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室
富士通研究開發(fā)中心有限公司
哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室
內(nèi)蒙古師范大學(xué)
南京大學(xué)
西安理工大學(xué)
廈門大學(xué)
新疆大學(xué)
中國(guó)科學(xué)技術(shù)信息研究所
中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院智能機(jī)械研究所
中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息重點(diǎn)實(shí)驗(yàn)室
中國(guó)科學(xué)院軟件研究所基礎(chǔ)軟件國(guó)家工程研究中心
中國(guó)科學(xué)院新疆理化技術(shù)研究所
中國(guó)科學(xué)院自動(dòng)化研究所
19家單位在9個(gè)不同的項(xiàng)目和語(yǔ)言方向共提交了165個(gè)系統(tǒng)的翻譯結(jié)果。表3.1給出了本次評(píng)測(cè)每個(gè)項(xiàng)目的參評(píng)單位和系統(tǒng)的數(shù)量。
表3.1 參評(píng)單位和系統(tǒng)數(shù)量
評(píng)測(cè)采用目前國(guó)際上普遍采用的評(píng)測(cè)方式:由評(píng)測(cè)的組織方提供訓(xùn)練和測(cè)試數(shù)據(jù),參評(píng)單位在給定時(shí)間內(nèi)返回翻譯結(jié)果,再由評(píng)測(cè)組織方進(jìn)行評(píng)價(jià)。
所有評(píng)測(cè)項(xiàng)目都是對(duì)譯文質(zhì)量進(jìn)行評(píng)測(cè),采用自動(dòng)評(píng)測(cè)方法。主要評(píng)測(cè)指標(biāo)為BLEU-SBP (Chiang et al.,2008),其他自動(dòng)評(píng)測(cè)指標(biāo)包括:BLEU、NIST、GTM、mWER、mPER、ICT,漢英方向還采用了Woodpecker評(píng)測(cè) (Zhou et al.,2008)。自動(dòng)評(píng)測(cè)的算法(包括WoodPecker)都是大小寫敏感的,中文的評(píng)測(cè)是基于字的,而不是基于詞的。
對(duì)于每個(gè)評(píng)測(cè)項(xiàng)目,參評(píng)單位必須提交一個(gè)基本結(jié)果(Primary Result),最多可以提交三個(gè)對(duì)比結(jié)果(Contrast Results)。產(chǎn)生基本結(jié)果的系統(tǒng)稱為參評(píng)單位的基本系統(tǒng)或主系統(tǒng)(Primary System),產(chǎn)生對(duì)比結(jié)果的系統(tǒng)稱為參評(píng)單位的對(duì)比系統(tǒng)(Contrast System)?;鞠到y(tǒng)中,對(duì)于采用基于實(shí)例的機(jī)器翻譯技術(shù)或者統(tǒng)計(jì)機(jī)器翻譯技術(shù)實(shí)現(xiàn)的模塊或系統(tǒng),所使用的訓(xùn)練數(shù)據(jù)必須限制在評(píng)測(cè)組織方指定的數(shù)據(jù)范圍之內(nèi),不允許使用任何外部數(shù)據(jù);對(duì)于采用基于規(guī)則的機(jī)器翻譯技術(shù)實(shí)現(xiàn)的模塊或系統(tǒng),允許采用通過(guò)人工方式構(gòu)造的翻譯知識(shí)(例如,規(guī)則、模板、詞典等),但是要在系統(tǒng)描述和技術(shù)報(bào)告中對(duì)于所使用的翻譯知識(shí)的規(guī)模、構(gòu)造和使用方式等進(jìn)行說(shuō)明。對(duì)比系統(tǒng)則可以使用任何數(shù)據(jù)進(jìn)行訓(xùn)練。參評(píng)系統(tǒng)也可以采用系統(tǒng)融合技術(shù),但要求在系統(tǒng)描述中進(jìn)行明確說(shuō)明,并在技術(shù)報(bào)告中給出系統(tǒng)融合前單系統(tǒng)的運(yùn)行結(jié)果。評(píng)測(cè)組織方在發(fā)布評(píng)測(cè)結(jié)果時(shí),也會(huì)對(duì)采用了系統(tǒng)融合技術(shù)的系統(tǒng)進(jìn)行標(biāo)注。
本次機(jī)器翻譯的評(píng)測(cè)語(yǔ)料涉及8個(gè)語(yǔ)言方向(漢英、英漢、日漢、蒙漢、藏漢、維漢、哈漢和柯漢)、4個(gè)領(lǐng)域(新聞、科技、政府文獻(xiàn)和日常用語(yǔ))。根據(jù)國(guó)外相關(guān)評(píng)測(cè)及具體分析,我們制訂了相應(yīng)的語(yǔ)料規(guī)模。在評(píng)測(cè)中輸入輸出文件均采用UTF-8編碼(有BOM)以及嚴(yán)格的XML格式。
訓(xùn)練語(yǔ)料中,英文單語(yǔ)語(yǔ)料為路透社的RCV1語(yǔ)料,漢語(yǔ)單語(yǔ)語(yǔ)料為搜狗實(shí)驗(yàn)室的搜狗全網(wǎng)新聞?wù)Z料庫(kù)SogouCA,雙語(yǔ)語(yǔ)料情況見表4.1;開發(fā)和測(cè)試語(yǔ)料情況見表4.2。
測(cè)試語(yǔ)料包括真實(shí)測(cè)試集及干擾集兩部分,干擾集的結(jié)果在評(píng)判時(shí)被舍棄。
所有開發(fā)集和測(cè)試集均為一份原文、四份參考答案。每份參考答案的原始文本均由四名經(jīng)驗(yàn)豐富的專業(yè)翻譯人員各自獨(dú)立翻譯而成。
表4.2 CWMT2011機(jī)器翻譯評(píng)測(cè)開發(fā)集和測(cè)試集情況
為了了解各參評(píng)單位的系統(tǒng)進(jìn)步情況,今年漢英新聞和英漢新聞方向均設(shè)置了進(jìn)展(progress)項(xiàng)目(使用的是CWMT2009的評(píng)測(cè)語(yǔ)料),另外,英漢新聞方向還設(shè)置了當(dāng)前(current)項(xiàng)目(使用的是2011年新制作的語(yǔ)料),我們?cè)谠u(píng)測(cè)結(jié)果中對(duì)比了進(jìn)展項(xiàng)目中兩年評(píng)測(cè)的系統(tǒng)變化情況。另外,在漢英新聞方向,我們繼續(xù)進(jìn)行了WoodPecker評(píng)測(cè),該評(píng)測(cè)全部采用CWMT2009中WoodPecker評(píng)測(cè)的測(cè)試數(shù)據(jù)和相關(guān)參數(shù)。有關(guān)WoodPecker評(píng)測(cè)的詳細(xì)情況,請(qǐng)參見CWMT2009機(jī)器翻譯評(píng)測(cè)報(bào)告,該評(píng)測(cè)報(bào)告以及計(jì)算所組織的歷屆全國(guó)機(jī)器翻譯評(píng)測(cè)的相關(guān)資料可參考以下評(píng)測(cè)網(wǎng)頁(yè)及相關(guān)鏈接:
http://nlp.ict.ac.cn/new/CWMT/index.php
本次評(píng)測(cè)中所有項(xiàng)目的參考譯文均不提供給參評(píng)單位,而是留到下次評(píng)測(cè)時(shí)繼續(xù)使用,以便了解各參評(píng)單位在這一段時(shí)間間隔內(nèi)的技術(shù)進(jìn)步。在參評(píng)單位提交評(píng)測(cè)結(jié)果之后、研討會(huì)開始之前這段時(shí)間,我們向各參評(píng)單位開放了在線評(píng)測(cè)打分網(wǎng)站,供參評(píng)單位進(jìn)行機(jī)器翻譯實(shí)驗(yàn)時(shí)打分使用。
本次CWMT評(píng)測(cè)采用了網(wǎng)上評(píng)測(cè)的方式,表4.3 給出了此次評(píng)測(cè)的流程。
表4.3 CWMT2011評(píng)測(cè)流程
續(xù)表
本節(jié)給出各評(píng)測(cè)項(xiàng)目主系統(tǒng)在主要評(píng)測(cè)指標(biāo)BLEU-SBP上的評(píng)測(cè)結(jié)果,并對(duì)評(píng)測(cè)結(jié)果進(jìn)行了分析。我們?cè)贐LEU-SBP的基礎(chǔ)上,針對(duì)各主系統(tǒng)的翻譯結(jié)果,進(jìn)行了結(jié)果之間差異的顯著性檢驗(yàn)——符號(hào)檢驗(yàn)(Collins et al.,2005),總的做法是:分別以每個(gè)主系統(tǒng)為基準(zhǔn)系統(tǒng),測(cè)試了所有其他主系統(tǒng)與基準(zhǔn)系統(tǒng)結(jié)果差異的顯著性程度,以此構(gòu)造了所有主系統(tǒng)翻譯結(jié)果的差異顯著性矩陣,因篇幅有限,本文僅顯示漢英新聞進(jìn)展(progress)評(píng)測(cè)的差異顯著性結(jié)果(圖1)。詳細(xì)的評(píng)測(cè)結(jié)果參見CWMT2011機(jī)器翻譯評(píng)測(cè)報(bào)告(http://nlp.ict.ac.cn/new/CWMT/CWMT2011.php)。
在下面評(píng)測(cè)結(jié)果的圖表中,橫坐標(biāo)是該項(xiàng)目各參評(píng)單位提交的主系統(tǒng)(用各單位代號(hào)來(lái)表示),縱坐標(biāo)是主要評(píng)測(cè)指標(biāo)的得分。橫坐標(biāo)中出現(xiàn)的“◆”代表其左邊的系統(tǒng)采用了系統(tǒng)融合技術(shù)。
圖1 CWMT2011漢英新聞(progress)評(píng)測(cè)結(jié)果
表5.1.1 漢英新聞(progress)各主系統(tǒng)2009年與2011年評(píng)測(cè)結(jié)果對(duì)比
表5.1.2 漢英新聞(progress)各主系統(tǒng)BLEU4-SBP差異顯著性檢驗(yàn)結(jié)果表(顯著標(biāo)志●,不顯著標(biāo)志○,p<0.05)
分析:從表5.1.1中可以看出,既參加了CWMT2009又參加了CWMT2011漢英新聞評(píng)測(cè)的單位中,有一半單位的成績(jī)有所提高,例如S5的BLEU-SBP值提升了2.3個(gè)百分點(diǎn),有一半單位因各種緣故成績(jī)有所下降??偟膩?lái)說(shuō),參加評(píng)測(cè)的漢英新聞評(píng)測(cè)系統(tǒng)的差異性不大,排在第1名和第9名的系統(tǒng)的BLEU-SBP值的差異只有3個(gè)百分點(diǎn),很多系統(tǒng)間的差異性不顯著(表5.1.2)。從評(píng)測(cè)報(bào)告和評(píng)測(cè)結(jié)果來(lái)看,絕大多數(shù)參評(píng)單位采用的漢英機(jī)器翻譯技術(shù)差異不大,各單位系統(tǒng)之間的差距在逐漸縮小。
表5.2.1 英漢新聞(progress)各主系統(tǒng)2009年與2011年評(píng)測(cè)結(jié)果對(duì)比
分析:從表5.2.1可以看出,在進(jìn)展(progress)項(xiàng)目中,與2009年相比,2011年英漢新聞?lì)I(lǐng)域的BLEU值除個(gè)別單位(S7)略有下降外,其他四個(gè)單位均有提高。當(dāng)前(current)項(xiàng)目的評(píng)測(cè)結(jié)果中,橫坐標(biāo)上,除了前兩個(gè)單位和后兩個(gè)單位外,中間單位的BLEU值差異基本上不明顯(詳情可參考CWMT2011評(píng)測(cè)報(bào)告中的顯著性檢驗(yàn)結(jié)果,如圖2、圖3所示)。
圖2 CWMT2011英漢新聞(progress)評(píng)測(cè)結(jié)果(BLEU5-SBP)
圖3 WMT2011英漢新聞(current)評(píng)測(cè)結(jié)果(BLEU5-SBP)
圖4 CWMT2011英漢科技評(píng)測(cè)結(jié)果(BLEU5-SBP)
分析:從圖4可以看出,英漢科技領(lǐng)域的BLEU值比較高,這可能與領(lǐng)域比較集中(主要集中在計(jì)算機(jī)和通訊兩個(gè)領(lǐng)域),測(cè)試集與開發(fā)集、訓(xùn)練集的語(yǔ)料內(nèi)容比較一致,訓(xùn)練語(yǔ)料規(guī)模比較大(表4.1)有關(guān)。
圖5 CWMT2011日漢新聞評(píng)測(cè)結(jié)果(BLEU5-SBP)
分析:從上圖可以看出,日漢新聞?lì)I(lǐng)域的BLEU值比較高,各系統(tǒng)間的差異比較顯著。此次日漢新聞項(xiàng)目提供的訓(xùn)練語(yǔ)料規(guī)模比較大,但內(nèi)容比較龐雜,與開發(fā)集和測(cè)試集語(yǔ)料(內(nèi)容都集中在新聞?lì)I(lǐng)域)的相似度并不高,然而,筆者通過(guò)對(duì)比原文和參考譯文發(fā)現(xiàn):日文和中文這兩種語(yǔ)言的相似程度非常高,這可能是該項(xiàng)目BLEU值較高的主要原因。
例如,原文:國(guó)家開発銀行が今回香港で発行したCDは、主に機(jī)関投資家を?qū)澫螭趣筏郡猡韦?、個(gè)人投資家は購(gòu)入できない。
參考譯文之一:中國(guó)開發(fā)銀行這次在香港發(fā)行的CD,主要以集團(tuán)投資家為對(duì)象,個(gè)人投資家不得購(gòu)入。
分析:
從圖6可以看出,藏漢政府文獻(xiàn)領(lǐng)域的BLEU值很高,各系統(tǒng)間的差異很顯著。我們分析BLEU值偏高的原因,發(fā)現(xiàn):1)評(píng)測(cè)語(yǔ)料主要來(lái)源于政府文獻(xiàn),領(lǐng)域相對(duì)集中,固定表達(dá)多,且使用頻率高;2)相對(duì)于其它民語(yǔ)來(lái)說(shuō),訓(xùn)練語(yǔ)料較多(表4.1)。這兩個(gè)原因有可能是藏漢政府文獻(xiàn)BLEU值偏高的主要原因。
從圖7可以看出,蒙漢日常用語(yǔ)領(lǐng)域的BLEU值很低,各系統(tǒng)間的差異不太顯著。我們考察了一下各參評(píng)單位提交的翻譯結(jié)果,從翻譯質(zhì)量上來(lái)看,各個(gè)系統(tǒng)還很不成熟,譯文中漏譯現(xiàn)象比較嚴(yán)重,命名實(shí)體普遍沒(méi)有翻譯出來(lái),譯文長(zhǎng)度偏短。
圖8 CWMT2011維漢新聞評(píng)測(cè)結(jié)果(BLEU5-SBP)
分析:從圖8可以看出,維漢新聞?lì)I(lǐng)域的BLEU值較高,各系統(tǒng)間的差異比較顯著。我們考察了評(píng)測(cè)語(yǔ)料及翻譯結(jié)果,發(fā)現(xiàn)和藏漢政府文獻(xiàn)翻譯的情形類似,維漢新聞的測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料主要來(lái)源于中國(guó)政府發(fā)布的官方新聞,領(lǐng)域比較集中,固定表達(dá)多且使用頻率高,而且測(cè)試語(yǔ)料與訓(xùn)練語(yǔ)料相似程度高,從而導(dǎo)致系統(tǒng)譯文的質(zhì)量比較好,BLEU值比較高。
分析:從圖9和圖10可以看出,哈漢和柯漢新聞?lì)I(lǐng)域的BLEU值也比較高,各系統(tǒng)間的差異不太顯著。與維漢新聞翻譯的情形類似,哈漢新聞和柯漢新聞的測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料主要來(lái)源于中國(guó)政府發(fā)布的官方新聞,而且測(cè)試語(yǔ)料與訓(xùn)練語(yǔ)料相似程度比較高,所以得分較高,而且柯漢新聞更有相當(dāng)一部分(超過(guò)1/3)的測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料來(lái)源于政府頒布的一些法規(guī)和條例,領(lǐng)域更加集中,這也許可以說(shuō)明為什么柯漢新聞的翻譯效果更好。
圖11 CWMT2011各評(píng)測(cè)項(xiàng)目對(duì)比
圖10橫坐標(biāo)中從左至右分別對(duì)應(yīng)著表2.1中從上到下九個(gè)評(píng)測(cè)項(xiàng)目,其中英漢新聞包括兩個(gè)子項(xiàng)目:英漢新p代表進(jìn)展(progress)項(xiàng)目,英漢新c代表當(dāng)前(current)項(xiàng)目??v坐標(biāo)為BLEU-SBP的數(shù)值,其中漢英的評(píng)測(cè)指標(biāo)是BLEU4-SBP,其他是BLEU5-SBP。
總的來(lái)看,評(píng)測(cè)BLEU-SBP得分比較高的項(xiàng)目有:臧漢政府文獻(xiàn)、維漢新聞、日漢新聞、柯漢新聞、英漢科技和哈漢新聞;評(píng)測(cè)得分比較低的項(xiàng)目有:漢英新聞和蒙漢新聞。
通過(guò)對(duì)參評(píng)系統(tǒng)所采用的技術(shù)以及翻譯結(jié)果的分析,我們發(fā)現(xiàn):
1)統(tǒng)計(jì)機(jī)器翻譯技術(shù)在本次參評(píng)的系統(tǒng)中占主流地位。參評(píng)系統(tǒng)絕大多數(shù)采用了統(tǒng)計(jì)機(jī)器翻譯技術(shù)(66個(gè)主系統(tǒng)中有62個(gè)采用的是純統(tǒng)計(jì)機(jī)器翻譯技術(shù))。與以往相比,本次評(píng)測(cè)更多單位采用了基于句法的統(tǒng)計(jì)機(jī)器翻譯模型(包括基于形式句法的層次短語(yǔ)模型),這表明更多的單位掌握了這項(xiàng)技術(shù)。
2)規(guī)則和統(tǒng)計(jì)相結(jié)合的系統(tǒng)在評(píng)測(cè)中表現(xiàn)出一定的優(yōu)勢(shì)。參評(píng)系統(tǒng)中只有少量系統(tǒng)(4個(gè)主系統(tǒng))結(jié)合了規(guī)則式方法和統(tǒng)計(jì)式方法,但是均取得了不錯(cuò)的效果。例如,S18采用的是在比較成熟的規(guī)則式系統(tǒng)的翻譯結(jié)果上運(yùn)用統(tǒng)計(jì)式方法進(jìn)行后編輯,在漢英新聞的評(píng)測(cè)項(xiàng)目中其BLEU值排名第一;S11采用的方法是,在基于統(tǒng)計(jì)和基于規(guī)則這兩類機(jī)器翻譯多引擎的翻譯輸出的基礎(chǔ)上,進(jìn)行系統(tǒng)融合,其在英漢科技領(lǐng)域提交的翻譯結(jié)果BLEU值排名第一。(另外還有一個(gè)單純的規(guī)則系統(tǒng)作為對(duì)比系統(tǒng),在其所在的評(píng)測(cè)項(xiàng)目組中成績(jī)不太理想。)
3)系統(tǒng)的翻譯質(zhì)量取決于多種因素。總體來(lái)說(shuō),源語(yǔ)言與目標(biāo)語(yǔ)言相似程度越高(如日漢新聞),評(píng)測(cè)的領(lǐng)域越集中,測(cè)試語(yǔ)料與訓(xùn)練語(yǔ)料/開發(fā)語(yǔ)料的相似程度越高(如藏漢政府文獻(xiàn)、維漢新聞、柯漢新聞、英漢科技等),訓(xùn)練語(yǔ)料規(guī)模越大(如英漢科技、藏漢政府文獻(xiàn)),參評(píng)系統(tǒng)采用的技術(shù)越先進(jìn),參評(píng)系統(tǒng)的成熟度越好(包括對(duì)一些細(xì)節(jié)問(wèn)題的處理,如:對(duì)評(píng)測(cè)語(yǔ)料的前期處理、對(duì)翻譯結(jié)果的譯后處理、對(duì)命名實(shí)體的處理,以及系統(tǒng)開發(fā)者的技術(shù)熟練程度等),系統(tǒng)表現(xiàn)越好。
CWMT2011評(píng)測(cè)主要側(cè)重于其他語(yǔ)種到漢語(yǔ)的評(píng)測(cè),共設(shè)立了9個(gè)評(píng)測(cè)項(xiàng)目,其中包括漢英雙向的進(jìn)展性評(píng)測(cè),新增了五個(gè)語(yǔ)言對(duì)的評(píng)測(cè),新增的評(píng)測(cè)主要是民族語(yǔ)言到漢語(yǔ)的評(píng)測(cè)。此次評(píng)測(cè)的評(píng)測(cè)項(xiàng)目和參評(píng)單位的數(shù)量都位居歷屆全國(guó)機(jī)器翻譯評(píng)測(cè)之首。
從評(píng)測(cè)結(jié)果來(lái)看,雖然一些項(xiàng)目的語(yǔ)種和領(lǐng)域是參評(píng)單位從未接觸過(guò)的,但不論是從自動(dòng)評(píng)測(cè)的結(jié)果(BLEU值等)還是從筆者人工考察的譯文質(zhì)量來(lái)看,機(jī)器翻譯的效果都超過(guò)了我們的預(yù)期,這充分證明了統(tǒng)計(jì)式機(jī)器翻譯技術(shù)強(qiáng)大的適應(yīng)性。但是也存在著一些問(wèn)題,例如,漢英新聞的翻譯,通過(guò)進(jìn)展性評(píng)測(cè),我們發(fā)現(xiàn)結(jié)果喜憂參半(大約有一半單位成績(jī)有所提高,還有大約一半的單位在后退或者止步不前),希望這個(gè)問(wèn)題引起大家的重視。
評(píng)測(cè)的成績(jī)?nèi)Q于多種因素,包括源語(yǔ)言與目標(biāo)語(yǔ)言的相似程度、評(píng)測(cè)領(lǐng)域的集中程度、測(cè)試語(yǔ)料與訓(xùn)練/開發(fā)語(yǔ)料的相似程度、訓(xùn)練語(yǔ)料的規(guī)模以及參評(píng)系統(tǒng)采用的技術(shù)和成熟度等。但是評(píng)測(cè)的結(jié)果不是我們?cè)u(píng)測(cè)的真正目的,我們的目的是通過(guò)評(píng)測(cè)這個(gè)手段,給大家提供一個(gè)技術(shù)交流的平臺(tái),讓大家及時(shí)發(fā)現(xiàn)問(wèn)題,跟蹤最新的機(jī)器翻譯技術(shù),互幫互學(xué),共同前進(jìn),推動(dòng)我國(guó)機(jī)器翻譯事業(yè)穩(wěn)步向前發(fā)展,最終達(dá)到利益大眾的目的。
CWMT2011機(jī)器翻譯評(píng)測(cè)能得以順利進(jìn)行,得益于各同行單位和同仁的大力支持,沒(méi)有大家在評(píng)測(cè)語(yǔ)料上的無(wú)私奉獻(xiàn)和在評(píng)測(cè)組織上的寶貴意見,這么大規(guī)模評(píng)測(cè)的實(shí)施是無(wú)法想象的。我們?cè)诖藢?duì)所有為CWMT2011評(píng)測(cè)提供評(píng)測(cè)語(yǔ)料、參加CWMT2011評(píng)測(cè)、關(guān)心和支持CWMT2011評(píng)測(cè)的單位和同仁表示最誠(chéng)摯的感謝!
CWMT2011研討會(huì)已初步確定了以后CWMT機(jī)器翻譯評(píng)測(cè)每隔兩年舉行一次,下一次機(jī)器翻譯評(píng)測(cè)的時(shí)間定在2013年,我們熱忱地歡迎各同行單位屆時(shí)踴躍報(bào)名參加評(píng)測(cè),也期待著各參評(píng)單位在CWMT2013中再創(chuàng)佳績(jī),將我國(guó)機(jī)器翻譯的研究和開發(fā)應(yīng)用推向一個(gè)新的高潮!
[1]劉群,趙紅梅.第五屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2009)評(píng)測(cè)報(bào)告[R].第五屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2009),2009年10月16~17日,南京.
[2]趙紅梅,呂雅娟,賁國(guó)生,等.第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011)評(píng)測(cè)報(bào)告[R].第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011),2011年9月23~24日,廈門.
[3]David Chiang,Steve DeNeefe,Yee Seng Chan,et al.2008.Decomposability of translation metrics for improved evaluation and efficient algorithms[C]//Proc.EMNLP 2008,pages 610-619.
[4]Michael Collins,Philipp Koehn,Ivona Kuerová.2005.Clause restructuring for statistical machine translation[C]//Proc.ACL 2005,pages 531-540.
[5]Ming Zhou,Bo Wang,Shujie Liu,et al.2008.Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points[C]//Proc.Coling 2008,pages 1121-1128.