解倩倩 艾山·吾買爾 吐爾根·依布拉音 買合木提·買買提 卡哈爾江·阿比的熱西提
摘 要: 采用統(tǒng)計(jì)與實(shí)例的混合策略和翻譯記憶技術(shù)相結(jié)合的方法設(shè)計(jì)并實(shí)現(xiàn)漢維計(jì)算機(jī)輔助翻譯系統(tǒng)。采用該方法的漢維方向BLUE值達(dá)0.292 4,0.299 9,0.292 2,維漢方向BLUE值達(dá)0.328 4,0.328 6,0.303 1;另外,在面對日益擴(kuò)展的語料庫的壓力時(shí)采用優(yōu)化的信息檢索技術(shù),并根據(jù)同一篇文章有同一個(gè)主題的特點(diǎn)采用上下文相關(guān)問答技術(shù),均使翻譯準(zhǔn)確率和譯者工作效率有了明顯提高。
關(guān)鍵詞: 計(jì)算機(jī)輔助翻譯; 混合策略; 信息檢索; 上下文相關(guān)問答
中圖分類號: TN911?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)20?0005?05
Abstract: A method of combining the hybrid strategy of statistics and instances with the translation memory technology is adopted to design and implement the Chinese?Uyghur computer?aided translation (CAT) system. Using this method, the Chinese?Uyghur BLUE value reaches 0.292 4, 0.299 9 and 0.292 2 while the Uyghur?Chinese BLUE value reaches 0.328 4, 0.328 6 and 0.303 1. In addition, the optimized information retrieval technology is used facing the pressure of the instantly increased corpus, and the contextual question answering technology is utilized according to the same topic characteristic of the same article. All these technologies make the translation accuracy of the system and the efficiency of translators significantly improved.
Keywords: computer?aided translation; hybrid strategy; information retrieval; contextual question answering
0 引 言
隨著計(jì)算機(jī)科學(xué)與信息技術(shù)在人們的生活學(xué)習(xí)中發(fā)揮越來越重要的作用,計(jì)算機(jī)輔助翻譯軟件以譯者為主、機(jī)器翻譯為輔的方式進(jìn)行工作,此低成本、高效率的方式給譯者和其他人民群眾帶來極大的便利,因此受到越來越多行業(yè)的關(guān)注。
國際上的計(jì)算機(jī)輔助翻譯技術(shù)的研究成果顯著,而國內(nèi)CAT軟件不論研究或教學(xué)都處于初期階段。20世紀(jì)80年代的機(jī)器翻譯工具發(fā)展迅猛[1],其僅能起到幫助譯者理解原文的目的,不能產(chǎn)生理想的譯文。近年來CAT技術(shù)取得不容小覷的成績。CAT軟件以人類為主體,并依靠計(jì)算機(jī)強(qiáng)大的存儲能力和快速檢索功能。CAT采用翻譯記憶技術(shù)可減少譯者的重復(fù)勞動(dòng),隨著翻譯記憶庫的擴(kuò)大可使譯文質(zhì)量逐步提高,不斷累積用戶譯文和用戶習(xí)慣最終達(dá)到CAT軟件與用戶之間良性循環(huán)。
漢維輔助翻譯[2]研究至今,因漢維語言跨度大、語料庫建設(shè)單位數(shù)量不夠、語料庫規(guī)模及質(zhì)量不盡人意、綜合性研究人員稀缺等問題影響其發(fā)展略顯緩慢。但學(xué)者仍不斷努力,如劉群對機(jī)器翻譯技術(shù)及輔助翻譯技術(shù)的發(fā)展趨勢進(jìn)行分析并提出自己的設(shè)想[3];麥熱哈巴·艾力等對維漢詞語對齊的機(jī)器翻譯方法進(jìn)行研究[4];吳小川等建設(shè)的漢維哈柯雙語平行語料庫加工處理系統(tǒng)對漢維CAT系統(tǒng)的發(fā)展具有重要作用[5];達(dá)瓦·伊德木草等研究基于實(shí)例統(tǒng)計(jì)翻譯混合策略方法并實(shí)現(xiàn)漢維/維漢機(jī)器翻譯[6];新疆多語種信息技術(shù)實(shí)驗(yàn)室自然語言處理小組和新疆電力信息通信公司合作完成的國家項(xiàng)目[7]采用多種機(jī)器翻譯手段實(shí)現(xiàn)基于C/S版本的多語種輔助翻譯系統(tǒng)。以上學(xué)者的努力與成果也在不斷幫助和激勵(lì)后繼之人。
本系統(tǒng)使用基于實(shí)例、統(tǒng)計(jì)和記憶庫相結(jié)合的混合策略方法,具有較高理論價(jià)值和經(jīng)濟(jì)價(jià)值。在面對日益擴(kuò)展的語料庫的壓力時(shí)采用優(yōu)化的信息檢索技術(shù),并根據(jù)同一篇文章有同一個(gè)主題的特點(diǎn)采用上下文相關(guān)問答技術(shù),均使翻譯準(zhǔn)確率和譯者工作效率有明顯提高。系統(tǒng)采用基于統(tǒng)計(jì)、基于實(shí)例、基于記憶庫方法的漢維方向BLUE值達(dá)0.292 4,0.299 9,0.292 2,維漢方向BLUE值達(dá)0.328 4,0.328 6,0.303 1。
1 系統(tǒng)關(guān)鍵模塊分析
維吾爾語是一種黏著語、復(fù)雜形態(tài)語言,語言內(nèi)容千變?nèi)f化、豐富多彩。人們需要運(yùn)用音系、詞法、句法、語義、語用、語境、認(rèn)知等綜合知識理解自然語言。而當(dāng)今計(jì)算機(jī)的智能化還并未達(dá)到人類的智能程度,把一種源語言利用機(jī)器翻譯為人類理想的目標(biāo)語言還需一定的努力。因此現(xiàn)今利用翻譯記憶技術(shù)實(shí)現(xiàn)計(jì)算機(jī)輔助翻譯系統(tǒng)是機(jī)器翻譯的發(fā)展趨勢。本系統(tǒng)是利用統(tǒng)計(jì)與實(shí)例的方法和翻譯記憶技術(shù)設(shè)計(jì)而成,現(xiàn)今的CAT軟件分類如表1所示。
目前國際上比較著名的CAT軟件有TRANDOS,國內(nèi)有雅信、朗瑞等。TRANDOS在2008年互聯(lián)網(wǎng)調(diào)查顯示其市場份額為80%,而這個(gè)數(shù)據(jù)到2014年則下降至70%。其主要原因是近年來大量的CAT軟件的涌現(xiàn)搶占了TRADOS的市場份額。CAT軟件一般具有翻譯記憶、術(shù)語庫管理、翻譯項(xiàng)目管理、語料庫加工與應(yīng)用等一系列功能。本系統(tǒng)的架構(gòu)圖如圖1所示。endprint
1.1 預(yù)處理模塊
在輔助翻譯的預(yù)處理階段,系統(tǒng)對用戶上傳的翻譯文本首先識別語言,然后再進(jìn)行分段、分句等處理。按照XML文件格式的標(biāo)記,將源語言文件的頁數(shù)、段數(shù)、行號存入數(shù)據(jù)庫表中。
1.2 術(shù)語管理
術(shù)語管理是CAT軟件的主要功能之一,由于每篇文章都包含無數(shù)個(gè)單詞,因此編輯校對時(shí)要重點(diǎn)核對單詞的前后一致性。比如在閱讀譯著時(shí)經(jīng)常出現(xiàn)單詞翻譯不一致,嚴(yán)重影響譯文質(zhì)量,極大地阻礙讀者的理解。為了解決上述困惑,CAT軟件擁有一個(gè)術(shù)語管理模塊用于規(guī)范專業(yè)術(shù)語,在翻譯時(shí),系統(tǒng)自動(dòng)識別譯者建立的專業(yè)術(shù)語庫中對應(yīng)的術(shù)語翻譯?,F(xiàn)階段的翻譯軟件都有術(shù)語管理功能,術(shù)語庫中的內(nèi)容可以通過詞典、CAT工具、手工等方式導(dǎo)入,有的軟件可以直接手動(dòng)或以Excel格式導(dǎo)人,而有的CAT軟件則需要轉(zhuǎn)化格式才可導(dǎo)人。本系統(tǒng)采用手動(dòng)和詞典兩種形式管理術(shù)語庫。
1.3 翻譯記憶庫
TM技術(shù)[8]是CAT的核心技術(shù),系統(tǒng)記憶庫是一個(gè)日積月累的本地文件,系統(tǒng)初始化為空,隨著用戶和管理員的持續(xù)使用,通過調(diào)整、矯正譯文,將原文和譯文導(dǎo)入翻譯記憶庫使翻譯記憶庫的規(guī)模不斷擴(kuò)大,翻譯的準(zhǔn)確率也不斷提高,從而建立起更加完善的系統(tǒng)記憶庫。本系統(tǒng)創(chuàng)建記憶庫是以句子或術(shù)語為單位,可以在項(xiàng)目翻譯時(shí)對譯文不理想的句子、術(shù)語、未登錄詞進(jìn)行翻譯,也可以在記憶庫管理、術(shù)語管理功能新建用戶記憶庫或術(shù)語,設(shè)置源語言和目標(biāo)語言,將句子、術(shù)語及對應(yīng)譯文等存入系統(tǒng)記憶庫。
1.4 機(jī)器翻譯
眾所周知機(jī)器翻譯按實(shí)現(xiàn)方法可分為基于規(guī)則、基于實(shí)例、基于統(tǒng)計(jì)的方法。
使用基于規(guī)則的方法因不同專業(yè)、描述粒度日益精細(xì),維護(hù)和管理日益艱難,基于規(guī)則的機(jī)器翻譯出現(xiàn)瓶頸。為了解決這一難題,基于實(shí)例的翻譯方法應(yīng)運(yùn)而生,它將句子分割為單詞、短語、子句等基本單位,對每個(gè)基本單位翻譯時(shí)參考例句,將通過類推方法翻譯的基本單位恰當(dāng)?shù)亟M成句子。緊隨其后,學(xué)者們又提出一種基于統(tǒng)計(jì)的機(jī)器翻譯方法,其基本單位也是短語,但對其不做任何語法處理,是任意連續(xù)的短語,然后根據(jù)翻譯模型翻譯每個(gè)短語,最后將翻譯為目標(biāo)語言的短語進(jìn)行重排序。
現(xiàn)階段,使用混合策略的機(jī)器翻譯方法對提高譯文質(zhì)量有顯著提高。本系統(tǒng)利用實(shí)例與統(tǒng)計(jì)相結(jié)合的方法,構(gòu)建雙語平行語料庫、雙語詞典,并采用統(tǒng)計(jì)機(jī)器翻譯技術(shù),對漢維機(jī)器翻譯的研究有極大的推動(dòng)作用。
1.5 信息檢索技術(shù)
在面對海量數(shù)據(jù)時(shí)信息檢索技術(shù)[9]對檢索結(jié)果有重要意義,隨著日益擴(kuò)展的CAT語料庫,使用優(yōu)化的檢索技術(shù)對翻譯準(zhǔn)確率和譯者的工作效率有進(jìn)一步提高。顯示反饋、隱式反饋和偽相關(guān)反饋是三類優(yōu)化的信息檢索技術(shù),隱式反饋是指利用譯者和CAT系統(tǒng)的交互信息推斷用戶的喜惡,達(dá)到優(yōu)化語料庫檢索結(jié)果的目的。
系統(tǒng)主要對譯者的隱式正反饋進(jìn)行研究和實(shí)現(xiàn)。譬如,統(tǒng)計(jì)用戶翻譯的領(lǐng)域?qū)ζ錂z索結(jié)果的排序具有重要意義,并能進(jìn)一步提高系統(tǒng)的譯者工作效率和翻譯準(zhǔn)確率,優(yōu)化用戶體驗(yàn);統(tǒng)計(jì)譯者與好友的交流頻率可推斷譯者感興趣的領(lǐng)域,系統(tǒng)首先判斷好友的翻譯領(lǐng)域,然后在譯者翻譯時(shí)將該領(lǐng)域語料庫檢索結(jié)果提供給譯者參考,可進(jìn)一步優(yōu)化用戶體驗(yàn)。
1.6 上下文問答
上下文問答作為信息檢索的新技術(shù)受到越來越多專家學(xué)者的青睞[10],在CAT系統(tǒng)中,同一篇文章描述是同一個(gè)主題這點(diǎn)毋庸置疑,據(jù)此可以推出結(jié)論,譯者在翻譯同一篇文章時(shí),系統(tǒng)對于句對和詞對的翻譯,可以重復(fù)使用部分上下文翻譯信息。系統(tǒng)采用此技術(shù)可以使系統(tǒng)的翻譯準(zhǔn)確率和譯者的工作效率有明顯提高。
2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
系統(tǒng)采用C#語言,使用SQL Server 2012數(shù)據(jù)庫,B/S架構(gòu),整體結(jié)構(gòu)適合于網(wǎng)絡(luò)應(yīng)用;由于對翻譯質(zhì)量要求較高,系統(tǒng)使用Web Service技術(shù)作為中間接口將翻譯服務(wù)放在一個(gè)獨(dú)立的翻譯服務(wù)器上面;使用Bootstrap前端框架,簡介靈活,在手機(jī)端也可正常使用;客戶端可以適用于內(nèi)存大于等于1 GB,2.4 GHz CPU以上配置硬件系統(tǒng);適用于IE,Chrome等不同的瀏覽器;支持Linux和Windows操作系統(tǒng);對網(wǎng)絡(luò)寬帶的要求適當(dāng),提供漢語、維吾爾語等不同的語言版本;支持網(wǎng)絡(luò)上的合作翻譯,彼此之間的交流方式簡單、流暢。
2.1 系統(tǒng)流程
將doc,docx,txt等格式的源語言文檔導(dǎo)入CAT系統(tǒng),對文本進(jìn)行分句處理(共N句),利用分詞工具從第一個(gè)句子開始對每個(gè)句子進(jìn)行分詞,利用TM技術(shù)計(jì)算句子相似度,如果完全匹配,則直接輸出第i個(gè)句子,否則,譯者人工校對第i個(gè)句子的譯文,并將該句子的譯文存入翻譯記憶庫,輸出該句子譯文,直至第N個(gè)句子譯文翻譯完畢,輸出目標(biāo)語言文本,最后以doc,docx,txt等格式導(dǎo)出文本文檔。CAT系統(tǒng)流程圖如圖2所示。
2.2 系統(tǒng)功能
本系統(tǒng)的主要功能設(shè)計(jì)如下:
(1) 具有多語言操作界面,根據(jù)維哈柯語言特點(diǎn)實(shí)現(xiàn)從右向左顯示和輸入的功能;
(2) 具有實(shí)例、詞典和記憶庫的翻譯功能,用戶可根據(jù)實(shí)際情況選擇機(jī)器翻譯方式,提供基于統(tǒng)計(jì)的翻譯接口;
(3) 提供自動(dòng)翻譯和人工交互式翻譯兩種翻譯功能;
(4) 用戶可設(shè)置源語言類型、目標(biāo)語言類型,支持一對多的翻譯模式;
(5) 支持Word,txt等常見文檔的讀寫功能,實(shí)現(xiàn)文檔導(dǎo)入、導(dǎo)出和標(biāo)記等操作;
(6) 支持自定義記憶庫文件、術(shù)語庫的創(chuàng)建、維護(hù)功能等。
2.3 系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)
系統(tǒng)主要數(shù)據(jù)可以分為單語語料庫、雙語語料庫、術(shù)語詞典、系統(tǒng)記憶庫以及軟件系統(tǒng)必要的配置數(shù)據(jù)等。系統(tǒng)建有項(xiàng)目信息、項(xiàng)目文件、文件段落、文件內(nèi)容、文件用的記憶庫、用戶項(xiàng)目6個(gè)表,如表2、表3所示。另外考慮到數(shù)據(jù)的安全性和滿足復(fù)雜的查詢需求,系統(tǒng)建立用戶項(xiàng)目、項(xiàng)目文件、文件內(nèi)容、用戶文件列表、句子的項(xiàng)目及文件等視圖;由于存儲過程可以提高程序執(zhí)行速度、使程序模塊化、減少網(wǎng)絡(luò)通信量和保證系統(tǒng)的安全性,系統(tǒng)在刪除臨時(shí)翻譯表內(nèi)容時(shí)采用存儲過程設(shè)計(jì)詳細(xì)的數(shù)據(jù)庫表。endprint
表2屬性依次表示項(xiàng)目編碼(自動(dòng)增加)、名稱、描述、創(chuàng)建時(shí)間、項(xiàng)目的狀態(tài)、創(chuàng)建者編碼、項(xiàng)目開始時(shí)間、結(jié)束時(shí)間、最后編輯時(shí)間、源語言、目標(biāo)語言。其中項(xiàng)目的狀態(tài)表示為:0是新建、1是活動(dòng)、2是完成、3是關(guān)閉、4是刪除,活動(dòng)狀態(tài)可以轉(zhuǎn)為關(guān)閉狀態(tài)。
表3屬性依次為文件編碼(自動(dòng)增加)、文件名稱、文件類型、文件語言類型、原始文件服務(wù)器目錄、開始時(shí)間、結(jié)束時(shí)間、最后編輯時(shí)間、項(xiàng)目編碼、源語言、目標(biāo)語言。其中文件類型為:0是txt文件、1是doc格式文檔、2是docx格式文檔、3是Unkown。
文件段落表屬性依次表示文件中段落編碼、段落所屬文件編碼、用戶編碼。文件內(nèi)容表屬性依次表示文件中的句子編碼、句子是否文本、需要翻譯的句子原文、翻譯后的句子、句子開始位置、句子結(jié)束位置、句子中字符的字體、句子中字符的字體、字體大小、文本對齊方式、句子所屬端編碼。其中句子是否文本:0表示是、1表示否。文件用的記憶庫表屬性依次表示為文件用的記憶庫編碼(自動(dòng)增加)、文件編碼、記憶庫編碼。用戶項(xiàng)目表屬性依次表示為用戶項(xiàng)目編碼(自動(dòng)增加)、用戶編碼、項(xiàng)目編碼。
2.4 實(shí)驗(yàn)結(jié)果
本文從150萬句的漢維雙語平行語料庫中隨機(jī)抽取1 000條分別測試系統(tǒng)漢維和維漢方向的BLUE值,語料來源于新疆多語種信息技術(shù)實(shí)驗(yàn)室自然處理小組對新聞、法律、政府文獻(xiàn)、對話等收集整理而得,測試結(jié)果如表4、表5所示。
2.5 系統(tǒng)實(shí)例展示
以新疆維吾爾自治區(qū)人民政府網(wǎng)站上一則新聞?lì)}目為《“一帶一路”臺商西部行考察團(tuán)抵疆考察》的實(shí)例展示系統(tǒng)的使用過程。將下載的新聞存入doc文檔,調(diào)整新聞的字體段落等格式。首先注冊并登錄CAT系統(tǒng),新建項(xiàng)目,將整理好的新聞文檔導(dǎo)入系統(tǒng)。
如圖3所示,翻譯界面分為左上、右上、左下、右下四部分。系統(tǒng)自動(dòng)對文本進(jìn)行分句處理,左上部分以句子為單位顯示源語言文本,點(diǎn)擊原文一條句子在左下部分顯示該句子的目標(biāo)語言譯文,其翻譯來源有基于統(tǒng)計(jì)、基于實(shí)例、基于記憶庫三種方法的譯文,若譯文不理想譯者可點(diǎn)擊重翻譯按鈕校正譯文,也可以點(diǎn)擊使用按鈕引用系統(tǒng)給出的譯文,對于未登錄詞或翻譯不準(zhǔn)確的詞語譯者可以在右下角使用添加術(shù)語功能,將術(shù)語加入術(shù)語庫。翻譯結(jié)束后,可查看譯文,也可導(dǎo)出目標(biāo)語言文檔。
3 結(jié) 語
本系統(tǒng)由新疆多語種信息技術(shù)實(shí)驗(yàn)室自然語言處理小組從2010年開始建立,在全體成員的不懈努力下,各司其職、緊密合作,歷時(shí)5年之久,終于在2015年3月面向社會(huì)發(fā)布,供各界人士免費(fèi)試用。
在本系統(tǒng)中,譯者對機(jī)器翻譯譯文進(jìn)行校正、刪除,提高譯文正確率。相對于機(jī)器翻譯,CAT以人為主體,機(jī)器翻譯輔助譯者,可提高譯文質(zhì)量;與人工翻譯相比,CAT大幅度提高翻譯效率,并降低翻譯成本;因此CAT軟件是機(jī)器翻譯和人工翻譯的完美結(jié)合。
系統(tǒng)在未來的升級擴(kuò)展中,將針對多語種擴(kuò)展、語料庫共享、記憶庫擴(kuò)充等方面做進(jìn)一步的研究和開發(fā),從而提供更高的翻譯精確性、可靠性和易操作性。
參考文獻(xiàn)
[1] PHILIPP K. Statistical machine translation [M]. Cambridge: Cambridge University Press, 2009.
[2] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報(bào),2011,25(6):149?156.
[3] 劉群.機(jī)器翻譯技術(shù)現(xiàn)狀與展望[J].集成技術(shù),2012,1(1):48?54.
[4] 麥熱哈巴·艾力,王志洋,吐爾根·依布拉音.一種提高維吾爾語?漢語詞語對齊的方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(11):2551?2555.
[5] 吳小川,吐爾根·依布拉音,艾山·吾買爾,等.漢維哈柯雙語平行語料庫加工處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識與技術(shù),2011,7(27):6680?6681.
[6] 達(dá)瓦·伊德木草,艾山·吾買爾.實(shí)例統(tǒng)計(jì)翻譯混合策略的漢民病歷翻譯的研究[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(1):68?73.
[7] 尼加提·納吉米,席小剛,馬斌,等.多語種輔助翻譯系統(tǒng)研究與實(shí)現(xiàn)[J].電腦知識與技術(shù),2012,8(2):345?350.
[8] 張建平,葉德峰.谷歌譯者工具包輔助下的有色金屬科技論文摘要英譯[J].中國鎢業(yè),2012(5):40?43.
[9] MANNING C D, RAGHAVAN P, SCHUTZE H. An introduction to information retrieval [M]. Cambridge: Cambridge University press, 2009.
[10] 王東升,王石,王衛(wèi)民,等.基于本體和語義文法的上下文相關(guān)問答[J].中文信息學(xué)報(bào),2016,30(2):142?152.endprint