面向計(jì)算機(jī)輔助翻譯的烏茲別克語一漢語平行語料庫構(gòu)建與應(yīng)用

2019-12-16 02:57:56原偉

電腦知識與技術(shù) 2019年30期

原偉

摘要：論文采用了外語教學(xué)、語料庫建設(shè)及機(jī)器輔助翻譯的相關(guān)理論和方法，針對新聞?lì)I(lǐng)域?yàn)鯘h平行語料庫的構(gòu)建及其在烏茲別克語教學(xué)中應(yīng)用的問題進(jìn)行了研究。在研究過程中，分析了烏漢雙語語料對齊和語料庫翻譯實(shí)例的調(diào)用特點(diǎn)，整合自編烏漢雙向新聞詞典、烏語網(wǎng)絡(luò)新聞新聞及烏國防部新聞互譯文本的相關(guān)語料，建立包含詞、句級別的平行語料庫，面向常用機(jī)輔翻譯軟件建立了翻譯記憶庫和術(shù)語庫。通過本項(xiàng)目研究，在理論上揭示了烏漢平行語料庫構(gòu)建的方法論基礎(chǔ)，闡明該語種語料庫語言教學(xué)工作的促進(jìn)作用，建立可行的實(shí)施方案，在應(yīng)用上將推動(dòng)了中亞語種乃至非通用語種平行語料庫建設(shè)的發(fā)展。

關(guān)鍵詞：機(jī)器輔助翻譯;平行語料庫;烏茲別克語

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2019）30-0101-03

1研究現(xiàn)狀及意義

通常來說，平行語料庫是原文與譯文按照句子為對齊單元平行對應(yīng)的雙語語料庫，可有效用于語言對比研究、翻譯研究、翻譯教學(xué)、翻譯技術(shù)開發(fā)、雙語詞典編纂等語言學(xué)以及自然語言處理研究領(lǐng)域。平行語料庫的構(gòu)建研究開始于20世紀(jì)90年代，目前國內(nèi)外已經(jīng)建成了較大規(guī)模、多種類型、不同用途的雙語平行語料庫。在國內(nèi)，國家語委、北京大學(xué)、中科院、哈爾濱工業(yè)大學(xué)、外語教學(xué)與研究出版社都分別建有面向不同應(yīng)用方向、規(guī)模不同的英漢平行語料庫。除了英漢平行語料庫之外，北京外國語大學(xué)還組織構(gòu)建了包含分庫構(gòu)建了漢英、漢日語言對應(yīng)的大型雙語平行語料庫嘲。語料庫只有在應(yīng)用中才能體現(xiàn)其真正的價(jià)值。平行語料庫不僅可以用于語言教學(xué)、翻譯研究、詞典編撰等語言學(xué)研究領(lǐng)域，也是自然語言處理、知識工程和跨語言信息檢索的基礎(chǔ)性資源，其構(gòu)建意義和應(yīng)用價(jià)值十分重要。

機(jī)器輔助翻譯（Computer-assisted Translation，CAT）是機(jī)器翻譯研究領(lǐng)域的重要分支。一般來說，使用機(jī)輔翻譯技術(shù)能夠使譯員的翻譯效率提高兩到三倍。在機(jī)輔翻譯過程中，CAT軟件只是索引、調(diào)用和匹配平臺，術(shù)語庫和翻譯記憶庫才是真正的實(shí)質(zhì)內(nèi)容與核心。而平行語料庫是術(shù)語庫（TB）（詞級別對齊語脊斗）和翻譯記憶庫（TM）（句段級別對齊語料）構(gòu)建的根本基礎(chǔ)。機(jī)器輔助翻譯技術(shù)在國外已經(jīng)有較長的發(fā)展歷史，開發(fā)計(jì)算機(jī)輔助翻譯軟件的企業(yè)有很多，目前在業(yè)界比較著名的有塔多思（Trados）、DejaVu、TransStar、Wordfast、MemoQ、WordFisher、Ome-gaT等。在國內(nèi)，通過對國外計(jì)算機(jī)輔助翻譯軟件開發(fā)的學(xué)習(xí)與借鑒，從事機(jī)器輔助翻譯的技術(shù)研究和產(chǎn)品開發(fā)近年來得到了長足的發(fā)展，目前較為有代表性的包括雅信翻譯平臺（cATs）、雪人CAT、文婕（WinMAT）、北京永邦博典（ITM）等。

雖然平行語料庫建設(shè)和計(jì)算機(jī)輔助翻譯研究蓬勃發(fā)展，但也存在很多現(xiàn)實(shí)問題：從技術(shù)層面來說，多數(shù)CAT軟件產(chǎn)品對于通用語種能夠較好地支持，而對于非通用語種普遍支持不夠，非通用語種翻譯記憶、術(shù)語管理和語料對齊等CAT核心技術(shù)都沒有很好的解決方案。從內(nèi)容層面來說，在英語、日語、烏茲別克語等通用語種領(lǐng)域，大規(guī)模平行語料庫已經(jīng)普遍建立，相關(guān)研究屢見不鮮;然而，對于非通用語領(lǐng)域，平行語料庫的建立還處于起步階段，無論從規(guī)模還是質(zhì)量上還說同前者都存在巨大的差距，還有很多的基礎(chǔ)性工作有待完成。

構(gòu)建烏茲別克語漢語平行語料庫的意義在于：首先，中國與中亞各國的交往不斷加深，層面不斷深入，由于長久以來對中亞非通用語種沒有予以應(yīng)有的重視，相關(guān)語言翻譯保障手段，如工具書、電子詞典、翻譯軟件等長期處于稀缺狀態(tài)，烏茲別克語人才培養(yǎng)的質(zhì)量和水平急需提升。使用雙語平行語料庫和機(jī)器輔助翻譯的相關(guān)技術(shù)，來有效促進(jìn)烏茲別克語教學(xué)與人才培養(yǎng)的整體水平，滿足國內(nèi)該語種人才緊缺的現(xiàn)實(shí)需求。其次，填補(bǔ)烏語新聞平行語料庫的空白，在應(yīng)用上推動(dòng)國內(nèi)中亞語種乃至非通用語種平行語料庫建設(shè)的發(fā)展。最后，將平行語料庫與傳統(tǒng)語言研究手段有機(jī)結(jié)合，促進(jìn)烏茲別克語基礎(chǔ)教學(xué)工作地發(fā)展，提升外語人才培訓(xùn)水平。將語料庫運(yùn)用于烏語機(jī)輔翻譯，探索相應(yīng)的可行性方案，研制CAT軟件系統(tǒng)，望能拋磚引玉，為其他非通用語種相關(guān)研究提供思路。

2語料庫構(gòu)建

2.1語料選擇

在建設(shè)語料庫之前，語料的代表性是首先需要考慮的問題。當(dāng)前烏茲別克語相關(guān)的新聞?wù)Z料主要來自互聯(lián)網(wǎng)，總體來說規(guī)模較小，烏漢雙語的新聞互譯文本更為稀缺，可以采集的數(shù)據(jù)十分有限并且質(zhì)量參差不齊，在采集和處理語料時(shí)需要設(shè)定一定的標(biāo)準(zhǔn)。在這里，我們首先需要重點(diǎn)考慮語料來源的權(quán)威性、文本質(zhì)量、語料類別平衡這三個(gè)問題。根據(jù)上述標(biāo)準(zhǔn)，烏茲別克語一漢語平行語料庫在選取新聞?wù)Z料的基本原則為：第一，首選烏茲別克斯坦官方網(wǎng)絡(luò)媒體發(fā)布的新聞?wù)Z料，其次是其他新聞網(wǎng)站、本地報(bào)刊等其他資源。第二，對所采錄語料進(jìn)行文字統(tǒng)一、文本清理、錯(cuò)誤篩查等質(zhì)量評估，質(zhì)量低劣文本不予收錄。第三，實(shí)行均衡采樣原則，將烏茲別克語新聞文本來源設(shè)定為兩大類，即新聞?lì)恌重要新聞事件、新聞活動(dòng)報(bào)道、與新聞活動(dòng)相關(guān)的政治活動(dòng)等等）和新聞文獻(xiàn)類（學(xué)術(shù)著作、說明書、協(xié)定等等）。第四，單篇文本的規(guī)模設(shè)定為500詞至3000詞之間，過少或過多則不予收錄。第五，針對烏茲別克語一漢語互譯新聞?wù)Z料數(shù)據(jù)稀疏或難以收集的問題，在選取優(yōu)秀烏茲別克語新聞?wù)Z料自行翻譯，再進(jìn)行校對后收錄。上述五條原則的主旨是保證所選語料的代表性和質(zhì)量，以確保后期基于該平行語料庫開展的機(jī)輔翻譯研究及應(yīng)用取得較好效果。

2.2語料電子化

語料的來源主要為烏茲別克斯坦官方新聞網(wǎng)站，網(wǎng)絡(luò)文本主要涉及文字校對與格式整理，相對而言比較簡單。但是經(jīng)初步查證發(fā)現(xiàn)，公開發(fā)布的烏茲別克斯坦新聞規(guī)模不大，而網(wǎng)絡(luò)上的高質(zhì)量的烏茲別克語一漢語互譯資源更加稀缺。正因如此，在語料庫的實(shí)際建設(shè)過程中，語料庫中很大部分烏茲別克語新聞資料是通過翻譯后經(jīng)過校對后進(jìn)行收錄的，雖然花費(fèi)了大量的人力工作，但確保了對齊語料的質(zhì)量。

語料的另一個(gè)來源是烏茲別克語新聞報(bào)刊等印刷制品。為了節(jié)省印刷文字轉(zhuǎn)寫工作所花費(fèi)的大量時(shí)間，本研究采用了印刷品高清掃描后，使用文字識別軟件進(jìn)行識別，最后進(jìn)行文字和格式校對的方法。當(dāng)前的國內(nèi)OCR識別軟件主要針對中文與英文，對于烏茲別克文的識別并不支持。課題組采用軟件Abbyy Finereader對掃描文本進(jìn)行了識別，該軟件不僅對烏茲別克文有可以接受的識別效果，可以達(dá)到75%左右的正確率。在識別后，通過手工進(jìn)行文本的校對和整理，糾正格式和識別錯(cuò)誤。Abbyy Finereader軟件對烏茲別克語的識別正確率可以達(dá)到88%以上，大大提高了新聞報(bào)刊的文字轉(zhuǎn)寫效率。

2.3語料對齊

語料對齊是指將原文語料與譯文語料分別保存后，并使兩個(gè)文本中的語料按照句與句的關(guān)系逐條對齊，這是所有平行語料庫構(gòu)建過程中最重要的步驟。目前，句與句對齊軟件較多依附于計(jì)算機(jī)輔助翻譯（cAT）軟件中，使用對齊工具可以將現(xiàn)有的原文與譯文進(jìn)行對齊排列，生成雙語文件，及翻譯單元，創(chuàng)建翻譯記憶數(shù)據(jù)，將之導(dǎo)入到CAT軟件中調(diào)用，從而達(dá)到重復(fù)利用翻譯資源提高翻譯效率的目的。自動(dòng)對齊模塊會根據(jù)句子結(jié)束標(biāo)記把原文和譯文自動(dòng)拆分為句段，并且把原文句段和譯文句段自動(dòng)匹配對齊，但對齊結(jié)果存在錯(cuò)誤，類似的對齊模塊較為典型的包括Trados的Winalign模塊，Dejavu的AlignmentWizard模塊，Memoq的對齊工具，以及近年來進(jìn)步迅速的雪人CAT軟件中基于詞庫和句相似度計(jì)算的對齊工具。在對齊過后的平行語料庫構(gòu)建中，構(gòu)建人員需要檢查這些對齊是否正確，對錯(cuò)誤對齊進(jìn)行必要調(diào)整與修改。在修訂后，再將這些對齊好的平行句段導(dǎo)出到包含雙語信息的文本中，然后可以儲存在翻譯記憶庫用于計(jì)算機(jī)輔助翻譯。雖然對齊工具的選擇很多，但總體來看這類工具處理文本的準(zhǔn)確率并不太高，后期人工介人調(diào)整是勢在必行的。除此之外，由于烏漢語言在表達(dá)、句式方面的差異，實(shí)際的翻譯過程中并非全部以句為單位，翻譯關(guān)系存在一對多或多對多的情況。

我們采用了Dejavu計(jì)算機(jī)輔助翻譯軟件的對齊工具Align-ment Wizard，其優(yōu)勢在于支持多類型文本導(dǎo)入導(dǎo)出、自動(dòng)對齊算法優(yōu)良、最終構(gòu)建的翻譯記憶庫可轉(zhuǎn)換成多種格式。在De-javu創(chuàng)建的對齊項(xiàng)目中，可以方便地合并（join）、分割（split）、刪除（delete）、上移（moveup）、下移（move down）句段，并可將選中詞、短語加入自建的術(shù)語庫（TB），使用非常方便，并支持多種類型文本的導(dǎo)入導(dǎo)出。詳見圖1。

對于烏茲別克斯坦新聞?lì)I(lǐng)域?yàn)鯘h平行語料庫的對齊工作，我們首先由人工完成篇章與篇章對齊的工作，之后使用DejavuX2的AlignmentWizard工具初步實(shí)現(xiàn)了句與句的對齊，再通過人工校對排查，最終達(dá)到句子層級的對齊。在句對齊工程中，收集領(lǐng)域詞匯加入Dejavu術(shù)語庫。最后，通過人工反復(fù)進(jìn)行檢驗(yàn)，以確定全部文本已經(jīng)達(dá)到句與句對齊的效果。在此之后，將對齊文本導(dǎo)入自建CAT翻譯記憶庫（TM）。從TM中可以導(dǎo)出Excel表對齊文本，最后形成單語文本對應(yīng)的txt文件用于平行語料庫。

3語料庫的機(jī)器輔助翻譯應(yīng)用

3.1短語（短語）級對齊語料

我們收集整理了大量與烏茲別克斯坦和新聞?lì)I(lǐng)域相關(guān)詞匯短語，共計(jì)29412條，約10.2萬字。收詞工作前期共收詞50000余條，后經(jīng)過精心篩選和考量，精簡到30000余條，其中外漢部分約14000條，漢外部分約15000條，每詞條盡量收全，另外適當(dāng)選收了部分常用詞語和詞組搭配，內(nèi)容包括新聞?lì)I(lǐng)域的一般用語和部分非常用詞語。短語語料的特點(diǎn)有以下三點(diǎn)：第一，收詞較為合理，覆蓋面廣，不僅收錄了較為常用的新聞詞語，還涉及了包括科技、人文、醫(yī)學(xué)、金融等諸多領(lǐng)域的專業(yè)術(shù)語。第二，新詞多，收錄整理過程中確保了語言材料的科學(xué)性和新鮮性。構(gòu)建語料庫時(shí)使用Excel編輯，之后轉(zhuǎn)為TXT對齊文本。

3.2CAT翻譯記憶庫及術(shù)語庫的構(gòu)建

本項(xiàng)目翻譯記憶庫中的數(shù)據(jù)來源有兩個(gè)，第一是通過Alignment Wiz-ard工具整理篇章語料后錄入的對齊語料，第二是手工構(gòu)建的Excel構(gòu)建的對齊語料。使用Dejavu的文件導(dǎo)入功能，可將Excel文本中的對齊文件直接導(dǎo)人到自建的翻譯記憶庫中，供CAT項(xiàng)目使用。術(shù)語庫構(gòu)建方法與之相似：第一，AlignmentWizard工具可將句對中的短語對、詞對導(dǎo)入TB;第二，借助Excel表文件導(dǎo)人術(shù)語。Dejavu翻譯記憶庫和術(shù)語庫可以通過格式轉(zhuǎn)換，普遍應(yīng)用與各類CAT軟件中。

3.3篇章、句子級對齊語料

我們供收集和翻譯整理與烏茲別克斯坦和新聞?lì)I(lǐng)域相關(guān)烏漢文本共108對，216篇，約20萬字語料。語料庫的突出特點(diǎn)為：首先，語料庫專業(yè)性強(qiáng)。本語料庫僅涉及新聞?lì)I(lǐng)域語料，同時(shí)主要針對對象國烏茲別克斯坦，同時(shí)新聞按照類別平均采樣，突出了語料的代表性特征;（2）語料規(guī)?；緷M足研究需要。從絕對字（詞）數(shù)量上看，該庫的語料數(shù)量并不是很大，但是就專門類別語料庫而言，該庫的語料數(shù)量足以達(dá)到其設(shè)計(jì)的研究及用目標(biāo)，可以較好地用于計(jì)算機(jī)輔助翻譯研究;（3）選材質(zhì)量高、代表性強(qiáng)。新聞選材及分類標(biāo)準(zhǔn)設(shè)計(jì)細(xì)致且完善，保證所選語料的高質(zhì)量、均衡性和代表性，為后期良好的研究及應(yīng)用效果打好了基礎(chǔ)。語料庫句對齊示例見圖2。

4烏漢新聞平行語料庫的應(yīng)用前景

第一，基于烏漢平行語料庫的機(jī)器翻譯研究。平行語料庫對機(jī)器翻譯準(zhǔn)確率、處理性能和效率提升的影響是十分明顯的，基于語料庫的機(jī)器翻譯系統(tǒng)包括基于統(tǒng)計(jì)和基于實(shí)例的兩種類型，最重要的數(shù)據(jù)資源就是利用平行語料庫。對于非通用語言中亞烏茲別克語來說，平行語料庫資源十分寶貴。本文構(gòu)建的烏漢平行語料庫可以直接作為訓(xùn)練數(shù)據(jù)語料用于統(tǒng)計(jì)機(jī)器翻譯應(yīng)用中。同時(shí)，平息語料庫由可以用于獲取機(jī)用翻譯詞典、翻譯模板的等翻譯知識，較好地提供用于機(jī)器翻譯的基礎(chǔ)資源。

第二，基于烏漢平行語料庫的跨語言信息檢索。隨著“一帶一路”倡議的廣泛推進(jìn)，中國與中亞國家之間的多層次交流更加廣泛和頻繁，面向中亞的多語種信息檢索產(chǎn)生的語言障礙日益突出，只有通過跨語言信息檢索技術(shù)來突破障礙。烏漢新聞雙語平行語料庫的構(gòu)建為我們提供了內(nèi)容豐富合理的翻譯資源，在消除歧義方面烏漢平行語料庫比語言詞典、機(jī)器翻譯等技術(shù)更具優(yōu)勢，與二者結(jié)合不僅提高翻譯質(zhì)量，而且提升了速度和精度，對推動(dòng)跨語言信息檢索將起到關(guān)鍵作用嘲。

第三，基于平行語料庫的語言及翻譯研究。烏漢平行語料庫具有鮮活的語料，在新聞翻譯教學(xué)中，這些教學(xué)素材的應(yīng)用無疑有助于提升學(xué)習(xí)者對對象國新聞文化的了解，亦有助于增強(qiáng)學(xué)習(xí)者跨文化交際能力。因此，該庫的建設(shè)與應(yīng)用對培養(yǎng)立足學(xué)科建設(shè)工作、面向中亞方向翻譯人才具有極大的推動(dòng)作用。本語料庫的主要使用者為外語院校及外語培訓(xùn)機(jī)構(gòu)，可為烏語新聞處理和新聞外交人員提供翻譯語料支持，能為中烏新聞交流合作活動(dòng)初步提供統(tǒng)一的新聞翻譯標(biāo)準(zhǔn)及文本交換格式，并且可以以此為基礎(chǔ)開發(fā)一系列新聞信息處理產(chǎn)品等。

電腦知識與技術(shù)2019年30期

電腦知識與技術(shù)的其它文章: 鏈輪成品品控流程的優(yōu)化; 新工科背景下軟件工程專業(yè)校企合作校內(nèi)實(shí)訓(xùn)模式的研究; 以學(xué)情分析為基礎(chǔ)的《動(dòng)態(tài)網(wǎng)頁設(shè)計(jì)》教學(xué)設(shè)計(jì); 大數(shù)據(jù)時(shí)代電子商務(wù)安全與數(shù)據(jù)分析平臺分析; 淺談?dòng)?jì)算機(jī)軟件在辦公自動(dòng)化管理上的應(yīng)用; 基于互聯(lián)網(wǎng)+020電子商務(wù)平臺的農(nóng)業(yè)信息化建設(shè)框架

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向計(jì)算機(jī)輔助翻譯的烏茲別克語一漢語平行語料庫構(gòu)建與應(yīng)用