原偉
摘要:論文采用了外語教學(xué)、語料庫建設(shè)及機(jī)器輔助翻譯的相關(guān)理論和方法,針對新聞?lì)I(lǐng)域?yàn)鯘h平行語料庫的構(gòu)建及其在烏茲別克語教學(xué)中應(yīng)用的問題進(jìn)行了研究。在研究過程中,分析了烏漢雙語語料對齊和語料庫翻譯實(shí)例的調(diào)用特點(diǎn),整合自編烏漢雙向新聞詞典、烏語網(wǎng)絡(luò)新聞新聞及烏國防部新聞互譯文本的相關(guān)語料,建立包含詞、句級別的平行語料庫,面向常用機(jī)輔翻譯軟件建立了翻譯記憶庫和術(shù)語庫。通過本項(xiàng)目研究,在理論上揭示了烏漢平行語料庫構(gòu)建的方法論基礎(chǔ),闡明該語種語料庫語言教學(xué)工作的促進(jìn)作用,建立可行的實(shí)施方案,在應(yīng)用上將推動(dòng)了中亞語種乃至非通用語種平行語料庫建設(shè)的發(fā)展。
關(guān)鍵詞:機(jī)器輔助翻譯;平行語料庫;烏茲別克語
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)30-0101-03
1研究現(xiàn)狀及意義
通常來說,平行語料庫是原文與譯文按照句子為對齊單元平行對應(yīng)的雙語語料庫,可有效用于語言對比研究、翻譯研究、翻譯教學(xué)、翻譯技術(shù)開發(fā)、雙語詞典編纂等語言學(xué)以及自然語言處理研究領(lǐng)域。平行語料庫的構(gòu)建研究開始于20世紀(jì)90年代,目前國內(nèi)外已經(jīng)建成了較大規(guī)模、多種類型、不同用途的雙語平行語料庫。在國內(nèi),國家語委、北京大學(xué)、中科院、哈爾濱工業(yè)大學(xué)、外語教學(xué)與研究出版社都分別建有面向不同應(yīng)用方向、規(guī)模不同的英漢平行語料庫。除了英漢平行語料庫之外,北京外國語大學(xué)還組織構(gòu)建了包含分庫構(gòu)建了漢英、漢日語言對應(yīng)的大型雙語平行語料庫嘲。語料庫只有在應(yīng)用中才能體現(xiàn)其真正的價(jià)值。平行語料庫不僅可以用于語言教學(xué)、翻譯研究、詞典編撰等語言學(xué)研究領(lǐng)域,也是自然語言處理、知識工程和跨語言信息檢索的基礎(chǔ)性資源,其構(gòu)建意義和應(yīng)用價(jià)值十分重要。
機(jī)器輔助翻譯(Computer-assisted Translation,CAT)是機(jī)器翻譯研究領(lǐng)域的重要分支。一般來說,使用機(jī)輔翻譯技術(shù)能夠使譯員的翻譯效率提高兩到三倍。在機(jī)輔翻譯過程中,CAT軟件只是索引、調(diào)用和匹配平臺,術(shù)語庫和翻譯記憶庫才是真正的實(shí)質(zhì)內(nèi)容與核心。而平行語料庫是術(shù)語庫(TB)(詞級別對齊語脊斗)和翻譯記憶庫(TM)(句段級別對齊語料)構(gòu)建的根本基礎(chǔ)。機(jī)器輔助翻譯技術(shù)在國外已經(jīng)有較長的發(fā)展歷史,開發(fā)計(jì)算機(jī)輔助翻譯軟件的企業(yè)有很多,目前在業(yè)界比較著名的有塔多思(Trados)、DejaVu、TransStar、Wordfast、MemoQ、WordFisher、Ome-gaT等。在國內(nèi),通過對國外計(jì)算機(jī)輔助翻譯軟件開發(fā)的學(xué)習(xí)與借鑒,從事機(jī)器輔助翻譯的技術(shù)研究和產(chǎn)品開發(fā)近年來得到了長足的發(fā)展,目前較為有代表性的包括雅信翻譯平臺(cATs)、雪人CAT、文婕(WinMAT)、北京永邦博典(ITM)等。
雖然平行語料庫建設(shè)和計(jì)算機(jī)輔助翻譯研究蓬勃發(fā)展,但也存在很多現(xiàn)實(shí)問題:從技術(shù)層面來說,多數(shù)CAT軟件產(chǎn)品對于通用語種能夠較好地支持,而對于非通用語種普遍支持不夠,非通用語種翻譯記憶、術(shù)語管理和語料對齊等CAT核心技術(shù)都沒有很好的解決方案。從內(nèi)容層面來說,在英語、日語、烏茲別克語等通用語種領(lǐng)域,大規(guī)模平行語料庫已經(jīng)普遍建立,相關(guān)研究屢見不鮮;然而,對于非通用語領(lǐng)域,平行語料庫的建立還處于起步階段,無論從規(guī)模還是質(zhì)量上還說同前者都存在巨大的差距,還有很多的基礎(chǔ)性工作有待完成。
構(gòu)建烏茲別克語漢語平行語料庫的意義在于:首先,中國與中亞各國的交往不斷加深,層面不斷深入,由于長久以來對中亞非通用語種沒有予以應(yīng)有的重視,相關(guān)語言翻譯保障手段,如工具書、電子詞典、翻譯軟件等長期處于稀缺狀態(tài),烏茲別克語人才培養(yǎng)的質(zhì)量和水平急需提升。使用雙語平行語料庫和機(jī)器輔助翻譯的相關(guān)技術(shù),來有效促進(jìn)烏茲別克語教學(xué)與人才培養(yǎng)的整體水平,滿足國內(nèi)該語種人才緊缺的現(xiàn)實(shí)需求。其次,填補(bǔ)烏語新聞平行語料庫的空白,在應(yīng)用上推動(dòng)國內(nèi)中亞語種乃至非通用語種平行語料庫建設(shè)的發(fā)展。最后,將平行語料庫與傳統(tǒng)語言研究手段有機(jī)結(jié)合,促進(jìn)烏茲別克語基礎(chǔ)教學(xué)工作地發(fā)展,提升外語人才培訓(xùn)水平。將語料庫運(yùn)用于烏語機(jī)輔翻譯,探索相應(yīng)的可行性方案,研制CAT軟件系統(tǒng),望能拋磚引玉,為其他非通用語種相關(guān)研究提供思路。
2語料庫構(gòu)建
2.1語料選擇
在建設(shè)語料庫之前,語料的代表性是首先需要考慮的問題。當(dāng)前烏茲別克語相關(guān)的新聞?wù)Z料主要來自互聯(lián)網(wǎng),總體來說規(guī)模較小,烏漢雙語的新聞互譯文本更為稀缺,可以采集的數(shù)據(jù)十分有限并且質(zhì)量參差不齊,在采集和處理語料時(shí)需要設(shè)定一定的標(biāo)準(zhǔn)。在這里,我們首先需要重點(diǎn)考慮語料來源的權(quán)威性、文本質(zhì)量、語料類別平衡這三個(gè)問題。根據(jù)上述標(biāo)準(zhǔn),烏茲別克語一漢語平行語料庫在選取新聞?wù)Z料的基本原則為:第一,首選烏茲別克斯坦官方網(wǎng)絡(luò)媒體發(fā)布的新聞?wù)Z料,其次是其他新聞網(wǎng)站、本地報(bào)刊等其他資源。第二,對所采錄語料進(jìn)行文字統(tǒng)一、文本清理、錯(cuò)誤篩查等質(zhì)量評估,質(zhì)量低劣文本不予收錄。第三,實(shí)行均衡采樣原則,將烏茲別克語新聞文本來源設(shè)定為兩大類,即新聞?lì)恌重要新聞事件、新聞活動(dòng)報(bào)道、與新聞活動(dòng)相關(guān)的政治活動(dòng)等等)和新聞文獻(xiàn)類(學(xué)術(shù)著作、說明書、協(xié)定等等)。第四,單篇文本的規(guī)模設(shè)定為500詞至3000詞之間,過少或過多則不予收錄。第五,針對烏茲別克語一漢語互譯新聞?wù)Z料數(shù)據(jù)稀疏或難以收集的問題,在選取優(yōu)秀烏茲別克語新聞?wù)Z料自行翻譯,再進(jìn)行校對后收錄。上述五條原則的主旨是保證所選語料的代表性和質(zhì)量,以確保后期基于該平行語料庫開展的機(jī)輔翻譯研究及應(yīng)用取得較好效果。
2.2語料電子化
語料的來源主要為烏茲別克斯坦官方新聞網(wǎng)站,網(wǎng)絡(luò)文本主要涉及文字校對與格式整理,相對而言比較簡單。但是經(jīng)初步查證發(fā)現(xiàn),公開發(fā)布的烏茲別克斯坦新聞規(guī)模不大,而網(wǎng)絡(luò)上的高質(zhì)量的烏茲別克語一漢語互譯資源更加稀缺。正因如此,在語料庫的實(shí)際建設(shè)過程中,語料庫中很大部分烏茲別克語新聞資料是通過翻譯后經(jīng)過校對后進(jìn)行收錄的,雖然花費(fèi)了大量的人力工作,但確保了對齊語料的質(zhì)量。
語料的另一個(gè)來源是烏茲別克語新聞報(bào)刊等印刷制品。為了節(jié)省印刷文字轉(zhuǎn)寫工作所花費(fèi)的大量時(shí)間,本研究采用了印刷品高清掃描后,使用文字識別軟件進(jìn)行識別,最后進(jìn)行文字和格式校對的方法。當(dāng)前的國內(nèi)OCR識別軟件主要針對中文與英文,對于烏茲別克文的識別并不支持。課題組采用軟件Abbyy Finereader對掃描文本進(jìn)行了識別,該軟件不僅對烏茲別克文有可以接受的識別效果,可以達(dá)到75%左右的正確率。在識別后,通過手工進(jìn)行文本的校對和整理,糾正格式和識別錯(cuò)誤。Abbyy Finereader軟件對烏茲別克語的識別正確率可以達(dá)到88%以上,大大提高了新聞報(bào)刊的文字轉(zhuǎn)寫效率。
2.3語料對齊
語料對齊是指將原文語料與譯文語料分別保存后,并使兩個(gè)文本中的語料按照句與句的關(guān)系逐條對齊,這是所有平行語料庫構(gòu)建過程中最重要的步驟。目前,句與句對齊軟件較多依附于計(jì)算機(jī)輔助翻譯(cAT)軟件中,使用對齊工具可以將現(xiàn)有的原文與譯文進(jìn)行對齊排列,生成雙語文件,及翻譯單元,創(chuàng)建翻譯記憶數(shù)據(jù),將之導(dǎo)入到CAT軟件中調(diào)用,從而達(dá)到重復(fù)利用翻譯資源提高翻譯效率的目的。自動(dòng)對齊模塊會根據(jù)句子結(jié)束標(biāo)記把原文和譯文自動(dòng)拆分為句段,并且把原文句段和譯文句段自動(dòng)匹配對齊,但對齊結(jié)果存在錯(cuò)誤,類似的對齊模塊較為典型的包括Trados的Winalign模塊,Dejavu的AlignmentWizard模塊,Memoq的對齊工具,以及近年來進(jìn)步迅速的雪人CAT軟件中基于詞庫和句相似度計(jì)算的對齊工具。在對齊過后的平行語料庫構(gòu)建中,構(gòu)建人員需要檢查這些對齊是否正確,對錯(cuò)誤對齊進(jìn)行必要調(diào)整與修改。在修訂后,再將這些對齊好的平行句段導(dǎo)出到包含雙語信息的文本中,然后可以儲存在翻譯記憶庫用于計(jì)算機(jī)輔助翻譯。雖然對齊工具的選擇很多,但總體來看這類工具處理文本的準(zhǔn)確率并不太高,后期人工介人調(diào)整是勢在必行的。除此之外,由于烏漢語言在表達(dá)、句式方面的差異,實(shí)際的翻譯過程中并非全部以句為單位,翻譯關(guān)系存在一對多或多對多的情況。
我們采用了Dejavu計(jì)算機(jī)輔助翻譯軟件的對齊工具Align-ment Wizard,其優(yōu)勢在于支持多類型文本導(dǎo)入導(dǎo)出、自動(dòng)對齊算法優(yōu)良、最終構(gòu)建的翻譯記憶庫可轉(zhuǎn)換成多種格式。在De-javu創(chuàng)建的對齊項(xiàng)目中,可以方便地合并(join)、分割(split)、刪除(delete)、上移(moveup)、下移(move down)句段,并可將選中詞、短語加入自建的術(shù)語庫(TB),使用非常方便,并支持多種類型文本的導(dǎo)入導(dǎo)出。詳見圖1。
對于烏茲別克斯坦新聞?lì)I(lǐng)域?yàn)鯘h平行語料庫的對齊工作,我們首先由人工完成篇章與篇章對齊的工作,之后使用DejavuX2的AlignmentWizard工具初步實(shí)現(xiàn)了句與句的對齊,再通過人工校對排查,最終達(dá)到句子層級的對齊。在句對齊工程中,收集領(lǐng)域詞匯加入Dejavu術(shù)語庫。最后,通過人工反復(fù)進(jìn)行檢驗(yàn),以確定全部文本已經(jīng)達(dá)到句與句對齊的效果。在此之后,將對齊文本導(dǎo)入自建CAT翻譯記憶庫(TM)。從TM中可以導(dǎo)出Excel表對齊文本,最后形成單語文本對應(yīng)的txt文件用于平行語料庫。
3語料庫的機(jī)器輔助翻譯應(yīng)用
3.1短語(短語)級對齊語料
我們收集整理了大量與烏茲別克斯坦和新聞?lì)I(lǐng)域相關(guān)詞匯短語,共計(jì)29412條,約10.2萬字。收詞工作前期共收詞50000余條,后經(jīng)過精心篩選和考量,精簡到30000余條,其中外漢部分約14000條,漢外部分約15000條,每詞條盡量收全,另外適當(dāng)選收了部分常用詞語和詞組搭配,內(nèi)容包括新聞?lì)I(lǐng)域的一般用語和部分非常用詞語。短語語料的特點(diǎn)有以下三點(diǎn):第一,收詞較為合理,覆蓋面廣,不僅收錄了較為常用的新聞詞語,還涉及了包括科技、人文、醫(yī)學(xué)、金融等諸多領(lǐng)域的專業(yè)術(shù)語。第二,新詞多,收錄整理過程中確保了語言材料的科學(xué)性和新鮮性。構(gòu)建語料庫時(shí)使用Excel編輯,之后轉(zhuǎn)為TXT對齊文本。
3.2CAT翻譯記憶庫及術(shù)語庫的構(gòu)建
本項(xiàng)目翻譯記憶庫中的數(shù)據(jù)來源有兩個(gè),第一是通過Alignment Wiz-ard工具整理篇章語料后錄入的對齊語料,第二是手工構(gòu)建的Excel構(gòu)建的對齊語料。使用Dejavu的文件導(dǎo)入功能,可將Excel文本中的對齊文件直接導(dǎo)人到自建的翻譯記憶庫中,供CAT項(xiàng)目使用。術(shù)語庫構(gòu)建方法與之相似:第一,AlignmentWizard工具可將句對中的短語對、詞對導(dǎo)入TB;第二,借助Excel表文件導(dǎo)人術(shù)語。Dejavu翻譯記憶庫和術(shù)語庫可以通過格式轉(zhuǎn)換,普遍應(yīng)用與各類CAT軟件中。
3.3篇章、句子級對齊語料
我們供收集和翻譯整理與烏茲別克斯坦和新聞?lì)I(lǐng)域相關(guān)烏漢文本共108對,216篇,約20萬字語料。語料庫的突出特點(diǎn)為:首先,語料庫專業(yè)性強(qiáng)。本語料庫僅涉及新聞?lì)I(lǐng)域語料,同時(shí)主要針對對象國烏茲別克斯坦,同時(shí)新聞按照類別平均采樣,突出了語料的代表性特征;(2)語料規(guī)?;緷M足研究需要。從絕對字(詞)數(shù)量上看,該庫的語料數(shù)量并不是很大,但是就專門類別語料庫而言,該庫的語料數(shù)量足以達(dá)到其設(shè)計(jì)的研究及用目標(biāo),可以較好地用于計(jì)算機(jī)輔助翻譯研究;(3)選材質(zhì)量高、代表性強(qiáng)。新聞選材及分類標(biāo)準(zhǔn)設(shè)計(jì)細(xì)致且完善,保證所選語料的高質(zhì)量、均衡性和代表性,為后期良好的研究及應(yīng)用效果打好了基礎(chǔ)。語料庫句對齊示例見圖2。
4烏漢新聞平行語料庫的應(yīng)用前景
第一,基于烏漢平行語料庫的機(jī)器翻譯研究。平行語料庫對機(jī)器翻譯準(zhǔn)確率、處理性能和效率提升的影響是十分明顯的,基于語料庫的機(jī)器翻譯系統(tǒng)包括基于統(tǒng)計(jì)和基于實(shí)例的兩種類型,最重要的數(shù)據(jù)資源就是利用平行語料庫。對于非通用語言中亞烏茲別克語來說,平行語料庫資源十分寶貴。本文構(gòu)建的烏漢平行語料庫可以直接作為訓(xùn)練數(shù)據(jù)語料用于統(tǒng)計(jì)機(jī)器翻譯應(yīng)用中。同時(shí),平息語料庫由可以用于獲取機(jī)用翻譯詞典、翻譯模板的等翻譯知識,較好地提供用于機(jī)器翻譯的基礎(chǔ)資源。
第二,基于烏漢平行語料庫的跨語言信息檢索。隨著“一帶一路”倡議的廣泛推進(jìn),中國與中亞國家之間的多層次交流更加廣泛和頻繁,面向中亞的多語種信息檢索產(chǎn)生的語言障礙日益突出,只有通過跨語言信息檢索技術(shù)來突破障礙。烏漢新聞雙語平行語料庫的構(gòu)建為我們提供了內(nèi)容豐富合理的翻譯資源,在消除歧義方面烏漢平行語料庫比語言詞典、機(jī)器翻譯等技術(shù)更具優(yōu)勢,與二者結(jié)合不僅提高翻譯質(zhì)量,而且提升了速度和精度,對推動(dòng)跨語言信息檢索將起到關(guān)鍵作用嘲。
第三,基于平行語料庫的語言及翻譯研究。烏漢平行語料庫具有鮮活的語料,在新聞翻譯教學(xué)中,這些教學(xué)素材的應(yīng)用無疑有助于提升學(xué)習(xí)者對對象國新聞文化的了解,亦有助于增強(qiáng)學(xué)習(xí)者跨文化交際能力。因此,該庫的建設(shè)與應(yīng)用對培養(yǎng)立足學(xué)科建設(shè)工作、面向中亞方向翻譯人才具有極大的推動(dòng)作用。本語料庫的主要使用者為外語院校及外語培訓(xùn)機(jī)構(gòu),可為烏語新聞處理和新聞外交人員提供翻譯語料支持,能為中烏新聞交流合作活動(dòng)初步提供統(tǒng)一的新聞翻譯標(biāo)準(zhǔn)及文本交換格式,并且可以以此為基礎(chǔ)開發(fā)一系列新聞信息處理產(chǎn)品等。