姜東洋
(遼寧機(jī)電職業(yè)技術(shù)學(xué)院信息工程系 遼寧 118009)
近年,隨著科技技術(shù)的加速發(fā)展,人們越來越關(guān)注大量專利文獻(xiàn)的翻譯中,如何將人們從這些煩瑣的翻譯任務(wù)中解脫出來?統(tǒng)計機(jī)器翻譯技術(shù)的迅速發(fā)展為人類的輔助翻譯提供了強(qiáng)有力的手段。而專利文獻(xiàn)的翻譯任務(wù)中主要以大量的專利術(shù)語為主,平衡基于實(shí)例與基于統(tǒng)計的翻譯的優(yōu)缺點(diǎn),本文結(jié)合兩者之間的優(yōu)點(diǎn),提出一種基于匹配模板的術(shù)語翻譯方法,面向結(jié)構(gòu)單一的專利術(shù)語。
術(shù)語是指“專業(yè)領(lǐng)域中一般概念的文字指稱”[1],《中國大百科全書》中指出,“術(shù)語是各門學(xué)科中的專門用語,術(shù)語可以是詞,也可以是詞組,用來正確標(biāo)記生產(chǎn)技術(shù)、科學(xué)藝術(shù)、社會生活等各個專門領(lǐng)域中的事務(wù)、現(xiàn)象、特性、關(guān)系和過程。術(shù)語是科學(xué)研究的成果是人類進(jìn)步歷程中知識語言的結(jié)晶”。
專利術(shù)語主要以名詞短語形式存在。因為的翻譯是英漢的專利術(shù)語翻譯。源語言是英文的名詞短語,該短語主要由修飾語和中心詞構(gòu)成。修飾語可以是名詞、形容詞、分詞及其短語、介詞等的組合。英文專利術(shù)語在進(jìn)行翻譯時要注意一些問題:
(1)修飾語與中心詞的位置關(guān)系也就是我們講的調(diào)序問題,這里我們歸納一部分的具有調(diào)序功能的模板,例如專利源語言術(shù)語:
A health medicine for protecting liver .
“A##1 for ##2”調(diào)序后變?yōu)椤?#2 ##1”.這里的“##1”和“##2”分別指英文名詞短語也可以是單純的名詞。
(2)另一類是不用調(diào)序的固定翻譯結(jié)構(gòu)的模板,可以用來翻譯具有多種修飾語的專利術(shù)語。
例如:A drastically reduced budget.
翻譯后的模板轉(zhuǎn)換為”#1 #2 #3”.該類術(shù)語是無須調(diào)整語序,直接按順序翻譯。
我們建立了一定規(guī)模的模板庫后,設(shè)計術(shù)語模板的匹配算法成為核心。我們開發(fā)了基于中心短語的迭代匹配算法,其匹配過程如下圖所示:
圖1 術(shù)語匹配算法流程圖
下面詳細(xì)講解該算法的設(shè)計,首先對輸入的源語言術(shù)語進(jìn)行匹配,匹配時如果有多個模板適用于輸入的術(shù)語,我們就會選擇匹配度最高的模板進(jìn)行匹配。該匹配度的選擇我們通過一個打分機(jī)制來選擇,對于輸入的源術(shù)語對比模板庫里的術(shù)語之間的相似度來獲得終結(jié)果。當(dāng)然,在這其中我們也融合了語言模型和翻譯模型。
通過模板的相似度計算來選擇最佳的匹配模板。模板庫的建立是利用 GiZA++詞對齊工具訓(xùn)練語料進(jìn)行詞對齊訓(xùn)練,得到雙語對齊術(shù)語對。從中可以看出其中的對應(yīng)關(guān)系,Giza++訓(xùn)練的時候采用英漢和漢英兩個方向訓(xùn)練。通過基于中心詞的依存來改善詞對齊的關(guān)系;英文部分通過parser進(jìn)行句法分析,最終建立一個53907個模板。大小為5.12Mb.模板的格式如下:
模板 翻譯模板 概率(TOP(NP(NP(NN Preparation))(PP(IN of)(NP(NN koujiesu)))))123569 0.491(TOP(NP(CD 12)(NN Direction)(JJ signal)(NN input)(NN device)))134577 0.333(TOP(NP(NP(NN Cutter))(PP(IN of)(NP(NN steel)(NN wire)(NN curtain)(NN cloth)))(PP(IN at)(NP(NP(NN range))(PP(IN of)(NP(CD 15-70)(NNS degrees)))))))186555 0.333_ _ _
本文采用SRILM對10萬平行的術(shù)語語料訓(xùn)練翻譯模型和三元的語言模型。
本文所采用的實(shí)驗語料是面向?qū)@I(lǐng)域的英文術(shù)語語料庫,語言模型和翻譯模型是通過平行的術(shù)語語料庫,規(guī)模為10萬句雙語術(shù)語對。該語料庫涵蓋了醫(yī)藥、器械、食品及生活等多個領(lǐng)域。為了彌補(bǔ)個別領(lǐng)域的訓(xùn)練語料的不足,我們也加入一些專業(yè)的辭典到語料庫,訓(xùn)練語料庫抽取350句作為開發(fā)集,抽取200句作為測試集,開發(fā)集,測試集的參考譯文都會有兩個人工參考譯文,下面是實(shí)驗設(shè)計:
實(shí)驗一:不使用模板,利用開發(fā)集進(jìn)行訓(xùn)練并以此作為baseline。
實(shí)驗二:使用模板庫,實(shí)驗結(jié)果用國際機(jī)器測評常用的BLEU方法。
Baseline Template_Matched Increase開發(fā)集 32.15% 34.56% 2.41%測試集 29.12% 31.23% 2.11%
BLEU評價方法:
BLEU評測方法是2001年美國IBM公司的研究人員提出來的,利用BLEU方法評估機(jī)器翻譯質(zhì)量的關(guān)鍵就是如何定量計算機(jī)器譯文與一個或多個人工翻譯參考答案之間的接近程度。該接近程度采用句子精確度的計算方法,也就是比較系統(tǒng)譯文的n元語法與參考譯文的n元語法相匹配的個數(shù),這種匹配與位置無關(guān)。系統(tǒng)譯文與人工參考譯文相匹配的n元語法的個數(shù)越多,BLEU得分越高。
另外考慮到句子的長度對 BLEU評分也有一定的影響,BLEU的評價標(biāo)準(zhǔn)又對比參考譯文更短的句子引入了長度懲罰因子。
在BLEU評測方法中,n的實(shí)際取值是1~4??偟脑u價指標(biāo)是一元語法到四元語法的幾何平均。另外,對于整個語料庫而言,BLUE的計算一般是基于詞語進(jìn)行的,而不是基于句子的。也就是說,對于長度不同的句子,要以句子的長度進(jìn)行加權(quán)平均。BLEU 的總體評價公式如下:BLEU=BP×exp(
Wnlogpn)其中,是出現(xiàn)在參考譯文中的n 元詞組占候選譯文中n 元詞組總數(shù)的比例。
本文實(shí)現(xiàn)了面向?qū)@I(lǐng)域的英漢翻譯系統(tǒng),通過手工歸納一些模板庫來進(jìn)行翻譯當(dāng)中的模板匹配。因為專利術(shù)語本身的特點(diǎn)使翻譯術(shù)語結(jié)構(gòu)比較單一,形式比較固定,所以非常適用于機(jī)器的自動翻譯。通過機(jī)器翻譯不僅節(jié)省了大量的物力、人力和財力,同時整體的翻譯結(jié)果基本上能滿足用戶需求,盡管有個別結(jié)果不盡如人意。系統(tǒng)本身具有可擴(kuò)展性,通過增加術(shù)語語料庫可以體改模板匹配機(jī)率。
[1]全如堿.什么是術(shù)語[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2004(3)18
[2]林曉慶 英文名詞短語的翻譯[J].計算機(jī)工程與設(shè)計,2010.4.