基于匹配模板的術(shù)語自動翻譯方法

2014-07-23 01:37姜東洋

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2014年2期

姜東洋

（遼寧機(jī)電職業(yè)技術(shù)學(xué)院信息工程系遼寧 118009）

0 引言

近年，隨著科技技術(shù)的加速發(fā)展，人們越來越關(guān)注大量專利文獻(xiàn)的翻譯中，如何將人們從這些煩瑣的翻譯任務(wù)中解脫出來？統(tǒng)計機(jī)器翻譯技術(shù)的迅速發(fā)展為人類的輔助翻譯提供了強(qiáng)有力的手段。而專利文獻(xiàn)的翻譯任務(wù)中主要以大量的專利術(shù)語為主，平衡基于實(shí)例與基于統(tǒng)計的翻譯的優(yōu)缺點(diǎn)，本文結(jié)合兩者之間的優(yōu)點(diǎn)，提出一種基于匹配模板的術(shù)語翻譯方法，面向結(jié)構(gòu)單一的專利術(shù)語。

1 專利術(shù)語

術(shù)語是指“專業(yè)領(lǐng)域中一般概念的文字指稱”[1]，《中國大百科全書》中指出，“術(shù)語是各門學(xué)科中的專門用語，術(shù)語可以是詞，也可以是詞組，用來正確標(biāo)記生產(chǎn)技術(shù)、科學(xué)藝術(shù)、社會生活等各個專門領(lǐng)域中的事務(wù)、現(xiàn)象、特性、關(guān)系和過程。術(shù)語是科學(xué)研究的成果是人類進(jìn)步歷程中知識語言的結(jié)晶”。

專利術(shù)語主要以名詞短語形式存在。因為的翻譯是英漢的專利術(shù)語翻譯。源語言是英文的名詞短語，該短語主要由修飾語和中心詞構(gòu)成。修飾語可以是名詞、形容詞、分詞及其短語、介詞等的組合。英文專利術(shù)語在進(jìn)行翻譯時要注意一些問題：

（1）修飾語與中心詞的位置關(guān)系也就是我們講的調(diào)序問題，這里我們歸納一部分的具有調(diào)序功能的模板，例如專利源語言術(shù)語：

A health medicine for protecting liver .

“A##1 for ##2”調(diào)序后變?yōu)椤?#2 ##1”.這里的“##1”和“##2”分別指英文名詞短語也可以是單純的名詞。

（2）另一類是不用調(diào)序的固定翻譯結(jié)構(gòu)的模板，可以用來翻譯具有多種修飾語的專利術(shù)語。

例如：A drastically reduced budget.

翻譯后的模板轉(zhuǎn)換為”#1 #2 #3”.該類術(shù)語是無須調(diào)整語序，直接按順序翻譯。

2 術(shù)語模板的匹配算法

我們建立了一定規(guī)模的模板庫后，設(shè)計術(shù)語模板的匹配算法成為核心。我們開發(fā)了基于中心短語的迭代匹配算法，其匹配過程如下圖所示：

圖1 術(shù)語匹配算法流程圖

下面詳細(xì)講解該算法的設(shè)計，首先對輸入的源語言術(shù)語進(jìn)行匹配，匹配時如果有多個模板適用于輸入的術(shù)語，我們就會選擇匹配度最高的模板進(jìn)行匹配。該匹配度的選擇我們通過一個打分機(jī)制來選擇，對于輸入的源術(shù)語對比模板庫里的術(shù)語之間的相似度來獲得終結(jié)果。當(dāng)然，在這其中我們也融合了語言模型和翻譯模型。

2.1 打分機(jī)制

通過模板的相似度計算來選擇最佳的匹配模板。模板庫的建立是利用 GiZA++詞對齊工具訓(xùn)練語料進(jìn)行詞對齊訓(xùn)練，得到雙語對齊術(shù)語對。從中可以看出其中的對應(yīng)關(guān)系，Giza++訓(xùn)練的時候采用英漢和漢英兩個方向訓(xùn)練。通過基于中心詞的依存來改善詞對齊的關(guān)系；英文部分通過parser進(jìn)行句法分析，最終建立一個53907個模板。大小為5.12Mb.模板的格式如下：

模板翻譯模板概率（TOP（NP（NP（NN Preparation））（PP（IN of）（NP（NN koujiesu）））））123569 0.491（TOP（NP（CD 12）（NN Direction）（JJ signal）（NN input）（NN device）））134577 0.333（TOP（NP（NP（NN Cutter））（PP（IN of）（NP（NN steel）（NN wire）（NN curtain）（NN cloth）））（PP（IN at）（NP（NP（NN range））（PP（IN of）（NP（CD 15-70）（NNS degrees）））））））186555 0.333_ _ _

2.2 語言模型及翻譯模型

本文采用SRILM對10萬平行的術(shù)語語料訓(xùn)練翻譯模型和三元的語言模型。

3 實(shí)驗及分析

本文所采用的實(shí)驗語料是面向?qū)＠I(lǐng)域的英文術(shù)語語料庫，語言模型和翻譯模型是通過平行的術(shù)語語料庫，規(guī)模為10萬句雙語術(shù)語對。該語料庫涵蓋了醫(yī)藥、器械、食品及生活等多個領(lǐng)域。為了彌補(bǔ)個別領(lǐng)域的訓(xùn)練語料的不足，我們也加入一些專業(yè)的辭典到語料庫，訓(xùn)練語料庫抽取350句作為開發(fā)集，抽取200句作為測試集，開發(fā)集，測試集的參考譯文都會有兩個人工參考譯文，下面是實(shí)驗設(shè)計：

實(shí)驗一：不使用模板，利用開發(fā)集進(jìn)行訓(xùn)練并以此作為baseline。

實(shí)驗二：使用模板庫，實(shí)驗結(jié)果用國際機(jī)器測評常用的BLEU方法。

Baseline Template_Matched Increase開發(fā)集 32.15% 34.56% 2.41%測試集 29.12% 31.23% 2.11%

BLEU評價方法：

BLEU評測方法是2001年美國IBM公司的研究人員提出來的，利用BLEU方法評估機(jī)器翻譯質(zhì)量的關(guān)鍵就是如何定量計算機(jī)器譯文與一個或多個人工翻譯參考答案之間的接近程度。該接近程度采用句子精確度的計算方法，也就是比較系統(tǒng)譯文的n元語法與參考譯文的n元語法相匹配的個數(shù)，這種匹配與位置無關(guān)。系統(tǒng)譯文與人工參考譯文相匹配的n元語法的個數(shù)越多，BLEU得分越高。

另外考慮到句子的長度對 BLEU評分也有一定的影響，BLEU的評價標(biāo)準(zhǔn)又對比參考譯文更短的句子引入了長度懲罰因子。

在BLEU評測方法中，n的實(shí)際取值是1～4?？偟脑u價指標(biāo)是一元語法到四元語法的幾何平均。另外，對于整個語料庫而言，BLUE的計算一般是基于詞語進(jìn)行的，而不是基于句子的。也就是說，對于長度不同的句子，要以句子的長度進(jìn)行加權(quán)平均。BLEU 的總體評價公式如下：BLEU=BP×exp(

Wnlogpn)其中，是出現(xiàn)在參考譯文中的n 元詞組占候選譯文中n 元詞組總數(shù)的比例。

4 總結(jié)

本文實(shí)現(xiàn)了面向?qū)＠I(lǐng)域的英漢翻譯系統(tǒng)，通過手工歸納一些模板庫來進(jìn)行翻譯當(dāng)中的模板匹配。因為專利術(shù)語本身的特點(diǎn)使翻譯術(shù)語結(jié)構(gòu)比較單一，形式比較固定，所以非常適用于機(jī)器的自動翻譯。通過機(jī)器翻譯不僅節(jié)省了大量的物力、人力和財力，同時整體的翻譯結(jié)果基本上能滿足用戶需求，盡管有個別結(jié)果不盡如人意。系統(tǒng)本身具有可擴(kuò)展性，通過增加術(shù)語語料庫可以體改模板匹配機(jī)率。

[1]全如堿.什么是術(shù)語[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù)，2004（3）18

[2]林曉慶英文名詞短語的翻譯[J].計算機(jī)工程與設(shè)計，2010.4.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡