国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于匹配模板的術(shù)語自動翻譯方法

2014-07-23 01:37姜東洋
關(guān)鍵詞:術(shù)語語料語料庫

姜東洋

(遼寧機(jī)電職業(yè)技術(shù)學(xué)院信息工程系 遼寧 118009)

0 引言

近年,隨著科技技術(shù)的加速發(fā)展,人們越來越關(guān)注大量專利文獻(xiàn)的翻譯中,如何將人們從這些煩瑣的翻譯任務(wù)中解脫出來?統(tǒng)計機(jī)器翻譯技術(shù)的迅速發(fā)展為人類的輔助翻譯提供了強(qiáng)有力的手段。而專利文獻(xiàn)的翻譯任務(wù)中主要以大量的專利術(shù)語為主,平衡基于實(shí)例與基于統(tǒng)計的翻譯的優(yōu)缺點(diǎn),本文結(jié)合兩者之間的優(yōu)點(diǎn),提出一種基于匹配模板的術(shù)語翻譯方法,面向結(jié)構(gòu)單一的專利術(shù)語。

1 專利術(shù)語

術(shù)語是指“專業(yè)領(lǐng)域中一般概念的文字指稱”[1],《中國大百科全書》中指出,“術(shù)語是各門學(xué)科中的專門用語,術(shù)語可以是詞,也可以是詞組,用來正確標(biāo)記生產(chǎn)技術(shù)、科學(xué)藝術(shù)、社會生活等各個專門領(lǐng)域中的事務(wù)、現(xiàn)象、特性、關(guān)系和過程。術(shù)語是科學(xué)研究的成果是人類進(jìn)步歷程中知識語言的結(jié)晶”。

專利術(shù)語主要以名詞短語形式存在。因為的翻譯是英漢的專利術(shù)語翻譯。源語言是英文的名詞短語,該短語主要由修飾語和中心詞構(gòu)成。修飾語可以是名詞、形容詞、分詞及其短語、介詞等的組合。英文專利術(shù)語在進(jìn)行翻譯時要注意一些問題:

(1)修飾語與中心詞的位置關(guān)系也就是我們講的調(diào)序問題,這里我們歸納一部分的具有調(diào)序功能的模板,例如專利源語言術(shù)語:

A health medicine for protecting liver .

“A##1 for ##2”調(diào)序后變?yōu)椤?#2 ##1”.這里的“##1”和“##2”分別指英文名詞短語也可以是單純的名詞。

(2)另一類是不用調(diào)序的固定翻譯結(jié)構(gòu)的模板,可以用來翻譯具有多種修飾語的專利術(shù)語。

例如:A drastically reduced budget.

翻譯后的模板轉(zhuǎn)換為”#1 #2 #3”.該類術(shù)語是無須調(diào)整語序,直接按順序翻譯。

2 術(shù)語模板的匹配算法

我們建立了一定規(guī)模的模板庫后,設(shè)計術(shù)語模板的匹配算法成為核心。我們開發(fā)了基于中心短語的迭代匹配算法,其匹配過程如下圖所示:

圖1 術(shù)語匹配算法流程圖

下面詳細(xì)講解該算法的設(shè)計,首先對輸入的源語言術(shù)語進(jìn)行匹配,匹配時如果有多個模板適用于輸入的術(shù)語,我們就會選擇匹配度最高的模板進(jìn)行匹配。該匹配度的選擇我們通過一個打分機(jī)制來選擇,對于輸入的源術(shù)語對比模板庫里的術(shù)語之間的相似度來獲得終結(jié)果。當(dāng)然,在這其中我們也融合了語言模型和翻譯模型。

2.1 打分機(jī)制

通過模板的相似度計算來選擇最佳的匹配模板。模板庫的建立是利用 GiZA++詞對齊工具訓(xùn)練語料進(jìn)行詞對齊訓(xùn)練,得到雙語對齊術(shù)語對。從中可以看出其中的對應(yīng)關(guān)系,Giza++訓(xùn)練的時候采用英漢和漢英兩個方向訓(xùn)練。通過基于中心詞的依存來改善詞對齊的關(guān)系;英文部分通過parser進(jìn)行句法分析,最終建立一個53907個模板。大小為5.12Mb.模板的格式如下:

模板 翻譯模板 概率(TOP(NP(NP(NN Preparation))(PP(IN of)(NP(NN koujiesu)))))123569 0.491(TOP(NP(CD 12)(NN Direction)(JJ signal)(NN input)(NN device)))134577 0.333(TOP(NP(NP(NN Cutter))(PP(IN of)(NP(NN steel)(NN wire)(NN curtain)(NN cloth)))(PP(IN at)(NP(NP(NN range))(PP(IN of)(NP(CD 15-70)(NNS degrees)))))))186555 0.333_ _ _

2.2 語言模型及翻譯模型

本文采用SRILM對10萬平行的術(shù)語語料訓(xùn)練翻譯模型和三元的語言模型。

3 實(shí)驗及分析

本文所采用的實(shí)驗語料是面向?qū)@I(lǐng)域的英文術(shù)語語料庫,語言模型和翻譯模型是通過平行的術(shù)語語料庫,規(guī)模為10萬句雙語術(shù)語對。該語料庫涵蓋了醫(yī)藥、器械、食品及生活等多個領(lǐng)域。為了彌補(bǔ)個別領(lǐng)域的訓(xùn)練語料的不足,我們也加入一些專業(yè)的辭典到語料庫,訓(xùn)練語料庫抽取350句作為開發(fā)集,抽取200句作為測試集,開發(fā)集,測試集的參考譯文都會有兩個人工參考譯文,下面是實(shí)驗設(shè)計:

實(shí)驗一:不使用模板,利用開發(fā)集進(jìn)行訓(xùn)練并以此作為baseline。

實(shí)驗二:使用模板庫,實(shí)驗結(jié)果用國際機(jī)器測評常用的BLEU方法。

Baseline Template_Matched Increase開發(fā)集 32.15% 34.56% 2.41%測試集 29.12% 31.23% 2.11%

BLEU評價方法:

BLEU評測方法是2001年美國IBM公司的研究人員提出來的,利用BLEU方法評估機(jī)器翻譯質(zhì)量的關(guān)鍵就是如何定量計算機(jī)器譯文與一個或多個人工翻譯參考答案之間的接近程度。該接近程度采用句子精確度的計算方法,也就是比較系統(tǒng)譯文的n元語法與參考譯文的n元語法相匹配的個數(shù),這種匹配與位置無關(guān)。系統(tǒng)譯文與人工參考譯文相匹配的n元語法的個數(shù)越多,BLEU得分越高。

另外考慮到句子的長度對 BLEU評分也有一定的影響,BLEU的評價標(biāo)準(zhǔn)又對比參考譯文更短的句子引入了長度懲罰因子。

在BLEU評測方法中,n的實(shí)際取值是1~4??偟脑u價指標(biāo)是一元語法到四元語法的幾何平均。另外,對于整個語料庫而言,BLUE的計算一般是基于詞語進(jìn)行的,而不是基于句子的。也就是說,對于長度不同的句子,要以句子的長度進(jìn)行加權(quán)平均。BLEU 的總體評價公式如下:BLEU=BP×exp(

Wnlogpn)其中,是出現(xiàn)在參考譯文中的n 元詞組占候選譯文中n 元詞組總數(shù)的比例。

4 總結(jié)

本文實(shí)現(xiàn)了面向?qū)@I(lǐng)域的英漢翻譯系統(tǒng),通過手工歸納一些模板庫來進(jìn)行翻譯當(dāng)中的模板匹配。因為專利術(shù)語本身的特點(diǎn)使翻譯術(shù)語結(jié)構(gòu)比較單一,形式比較固定,所以非常適用于機(jī)器的自動翻譯。通過機(jī)器翻譯不僅節(jié)省了大量的物力、人力和財力,同時整體的翻譯結(jié)果基本上能滿足用戶需求,盡管有個別結(jié)果不盡如人意。系統(tǒng)本身具有可擴(kuò)展性,通過增加術(shù)語語料庫可以體改模板匹配機(jī)率。

[1]全如堿.什么是術(shù)語[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2004(3)18

[2]林曉慶 英文名詞短語的翻譯[J].計算機(jī)工程與設(shè)計,2010.4.

猜你喜歡
術(shù)語語料語料庫
《語料庫翻譯文體學(xué)》評介
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
基于COCA語料庫的近義詞辨析 ——以choose和select為例
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
凤山市| 罗江县| 云林县| 深州市| 吉林省| 拜城县| 固始县| 乐业县| 河北省| 莒南县| 大关县| 瑞金市| 雷波县| 房产| 宾阳县| 台东市| 高清| 丹东市| 准格尔旗| 乾安县| 蒙城县| 绩溪县| 宿松县| 永春县| 长治市| 荃湾区| 大悟县| 阜宁县| 肃宁县| 阆中市| 沁阳市| 尚义县| 洛隆县| 永定县| 西安市| 托克托县| 徐闻县| 永昌县| 酉阳| 鄂托克前旗| 宜春市|