基于句法和語義的英漢翻譯記憶系統(tǒng)的研究與實現(xiàn)

2016-11-21 09:47汪美俠

電子設(shè)計工程 2016年21期

汪美俠

（咸陽師范學院外國語學院，陜西咸陽　712000）

汪美俠

（咸陽師范學院外國語學院，陜西咸陽712000）

由于目前市場所存在的英漢翻譯系統(tǒng)不能準確將語句翻譯出來，所以仍是輔助工具作為人們工作生活中的翻譯手段。但對于資料重復(fù)率高的工作，完全可以利用強大的數(shù)據(jù)庫來減少重復(fù)工作?；诖?，文中提出了一個基于句法和語義的英漢翻譯記憶系統(tǒng)。本文首先在分析語句相似度以后，應(yīng)用WordNet技術(shù)對相似度的算法進行了研究，然后對記憶庫進行設(shè)計，最后對該系統(tǒng)進行了詳細研究。將該系統(tǒng)應(yīng)用于實際實驗翻譯實踐中，結(jié)果表明該系統(tǒng)大大避免了對相同句子的翻譯過程，提高了翻譯速度、節(jié)約了時間。

翻譯記憶；相似度；WordNet

機器翻譯，顧名思義，就是將一種自然語言通過計算機翻譯成另一種所要求的目標自然語言。隨著現(xiàn)今互聯(lián)網(wǎng)的快速興起，讓人們看到了機器翻譯的未來地位，也更堅定了人們開發(fā)機器翻譯系統(tǒng)的決心。同時，伴隨著現(xiàn)在國家之間的交流逐漸增多，人們相互交流越發(fā)的不順暢，使用先進的、準確的機器翻譯系統(tǒng)勢在必行。目前，現(xiàn)在流行的機器翻譯系統(tǒng)分為兩類，一類是基于語法分析、一類是基于語料庫，其中，基于語料庫技術(shù)發(fā)展的更好一些。但是，自然語言畢竟是經(jīng)過長時間發(fā)展演化才形成的，同時不同人對語言的理解把握能力也不盡相同，所以，機器翻譯對結(jié)果的準確性還是有待提高。同時，對于所需翻譯文件的重復(fù)率較高的工作，若每次都對這些文件進行翻譯，大大消耗了人力物力，那么，采用翻譯記憶技術(shù)來做這些工作的話，大大減少了工作時間、提高了工作效率。文中在句法和語義的基礎(chǔ)上，提出了一個英漢翻譯記憶系統(tǒng)[1-5]。

1　翻譯記憶

翻譯記憶技術(shù)就是指的是根據(jù)之前所翻譯任務(wù)所獲得的經(jīng)驗并將其應(yīng)用在之后的翻譯任務(wù)當中，為該翻譯任務(wù)提供必要的信息，采用該技術(shù)的系統(tǒng)就是翻譯記憶系統(tǒng)。在翻譯過程中，系統(tǒng)會根據(jù)所需翻譯的內(nèi)容在本身存在的記憶庫中尋找類似的資源，并以此提供參考譯文，翻譯者可根據(jù)這些參考來更改內(nèi)容，這樣可以極大的節(jié)省翻譯工作，對新內(nèi)容投入更多精力。對于新內(nèi)容的翻譯，系統(tǒng)將這些新內(nèi)容與庫中數(shù)據(jù)進行比較匹配，然后提供參考譯文，譯者根據(jù)參考譯文可以更改或接受，然后系統(tǒng)就會將新譯文保存入數(shù)據(jù)庫中，為以后的翻譯工作提供便利，這樣累計以后，記憶庫中數(shù)據(jù)變多，就會大大提高翻譯效率，避免重復(fù)工作。該翻譯過程如圖1所示[6-8]。

那么在翻譯記憶過程中，需要注意的幾個關(guān)鍵技術(shù)有：

1）相似度計算

圖1　翻譯記憶的工作流程

2）譯文構(gòu)造

3）記憶庫的設(shè)計

2　基于句法和語義的英語句子相似度算法

文中提出的算法是英語句子相似度算法，該算法從句法和語義兩方面來考慮。其中，相似度表示的是兩個句子是否相似，通常用[0，1]的區(qū)間范圍來表示，1指的是兩個句子無論從句法還是語義都是非常相似的，也就意味著這兩個句子都含有相同語義的單詞，同時這些單詞的排序順序也是相同的。0指的是兩個句子的句法和語義都是完全不同的，兩個句子之間不存在任何聯(lián)系。在0到1之間的不同數(shù)值則表示兩個句子之間不同的相似度。

對于文中提出的算法，過程如下：首先使用Link Grammar Parser軟件對所需計算的句子進行計算，得到各個句子的句法結(jié)構(gòu)，然后再采用算法判定兩者句法結(jié)構(gòu)是否相同，若兩者結(jié)構(gòu)相同，那么再進一步利用算法來判定兩個句子的中的句義是否相似。在判定句義相似度的過程中，要根據(jù)句子中各個組成部分的句義相似度來判斷，由此可以避免與實際情況不相符的狀況發(fā)生[9-10]。

3　記憶庫的設(shè)計和譯文生成

3.1翻譯記憶庫的設(shè)計

記憶庫是翻譯記憶系統(tǒng)的重要組成部分，目前所存在的記憶庫主要分為3個級別，分別為句子級、詞匯級和更深層級，3個層次的優(yōu)缺點對比如表1所示。

表1　記憶庫方案比較

由表1可看出，對于記憶庫的設(shè)計而言，若前期加工程度較重，那么后期工作就會變少，但是帶來的困難就是管理上較為麻煩；若前期加工較淺，那么隨之而來的就是后期譯文生成就會繁瑣。在翻譯的英語句子中，即使是復(fù)雜的句子也是由不同的簡單句組合而成，也就是說，每個英語句子都會包括主語和謂語，文中所設(shè)計的系統(tǒng)就是以句子為單位來進行翻譯的[11-12]。

在設(shè)計記憶庫時，要對系統(tǒng)的檢索效率以及對系統(tǒng)的管理相互兼顧，考慮周到才好。文中設(shè)計的記憶庫的結(jié)構(gòu)如表2所示。

表2　記憶庫的結(jié)構(gòu)表

在記憶庫的設(shè)計過程中，要注意的是，若待譯譯文是全新的句子，那么需要譯者對其進行翻譯，然后將翻譯的譯文存儲在記憶系統(tǒng)當中，以便之后對相同句子的翻譯；若待譯譯文與例句僅有部分相似，那么譯者對最相似的句子進行修改，并將修改后的譯文存儲在記憶庫當中[13]。

3.2譯文生成

文中是針對句子的翻譯，所以翻譯所用的算法得到的結(jié)果在區(qū)間[0，1]之間，那對于匹配的類別也就有所不同，匹配類別分類如表3所示[14]。

根據(jù)表3的不同情況，也分為3種處理方式，分別為：

1）直接復(fù)用譯文

2）人工翻譯

3）修改譯文

句子的譯文生成過程如圖2所示。

圖2　譯文的修改

表3　匹配的類別

4　基于句法和語義的翻譯記憶系統(tǒng)的開發(fā)

4.1系統(tǒng)的總體框架

文中所設(shè)計的框架如圖3所示。

系統(tǒng)的總體流程如下：

1）先輸入需要翻譯的句子

圖3　系統(tǒng)總體框架圖

2）通過分析句子的長度以及字符串，在記憶庫中找相似的例句，再將兩者進行比較

3）如果相等，則給出譯文

4）如果不相等，再根據(jù)句法找尋相似句法的例句

5）計算兩個句子的相似度

6）對最相似的例句通過譯文生成方式得到翻譯結(jié)果

7）若對譯文不滿意，可以人文進行修改，再將最后修改的譯文存儲到記憶庫中

4.2系統(tǒng)實現(xiàn)

4.2.1翻譯記憶庫的創(chuàng)建

文中設(shè)計的系統(tǒng)的翻譯記憶庫是利用SQL Sever 2000建立，該庫包括3個表，分別是：

Sentence表：該表中顯示的是所需翻譯的英語句子以及翻譯結(jié)果的詳細信息。

Structure表：該表是用來保存相關(guān)句子信息，例如句法結(jié)構(gòu)。

Component表：保存句子的各個部分和譯文[15]。

4.2.2相似度計算

相似度的計算流程如圖4所示。如圖4所示，在開始相似性計算時，先根據(jù)句子的字符串進行相似比較，若相似度為1，那么返回相似度。若相似度不完全一致，那么就會再計算句法結(jié)構(gòu)，判斷句法結(jié)構(gòu)是否一致，若一致，則對句子中的各個關(guān)鍵詞進行抽取計算相似度，然后再返回相似度計算，若句法不一致，那么相似度判定為0，再返回相似度最初端。

圖4　相似度的計算流程

4.2.3譯文生成

譯文生成是以相似度為依據(jù)的，通過比較所需翻譯的句子與例句，根據(jù)相似度來適當進行處理，再利用兩者之間的關(guān)系生成譯文的。圖5為譯文生成的實例?？梢愿鶕?jù)生成的譯文進行修改，從而得到最后的結(jié)果。圖中，82%表示相似度，“[]”表示需要修改的譯文。

圖5　譯文修改

為更好表達該系統(tǒng)的高效性，表4列出了部分對比數(shù)據(jù)。

表4　Navigator 6.0和7.0技術(shù)手冊的相關(guān)數(shù)據(jù)

由表可看出，該系統(tǒng)大大提高了翻譯速度，節(jié)省了時間。

5　結(jié)束語

文中提出了一個基于句法和語義的英漢翻譯記憶系統(tǒng)。本文首先在分析語句相似度以后，應(yīng)用WordNet技術(shù)對相似度的算法進行了研究，然后對記憶庫進行設(shè)計，最后對該系統(tǒng)進行了詳細研究。將該系統(tǒng)應(yīng)用于實際實驗當中，結(jié)果表明該系統(tǒng)大大避免了對相同句子的翻譯過程，提高了翻譯速度、節(jié)約了時間。

[1]王金銓.翻譯記憶（TM）—計算機翻譯技術(shù)的新發(fā)展[J].現(xiàn)代圖書情報技術(shù)，2004，2004(5):13-16.

[2]Peter F.Brown，Stephen A，Della Pietra，et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics，1993，19(2):263-311.

[3]Snell-Hornby.Mary.Translation Studies:An Integrated Approach.Revised edition[J].Amsterdam and Philadelphia:John Benjamins Publishing Company，1995：29.

[4]張健.基于實例的機器翻譯的泛化方法研究[D].北京:中國科學院計算技術(shù)研究所，2001.

[5]Nagao M.A Framework of a Mechanical translation between Japanese and Englishby analogy principle[C]∥In:Elithom A and Banerji R.Artificial and Human Intelligence，Edited ReviewPaperspresentedattheInternationalNATOSymposium.Amsterdam:NATO Publications，1984，173-180.

[6]Timothy Baldwin.A Look under the Hood and Road Test[C]∥In:Proceedings of 15th International Japanese/English Translation Conference.Yokohama，Japan:IEEE Press，2004，29-30.

[7]俞曉峰.面向譯文選擇的雙語語義詞典自動構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學計算機科學與技術(shù)學院，2005.

[8]王斌.漢英雙語語料庫自動對齊研究[D].北京:中國科學院計算技術(shù)研究所，1999.

[9]安玉璞.自然語言問答系統(tǒng)的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學，2003.

[10]張濤，楊爾弘.基于上下文詞語同現(xiàn)向量的詞語相似度計算[J].電腦開發(fā)與應(yīng)用，2006，18(3):41-43.

[11]魯松.自然語言中詞相關(guān)性知識無導獲取和均衡分類器的構(gòu)建[D].北京:中國科學院計算技術(shù)研究所，2001.

[12]穗志方，俞士汶.基于骨架依存樹的語句相似度計算模型[C]//1998中文信息處理國際會議論文集，北京:清華大學出版社，1998，458-465.

[13]車萬翔，劉挺，秦兵等.面向雙語句對檢索的漢語句子相似度計算[C]∥全國第七屆計算語言學聯(lián)合學術(shù)會議論文集.北京:清華大學出版社，2003：81-88.

[14]Hirst G，St-Onge D.Lexical Chains as representations of context for the detection and correction of malapropisms[C]∥In:C.Fellbaum(ed.)WordNet:An Electronic Lexical Database，Cambridge，MA:The MIT Press，1998：305-332.

[15]單玉秋.英漢輔助翻譯系統(tǒng)用戶需求調(diào)查及源語言輔助分析技術(shù)[C]∥2002全國機器翻譯研討會論文集，杭州:電子工業(yè)出版社，2002：15.

Research and implementation of English and Chinese translation memory system based on syntax and semantics

WANG Mei-xia
（School of Foreign Languages，Xianyang Normal University，Xianyang 712000，China）

As the English and Chinese translation system in the present market cannot translate the words accurately，it still works as a tool for people in their work and life.However，for the high rate of repetitive work，it is desirable to use the powerful database to reduce the burden of theheavy work.Based on this，this paper proposes a translation memory system based on syntax and semantics.Firstly，after analyzing the sentence similarity，this paper studies the algorithm of similarity based on WordNet technology，and then designs the memory database.Finally，it makes a detailed study on the system.This system will be applied to the actual experiment and translation practice，the results show that the system can greatly avoid the process of translation of the same sentence，therefore，improve the speed of translation and savetime.

translation memory；similarity；WordNet

TM933.4

1674－6236（2016）21-0024-03

2015-12-18稿件編號：201512201

陜西省社會科學基金項目（13K045）；咸陽師范學院2013年專項科研基金項目（13XSYK037）；陜西省教育廳專項科研計劃項目（14JK1781）。

汪美俠（1977—），女，陜西咸陽人，碩士研究生，講師。研究方向：英語教學與英語翻譯。

電子設(shè)計工程2016年21期

電子設(shè)計工程的其它文章: 企業(yè)財務(wù)數(shù)據(jù)管理平臺設(shè)計研究; 基于FPGA的DSTFT算法對FSK信號解調(diào)的改進; 基于概率排序算法的企業(yè)排班系統(tǒng)研究; 睡眠節(jié)律數(shù)據(jù)統(tǒng)計分析系統(tǒng)的設(shè)計; 基于非線性有限元算法的高壓電塔壽命預(yù)測; 網(wǎng)絡(luò)可靠性預(yù)測模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于句法和語義的英漢翻譯記憶系統(tǒng)的研究與實現(xiàn)

1 翻譯記憶

2 基于句法和語義的英語句子相似度算法

3 記憶庫的設(shè)計和譯文生成

4 基于句法和語義的翻譯記憶系統(tǒng)的開發(fā)

5 結(jié)束語

1　翻譯記憶

2　基于句法和語義的英語句子相似度算法

3　記憶庫的設(shè)計和譯文生成

4　基于句法和語義的翻譯記憶系統(tǒng)的開發(fā)

5　結(jié)束語