国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本相似性匹配的計算機輔助翻譯軟件研究

2020-07-14 01:52
甘肅科技 2020年1期
關(guān)鍵詞:數(shù)據(jù)量語料庫短文

何 斌

(解放軍91404部隊,河北 秦皇島 066001)

查準率與響應(yīng)速度是計算機輔助翻譯軟件最重要的兩項指標。查準率的實際反應(yīng)是檢索反饋的原文與用戶檢索的原文之間的匹配程度,也就是檢索反饋結(jié)果能把語料庫中所有具有翻譯參考價值的譯文按相似度排序呈現(xiàn)給用戶。與傳統(tǒng)的數(shù)據(jù)庫模糊查詢不同,檢索內(nèi)容不是確定的檢索關(guān)鍵字,實際上被檢索目標與檢索內(nèi)容只存在文本上相似或近似。所以,諸如Like語句實現(xiàn)的模糊查詢在計算機輔助軟件的檢索中并不適用。另外,與其它的檢索系統(tǒng)一樣響應(yīng)速度是計算機輔助翻譯軟件最主要的性能指標,通常情況翻譯語料庫數(shù)據(jù)量較大,故查詢速度的優(yōu)化對計算機輔助軟件的尤為重要。

針對上述問題,采用文本相似度算法實現(xiàn)高匹配度檢索,并運用云計算和并行運行等方法優(yōu)化響應(yīng)速度,最終實現(xiàn)計算機輔助翻譯軟件最優(yōu)的用戶體驗。

1 計算機輔助翻譯

1.1 計算機輔助翻譯

計算機輔助翻譯 (Computer Assisted Translation,CAT)是通過計算機軟件來實現(xiàn)的專業(yè)翻譯解決方案,它與機器翻譯(Machine Translation,MT)有著本質(zhì)的區(qū)別。機器翻譯依賴于計算機的自動翻譯,而計算機輔助翻譯是在人的參與下完成整個翻譯過程。形式最簡單的計算機輔助翻譯只是一個數(shù)據(jù)庫,譯者可以紀錄以前的翻譯結(jié)果以便于將來再次使用以及進行方便有效的檢索。計算機輔助翻譯工作原理是翻譯人員利用已有的原文和譯文,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統(tǒng)將自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、段落等),給出參考譯文,使用戶避免無謂的重復(fù)勞動,只需專注于新內(nèi)容的翻譯。對于給出的參考譯文,譯者可以完全照搬,也可以修改后使用,如果覺得不滿意,還可以棄之不用。簡單來說計算機輔助翻譯就是:TM(記憶體/語料庫)+MT(機器翻譯)+HT(人工翻譯)。計算機輔助翻譯相比人工翻譯有翻譯效率高、譯文一致性好、翻譯成本低的優(yōu)勢,正不斷受到重視和發(fā)展。

計算機輔助翻譯技術(shù)的核心就是翻譯記憶技術(shù),譯者在進行翻譯工作的同時,翻譯記憶庫在后臺不斷學(xué)習(xí)和自動儲存新的譯文,實時更新記憶體,每當相同或相近的短語出現(xiàn)時,系統(tǒng)會自動提示用戶使用記憶庫中最接近的譯法。計算機輔助翻譯軟件實現(xiàn)的關(guān)鍵技術(shù)就是譯文模糊匹配及查詢效率。

2 計算機輔助翻譯軟件設(shè)計方案

2.1 軟件總體設(shè)計

本方案創(chuàng)新性設(shè)計基于網(wǎng)絡(luò)的多用戶計算機輔助翻譯軟件,軟件可實現(xiàn)多用戶并發(fā)在線使用,完成一個翻譯項目的多人分工并發(fā)協(xié)同工作。軟件由語料庫、字典數(shù)據(jù)庫、譯文獲取模塊、模糊匹配查詢模塊、譯文插入模塊、語料庫自動更新模塊等組成。

主要工作流程為:

第一步,翻譯人員把將要翻譯的工作文檔(原文)輸入給計算機輔助翻譯軟件,軟件逐句讀取原文。

第二步,軟件自動按已讀取的整句進行模糊查詢,從語料庫返回匹配度相近的譯文,原文與譯文同時顯示于工作區(qū)域。

第三步,軟件對當前的原文進行分詞,并按分詞結(jié)果逐詞返回譯文。

第四步,翻譯人員對照語料庫返回的譯文、單詞譯文、原文進行校對。

第五步,譯文校對完成后,由軟件插入工作文檔中原文位置之后,同時對語料庫進行更新。

第六步,返回第一步。

計算機輔助翻譯軟件工作流程,如圖1所示。

圖1 計算機輔助翻譯軟件工作流程圖

計算機輔助翻譯軟件采用C/S結(jié)構(gòu),語料庫數(shù)據(jù)庫采用Postgresql,字典數(shù)據(jù)采用SQLite,客戶端采用C#進行構(gòu)建。技術(shù)架構(gòu)如圖2所示:

圖2 計算機輔助翻譯軟件技術(shù)架構(gòu)圖

計算機輔助翻譯軟件人機操作界面主要分成翻譯輔助區(qū)與翻譯文檔區(qū)兩部分限組成,翻譯文檔區(qū)顯示被翻譯文檔(Word文檔),翻譯輔助區(qū)主要為獲取的原文語句獲取顯示、翻譯結(jié)果及其它用戶操作等交互界面。具體界面設(shè)置與效果如圖3所示:

圖3 軟件人機界面

2.2 計算機輔助翻譯軟件實現(xiàn)的關(guān)鍵技術(shù)

計算機輔助翻譯軟件實現(xiàn)的核心是對語料庫的查詢,技術(shù)關(guān)鍵是查詢速度及查詢效果,查詢速度越快、詞條模糊匹配效果越好則用戶體驗就越好。

1)查詢速度。信息系統(tǒng)的查詢速度是用戶體驗的最關(guān)鍵指標,查詢響應(yīng)時間越短用戶體驗越好。據(jù)調(diào)查,數(shù)據(jù)軟件查詢費時0~2s則用戶體驗最好,費時2~8s用戶可以容忍,如查詢費時大于8s則用戶不能忍受。所以,計算機輔助翻譯軟件查詢響應(yīng)時間必須控制在8s以下,最于2s則最優(yōu)。對計算機輔助翻譯軟件的使用人員而言,語料庫越大語料可重用性就越高,翻譯工作則越高效。實際應(yīng)用中語料庫數(shù)據(jù)量比較大(作者當前項目的語料庫的數(shù)據(jù)量大于400萬條),且數(shù)據(jù)量隨使用不斷增長。查詢響應(yīng)時間一般與數(shù)據(jù)量成反比,故當數(shù)據(jù)量超過百萬條后常用方法查詢時間超過8s,所以必須對數(shù)據(jù)庫查詢方法進行優(yōu)先和優(yōu)化才能達到查詢最優(yōu)化。

2)模糊匹配。在翻譯過程中,軟件檢索語料庫,尋找合適的譯文。除在重復(fù)性高的技術(shù)文檔翻譯中有完全匹配的情況外,絕大部分檢索都為模糊匹配。實事上模糊匹配效果也是決定計算機輔助翻譯工具是否好用的最重要指標。

最理想的模糊匹配模式就是從語料庫中尋找譯文意思相近的語句,而通用的數(shù)據(jù)庫檢索方法只能實現(xiàn)最多關(guān)鍵詞匹配。

例:理想模糊匹配模式,翻譯She like collecting stamps.語料庫中如果沒有類似于“She like collecting stamps too.”這樣的語句,就會優(yōu)先返回“She is fond of collecting stamps.”作為翻譯參考。但如果按最多關(guān)鍵詞匹配就很可能無作任何結(jié)果返回。隨便說一下,原文為中文則必需在檢索之前先要對原句進行中文分詞,原因是計算機不會自動識別句中的詞語。比如一句“結(jié)婚的和尚未結(jié)婚的”,可能分成“結(jié)婚/的/和尚/未/結(jié)婚/的”這樣檢索。

綜上所述,模糊查詢算法是軟件實現(xiàn)最核心的關(guān)鍵技術(shù),其算法優(yōu)化將是整個軟件易用性最大的挑戰(zhàn)。

2.3 查詢技術(shù)選擇

2.3.1 基于文本相似度算法的查詢

(1)文本長度過濾。在計算機輔助翻譯過程中,考慮到查詢目標往往與查詢內(nèi)容長度相近的特點,可以首先對數(shù)據(jù)進行文本長度過濾。文本長度過濾運算代價較小,可以極速縮小被查數(shù)據(jù)庫庫表的規(guī)模,可為下一步文本相比節(jié)省時間。

其中,source_text查詢內(nèi)容,p_source_text為查詢目標。目標文本長度設(shè)置為查詢文本長度不多于且不少于5個字符。

(2)文本相似度算法?;谠~語(單詞)重合的重疊相似度算法將短文本內(nèi)容看成是獨立關(guān)鍵詞的集合,通過兩個短文本的共現(xiàn)詞的個數(shù)來判斷兩個短文本的相似性。

若兩個短文本中共現(xiàn)詞的個數(shù)越多,則兩個短文本就越相似;反之,兩個短文本的相似度就越低;同時,為保證兩個短文本的相對相似度一致,采用相似度計算公式1:

基中samewords(S1,S2)表示S1與S2中都出現(xiàn)的關(guān)鍵詞個數(shù);Len(S1)表示中的關(guān)鍵詞個數(shù),Len(S2)表示S2中的關(guān)鍵詞個數(shù)。經(jīng)本軟件測試用戶調(diào)查統(tǒng)計得知,S1與S2的比調(diào)整為85%用戶體驗滿意度最高。

2.3.2 快速查詢技術(shù)優(yōu)化

為提升翻譯人員的使用體驗,減小翻譯實時翻譯時間。在查詢算法上的優(yōu)化同時還考慮其它方法進行查詢時間的縮短。

1)云計算。一般來講,用于計算機翻譯的辦公計算機在性能方面有著較大的差異,進而導(dǎo)致計算機輔助翻譯軟件呼應(yīng)時間不同帶給用戶不同的用戶體驗。為減小由于用戶計算機不同帶來的差異,在軟件設(shè)計時把大部分計算工作放在服務(wù)器上完成,用戶端只完成數(shù)據(jù)信息的傳遞與顯示。這種“云計算”的設(shè)計架構(gòu)在最大程度提高計算機輔助翻譯軟件性能的同時也讓每一位用戶享有比較接近的用戶體驗。

2)并行運算查詢。并行運算的設(shè)計也是為提升性能的考慮。由于數(shù)據(jù)庫表大的原因上經(jīng)過上述優(yōu)化后查詢速度依然不理想,所以需要把數(shù)據(jù)庫拆分成若干個小數(shù)據(jù)庫進行并行查詢而后對查詢結(jié)果進行合并,從而最大程度縮短查詢時間。并行運算時間成本原理如圖4所示:

圖中并行運算時間成本公式2。

圖4 并行運算時間成本示意圖

其中t為整個計算過程時間,tS0為并行計算任務(wù)拆分花費時間,ti為單項個并行任務(wù)計算時間,ts1為計算結(jié)果合并時間。tS0、tS1隨任務(wù)拆分數(shù)量n增加而增加,所以并不是并行數(shù)量越大越好。對同一檢索條件下不同并行數(shù)的測試,本方案最終選擇n=10為最優(yōu)并行查詢數(shù),實驗結(jié)果比對見表1。

表1 同一檢索條件下并行查詢的耗時比較

3 結(jié)束語

本文設(shè)計并實現(xiàn)了多用戶網(wǎng)絡(luò)計算機輔助翻譯軟件,采用網(wǎng)絡(luò)語料庫結(jié)合本地字典數(shù)據(jù)庫的方法實現(xiàn)了多人在線并行翻譯工作。實驗結(jié)果表明,綜合運用了文本長度過濾、相似度匹配、并行運算等方法使翻譯語句查詢響應(yīng)時間控制在用戶可接受范圍內(nèi),同時翻譯的查準率較為理想。在實際應(yīng)用中,本軟件設(shè)計功能、性能滿足多人同時在線翻譯的并行工作。下一步,將對語料庫進行進一步優(yōu)化,并持續(xù)改進查詢算法,使系統(tǒng)查詢響應(yīng)時間進一步縮短。

猜你喜歡
數(shù)據(jù)量語料庫短文
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
高刷新率不容易顯示器需求與接口標準帶寬
《語料庫翻譯文體學(xué)》評介
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
KEYS
Keys
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語篇元功能的語料庫支撐范式介入
短文改錯
短文改錯