国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

三款機器翻譯譯后編輯工具對比研究*

2023-11-23 07:50:00劉微微謝雅竹
中國科技縱橫 2023年19期
關(guān)鍵詞:引擎術(shù)語頁面

劉微微 謝雅竹

(中國民用航空飛行學(xué)院,四川廣漢 618307)

0 引言

神經(jīng)網(wǎng)絡(luò)翻譯的出現(xiàn)和快速發(fā)展為語言服務(wù)行業(yè)帶來了挑戰(zhàn)和機遇。近年來,隨著機器翻譯質(zhì)量的穩(wěn)步提升,市場對機器翻譯+譯后編輯(MTPE)的應(yīng)用頻率和接受度越來越高,據(jù)中國翻譯協(xié)會發(fā)布的《2022 中國翻譯及語言服務(wù)行業(yè)發(fā)展報告》[1]顯示,“機器翻譯+譯后編輯”服務(wù)模式得到市場普遍認同,超九成企業(yè)表示,該模式能提高翻譯效率、改善翻譯質(zhì)量和降低翻譯成本。與此同時,國內(nèi)外學(xué)者們對MTPE 的關(guān)注度也不斷提升,從多個角度對譯后編輯進行了研究。當(dāng)前,關(guān)于譯后編輯的研究主要集中在譯后編輯概述[2-6]、機器翻譯錯誤類型[7]、譯后編輯模式探索[8]、譯后編輯能力模型構(gòu)建[9]、譯后編輯效率影響因素探析[10-11]、譯后編輯過程[12-13]、譯后編輯人才培養(yǎng)[14-17]、影響譯后編輯難度的因素及測量方法[18]等。

不過,截至目前,除周興華、李懿洋[19]考察了4 款主流CAT 工具的譯后編輯功能,提出譯后編輯研究和教學(xué)應(yīng)更多探索翻譯軟件環(huán)境外,涉及機器翻譯譯后編輯工具環(huán)境或平臺的相關(guān)研究并不多。但實際進行譯后編輯時,使用什么樣的平臺工具常常是譯員首先需要決定的,工具是否與當(dāng)前任務(wù)要求匹配,如任務(wù)內(nèi)容是否有保密需求、是否需要多人實時共享、調(diào)用什么樣的機器翻譯、能否同時參考已有的語料庫等,合適的工具平臺有助于提升譯后編輯的質(zhì)量和效率,反之亦然。

隨著技術(shù)的不斷發(fā)展,能提供機器翻譯譯后編輯環(huán)境的不僅是MemoQ、Trados Studio、MateCat、YiCAT 等桌面或云翻譯CAT 軟件,其他集成多個機器翻譯引擎的工具,如LanguageX、GT4T,由于輕量級、使用便捷的特點正受到更多譯者的青睞。“工欲善其事必先利其器”,一款合適的MTPE 工具能大大有助提升效率和保證譯文質(zhì)量,起到事半功倍的作用。因此,針對特定的翻譯任務(wù),應(yīng)選擇最合適的工具平臺,以幫助用戶最大化利用MTPE在翻譯效率和輸出質(zhì)量上的優(yōu)勢。基于此,以參與的民航《風(fēng)險管理手冊》翻譯實踐為例,選擇3 款使用穩(wěn)定、同時集合多個翻譯引擎的工具,即YiCAT、LanguageX 和GT4T,從初始項目創(chuàng)建、譯后編輯過程、語料資產(chǎn)管理3 個階段對比分析不同平臺的異同和優(yōu)劣,以期為在該領(lǐng)域的應(yīng)用發(fā)展和研究提供一定參考和借鑒。

1 工具介紹

選擇對比的3 款工具的共同特點是,均由國內(nèi)公司開發(fā),使用界面語言友好且穩(wěn)定快捷。3 款工具本身聚合多款主流機器翻譯引擎,能最大程度適用于MTPE 模式工作。

1.1 YiCAT

YiCAT 在線翻譯管理平臺(https://www.yicat.vip/)是由上海一者信息科技有限公司自主研發(fā)、基于語料大數(shù)據(jù)的在線翻譯管理平臺,也是目前國內(nèi)知名度較高的一款云端CAT 工具,平臺使用穩(wěn)定、操作界面用戶友好。除提供桌面CAT 工具的基本功能外,還具備實時協(xié)同、譯審?fù)降仍诰€平臺的獨特優(yōu)勢,在MTPE 方面也是特色明顯,曾提供CAT 插件供習(xí)慣使用Trados、MemoQ 等桌面CAT 工具的用戶調(diào)用機翻,可以不用申請API 接入不同機翻結(jié)果。現(xiàn)在插件功能已經(jīng)下線,但該公司自身平臺足以滿足在CAT 中使用MTPE 的需求,近來還推出了根據(jù)每個句段自動優(yōu)選機翻結(jié)果、機翻對比工具箱以及為每個句段的機翻質(zhì)量自動打分等功能,通過人工智能算法的加持,在MTPE 方面愈發(fā)友好。

1.2 LanguageX

LanguageX(https://languagex.com/)由甲骨易(北京)語言科技股份有限公司開發(fā),在2022 年9 月落下帷幕的 “WMT2022 國際機器翻譯大賽”上,LanguageX 機翻引擎由于一舉斬獲英中翻譯方向冠軍、中譯英第3 名、英譯日第3 名的成績而受到關(guān)注。LanguageX 推出的AI 輔助翻譯工具平臺,不僅提供自主研發(fā)的LanguageX 引擎,也有包括微軟、DeepL、百度等多款通用和垂直領(lǐng)域引擎,以及允許譯者快速上傳語料和訓(xùn)練自己的翻譯引擎。這款云端工具支持在網(wǎng)頁直接快速創(chuàng)建項目、調(diào)用機翻進行譯后編輯,是一個基于AI,將輔助翻譯、機翻引擎管理、AI 工具箱合而為一的新一代譯者工具。

1.3 GT4T

GT4T(https://gt4t.cn/)由自由譯者曹首光最初于2009 年開發(fā),長期以來在國外市場擁有大量用戶,近兩年在國內(nèi)逐漸為不少職業(yè)譯員認識。國外用戶評價其為“這是我很久以來買的最好的軟件”“如果沒有GT4T,將再次回到石器時代”??傮w而言,GT4T 是一款運行于本地電腦上的應(yīng)用軟件工具,聚合了30 余種主流機器翻譯引擎,可以處理包括Office 或桌面出版文檔在內(nèi)的20 種文件類型,也可以用于翻譯Trados 或其他CAT 項目。該工具輕便小巧、功能多樣,主要通過拖拽、上傳、快捷鍵組合等方式使用,由于其不受文檔限制、可隨時在本地調(diào)用,被一些譯員譽為效率“神器”。

2 三款工具在譯后編輯各流程階段的對比

2.1 項目創(chuàng)建

YiCAT 作為一款國內(nèi)知名度較高、發(fā)展成熟的云端CAT 軟件,項目創(chuàng)建符合CAT 軟件的常見流程,聚焦機器翻譯譯后編輯,重點介紹機翻引擎選擇部分。YiCAT 項目創(chuàng)建時,“機器翻譯引擎”版塊可選啟用與否,共18 個選擇,價格從0.00 元/千字符至2.00 元/千字符不等,既包括谷歌、百度、小牛等主流通用引擎,也包括同花順翻譯(金融)、阿里翻譯(電商)等5 個垂直領(lǐng)域,還包括YiCAT 優(yōu)選。YiCAT 優(yōu)選非獨立機器引擎,而是該公司自主開發(fā)的技術(shù),基于AI 智能算法,為各句段自動優(yōu)選來自不同引擎的最佳譯文。此外,企業(yè)版的工具箱提供機器翻譯對比功能,用戶可輸入原文(單次最多5000 字符),在同一頁面查看多至11 個機翻結(jié)果,譯文根據(jù)平臺的智能優(yōu)選算法排序,供譯者自主判斷挑選項目所需引擎。選定機翻引擎后,在“預(yù)翻譯”版塊,可選擇“翻譯記憶庫”“機器翻譯”“術(shù)語干預(yù)”等,此處如果選擇,待翻譯文檔上傳以后,平臺將自動翻譯填充譯文;如果不選,可后期在編輯器頁面右側(cè)查看機翻結(jié)果,根據(jù)需要調(diào)用。項目創(chuàng)建完成后即可上傳文件,YiCAT 企業(yè)版支持51 種文件格式(團隊免費版7 種、加強版8 種)、46 種語言,最大上傳文件大小200M(團隊版20M)、最大上傳文件字數(shù)20 萬字(團隊版5 萬字)。

LanguageX 頁面更加簡潔,無任何CAT 經(jīng)驗的用戶也能無障礙使用。登錄網(wǎng)頁后,左側(cè)的版塊包括“翻譯引擎”“翻譯項目”“翻譯記憶”和“幫助中心”。首頁即“翻譯引擎”,用戶可輸入一段文字(最多2000 字)測試不同翻譯引擎效果,可選引擎包括13 個通用引擎、7個個性引擎和7 個垂直領(lǐng)域引擎。點擊左側(cè)“翻譯項目”可進入頁面新建項目,直接上傳需要翻譯的文檔,支持9 種文件格式,PRO 版支持最多上傳20 個文件,單文件最大50MB。文件上傳后跳轉(zhuǎn)至與首頁相同的翻譯引擎選擇頁面,選擇語對和翻譯引擎后,點擊“下一步”轉(zhuǎn)至“項目設(shè)置”,對記憶庫、術(shù)語庫和文檔進行快速設(shè)置,LanguageX PRO 版本支持術(shù)語干預(yù),設(shè)置完成后點擊“開始翻譯”,上傳文件即開始機器翻譯流程。完成后可進入文件頁面,在機器翻譯的結(jié)果上進行譯后編輯。LanguageX 頁面設(shè)置簡單,目前PRO 版本每月提供100萬字符流量,費用為29 元/月或299 元/年。

GT4T 是一款集合多個機器翻譯引擎的本地工具,用戶在官網(wǎng)下載最新版本后安裝在本地即可使用,也就是說,安裝注冊完成后,在電腦的任何程序和窗口,如office 文檔、網(wǎng)頁、Trados 等CAT 工具,可隨時調(diào)用GT4T 提供的機器翻譯參考。與其他提供插件的機翻引擎不同,GT4T 本身不是機器翻譯引擎,而是匯集了30 余種機翻引擎的集合式工具或超級插件,用戶可調(diào)用其中一個或多個機翻結(jié)果,且無需將任何文件上傳至云端。 GT4T 支持導(dǎo)入文件翻譯器和在電腦任何窗口調(diào)用機翻結(jié)果兩種方式。使用文件翻譯器時,確認語對方向后,可選中文件后點擊右鍵,選擇GT4T 翻譯器或直接將文檔拖放至窗口,待自動翻譯處理完成后,本地電腦將生成未翻譯(原文)和已翻譯(譯文或雙語)兩個新的文件夾,打開已翻譯的文件即可以譯后編輯。在任何窗口,也可通過選中需翻譯的部分,通過快捷鍵組合調(diào)用已選機翻引擎結(jié)果,機翻結(jié)果以小窗懸浮出現(xiàn)在當(dāng)前頁面,并能在任何位置移動,供用戶參考或進行譯后編輯。因此,GT4T 不需要項目創(chuàng)建流程。當(dāng)前GT4T有按時間或按字符計算的多個套餐,按時間計算無字符限制,月費用從43.83 元至58.90 元不等,按字符計算價格從0.127 元/千字符至0.367 元/千字符不等,使用時根據(jù)所選的機翻引擎計算系數(shù)扣除字符(多個引擎則疊加費用)。

由此可見,3 款工具的使用都十分友好,工具本身集成多個機翻引擎,用戶調(diào)用機翻結(jié)果時,也無需單獨在每個機翻中單獨注冊設(shè)置API,難度大大降低。3 款工具都屬于付費服務(wù),雖價格有一定差異,但都屬于普通譯員能承受的范圍。3 款工具在新建項目階段的主要差異見表1。

表1 YiCAT、LanguageX、GT4T總體差異對比(資料數(shù)據(jù)截至2022年10月)

2.2 編輯頁面

YiCAT 的編輯頁面(見圖1)分為上排功能區(qū),中間主體部分的左側(cè)原文欄和右側(cè)編輯欄,最右側(cè)提供記憶庫、機器翻譯、術(shù)語庫參考以及備注等附加功能。主編輯區(qū)可以選擇顯示QA 結(jié)果、歷史記錄、原文預(yù)覽和譯文預(yù)覽,最下方顯示當(dāng)前翻譯或?qū)徯?、校對進度。各區(qū)頁面大小可拉動調(diào)整。YiCAT 在譯后編輯時結(jié)合記憶庫和術(shù)語庫,以記憶庫優(yōu)先,且術(shù)語庫可干預(yù)機翻結(jié)果,由此保證機翻引擎提供的結(jié)果也能實現(xiàn)術(shù)語的準確性和一致性。

圖1 YiCAT譯后編輯頁面

如圖1 所示,平臺系統(tǒng)會對機翻質(zhì)量自動評級,等級為S、A、B 和C 四擋,按質(zhì)量高低,S 級為質(zhì)量超優(yōu),最低的C 級則是提醒譯員需要多加注意。在本次翻譯任務(wù)中,提示以B 級居多。雖然機器的質(zhì)量打分和實際人工評估質(zhì)量的吻合度尚需更多測試檢驗,但該功能的出現(xiàn)也是MTPE 的發(fā)展趨勢之一。

如果待譯文稿本身有記憶庫和術(shù)語庫,且譯員熟悉類似CAT 平臺的操作,該多功能平臺能有助于提升譯后編輯的效率和保證質(zhì)量。

LanguageX 的譯后編輯頁面(見圖2)則更為簡潔,分為頂部的項目名稱、選用的機翻引擎、翻譯進度等,中間編輯頁面左側(cè)為篇章實時顯示,可選譯文、雙語和原文,與右邊編輯欄實時同步顯示,最右邊的欄目主要包括在記憶庫和術(shù)語庫搜索、術(shù)語庫和翻譯記憶顯示。除普通CAT 平臺的功能外,左側(cè)實時顯示與右側(cè)編輯同步。區(qū)域更大,便于譯者在譯后編輯時兼顧語篇連貫,而很多傳統(tǒng)CAT 平臺由于句段切分的原因,譯者難以關(guān)注語篇這一影響譯文質(zhì)量的重要因素,幾個傳統(tǒng)CAT 工具雖然有原文或譯文語篇展示,但區(qū)域過小、反應(yīng)較慢或需要額外點擊才能顯示。同時,LanguageX 平臺在QA 質(zhì)量保證方面更加友好,以英中語對為例,以“標(biāo)點有誤”“數(shù)字不符”“多余空格”等文字明示QA 問題,較“譯文無標(biāo)記”“譯文中缺少原文總的標(biāo)記”等提示語更加清晰明了,便于譯者快速糾正。右側(cè)的“在記憶庫和術(shù)語庫搜索”能使譯者能夠快速搜索,而不用跳轉(zhuǎn)至專門的記憶庫頁面,總體操作更加便捷。在英中對照的格式方面,LanguageX能智能將原文的斜體轉(zhuǎn)換為中文的非斜體,導(dǎo)出后的文章更加符合目的語格式要求。

圖2 LanguageX譯后編輯頁面

使用GT4T 進行譯后編輯時,不需要在特定窗口或頁面編輯。這款工具可應(yīng)用于任何文檔,以Word 為例(見圖3),譯者根據(jù)自己的需要,選中需要調(diào)用機譯的內(nèi)容,通過“Win + Ctrl + J”快捷鍵組合,即可以調(diào)出事先配置好的翻譯引擎譯文, GT4T 也支持術(shù)語干預(yù),此處的“proficiency”一詞用于描述飛行訓(xùn)練水平時,通常為“熟練度”的意思,由于譯者已提前將該術(shù)語加入,機翻結(jié)果也因此使用該術(shù)語。譯者從出現(xiàn)的多個譯文中可以粘貼復(fù)制其中的一個譯文在頁面開始譯后編輯,也可以綜合選擇,根據(jù)質(zhì)量高低,不同的部分選擇來自不同引擎的譯文。

圖3 GT4T翻譯器在Word中的使用

此處為展示目的,選擇了谷歌、阿里、DeepL 和彩云小譯共同作為參考。比如原文中的“events”,3 個機翻處理為“事件”,一個的結(jié)果為“活動”,根據(jù)原文語境,飛行評估、儀表熟練度檢查用“活動”概括更準確,由此可見,同一語段參考多個機翻能為譯者提供更豐富的參考,輔助其更好進行譯后編輯。但提供多個參考意味著譯者需要查看和判斷的時間延長,同時扣除字符的費用增加。通常情況下,熟練譯者選擇最匹配當(dāng)前文檔的某個或兩個翻譯引擎即可。此外,通過“Ctrl+D”的快捷鍵組合也可快速調(diào)用來自多個詞典的結(jié)果供譯者參考。

2.3 語料管理

通常而言,完整的翻譯流程包括譯后語料和術(shù)語管理。在YiCAT 和LanguageX 平臺(Pro 版及以上),譯者可以在譯后編輯過程快捷添加術(shù)語,需要時導(dǎo)出術(shù)語庫和tmx 格式的記憶庫,可以在完成項目的同時,不斷豐富語言資產(chǎn)。而GT4T 由于本身只是集成多個機翻引擎的工具,不提供編輯功能,譯后編輯在原來的各個文檔中進行,GT4T 本身無法提供tmx 格式的記憶庫,雖然通過結(jié)合其他CAT 的文件,如Trados、MemoQ,也可以實現(xiàn)此功能,但操作難度增加。

3 結(jié)語

以譯后編輯的軟件環(huán)境為研究對象,選擇了聚合多個機翻引擎的3 款工具進行比較,包括以YiCAT 為代表的云端CAT 軟件,以譯后編輯、訓(xùn)練個人引擎為導(dǎo)向的極簡化平臺LanguageX,以及適合本地各應(yīng)用程序的翻譯超級插件GT4T,這3 款工具均聚合多個機翻引擎,在使用上各有優(yōu)劣。對譯者而言,這3 款工具及類似平臺上手都較為容易,譯后編輯時具體選擇何種工具需要根據(jù)自己的目的和相關(guān)要求,如文檔格式和大小、是否保密、能否上傳互聯(lián)網(wǎng)、是否有可參考的記憶庫、是否需要團隊協(xié)同、有無必要同時參考多個機翻引擎、譯后是否需要整理記憶庫等需求合適選擇或組合使用。同時,通過對比3 款工具,也發(fā)現(xiàn)了平臺開發(fā)企業(yè)在機翻質(zhì)量評判和譯后編輯環(huán)境改進中做出的努力,包括設(shè)計界面更為用戶友好、基于人工智能開發(fā)算法對機翻質(zhì)量進行打分,以及支持用戶上傳語料訓(xùn)練個性化引擎等,使機助人譯、人助機譯朝著更優(yōu)化方向發(fā)展。

猜你喜歡
引擎術(shù)語頁面
大狗熊在睡覺
刷新生活的頁面
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
奧運術(shù)語
河南省| 巴彦县| 社旗县| 涪陵区| 富裕县| 平乐县| 兖州市| 三门峡市| 东至县| 高要市| 临潭县| 襄樊市| 白朗县| 江都市| 西和县| 望都县| 诸暨市| 绥宁县| 巴塘县| 都兰县| 乐业县| 济南市| 太湖县| 吉水县| 宝应县| 本溪市| 三原县| 汝阳县| 灵武市| 保靖县| 辽阳县| 名山县| 芜湖市| 博湖县| 安阳市| 盐津县| 阳城县| 高淳县| 栖霞市| 平阴县| 佳木斯市|