国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

涉海翻譯中的機(jī)器翻譯應(yīng)用效能:基于BLEU、chrF++和BERTScore指標(biāo)的綜合評(píng)估

2024-05-15 05:20劉世界

摘 要:深度學(xué)習(xí)技術(shù)和生成式人工智能技術(shù)已在機(jī)器翻譯領(lǐng)域引發(fā)質(zhì)的變革,為該領(lǐng)域的進(jìn)步開辟了新徑。為綜合評(píng)價(jià)不同技術(shù)和算法背景下的機(jī)器翻譯在涉海領(lǐng)域的應(yīng)用效能,構(gòu)建涵蓋100個(gè)代表性涉海例句的中英雙語方向的測(cè)試集,基于涉海文本的語言結(jié)構(gòu)特點(diǎn)選取BLEU、chrF++和BERTScore 3種自動(dòng)評(píng)估指標(biāo),對(duì)人工智能助手ChatGPT(4.0)和文心一言(4.0),及Google Translate、Microsoft Translator、DeepL Translate、Tencent TranSmart、百度翻譯和有道翻譯等六大主流翻譯引擎的譯文進(jìn)行定量定性評(píng)估。實(shí)驗(yàn)結(jié)果既為理解機(jī)器翻譯系統(tǒng)在涉海領(lǐng)域的應(yīng)用效能提供了實(shí)證支撐,又為機(jī)器翻譯技術(shù)開發(fā)者提供了關(guān)于算法優(yōu)化和翻譯精度提升方面的見解,同時(shí)為涉海專業(yè)人士選擇合適的翻譯系統(tǒng)提供了實(shí)用指引。

關(guān)鍵詞:涉海翻譯;機(jī)器翻譯應(yīng)用效能;BERTScore;BLEU;chrF++

中圖分類號(hào): I305.9文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-335X(2024)02-0021-11

DOI:10.16497/j.cnki.1672-335X.202402003

機(jī)器翻譯,尤其是隨著深度學(xué)習(xí)的發(fā)展而興起的神經(jīng)機(jī)器翻譯,已成為突破語言障礙、提高交流效率的關(guān)鍵。隨著全球海洋經(jīng)濟(jì)的增長,特別是在涉海領(lǐng)域,對(duì)跨語言信息交流的高效、精確需求日增。盡管深度學(xué)習(xí)和生成式人工智能技術(shù)顯著提升了機(jī)器翻譯的質(zhì)量與效率,但處理涉海文本仍具挑戰(zhàn)。這類文本常含密集的專業(yè)術(shù)語、領(lǐng)域知識(shí)和復(fù)雜概念,翻譯精確度和專業(yè)性要求較高。因此,評(píng)估機(jī)器翻譯在此領(lǐng)域的應(yīng)用效能,對(duì)推動(dòng)技術(shù)進(jìn)步和滿足行業(yè)需求具有重要意義。

當(dāng)前,機(jī)器翻譯質(zhì)量評(píng)估領(lǐng)域常用的評(píng)估指標(biāo)包括BLEU[1]、METEOR[2]、chrF[3]、chrF++[4]、BERTScore[5]、COMET[6]和BLEURT[7]。這些指標(biāo)從詞匯準(zhǔn)確性、語法流暢度以及語義保留等維度評(píng)估翻譯質(zhì)量,為不同領(lǐng)域中機(jī)器翻譯的應(yīng)用效能提供了量化評(píng)估基準(zhǔn)。為此,本研究嘗試構(gòu)建中英雙語的涉海領(lǐng)域測(cè)試集,選取包括大語言模型支持的人工智能助手ChatGPT(4.0)、文心一言(4.0)及其他六大主流翻譯引擎作為評(píng)估對(duì)象(統(tǒng)稱為“翻譯系統(tǒng)”),針對(duì)涉海文本的獨(dú)特語言結(jié)構(gòu),采用BLEU、chrF++和BERTScore三個(gè)自動(dòng)化評(píng)估指標(biāo),旨在綜合評(píng)估機(jī)器翻譯在涉海領(lǐng)域的應(yīng)用效能與局限。通過定量指標(biāo)數(shù)據(jù)和定性案例分析,深入探討翻譯系統(tǒng)在處理專業(yè)術(shù)語、領(lǐng)域知識(shí)、復(fù)雜句式方面的能力,為機(jī)器翻譯在涉海領(lǐng)域的應(yīng)用提供新見解。

一、BLEU、chrF++和BERTScore評(píng)估指標(biāo)

本部分將探討與解析本研究所采用的三種評(píng)估指標(biāo)——BLEU、chrF++和BERTScore。

BLEU(Bilingual Evaluation Understudy)由Papineni等人于2002年提出,它通過計(jì)算機(jī)器翻譯輸出與一組參考翻譯之間的n-gram重疊來評(píng)估翻譯的準(zhǔn)確性。[1]BLEU的核心在于n-gram匹配,涉及1-gram到4-gram的匹配,并通過修正的精確度計(jì)算來避免過度懲罰短譯文。由于其簡(jiǎn)單性和高效性,BLEU成為當(dāng)前機(jī)器翻譯評(píng)估的黃金標(biāo)準(zhǔn),但它也因在翻譯的語義準(zhǔn)確性和流暢性方面缺乏敏感性而受到批評(píng)。[8]盡管如此,BLEU仍然被廣泛用作機(jī)器翻譯性能評(píng)估的指標(biāo)之一,特別是在WMT(Workshop on Machine Translation)等國際機(jī)器翻譯評(píng)測(cè)活動(dòng)中。BLEU分?jǐn)?shù)的范圍是0到1,其中0表示完全不匹配,1表示完全匹配。在行業(yè)評(píng)估實(shí)踐中,BLEU分?jǐn)?shù)通常轉(zhuǎn)換為百分制,以使得評(píng)估結(jié)果易于理解和比較,也方便非專業(yè)人士快速把握翻譯系統(tǒng)的性能水平。

chrF++(Character n-gram F-score)是由Popovic′于2017年提出的機(jī)器翻譯評(píng)估指標(biāo)chrF的改進(jìn)版本,它通過計(jì)算字符級(jí)的n-gram F-score來評(píng)估翻譯質(zhì)量,以此來補(bǔ)充基于詞級(jí)別n-gram計(jì)算的傳統(tǒng)評(píng)估方法(如BLEU)的不足。這種方法適用于處理語言結(jié)構(gòu)差異大或非標(biāo)準(zhǔn)表達(dá)的語言,因?yàn)樗芨?xì)致地捕捉語言的微妙差異(如拼寫、詞形變化等)。[4]chrF++還引入了加權(quán)因子,以平衡不同長度n-gram的影響,從而提高評(píng)估的準(zhǔn)確性和公平性。由于這些特點(diǎn),chrF++已經(jīng)被納入WMT評(píng)測(cè)活動(dòng)的評(píng)估指標(biāo)體系中,作為補(bǔ)充BLEU和其他評(píng)估指標(biāo)的一部分,幫助研究人員和開發(fā)者從多個(gè)角度評(píng)估和理解機(jī)器翻譯系統(tǒng)的性能。

BERTScore由Zhang等人于2020年提出,是一種利用預(yù)訓(xùn)練的BERT模型計(jì)算候選翻譯和參考句子之間語義相似度的評(píng)估指標(biāo)。在研究中他們采用BERTScore及相關(guān)指標(biāo)評(píng)估363個(gè)機(jī)器翻譯和圖像描述系統(tǒng)的輸出,實(shí)驗(yàn)結(jié)果表明BERTScore與人類評(píng)價(jià)的相關(guān)性更好,魯棒性更強(qiáng),并且相比現(xiàn)有的評(píng)估指標(biāo),BERTScore提供了更強(qiáng)的模型選擇性能。[5]BERTScore通過計(jì)算詞嵌入之間的余弦相似度來評(píng)估翻譯質(zhì)量,為評(píng)估提供了基于語義的新視角,這使得BERTScore在處理同義詞和復(fù)雜句子結(jié)構(gòu)時(shí)能夠更好地捕捉到翻譯中的細(xì)微語義差異。具體計(jì)算過程如圖1所示。

二、研究方法

(一)數(shù)據(jù)收集

在構(gòu)建英譯中(E2C)和中譯英(C2E)兩個(gè)方向的涉海翻譯測(cè)試集(各50條例句)的過程中,采用嚴(yán)格的標(biāo)準(zhǔn)選取測(cè)試?yán)?,確保測(cè)試集最大程度地覆蓋涉海領(lǐng)域的關(guān)鍵概念、專業(yè)術(shù)語和主要場(chǎng)景。這些內(nèi)容包括但不限于法律與政策(海事海洋法律法規(guī)、海事審判報(bào)告)、工程與技術(shù)(船舶工程、海洋工程)、環(huán)境與生態(tài)(海洋環(huán)境、海洋生物資源)、文化與社會(huì)(海洋文化、海洋史)、經(jīng)濟(jì)與發(fā)展(航運(yùn)業(yè)發(fā)展)等。對(duì)于部分缺少參考譯文的例句,邀請(qǐng)三位涉海領(lǐng)域?qū)<矣懻摯_立高質(zhì)量參考譯文,保證專業(yè)性和準(zhǔn)確性。此外,為避免任何潛在的順序效應(yīng)(order effects),[9]測(cè)試集例句隨機(jī)打亂編碼,確保評(píng)估的客觀性和公正性。

(二)系統(tǒng)/助手選取

本研究選取具有代表性的神經(jīng)機(jī)器翻譯系統(tǒng)和大語言模型支持的人工智能助手(翻譯功能)進(jìn)行評(píng)估,包括Google Translate(Google)、Microsoft Translator(Microsoft)、DeepL Translate(DeepL)、Tencent TranSmart(TranSmart)、百度翻譯、有道翻譯,以及人工智能助手ChatGPT(4.0)(GPT)和文心一言(4.0)(文心一言)。雖然ChatGPT(4.0)和文心一言(4.0)本質(zhì)上不是專門設(shè)計(jì)用于機(jī)器翻譯的系統(tǒng),但它們作為大語言模型支持的人工智能助手,同樣具備處理翻譯任務(wù)的能力。選擇這些系統(tǒng)和助手是基于它們的技術(shù)領(lǐng)先地位和廣泛應(yīng)用,以及它們?cè)谟?xùn)練過程中使用的不同規(guī)模和領(lǐng)域的數(shù)據(jù)集,這些因素可以反映出各自的性能特點(diǎn)和應(yīng)用差異。每個(gè)翻譯系統(tǒng)或人工智能助手的背后,都是數(shù)十億甚至數(shù)萬億個(gè)詞匯的龐大訓(xùn)練數(shù)據(jù)集,覆蓋廣泛的主題和領(lǐng)域,適合作為工業(yè)界機(jī)器翻譯技術(shù)的代表,評(píng)估機(jī)器翻譯在涉海領(lǐng)域的應(yīng)用效能和局限。在譯文輸出過程中,人工智能助手未使用結(jié)構(gòu)化的提示詞進(jìn)行引導(dǎo),所有機(jī)器譯文輸出時(shí)間均為2024年2月18日。

(三)實(shí)驗(yàn)參數(shù)

在計(jì)算BLEU指標(biāo)評(píng)分時(shí),在Python中采用jieba分詞處理漢語譯文(英文譯文無需額外的分詞處理),并調(diào)用NLTK庫中的SmoothingFunction().method4作為BLEU得分計(jì)算的平滑方法,旨在解決當(dāng)測(cè)試集中出現(xiàn)未在訓(xùn)練集中見過的n-gram時(shí)BLEU得分計(jì)算結(jié)果為零的問題。同時(shí)將n-gram權(quán)重等同設(shè)置(每個(gè)1-gram到4-gram的權(quán)重為0.25),這種權(quán)重分配方法符合BLEU評(píng)分中廣泛認(rèn)可和默認(rèn)采用的標(biāo)準(zhǔn)實(shí)踐。

在計(jì)算chrF++指標(biāo)評(píng)分時(shí),本研究遵循Popovic′于2017年所提出的方法[4]進(jìn)行編程,調(diào)用sacreBLEU庫中的CHRF模塊對(duì)測(cè)試譯文進(jìn)行評(píng)分。在初始化CHRF對(duì)象的過程中,特別設(shè)置了幾個(gè)關(guān)鍵參數(shù),以確保評(píng)分體系既能反映詞序與字符序的重要性,又能保證評(píng)分的穩(wěn)定性和可靠性。具體而言,詞序權(quán)重設(shè)為2,旨在適度懲罰譯文中的詞序錯(cuò)誤,以體現(xiàn)詞序在翻譯質(zhì)量中的作用;字符序權(quán)重則設(shè)為6,強(qiáng)調(diào)字符級(jí)別匹配的重要性,以捕捉翻譯中的部分正確匹配情況;平滑因子beta設(shè)為2,目的是平衡精確率(precision)和召回率(recall),避免極端情況下的評(píng)分失衡。

BERTScore指標(biāo)評(píng)分的計(jì)算涉及E2C和C2E兩個(gè)方向的模型選擇及參數(shù)設(shè)置。在E2C方向的BERTScore指標(biāo)得分計(jì)算中,基于BERTScore庫的默認(rèn)設(shè)定,采納預(yù)訓(xùn)練的bert-base-chinese模型處理中文譯文。該模型作為專為中文文本設(shè)計(jì)的BERT模型版本,能夠有效地揭示中文文本間的語義相似性,被認(rèn)為是進(jìn)行中文得分計(jì)算的理想工具。針對(duì)C2E方向的得分計(jì)算,則選用了microsoft/deberta-xlarge-mnli模型。DeBERTa模型(Decoding-enhanced BERT with disentangled attention)通過解耦注意力機(jī)制和增強(qiáng)解碼功能,在文本理解及表達(dá)上超越標(biāo)準(zhǔn)BERT架構(gòu),而microsoft/deberta-xlarge-mnli作為一種擴(kuò)展規(guī)模的DeBERTa模型,在多項(xiàng)自然語言理解(NLU)任務(wù)上的預(yù)訓(xùn)練背景賦予了其在處理英文文本時(shí),特別是在解析英文中復(fù)雜的語義關(guān)系與識(shí)別句間隱含意義上的卓越性能。因此,通過指定microsoft/deberta-xlarge-mnli模型來執(zhí)行C2E方向上的BERTScore指標(biāo)計(jì)算,可確保研究獲得更精細(xì)準(zhǔn)確的語義相似度評(píng)估結(jié)果。

三、結(jié)果與討論

(一)定量分析

1.BLEU和chrF++指標(biāo)評(píng)分結(jié)果

對(duì)兩個(gè)翻譯方向的測(cè)試集進(jìn)行BLEU及chrF++指標(biāo)評(píng)估,具體得分結(jié)果整理成表1。通過表格數(shù)據(jù)的橫向及縱向分析,初步觀察到:(1)文心一言在E2C方向的BLEU指標(biāo)及E2C和C2E兩個(gè)方向的chrF++指標(biāo)上表現(xiàn)良好;(2)TranSmart在E2C方向的chrF++指標(biāo)得分顯著;(3)有道翻譯在C2E方向的BLEU得分較高,顯示出其在中譯英方面的優(yōu)勢(shì);(4)GPT在兩個(gè)翻譯方向的BLEU和chrF++指標(biāo)表現(xiàn)最差;(5)在chrF++指標(biāo)評(píng)估中,C2E方向上的得分普遍高于E2C方向,這可能歸因于英語作為目標(biāo)語言時(shí),翻譯輸出中字符級(jí)別的匹配和詞序的正確性相對(duì)更易于實(shí)現(xiàn),與chrF++自身的評(píng)估方法與原理有較強(qiáng)的關(guān)聯(lián)性;(6)即便是在兩個(gè)指標(biāo)中表現(xiàn)最佳的翻譯系統(tǒng),得分也主要集中在20至60分之間,這一分布可能受文本測(cè)試集規(guī)模、復(fù)雜度和評(píng)估方法自身局限性的影響。上述觀察和初步分析是基于量化結(jié)果的探索性總結(jié),為了綜合評(píng)估各翻譯系統(tǒng)在處理涉海文本翻譯中的應(yīng)用效能,還需結(jié)合BERTScore指標(biāo)的評(píng)分結(jié)果及定性案例分析來進(jìn)一步驗(yàn)證。

2.BERTScore指標(biāo)評(píng)分結(jié)果

依據(jù)Zhang等人所提出的BERTScore評(píng)估方法,[5]并針對(duì)具體任務(wù)特性進(jìn)行編程,以實(shí)現(xiàn)對(duì)E2C及C2E兩個(gè)翻譯方向上的測(cè)試集進(jìn)行詳細(xì)的評(píng)估。具體而言,計(jì)算測(cè)試集中各個(gè)測(cè)試句在BERTScore指標(biāo)上的得分表現(xiàn)(如表2所示),繪制各翻譯系統(tǒng)在兩個(gè)翻譯方向上的F1得分分布圖(如圖2所示)和比較圖(如圖3所示)。盡管BERTScore提供包括精確率、召回率和F1得分在內(nèi)的三項(xiàng)評(píng)估指標(biāo),但F1得分作為精確率與召回率的調(diào)和平均值,能夠提供一個(gè)平衡兩者的綜合效能評(píng)價(jià)指標(biāo)。在機(jī)器翻譯質(zhì)量的評(píng)估過程中,依賴單一的精確率或召回率指標(biāo)可能無法全面揭示翻譯質(zhì)量的多維度特征。高精確率可能反映出翻譯過度保守,而高召回率可能意味著翻譯輸出包含較多的不精確元素。F1得分通過平衡精確率和召回率,能夠全面評(píng)價(jià)翻譯系統(tǒng)的應(yīng)用效能,反映其在保持翻譯準(zhǔn)確性與覆蓋原文意義之間的平衡能力。因此,本研究選用F1得分作為評(píng)估翻譯系統(tǒng)應(yīng)用效能的主要指標(biāo)。

基于圖表信息及測(cè)試集評(píng)分?jǐn)?shù)據(jù),歸納出以下關(guān)鍵發(fā)現(xiàn):(1)在E2C方向上,TranSmart的平均F1得分最高(0.890),而在C2E方向上,文心一言的平均F1得分最高(0.859);(2)在E2C方向上,TranSmart的標(biāo)準(zhǔn)差最大(SD=0.046),而在C2E方向上,DeepL的標(biāo)準(zhǔn)差最大(SD=0.045),反映了這些系統(tǒng)在處理不同句子時(shí)性能的波動(dòng)性較大;(3)文心一言在兩個(gè)翻譯方向上均展現(xiàn)了最大的F1得分(E2C為0.986,C2E為0.974);(4)各翻譯系統(tǒng)在E2C方向的F1得分普遍高于C2E方向。

在實(shí)施單因素方差分析(ANOVA)之前,采用Shapiro-Wilk檢驗(yàn)[10]對(duì)數(shù)據(jù)集的正態(tài)分布假設(shè)進(jìn)行驗(yàn)證,以確保滿足ANOVA分析的前提條件。Shapiro-Wilk檢驗(yàn)的結(jié)果揭示,部分翻譯系統(tǒng)在特定翻譯方向上的數(shù)據(jù)未能通過正態(tài)性檢驗(yàn),具體包括GPT、DeepL、TranSmart、有道翻譯在E2C方向上,以及Google與Microsoft在C2E方向上,均顯示p值小于0.05,表明這些系統(tǒng)的F1得分分布不符合正態(tài)分布,抑或揭示了機(jī)器翻譯系統(tǒng)性能分布的內(nèi)在復(fù)雜性。

鑒于部分?jǐn)?shù)據(jù)未滿足正態(tài)分布的假設(shè),研究又采用Kruskal-Wallis檢驗(yàn)[11]作為ANOVA的非參數(shù)替代方法,以評(píng)估不同翻譯系統(tǒng)間F1得分的統(tǒng)計(jì)學(xué)差異。該檢驗(yàn)不依賴于數(shù)據(jù)的正態(tài)分布假設(shè),也不要求各組方差一致,適用于本研究。檢驗(yàn)結(jié)果顯示,在E2C方向上,不同翻譯系統(tǒng)的應(yīng)用效能存在統(tǒng)計(jì)學(xué)意義上的顯著差異(H(7,400)=24.308,p<0.05),這表明至少一個(gè)翻譯系統(tǒng)的應(yīng)用效能顯著不同于其他系統(tǒng)。而在C2E方向上,未觀察到統(tǒng)計(jì)學(xué)意義上的顯著差異(H(7,400)=9.894,p=0.195),這表明所有翻譯系統(tǒng)在該方向任務(wù)上的應(yīng)用效能相對(duì)一致。

為進(jìn)一步考察在E2C方向上特定翻譯系統(tǒng)間的應(yīng)用效能差異,進(jìn)行Kruskal-Wallis檢驗(yàn)拒絕零假設(shè)之后適用的Dunn的多重比較檢驗(yàn),[12]并依據(jù)Dunn于1961年所提出的建議[13]對(duì)結(jié)果進(jìn)行Bonferroni校正,以降低在多重比較過程中產(chǎn)生第一類錯(cuò)誤(即假陽性)的風(fēng)險(xiǎn)。Dunn測(cè)試的結(jié)果表明,GPT與DeepL、TranSmart、文心一言及有道翻譯之間在E2C方向上存在統(tǒng)計(jì)學(xué)意義上的顯著應(yīng)用效能差異(GPT的應(yīng)用效能相對(duì)較差)。這一發(fā)現(xiàn)得到表2和圖3數(shù)據(jù)的支持,而其他翻譯系統(tǒng)之間無顯著差異。

針對(duì)上述發(fā)現(xiàn)與統(tǒng)計(jì)分析,發(fā)現(xiàn)兩個(gè)值得深入討論的問題:

(1)文心一言與GPT作為大語言模型支持的人工智能助手,為何表現(xiàn)出顯著的應(yīng)用效能差異?

(2)翻譯系統(tǒng)在E2C方向的應(yīng)用效能普遍優(yōu)于C2E方向,可能原因是什么?

對(duì)于第一個(gè)問題,盡管二者均由大語言模型支持,但在設(shè)計(jì)理念、訓(xùn)練數(shù)據(jù)、優(yōu)化目標(biāo)以及實(shí)現(xiàn)技術(shù)等方面存在顯著差異。這些差異可能導(dǎo)致二者在特定任務(wù),如機(jī)器翻譯上的表現(xiàn)有所不同,以下是可能的原因:首先,專業(yè)化知識(shí)整合程度不同。文心一言強(qiáng)調(diào)通過整合領(lǐng)域知識(shí)來增強(qiáng)其語言模型的能力,尤其通過ERNIE模型融合知識(shí)圖譜信息,優(yōu)化模型對(duì)專業(yè)術(shù)語和領(lǐng)域背景知識(shí)的理解能力。相比之下,GPT雖然接受了大量的數(shù)據(jù)訓(xùn)練,但它可能沒有像文心一言那樣針對(duì)特定專業(yè)領(lǐng)域進(jìn)行優(yōu)化。其次,文心一言可能接入了更廣泛的專業(yè)數(shù)據(jù)集,尤其是在百度上的海量中英文資源,而GPT基于廣泛的互聯(lián)網(wǎng)文本進(jìn)行訓(xùn)練,可能在特定領(lǐng)域覆蓋和深度上與專門優(yōu)化的模型有所差距。其他原因包括任務(wù)專注度的優(yōu)先級(jí)、實(shí)時(shí)更新頻次和學(xué)習(xí)能力的差異。

對(duì)于第二個(gè)問題,可能因素包括:首先,在涉海領(lǐng)域,多數(shù)行業(yè)術(shù)語、操作指南、法律法規(guī)以英語制定,這意味著在該領(lǐng)域內(nèi),英語作為源語言的翻譯任務(wù)(即E2C)能夠直接利用已標(biāo)準(zhǔn)化的術(shù)語和表達(dá)。這種規(guī)約性的存在,為機(jī)器翻譯模型訓(xùn)練提供了豐富的英文輸入,助力提升模型對(duì)專業(yè)術(shù)語和固定表達(dá)的識(shí)別與翻譯能力;其次,英語作為主要的國際交流語言,提供大量的專業(yè)文獻(xiàn)和文本資源,這些資源的廣泛可用性不僅加深了模型對(duì)特定術(shù)語的理解,也增強(qiáng)了模型的語言理解能力和泛化能力。這使得模型即使面對(duì)未曾見過的專業(yè)術(shù)語和表達(dá),也能在其訓(xùn)練數(shù)據(jù)和算法的基礎(chǔ)上,嘗試進(jìn)行識(shí)別和翻譯,從而在概率意義上提供較為準(zhǔn)確的翻譯選項(xiàng)。不過,這種自動(dòng)翻譯仍可能需要人工審核或后處理以確保最終翻譯的準(zhǔn)確性和適應(yīng)度。在機(jī)器翻譯評(píng)估領(lǐng)域,準(zhǔn)確使用術(shù)語對(duì)確保文本語義準(zhǔn)確性和整體翻譯質(zhì)量提升至關(guān)重要,尤其在專業(yè)化翻譯任務(wù)中更是評(píng)價(jià)質(zhì)量的關(guān)鍵。

(二)定性分析

為深入分析各翻譯系統(tǒng)在涉海領(lǐng)域的應(yīng)用效能及顯著差異的潛在原因,本研究選取在E2C和C2E方向上,各翻譯系統(tǒng)F1得分排名前三和后三的測(cè)試?yán)洹;谶@些例句的重復(fù)情況,構(gòu)建可視化網(wǎng)絡(luò)圖,如圖4和圖5所示。

在圖4和圖5中,第一行和第三行區(qū)分了F1得分排名前三和后三中重復(fù)出現(xiàn)的測(cè)試?yán)渚幪?hào),以突出不同翻譯系統(tǒng)中表現(xiàn)最佳和最差的測(cè)試?yán)?。此方法旨在通過聚焦分析與探討具體案例,展現(xiàn)各翻譯系統(tǒng)的優(yōu)勢(shì)和共同挑戰(zhàn),為提升翻譯系統(tǒng)在涉海領(lǐng)域的應(yīng)用效能提供洞見。

1.EC2翻譯方向的案例分析

在E2C方向上,通過分析F1得分前三中重復(fù)的測(cè)試?yán)?,發(fā)現(xiàn)翻譯系統(tǒng)在專業(yè)術(shù)語識(shí)別與語義解析方面表現(xiàn)出一定的能力。例如“voyage charters”(航次租船)、“time charters”(定期租船)、“bareboat charters”(光船租船)、“innocent passage”(無害通過)、“Ro-Ro deck”(滾裝甲板)以及“traffic separation schemes”(分道通航制)等,均被準(zhǔn)確識(shí)別和翻譯。專業(yè)術(shù)語的精確識(shí)別與轉(zhuǎn)換對(duì)保持語義完整性與準(zhǔn)確性至關(guān)重要,這一點(diǎn)在F1評(píng)分結(jié)果中同樣得到充分驗(yàn)證。然而,也發(fā)現(xiàn)一些不足之處,特別是GPT將“flag State”(船旗國)(編號(hào)30)處理為“旗國”,這可能因?yàn)镚PT訓(xùn)練語料中涉及特定領(lǐng)域(特別是涉海領(lǐng)域)專業(yè)術(shù)語的數(shù)據(jù)不足或缺乏充分的上下文信息。觀察到該句話的F1得分(0.897)相對(duì)于其他翻譯系統(tǒng)較低,這一結(jié)果可能與專業(yè)術(shù)語翻譯不準(zhǔn)確有關(guān)聯(lián)。此觀察提示了翻譯過程中專業(yè)術(shù)語準(zhǔn)確性對(duì)于整體翻譯質(zhì)量可能持有關(guān)鍵性影響。

案例分析還顯示,即使是表現(xiàn)較好的翻譯系統(tǒng),處理涉海法律英語中復(fù)雜句式時(shí)仍顯不足。例如,在案例(1)(編號(hào)35)中,“to the extent appropriate”這一修飾語的插入,導(dǎo)致多個(gè)翻譯系統(tǒng)錯(cuò)誤地將“The master, officers and, to the extent appropriate, the crew are fully conversant with and”處理為“船長、高級(jí)船員和船員(在適當(dāng)情況下)完全熟悉并……”,從而影響了句子原意圖的完整傳達(dá)。這一錯(cuò)誤翻譯產(chǎn)生了兩種潛在的解讀:一種是對(duì)所有提及群體做出普遍性限定,另一種是專門針對(duì)船員的限定。這導(dǎo)致法律條文的傳達(dá)產(chǎn)生了歧義,可能會(huì)引起不同的解釋和實(shí)施問題,而原文的意圖是將這一限定條件特定地應(yīng)用于“船員”這一群體,表達(dá)出不同群體可能根據(jù)情況存在不同程度的遵守規(guī)定的要求。

涉海法律因涉及國際性(跨國界)和多轄區(qū)復(fù)雜性,要求專業(yè)術(shù)語和條款翻譯不僅語義準(zhǔn)確,還必須遵循涉海法律的專業(yè)表述,確保不同國家和地區(qū)對(duì)涉海法律體系有統(tǒng)一的理解和應(yīng)用,達(dá)到法律功能對(duì)等。這種準(zhǔn)確性和一致性是促進(jìn)國際海事合作、確保航海安全及在全球范圍內(nèi)有效管理海洋資源的基石。此外,海上活動(dòng)的安全和責(zé)任進(jìn)一步強(qiáng)調(diào)了術(shù)語精確性和法律條款明確界定與傳達(dá)的重要性,確保所有參與方清楚自身權(quán)利和責(zé)任,減少因誤解引發(fā)的風(fēng)險(xiǎn)。因此,開發(fā)涉海領(lǐng)域的術(shù)語自動(dòng)抽取模型尤為關(guān)鍵,此舉旨在確保涉海法律文檔、操作規(guī)范以及安全指導(dǎo)原則等涉海關(guān)鍵信息的準(zhǔn)確傳遞,減少因?qū)I(yè)術(shù)語和法律條款翻譯不當(dāng)而導(dǎo)致的誤解與潛在風(fēng)險(xiǎn),保障國際海事和海洋活動(dòng)的安全、效率及法律法規(guī)遵守。

案例(1)

原文:The master, officers and, to the extent appropriate, the crew are fully conversant with and required to observe the applicable international regulations concerning the safety of life at sea, the prevention of collisions, the prevention, reduction and control of marine pollution, and the maintenance of communications by radio. (來源:《聯(lián)合國海洋公約》)

參考譯文:船長、高級(jí)船員和在適當(dāng)范圍內(nèi)的船員,充分熟悉并須遵守關(guān)于海上生命安全,防止碰撞,防止、減少和控制海洋污染和維持無線電通信所適用的國際規(guī)章。

分析F1得分后三名中的重復(fù)句子發(fā)現(xiàn),這些例句多涉及涉海法律法規(guī),其特點(diǎn)在于密集的專業(yè)術(shù)語、深入的領(lǐng)域知識(shí)和復(fù)雜的法律構(gòu)造,對(duì)翻譯系統(tǒng)的能力提出了較高要求,特別是在理解和表述相關(guān)法律專業(yè)術(shù)語及其所涵蓋的領(lǐng)域知識(shí)方面。例如,在案例(2)(編號(hào)45)中,翻譯系統(tǒng)對(duì)于“able seafarer deck”和“certification of ratings”等專業(yè)術(shù)語及其領(lǐng)域知識(shí)的處理,展示了其在術(shù)語識(shí)別與準(zhǔn)確轉(zhuǎn)換方面的不足,影響整個(gè)句子的意圖傳達(dá)。例如,GPT將其翻譯為“能夠勝任甲板船員工作的最低要求”,而其他系統(tǒng)的翻譯為“合格海員甲板認(rèn)證的強(qiáng)制性最低要求”,均未能準(zhǔn)確捕捉原文意義。

依據(jù)《1987年海員培訓(xùn)、發(fā)證和值班標(biāo)準(zhǔn)國際公約》,“ratings as able seafarer deck”指滿足特定資格、技能和經(jīng)驗(yàn)要求,能在甲板部門擔(dān)任高級(jí)角色(如高級(jí)值班水手)的船員,顯示了從普通船員到高級(jí)值班水手的資質(zhì)等級(jí)差異。“certification”指正式認(rèn)證過程,確保船員資格和能力達(dá)到國際認(rèn)可標(biāo)準(zhǔn)。在參考譯文中,這些原文中的隱含背景信息都得到了明晰化處理,而現(xiàn)有翻譯系統(tǒng)在精確處理這些術(shù)語和領(lǐng)域知識(shí)細(xì)節(jié)上還存在挑戰(zhàn)。

案例(2)

原文:Mandatory minimum requirements for certification of ratings as able seafarer deck. (來源:《1987年海員培訓(xùn)、發(fā)證和值班標(biāo)準(zhǔn)國際公約》)

參考譯文:對(duì)作為高級(jí)值班水手的普通船員發(fā)證的強(qiáng)制性最低要求。

2.C2E翻譯方向的案例分析

在C2E方向上,F(xiàn)1得分前三名中的重復(fù)句子主要涉及海事仲裁和海洋環(huán)境保護(hù)等話題,翻譯系統(tǒng)在處理這些涉海場(chǎng)景中的專業(yè)術(shù)語和法律程序時(shí)展現(xiàn)出較強(qiáng)的能力。例如,“船舶實(shí)時(shí)定位分析”(analysis of real-time positioning of ships)、“海上船舶碰撞動(dòng)態(tài)模擬分析”(dynamic simulation analysis of ship collisions at sea)、“船舶碰撞損害責(zé)任糾紛”(cases of disputes over liability for damage caused by vessel collision)、“海上貨運(yùn)代理合同糾紛”(disputes over contracts for sea freight forwarding)等術(shù)語,都被大部分系統(tǒng)準(zhǔn)確地識(shí)別和翻譯。這類測(cè)試?yán)涞母逨1得分與E2C方向中得分高的句子分析結(jié)果一致,凸顯了正確表達(dá)專業(yè)術(shù)語在提高翻譯質(zhì)量上的重要性。

F1得分后三名中的重復(fù)句集中在航運(yùn)發(fā)展、海洋石油勘探和海商法等專業(yè)領(lǐng)域,文本充斥著如“冷藏艙”(refrigerating chamber)、“冷氣艙”(cool chamber)、“航道整治”(fairway/waterway regulation)、“江海直達(dá)船型”(ship types for sea-river direct shipping)、“數(shù)字航道”(digital fairways/waterways)、“冷藏集裝箱船”(reefer container ships)、“虧艙費(fèi)”(dead freight)等一系列的專業(yè)術(shù)語。在處理這些專業(yè)術(shù)語時(shí),多數(shù)系統(tǒng)未能充分體現(xiàn)術(shù)語的精確含義,導(dǎo)致文本語義傳達(dá)出現(xiàn)嚴(yán)重偏差。例如,“虧艙費(fèi)”這一專業(yè)術(shù)語被不同系統(tǒng)翻譯為“shortage freight”(Google)、“l(fā)oss of space”(DeepL)、“demurrage”(百度翻譯、有道翻譯),表述各異。在專業(yè)且嚴(yán)謹(jǐn)?shù)纳婧nI(lǐng)域,這種術(shù)語的不精確使用顯著阻礙了行業(yè)內(nèi)的交流與溝通,增加了誤解和潛在風(fēng)險(xiǎn)。

此外,這些句子還涉及復(fù)雜的海商法條款。案例(3)(編號(hào)19)討論海商法中關(guān)于航海操作過程中責(zé)任和準(zhǔn)備工作的規(guī)定,從句式結(jié)構(gòu)上也展現(xiàn)了涉海法律文本在邏輯、專業(yè)術(shù)語方面的特點(diǎn)。分析發(fā)現(xiàn),大多數(shù)翻譯系統(tǒng)傾向于簡(jiǎn)化內(nèi)容,犧牲了涉海法律文本的嚴(yán)謹(jǐn)性和正式性。例如,“適拖”(tow-worthy)和“被拖物適合拖航的證書”(certificate of tow-worthiness)被通俗化為“ensure the towed object is in a condition/state suitable for towing/towage”“relevant certificates and documents issued by relevant inspection agencies indicating that the towed object is suitable for towing/towage.”,影響法律效力。對(duì)于涉海法律文件的翻譯,需要字字斟酌,以求譯文措辭準(zhǔn)確,力求具有與原文相差無幾的法律效應(yīng)。[14]相對(duì)而言,在追求法律文本的正式性與精確性方面,文心一言的處理顯得過于刻板,尤其是在其對(duì)“被拖物”一詞的處理上。通過四次冗余地使用“the object to be towed”進(jìn)行表述,違背了涉海法律翻譯應(yīng)遵循的精確性和經(jīng)濟(jì)性原則。

案例(3)

原文:被拖方在起拖前和起拖當(dāng)時(shí),應(yīng)當(dāng)做好被拖物的拖航準(zhǔn)備,謹(jǐn)慎處理,使被拖物處于適拖狀態(tài),并向承拖方如實(shí)說明被拖物的情況,提供有關(guān)檢驗(yàn)機(jī)構(gòu)簽發(fā)的被拖物適合拖航的證書和有關(guān)文件。(來源:《中華人民共和國海商法》)

參考譯文:The tow party shall, before and at the beginning of the towage, make all necessary preparations therefor and shall exercise due diligence to make the object to be towed tow-worthy and shall give a true account of the object to be towed and provide the certificate of tow-worthiness and other documents issued by the relevant survey and inspection organizations.

E2C和C2E方向的案例分析表明,如TranSmart和文心一言等現(xiàn)代翻譯系統(tǒng)在涉海文本處理上已取得顯著進(jìn)步,在識(shí)別和精確翻譯通用術(shù)語及解析語境方面,體現(xiàn)了對(duì)專業(yè)知識(shí)的深刻洞察。然而,分析也指出這些翻譯系統(tǒng)在處理特定法律文本時(shí)遇到的挑戰(zhàn),特別是在精確識(shí)別和翻譯涉海專業(yè)術(shù)語方面存在的困難,直接影響了語義的準(zhǔn)確傳遞,成為制約機(jī)器翻譯在涉海法律領(lǐng)域中有效應(yīng)用的主要障礙。開發(fā)涉海領(lǐng)域的術(shù)語自動(dòng)抽取模型,可以顯著解決這一問題,整體提升翻譯質(zhì)量,增強(qiáng)機(jī)器翻譯在該領(lǐng)域的應(yīng)用效能。

四、結(jié)語

在涉海專業(yè)領(lǐng)域,高質(zhì)量的機(jī)器翻譯服務(wù)至關(guān)重要,它不僅可以為專業(yè)人士提供便捷,還能夠促進(jìn)全球海事、海洋科學(xué)以及相關(guān)領(lǐng)域的知識(shí)共享和國際合作。本研究通過應(yīng)用BLEU、chrF++以及BERTScore 3種評(píng)估指標(biāo),對(duì)國內(nèi)外多個(gè)主流機(jī)器翻譯系統(tǒng)及人工智能助手(翻譯功能)在涉海文本中的應(yīng)用效能進(jìn)行綜合評(píng)估。結(jié)果表明:(1)在識(shí)別和翻譯通用術(shù)語以及解析語境、語義方面,各翻譯系統(tǒng)均表現(xiàn)出較好的性能,譯文準(zhǔn)確性和流暢性達(dá)到了可接受水平,能夠在一定程度上提升涉海文本翻譯的效率,例如與航運(yùn)發(fā)展、海洋文化、海洋歷史、海洋環(huán)境相關(guān)的文本;(2)在翻譯方向方面,各系統(tǒng)在E2C方向上的應(yīng)用效能優(yōu)于C2E方向,這一現(xiàn)象可能源于英語作為涉海領(lǐng)域的通用語言,在專業(yè)領(lǐng)域內(nèi)擁有較為統(tǒng)一和廣泛認(rèn)可的術(shù)語和表達(dá)體系,當(dāng)從英語翻譯到中文時(shí),系統(tǒng)能夠直接借鑒這些標(biāo)準(zhǔn)化的專業(yè)用語和表述,較為準(zhǔn)確地進(jìn)行術(shù)語和固定句式表達(dá)的識(shí)別、匹配和轉(zhuǎn)換;(3)在翻譯質(zhì)量方面,各系統(tǒng)之間存在顯著差異,文心一言和TranSmart在E2C和C2E兩個(gè)翻譯方向的多項(xiàng)評(píng)估指標(biāo)上表現(xiàn)較為優(yōu)異,其輸出的譯文僅需輕度的譯后編輯即可達(dá)到使用標(biāo)準(zhǔn),而GPT在兩個(gè)翻譯方向的三項(xiàng)指標(biāo)上均是表現(xiàn)最差的,與其他系統(tǒng)相比,應(yīng)用效能差距顯著。(4)在處理專業(yè)領(lǐng)域知識(shí)密集型、術(shù)語精確度要求高及邏輯結(jié)構(gòu)嚴(yán)密的文本方面,特別是涉及海事法律法規(guī)的文本,即使是性能最優(yōu)的翻譯系統(tǒng)也遭遇嚴(yán)峻挑戰(zhàn),這一情況在EC2和C2E兩個(gè)翻譯方向上均顯著。

本研究針對(duì)機(jī)器翻譯技術(shù)在涉海領(lǐng)域的未來發(fā)展與應(yīng)用提出兩個(gè)建議。首先,翻譯系統(tǒng)開發(fā)者應(yīng)深度剖析在多系統(tǒng)評(píng)估中普遍表現(xiàn)不佳的測(cè)試案例,這有助于改善翻譯模型在處理與解析專業(yè)術(shù)語和領(lǐng)域知識(shí)時(shí)的局限;其次,術(shù)語具有認(rèn)知、語言、傳播三個(gè)維度,分別指向的是概念知識(shí)體系、術(shù)語話語體系和受眾傳播體系,[15]學(xué)界和業(yè)界應(yīng)重視涉海垂直領(lǐng)域語料庫的構(gòu)建,[16]融合大語言模型與高質(zhì)量領(lǐng)域標(biāo)注數(shù)據(jù)集,開發(fā)涉海領(lǐng)域的術(shù)語自動(dòng)抽取模型,以顯著提升術(shù)語識(shí)別、翻譯和傳播的精確度,這對(duì)于提高翻譯系統(tǒng)在涉海領(lǐng)域的應(yīng)用效能,增強(qiáng)涉海領(lǐng)域中的跨語言交流和話語體系建構(gòu)極為關(guān)鍵。未來的研究將包括擴(kuò)展測(cè)試集的規(guī)模與多樣性,開發(fā)更全面、精確的評(píng)估指標(biāo),專注于構(gòu)建涉海領(lǐng)域的術(shù)語自動(dòng)抽取模型,進(jìn)一步促進(jìn)機(jī)器翻譯在涉海領(lǐng)域的集成與應(yīng)用。

參考文獻(xiàn):

[1] Papineni K, Roukos S, Ward T, & Zhu W J. BLEU: a method for automatic evaluation of machine translation[A]. In Isabelle, P. et al. (eds.). Proceedings of the 40th Annual Meeting on Association for Computational Linguistics[C]. Philadelphia, USA: Association for Computational Linguistics, 2002: 311-318.

[2] Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments[A]. In Goldstein, J. et al. (eds.). Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization[C]. Michigan, USA: Association for Computational Linguistics, 2005: 65-72.

[3] Popovic′ M. chrF: character n-gram F-score for automatic MT evaluation[A]. In Bojar, O. et al. (eds.). Proceedings of the tenth Workshop on Statistical Machine Translation[C]. Lisbon, Portugal: Association for Computational Linguistics, 2015: 392-395.

[4] Popovic′ M. chrF++: words helping character n-grams[A]. In Bojar, O. et al. (eds.). Proceedings of the Second Conference on Machine Translation[C]. Copenhagen, Denmark: Association for Computational Linguistics, 2017: 612-618.

[5] Zhang T, Kishore V, Wu F, Weinberger K Q, & Artzi Y. BERTScore: evaluating text generation with BERT[A]. Proceedings of the eighth International Conference on Learning Representations[C]. Online: Association for the Advancement of Artificial Intelligence (AAAI), 2020: 1-43.

[6] Rei R, Stewart C, Farinha A C, & Lavie A. COMET: a neural framework for MT evaluation[A]. In Webber, B. et al. (eds.). Proceedings of the 2020 conference on Empirical Methods in Natural Language Processing (EMNLP)[C]. Online: Association for Computational Linguistics, 2020: 2685-2702.

[7] Sellam T, Das D, & Parikh A. BLEURT: learning robust metrics for text generation[A]. In Jurafsky, D. (eds.). Proceedings of the 58th annual meeting of the Association for Computational Linguistics[C]. Online: Association for Computational Linguistics, 2020: 7881-7892.

[8] Callison-Burch C, Osborne M, & Koehn P. Re-evaluating the role of BLEU in machine translation research[A]. In McCarthy, D., & Wintner, S. (eds.). Proceedings of the 11th conference of the European Chapter of the Association for Computational Linguistics[C]. Trento, Italy: Association for Computational Linguistics, 2006: 249-256.

[9] Perreault W D. Controlling order-effect bias[J]. The Public Opinion Quarterly, 1975, 39(4): 544-551.

[10] Shapiro S S, Wilk M B. An analysis of variance test for normality (complete samples) [J]. Biometrika, 1965, 52(3/4): 591-611.

[11] Kruskal W, Wallis W A. Use of ranks in one-criterion variance analysis[J]. Journal of the American Statistical Association, 1952, 47: 583-621.

[12] Dinno A. Nonparametric pairwise multiple comparisons in independent groups using Dunn's test[J]. The Stata Journal, 2015, 15(1): 292-300.

[13] Dunn O J. Multiple comparisons among means[J]. Journal of the American Statistical Association, 1961, 56(293): 52-64.

[14] 任東升, 白佳玉. 涉海法律英語翻譯[M]. 青島: 中國海洋大學(xué)出版社, 2015.

[15] 高玉霞, 任東升. 中國海洋政治話語翻譯語料庫的建構(gòu)與研發(fā)[J]. 中國海洋大學(xué)學(xué)報(bào) (社會(huì)科學(xué)版), 2020(6): 107-116.

[16] Zhang Y, Liu S. The maritime domain-specific corpus: compilation and application[J]. Pedagogika-Pedagogy, 2023, 95(5s): 139-156.

Evaluating the Application Efficacy of Machine Translation in Maritime Contexts: A Rigorous Evaluation via BLEU, chrF++, and BERTScore Metrics

Liu Shijie

(College of Foreign Languages, Shanghai Maritime University, Shanghai 201306, China)

Abstract: The advent of deep learning technologies and generative artificial intelligence has catalyzed a qualitative shift in the machine translation landscape, forging novel avenues for advancement in this arena. This investigation endeavors to conduct a comprehensive evaluation of the application efficacy of machine translation within the maritime sector, set against a backdrop of diverse technological and algorithmic frameworks. To this end, a curated test dataset comprising 100 emblematic bilingual (Chinese-English) sentences pertinent to maritime contexts was developed. Leveraging the unique linguistic structural nuances of maritime texts, three automatic evaluation metrics-BLEU, chrF++, and BERTScore-were employed to facilitate both quantitative and qualitative analyses of translations rendered by AI assistants ChatGPT (4.0) and ERNIE Bot (4.0), alongside six leading translation engines: Google Translate, Microsoft Translator, DeepL Translate, Tencent TranSmart, Baidu Translate, and Youdao Translate. The findings of this study not only furnish empirical evidence underpinning the application efficacy of machine translation systems within the maritime domain but also elucidate considerations for algorithmic refinement and translation precision enhancement for machine translation technology developers. Moreover, this research proffers a pragmatic blueprint for maritime professionals in the selection of apt translation systems.

Key words: maritime translation; application efficacy of machine translation; BERTScore; BLEU; chrF++

責(zé)任編輯:王 曉

收稿日期:2024-02-23

基金項(xiàng)目:國家社會(huì)科學(xué)基金項(xiàng)目“海洋強(qiáng)國視域下海事語言標(biāo)準(zhǔn)化及國際海事話語研究”(21BYY017);2023年教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目“基于海事語言數(shù)據(jù)的人才培養(yǎng)實(shí)踐條件與實(shí)踐基地建設(shè)研究”(230801549211644);上海海事大學(xué)2022年研究生拔尖創(chuàng)新人才培養(yǎng)項(xiàng)目“基于深度學(xué)習(xí)的海事領(lǐng)域術(shù)語自動(dòng)抽取及分析研究”(2022YBR020)

作者簡(jiǎn)介:劉世界(1994- ),男,河南永城人,上海海事大學(xué)外國語學(xué)院博士研究生,專業(yè)方向?yàn)楹J滦g(shù)語自動(dòng)抽取與文本挖掘、計(jì)量語料庫語言學(xué)(QCL)、翻譯技術(shù)。