劉 媛, 李茂西, 羅 琪, 李易函
(1.江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2.江西開放大學(xué) 智能技術(shù)學(xué)院,江西 南昌 330046;3.江西師范大學(xué) 管理科學(xué)與工程,江西 南昌 330022;4.江西師范大學(xué) 圖書館,江西 南昌 330022;5.南京航空航天大學(xué) 自動(dòng)化學(xué)院,江蘇 南京 210000)
機(jī)器譯文自動(dòng)評(píng)價(jià)(Automatic Evaluation of Machine Translation)是指通過度量機(jī)器譯文與參考譯文的相似程度或偏離程度實(shí)現(xiàn)對(duì)機(jī)器譯文質(zhì)量的評(píng)價(jià),進(jìn)一步實(shí)現(xiàn)系統(tǒng)級(jí)別翻譯質(zhì)量的評(píng)價(jià),機(jī)器翻譯系統(tǒng)開發(fā)人員通過評(píng)價(jià)結(jié)果獲知機(jī)器譯文質(zhì)量,從而有針對(duì)性地對(duì)翻譯系統(tǒng)進(jìn)行改進(jìn)[1-4]。無需人工參考譯文,僅使用源語言句子和機(jī)器譯文進(jìn)行評(píng)價(jià)的方法稱為譯文質(zhì)量估計(jì)(Quality Estimation),其在研究方法上與譯文自動(dòng)評(píng)價(jià)差異較大。本文主要針對(duì)機(jī)器譯文自動(dòng)評(píng)價(jià)進(jìn)行綜述和討論。根據(jù)評(píng)價(jià)者的不同,機(jī)器譯文評(píng)價(jià)方法可分為人工評(píng)價(jià)和自動(dòng)評(píng)價(jià)。人工評(píng)價(jià)盡管比較準(zhǔn)確,但評(píng)價(jià)周期長、費(fèi)用高且不客觀。自BLEU[5]等機(jī)器譯文自動(dòng)評(píng)價(jià)指標(biāo)被提出以來,譯文自動(dòng)評(píng)價(jià)方法因其評(píng)價(jià)周期短、速度快、成本低等優(yōu)點(diǎn)被大規(guī)模應(yīng)用于機(jī)器譯文質(zhì)量的評(píng)價(jià),因此機(jī)器譯文自動(dòng)評(píng)價(jià)對(duì)推動(dòng)機(jī)器翻譯的發(fā)展發(fā)揮著重要作用。
早期的譯文自動(dòng)評(píng)價(jià)方法根據(jù)機(jī)器譯文與參考譯文的詞形相似程度評(píng)價(jià)譯文質(zhì)量[5-7],如基于n元文法匹配的方法和基于編輯距離的方法?;趎元文法匹配的方法計(jì)算機(jī)器譯文和參考譯文之間不同長度詞語片段的匹配程度,如BLEU[5]、NIST[8]和ROUGE[9]等;基于編輯距離的方法計(jì)算將機(jī)器譯文轉(zhuǎn)換為參考譯文所需編輯次數(shù)的比例,如單詞錯(cuò)誤率WER[10]和翻譯錯(cuò)誤率TER[11]等。此外,一些學(xué)者提出基于語言學(xué)檢測(cè)點(diǎn)的方法,該類方法根據(jù)構(gòu)建的語言學(xué)檢測(cè)點(diǎn)對(duì)譯文相應(yīng)部分進(jìn)行打分[12],如Woodpecker[13]等。隨著人工智能的發(fā)展,基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法采用機(jī)器學(xué)習(xí)的“特征工程+任務(wù)建?!狈妒綄?duì)譯文質(zhì)量進(jìn)行評(píng)價(jià)[14-16],由人工指定影響譯文質(zhì)量的各類特征,使用支持向量機(jī)等傳統(tǒng)機(jī)器學(xué)習(xí)算法預(yù)測(cè)機(jī)器譯文質(zhì)量,如BEER[17]、BLEND[18]等。
傳統(tǒng)自動(dòng)評(píng)價(jià)方法使用詞法、句法和淺層語義知識(shí)進(jìn)行譯文評(píng)價(jià)。嚴(yán)格使用詞形進(jìn)行匹配的方法很難準(zhǔn)確評(píng)價(jià)包含詞序變化和一詞多義語言現(xiàn)象的譯文的質(zhì)量;而使用句法和淺層語義知識(shí)進(jìn)行匹配的方法需要額外的語言學(xué)分析工具或特定的語言資源,這些語言學(xué)分析工具和資源與語言種類相關(guān),很難移植到不同語言種類的譯文上,導(dǎo)致其泛化性差。
近年來,計(jì)算性能的提升和可用數(shù)據(jù)規(guī)模的增加促進(jìn)了神經(jīng)網(wǎng)絡(luò)的發(fā)展與應(yīng)用,大規(guī)模預(yù)訓(xùn)練語言模型可以生成詞語或句子的稠密向量表示,這些向量中蘊(yùn)含豐富的語法、語義信息。因此,基于神經(jīng)網(wǎng)絡(luò)的自動(dòng)評(píng)價(jià)方法能有效根據(jù)語義評(píng)價(jià)機(jī)器譯文的質(zhì)量,并且泛化性好,已成為當(dāng)前主流的研究方向。本文對(duì)基于神經(jīng)網(wǎng)絡(luò)的自動(dòng)評(píng)價(jià)方法作詳細(xì)闡述,根據(jù)評(píng)價(jià)方式不同將其分為基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡(luò)的方法,如圖1所示。
圖1 基于神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法分類一覽圖
基于表征匹配的機(jī)器譯文自動(dòng)評(píng)價(jià)方法將機(jī)器譯文和參考譯文映射到高維空間,以詞語級(jí)別向量或句子級(jí)別向量的形式作為機(jī)器譯文和參考譯文的詞或句的表征進(jìn)行匹配,實(shí)現(xiàn)語義匹配度評(píng)估。根據(jù)表征是否含上下文語境信息將其進(jìn)一步分為基于靜態(tài)表征匹配的方法和基于動(dòng)態(tài)表征匹配的方法,基于靜態(tài)表征匹配的方法使用靜態(tài)預(yù)訓(xùn)練模型獲取表征,基于動(dòng)態(tài)表征匹配的方法使用含上下文語境信息的表征。
基于端到端神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法使用神經(jīng)網(wǎng)絡(luò)提取句子的深層語義信息,將深層語義信息進(jìn)行回歸計(jì)算得到質(zhì)量分?jǐn)?shù)。本文將基于端到端神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法進(jìn)一步分為基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡(luò)的方法、基于“預(yù)訓(xùn)練+微調(diào)”范式端到端神經(jīng)網(wǎng)絡(luò)的方法和基于其他形式端到端神經(jīng)網(wǎng)絡(luò)的方法。
本文第1節(jié)、第2節(jié)分別詳細(xì)介紹基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡(luò)的方法,第3節(jié)介紹相關(guān)的評(píng)測(cè)活動(dòng)WMT自動(dòng)評(píng)價(jià)任務(wù)及常用性能評(píng)價(jià)指標(biāo),最后對(duì)未來的研究方向和發(fā)展趨勢(shì)進(jìn)行展望。
基于表征匹配的機(jī)器譯文自動(dòng)評(píng)價(jià)方法將詞或句映射到高維空間,計(jì)算參考譯文與機(jī)器譯文詞語級(jí)別表征匹配程度或句子級(jí)別表征匹配程度,實(shí)現(xiàn)語義層面的質(zhì)量評(píng)價(jià),提升評(píng)價(jià)準(zhǔn)確性。根據(jù)表征是否含上下文語境信息,將其分為基于靜態(tài)表征匹配的方法和基于動(dòng)態(tài)表征匹配的方法。
基于靜態(tài)表征匹配的方法使用靜態(tài)預(yù)訓(xùn)練的詞向量GloVe或Word2Vec等獲取詞表征,計(jì)算機(jī)器譯文和參考譯文中詞表征的匹配相似度或偏離程度,或?qū)⒃~表征加工為句級(jí)表征后計(jì)算其匹配程度。根據(jù)用于匹配的表征粒度不同將其分為基于詞語級(jí)別靜態(tài)表征匹配的方法和基于句子級(jí)別靜態(tài)表征匹配的方法。
1.1.1 基于詞語級(jí)別靜態(tài)表征匹配的方法
基于詞語級(jí)別靜態(tài)表征匹配的方法使用靜態(tài)預(yù)訓(xùn)練詞表征生成模型獲取機(jī)器譯文和參考譯文的詞表征,然后計(jì)算二者的匹配程度。貪心匹配法[19]計(jì)算機(jī)器譯文中所有詞表征與參考譯文中詞表征的最大匹配余弦相似度、參考譯文中所有詞表征與機(jī)器譯文中詞表征的最大匹配余弦相似度,取二者均值作為評(píng)價(jià)分?jǐn)?shù),如式(1)~式(3)所示。
為了將淺層語義分析與語義匹配相結(jié)合,MEANT[20]使用語義角色標(biāo)注給詞或片段標(biāo)注其在句子中的角色標(biāo)簽,通過測(cè)量機(jī)器譯文和參考譯文的語義框架與角色填充物的相似度評(píng)估翻譯的充分度。MEANT 2.0[21]在MEANT工作的基礎(chǔ)上引入詞頻加權(quán),賦予實(shí)詞比功能詞更高的權(quán)重,并通過計(jì)算n元詞表征匹配相似度實(shí)現(xiàn)在評(píng)價(jià)時(shí)關(guān)注詞序信息。MEE[22]分別對(duì)機(jī)器譯文和參考譯文進(jìn)行精準(zhǔn)詞形匹配(Exact Match)、根匹配(Root Match)和近義匹配(Synonym Match),其中精準(zhǔn)詞形匹配為機(jī)器譯文和參考譯文的詞形匹配數(shù),根匹配和近義匹配設(shè)定匹配閾值,計(jì)算機(jī)器譯文和參考譯文的FastText詞表征匹配相似度,FastText詞表征指Facebook于2016年開源的詞向量計(jì)算工具生成的詞表征。根據(jù)匹配相似度所在的閾值空間判定其所屬匹配類型。最終將以上三個(gè)匹配模塊的F值加權(quán)平均為評(píng)價(jià)分?jǐn)?shù)。不同于上述基于機(jī)器譯文和參考譯文的相似程度的質(zhì)量評(píng)價(jià)方法,基于偏離程度的方法如詞移距離WMD[23]計(jì)算機(jī)器譯文與參考譯文詞表征的最小匹配歐氏距離。
1.1.2 基于句子級(jí)別靜態(tài)表征匹配的方法
基于句子級(jí)別靜態(tài)表征匹配的方法將機(jī)器譯文和參考譯文的詞表征使用平均池化或其他處理方式加工為句子級(jí)別表征,然后計(jì)算句子級(jí)別表征間的相似程度。
如圖2所示,平均詞向量自動(dòng)評(píng)價(jià)指標(biāo)(Embedding Average Metric)[24]使用平均池化分別將機(jī)器譯文和參考譯文中的詞表征加工為句子級(jí)別表征,計(jì)算句子級(jí)別表征的余弦相似度。為了增強(qiáng)句子級(jí)別向量的表征能力,極值向量(Vector Extrem)[25]沿維度取所有詞表征的最大值或最小值作為句子級(jí)別表征的各維度值。Chen等人[26]提出分別基于獨(dú)熱表征、分布式詞表征、RAE句子表征或上述三種表征的組合的譯文自動(dòng)評(píng)價(jià)方法,并在此基礎(chǔ)上提出將句子級(jí)別自動(dòng)評(píng)價(jià)的評(píng)分加權(quán)求和為篇章級(jí)別評(píng)分[27]。其中,RAE句子表征為使用貪心無監(jiān)督遞歸自編碼器策略(Recursive Auto-Encoder, RAE)生成的分布式句子表征。
圖2 平均詞向量自動(dòng)評(píng)價(jià)方法圖
相比僅根據(jù)詞形進(jìn)行評(píng)價(jià)的基于n元文法匹配的方法,基于靜態(tài)表征匹配的方法在一定程度上實(shí)現(xiàn)根據(jù)語義進(jìn)行評(píng)價(jià)。但靜態(tài)表征獨(dú)立于上下文,無法獲取上下文語境信息,故基于靜態(tài)表征匹配的方法存在無法結(jié)合語境信息進(jìn)行譯文質(zhì)量評(píng)價(jià)的不足。
針對(duì)基于靜態(tài)表征匹配的方法中靜態(tài)表征無法獲知上下文語境信息這一問題,基于動(dòng)態(tài)表征匹配的自動(dòng)評(píng)價(jià)方法使用基于上下文語境的詞表征獲取語境信息。根據(jù)所采用的表征的粒度不同將其分為基于詞語級(jí)別動(dòng)態(tài)表征匹配的方法和基于句子級(jí)別動(dòng)態(tài)表征匹配的方法。
1.2.1 基于詞語級(jí)別動(dòng)態(tài)表征匹配的方法
基于詞語級(jí)別動(dòng)態(tài)表征匹配的自動(dòng)評(píng)價(jià)方法計(jì)算機(jī)器譯文和參考譯文含語境信息的詞向量的匹配相似度。如圖3所示,BERTScore[28]用BERT模型生成上下文語境詞表征,計(jì)算參考譯文中詞表征r與機(jī)器譯文中詞表征t的最大匹配余弦相似度,計(jì)算召回率RBERTScore和準(zhǔn)確率PBERTScore,進(jìn)一步計(jì)算F值FBERTScore作為評(píng)價(jià)分?jǐn)?shù),如式(4)~式(6)所示。
圖3 BERTScore機(jī)器譯文自動(dòng)評(píng)價(jià)方法示意圖
Mathur等人提出的BERTr[29]與BERTScore類似,但僅使用召回率作為評(píng)價(jià)分?jǐn)?shù),方法簡單有效。BERTScore采用詞表征間一對(duì)一的匹配余弦相似度,然而句子對(duì)中的詞還存在一對(duì)多關(guān)系,出于對(duì)該語言現(xiàn)象的考慮,Zhao等人提出的MoverScore[30]計(jì)算n元詞組上下文語境詞表征的歐氏距離。由于對(duì)不同翻譯難度的句子的翻譯能力可以反映翻譯系統(tǒng)的質(zhì)量,Zhan等人提出的DA-BERTScore[31]將翻譯難度引入BERTScore,賦予更難翻譯的詞以更高的評(píng)價(jià)權(quán)重,增加其對(duì)評(píng)價(jià)結(jié)果的影響。評(píng)判翻譯難度的方法為機(jī)器譯文與參考譯文的詞表征最大匹配余弦相似度越低,則翻譯該詞的難度越大,故賦予其更高的難度系數(shù)。最后將難度系數(shù)作為最大匹配余弦相似度的權(quán)重參與到F值的計(jì)算,該方法能有效對(duì)性能相近的優(yōu)秀翻譯系統(tǒng)進(jìn)行質(zhì)量排名。Vernikos等人提出的Doc-BERTScore[32]將BERTScore擴(kuò)展為篇章級(jí)別自動(dòng)評(píng)價(jià),該方法將譯文與該條譯文的上下文一起輸入BERT模型進(jìn)行編碼,使譯文表征獲得篇章級(jí)別上下文信息,然后以單條句子為單位進(jìn)行評(píng)分,評(píng)分方法與BERTScore的評(píng)分方法相同。
1.2.2 基于句子級(jí)別動(dòng)態(tài)表征匹配的方法
基于句子級(jí)別動(dòng)態(tài)表征匹配的方法計(jì)算機(jī)器譯文與參考譯文含語境信息的句子表征的匹配程度。Wieting等人提出的SIMILE[33]使用經(jīng)過訓(xùn)練的含軟注意力機(jī)制的編碼器[34]生成機(jī)器譯文和參考譯文的句子表征,計(jì)算二者的余弦相似度,并引入長度懲罰因子以懲罰機(jī)器譯文與參考譯文長度相差過大的場(chǎng)景。長度懲罰因子LP計(jì)算如式(7)所示。
(7)
其中,|r|指參考譯文的長度,|t|指機(jī)器譯文的長度。
目前,世界上只有英德、英漢等少數(shù)語言對(duì)有豐富的語料資源,大多數(shù)語言對(duì)的語料資源匱乏。YiSi系列評(píng)價(jià)指標(biāo)[35]根據(jù)可獲得的語料資源規(guī)模不同設(shè)計(jì)對(duì)應(yīng)的自動(dòng)評(píng)價(jià)指標(biāo)。其中,YiSi-0適用于低資源語言,計(jì)算機(jī)器譯文和參考譯文的最長公共子字符串;YiSi-1計(jì)算使用BERT生成的上下文詞表征的匹配余弦相似度,可自由選擇是否使用語義角色標(biāo)注獲取淺層語義結(jié)構(gòu)信息;YiSi-2適用于無參考譯文的評(píng)價(jià)場(chǎng)景,該方法使用跨語種詞表征生成模型獲取源語言句子和機(jī)器譯文的跨語種詞表征,然后計(jì)算二者的余弦相似度,可自由選擇是否使用語義角色標(biāo)注。
近年來,跨語種的表征生成模型技術(shù)取得長足進(jìn)步,一些學(xué)者使用XLM[36]等跨語種表征生成模型獲取源語言句子和機(jī)器譯文在同一語義空間內(nèi)詞語級(jí)別或句子級(jí)別的表征,對(duì)比源語言句子和機(jī)器譯文在同一高維空間的語義相似度。Song等人提出的SentSim[37]首先獲取基于源語言句子和機(jī)器譯文的跨語種詞語級(jí)別表征和句子級(jí)別表征,然后計(jì)算上述表征的詞移距離、句移距離、BERTScore分?jǐn)?shù)和句級(jí)余弦相似度,從詞移距離和句移距離中選其一與BERTScore分?jǐn)?shù)、句級(jí)余弦相似度加權(quán)求和得到句子評(píng)分?;诳缯Z種預(yù)訓(xùn)練表征生成模型的LaBSE[38]文本相似度分?jǐn)?shù)雖然性能優(yōu)良,但所需的GPU等硬件資源開銷大且模型復(fù)雜,Han等人提出的cushLEPOR[39]模型使用知識(shí)蒸餾學(xué)習(xí)LaBSE模型內(nèi)部映射方式,用較低的資源開銷實(shí)現(xiàn)接近LaBSE模型的性能。
基于表征匹配的機(jī)器譯文自動(dòng)評(píng)價(jià)方法計(jì)算機(jī)器譯文與參考譯文的表征匹配程度,在一定程度上實(shí)現(xiàn)語義層面的評(píng)價(jià),該類方法依托預(yù)訓(xùn)練表征生成模型,隨著多語種預(yù)訓(xùn)練表征生成模型技術(shù)的成熟,基于表征匹配的方法展現(xiàn)了較強(qiáng)的魯棒性與易用性。
基于端到端神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法使用神經(jīng)網(wǎng)絡(luò)提取深層語義信息,使用深層語義信息預(yù)測(cè)譯文質(zhì)量,根據(jù)神經(jīng)網(wǎng)絡(luò)架構(gòu)不同將其分為基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡(luò)的方法、基于“預(yù)訓(xùn)練+微調(diào)”范式端到端神經(jīng)網(wǎng)絡(luò)的方法和基于其他形式端到端神經(jīng)網(wǎng)絡(luò)的方法。
基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡(luò)的自動(dòng)評(píng)價(jià)方法構(gòu)建神經(jīng)網(wǎng)絡(luò)提取譯文的深層語義信息后預(yù)測(cè)譯文質(zhì)量分?jǐn)?shù)。圖4為Shimanaka等人提出的RUSE[40]自動(dòng)評(píng)價(jià)方法的結(jié)構(gòu)圖。RUSE分別使用InferSent、Quick-Thought和Universal Sentence Encoder三種預(yù)訓(xùn)練句子表征生成模型生成參考譯文和機(jī)器譯文的句子級(jí)別表征,用啟發(fā)式方法將句子表征組合后輸入多層感知機(jī)(MLP)進(jìn)行回歸計(jì)算評(píng)分,如式(8)、式(9)所示。
Mathur等人提出BiLSTM+attention模型[29],將詞向量輸入BiLSTM獲取上下文語境信息,使用跨句注意力機(jī)制獲取機(jī)器譯文和參考譯文的交互信息。此外,Mathur等人提出的ESIMBERT[29]使用自然語言推理中的增強(qiáng)序列推理模型ESIM[41]對(duì)機(jī)器譯文和參考譯文進(jìn)行編碼,使用跨句注意力機(jī)制對(duì)表征加權(quán),并依次通過BiLSTM和池化層獲取局部序列信息與特征信息,最后將加工完成的信息表征輸入前向?qū)宇A(yù)測(cè)譯文質(zhì)量分?jǐn)?shù),如式(10)、式(11)所示。
x=vr,avg⊕vr,max⊕vt,avg⊕vt,max
(10)
ESIMBERT=UTReLU(wTx+b)+b′
(11)
其中,x為拼接完成后的句子增強(qiáng)表征,r表示參考譯文,t表示機(jī)器譯文,vr,avg、vr,max分別指參考譯文的平均池化表征和最大池化表征,U、w、b和b′為通過訓(xùn)練得到的參數(shù)。羅琪等人[42]在Mathur工作的基礎(chǔ)上引入源端信息,使用基于聯(lián)合神經(jīng)網(wǎng)絡(luò)質(zhì)量估計(jì)模型從源語言句子和機(jī)器譯文中提取質(zhì)量向量,將池化后的質(zhì)量向量與ESIMBERT的增強(qiáng)表征拼接后輸入前饋神經(jīng)網(wǎng)絡(luò)中預(yù)測(cè)譯文評(píng)價(jià)分?jǐn)?shù)。Hu等人[43]在羅琪工作的基礎(chǔ)上引入差異特征,使用跨語種預(yù)訓(xùn)練模型XLM將源語言句子、機(jī)器譯文和參考譯文兩兩組成的句子對(duì)映射到同一語義空間,對(duì)比機(jī)器譯文和源語言句子與參考譯文的語義差異。
Rei等人提出的COMET[44-45]含兩類評(píng)價(jià)模型,第一類為分?jǐn)?shù)預(yù)測(cè)模型(Estimator Model),該類模型對(duì)譯文的質(zhì)量評(píng)定分?jǐn)?shù);第二類為排名模型(Translation Ranking Model),該類模型對(duì)譯文質(zhì)量進(jìn)行排名,選出相對(duì)優(yōu)質(zhì)的譯文。首先,COMET使用跨語種預(yù)訓(xùn)練語言模型XLM-RoBERTa分別對(duì)源語言句子、機(jī)器譯文和參考譯文進(jìn)行編碼。由于Tenney等人[46]實(shí)驗(yàn)表明預(yù)訓(xùn)練語言模型中不同層捕獲不同類型的語義信息,且只依據(jù)模型最后一層的輸出評(píng)判譯文質(zhì)量的效果不佳,故COMET使用分層注意力機(jī)制綜合各層生成的不同類型的語義信息,使用平均池化將詞語級(jí)別表征進(jìn)一步處理為句子級(jí)別表征[47],并在模型訓(xùn)練過程中采用層級(jí)dropout[48]提高句子級(jí)別表征能力。
對(duì)于COMET中的分?jǐn)?shù)預(yù)測(cè)模型(Estimator Model),Rei等人使用上述跨語種編碼器分別對(duì)機(jī)器譯文、源語言句子和參考譯文進(jìn)行編碼,并采用類似RUSE中的方式對(duì)句子級(jí)別表征進(jìn)行組合,如式(12)所示。
x=[t;r;t⊙r;t⊙s;|t-r|;|t-s|]
(12)
其中,t為機(jī)器譯文表征,r為參考譯文表征,s為源語言句子表征。將信息表征x輸入前向?qū)舆M(jìn)行回歸評(píng)分,模型訓(xùn)練過程中使用均方誤差作為損失函數(shù)。
對(duì)于COMET中的排序模型(Translation Ranking Model),Rei等人將源語言句子s、參考譯文r、相對(duì)優(yōu)質(zhì)的機(jī)器譯文t+、相對(duì)劣質(zhì)的機(jī)器譯文t-的句子四元組{s,t+,t-,r}輸入跨語種編碼器,然后通過池化層生成四元組的句子級(jí)別信息表征,使用三元組損失函數(shù)(Triplet Loss)優(yōu)化語義空間中句子表征之間的相對(duì)距離,該損失函數(shù)期望優(yōu)化模型使得在最終表征空間內(nèi)相對(duì)優(yōu)質(zhì)的機(jī)器譯文和黃金參考(參考譯文與源語言句子)的距離更近,相對(duì)劣質(zhì)的機(jī)器譯文和黃金參考的距離更遠(yuǎn)。除了分?jǐn)?shù)預(yù)測(cè)模型和排序模型兩個(gè)主要模型,Rei等人還提出了直接對(duì)比源語言句子和機(jī)器譯文的相似度,無需參考譯文的Reference-free COMET、輕量級(jí)的COMET模型COMETINHO[49]。Vernikos等人提出的Doc-COMET[32]將譯文與譯文的上下文拼接后輸入編碼器,將COMET擴(kuò)展為篇章級(jí)別的Doc-COMET譯文評(píng)價(jià)方法。
上述方法均為將含深層語義信息的向量作為神經(jīng)網(wǎng)絡(luò)的輸入,另一類方法為將譯文的各類特征分值作為神經(jīng)網(wǎng)絡(luò)的輸入。REGEMT[50]集成分別基于詞形、句法和語義特征的自動(dòng)評(píng)價(jià)指標(biāo),來提升僅基于單種類型的自動(dòng)評(píng)價(jià)指標(biāo)性能,包括軟余弦相似度、詞移距離和詞性標(biāo)注轉(zhuǎn)換距離,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸評(píng)分。Rony等人提出的RoMe[51]將譯文的語法、句法和語義三個(gè)方面的質(zhì)量得分組合為向量輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸計(jì)算評(píng)分,其中語義分?jǐn)?shù)采用融入了詞對(duì)齊和詞序差異懲罰的基于語義相似度的EMD距離(Earth Mover’s Distance),其中EMD距離可以計(jì)算機(jī)器譯文和參考譯文的偏離程度;句法分?jǐn)?shù)采用經(jīng)過改進(jìn)的語義增強(qiáng)樹編輯距離算法(Tree Edit Distance)[52],計(jì)算機(jī)器譯文和參考譯文的句法結(jié)構(gòu)差異;語法分?jǐn)?shù)采用在CoLA語料庫上訓(xùn)練的二分類器,判定譯文語法是否在可接受范圍內(nèi)。
目前基于“預(yù)訓(xùn)練+微調(diào)”范式的深度學(xué)習(xí)模型被廣泛應(yīng)用于自然語言處理的各個(gè)任務(wù),根據(jù)具體評(píng)價(jià)場(chǎng)景對(duì)包含大量可重用知識(shí)的預(yù)訓(xùn)練模型進(jìn)行微調(diào)的機(jī)器譯文自動(dòng)評(píng)價(jià)模型展現(xiàn)出優(yōu)異的性能。
不同于基于基礎(chǔ)端到端神經(jīng)網(wǎng)絡(luò)的RUSE方法和ESIMBERT方法中將機(jī)器譯文和參考譯文分別輸入BERT模型,用于MTE的BERT[53]將機(jī)器譯文和參考譯文拼接后輸入BERT進(jìn)行編碼,將特殊位置“[CLS]”的向量輸入多層感知機(jī)預(yù)測(cè)譯文質(zhì)量,并通過微調(diào)提升模型性能,如圖5所示。其中,“[SEP]”為句子間的分割符號(hào),“[CLS]”為每對(duì)輸入間的標(biāo)識(shí)符。
圖5 用于MTE的BERT自動(dòng)評(píng)價(jià)方法結(jié)構(gòu)圖
Sellam等人提出的BLEURT[54]使用隨機(jī)擾動(dòng)后的維基百科句子和一組詞匯級(jí)和語義級(jí)的監(jiān)督信號(hào)對(duì)評(píng)價(jià)模型進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練監(jiān)督信息包括: ①BLEU、ROUGE和BERTScore自動(dòng)評(píng)價(jià)指標(biāo)評(píng)價(jià)結(jié)果; ②回譯似然值; ③判斷原句和擾動(dòng)句的三類文本關(guān)系: 蘊(yùn)含、矛盾、中立; ④標(biāo)注擾動(dòng)句是否為原句回譯生成的回譯標(biāo)志。拼接機(jī)器譯文和參考譯文輸入預(yù)訓(xùn)練完成的BERT模型中,取特殊標(biāo)志“[CLS]”位置的向量作為句子表征輸入前向?qū)宇A(yù)測(cè)譯文質(zhì)量分?jǐn)?shù)。Wan等人提出的ROBLEURT[55]在BLEURT的工作基礎(chǔ)上做三處優(yōu)化提升模型的魯棒性: 第一,根據(jù)源語言句子的資源可獲得程度設(shè)計(jì)不同評(píng)價(jià)方式,在源語言句子資源匱乏的的情況下僅拼接機(jī)器譯文和參考譯文作為模型的輸入,在源語言句子資源充沛的情況下拼接源語言句子、機(jī)器譯文和參考譯文作為模型的輸入,使模型在評(píng)價(jià)時(shí)考慮機(jī)器譯文同參考譯文與源語言句子兩者的語義一致性;第二,使用大規(guī)模人工合成數(shù)據(jù)對(duì)模型進(jìn)行持續(xù)性預(yù)訓(xùn)練;第三,使用降噪后的數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。該自動(dòng)評(píng)價(jià)方法結(jié)合單語模型和多語模型,使用“預(yù)訓(xùn)練+微調(diào)”范式進(jìn)行訓(xùn)練,引入遷移學(xué)習(xí),性能較BLEURT有進(jìn)一步提升。
Kane等人提出的NUBIA[56]利用大規(guī)模預(yù)訓(xùn)練語言模型提取譯文深層語義特征,并在提取特征時(shí)使用“預(yù)訓(xùn)練+微調(diào)”范式,該方法的評(píng)價(jià)過程分為三個(gè)步驟: 第一步,分別用RoBERTa STS、RoBERTa MNLI和GPT-2模型抽取句子間的語義相似度、邏輯一致程度和語法正確性三類特征。具體來說,使用STS-B-benchmark數(shù)據(jù)集對(duì)RoBERTa預(yù)訓(xùn)練模型進(jìn)行微調(diào),提取機(jī)器譯文和參考譯文的語義相似度;用RoBERTa在GLUE的MNLI任務(wù)上微調(diào),捕獲機(jī)器譯文和參考譯文的邏輯一致程度;用GPT-2計(jì)算困惑度,以評(píng)判機(jī)器譯文的語法正確性。第二步,將第一步抽取的特征輸入線性回歸模型,預(yù)測(cè)譯文質(zhì)量分?jǐn)?shù)。第三步,將譯文質(zhì)量分?jǐn)?shù)進(jìn)行歸一化。
為了減少硬件資源開銷,提升模型效率,Eddine等人的FrugalScore[57]使用知識(shí)蒸餾構(gòu)建輕量版BERTScore或MoverScore。該自動(dòng)評(píng)價(jià)模型先讓輕量級(jí)預(yù)訓(xùn)練語言模型學(xué)習(xí)高開銷模型的內(nèi)部映射方式,然后在合成數(shù)據(jù)集上繼續(xù)訓(xùn)練該輕量級(jí)預(yù)訓(xùn)練語言模型,最后在人工標(biāo)注的語料上微調(diào)微縮模型。
以上方法均為構(gòu)建神經(jīng)網(wǎng)絡(luò)提取深層語義信息,使用監(jiān)督學(xué)習(xí)方式訓(xùn)練評(píng)價(jià)模型,通過回歸方式預(yù)測(cè)機(jī)器譯文質(zhì)量。近年來,一些新形式的自動(dòng)評(píng)價(jià)模型被陸續(xù)提出,如Thompson和Post提出的Prism[58]使用端到端釋義模型預(yù)測(cè)機(jī)器譯文在對(duì)應(yīng)參考譯文下出現(xiàn)的概率,概率值越大,則機(jī)器譯文的質(zhì)量越高。Vernikos等人提出的Doc-Prism[32]為篇章級(jí)別Prism,該方法將參考譯文與其上下文拼接輸入端到端釋義模型。Krubiński等人提出的MTEQA[59]是首個(gè)基于問答框架的機(jī)器譯文自動(dòng)評(píng)價(jià)指標(biāo),該指標(biāo)的評(píng)價(jià)過程分為兩個(gè)步驟: 第一步,從參考譯文中抽取信息作為答案,并生成相應(yīng)的問題;第二步,使用問答系統(tǒng)根據(jù)機(jī)器譯文生成上一步驟中問題的答案,用字符串比較法計(jì)算依據(jù)機(jī)器譯文而得的答案和依據(jù)參考譯文而得的答案的相似度,對(duì)于同一語段,取所有問題答案對(duì)相似度的平均值作為最終質(zhì)量評(píng)分。
在易用性方面,基于端到端神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法在使用時(shí)需要根據(jù)模型的需求進(jìn)行環(huán)境配置,雖然相關(guān)研究人員對(duì)基于端到端神經(jīng)網(wǎng)絡(luò)展開了大量研究,但當(dāng)前可直接使用的基于端到端神經(jīng)網(wǎng)絡(luò)的自動(dòng)評(píng)價(jià)模型較少,故相比其他方法,該類方法易用性較差,未來應(yīng)當(dāng)對(duì)性能優(yōu)良的端到端神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)模型的易用性提升進(jìn)行深入研究。
機(jī)器譯文自動(dòng)評(píng)價(jià)評(píng)測(cè)活動(dòng)發(fā)布公開的數(shù)據(jù)集、基準(zhǔn)的評(píng)價(jià)方法與譯文的人工評(píng)價(jià)分?jǐn)?shù)或質(zhì)量排名,為不同自動(dòng)評(píng)價(jià)指標(biāo)提供公平比較的平臺(tái),它極大地促進(jìn)了機(jī)器譯文自動(dòng)評(píng)價(jià)的研究與發(fā)展。目前機(jī)器譯文自動(dòng)評(píng)價(jià)評(píng)測(cè)活動(dòng)主要為WMT機(jī)器譯文自動(dòng)評(píng)價(jià)任務(wù)。國內(nèi)的全國機(jī)器翻譯大會(huì)CCMT組織過多次機(jī)器翻譯相關(guān)任務(wù)評(píng)測(cè),包括無需參考譯文的機(jī)器譯文質(zhì)量估計(jì)評(píng)測(cè)活動(dòng)。WMT機(jī)器譯文自動(dòng)評(píng)價(jià)任務(wù)于2008年開始,用于評(píng)測(cè)機(jī)器譯文自動(dòng)評(píng)價(jià)方法的性能表現(xiàn),任務(wù)涵蓋中英、德英、中俄等各類廣泛使用的語言對(duì)和部分低資源語言對(duì)[60-66]。
評(píng)測(cè)活動(dòng)中,為了比較參與評(píng)測(cè)的不同自動(dòng)評(píng)價(jià)方法的優(yōu)劣,一般使用肯德爾相關(guān)系數(shù)度量自動(dòng)評(píng)價(jià)方法打分在句子級(jí)別與人工評(píng)價(jià)的相關(guān)性,使用皮爾遜相關(guān)系數(shù)度量自動(dòng)評(píng)價(jià)方法打分在系統(tǒng)級(jí)別與人工評(píng)價(jià)的相關(guān)性,有時(shí)使用成對(duì)精確度度量在系統(tǒng)級(jí)別自動(dòng)評(píng)價(jià)打分與人工評(píng)價(jià)的相關(guān)性,相關(guān)性越高,表示對(duì)應(yīng)方法越可靠。
(1) 肯德爾相關(guān)系數(shù)τ(Kendall Correlations)通過度量自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)對(duì)譯文質(zhì)量高低排序一致程度衡量自動(dòng)評(píng)價(jià)方法與人工評(píng)價(jià)的相關(guān)性,計(jì)算方法如式(13)所示。
(13)
其中,Concordant指自動(dòng)評(píng)價(jià)方法給人工評(píng)價(jià)打分較高的機(jī)器譯文以較高的分?jǐn)?shù),自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)打分一致;Discordant指給人工評(píng)價(jià)打分較低的機(jī)器譯文以較高的分?jǐn)?shù),自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)打分不一致。
(16)
(3) 成對(duì)精確度(Pairwise Accuracy)用于衡量自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的系統(tǒng)級(jí)別相關(guān)性,計(jì)算方式如式(17)所示。
(17)
其中,自動(dòng)評(píng)價(jià)(Metric)和人工評(píng)價(jià)(Human)分別對(duì)多個(gè)系統(tǒng)進(jìn)行打分,對(duì)于其中任意兩個(gè)系統(tǒng),MetricΔ指自動(dòng)評(píng)價(jià)的評(píng)分差值,HumanΔ指人工評(píng)價(jià)的評(píng)分差值,|AllSystemPairs|指系統(tǒng)對(duì)的總數(shù),通過比較評(píng)分差值是否一致衡量自動(dòng)評(píng)價(jià)與人工評(píng)價(jià)的相關(guān)性。
元評(píng)測(cè)通過計(jì)算自動(dòng)評(píng)價(jià)指標(biāo)評(píng)分與人工評(píng)價(jià)評(píng)分的相關(guān)性度量自動(dòng)評(píng)價(jià)指標(biāo)的性能,故人工評(píng)價(jià)分?jǐn)?shù)的可靠性直接決定了元評(píng)測(cè)是否有效,許多學(xué)者對(duì)元評(píng)測(cè)中的人工評(píng)價(jià)評(píng)分機(jī)制進(jìn)行研究與探索,以期得到更可靠的人工評(píng)分,目前主要的人工評(píng)價(jià)方式為以下四種:
(1)傳統(tǒng)DA人工評(píng)價(jià)(Direct Assessments): 該評(píng)價(jià)機(jī)制采用眾包的方式對(duì)機(jī)器譯文進(jìn)行直接評(píng)分,由于其成本較低,2020年及之前歷屆WMT自動(dòng)評(píng)價(jià)任務(wù)均采用該人工評(píng)價(jià)方式。但近年研究發(fā)現(xiàn),眾包評(píng)分者缺乏專業(yè)翻譯知識(shí),存在對(duì)翻譯中的錯(cuò)誤過于包容、與專家評(píng)分相關(guān)性較低[67]等問題,故2021年WMT自動(dòng)評(píng)價(jià)任務(wù)提出采用MQM評(píng)價(jià)機(jī)制作為人工評(píng)價(jià)分?jǐn)?shù)的評(píng)測(cè)子任務(wù)。
(2)HTER(Human-Mediated Translation Edit Rate)[68]: HTER在翻譯編輯率(TER)的基礎(chǔ)上引入人工注解,讓精通目標(biāo)語言的人工譯員結(jié)合機(jī)器譯文和參考譯文給出一個(gè)新的參考譯文,使用TER算法計(jì)算機(jī)器譯文和新參考譯文的編輯率。其中,翻譯編輯率(TER)為計(jì)算從機(jī)器譯文轉(zhuǎn)換到參考譯文所需的插入、刪除、單詞替換和詞組平移的編輯次數(shù)的比例。
(3)多維度質(zhì)量評(píng)價(jià)機(jī)制MQM(Multidimensional Quality Metric)[69]: Freitag等人的研究顯示[66]傳統(tǒng)眾包DA人工評(píng)價(jià)對(duì)高質(zhì)量機(jī)器譯文的評(píng)價(jià)不可靠,MQM評(píng)價(jià)機(jī)制將翻譯錯(cuò)誤分為不同類型,綜合錯(cuò)誤的次數(shù)及其相應(yīng)權(quán)重對(duì)譯文進(jìn)行評(píng)分,該方法比直接為譯文評(píng)定一個(gè)分?jǐn)?shù)更可靠,2021年WMT自動(dòng)評(píng)價(jià)任務(wù)開始采用MQM評(píng)價(jià)機(jī)制作為黃金參考。MQM評(píng)價(jià)機(jī)制將譯文錯(cuò)誤分為微小錯(cuò)誤(minor)、主要錯(cuò)誤(major)和嚴(yán)重錯(cuò)誤(crit),并賦予不同程度的錯(cuò)誤以不同的權(quán)重,按式(18)計(jì)算譯文評(píng)分,其中,SentenceLength為句子長度,Iminor、Imajor和Icrit分別為微小錯(cuò)誤次數(shù)、主要錯(cuò)誤次數(shù)和嚴(yán)重錯(cuò)誤次數(shù)如式(18)所示。
(18)
(4) 分級(jí)質(zhì)量度量指標(biāo)SQM(the Scalar Quality Metric)[70]: Freitag等人受MQM啟發(fā),將機(jī)器譯文質(zhì)量分為六個(gè)等次,評(píng)價(jià)者在評(píng)分過程中可以看到句子的上下文。其中,質(zhì)量分?jǐn)?shù)為6分時(shí)指語法與語義完全正確;4分為語義基本轉(zhuǎn)述完成,語法錯(cuò)誤較少;2分為未表達(dá)出源語言句子的主要語義;0分為譯文沒有表達(dá)任何源語言句子的信息。
2019年以來,每屆WMT自動(dòng)評(píng)價(jià)指標(biāo)任務(wù)含不同子任務(wù),如2019年和2020年發(fā)布篇章級(jí)自動(dòng)評(píng)價(jià)任務(wù)、2021年新增專家多維度質(zhì)量評(píng)價(jià)機(jī)制MQM作為人工評(píng)價(jià)的子任務(wù),幫助自動(dòng)評(píng)價(jià)研究人員準(zhǔn)確了解自動(dòng)評(píng)價(jià)模型性能、對(duì)比評(píng)價(jià)模型性能。
歷屆WMT自動(dòng)評(píng)價(jià)任務(wù)的評(píng)測(cè)結(jié)果均整理成文并發(fā)表,研究人員可以通過每年的評(píng)測(cè)結(jié)果報(bào)告了解各個(gè)自動(dòng)評(píng)價(jià)方法在該年評(píng)測(cè)任務(wù)中的表現(xiàn)及自動(dòng)評(píng)價(jià)最新趨勢(shì)。為了解近年評(píng)測(cè)任務(wù)中表現(xiàn)優(yōu)良的自動(dòng)評(píng)價(jià)方法的共同特點(diǎn),在WMT’21自動(dòng)評(píng)價(jià)評(píng)測(cè)任務(wù)中特定語言對(duì)上獲最優(yōu)性能的評(píng)價(jià)方法匯總?cè)绫?所示,該表展示了WMT’21自動(dòng)評(píng)價(jià)任務(wù)上各個(gè)優(yōu)秀自動(dòng)評(píng)價(jià)方法獲最優(yōu)性能的次數(shù)匯總,符號(hào)“*”表示該方法未參與所有語言對(duì)上的評(píng)測(cè),符號(hào)“-”表示該方法在該類任務(wù)上未取得最優(yōu)性能。結(jié)果表明,顯著優(yōu)于其他自動(dòng)評(píng)價(jià)方法的C-SPECpn[71]、BLEUrt-20和COMET-MQM_2021均為使用“大規(guī)模預(yù)訓(xùn)練+微調(diào)”范式的端到端神經(jīng)網(wǎng)絡(luò)自動(dòng)評(píng)價(jià)模型,這表明“大規(guī)模預(yù)訓(xùn)練+微調(diào)”范式能顯著提升評(píng)價(jià)性能。在國內(nèi)機(jī)器譯文自動(dòng)評(píng)價(jià)研究方面,澳門大學(xué)的NLP2CT實(shí)驗(yàn)室與阿里巴巴達(dá)摩研究院共同提出的RoBLEURT在WMT’21的自動(dòng)評(píng)價(jià)任務(wù)中取得多項(xiàng)第一的優(yōu)良成績。中國科學(xué)院的馬青松團(tuán)隊(duì)提出的Blend、DPMFCOMB[72]和基于融合策略的機(jī)器翻譯自動(dòng)評(píng)價(jià)方法[73]性能優(yōu)良,其中Blend在WMT’17自動(dòng)評(píng)價(jià)任務(wù)的德英、俄英等多個(gè)語言對(duì)任務(wù)上取得第一名,DPMFCOMB在WMT’16自動(dòng)評(píng)價(jià)任務(wù)的法語至英語、土耳其語至英語句子級(jí)別直接評(píng)價(jià)任務(wù)中排名第一。北京大學(xué)的研究團(tuán)隊(duì)在2020年提出引入語義加權(quán)句子相似度的自動(dòng)評(píng)價(jià)方法SWSS[74]有效提升基于詞形匹配的機(jī)器譯文自動(dòng)評(píng)價(jià)指標(biāo)的性能。北京大學(xué)計(jì)算語言學(xué)重點(diǎn)實(shí)驗(yàn)室提出的Meteor++[75]與Meteor++ 2.0[76]對(duì)經(jīng)典自動(dòng)評(píng)價(jià)指標(biāo)Meteor做改進(jìn),其中Meteor++ 2.0在WMT’15至WMT’17自動(dòng)評(píng)價(jià)任務(wù)數(shù)據(jù)集上與人工評(píng)價(jià)的相關(guān)性超過了當(dāng)時(shí)所有版本的Meteor。蘇州大學(xué)的李良友提出的融合文檔信息的機(jī)器翻譯自動(dòng)評(píng)價(jià)[77]以語言學(xué)短語為基本評(píng)價(jià)單位,研究了文檔信息在評(píng)價(jià)方法中的應(yīng)用。江西師范大學(xué)的研究團(tuán)隊(duì)[78-80]提出的MPEDA在WMT’16自動(dòng)評(píng)價(jià)系統(tǒng)級(jí)別任務(wù)的法語至英語和芬蘭語至英語語言對(duì)上排名第二。
表1 WMT’21 metrics task上獲最優(yōu)性能的自動(dòng)評(píng)價(jià)方法匯總
趨勢(shì)1:研究方便易用且魯棒性強(qiáng)的自動(dòng)評(píng)價(jià)方法。目前雖然眾多自動(dòng)評(píng)價(jià)指標(biāo)被提出且展現(xiàn)遠(yuǎn)優(yōu)于BLEU的性能,但在機(jī)器翻譯領(lǐng)域被廣泛使用的評(píng)價(jià)指標(biāo)仍為僅根據(jù)淺層詞形相似度進(jìn)行評(píng)價(jià)的BLEU,原因之一為BLEU無須訓(xùn)練、簡單易用且魯棒性強(qiáng)[72]。因此,研究簡單易用、魯棒性強(qiáng)的高性能自動(dòng)評(píng)價(jià)方法是研究者孜孜以求的目標(biāo)。
在自動(dòng)評(píng)價(jià)指標(biāo)魯棒性方面,WMT’21自動(dòng)評(píng)價(jià)任務(wù)提出跨領(lǐng)域自動(dòng)評(píng)價(jià)元評(píng)測(cè)度量自動(dòng)評(píng)價(jià)指標(biāo)的魯棒性,使用TED演講數(shù)據(jù)集測(cè)試開發(fā)集為新聞?lì)I(lǐng)域數(shù)據(jù)集的自動(dòng)評(píng)價(jià)指標(biāo)的性能。各個(gè)自動(dòng)評(píng)價(jià)指標(biāo)在新聞?lì)I(lǐng)域的newstest21數(shù)據(jù)集和演講領(lǐng)域的TED數(shù)據(jù)集上的成對(duì)精確度如表2所示。評(píng)測(cè)結(jié)果顯示,基于大規(guī)模預(yù)訓(xùn)練語言模型的自動(dòng)評(píng)價(jià)指標(biāo)表現(xiàn)出更好的魯棒性,如RoBLEURT。另一方面,在新聞?lì)I(lǐng)域數(shù)據(jù)集表現(xiàn)較好的自動(dòng)評(píng)價(jià)指標(biāo)tgt-regEMT、cushLEPOR(LM)在演講領(lǐng)域數(shù)據(jù)集上表現(xiàn)較差,展現(xiàn)出較低的魯棒性。這表明研究者不僅需要對(duì)跨領(lǐng)域、跨語種預(yù)訓(xùn)練語言模型做進(jìn)一步研究,還需要對(duì)跨領(lǐng)域、跨語種的譯文自動(dòng)評(píng)價(jià)方法進(jìn)行探索。
表2 各個(gè)自動(dòng)評(píng)價(jià)方法在不同領(lǐng)域數(shù)據(jù)集上的成對(duì)精確度
在易用性方面,HuggingFace在2022年5月31日推出Evaluate庫,其中包括廣泛使用的BLEU自動(dòng)評(píng)價(jià)指標(biāo),這不僅使模型的評(píng)估流程更加標(biāo)準(zhǔn)化,而且提升了評(píng)價(jià)指標(biāo)易用性,方便相關(guān)從業(yè)人員使用。
趨勢(shì)2:參考譯文的質(zhì)量與數(shù)量對(duì)自動(dòng)評(píng)價(jià)指標(biāo)的評(píng)測(cè)具有重大影響。WMT’20自動(dòng)評(píng)價(jià)任務(wù)設(shè)置多參考譯文場(chǎng)景的評(píng)測(cè)任務(wù),實(shí)驗(yàn)結(jié)果顯示,參考譯文質(zhì)量與數(shù)量對(duì)自動(dòng)評(píng)價(jià)方法性能評(píng)測(cè)有重大影響。表3展示了在英語至德語數(shù)據(jù)集上使用三個(gè)不同的參考譯文ref-A、ref-C和ref-D時(shí)各個(gè)自動(dòng)評(píng)價(jià)指標(biāo)的表現(xiàn),其中MQM分?jǐn)?shù)為多維度質(zhì)量評(píng)價(jià)機(jī)制下的人工評(píng)價(jià)分?jǐn)?shù),MQM值越小,譯文質(zhì)量越高,括號(hào)內(nèi)數(shù)值為成對(duì)精確度排名。如BERTScore使用“ref-A”作為參考譯文或“ref-C”作為參考譯文情況下性能表現(xiàn)均為第一,但當(dāng)使用“ref-D”作為參考譯文時(shí)表現(xiàn)較差,具體原因值得進(jìn)一步探索。
表3 各個(gè)自動(dòng)評(píng)價(jià)方法使用不同參考譯文時(shí)與人工評(píng)價(jià)的成對(duì)精確度
趨勢(shì)3:篇章級(jí)別機(jī)器譯文自動(dòng)評(píng)價(jià)。篇章級(jí)別機(jī)器譯文中句子間的連貫性、銜接性以及跨句指代關(guān)系是否翻譯正確對(duì)于評(píng)價(jià)譯文的質(zhì)量優(yōu)劣有重要作用。連貫性、銜接性以及跨句指代關(guān)系等語言學(xué)特征均需要根據(jù)篇章語境信息進(jìn)行評(píng)判[77],然而單一的句子級(jí)別評(píng)價(jià)方法無法捕獲篇章級(jí)別的語境信息[81],容易出現(xiàn)評(píng)價(jià)偏差的情況,故對(duì)篇章級(jí)別機(jī)器譯文自動(dòng)評(píng)價(jià)方法的研究有重要意義。如BLEU等評(píng)價(jià)方法盡管提供篇章級(jí)別自動(dòng)評(píng)價(jià)得分,但僅在篇章級(jí)別簡單統(tǒng)計(jì)匹配的n元文法數(shù)目,無法識(shí)別句子之間的連接詞等,不能評(píng)判譯文的連貫性與一致性[82-83]。早期的Comelles等人[84]提出的篇章級(jí)別自動(dòng)評(píng)價(jià)指標(biāo)基于語篇的形式化表示,Guzmn等人[85]引入基于語篇結(jié)構(gòu)的語篇相似度提升自動(dòng)評(píng)價(jià)指標(biāo)性能。Wong等人[86]引入文本銜接性提升篇章級(jí)別機(jī)器譯文自動(dòng)評(píng)價(jià)性能。然而,Wong等人的自動(dòng)評(píng)價(jià)方法忽略了參考譯文的文本銜接情況,僅對(duì)機(jī)器譯文的文本銜接性分?jǐn)?shù)進(jìn)行建模評(píng)價(jià),Gong等人[87]設(shè)定機(jī)器譯文的文本銜接方式應(yīng)當(dāng)與參考譯文的文本銜接保持一致,提出計(jì)算參考譯文與機(jī)器譯文的簡化詞匯鏈匹配數(shù)目,從而實(shí)現(xiàn)評(píng)價(jià)機(jī)器譯文的文本銜接性。在這些的工作基礎(chǔ)上,Gong等人[87]使用主題模型計(jì)算確定篇章文本的主題分布概率,從而實(shí)現(xiàn)計(jì)算機(jī)器譯文與參考譯文的主題一致性。Tan等人[88]提出的語篇銜接性評(píng)價(jià)方法DCoEM綜合參考譯文、連接詞、指代關(guān)系和詞匯銜接四個(gè)銜接性要素評(píng)價(jià)篇章級(jí)別機(jī)器譯文的銜接性。Jiang等人[89]提出的BLONDE對(duì)機(jī)器譯文和參考譯文中的文本片段進(jìn)行分類,然后計(jì)算各類別子集的相似度,相似度采用F1值計(jì)算方式。Castilho等人[90]于2022年提出集成了評(píng)價(jià)方法、評(píng)價(jià)語料庫等組件的篇章級(jí)別自動(dòng)評(píng)價(jià)項(xiàng)目DELA。為了推動(dòng)相關(guān)從業(yè)人員對(duì)篇章級(jí)別自動(dòng)評(píng)價(jià)的研究,2018年和2019年的WMT自動(dòng)評(píng)價(jià)任務(wù)均設(shè)置篇章級(jí)別自動(dòng)評(píng)價(jià)任務(wù),為篇章級(jí)譯文評(píng)價(jià)提供了基準(zhǔn)的比較平臺(tái)。未來應(yīng)當(dāng)對(duì)篇章級(jí)別譯文自動(dòng)評(píng)價(jià)做進(jìn)一步研究[91]。
基于神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)方法使用深層神經(jīng)網(wǎng)絡(luò)或預(yù)訓(xùn)練語言知識(shí)對(duì)機(jī)器譯文及其對(duì)應(yīng)的人工參考譯文進(jìn)行逐層抽象,計(jì)算抽象后向量之間的距離。本文將其細(xì)分為基于表征匹配的方法和基于端到端神經(jīng)網(wǎng)絡(luò)的方法,基于表征匹配的方法將詞語或句子映射到高維空間,直接計(jì)算其在高維空間的余弦距離或偏移距離,基于端到端神經(jīng)網(wǎng)絡(luò)的方法主要使用回歸的方式,讓模型依據(jù)從神經(jīng)網(wǎng)絡(luò)中提取的各類特征,學(xué)習(xí)兩者之間的差異,從而獲得評(píng)價(jià)能力。此外,本文對(duì)自動(dòng)評(píng)價(jià)方法元評(píng)測(cè)的WMT自動(dòng)評(píng)價(jià)任務(wù)和相關(guān)評(píng)測(cè)指標(biāo)、人工評(píng)價(jià)方式進(jìn)行介紹,最后對(duì)基于神經(jīng)網(wǎng)絡(luò)的機(jī)器譯文自動(dòng)評(píng)價(jià)的發(fā)展趨勢(shì)進(jìn)行分析,未來將進(jìn)一步研究可廣泛使用于各個(gè)領(lǐng)域的高性能自動(dòng)評(píng)價(jià)指標(biāo),從而推動(dòng)機(jī)器翻譯的發(fā)展與應(yīng)用。