黎亞飛 張瑞華
(天津科技大學(xué)外國(guó)語(yǔ)學(xué)院,天津 300222)
“機(jī)器翻譯(Machine Translation)是利用計(jì)算機(jī)把一種自然源語(yǔ)轉(zhuǎn)換成另一種自然目標(biāo)語(yǔ)言的過(guò)程。機(jī)器翻譯研究如何利用計(jì)算機(jī)實(shí)現(xiàn)自然語(yǔ)言之間的自動(dòng)翻譯,是人工智能和自然語(yǔ)言處理領(lǐng)域的重要研究方向之一”(劉洋,2017)。機(jī)器翻譯作為一門(mén)涵蓋計(jì)算機(jī)科學(xué)、信息學(xué)、語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)等學(xué)科的邊緣學(xué)科,具有多學(xué)科的研究視角和跨學(xué)科的研究?jī)r(jià)值。計(jì)算機(jī)科學(xué)與信息工程的巨大進(jìn)步、現(xiàn)當(dāng)代語(yǔ)言學(xué)和與語(yǔ)料庫(kù)語(yǔ)言學(xué)的蓬勃發(fā)展、概率統(tǒng)計(jì)學(xué)的引入對(duì)機(jī)器翻譯的理論研究和方法探索都產(chǎn)生了深刻的影響和巨大的推動(dòng)作用。人工智能時(shí)代到來(lái),機(jī)器翻譯的前景一片光明。最初,機(jī)器翻譯僅用于軍事和政府文件翻譯,而如今機(jī)器翻譯被廣泛應(yīng)用于廣大網(wǎng)民群眾的日常生活,成為大量普通網(wǎng)民日常必備的工具。當(dāng)前,Google 公司推出的循環(huán)神經(jīng)網(wǎng)絡(luò)系統(tǒng)已經(jīng)支持60 多種語(yǔ)言的通用翻譯,微軟必應(yīng)、搜狗、騰訊、百度、網(wǎng)易有道等多家互聯(lián)網(wǎng)公司紛紛推出了自己的互聯(lián)網(wǎng)免費(fèi)機(jī)器翻譯系統(tǒng)(劉群,2012)。機(jī)器翻譯質(zhì)量已經(jīng)得到大幅提升,令語(yǔ)言學(xué)和計(jì)算機(jī)領(lǐng)域的不少學(xué)者開(kāi)始擔(dān)憂人工智能的發(fā)展會(huì)搶走不少?gòu)氖路g工作者的飯碗。
機(jī)器翻譯是人工智能不可或缺的一部分,也是計(jì)算機(jī)語(yǔ)言學(xué)下的重要分支(馮志偉,2011)。早在計(jì)算語(yǔ)言學(xué)的萌芽時(shí)期,就已得到了長(zhǎng)足的發(fā)展。機(jī)器翻譯也是語(yǔ)料庫(kù)翻譯學(xué)應(yīng)用的一個(gè)重要領(lǐng)域。而國(guó)內(nèi)語(yǔ)料庫(kù)翻譯學(xué)正是濫觴于機(jī)器翻譯的研究,始于楊惠中的“語(yǔ)料庫(kù)語(yǔ)言學(xué)與機(jī)器翻譯”(1993)一文;翻譯記憶軟件技術(shù)的核心就是平行語(yǔ)料庫(kù)(張繼光,2016)。根據(jù)知網(wǎng)上學(xué)術(shù)論文數(shù)據(jù)分類顯示,機(jī)器翻譯的研究總體上分為兩大類:計(jì)算機(jī)科學(xué)類和語(yǔ)言學(xué)類。計(jì)算機(jī)科學(xué)類重點(diǎn)關(guān)注如何改進(jìn)機(jī)器翻譯質(zhì)量,語(yǔ)言學(xué)類則主要關(guān)注計(jì)算機(jī)輔助翻譯,致力于應(yīng)用機(jī)器翻譯來(lái)輔助人工翻譯。語(yǔ)言學(xué)類的發(fā)文數(shù)量少于計(jì)算機(jī)科學(xué)類(李晗佶、陳海慶,2018)。機(jī)器翻譯的發(fā)展需要計(jì)算機(jī)科學(xué)家和語(yǔ)言學(xué)研究者的共同努力(胡清平,2005)。
古希臘時(shí)期便有人大膽設(shè)想“用機(jī)器來(lái)進(jìn)行自然語(yǔ)言翻譯”。20 世紀(jì)30年代初期,法國(guó)科學(xué)家G.B.Artsouni 明確提出“用機(jī)器來(lái)進(jìn)行自然語(yǔ)言翻譯”的想法。1933年,蘇聯(lián)發(fā)明家ТРОЯНСКИЙ 便設(shè)計(jì)了一種機(jī)械的語(yǔ)言翻譯機(jī)器,并在1933年9月5日申請(qǐng)登記了發(fā)明專利。然而受限于當(dāng)時(shí)的科技水平,ТРОЯНСКИЙ 的機(jī)器翻譯模型并未制成。1946年,ENIAC 作為世界上第一臺(tái)電子計(jì)算機(jī)在美國(guó)賓夕法尼亞大學(xué)的Eckert 與Mauchly 共同努力下誕生。在ENIAC 問(wèn)世的同一年,美國(guó)科學(xué)家Weaver 和英國(guó)工程師Booth 又提出了利用計(jì)算機(jī)進(jìn)行語(yǔ)言自動(dòng)翻譯的構(gòu)想。對(duì)此英國(guó)數(shù)學(xué)家Turing在1947年9月寫(xiě)給英國(guó)國(guó)家物理實(shí)驗(yàn)室的一份報(bào)告中也談到他在計(jì)算機(jī)建造計(jì)劃中就曾指出,機(jī)器翻譯可以顯示出計(jì)算機(jī)的智能。Weaver1947年首次提出“用解讀密碼方法指導(dǎo)機(jī)器翻譯”,這一想法后來(lái)便成為了如今統(tǒng)計(jì)機(jī)器翻譯(SMT)噪聲信道理論的基礎(chǔ)。上世紀(jì)90年代,IBM 公司Brown 等開(kāi)發(fā)人員將其想法完善并付諸實(shí)踐,成為現(xiàn)在統(tǒng)計(jì)機(jī)器翻譯的數(shù)學(xué)模型。1954年,世界上第一次機(jī)器翻譯試驗(yàn)成功,IBM 公司和美國(guó)喬治敦大學(xué)用 IBM-701 計(jì)算機(jī)把幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成了英語(yǔ)。隨后,英國(guó)、蘇聯(lián)、日本等國(guó)家也開(kāi)始進(jìn)行機(jī)器翻譯試驗(yàn)。
然而,機(jī)器翻譯研究很快便陷入了低谷,直到20 世紀(jì)70年代末,機(jī)器翻譯開(kāi)始走向?qū)嵱没?。一系列機(jī)器翻譯實(shí)用系統(tǒng)如EURPOTRA 多國(guó)語(yǔ)翻譯系統(tǒng)、Weinder 系統(tǒng)、TAUM-METEO 系統(tǒng)等先后出現(xiàn)。1976年,在與加拿大蒙特利爾大學(xué)合作下,加拿大聯(lián)邦政府翻譯局開(kāi)發(fā)出實(shí)用性機(jī)器翻譯系統(tǒng)TAUM-METEO 并正式投入使用——提供天氣預(yù)報(bào)的翻譯服務(wù)。據(jù)稱此翻譯系統(tǒng)每天可以翻譯1500~2000 篇天氣預(yù)報(bào)資料,翻譯速度可達(dá)6~30 萬(wàn)詞/時(shí),且能通過(guò)電視、報(bào)紙立即公布。20 世紀(jì)90年代初期,IBM 公司Brown 等人提出基于信源信道思想的統(tǒng)計(jì)機(jī)器翻譯模型。同時(shí)期,人工神經(jīng)網(wǎng)絡(luò)翻譯再次把機(jī)器翻譯研究推向熱潮。神經(jīng)網(wǎng)絡(luò)法最早可追溯到1997年,西班牙學(xué)者?eco和Forcada 提出利用“編碼-解碼”框架進(jìn)行翻譯的思想。2002年1月,世界上第一家把統(tǒng)計(jì)機(jī)器翻譯軟件商品化的公司Language Weaver 于美國(guó)成立,致力于研制統(tǒng)計(jì)機(jī)器翻譯軟件(Statistical Machine Translation Software)。2013年,基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(Neural Machine Translation )嶄露頭角,加拿大蒙特利爾大學(xué)的機(jī)器學(xué)習(xí)實(shí)驗(yàn)室發(fā)布了開(kāi)源的基于神經(jīng)網(wǎng)絡(luò)的機(jī)譯系統(tǒng)GroundHog;百度2015年發(fā)布了將統(tǒng)計(jì)和自動(dòng)學(xué)習(xí)相結(jié)合的在線機(jī)譯系統(tǒng);Google 2016年 在ArXiv.org 上發(fā)文介紹了谷歌的循環(huán)神經(jīng)機(jī)器翻譯系統(tǒng)(Google Recurrent Neural Machine Translation);Facebook2017年推出基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的語(yǔ)言翻譯模型(Convolutional Neural Machine Translation)。
基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)引入了當(dāng)前最先進(jìn)的技術(shù),實(shí)現(xiàn)了目前為止機(jī)器翻譯質(zhì)量的大幅提升。據(jù)稱,Google 公司在用循環(huán)神經(jīng)網(wǎng)絡(luò)系統(tǒng)進(jìn)行機(jī)器翻譯實(shí)驗(yàn)中,取得了驚人的成就,其中漢英機(jī)器翻譯的錯(cuò)誤率下降了85%,而英語(yǔ)-西班牙語(yǔ)和法語(yǔ)-英語(yǔ)的神經(jīng)機(jī)器翻譯幾乎可以與人工翻譯相媲美。Facebook 用其推出的基于卷積神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的語(yǔ)言翻譯模型進(jìn)行翻譯實(shí)驗(yàn),其速度比谷歌公司基于循環(huán)神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)的語(yǔ)言翻譯模型要快9 倍,且翻譯準(zhǔn)確率更高。測(cè)試結(jié)果表明,前者在英-德、英-法的測(cè)試上都比后者更接近人工翻譯水平(馮志偉,2018)。機(jī)器翻譯在處理一般的形合語(yǔ)言、規(guī)則特征顯化的文本時(shí),忠實(shí)度較高,譯文可讀性較強(qiáng),其翻譯水平基本接近人工翻譯水平,尤其是在處理日常對(duì)話文本、新聞科技文本時(shí),其優(yōu)勢(shì)更為突出。2017年國(guó)際機(jī)器翻譯會(huì)議(WMT)對(duì)于新聞文本的機(jī)器翻譯結(jié)果進(jìn)行了評(píng)測(cè),主流語(yǔ)言之間的機(jī)器翻譯測(cè)評(píng)得分都比較高(其測(cè)評(píng)得分均在70%以上),例如:漢英系統(tǒng)和英漢系統(tǒng)得分均為73%,德英系統(tǒng)得分78%,英德系統(tǒng)得分73%,俄英系統(tǒng)得分82%,英俄系統(tǒng)得分75%(由于法語(yǔ)-西班牙語(yǔ)與法語(yǔ)-英語(yǔ)機(jī)器翻譯系統(tǒng)已經(jīng)比較成熟,沒(méi)有參加這次評(píng)測(cè))(馮志偉,2018)。
在這個(gè)信息爆炸的大數(shù)據(jù)時(shí)代,機(jī)器翻譯的研究是歷史發(fā)展的必然產(chǎn)物,機(jī)器翻譯的前景也是一片光明。谷歌、微軟、百度、搜狗、騰訊、科大訊飛、阿里巴巴、網(wǎng)易有道等多家互聯(lián)網(wǎng)公司紛紛推出了自己的互聯(lián)網(wǎng)在線機(jī)器翻譯系統(tǒng),用戶只需登錄相應(yīng)網(wǎng)站,便可免費(fèi)獲取翻譯結(jié)果。機(jī)器翻譯研究不斷注有新活力,取得了不容小覷的成就。目前,谷歌公司推出的循環(huán)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)已經(jīng)可以支持60 多種語(yǔ)言的實(shí)時(shí)互譯,國(guó)內(nèi)百度在線機(jī)器翻譯系統(tǒng)也已經(jīng)可以支持28 種語(yǔ)言旳實(shí)時(shí)互譯。這些互聯(lián)網(wǎng)在線機(jī)器翻譯系統(tǒng)適配手機(jī)端、PC 端、平板電腦端、網(wǎng)頁(yè)端及各個(gè)瀏覽器插件等多種終端平臺(tái);其功能也相當(dāng)人性化、多樣化,支持屏幕取詞、文字掃描翻譯、拍照翻譯、離線翻譯、網(wǎng)頁(yè)翻譯等多種翻譯形式;其翻譯質(zhì)量雖然有待提升,但是在日常對(duì)話、新聞翻譯等領(lǐng)域已經(jīng)較為出色。表1 是以騰訊翻譯君為例,截取本論文摘要部分來(lái)進(jìn)行翻譯質(zhì)量的展示。
表1 “騰訊翻譯君”示例
大眾通常所理解并接觸到的機(jī)器翻譯指的是互聯(lián)網(wǎng)機(jī)器翻譯系統(tǒng)中的通用翻譯功能,網(wǎng)民只需登錄相關(guān)網(wǎng)站或者服務(wù)器,便可免費(fèi)獲取翻譯結(jié)果,只是翻譯的字?jǐn)?shù)或多或少會(huì)有限制,非商業(yè)用途已是足夠。其實(shí)這些網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)和平臺(tái)不僅提供通用翻譯,還提供垂直領(lǐng)域翻譯、定制化翻譯、語(yǔ)種識(shí)別、人工翻譯等功能,這些功能會(huì)適當(dāng)收取一定費(fèi)用。以百度翻譯系統(tǒng)為例,通用翻譯已支持28 種語(yǔ)言在線實(shí)時(shí)互譯,每人每月可享受200 萬(wàn)字符免費(fèi)翻譯;垂直領(lǐng)域翻譯目前適用于科技電子類、水利機(jī)械類、生物醫(yī)藥類三個(gè)垂直領(lǐng)域,收費(fèi)標(biāo)準(zhǔn)為49 元/百萬(wàn)字符,垂直領(lǐng)域翻譯專有名詞、術(shù)語(yǔ)等更加準(zhǔn)確;定制化翻譯依托大規(guī)模雙語(yǔ)語(yǔ)料,付費(fèi)標(biāo)準(zhǔn)依情況而定,其翻譯結(jié)果基本接近人工翻譯水平,表2 列出的是旅游領(lǐng)域和科技領(lǐng)域的幾個(gè)例子。
百度翻譯目前支持中、英、日、韓、泰、越六個(gè)語(yǔ)種精準(zhǔn)識(shí)別,且目前供網(wǎng)民免費(fèi)試用;語(yǔ)音即時(shí)翻譯目前支持中、英、日、粵四種語(yǔ)言的源語(yǔ)音識(shí)別、12 種目標(biāo)語(yǔ)言的語(yǔ)音輸出及28 種目標(biāo)語(yǔ)言的文本翻譯結(jié)果,每人每月可享用一萬(wàn)次免費(fèi)調(diào)用量,超出部分每次收費(fèi)0.02 元/次起;拍照翻譯目前支持中、英、日、韓、法、德、葡、意、西、俄等10 個(gè)語(yǔ)種的源語(yǔ)言的識(shí)別,中、英、日、韓、俄、法等28種目標(biāo)語(yǔ)言的輸出,每人每月可享用一萬(wàn)次免費(fèi)調(diào)用量,超出部分每次收費(fèi)0.03 元/次起。不僅如此,科大訊飛、騰訊等互聯(lián)網(wǎng)機(jī)器翻譯平臺(tái)也開(kāi)始提供語(yǔ)音文字轉(zhuǎn)化服務(wù),即時(shí)消息翻譯功能(以聊天影音工具QQ、Wechat 為代表),聊天影音工具QQ 也能提供拍照翻譯、掃描翻譯服務(wù),只是目前來(lái)說(shuō)譯文可讀性較差。盡管如此,機(jī)器翻譯的誕生與發(fā)展還是給我們的生活與工作帶來(lái)了極大的便利,并且使人工智能向前邁了一大步。
基于規(guī)則的機(jī)器翻譯系統(tǒng)(Rule-Based Machine Translation)發(fā)展成為統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)(Statistical Machine Translation)再到今天的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(Neural Machine Translation),機(jī)器翻譯發(fā)展不斷革新,每一次革新又為機(jī)器翻譯注入新活力,使我們離人工智能時(shí)代更進(jìn)一步?;谝?guī)則的機(jī)器翻譯系統(tǒng)把基于短語(yǔ)的句法分析(Phrase-Based Syntactic Analysis)放在第一位,另外把語(yǔ)法和算法分開(kāi),法國(guó)機(jī)器翻譯專家B.Vauquois 教授用“機(jī)器翻譯金字塔”(MT Pyramid)總結(jié)了基于語(yǔ)言規(guī)則的機(jī)器翻譯方法的翻譯過(guò)程(見(jiàn)圖1),成為了基于規(guī)則的機(jī)器翻譯中的“獨(dú)立分析-獨(dú)立生成-相關(guān)轉(zhuǎn)換”的方法論原則(馮志偉,2010)。
圖1 機(jī)器翻譯金字塔
“在這個(gè)金字塔上,越往塔尖的方向走,對(duì)語(yǔ)言的分析也越深入”,統(tǒng)計(jì)機(jī)器翻譯要解決的主要問(wèn)題就是如何避免在引入深層次語(yǔ)言分析時(shí)保證分析的正確性(劉群,2009)。20 世紀(jì)90年代,RBMT 引入了語(yǔ)料庫(kù)方法、基于實(shí)例的方法、統(tǒng)計(jì)方法。機(jī)器翻譯因此可以從加工處理過(guò)的大規(guī)模真實(shí)語(yǔ)料庫(kù)中獲取語(yǔ)言知識(shí),由此衍生出了統(tǒng)計(jì)機(jī)器翻譯(SMT)系統(tǒng)。這一系統(tǒng)把基于語(yǔ)料庫(kù)的概率統(tǒng)計(jì)方法和基于規(guī)則的邏輯推理方法巧妙結(jié)合,使機(jī)器翻譯又向前邁進(jìn)了一步(馮志偉,2011)。統(tǒng)計(jì)機(jī)器翻譯無(wú)需人工編寫(xiě)規(guī)則,只需利用平行語(yǔ)料庫(kù)來(lái)訓(xùn)練模型參數(shù),人工成本較低,開(kāi)發(fā)周期較短。統(tǒng)計(jì)機(jī)器翻譯是百度、谷歌、微軟等多家國(guó)內(nèi)外機(jī)器翻譯公司的核心技術(shù)(劉群,2003)。機(jī)器翻譯繼續(xù)發(fā)展,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)應(yīng)運(yùn)而生。人工神經(jīng)網(wǎng)絡(luò)具有自組織和自學(xué)習(xí)的能力,信息分布存儲(chǔ)和信息處理并行,采用聯(lián)結(jié)主義(connectionism)的方法,克服了之前機(jī)器翻譯中信息加工處理的障礙。Google 循環(huán)神經(jīng)網(wǎng)絡(luò)系統(tǒng)利用已有的大規(guī)模真實(shí)語(yǔ)料進(jìn)行深度學(xué)習(xí),從語(yǔ)料庫(kù)中自動(dòng)獲取語(yǔ)言特征和語(yǔ)言規(guī)則,用函數(shù)log p(f|e)表示某一源語(yǔ)言e 轉(zhuǎn)換為目標(biāo)語(yǔ)言f 的概率,概率越大,證明神經(jīng)機(jī)器翻譯的效果越好。該系統(tǒng)把源語(yǔ)言看作輸入序列,把目標(biāo)語(yǔ)言看作輸出序列,每次輸入與上一次輸出結(jié)果相關(guān)聯(lián),循環(huán)往復(fù),目的在于得到盡可能大的log p(f|e)參數(shù)近似值(parametric approximation)。此系統(tǒng)更具整體性,譯文的可讀性和準(zhǔn)確性較之前更高。Facebook 卷積神經(jīng)網(wǎng)絡(luò)將文本序列化、單詞向量化,經(jīng)過(guò)分層處理后再輸出結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)由多個(gè)隱層按照順序排列組成,每個(gè)隱層又由若干個(gè)神經(jīng)元組成,每個(gè)神經(jīng)元同時(shí)又與前一層中的所有神經(jīng)元關(guān)聯(lián),而神經(jīng)元中又具有學(xué)習(xí)能力的權(quán)重與偏差。卷積神經(jīng)網(wǎng)絡(luò)工作時(shí),神經(jīng)網(wǎng)絡(luò)的輸入是一個(gè)向量,然后經(jīng)過(guò)隱層的變換和選擇,每個(gè)神經(jīng)元得到相應(yīng)輸入數(shù)據(jù),接著進(jìn)行內(nèi)積運(yùn)算激活函數(shù)運(yùn)算,整個(gè)網(wǎng)絡(luò)形成一個(gè)可導(dǎo)的評(píng)分函數(shù)。這種編碼-解碼的框架通過(guò)多跳注意(multi-hop attention)(類似于人工翻譯時(shí)分解句子結(jié)構(gòu),不斷回顧源語(yǔ)言文本確定下一個(gè)輸出序列)和門(mén)控(gating)(控制篩選神經(jīng)網(wǎng)絡(luò)中傳遞到下一個(gè)神經(jīng)元中的信息流,放大翻譯中狹義或廣義的概覽,選取更適于語(yǔ)境的單詞)來(lái)改善翻譯效果。此框架還可結(jié)合外部語(yǔ)料,擴(kuò)展性較強(qiáng),翻譯速度更快,譯文質(zhì)量也更高。
侯強(qiáng)(2019:31)依據(jù)知識(shí)處理方式將機(jī)器翻譯方法分為三類:規(guī)則法(該類包括直接法、轉(zhuǎn)換法、中間語(yǔ)法);語(yǔ)料庫(kù)法(該類可細(xì)分為實(shí)例法、統(tǒng)計(jì)法、神經(jīng)網(wǎng)絡(luò)法);混合法(集規(guī)則法、語(yǔ)料庫(kù)法于一體:可細(xì)分為并行翻譯法、串行翻譯法、混雜翻譯法)(見(jiàn)表3)。
目前,機(jī)器翻譯研究主要以語(yǔ)料庫(kù)法為主,其中又以神經(jīng)網(wǎng)絡(luò)法最為典型。
綜合來(lái)看,規(guī)則法譯文忠實(shí)度較高,適合形合語(yǔ)言、規(guī)則特征顯化的文本;語(yǔ)料庫(kù)法譯文流暢度較高,適合意合語(yǔ)言、規(guī)則特征隱化的文本;混合法翻譯質(zhì)量較高,適用范圍較廣,能夠克服單一方法的部分障礙,但其翻譯過(guò)程還需依據(jù)具體文本作適當(dāng)調(diào)整。
各類機(jī)器翻譯系統(tǒng)如雨后春筍般涌現(xiàn),機(jī)器翻譯系統(tǒng)的評(píng)測(cè)成為一大問(wèn)題。當(dāng)前,機(jī)器翻譯評(píng)測(cè)方法主要有人工評(píng)測(cè)和自動(dòng)評(píng)測(cè)兩種。當(dāng)前,自動(dòng)評(píng)測(cè)系統(tǒng)通常采用BLEU(bilingual evaluation understudy)來(lái)衡量機(jī)器翻譯譯文與專業(yè)人工翻譯譯文的差異指標(biāo)(劉群,2012)。BLEU 計(jì)算這個(gè)指標(biāo)時(shí),需要選取機(jī)器翻譯的譯文作為candidate docs,同時(shí)選取一些專業(yè)翻譯人員翻譯的文本作為reference docs,然后計(jì)算兩個(gè)文本之間的相似程度。機(jī)器翻譯文本與參考文本之間的相似程度取值范圍在0-1,取值越靠近1 表示機(jī)器翻譯文本與參考文本之間的相似程度越大,機(jī)器翻譯效果越好。BLEU 作為機(jī)器翻譯的評(píng)估指標(biāo),快速便捷,但是僅關(guān)注詞語(yǔ)搭配關(guān)系而忽略句子的整體結(jié)構(gòu),評(píng)估比較粗略,不適用于需要精確評(píng)估翻譯文本質(zhì)量的情況。因此在評(píng)估時(shí)也會(huì)用到一些改進(jìn)方法,如METEOR、TER 等。此外,翻譯記憶技術(shù)(Translation Memory)是“譯者運(yùn)用計(jì)算機(jī)程序部分參與翻譯過(guò)程的一種翻譯策略”(Shuttleworth&Cowie,轉(zhuǎn)引自梁三云,2004),也是計(jì)算機(jī)輔助翻譯的核心技術(shù)。雪人cat、Déjà Vu、Trados、MemoQ等翻譯記憶工具的應(yīng)用使機(jī)器自動(dòng)翻譯省時(shí)、省力,同時(shí)也能保持翻譯的高度一致性。
表3 機(jī)器翻譯方法
機(jī)器翻譯算法不斷更新改進(jìn)。在WMT 2019的比賽中,微軟亞洲研究院機(jī)器學(xué)習(xí)組運(yùn)用多個(gè)創(chuàng)新算法:多體對(duì)偶學(xué)習(xí)(Multi-agent dual learning)、屏蔽序列到序列的預(yù)訓(xùn)練(Masked sequence to sequence pre-training)、自動(dòng)神經(jīng)網(wǎng)絡(luò)架構(gòu)優(yōu)化(Automatic neural architecture optimization)、軟性上下文數(shù)據(jù)增強(qiáng)(Soft contextual data augmentation)。在機(jī)器翻譯的任務(wù)中,從學(xué)習(xí)機(jī)制、預(yù)訓(xùn)練、網(wǎng)絡(luò)架構(gòu)優(yōu)化、數(shù)據(jù)增強(qiáng)等方面,大大提升了機(jī)器翻譯結(jié)果的質(zhì)量。在單詞語(yǔ)義翻譯方面,韓冬提出用Factored 編碼器與Gated 編碼器來(lái)克服傳統(tǒng)機(jī)器翻譯“源端單詞語(yǔ)義學(xué)習(xí)”的障礙,以此提高翻譯性能,并通過(guò)目前性能最優(yōu)的神經(jīng)機(jī)器翻譯框架Transformer 進(jìn)行了中英翻譯實(shí)驗(yàn),其結(jié)果表明,這兩種融合源端單詞的翻譯方式能夠顯著改善機(jī)器翻譯質(zhì)量(韓冬,2019)。由于部分領(lǐng)域機(jī)器翻譯譯文可讀性較差,譚敏提出領(lǐng)域適應(yīng)方法以改善部分資源稀缺領(lǐng)域的機(jī)器翻譯質(zhì)量,通過(guò)訓(xùn)練使判別器攜帶所需語(yǔ)域特征并構(gòu)建集成系統(tǒng),目前通過(guò)實(shí)驗(yàn)已證實(shí)了在中英廣播對(duì)話領(lǐng)域與英德口語(yǔ)領(lǐng)域應(yīng)用該方法,其翻譯效果均有顯著改善(譚敏,2019)。由于機(jī)器翻譯系統(tǒng)鮮少對(duì)漢語(yǔ)進(jìn)行優(yōu)化,為改善漢英翻譯質(zhì)量,肖新鳳(2019)提出對(duì)不同文本進(jìn)行預(yù)處理并使嵌入層數(shù)據(jù)參數(shù)初始化,在編碼器與解碼器間加入用于語(yǔ)法變換的轉(zhuǎn)換層,改進(jìn)seq2seq 模型結(jié)構(gòu)。通過(guò)實(shí)驗(yàn)已經(jīng)證實(shí),經(jīng)過(guò)預(yù)處理或者使用轉(zhuǎn)換層均使翻譯性能顯著提高。WMT2019 冠軍得主微軟亞洲研究院在官微透露:天津大學(xué)聯(lián)合微軟亞洲研究院提出的Transformer 的壓縮方法,不僅減少了近一半的參數(shù)量,模型在語(yǔ)言建模和神經(jīng)機(jī)器翻譯任務(wù)的表現(xiàn)也有所提升。在ACL 2019年會(huì)上,微軟亞洲研究院提出無(wú)監(jiān)督中轉(zhuǎn)機(jī)器翻譯(Unsupervised Pivot Translation),利用單語(yǔ)數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)于資源數(shù)據(jù)較少的語(yǔ)言翻譯很重要,源語(yǔ)與目的語(yǔ)可通過(guò)多個(gè)中轉(zhuǎn)語(yǔ)言連接,經(jīng)實(shí)驗(yàn)證實(shí)拆分后的翻譯性能得到大幅提升。目前,改善機(jī)譯質(zhì)量也依賴于人工譯后編輯,人工翻譯輔助機(jī)器翻譯是目前為止輸出好譯文的最佳方法。一些公司(比如“傳神語(yǔ)聯(lián)網(wǎng)網(wǎng)絡(luò)科技股份有限公司”)已搭建了人機(jī)共譯交互平臺(tái),人工譯后編輯成為了各大互聯(lián)網(wǎng)翻譯平臺(tái)的重要手段。
機(jī)器翻譯的誕生是新世紀(jì)的福音,不僅給我們的日常生活和學(xué)習(xí)工作帶來(lái)了極大的便利,也使我們向人工智能時(shí)代又邁進(jìn)了一大步。機(jī)器翻譯取得的進(jìn)展有目共睹,在實(shí)用化和商業(yè)化的道路上,機(jī)器翻譯只會(huì)越走越遠(yuǎn)。語(yǔ)音機(jī)器翻譯、術(shù)語(yǔ)管理、專門(mén)用途文本翻譯的需求將會(huì)引領(lǐng)機(jī)器翻譯未來(lái)發(fā)展的方向。盡管機(jī)器翻譯發(fā)展前景甚佳,但是機(jī)器翻譯和翻譯技術(shù)適用范圍有限,主要應(yīng)用于通用新聞報(bào)道、科技文本等重復(fù)性高的文本,始終不能完全取代人工翻譯。即便是當(dāng)前最先進(jìn)的神經(jīng)機(jī)器翻譯系統(tǒng)也只是在日常會(huì)話、新聞翻譯等領(lǐng)域取得較好的效果。文學(xué)文本隱喻性較強(qiáng),機(jī)器翻譯與翻譯技術(shù)只能作為輔助翻譯手段,為專業(yè)翻譯工作者服務(wù)。機(jī)器翻譯和人工智能不會(huì)取代人的創(chuàng)造力和想象力,但是會(huì)提升翻譯的質(zhì)量,避免枯燥重復(fù)的翻譯工作,機(jī)器翻譯的改進(jìn)與發(fā)展需要計(jì)算機(jī)科學(xué)、信息科學(xué)、統(tǒng)計(jì)學(xué)、語(yǔ)言學(xué)等多學(xué)界共同努力,才能實(shí)現(xiàn)更成熟化的人機(jī)互助翻譯。