倪俊杰
編者按:據(jù)不完全統(tǒng)計(jì),世界上現(xiàn)存語言超過7000多種,即使人類不眠不休窮盡一生的力量也只能掌握幾十種語言。于是,很多科學(xué)家開始思考,如何用機(jī)器來幫助人們解決溝通問題,因此機(jī)器翻譯應(yīng)運(yùn)而生了。那么,什么是機(jī)器翻譯?機(jī)器翻譯是如何發(fā)展的?目前還有哪些應(yīng)用呢?接下來,我們將共同來了解這些內(nèi)容。
50多年前,由劉涌泉、高祖舜、劉倬三人共同編著的《機(jī)器翻譯淺說》由科學(xué)普及出版社出版,書中提出了兩個(gè)很有意思的設(shè)想。第一個(gè)設(shè)想是當(dāng)你在人民大會(huì)堂的時(shí)候,你會(huì)發(fā)現(xiàn)無論哪個(gè)國家的人在臺(tái)上講話,與會(huì)者都能從耳機(jī)里聽到自己國家的語言,同時(shí)你會(huì)發(fā)現(xiàn)在耳機(jī)里進(jìn)行翻譯的不是人,而是我們的萬能翻譯博士;第二個(gè)設(shè)想是當(dāng)你去國外旅行的時(shí)候,隨身可以攜帶一個(gè)半導(dǎo)體和其他材料制成的小型萬能博士,當(dāng)我們跟外國朋友交談的時(shí)候,博士能立刻給你翻譯出各自國家的語言。這兩個(gè)設(shè)想在當(dāng)時(shí)看來是“天方夜譚”,但現(xiàn)在都已經(jīng)成為現(xiàn)實(shí),第一個(gè)是現(xiàn)在的同聲傳譯,第二個(gè)就是翻譯機(jī)。這兩項(xiàng)技術(shù)的實(shí)現(xiàn)都得益于機(jī)器翻譯技術(shù)。那么,什么是機(jī)器翻譯呢?實(shí)際上,機(jī)器翻譯是一個(gè)充滿挑戰(zhàn)的研究領(lǐng)域,正因?yàn)殡y度很大,所以它被列為21世紀(jì)世界十大科技難題之首。但隨著全球化進(jìn)程的加速以及國際交流的日趨頻繁,人們對翻譯的需求空前增長,在這一領(lǐng)域的競爭正變得空前激烈,世界各國都在這個(gè)領(lǐng)域投入了大量的人力和財(cái)力,也使得機(jī)器翻譯能夠深切地融入到我們的生活中。既然如此,我們就有必要了解機(jī)器翻譯的發(fā)展歷程以及它的基本應(yīng)用。
什么是機(jī)器翻譯
百度百科釋義:機(jī)器翻譯(Machine Translation)又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)將一種自然語言(源語言)轉(zhuǎn)換為另一種自然語言(目標(biāo)語言)的過程。機(jī)器翻譯是自然語言處理(Natural Language Processing)的一個(gè)分支,與計(jì)算語言學(xué)(Computational Linguistics)和自然語言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。實(shí)際上,機(jī)器翻譯的研究歷史早于計(jì)算機(jī)的誕生,可以追溯到20世紀(jì)30年代初,法國科學(xué)家G.B.阿爾楚尼提出了用機(jī)器來進(jìn)行翻譯的想法。1933年,蘇聯(lián)發(fā)明家特羅揚(yáng)斯基設(shè)計(jì)了把一種語言翻譯成另一種語言的機(jī)器,只可惜他的翻譯機(jī)因?yàn)榭陀^原因最終沒有制成。1946年,第一臺(tái)現(xiàn)代電子計(jì)算機(jī)ENIAC誕生。隨后不久,信息論的先驅(qū)、美國科學(xué)家W. Weaver和英國工程師A. D. Booth在討論電子計(jì)算機(jī)的應(yīng)用范圍時(shí),提出了利用計(jì)算機(jī)進(jìn)行語言自動(dòng)翻譯的想法。1949年,W. Weaver發(fā)表《翻譯備忘錄》,正式提出機(jī)器翻譯的思想。
細(xì)數(shù)機(jī)器翻譯的發(fā)展進(jìn)程,也是漫長而曲折的。1954年,美國喬治敦大學(xué)在IBM公司的協(xié)同下,用IBM-701計(jì)算機(jī)首次完成了英俄機(jī)器翻譯試驗(yàn)(如下頁圖1),向公眾和科學(xué)界展示了機(jī)器翻譯的可行性,從而拉開了機(jī)器翻譯研究的序幕。它能將俄語翻譯為英文,但里面只內(nèi)建了6條文法規(guī)則以及250個(gè)單字。
中國也在1956年就把這項(xiàng)研究列入了全國科學(xué)工作發(fā)展規(guī)劃。1957年,中國科學(xué)院語言研究所與計(jì)算技術(shù)研究所合作開展俄漢機(jī)器翻譯試驗(yàn),翻譯了9種不同類型的較為復(fù)雜的句子。但是在1966年,美國國家科學(xué)院語言自動(dòng)處理咨詢委員會(huì)(Automatic Language Processing Advisory Committee,ALPAC)發(fā)布題為《語言與機(jī)器》的報(bào)告,宣稱“目前給機(jī)器翻譯研究以大力支持沒有太多的理由”“機(jī)器翻譯遇到了難以克服的語義障礙”,從而導(dǎo)致機(jī)器翻譯研究在世界范圍內(nèi)走向低迷。
進(jìn)入70年代,隨著計(jì)算機(jī)科學(xué)、語言學(xué)研究的發(fā)展,特別是計(jì)算機(jī)硬件技術(shù)的大幅度提高以及人工智能在自然語言處理上的應(yīng)用,各種實(shí)用的以及實(shí)驗(yàn)的系統(tǒng)被先后推出,如Weinder系統(tǒng)、EURPOTRA多國語言翻譯系統(tǒng)、TAUM-METEO系統(tǒng)等。20世紀(jì)80年代末期,IBM公司實(shí)現(xiàn)了基于噪聲信道模型的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),并在美國國防部高級研究計(jì)劃署(ARPA)組織的評測中取得了較好成績,推動(dòng)了機(jī)器翻譯技術(shù)的快速發(fā)展。我國的“784”工程也給予了機(jī)器翻譯研究足夠的重視。80年代中期以后,我國首先成功研制了 KY-1 和MT/EC863 兩個(gè)英漢機(jī)譯系統(tǒng)。進(jìn)入90年代,互聯(lián)網(wǎng)的快速發(fā)展讓人們對機(jī)器翻譯的需求空前增長,國際性的關(guān)于機(jī)器翻譯研究的會(huì)議頻繁召開。中國也取得了前所未有的成就,相繼推出了一系列機(jī)器翻譯軟件,如“譯星”“雅信”等。21世紀(jì)以來,互聯(lián)網(wǎng)公司紛紛成立機(jī)器翻譯研究組,研發(fā)了基于互聯(lián)網(wǎng)大數(shù)據(jù)的機(jī)器翻譯系統(tǒng),從而使機(jī)器翻譯真正走向?qū)嵱?,如“有道翻譯”“百度翻譯”“谷歌翻譯”等。近年來,隨著深度學(xué)習(xí)的進(jìn)展,機(jī)器翻譯技術(shù)得到了進(jìn)一步的發(fā)展,促進(jìn)了翻譯質(zhì)量的快速提升,在口語等領(lǐng)域的翻譯也能更加地道、更加流暢。
機(jī)器翻譯技術(shù)的發(fā)展歷程
機(jī)器翻譯的原理并不簡單,其發(fā)展歷程也是由淺入深的。隨著計(jì)算機(jī)技術(shù)和語言學(xué)的快速發(fā)展,機(jī)器翻譯的方法也在更新迭代(如圖2)。大致可以分為三種類型,分別是基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。
1.基于規(guī)則的方法
最早期的機(jī)器翻譯就是采用基于規(guī)則的方法。這類方法要找大量的人類語言學(xué)家來寫規(guī)則,把一個(gè)單詞翻譯成另外一個(gè)單詞、這個(gè)成分翻譯成另外一個(gè)成分、在句子中出現(xiàn)在什么位置,都要用各種各樣的規(guī)則表示出來,如早期的文曲星(如上頁圖3)。這類方法是知識(shí)驅(qū)動(dòng),需要語言學(xué)家的專業(yè)知識(shí),包括源語言和目標(biāo)語言的詞法、語法、句法等,翻譯的時(shí)候就基于這些規(guī)則去“嵌套運(yùn)用”,最終“組合”成相應(yīng)的句子。很顯然,這種方法的優(yōu)點(diǎn)是準(zhǔn)確率比較高,缺點(diǎn)是成本很高,這里包括人力成本和開發(fā)周期成本,不同的語言要找不同語言的語言學(xué)家,而且如果句子長度、語境做出改變,規(guī)則的復(fù)雜度也會(huì)越來越高?;谝?guī)則的機(jī)器翻譯的優(yōu)點(diǎn)是十分精細(xì)的翻譯引擎可翻譯廣泛的文本,缺點(diǎn)是必須為每個(gè)語言建立自定義的解析軟件和詞典,而且,基于規(guī)則的方法是相當(dāng)“脆弱”的,它不能很好地處理俚語或隱喻文本。
基于規(guī)則的機(jī)器翻譯的主要供應(yīng)商包括Systran、PROMT、Lucy Software(商業(yè)軟件)和Apertium(開源)。Systran從業(yè)較久,是網(wǎng)頁翻譯的先驅(qū)(早在20世紀(jì)90年代他們的翻譯引擎就為Babelfish提供網(wǎng)頁翻譯服務(wù)了)。Apertium是由西班牙Universitat dAlacant主導(dǎo)的開源項(xiàng)目。
2.基于統(tǒng)計(jì)的方法
20世紀(jì)80年代,日本京都大學(xué)的長尾真教授提出了基于實(shí)例的機(jī)器翻譯(example based machine translate),也就是別再去想讓機(jī)器從無到有來翻譯,它的理念是利用相似性復(fù)用系統(tǒng)中現(xiàn)有的翻譯用例,這是一種數(shù)據(jù)驅(qū)動(dòng)的方法?;趯?shí)例的機(jī)器翻譯為統(tǒng)計(jì)機(jī)器翻譯奠定了基礎(chǔ)。統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)是基于概率和統(tǒng)計(jì)的模型而不是語法規(guī)則,它建立了一個(gè)數(shù)學(xué)建模,可以在大數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練。它的工作方式是使用非常龐大的平行文本(源文本及其翻譯)以及單語語料庫訓(xùn)練翻譯引擎。系統(tǒng)會(huì)尋找源文本和譯文之間的統(tǒng)計(jì)相關(guān)性,然后根據(jù)源語言句子,去查找概率最大的譯文,翻譯引擎本身沒有規(guī)則或語法概念。IBM于1993年發(fā)表了論文《機(jī)器翻譯的數(shù)學(xué)理論》,提出了由五種以詞為單位的統(tǒng)計(jì)模型,稱為“IBM模型1”到“IBM模型5”?;诮y(tǒng)計(jì)的機(jī)器翻譯能夠結(jié)合上下文,以及詞、短語、句法等知識(shí),從統(tǒng)計(jì)學(xué)的角度判斷哪種翻譯方式的正確率更高,統(tǒng)計(jì)模型的思路是把翻譯當(dāng)成幾率問題。
總的來說,統(tǒng)計(jì)機(jī)器翻譯的主要優(yōu)點(diǎn)是不需要像基于規(guī)則的機(jī)器翻譯一樣,針對每個(gè)語言打造專門的翻譯引擎,只要收集足夠多的文本,就可以訓(xùn)練針對任何語言的通用翻譯引擎。統(tǒng)計(jì)機(jī)器翻譯的主要缺點(diǎn)是在翻譯訓(xùn)練語料庫中沒有相似的資料文本時(shí),不能得到準(zhǔn)確譯文。統(tǒng)計(jì)機(jī)器翻譯通常不能生成高質(zhì)量的文本,它經(jīng)常在不顧及上下文聯(lián)系的情況下翻譯原文,而且譯文語序往往不對。相比基于規(guī)則的方法,基于統(tǒng)計(jì)的方法成本較低,因?yàn)樗驼Z言沒有關(guān)系,一旦翻譯模型建立以后,其翻譯知識(shí)來自于大數(shù)據(jù)的自動(dòng)訓(xùn)練。因此,在基于統(tǒng)計(jì)的機(jī)器翻譯中,語言模型的建立至關(guān)重要,因?yàn)檎Z言模型是衡量一個(gè)句子在目標(biāo)語言中是不是流利和地道的關(guān)鍵,計(jì)算機(jī)可以使用翻譯模型來“計(jì)算”如何將文本從一種語言轉(zhuǎn)換為另一種語言。
基于統(tǒng)計(jì)的機(jī)器翻譯的主要產(chǎn)品提供商有BeGlobal (SDL)、Google Translate、Microsoft Bing Translator、Moses等。其中Google Translate是谷歌基于自有的翻譯引擎和研究技術(shù),提供的免費(fèi)在線翻譯服務(wù)。Moses是一個(gè)開源的統(tǒng)計(jì)機(jī)器翻譯引擎,它已被業(yè)界廣泛應(yīng)用于構(gòu)建定制的機(jī)器翻譯引擎。
3.基于神經(jīng)網(wǎng)絡(luò)的方法
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,從2014年起基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法開始興起。相比統(tǒng)計(jì)機(jī)器翻譯,神經(jīng)網(wǎng)絡(luò)翻譯從模型上來說相對簡單,它主要包含兩個(gè)部分,一個(gè)是編碼器,一個(gè)是解碼器。編碼器是把源語言經(jīng)過一系列的神經(jīng)網(wǎng)絡(luò)的變換之后,表示成一個(gè)高維的向量。解碼器負(fù)責(zé)把這個(gè)高維向量再重新解碼(翻譯)成目標(biāo)語言。2015年,百度發(fā)布了全球首個(gè)基于互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng)。2016年,Google公布了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(GNMT),科大訊飛也上線了NMT系統(tǒng)。短短三四年間,神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)在大部分的語言上已經(jīng)超過了基于統(tǒng)計(jì)的方法(PBMT),已經(jīng)極大地接近普通人的翻譯水平。
從圖4中可以看出,從基于統(tǒng)計(jì)的方法到基于神經(jīng)網(wǎng)絡(luò)的方法,翻譯能力可以提升到60%以上,這是極大的進(jìn)步。相比基于規(guī)則和統(tǒng)計(jì)系統(tǒng),基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)使系統(tǒng)更自適應(yīng),能處理更多更復(fù)雜的模型。它也可以根據(jù)經(jīng)驗(yàn)自我學(xué)習(xí),如果它提供了不正確的輸出,它能從錯(cuò)誤中吸取教訓(xùn),并做出調(diào)整,以便下次更有效地執(zhí)行任務(wù)。
機(jī)器翻譯在生活中的應(yīng)用
機(jī)器翻譯的快速發(fā)展,在很多領(lǐng)域得到了廣泛的應(yīng)用。機(jī)器翻譯技術(shù)的進(jìn)步和系統(tǒng)性能的提升在為人們?nèi)粘I詈凸ぷ鲙砀啾憷耐瑫r(shí),也為該技術(shù)的產(chǎn)業(yè)化發(fā)展帶來了更多商機(jī)。關(guān)于機(jī)器翻譯的基本應(yīng)用,大致可以分為三大場景:信息獲取為目的的場景、信息發(fā)布為目的的場景、信息交流為目的的場景。以信息獲取為目的的場景,可能大家都比較熟悉,如翻譯或是海外購物,遇到一些生僻的詞就可以借助機(jī)器翻譯技術(shù),來了解它的真正意思。在信息發(fā)布為目的的場景中,典型的應(yīng)用是輔助筆譯,比如起草一份文件需要多國語言的版本,就需要用到機(jī)器翻譯技術(shù)了。以信息交流為目的的場景,主要解決人與人之間的語言溝通問題,如同聲傳譯等。接下來,我們來看一些比較有意思的應(yīng)用。
1.特殊中文翻譯
機(jī)器翻譯除了能做多國不同語言的翻譯之外,還可以在中文方面做一些有意思的事情。中文博大精深,源遠(yuǎn)流長,文言文就是很有中國特色的語言表達(dá)方式。在百度翻譯中,實(shí)現(xiàn)了輸入白話文后,就能輸出文言文的效果(如圖5)。
除了翻譯文言文,機(jī)器翻譯還可以寫詩、寫春聯(lián)。在微信里關(guān)注小程序“為你作首詩”,輸入藏頭文字,選擇詩句類型,就可以由程序自動(dòng)寫一首詩(如下頁圖6)。說起機(jī)器寫詩,就不得不提微軟小冰了。微軟小冰是由微軟(亞洲)互聯(lián)網(wǎng)工程院于2014年正式推出的融合了自然語言處理、計(jì)算機(jī)語音和計(jì)算機(jī)視覺等技術(shù)的人工智能“機(jī)器人”。微軟小冰已通過人工智能創(chuàng)造技術(shù),學(xué)習(xí)優(yōu)秀的人類創(chuàng)造者的能力,進(jìn)行基于文本、語音和視覺的內(nèi)容生成。在文本創(chuàng)作方面,主要覆蓋詩歌、金融摘要及研報(bào)等領(lǐng)域。2017年5月,微軟與湛廬文化公司合作,授權(quán)出版了歷史上第一部由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。同年8月,中國臺(tái)灣與時(shí)代文化公司合作,授權(quán)出版了該詩集的繁體中文版本。2019年,與中國青年出版總社合作并授權(quán)出版了第一部由人工智能與200位人類詩人聯(lián)合創(chuàng)作的詩集《花是綠水的沉默》。
2.同聲傳譯設(shè)備
什么是同聲傳譯?其實(shí)可以分解開來看,“同”表示時(shí)間延遲要短,在說話的同時(shí)基本上翻譯結(jié)果就傳遞出來;“聲”是指用到的是語音技術(shù),包括語音識(shí)別和合成;“傳”就是信息傳遞要準(zhǔn)確,得把原本的意思準(zhǔn)確地表達(dá)出來;“譯”就是翻譯技術(shù),對應(yīng)到機(jī)器翻譯。同聲傳譯設(shè)備是實(shí)現(xiàn)高級別國際會(huì)議同步翻譯不可缺少的系統(tǒng)設(shè)備,通過該設(shè)備可以保證演講者在演講的同時(shí),內(nèi)容被同聲翻譯成指定的目標(biāo)語言。隨著當(dāng)前社會(huì)現(xiàn)代化進(jìn)程的不斷推進(jìn)以及人們生活水平的提高,同聲傳譯已經(jīng)不僅僅是高端需求,普通民眾在出國旅游或者商務(wù)洽談的時(shí)候也會(huì)有此類需求。在某購物網(wǎng)站搜索“同聲傳譯器”,價(jià)格從幾百到幾千不等,款式有手持式、頭戴式,也有耳機(jī)式。點(diǎn)開某熱銷款同傳翻譯設(shè)備,可以看到如下介紹:支持59種語言,可以實(shí)現(xiàn)0.5秒快速翻譯,中英文離線翻譯也能達(dá)到大學(xué)英語六級水平(如圖7)。
美國發(fā)明家、未來學(xué)家雷·科茲威爾最近在接受《赫芬頓郵報(bào)》采訪時(shí)預(yù)言,到2029年機(jī)器翻譯的質(zhì)量將達(dá)到人工翻譯的水平。對于這一論斷,學(xué)術(shù)界還存在很多爭議。當(dāng)機(jī)器翻譯得到廣泛應(yīng)用的時(shí)候,就有聲音說機(jī)器翻譯將會(huì)取代人工翻譯,“翻譯員”可能會(huì)集體下崗,真的會(huì)這樣嗎?夢想與現(xiàn)實(shí)的距離到底有多遠(yuǎn)?客觀地說,盡管神經(jīng)網(wǎng)絡(luò)帶來了翻譯質(zhì)量的巨大提升,但仍面臨許多挑戰(zhàn)。為此,關(guān)于機(jī)器翻譯關(guān)鍵技術(shù)原理以及它的發(fā)展與挑戰(zhàn),我們將在下一期進(jìn)行探討,敬請期待!