孫茂松?周建設(shè)
提 要 本文試圖從超脫細(xì)節(jié)的宏觀角度,對機(jī)器翻譯的發(fā)展歷程進(jìn)行扼要的總結(jié)和深刻的評介,著重于刻畫各個(gè)時(shí)期在基本方法和核心技術(shù)上的主要特征,從而勾勒出機(jī)器翻譯的全過程演進(jìn)脈絡(luò)。在上述考察和分析的基礎(chǔ)上,文章對國內(nèi)機(jī)器翻譯乃至自然語言處理研究的近期發(fā)展策略提出了若干建議。
關(guān)鍵詞 機(jī)器翻譯;自然語言處理;發(fā)展歷史;策略
Abstract Machine translation (MT) is one of the major research fields of natural language processing (NLP), and it always spearheads the research frontier in NLP. In this paper, after a systematic survey of the development history of MT from a macroscopic perspective, with particular emphasis on the main development path of underlying methodologies and core technologies in MT, we drew a general picture of the milestones that marked the key points of a long journey for both theoretical study and practical accomplishment for the past seven decades. The latest fruitful development achieved in the area of MT application shows that, the paradigm shift from the traditional linguistic rule-based approaches to the so-called empirical approach, based on increasingly available amounts of “raw data” in the form of massive collections of texts and their translations, compounded by the phenomenal advancement of computer technology, will become the driving force that will potentially lead to the breakthrough in MT. Based on the above observation and analysis, some suggestions on the short-term development strategy for machine translation as well as natural language processing in China are proposed.
Key words machine translation; natural language processing; development history; strategy
一、引言——從機(jī)器翻譯談起
2016年9月27日,“谷歌大腦小組”的科學(xué)家Quoc V. Le和Mike Schuster在“谷歌研究博客”上發(fā)表了一條博文:“一個(gè)產(chǎn)品規(guī)模的用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)”,稱繼十年前谷歌推出基于短語的機(jī)器翻譯系統(tǒng)Google Translate之后,谷歌在機(jī)器翻譯領(lǐng)域再次取得重大突破,全新推出了神經(jīng)機(jī)器翻譯系統(tǒng)GNMT(Le & Schuster 2016)。谷歌公司同時(shí)還在arXiv上發(fā)表了一篇論文,從技術(shù)角度詳細(xì)報(bào)告了GNMT的工作機(jī)制(Wu et al. 2016)。以維基百科和新聞?wù)Z料為測試數(shù)據(jù)的實(shí)驗(yàn)結(jié)果顯示,較經(jīng)典的基于短語的統(tǒng)計(jì)機(jī)器翻譯模型GNMT將若干關(guān)鍵語言對之間的翻譯錯(cuò)誤率顯著降低了55%到85%。圖1顯示,從法語到英語、英語到西班牙語的機(jī)器翻譯質(zhì)量已非常接近人工翻譯質(zhì)量(也可以看到,從漢語到英語以及從英語到漢語的機(jī)器翻譯質(zhì)量是最遠(yuǎn)離人工翻譯質(zhì)量的)。與前不久谷歌AlphaGo戰(zhàn)勝人類九段圍棋選手相仿,谷歌的這個(gè)工作又一次在世界上引起了轟動(dòng)和熱議。
筆者有針對性地輸入一些頗為復(fù)雜的實(shí)際句子給GNMT,以考察其翻譯性能??偟挠∠笫荊NMT表現(xiàn)優(yōu)良,谷歌所言不虛。作為工作于自然語言處理領(lǐng)域的學(xué)者,一方面為機(jī)器翻譯取得的如此進(jìn)步而深感興奮,另一方面又有些失落感:在與國際大公司的核心技術(shù)角逐中,國內(nèi)研發(fā)單位又一次處于下風(fēng)。宏觀來看,機(jī)器翻譯的下一個(gè)關(guān)鍵步,我們該怎么走?進(jìn)一步地,機(jī)器翻譯是自然語言處理領(lǐng)域一個(gè)最為經(jīng)典問題,自然語言處理的下一個(gè)關(guān)鍵步又該怎么走呢?
本文試圖通過扼要回顧機(jī)器翻譯的發(fā)展過程來部分地回答上述兩個(gè)問題。需要說明的是:我們并不關(guān)心機(jī)器翻譯發(fā)展歷史的細(xì)部,而只是就機(jī)器翻譯各發(fā)展階段中最重要的特點(diǎn)(主要關(guān)注在方法論及核心技術(shù)層面上)以及與本話題密切相關(guān)的某些“吉光片羽”,展開“散步式”的討論。這里對機(jī)器翻譯發(fā)展階段的劃分,大體上采用了Hutchins(1995)的說法, 但也有所調(diào)整。
二、機(jī)器翻譯的發(fā)展歷程:
大波浪式前進(jìn)
(一)大潮初起(1947—1956)
說到機(jī)器翻譯近70年的發(fā)展史,就不能不提“機(jī)器翻譯之父”——Warren Weaver。
Warren Weaver是美國著名的科學(xué)家、數(shù)學(xué)家及科學(xué)管理者。他與“信息論之父”香農(nóng)于1949年合作出版了在通信領(lǐng)域具有里程碑意義的著作The Mathematical Theory of Communication,足見他在科學(xué)界的尊崇地位。1947年3月4日,他在寫給 “控制論之父”Norbert Wiener的一封信中,就認(rèn)真探討了機(jī)器翻譯的可能性(雖然他感覺由于語言中“語義困難”的存在,機(jī)器翻譯的質(zhì)量不太可能達(dá)到“雅”的境界,但對科技文獻(xiàn)達(dá)到“信”的程度卻是可能的)。1949年7月15日,他在題為《翻譯》(Weaver 1955)的備忘錄中正式提出了機(jī)器翻譯的思想,并在如下四個(gè)方面給出了他的真知灼見(以下簡稱為“WW建議”):
(1)意義與上下文:他充分認(rèn)識(shí)到上下文在解決詞匯歧義中的重要作用,由此引出了語言的統(tǒng)計(jì)語義性質(zhì)問題(如句子的上下文窗口大小問題)。這與后來的馬爾可夫語言模型有對應(yīng)關(guān)系。
(2)語言與邏輯:他認(rèn)為書面文本是邏輯性質(zhì)的表達(dá),所以它至少是形式上可解的,盡管語言中確實(shí)存在某些非邏輯元素,如關(guān)于風(fēng)格的直覺感受、情感內(nèi)容等很難被計(jì)算機(jī)處理。其潛臺(tái)詞是應(yīng)該對句子進(jìn)行結(jié)構(gòu)化的句法語義分析,因?yàn)檫@是邏輯推演的基礎(chǔ)。
(3)從密碼學(xué)的角度,他認(rèn)為可以把“一本用中文寫的書看作是一本用英文寫的書被編碼成中文”,而把翻譯過程看作“解碼”過程。這差不多就是后來廣泛使用的統(tǒng)計(jì)機(jī)器翻譯模型。他還強(qiáng)調(diào)對語言統(tǒng)計(jì)語義性質(zhì)的研究應(yīng)成為機(jī)器翻譯初創(chuàng)階段必須下力氣完成的首要任務(wù),隱含著應(yīng)從數(shù)學(xué)和計(jì)算角度深入研究語言的統(tǒng)計(jì)模型的意思。
(4)針對多語言之間的翻譯問題,他指出應(yīng)研究人類通信的共同基礎(chǔ)——普遍語言(又被稱為語言的邏輯結(jié)構(gòu))問題,以期事半功倍之效。這與后來有學(xué)者提出的機(jī)器翻譯“中間語言”思路一脈相承。②
Warren Weaver的備忘錄起到了機(jī)器翻譯思想啟蒙的作用,并直接引發(fā)了機(jī)器翻譯研究的蓬勃興起。最早開展機(jī)器翻譯研究的有美國的麻省理工學(xué)院、喬治城大學(xué)和IBM等,前蘇聯(lián)的列寧格勒大學(xué)、英國的劍橋大學(xué)等也迅速跟進(jìn)。研究動(dòng)力不外兩個(gè):(1)機(jī)器翻譯由于其所蘊(yùn)含著的深刻的科學(xué)問題,已成為當(dāng)時(shí)計(jì)算機(jī)科學(xué)研究前沿的排頭兵之一;(2)體現(xiàn)了各自國家的需求(美國和前蘇聯(lián)的研究主要集中在英俄兩種語言對之間的翻譯上)。
這些早期研究在方法論和核心技術(shù)路線上都沒有顧及“WW建議”之(1)和(3)所倡導(dǎo)的基于語言統(tǒng)計(jì)語義性質(zhì)的機(jī)器翻譯模型研究,而是大體上沿著“WW建議”之(2)的取向,研究基于人工編制規(guī)則的詞法、句法分析的翻譯方法(當(dāng)然,也包括較為初級的基于雙語詞典的直接翻譯方法研究),并初步構(gòu)造了規(guī)模很小的實(shí)驗(yàn)系統(tǒng)(1954年,美國進(jìn)行了俄英機(jī)器翻譯試驗(yàn),1955年到1956年,蘇聯(lián)完成了英俄和法俄機(jī)器翻譯試驗(yàn))。這一點(diǎn)其實(shí)并不奇怪:第一,人們對語言和語言學(xué)的認(rèn)識(shí)會(huì)使機(jī)器翻譯設(shè)計(jì)者“自然而然”地首先遵循基于規(guī)則的詞法、句法分析的道路進(jìn)行探索(雖然理論語言學(xué)研究與這一時(shí)期的機(jī)器翻譯研究似乎并沒有太多關(guān)聯(lián),只是在后來越來越多地介入進(jìn)來);第二,那時(shí)候機(jī)器能力有限,也缺乏機(jī)器可讀的大規(guī)模語料庫,所以幾乎沒有滋生統(tǒng)計(jì)機(jī)器翻譯模型的土壤(雖然有研究者開始利用統(tǒng)計(jì)方法從一定規(guī)模的語料庫中提取雙語詞匯和語法信息,但那只是局部的統(tǒng)計(jì)方法)。
(二)從第一次波峰跌入波谷(1957—1966)
這個(gè)時(shí)期的研究是前一個(gè)時(shí)期工作的延續(xù),并且有新的拓展。哈佛大學(xué)、加州伯克利分校、德州大學(xué)等紛紛投身于這一研究潮流中。美國和歐洲之外也不斷有研究團(tuán)隊(duì)加入。中國的反應(yīng)就相當(dāng)迅速:早在1958年8月,中國科學(xué)院計(jì)算技術(shù)研究所就成立了機(jī)器翻譯研究組,并與語言研究所密切合作,開展俄漢機(jī)器翻譯研究(劉涌泉 1959)。1959年,中國在自制的通用電子計(jì)算機(jī)上成功進(jìn)行了俄漢機(jī)器翻譯試驗(yàn)(劉涌泉 1963)。
這個(gè)時(shí)期美國的研究多集中在句法分析(包括依存分析)的基礎(chǔ)上,理論語言學(xué)日益發(fā)揮作用,機(jī)器翻譯模型也漸趨豐滿,如喬治城大學(xué)的自動(dòng)翻譯系統(tǒng)GAT就配置了三個(gè)層次的分析:詞法層(包括成語識(shí)別)、組合層(包括名詞和形容詞之間的一致性、動(dòng)詞的管約、形容詞的修飾等)和句法層(包括主語和謂語、從句關(guān)系等),歐洲和前蘇聯(lián)出于自身多語言環(huán)境的需要,偏重于“WW建議”之(4)涉及的基于“中間語言”(interlingua)的機(jī)器翻譯研究。這些研究無疑大大豐富了人們對機(jī)器翻譯模型的認(rèn)識(shí)。
對機(jī)器翻譯的高度期待和樂觀主義情緒彌漫于20世紀(jì)整個(gè)50年代。隨著若干機(jī)器翻譯系統(tǒng)被陸續(xù)研制出來并投入使用,人們得以直接觀察和評論機(jī)器翻譯系統(tǒng)的輸出結(jié)果。但觀察得到的總體印象是:機(jī)器翻譯的質(zhì)量與期望相差甚遠(yuǎn)。隨著研究工作的逐步展開,學(xué)者們越來越體會(huì)到語言的復(fù)雜性,越來越感受到橫亙在機(jī)器翻譯征途上十分困難的“語義屏障”問題。1960年,以色列著名的哲學(xué)家、數(shù)學(xué)家和語言學(xué)家Yehoshua Bar-Hillel發(fā)表了一篇長文,產(chǎn)生了長久的影響(他很早就在麻省理工學(xué)院從事機(jī)器翻譯研究,并于1952年組織了第一次機(jī)器翻譯國際會(huì)議)。他認(rèn)為由于語義歧義的存在,通用的高質(zhì)量全自動(dòng)機(jī)器翻譯理論上是不可能的(Bar-Hillel 1960)。他通過一個(gè)他所謂的再簡單不過的例子來說明其觀點(diǎn):
The box was in the pen.
“pen”至少有兩個(gè)意思:“鋼筆”和“圍欄”。在如下語境中,人可以輕而易舉地確定其中的“pen”的意思應(yīng)該為“圍欄”:
Little John was looking for his toy box. Finally he found it. The box was in the pen.(盒子在圍欄里)John was very happy. (句1)
對比:
The pen was in the box. (鋼筆在盒子里)
他斷言,任何機(jī)器翻譯系統(tǒng)對此都會(huì)束手無策。原因在于,機(jī)器要處理好這個(gè)情形,至少需要補(bǔ)充兩個(gè)手段:第一,上下文需要從“WW建議”(1)中的句子擴(kuò)展到篇章,因此而增加的語言分析無窮的復(fù)雜性是機(jī)器無法處理的;第二,需要關(guān)于大千世界的系統(tǒng)性的形式化知識(shí),而這在當(dāng)時(shí)完全是空白,也是難以想象的。
那時(shí)還出現(xiàn)了一個(gè)后來廣為流傳的“故事”。1962年,John A. Kouwenhoven在美國的Harpers Magazine上發(fā)表了一篇題目為《翻譯的困擾》的文章,講到當(dāng)時(shí)有人將《馬太福音》中的英語成語經(jīng)過機(jī)器翻譯成俄文,再將其譯回英語:
The spirit is willing but the flesh is weak. (句2)
(直譯:精神是愿意的,肉體卻是虛弱的。意譯:心有余而力不足)
經(jīng)過機(jī)器翻譯成俄文,再把它翻譯回英語,得到了令人啼笑皆非的結(jié)果:
The Vodka is good but the meat is rotten.
(伏特加酒是好的,但肉卻腐爛了)
錯(cuò)誤的產(chǎn)生來自該成語中存在的詞匯歧義現(xiàn)象,如“flesh”有“肉體,情欲,(動(dòng)物或人的)肉,果肉”的意思,“rotten”有“腐爛的,惡臭的,墮落的,(巖石等)風(fēng)化的,虛弱的,無用的”等意思。雙語詞典查找策略很容易會(huì)被迷惑。
馮志偉(2008)質(zhì)疑并否定了這個(gè)“故事”的真實(shí)性。但它也確實(shí)從一個(gè)側(cè)面反映了那個(gè)時(shí)期人們對機(jī)器翻譯任務(wù)艱巨性的某種認(rèn)識(shí)。
接下來發(fā)生的一件事便是上述理性認(rèn)識(shí)合乎邏輯的發(fā)展結(jié)果。1964年,美國科學(xué)院和美國國家研究理事會(huì)成立了“語言自動(dòng)處理咨詢委員會(huì)”(Automatic Language Processing Advisory Committee,簡稱ALPAC),對機(jī)器翻譯的進(jìn)展?fàn)顩r,尤其是對過去十余年美國國防部、國家科學(xué)基金會(huì)和中央情報(bào)局重金資助的相關(guān)項(xiàng)目的執(zhí)行效果,進(jìn)行了系統(tǒng)的調(diào)研和評估。1966年11月,ALPAC發(fā)布了題為《語言與機(jī)器:翻譯和語言學(xué)視角下的計(jì)算機(jī)》的報(bào)告,即著名的ALPAC報(bào)告。報(bào)告正文不長,只有30來頁,但提供了長達(dá)90頁的20個(gè)附件,應(yīng)該說態(tài)度是非常嚴(yán)謹(jǐn)?shù)?。?bào)告(也被稱為“黑皮書報(bào)告”)給出了兩個(gè)基本結(jié)論:第一,對全自動(dòng)機(jī)器翻譯持基本否定的態(tài)度,認(rèn)為在可預(yù)期的將來,不可能達(dá)到與人工翻譯相比更為快速、高質(zhì)量、經(jīng)濟(jì)的目標(biāo),轉(zhuǎn)而建議應(yīng)該支持更為現(xiàn)實(shí)的機(jī)器輔助翻譯;第二,機(jī)器翻譯遇到了難以克服的“語義屏障”問題,應(yīng)該加強(qiáng)對計(jì)算語言學(xué)(Computational Linguistics)的支持。ALPAC報(bào)告的影響是深遠(yuǎn)的,以致美國政府對機(jī)器翻譯的支持幾乎都停止了,而且一停就是十年,世界范圍內(nèi)機(jī)器翻譯熱潮也突然消失了,從第一個(gè)波峰深深地跌入了波谷。
機(jī)器翻譯遇到如此大的挫折,其實(shí)是無可避免的:第一,那時(shí)的人們過于迷信計(jì)算機(jī)強(qiáng)大的計(jì)算能力和存儲(chǔ)能力,嚴(yán)重低估了人類語言的復(fù)雜性,從“不知深淺”到碰壁而“知深淺”是繞不過去的認(rèn)識(shí)過程;第二,在方法論和核心技術(shù)的大方向上出現(xiàn)了是否具可行性的問題,“WW建議”之(2)和(4)是人類分析之所長,但恰恰是機(jī)器分析之所短。機(jī)器翻譯研究后來幾乎完全“改弦更張”到“WW建議”之(1)和(3)的方向上,應(yīng)該說是碰壁后深刻反思的必然產(chǎn)物。
(三)波瀾不驚水長流(1967—1989)
這一時(shí)期機(jī)器翻譯研究的中心從美國轉(zhuǎn)移到了加拿大和歐洲。持續(xù)不衰的動(dòng)力來自兩者對機(jī)器翻譯的強(qiáng)烈需求:加拿大的雙文化政策迫切需要英法翻譯,歐盟官方的所有科學(xué)、技術(shù)和管理文件都應(yīng)翻譯成所屬國家的任何一種語言,迫切需要多語言翻譯。由于沒有新的重大學(xué)術(shù)思想出現(xiàn),所采用的方法論和核心技術(shù)基本上還是在“WW建議”之(2)和(4)的框架下進(jìn)行,即基于規(guī)則的方法以及基于“中間語言”的方法,當(dāng)然在這個(gè)方向上的研究深度仍在不斷增加。研究積淀開始在商業(yè)上產(chǎn)生回報(bào),如1968年成立的SYSTRAN公司,其機(jī)器翻譯系統(tǒng)1979年被成功應(yīng)用于美國空軍,實(shí)際用于俄英翻譯,1976年被應(yīng)用于歐盟,實(shí)際用于英法翻譯,后來還被安裝在北約和國際原子能機(jī)構(gòu)等。再如,加拿大蒙特利爾大學(xué)研發(fā)的 METEO英-法機(jī)器翻譯系統(tǒng),1977年被成功用于翻譯天氣預(yù)報(bào)文檔。值得一提的是,20世紀(jì)80年代機(jī)器翻譯在日本掀起了一次“小高潮”。在1982年日本提出“五代機(jī)”計(jì)劃的大背景下,不少日本大企業(yè)紛紛投資開展機(jī)器翻譯的研發(fā)。
期間也有個(gè)別新的方法被提出,如Nagao (1984)基于實(shí)例的機(jī)器翻譯方法(翻譯模型所需要的實(shí)例需要從語料庫中獲得)。
(四)兩個(gè)連環(huán)沖擊形成的第二次波峰(1990年至今)
1990年在芬蘭赫爾辛基召開的第13屆國際計(jì)算語言學(xué)大會(huì)提出了處理大規(guī)模真實(shí)文本的戰(zhàn)略任務(wù),開啟了語言計(jì)算的一個(gè)新的歷史階段——基于大規(guī)模語料庫的統(tǒng)計(jì)自然語言處理。在此潮流的帶動(dòng)下,機(jī)器翻譯領(lǐng)域先后推出了兩種新的方法論和核心技術(shù),從而涌現(xiàn)了兩個(gè)沖擊波,連環(huán)形成了機(jī)器翻譯歷程中的第二次波峰。這次波峰的影響是革命性的,導(dǎo)致機(jī)器翻譯的性能實(shí)現(xiàn)了質(zhì)的飛躍,并且開辟了基于互聯(lián)網(wǎng)的開放式服務(wù)的新天地。
1. 第一個(gè)沖擊波——統(tǒng)計(jì)機(jī)器翻譯模型
其標(biāo)志性方法是著名的IBM模型1-5,與以前的相比,具有顛覆性(Brown et al. 1993)。基本思想是基于香農(nóng)信息論中針對編解碼的“噪聲信道模型”,幾乎完全依賴大規(guī)模雙語語料庫,通過詞對齊、短語對齊等手段,來自動(dòng)構(gòu)造統(tǒng)計(jì)機(jī)器翻譯模型,而不再需要規(guī)則集(因而與語言學(xué)研究越離越遠(yuǎn))。這種方法具有廣泛的一般性,與具體語種無關(guān),機(jī)器翻譯系統(tǒng)的設(shè)計(jì)者可以完全不懂相關(guān)的語言,大規(guī)模雙語語料庫成了關(guān)鍵,成了一切。正如著名的機(jī)器翻譯學(xué)者(也是后來Google Translate的設(shè)計(jì)者)Och模仿阿基米德的口吻所聲稱的那樣,“只要給我充分的并行語言數(shù)據(jù),那么,對于任何兩種語言,我就可以在幾小時(shí)之內(nèi)給你構(gòu)造出一個(gè)機(jī)器翻譯系統(tǒng)”。較之基于規(guī)則的系統(tǒng),機(jī)器翻譯的性能得以顯著提升,很快催生了谷歌、百度等公司的互聯(lián)網(wǎng)機(jī)器翻譯系統(tǒng)(并且很容易就實(shí)現(xiàn)了數(shù)十個(gè)語言對之間的翻譯)。
這里淋漓盡致地展示了大數(shù)據(jù)乃至大數(shù)據(jù)思維的力量:人類的翻譯知識(shí)和經(jīng)驗(yàn)其實(shí)已經(jīng)最大限度地“隱式”地反映在極大規(guī)模的雙語語料庫中了。統(tǒng)計(jì)機(jī)器翻譯模型不需要人的任何幫助和介入,就可以有效挖掘和利用這些知識(shí)。
2. 第二個(gè)沖擊波——神經(jīng)機(jī)器翻譯模型
統(tǒng)計(jì)機(jī)器翻譯模型基本上是回歸到“WW建議”之(1)和(3)的方向上,但就計(jì)算模型本身而言,是比較經(jīng)典的。2014年前后,第二個(gè)沖擊波——基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法(神經(jīng)機(jī)器翻譯模型)接踵而至(Bahdanau et al. 2014;Sutskever et al. 2014)。這一次輪到與統(tǒng)計(jì)機(jī)器翻譯方法相比較了,前面那句話依然有效:具有顛覆性。機(jī)器翻譯的性能再次得以顯著提升,其標(biāo)志是:谷歌、百度已將其互聯(lián)網(wǎng)開放服務(wù)更新?lián)Q代為神經(jīng)機(jī)器翻譯系統(tǒng)。這就有了前面說的谷歌的轟動(dòng)效應(yīng)。
盡管神經(jīng)機(jī)器翻譯模型的內(nèi)涵與統(tǒng)計(jì)機(jī)器翻譯模型已經(jīng)全然不同,其機(jī)理初看上去甚至難以理喻,但從外部特性來看,它們的基本點(diǎn)是完全一致的:第一,神經(jīng)機(jī)器翻譯模型具有更加廣泛的一般性(與語言學(xué)研究幾乎徹底分道揚(yáng)鑣);第二,更加體現(xiàn)了大數(shù)據(jù)和大數(shù)據(jù)思維的力量。此外,神經(jīng)機(jī)器翻譯模型比統(tǒng)計(jì)機(jī)器翻譯模型更需要極其強(qiáng)大的計(jì)算能力的支持。
三、思考:機(jī)器翻譯乃至
自然語言處理的發(fā)展策略
縱觀機(jī)器翻譯近70年的歷程,有一種十分強(qiáng)烈的感受:方法論和核心技術(shù)(及其模型)層面上的創(chuàng)新是機(jī)器翻譯取得重大進(jìn)步的根本原因(如統(tǒng)計(jì)或神經(jīng)機(jī)器翻譯模型),而創(chuàng)新的“物質(zhì)基礎(chǔ)”是一類特殊的大數(shù)據(jù)——雙語語料庫。
在為機(jī)器翻譯經(jīng)過一波三折而終于取得驕人成績而感到欣慰的同時(shí),也無可避免地產(chǎn)生了另外一種十分強(qiáng)烈的感受:在獨(dú)領(lǐng)風(fēng)騷的互聯(lián)網(wǎng)大公司的壓迫下,高校的相關(guān)研究淪落到了很難有所作為的尷尬境地。這是由于:
第一,神經(jīng)機(jī)器翻譯模型是一種通用的計(jì)算裝置。它基本上是帶attention機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò),最適合處理所謂“序列到序列”的問題,如機(jī)器翻譯中源語言的句子和對應(yīng)的目標(biāo)語言的句子就構(gòu)成了一個(gè)序列對。目前看來,這個(gè)模型的性能是極為強(qiáng)大的,蓋過了其他所有模型。我們以往在計(jì)算語言學(xué)和語言學(xué)研究上積累起來的經(jīng)驗(yàn),變得完全不起作用(至少是暫時(shí)),相關(guān)優(yōu)勢喪失殆盡。
第二,雙語語料庫的規(guī)模決定了神經(jīng)機(jī)器翻譯模型的性能。高校由于工程能力的限制,其雙語語料庫的獲得能力顯然會(huì)遠(yuǎn)小于互聯(lián)網(wǎng)大公司。
第三,設(shè)計(jì)并訓(xùn)練出一個(gè)神經(jīng)機(jī)器翻譯模型需要強(qiáng)大無比的計(jì)算能力,需要反復(fù)摸索。高校的計(jì)算能力通常會(huì)比互聯(lián)網(wǎng)大公司低1—2個(gè)數(shù)量級,導(dǎo)致高校的相關(guān)試驗(yàn)手段嚴(yán)重缺失,無法進(jìn)行高烈度的試驗(yàn)。
上述各點(diǎn)決定了高校對神經(jīng)機(jī)器翻譯模型在技術(shù)上的理解一般來說不會(huì)超過互聯(lián)網(wǎng)大公司。加之互聯(lián)網(wǎng)大公司能高薪延攬到全世界的一流人才,并且全天候投身于研發(fā)工作。這一點(diǎn)上顯著優(yōu)越于高校。換言之,高校在“模型、大數(shù)據(jù)、計(jì)算能力”這三個(gè)關(guān)鍵要素上都處于明顯的劣勢。那么,對國內(nèi)研究單位來說,機(jī)器翻譯接下來的出路在哪里呢?
首先,要下大力氣盡快解決基礎(chǔ)條件問題:(1)要建設(shè)一個(gè)國家級的大規(guī)模深度學(xué)習(xí)計(jì)算平臺(tái),解決計(jì)算能力問題;(2)要建設(shè)一個(gè)國家級的高質(zhì)量的雙語語料庫(雖然在規(guī)模上不太可能比過互聯(lián)網(wǎng)大公司,但我們可以更多地關(guān)注于搜集高質(zhì)量的雙語語料庫,解決訓(xùn)練用高質(zhì)量大數(shù)據(jù)問題)。
其次,要在有特色的方法創(chuàng)新上下功夫,解決模型問題。這里面又有三層意思:
(1)對通用神經(jīng)機(jī)器翻譯模型進(jìn)行創(chuàng)新或改造。
我們不妨掉過頭看一下谷歌的GNMT對前文提及的歷史上著名例句的翻譯結(jié)果。首先輸入句2:
對句2輸出的漢語譯文:精神是愿意的,但肉體是軟弱的。
從漢語譯文再翻譯成英語:The spirit is willing, but the flesh is weak.
對句2輸出的俄語譯文:Дух бодр, но плоть слаба.
從俄語譯文再翻譯成英語:The spirit indeed is willing, but the flesh is weak.
對句2輸出的苗語譯文:Tus ntsuj plig yog kam, tab sis lub cev nqaij daim tawv yog tsis muaj zog.
從苗語譯文再翻譯成英語:The spirit is willing, but the flesh is weak.
我們無從判斷其相應(yīng)的俄語和苗語譯文是否正確。但從一個(gè)翻譯來回得到與原句幾乎完全一致的結(jié)果來看,GNMT的表現(xiàn)確實(shí)可圈可點(diǎn)。
接著我們輸入句1,GNMT輸出的譯文為:
約翰正在尋找他的玩具盒。最后他發(fā)現(xiàn)了。箱子在鋼筆。約翰很高興。
“pen”還是翻譯錯(cuò)了??梢?,GNMT尚沒有考慮篇章分析和對世界知識(shí)的處理。在這個(gè)方面,我們應(yīng)該還有機(jī)會(huì)。當(dāng)然,這要取決于我們的模型創(chuàng)新能力到底有多強(qiáng)。
(2)對通用神經(jīng)機(jī)器翻譯模型進(jìn)行完善。
譬如,盡管GNMT對未登陸詞專門進(jìn)行了處理,但測試下來,感到仍有較大改進(jìn)空間。
輸入:嚴(yán)肅是個(gè)好同志。
輸出的英語譯文:Serious is a good comrade.
再如,譯文一致性也是一個(gè)問題。輸入:
他在翻譯泰戈?duì)柕摹讹w鳥集》。
他在吟誦泰戈?duì)柕摹讹w鳥集》。
他在翻譯《飛鳥集》。
GNMT輸出的英語譯文分別為:
He translated Tagores Flying Birds collection.
He chanted Tagores Flying Birds.
He is in the translation of “birds”.
這實(shí)際上碰到了神經(jīng)網(wǎng)絡(luò)模型的軟肋,是不容易解決的。
(3)對特定條件下的神經(jīng)機(jī)器翻譯模型進(jìn)行全新設(shè)計(jì)。
如“一帶一路”所涉及的語言幾乎都屬于所謂的“資源貧乏語言”。通常只能搜集到小規(guī)模的雙語語料庫,并且多為黏著語,都面臨著詞法分析問題,而我們往往不懂這些語言。經(jīng)典的神經(jīng)機(jī)器翻譯模型肯定是不適用的。是否可能在只有一個(gè)常用雙語詞典、小規(guī)模雙語語料庫、較大規(guī)模單語語料庫以及基于無監(jiān)督詞法分析(甚至不做詞法分析)的條件下,設(shè)計(jì)一個(gè)有效的神經(jīng)機(jī)器翻譯模型,絕對是對我們模型創(chuàng)新能力的一大考驗(yàn)。
現(xiàn)在我們把視野從機(jī)器翻譯擴(kuò)大到自然語言處理。自然語言處理肇始于機(jī)器翻譯,機(jī)器翻譯是自然語言處理的核心組成之一,歷史上自然語言處理的發(fā)展歷程與機(jī)器翻譯幾乎是一致的(馮志偉 2011),兩者相輔相成。如1990年也是自然語言處理“斷代”的分水嶺,之前是基于規(guī)則的所謂“理性主義”方法論,之后便變成了基于統(tǒng)計(jì)的所謂“經(jīng)驗(yàn)主義”方法論。自然語言處理目前的研究熱點(diǎn)同樣也是基于深度神經(jīng)網(wǎng)絡(luò)的方法。所以本節(jié)針對機(jī)器翻譯的一些討論,在原則上對自然語言處理也是管用的。當(dāng)然,具體策略要根據(jù)自然語言處理的具體任務(wù)有所變化。例如:訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的句法分析模型,需要大規(guī)模的句法標(biāo)注語料庫(此時(shí)就沒有機(jī)器翻譯那么幸運(yùn)了,在那里從生語料庫中可以天然地得到序列對,而這里必須經(jīng)過人工標(biāo)注才能得到)。所以人工標(biāo)注策略可能有必要進(jìn)行調(diào)整。標(biāo)記集的設(shè)計(jì)不一定很復(fù)雜,應(yīng)足夠簡潔,以方便人工在最短時(shí)間內(nèi)標(biāo)注出相當(dāng)規(guī)模的句法標(biāo)注語料庫。
以上構(gòu)成了未來幾年我們在機(jī)器翻譯和自然語言處理領(lǐng)域應(yīng)當(dāng)采取的基本策略。
注 釋
① 圖引自Le&Schuster(2016)。
② “WW建議”之(1)和(3)是相關(guān)的,(2)和(4)也是相關(guān)的。
參考文獻(xiàn)
馮志偉 2008 《一個(gè)關(guān)于機(jī)器翻譯的史料錯(cuò)誤》,《香港語文建設(shè)通訊》第89期。
馮志偉 2011 《計(jì)算語言學(xué)的歷史回顧與現(xiàn)狀分析》,《外國語》第1期。
劉涌泉 1959 《我國機(jī)器翻譯工作的進(jìn)展》,《科學(xué)通報(bào)》第17期。
劉涌泉 1963 《機(jī)器翻譯和文字改革(上)》,《文字改革》第2期。
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. 2014. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473v6 [cs.CL] 24 Apr 2015.
Bar-Hillel, Yehoshua. 1960. The Present Status of Automatic Translation of Languages. Advances in Computers 1, 91-163.
Brown, Peter E., Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics 19(2), 263-311.
Hutchins, W. John. 1995. Machine Translation: A Brief History. In E. F. K. Koerner and R. E Asher (eds.), Concise History of the Language Sciences: From the Sumerians to the Cognitivists. Oxford: Pergamon Press.
Le, Quoc V. and Mike Schuster. 2016. Neural Network for Machine Translation, at Production Scale. n.d. Sep. 27, 2016. https://research.googleblog.com/2016/09/a-neural-network-for-machine.htm.
Nagao, Makoto. 1984. Framework of a Mechanical Translation between Japanese and English by Analogy Principle. Artificial and Human Intelligence. Amsterdam: Elsevier Science Publishers.
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems 4, 3104-3112.
Weaver, Warren. 1955. Translation. In William N. Locke and Andrew Donald Booth (eds.), Machine Translation of Languages: Fourteen Essays. Cambridge: MIT Press.
Wu, Yonghui, Mike Schuster, Zhifeng Chen et al. 2016. Googles Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144v2 [cs.CL] 8 Oct 2016.
責(zé)任編輯:劉玥妍