王海峰,吳 華,劉占一
(百度,北京 100085)
語言是人類進行交流的工具,而語言不通則阻礙著人們之間的交流。于是,人類在克服語言交流障礙的過程中發(fā)展了語言之間的翻譯,并產(chǎn)生了翻譯學(xué)。而用機器來幫助甚至替代人工翻譯也是人類長久以來的一個夢想。最原始的機器翻譯思想可以追溯到17世紀(jì)關(guān)于機械詞典的構(gòu)想。Weaver 1949年的著名備忘錄則標(biāo)志基于現(xiàn)代計算機的機器翻譯正式登上歷史舞臺。機器翻譯既涉及到人類對自身語言和思維方式的認(rèn)知,又涉及到人工智能、信息論、知識工程、軟件工程等很多技術(shù)領(lǐng)域,是一個交叉性很強的學(xué)科。機器翻譯的發(fā)展,既需要基于很多學(xué)科的綜合發(fā)展,同時又有自身的發(fā)展規(guī)律,形成了獨立的學(xué)科體系。
隨著互聯(lián)網(wǎng)的發(fā)展和經(jīng)濟全球化時代的到來,克服語言障礙、實現(xiàn)跨語言自由溝通的需求日益凸顯。而語言障礙使大多數(shù)用戶從網(wǎng)上獲取信息的廣度、深度和速度受到嚴(yán)重制約。而研制先進的機器翻譯技術(shù),并實現(xiàn)機器翻譯產(chǎn)品的規(guī)?;瘧?yīng)用,對機器翻譯技術(shù)提出了新的挑戰(zhàn)。
本文將在簡要回顧機器翻譯發(fā)展史的基礎(chǔ)上,論述現(xiàn)有的機器翻譯方法,然后探討互聯(lián)網(wǎng)機器翻譯的挑戰(zhàn)和技術(shù)路線。首先結(jié)合互聯(lián)網(wǎng)上雙語和單語資源特點和互聯(lián)網(wǎng)機器翻譯的應(yīng)用需求,提出了互聯(lián)網(wǎng)混合機器翻譯方法、資源挖掘和過濾及分布式處理技術(shù)、領(lǐng)域自適應(yīng)技術(shù),并針對數(shù)據(jù)稀疏論述樞軸語言技術(shù)和新語種快速部署技術(shù);然后結(jié)合翻譯技術(shù)與搜索技術(shù),論述翻譯個性化特點和方案。最后,分別論述機器翻譯技術(shù)和機器翻譯產(chǎn)品的應(yīng)用。
發(fā)展至今,機器翻譯經(jīng)歷了1954年之前的草創(chuàng)期、1954~1966年的高期望期、1967~1976年的沉寂期、1976~1989年的復(fù)蘇期、以及1989年之后的發(fā)展期等五個不同的歷史時期。首先研發(fā)的是基于規(guī)則的機器翻譯技術(shù),包括早期的以詞典為驅(qū)動,輔以較低層次上的語法分析和語義特征的使用,以及70年代中期開始的面向句法、基于規(guī)則的轉(zhuǎn)換策略。80年代末開始,在國際交流日益增多的環(huán)境下,在計算機、互聯(lián)網(wǎng)等相關(guān)技術(shù)日新月異的基礎(chǔ)上,機器翻譯技術(shù)與應(yīng)用也取得了蓬勃發(fā)展。技術(shù)方面,理性主義的基于規(guī)則的機器翻譯方法仍在不斷發(fā)展完善,經(jīng)驗主義的基于語料庫的機器翻譯方法也開始出現(xiàn)并迅速發(fā)展。應(yīng)用方面,隨著需求分析的不斷深入、產(chǎn)品定位的逐漸明確,機器翻譯產(chǎn)品也在不斷為更多用戶所接受,在很多領(lǐng)域真正走向了實用。我國機器翻譯研究始于1957年,并于1959年完成俄漢機譯實驗。以后20多年時間里,機器翻譯研發(fā)在我國進展緩慢,直至70年代末開始復(fù)蘇并逐漸走向繁榮。并同樣經(jīng)過了基于規(guī)則方法、基于語料庫方法以及多種方法相融合的發(fā)展歷程。
從90年代中期開始,隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)上多語資源的出現(xiàn)使得用戶對機器翻譯的需求日益增長,比如早期Google采用了基于規(guī)則的Systran系統(tǒng)翻譯網(wǎng)頁內(nèi)容,旨在解決用戶獲取信息的廣度。同時隨著統(tǒng)計機器翻譯技術(shù)的發(fā)展,以及互聯(lián)網(wǎng)上雙語資源的涌現(xiàn),使得統(tǒng)計翻譯技術(shù)得到長足的發(fā)展,統(tǒng)計翻譯技術(shù)以其優(yōu)越的自動學(xué)習(xí)能力以及魯棒性迅速為互聯(lián)網(wǎng)機器翻譯系統(tǒng)所采納,如百度、Google、Bing、有道等都研發(fā)了互聯(lián)網(wǎng)機器翻譯系統(tǒng)以滿足用戶多語言翻譯需求。同時隨著SNS(Social Network Service)、電子商務(wù)的普及,對互聯(lián)網(wǎng)機器翻譯的需求日益高漲,機器翻譯技術(shù)和產(chǎn)品也隨之蓬勃發(fā)展。
廣義地講,機器翻譯涉及自然語言處理技術(shù)的方方面面,幾乎所有自然語言處理方面的研究成果都可以或直接或間接的應(yīng)用于機器翻譯。狹義地講,機器翻譯方法通常可以分為三類: 基于規(guī)則的機器翻譯(Rule-Based Machine Translation,RBMT)、基于實例的機器翻譯(Example-Based Machine Translation,EBMT)和統(tǒng)計機器翻譯(Statistical Machine Translation,SMT),其中后兩種方法又可以統(tǒng)稱為基于語料庫的方法(Corpus-based Machine Translation,CBMT)。
基于規(guī)則的翻譯方法認(rèn)為翻譯的過程是需要對源語言進行分析并對源語言意義進行表示、然后再生成等價的目標(biāo)語言的過程,該方法從70年代中期開始到80年代末在機器翻譯界一直占有主導(dǎo)地位。一個大型的基于規(guī)則的商品化機器翻譯系統(tǒng),不僅要解決機器翻譯方法論問題,還要從知識工程和軟件工程的角度將系統(tǒng)組織好,其中的規(guī)則往往是多層次、細(xì)粒度的。規(guī)則層次和知識粒度的細(xì)化,可以有效控制規(guī)則之間的相互影響與沖突,并使規(guī)則系統(tǒng)具有良好的可擴展性。
基于實例的機器翻譯的本質(zhì)是“以翻譯實例為基礎(chǔ),基于相似原理的機器翻譯”。翻譯實例可以不經(jīng)過任何加工以本來面目存儲,也可以表示成完全結(jié)構(gòu)化的形式,而近來的研究表明,半結(jié)構(gòu)化的翻譯實例表示方法在翻譯實例的預(yù)處理難度、翻譯的時空效率以及翻譯質(zhì)量之間找到了一個良好的平衡點[1]。另一個在原理上與基于實例的機器翻譯非常相似的技術(shù)是翻譯記憶( Translation Memory),該技術(shù)看中的是計算機對人的輔助,本質(zhì)上是一種輔助翻譯,它從實例庫中檢索出相似的翻譯實例,以一種友好的形式提交給用戶,從而達(dá)到幫助用戶翻譯的目的。近年來,翻譯記憶技術(shù)也在越來越多的融合各種自動翻譯技術(shù)[2]。
統(tǒng)計機器翻譯也是基于雙語語料庫的,但與基于實例的方法在翻譯過程中直接使用翻譯實例不同,統(tǒng)計方法通過事先的訓(xùn)練過程將雙語語料庫中隱含的翻譯知識抽象成統(tǒng)計模型,而翻譯過程通常就是基于這些統(tǒng)計模型的解碼過程[3]。統(tǒng)計機器翻譯中使用的統(tǒng)計模型通常包括翻譯模型和語言模型。相比于語言模型和解碼,翻譯模型是目前統(tǒng)計機器翻譯研究中涉及最多的內(nèi)容。一般的,翻譯模型可以分為基于詞的模型[3]、基于短語的模型[4]和基于語法的模型[5-6]三種。目前,基于短語和基于語法的模型性能已經(jīng)明顯優(yōu)于基于詞的模型。
雖然統(tǒng)計方法由于其良好的數(shù)學(xué)模型、無指導(dǎo)的學(xué)習(xí)能力、良好的魯棒性等優(yōu)點而備受重視,但規(guī)則方法對語言規(guī)律良好的概括和描述能力及實例方法對相似句子相當(dāng)精確的翻譯也無疑是頗有價值的。事實上,多種方法相融合的機器翻譯策略正在成為機器翻譯發(fā)展的重要方向,如規(guī)則和統(tǒng)計方法結(jié)合[7],實例和統(tǒng)計方法結(jié)合[8],基于短語和基于句法統(tǒng)計翻譯方法結(jié)合[9]等。
圖1 互聯(lián)網(wǎng)機器翻譯特點和技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)了海量的雙語或多語資源,使得經(jīng)驗主義的翻譯方法尤其是統(tǒng)計機器翻譯技術(shù)得到了迅猛的發(fā)展。隨著雙語資源和單語資源的增加,翻譯質(zhì)量也隨著提高,然而互聯(lián)網(wǎng)上的資源來源非常復(fù)雜,質(zhì)量參差不齊,并且動態(tài)更新,因此獲得高質(zhì)量和時效性資源是機器翻譯質(zhì)量的一個保障。此外,盡管互聯(lián)網(wǎng)上資源豐富,但是領(lǐng)域分布不均,部分領(lǐng)域的雙語資源豐富,而有些領(lǐng)域的雙語資源缺乏;對于一些語言對來說,同樣存在數(shù)據(jù)稀疏的問題??傮w上,互聯(lián)網(wǎng)上資源具有以下四個特點: 海量、高噪聲、稀疏、動態(tài)。此外,互聯(lián)網(wǎng)上翻譯需求復(fù)雜,有瀏覽信息、交流信息、發(fā)布信息、檢索信息等多種需求,而這些需求需要實時快速滿足,對機器翻譯速度和質(zhì)量都提出了更高的要求。
針對互聯(lián)網(wǎng)資源和翻譯的特點和挑戰(zhàn),我們從語料處理、模型技術(shù)、翻譯方法三個方面探討解決方案,如圖1所示。首先,根據(jù)互聯(lián)網(wǎng)機器翻譯的特點,論述互聯(lián)網(wǎng)機器翻譯策略;然后針對互聯(lián)網(wǎng)資源特點,介紹資源挖掘和過濾及分布式處理技術(shù)、領(lǐng)域自適應(yīng)技術(shù)、樞軸語言技術(shù)和新語種快速部署技術(shù),最后與搜索技術(shù)結(jié)合,闡述翻譯個性化特點和方案。
互聯(lián)網(wǎng)上海量資源的存在,促進了統(tǒng)計機器翻譯技術(shù)的發(fā)展,使得機器翻譯質(zhì)量得到了提高。由于統(tǒng)計機器翻譯技術(shù)具有較強的模型學(xué)習(xí)能力、新語言的快速部署能力、優(yōu)越的魯棒性等優(yōu)點,大多數(shù)多語言互聯(lián)網(wǎng)機器翻譯系統(tǒng)都采用統(tǒng)計機器翻譯技術(shù),如百度、Google、Bing、有道等。然而統(tǒng)計機器翻譯的缺點也很突出,主要體現(xiàn)在兩個方面: 長距離調(diào)序能力弱和翻譯邏輯性差。為了解決以上問題,在基于詞和基于短語的統(tǒng)計機器翻譯方法的基礎(chǔ)上,引入了句法信息[5-6,9-10],旨在解決長距離調(diào)序并增加譯文可讀性。盡管長距離調(diào)序得到改善,但是純粹的基于句法的統(tǒng)計機器翻譯方法由于受雙源語言和目標(biāo)語言語法結(jié)構(gòu)不一致性的影響,翻譯質(zhì)量沒有大踏步地提高。為了進一步提高機器翻譯質(zhì)量,融合基于句法和基于短語的統(tǒng)計機器翻譯方法應(yīng)運而生[11]。
盡管統(tǒng)計翻譯方法在學(xué)術(shù)界和工業(yè)界目前都占有主導(dǎo)位置,但對需要意譯的內(nèi)容或者模式化的翻譯,統(tǒng)計機器翻譯結(jié)果精確度沒有基于規(guī)則和基于實例翻譯結(jié)果精度高。比如漢語中的“把”字句,對于“他把房間布置的漂亮極了。”這句話,就很難用統(tǒng)計機器翻譯的方法進行完美的翻譯,通常情況下,“把”字句中詞對齊很混亂,但是用模板或規(guī)則的方法就比較容易解決。目前已經(jīng)有一些研究工作把翻譯記憶方法與統(tǒng)計翻譯方法進行了有機的結(jié)合,提高了翻譯質(zhì)量[12-13]。規(guī)則方法和統(tǒng)計翻譯方法的結(jié)合主要集中在用統(tǒng)計方法對規(guī)則翻譯方法進行前處理或者后處理[14]以及把規(guī)則系統(tǒng)翻譯后的資源融入統(tǒng)計翻譯系統(tǒng)中[7];而更深次的結(jié)合非常必要,如在統(tǒng)計方法中加入結(jié)構(gòu)規(guī)則知識、翻譯模板等。因此,在互聯(lián)網(wǎng)環(huán)境下,機器翻譯需要采用混合翻譯技術(shù),以統(tǒng)計翻譯為主,基于規(guī)則和實例翻譯為輔的翻譯策略,并進行深度結(jié)合,來滿足用戶多樣化的翻譯需求。
互聯(lián)網(wǎng)上雙語和多語資源豐富,但格式多樣且包含多種噪聲,獲得高質(zhì)量的雙語資源需要解決以下幾個技術(shù): 面向互聯(lián)網(wǎng)的大規(guī)模多語言網(wǎng)頁爬行器、高效的雙語資源探測技術(shù)、面向互聯(lián)網(wǎng)開放文本的雙語多層次的自動對齊技術(shù)、面向高噪聲雙語資源的語料評估和過濾技術(shù)。
面向互聯(lián)網(wǎng)的大規(guī)模多語言網(wǎng)頁爬行器必須適用于各種類型的網(wǎng)站結(jié)構(gòu)和網(wǎng)頁類型的爬取,并行處理并在合理時間內(nèi)覆蓋網(wǎng)絡(luò)上絕大部分雙語資源;高效的雙語資源探測技術(shù)主要探測雙語資源,進行語言識別,并進行基于詞典等資源的初步雙語資源質(zhì)量評估。
面向互聯(lián)網(wǎng)開放文本的雙語多層次的自動對齊技術(shù)主要解決在高噪聲語料中的篇章對齊、段落對齊、句子對齊、和詞對齊技術(shù)。對于分布于不同網(wǎng)頁中的可比語料,首先進行兩個或多個篇章的對齊,主要采用的方法有基于跨語言信息檢索的網(wǎng)頁相似度計算方法、基于主題模型如PLSA(Probabilistic Latent Semantic Analysis)[15]和LDA(Latent Dirichlet Allocation)[16]等的相似度計算方法。篇章對齊以后,需要進行段落對齊和句子對齊,所采用的方法取決于篇章平行程度,對于基本互為對譯的網(wǎng)頁或文檔,可以采用基于動態(tài)規(guī)劃的段落和句對齊方法[17];對于平行程度比較低的篇章,如新聞和百科語料,采用機器學(xué)習(xí)方法直接進行句對齊[18]。
面向高噪聲雙語資源的語料評估和過濾技術(shù)主要包括雙語網(wǎng)站和網(wǎng)頁評估、句對評估、語料過濾。在網(wǎng)絡(luò)上,存在很多高噪聲的英漢翻譯句對,如“How old are you? 怎么老是你?”,對于這樣的句對,用常規(guī)的對齊技術(shù)和翻譯概率方法來衡量,由于其翻譯概率很高而不能解決此類問題。另外,對于意譯程度比較高的高質(zhì)量句對如成語、詩詞等很容易被視為噪聲而被過濾掉。而擴展到網(wǎng)頁甚至網(wǎng)站,除了利用翻譯概率,可以充分借助搜索技術(shù)根據(jù)網(wǎng)頁結(jié)構(gòu)信息和關(guān)鍵詞等信息來判斷整個網(wǎng)頁或者網(wǎng)站的權(quán)威性,從整體上評估語料質(zhì)量。而句對評估主要是對單個句對進行評估,這些句對來源比較分散,無法通過網(wǎng)頁或網(wǎng)站權(quán)威性來評估。對于這樣分散的句對,除了利用翻譯概率、對齊片段信息以外,也可以利用頁面信息如標(biāo)題、正文、來源等特征以及網(wǎng)頁評估得到的訓(xùn)練集建立分類模型進行分類,結(jié)合規(guī)則和機器學(xué)習(xí)的方法來評估和過濾。
針對海量資源的特點,為了提高資源處理和模型的準(zhǔn)確性和高效性,可以采用兩種不同的方法: 分布式計算和建模、有損建模。機器翻譯相關(guān)分布式處理工具包括分布式詞對齊工具[19]、分布式翻譯模型訓(xùn)練如Chaksi[20]、分布式語言模型訓(xùn)練[21]。主要借助MapReduce方法利用機群高效無損的計算,從而提高語料處理精度。Qin Gao在600萬雙語語料上的實驗表明,利用MGIZA++和Chaksi能將速度提高大約8倍。 除了無損建模方法,也可以采用有損建模方法提高處理速度,這種方法在語言模型建模上有過很多嘗試,如布隆過濾器(Bloom Filter)[22]和完美哈希(Perfect Hash)[23]。布隆過濾器是一種空間效率很高的隨機數(shù)據(jù)結(jié)構(gòu),它利用位數(shù)組表示一個集合,并能判斷一個元素是否屬于這個集合.但這種高效是有代價的: 在判斷一個元素是否屬于某個集合時,有可能會把不屬于集合的元素誤認(rèn)為屬于,稱為單向誤識(false positive)。Talbot和Osborne后來又采用了平滑過的Bloom Fliter建立語言模型[24],并用于機器翻譯實驗中,實驗表明在翻譯質(zhì)量沒有明顯下降的情況下,語言模型可以壓縮至少16倍。
當(dāng)模型訓(xùn)練完成后,為了進一步減少模型體積、加快解碼速度,也可對模型進行進一步的壓縮和過濾。在語言模型和翻譯模型上都有一些有益的嘗試,如在語言模型上,采用相對熵裁剪[25]、量化等方法。在翻譯模型上,采用互信息、對數(shù)似然比、p-value等方法對翻譯模型過濾[26],在翻譯質(zhì)量沒有明顯下降的情況下模型體積縮減80%。
隨著社交網(wǎng)絡(luò)的興起,跨語言交流也越來越多,如Facebook、Twitter等國際化社交網(wǎng)絡(luò)上,用戶對時效性信息的需求日益增多,如世界性技術(shù)動態(tài)、社會動態(tài)、體育動態(tài)等。要準(zhǔn)確地翻譯這些信息,需要具備以下技術(shù): 時效性話題和資源探測、時效性資源有效挖掘、模型動態(tài)更新。
時效性話題或者熱點話題可通過互聯(lián)網(wǎng)或者微博等社交網(wǎng)站獲得,如在百度新聞主頁和新浪微博就可以獲取當(dāng)天熱點或時效性話題,但并不是每個話題都具有翻譯需求,如“世界杯”、“iPad2”等話題,這些話題為世界各地的人群所關(guān)注,而有些話題則較少為中國之外的人群所關(guān)注。對翻譯需求的甄別可以同時檢測本地化和國際化社交網(wǎng)站熱點話題、或從搜索熱點中檢測,如同時在新浪微博和Twitter中獲取熱點,共同關(guān)注的話題就可被認(rèn)為有潛在翻譯需求的熱點,這樣也同時獲取了時效性雙語和單語資源。此外,通過話題本身的性質(zhì),如采用基于內(nèi)容的機器學(xué)習(xí)方法,借助單語和雙語特征來識別一個話題是否具有翻譯需求。
時效性資源挖掘方面主要涉及雙語詞條的獲取或者可比語料的有效獲取,雙語專名詞條可以從微博等的熱點標(biāo)題中獲得,當(dāng)獲取雙語詞條后,可以獲取熱點話題的可比語料,從而采用4.2節(jié)描述的方法進行雙語句對的挖掘。
模型動態(tài)更新涉及在線學(xué)習(xí)(online learning),在線學(xué)習(xí)已被應(yīng)用于機器翻譯中,主要用于特征選擇和參數(shù)訓(xùn)練[27],解決參數(shù)的增量式訓(xùn)練問題。此外,在交互式翻譯系統(tǒng)中也需要進行在線學(xué)習(xí)[28],當(dāng)用戶反饋增加一個或一批新的雙語句對或短語對時,系統(tǒng)增量式地進行翻譯模型和語言模型的訓(xùn)練,以實時反饋用戶的需求。然而,以上方法都沒有考慮到當(dāng)時效性資源本身的權(quán)重,如何不被已有資源淹沒而起到提高翻譯質(zhì)量的作用是一個亟待解決的問題。
互聯(lián)網(wǎng)上語料來源復(fù)雜,內(nèi)容上往往屬于許多不同的領(lǐng)域,比如政治、經(jīng)濟、醫(yī)學(xué)、日常用語、用戶手冊等。而且每個領(lǐng)域語料分布不均,有的領(lǐng)域如政治經(jīng)濟、日常用語比較多,其他領(lǐng)域如規(guī)章合同等領(lǐng)域的語料規(guī)模相對小,因此規(guī)模小的語料容易被弱化,體現(xiàn)在增加語料的時候,翻譯質(zhì)量在各個領(lǐng)域的表現(xiàn)不一,此起彼伏,難以控制。同時,同一個詞在不同的領(lǐng)域中的翻譯不同,如英語中“bank”一詞,在經(jīng)濟、金融領(lǐng)域的語料中,大多翻譯為漢語的“銀行”,然而在地理領(lǐng)域,大多翻譯為“河岸”。再如,學(xué)術(shù)論文在用詞和句子結(jié)構(gòu)上往往與口語有較大區(qū)別,學(xué)術(shù)論文使用書面語,句子往往較長,專業(yè)詞匯較多;而口語句子往往較短,多為常用詞。對這些與語料領(lǐng)域相關(guān)的信息加以合理利用,能夠減少統(tǒng)計機器翻譯在學(xué)習(xí)翻譯知識時的噪音,從而提高翻譯的質(zhì)量。
雙語語料領(lǐng)域識別的方法主要有無監(jiān)督聚類、有監(jiān)督分類、半監(jiān)督學(xué)習(xí)等方法。無監(jiān)督聚類有基于相似度計算的方法如K-means和層次聚類等、基于主題模型的方法如PLSA和LDA等。聚類時,一般事先認(rèn)為指定類別數(shù),為了解決這個問題,研究者提出了非參數(shù)貝葉斯學(xué)習(xí)方法,可以自動學(xué)習(xí)類別數(shù)量[29]。有監(jiān)督分類是在有類別標(biāo)簽的語料上訓(xùn)練分類模型;而半監(jiān)督的學(xué)習(xí)方法主要結(jié)合聚類和分類的思想提高分類或聚類準(zhǔn)確率。對于網(wǎng)絡(luò)上的語料,由于很多本身就已分類,如新聞、政治、經(jīng)濟等,可以采用分類和聚類相結(jié)合的方式進行。
然而,特定領(lǐng)域的語料畢竟只是整個雙語語料的子集,因此數(shù)量相對較少,基于領(lǐng)域的系統(tǒng)往往在覆蓋率上遜于通用系統(tǒng)。為了解決這一問題,我們同時融合基于領(lǐng)域的機器翻譯系統(tǒng)和通用系統(tǒng),融合方法可以是基于語料的融合[30],也可以是基于模型的融合如線性或?qū)?shù)線性插值。
在實際翻譯過程中,首先需要評定待翻譯內(nèi)容所屬的領(lǐng)域,然后調(diào)用相應(yīng)領(lǐng)域的機器翻譯系統(tǒng)進行翻譯。為了判定待譯句子的類別,可以利用聚類或分類的結(jié)果訓(xùn)練分類系統(tǒng),并利用這一分類系統(tǒng)將待譯內(nèi)容劃分到某個類別當(dāng)中,分類方法可以是支持向量機[31]、最大熵[32]、隨機森林[33]等等。然后利用領(lǐng)域模型進行翻譯,從而提高翻譯系統(tǒng)質(zhì)量。
當(dāng)基本翻譯模型和系統(tǒng)建立起來后,需要快速支持多種語言的翻譯,這樣需要具備如下條件: 翻譯系統(tǒng)解碼算法與語言無關(guān)、雙語資源和模型的快速爬取和建模。對于統(tǒng)計翻譯而言,解碼算法本身與語言無關(guān),快速支持多語言翻譯順理成章。對于語料而言,盡管互聯(lián)網(wǎng)上存在海量資源,但是對于某些領(lǐng)域或者一些資源稀缺的語言對來說,雙語資源并不多見。如對于中語—日語翻譯或者漢語—法語來說,相對中英資源,中日雙語資源比較缺乏,勢必會影響翻譯質(zhì)量。
針對以上數(shù)據(jù)稀疏的情況,提出了樞軸語言翻譯技術(shù)[34],此技術(shù)采用第三語言作為中間語言,使得源語言—中間語言、中間語言—目標(biāo)語言雙語資源豐富,在此基礎(chǔ)上建立源語言—中間語言、中間語言—目標(biāo)語言翻譯模型,從而推導(dǎo)出源語言—目標(biāo)語言的翻譯模型。例如,對于中日翻譯,我們可以用英語作為中間語言,從互聯(lián)網(wǎng)上獲取海量的中英和英日資源,從而用英語作為橋梁,建立可靠的中日翻譯模型,最終提高翻譯質(zhì)量。此外,還可以利用源語言和目標(biāo)語言之間的語言特點,如日語和韓語之間、印歐語系之間的相似性,融合規(guī)則和統(tǒng)計的方法計算源語言和目標(biāo)語言之間相似度,從而提高翻譯質(zhì)量[35]。
互聯(lián)網(wǎng)上翻譯需求錯綜復(fù)雜,個性化翻譯需求很強,90%左右的需求不重復(fù)。但是對于個人來說,翻譯需求比較固定,比如有的主要用于日常用語的翻譯、有的論文寫作和翻譯、有的是手冊翻譯等等,總之呈現(xiàn)一定的領(lǐng)域性。針對多樣的個性化需求,需要對用戶翻譯興趣進行建模。在互聯(lián)網(wǎng)推薦技術(shù)中,研究人員提出了很多對用戶興趣進行建模的方法,從而預(yù)測用戶興趣,推薦相關(guān)內(nèi)容,如內(nèi)容過濾方法[36]、協(xié)同過濾方法[37]、基于SNS的社會化過濾(Social Filtering)[38]等,還有根據(jù)用戶的年齡、性別、職業(yè)等做出推薦。在機器翻譯個性化中,也可以根據(jù)相應(yīng)的需求,采用類似的方法進行用戶建模。對于有翻譯歷史的用戶,可以根據(jù)用戶的翻譯內(nèi)容進行基于內(nèi)容的興趣建模,根據(jù)內(nèi)容識別翻譯內(nèi)容的領(lǐng)域性和翻譯類別,翻譯類別又可按自動化程度分為輔助翻譯和自動翻譯等。對于沒有翻譯歷史信息的用戶,可以采用協(xié)同過濾的方法預(yù)測翻譯興趣,從而推薦相關(guān)翻譯產(chǎn)品和技術(shù),如對于有大量國際化圖片和視頻搜索需求的用戶,可能也有跨語言視頻和圖片的翻譯需求;比如對于有跨語言聊天需求的用戶,情感和日常用語的交流相對多,對翻譯準(zhǔn)確率要求比較高,自動翻譯需求多,在這種情況下,需要建立高翻譯質(zhì)量的領(lǐng)域模型。此外,也可通過用戶的年齡和身份等信息推斷翻譯需求,如中小學(xué)生有外語學(xué)習(xí)、雙語詞典類的需求;碩士和博士研究生有外語論文寫作的需求,需要提供輔助論文寫作技術(shù);而專業(yè)技術(shù)人員可能需要翻譯技術(shù)文檔,可采用輔助翻譯和自動翻譯想結(jié)合的方法等等。
隨著翻譯技術(shù)的發(fā)展,雙語資源和翻譯模型及系統(tǒng)在自然處理領(lǐng)域或其他相關(guān)領(lǐng)域也得到了廣泛的應(yīng)用,下面分別介紹。
雙語平行語料在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用,如詞性標(biāo)注[39], 語義消歧[40], 句法分析和依存分析[41-42]、情感分類[43]。在這些應(yīng)用中,一種語言的人工標(biāo)注語料比較豐富,而另一種語言的標(biāo)注語料很少,因此利用詞對齊信息,把一種語言的標(biāo)注信息投射到另外一種語言上,從而提高在目標(biāo)語言上的性能。有些應(yīng)用利用雙語或者多語平行語料進行無監(jiān)督學(xué)習(xí),并結(jié)合機器學(xué)習(xí)方法,如非參數(shù)貝葉斯學(xué)習(xí)方法[29]、協(xié)同訓(xùn)練(Co-Training)[44]等方法,協(xié)同提高在多個語言上的性能。此外,雙語平行語料、對齊模型和翻譯模型也可以用于其他資源的抽取,比如同義詞、復(fù)述資源的抽取[45];對齊模型還可用于單語搭配資源的抽取[46]、依存樹分析[47]等。
雙語資源和翻譯模型在互聯(lián)網(wǎng)上也得到了廣泛應(yīng)用,比如用于搜索引擎中Query改寫和變化,使得搜索引擎能夠猜測用戶的意圖,更能滿足用戶的搜索需求,提高搜索的準(zhǔn)確率和召回率[48]。此外,在跨語言檢索中用于Query翻譯或者檢索內(nèi)容的翻譯,豐富搜索內(nèi)容,滿足用戶的多語言搜索要求[49]。
隨著互聯(lián)網(wǎng)的發(fā)展,機器翻譯技術(shù)有著廣闊的應(yīng)用需求。按自動化程度,機器翻譯可分為自動翻譯和輔助翻譯。前者由于沒有人工參與,難以直接得到很高質(zhì)量的譯文,但可以用于信息的快速瀏覽和獲取。后者通過人機互助,可以得到高質(zhì)量的譯文用于出版、發(fā)布等信息傳播目的。輔助翻譯根據(jù)人機分工不同又可分為機助人譯和人助機譯兩種。
根據(jù)處理對象不同,機器翻譯可以分為文本翻譯和語音翻譯。前者處理文本輸入,而后者處理語音輸入。語音翻譯需要解決語言識別、機器翻譯、語音合成三個主要技術(shù),由于受技術(shù)的制約,目前主要應(yīng)用于受限領(lǐng)域的語音翻譯,在移動終端(如手機、iPad等)進行跨語言交流。
根據(jù)翻譯的復(fù)雜程度,可分為詞、短語、句子、篇章的翻譯,詞和短語的翻譯通常情況下可以結(jié)合雙語詞典、雙語例句和自動翻譯三個手段來滿足,對于句子和篇章級的翻譯,主要通過自動翻譯滿足。目前機器翻譯產(chǎn)品中沒有涉及篇章的理解,對于篇章的翻譯主要還是把篇章拆解成句子,句子之間相互獨立,然后組合翻譯結(jié)果。
從使用目的角度,機器翻譯可以分為四種用途: 傳播信息、獲取信息、交流信息、和檢索信息。一般來說,輔助翻譯系統(tǒng)或領(lǐng)域受限的高質(zhì)量自動翻譯系統(tǒng)可以生成高質(zhì)量譯文用于信息傳播,如手冊和技術(shù)文檔翻譯,個性化的Email翻譯等;通用的全自動翻譯系統(tǒng)可以生成雖不完美但基本可懂的譯文用于信息獲取,如網(wǎng)頁翻譯等;受限領(lǐng)域的口語翻譯系統(tǒng)可以幫助人通過語音或即時通訊系統(tǒng)進行信息交流,如網(wǎng)絡(luò)即時聊天、社區(qū)交流、基于位置的移動翻譯服務(wù)等;跨語言信息檢索系統(tǒng)可以幫助人完成不同語言之間的信息檢索,豐富檢索內(nèi)容。
機器翻譯系統(tǒng)可以有多種產(chǎn)品形態(tài),如獨立的在線翻譯系統(tǒng)、翻譯軟件包、翻譯引擎授權(quán)、翻譯服務(wù)提供、與硬件捆綁等等。
現(xiàn)代的機器翻譯研究已有半個多世紀(jì)的歷史,其間產(chǎn)生過令人振奮的成果,也有過令人沮喪的時候,但無論多么艱深,人類對機器翻譯的探索和渴求始終沒有停止過。身兼文理、統(tǒng)合技術(shù)與藝術(shù)的學(xué)科魅力吸引了無數(shù)的研究者獻身其中;促進跨語言交流的顯著作用和巨大的應(yīng)用價值吸引了大量的機構(gòu)投資其中?;ヂ?lián)網(wǎng)的普及和廣泛應(yīng)用進一步推動了機器翻譯技術(shù)和應(yīng)用的發(fā)展,同時對機器翻譯提出了新的要求,必將促使機器翻譯研究界和工業(yè)界聯(lián)合在一起推動自動翻譯的發(fā)展。
作為世界上使用人數(shù)最多的語言,中文相關(guān)的機器翻譯一直廣受重視,而開發(fā)以中文為核心的多語言互聯(lián)網(wǎng)機器翻譯系統(tǒng)顯得尤為重要,從而架起中外互聯(lián)網(wǎng)用戶溝通的橋梁,豐富用戶獲取和分享信息的廣度、深度和速度,進而帶來巨大的社會效益和經(jīng)濟效益。
[1] Haifeng Wang, Zhanyi Liu, Hua Wu. Semi-Structured Example Based Machine Translation[M]. Frontiers of Content Computing: Research and Application. Sun Maosong and Chen Quuxiu (Eds.), Tsinghua University Press, 2007: 1-9.
[2] Hua Wu, Haifeng Wang, Zhanyi Liu et al. Improving Translation Memory with Word Alignment Information[C]//Proceedings of MT SUMMIT X. Phuket Island, Thailand, 2005: 313-320.
[3] Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, and Paul S. Roossin. A Statistical Approach to Machine Translation[J]. Computational Linguistics, 1990, 16(2): 79-85.
[4] Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical Phrase-Based Translation[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Edmonton, Canada, 2003: 48-54.
[5] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J]. Computational Linguistics, 1997, 23(3): 377-403.
[6] David Chiang. A hierarchical Phrase-based Model for Statistical Machine Translation[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics. Ann Arbor, Michigan, 2005: 263-270.
[7] Yu Chen, Andreas Eisele. Hierarchical Hybrid Translation between English and German[C]//Proceedings of the 14th Annual Conference of the European Association for Machine Translation. St. Raphael, France, 2010: 90-97.
[8] Declan Groves, Andy Way. Hybrid Example-Based SMT: the Best of Both Worlds?[C]//Proceedings of ACL 2005 Workshop on Building and Using Parallel Texts: Data-Driven Machine Translation and Beyond. Ann Arbor, Michigan, 2005: 183-190.
[9] K. Yamada, K. Knight. A Decoder for Syntax-Based Statistical MT[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, USA, 2002: 303-310.
[10] Michel Galley, Jonathan Graehl, Kevin Knight. Scalable Inferences and Training of Context-Rich Syntax Translation Models[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, Australia, 2006: 961-968.
[11] Daniel Marcu, Wei Wang, Abdessamad Echihabi et al. SPMT: Statistical Machine Translation with Syntactified Target Language Phraases[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, Australia, 2006: 44-52.
[12] Philipp Koehn, Jean Senellart. Convergence of translation memory and statistical machine translation[C]//Proceedings of AMTA Workshop on MT Research and the Translation Industry. Denver, CO, 2010: 21-31.
[13] Yanjun Ma, Yifan He, Andy Way et al. Consistent Translation Using Discriminative Learning: A Translation Memory-Inspired Approach[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011: 1239-1248.
[14] Nicola Ueffing, Jens Stephan, Evgeny Matu- sov et al. Tighter Integration of Rule-based and Statistical MT in Serial System Combination[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, 2008: 913-920.
[15] Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(2): 177-196.
[16] David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[17] Xiaoyi Ma. Champollion: A robust parallel text sentence aligner[C]//Proceedings of LREC-2006: Fifth International Conference on Language Resources and Evaluation. Genoa, Italy, 2006: 489-492.
[18] Dragos Stefan Munteanu, Daniel Marcu. Improving Machine Translation Performance by Exploiting Non-Parallel Corpora[J]. Computational Linguistics, 2005, 31(4): 477-504.
[19] Qin Gao, Stephan Vogel. Parallel Implementations of Word Alignment Tool[C]//Software Engineering, Testing, and Quality Assurance for Natural Language Processing. Columbus, Ohio, USA, 2008: 49-57.
[20] Qin Gao, Stephan Vogel. Training phrase-based machine translation models on the cloud: Open source machine translation toolkit Chaski[C]//The Prague Bulletin of Mathematical Linguistics No 93. 2010: 37-46.
[21] Thorsten Brants, Ashok C. Popat, Peng Xu et al. Large Language Models in Machine Translation[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 858-867.
[22] David Talbot, Miles Osborne. Smoothed Bloom ?lter language models: Tera-scale LMs on the cheap[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 468-476.
[23] David Talbot, Thorsten Brants. Randomized language models via perfect hash functions[C]//Proceedings of ACL-08: HLT. Columbus, Ohio, 2008: 505-513.
[24] David Talbot, Miles Osborne. Smoothed Bloom filter language models: Tera-Scale LMs on the Cheap[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 468-476.
[25] Andreas Stolcke. Entropy-based Pruning of Backoff Language Models[C]//Proceedings of DARPA News Transcription and Understanding Workshop. Lansdowne, VA, 1998: 270-274.
[26] J Howard Johnson, Joel Martin, George Foster et al. Improving Translation Quality by Discarding Most of the Phrase table[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic, 2007: 967-975
[27] David Chiang, Yuval Marton, Philip Resnik. Online Large-Margin Training of Syntactic and Structural Translation Features[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu, 2008: 224-233.
[28] Daniel Ortiz-Mart′nez, Ismael Garc′a-Varea, Francisco Casacubert. Online Learning for Interactive Statistical Machine Translation[C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL. Los Angeles, 2010: 546-554.
[29] N. Hjort, C. Holmes, P. Mueller et al. Bayesian Nonparametrics Principles and Practice[M]. Cambridge University Press. 2010.
[30] Bulyko, Ivan, Spyros Matsoukas et al. Language Model Adaptation in Machine Translation from Speech[C]//Proceedings of the 32nd International Conference on Acoustics, Speech, and Signal Processing. Hawaii, USA, 2007: 117-120.
[31] V.N. Vapnik. The Nature of Statistical Learning Theory (Second Edition) [M]. New York: Springer, 2001.
[32] Adam L. Berger, Stephen A. Della Pietra et al. A maximum entropy approach to natural language processing[J]. Computational Linguistics, 1996, 21(1): 39-71.
[33] Leo Breiman. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
[34] Hua Wu, Haifeng Wang. Pivot Language Approach for Phrase-Based Statistical Machin[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic, 2007: 856-863.
[35] Dmitriy Genzel, Klaus Macherey, Jakob Uszkoreit. Creating a High-Quality Machine Translation System for a Low-Resource Language: Yiddish[C]//Proceedings of MT Summit XII. Ottawa, Ontario, Canada, 2009: 41-48.
[36] Michael Sheperd, Carolyn Watters. Content Filtering Technologies and Internet Service Providers: Enabling User Choice[R]. Report for Industry Canada. 2000.
[37] Marko Balabanovic, Yoav Shoham. Fab: content-based, collaborative recommendation[J]. Communications of the ACM, 1997, 40(3): 66-72.
[38] Souvik Debnath, Niloy Ganguly, Pabitra Mitra. Feature Weighting in Content Based Recommendation System Using Social Network Analysis[C]//Proceeding of the 17th international conference on World Wide Web. Beijing, 2008: 1041-1042.
[39] Benjamin Snyder, Tahira Naseem, Jacob Eisenstein et al. Adding More Languages Improves Unsupervised Multilingual Part-of-Speech Tagging: a Bayesian Non-Parametric Approach[C]//Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL. Boulder, Colorado, 2009: 83-91.
[40] David Yarowsky, Grace Ngai, Richard Wicentowski. Inducing multilingual text analysis tools via robust projection across aligned corpora[C]//Proceedings of the first international conference on Human language technology research. Morristown, NJ, USA, 2001: 1-8.
[41] Rebecca Hwa, Philip Resnik, Amy Weinberg et al. Bootstrapping Parsers via Syntactic Projection Across Parallel Texts[J]. Natural Language Engineering, 2005, 11(3): 311-325.
[42] Kuzman Ganchev, Jennifer Gillenwater, Ben Taskar. Dependency Grammar Induction via Bitext Projection Constraints[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. Morristown, NJ, USA, 2009: 369-377.
[43] Bin Lu, Chenhao Tan, Claire Cardie et al. Tsou. Joint Bilingual Sentiment Classification with Unlabeled Parallel Corpora[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011: 320-330.
[44] A. Blum, T. Mitchell. Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the eleventh annual conference on Computational learning theory. Madison, Wisconsin, 1998: 92-100.
[45] Juri Ganitkevitch, Chris Callison-Burch, Courtney Napoles et al. Learning Sentential Paraphrases from Bilingual Parallel Corpora for Text-to-Text Generation[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK, 2011: 1168-1179.
[46] Zhanyi Liu, Haifeng Wang, Hua Wu et al. Collocation Extraction Using Monolingual Word Alignment Method[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing 2009. Singapore, 2009: 487-495.
[47] Samuel Brody. It Depends on the Translation: Unsupervised Dependency Parsing via Word Alignment[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Massachusetts, USA, 2010: 1214-1222.
[48] Stefan Riezler, Yi Liu. Query Rewriting using Monolingual Statistical Machine Translation[J]. Computational Linguistics, 2010, 36(3): 569-582.
[49] Jianfeng Gao, Xiaodong He, Jian-Yun Nie. Clickthrough-based translation models for web search: from word models to phrase models[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. Toronto, Canada, 2010: 1139-1148.