張書琛
8月5日,ACL 2021正式頒發(fā)“最佳論文”獎項(xiàng),字節(jié)跳動AI Lab的機(jī)器翻譯技術(shù)論文在3350篇論文投稿中脫穎而出,當(dāng)選今年度“最佳論文”。ACL大會由國際計(jì)算語言學(xué)協(xié)會主辦,被視為自然語言處理與計(jì)算語言學(xué)領(lǐng)域最高級別的學(xué)術(shù)會議。多年來,自然語言處理被譽(yù)為“人工智能皇冠上的明珠”,在機(jī)器翻譯、搜索、信息流、輸入法等領(lǐng)域都有著廣泛的應(yīng)用。
自1949年信息論先驅(qū)Warren Weaver發(fā)表翻譯備忘錄、提出機(jī)器翻譯的可能性以來,機(jī)器翻譯已經(jīng)過了幾十年的發(fā)展迭代,如今進(jìn)入了一個可以運(yùn)用“神經(jīng)網(wǎng)絡(luò)”和加入了“深度學(xué)習(xí)技術(shù)”的AI翻譯時代。
不可否認(rèn)的是,全球化的商業(yè)巨頭已經(jīng)走在了最前端。
字節(jié)跳動作為互聯(lián)網(wǎng)新貴,機(jī)器翻譯是其AI能力發(fā)展程度的重要體現(xiàn)之一。該公司業(yè)務(wù)覆蓋150個國家和地區(qū),員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協(xié)作的背后,字節(jié)跳動AI Lab火山翻譯團(tuán)隊(duì)多年打磨的機(jī)器翻譯模型的支持必不可少。
基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術(shù)能力,火山翻譯推出了一系列形態(tài)多樣的產(chǎn)品與服務(wù),包括機(jī)器翻譯云服務(wù)、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領(lǐng)域的快速模型定制,能夠滿足不同群體和不同行業(yè)的翻譯需求。
據(jù)火山翻譯負(fù)責(zé)人王明軒介紹,內(nèi)部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應(yīng)用,火山翻譯多語言互譯的速度和準(zhǔn)確度都經(jīng)受住了考驗(yàn)。
如今,火山翻譯已經(jīng)上線了56門語種之間的互譯,支持的語向翻譯多達(dá)3080個。據(jù)透露,今年內(nèi)火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。
火山翻譯的前沿技術(shù)也獲得了學(xué)術(shù)界認(rèn)可。今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎(chǔ)研究團(tuán)隊(duì)和火山翻譯團(tuán)隊(duì)合作實(shí)現(xiàn)的。由字節(jié)跳動AI Lab提出的一種新的詞表學(xué)習(xí)方案VOLT,更是獲得了年度唯一的“最佳論文”獎項(xiàng)。這是ACL59年歷史上,華人科學(xué)家團(tuán)隊(duì)第二次贏得最高榮譽(yù)。
王明軒透露,火山翻譯現(xiàn)在每天都要處理數(shù)億次翻譯請求,可以說每一個上線語種都經(jīng)過了實(shí)際用戶的檢驗(yàn),“因此,穩(wěn)定和高質(zhì)量的翻譯服務(wù)是我們必須提供的保障”。
今年內(nèi)火山翻譯上線語種將超過150個
火山翻譯多語言預(yù)訓(xùn)練新范式源于人類語言學(xué)習(xí)規(guī)律
持續(xù)不斷地為用戶提供高水平翻譯服務(wù)靠的不是運(yùn)氣,而是火山翻譯背后強(qiáng)大的技術(shù)支撐和工程能力,以及字節(jié)跳動開放體系的聯(lián)動支持。
火山翻譯之所以能在近年快速落地,實(shí)現(xiàn)商業(yè)價值,離不開其濃厚的技術(shù)基底。
微軟技術(shù)學(xué)院院士黃學(xué)東曾表示,一家公司構(gòu)建的翻譯系統(tǒng)效果如何,主要取決于兩點(diǎn):一是數(shù)據(jù)是否夠全、夠多;二是算法是否足夠好。
海量數(shù)據(jù)是AI自我迭代不可或缺的基礎(chǔ),由于背靠字節(jié)全球化布局,火山翻譯可以獲得更好的AI訓(xùn)練結(jié)果,并從AI賦能中率先獲益。
同時,得益于字節(jié)跳動多年機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域的深耕,其AI團(tuán)隊(duì)擁有百余項(xiàng)技術(shù)發(fā)明專利,在機(jī)器翻譯技術(shù)上更是獨(dú)創(chuàng)了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預(yù)訓(xùn)練算法,把幾十種語言語料融合在一起訓(xùn)練,獲得的模型在具體語對上微調(diào)取得了44個語對的業(yè)界最佳性能。
據(jù)悉,目前研究界主流的多語言翻譯模型主要在英語相關(guān)的語對上進(jìn)行訓(xùn)練。這樣的系統(tǒng)通常在英語相關(guān)的語向(有監(jiān)督語向)上表現(xiàn)不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團(tuán)隊(duì)近期提出了更簡潔優(yōu)雅的大規(guī)模多語言預(yù)訓(xùn)練新范式mRASP2,通過引入對比學(xué)習(xí),輔以對齊增強(qiáng)方法,將單語語料和雙語語料囊括在統(tǒng)一的訓(xùn)練框架之下,旨在充分利用語料,學(xué)習(xí)更好的語言表示,并由此提升多語言翻譯性能。
這一多語言預(yù)訓(xùn)練新范式運(yùn)用在機(jī)器翻譯時,就像是一個精通兩三門語言的人類學(xué)者,在學(xué)習(xí)另一門語言時,速度就會更快。“人類在多語言學(xué)習(xí)過程中會自發(fā)去總結(jié)語言學(xué)習(xí)中比較抽象的共性,再去學(xué)習(xí)新語言的特性。因此想要提升個人語言學(xué)習(xí)能力,往往需要學(xué)習(xí)更多的語言。”火山翻譯就將這一規(guī)律植入神經(jīng)網(wǎng)絡(luò)翻譯中,創(chuàng)造出了一個統(tǒng)一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學(xué)習(xí)即可達(dá)到很流利的語言水平。
Transformer模型結(jié)構(gòu)圖(以機(jī)器翻譯為例)
這意味著,無論是語料庫豐富的通用語言,還是訓(xùn)練數(shù)據(jù)稀缺的小語種,機(jī)器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學(xué)習(xí)迭代。
隨著語種數(shù)量增加,翻譯任務(wù)增多,對機(jī)器自然語言處理任務(wù)的能力水平也提出了新的要求。
早在2019年12月,火山翻譯團(tuán)隊(duì)曾經(jīng)開源過一款Transformer類模型推理加速引擎LightSeq。作為業(yè)界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其他同類軟件,更是遠(yuǎn)遠(yuǎn)超過了TensorFlow和PyTorch。