穆軍芳, 張麗鑫
(河北大學 外國語學院, 河北 保定 071002)
機器翻譯也被稱作自動翻譯,指利用計算機將一種語言文本(源語言:Source Language)轉換為另一種語言文本(目標語言:Target Language)的翻譯過程[1]。自德國學者里格將數(shù)學語法與詞典結合首次提出“機器翻譯”這一概念以來,機器翻譯經(jīng)過初創(chuàng)期、萌芽期、平臺期、繁榮期和新熱潮階段,如今已取得顯著成果[2]。隨著主流翻譯技術的進步,機器翻譯在提高翻譯效率、提升翻譯品質、推動翻譯智能化,以及促進語言服務行業(yè)發(fā)展中發(fā)揮了至關重要作用;同時,機器翻譯作為典型的跨學科和超學科研究,涉及語言學、翻譯學、數(shù)學、工程學和計算機科學等學科,拓寬了傳統(tǒng)翻譯的研究領域和研究視野[3],助推了機器翻譯在日常翻譯領域的普及和優(yōu)化。
隨著科技的進步,近10年來,機器翻譯研究不僅在傳統(tǒng)研究課題上拓展深化,同時其翻譯方法、翻譯技術也在不斷革新。從最初基于規(guī)則的機器翻譯,到基于統(tǒng)計的機器翻譯,再到今天基于深度學習的神經(jīng)機器翻譯,翻譯技術與翻譯模型的優(yōu)化使機器翻譯領域煥然一新[4]。
近年來,國際學術領域關于機器翻譯呈現(xiàn)多種視角,總體可分為語言學角度和非語言學角度。首先,就語言學角度而言,研究多聚焦于機器翻譯技術的落地應用,如Bowker、Ciro基于機器翻譯的視角,通過系統(tǒng)評估、社區(qū)調(diào)查和受眾評估,深入探究了渥太華西班牙移民對渥太華公共圖書館網(wǎng)站4種翻譯文本所持的態(tài)度,研究表明機器翻譯和譯后編輯的結合更易被移民言語社區(qū)認同[5];同時隨著機器翻譯技術的革新,機器翻譯在語言教育中的應用愈加普遍,Kelly、Hou聚焦于北愛爾蘭5所中學的EAL學生(English as an additional language,英語作為附加語言),通過小組訪談深入探究了機器翻譯對EAL學生學習和生活的影響,研究發(fā)現(xiàn)機器翻譯可用于跨語言教學中,如指導EAL學習者參與日常學習和交際互動[6]。其次,就非語言學視角而言,國際研究立足于機器翻譯技術的優(yōu)化對機器翻譯展開探究,如Zhang、Zong立足于神經(jīng)機器翻譯(Neural Machine Translation,簡稱為NMT)視角,深入剖析了其基本框架架構、最新進展、面臨挑戰(zhàn)與未來研究趨勢,對于挖掘NMT的知識基礎具有建設性意義[7]。此外,雙語翻譯實踐的實證研究逐步成為國際學者的研究熱點,如Tran、Huang等為提升中越機器翻譯質量,基于詞語對齊、詞語的從屬關系對漢語進行預排序、構建算法模型,極大優(yōu)化了傳統(tǒng)的基于短語的統(tǒng)計機器翻譯(Statistical Machine Translation,簡稱為SMT)質量[8];Jassem、Dwojak圍繞著具體領域建構的英、波雙語語料庫,分別評估了NMT和SMT兩種模型在處理翻譯文本、輸出流暢度的特性[9]。
由此可見,就研究方法而言,國際學者對機器翻譯的探究更傾向于實證研究,就將科學計量法用于綜述機器翻譯研究歷程而言,鮮有國外學者立足于此;但國內(nèi)不少學者作出嘗試,如刁洪基于CNKI關于翻譯技術研究的文獻,運用數(shù)據(jù)統(tǒng)計和CiteSpace對國內(nèi)該領域的發(fā)展脈絡、研究現(xiàn)狀及未來研究走向進行可視化分析,系統(tǒng)梳理了國內(nèi)翻譯技術研究的進展[10];李晗佶、陳海慶借助CiteSpace深度剖析了國內(nèi)有關機器翻譯的兩類期刊2007—2016年收錄的文獻,并基于生成的知識圖譜,分別指出了語言學界和計算機科學界在機器翻譯領域研究的異同[11]。
總體來講,目前關于機器翻譯的研究仍存在兩方面局限性:一是大多數(shù)研究聚焦于微觀或中觀角度,未能從宏觀上審視機器翻譯的現(xiàn)狀及發(fā)展走向;二是國內(nèi)學者的研究語料數(shù)據(jù)多源于中文數(shù)據(jù)庫,視角聚焦于國內(nèi)機器翻譯的研究動態(tài),難以洞察國際機器翻譯的研究進程。
目前,機器翻譯已經(jīng)成為國際前沿研究熱點,逐漸拓展出本領域的專業(yè)期刊,如:ComputerSpeechandLanguage,ComputationalLinguistics,NaturalLanguageEngineering。此外,國際計算語言學協(xié)會每年舉辦WMT國際機器翻譯大賽,歐洲機器翻譯協(xié)會、中國機器翻譯大會及國際頂級口語機器翻譯評測等機構持續(xù)召開年度峰會,國際機器翻譯會議的增多顯示出機器翻譯在國際上獲得了更廣泛的關注。為深入探究國際機器翻譯的研究動態(tài),本文綜合科學計量法和文本分析法,系統(tǒng)梳理2012—2021年Web of Science核心數(shù)據(jù)庫中有關機器翻譯的文獻,對整體發(fā)文趨勢、核心作者、研究機構、作者共被引分析、高頻關鍵詞共現(xiàn)及關鍵詞突現(xiàn)進行可視化分析,以期為國內(nèi)學者探索國際機器翻譯研究歷程提供參考。
1. 研究問題
通過對Web of Science核心數(shù)據(jù)庫中的數(shù)據(jù)進行計量可視化分析,本研究將具體回答以下問題:①近10年國際機器翻譯研究整體呈現(xiàn)什么態(tài)勢?②分別從微觀和中觀角度探究國際機器翻譯研究高產(chǎn)作者與科研結構分布顯現(xiàn)出什么特征?③國際機器翻譯研究主要圍繞哪些研究議題展開?④國際機器翻譯未來研究走向呈現(xiàn)出怎樣的特點?
2. 數(shù)據(jù)來源
為了獲得全面、準確且權威性的語料,本研究數(shù)據(jù)來源于Web of Science核心合集(簡稱為WOS),同時設置精確檢索主題為“machine translation”。自定義檢索公式為: Keyword=“machine translation”;Time=2012.01.01—2021.12.31;Access Dataspace=SCI:SSCI:A&HCI:CPCI-S:CPCI-SSH;將語種定義為“English”,文獻的檢索類型限定為Article、Review與Proceeding paper3類。經(jīng)篩選后共得到有效文獻4 469篇。
3. 分析工具
本文基于可視化分析軟件呈現(xiàn)科學知識圖譜,并輔以文本分析,揭示國際機器翻譯研究的動態(tài)進程。科學知識圖譜側重知識的可視化,兼具圖和譜的雙重特性,既顯示了知識聚類間的網(wǎng)絡、結構、互動、交叉、演化或衍生等關系,也揭示出復雜的知識關系孕育的前沿知識[12]242。具體而言,本文分別以CiteSpace[13]與VOSviewer[14]軟件作為分析工具。二者的交叉使用互為補充,一方面,CiteSpace可利用名詞性術語找出文獻中的突現(xiàn)詞,洞察學科在一段時間內(nèi)呈現(xiàn)的變化和動態(tài)趨勢,探索學科領域的研究熱點與未來發(fā)展趨勢[13];另一方面,VOSviewer基于關聯(lián)強度的算法,通過標簽視圖、密度視圖與集群密度視圖可以處理大量語料,清晰展現(xiàn)大型圖譜網(wǎng)絡[14]。因此,本文將兩者結合,以期更好地厘清近10年國際機器翻譯的研究動態(tài)。
1. 年度發(fā)文趨勢
某一領域的發(fā)文數(shù)量是判斷其發(fā)展趨勢的重要指標, 能直觀反映出該領域在不同階段的研究態(tài)勢與研究熱度[15]。 根據(jù)近10年國際機器翻譯研究成果的發(fā)表情況, 國際機器翻譯領域年度發(fā)文量趨勢見圖1。
圖1 國際機器翻譯研究年度發(fā)文量趨勢圖(2012—2021)
從圖1可知,近10年國際機器翻譯研究整體呈現(xiàn)出波動式上升、穩(wěn)中求進的發(fā)展態(tài)勢,可以看出近年來國際學界對機器翻譯的研究熱度、關注度持續(xù)上升,機器翻譯成為學界的熱門研究領域,并且該領域的研究步入成熟階段。具體而言,可分為3個階段:波動發(fā)展階段(2012—2017)、快速發(fā)展階段(2017—2019)和穩(wěn)步發(fā)展階段(2019—2021)。值得注意的是,自2017年以來,國際機器翻譯研究發(fā)文量顯著增加,這與機器翻譯技術的優(yōu)化、人工智能的快速發(fā)展及國際學界對機器翻譯的關注密切相關。例如,谷歌于2016年基于人的神經(jīng)網(wǎng)絡開發(fā)出Google神經(jīng)機器翻譯系統(tǒng)(簡稱為GNMT),實現(xiàn)機器翻譯技術的重大突破。新的機器翻譯技術路徑帶來2017年之后研究的快速發(fā)展,其中2019年,發(fā)文量達到近10年峰值,研究文獻高達700篇,2020年和2021年分別產(chǎn)出論文651和515篇,相較于2019年的發(fā)文數(shù)量,雖有小幅下滑,但文章基數(shù)大,研究熱度仍保持高漲。
2. 高產(chǎn)作者分析
系統(tǒng)分析施引文獻的作者不僅能了解該學科領域的核心研究者、基礎文獻的組成與學科前沿發(fā)展趨勢,也有助于基于作者共現(xiàn)圖譜揭示不同作者之間的合作關系。通過VOSviewer可視化分析軟件,本文將發(fā)文數(shù)量的閾值設為10,經(jīng)篩選后,共有119位作者滿足既定閾值條件。基于VOSviewer的聚類功能,近10年在國際機器翻譯領域有較高影響力的作者合作網(wǎng)絡圖譜見圖2。
圖2 國際機器翻譯研究作者合作網(wǎng)絡圖(2012—2021)
圖中節(jié)點及字體大小與作者發(fā)文量呈正向相關關系,節(jié)點越大,代表該作者在國際機器翻譯領域影響力越高;節(jié)點間的線條粗細與機構之間的合作發(fā)文量也呈正比關系,線條越粗,反映出學者之間的合作程度越緊密[16]。
由圖2可知,國際機器翻譯研究形成了顯著合作群體,整體科研合作緊密,顯現(xiàn)出了四大緊密合作的學術共同體。首先是以日本情報通信研究機構Sumita及其團隊成員Utiyama,上海交通大學的王瑞、趙海,哈爾濱工業(yè)大學的趙鐵軍和楊沐昀等學者為代表的合作圈,該合作群體由中國和日本學者構成,科研產(chǎn)出成果多,在自然語言處理(Natural Language Processing,簡稱為NLP)和機器翻譯模型改進研究中構成了穩(wěn)固、緊密的學術共同體。第二大合作團隊是以清華大學學者劉洋為核心的合作團隊,具體而言,該學術共同體還包括中國科學院學者宗成慶和張家俊、清華大學的張敏、天津大學學者熊德意、廈門大學的蘇勁松、澳門大學學者Wong與Chao等。該合作團隊主要由中國學者構成,科研力量雄厚且研究結構多為國內(nèi)高等研究所、高校的重點NLP實驗室,同時從圖2節(jié)點的連線可見,該合作團隊中高校學者間的合作極其頻繁。第三大研究團隊是圍繞著美國卡內(nèi)基·梅隆大學學者Neubig建構起學術合作圈,與日本學者 Nakamura、Utiyama也開展學術合作,同時該合作群體還包含愛丁堡大學NLP研究學者Heafield,第三大研究團體以日本學者為主,美國、英國與日本科研機構就機器翻譯展開了密切合作。此外,西班牙加泰羅尼亞理工大學機器翻譯研究者Costa-Jussà與愛沙尼亞塔爾圖大學的Mark、捷克布拉格查理大學的Ondej及德國人工智能研究中心的Van Genabith等學者也共同組成共現(xiàn)網(wǎng)絡。
國際機器翻譯研究領域十大高產(chǎn)作者(見表1)多來自上述四大合作群體,整體而言,從作者合作網(wǎng)絡圖譜與高產(chǎn)作者發(fā)文表可以看出,一方面,國際機器翻譯研究呈現(xiàn)積極發(fā)展態(tài)勢,科研機構間作者合作密切,合作程度高,愈加趨向形成一種長期穩(wěn)定且緊密的合作關系;另一方面,不同的學術團隊已經(jīng)形成了以某一領軍人物為核心的學術架構,學術團隊中既有引領發(fā)展的中堅力量也有不斷創(chuàng)新的青年團隊,團隊可塑性和創(chuàng)造力不斷提升。
表1 國際機器翻譯研究前10位高產(chǎn)作者(2012—2021)
3. 研究機構分析
本節(jié)將從中觀層面對所選語料的發(fā)文機構進行探究,詳細分析不同國家研究機構在機器翻譯這一學科領域的研究能力。在生成圖譜時,利用VOSviewer將閾值設為30,展現(xiàn)當前國際機器翻譯研究的主要研究力量,經(jīng)統(tǒng)計分析,國際機器翻譯研究發(fā)文前20的研究機構主要集中在中國、美國、英國、日本、印度、德國、西班牙與瑞士等國家,具體分布見表2。
表2 國際機器翻譯研究發(fā)文前20位科研機構(2012—2021)
根據(jù)表2可得,國際從事機器翻譯研究的中國科研機構,節(jié)點顯著性較強的有中國科學院、中國科學院大學、蘇州大學、北京大學、清華大學、哈爾濱工業(yè)大學、上海交通大學等高等院校。此外,處于前沿科技領域的NLP實驗室也與部分高校開展合作,如華為諾亞方舟實驗室、騰訊人工智能實驗室、百度研究院和阿里巴巴人工實驗室等。
與此同時,美國高校卡內(nèi)基·梅隆大學、斯坦福大學、約翰斯·霍普金斯大學、華盛頓大學、賓西法尼亞大學及谷歌的人工智能實驗室、微軟亞洲研究院等科研機構也處在機器翻譯前沿研究領域;愛爾蘭的都柏林城市大學、英國的愛丁堡大學、謝菲爾德大學與日本情報通信研究機構、京都大學,還有印度理工學院在機器翻譯領域收獲頗豐,且跨學科、跨校、跨地域與跨國的合作趨勢日益顯著。
從研究機構性質來看,在機器翻譯領域取得重大進展的多為理工類科研院校的NLP實驗室或綜合類院校的計算機學院、人工智能學院或信息學院,院校的相互合作更易于開展對機器翻譯的多領域、多角度和多學科的探究與應用。前沿科技公司微軟、谷歌、Facebook、騰訊、阿里及百度在機器NLP層面已經(jīng)有所建樹,研究熱度持續(xù)高漲,如谷歌于2016年基于人的神經(jīng)網(wǎng)絡推出的GNMT系統(tǒng),大大提高了翻譯的流暢度和準確性,提升了機器翻譯的質量,并引發(fā)機器翻譯領域的新一輪革新。
整體而言,基于微觀與中觀角度,學界在機器翻譯領域已經(jīng)形成了穩(wěn)定的合作團隊,核心作者、領軍機構共現(xiàn)知識網(wǎng)絡密度較高;且研究多以機構某一代表性人物為核心組建團隊、成立科研實驗室進而展開團隊合作,規(guī)模較大、學術底蘊深厚的科研機構更易于開展跨學科、跨校與跨區(qū)域的項目研究,這與國家的政策導向、信息化建設的戰(zhàn)略定位、人工智能的發(fā)展、科研結構的優(yōu)化合作及人才的聚集有密切關聯(lián)。同時,需要注意的是,機器翻譯雖為熱點研究領域,但仍有不少科研結構處于自創(chuàng)自研的初級階段,還未形成緊密的合作團隊,它們的進一步發(fā)展,仍需充足時間和空間來推動合作,以此深化機器翻譯研究的廣度。
1. 作者共被引分析
就被引文獻而言,作者共被引分析能夠揭示該學科領域具有核心影響力的奠基者及該領域學科知識基礎的構成。具體而言,通過追蹤相關被引文獻作者,可以厘清機器翻譯研究的整體進程與核心人物。將語料導入CiteSpace,閾值設為200,即檢索出文獻共被引次數(shù)大于200的作者,繪制的作者共被引共現(xiàn)網(wǎng)絡圖譜見圖3。
圖3 國際機器翻譯研究作者共被引網(wǎng)絡圖(2012—2021)
基于生成的網(wǎng)絡圖譜,研究發(fā)現(xiàn)共被引頻次位居前列的學者包含Papineni(1 463次)、Koehn(1 450次)、Vaswani(895次),以及Sennrich(753次)等,這些國際學者在機器翻譯研究領域具有強大的影響力,某種程度上奠定了機器翻譯產(chǎn)生的知識基礎。
在圖3中,Sennrich作為NMT的領軍人物,主要研究高質量機器翻譯,包括基于語法的SMT和NMT,于2016年率先提出運用分析算法構建雙字節(jié)編碼將單詞分割成子詞單元序列;Koehn作為約翰斯·霍普金斯大學的教授,早年提出的基于短語的統(tǒng)計翻譯模型極大促進了SMT領域的發(fā)展,同時又助推學界開啟了NMT的研究歷程,成為國際機器翻譯研究的奠基人物,其經(jīng)典論文ConvergenceofTranslationMemoryandStatisticalMachineTranslation及著作StatisticalMachineTranslation、NeuralMachineTranslation已經(jīng)成為研究者探索機器翻譯的必備讀物。
除了高校學者外,不少科研機構的研究人員在NMT領域也取得了突破性進展,例如谷歌公司的研究人員Vaswani及其同事在2017年發(fā)表論文AllAttentionisAllYouNeed,首次提出運用基于自注意力機制的Transformer模型代替?zhèn)鹘y(tǒng)RNN模型(Recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡)來建構序列數(shù)據(jù),這一深度學習模型的革新引發(fā)國際學界的轟動。至今,Transformer模型仍在NLP領域占有舉足輕重的位置。先后在谷歌、微軟任職的科研專家Papineni提出的基于特征的自然語言理解方法及用于評估翻譯文本質量的Bleu評分,直接影響了SMT模型的產(chǎn)生。
表3 國際機器翻譯研究高頻被引作者熱點研究議題(2012—2021)
高頻次被引學者的研究關注點主要聚焦于機器翻譯的編碼與解碼、翻譯質量的評估與優(yōu)化、注意力機制、預訓練語言模型Bert、雙重語料對比以及多模態(tài)翻譯如discourse(話語)、speech translation(語音翻譯)和image captioning(圖像翻譯)等方面(見表3)。通過將被引作者的熱點研究進一步歸類可以發(fā)現(xiàn),國際學界對機器翻譯的關注呈現(xiàn)以下特點: ①關注翻譯模型的改善以優(yōu)化翻譯質量; ②聚焦時代需求,著力探索融合圖像、文本、口語、音頻與視頻等模態(tài)信息的多模態(tài)機器翻譯; ③多語種機器翻譯得到重視,尤其是多語言翻譯能力的提升。
2. 關鍵詞共現(xiàn)分析
關鍵詞共現(xiàn)作為文獻計量的重要研究方法,常用以剖析某領域的研究熱點與前沿,盡管這種基于單詞的孤立分析會破壞原有的知識結構,但關鍵詞共現(xiàn)分析能夠高度顯現(xiàn)某一動態(tài)研究領域的研究議題[17]。通過VOSviewer對關鍵詞進行統(tǒng)計,將關鍵詞共現(xiàn)次數(shù)閾值設為15,為保證分析結果的準確性,對提取的高頻關鍵詞進行二次檢索,去除重復詞匯(首字母縮略詞與單復數(shù)同現(xiàn)詞)及頻率最高但無意義的關鍵詞machine translation,共得到83個共現(xiàn)關鍵詞,共現(xiàn)網(wǎng)絡圖譜如圖4所示。
通過對比呈現(xiàn)的關鍵詞頻次和連接強度,發(fā)現(xiàn)近10年國際機器翻譯研究主要聚焦在以下4個研究議題。
研究熱點1: 自然語言處理
NLP作為計算機科學與語言學的交叉研究領域,它的興起與機器翻譯息息相關,主要通過計算機來處理、理解及運用人類語言。由圖4可見,圖中左側節(jié)點圍繞著NLP組成了第一大聚類,從該聚類的共現(xiàn)關鍵詞recognition(識別)、bleu(自動評估機器翻譯的方法)、hybrid machine translation(混合機器翻譯)及computational linguistics(計算語言學)等可以看出,NLP近年來主要致力于通過bleu算法提高翻譯質量,同時也借助多種翻譯策略如混合翻譯策略提升譯文結果的準確性。此外,NLP展開多語種的翻譯實踐研究并顯現(xiàn)出學科交叉融合的研究趨勢。
研究熱點2: 統(tǒng)計機器翻譯
SMT基于規(guī)模宏大的語料庫,用統(tǒng)計學方法建立機器自動翻譯系統(tǒng),一方面有效減少了對人工的依賴;另一方面,可以借助形式化語法的翻譯模型靈活處理語言結構。圖4中下方節(jié)點以SMT為核心主題形成了第二大聚類,該聚類還包括lexicon(詞匯)、parallel corpus(平行語料庫)、multilingual(多語言的)和domain adaptation(領域自適應)等詞。由此可見,在SMT研究領域,學界充分利用雙語平行語料庫資源,從基于單詞的機器翻譯逐步過渡到基于短語的翻譯;如何提高SMT系統(tǒng)的領域自適應能力也一度成為學界的研究熱點。
研究熱點3: 神經(jīng)機器翻譯
NMT是近年來一種新興的機器翻譯技術,隨著翻譯模型的不斷發(fā)展,逐漸成為語言翻譯行業(yè)的主流翻譯技術。作為一種全新機器翻譯模型,NMT通過使用深度學習神經(jīng)網(wǎng)絡獲取自然語言之間的映射關系,實現(xiàn)源語言到目標語言的直接翻譯[18],有效避免了傳統(tǒng)SMT翻譯中繁雜的轉化過程,NMT也因其簡潔、高質高效和良好翻譯性能得到學界廣泛認可。
從NMT為核心聚類共現(xiàn)的高頻詞quality estimation(質量評估)、reinforcement learning(強化學習)、low resource language(低資源語言)、post-editing(譯后編輯)與translation technology(翻譯技術)等可以看出,NMT的近年研究進展側重于翻譯質量的提升、人機交互尤其是譯后編輯的交替應用、提高NMT在目標域數(shù)據(jù)準確性和性能等方面。隨著NMT在高資源語言翻譯任務(如英法翻譯、英漢翻譯)取得的突破性進展,學界還將關注點聚焦在如何提升低資源語言情況下機器翻譯的任務,例如加泰隆語—漢語翻譯實踐的質量[19]。
研究熱點4: 深度學習
深度學習憑借龐大的數(shù)據(jù)集和強大的計算能力建立深層神經(jīng)網(wǎng)絡,并基于其深度、隱性學習與算法正則化的顯性特征模擬人腦機制完成對數(shù)據(jù)的分析,進而提高不同層次上對數(shù)據(jù)的解釋能力[20]。為了進一步提高傳統(tǒng)機器翻譯的質量,深度學習廣泛應用于機器翻譯語言處理中,深度學習基于Seq2Seq(序列到序列)模型,由encoder和decoder(編碼器和解碼器)及連接二者的向量組成。由圖4可知,該聚類圍繞著深度學習,從多角度展開對語言模型的研究,如解碼器和編碼器依托的RNN模型和long short-term memory(長短時記憶神經(jīng)網(wǎng)絡);利用Transformer模型推廣attention mechanism(注意力機制)以得到更優(yōu)質的翻譯成果;通過convolutional neural networks(卷積神經(jīng)網(wǎng)絡)和RNN模型提升的潛在翻譯效果。同時,深度學習也被用于多模態(tài)翻譯實踐中,如speech recognition(聲音識別)。
綜上所述,國際機器翻譯的研究熱點主要聚焦于機器翻譯技術的革新、語言模型的研究、翻譯質量的提升、高資源和低資源語言翻譯任務的執(zhí)行等方面,這些研究熱點凸顯了機器翻譯跨學科的研究趨勢。同時,研究熱點與被引文獻的作者共被引分析顯現(xiàn)的知識基礎具有一致性。由此可見,隨著人工智能的迭代發(fā)展,機器翻譯技術、模型與質量等將在批判的繼承中不斷優(yōu)化,推動NLP的革新。
3. 機器翻譯前沿趨勢
突現(xiàn)詞檢索(Burst words detection,簡稱為BWD)逐漸成為內(nèi)容分析的重要途徑,在CiteSpace中陳超美引入Kleinberg的BWD算法以期探索學科領域的前沿發(fā)展趨勢與交互關系[13]。具體而言,突現(xiàn)詞是指一個變量在某一時間發(fā)生顯著變化(如圖5所示),其中的起始年份和突現(xiàn)強度可以直觀展示出研究前沿之間的變化路徑。通過CiteSpace對關鍵詞進行分析得到近10年國際機器翻譯研究突現(xiàn)的關鍵詞分布。
突現(xiàn)關鍵詞揭示了近10年國際機器翻譯領域的演進路徑,凸顯了不同階段機器翻譯研究主題的變化情況及該領域研究的前沿趨勢。在波動發(fā)展階段(2012—2017),SMT成為該階段的研究熱點,研究成果主要圍繞著SMT模型參數(shù)的設置、翻譯質量的提升及翻譯技術的優(yōu)化展開;而在快速發(fā)展階段(2017—2019),突現(xiàn)的關鍵詞為image captioning(圖像描述或看圖說話)、low-resource language pair(低資源語言配對),體現(xiàn)了機器翻譯中人機交互和多模態(tài)機器翻譯得到突破性進展;在穩(wěn)定發(fā)展階段(2019—2021),學界研究的著力點聚焦于NMT、Transformer模型、遷移學習及無監(jiān)督機器翻譯。
圖5 國際機器翻譯研究突現(xiàn)關鍵詞檢測圖(2012—2021)
本研究借助科學計量軟件CiteSpace和VOSviewer呈現(xiàn)的知識圖譜對WOS核心數(shù)據(jù)庫中2012—2021年10年間以“機器翻譯”為主題的文獻進行可視化分析,研究發(fā)現(xiàn):①近年來國際機器翻譯研究呈現(xiàn)出波動式上升、穩(wěn)中求進的發(fā)展態(tài)勢,研究熱度、學界關注度穩(wěn)步上升,國際機器翻譯研究步入成熟發(fā)展階段;②從微觀和中觀視角探究施引文獻學科力量分布,可以得出,國際機器翻譯研究形成了四大顯著的合作群體,科研高產(chǎn)結構集中分布在中國、美國、英國、日本、印度、德國、西班牙和瑞士等國家??傮w而言,機器翻譯的整體科研合作緊密,已經(jīng)形成了規(guī)模化的合作團隊,規(guī)模較大、學術底蘊深厚的科研機構更易于開展跨學科、跨校、跨區(qū)域與跨國合作研究;③國際機器翻譯研究熱點主要集中在NLP、SMT、NMT與Deep learning的深度研究上,這些議題凸顯了機器翻譯研究跨學科的趨勢,融合了計算機科學、翻譯學、語言學及工程學等知識;④機器翻譯的前沿趨勢主要集中在計算機視覺和自然語言處理的有機融合、NMT、無監(jiān)督翻譯與基于Transformer模型的神經(jīng)網(wǎng)絡結構。
隨著人工智能的快速發(fā)展,2012—2021年10年間國際機器翻譯研究取得了豐碩成果,中國、美國、英國、日本和西班牙等國家形成了穩(wěn)固的學術共同體,國際合作密切,但還有待提高;部分科研機構形成了以學術領軍人物為中心的單核心發(fā)展模式,新興科研力量勢單力薄。因此,未來應該更加側重研發(fā)結構之間的合作及新興研發(fā)人才的培養(yǎng),從而助推科研創(chuàng)新并拓寬機器翻譯的內(nèi)核研究。