顧巨凡
【內(nèi)容提要】近年來,隨著人工智能技術(shù)的不斷進(jìn)步,國際傳播人工智能語料庫建設(shè)越來越成為涉及國家安全、意識(shí)形態(tài)和話語權(quán)建設(shè)的重要陣地,語料庫建設(shè)將為國際傳播領(lǐng)域推廣機(jī)器翻譯提供堅(jiān)實(shí)的技術(shù)支撐,人工智能語料庫應(yīng)用可有效提高對(duì)外傳播內(nèi)容核心競(jìng)爭(zhēng)力。中國外文局等專業(yè)從事多語種對(duì)外傳播工作的單位多年來積累了歷史語料儲(chǔ)備優(yōu)勢(shì)、語種豐富度優(yōu)勢(shì)、新媒體技術(shù)轉(zhuǎn)換優(yōu)勢(shì)和人工及工作機(jī)制保障優(yōu)勢(shì)。建設(shè)國際傳播人工智能語料庫應(yīng)基于中國外文局自身資源建設(shè)國際傳播平行語料庫,聯(lián)合其他同質(zhì)近似外宣新聞媒體等建設(shè)國際傳播比較語料庫并集成數(shù)據(jù)庫為機(jī)器翻譯和智能寫稿奠定基礎(chǔ)。
【關(guān)鍵詞】人工智能 語料庫 話語權(quán) 自然語言處理
隨著我國國際話語體系建設(shè)的不斷深入,國際傳播事業(yè)需要不斷優(yōu)化傳播布局、拓展傳播渠道、完善機(jī)制平臺(tái)并深化融合發(fā)展,從而更好地對(duì)外傳播中國發(fā)展成就并積極影響對(duì)象國涉華輿論生態(tài)。為貫徹落實(shí)習(xí)近平總書記在黨的十九大報(bào)告中提出的要高度重視傳播手段建設(shè)和創(chuàng)新,提高新聞?shì)浾搨鞑チΑ⒁龑?dǎo)力、影響力和公信力,黨的國際傳播事業(yè)要抓住時(shí)機(jī)、把握節(jié)奏、講究策略,體現(xiàn)時(shí)度效要求等重要政策講話精神,外宣媒體需進(jìn)一步強(qiáng)化信息化和語料庫功能服務(wù),以更好地講好中國故事,對(duì)外展現(xiàn)真實(shí)、立體、全面的中國形象,綜合提高國家文化軟實(shí)力。國際傳播人工智能翻譯語料庫是指基于互聯(lián)網(wǎng)工作平臺(tái),運(yùn)用以神經(jīng)機(jī)器翻譯技術(shù)為基礎(chǔ)的人工智能翻譯技術(shù),對(duì)國際傳播等相關(guān)領(lǐng)域的語料資料進(jìn)行數(shù)據(jù)化處理和加工,建立系統(tǒng)對(duì)外傳播黨政文獻(xiàn)、領(lǐng)導(dǎo)人著作、講話及外宣圖書、期刊雜志及網(wǎng)絡(luò)新聞宣傳內(nèi)容為主的語料數(shù)據(jù)庫,并在此基礎(chǔ)上進(jìn)一步建立國際傳播綜合人工智能語料庫。該工程是提升新一代人工智能科技能力服務(wù)黨的對(duì)外傳播事業(yè)的重要?jiǎng)?chuàng)新型舉措,是配合“十四五”創(chuàng)新技術(shù)舉措實(shí)施的有效組成部分,更是落實(shí)習(xí)近平總書記十九大報(bào)告講話精神的重要舉措。本文擬通過討論國際傳播人工智能語料庫建設(shè)的必要性與戰(zhàn)略意義、可行性與條件,進(jìn)一步探討此類專門性國際傳播人工智能語料庫建設(shè)的途徑和方法。
一、建設(shè)國際傳播人工智能語料庫的必要性與戰(zhàn)略意義
(一)國際傳播人工智能語料庫建設(shè)是涉及國家安全、意識(shí)形態(tài)和話語權(quán)建設(shè)的重要陣地
近十年來,自然語言處理技術(shù)越來越成為國際競(jìng)爭(zhēng)的新焦點(diǎn)。自然語言處理技術(shù)是引領(lǐng)未來的戰(zhàn)略性技術(shù),世界主要發(fā)達(dá)國家將發(fā)展自然語言處理技術(shù)作為提升國家競(jìng)爭(zhēng)力、維護(hù)國家安全的重大戰(zhàn)略,加緊出臺(tái)規(guī)劃和政策,圍繞核心技術(shù)、頂尖人才、標(biāo)準(zhǔn)規(guī)范等強(qiáng)化部署,力圖在新一輪國際科技競(jìng)爭(zhēng)中掌握主導(dǎo)權(quán)。當(dāng)前,我國國家安全和國際競(jìng)爭(zhēng)形勢(shì)更為復(fù)雜,必須放眼全球,把自然語言處理技術(shù)發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動(dòng)謀劃,牢牢把握自然語言處理技術(shù)發(fā)展新階段國際競(jìng)爭(zhēng)的戰(zhàn)略主動(dòng)權(quán),打造競(jìng)爭(zhēng)新優(yōu)勢(shì)、開拓發(fā)展新空間,堅(jiān)持總體國家安全觀、堅(jiān)決維護(hù)國家主權(quán)、安全、發(fā)展利益,有效保障國家安全。
我國日益提高的國際話語權(quán)建設(shè)需求與翻譯及多語報(bào)道人才培養(yǎng)不平衡不充分矛盾突出。因此,亟需建設(shè)大量收入優(yōu)秀中譯外精準(zhǔn)語料的數(shù)據(jù)庫,解放國際傳播翻譯寫作人力,并在實(shí)際工作中有效提高效率的綜合性服務(wù)平臺(tái),為國際傳播能力建設(shè)解決技術(shù)和束縛生產(chǎn)力發(fā)展的瓶頸性障礙,促進(jìn)我國政治話語權(quán)地位綜合提升,推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化,創(chuàng)新性發(fā)展。目前,國際傳播專項(xiàng)語料庫建設(shè)雖具備基礎(chǔ)語料,但仍有大量語料資源散落,亟需整理整合。僅中國外文局外文出版社出版的《習(xí)近平談治國理政》一書,就涉及中、英、法、俄、阿、西、葡、德、日等21個(gè)語種,是十分寶貴的語料庫資源。從新中國成立之初至今保存的資料中陳舊性歷史資料為數(shù)不少,有些已經(jīng)處于瀕狀態(tài),亟待保護(hù)性開發(fā)整理。
按照黨中央、國務(wù)院部署要求,應(yīng)搶抓人工智能發(fā)展重大戰(zhàn)略機(jī)遇,構(gòu)筑我國人工智能發(fā)展的先發(fā)優(yōu)勢(shì),加快建設(shè)創(chuàng)新型國家和世界科技強(qiáng)國,為此,迅速發(fā)展人工智能將成為社會(huì)主義現(xiàn)代化的組成部分和重要體現(xiàn)。人工智能技術(shù)也有利于發(fā)展和改善創(chuàng)新對(duì)外宣傳方式,著力打造融通中外的新概念新范疇新表述,對(duì)外解讀傳播好新時(shí)代中國特色社會(huì)主義思想和中國智慧、中國方案,對(duì)形成富有中國特色的國際傳播話語體系、增強(qiáng)國際話語權(quán)具有重要現(xiàn)實(shí)意義、實(shí)用價(jià)值和長期效益。同時(shí),建設(shè)國際傳播人工智能語料庫還將為我國國際傳播能力建設(shè)和國際話語權(quán)建設(shè)提供重要的智力支持和戰(zhàn)略研究保障。
(二)語料庫建設(shè)將為國際傳播領(lǐng)域推廣機(jī)器翻譯提供堅(jiān)實(shí)技術(shù)支撐
我國日益提高的國際話語權(quán)建設(shè)需求與多語語料庫建設(shè)不平衡不充分的矛盾日益突出,國際傳播可應(yīng)用的語料庫精準(zhǔn)度差、專業(yè)性不強(qiáng)已經(jīng)嚴(yán)重制約對(duì)外傳播工作對(duì)機(jī)器翻譯等新技術(shù)的使用。以中國外文局為例,新中國成立初期至今出版的多文版領(lǐng)導(dǎo)人著作及外宣期刊,含有大量珍貴且極具參考價(jià)值的多文版語料,但大多以檔案形式存儲(chǔ),且由于出版年代久遠(yuǎn),紙質(zhì)版資料保存難度逐年增加。因此,亟需對(duì)承載以習(xí)近平新時(shí)代中國特色社會(huì)主義思想為代表的領(lǐng)導(dǎo)人著作及此前幾代領(lǐng)導(dǎo)人著作、講話等珍貴黨政文獻(xiàn)做系統(tǒng)梳理,形成供國際傳播參考使用的大型多語種語料信息數(shù)據(jù)庫。此外,目前國內(nèi)外市場(chǎng)的語料庫建設(shè)雖小有規(guī)模,如微軟、百度等,但涉及國際傳播領(lǐng)域的語料信息大多新聞專業(yè)性不強(qiáng),意識(shí)形態(tài)、立場(chǎng)及語匯色彩不能有效地為我所用,因此,在應(yīng)用人工智能及自然語言處理技術(shù)的前提下,設(shè)計(jì)建設(shè)外譯我黨執(zhí)政理念、經(jīng)驗(yàn)成就等的精準(zhǔn)智能輔助翻譯綜合基礎(chǔ)性語料庫,為國際傳播能力建設(shè)提供基礎(chǔ)性、支撐性技術(shù)應(yīng)用已迫在眉睫。
(三)人工智能語料庫應(yīng)用可有效提高對(duì)外傳播內(nèi)容核心競(jìng)爭(zhēng)力
語料庫建設(shè)將對(duì)大量語料資源進(jìn)行快速、高效的有機(jī)整合,進(jìn)行語料庫的深加工,實(shí)現(xiàn)語料庫的個(gè)性化服務(wù),改變傳統(tǒng)對(duì)外傳播工作模式。建設(shè)過程中將會(huì)充分考慮到語料多樣性及語言的變化性,添加一些與對(duì)外傳播相關(guān)的詞匯并實(shí)時(shí)更新語料庫,以激發(fā)使用者的工作自主性和積極性,或可利用自主檢索手段解決翻譯過程中所遇到的問題,增強(qiáng)其對(duì)相關(guān)語言知識(shí)的理解,幫助使用者進(jìn)行語料的歸納總結(jié),增強(qiáng)翻譯能力。另外,語料庫的建設(shè)過程中將大量參照翻譯學(xué)理論及語言學(xué)理論,并在語料庫中加入大量詞條及翻譯實(shí)例,加強(qiáng)翻譯對(duì)于中外語言異同的理解,使其在更大范圍內(nèi)方便譯員查閱相關(guān)資料及進(jìn)行譯文校對(duì),切實(shí)提高使用者的翻譯效率及翻譯質(zhì)量。
(一)基于外文局自身資源建設(shè)國際傳播平行語料庫
國際傳播語料庫項(xiàng)目將全面梳理、收錄新中國成立以來各文版多語種《今日中國》(原《中國建設(shè)》)、《人民中國》等歷史性語料,形成中外文對(duì)照的平行語料庫,將20種語言文字出版的2000多種圖書、21種印刷版期刊和25種網(wǎng)絡(luò)版期刊做系統(tǒng)整理,按照政治經(jīng)濟(jì)、外交軍事、民生文化等形成信息分類檢索功能,用于進(jìn)一步翻譯或者機(jī)器翻譯研究。
(二)聯(lián)合其他同質(zhì)近似外宣新聞媒體等建設(shè)國際傳播比較語料庫
可以通過語料信息關(guān)鍵內(nèi)容檢索,建立相關(guān)語種、相近主題新聞資源庫。此階段工作擬與其他中央國家外事、外宣單位合作,如新華社、《中國日?qǐng)?bào)》、中央廣播電視總臺(tái)、《人民日?qǐng)?bào)》(海外版)、《環(huán)球時(shí)報(bào)》英文版等,廣泛收集相關(guān)語料內(nèi)容,精細(xì)加工并做內(nèi)容標(biāo)引等,為人工智能搜集素材、寫稿奠定強(qiáng)大的語料信息基礎(chǔ)。
(三)集成數(shù)據(jù)庫為機(jī)器翻譯和智能寫稿奠定基礎(chǔ)
語料庫建設(shè)面臨的一大難題是歷史語料的處理,歷史語料庫中的內(nèi)容需要對(duì)陳舊語言信息做過濾,需邀請(qǐng)幾十個(gè)語種專家,對(duì)語料庫內(nèi)容做重新審校處理,邀請(qǐng)計(jì)算機(jī)和語言學(xué)雙料專家對(duì)語料進(jìn)行分類及賦碼處理,合成具有先進(jìn)人工智能搜索等功能的先進(jìn)語料庫。在用戶屬性分析、信息個(gè)性化推送方面也將引入邏輯回歸算法及協(xié)同過濾算法等,對(duì)黨政機(jī)關(guān)外事部門、中央外宣媒體、科研教學(xué)機(jī)構(gòu)等不同種類型用戶屬性做更細(xì)化的定位分析處理。未來語料庫將進(jìn)一步豐富智能數(shù)據(jù)庫的信息資源,包括歷史外語語料的數(shù)字化、各類社會(huì)公共服務(wù)數(shù)據(jù)資源的接入等,并在此基礎(chǔ)上引入虛擬智能機(jī)器人技術(shù),借助機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)新聞標(biāo)題、摘要、配圖的制定,進(jìn)而實(shí)現(xiàn)新聞的自動(dòng)生成。語料庫還將時(shí)刻關(guān)注中央機(jī)關(guān)及國家外事外宣部門主要國際傳播活動(dòng)最新動(dòng)向,不斷收集有關(guān)詞、固定搭配以及句子等。為了提高翻譯質(zhì)量,該語料庫在收錄大量詞、句的同時(shí)還將深入挖掘其文化內(nèi)涵并將這些詞匯、句子進(jìn)行有機(jī)整合。
國際傳播人工智能語料庫工程是主動(dòng)應(yīng)對(duì)國際國內(nèi)新形勢(shì)新需求,把握人工智能發(fā)展的重大歷史機(jī)遇,為維護(hù)和提升新時(shí)代我黨國際形象和對(duì)外影響力而實(shí)施的一項(xiàng)系統(tǒng)化工程。語料庫的建設(shè)將以掌握和提升當(dāng)代最新政治理念全球發(fā)布的數(shù)量、速度和質(zhì)量為總體目標(biāo),未來將主要服務(wù)于各國政黨、政要、智庫和其他研究機(jī)構(gòu)以及我國黨政外宣外事主管部門、駐外使領(lǐng)館、大型“走出去”企業(yè)等。
作者:北京中外翻譯咨詢有限公司總經(jīng)理
責(zé)編:李倩