張婷
在經濟學上語言信息服務能力已成為國家參與全球化事務的戰(zhàn)略資源。作為語言信息處理的一個典型應用,“智能輸入法”此前曾被評選最成功的人工智能產品,從側面印證了語言信息處理技術是人工智能走進人類生活的先鋒軍。中國工程院院士、新疆大學教授吾守爾·斯拉木指出,人工智能要想真正落地,融入人類日常生活,語言是最重要的接口,也是最重要的發(fā)力點。
吾守爾自1984年開始從事維吾爾、哈薩克、柯爾克孜(以下簡稱“維哈柯”)等多語種智能信息處理、標準規(guī)范制定、操作系統(tǒng)、辦公套件、排版印刷、電子政務等方面的技術研發(fā)和應用工作,創(chuàng)建了維哈柯文信息處理的理論、方法、技術體系,開辟了中國少數(shù)民族文字信息處理的新領域,使它不斷發(fā)展,進入智能化、網(wǎng)絡化、數(shù)字化的新階段,相關技術成果在疆內外廣泛應用。他是第一位也是目前唯一的維吾爾族院士,讓新疆少數(shù)民族語言與漢語同時進入信息化時代。
近年來,吾守爾團隊努力攻關多語種多模態(tài)智能信息處理技術,他們開發(fā)的應用工具能讓計算機、手機終端識別維哈柯語言文字、聽“懂”維哈柯語等民族語言,助力國際和國內文化交流、交往、交融,并不斷以更高層次、更具人工智能色彩的技術建設“數(shù)字絲綢之路”,為國家“一帶一路”倡議提供技術支撐。
維哈柯信息化與漢語同步
顧名思義,多語種智能信息處理技術就是提供跨語言的信息服務,是一種普惠的人工智能服務。
吾守爾表示:“人工智能的核心目標是服務人的需求,人類90%的信息溝通由語言承載,因而語言信息的處理,在人工智能各領域扮演至關重要的角色?!?/p>
20世紀80年代,計算機、互聯(lián)網(wǎng)開始出現(xiàn)在人們的視野。新疆大學緊跟時代步伐,開設計算機相關課程,當時教授無線電電子專業(yè)課程的吾守爾被選中,先后到北京工業(yè)大學、上海交通大學進修計算機相關知識,從此進入計算機領域。
新疆是一個多民族、多語言的地區(qū)。當時中文信息處理技術剛剛起步,維哈柯等少數(shù)民族同步信息化像一個不可企及的夢,但吾守爾做到了。
他先學習漢語,再學習英語;從無線電技術入門,到計算機應用基礎知識,再到更深層次的理論學習、實踐鍛煉……吾守爾邊學邊干,艱苦摸索,每一步都走得很辛苦。
1986年4月,吾守爾團隊開發(fā)的多語種綜合信息系統(tǒng)軟件在新疆人大會議上應用,實現(xiàn)了會議管理、會議資料和參會代表資料的維哈柯文錄入、排版、打印。這一成果轟動了新疆乃至中西亞各界。
20世紀90年代,針對維哈柯文語言特性導致的“前后端不一致”的輸入問題,吾守爾團隊自主研發(fā)出民文信息處理系統(tǒng)使用的點陣字體和矢量字體,在Trutype字體基礎上編制出16×16、16×8全角、半角點陣維吾爾字庫和矢量字庫,制定了符合國家G18030標準的信息交換維、哈、柯文信息技術三項國家標準,后來又研制了4種與此對應的OpenType字體……
吾守爾團隊開拓了新疆民文信息處理新領域,并始終致力于攻克和突破多語種信息處理智能化、網(wǎng)絡化、數(shù)字化領域的關鍵理論及核心技術。在科學技術研發(fā)應用方面,吾守爾先后主持承擔國家863計劃項目7項,973項目1項,國家自然科學基金項目5項、重點項目2項,工程院咨詢研究項目2項、省部級項目30多項,14項成果達到國際先進水平;主持制定國際標準5項、國家標準22項;榮獲國家科技進步獎3項、省部級以上獎勵13項;發(fā)表論文170余篇,出版教材9部;培養(yǎng)了20多名科研骨干、150多名博士碩士研究生。
作為新疆大學211工程、自治區(qū)高峰學科“計算機科學與技術”重點學科帶頭人之一,吾守爾開拓了多語種信息技術產品市場,與北大方正、中電通信、科大訊飛等多個企業(yè)合作,打造出集多語種信息技術研發(fā)、生產、經營、服務為一體的產學研基地。
截至當前,吾守爾團隊研發(fā)具有自主知識產權的DOS系列、Windows系列、Linux系列操作系統(tǒng)的維哈柯文版本,維哈柯文多語種的尋呼機及發(fā)布臺站、編輯排版系統(tǒng)、互聯(lián)網(wǎng)信息發(fā)布平臺及應用軟件、電子政務系統(tǒng)、廣播電視文稿系統(tǒng)、衛(wèi)星圖文傳輸系統(tǒng),智能輸入法、語音識別、語音合成、機器翻譯軟件平臺等共計30余種多語種新系統(tǒng)、新平臺、新軟件,在多語言、多模態(tài)智能信息處理、國產多語種操作系統(tǒng)研發(fā)、音視頻圖像處理、圖文識別、大數(shù)據(jù)智能分析、網(wǎng)絡內容安全及智能檢測監(jiān)控等方面創(chuàng)建了諸多關鍵技術和處理機制,從科技文化教育、信息通訊,到新聞出版、廣播電視,再到電子政務和商務、信息數(shù)字化,疆內外的各族同胞都能享受到信息化的成果。
這些技術和產品得到廣泛應用并成功實現(xiàn)標準化示范和產業(yè)化,開辟了中國民文信息處理新領域,并不斷與時俱進,為推動中國少數(shù)民族進入數(shù)字化辦公新時代作出杰出貢獻,促進了中亞西亞多語種軟件服務外包國家戰(zhàn)略的實施。
多語種信息“絲綢之路”
自2013年我國提出“一帶一路”倡議以來,中國走出去的步伐進一步加快,非通用語言、小語種的服務需求急劇上升。在“一帶一路”沿線60多個國家中,有200多種語言都是非通用語言。
新疆是“一帶一路”的橋頭堡,新疆大學則是新疆信息化建設的排頭兵。吾守爾指出,實現(xiàn)語言互通是實現(xiàn)“一帶一路”倡議中“五通”(政策溝通、設施聯(lián)通、貿易暢通、資金融通和民心相通)的基礎。
“我們要堅持的是特色中追求一流?!蔽崾貭栒J為,各高校、各學科要打破專業(yè)、學科壁壘,注意培養(yǎng)學生思考和認識世界的能力,促進學生對中西文化的深刻理解,培養(yǎng)具有人文情懷、全球視野、創(chuàng)新精神和實踐能力的跨文化、跨國別的“多語種+”國際化人才。
吾守爾團隊從理論、方法、工具、系統(tǒng)等四個方面,結合新疆的特色與優(yōu)勢,展開阿爾泰語系、阿拉伯語系、印度-伊朗語族的智能語音交互、多語言機器翻譯、語音合成等研究工作,有針對性地發(fā)展交叉學科。在人才培養(yǎng)方面,科學制訂具有不同特點的交叉培養(yǎng)方案,努力在人工智能發(fā)展方向和理論、方法、工具、系統(tǒng)等方面取得變革性、顛覆性突破。
吾守爾認為,通過對我國民族語言的信息化建設,研究復雜形態(tài)語言和長距離語言模型、跨語言文法推導方法等,突破同語系和跨語系語言機器翻譯方法和模型、多模態(tài)多語種信息化智能化技術,可以消除語言隔閡,為“一帶一路”建設提供技術支撐。
人工智能應當增加社會福祉
實現(xiàn)語言互通最便捷的方式就是利用語音識別、語音合成、機器翻譯手段實現(xiàn)多模態(tài)智能聲圖文交互,并在教育、文化、旅游、通信、經貿、安全等領域推廣應用。為此,吾守爾團隊研究了多語言的詞法、句法、語義、篇章、情感、蘊含、信息抽取等語言文字識別數(shù)據(jù)分析方法,研究復雜形態(tài)語言和長距離語言模型、聲學模型、跨語言文法推導方法等,重點突破同語系和跨語系語言機器翻譯方法和訓練模型,開展維漢等語音識別、語音合成、文字識別、機器翻譯研究開發(fā),研發(fā)出維漢雙向語音翻譯系統(tǒng)。目前,維漢互譯已經達到實用化水平,部分語音識別準確率已達到95%以上。
“利用現(xiàn)代化技術手段,建立大規(guī)模、跨語言、多模態(tài)大型語料知識庫,對于開展語言研究進而突破同語系、跨語言互通意義深遠,結合教育場景來看,其深遠意義在于夯實跨文化、跨民族教育的基礎?!蔽崾貭栒f道。通過互聯(lián)網(wǎng)把語音云、智能識別等技術應用到少數(shù)民族的遠程教育、雙語教育中,擴大優(yōu)質資源覆蓋面,對于促進教育發(fā)展均衡、改變偏遠地區(qū)落后教育現(xiàn)狀有重要意義。
那么,人工智能會取代翻譯團隊嗎?對于這個問題,吾守爾有直接的體會。
“我的回答是‘不會全面替代翻譯。我們必須中正理性地看待機器翻譯和機器翻譯的使用問題。不要被許多雜音,甚至被一些AI廠商的夸大宣傳所左右?!蔽崾貭栒J為,在可預見的未來,人所擅長的某些方面機器很難代替,如對情感、場景和言外之意的捕捉與體驗,對不同語言文化背景下的溝通技巧的運用等。機器擅長常規(guī)的文內之義翻譯,能夠大規(guī)模瞬時準確地完成一半質量的翻譯任務,幫助翻譯團隊進行翻譯任務的協(xié)調與同步,提供一般性的信息服務。
事實上,也不必追求“替代”。吾守爾說,科學的人工智能觀是以人為本的人工智能觀,它指向了一個“人機共生”(或人機協(xié)作、人機耦合)的未來。
他回憶起20世紀90年代工程單位去海外投標的經歷,幾百頁的標書,要在一周內快速翻譯提交,這幾乎不可能,因為翻譯團隊人少了翻不完,人多了互相之間風格不一、術語不統(tǒng)一。但在機器翻譯和機輔翻譯平臺的幫助下,以前“不可譯”的任務現(xiàn)在“可譯”了。
“這是巨大的進步。翻譯行業(yè)因為人工智能的介入而受到影響,反而因為市場的擴大,更加繁榮。會使用技術裝備的譯者和單位獲得了更多的收益,整個市場變大,社會福祉也隨之增加?!蔽崾貭栒f。