(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏拉薩850000;2.青海師范大學(xué)計算機(jī)學(xué)院,青海西寧810008)
藏文歷史悠久,藏文文獻(xiàn)浩如煙海,藏族文化是中華文化寶庫中的瑰寶。黨的十一屆三中全會后,隨著我國改革開放的不斷深入和以因特網(wǎng)為標(biāo)志的信息技術(shù)的迅猛發(fā)展,中文信息化開啟了快速發(fā)展歷程,各少數(shù)民族的語言文字信息化緊隨其后,西藏的藏文信息化也搭上了中文信息化發(fā)展的快車,取得了豐碩的成果。藏文信息化無論是對繼承和弘揚優(yōu)秀民族文化,還是推動西藏經(jīng)濟(jì)發(fā)展、社會進(jìn)步都發(fā)揮了重要作用[1]。本文從西藏藏文信息化的發(fā)展歷程、取得的成就、重大意義、新時代的展望等方面,回顧了改革開放以來,尤其是黨的十八召開以來西藏藏文信息化的發(fā)展歷程。
西藏藏文信息化發(fā)展經(jīng)過了學(xué)習(xí)和探索的萌芽階段、藏文信息技術(shù)發(fā)展的早期階段和藏文信息技術(shù)的快速發(fā)展階段。
藏文信息化是指利用電子計算機(jī)對藏語的音、形、義等語言文字信息做出加工與操作,主要涉及內(nèi)容有對字、詞、句、文章等進(jìn)行輸入和輸出,并進(jìn)行識別、轉(zhuǎn)換、檢索、分析、理解及生成等進(jìn)行處理[2]。在藏文信息技術(shù)發(fā)展過程中,首先關(guān)注的是如何進(jìn)行藏文信息的基本處理。
20世紀(jì)80年代末,西藏大學(xué)研究開發(fā)了西藏自治區(qū)第一個藏文信息處理軟件——TCE藏漢英文信息處理系統(tǒng),實現(xiàn)了藏、漢、英文信息的共同處理,并廣泛應(yīng)用于藏文公文處理、教材編撰、古籍研究整理等領(lǐng)域。除此之外,國內(nèi)還相繼開發(fā)了藏文激光照排系統(tǒng)等各類不同層次的藏文信息處理系統(tǒng)。由于沒有統(tǒng)一的信息交換用藏文編碼字符集國家和國際標(biāo)準(zhǔn),當(dāng)時的藏文信息處理系統(tǒng)要么占用了漢字的編碼空間,要么自定義藏文編碼,各系統(tǒng)之間的信息無法實現(xiàn)交換和共享處理。在此背景下,自1994年開始,在全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會的組織下,西藏自治區(qū)藏語文工作委員會辦公室(原西藏自治區(qū)藏語文工作指導(dǎo)委員會辦公室)、西藏大學(xué)、西藏自治區(qū)質(zhì)量技術(shù)監(jiān)督局(原西藏自治區(qū)技術(shù)監(jiān)督局)等高校和研究機(jī)構(gòu)研究制定了ISO/IEC 10646《信息交換用藏文編碼字符集》國際標(biāo)準(zhǔn)方案,并先后6次向ISO/IEC JTC1/SC2/WG2提交正式提案[3]。1997年7月,國際標(biāo)準(zhǔn)化組織(ISO)宣布:由我國提交的藏文編碼國際標(biāo)準(zhǔn)方案正式成為ISO/IEC 10646藏文編碼國際標(biāo)準(zhǔn)[4],1997年9月2日,國家技術(shù)監(jiān)督局正式發(fā)布中華人民共和國國家標(biāo)準(zhǔn)GB16959—1997《信息技術(shù) 信息交換用藏文編碼字符集 基本集》,1998年1月1日開始實施,使藏文成為我國少數(shù)民族文字中第一個正式進(jìn)入ISO/IEC10646標(biāo)準(zhǔn)編碼體系結(jié)構(gòu)的文字[5],標(biāo)志著西藏藏文信息化正式走向現(xiàn)代化,走向世界。
1998年,我區(qū)承擔(dān)第一個科技部“863”項目——計算機(jī)藏文Windows平臺研發(fā)。
2004年開始,西藏自治區(qū)人民政府與工業(yè)和信息化部(原信息產(chǎn)業(yè)部)簽署《關(guān)于藏文軟件開發(fā)和推廣應(yīng)用的合作協(xié)議》[6]。2005年,工業(yè)和信息化部安排藏文軟件開發(fā)專項資金3300萬元,研發(fā)藏文操作系統(tǒng)、藏文輸入法、藏文辦公套件、藏文瀏覽器及網(wǎng)頁制作工具、藏文書刊公文電子出版系統(tǒng)等藏文基礎(chǔ)和共性軟件[7][8],研發(fā)工作由內(nèi)地和西藏自治區(qū)骨干企事業(yè)單位承擔(dān)。
2005年11月,應(yīng)中國電信集團(tuán)有限公司拉薩分公司要求,西藏大學(xué)和深圳潤匯科技有限公司聯(lián)合研發(fā)了全球首款全藏文數(shù)字移動電話和車載電話,并進(jìn)行了產(chǎn)業(yè)化[9]。之后,西藏大學(xué)又陸續(xù)研發(fā)了基于Symbian、Windows Mobile和Android等智能移動電話操作系統(tǒng)的藏文輸入法[10],以及全球首款全藏文安卓(Android)操作系統(tǒng)[11]。2008年11月,西藏洛藏數(shù)碼科技有限公司研發(fā)了首款藏漢英電子詞典硬件產(chǎn)品并市場化[12]。
2007年10月,教育部批準(zhǔn)立項建設(shè)了“藏文信息技術(shù)教育部工程研究中心”,2010年,經(jīng)西藏自治區(qū)機(jī)構(gòu)編制委員會批準(zhǔn),西藏大學(xué)成立藏文信息技術(shù)研究中心[13],同年5月,西藏大學(xué)“藏文信息處理技術(shù)”團(tuán)隊入選教育部“長江學(xué)者和創(chuàng)新團(tuán)隊發(fā)展計劃”創(chuàng)新團(tuán)隊。
現(xiàn)階段藏文信息技術(shù)處在快速發(fā)展階段,這一階段以藏語自然語言處理技術(shù)研發(fā)為標(biāo)志。我區(qū)相關(guān)科研單位和科技工作者在藏語自然語言處理領(lǐng)域的藏語自動分詞與詞性標(biāo)注、藏語語料庫、藏漢/漢藏統(tǒng)計機(jī)器翻譯技術(shù)、多文種搜索引擎和藏文文獻(xiàn)資源數(shù)字化技術(shù)等方向進(jìn)行了深入研究。
2012年,西藏大學(xué)研發(fā)全球第一個“藏文圖書期刊數(shù)據(jù)庫及資源管理與檢索平臺”,完成了近4000冊藏文現(xiàn)代圖書、45種國內(nèi)藏文期刊文章、近2000篇藏文學(xué)位論文的數(shù)字化。建設(shè)了中國藏文文獻(xiàn)資源網(wǎng)(中國西藏知網(wǎng)),面向國內(nèi)相關(guān)高等學(xué)校、研究機(jī)構(gòu)和研究人員提供電子文獻(xiàn)服務(wù)。
2015年12月,西藏大學(xué)研發(fā)“陽光藏漢雙向機(jī)器翻譯系統(tǒng)”“陽光多文種搜索引擎”,實現(xiàn)了藏漢雙向機(jī)器翻譯和藏漢英跨語言搜索及多文種呈現(xiàn)技術(shù)[14]。藏漢雙向機(jī)器翻譯系統(tǒng)通過網(wǎng)站和iOS、Android操作系統(tǒng)App面向社會提供服務(wù),用戶遍布國內(nèi)外,是全球最具影響力的藏漢雙向機(jī)器翻譯系統(tǒng)。
2017年5月,西藏自治區(qū)藏語文工作委員會辦公室建設(shè)的新版西藏藏語言文字網(wǎng)正式開通,該網(wǎng)站是國家語委系統(tǒng)支持的首個民族語言文字網(wǎng)站,提供PC和移動終端訪問功能[15]。
2017年12月,西藏大學(xué)作為首席科學(xué)家單位牽頭承擔(dān)全區(qū)高校首個國家重點研發(fā)計劃重點專項——“藏文文獻(xiàn)資源數(shù)字化技術(shù)集成與應(yīng)用示范”。項目以藏文文獻(xiàn)資源數(shù)字化技術(shù)集成與應(yīng)用示范為目標(biāo),以新一代人工智能技術(shù)、數(shù)字化技術(shù)、藏文信息技術(shù)和網(wǎng)絡(luò)技術(shù)為支撐,攻克制約藏文文獻(xiàn)數(shù)字化事業(yè)發(fā)展的關(guān)鍵技術(shù),創(chuàng)新藏文文獻(xiàn)資源開發(fā)利用模式,提升我國藏文文獻(xiàn)資源開發(fā)和應(yīng)用領(lǐng)域科技創(chuàng)新支撐能力與水平,助力我國文化科技服務(wù)業(yè)支撐平臺研發(fā)與示范。
2013年,科技部批準(zhǔn)成立西藏大學(xué)“藏文信息技術(shù)創(chuàng)新人才培養(yǎng)示范基地”。2017年,西藏自治區(qū)科技廳立項建設(shè)“藏文信息技術(shù)人工智能重點實驗室”。
這個時期藏文信息技術(shù)基礎(chǔ)理論研究也取得重要進(jìn)展。我區(qū)藏文信息技術(shù)研究人員研究了藏文拼寫形式語言及其自動機(jī),出版了第一個藏語計算語言學(xué)中文和英文版學(xué)術(shù)著作《藏文拼寫形式語言及其自動機(jī)研究和應(yīng)用》[16],首次創(chuàng)新性地提出解決計算機(jī)藏文拼寫檢查、機(jī)器排序、自動校對和智能輸入技術(shù)難題的理論和方法,并成功應(yīng)用于研發(fā)實踐。
在改革開放以來國家經(jīng)濟(jì)和科技高速發(fā)展的背景下,我區(qū)科技工作者在國家和自治區(qū)的高度關(guān)注和大力支持下,努力開拓,與時俱進(jìn),在藏文信息技術(shù)標(biāo)準(zhǔn)制定、應(yīng)用系統(tǒng)研發(fā)、自然語言處理、文化資源數(shù)字化、基礎(chǔ)理論研究等領(lǐng)域填補(bǔ)一系列空白,取得一系列具有自主知識產(chǎn)權(quán)的研究成果,許多研發(fā)成果被鑒定達(dá)到國際領(lǐng)先、國際先進(jìn)水平。《信息交換用藏文編碼字符集》國際標(biāo)準(zhǔn)和GB16959—1997的頒布和實施[17],各類計算機(jī)藏文軟件的推廣應(yīng)用,藏文通信技術(shù)的日臻成熟和普及,以及藏語自然語言處理和藏文文獻(xiàn)資源數(shù)字化技術(shù)研發(fā)成果面向社會服務(wù)在國內(nèi)外產(chǎn)生了廣泛影響,為確立我國在國際藏文信息技術(shù)領(lǐng)域的主導(dǎo)地位做出突出貢獻(xiàn)。
隨著藏文信息技術(shù)研發(fā)與推廣應(yīng)用,鍛煉和培養(yǎng)了一支藏文信息技術(shù)的專業(yè)人才隊伍,使藏文信息技術(shù)服務(wù)西藏經(jīng)濟(jì)社會發(fā)展和藏文現(xiàn)代化的能力不斷提升。
2011年7月18日,時任中央政治局常委、國家副主席、中央代表團(tuán)團(tuán)長習(xí)近平同志在參加西藏和平解放六十周年慶?;顒又H,視察了西藏大學(xué),并親自試用了藏漢英智能語言教具系統(tǒng),稱贊“這樣的應(yīng)用研究成果很好”[18],殷切期望科研工作者做好藏文信息技術(shù)研發(fā)工作。
2008年,西藏大學(xué)“藏文信息處理應(yīng)用技術(shù)研究”成果獲西藏自治區(qū)科學(xué)技術(shù)獎二等獎;2010年,西藏大學(xué)GB16959—1997《信息技術(shù)信息交換用藏文編碼字符集基本集》藏文編碼標(biāo)準(zhǔn)獲得中國標(biāo)準(zhǔn)創(chuàng)新貢獻(xiàn)獎一等獎;2012年,西藏大學(xué)“藏文軟件研發(fā)與推廣應(yīng)用”成果獲得國家科技進(jìn)步二等獎[19];2013年,西藏大學(xué)“藏文信息化關(guān)鍵技術(shù)及綜合應(yīng)用平臺研究”成果獲西藏自治區(qū)科學(xué)技術(shù)獎一等獎;2016年,西藏大學(xué)“藏文圖書期刊數(shù)據(jù)庫及資源管理與檢索平臺”成果獲西藏自治區(qū)科學(xué)技術(shù)獎二等獎;2017年,西藏大學(xué)“藏語自然語言處理關(guān)鍵技術(shù)研究與應(yīng)用”成果獲西藏自治區(qū)科學(xué)技術(shù)獎一等獎。
隨著計算機(jī)技術(shù)和英特網(wǎng)的蓬勃發(fā)展,信息技術(shù)已經(jīng)與人們的日常工作、學(xué)習(xí)生活息息相關(guān),它正以驚人的速度進(jìn)入人類社會的各個角落。推進(jìn)語言文字信息化是一項龐大而極富有挑戰(zhàn)性的工程。一方面,信息技術(shù)的迅猛發(fā)展給語言文字的信息化和現(xiàn)代化帶來了新的機(jī)遇[20],同時,信息化時代加速了各種語言文字之間的競爭,使全球數(shù)字鴻溝呈現(xiàn)擴(kuò)大趨勢,發(fā)展失衡現(xiàn)象日趨嚴(yán)重,各種語言文字的地位差異在信息化時代有擴(kuò)大的趨勢[21]。將古老的藏文與現(xiàn)代信息技術(shù)相結(jié)合,對傳承優(yōu)秀中華文化,擴(kuò)大中華文化影響力,促進(jìn)民族文化交流,提升西藏整體信息化水平,推動經(jīng)濟(jì)社會發(fā)展具有重要意義。
語言文字是信息的主要載體,因而語言文字的信息化在社會信息化中占有舉足輕重的地位。維護(hù)信息化安全成為維護(hù)國家主權(quán)完整的核心內(nèi)容之一,語言文字信息化對國家安全的作用日益凸顯[22]。藏文的故鄉(xiāng)在中國,她是西藏農(nóng)牧民群眾的主要交流工具,她的信息化直接關(guān)乎西藏社會的整體信息化水平,關(guān)乎民族團(tuán)結(jié)和社會長治久安。
藏族文化是中華文化寶庫中的瑰寶,藏文是藏族文化的重要載體。將古老的藏文與現(xiàn)代信息技術(shù)研發(fā)相結(jié)合,對傳承優(yōu)秀中華文化,擴(kuò)大中華文化影響力,促進(jìn)民族文化交流,推動西藏經(jīng)濟(jì)社會發(fā)展具有重要意義。
教育是世界上每個國家的立國之本,教育資源是推動教育、科技、經(jīng)濟(jì)、文化發(fā)展的主要支撐,而語言文字作為文化的載體,其資源建設(shè)是教育資源建設(shè)的核心。在信息時代,一種語言文字資源建設(shè)的基礎(chǔ)是這個語言文字的信息化。當(dāng)然,語言文字的建設(shè)規(guī)模和水平也影響著該語言文字信息化的發(fā)展水平。
2018年教育部正式提出“教育信息化2.0行動計劃”,提出“互聯(lián)網(wǎng)+”的大資源觀,即構(gòu)建知識圖譜。知識圖譜的研究是這幾年西藏藏文信息技術(shù)研究中的一個熱點,需要通過大量的語言文字資源構(gòu)造知識之間的關(guān)系,從而達(dá)到知識資源的共享,所以藏文信息化是西藏教育信息化的必要基礎(chǔ)保障,也是實現(xiàn)教育現(xiàn)代化、教育智能化的主要途徑。
計算機(jī)輔助教學(xué)成為西藏各個學(xué)校教學(xué)中的主要手段,多媒體教學(xué)理念以及教學(xué)技術(shù)的融入,使更多教師與學(xué)生認(rèn)識到信息技術(shù)的重要性,無論是教學(xué)手段,還是學(xué)習(xí)手段都開始朝著信息化方向發(fā)展。很多教師已經(jīng)開始嘗試結(jié)合西藏中小學(xué)教學(xué)手段制作自學(xué)軟件、測試軟件、教學(xué)軟件,等等,隨著多媒體系統(tǒng)的逐步完善,加之非常豐富的網(wǎng)絡(luò)資源,使得教學(xué)更加具有活力。
基礎(chǔ)理論研究是任何一種文字信息化的基本工作,藏文信息化也不例外。有了扎實的基礎(chǔ)理論,藏文信息化就能夠快速發(fā)展,走向成熟。缺乏基礎(chǔ)理論的支撐,藏文信息化的發(fā)展將會遇到無法突破的瓶頸,發(fā)展速度和水平受到嚴(yán)重影響。從信息技術(shù)的角度研究以藏文文法為核心的知識體系,進(jìn)而結(jié)合自然語言處理的理論和方法,研究藏語自然語言處理(藏語計算語言學(xué))的基本理論和方法。
目前,藏文信息技術(shù)研發(fā)領(lǐng)域存在熱衷“拿來主義”,輕視基礎(chǔ)理論和方法研究的現(xiàn)象。藏文信息技術(shù)要想持續(xù)不斷地發(fā)展,就必須夯實基礎(chǔ),強(qiáng)化研發(fā)力度,突出特色,不斷進(jìn)行集成創(chuàng)新,朝著原始創(chuàng)新的方向不斷努力。國際自然語言處理技術(shù)發(fā)展十分迅速,一個顯著的特點就是自然語言處理技術(shù)與人工智能的深度結(jié)合[23]。藏文信息技術(shù)需要在學(xué)習(xí)、吸收、實踐傳統(tǒng)自然語言處理技術(shù)的同時,跟蹤學(xué)習(xí)機(jī)器學(xué)習(xí)等人工智能的基本理論和方法[24],厚積薄發(fā),在新的技術(shù)發(fā)展階段實現(xiàn)新的飛躍。
藏文至今已有1300多年的歷史。藏文文法自成體系,非常嚴(yán)謹(jǐn),有較強(qiáng)的規(guī)律性、邏輯性以及穩(wěn)定性。目前對藏文信息技術(shù)的研究對象——以藏文文法為核心的知識體系的挖掘非常欠缺,亟待從語用、語境、語音、語義、語法等方面,對以藏文文法為核心的知識體系進(jìn)行定量化、精細(xì)化的分析研究,以適應(yīng)藏文信息化在深度和廣度上發(fā)展的需求。
語言資源的建設(shè)是藏文信息化的基礎(chǔ)工程,尤其是在人工智能階段更是如此。目前,藏文語言資源建設(shè)存在發(fā)展的不充分性、離散性和封閉性等問題,大多數(shù)資源還達(dá)不到實際可用的規(guī)模和程度,更沒有一個好的資源共享機(jī)制,使得一些可用的資源也難以推廣和共享。
在中文資源建設(shè)以及資源共享方面,以清華大學(xué)為首的高等院校和相關(guān)教育機(jī)構(gòu)創(chuàng)建了中文語言數(shù)據(jù)聯(lián)盟,從建立至今該聯(lián)盟已經(jīng)擁有70多個會員單位,其資源包括80多種語言資源,還有《分詞詞性標(biāo)注語料庫》《中英雙語語料庫》《漢語語法樹庫》《漢語語法信息詞典(高頻詞)》等大量語言資源[25]。
中文語言資源聯(lián)盟的成功建設(shè),為藏文信息化領(lǐng)域建立藏文數(shù)據(jù)資源聯(lián)盟提供了可借鑒的成功經(jīng)驗。
從實際的需求來講,在藏文語言資源的建設(shè)過程當(dāng)中,我們必須確保不論是語言信息還是知識庫都具有較高的通用性。同時,還必須確保資源建設(shè)具有良好的開放性、系統(tǒng)性、完整性、規(guī)范性和權(quán)威性。
就目前的情況來看,不論是英語還是漢語,都已經(jīng)建立了現(xiàn)代化的,免費、開放的信息處理平臺,這極大地促進(jìn)了技術(shù)的傳播和發(fā)展[26]。目前藏文信息化還沒有建設(shè)開放的藏語自然語言處理平臺,藏語自動分詞和詞性標(biāo)注等很多研發(fā)工作在低水平上重復(fù),極大地妨礙了藏文信息技術(shù)研發(fā)。應(yīng)盡早建設(shè)西藏藏文信息化開放平臺,既實現(xiàn)技術(shù)和資源的開放共享,同時為藏文信息技術(shù)研發(fā)人員搭建協(xié)同研發(fā)、創(chuàng)新平臺,避免研發(fā)工作的孤軍奮戰(zhàn),低水平重復(fù)。
學(xué)術(shù)交流是技術(shù)發(fā)展的必要條件和催化劑,藏文信息技術(shù)研究也必須進(jìn)行廣泛的學(xué)術(shù)交流。目前,國內(nèi)外自然語言處理學(xué)術(shù)交流非常頻繁,國外的頂級學(xué)術(shù)會議有ACL(國際計算語言學(xué)會議)、IJCAI(國際人工智能聯(lián)合會議)、AAAI(美國人工智能協(xié)會年會)、EMNLP(自然語言處理實踐方法大會)、COLING(計算語言學(xué)國際大會)等;國內(nèi)也有很多具有影響力的學(xué)術(shù)會議,比如中國計算機(jī)大會、全國計算語言學(xué)學(xué)術(shù)會議、自然語言處理青年學(xué)者研討會,以及全國學(xué)生計算語言學(xué)研討會、全國機(jī)器翻譯研討會、全國信息檢索學(xué)術(shù)會議、中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會等。這些國內(nèi)外學(xué)術(shù)會議是藏文信息技術(shù)研發(fā)人員的重要學(xué)術(shù)交流平臺,應(yīng)該積極參與,相互交流和學(xué)習(xí),共同進(jìn)步和發(fā)展。同時,通過與國內(nèi)從事自然語言處理的研究機(jī)構(gòu)合作,邀請國內(nèi)著名的自然語言處理專家舉辦學(xué)術(shù)講座等方式,學(xué)習(xí)了解最新的理論、方法,開闊研究思維。
在西藏藏文信息化30多年的輝煌歷程中,產(chǎn)生了一批令人鼓舞的研究成果。與此同時,我們也應(yīng)該清醒地認(rèn)識到,目前藏文信息技術(shù)還沒有構(gòu)建起較為完善的理論和方法體系,許多基礎(chǔ)研究和應(yīng)用研發(fā)還處在摸索階段。藏文信息化涉及到計算機(jī)、語言學(xué)以及認(rèn)知學(xué)等諸多學(xué)科,具有學(xué)科交叉的復(fù)雜性,是一項艱巨的系統(tǒng)工程,有許多研究領(lǐng)域有待開拓,有大量的研究工作有待開展,有許多的技術(shù)難題有待解決,藏文信息化工作任重道遠(yuǎn)!