李宇明 王春輝
科學(xué)是第一生產(chǎn)力。科學(xué)的發(fā)展必然會促進(jìn)生產(chǎn)力的發(fā)展,進(jìn)而也將對生產(chǎn)關(guān)系進(jìn)行相應(yīng)調(diào)整。數(shù)字科學(xué)并未將自己局限于科學(xué)領(lǐng)域,而是以其巨大的科學(xué)成就推動人類進(jìn)入“數(shù)字經(jīng)濟(jì)”時代。數(shù)據(jù)不僅是數(shù)字科學(xué)的核心要素,也嬗變?yōu)閿?shù)字經(jīng)濟(jì)的重要生產(chǎn)要素。
在數(shù)據(jù)作為數(shù)字科技和數(shù)字經(jīng)濟(jì)關(guān)鍵生產(chǎn)要素的時代,“語言數(shù)據(jù)”必然成為學(xué)術(shù)研究的熱點(diǎn),成為發(fā)展經(jīng)濟(jì)爭相擁有的對象。在英文語境中,“語言數(shù)據(jù)”(linguistic data,language data)是近幾十年來使用較為頻繁的術(shù)語,但在中文語境里還是一個較新且較少使用的概念。在網(wǎng)上檢索“語言數(shù)據(jù)”,可見2016年有“語言大數(shù)據(jù)聯(lián)盟”的消息,2020年7月有《光明日報》發(fā)表李宇明《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》的文章,之后有上海外國語大學(xué)設(shè)立“語言數(shù)據(jù)科學(xué)與應(yīng)用”專業(yè)的碩博士學(xué)位、成立“語言數(shù)據(jù)與智慧教育研究中心”的消息,2021年9月有浙江財經(jīng)大學(xué)的“語言數(shù)據(jù)創(chuàng)新班”招生簡章等。
“語言數(shù)據(jù)”較少見用的原因是:其一,人們已習(xí)慣使用“語言材料”“語料(庫)”“語言資源”這類說法。其二,“數(shù)據(jù)”(data)研究者,習(xí)慣用“數(shù)據(jù)”“大數(shù)據(jù)”這樣的上位概念,不需要或不能自覺區(qū)分語言數(shù)據(jù)和其他數(shù)據(jù),確需指明時才加“語言”作為限定。其三,本質(zhì)上是對“語言數(shù)據(jù)”的重要性認(rèn)識不足,研究還比較薄弱。
語言數(shù)據(jù)是以語言符號體系為基礎(chǔ)構(gòu)成的各種數(shù)據(jù),內(nèi)部可以細(xì)分為5類。
(1)語言學(xué)科數(shù)據(jù)。指語言符號系統(tǒng)本身的各種數(shù)據(jù),如語音、語匯、語法、語篇等,也包括文字、標(biāo)點(diǎn)符號、音標(biāo)等。有必要時,還可以將其分別稱為語音數(shù)據(jù)、語法數(shù)據(jù)、文字?jǐn)?shù)據(jù)等。語言學(xué)科數(shù)據(jù)是對語言這一客體進(jìn)行研究而得到的各種認(rèn)識,屬于語言學(xué)知識范疇,辭書、教科書、語言學(xué)論文著作等是其通常的貯存方式。
(2)話語數(shù)據(jù)。也可以稱為“言語數(shù)據(jù)”,指在語言交際中產(chǎn)生的口語和書面語等各種數(shù)據(jù)。這類數(shù)據(jù)是語言(文字)作為載體(或主要載體)所負(fù)載的各種知識與信息,存在于人類生活、工作、學(xué)習(xí)、休閑娛樂等各個領(lǐng)域,是語言數(shù)據(jù)中最為豐富、最為重要的一類。話語數(shù)據(jù)可以是不同領(lǐng)域的,可以是單語、雙語和多語的,可以是平面媒體、有聲媒體、網(wǎng)絡(luò)媒體和融媒體的。
(3)語言衍生數(shù)據(jù)。涉及語言的社會屬性、生存狀態(tài)、媒介裝備等相關(guān)數(shù)據(jù)。比如各語言(文字)的地域分布、母語和第二語言使用人口,各國的國語(或官方語言)及語言能力,各語言的重要文獻(xiàn)數(shù)量及翻譯狀況,語言技術(shù)水平和語言產(chǎn)業(yè)狀況,甚至也涉及各語言所擁有的非物質(zhì)文化遺產(chǎn)、語言社團(tuán)的綜合實(shí)力及對人類的貢獻(xiàn)等。它是語言在長期社會應(yīng)用中形成的一系列附屬數(shù)據(jù),對衡量一種語言的生存狀況、判斷國際語言格局具有重要意義。
(4)人工語言數(shù)據(jù)。利用語言(文字)而設(shè)計的特殊符號系統(tǒng),以及運(yùn)用這些特殊符號而產(chǎn)生的各種數(shù)據(jù)。比如盲文、手語、電報代碼、旗語、燈語等,主要是將文字(或拼音符號)轉(zhuǎn)寫為特殊符號,用于特殊人群、特殊場合的交際。在符號轉(zhuǎn)換的過程中,也可加入一些特殊成分,比如手語中就加入了一些自然動作或聾人群體的傳統(tǒng)動作。
(5)語言代碼數(shù)據(jù)。指生活中、科技活動中使用的各種代碼和科技語言,它們通常具有高度形式化、可機(jī)讀(或容易轉(zhuǎn)化為機(jī)讀)的特點(diǎn)。如專業(yè)符號、公式、圖表、音樂曲譜、機(jī)讀語言、編程語言,還有各類號碼、條碼、標(biāo)記、印章、紅綠燈、網(wǎng)絡(luò)文本中的表情包甚至插圖、水印等。這是最廣泛意義上的語言數(shù)據(jù)。在語言生活中,這些人工語言或單獨(dú)使用,或與自然語言結(jié)合使用;有些可以“翻譯”為自然語言,有些不易“翻譯”,但都需要以自然語言作為“元語言”進(jìn)行定義、描述或解釋。在一個所謂的“讀圖時代”“超語時代”,這些人工語言的使用越來越頻繁,產(chǎn)生的數(shù)據(jù)越來越重要。
語言數(shù)據(jù)的研究與應(yīng)用,過去主要集中在語言學(xué)、計算語言學(xué)、信息科學(xué)等領(lǐng)域。隨著數(shù)據(jù)科學(xué)的發(fā)展,特別是數(shù)據(jù)成為人工智能發(fā)展的主要驅(qū)動因素,語言數(shù)據(jù)的研究與應(yīng)用,迅速擴(kuò)展到諸多學(xué)科和社會領(lǐng)域,彌散到人類的各個生活空間;因為語言數(shù)據(jù)占人類數(shù)據(jù)量的大多數(shù),語言數(shù)據(jù)的技術(shù)更新,特別是利用互聯(lián)網(wǎng)收集話語數(shù)據(jù)的便利性和處理話語數(shù)據(jù)的能力的快速提高,促進(jìn)了“數(shù)字科學(xué)”“數(shù)據(jù)科學(xué)”的迅速發(fā)展。在“數(shù)字科學(xué)”“數(shù)據(jù)科學(xué)”的發(fā)展中,語言數(shù)據(jù)發(fā)揮了舉足輕重的作用,因為所處理的“數(shù)字”“數(shù)據(jù)”主要是語言數(shù)據(jù)。
未來的語言數(shù)據(jù)研究,需要清醒認(rèn)識語言數(shù)據(jù)所具有的數(shù)據(jù)共性和語言特性,界定清楚語言數(shù)據(jù)的內(nèi)涵與外延,研討語言數(shù)據(jù)的功能及其實(shí)現(xiàn)方式,建立語言數(shù)據(jù)(資源)學(xué)科及人才培養(yǎng)體系,推進(jìn)語言數(shù)據(jù)科學(xué)的發(fā)展。語言數(shù)據(jù)在以下四大領(lǐng)域發(fā)揮功能最為顯著。
第一,語言保護(hù)。在語言資源保護(hù)領(lǐng)域,語言數(shù)據(jù)發(fā)揮了重要作用,如國家語委2008年啟動的“中國語言資源有聲數(shù)據(jù)庫建設(shè)”,2015年啟動的“中國語言資源保護(hù)工程”。但是全世界有7000多種語言,多數(shù)語言處于瀕危狀態(tài),為了全球語言保護(hù),急需為哪些語言建立語言數(shù)據(jù)庫,依據(jù)什么標(biāo)準(zhǔn)建立什么樣的語言數(shù)據(jù)庫,怎樣集各方之力建設(shè)和開發(fā)利用語言數(shù)據(jù)庫,是需要首先解決的大問題。
第二,語言教學(xué)。在語言教學(xué)領(lǐng)域,語言數(shù)據(jù)發(fā)揮著決定性的作用,特別是線上教學(xué)成為主導(dǎo)方式的今天。要滿足母語教學(xué)、外語教學(xué)、海外華語教育、國際中文教育等各種語言教學(xué)的需求,教育界和教育產(chǎn)業(yè)界必須把相關(guān)的各種語言數(shù)據(jù),特別是語言學(xué)科數(shù)據(jù)和話語數(shù)據(jù)進(jìn)行積聚整合,精準(zhǔn)發(fā)送到使用者手中。
第三,語言學(xué)研究和語言產(chǎn)品研發(fā)。語言學(xué)研究和語言產(chǎn)品研發(fā),必須依賴語言數(shù)據(jù),比如漢語語法規(guī)律的研究離不開語料庫;評價語言的社會功能需要的語言衍生數(shù)據(jù);詞典本來就是一種特殊的語言數(shù)據(jù)庫,特別是線上詞典,詞典編纂也早過了“抄卡片”的年代。語言數(shù)據(jù)庫已成為語言學(xué)研究的基本工具,成為語言產(chǎn)品研發(fā)的基本建設(shè)。
第四,語言信息處理。語言信息處理是語言數(shù)據(jù)最重要的功能領(lǐng)域。其一,計算機(jī)要獲得語言智能,能夠從事“語言行為”,必須依靠大量的語言數(shù)據(jù)“飼喂”,依靠“數(shù)據(jù)驅(qū)動”;其二,計算機(jī)的“社會計算”,主要處理的就是各領(lǐng)域的語言數(shù)據(jù)。這一方面有許多發(fā)展中的問題,比如如何利用語言學(xué)科數(shù)據(jù),使語言智能的發(fā)展變“數(shù)據(jù)單輪驅(qū)動”為“‘?dāng)?shù)據(jù)+規(guī)則’雙輪驅(qū)動”;如何建立可以測試評價計算機(jī)語言智能和語言行為的語言數(shù)據(jù)庫;如何擴(kuò)充英語之外的“雙語平行語料”,提升非通語種的自動翻譯能力;如何解決“語言小數(shù)據(jù)”問題,提升專門社會領(lǐng)域、專業(yè)學(xué)術(shù)領(lǐng)域的語言處理問題;如何利用語言數(shù)據(jù)為特殊行業(yè)、特殊人群配備人工智能助手等。
至于說語言數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素,應(yīng)當(dāng)做哪些工作,學(xué)界業(yè)界還較少討論。也許下面這些內(nèi)容是必要的:全力支持語言數(shù)據(jù)的科學(xué)研究,大力發(fā)展語言數(shù)據(jù)產(chǎn)業(yè)與職業(yè),建立和完善市場機(jī)制,逐步建立語言數(shù)據(jù)收集、加工、交換、貯存及產(chǎn)權(quán)、收益等相關(guān)的技術(shù)標(biāo)準(zhǔn)、法律法規(guī)和政策體系,充分發(fā)揮其生產(chǎn)要素的經(jīng)濟(jì)功能和社會功能。其中語言數(shù)據(jù)庫的共建共享是首要問題,可以說,從研究生做碩士、博士學(xué)位論文到每一個科研基金語言項目,從每一個辭書編纂項目到每一項自然語言處理工程,幾乎人人都要建語言數(shù)據(jù)庫,但卻不能實(shí)現(xiàn)學(xué)界業(yè)界共享,其學(xué)力和財力的浪費(fèi)已難以計算。
總之,語言數(shù)據(jù)是一個新的重要的話題,對它的研究超出了現(xiàn)有語言學(xué)的范疇,也超出了其他學(xué)科的單一學(xué)科范疇,需要多學(xué)科聯(lián)袂進(jìn)行交叉研究;語言數(shù)據(jù)問題也超出了學(xué)術(shù)研究范疇,成為社會發(fā)展的重要問題,需要全社會的共同參與。本專題的幾篇文章,涉及語言數(shù)據(jù)安全、語言數(shù)據(jù)的經(jīng)濟(jì)屬性、語言數(shù)據(jù)的數(shù)字化技術(shù)、語言智能技術(shù)對于數(shù)據(jù)治理的意義等論題,是關(guān)于語言數(shù)據(jù)幾個問題的初始性研究。初始性研究的意義主要不在于解決了什么問題,而是提出問題,引發(fā)關(guān)注。希望這一期語言數(shù)據(jù)研究能得到學(xué)界的呼應(yīng)和社會的支持。