国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國(guó)低資源語(yǔ)言大規(guī)模數(shù)據(jù)建構(gòu)及語(yǔ)言田野實(shí)踐的數(shù)據(jù)轉(zhuǎn)向*

2023-02-18 06:32:02范俊軍
關(guān)鍵詞:語(yǔ)料語(yǔ)言學(xué)建構(gòu)

范俊軍, 沐 華,2

(1. 暨南大學(xué) 文學(xué)院,廣東 廣州 510632; 2. 楚雄師范學(xué)院 語(yǔ)言文化學(xué)院,云南 楚雄 675099)

一、低資源語(yǔ)言與低資源語(yǔ)言的數(shù)據(jù)建構(gòu)

(一)低資源語(yǔ)言概念的界定

低資源語(yǔ)言這個(gè)概念源于自然語(yǔ)言處理(NLP)領(lǐng)域,指缺乏可用于自然語(yǔ)言處理任務(wù)和語(yǔ)言學(xué)計(jì)量分析所需足夠基礎(chǔ)數(shù)據(jù)的語(yǔ)言。這里的“足夠基礎(chǔ)數(shù)據(jù)”有3層含義:一是數(shù)據(jù)種類多樣,包括:(1)單語(yǔ)語(yǔ)料,如大詞表,各種口語(yǔ)句和語(yǔ)篇等;(2)雙語(yǔ)語(yǔ)料,如民族語(yǔ)-普通話、方言-普通話對(duì)照詞表,雙語(yǔ)句譯、篇章意譯文本等;(3)語(yǔ)域知識(shí)語(yǔ)義詞網(wǎng),如人名、地名、實(shí)體名關(guān)聯(lián)知識(shí)描述等。二是機(jī)器可計(jì)算處理的數(shù)據(jù),如制表符格式純文本,字符數(shù)組或矩陣數(shù)據(jù),數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù)等。三是數(shù)據(jù)達(dá)到規(guī)模量級(jí),如5萬(wàn)詞條、10萬(wàn)句子等等。雖然不同NLP任務(wù)的數(shù)據(jù)有些差異,但都要有足夠的基礎(chǔ)語(yǔ)料。機(jī)器學(xué)習(xí)要有大量的單語(yǔ)詞語(yǔ)、句子,以及書(shū)籍、科學(xué)論文、電子郵件、社交媒體等各種文本。機(jī)器翻譯需要大量平行語(yǔ)料以及分詞或詞類標(biāo)記的文本等。從語(yǔ)言學(xué)研究來(lái)看,語(yǔ)言結(jié)構(gòu)單位組合與聚合的頻次及分布,語(yǔ)言要素相關(guān)性及語(yǔ)言特征數(shù)學(xué)表征,也有賴于大量詞語(yǔ)、句子和語(yǔ)篇的統(tǒng)計(jì)分析。語(yǔ)言應(yīng)用方面,如制定拼音方案和正詞法,其中涉及分詞連寫(xiě)、聲韻調(diào)字母選擇、音節(jié)界限、新詞術(shù)語(yǔ)意譯等,也要大詞表、語(yǔ)句和語(yǔ)篇統(tǒng)計(jì)分析才能有效解決。

低資源語(yǔ)言和通常說(shuō)的“低聲望語(yǔ)言”“弱勢(shì)語(yǔ)言”“不知名語(yǔ)言”“較少人使用的語(yǔ)言”“少數(shù)民族語(yǔ)言”“瀕危語(yǔ)言”等概念有某些相似之處,但屬于不同概念。這里的“資源”是指語(yǔ)言數(shù)據(jù),即機(jī)器可讀形式、用于計(jì)算的語(yǔ)音或文本數(shù)據(jù)集,如機(jī)器詞典、句表,書(shū)面語(yǔ)和口語(yǔ)語(yǔ)料庫(kù),術(shù)語(yǔ)數(shù)據(jù)庫(kù)、語(yǔ)音庫(kù)等。自然語(yǔ)言處理所需的低資源語(yǔ)言數(shù)據(jù)最低能低到多少呢?Oliver Adams等人對(duì)云南永寧納西語(yǔ)進(jìn)行詞嵌入語(yǔ)言模型訓(xùn)練,所用數(shù)據(jù)有2000多詞條和3039個(gè)句子,其中訓(xùn)練用句2039句,測(cè)試用句1000句。(1)Oliver A., Adam M., Graham N., Steven B., Trevor C. A survey of cross-lingual word embedding models[J]. Journal of Artificial Intelligence Research.2017,(1).Katharina Kann等人對(duì)15種低資源語(yǔ)言進(jìn)行詞類機(jī)器標(biāo)注訓(xùn)練,搜集到可用的、數(shù)量最少的雙語(yǔ)詞表是馬耳他語(yǔ)-英語(yǔ)對(duì)照詞匯2100條,句子2361個(gè)(43900 token),而句子最少的是阿姆哈拉語(yǔ),只有777句(17900 token),阿-英對(duì)照詞匯2700條。兩種語(yǔ)言的測(cè)試結(jié)果分別是0.3441和0.3544,(2)Kann, K., Lacroix O. ,S?gaard A.Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource Languages[J]. Proceedings of the AAAI Conference on Artificial Intelligence. 2020,(5).表明太少數(shù)據(jù)訓(xùn)練的模型效用較低。不過(guò),15種語(yǔ)言平均有21320個(gè)詞,5910條句子。

法國(guó)語(yǔ)言資源清單工程(3)Leixa, Jérémy, Valérie M., Khalid C.Inventaire des ressources linguistiques des langues de France (ELDA/DGLFLF-2013A)[C]. Paris: ELDA/DGLFLF, 2014.曾采用文本語(yǔ)料庫(kù)、語(yǔ)音語(yǔ)料庫(kù)、平行語(yǔ)料庫(kù)、詞庫(kù)、語(yǔ)法標(biāo)注語(yǔ)料等指標(biāo)對(duì)法國(guó)幾十種語(yǔ)言的數(shù)據(jù)資源進(jìn)行評(píng)估,但世界上大多數(shù)語(yǔ)言缺乏數(shù)據(jù)評(píng)估。全球近7000種語(yǔ)言僅100種語(yǔ)言有語(yǔ)法樹(shù)庫(kù)(4)通用依存樹(shù)庫(kù).https://universaldependencies.org:訪問(wèn)時(shí)間:2023-06-21;Zeman D, Marecek D, Popel M, et al. Hamle DT: To Parse or Not to Parse?//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012)[C]. Istanbul, Turkey: European Language Resources Association (ELRA), 2012:2735~2741.,50種語(yǔ)言有詞網(wǎng)庫(kù)(5)Global WordNet Association[EB/OL].http://globalwordnet.org,訪問(wèn)時(shí)間:2023-06-21.,其中僅16種語(yǔ)言有詞義標(biāo)注或知識(shí)庫(kù);谷歌、微軟和蘋(píng)果系統(tǒng)僅支持100多種語(yǔ)言(6)Google 谷歌[EB/OL].http://translate.google.cn,訪問(wèn)時(shí)間:2023-06-21.;美國(guó)世界少數(shù)民族語(yǔ)文研究院(SIL)有2000多種語(yǔ)言的《圣經(jīng)》譯本,但屬單一語(yǔ)體;維基百科支持300種語(yǔ)言(7)Wikipedia[EB/OL].https://en.wikipedia.org/wiki/List_of_Wikipedias,訪問(wèn)時(shí)間:2023-06-21.算是最多的。目前人工智能語(yǔ)言模型主要是國(guó)家或地區(qū)官方語(yǔ)大語(yǔ)種,大量的低資源語(yǔ)言沒(méi)有數(shù)據(jù)集和模型。因此,即使不考慮已有資料是否已經(jīng)數(shù)字化或是否能將文獻(xiàn)資料數(shù)據(jù)化并轉(zhuǎn)換為數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù),全世界98%以上的語(yǔ)言都缺乏基本的文獻(xiàn)、音像和網(wǎng)頁(yè)資源。

一種語(yǔ)言是高資源(或稱富資源)還是低資源,與人口和地域并無(wú)直接關(guān)系。低資源語(yǔ)言并不都是人口少的語(yǔ)言。印地語(yǔ)有5億人口,但其比起法語(yǔ)仍是低資源語(yǔ)言。就我國(guó)而言,普通話屬于高資源語(yǔ)言,粵方言屬于較高資源,而藏語(yǔ)、維吾爾語(yǔ)、蒙古語(yǔ)、哈薩克語(yǔ)、朝鮮語(yǔ)、壯語(yǔ)等語(yǔ)言則屬于次高資源。除此之外,其他漢語(yǔ)方言和少數(shù)民族語(yǔ)言都屬低資源語(yǔ)言,盡管使用人口可能超過(guò)許多中小國(guó)家的國(guó)語(yǔ)或官方語(yǔ)。少數(shù)民族自治州的通用民族語(yǔ)通常有些文獻(xiàn)積累,譬如一兩部詞典(或簡(jiǎn)單對(duì)照詞表),一兩種課本或讀本,有的語(yǔ)言還有周報(bào)、月報(bào)(或版面)、期刊(或欄目)。但總體上語(yǔ)料種類和數(shù)量仍然很有限,五六萬(wàn)詞條的詞典或詞匯集還很少,五六萬(wàn)的句典或句子集還未出現(xiàn),語(yǔ)篇大多是口傳故事小文本,知識(shí)讀本十分罕見(jiàn)。至于音像和新媒體,目前僅有兩三種民族文字新聞網(wǎng)站,零星的民族文字短文或小欄目板塊等。我國(guó)使用漢藏語(yǔ)的自治州通用民族語(yǔ),除藏語(yǔ)和壯語(yǔ)外,都缺乏可用于機(jī)器計(jì)算的語(yǔ)料庫(kù)、詞庫(kù)和知識(shí)庫(kù),好些語(yǔ)言還缺乏可數(shù)字化和數(shù)據(jù)化的文獻(xiàn)。

(二)自然語(yǔ)言處理領(lǐng)域建構(gòu)或改善低資源語(yǔ)言數(shù)據(jù)的案例

近年國(guó)際語(yǔ)言資源評(píng)估會(huì)議(LREC)(8)LREC Conferences[EB/OL].www.lrec-conf.org/,訪問(wèn)時(shí)間:2023-03-06.、北美機(jī)器翻譯協(xié)會(huì)(AMTA)(9)AMTA[EB/OL].www.amtaweb.org/,訪問(wèn)時(shí)間:2023-03-06.、低資源機(jī)器翻譯論壇(LoResMT)(10)LoResMT[EB/OL].https://sites.google.com/view/loresmt/,訪問(wèn)時(shí)間:2023-03-06.都十分關(guān)注低資源語(yǔ)言,谷歌NLP專家(11)Sebastian R. The 4 biggest open problems in NLP[EB/OL].http://ruder.io/4-biggest-open-problems-in-nlp/,訪問(wèn)時(shí)間:2023-03-06.將面向低資源語(yǔ)言處理作為當(dāng)今NLP四大開(kāi)放問(wèn)題之一。低資源語(yǔ)言處理主要涉及幾個(gè)方面:(1)資源采集;(2)投射/映射技術(shù);(3)語(yǔ)言任務(wù)(語(yǔ)法建模有關(guān));(4)語(yǔ)音識(shí)別;(5)嵌入;(6)機(jī)器翻譯等。(12)Alexandre M., Vincent C., Evan H. Low-resource Languages: A Review of Past Work and Future Challenges[J].http://arxiv.org/abs/2006.07264.重點(diǎn)是解決基本數(shù)據(jù)稀疏,其中一個(gè)解決方案是人工采集和創(chuàng)建低資源語(yǔ)言基本數(shù)據(jù)集,包括詞匯數(shù)據(jù)、文本分句和詞類標(biāo)注等最基礎(chǔ)的工作。例如,Mayoun等人所做的旁遮普語(yǔ)(Punjabi)詞匯數(shù)據(jù)集,(13)Humayoun M, Ranta A. Developing Lexicon//Pacific Asia Conference on Language, Information and Computing[C].2010:163~172.Cannell等人試圖為近千種資源稀缺語(yǔ)言建立網(wǎng)絡(luò)基本語(yǔ)料(14)Scannell K P. The Crubadan Project: Corpus building for under-resourced languages[C].Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop.2007:5~15.。低資源語(yǔ)言的語(yǔ)料數(shù)據(jù)建構(gòu)是語(yǔ)言學(xué)家和語(yǔ)言學(xué)可以大顯身手的領(lǐng)域。另一個(gè)解決方案是通過(guò)數(shù)據(jù)增強(qiáng)、多語(yǔ)言嵌入、遷移學(xué)習(xí)等算法擴(kuò)充數(shù)據(jù)。例如,Fadaee等將視覺(jué)數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)用于語(yǔ)言處理,通過(guò)改變平行語(yǔ)料庫(kù)的現(xiàn)有句子來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)(15)Fadaee, M., Bisazza, A., Monz, C. Data augmentation for low-resource neural machine translation[C].In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017.;Kumar等人的零樣本翻譯技術(shù)允許同時(shí)使用多種語(yǔ)言或方言訓(xùn)練編碼器模型,利用已學(xué)過(guò)的語(yǔ)言對(duì)在未見(jiàn)過(guò)的語(yǔ)言對(duì)之間進(jìn)行翻譯,從而避免為每種新語(yǔ)言重建機(jī)器翻譯系統(tǒng)(16)Rashi K., Piyush J., Vineet S. An augmented translation technique for low resource language pair: Sanskrit to Hindi translation[C]. In Proceedings of the 2019 2nd International Conference on Algorithms, Computing and Artificial Intelligence,2019.。

就我國(guó)的語(yǔ)言來(lái)說(shuō),國(guó)外技術(shù)領(lǐng)域已研發(fā)了普通話、粵方言、藏語(yǔ)以及某些境外有分布的少數(shù)民族語(yǔ)言如佤語(yǔ)、白苗話、克欽語(yǔ)、撣語(yǔ)的預(yù)訓(xùn)練模型,開(kāi)源社區(qū)發(fā)布了某些數(shù)據(jù)集。佤語(yǔ)、白苗話、克欽語(yǔ)(景頗)、撣語(yǔ)(傣語(yǔ))等語(yǔ)言屬于低資源語(yǔ)言。國(guó)內(nèi)技術(shù)領(lǐng)域已實(shí)現(xiàn)某些特定NLP任務(wù)的,主要是一些文獻(xiàn)資料豐富、語(yǔ)料數(shù)據(jù)較多的高資源或次高資源語(yǔ)言或方言。如普通話、省會(huì)漢語(yǔ)方言、藏語(yǔ)、蒙古語(yǔ)、維吾爾語(yǔ)、壯語(yǔ)、彝語(yǔ)等,(17)俄羅斯語(yǔ)、朝鮮語(yǔ)、哈薩克語(yǔ)在境外是一些國(guó)家的通用語(yǔ),資源相對(duì)也比較豐富。這些語(yǔ)言基本實(shí)現(xiàn)了單語(yǔ)語(yǔ)音-文本的單向機(jī)器轉(zhuǎn)換,民族語(yǔ)和漢語(yǔ)的文本翻譯轉(zhuǎn)換,語(yǔ)音識(shí)別和文本機(jī)器翻譯基本達(dá)到實(shí)用水平(18)龍從軍,安波.中國(guó)少數(shù)民族語(yǔ)言文字信息處理的進(jìn)展[J].暨南學(xué)報(bào),2022,(9).。

近兩年國(guó)內(nèi)技術(shù)領(lǐng)域?qū)Φ唾Y源語(yǔ)言開(kāi)始有所關(guān)注。例如,陸杉等人基于泰語(yǔ)和越南語(yǔ)的詞性標(biāo)注和依存分析聯(lián)合模型測(cè)試,(19)陸杉,毛存禮,余正濤,等.融合多粒度特征的低資源語(yǔ)言詞性標(biāo)注和依存分析聯(lián)合模型[J].中文信息學(xué)報(bào),2023,(7).楊鵬等人關(guān)于低資源語(yǔ)言無(wú)監(jiān)督語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)研究,(20)楊鵬,謝磊,張艷寧.低資源語(yǔ)言的無(wú)監(jiān)督語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2015,(2).于重重等人關(guān)于土家語(yǔ)端對(duì)端語(yǔ)音識(shí)別轉(zhuǎn)換模型測(cè)試研究(21)于重重,吳佳佳,陳運(yùn)兵等.基于多頭注意力機(jī)制的端到端土家語(yǔ)語(yǔ)音識(shí)別[J].計(jì)算機(jī)仿真,2022,(3).。國(guó)內(nèi)技術(shù)領(lǐng)域有關(guān)低資源語(yǔ)言的研究和測(cè)試,主要是基于少量語(yǔ)言數(shù)據(jù)的算法改善、數(shù)據(jù)增強(qiáng)以及實(shí)現(xiàn)或提升某些NLP任務(wù)質(zhì)量方面,受限于學(xué)術(shù)領(lǐng)域的相互隔離,國(guó)內(nèi)NLP技術(shù)領(lǐng)域和語(yǔ)言學(xué)領(lǐng)域都未見(jiàn)到有團(tuán)隊(duì)開(kāi)展我國(guó)低資源語(yǔ)言的數(shù)據(jù)建構(gòu)理論研究和實(shí)踐。我國(guó)低資源語(yǔ)言的數(shù)據(jù)集仍然十分欠缺,低資源語(yǔ)言模型也幾乎是空白。語(yǔ)言數(shù)據(jù)嚴(yán)重失衡對(duì)建構(gòu)高質(zhì)量大語(yǔ)言模型產(chǎn)生了遲滯作用,不利于形成我國(guó)在當(dāng)代語(yǔ)言模型技術(shù)競(jìng)爭(zhēng)中發(fā)揮作用,可見(jiàn)低資源語(yǔ)言數(shù)據(jù)稀缺,是當(dāng)前我國(guó)語(yǔ)言科學(xué)和自然語(yǔ)言處理共同面臨的問(wèn)題。

(三)低資源語(yǔ)言大規(guī)模數(shù)據(jù)建構(gòu)的意義和價(jià)值

低資源語(yǔ)言NLP應(yīng)用如機(jī)器翻譯、語(yǔ)音合成和識(shí)別、文本生成、文本聚類、信息搜索、人際對(duì)話等等,有廣闊的發(fā)展空間。全球低資源語(yǔ)言數(shù)量龐大,建構(gòu)低資源語(yǔ)言基礎(chǔ)數(shù)據(jù),提升語(yǔ)言模型性能,是NLP的瓶頸。有足夠的基礎(chǔ)數(shù)據(jù),才能實(shí)現(xiàn)AIGC生成內(nèi)容,結(jié)合人機(jī)交互增強(qiáng)數(shù)據(jù),解決數(shù)據(jù)稀疏和非平衡數(shù)據(jù)機(jī)器學(xué)習(xí)訓(xùn)練模型的難題。Meta AI技術(shù)團(tuán)隊(duì)致力于建構(gòu)NLLB(No Language Left Behind,不落下一種語(yǔ)言)機(jī)器翻譯語(yǔ)言模型,(22)NLLB T. No Language Left Behind: Scaling Human-Centered Machine Translation[C/OL]. https://doi.org/10.48550/arXiv.2207.04672,訪問(wèn)時(shí)間2023-03-06.希望囊括所有語(yǔ)言,但其關(guān)鍵仍在基礎(chǔ)數(shù)據(jù)。

正因此,大力推動(dòng)我國(guó)主體語(yǔ)群漢藏語(yǔ)系低資源民族語(yǔ)的不同結(jié)構(gòu)、不同模態(tài)、不同知識(shí)語(yǔ)義的大規(guī)模數(shù)據(jù)建構(gòu),填補(bǔ)我國(guó)語(yǔ)言模型的空缺,有效推進(jìn)NLP應(yīng)用,可極大促進(jìn)不同區(qū)域跨語(yǔ)言信息共享,經(jīng)貿(mào)、文化、教育交流,提升知識(shí)社會(huì)化水平。我國(guó)有多個(gè)民族自治州的民族語(yǔ)還是跨國(guó)家分布,推動(dòng)這些語(yǔ)言的大規(guī)模數(shù)據(jù)建構(gòu),促進(jìn)NLP應(yīng)用發(fā)展,有重要的國(guó)際政治和文化價(jià)值。我國(guó)南方低資源語(yǔ)言與東南亞、南亞、南太平洋區(qū)域境外語(yǔ)言有極大相關(guān)性,做好這部分語(yǔ)言的數(shù)據(jù)建構(gòu),能實(shí)現(xiàn)對(duì)周邊漢藏語(yǔ)系或南亞和南島語(yǔ)系國(guó)家及地區(qū)的傳播使用,有助于貫徹“積極構(gòu)筑民族語(yǔ)言文化高地,服務(wù)國(guó)家周邊外交”(23)國(guó)家語(yǔ)言文字工作委.關(guān)于進(jìn)一步做好語(yǔ)言文字信息化工作的若干意見(jiàn)[EB/OL].http://www.moe.gov.cn/srcsite/A19/s7067/201403/t20140314_166176.html,2014-03-14.的政策精神,形成我國(guó)語(yǔ)言文化及技術(shù)規(guī)范的國(guó)際話語(yǔ)權(quán)和向心力。

促進(jìn)低資源語(yǔ)言的當(dāng)代數(shù)字生活應(yīng)用,是實(shí)現(xiàn)語(yǔ)言持續(xù)的重要途徑?!坝米匀徽Z(yǔ)言處理工具支持一種語(yǔ)言,可防止其滅絕并促進(jìn)其發(fā)展,將原創(chuàng)產(chǎn)品中包含的知識(shí)向所有人開(kāi)放,甚至可在應(yīng)急響應(yīng)的背景下起作用。”(24)Yulia T. Opportunities and challenges in working with low-resource languages[D].Carnegie Mellon University,2017.建構(gòu)低資源語(yǔ)言的大規(guī)模數(shù)據(jù),建立性能良好的NLP語(yǔ)言模型,對(duì)廣大低資源語(yǔ)言社群學(xué)習(xí)和使用多種語(yǔ)言有廣泛的傳播效應(yīng),實(shí)現(xiàn)科學(xué)保護(hù)各民族語(yǔ)言文字,繁榮數(shù)字空間語(yǔ)言文化生活。

建構(gòu)低資源語(yǔ)言大規(guī)模數(shù)據(jù),需要先期研究和解決語(yǔ)域知識(shí)語(yǔ)義編目、大規(guī)模分布式語(yǔ)料采錄、異構(gòu)數(shù)據(jù)融合、新詞實(shí)體名轉(zhuǎn)譯、民族語(yǔ)現(xiàn)代知識(shí)體系建構(gòu)等新問(wèn)題,這能有效推動(dòng)田野語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、語(yǔ)用學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)等語(yǔ)言學(xué)科理論與實(shí)踐創(chuàng)新和轉(zhuǎn)向?;诖笠?guī)模數(shù)據(jù),漢藏語(yǔ)言異構(gòu)數(shù)據(jù)分析,能檢驗(yàn)歷史比較語(yǔ)言學(xué)、語(yǔ)言類型學(xué)、音系詞匯句法理論框架的解釋力和適用性,提升語(yǔ)言學(xué)研究的數(shù)據(jù)科學(xué)性。

二、低資源語(yǔ)言數(shù)據(jù)建構(gòu)的思路及任務(wù)

(一)低資源語(yǔ)言數(shù)據(jù)建構(gòu)的基本思路

盡管技術(shù)領(lǐng)域針對(duì)低資源語(yǔ)言在探索數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、回譯等算法來(lái)生成語(yǔ)料,擴(kuò)大數(shù)據(jù)規(guī)模,但任何技術(shù)都不能做“無(wú)米之炊”,語(yǔ)言專家創(chuàng)建的優(yōu)質(zhì)基礎(chǔ)數(shù)據(jù)仍然至關(guān)重要。訓(xùn)練良好的語(yǔ)言模型,需要數(shù)百兆、千兆甚至兆兆字節(jié)數(shù)據(jù),相當(dāng)于數(shù)百萬(wàn)、數(shù)千萬(wàn)或上億個(gè)書(shū)面句子。創(chuàng)建這類數(shù)據(jù)集,生產(chǎn)成本很高,需要數(shù)年時(shí)間,幾乎沒(méi)有實(shí)體機(jī)構(gòu)愿意支付數(shù)百人薪酬,讓他們采錄/說(shuō)出或?qū)懗鰩资f(wàn)或數(shù)百萬(wàn)詞語(yǔ)和句子。這是建構(gòu)低資源民族語(yǔ)大規(guī)模數(shù)據(jù)的難點(diǎn)。

因此,要考慮小成本、高效率建構(gòu)優(yōu)質(zhì)數(shù)據(jù)。構(gòu)建低資源語(yǔ)言數(shù)據(jù)目前主要有兩個(gè)途徑:一是通過(guò)注釋原始語(yǔ)料創(chuàng)建新數(shù)據(jù)集,二是收集原始語(yǔ)料并將其與高資源語(yǔ)言對(duì)齊。(25)Alexandre M., Vincent C., Evan H. Low-resource Languages: A Review of Past Work and Future Challenges[EB/OL].https://arxiv.org/abs/2006/07264,訪問(wèn)時(shí)間:2023-10-19.這為降低成本提供了思路:其一,低資源語(yǔ)言對(duì)與其他語(yǔ)言對(duì)在一個(gè)模型中聯(lián)合訓(xùn)練可以顯著降低訓(xùn)練時(shí)間,便于維護(hù);其二,低資源語(yǔ)言可受益于高資源的親屬語(yǔ)言。循此思路,對(duì)于我國(guó)低資源民族語(yǔ),可建構(gòu)語(yǔ)言對(duì)子的結(jié)構(gòu)化數(shù)據(jù)。低資源民族語(yǔ)言對(duì)子有3類:“民族語(yǔ)-區(qū)域通用漢語(yǔ)方言”語(yǔ)言對(duì),二是“民族語(yǔ)X-民族語(yǔ)Y”語(yǔ)言對(duì),三是“區(qū)域通用漢語(yǔ)方言-普通話”語(yǔ)言對(duì)。前兩類屬于異構(gòu)語(yǔ)言對(duì),后一類屬于同構(gòu)語(yǔ)言對(duì)。有區(qū)域通用漢語(yǔ)方言作為中介語(yǔ),加上有一個(gè)民族語(yǔ)言對(duì)作為輔助,通過(guò)機(jī)器遷移學(xué)習(xí)訓(xùn)練,可生成其他“民族語(yǔ)X-民族語(yǔ)Y”語(yǔ)言對(duì)的平行數(shù)據(jù)(適當(dāng)人工修正的工作量要少得多)。例如,漢藏語(yǔ)系語(yǔ)言的語(yǔ)言對(duì)子可以這樣組配:羌語(yǔ)-彝語(yǔ),景頗語(yǔ)-傣語(yǔ),傈僳語(yǔ)-白語(yǔ),苗語(yǔ)-侗語(yǔ),彝語(yǔ)-瑤語(yǔ)等。由于大部分漢藏語(yǔ)分布在云貴川湘桂等省區(qū)的民族自治州、縣,廣大區(qū)域通行西南官話,各族群眾都能熟練或較熟練使用西南官話,因而可考慮將西南官話作為平行語(yǔ)料的首選翻譯語(yǔ),再?gòu)奈髂瞎僭捵g成普通話,通過(guò)西南官話這個(gè)“中介語(yǔ)”可使民族語(yǔ)和普通話的句意表達(dá)更準(zhǔn)確。這種方式也有助于提升低資源或零資源語(yǔ)言的機(jī)器翻譯性能,建立良好的覆蓋龐大低資源語(yǔ)言對(duì)的機(jī)器翻譯系統(tǒng)。

建構(gòu)低資源民族語(yǔ)數(shù)據(jù)應(yīng)優(yōu)先考慮哪些語(yǔ)言?從數(shù)據(jù)產(chǎn)生和積累基礎(chǔ)來(lái)看,雖然我國(guó)多數(shù)民族語(yǔ)的現(xiàn)有語(yǔ)料和數(shù)據(jù)未達(dá)到自然語(yǔ)言處理所需的數(shù)據(jù)類型和規(guī)模,但民族自治州或自治縣通行的民族語(yǔ),如彝語(yǔ)、傣語(yǔ)、景頗語(yǔ)、傈僳語(yǔ)、苗語(yǔ)、白語(yǔ)、侗語(yǔ)等,有大量的人口和廣泛的語(yǔ)域,有傳統(tǒng)文字或新創(chuàng)/改進(jìn)文字,有一定數(shù)量的圖書(shū)或報(bào)刊文獻(xiàn),語(yǔ)料多樣性和知識(shí)性、可采集性及其數(shù)據(jù)化質(zhì)量基本能夠保證,因而應(yīng)優(yōu)先考慮民族自治州的通用民族語(yǔ)建構(gòu)大規(guī)模語(yǔ)料數(shù)據(jù),待到經(jīng)驗(yàn)成熟和數(shù)據(jù)處理取得明顯效果時(shí),再延伸到民族自治縣通用民族語(yǔ)。

(二)低資源民族語(yǔ)言數(shù)據(jù)建構(gòu)的主要任務(wù)

1. 大規(guī)模詞語(yǔ)集

詞語(yǔ)表是詞和短語(yǔ)及其相關(guān)信息的集合。大規(guī)模詞語(yǔ)集是自然語(yǔ)言處理的基礎(chǔ)數(shù)據(jù),它有多種用途,如逐詞翻譯,稀有詞翻譯,檢查文本中不常見(jiàn)詞匯或拼寫(xiě)錯(cuò)誤,縮小源語(yǔ)言和目標(biāo)語(yǔ)言之間嵌入空間的差距,等等。例如,MetaNMT機(jī)器翻譯系統(tǒng)對(duì)歐洲某些低資源語(yǔ)言的翻譯任務(wù)使用了1.6萬(wàn)個(gè)單詞的詞表,這是目前神經(jīng)機(jī)器翻譯系統(tǒng)所用詞表的最低極限。從NLP和語(yǔ)言學(xué)計(jì)量分析來(lái)看,建構(gòu)我國(guó)低資源民族語(yǔ)的大規(guī)模詞語(yǔ)表,數(shù)量至少應(yīng)在3萬(wàn)以上,常規(guī)數(shù)量應(yīng)達(dá)到5~6萬(wàn)。

一種語(yǔ)言的詞匯系統(tǒng)表征了該語(yǔ)言族群的知識(shí)體系。由于環(huán)境和歷史的原因,大多數(shù)低資源民族語(yǔ)缺乏表達(dá)傳統(tǒng)知識(shí)和現(xiàn)代知識(shí)的大詞匯系統(tǒng)。這表現(xiàn)為兩種狀況:一是有些傳統(tǒng)知識(shí)詞匯逐漸退出語(yǔ)言生活,二是大量現(xiàn)代知識(shí)沒(méi)有創(chuàng)造詞匯,依賴移植漢語(yǔ)。前者可通過(guò)廣泛語(yǔ)言調(diào)查來(lái)解決,后者則需要大批量創(chuàng)新和創(chuàng)造,這才是建構(gòu)大規(guī)模詞語(yǔ)數(shù)據(jù)集亟須解決的問(wèn)題。

如何通過(guò)創(chuàng)新和創(chuàng)造來(lái)建構(gòu)低資源民族語(yǔ)大規(guī)模詞語(yǔ)數(shù)據(jù)集?我們提出的基本思路是:以各民族語(yǔ)方言區(qū)傳統(tǒng)知識(shí)為基礎(chǔ),填補(bǔ)、迭代和創(chuàng)新基礎(chǔ)方言傳統(tǒng)詞匯;以國(guó)家通用語(yǔ)現(xiàn)代知識(shí)體系為參照,創(chuàng)造各民族語(yǔ)言的現(xiàn)代詞匯,促進(jìn)各民族傳統(tǒng)知識(shí)和現(xiàn)代知識(shí)的融合以及知識(shí)社會(huì)化。在實(shí)踐上還應(yīng)解決詞匯擴(kuò)容和保持詞匯固有系統(tǒng)的問(wèn)題,即詞匯大規(guī)模擴(kuò)容之后,詞匯系統(tǒng)面貌仍然應(yīng)凸顯民族語(yǔ)的特征。挖掘傳統(tǒng)詞匯,創(chuàng)造現(xiàn)代詞匯,移植漢語(yǔ)詞匯,可按黃金分割予以規(guī)范,傳統(tǒng)形式的詞匯占0.618的比重。例如3萬(wàn)規(guī)模的詞表,傳統(tǒng)形式詞應(yīng)占18540條,規(guī)模擴(kuò)大仍按此類推。傳統(tǒng)形式詞匯包括固有詞,固有語(yǔ)素意譯現(xiàn)代詞,以及根據(jù)民族語(yǔ)與漢語(yǔ)歷史語(yǔ)音對(duì)應(yīng)關(guān)系的音譯現(xiàn)代詞。

建構(gòu)低資源民族語(yǔ)大規(guī)模詞語(yǔ)數(shù)據(jù)集有以下幾種途徑:(1)窮盡搜集現(xiàn)有紙質(zhì)詞典、詞表及網(wǎng)絡(luò)詞庫(kù)或詞匯集。(2)搜集文字手稿和印刷書(shū)刊報(bào)文本并進(jìn)行數(shù)字化,從中提取詞語(yǔ)表。(3)全面調(diào)查標(biāo)準(zhǔn)音基礎(chǔ)方言各種土語(yǔ)詞匯,填補(bǔ)標(biāo)準(zhǔn)音點(diǎn)傳統(tǒng)詞匯空缺,兼收方言土語(yǔ)的不同說(shuō)法,豐富詞匯的語(yǔ)用功能。(4)以《現(xiàn)代漢語(yǔ)詞典》為基礎(chǔ),參照農(nóng)業(yè)、林業(yè)、動(dòng)植物、草藥、生態(tài)地理等知識(shí)讀本或百科詞典,篩選出適用于各民族現(xiàn)代生活的知識(shí)詞匯來(lái)創(chuàng)新、翻譯和移入。(5)在民族語(yǔ)通行的州市、城鎮(zhèn)和鄉(xiāng)村,選擇若干大眾化、典型性的服務(wù)實(shí)體和活動(dòng)場(chǎng)所,對(duì)實(shí)體名稱、公共服務(wù)、行政管理等領(lǐng)域詞匯用語(yǔ)進(jìn)行廣泛的調(diào)查記錄,如政務(wù)服務(wù)中心常用詞匯和用語(yǔ),醫(yī)療衛(wèi)生實(shí)體常用詞語(yǔ),商業(yè)街道的商號(hào)名稱和標(biāo)牌用語(yǔ)等等。通過(guò)這些途徑可建構(gòu)一個(gè)覆蓋各民族語(yǔ)言生活的知識(shí)系統(tǒng)和詞匯系統(tǒng)。

2. 大規(guī)模知識(shí)語(yǔ)義詞網(wǎng)

建立句法、語(yǔ)義知識(shí)庫(kù)之類的語(yǔ)言知識(shí)數(shù)據(jù),可幫助計(jì)算機(jī)理解自然語(yǔ)言意義并進(jìn)行知識(shí)推理。以知識(shí)庫(kù)的實(shí)體、類型和謂詞為載體,描述自然語(yǔ)言的實(shí)體以及實(shí)體間的關(guān)系,可服務(wù)于自動(dòng)分詞、詞性標(biāo)注、句法分析、語(yǔ)義分析、機(jī)器翻譯、信息提取、情感分析、文本摘要和人機(jī)問(wèn)答等多個(gè)領(lǐng)域。數(shù)據(jù)規(guī)模較小的低資源民族語(yǔ),建構(gòu)知識(shí)庫(kù)還能一定程度改善語(yǔ)料匱乏引起的其他問(wèn)題,提高自然語(yǔ)言處理質(zhì)量,幫助提升機(jī)器系統(tǒng)性能。

傳統(tǒng)的句法語(yǔ)義知識(shí)庫(kù),如美國(guó)普林斯頓大學(xué)WordNet知識(shí)庫(kù)、美國(guó)科洛大學(xué)的VerbNet知識(shí)庫(kù)存在知識(shí)不足的缺陷;WordNet知識(shí)庫(kù)往往會(huì)忽視詞語(yǔ)之間的組合關(guān)系以及語(yǔ)句段落里的共現(xiàn)關(guān)系;VerbNet知識(shí)庫(kù)將動(dòng)詞作為核心,也存在妥善處理情景式事物指稱問(wèn)題。知識(shí)庫(kù)的語(yǔ)言形式涵蓋詞、詞組、句子和篇章。知識(shí)內(nèi)容通常包括兩方面:一是語(yǔ)言本體層面的知識(shí),如詞法、句法和語(yǔ)義知識(shí)等。二是社會(huì)和環(huán)境認(rèn)知層面的知識(shí),即語(yǔ)言族群社區(qū)生活的一切知識(shí),如生產(chǎn)生活知識(shí)、社會(huì)關(guān)系知識(shí)、自然環(huán)境知識(shí)、民俗文化知識(shí)等。理想的知識(shí)語(yǔ)義詞網(wǎng)是將兩類知識(shí)詞匯融合在一起,按內(nèi)容建立語(yǔ)義關(guān)聯(lián)。但是,對(duì)于低資源語(yǔ)言而言,最基本的知識(shí)語(yǔ)義詞網(wǎng)還是人名、地名、實(shí)體名等專有名詞的指稱和內(nèi)容屬性描述。例如,“三棵樹(shù)”“石壁邊”可能是村莊名,“常來(lái)”“隨便吃”可能不是通用動(dòng)詞短語(yǔ),而是快餐店名稱,“牛扒呼”是傣族特色肉食菜名。對(duì)于大量的這類專名,應(yīng)建立語(yǔ)義屬性描述關(guān)聯(lián)。由于這類詞語(yǔ)的開(kāi)放度較高,因此作為基礎(chǔ)數(shù)據(jù)的知識(shí)語(yǔ)義詞網(wǎng)條目通常應(yīng)達(dá)到1萬(wàn)條以上。有關(guān)知識(shí)語(yǔ)義網(wǎng),可參考資源描述框架(RDF)(26)關(guān)于語(yǔ)義網(wǎng)和RDF,可參閱網(wǎng)站課程:W3 School [EB/OL].https://www.w3school.com.cn,訪問(wèn)時(shí)間:2023-03-06.和都柏林核心元素集(DC)。

3. 大規(guī)模句集

機(jī)器學(xué)習(xí)的語(yǔ)言知識(shí)來(lái)自人們使用的話語(yǔ)和創(chuàng)作的文本,通常以單語(yǔ)句庫(kù)、雙語(yǔ)句庫(kù)、語(yǔ)音句庫(kù)、文本句庫(kù)等數(shù)據(jù)形式存儲(chǔ)。因此,口語(yǔ)句和書(shū)面語(yǔ)篇語(yǔ)句是低資源民族語(yǔ)數(shù)據(jù)建構(gòu)的主要內(nèi)容。深度學(xué)習(xí)的機(jī)器翻譯對(duì)句庫(kù)規(guī)模有嚴(yán)重依賴,語(yǔ)句過(guò)少,學(xué)不到足夠的語(yǔ)言特征,很難訓(xùn)練出優(yōu)良的模型。迄今優(yōu)良的機(jī)器翻譯系統(tǒng)所用訓(xùn)練語(yǔ)句都在百萬(wàn)以上,如WMT19中英數(shù)據(jù)集有1000萬(wàn)平行句對(duì),WMT14英德數(shù)據(jù)集有500萬(wàn)平行句對(duì)。低資源場(chǎng)景下,雖然通過(guò)某些算法可適當(dāng)減少語(yǔ)句數(shù)量規(guī)模,但三四萬(wàn)句仍是基本要求。建構(gòu)低資源語(yǔ)言語(yǔ)句數(shù)據(jù),無(wú)論是單語(yǔ)還是雙語(yǔ),基礎(chǔ)句子集至少應(yīng)有兩三萬(wàn)句,常態(tài)五萬(wàn),較理想的是八萬(wàn)或十萬(wàn)句。

建構(gòu)低資源民族語(yǔ)大規(guī)模句子數(shù)據(jù)集有以下途徑:(1)窮盡搜集文字手稿、圖書(shū)、報(bào)刊或網(wǎng)站的句子及文本資料,做好分句標(biāo)注,對(duì)紙媒文本數(shù)字化,對(duì)單語(yǔ)語(yǔ)料做普通話句譯,對(duì)雙語(yǔ)語(yǔ)料做句子對(duì)應(yīng)等。(2)以漢語(yǔ)為參照,并結(jié)合民族社區(qū)語(yǔ)言生活,編制語(yǔ)域功能大綱,組織母語(yǔ)團(tuán)隊(duì)(通常應(yīng)由幾十或上百人),根據(jù)大綱分工編寫(xiě)幾萬(wàn)個(gè)語(yǔ)句,里面應(yīng)包括短句、長(zhǎng)句、語(yǔ)段和語(yǔ)篇;然后根據(jù)編寫(xiě)的語(yǔ)句采錄語(yǔ)音,發(fā)音人員應(yīng)有廣泛代表性,人員數(shù)量通常應(yīng)達(dá)到100人以上,涵蓋語(yǔ)言社群的各類成員。

4. 語(yǔ)料和資料的數(shù)據(jù)化

數(shù)據(jù)化是把一種現(xiàn)象轉(zhuǎn)化成為可制表分析的量化形式的過(guò)程。(27)維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤,譯.杭州:浙江人民出版社,2013:104.語(yǔ)料數(shù)據(jù)化是將采集和轉(zhuǎn)寫(xiě)的語(yǔ)音和文本資料,包括語(yǔ)料和其他數(shù)據(jù),轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),亦即有固定格式和標(biāo)準(zhǔn)標(biāo)簽或標(biāo)記的數(shù)據(jù)。這類數(shù)據(jù)才能供計(jì)算機(jī)程序直接讀取和計(jì)算。對(duì)低資源語(yǔ)言來(lái)說(shuō),語(yǔ)料數(shù)據(jù)化能形成數(shù)量可觀的有效數(shù)據(jù)。

語(yǔ)料數(shù)據(jù)化先應(yīng)弄清語(yǔ)料內(nèi)容及其相互關(guān)系,再按一定標(biāo)準(zhǔn)對(duì)語(yǔ)料分類并組織成結(jié)構(gòu)化數(shù)據(jù)。例如,詞匯資料應(yīng)制成excel詞表,帶制表符格式的純文本,有XML標(biāo)簽的文本或數(shù)組文本等等。語(yǔ)篇要分句分詞,加上句標(biāo)記和詞類標(biāo)記,制成xml標(biāo)簽文本或數(shù)據(jù)格式文本。其他如人口、語(yǔ)言名稱、地點(diǎn)、方言差異等語(yǔ)言社會(huì)生活數(shù)據(jù),在通常的語(yǔ)言志、研究著作和調(diào)查報(bào)告中都是文段描述,不便于計(jì)算機(jī)處理。這類數(shù)據(jù)應(yīng)提取出來(lái),制成指標(biāo)數(shù)值數(shù)據(jù)表。句子和語(yǔ)篇文本應(yīng)轉(zhuǎn)換為字符數(shù)組數(shù)據(jù),或制表符格式的矩陣陣列數(shù)據(jù),或有xml元數(shù)據(jù)標(biāo)簽的純文本。所有語(yǔ)料只有轉(zhuǎn)換為機(jī)器可讀的數(shù)據(jù)格式,才能用于機(jī)器學(xué)習(xí)訓(xùn)練和語(yǔ)言學(xué)計(jì)量分析。

語(yǔ)料數(shù)據(jù)化只有在大批量已數(shù)字化的詞語(yǔ)、句子和文本基礎(chǔ)上才有效率。但從我國(guó)低資源民族語(yǔ)言的現(xiàn)有語(yǔ)料來(lái)看,譬如漢藏語(yǔ)言,除了彝語(yǔ)、傣語(yǔ)、景頗語(yǔ)、傈僳語(yǔ)擁有一定數(shù)量的圖書(shū)、報(bào)刊和網(wǎng)頁(yè)文本資料以外,其他語(yǔ)言書(shū)面文獻(xiàn)很少,即使有也是分散夾雜在中文圖書(shū)報(bào)刊之中。一方面,將彝文、傣文、景頗文、傈僳文等過(guò)往書(shū)報(bào)刊語(yǔ)料制成數(shù)據(jù)集,需要數(shù)字掃描和OCR文字識(shí)別轉(zhuǎn)換,但OCR識(shí)別率不高,需要大量人工校訂,這給多快好省建構(gòu)數(shù)據(jù)集造成不小阻礙。另一方面,分散在中文著作里的民族語(yǔ)詞匯、句子或文本,通常每本書(shū)只有兩三千個(gè)詞語(yǔ),一兩百個(gè)語(yǔ)法例句,三五個(gè)或十來(lái)個(gè)故事,加起來(lái)不過(guò)一千來(lái)句,且都是音標(biāo)標(biāo)注,無(wú)法OCR掃描識(shí)別,完全依賴人工挑選、匯集和錄入,得不償失。因此,目前的語(yǔ)料數(shù)據(jù)化,最適宜的是那些有民族文字網(wǎng)站和民族文字讀本的通用民族語(yǔ)。

三、低資源語(yǔ)言大規(guī)模數(shù)據(jù)建構(gòu)助推我國(guó)語(yǔ)言田野實(shí)踐的數(shù)據(jù)轉(zhuǎn)向

我國(guó)幾十年的語(yǔ)言調(diào)查研究,記錄了一百多種民族語(yǔ)和上千種漢語(yǔ)方言的基本語(yǔ)料和人口數(shù)據(jù),形成了少數(shù)民族語(yǔ)言6種叢書(shū)(28)6種叢書(shū)分別是:《中國(guó)少數(shù)民族語(yǔ)言簡(jiǎn)志叢書(shū)》《新發(fā)現(xiàn)語(yǔ)言研究叢書(shū)》《中國(guó)少數(shù)民族語(yǔ)言方言研究叢書(shū)》《中國(guó)少數(shù)民族語(yǔ)言系列詞典叢書(shū)》《中國(guó)少數(shù)民族語(yǔ)言參考語(yǔ)法叢書(shū)》《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本叢書(shū)》。、漢語(yǔ)方言大詞典和區(qū)域漢語(yǔ)方言調(diào)查報(bào)告、國(guó)家語(yǔ)言資源保護(hù)工程語(yǔ)料集、漢藏語(yǔ)言數(shù)據(jù)資源平臺(tái)等標(biāo)志性成果,奠定了民族語(yǔ)言學(xué)、漢語(yǔ)方言學(xué)、田野語(yǔ)言學(xué)、描寫(xiě)語(yǔ)言學(xué)的基本理論、分析框架、實(shí)踐范式和數(shù)據(jù)樣態(tài)。但這些成果所收錄語(yǔ)料和分析用例,大多是一二千字音,兩三千條詞匯,兩三百個(gè)語(yǔ)法例句,十來(lái)個(gè)口述小語(yǔ)篇。數(shù)據(jù)種類和模態(tài)偏少,數(shù)量規(guī)模偏小,(29)《中國(guó)少數(shù)民族語(yǔ)言簡(jiǎn)志叢書(shū)》(57種)各冊(cè)附錄詞匯約1000來(lái)?xiàng)l,無(wú)句子和長(zhǎng)篇語(yǔ)料附錄,書(shū)中分析句子用例每?jī)?cè)約60多句。《中國(guó)新發(fā)現(xiàn)語(yǔ)言叢書(shū)》(49種)各冊(cè)附錄詞表約1500~2500,長(zhǎng)篇語(yǔ)料1~6個(gè),無(wú)句子附錄,書(shū)中分析句子用例最多的200來(lái)句,最少的80多句,平均約160句。《中國(guó)少數(shù)民族語(yǔ)言參考語(yǔ)法研究系列叢書(shū)》各冊(cè)附錄詞匯約2200~3000,長(zhǎng)篇語(yǔ)料5~10個(gè),無(wú)句子附錄。《中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注文本叢書(shū)》(20種)每?jī)?cè)收錄一種語(yǔ)言20來(lái)個(gè)故事文本,單語(yǔ)句子總量不足2000句。難以支撐廣度和深度描寫(xiě)、比較、分析與實(shí)證,無(wú)法通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)新現(xiàn)象和新規(guī)律并進(jìn)行理論和方法創(chuàng)新;也無(wú)法在當(dāng)代人工智能科技進(jìn)步和社會(huì)語(yǔ)言生活需求發(fā)展中體現(xiàn)語(yǔ)言學(xué)的實(shí)際效用。低資源民族語(yǔ)的數(shù)據(jù)建構(gòu),能促使我們檢省慣常的語(yǔ)言調(diào)查工作模式,推動(dòng)以數(shù)據(jù)為本的理論與實(shí)踐轉(zhuǎn)向。

以數(shù)據(jù)為本的田野語(yǔ)言學(xué)理論與實(shí)踐轉(zhuǎn)向有兩層含義:一是將采集和建構(gòu)語(yǔ)言數(shù)據(jù)納入田野語(yǔ)言學(xué)理論框架,體現(xiàn)數(shù)據(jù)思想,拓展理論內(nèi)涵,創(chuàng)新語(yǔ)料記錄觀念和方法。二是建立采集和建構(gòu)語(yǔ)言數(shù)據(jù)的實(shí)踐規(guī)程,促進(jìn)形成語(yǔ)言調(diào)查實(shí)踐的新常態(tài)。

(一)將采集和建構(gòu)語(yǔ)言數(shù)據(jù)納入田野語(yǔ)言學(xué)框架

田野語(yǔ)言學(xué)是從語(yǔ)言結(jié)構(gòu)主義思想出發(fā),介紹語(yǔ)音、詞匯、語(yǔ)法現(xiàn)象的調(diào)查、記錄、解析和描述方面的概念、原理及方法,內(nèi)容通常有實(shí)地調(diào)研操作,音標(biāo)發(fā)音聽(tīng)辨,漢語(yǔ)方言或少數(shù)民族語(yǔ)的語(yǔ)音、詞匯、語(yǔ)法調(diào)查,語(yǔ)言特點(diǎn)概略描寫(xiě)(調(diào)查報(bào)告)等。語(yǔ)言調(diào)查教科書(shū)都遵循這種內(nèi)容框架,(30)筆者能見(jiàn)到的教科書(shū)中,僅見(jiàn)范俊軍.中國(guó)田野語(yǔ)言學(xué)概要[M].廣州:廣東人民出版社,2016.有“數(shù)據(jù)資料建檔”章節(jié)內(nèi)容。旨意是闡述樣本獲取以及語(yǔ)言學(xué)分析的學(xué)理和實(shí)踐價(jià)值。隨著語(yǔ)言生活發(fā)展,語(yǔ)言學(xué)理論革新和語(yǔ)言科技進(jìn)步,傳統(tǒng)學(xué)科框架已顯露出時(shí)代滯后性和學(xué)理缺陷性,這主要表現(xiàn)為:脫離語(yǔ)境的字詞句片段,無(wú)法表征語(yǔ)言系統(tǒng)內(nèi)在關(guān)系;有限的簡(jiǎn)略樣本,無(wú)法體現(xiàn)語(yǔ)言社群言語(yǔ)交際樣態(tài);單純的語(yǔ)言學(xué)經(jīng)驗(yàn)觀察記錄,無(wú)法發(fā)現(xiàn)和揭示語(yǔ)言社會(huì)價(jià)值和知識(shí)價(jià)值。“傳統(tǒng)的語(yǔ)言調(diào)查……在揭示語(yǔ)言的知識(shí)系統(tǒng)、文化體系方面明顯不足……人類的知識(shí)和思維運(yùn)作主要貯存、表現(xiàn)在詞匯、語(yǔ)法、語(yǔ)用和篇章之中…必須在語(yǔ)言調(diào)查方法、語(yǔ)言調(diào)查內(nèi)容等方面進(jìn)行大幅度改進(jìn)?!?31)李宇明.中國(guó)語(yǔ)言資源的理念與實(shí)踐[J].語(yǔ)言戰(zhàn)略研究,2019,(3).將采集和建構(gòu)語(yǔ)言數(shù)據(jù)納入田野語(yǔ)言學(xué)框架,是學(xué)科發(fā)展的必然。

語(yǔ)言是人類思維和知識(shí)最重要的載體,最重要的交際工具。將語(yǔ)言數(shù)據(jù)理念融入田野語(yǔ)言學(xué)框架,就是要貫徹“知識(shí)-交際”(32)范俊軍.中國(guó)的瀕危語(yǔ)言保存和保護(hù)[J].暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2018,(10).理念,深化學(xué)科理論和實(shí)踐內(nèi)涵。內(nèi)容拓展主要有幾個(gè)方面:增加語(yǔ)言數(shù)據(jù)、數(shù)據(jù)模態(tài)、數(shù)據(jù)集、語(yǔ)料數(shù)據(jù)化、低資源語(yǔ)言、語(yǔ)言模型、知識(shí)語(yǔ)義詞網(wǎng)等語(yǔ)言數(shù)據(jù)相關(guān)的概念、術(shù)語(yǔ)和原理闡釋;定義采集和建構(gòu)數(shù)據(jù)的任務(wù)、內(nèi)容、方法手段、操作程式規(guī)范以及案例描述;增加語(yǔ)料數(shù)據(jù)的采集、記錄和處理的技術(shù)原理、方法和工具運(yùn)用;建立基于語(yǔ)用知識(shí)的語(yǔ)言調(diào)查和數(shù)據(jù)采集綱目;等等。

(二)促進(jìn)形成我國(guó)語(yǔ)言調(diào)查實(shí)踐新常態(tài)

慣常的語(yǔ)言調(diào)查模式有3個(gè)缺陷:一是個(gè)人旨趣驅(qū)動(dòng)。調(diào)查什么現(xiàn)象,收集多少語(yǔ)料,做來(lái)何用,完全出于個(gè)人旨趣和需求。二是語(yǔ)料的社群性和知識(shí)性欠缺。找一兩位原籍地說(shuō)話“正宗”的老人或長(zhǎng)者,照著現(xiàn)成詞句表,問(wèn)出“固有”的發(fā)音和說(shuō)法,這種狹隘選擇,造成語(yǔ)料樣本無(wú)法體現(xiàn)社區(qū)社群的言語(yǔ)能力、語(yǔ)用知識(shí)和生活知識(shí),缺乏多樣性、充分性和真實(shí)性。記錄了親屬稱謂詞,但沒(méi)有體現(xiàn)社群族系和倫理知識(shí);記錄了房屋和器具詞匯,但沒(méi)有表現(xiàn)本土環(huán)境生活知識(shí);記錄了語(yǔ)法例句,但沒(méi)有體現(xiàn)語(yǔ)用表達(dá)多樣性及其聯(lián)系。三是內(nèi)容重復(fù)雷同。個(gè)人的學(xué)術(shù)取向決定了對(duì)語(yǔ)料的選擇記錄,而取向又往往被某個(gè)流行問(wèn)題帶節(jié)奏,結(jié)果是調(diào)查目的相同,研究問(wèn)題類似,語(yǔ)料單一雷同,除了選取一些樣本作為著述用例之外,其他則棄置不用,無(wú)法分享和傳播,因而失去了效用。這也是為什么看起來(lái)有不少人記錄了不少材料,但進(jìn)行廣度和深度比較、闡釋、計(jì)量或?qū)嶒?yàn)分析時(shí),卻仍然缺乏可用的基本數(shù)據(jù)。我們將低資源語(yǔ)言大規(guī)模數(shù)據(jù)建構(gòu)工作引入田野語(yǔ)言學(xué)實(shí)踐,旨在推動(dòng)兩個(gè)轉(zhuǎn)向,促進(jìn)以數(shù)據(jù)為本的語(yǔ)言田野工作新常態(tài)。

1. 從個(gè)人學(xué)術(shù)導(dǎo)向的小樣本調(diào)查轉(zhuǎn)向社群知識(shí)為本的規(guī)模數(shù)據(jù)采集。

這種轉(zhuǎn)向在實(shí)踐操作層面主要有兩項(xiàng)工作:

(1)建立面向詞語(yǔ)采集的社區(qū)社群傳統(tǒng)及現(xiàn)代知識(shí)綱目。

傳統(tǒng)知識(shí)是指語(yǔ)言社群世代傳承的知識(shí),如本土地理知識(shí)、動(dòng)植物知識(shí),傳統(tǒng)生產(chǎn)知識(shí)、生活知識(shí)、技藝知識(shí)、風(fēng)俗禮儀等等。(33)肖自輝.面向傳統(tǒng)生態(tài)知識(shí):當(dāng)代民族語(yǔ)言調(diào)查的價(jià)值取向[J].廣西民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2018,(5).現(xiàn)代知識(shí)是指中華人民共和國(guó)成立以來(lái),語(yǔ)言社區(qū)社群生產(chǎn)生活發(fā)展進(jìn)程中通過(guò)學(xué)習(xí)、借鑒和創(chuàng)新而形成的新知識(shí),如現(xiàn)代作物和機(jī)械化耕作知識(shí),現(xiàn)代工業(yè)和手工業(yè)知識(shí),現(xiàn)代學(xué)校教育知識(shí),現(xiàn)代經(jīng)濟(jì)活動(dòng)知識(shí),現(xiàn)代家居生活和數(shù)字生活知識(shí),現(xiàn)代城鄉(xiāng)社區(qū)組織管理知識(shí)等等。

慣常詞匯調(diào)查是依據(jù)漢語(yǔ)詞擬定義類詞表,分類較為籠統(tǒng),通常只有二三十類,且?jiàn)A雜了“代詞、形容詞、連詞……”等詞性分類。建立知識(shí)綱目,旨在舍棄單純以個(gè)人語(yǔ)言學(xué)知識(shí)為導(dǎo)向的調(diào)查習(xí)慣,確立以建構(gòu)知識(shí)詞匯系統(tǒng)為核心的詞語(yǔ)采集模式,因?yàn)樵~匯只有充分體現(xiàn)語(yǔ)言社區(qū)社群的知識(shí)體系,才能體現(xiàn)語(yǔ)言學(xué)特征系統(tǒng)。建立知識(shí)綱目,也不是拋棄傳統(tǒng)的詞匯調(diào)查表,而是對(duì)它進(jìn)行改造和創(chuàng)新,這主要有3點(diǎn):一是去掉詞性分類,以語(yǔ)言社區(qū)社群知識(shí)貫穿始終,將傳統(tǒng)知識(shí)和現(xiàn)代知識(shí)分開(kāi)編目;二是以知識(shí)點(diǎn)為內(nèi)容條目,即綱目列出的是知識(shí)點(diǎn)提示讓人組織表達(dá),而不是列出漢語(yǔ)詞匯讓人對(duì)照翻譯。例如,關(guān)于食品和食物知識(shí)內(nèi)容,可提示本地傳統(tǒng)食物食品和新式食物食品,諸如傳統(tǒng)日常菜品,傳統(tǒng)節(jié)日節(jié)慶宴席菜品,嬰幼兒食品,老人食品,身體保養(yǎng)食品,傳統(tǒng)肉類菜品食品,傳統(tǒng)水果蔬菜類食品,與各種菜品和食品制作、烹飪相關(guān)的工具、手藝、程序等等之類的提示語(yǔ)。只有列出知識(shí)點(diǎn),才能激發(fā)社群成員的知識(shí)聯(lián)想,把與知識(shí)有關(guān)的單詞、短語(yǔ)、俗語(yǔ)及其語(yǔ)用范圍和語(yǔ)義域充分表達(dá)出來(lái)。這樣既獲得了豐富知識(shí),也采集了大量詞語(yǔ)。三是充分體現(xiàn)現(xiàn)代知識(shí)內(nèi)容?,F(xiàn)代知識(shí)詞語(yǔ)和表達(dá)在現(xiàn)實(shí)言語(yǔ)生活占有很大比重,舍棄這部分內(nèi)容,則無(wú)法體現(xiàn)詞匯系統(tǒng)面貌。現(xiàn)代知識(shí)詞匯的調(diào)查,既要關(guān)注從漢語(yǔ)直接傳入和移植的事物和概念詞,也要關(guān)注新事物概念詞語(yǔ)的翻譯創(chuàng)新,即本族語(yǔ)創(chuàng)新應(yīng)如何表達(dá)。也就是說(shuō),這不是機(jī)械被動(dòng)地記錄,而應(yīng)融入新知識(shí)詞語(yǔ)的建構(gòu)。詞語(yǔ)創(chuàng)新的基本原則是,以國(guó)家通用語(yǔ)知識(shí)體系為基礎(chǔ),建構(gòu)民族語(yǔ)言的現(xiàn)代知識(shí)體系。

詞匯調(diào)查工作新常態(tài)的重要特點(diǎn)是規(guī)模性、多樣性、廣域性的詞語(yǔ)數(shù)據(jù)采集,即在數(shù)量上有較大升級(jí),至少應(yīng)達(dá)到1萬(wàn)以上,常態(tài)應(yīng)有2~3萬(wàn)。形式上應(yīng)涵蓋詞、短語(yǔ)、俗語(yǔ),知識(shí)語(yǔ)義范圍應(yīng)包括慣常調(diào)查忽略的人名、地名、實(shí)體名等,模態(tài)應(yīng)包括語(yǔ)音和文本,轉(zhuǎn)寫(xiě)和注釋形式應(yīng)使用雙語(yǔ)或三語(yǔ),如民族語(yǔ)-普通話-地方漢語(yǔ)官話方言。

(2)建立面向語(yǔ)句采集的語(yǔ)言社區(qū)社群語(yǔ)域功能綱目。

語(yǔ)域是指語(yǔ)言社區(qū)社群生活的交際場(chǎng)合情景,如生產(chǎn)勞動(dòng)場(chǎng)地、商貿(mào)集市、節(jié)慶活動(dòng)等等。功能是指各種場(chǎng)景的話語(yǔ)事件和交際活動(dòng),如見(jiàn)面打招呼,受人幫忙致謝,出行問(wèn)路乘車等等。慣常的句子調(diào)查模式是依據(jù)“語(yǔ)法例句表”記錄句子(sentence),然而在交際活動(dòng)的言語(yǔ)中,語(yǔ)法表征是多種多樣的,按語(yǔ)法要點(diǎn)設(shè)計(jì)一些例句,無(wú)法體現(xiàn)語(yǔ)法和語(yǔ)音、詞義、語(yǔ)用的內(nèi)在關(guān)系,操作起來(lái)效率極低,難以獲得大量有效語(yǔ)料。

語(yǔ)句調(diào)查工作新常態(tài)是采集大規(guī)模的交際語(yǔ)句(utterance),其基本原則是,以語(yǔ)言社區(qū)社群語(yǔ)域功能知識(shí)為綱,記錄和創(chuàng)建交際語(yǔ)句和口述語(yǔ)篇。語(yǔ)料模態(tài)包括語(yǔ)音和文本,其中有目標(biāo)語(yǔ)言和元語(yǔ)言解釋樣本,元語(yǔ)言應(yīng)采用國(guó)家或地方通用語(yǔ)。語(yǔ)句數(shù)量至少應(yīng)有幾千句,通常兩三萬(wàn)句,涵蓋口語(yǔ)和書(shū)面語(yǔ),相同句意的多種表達(dá),并融合各種語(yǔ)域的話語(yǔ)事件和事物知識(shí)的陳述和表達(dá),體現(xiàn)話語(yǔ)的交際功能和知識(shí)功能。

依據(jù)若干語(yǔ)法要點(diǎn)擬出一兩百個(gè)例句,這容易做到。編寫(xiě)語(yǔ)言社區(qū)常見(jiàn)語(yǔ)域幾百個(gè)常用語(yǔ)句,也不是很難。但要采集上萬(wàn)語(yǔ)句,功能覆蓋社群交際的方方面面,還要融入語(yǔ)言社區(qū)生活各方面知識(shí),則并非易事。因此,建立以語(yǔ)言社區(qū)社群語(yǔ)域語(yǔ)用為核心的言語(yǔ)交際功能綱目,顯得十分重要。目前能見(jiàn)到的交際功能綱目主要是學(xué)習(xí)普通話(尤其對(duì)外漢語(yǔ))的功能大綱,這些可作為基本參考。最重要的是要廣泛考察民族語(yǔ)言和方言社區(qū)生活語(yǔ)域,建構(gòu)一個(gè)全面的、可操作的針對(duì)我國(guó)低資源語(yǔ)言語(yǔ)句采集的語(yǔ)域語(yǔ)用功能綱目。綱目可采用二級(jí)分類:一級(jí)綱目列出社區(qū)社群生活的各種交際功能,如見(jiàn)面、打招呼、問(wèn)候、求幫忙、表示感謝或道歉、購(gòu)物等,可提煉出50~80個(gè)功能域;二級(jí)綱目列出具體話語(yǔ)事件和場(chǎng)景。例如,一級(jí)綱目“打招呼”可列出各種事件情景下的打招呼,親屬見(jiàn)面打招呼、熟人打招呼、陌生人打招呼、去政府辦事跟工作人員打招呼、跟長(zhǎng)者打招呼、跟年少者打招呼等,二級(jí)綱目將交際事件和情景聯(lián)系起來(lái)。這樣就有明確的指向,容易建立事件和情景的知識(shí)聯(lián)想,編寫(xiě)和獲得大量?jī)?nèi)容和功能廣泛、表達(dá)形式豐富的語(yǔ)句。

2. 從個(gè)人學(xué)術(shù)研究的小樣本標(biāo)注轉(zhuǎn)向多用途的數(shù)據(jù)化處理。

整理和處理語(yǔ)料是語(yǔ)言田野工作的重要內(nèi)容,主要體現(xiàn)為語(yǔ)料的轉(zhuǎn)寫(xiě)標(biāo)注。語(yǔ)料的轉(zhuǎn)寫(xiě)標(biāo)注樣態(tài),是語(yǔ)言本體知識(shí)和社群環(huán)境生活知識(shí)的物質(zhì)外殼,語(yǔ)料的識(shí)讀和效用只能通過(guò)轉(zhuǎn)寫(xiě)標(biāo)注實(shí)現(xiàn)。慣常的語(yǔ)料處理,主要是表征語(yǔ)言學(xué)特征的轉(zhuǎn)寫(xiě)標(biāo)注,如音標(biāo)記音和基于萊比錫注釋規(guī)則(34)例如前文提到的民族語(yǔ)言語(yǔ)法文本標(biāo)注叢書(shū),該萊比錫規(guī)則由德國(guó)萊比錫大學(xué)和馬普研究院的語(yǔ)言學(xué)者擬定,包含10條關(guān)于分行語(yǔ)素對(duì)齊注釋規(guī)則,主要針對(duì)印歐語(yǔ)言。用它來(lái)標(biāo)注我國(guó)漢語(yǔ)方言和少數(shù)民族語(yǔ)言時(shí)不宜照搬,還需要修改和補(bǔ)充。英文版下載網(wǎng)址:http://grammar.ucsd.edu/courses/lign120/leipziggloss.pdf.的文本標(biāo)注。這種標(biāo)注語(yǔ)料的數(shù)量不大,標(biāo)注的信息量較少,僅適合研究者作有限的、經(jīng)驗(yàn)式人工分析使用。

語(yǔ)料處理的新常態(tài)就是要形成以多用途為核心的數(shù)據(jù)處理的工作模式。這里的“多用途”至少表現(xiàn)在3個(gè)領(lǐng)域:一是語(yǔ)言學(xué)研究,二是語(yǔ)言教學(xué),二是自然語(yǔ)言處理。慣常的音標(biāo)轉(zhuǎn)寫(xiě)和萊比錫標(biāo)注語(yǔ)料就是適應(yīng)語(yǔ)言學(xué)研究用途,但無(wú)法用于語(yǔ)言教學(xué)和自然語(yǔ)言處理。就語(yǔ)言教學(xué)而言,語(yǔ)料要能用于解決語(yǔ)音規(guī)范、拼音(文字)方案、正字法問(wèn)題,解決音節(jié)整體識(shí)讀問(wèn)題,解決語(yǔ)篇朗讀、誦讀、演說(shuō)的語(yǔ)音、語(yǔ)調(diào)、語(yǔ)氣、話語(yǔ)情感等問(wèn)題。語(yǔ)言教學(xué)的素材使用面比較廣,傳統(tǒng)單一的語(yǔ)言學(xué)轉(zhuǎn)寫(xiě)標(biāo)注語(yǔ)料缺乏這方面的效用價(jià)值,必然要數(shù)據(jù)化才便于做成教學(xué)產(chǎn)品,如各種詞典、句典、手冊(cè)以及課件和小課程等等。

語(yǔ)料的整理和處理還必須考慮語(yǔ)料在自然語(yǔ)言處理領(lǐng)域的使用,這也是當(dāng)代田野語(yǔ)言學(xué)實(shí)踐的分內(nèi)工作。語(yǔ)料要用于NLP領(lǐng)域,除了規(guī)模性和多樣性之外,還要數(shù)據(jù)化,即將樣本素材做規(guī)范處理,使之成為機(jī)器可讀取和計(jì)算的數(shù)據(jù)集。數(shù)據(jù)化處理包括標(biāo)注和結(jié)構(gòu)化兩個(gè)方面。標(biāo)注是指用機(jī)器可處理的字符集表征各種語(yǔ)料。通常的語(yǔ)料是用國(guó)際音標(biāo)表征詞語(yǔ)、語(yǔ)句和語(yǔ)篇,而作為機(jī)器計(jì)算的數(shù)據(jù),通常應(yīng)使用羅馬拼音字母轉(zhuǎn)寫(xiě),聲調(diào)也需要使用羅馬拼音字母表征。通常的詞句語(yǔ)料轉(zhuǎn)寫(xiě)標(biāo)注采用word文檔分行進(jìn)行句或詞對(duì)齊編排,而作為機(jī)器計(jì)算的數(shù)據(jù),通常要采用txt文件格式,寫(xiě)成計(jì)算程序語(yǔ)言所規(guī)定的字符數(shù)組格式。通常的語(yǔ)篇語(yǔ)法標(biāo)注采用分行語(yǔ)素對(duì)應(yīng)標(biāo)注,(35)中國(guó)民族語(yǔ)言語(yǔ)法標(biāo)注叢書(shū)包括《藏語(yǔ)拉薩話語(yǔ)法標(biāo)注文本》(江荻)、《土家語(yǔ)語(yǔ)法標(biāo)注文本》(徐世璇、周純祿、魯美艷)、《哈尼語(yǔ)語(yǔ)法標(biāo)注文本》(白碧波、許鮮明、邵丹)、《義都語(yǔ)語(yǔ)法標(biāo)注文本》(李大勤、郭曉、宗曉哲)、《白語(yǔ)語(yǔ)法標(biāo)注文本》(王鋒)、《藏語(yǔ)甘孜話語(yǔ)法標(biāo)注文本》(燕海雄,江荻)、《嘉戎語(yǔ)卓克基話語(yǔ)法標(biāo)注文本》(林幼菁)、《壯語(yǔ)語(yǔ)法標(biāo)注文本》(藍(lán)利國(guó))、《納木茲語(yǔ)語(yǔ)法標(biāo)注文本》(尹蔚彬)、《水語(yǔ)語(yǔ)法標(biāo)注文本》(韋學(xué)純)、《維吾爾語(yǔ)語(yǔ)法標(biāo)注文本》(王海波、阿力木江·托乎提)以及《達(dá)讓語(yǔ)語(yǔ)法標(biāo)注文本》(劉賓、孟佳儀、李大勤)。而作為機(jī)器計(jì)算的長(zhǎng)文本語(yǔ)料,主要是分詞和插入附碼。通常語(yǔ)言調(diào)查錄制的音頻語(yǔ)料大都采用44KHZ的采樣,而作為NLP機(jī)器使用的大多是16KHZ的數(shù)據(jù)。數(shù)組、矩陣、excel表、帶制表符文本的語(yǔ)料,都是結(jié)構(gòu)化的數(shù)據(jù)。雙語(yǔ)詞表和句表在數(shù)據(jù)化時(shí),一對(duì)多或多對(duì)一的詞條和句子,都應(yīng)分開(kāi)一一對(duì)應(yīng)排序。數(shù)據(jù)化的語(yǔ)料不僅能用于自然語(yǔ)言處理,也可以大大拓展統(tǒng)計(jì)和比較方法在語(yǔ)言學(xué)分析研究中的廣域使用。

四、結(jié) 語(yǔ)

低資源語(yǔ)言是當(dāng)前語(yǔ)言科學(xué)和自然語(yǔ)言處理共同面臨的問(wèn)題。我國(guó)是世界上語(yǔ)言和方言種類較多的國(guó)家之一,其中低資源語(yǔ)言占有較大比重,主要集中在少數(shù)民族語(yǔ)言和區(qū)域漢語(yǔ)方言。低資源語(yǔ)言也是世界語(yǔ)言文化多樣性主要表現(xiàn)。目前人工智能已經(jīng)發(fā)展到大語(yǔ)言模型階段,低資源語(yǔ)言在自然語(yǔ)言處理領(lǐng)域的應(yīng)用可以有效促進(jìn)人工智能語(yǔ)言模型的發(fā)展與革新。低資源語(yǔ)言數(shù)據(jù)建構(gòu)的思想,更是對(duì)語(yǔ)言學(xué)領(lǐng)域的機(jī)械形式主義和經(jīng)驗(yàn)實(shí)驗(yàn)主義傳統(tǒng)慣性的顛覆和揚(yáng)棄,它將語(yǔ)言學(xué)者從游離于當(dāng)今語(yǔ)言生活需求和語(yǔ)言科技革命的狀態(tài)中拉回到當(dāng)代語(yǔ)言學(xué)服務(wù)現(xiàn)實(shí)語(yǔ)言生活的軌道。對(duì)我國(guó)民族語(yǔ)言學(xué)和漢語(yǔ)方言學(xué)領(lǐng)域而言,圍繞中國(guó)本土的低資源語(yǔ)言和方言,大規(guī)模采集和建構(gòu)基礎(chǔ)數(shù)據(jù),廣泛分享和傳播數(shù)據(jù),可以有效支持我國(guó)技術(shù)領(lǐng)域在當(dāng)今語(yǔ)言模型創(chuàng)新與傳播中發(fā)揮獨(dú)特作用。我們也希望,語(yǔ)言學(xué)者積極開(kāi)展低資源語(yǔ)言數(shù)據(jù)建構(gòu),全面推動(dòng)基于數(shù)據(jù)計(jì)量的語(yǔ)言科學(xué)研究,提升我國(guó)當(dāng)代語(yǔ)言學(xué)的數(shù)據(jù)科學(xué)性,實(shí)現(xiàn)語(yǔ)言學(xué)的重要?jiǎng)?chuàng)新和轉(zhuǎn)向。

猜你喜歡
語(yǔ)料語(yǔ)言學(xué)建構(gòu)
消解、建構(gòu)以及新的可能——阿來(lái)文學(xué)創(chuàng)作論
殘酷青春中的自我建構(gòu)和救贖
建構(gòu)游戲玩不夠
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
緊抓十進(jìn)制 建構(gòu)數(shù)的認(rèn)知體系——以《億以內(nèi)數(shù)的認(rèn)識(shí)》例談
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
高州市| 福海县| 柳州市| 宁河县| 玉龙| 邛崃市| 竹溪县| 科技| 潼南县| 重庆市| 通榆县| 玉门市| 惠安县| 德保县| 贺兰县| 山阴县| 平度市| 陆川县| 达孜县| 玛沁县| 崇明县| 宁海县| 隆化县| 漳平市| 湖州市| 福清市| 内乡县| 邳州市| 普洱| 武鸣县| 汪清县| 平南县| 铁岭县| 新田县| 张家港市| 和田市| 岱山县| 沈丘县| 巫山县| 巴楚县| 永和县|