国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國少數(shù)民族語言文字信息處理的進(jìn)展

2022-11-09 13:07:11龍從軍
關(guān)鍵詞:民族語言信息處理分詞

龍從軍,安 波

一、引 言

民族語言文字信息處理是我國語言文字信息處理的重要組成部分。我國是一個(gè)統(tǒng)一的多民族國家,除了國家通用語言文字之外,少數(shù)民族語種和文種也很豐富,在55個(gè)少數(shù)民族中有53個(gè)民族有自己的語言(回族、滿族通用漢語文),其中一些民族使用多種語言。新中國成立前,有21個(gè)少數(shù)民族有自己的文字。新中國成立后,政府為壯、布依、彝、苗、哈尼、傈僳、納西、侗、佤、黎、土、羌等民族制定了文字方案,還對一些民族文字系統(tǒng)進(jìn)行了改革或改進(jìn)。

自20世紀(jì)80年代始,隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,傳統(tǒng)非拉丁字母型的民族文字面臨著新的問題,即文字字符需要在計(jì)算機(jī)等電子設(shè)備上實(shí)現(xiàn)輸入、顯示、打印和在互聯(lián)網(wǎng)上傳輸。1991年國家民族事務(wù)委員會發(fā)布了《關(guān)于進(jìn)一步做好少數(shù)民族語言文字工作的報(bào)告》,該報(bào)告明確指出“要加強(qiáng)民族語文的基礎(chǔ)理論、應(yīng)用理論和民族文字信息處理的科學(xué)研究,積極推廣和普及研究成果”。2014年國家語言文字工作委員會發(fā)布了《關(guān)于進(jìn)一步做好語言文字信息化工作的若干意見》,該文件指出“加快制定信息化急需的少數(shù)民族語言文字基礎(chǔ)規(guī)范標(biāo)準(zhǔn)。建設(shè)少數(shù)民族語言文化資源庫和傳統(tǒng)通用少數(shù)民族語言的大規(guī)模語料庫。充分利用信息化手段科學(xué)保護(hù)各民族語言文字,抓緊做好瀕危語言文字的數(shù)字化整理和記錄保存工作。重視跨境少數(shù)民族語言文字信息化建設(shè),積極構(gòu)筑民族語言文化高地,服務(wù)國家周邊外交,切實(shí)維護(hù)國家安全”。2020年國務(wù)院辦公廳發(fā)布了《關(guān)于全面加強(qiáng)新時(shí)代語言文字工作的意見》,該文件指出“發(fā)揮語言文字信息技術(shù)在國家信息化、智能化建設(shè)中的基礎(chǔ)支撐作用,提升語言文字信息處理能力,推進(jìn)語言文字的融媒體應(yīng)用”。不難看出,在我國發(fā)展的不同階段,民族語言文字信息化研究都受到關(guān)注和重視,尤其是現(xiàn)階段,民族語言文字信息處理能力的提升是國家信息化、智能化建設(shè)的任務(wù)之一。

民族語言文字信息處理研究的內(nèi)容包括以民族文字字符編碼、字形字庫制作、輸入法開發(fā)、字符識別等為主要內(nèi)容的字處理研究;以分詞、詞性標(biāo)注、命名實(shí)體識別等為主要內(nèi)容的詞處理研究和以句法、語義等為主要內(nèi)容的句處理研究;也包括語音識別與合成、多語機(jī)器翻譯、民族語言服務(wù)、應(yīng)用產(chǎn)品的開發(fā)等,本文分別就我國民族語言文字在上述領(lǐng)域的研究狀況、問題及發(fā)展趨勢進(jìn)行簡要總結(jié)。

二、信息處理基礎(chǔ)研究

語言文字信息處理是指利用計(jì)算機(jī)對自然語言的音、形、義等信息進(jìn)行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作與加工。根據(jù)不同的研究階段,信息處理大體劃分為字處理、詞處理、句法語義處理和語篇處理。字、詞、句信息處理和語料庫建設(shè)是當(dāng)前民族語言文字信息處理領(lǐng)域的基礎(chǔ)和核心工作。

(一)字處理

民族文字字符編碼是民族文字輸入計(jì)算機(jī)的第一個(gè)環(huán)節(jié),民族文字輸入是其信息處理技術(shù)的一個(gè)關(guān)鍵問題,只有不同的民族文字信息進(jìn)入計(jì)算機(jī)之后,才能利用計(jì)算機(jī)強(qiáng)大的儲存和計(jì)算能力進(jìn)行處理。

1.字符編碼和規(guī)范標(biāo)準(zhǔn)研究

我國的一些民族文字創(chuàng)制和使用歷史悠久,一些文字現(xiàn)在仍然在日常生活、教育、出版、新媒體領(lǐng)域廣泛使用,具有較強(qiáng)的活力。蒙古族使用蒙古文和托忒文,藏族使用藏文,維吾爾族、哈薩克族、柯爾克孜族分別使用維吾爾文、哈薩克文和柯爾克孜文;壯族、傈僳族、拉祜族、布依族、侗族、佤族、哈尼族、納西族、土族、羌族使用新創(chuàng)制的拉丁字母文字。苗族使用的文字又分為黔東苗文、湘西苗文、川黔滇苗文、滇東北苗文;傣族使用傳統(tǒng)的西雙版納傣文和德宏傣文,一些地區(qū)也使用改進(jìn)后的新傣文;景頗族使用改進(jìn)的拉丁字母文字,部分人使用載瓦拉丁字母文字;彝族使用傳統(tǒng)彝文,四川涼山彝族使用修訂后的規(guī)范彝文。民族文字大體上可以分成兩種類型,一種是以拉丁字母為基礎(chǔ)的拼音文字,如一些新創(chuàng)的少數(shù)民族語言文字;另一種為非拉丁字母的文字。非拉丁字母文字又可以分成兩類,一類是如維吾爾文一樣的以阿拉伯字母為基礎(chǔ)的文字系統(tǒng);另一類是如漢文一樣的表意文字系統(tǒng)。以非拉丁字母文字為基礎(chǔ)的民族文字有藏文、傳統(tǒng)蒙古文、彝文、傣文、朝鮮文、維吾爾、哈薩克、柯爾克孜文等。

在信息化時(shí)代,為了滿足以語言文字為載體的信息交流和傳輸,給非拉丁字母的民族文字制定國際或國家字符統(tǒng)一編碼標(biāo)準(zhǔn)成為必然。20世紀(jì)80年代開始,我國學(xué)者就逐步開展民族語言文字字符編碼標(biāo)準(zhǔn)研究,其中,蒙古文編碼字符集成為最早發(fā)布的民族文字字符國家標(biāo)準(zhǔn)(GB8045-1987《信息處理交換用蒙古文七位和八位編碼圖形字符集》)。此后,朝鮮文、維吾爾文、藏文、彝文、傣文等多種民族語言文字的編碼字符集也逐漸發(fā)布,同時(shí)還制定了與每種民族文字字符配套的點(diǎn)陣字型標(biāo)準(zhǔn)和鍵盤布局標(biāo)準(zhǔn)。

20世紀(jì)90年代,民族語言文字編碼邁向國際化。其中,蒙古文、托忒蒙古文、錫伯文、滿文、藏文、維吾爾文、哈薩克文、柯爾克孜文、朝鮮文、彝文和德宏傣文編碼字符集國際標(biāo)準(zhǔn)被收入在ISO/IEC10646區(qū)。西雙版納新傣文編碼字符集國際標(biāo)準(zhǔn)被收入在ISO/IEC10646:2003/Amendment2:2006區(qū)。其他一些民族文字也開始研究并逐步形成了編碼字符集國際標(biāo)準(zhǔn)草案和正式編碼標(biāo)準(zhǔn),如老傈僳文、滇東北簡體苗文、西夏文和古突厥文。一些民族文字編碼字符集正緊鑼密鼓地被研制和申報(bào)國際編碼,如納西東巴文和古彝文。

率先完成字符編碼國際或國家標(biāo)準(zhǔn)的民族文字,也先后完成一系列配套的規(guī)范標(biāo)準(zhǔn),其中一些是國家標(biāo)準(zhǔn),一些是地方或行業(yè)標(biāo)準(zhǔn)。維吾爾語言文字的規(guī)范標(biāo)準(zhǔn)文件共26項(xiàng),其中,國家標(biāo)準(zhǔn)16項(xiàng),地方標(biāo)準(zhǔn)10項(xiàng)。蒙古語言文字的規(guī)范標(biāo)準(zhǔn)文件共25項(xiàng),其中,國家標(biāo)準(zhǔn)20項(xiàng),地方標(biāo)準(zhǔn)4項(xiàng),行業(yè)標(biāo)準(zhǔn)1項(xiàng)。藏語語言文字規(guī)范標(biāo)準(zhǔn)文件共17項(xiàng),其中,國家標(biāo)準(zhǔn)14項(xiàng),行業(yè)標(biāo)準(zhǔn)3項(xiàng)。哈薩克語言文字規(guī)范標(biāo)準(zhǔn)文件共23項(xiàng),其中,國家標(biāo)準(zhǔn)14項(xiàng),地方標(biāo)準(zhǔn)8項(xiàng),行業(yè)標(biāo)準(zhǔn)1項(xiàng)??聽柨俗握Z言文字規(guī)范標(biāo)準(zhǔn)文件共23項(xiàng),其中,國家標(biāo)準(zhǔn)14項(xiàng),地方標(biāo)準(zhǔn)8項(xiàng),行業(yè)標(biāo)準(zhǔn)1項(xiàng)。滿語言文字規(guī)范標(biāo)準(zhǔn)文件共9項(xiàng),全部是國家標(biāo)準(zhǔn)。傣語言文字規(guī)范標(biāo)準(zhǔn)文件共7項(xiàng),其中,國家標(biāo)準(zhǔn)5項(xiàng),行業(yè)標(biāo)準(zhǔn)2項(xiàng)。錫伯語言文字規(guī)范標(biāo)準(zhǔn)文件共6項(xiàng),全部是國家標(biāo)準(zhǔn)。彝語言文字規(guī)范標(biāo)準(zhǔn)文件共4項(xiàng),其中,國家標(biāo)準(zhǔn)3項(xiàng),行業(yè)標(biāo)準(zhǔn)1項(xiàng)。黎語言文字規(guī)范標(biāo)準(zhǔn)文件1項(xiàng)。

2011年新聞出版署啟動了中華字庫工程,其中涉及對民族古文字和現(xiàn)行文字字符的收集、整理和編碼研究等內(nèi)容。這項(xiàng)工程的實(shí)施,加速了民族文字的字符編碼研究進(jìn)程,彌補(bǔ)了一些民族文字現(xiàn)有字符編碼的不足,為尚未完成字符編碼國際標(biāo)準(zhǔn)的民族文字申請國際標(biāo)準(zhǔn)提供了良好的基礎(chǔ)。更重要的是,一旦編碼、字庫和輸入法研究完成,我國民族語言文字中的任何字符都可以方便輸入、顯示和打印,這對民族文字文獻(xiàn)的研究和出版提供了方便。

到目前為止,民族語言文字規(guī)范標(biāo)準(zhǔn)研究已經(jīng)取得了巨大成績,大部分民族文字能方便地實(shí)現(xiàn)計(jì)算機(jī)的輸入、顯示、打印和互聯(lián)網(wǎng)傳輸,為我國優(yōu)秀民族文化的國際國內(nèi)互聯(lián)網(wǎng)傳播提供了技術(shù)保障。但是,民族文字字符編碼規(guī)范研究還有不少缺陷,進(jìn)一步完善的空間較大,例如制定的規(guī)范標(biāo)準(zhǔn)文件數(shù)量還不夠多;語言信息處理領(lǐng)域的規(guī)范化、標(biāo)準(zhǔn)化在民族語言之間或同一語言內(nèi)部表現(xiàn)不平衡,現(xiàn)有規(guī)范標(biāo)準(zhǔn)主要集中在蒙、藏、維、朝、哈、柯、彝、傣等民族語言;語言信息處理領(lǐng)域的規(guī)范化、標(biāo)準(zhǔn)化在民族語言之間或同一語言內(nèi)部表現(xiàn)不平衡;文字字符編碼標(biāo)準(zhǔn)、鍵盤布局標(biāo)準(zhǔn)相對較多,但面向信息處理的語音、詞匯、語法、句子、篇章的規(guī)范標(biāo)準(zhǔn)較少;已經(jīng)頒布的民族語言文字規(guī)范標(biāo)準(zhǔn)還有一些缺陷,還需要不斷更新和完善。

2.輸入法研究

語言文字信息處理最基礎(chǔ)的工作是字符輸入。輸入方式包括鍵盤輸入、光電掃描與字符識別輸入和語音輸入。

鍵盤輸入是最常見的輸入方式之一。文字輸入要制定鍵盤布局標(biāo)準(zhǔn)以及字符與鍵盤的映射關(guān)系規(guī)則。我國民族文字輸入法的鍵盤布局規(guī)范都是根據(jù)英文鍵盤布局標(biāo)準(zhǔn)來制定的,非拉丁字母體系的民族文字的字符與鍵盤映射相對困難,有些文字需要借助拉丁轉(zhuǎn)寫來完成鍵位映射。一方面不同類型的民族文字的字符數(shù)量存在差別,有些民族文字字符數(shù)量多,主鍵盤不夠用,要借助輔助鍵盤來實(shí)現(xiàn)全字符輸入。例如藏文輸入法按照國家鍵盤布局標(biāo)準(zhǔn),需要一個(gè)主鍵盤和四個(gè)輔助鍵盤,同時(shí)還要借助控制鍵輔助完成字符輸入,極大地降低了輸入速度。另一方面鍵盤輸入速度與語言文字信息處理的水平相互制約,輸入效率低,影響信息處理水平的提高;反之,信息處理的水平低,基礎(chǔ)資源少,詞法研究不到位又影響輸入法的提高。通常來說,基于字符的輸入效率低,基于詞、短語和句子的輸入效率高。當(dāng)前,我國大部分民族語言文字的鍵盤輸入法都停留在字符輸入層面,以詞、詞組或句子為單位的聯(lián)想輸入法比較少見。

通過光電掃描方式可以快速實(shí)現(xiàn)電子化,但光電掃描獲得的圖像需要進(jìn)行文字識別。文字識別是對文檔圖像中的文字進(jìn)行分割、識別,將文檔從圖像轉(zhuǎn)換為可以編輯的電子文本。文字識別的方式按照文檔的媒體形式分為兩大類:脫機(jī)(Offline)文字識別和聯(lián)機(jī)(Online)文字識別。民族文字特征復(fù)雜,長短高低不同,構(gòu)字法、構(gòu)詞法不同,書寫方向也不一致(從左向右,或從右向左,或從上向下),字符之間相互疊加黏連,相似字符多,這些現(xiàn)象造成了字符識別的困難。在幾代學(xué)者的努力下,民族文字識別效果穩(wěn)步提升,TH-OCR 2007統(tǒng)一多民族文字識別系統(tǒng)集民族文字識別之大成,使多種民族文字識別達(dá)到實(shí)用化水平。近十年來,OCR技術(shù)進(jìn)一步用于民族古籍文獻(xiàn)的信息化建設(shè)中,尤其是在基于古籍文字、木刻板、自然場景(板材噴碼、商鋪標(biāo)牌)等不規(guī)則載體的文字識別中,也取得了不錯(cuò)的效果。

民族語言語音輸入研究取得階段成果的有蒙古語、維吾爾語和藏語,但都還處于初步應(yīng)用階段,語音輸入準(zhǔn)確率有待進(jìn)一步提高。制約語音輸入的主要因素是基礎(chǔ)研究薄弱,可供語音輸入使用的資源有限,如在民族語言中沒有大規(guī)模的語音數(shù)據(jù)庫,尤其是口語語音數(shù)據(jù)庫、自然場景對話語音數(shù)據(jù)庫等基礎(chǔ)資源,一些民族語言方言語音差距較大,方言語音資源庫極為缺乏。

(二)詞處理

詞法分析是語言信息處理進(jìn)入詞處理研究階段的標(biāo)志。詞法分析是以詞為單元開展的語言信息處理工作,一般包括自動分詞、自動詞綴詞干切分,詞性標(biāo)注,特殊詞的識別、抽取和標(biāo)注,以詞為基礎(chǔ)的知識圖譜、詞向量研究等,其中分詞和詞性標(biāo)注研究是最基礎(chǔ)的工作。

1.分詞

字處理是語言信息處理的前提,詞是語義的基本單元,詞法分析是將輸入的句子從字序列轉(zhuǎn)化為詞序列,即在詞的邊界上打標(biāo)簽。我國民族語言的語言類型不同,自動分詞的內(nèi)涵和方法也存在差異,按照語言類型大體可以劃分成兩大類:一類是詞形變化不豐富的孤立型民族語言,如藏語、彝語等,這些語言與漢語類似,詞語之間沒有顯性的標(biāo)記,需要進(jìn)行詞的邊界識別;另一類是具有豐富詞形變化的黏著型民族語言,如蒙古語、維吾爾語等,所謂分詞指對詞語的詞干、詞綴切分和提取。

孤立型民族語言分詞研究大體經(jīng)歷三個(gè)階段:基于詞表匹配的規(guī)則分詞階段、基于統(tǒng)計(jì)的分詞階段和基于深度學(xué)習(xí)的分詞階段。當(dāng)前基于深度學(xué)習(xí)的分詞性能最好,但依賴于大規(guī)模的標(biāo)注語料或超大規(guī)模的無標(biāo)注數(shù)據(jù)。在少數(shù)民族語言分詞領(lǐng)域,采用基于條件隨機(jī)場的統(tǒng)計(jì)分詞方法和基于深度學(xué)習(xí)的分詞方法,其分詞效果在性能上沒有明顯差距。

黏著型民族語言詞干、詞綴切分方法大體上也經(jīng)歷兩個(gè)階段:基于規(guī)則的詞干、詞綴切分和基于統(tǒng)計(jì)的詞干、詞綴切分?;谝?guī)則的方法主要是通過構(gòu)造詞干和詞綴規(guī)則表,由詞干詞典和一級詞綴(集表)表、二級詞綴(集表)表和三級詞綴(集表)表組成,詞干詞典里存放功能詞和非功能的詞干,例如維吾爾語非功能詞中詞尾非常豐富,詞性變化多,但有規(guī)律可循;詞干和詞綴,詞綴與詞綴之間的組合有規(guī)則,通過構(gòu)造一個(gè)詞干與詞綴,詞綴與詞綴之間的變化規(guī)則表,完成詞法分析。但是黏著型語言存在語音和諧問題,詞干后接詞綴時(shí),有些元音、輔音會出現(xiàn)弱化或者丟失、增加等情況,為了得到正確的詞干與詞綴,還需對發(fā)生變化的字母進(jìn)行還原;規(guī)則也可能出現(xiàn)遺漏、沖突、歧義等情況,對于發(fā)生復(fù)雜音變現(xiàn)象的詞(特別是動詞的形態(tài))利用規(guī)則也難以恢復(fù)原始形式。基于統(tǒng)計(jì)的詞干詞綴切分的方法是把詞干和詞綴作為序列標(biāo)注中獨(dú)立的標(biāo)注單元,通過大規(guī)模數(shù)據(jù)訓(xùn)練方式獲得詞干和詞綴的統(tǒng)計(jì)概率。

在采用統(tǒng)計(jì)分詞方法時(shí),不管是孤立型還是黏著型民族語言,通常都采用BIO標(biāo)注法標(biāo)注訓(xùn)練語料,即將每個(gè)元素(字符串、音節(jié)、字)標(biāo)注為“B-X”、“I-X”或者“O”。其中,“B-X”表示元素所在的片段屬于X類型并且在片段的開頭,“I-X”表示元素所在的片段屬于X類型,并且在片段的中間位置,“O”表示不屬于任何類型。在實(shí)際應(yīng)用中,可以根據(jù)需要對BIO進(jìn)行改進(jìn),如采用IOBES,其中E表示帶有黏著字符的子串,S表示非黏著字符子串,這種處理可以用于黏著型民族語言的詞法分析。

利用統(tǒng)計(jì)模型進(jìn)行分詞研究時(shí),需要一定規(guī)模的訓(xùn)練語料。在訓(xùn)練語料制作方面,維吾爾語、藏語、蒙古語、朝鮮語等已經(jīng)具有一定規(guī)模的訓(xùn)練語料,因此統(tǒng)計(jì)模型詞法分析效果也初步達(dá)到實(shí)用水平。在分詞技術(shù)方面,各語言采用的方法大體相似,一般都采用條件隨機(jī)場等序列標(biāo)注模型,也有研究者嘗試在一些民族語言上使用深度神經(jīng)網(wǎng)絡(luò)模型,但受民族語言語料資源的限制,基于深度神經(jīng)網(wǎng)絡(luò)模型的分詞效果并沒有大幅提升。

2017年中文信息學(xué)會舉辦了第一屆“民族語言自動分詞評測”,參與評測的有蒙古文、藏文、維吾爾文三個(gè)語種。評測采用開放測試形式,分詞評測任務(wù)包括受限訓(xùn)練任務(wù)(Close Track)和非受限訓(xùn)練任務(wù)(Open Track),評測性能包括分詞精度與分析速度兩個(gè)方面。2021年舉辦了第二屆,與第一屆相比,評測形式?jīng)]有變化,但訓(xùn)練和測試語料數(shù)量和質(zhì)量大幅提升,從評測結(jié)果來看,民族語言分詞技術(shù)水平也有一定的提升。分詞評測是在統(tǒng)一語料、統(tǒng)一評價(jià)標(biāo)準(zhǔn)的基礎(chǔ)上開展的,公開評測措施有力推動了民族語言分詞技術(shù)的發(fā)展。

2.詞性標(biāo)注

詞性標(biāo)注(Part of Speech Tagging或POSTagging)是指為句子中的每個(gè)詞,確定一個(gè)合適詞性的過程。它是自然語言處理中的一項(xiàng)基礎(chǔ)任務(wù),在語音識別、信息檢索及自然語言處理的很多領(lǐng)域都發(fā)揮著重要的作用。除了給詞標(biāo)注詞性之外,還有一些以詞為單位的其他標(biāo)注,例如人名、地名、組織機(jī)構(gòu)名等專有名詞的識別、標(biāo)注研究,也屬于為特定詞類打標(biāo)簽的過程,通常稱為命名實(shí)體識別(Name Entity Recognition,NER),本文的詞性標(biāo)注指稱廣義的標(biāo)注,包括所有對“分詞單位”的屬性標(biāo)注研究。

分詞和詞性標(biāo)注可以分步進(jìn)行,即先分詞然后進(jìn)行詞性標(biāo)注;也可以一體化處理,即分詞和詞性標(biāo)注同步進(jìn)行。一般來講,分詞和詞性標(biāo)注同步進(jìn)行的標(biāo)注效果要好一些,分詞和標(biāo)注過程相互制約,使分詞和詞性標(biāo)注的準(zhǔn)確率都有所提高。近期,基于同步標(biāo)注策略的聯(lián)合學(xué)習(xí)模型在分詞與詞性標(biāo)注任務(wù)中取得了更好的效果。具體地,面向分詞與詞性標(biāo)注的聯(lián)合模型學(xué)習(xí)字符串的表示,并在此表示的基礎(chǔ)上,分別使用兩個(gè)標(biāo)注模型進(jìn)行分詞、詞性標(biāo)注。該方法的出發(fā)點(diǎn)是分詞、詞性標(biāo)注兩個(gè)任務(wù)具有很強(qiáng)的關(guān)聯(lián)性,分詞的結(jié)果決定了詞性標(biāo)注的界限,詞性標(biāo)注的合理性也反過來影響分詞的結(jié)果。在模型層面,常用的分詞及標(biāo)注模型有:Bert+BiLSTM+CRF模型和Bert+BiLSTM+SPAN模型,在聯(lián)合學(xué)習(xí)模型中,分詞模型和標(biāo)注模型共享Bert+BiLSTM部分的架構(gòu)和參數(shù),CRF和SPAN模型則是分詞、標(biāo)注模型分別私有的。共享參數(shù)能夠得到分詞和標(biāo)注兩部分監(jiān)督信息的反饋,能夠?qū)W習(xí)到更好的模型。

詞性標(biāo)注的過程包括研制標(biāo)注集,制作標(biāo)注標(biāo)準(zhǔn)和標(biāo)注語料。通常需要人工標(biāo)注一定數(shù)量的訓(xùn)練材料,然后進(jìn)行模型訓(xùn)練。詞性標(biāo)注集的規(guī)模往往會影響標(biāo)注模型的效果,模型根據(jù)統(tǒng)計(jì)概率選擇最佳標(biāo)注結(jié)果,通常訓(xùn)練集規(guī)模越大,模型的性能越好。其中常用詞性標(biāo)注數(shù)據(jù)集以Treebank(樹庫)為主,如英文詞性標(biāo)注樹庫、中文詞性標(biāo)注樹庫、藏文樹庫等。詞性標(biāo)注的評價(jià)標(biāo)準(zhǔn)與分詞的評價(jià)標(biāo)準(zhǔn)類似,主要以準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-value)來計(jì)算,其中F1值越高,通常表示標(biāo)注模型的性能越好。

命名實(shí)體識別(Named Entity Recognition,NER)是指在文本中自動標(biāo)注和抽取特定對象,如人名、地址名、組織機(jī)構(gòu)名等。命名實(shí)體識別在許多大型自然語言處理的應(yīng)用系統(tǒng)中廣泛應(yīng)用,如信息檢索、自動文本摘要、問答系統(tǒng)、機(jī)器翻譯以及知識圖譜等領(lǐng)域,因此是自然語言處理研究的熱點(diǎn)之一。

從語言信息處理的角度來看,詞性標(biāo)注材料的使用場合要比分詞材料的使用場合少,因此民族語言詞性標(biāo)注研究的進(jìn)展比較緩慢。從現(xiàn)有成果來看,詞性標(biāo)注的研究成果主要集中在蒙、藏、維等民族語言。

3.詞向量

單從“詞向量”這個(gè)術(shù)語字面上分析,就可以看出它是語言學(xué)和數(shù)學(xué)結(jié)合的產(chǎn)物。詞是語言學(xué)中最基本的概念之一,是最小的能夠獨(dú)立運(yùn)用的語言單位;向量則是數(shù)學(xué)中的基本概念之一(起源于物理學(xué)),是“具有大小和方向的量”。詞和向量結(jié)合形成的“詞向量”在一定程度上能夠表達(dá)一個(gè)特定的“詞”在大?。ㄎ谋居颍┖头较颍ㄉ舷挛模┥系南蛄靠偤?,其中最典型的是詞的一部分分布(位置)信息和語義信息可以通過計(jì)算方式獲得。

索緒爾把語言看成一個(gè)符號系統(tǒng),該系統(tǒng)由音位、音節(jié)、語素、詞、短語、句子等各要素按照一定的層級組成。在索緒爾看來,語言符號系統(tǒng)各成員之間的位置關(guān)系可以概括為兩種最基本的關(guān)系:組合關(guān)系和聚合關(guān)系。組合關(guān)系是指兩個(gè)同一性質(zhì)的結(jié)構(gòu)單位按照線性順序組合起來的關(guān)系,組合關(guān)系是一種共現(xiàn)關(guān)系;而聚合關(guān)系是指在語言符號組合關(guān)系的某一位置上能夠互相替換且功能相同或相似的一類符號之間的關(guān)系,它是一種替換關(guān)系。美國結(jié)構(gòu)主義語言學(xué)家布龍菲爾德提出“位置”和“形類”等概念,并用來描寫語言的分布特征。哈里斯提出語言的分布結(jié)構(gòu),即“一個(gè)元素的分布將被理解為其所有環(huán)境的總和”、“如果認(rèn)為詞A和B在意義上與A和C不同,那么我們經(jīng)常會發(fā)現(xiàn)A和B的分布比A和C的分布更為不同”,詞的意義差異的總量大致相當(dāng)于它們環(huán)境差異的總量,如果A和B從來沒有相同的環(huán)境,我們就說它們是兩個(gè)不同語法類的成員。從這些闡釋可以看出,語義相似的詞在文本中具有相似的位置分布,它們相互之間的語義距離也近。但是獲取詞的語義信息是人的認(rèn)知行為,定量和定性的數(shù)據(jù)難以得到,這也是自語義分布概念提出以來,長達(dá)幾十年未被實(shí)際應(yīng)用的主要原因。然而,隨著計(jì)算技術(shù)的發(fā)展和可利用的大規(guī)模文本數(shù)據(jù)的出現(xiàn),定量捕捉詞的語義信息成為可能。利用語言模型和機(jī)器學(xué)習(xí)獲得詞的語義分布信息以“向量”方式儲存,可以簡單地理解為一種語言的“詞向量”就是該種語言的一種新型“詞典”,詞條與傳統(tǒng)詞典一樣,詞條的釋義則以抽象的、數(shù)字化的“詞向量”表示。

詞向量是在大規(guī)模文本數(shù)據(jù)的基礎(chǔ)上,通過詞匯的上下文學(xué)習(xí),得到詞匯的低維向量表示(如100維的向量)。常用的詞向量學(xué)習(xí)工具包括Word2vec、Glove、Fasttext等,這三種工具均可以在Gensim工具中直接調(diào)用。常用的詞向量學(xué)習(xí)算法包括Skip-gram、CBOW等,Skip-gram是利用上下文來預(yù)測中心詞,CBOW是利用中心詞來預(yù)測上下文。詞向量常使用無監(jiān)督的文本數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)的規(guī)模、質(zhì)量和領(lǐng)域會影響詞向量下游任務(wù)的性能,通常訓(xùn)練數(shù)據(jù)的規(guī)模越大、數(shù)據(jù)質(zhì)量越高、訓(xùn)練數(shù)據(jù)與下游任務(wù)領(lǐng)域數(shù)據(jù)越接近,訓(xùn)練得到的詞向量對于下游任務(wù)的效果就更好。除此之外,詞匯序列上下文窗口的大小、停用詞、詞頻、迭代次數(shù)等超參數(shù)的設(shè)置也會直接影響詞向量的質(zhì)量。

詞向量在自然語言處理中的應(yīng)用十分廣泛,研究者高度關(guān)注,研究成果豐富。但是詞向量在社會科學(xué)領(lǐng)域的應(yīng)用還不常見,冉雅璇等從理論上描述了詞向量在社會科學(xué)領(lǐng)域六方面的應(yīng)用:挖掘社會偏見和刻板印象、窺探文化認(rèn)知內(nèi)涵、分析詞的語義內(nèi)涵演變、推斷文本情感傾向、挖掘不同組織在價(jià)值觀和意識形態(tài)層面的關(guān)聯(lián)、揭示個(gè)體的判斷和決策心理。但這些研究設(shè)想即使在中文領(lǐng)域也未見有實(shí)質(zhì)性的研究成果發(fā)表。在蒙、藏、維等民族語言信息處理中,只有少量研究論文涉及詞向量,如探討詞向量的表示方法、基于詞向量的語義聚類、詞向量在民漢機(jī)器翻譯中的應(yīng)用等,研究深度和廣度都有待提升,民族語言詞向量技術(shù)在社會科學(xué)領(lǐng)域的研究成果尚未見到。

4.知識圖譜

谷歌公司在2012年提出了知識圖譜(Knowledge Graph,KG)的概念,所謂知識圖譜是以結(jié)構(gòu)化的形式描述客觀世界中的概念、實(shí)體及其相互關(guān)系。從狹義角度看,概念和實(shí)體往往以詞或者短語來體現(xiàn),概念、實(shí)體之間的關(guān)系可以簡單地看作是詞與詞之間的關(guān)系。從“知識圖譜”概念的內(nèi)涵和外延差異來看,可以分成兩類:基于文獻(xiàn)計(jì)量的知識地圖和基于關(guān)聯(lián)數(shù)據(jù)的語義知識圖譜,而后者才是真正意義上的知識圖譜。語義知識圖譜概念提出之前,語言學(xué)家和計(jì)算語言學(xué)家通常使用本體知識(Ontology)、語言知識工程、語義網(wǎng)絡(luò)等概念來指稱,研究成果的典型代表有WordNet,F(xiàn)reebase和Hownet等知識庫。

早期研究者在構(gòu)建知識圖譜時(shí),一般采用自頂向下的方式,即由專家建立好知識圖譜的框架,包括圖譜中的概念、實(shí)體的層次和關(guān)系,然后依據(jù)特定的工具來填寫,常見的工具有Protégé、TopBraid Composer等。知識圖譜構(gòu)建過程包括知識建模、知識獲取、知識融合和推理。

互聯(lián)網(wǎng)催生和加快了知識圖譜的產(chǎn)生和發(fā)展,知識圖譜又提升了互聯(lián)網(wǎng)的智能化水平?;ヂ?lián)網(wǎng)上開放鏈接的數(shù)據(jù)非常多,利用語言信息技術(shù)從開放鏈接數(shù)據(jù)中抽取實(shí)體加入到知識庫,然后再自動或半自動構(gòu)建實(shí)體之間的關(guān)系,這是一種自底向上的構(gòu)建方式。知識圖譜為互聯(lián)網(wǎng)上海量、異構(gòu)、動態(tài)的大數(shù)據(jù)表達(dá)、組織、管理以及利用提供了一種更為有效的方式,使得網(wǎng)絡(luò)的智能化水平更高,更加接近于人類的認(rèn)知思維。知識圖譜具有廣泛的應(yīng)用前景,可以用于智能搜索、深度問答、社交網(wǎng)絡(luò)分析等,因此它已經(jīng)成為自然語言處理研究領(lǐng)域的熱點(diǎn)之一。

基于民族語言文字的知識圖譜研究總體上處于起步階段,研究成果局限于特定領(lǐng)域。趙生輝認(rèn)為要構(gòu)建藏漢雙語融合型知識圖譜,以西藏宗教文化多語言知識圖譜為例闡釋構(gòu)建過程。馮小蘭等構(gòu)建了漢藏雙語旅游領(lǐng)域知識圖譜。葛運(yùn)城基于WordNet的結(jié)構(gòu)探索計(jì)算機(jī)領(lǐng)域漢英蒙術(shù)語知識圖譜構(gòu)建。龍從軍也開展了以藏文古文獻(xiàn)文本為基礎(chǔ)的知識圖譜研究,初步完成了吐蕃藏文金石銘刻基本概況、研究現(xiàn)狀、刻文內(nèi)容和語法范疇四種本體的知識圖譜,以知識圖譜技術(shù)研究民族古文獻(xiàn)是數(shù)字人文技術(shù)的深化,當(dāng)基于古文獻(xiàn)文本內(nèi)容的知識圖譜形成一定規(guī)模時(shí),它將對民族古文獻(xiàn)保護(hù)、開發(fā)和利用發(fā)揮重要價(jià)值。

5.預(yù)訓(xùn)練語言模型

語言模型是用來計(jì)算句子中不同層級的語法單位概率的一種技術(shù),根據(jù)處理的對象不同,可以分別計(jì)算句子中字、詞、短語、語法成分等的概率。語言模型分專家規(guī)則模型、統(tǒng)計(jì)語言模型和預(yù)訓(xùn)練語言模型。專家規(guī)則語言模型是語言處理初級階段的產(chǎn)物,統(tǒng)計(jì)語言模型是隨著計(jì)算機(jī)和語料庫技術(shù)的發(fā)展而產(chǎn)生的,N-gram是常見的統(tǒng)計(jì)語言模型,但N的取值并非任意,取值一般小于5,所以N-gram統(tǒng)計(jì)語言模型無法獲取更長距離的上下文信息,模型效果過度依賴訓(xùn)練語料的質(zhì)量,也不可避免地出現(xiàn)數(shù)據(jù)稀疏的問題。靜態(tài)詞向量技術(shù)從一定程度上解決了N-gram模型的問題,但對一詞多義、未登錄詞等問題仍然無法從根本上解決。建立在動態(tài)詞向量基礎(chǔ)上的預(yù)訓(xùn)練語言模型綜合利用了強(qiáng)大的計(jì)算機(jī)算力、各種訓(xùn)練方法和技巧,能夠從海量無標(biāo)注數(shù)據(jù)中產(chǎn)生上下文相關(guān)的特征表示,獲取包括語義、句法、語境等各方面的大量語言知識,從全局角度“理解”給定文本的含義。當(dāng)前,BERT(Bidirectional Encoder Representation from Transformer)模型是應(yīng)用最廣泛的大規(guī)模預(yù)訓(xùn)練模型的代表。但BERT模型有大量的參數(shù),預(yù)訓(xùn)練時(shí)對硬件的要求高、消耗大、訓(xùn)練難度高;同時(shí)需要海量無監(jiān)督文本數(shù)據(jù),對低資源語言來說也極難實(shí)現(xiàn)。

我國民族語言語料稀缺,文本、語音材料獲取難度大,現(xiàn)有的多語言模型無法直接用于處理民族語言文字。值得慶幸的是科大訊飛和哈爾濱工業(yè)大學(xué)聯(lián)合發(fā)布了首個(gè)面向少數(shù)民族語言的多語言預(yù)訓(xùn)練模型CINO(Chinese Minority Pre-Trained Language Model),該模型提供了藏語、蒙語(回鶻體)、維吾爾語、哈薩克語(阿拉伯體)、朝鮮語、壯語等少數(shù)民族語言相關(guān)預(yù)訓(xùn)練模型,填補(bǔ)了民族語言預(yù)訓(xùn)練模型這一研究空白。該預(yù)訓(xùn)練語言模型在藏文文本分類等任務(wù)上取得了顯著效果,證明了預(yù)訓(xùn)練語言模型在少數(shù)民族語言處理領(lǐng)域的價(jià)值。

(三)句法語義

自動句法分析是計(jì)算機(jī)根據(jù)語言知識自動地識別出一個(gè)句子的語法單位以及這些語法單位之間相互關(guān)系的過程,分析的結(jié)果以樹圖的形式表示語言知識的結(jié)構(gòu),它是語言形式化的一種重要手段。句法分析在語言信息處理領(lǐng)域占據(jù)十分重要的作用,正確的句法分析結(jié)果可以幫助提高機(jī)器理解自然語言的性能。

句法分析一般有兩種常見的分析理論:基于短語結(jié)構(gòu)語法的句法分析和基于依存語法的句法分析。

短語結(jié)構(gòu)語法是在結(jié)構(gòu)主義的直接成分分析法基礎(chǔ)上發(fā)展而來的,喬姆斯基在直接成分分析法的基礎(chǔ)上,根據(jù)直接成分的性質(zhì),給它們標(biāo)注上相應(yīng)的類型,如S、NP、VP、AP等,并構(gòu)建了一套推導(dǎo)規(guī)則,如S—>NP VP,然后再把NP、VP分解為更小的成分,這種推導(dǎo)規(guī)則揭示了語法具有用有限的規(guī)則生成無限句子的能力,也表明了各種短語類型的句法層次關(guān)系。采用短語結(jié)構(gòu)規(guī)則表示的句子結(jié)構(gòu)清晰,使人一目了然,短語結(jié)構(gòu)由于規(guī)則有限、層次分明,便于計(jì)算機(jī)分析,因此在自然語言處理研究領(lǐng)域廣泛使用。

依存語法是研究句子各構(gòu)成成分之間的支配和從屬關(guān)系。依存可以是詞語之間的依存,短語之間的依存,句法成分之間的依存?;谝来嬲Z法建立起的依存樹在當(dāng)前自然語言處理研究中發(fā)揮了積極的作用,依存句法樹庫的構(gòu)建也成為各語言句法樹研究的熱點(diǎn)。

民族語言的句法分析研究集中在蒙、藏、維、哈以及西南跨境民族語言。華卻才讓等人采用判別式的依存句法分析,采用33個(gè)依存句法分析標(biāo)簽,選用了最大生成樹模型,利用四類分類特征模板來分析藏語依存句法。扎西加、多拉闡述了藏語依存樹庫建設(shè)的理論與方法,對藏語句子的篩選、藏語依存結(jié)構(gòu)的形式化模型、藏語依存的骨架結(jié)構(gòu)以及藏語依存樹的多維關(guān)系等方面進(jìn)行了研究和分析。龍從軍構(gòu)建了約1萬句的藏語短語結(jié)構(gòu)樹庫,研制了基于短語結(jié)構(gòu)自動句法分析器。斯·勞格勞借用依存句法的理論對蒙古語開展依存句法的自動分析研究。蘇向東等基于最大生成樹模型進(jìn)行了蒙古文依存句法分析。阿布都熱依木·熱合曼從構(gòu)建句法樹庫的角度討論了維吾爾語句法樹庫標(biāo)注體系。阿布都克力木·阿不力孜采用自頂向下的算法,開展維吾爾語的自動句法分析。朱敬國對維吾爾語句子采用GLR算法進(jìn)行句法分析。

值得說明的是,隨著端到端(End-to-End)深度學(xué)習(xí)技術(shù)的發(fā)展,研究者更喜歡把詞法、句法解析的工作交給模型去處理,而不愿意花過多的精力去研制句法樹庫,加之民族語言句法分析難度大以及小規(guī)模樹庫資源也難以大幅提升自然語言信息處理下游任務(wù)的效果,諸多原因合力導(dǎo)致民族語言句法分析研究任務(wù)難以為繼。

(四)語料庫

民族語言信息處理離不開數(shù)據(jù)資源的支持,數(shù)據(jù)資源是以統(tǒng)計(jì)為手段的信息處理研究得以開展的前提,構(gòu)建民族語單語或多語語料庫具有重要的意義。民族語言語料庫建設(shè)的內(nèi)容涉及語料的選取、收集、加工和分析,其中語料庫加工包括語料庫的分詞、詞干詞綴切分、詞性標(biāo)注等詞法層面的加工;也包括句法分析、語義標(biāo)注等句法層面的加工;同時(shí)還涉及篇章標(biāo)注和篇章分析等內(nèi)容。

民族語言語料庫建設(shè)的研究起步于20世紀(jì)90年代。受基礎(chǔ)理論研究薄弱和電子文檔數(shù)量少的限制,民族語言語料的規(guī)模、質(zhì)量都難以得到保障。一些研究者構(gòu)建了小規(guī)模的語料庫,其中大部分屬于生語料庫,少部分進(jìn)行了標(biāo)注。

21世紀(jì)初,一些民族語言字符編碼問題得到有效解決,網(wǎng)絡(luò)文本語料大量出現(xiàn),民族語言語料庫規(guī)模迅速擴(kuò)充,百萬級的語料庫逐漸出現(xiàn),其中,藏語語料庫有西藏大學(xué)建立的超大型藏文基礎(chǔ)語料庫,中國社會科學(xué)院民族所發(fā)布了藏語分詞標(biāo)注語料庫,并基于語料庫開發(fā)了藏語分詞和詞性標(biāo)注工具,青海師范大學(xué)的基于句子對齊的雙語語料庫,復(fù)旦大學(xué)開源了藏文文本分類數(shù)據(jù)集。維吾爾語料庫有新疆師范大學(xué)的維吾爾文語料庫,新疆大學(xué)的維吾爾語詞法標(biāo)注語料庫和句法標(biāo)注語料庫,維漢、哈漢和柯漢雙語語料庫。蒙古語語料庫有內(nèi)蒙古大學(xué)蒙古文電子文本語料庫、中世紀(jì)蒙古文語料庫、現(xiàn)代蒙古語語料庫、蒙古語文教材語料庫、蒙古語傳媒語言文本語料庫、蒙古語口語語料庫、東北亞語言資源中心等。朝鮮語方面,建成了上億級原始文本語料庫和部分詞性標(biāo)注語料庫、2 000萬字的朝(韓)漢對譯語料庫、820萬字朝鮮語(韓國語)病句語料庫、100小時(shí)的標(biāo)準(zhǔn)口語音頻數(shù)據(jù)和100小時(shí)的標(biāo)準(zhǔn)語雙頻數(shù)據(jù)和140萬字的正字法轉(zhuǎn)寫庫、140萬字的語言轉(zhuǎn)寫語料庫、90萬語節(jié)的實(shí)際發(fā)音訓(xùn)練語料庫。其他民族語言也相應(yīng)建立了一些小規(guī)模語料庫。從數(shù)量和規(guī)模上看,民族語言語料庫規(guī)模不斷擴(kuò)大,但是,語料質(zhì)量、加工層級方面還存在不少問題,大部分屬于“生語料”或“半生語料”。

三、信息處理產(chǎn)品開發(fā)

民族語言文字信息處理的最終目標(biāo)是讓機(jī)器“理解”語言,實(shí)現(xiàn)語言信息的“人機(jī)交互”?;诿褡逭Z言文字的信息處理產(chǎn)品開發(fā)以文字識別、語音識別和民漢機(jī)器翻譯研究為主,前文已經(jīng)敘述過文字識別問題,下面主要談?wù)務(wù)Z音識別和民漢機(jī)器翻譯研究現(xiàn)狀。

(一)語音識別

語音識別(Automatic Speech Recognition,ASR)是以語音為研究對象,通過語音信號處理和模式識別,讓機(jī)器把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。語音識別是一門涉及面很廣的交叉學(xué)科,它與聲學(xué)、語音學(xué)、語言學(xué)、信息理論、模式識別理論以及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。

語音識別技術(shù)經(jīng)歷了三個(gè)階段,基于模板的特定人、小詞匯量、孤立詞的語音識別,基于馬爾科夫模型(Hidden Markov Model,HMM)的非特定人、大詞匯量、連續(xù)語音識別和以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的端到端的、非特定人、大詞匯量、連續(xù)語音識別。有傳統(tǒng)文字的民族語言語音識別雖然起步晚,但發(fā)展快,目前大部分研究都處于第三階段。采用端到端技術(shù)之后,從某種意義上說,對訓(xùn)練語料加工的要求降低了,不需要預(yù)先對語音和文本數(shù)據(jù)對齊和描述音素內(nèi)部狀態(tài)的變化,只需要一個(gè)輸入序列和一個(gè)輸出序列就可以進(jìn)行訓(xùn)練,同時(shí),把聲學(xué)模型和語言模型也統(tǒng)一在神經(jīng)網(wǎng)絡(luò)模型之中,擺脫了語音學(xué)、音系學(xué)、語言學(xué)等專業(yè)知識和非母語研究者語言障礙的約束。技術(shù)的進(jìn)步使語音識別朝著更簡單、更高效、更準(zhǔn)確的方向發(fā)展。

民族語言語音識別和機(jī)器翻譯相結(jié)合的產(chǎn)品在民族語言資源保護(hù)、不同民族之間的語言文化交流、維護(hù)基于移動互聯(lián)網(wǎng)的民族語言安全等方面都有一定的應(yīng)用價(jià)值,因此吸引了一批企業(yè)參與產(chǎn)品研究與開發(fā)。訊飛與民族地區(qū)的高校合作,建立蒙、藏、維語語音識別合作實(shí)驗(yàn)室。騰訊開發(fā)了騰訊民漢翻譯微信小程序,可以實(shí)現(xiàn)維吾爾語、藏語(衛(wèi)藏、安多、康巴)、哈薩克語和蒙古語民漢雙向語音輸入、識別和翻譯。捷通華聲的靈云平臺可以支持普通話、藏語、彝語、蒙古語、朝鮮語、哈薩克語、維吾爾語等民族語言語音識別。

(二)機(jī)器翻譯

機(jī)器翻譯(Machine Translation,MT)是指用計(jì)算機(jī)來實(shí)現(xiàn)不同語言之間的翻譯,被翻譯的語言通常稱為源語言,翻譯的結(jié)果語言稱為目標(biāo)語言,機(jī)器翻譯就是實(shí)現(xiàn)從源語言到目標(biāo)語言轉(zhuǎn)換的過程。不同語言之間的翻譯需要多學(xué)科知識。在不同國家或民族的語言文字信息交流中,機(jī)器翻譯成為解決“語言屏障”問題的關(guān)鍵技術(shù)之一,對促進(jìn)文化交流具有重要意義。

機(jī)器翻譯所采用的方法在不同的時(shí)期表現(xiàn)不同。機(jī)器翻譯研究初期主要采用基于規(guī)則的轉(zhuǎn)換翻譯方法、基于中間語言的翻譯方法等。自20世紀(jì)80年代末期以來,語料庫技術(shù)和統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在機(jī)器翻譯研究中廣泛應(yīng)用,機(jī)器翻譯進(jìn)入一個(gè)新紀(jì)元。一批基于語料庫的機(jī)器翻譯方法相繼問世,主要有基于記憶的翻譯方法、基于實(shí)例的翻譯方法、統(tǒng)計(jì)翻譯方法以及基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法等。

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯采用了端到端序列生成模型,模型可以自動從大規(guī)模語料中提取出最相關(guān)的數(shù)據(jù)特征,減少了人工預(yù)處理環(huán)節(jié)。在算法上,神經(jīng)網(wǎng)絡(luò)模型部分模擬了人類習(xí)得和使用語言的活動狀態(tài),因而在處理語言這類復(fù)雜現(xiàn)象時(shí)要比傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯效果更佳。

當(dāng)前民族語言機(jī)器翻譯主要采用端到端的神經(jīng)網(wǎng)絡(luò)技術(shù)。比較成型的產(chǎn)品有陽光藏漢雙向機(jī)器翻譯系統(tǒng)(藏漢)、民漢對話通(蒙漢、藏漢、維漢、哈漢、朝漢、彝漢、壯漢)、云嶺機(jī)器翻譯系統(tǒng)(越南語、泰語、緬甸語、老撾語、柬埔寨語、藏語、維語等),東北亞語言資源中心的蒙漢機(jī)器翻譯系統(tǒng)。這些系統(tǒng)主要采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),受限于民族語言語料規(guī)模,從翻譯效果來看,現(xiàn)有的產(chǎn)品還難以達(dá)到人們期望的實(shí)用水平。事實(shí)證明,語料規(guī)模小,基于端到端的神經(jīng)網(wǎng)絡(luò)翻譯模型也難以大幅提升機(jī)器翻譯的效果。近幾年,遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)也引入民族語言機(jī)器翻譯中,但是無法從根本上解決語料匱乏的現(xiàn)狀,而且沒有文字的民族語言目前尚未開展機(jī)器翻譯研究。

2018年,香港大學(xué)、紐約大學(xué)的研究人員提出一種新的神經(jīng)機(jī)器翻譯方法,即元學(xué)習(xí)算法(Model Agnostic Meta Learning,MAML),元學(xué)習(xí)就是讓機(jī)器利用已有的知識經(jīng)驗(yàn)“學(xué)會如何學(xué)習(xí)”,例如構(gòu)建多資源的語言模型,當(dāng)?shù)玫綐O佳的初始參數(shù)時(shí),再構(gòu)建一個(gè)所有語言的詞匯表,再以初始模型為基礎(chǔ),訓(xùn)練低資源語言的翻譯,然后進(jìn)一步優(yōu)化初始模型,最終得到的模型就可以很好地提升低資源語言的翻譯性能。據(jù)報(bào)道該種技術(shù)不但可以用于低資源語言,而且可以用于極少資源的語言機(jī)器翻譯,希望這種技術(shù)盡快在我國民族語言機(jī)器翻譯中得到應(yīng)用。

四、結(jié)語

民族語言信息處理研究經(jīng)過幾十年的發(fā)展,取得了大量的研究成果,積累了豐富的研究經(jīng)驗(yàn)?;就瓿捎?jì)算機(jī)字符編碼,實(shí)現(xiàn)了現(xiàn)行文字和古文字的計(jì)算機(jī)輸入、輸出、顯示和打印,基于統(tǒng)一編碼的民族文字的網(wǎng)絡(luò)傳輸?shù)靡詫?shí)現(xiàn),為民族文字的文本信息化、基于民族文字的文化保護(hù)和傳承、資源庫建設(shè)奠定了基礎(chǔ)。

民族語言“字”處理研究取得了大批科研成果。蒙、藏、維、朝、哈、柯、彝等民族語言在分詞、詞干詞綴切分、詞性標(biāo)注等基礎(chǔ)研究領(lǐng)域成果豐富,構(gòu)建了大批數(shù)據(jù)資源,開發(fā)了可以供輔助語言研究、分析的系列計(jì)算機(jī)工具,基本滿足了民族語言自然語言處理的需求。

民族語言句法、語義和篇章研究粗具規(guī)模?;诰渥蛹?、篇章級的資源庫不斷積累,推動民族語言本體和應(yīng)用研究深入開展。

基于民族語言的應(yīng)用、服務(wù)產(chǎn)品不斷涌現(xiàn)。一部分跨境民族語言文字應(yīng)用產(chǎn)品的開發(fā)和使用,對維護(hù)國家邊疆穩(wěn)定、地區(qū)和平發(fā)揮著重要作用。“一帶一路”沿線多語機(jī)器翻譯、語音識別產(chǎn)品對跨國、跨地區(qū)經(jīng)濟(jì)、文化交流提供服務(wù)。蒙、藏、維語音識別和機(jī)器翻譯系統(tǒng)基本達(dá)到實(shí)用水平,推動了各民族之間的文化交流。

但是民族語言信息處理研究領(lǐng)域狹窄,市場小,研究進(jìn)展緩慢。與漢、英語言信息處理研究相比,研究團(tuán)隊(duì)小,技術(shù)相對落后。同時(shí),也可以看到民族語言信息處理研究成果在語言本體研究中應(yīng)用較少。語言本體研究者在收集、整理和分析民族語言材料時(shí),很少使用語言信息處理技術(shù)和產(chǎn)品,導(dǎo)致工作進(jìn)度慢,加工規(guī)范性差;反過來無統(tǒng)一規(guī)范標(biāo)準(zhǔn)的民族語言文字材料也難以用于語言信息處理研究中,語言本體研究和信息處理研究有機(jī)結(jié)合、相互促進(jìn)是今后民族語言研究關(guān)注的重點(diǎn)。

近年來,低資源自然語言處理得到了學(xué)界的廣泛關(guān)注,利用無監(jiān)督、多任務(wù)、小樣本、零樣本學(xué)習(xí)等技術(shù)為低資源場景下的信息處理提供了新的機(jī)遇。因此,基于深度學(xué)習(xí)的低資源信息處理技術(shù)將成為民族語言文字信息處理領(lǐng)發(fā)展的動力。

龍從軍,負(fù)責(zé)全文撰寫和修改;安波,負(fù)責(zé)資料補(bǔ)充和核校。

猜你喜歡
民族語言信息處理分詞
東營市智能信息處理實(shí)驗(yàn)室
基于Revit和Dynamo的施工BIM信息處理
三元互動下的德宏民族語言輿情探究
結(jié)巴分詞在詞云中的應(yīng)用
中國民族語言的標(biāo)準(zhǔn)與數(shù)字化
伙伴(2019年5期)2019-06-18 05:34:03
地震烈度信息處理平臺研究
CTCS-3級列控系統(tǒng)RBC與ATP結(jié)合部異常信息處理
值得重視的分詞的特殊用法
論新中國廣西各民族語言和諧的社會成因
古代新疆漢族學(xué)習(xí)其他民族語言現(xiàn)象說略
葫芦岛市| 建水县| 墨江| 泰顺县| 巨鹿县| 南岸区| 阿鲁科尔沁旗| 阳泉市| 盐源县| 葵青区| 泗洪县| 秭归县| 石棉县| 大埔区| 沙湾县| 张家港市| 常德市| 乐平市| 兰溪市| 汉沽区| 巴马| 财经| 措勤县| 灵川县| 庆安县| 玛曲县| 兴国县| 页游| 襄樊市| 达拉特旗| 炉霍县| 铅山县| 策勒县| 伊金霍洛旗| 曲周县| 成武县| 盐边县| 林周县| 湖南省| 聊城市| 莒南县|