THUUyMorph：維吾爾語形態(tài)切分語料庫

2018-04-16 07:24:38哈里旦木阿布都克里木孫茂松阿布都克力木阿布力孜

中文信息學(xué)報 2018年2期

哈里旦木·阿布都克里木，孫茂松，劉洋，阿布都克力木·阿布力孜

(1.清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室，清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌)，北京 100084)(2.清華大學(xué) 人文學(xué)院計算語言學(xué)實(shí)驗(yàn)室，北京 100084)

0　引言

深度學(xué)習(xí)在自然語言處理領(lǐng)域中廣泛應(yīng)用，形態(tài)切分工作也取得了極大進(jìn)展，實(shí)現(xiàn)了從規(guī)則和傳統(tǒng)統(tǒng)計方法向神經(jīng)網(wǎng)絡(luò)方法的跨越[8]。然而，當(dāng)前的深度學(xué)習(xí)技術(shù)主要是有監(jiān)督的學(xué)習(xí)，深度學(xué)習(xí)的成功運(yùn)用前提是先具有一定規(guī)模的標(biāo)注語料[9]。

維吾爾語在語料庫建設(shè)方面已做了大量的工作。新疆大學(xué)吐爾根·依布拉音等[10-12]和新疆師范大學(xué)的玉素甫·艾白都拉等[13-14]都已構(gòu)建了百萬詞次的維吾爾語詞法分析語料庫，并分別在這些語料庫基礎(chǔ)上進(jìn)行了詞法、句法及面向具體任務(wù)的標(biāo)注等。除此之外，文獻(xiàn)[15]構(gòu)建了FrameNet，文獻(xiàn)[16]建立了語法信息詞典，文獻(xiàn)[17]建立了小規(guī)模命名實(shí)體關(guān)系語料庫。雖然當(dāng)前已有了相當(dāng)規(guī)模的維吾爾語語料庫，但是還沒有可公開使用的維吾爾語形態(tài)切分語料庫。

本文建立的形態(tài)切分語料庫——THUUyMorph，分為詞級和句子級兩種，可用于維吾爾語有監(jiān)督、半監(jiān)督、無監(jiān)督的形態(tài)切分，以及維吾爾語分詞、詞干提取等任務(wù)。在建立過程中本文參考了Ryan Cotterell的工作[18]。建立和公開的維吾爾語形態(tài)切分語料庫的開源網(wǎng)址為：http：//thuuymorph.thunlp.org/。該研究不僅對維吾爾語語料庫的建設(shè)具有參考意義，而且為維吾爾語自然語言處理研究提供了有益的資源。

1　研究背景

1.1　維吾爾語形態(tài)切分的特點(diǎn)

世界上語言分類包括：孤立語、屈折語和黏著語等。孤立語的特點(diǎn)一般不通過詞形變化來表達(dá)語法作用，如漢語。屈折語和黏著語的共同點(diǎn)是使用詞綴來實(shí)現(xiàn)語法功能。但是兩者的區(qū)別在于屈折語可通過一個詞綴實(shí)現(xiàn)多個語法功能，而黏著語中的一個詞綴一般只具有一個語法功能，因此黏著語中經(jīng)常會出現(xiàn)一個詞內(nèi)部有多個綴黏著的現(xiàn)象。屬于黏著語的語言有日語、韓語、朝鮮語、芬蘭語、土耳其語、維吾爾語、蒙古語和哈薩克語等幾十種，這些黏著語的特點(diǎn)是詞的詞匯變化和各種語法變化都是通過在實(shí)詞詞干上連接不同詞綴的方式來體現(xiàn)的[19]，因此可以說黏著語是形態(tài)豐富的語言。作為黏著語，維吾爾語形態(tài)的多變性是維吾爾語最突出的特點(diǎn)之一。

1.2　維吾爾語形態(tài)切分的難點(diǎn)

維吾爾語形態(tài)切分是維吾爾語自然語言處理的一大難點(diǎn)。導(dǎo)致維吾爾語分詞精度不高的原因一般有：黏著性、語音變化現(xiàn)象、歧義和形態(tài)切分問題等。

1.2.1黏著性

維吾爾語作為一種黏著語在語素的組合上具有高度的靈活性，所謂黏著性指的是維吾爾語的絕大部分附加成分都依附在詞根之后，在同一個詞根上依次連綴幾個附加成分，形成一種線條性特點(diǎn)[19]。雖然詞干和詞綴的數(shù)量有限，但是理論上可以組合生成無限的詞語,其中，絕大多數(shù)維吾爾語詞語在語料庫中只出現(xiàn)一次[20-21]。維吾爾語通過在詞干上添加詞綴來實(shí)現(xiàn)豐富的句法和語義功能。這種情況在維吾爾語自然語言處理中造成了嚴(yán)重的數(shù)據(jù)稀疏問題。

1.2.2語音變化現(xiàn)象

1.2.3歧義

維吾爾語詞的歧義現(xiàn)象也較嚴(yán)重，這種現(xiàn)象對維吾爾語形態(tài)切分任務(wù)帶來一定的困難。表1給出了一些例子。

表1　維吾爾語的歧義現(xiàn)象舉例

1.2.4形態(tài)切分問題

2　維吾爾語形態(tài)切分標(biāo)注庫建設(shè)

2.1　標(biāo)注規(guī)范

2.1.1基本規(guī)則

(1) 維吾爾語有兩種詞綴：構(gòu)詞詞綴和構(gòu)形詞綴。本文只考慮構(gòu)形詞綴的形態(tài)切分，例如，

“旅游者、旅游業(yè)”由構(gòu)詞詞綴構(gòu)成，而“旅游者的、旅游業(yè)的”由構(gòu)形詞綴構(gòu)成，本文的形態(tài)切分任務(wù)是將“旅游者的”和“旅游業(yè)的”分別切分成“旅游者#的”和“旅游業(yè)#的”，而構(gòu)詞成分“旅游者”和“旅游業(yè)”不切分。

(2) 當(dāng)詞干單獨(dú)出現(xiàn)時，不加任何標(biāo)記，默認(rèn)為詞干。例如：旅游。

(3) 當(dāng)詞干與構(gòu)形詞綴一起出現(xiàn)時，詞干后面“#”與詞綴分開。例如，旅游者#的。

2.1.2切分細(xì)則

我們主要以名詞、形容詞、數(shù)詞、量詞、副詞、代詞、動詞為依據(jù)來進(jìn)行切分。目前進(jìn)行的是粗切分，即構(gòu)形切分。

(1) 名詞：名詞原形(名詞的主格形式)為詞干，派生名詞(名詞的零派生形式)、專用名詞可以單獨(dú)做詞干，例如，人名。名詞后面加各種名詞人稱、格、數(shù)語法范疇時，名詞語法范疇和名詞詞干分開。

(8) 模擬詞：模擬詞是詞干。

(9) 連詞：連詞單獨(dú)出現(xiàn)時是詞干，附帶實(shí)詞作構(gòu)形附加成分時要切分。

(10) 后置詞：后置詞是詞干。

(12) 感嘆詞：維吾爾語中的所有感嘆詞以詞干形式出現(xiàn)。

除此之外，維吾爾語中的縮略詞基本上存在三種情況。

(3) 用拉丁字母縮寫，作為獨(dú)立的詞。例如，GDP、WTO、KTW等。

2.2　形態(tài)切分語料庫建立流程

我們首先從天山網(wǎng)維文版*http：//uy.ts.cn/下載了維吾爾語語料，包含新聞、法律、經(jīng)濟(jì)和生活等。語料庫構(gòu)建步驟為：爬蟲、校對原始語料、分句、校對分句、人工和自動形態(tài)切分、人工標(biāo)注語音和諧變化現(xiàn)象、人工校對形態(tài)切分和語音和諧變化現(xiàn)象。語料庫包含10 596個文檔，69 200個句子，不同領(lǐng)域文檔數(shù)量的具體分布如表2所示。

表2　不同領(lǐng)域文檔數(shù)量的領(lǐng)域分布

我們使用tokenizer.perl(https：//github.com/moses-smt/mosesdecoder)工具對語料進(jìn)行了標(biāo)點(diǎn)符號切分。同時，為了減輕標(biāo)注的工作量，我們提取了語料中的詞語類型作為人工標(biāo)注的數(shù)據(jù)。我們從中央民族大學(xué)維吾爾語語言學(xué)專業(yè)的學(xué)生中選擇了七位學(xué)生對語料進(jìn)行人工形態(tài)切分，要求對每一個詞進(jìn)行帶有語音和諧變化的形態(tài)切分。在人工標(biāo)注過程中不斷對語料和人工切分錯誤及不一致性進(jìn)行更正。人工標(biāo)注完成后，從七位學(xué)生中選出標(biāo)注最好的一份力克·阿卜杜瓦伊提進(jìn)行了一次校對，之后又邀請了新疆大學(xué)的阿布都熱依木·熱合曼副教授和這位原標(biāo)注者交替進(jìn)行了校對。

2.3　維吾爾語語音變化現(xiàn)象分布

我們對人工切分后的新聞領(lǐng)域語料的詞表進(jìn)行了語音變化現(xiàn)象統(tǒng)計。該新聞?wù)Z料詞表中發(fā)生語音和諧變化的詞占總詞表的23.9%。為了進(jìn)一步了解發(fā)生語音和諧變化的詞中詞干和詞綴在不同語音和諧變化現(xiàn)象下的分布我們做了進(jìn)一步統(tǒng)計，統(tǒng)計結(jié)果見表3。

表3　語音和諧變化現(xiàn)象分布

從表3可知，語音變化現(xiàn)象主要體現(xiàn)為弱化，詞干和詞綴的弱化分布相似。一般情況下，語音和諧變化發(fā)生在詞干或語素內(nèi)部，而語素之間不會發(fā)生語音和諧變化。由以上分析我們得知維吾爾語中語音和諧變化很嚴(yán)重，而且其中的弱化現(xiàn)象應(yīng)為研究重點(diǎn)。

2.4　維吾爾語詞級形態(tài)切分語料庫

我們從已進(jìn)行形態(tài)切分的維吾爾語詞表(89 923個)中抽取出一部分建立數(shù)據(jù)集，用于形態(tài)切分任務(wù)，該數(shù)據(jù)集有19 629條維吾爾語詞。我們將該數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集有17 629條詞，開發(fā)集和測試集分別是1 000條詞。測試任務(wù)分為兩種：一種是只進(jìn)行詞干和詞綴的切分；一種是詞干、詞綴切分的同時考慮語音變化。該數(shù)據(jù)集已開源免費(fèi)使用*http：//thuuymorph.thunlp.org/。目前，已有工作使用該數(shù)據(jù)集研究了維吾爾語形態(tài)切分在神經(jīng)網(wǎng)絡(luò)中的性能體現(xiàn)，獲得了具有參考價值的實(shí)驗(yàn)結(jié)果[21]，對應(yīng)的預(yù)處理后的數(shù)據(jù)集和代碼也已開源*https：//github.com/halidanmu/THUUMS。

2.5　維吾爾語句子級形態(tài)切分語料庫

我們進(jìn)一步完善形態(tài)切分語料的建設(shè)，在詞級語料庫的基礎(chǔ)上建立了句子級形態(tài)切分語料。句子級語料包含69 200條句子。因?yàn)樵~級形態(tài)切分語料建設(shè)中已經(jīng)建立了標(biāo)注規(guī)范，詞級規(guī)范直接應(yīng)用到句子中。句子級形態(tài)切分時，對句子中的每一個詞進(jìn)行人工形態(tài)切分并校對，詞干和詞綴之間用“#”號來分開，“’”表示右邊的語素是詞干，“$”表示左邊的語素是右邊語素的原形。如下例所示：

句子級語料的建設(shè)比詞級形態(tài)語料建設(shè)有以下幾方面的優(yōu)勢：(1)句子級形態(tài)切分時完全可以按上下文來判斷句子中每一個詞的詞干部分，這樣就避免兼類詞難切分的情況； (2)句子形態(tài)切分時可以避免一些正字法、方言詞等詞匯切分錯誤。

我們對句子級形態(tài)切分語料庫進(jìn)行了統(tǒng)計，統(tǒng)計結(jié)果見表4。通過實(shí)驗(yàn)我們發(fā)現(xiàn)詞、詞干、詞綴的平均長度是17、14和5，維吾爾語詞的最大長度為33，每個詞的詞綴的平均個數(shù)是3.5。

表4　維吾爾語句子級形態(tài)切分語料庫統(tǒng)計結(jié)果

3　結(jié)論

本文描述了構(gòu)建的維吾爾語形態(tài)切分語料庫—THUUyMorph，并著重分析了維吾爾語形態(tài)切分規(guī)則，同時進(jìn)行了一些語言學(xué)上的統(tǒng)計。該語料庫已被開源免費(fèi)使用。該文工作不僅對相關(guān)維吾爾語語料庫的建設(shè)具有參考意義，而且為維吾爾語自然語言處理的研究提供了有益的資源。

[1]Afify M,Sarikaya R,Kuo H K J,et al.On the use of morphological analysis for dialectal arabic speech recogni-tion[C]//Interspeech 2006-ICSLP Ninth International Conference on Spoken Language Processing.Pittsbutgh,PA,USA：ISCA,2006：277-280.

[2]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling [C]// Proceedings of the 31st International Conference on Machine Learning,Beijing,China：JMLR,2014：W&CP volume 32.

[3]Clifton A,Sarkar A.Combining morpheme-based machine translation with post-processing morpheme prediction[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technol-ogies,Portland,Oregon,USA：Association for Computa-tional Linguistics,2011：32-42.

[4]Seeker W,Cetinoglu O.A graph-based lattice dependency parser for joint morphological segmentation and syntactic analysis [J].Transactions of the Association for Computa-tional Linguistics,2015,3：359-373.

[5]Cotterell R,Schutze H.Joint semantic synthesis and morphological analysis of the derived word [J].Transactions of the Association for Computational Linguistics,2018,6：33-48.

[6]Marslen-Wilson W.Lexical representation and process [M].Cambridge,MA,USA：MIT Press,1989.

[7]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語—漢語翻譯中的性能對比 [J].清華大學(xué)學(xué)報：(自然科學(xué)版),2017,57(8)：878-883.

[8]Wang L,Cao C,Xia Y,et al.Morphological Segmentation with Window LSTM Neural Networks [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona,USA：Association for the Advancement of Artificial Intelligence,2016：2842-2848.

[9]Zohp B,Yuret D,May J,et al.Transfer Learning for Low-Resource Neural Machine Translation [C]// Proceed-ings of the 2016 Conference on Empirical Methods in Nat-ural Language Processing.Austin,Texas：Association for Computational Linguistics,2016：1568-1575.

[10]吐爾根·依布拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標(biāo)注系統(tǒng)的研究[C].中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.北京：中國中文信息學(xué)會,2006：148-152.

[11]艾山·吾買爾.維吾爾語詞法句法分析關(guān)鍵技術(shù)的研究[D].烏魯木齊：新疆大學(xué),2009.

[12]買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語詞性標(biāo)注研究[C].第二屆全國少數(shù)民族青年自然語言處理學(xué)術(shù)研討會.合肥：中國中文信息學(xué)會,2008：206-209.

[13]Yusup A,Lua K T.The development of tagged Uyghur corpus [C]//Proceedings of the 17th Pacific Asia Conference on Language,Information and Computation.Sentosa,Singapore：PACLIC Steering Committee,2003：228-234.

[14]Yusup A,Iskender O,and Mamateli T.Progress on con-struction technology of Uyghur knowledge base [C]//Proceedings of the 2009 International Symposium on Intelligent Ubiquitous Computing and Education.Wash-ington,DC,USA：IEEE Computer Society,2009：554-557.

[15]Mirejiguli R,Alifu K.Design of the Uyghur FrameNet desktop [J].Software Engineering,2015,3(1)：53-56.

[16]Jiamila W,Wayiti A,Kahaerjiang A,et al.Building con-temporary Uyghur grammatical information dictionary [C]//Proceedings of Worldwide Language Service Infrastructure：Second International Workshop.Kyoto,Japan：Springer Interna-tional Publishing,2015：137-144.

[17]Kahaerjiang A,Maihemuti M,and Tuergen Y,et al.Annotation schemes for constructing Uyghur named entity relation corpus [C]//Proceedings of International Conference on Asian Language Processing.Taiwan：IEEE Computer Society,2017：103-107.

[18]Cotterell R,Vieira T,Schütze H.A joint model of ortho-graphy and morphological segmentation [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.San Diego,California：Association for Computiaonal Linguistics,2016：664-669.

[19]艾孜爾古麗，阿力木·木拉提,玉素甫·艾白都拉.基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J].中文信息學(xué)報,2015,29(6)：208-212.

[20]哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J].清華大學(xué)學(xué)報：(自然科學(xué)版),2017,57(1)：1-6.

Abudukelimu Halidanmu,Cheng Yong,Liu Yang,et al.Uyghur morphological segmentation with bidirectional GRU neural networks [J].J Tsinghua Univ：(SciandTech),2017,57(1)：1-6.(in Chinese)

[21]Abudukelimu Halidanmu,Liu Y,Chen X,et al.Learning distributed representations of Uyghur words and morphemes [C]// Proceedings of CCL/NLP-NABD.Guangzhou,China：Springer,2015：202-211.

[22]霍盛.試論維吾爾語形態(tài)變化的功能及其特點(diǎn) [J].新疆大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1991,(3)：104-111.

哈里旦木·阿布都克里木(1978—)，博士研究生，主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail：abdklmhldm@gmail.com

孫茂松(1962—)，博士，教授，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、網(wǎng)絡(luò)智能、計算社會科學(xué)。E-mail：sms@mail.tsinghua.edu.cn

劉洋(1979—)，通信作者，博士，副教授，主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯。E-mail：liuyang2011@tsinghua.edu.cn

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

THUUyMorph：維吾爾語形態(tài)切分語料庫

0 引言

1 研究背景

1.1 維吾爾語形態(tài)切分的特點(diǎn)

1.2 維吾爾語形態(tài)切分的難點(diǎn)

2 維吾爾語形態(tài)切分標(biāo)注庫建設(shè)

2.1 標(biāo)注規(guī)范

2.2 形態(tài)切分語料庫建立流程

2.3 維吾爾語語音變化現(xiàn)象分布

2.4 維吾爾語詞級形態(tài)切分語料庫

2.5 維吾爾語句子級形態(tài)切分語料庫

3 結(jié)論