国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

THUUyMorph:維吾爾語形態(tài)切分語料庫

2018-04-16 07:24:38哈里旦木阿布都克里木孫茂松阿布都克力木阿布力孜
中文信息學(xué)報 2018年2期
關(guān)鍵詞:詞干維吾爾語詞綴

哈里旦木·阿布都克里木,孫茂松,劉 洋,阿布都克力木·阿布力孜

(1.清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),北京 100084)(2.清華大學(xué) 人文學(xué)院 計算語言學(xué)實(shí)驗(yàn)室,北京 100084)

0 引言

深度學(xué)習(xí)在自然語言處理領(lǐng)域中廣泛應(yīng)用,形態(tài)切分工作也取得了極大進(jìn)展,實(shí)現(xiàn)了從規(guī)則和傳統(tǒng)統(tǒng)計方法向神經(jīng)網(wǎng)絡(luò)方法的跨越[8]。然而,當(dāng)前的深度學(xué)習(xí)技術(shù)主要是有監(jiān)督的學(xué)習(xí),深度學(xué)習(xí)的成功運(yùn)用前提是先具有一定規(guī)模的標(biāo)注語料[9]。

維吾爾語在語料庫建設(shè)方面已做了大量的工作。新疆大學(xué)吐爾根·依布拉音等[10-12]和新疆師范大學(xué)的玉素甫·艾白都拉等[13-14]都已構(gòu)建了百萬詞次的維吾爾語詞法分析語料庫,并分別在這些語料庫基礎(chǔ)上進(jìn)行了詞法、句法及面向具體任務(wù)的標(biāo)注等。除此之外,文獻(xiàn)[15]構(gòu)建了FrameNet,文獻(xiàn)[16]建立了語法信息詞典,文獻(xiàn)[17]建立了小規(guī)模命名實(shí)體關(guān)系語料庫。雖然當(dāng)前已有了相當(dāng)規(guī)模的維吾爾語語料庫,但是還沒有可公開使用的維吾爾語形態(tài)切分語料庫。

本文建立的形態(tài)切分語料庫——THUUyMorph,分為詞級和句子級兩種,可用于維吾爾語有監(jiān)督、半監(jiān)督、無監(jiān)督的形態(tài)切分,以及維吾爾語分詞、詞干提取等任務(wù)。在建立過程中本文參考了Ryan Cotterell的工作[18]。建立和公開的維吾爾語形態(tài)切分語料庫的開源網(wǎng)址為:http://thuuymorph.thunlp.org/。該研究不僅對維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理研究提供了有益的資源。

1 研究背景

1.1 維吾爾語形態(tài)切分的特點(diǎn)

世界上語言分類包括:孤立語、屈折語和黏著語等。孤立語的特點(diǎn)一般不通過詞形變化來表達(dá)語法作用,如漢語。屈折語和黏著語的共同點(diǎn)是使用詞綴來實(shí)現(xiàn)語法功能。但是兩者的區(qū)別在于屈折語可通過一個詞綴實(shí)現(xiàn)多個語法功能,而黏著語中的一個詞綴一般只具有一個語法功能,因此黏著語中經(jīng)常會出現(xiàn)一個詞內(nèi)部有多個綴黏著的現(xiàn)象。屬于黏著語的語言有日語、韓語、朝鮮語、芬蘭語、土耳其語、維吾爾語、蒙古語和哈薩克語等幾十種,這些黏著語的特點(diǎn)是詞的詞匯變化和各種語法變化都是通過在實(shí)詞詞干上連接不同詞綴的方式來體現(xiàn)的[19],因此可以說黏著語是形態(tài)豐富的語言。作為黏著語,維吾爾語形態(tài)的多變性是維吾爾語最突出的特點(diǎn)之一。

1.2 維吾爾語形態(tài)切分的難點(diǎn)

維吾爾語形態(tài)切分是維吾爾語自然語言處理的一大難點(diǎn)。導(dǎo)致維吾爾語分詞精度不高的原因一般有:黏著性、語音變化現(xiàn)象、歧義和形態(tài)切分問題等。

1.2.1黏著性

維吾爾語作為一種黏著語在語素的組合上具有高度的靈活性,所謂黏著性指的是維吾爾語的絕大部分附加成分都依附在詞根之后,在同一個詞根上依次連綴幾個附加成分,形成一種線條性特點(diǎn)[19]。雖然詞干和詞綴的數(shù)量有限,但是理論上可以組合生成無限的詞語,其中,絕大多數(shù)維吾爾語詞語在語料庫中只出現(xiàn)一次[20-21]。維吾爾語通過在詞干上添加詞綴來實(shí)現(xiàn)豐富的句法和語義功能。這種情況在維吾爾語自然語言處理中造成了嚴(yán)重的數(shù)據(jù)稀疏問題。

1.2.2語音變化現(xiàn)象

1.2.3歧義

維吾爾語詞的歧義現(xiàn)象也較嚴(yán)重,這種現(xiàn)象對維吾爾語形態(tài)切分任務(wù)帶來一定的困難。表1給出了一些例子。

表1 維吾爾語的歧義現(xiàn)象舉例

1.2.4形態(tài)切分問題

2 維吾爾語形態(tài)切分標(biāo)注庫建設(shè)

2.1 標(biāo)注規(guī)范

2.1.1基本規(guī)則

(1) 維吾爾語有兩種詞綴:構(gòu)詞詞綴和構(gòu)形詞綴。本文只考慮構(gòu)形詞綴的形態(tài)切分,例如,

“旅游者、旅游業(yè)”由構(gòu)詞詞綴構(gòu)成,而“旅游者的、旅游業(yè)的”由構(gòu)形詞綴構(gòu)成,本文的形態(tài)切分任務(wù)是將“旅游者的”和“旅游業(yè)的”分別切分成“旅游者#的”和“旅游業(yè)#的”,而構(gòu)詞成分“旅游者”和“旅游業(yè)”不切分。

(2) 當(dāng)詞干單獨(dú)出現(xiàn)時,不加任何標(biāo)記,默認(rèn)為詞干。例如:旅游。

(3) 當(dāng)詞干與構(gòu)形詞綴一起出現(xiàn)時,詞干后面“#”與詞綴分開。例如,旅游者#的。

2.1.2切分細(xì)則

我們主要以名詞、形容詞、數(shù)詞、量詞、副詞、代詞、動詞為依據(jù)來進(jìn)行切分。目前進(jìn)行的是粗切分,即構(gòu)形切分。

(1) 名詞:名詞原形(名詞的主格形式)為詞干,派生名詞(名詞的零派生形式)、專用名詞可以單獨(dú)做詞干,例如,人名。名詞后面加各種名詞人稱、格、數(shù)語法范疇時,名詞語法范疇和名詞詞干分開。

(8) 模擬詞:模擬詞是詞干。

(9) 連詞:連詞單獨(dú)出現(xiàn)時是詞干,附帶實(shí)詞作構(gòu)形附加成分時要切分。

(10) 后置詞:后置詞是詞干。

(12) 感嘆詞:維吾爾語中的所有感嘆詞以詞干形式出現(xiàn)。

除此之外,維吾爾語中的縮略詞基本上存在三種情況。

(3) 用拉丁字母縮寫,作為獨(dú)立的詞。例如,GDP、WTO、KTW等。

2.2 形態(tài)切分語料庫建立流程

我們首先從天山網(wǎng)維文版*http://uy.ts.cn/下載了維吾爾語語料,包含新聞、法律、經(jīng)濟(jì)和生活等。語料庫構(gòu)建步驟為:爬蟲、校對原始語料、分句、校對分句、人工和自動形態(tài)切分、人工標(biāo)注語音和諧變化現(xiàn)象、人工校對形態(tài)切分和語音和諧變化現(xiàn)象。語料庫包含10 596個文檔,69 200個句子,不同領(lǐng)域文檔數(shù)量的具體分布如表2所示。

表2 不同領(lǐng)域文檔數(shù)量的領(lǐng)域分布

我們使用tokenizer.perl(https://github.com/moses-smt/mosesdecoder)工具對語料進(jìn)行了標(biāo)點(diǎn)符號切分。同時,為了減輕標(biāo)注的工作量,我們提取了語料中的詞語類型作為人工標(biāo)注的數(shù)據(jù)。我們從中央民族大學(xué)維吾爾語語言學(xué)專業(yè)的學(xué)生中選擇了七位學(xué)生對語料進(jìn)行人工形態(tài)切分,要求對每一個詞進(jìn)行帶有語音和諧變化的形態(tài)切分。在人工標(biāo)注過程中不斷對語料和人工切分錯誤及不一致性進(jìn)行更正。人工標(biāo)注完成后,從七位學(xué)生中選出標(biāo)注最好的一份力克·阿卜杜瓦伊提進(jìn)行了一次校對,之后又邀請了新疆大學(xué)的阿布都熱依木·熱合曼副教授和這位原標(biāo)注者交替進(jìn)行了校對。

2.3 維吾爾語語音變化現(xiàn)象分布

我們對人工切分后的新聞領(lǐng)域語料的詞表進(jìn)行了語音變化現(xiàn)象統(tǒng)計。該新聞?wù)Z料詞表中發(fā)生語音和諧變化的詞占總詞表的23.9%。為了進(jìn)一步了解發(fā)生語音和諧變化的詞中詞干和詞綴在不同語音和諧變化現(xiàn)象下的分布我們做了進(jìn)一步統(tǒng)計,統(tǒng)計結(jié)果見表3。

表3 語音和諧變化現(xiàn)象分布

從表3可知,語音變化現(xiàn)象主要體現(xiàn)為弱化,詞干和詞綴的弱化分布相似。一般情況下,語音和諧變化發(fā)生在詞干或語素內(nèi)部,而語素之間不會發(fā)生語音和諧變化。由以上分析我們得知維吾爾語中語音和諧變化很嚴(yán)重,而且其中的弱化現(xiàn)象應(yīng)為研究重點(diǎn)。

2.4 維吾爾語詞級形態(tài)切分語料庫

我們從已進(jìn)行形態(tài)切分的維吾爾語詞表(89 923個)中抽取出一部分建立數(shù)據(jù)集,用于形態(tài)切分任務(wù),該數(shù)據(jù)集有19 629條維吾爾語詞。我們將該數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集有17 629條詞,開發(fā)集和測試集分別是1 000條詞。測試任務(wù)分為兩種:一種是只進(jìn)行詞干和詞綴的切分;一種是詞干、詞綴切分的同時考慮語音變化。該數(shù)據(jù)集已開源免費(fèi)使用*http://thuuymorph.thunlp.org/。目前,已有工作使用該數(shù)據(jù)集研究了維吾爾語形態(tài)切分在神經(jīng)網(wǎng)絡(luò)中的性能體現(xiàn),獲得了具有參考價值的實(shí)驗(yàn)結(jié)果[21],對應(yīng)的預(yù)處理后的數(shù)據(jù)集和代碼也已開源*https://github.com/halidanmu/THUUMS。

2.5 維吾爾語句子級形態(tài)切分語料庫

我們進(jìn)一步完善形態(tài)切分語料的建設(shè),在詞級語料庫的基礎(chǔ)上建立了句子級形態(tài)切分語料。句子級語料包含69 200條句子。因?yàn)樵~級形態(tài)切分語料建設(shè)中已經(jīng)建立了標(biāo)注規(guī)范,詞級規(guī)范直接應(yīng)用到句子中。句子級形態(tài)切分時,對句子中的每一個詞進(jìn)行人工形態(tài)切分并校對,詞干和詞綴之間用“#”號來分開,“’”表示右邊的語素是詞干,“$”表示左邊的語素是右邊語素的原形。如下例所示:

句子級語料的建設(shè)比詞級形態(tài)語料建設(shè)有以下幾方面的優(yōu)勢:(1)句子級形態(tài)切分時完全可以按上下文來判斷句子中每一個詞的詞干部分,這樣就避免兼類詞難切分的情況; (2)句子形態(tài)切分時可以避免一些正字法、方言詞等詞匯切分錯誤。

我們對句子級形態(tài)切分語料庫進(jìn)行了統(tǒng)計,統(tǒng)計結(jié)果見表4。通過實(shí)驗(yàn)我們發(fā)現(xiàn)詞、詞干、詞綴的平均長度是17、14和5,維吾爾語詞的最大長度為33,每個詞的詞綴的平均個數(shù)是3.5。

表4 維吾爾語句子級形態(tài)切分語料庫統(tǒng)計結(jié)果

3 結(jié)論

本文描述了構(gòu)建的維吾爾語形態(tài)切分語料庫—THUUyMorph,并著重分析了維吾爾語形態(tài)切分規(guī)則,同時進(jìn)行了一些語言學(xué)上的統(tǒng)計。該語料庫已被開源免費(fèi)使用。該文工作不僅對相關(guān)維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理的研究提供了有益的資源。

[1]Afify M,Sarikaya R,Kuo H K J,et al.On the use of morphological analysis for dialectal arabic speech recogni-tion[C]//Interspeech 2006-ICSLP Ninth International Conference on Spoken Language Processing.Pittsbutgh,PA,USA:ISCA,2006:277-280.

[2]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling [C]// Proceedings of the 31st International Conference on Machine Learning,Beijing,China:JMLR,2014:W&CP volume 32.

[3]Clifton A,Sarkar A.Combining morpheme-based machine translation with post-processing morpheme prediction[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technol-ogies,Portland,Oregon,USA:Association for Computa-tional Linguistics,2011:32-42.

[4]Seeker W,Cetinoglu O.A graph-based lattice dependency parser for joint morphological segmentation and syntactic analysis [J].Transactions of the Association for Computa-tional Linguistics,2015,3:359-373.

[5]Cotterell R,Schutze H.Joint semantic synthesis and morphological analysis of the derived word [J].Transactions of the Association for Computational Linguistics,2018,6:33-48.

[6]Marslen-Wilson W.Lexical representation and process [M].Cambridge,MA,USA:MIT Press,1989.

[7]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語—漢語翻譯中的性能對比 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(8):878-883.

[8]Wang L,Cao C,Xia Y,et al.Morphological Segmentation with Window LSTM Neural Networks [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona,USA:Association for the Advancement of Artificial Intelligence,2016:2842-2848.

[9]Zohp B,Yuret D,May J,et al.Transfer Learning for Low-Resource Neural Machine Translation [C]// Proceed-ings of the 2016 Conference on Empirical Methods in Nat-ural Language Processing.Austin,Texas:Association for Computational Linguistics,2016:1568-1575.

[10]吐爾根·依布拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標(biāo)注系統(tǒng)的研究[C].中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.北京:中國中文信息學(xué)會,2006:148-152.

[11]艾山·吾買爾.維吾爾語詞法句法分析關(guān)鍵技術(shù)的研究[D].烏魯木齊:新疆大學(xué),2009.

[12]買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語詞性標(biāo)注研究[C].第二屆全國少數(shù)民族青年自然語言處理學(xué)術(shù)研討會.合肥:中國中文信息學(xué)會,2008:206-209.

[13]Yusup A,Lua K T.The development of tagged Uyghur corpus [C]//Proceedings of the 17th Pacific Asia Conference on Language,Information and Computation.Sentosa,Singapore:PACLIC Steering Committee,2003:228-234.

[14]Yusup A,Iskender O,and Mamateli T.Progress on con-struction technology of Uyghur knowledge base [C]//Proceedings of the 2009 International Symposium on Intelligent Ubiquitous Computing and Education.Wash-ington,DC,USA:IEEE Computer Society,2009:554-557.

[15]Mirejiguli R,Alifu K.Design of the Uyghur FrameNet desktop [J].Software Engineering,2015,3(1):53-56.

[16]Jiamila W,Wayiti A,Kahaerjiang A,et al.Building con-temporary Uyghur grammatical information dictionary [C]//Proceedings of Worldwide Language Service Infrastructure:Second International Workshop.Kyoto,Japan:Springer Interna-tional Publishing,2015:137-144.

[17]Kahaerjiang A,Maihemuti M,and Tuergen Y,et al.Annotation schemes for constructing Uyghur named entity relation corpus [C]//Proceedings of International Conference on Asian Language Processing.Taiwan:IEEE Computer Society,2017:103-107.

[18]Cotterell R,Vieira T,Schütze H.A joint model of ortho-graphy and morphological segmentation [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego,California:Association for Computiaonal Linguistics,2016:664-669.

[19]艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉.基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J].中文信息學(xué)報,2015,29(6):208-212.

[20]哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(1):1-6.

Abudukelimu Halidanmu,Cheng Yong,Liu Yang,et al.Uyghur morphological segmentation with bidirectional GRU neural networks [J].J Tsinghua Univ:(SciandTech),2017,57(1):1-6.(in Chinese)

[21]Abudukelimu Halidanmu,Liu Y,Chen X,et al.Learning distributed representations of Uyghur words and morphemes [C]// Proceedings of CCL/NLP-NABD.Guangzhou,China:Springer,2015:202-211.

[22]霍盛.試論維吾爾語形態(tài)變化的功能及其特點(diǎn) [J].新疆大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1991,(3):104-111.

哈里旦木·阿布都克里木(1978—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:abdklmhldm@gmail.com

孫茂松(1962—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、網(wǎng)絡(luò)智能、計算社會科學(xué)。E-mail:sms@mail.tsinghua.edu.cn

劉洋(1979—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯。E-mail:liuyang2011@tsinghua.edu.cn

猜你喜歡
詞干維吾爾語詞綴
從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
論柯爾克孜語詞干提取方法
維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
融合多策略的維吾爾語詞干提取方法
基于維吾爾語詞干詞綴粒度的漢維機(jī)器翻譯
現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
語言與翻譯(2014年3期)2014-07-12 10:32:09
甘孜县| 隆子县| 大埔区| 北宁市| 容城县| 湾仔区| 鹿泉市| 班玛县| 清丰县| 宁河县| 大余县| 盐亭县| 武强县| 乐清市| 洛隆县| 寻甸| 冀州市| 台州市| 阳春市| 岳阳县| 江永县| 富源县| 台东县| 井陉县| 东光县| 育儿| 夹江县| 仙居县| 南和县| 常宁市| 陵川县| 安岳县| 伊川县| 德惠市| 恩平市| 鄂伦春自治旗| 突泉县| 米易县| 西乡县| 策勒县| 乌拉特后旗|