哈里旦木·阿布都克里木,孫茂松,劉 洋,阿布都克力木·阿布力孜
(1.清華大學(xué) 計算機(jī)科學(xué)與技術(shù)系 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室(籌),北京 100084)(2.清華大學(xué) 人文學(xué)院 計算語言學(xué)實(shí)驗(yàn)室,北京 100084)
深度學(xué)習(xí)在自然語言處理領(lǐng)域中廣泛應(yīng)用,形態(tài)切分工作也取得了極大進(jìn)展,實(shí)現(xiàn)了從規(guī)則和傳統(tǒng)統(tǒng)計方法向神經(jīng)網(wǎng)絡(luò)方法的跨越[8]。然而,當(dāng)前的深度學(xué)習(xí)技術(shù)主要是有監(jiān)督的學(xué)習(xí),深度學(xué)習(xí)的成功運(yùn)用前提是先具有一定規(guī)模的標(biāo)注語料[9]。
維吾爾語在語料庫建設(shè)方面已做了大量的工作。新疆大學(xué)吐爾根·依布拉音等[10-12]和新疆師范大學(xué)的玉素甫·艾白都拉等[13-14]都已構(gòu)建了百萬詞次的維吾爾語詞法分析語料庫,并分別在這些語料庫基礎(chǔ)上進(jìn)行了詞法、句法及面向具體任務(wù)的標(biāo)注等。除此之外,文獻(xiàn)[15]構(gòu)建了FrameNet,文獻(xiàn)[16]建立了語法信息詞典,文獻(xiàn)[17]建立了小規(guī)模命名實(shí)體關(guān)系語料庫。雖然當(dāng)前已有了相當(dāng)規(guī)模的維吾爾語語料庫,但是還沒有可公開使用的維吾爾語形態(tài)切分語料庫。
本文建立的形態(tài)切分語料庫——THUUyMorph,分為詞級和句子級兩種,可用于維吾爾語有監(jiān)督、半監(jiān)督、無監(jiān)督的形態(tài)切分,以及維吾爾語分詞、詞干提取等任務(wù)。在建立過程中本文參考了Ryan Cotterell的工作[18]。建立和公開的維吾爾語形態(tài)切分語料庫的開源網(wǎng)址為:http://thuuymorph.thunlp.org/。該研究不僅對維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理研究提供了有益的資源。
世界上語言分類包括:孤立語、屈折語和黏著語等。孤立語的特點(diǎn)一般不通過詞形變化來表達(dá)語法作用,如漢語。屈折語和黏著語的共同點(diǎn)是使用詞綴來實(shí)現(xiàn)語法功能。但是兩者的區(qū)別在于屈折語可通過一個詞綴實(shí)現(xiàn)多個語法功能,而黏著語中的一個詞綴一般只具有一個語法功能,因此黏著語中經(jīng)常會出現(xiàn)一個詞內(nèi)部有多個綴黏著的現(xiàn)象。屬于黏著語的語言有日語、韓語、朝鮮語、芬蘭語、土耳其語、維吾爾語、蒙古語和哈薩克語等幾十種,這些黏著語的特點(diǎn)是詞的詞匯變化和各種語法變化都是通過在實(shí)詞詞干上連接不同詞綴的方式來體現(xiàn)的[19],因此可以說黏著語是形態(tài)豐富的語言。作為黏著語,維吾爾語形態(tài)的多變性是維吾爾語最突出的特點(diǎn)之一。
維吾爾語形態(tài)切分是維吾爾語自然語言處理的一大難點(diǎn)。導(dǎo)致維吾爾語分詞精度不高的原因一般有:黏著性、語音變化現(xiàn)象、歧義和形態(tài)切分問題等。
1.2.1黏著性
維吾爾語作為一種黏著語在語素的組合上具有高度的靈活性,所謂黏著性指的是維吾爾語的絕大部分附加成分都依附在詞根之后,在同一個詞根上依次連綴幾個附加成分,形成一種線條性特點(diǎn)[19]。雖然詞干和詞綴的數(shù)量有限,但是理論上可以組合生成無限的詞語,其中,絕大多數(shù)維吾爾語詞語在語料庫中只出現(xiàn)一次[20-21]。維吾爾語通過在詞干上添加詞綴來實(shí)現(xiàn)豐富的句法和語義功能。這種情況在維吾爾語自然語言處理中造成了嚴(yán)重的數(shù)據(jù)稀疏問題。
1.2.2語音變化現(xiàn)象
1.2.3歧義
維吾爾語詞的歧義現(xiàn)象也較嚴(yán)重,這種現(xiàn)象對維吾爾語形態(tài)切分任務(wù)帶來一定的困難。表1給出了一些例子。
表1 維吾爾語的歧義現(xiàn)象舉例
1.2.4形態(tài)切分問題
2.1.1基本規(guī)則
(1) 維吾爾語有兩種詞綴:構(gòu)詞詞綴和構(gòu)形詞綴。本文只考慮構(gòu)形詞綴的形態(tài)切分,例如,
“旅游者、旅游業(yè)”由構(gòu)詞詞綴構(gòu)成,而“旅游者的、旅游業(yè)的”由構(gòu)形詞綴構(gòu)成,本文的形態(tài)切分任務(wù)是將“旅游者的”和“旅游業(yè)的”分別切分成“旅游者#的”和“旅游業(yè)#的”,而構(gòu)詞成分“旅游者”和“旅游業(yè)”不切分。
(2) 當(dāng)詞干單獨(dú)出現(xiàn)時,不加任何標(biāo)記,默認(rèn)為詞干。例如:旅游。
(3) 當(dāng)詞干與構(gòu)形詞綴一起出現(xiàn)時,詞干后面“#”與詞綴分開。例如,旅游者#的。
2.1.2切分細(xì)則
我們主要以名詞、形容詞、數(shù)詞、量詞、副詞、代詞、動詞為依據(jù)來進(jìn)行切分。目前進(jìn)行的是粗切分,即構(gòu)形切分。
(1) 名詞:名詞原形(名詞的主格形式)為詞干,派生名詞(名詞的零派生形式)、專用名詞可以單獨(dú)做詞干,例如,人名。名詞后面加各種名詞人稱、格、數(shù)語法范疇時,名詞語法范疇和名詞詞干分開。
(8) 模擬詞:模擬詞是詞干。
(9) 連詞:連詞單獨(dú)出現(xiàn)時是詞干,附帶實(shí)詞作構(gòu)形附加成分時要切分。
(10) 后置詞:后置詞是詞干。
(12) 感嘆詞:維吾爾語中的所有感嘆詞以詞干形式出現(xiàn)。
除此之外,維吾爾語中的縮略詞基本上存在三種情況。
(3) 用拉丁字母縮寫,作為獨(dú)立的詞。例如,GDP、WTO、KTW等。
我們首先從天山網(wǎng)維文版*http://uy.ts.cn/下載了維吾爾語語料,包含新聞、法律、經(jīng)濟(jì)和生活等。語料庫構(gòu)建步驟為:爬蟲、校對原始語料、分句、校對分句、人工和自動形態(tài)切分、人工標(biāo)注語音和諧變化現(xiàn)象、人工校對形態(tài)切分和語音和諧變化現(xiàn)象。語料庫包含10 596個文檔,69 200個句子,不同領(lǐng)域文檔數(shù)量的具體分布如表2所示。
表2 不同領(lǐng)域文檔數(shù)量的領(lǐng)域分布
我們使用tokenizer.perl(https://github.com/moses-smt/mosesdecoder)工具對語料進(jìn)行了標(biāo)點(diǎn)符號切分。同時,為了減輕標(biāo)注的工作量,我們提取了語料中的詞語類型作為人工標(biāo)注的數(shù)據(jù)。我們從中央民族大學(xué)維吾爾語語言學(xué)專業(yè)的學(xué)生中選擇了七位學(xué)生對語料進(jìn)行人工形態(tài)切分,要求對每一個詞進(jìn)行帶有語音和諧變化的形態(tài)切分。在人工標(biāo)注過程中不斷對語料和人工切分錯誤及不一致性進(jìn)行更正。人工標(biāo)注完成后,從七位學(xué)生中選出標(biāo)注最好的一份力克·阿卜杜瓦伊提進(jìn)行了一次校對,之后又邀請了新疆大學(xué)的阿布都熱依木·熱合曼副教授和這位原標(biāo)注者交替進(jìn)行了校對。
我們對人工切分后的新聞領(lǐng)域語料的詞表進(jìn)行了語音變化現(xiàn)象統(tǒng)計。該新聞?wù)Z料詞表中發(fā)生語音和諧變化的詞占總詞表的23.9%。為了進(jìn)一步了解發(fā)生語音和諧變化的詞中詞干和詞綴在不同語音和諧變化現(xiàn)象下的分布我們做了進(jìn)一步統(tǒng)計,統(tǒng)計結(jié)果見表3。
表3 語音和諧變化現(xiàn)象分布
從表3可知,語音變化現(xiàn)象主要體現(xiàn)為弱化,詞干和詞綴的弱化分布相似。一般情況下,語音和諧變化發(fā)生在詞干或語素內(nèi)部,而語素之間不會發(fā)生語音和諧變化。由以上分析我們得知維吾爾語中語音和諧變化很嚴(yán)重,而且其中的弱化現(xiàn)象應(yīng)為研究重點(diǎn)。
我們從已進(jìn)行形態(tài)切分的維吾爾語詞表(89 923個)中抽取出一部分建立數(shù)據(jù)集,用于形態(tài)切分任務(wù),該數(shù)據(jù)集有19 629條維吾爾語詞。我們將該數(shù)據(jù)集分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集有17 629條詞,開發(fā)集和測試集分別是1 000條詞。測試任務(wù)分為兩種:一種是只進(jìn)行詞干和詞綴的切分;一種是詞干、詞綴切分的同時考慮語音變化。該數(shù)據(jù)集已開源免費(fèi)使用*http://thuuymorph.thunlp.org/。目前,已有工作使用該數(shù)據(jù)集研究了維吾爾語形態(tài)切分在神經(jīng)網(wǎng)絡(luò)中的性能體現(xiàn),獲得了具有參考價值的實(shí)驗(yàn)結(jié)果[21],對應(yīng)的預(yù)處理后的數(shù)據(jù)集和代碼也已開源*https://github.com/halidanmu/THUUMS。
我們進(jìn)一步完善形態(tài)切分語料的建設(shè),在詞級語料庫的基礎(chǔ)上建立了句子級形態(tài)切分語料。句子級語料包含69 200條句子。因?yàn)樵~級形態(tài)切分語料建設(shè)中已經(jīng)建立了標(biāo)注規(guī)范,詞級規(guī)范直接應(yīng)用到句子中。句子級形態(tài)切分時,對句子中的每一個詞進(jìn)行人工形態(tài)切分并校對,詞干和詞綴之間用“#”號來分開,“’”表示右邊的語素是詞干,“$”表示左邊的語素是右邊語素的原形。如下例所示:
句子級語料的建設(shè)比詞級形態(tài)語料建設(shè)有以下幾方面的優(yōu)勢:(1)句子級形態(tài)切分時完全可以按上下文來判斷句子中每一個詞的詞干部分,這樣就避免兼類詞難切分的情況; (2)句子形態(tài)切分時可以避免一些正字法、方言詞等詞匯切分錯誤。
我們對句子級形態(tài)切分語料庫進(jìn)行了統(tǒng)計,統(tǒng)計結(jié)果見表4。通過實(shí)驗(yàn)我們發(fā)現(xiàn)詞、詞干、詞綴的平均長度是17、14和5,維吾爾語詞的最大長度為33,每個詞的詞綴的平均個數(shù)是3.5。
表4 維吾爾語句子級形態(tài)切分語料庫統(tǒng)計結(jié)果
本文描述了構(gòu)建的維吾爾語形態(tài)切分語料庫—THUUyMorph,并著重分析了維吾爾語形態(tài)切分規(guī)則,同時進(jìn)行了一些語言學(xué)上的統(tǒng)計。該語料庫已被開源免費(fèi)使用。該文工作不僅對相關(guān)維吾爾語語料庫的建設(shè)具有參考意義,而且為維吾爾語自然語言處理的研究提供了有益的資源。
[1]Afify M,Sarikaya R,Kuo H K J,et al.On the use of morphological analysis for dialectal arabic speech recogni-tion[C]//Interspeech 2006-ICSLP Ninth International Conference on Spoken Language Processing.Pittsbutgh,PA,USA:ISCA,2006:277-280.
[2]Botha J A,Blunsom P.Compositional morphology for word representations and language modelling [C]// Proceedings of the 31st International Conference on Machine Learning,Beijing,China:JMLR,2014:W&CP volume 32.
[3]Clifton A,Sarkar A.Combining morpheme-based machine translation with post-processing morpheme prediction[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technol-ogies,Portland,Oregon,USA:Association for Computa-tional Linguistics,2011:32-42.
[4]Seeker W,Cetinoglu O.A graph-based lattice dependency parser for joint morphological segmentation and syntactic analysis [J].Transactions of the Association for Computa-tional Linguistics,2015,3:359-373.
[5]Cotterell R,Schutze H.Joint semantic synthesis and morphological analysis of the derived word [J].Transactions of the Association for Computational Linguistics,2018,6:33-48.
[6]Marslen-Wilson W.Lexical representation and process [M].Cambridge,MA,USA:MIT Press,1989.
[7]哈里旦木·阿布都克里木,劉洋,孫茂松.神經(jīng)機(jī)器翻譯系統(tǒng)在維吾爾語—漢語翻譯中的性能對比 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(8):878-883.
[8]Wang L,Cao C,Xia Y,et al.Morphological Segmentation with Window LSTM Neural Networks [C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona,USA:Association for the Advancement of Artificial Intelligence,2016:2842-2848.
[9]Zohp B,Yuret D,May J,et al.Transfer Learning for Low-Resource Neural Machine Translation [C]// Proceed-ings of the 2016 Conference on Empirical Methods in Nat-ural Language Processing.Austin,Texas:Association for Computational Linguistics,2016:1568-1575.
[10]吐爾根·依布拉音,阿里甫·庫爾班.基于詞典的現(xiàn)代維吾爾語詞性自動標(biāo)注系統(tǒng)的研究[C].中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.北京:中國中文信息學(xué)會,2006:148-152.
[11]艾山·吾買爾.維吾爾語詞法句法分析關(guān)鍵技術(shù)的研究[D].烏魯木齊:新疆大學(xué),2009.
[12]買合木提·買買提,吐爾根·依布拉音.基于N-gram的維吾爾語詞性標(biāo)注研究[C].第二屆全國少數(shù)民族青年自然語言處理學(xué)術(shù)研討會.合肥:中國中文信息學(xué)會,2008:206-209.
[13]Yusup A,Lua K T.The development of tagged Uyghur corpus [C]//Proceedings of the 17th Pacific Asia Conference on Language,Information and Computation.Sentosa,Singapore:PACLIC Steering Committee,2003:228-234.
[14]Yusup A,Iskender O,and Mamateli T.Progress on con-struction technology of Uyghur knowledge base [C]//Proceedings of the 2009 International Symposium on Intelligent Ubiquitous Computing and Education.Wash-ington,DC,USA:IEEE Computer Society,2009:554-557.
[15]Mirejiguli R,Alifu K.Design of the Uyghur FrameNet desktop [J].Software Engineering,2015,3(1):53-56.
[16]Jiamila W,Wayiti A,Kahaerjiang A,et al.Building con-temporary Uyghur grammatical information dictionary [C]//Proceedings of Worldwide Language Service Infrastructure:Second International Workshop.Kyoto,Japan:Springer Interna-tional Publishing,2015:137-144.
[17]Kahaerjiang A,Maihemuti M,and Tuergen Y,et al.Annotation schemes for constructing Uyghur named entity relation corpus [C]//Proceedings of International Conference on Asian Language Processing.Taiwan:IEEE Computer Society,2017:103-107.
[18]Cotterell R,Vieira T,Schütze H.A joint model of ortho-graphy and morphological segmentation [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.San Diego,California:Association for Computiaonal Linguistics,2016:664-669.
[19]艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉.基于形態(tài)分析的現(xiàn)代維吾爾語名詞詞干識別研究 [J].中文信息學(xué)報,2015,29(6):208-212.
[20]哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡(luò)的維吾爾語形態(tài)切分 [J].清華大學(xué)學(xué)報:(自然科學(xué)版),2017,57(1):1-6.
Abudukelimu Halidanmu,Cheng Yong,Liu Yang,et al.Uyghur morphological segmentation with bidirectional GRU neural networks [J].J Tsinghua Univ:(SciandTech),2017,57(1):1-6.(in Chinese)
[21]Abudukelimu Halidanmu,Liu Y,Chen X,et al.Learning distributed representations of Uyghur words and morphemes [C]// Proceedings of CCL/NLP-NABD.Guangzhou,China:Springer,2015:202-211.
[22]霍盛.試論維吾爾語形態(tài)變化的功能及其特點(diǎn) [J].新疆大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1991,(3):104-111.
哈里旦木·阿布都克里木(1978—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:abdklmhldm@gmail.com
孫茂松(1962—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、網(wǎng)絡(luò)智能、計算社會科學(xué)。E-mail:sms@mail.tsinghua.edu.cn
劉洋(1979—),通信作者,博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯。E-mail:liuyang2011@tsinghua.edu.cn