吾蘭·努魯別克 熱木土拉·麥麥提 艾斯卡爾·艾木都拉
摘要:哈薩克語是組成結構復雜的黏著性語言,哈薩克語詞干提取詞綴提取對哈薩克語信息處理領域具有很重要的意義。從哈薩克語粘著性特點出發(fā),哈薩克語詞干詞綴的構成規(guī)則而且和統(tǒng)計模型特點結合,以N-gram語言模型為主框架,根據(jù)哈薩克語的構詞約束條件,提出了N-gram語言模型的哈薩克詞干提取模型。實驗結果表明,N-gram語言模型對哈薩克詞干的準確提取是有效的,該模型的詞干級準確率達到了72.34%。
關鍵詞:哈薩克語;形態(tài);詞干提?。籒-gram模型;詞綴
1概述
哈薩克語屬于黏著性語言,根據(jù)黏著性語言特點,哈薩克語的構詞和形態(tài)都是以詞根,詞干綴接不同的詞綴來實驗語言功能和語言意義。每個詞的組成結構和語法意義的表示都是依賴于不同詞綴的連接,因此每個詞綴都有著獨立的語法意義和結構意義,詞綴不僅改變詞根的詞義,也會改變一個詞在整個句子中的作用。每個詞干連接不同的詞綴,就會產生不同的新詞,正確切分哈薩克語詞干和詞綴能夠正確表示其詞類詞性和語法關系。
由于哈薩克語中同形異義詞數(shù)量比較多,對詞干的準確提取帶來困難,這導致哈薩克語詞干提取歧義現(xiàn)象。
設計并實現(xiàn)一個有效的哈薩克語詞干提取是必要的,對哈薩克語信息處理技術具有很重要的意義。在哈薩克語詞干提取方面,古麗拉·阿東別克等在2007年提出了哈薩克語詞干提取方法,在2008年采取雙向全切分方法結合詞法分析實現(xiàn)了詞干的提取。2011年達吾勒提出了基于規(guī)則的哈薩克語詞干提取方法。2012年江阿古麗·哈依達爾利用有限狀態(tài)自動提取哈薩克語單詞詞干。但目前為止,哈薩克語詞干提取研究都是以規(guī)則的方法為主,這方法缺少可移植性,無法移植到新的語料,因此本文根據(jù)哈薩克語黏著性特點和詞干詞綴的連接關系,利用統(tǒng)計的方法對哈薩克語單詞進行統(tǒng)計和分析,提取了N-gram語言模型為主框架的哈薩克語詞干提取方法。
2哈薩克語詞干詞綴結構
2.1哈薩克語詞法特點
哈薩克語屬于黏著性語言,構詞和構形結構上詞根,詞干連不同的詞綴來形成語法功能和結構功能。通過不同詞綴的綴接形成不同的詞形和詞義。因此每個不同的詞綴意味著不同的語法意義。由于哈薩克語有大量的詞綴,則形成的單詞就不同,因此對哈薩克語來說,正確切分哈薩克語詞干和詞綴才能夠揭示詞性和語法的內在關系。
做哈薩克人名識別實驗過程中,意識到詞干提取的重要性和必要性,受到提取詞干需要大量的時間和精力,因此要研究哈薩克語詞干提取很必要。哈薩克詞干提取技術處于待研究狀態(tài),在機器翻譯,信息檢索等領域中詞干提取技術起很大的作用,因此本文提出基于統(tǒng)計的哈薩克詞干提取方法。
哈薩克語中詞與詞之間以空格分割,哈薩克單詞由詞干和附加成分來組成的,附加成分指的是前綴和后綴。哈薩克語單詞的形成形式是:Prefix+Stem+Suffix1+Suffix2+…+Suffixn
Suffix1+Suffix2+…+Suffixn為復合詞綴,Prefix為前綴,可以看出詞干綴接最少一個詞綴,最大達到八九個詞綴,因此后綴給詞干帶來很多的變化。哈薩克單詞中附加成分的累加體現(xiàn)不同的語法意義和形態(tài)。