艾孜爾古麗,阿力木·木拉提,玉素甫·艾白都拉
(1.新疆師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆維吾爾自治區(qū)烏魯木齊830054;2.中國(guó)科學(xué)院新疆理化技術(shù)研究所,新疆維吾爾自治區(qū),烏魯木齊830011)
現(xiàn)代維吾爾語(yǔ)名詞詞干識(shí)別是自然語(yǔ)言處理領(lǐng)域的重要基礎(chǔ)性研究,主要目的是從句子中提取名詞詞干。現(xiàn)代維吾爾語(yǔ)名詞具有豐富的句法和語(yǔ)義信息,識(shí)別的結(jié)果可以被廣泛應(yīng)用于維吾爾語(yǔ)名詞短語(yǔ)分析、詞性標(biāo)注、命名實(shí)體識(shí)別、句法分析、機(jī)器翻譯等領(lǐng)域?,F(xiàn)代維吾爾語(yǔ)名詞詞干識(shí)別還被應(yīng)用在平行語(yǔ)料的對(duì)齊上,以提高詞對(duì)齊的效果;由于維吾爾語(yǔ)歧義切分問(wèn)題導(dǎo)致句法分析的任務(wù)變得十分復(fù)雜,維吾爾語(yǔ)名詞詞干的識(shí)別能部分消解這些歧義;隨著新事物的不斷涌現(xiàn),新詞術(shù)語(yǔ)的識(shí)別、統(tǒng)計(jì)分析、翻譯也是亟待解決的重要問(wèn)題。
維吾爾語(yǔ)在形態(tài)結(jié)構(gòu)上屬于粘著語(yǔ)類型,作為粘著語(yǔ)類型的語(yǔ)言,詞的詞匯變化和各種語(yǔ)法變化都是通過(guò)在實(shí)詞詞干上綴接各種附加成分的方式來(lái)表現(xiàn)的。維吾爾語(yǔ)詞形態(tài)的多變性是維吾爾語(yǔ)的最突出的特點(diǎn)之一?!靶螒B(tài)是在語(yǔ)言中詞與詞組合時(shí)形式要發(fā)生變化,同一個(gè)詞與不同的詞組合就有不同的變化。這些不同的變化形成一個(gè)聚合,叫作詞形變化,或者叫做形態(tài)。”①葉蜚聲、徐通鏘著:《語(yǔ)言學(xué)綱要》,北京大學(xué)出版社,108頁(yè)維吾爾語(yǔ)名詞類詞語(yǔ)的特點(diǎn)就集中體現(xiàn)在形態(tài)的變化上,容易產(chǎn)生歧義。本文結(jié)合現(xiàn)代維吾爾語(yǔ)語(yǔ)言學(xué)、形態(tài)學(xué)、計(jì)算語(yǔ)言學(xué)、計(jì)量語(yǔ)言學(xué)等學(xué)科,通過(guò)研究維吾爾語(yǔ)名詞的形態(tài)特征,并根據(jù)名詞特定的構(gòu)詞規(guī)則和格式,很大程度上提高了名詞的識(shí)別率和機(jī)器翻譯的準(zhǔn)確性。例如北京人”是一個(gè)新詞,是由維吾爾語(yǔ)原詞(北京)連接詞綴(...人),通過(guò)這些形態(tài)特征可以準(zhǔn)確地識(shí)別其詞性和翻譯其意義。
確定劃分詞類的標(biāo)準(zhǔn),實(shí)質(zhì)是找出各類詞在類別上的語(yǔ)法特點(diǎn)。每一種詞類都有區(qū)別于其他詞類的特點(diǎn)。維吾爾語(yǔ)的詞類特點(diǎn)表現(xiàn)在詞的形態(tài)學(xué)、結(jié)構(gòu)學(xué)和語(yǔ)義學(xué)三個(gè)方面。維吾爾語(yǔ)是黏著語(yǔ),根據(jù)其語(yǔ)法特點(diǎn),應(yīng)該把形態(tài)學(xué)特征作為劃分維吾爾語(yǔ)詞類的重要標(biāo)準(zhǔn)之一。例如,維吾爾語(yǔ)的名詞有人稱、數(shù)、格的范疇。各個(gè)詞類有不同的形態(tài)變化。②程適良、阿不都熱西提、米扎爾等著:《現(xiàn)代維吾爾語(yǔ)語(yǔ)法》,新疆人民出版社,47頁(yè)
形態(tài)學(xué)特征的另外一個(gè)重要標(biāo)志是維吾爾語(yǔ)的派生新詞的能力。根據(jù)構(gòu)詞詞綴的不同,很容易將維吾爾語(yǔ)詞的類別劃分清楚。如在原詞詞根后連接詞綴 構(gòu)成的詞是名詞。
現(xiàn)代維吾爾語(yǔ)屬于黏著語(yǔ),在形態(tài)學(xué)方面以詞干或詞根為基礎(chǔ),后接附加成分派生新詞和進(jìn)行詞形變化;附加成分分為構(gòu)詞附加成分和構(gòu)形附加成分(包含名詞、代詞、形容詞、數(shù)詞的格、領(lǐng)屬、數(shù)范疇以及動(dòng)詞時(shí)、體、態(tài)、式等)兩大類,其中構(gòu)形附加成分不改變?cè)~根或詞干的詞類屬性;但詞干后綴接構(gòu)詞附加成分時(shí),有時(shí)發(fā)生詞類變化,有時(shí)不發(fā)生詞類變化.因此,在維吾爾語(yǔ)名詞識(shí)別中上下文的詞類特征和當(dāng)前詞的形態(tài)特征都是很重要的。
維吾爾語(yǔ)中有相當(dāng)一部分新詞都是由詞綴綴加于詞干構(gòu)成的。本文歸納總結(jié)了構(gòu)成名詞的詞綴,并通過(guò)這些詞綴識(shí)別名詞。表示人的維吾爾語(yǔ)詞綴20種,共36個(gè);表示物的維吾爾語(yǔ)名詞詞綴20種,共52個(gè);表示人、物的維吾爾語(yǔ)名詞詞綴五種,共13個(gè);表示地域的維吾爾語(yǔ)名詞詞綴五種,共五個(gè);不能構(gòu)成名詞的維吾爾語(yǔ)名詞詞綴53種,共53個(gè);共103種,共159個(gè)。樣例如表1,2,3,4,5所示。
表1 表示人的維吾爾語(yǔ)名詞詞綴樣例
表2 表示物的維吾爾語(yǔ)名詞詞綴樣例
表3 表示人、物的維吾爾語(yǔ)名詞詞綴樣例
表4 表示地域的維吾爾語(yǔ)名詞詞綴樣例
表5 不能構(gòu)成名詞的維吾爾語(yǔ)名詞詞綴樣例
同一詞綴接在詞干上也會(huì)產(chǎn)生不同的詞類。對(duì)于這個(gè)類型的問(wèn)題,本文專門列出具有歧義的詞綴及其消歧規(guī)則,已提出七種,共19個(gè)詞綴歧義及消解規(guī)則,有效地提高了維吾爾語(yǔ)名詞的識(shí)別率。樣例如表6所示。
現(xiàn)代維吾爾語(yǔ)名詞識(shí)別主要包括維吾爾語(yǔ)詞匯統(tǒng)計(jì)、詞性標(biāo)注(基于詞典、統(tǒng)計(jì))、名詞識(shí)別等關(guān)鍵技術(shù)與方法,如圖1所示。
表6 詞綴歧義及消解規(guī)則樣例
圖3 -1 名詞識(shí)別流程圖
本文提出一種融合現(xiàn)代維吾爾語(yǔ)形態(tài)變形特征的最大熵名詞識(shí)別模型。根據(jù)上述總結(jié)的維吾爾語(yǔ)構(gòu)詞特點(diǎn),定義上下文特征模板,提取特征集,再通過(guò)人工設(shè)置規(guī)則篩選模板;然后,訓(xùn)練最大熵概率模型參數(shù)。經(jīng)實(shí)驗(yàn)結(jié)果表明,融入多個(gè)語(yǔ)言形態(tài)特征的最大熵模型能獲得較好的性能。
最大熵原理的主要思想描述為:將已知事實(shí)作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布。該模型的形式如式(1)-(2)所示。
其中,Zλ(x)為歸一化函數(shù),fi(x,y)∈(0,1)為特征函數(shù),λi是特征函數(shù)的權(quán)重,它代表每個(gè)特征函數(shù)的重要性,每個(gè)λi對(duì)應(yīng)一個(gè)特征函數(shù)。
3.2.1 特征選擇
(1)特征選擇依據(jù)
使用最大熵模型對(duì)維吾爾語(yǔ)名詞進(jìn)行識(shí)別,是根據(jù)當(dāng)前詞的上下文特征確定它的信息。本文的模型特征選擇依據(jù)維吾爾語(yǔ)名詞本身的構(gòu)詞特點(diǎn)。
(2)特征模板定義
根據(jù)維吾爾語(yǔ)構(gòu)詞特點(diǎn)和統(tǒng)計(jì)結(jié)果,本文共設(shè)計(jì)了詞內(nèi)部特征、前后依存詞特征。
3.2.2 詞內(nèi)部特征
詞內(nèi)部特征表現(xiàn)的是一個(gè)詞的內(nèi)部變化,包括詞干信息和詞綴信息。維吾爾語(yǔ)詞是通過(guò)在一個(gè)詞干之后連接不同的詞綴(構(gòu)詞詞尾)構(gòu)成,詞綴信息表現(xiàn)詞性等語(yǔ)法意義,本文設(shè)計(jì)了以下兩個(gè)類型的詞內(nèi)部信息特征模板。
(1)詞干信息
因?yàn)闃?gòu)形詞尾并不影響整個(gè)詞的詞類信息,對(duì)于維吾爾語(yǔ)詞干、詞根上連接構(gòu)形詞尾構(gòu)成的詞,只需考慮其詞干或詞根的標(biāo)注信息,詞內(nèi)部信息特征如表7所示。例如,“ ”(水壺)是名詞,該詞是由詞干“ ”(茶)加上詞綴“ ”構(gòu)成,只要考慮詞干“ ”的詞性即可,特征函數(shù)定義為式(3)。
表7 詞內(nèi)部信息特征模板
(2)詞綴信息
盡管維吾爾文的構(gòu)詞和構(gòu)形都是以詞根、詞干上連接不同詞尾來(lái)完成,形成各類詞,但是詞尾信息是有限的,根據(jù)“維吾爾文語(yǔ)法語(yǔ)義信息詞典”收錄為準(zhǔn)維吾爾文詞綴中過(guò)濾的100余種名詞詞綴。設(shè)計(jì)如“ ”等作為名詞詞綴的一些特征模板。例如特征函數(shù)可以定義為式(4)。
3.2.3 前后依存詞特征
前后依存詞特征體現(xiàn)一個(gè)維吾爾文句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系,使用前后依存詞相關(guān)信息可以解決一詞兼多個(gè)詞類的問(wèn)題.例如,句子1: (阿里木騎著馬玩)和句子2:(阿里木向進(jìn)入果園的小偷扔石頭)。句中的 有動(dòng)詞和名詞兩種詞性,可以通過(guò)其前后詞的詞類特征進(jìn)行消歧處理。本文設(shè)計(jì)了以下特征,如表8所示。
表8 前后依存詞信息特征模板
本次統(tǒng)計(jì)語(yǔ)料以維吾爾語(yǔ)初中、高中物理教材為主。實(shí)驗(yàn)數(shù)據(jù)如表9所示。
由表9所示,中學(xué)物理教材中名詞在整個(gè)教材詞匯的平均比例為46.37%,本教材作為實(shí)驗(yàn)語(yǔ)料合理、可行。
表9 中學(xué)物理教材詞種數(shù)
實(shí)驗(yàn)結(jié)果如表10所示,本實(shí)驗(yàn)中一些帶領(lǐng)屬性人稱的代詞、綴接一些詞綴的動(dòng)詞命令式等也被識(shí)別成名詞。還有一些既不帶附加成分的,又不在名詞詞根庫(kù)中的名詞容易被忽略,需要豐富名詞詞根庫(kù)。
表10 實(shí)驗(yàn)結(jié)果
本文介紹了現(xiàn)代維吾爾語(yǔ)名詞詞干識(shí)別方面的一些研究工作,重點(diǎn)是維吾爾語(yǔ)名詞的形態(tài)分析和在最大熵模型特征的選擇。本文根據(jù)維吾爾語(yǔ)的特點(diǎn),選取詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息作為特征,構(gòu)建了名詞識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,利用維吾爾語(yǔ)形態(tài)特征和最大熵模型,有效地利用上下文信息,得到了較好的識(shí)別率,尤其是對(duì)普通新詞的名詞識(shí)別有顯著的效果。
[1] 趙巖,王曉龍,劉秉權(quán),等.融合聚類觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J].計(jì)算機(jī)研究與發(fā)展,2006,43(2):268-274.
[2] 趙偉,趙法興,王東海,等.一種基于改進(jìn)的最大熵模型的漢語(yǔ)詞性自動(dòng)標(biāo)注的新方法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(增刊):174-178.
[3] 玉素甫·艾白都拉,張海軍,艾孜爾古麗.信息處理用現(xiàn)代維吾爾語(yǔ)詞干類標(biāo)記集研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2011:45-48.
[4] 艾孜爾古麗,努爾艾合買提,玉素甫·艾白都拉.現(xiàn)代維吾爾語(yǔ)常用詞統(tǒng)計(jì)關(guān)鍵技術(shù)研究[J].中文信息學(xué)報(bào),2014,28(5):192-197.
[5] 艾孜爾古麗,艾山江·阿不力孜,玉素甫·艾白都拉.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):67-68,121.
[6] 艾孜爾古麗,齊向衛(wèi),玉素甫·艾白都拉.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞干提取和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(3):32-34.
[7] 玉素甫,艾孜爾古麗.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞尾切分和應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(4):13-15.
[8] 玉素甫,艾孜爾古麗,祖力皮亞.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語(yǔ)詞長(zhǎng)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(5):32-34.
[9] 蘇新春.漢語(yǔ)詞匯計(jì)量研究[M].廈門大學(xué)出版社,2001.
[10] 蘇新春,楊爾弘.2005年度漢語(yǔ)詞匯大規(guī)模統(tǒng)計(jì)的分析與思考[J].廈門大學(xué)學(xué)報(bào),2006,6:84-91.
[11] 趙小兵.基于動(dòng)態(tài)流通語(yǔ)料庫(kù)的現(xiàn)代漢語(yǔ)基本詞匯自動(dòng)識(shí)別與提取方法研究[D].中央民族大學(xué)博士學(xué)位論文,2007.