艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉
(1. 新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054)
2013年中國(guó)國(guó)家主席習(xí)近平提出了包括“絲綢之路經(jīng)濟(jì)帶”和“21世紀(jì)海上絲綢之路”的一帶一路戰(zhàn)略。從此中國(guó)成為與新疆接壤的部分中亞國(guó)家最主要的貿(mào)易伙伴,并相繼成為哈薩克斯坦、烏茲別克斯坦、吉爾吉斯斯坦和塔吉克斯坦的第二大貿(mào)易伙伴。隨著中烏兩國(guó)政治、經(jīng)濟(jì)文化交流的發(fā)展,漢語(yǔ)和烏孜別克語(yǔ)之間交流頻繁,這兩種語(yǔ)言交流的重要性日益凸顯。烏孜別克語(yǔ)自然語(yǔ)言處理技術(shù)和漢—烏機(jī)器翻譯的實(shí)現(xiàn)對(duì)“一帶一路”戰(zhàn)略的實(shí)現(xiàn)發(fā)揮著重要的作用。
烏孜別克語(yǔ)屬黏著性語(yǔ)言,在詞法結(jié)構(gòu)上與維吾爾語(yǔ)相比存在著一定的區(qū)別。帕提古麗、玉素甫等人深入研究烏孜別克語(yǔ)中的語(yǔ)音變化現(xiàn)象,并提出音變現(xiàn)象的自動(dòng)還原模型。該文分析烏孜別克語(yǔ)中發(fā)生語(yǔ)音變化的詞干本身的特征,設(shè)計(jì)音變現(xiàn)象的還原模型,并結(jié)合詞干庫(kù)配對(duì)方法來(lái)實(shí)現(xiàn)自動(dòng)還原[1]。祖日古麗、玉素甫等人對(duì)烏孜別克語(yǔ)的音節(jié)結(jié)構(gòu)進(jìn)行分析,在前者的研究基礎(chǔ)上,歸納了烏孜別克語(yǔ)詞匯的音節(jié)變化規(guī)律[2]。阿西穆·托合提提出了基于詞典和規(guī)則相結(jié)合的維吾爾語(yǔ)和烏孜別克語(yǔ)機(jī)器翻譯方法[3]。文獻(xiàn)[4]利用維吾爾語(yǔ)和烏孜別克語(yǔ)之間的這種相似關(guān)系,設(shè)計(jì)并實(shí)現(xiàn)了烏孜別克語(yǔ)-維吾爾語(yǔ)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建平臺(tái)。
本文構(gòu)建一定規(guī)模的烏孜別克語(yǔ)西里爾文生語(yǔ)料庫(kù),將其轉(zhuǎn)換為對(duì)應(yīng)的拉丁文,結(jié)合烏孜別克語(yǔ)詞法特征,提出基于多策略的烏孜別克語(yǔ)名詞標(biāo)注方法,研究一種融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。烏孜別克語(yǔ)名詞識(shí)別技術(shù)可以廣泛應(yīng)用于烏孜別克語(yǔ)名詞短語(yǔ)分析、詞性標(biāo)注、機(jī)器翻譯等領(lǐng)域,并且能部分消解歧義。烏孜別克語(yǔ)信息化研究,對(duì)“一帶一路”戰(zhàn)略語(yǔ)言服務(wù)提供技術(shù)、方法及數(shù)據(jù)支持,具有一定的研究和應(yīng)用價(jià)值。
烏孜別克語(yǔ)共有29個(gè)字母,其中6個(gè)元音字母、23個(gè)輔音字母。
烏孜別克語(yǔ)元音字母如表1所示。
表1 烏孜別克語(yǔ)元音字母
烏孜別克語(yǔ)輔音字母如表2所示。
表2 烏孜別克語(yǔ)輔音字母
烏孜別克語(yǔ)詞由若干個(gè)音節(jié)組成。音節(jié)是人的聽(tīng)覺(jué)能夠自然感受到的最小語(yǔ)音片段。以元音字母結(jié)尾的音節(jié)叫做開(kāi)音節(jié),如u(他)、o-na(母親)、do-i-ra(范圍)。以輔音字母結(jié)尾的音節(jié)叫做閉音節(jié),如biz(我們),aql(智慧),gul(花)。
詞由一個(gè)或多個(gè)語(yǔ)音組成,每個(gè)音節(jié)由元音或元音與輔音字母組成。字母組合次序不同,導(dǎo)致音節(jié)結(jié)構(gòu)也不同。烏孜別克語(yǔ)具有九種類型的音節(jié)結(jié)構(gòu)。在音節(jié)結(jié)構(gòu)中“V”表示元音字母,“C”表示輔音字母,音節(jié)類型如表3所示。
表3 音節(jié)結(jié)構(gòu)類型
前六種烏孜別克語(yǔ)音節(jié)表示基本音節(jié)結(jié)構(gòu),后三種是借用外來(lái)詞描述的音節(jié)結(jié)構(gòu)。
烏孜別克語(yǔ)詞法包括詞的構(gòu)成、形態(tài)變化和詞的分類等內(nèi)容,語(yǔ)法學(xué)中主要研究詞的形態(tài)變化。烏孜別克語(yǔ)和維吾爾語(yǔ)都是黏著性語(yǔ)言,具有較為復(fù)雜的形態(tài)變化。
烏孜別克語(yǔ)詞分為虛詞、實(shí)詞、模擬詞、嘆詞等四大類。實(shí)詞包括形容詞、名詞、動(dòng)詞、數(shù)詞、副詞、代詞,虛詞包括連詞、后置詞、語(yǔ)氣詞[5]。本文主要研究對(duì)象是烏孜別克語(yǔ)名詞,即用于表示人或事物的詞類的詞,如Alisher(艾力西爾),kitob(書),mushuk(貓)等。
烏孜別克語(yǔ)詞具有“詞根+詞綴+詞尾”的語(yǔ)法結(jié)構(gòu),詞根、詞綴和詞尾的結(jié)合存在嚴(yán)格的次序規(guī)則,其中烏孜別克語(yǔ)中的詞綴有改變?cè)~義的功能,詞尾具有語(yǔ)法功能。烏孜別克語(yǔ)的詞去除詞尾后剩下的部分稱為詞干,因此烏孜別克語(yǔ)的詞也是由詞干和詞尾構(gòu)成的[6],具體構(gòu)詞方式如圖1所示。
圖1 烏孜別克語(yǔ)構(gòu)詞方式
圖1中,A表示詞根,B表示后詞綴,C表示詞尾,D表示詞干,B+表示前詞綴,W表示詞語(yǔ)。
烏孜別克語(yǔ)詞干的概念就是一個(gè)實(shí)詞在語(yǔ)言應(yīng)用過(guò)程中要求追加附加成分(詞綴)的一種詞語(yǔ)形式。例如,yo’linglar(你們的路) [yo’l+ing+lar ]。由此可見(jiàn),對(duì)最后的復(fù)數(shù)詞綴“l(fā)ar”來(lái)說(shuō),詞形“yo’ling(你的路)”是詞干;對(duì)中間的單數(shù)第二人稱詞綴“ing”來(lái)說(shuō),詞形“yo’l(路)”是詞干。為此可以得出結(jié)論: 詞干不同于詞根。詞根是不可再切分的語(yǔ)義單位,是固定的。因此,它與構(gòu)形詞綴沒(méi)有直接關(guān)系;而詞干與構(gòu)形詞綴是有著直接的關(guān)系。根據(jù)語(yǔ)言實(shí)際運(yùn)用的需求,一個(gè)實(shí)詞可以附加一個(gè)或兩個(gè)以上的構(gòu)形詞綴。對(duì)詞匯中的每一個(gè)構(gòu)形詞綴來(lái)說(shuō),該詞綴前面的部分就是詞干。因此,詞干是非固定的。需要進(jìn)一步說(shuō)明的一點(diǎn)是,派生詞對(duì)社會(huì)語(yǔ)言學(xué)來(lái)說(shuō)是可以切分的。例如,
ish工作(名詞)+chi=ishchi工人(名詞)
osh飯(名詞)+xona=oshxona餐廳(名詞)
be (表示否定意義的前綴)+xabar消息(名詞)=bexabar沒(méi)有消息
烏孜別克語(yǔ)的格范疇有六種,即主格、屬格、賓格、從格、向格、位格。為方便從計(jì)算語(yǔ)言學(xué)的角度處理烏孜別克語(yǔ),本研究還添加了從格、止格、范圍特征格、量似格、形似格。烏孜別克語(yǔ)名詞的復(fù)數(shù)附加成分有1個(gè)、格附加成分有10個(gè)、領(lǐng)屬附加成分有10個(gè),總共有21個(gè)詞綴。
(1) 烏孜別克語(yǔ)的格范疇
名詞的格表示名詞與句子中其他詞之間的語(yǔ)法關(guān)系。烏孜別克語(yǔ)的名詞有以下10種形式:
① 主格,沒(méi)有詞綴符號(hào),例: Kitob(書),said(人名)。
② 屬格,ning,例: kitobning(書的),ishekning(門的)。
③ 向格,ga/ka /qa,例: kitobga(向書),ishekka(向門)。
④ 賓格,ni,例: kitobni(把書),ishekni(把門)。
⑤ 位格,da,例: kitobda(在書上),ishekda(在門)。
⑥ 從格,dan,例: kitobdan(從書上),ishekdan(從門那里)。
⑦ 止格,gacha,例: kitobgacha(到書那里),ishekgacha(到門那里)。
⑧ 范圍特征格,dagi,例: kitobdagi(書里的),ishekdagi(門口的)。
⑨ 形似格,dek,例: kitobdek(像書一樣),ishekdek(像門一樣)。
⑩ 量似格,chali,例: kitobchali(和書相同),ishekchali(和門相同)。
從上10種烏孜別克語(yǔ)格可見(jiàn),只有向格有三個(gè)變體,其他的格只有一種變體。
(2) 名詞的復(fù)數(shù)詞綴
名詞的復(fù)數(shù)范疇是表示人或事物跟數(shù)量的關(guān)系的語(yǔ)法范疇。烏孜別克語(yǔ)只有一種詞綴,如lar(復(fù)數(shù)詞綴)。
(3) 名詞的領(lǐng)屬詞綴
名詞的領(lǐng)屬范疇是表示人或事物屬于另一個(gè)事物的語(yǔ)法范疇。烏孜別克語(yǔ)里每個(gè)形式均有兩個(gè)變體。例如,
① 第一人稱:
單數(shù),mim,例: Aka-Akam,kitob-kitobim。
復(fù)數(shù),mizimiz,例: Akam-Akamiz,kitob-kitobimiz。
② 第二人稱:
一般,nging,例: Aka-Akang,kitob-kitobing。
尊稱,ngizingiz,例: Aka-Akangiz,kitob-kitobingiz。
③ 第三人稱:
i-si,例: Aka-Akasi,kitob-kitobi。
烏孜別克語(yǔ)自身具有獨(dú)特的形態(tài)特征。烏孜別克語(yǔ)中存在大量的構(gòu)形、構(gòu)詞詞綴,而且它們都有同形或兼類現(xiàn)象,在烏孜別克語(yǔ)中名詞、動(dòng)詞、數(shù)詞、形容詞等詞類具有特定的構(gòu)形附加成分[5]。烏孜別克語(yǔ)名詞識(shí)別研究主要包括烏孜別克語(yǔ)語(yǔ)料采集、詞匯統(tǒng)計(jì)、詞干提取、詞性標(biāo)注等關(guān)鍵技術(shù)與方法。
烏孜別克語(yǔ)的詞干提取方法的設(shè)計(jì)與實(shí)現(xiàn),要求掌握語(yǔ)言的形態(tài)變化規(guī)則和理解應(yīng)用系統(tǒng)的需求。由于烏孜別克語(yǔ)的形態(tài)結(jié)構(gòu)與規(guī)則不同,因此本研究采用多策略詞干提取方法,其流程如圖2所示。
圖2 多策略詞干提取方法流程圖
熵是描述事物無(wú)序性的參數(shù),熵越大說(shuō)明事物的無(wú)序性越強(qiáng)。Jaynes首次提出了最大熵模型,其基本原理如下: 對(duì)所有的已知事實(shí)建模,對(duì)未知不做任何假設(shè),也就是建模時(shí)選擇一個(gè)滿足約束的且熵盡可能大的概率模型。若將詞性標(biāo)注或者其他自然語(yǔ)言處理任務(wù)看作一個(gè)隨機(jī)過(guò)程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時(shí)熵值最大。最大熵方法通過(guò)將樣本數(shù)據(jù)中的已知知識(shí)轉(zhuǎn)化為特征來(lái)進(jìn)行。特征可以定義為以下的二值特征函數(shù)[7]:
(1)
由最大熵理論可知,系統(tǒng)必須選擇能夠滿足所有的作用在特征值上的約束,表示為式(2)。
(2)
最大熵原理的主要思想描述為: 將已知事實(shí)作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布,該模型的形式[8]如式(3)、式(4)所示。
其中,Zλ(x)為歸一化函數(shù);fi(x,y)∈(0,1)為特征函數(shù);λi是特征函數(shù)的權(quán)重,代表每個(gè)特征函數(shù)的重要性,每個(gè)λi對(duì)應(yīng)一個(gè)特征函數(shù)[8]。
本文提出一種融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。依據(jù)上文中提出的烏孜別克語(yǔ)構(gòu)詞特點(diǎn),定義了上下文特征模板,提取其特征集,然后根據(jù)人工設(shè)置的規(guī)則篩選模板,并訓(xùn)練最大熵概率模型參數(shù)。實(shí)驗(yàn)結(jié)果表明,使用該模型標(biāo)注烏孜別克語(yǔ)名詞能獲得較好的性能。本文依據(jù)烏孜別克語(yǔ)名詞本身的構(gòu)詞特點(diǎn)選擇了相應(yīng)的模型特征。根據(jù)烏孜別克語(yǔ)構(gòu)詞特點(diǎn)和統(tǒng)計(jì)結(jié)果,本文分別設(shè)計(jì)了詞內(nèi)部特征和前后依存詞特征。
詞內(nèi)部特征表現(xiàn)了一個(gè)詞的內(nèi)部變化,其中包括詞干信息和詞綴信息。烏孜別克語(yǔ)中的詞是通過(guò)在一個(gè)詞干之后連接不同的詞綴(構(gòu)詞詞尾)構(gòu)成的,詞綴信息表現(xiàn)詞性等語(yǔ)法意義,故本研究設(shè)計(jì)了詞干信息和詞綴信息兩個(gè)類型的詞內(nèi)部信息特征模板。
(1) 詞干信息
烏孜別克語(yǔ)構(gòu)形詞尾不影響整個(gè)詞的詞類信息,對(duì)于烏孜別克語(yǔ)詞干、詞根上連接構(gòu)形詞尾構(gòu)成的詞,只需要考慮該詞的詞干或詞根的標(biāo)注信息。比如,joyda是名詞,該詞由詞干joy加上詞綴da構(gòu)成,只需要考慮詞干joy的詞性即可,特征函數(shù)定義為式(5)。
(5)
表4 詞內(nèi)部信息特征模板
(2) 詞綴信息
盡管烏孜別克語(yǔ)的構(gòu)詞和構(gòu)形都是以詞根、詞干上連接不同詞尾來(lái)形成各類詞,但是詞尾信息是有限的,根據(jù)“烏孜別克語(yǔ)法信息詞干詞典”收錄為準(zhǔn)烏孜別克語(yǔ)詞綴中過(guò)濾的詞綴。設(shè)計(jì)例如,“da”等作為名詞詞綴的一些特征模板。特征函數(shù)可以定義為式(6)。
(6)
(3) 前后依存詞特征
前后依存詞特征體現(xiàn)一個(gè)句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系。使用前后依存詞相關(guān)信息可以解決一詞兼多個(gè)詞類的問(wèn)題[5]。例如,句子1: Men otga minishni o’rgandim(我學(xué)會(huì)了騎馬)和句子2: Siz boshqa basketbol o’yinchilar otish(請(qǐng)你籃球扔給對(duì)方選手)中的“ot”有動(dòng)詞和名詞兩種詞性,可以通過(guò)其前后詞的詞類特征進(jìn)行消歧處理。本文設(shè)計(jì)的特征如表5所示。
表5 前后依存詞信息特征模板
(1) 開(kāi)發(fā)文字統(tǒng)一轉(zhuǎn)換工具
本工具把烏孜別克語(yǔ)西里爾文文本轉(zhuǎn)換成烏孜別克語(yǔ)拉丁文,形成統(tǒng)一的拉丁文文本語(yǔ)料庫(kù)。文字轉(zhuǎn)換工具模塊,如圖3所示。
圖3 文字轉(zhuǎn)換模塊圖
(2) 研制烏孜別克語(yǔ)詞匯統(tǒng)計(jì)系統(tǒng)
在現(xiàn)有的維吾爾語(yǔ)統(tǒng)計(jì)技術(shù)基礎(chǔ)上,結(jié)合烏孜別克語(yǔ)特點(diǎn),研發(fā)烏孜別克語(yǔ)統(tǒng)計(jì)系統(tǒng),總文本語(yǔ)料的70%作為封閉語(yǔ)料,構(gòu)建烏孜別克詞匯庫(kù),共建立五萬(wàn)多種詞匯,是烏孜別克語(yǔ)詞干庫(kù)的構(gòu)建及烏孜別克語(yǔ)詞類標(biāo)注的重要基礎(chǔ)。
(3) 烏孜別克語(yǔ)詞匯庫(kù)詞類標(biāo)注
以烏孜別克語(yǔ)詞匯庫(kù)為處理對(duì)象,對(duì)36 790篇文本中出現(xiàn)的68 750個(gè)詞匯進(jìn)行詞類標(biāo)注,構(gòu)建68 750種烏孜別克語(yǔ)標(biāo)注詞匯庫(kù),為建立烏孜別克語(yǔ)語(yǔ)法信息詞干詞典做準(zhǔn)備。
(4) 建立烏孜別克語(yǔ)法信息詞干詞典
以上研究基礎(chǔ)上,結(jié)合人機(jī)交互技術(shù)和人工參與的方法,對(duì)68 750種烏孜別克語(yǔ)標(biāo)注詞匯進(jìn)行詞干提取,建立規(guī)模為17 064種的烏孜別克語(yǔ)語(yǔ)法信息詞干詞典。
實(shí)驗(yàn)數(shù)據(jù)如表6所示。
表6 烏孜別克語(yǔ)語(yǔ)料結(jié)果概括表
表6的實(shí)驗(yàn)結(jié)果表明,本方法可行、有效。在實(shí)驗(yàn)結(jié)果中,有些綴接詞綴的動(dòng)詞命令式、帶有屬性人稱的代詞等也被識(shí)別成名詞。為了提高識(shí)別效率,將要補(bǔ)充詞干庫(kù),同時(shí)也需要進(jìn)一步深入研究烏孜別克語(yǔ)的語(yǔ)法、語(yǔ)義特征。另外,還有一些不帶附加成分的未登錄詞,不在名詞庫(kù)中的人名、地名、專有名詞容易被忽略,需要豐富名詞詞干庫(kù),彌補(bǔ)本詞庫(kù)的缺陷,提高名詞識(shí)別正確率及效率。
本文介紹了烏孜別克語(yǔ)名詞詞干識(shí)別的一些研究工作,重點(diǎn)陳述了烏孜別克語(yǔ)名詞的形態(tài)分析和在最大熵模型下的特征選擇。依據(jù)烏孜別克語(yǔ)的自身特點(diǎn),以詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息為特征,提出了融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。實(shí)驗(yàn)結(jié)果表明,利用該模型,能夠有效地利用上下文信息,可對(duì)烏孜別克語(yǔ)名詞標(biāo)注產(chǎn)生顯著效果。