基于多策略的烏孜別克語(yǔ)名詞詞干識(shí)別研究

2018-10-19 03:13艾孜海爾江祖力克爾江艾孜爾古麗玉素甫艾白都拉

中文信息學(xué)報(bào) 2018年9期

艾孜海爾江，祖力克爾江，艾孜爾古麗，玉素甫·艾白都拉

(1. 新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，新疆烏魯木齊 830054；2. 新疆師范大學(xué) 文學(xué)院，新疆烏魯木齊 830054)

0 引言

2013年中國(guó)國(guó)家主席習(xí)近平提出了包括“絲綢之路經(jīng)濟(jì)帶”和“21世紀(jì)海上絲綢之路”的一帶一路戰(zhàn)略。從此中國(guó)成為與新疆接壤的部分中亞國(guó)家最主要的貿(mào)易伙伴，并相繼成為哈薩克斯坦、烏茲別克斯坦、吉爾吉斯斯坦和塔吉克斯坦的第二大貿(mào)易伙伴。隨著中烏兩國(guó)政治、經(jīng)濟(jì)文化交流的發(fā)展，漢語(yǔ)和烏孜別克語(yǔ)之間交流頻繁，這兩種語(yǔ)言交流的重要性日益凸顯。烏孜別克語(yǔ)自然語(yǔ)言處理技術(shù)和漢—烏機(jī)器翻譯的實(shí)現(xiàn)對(duì)“一帶一路”戰(zhàn)略的實(shí)現(xiàn)發(fā)揮著重要的作用。

烏孜別克語(yǔ)屬黏著性語(yǔ)言，在詞法結(jié)構(gòu)上與維吾爾語(yǔ)相比存在著一定的區(qū)別。帕提古麗、玉素甫等人深入研究烏孜別克語(yǔ)中的語(yǔ)音變化現(xiàn)象，并提出音變現(xiàn)象的自動(dòng)還原模型。該文分析烏孜別克語(yǔ)中發(fā)生語(yǔ)音變化的詞干本身的特征，設(shè)計(jì)音變現(xiàn)象的還原模型，并結(jié)合詞干庫(kù)配對(duì)方法來(lái)實(shí)現(xiàn)自動(dòng)還原[1]。祖日古麗、玉素甫等人對(duì)烏孜別克語(yǔ)的音節(jié)結(jié)構(gòu)進(jìn)行分析，在前者的研究基礎(chǔ)上，歸納了烏孜別克語(yǔ)詞匯的音節(jié)變化規(guī)律[2]。阿西穆·托合提提出了基于詞典和規(guī)則相結(jié)合的維吾爾語(yǔ)和烏孜別克語(yǔ)機(jī)器翻譯方法[3]。文獻(xiàn)[4]利用維吾爾語(yǔ)和烏孜別克語(yǔ)之間的這種相似關(guān)系，設(shè)計(jì)并實(shí)現(xiàn)了烏孜別克語(yǔ)-維吾爾語(yǔ)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建平臺(tái)。

本文構(gòu)建一定規(guī)模的烏孜別克語(yǔ)西里爾文生語(yǔ)料庫(kù)，將其轉(zhuǎn)換為對(duì)應(yīng)的拉丁文，結(jié)合烏孜別克語(yǔ)詞法特征，提出基于多策略的烏孜別克語(yǔ)名詞標(biāo)注方法，研究一種融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。烏孜別克語(yǔ)名詞識(shí)別技術(shù)可以廣泛應(yīng)用于烏孜別克語(yǔ)名詞短語(yǔ)分析、詞性標(biāo)注、機(jī)器翻譯等領(lǐng)域，并且能部分消解歧義。烏孜別克語(yǔ)信息化研究，對(duì)“一帶一路”戰(zhàn)略語(yǔ)言服務(wù)提供技術(shù)、方法及數(shù)據(jù)支持，具有一定的研究和應(yīng)用價(jià)值。

1 烏孜別克語(yǔ)名詞詞干提取研究

1.1 烏孜別克語(yǔ)名詞形態(tài)分析研究

烏孜別克語(yǔ)共有29個(gè)字母，其中6個(gè)元音字母、23個(gè)輔音字母。

烏孜別克語(yǔ)元音字母如表1所示。

表1 烏孜別克語(yǔ)元音字母

烏孜別克語(yǔ)輔音字母如表2所示。

表2 烏孜別克語(yǔ)輔音字母

1.2 烏孜別克語(yǔ)音節(jié)研究

烏孜別克語(yǔ)詞由若干個(gè)音節(jié)組成。音節(jié)是人的聽(tīng)覺(jué)能夠自然感受到的最小語(yǔ)音片段。以元音字母結(jié)尾的音節(jié)叫做開(kāi)音節(jié)，如u(他)、o-na(母親)、do-i-ra(范圍)。以輔音字母結(jié)尾的音節(jié)叫做閉音節(jié)，如biz(我們)，aql(智慧)，gul(花)。

詞由一個(gè)或多個(gè)語(yǔ)音組成，每個(gè)音節(jié)由元音或元音與輔音字母組成。字母組合次序不同，導(dǎo)致音節(jié)結(jié)構(gòu)也不同。烏孜別克語(yǔ)具有九種類型的音節(jié)結(jié)構(gòu)。在音節(jié)結(jié)構(gòu)中“V”表示元音字母，“C”表示輔音字母，音節(jié)類型如表3所示。

表3 音節(jié)結(jié)構(gòu)類型

前六種烏孜別克語(yǔ)音節(jié)表示基本音節(jié)結(jié)構(gòu)，后三種是借用外來(lái)詞描述的音節(jié)結(jié)構(gòu)。

1.3 烏孜別克語(yǔ)詞分類

烏孜別克語(yǔ)詞法包括詞的構(gòu)成、形態(tài)變化和詞的分類等內(nèi)容，語(yǔ)法學(xué)中主要研究詞的形態(tài)變化。烏孜別克語(yǔ)和維吾爾語(yǔ)都是黏著性語(yǔ)言，具有較為復(fù)雜的形態(tài)變化。

烏孜別克語(yǔ)詞分為虛詞、實(shí)詞、模擬詞、嘆詞等四大類。實(shí)詞包括形容詞、名詞、動(dòng)詞、數(shù)詞、副詞、代詞，虛詞包括連詞、后置詞、語(yǔ)氣詞[5]。本文主要研究對(duì)象是烏孜別克語(yǔ)名詞，即用于表示人或事物的詞類的詞，如Alisher(艾力西爾)，kitob(書)，mushuk(貓)等。

1.4 烏孜別克語(yǔ)詞的結(jié)構(gòu)

烏孜別克語(yǔ)詞具有“詞根+詞綴+詞尾”的語(yǔ)法結(jié)構(gòu)，詞根、詞綴和詞尾的結(jié)合存在嚴(yán)格的次序規(guī)則，其中烏孜別克語(yǔ)中的詞綴有改變?cè)~義的功能，詞尾具有語(yǔ)法功能。烏孜別克語(yǔ)的詞去除詞尾后剩下的部分稱為詞干，因此烏孜別克語(yǔ)的詞也是由詞干和詞尾構(gòu)成的[6]，具體構(gòu)詞方式如圖1所示。

圖1 烏孜別克語(yǔ)構(gòu)詞方式

圖1中，A表示詞根，B表示后詞綴，C表示詞尾，D表示詞干，B+表示前詞綴，W表示詞語(yǔ)。

烏孜別克語(yǔ)詞干的概念就是一個(gè)實(shí)詞在語(yǔ)言應(yīng)用過(guò)程中要求追加附加成分(詞綴)的一種詞語(yǔ)形式。例如，yo’linglar(你們的路) [yo’l+ing+lar ]。由此可見(jiàn)，對(duì)最后的復(fù)數(shù)詞綴“l(fā)ar”來(lái)說(shuō)，詞形“yo’ling(你的路)”是詞干；對(duì)中間的單數(shù)第二人稱詞綴“ing”來(lái)說(shuō)，詞形“yo’l(路)”是詞干。為此可以得出結(jié)論：詞干不同于詞根。詞根是不可再切分的語(yǔ)義單位，是固定的。因此，它與構(gòu)形詞綴沒(méi)有直接關(guān)系；而詞干與構(gòu)形詞綴是有著直接的關(guān)系。根據(jù)語(yǔ)言實(shí)際運(yùn)用的需求，一個(gè)實(shí)詞可以附加一個(gè)或兩個(gè)以上的構(gòu)形詞綴。對(duì)詞匯中的每一個(gè)構(gòu)形詞綴來(lái)說(shuō)，該詞綴前面的部分就是詞干。因此，詞干是非固定的。需要進(jìn)一步說(shuō)明的一點(diǎn)是，派生詞對(duì)社會(huì)語(yǔ)言學(xué)來(lái)說(shuō)是可以切分的。例如，

ish工作(名詞)+chi=ishchi工人(名詞)

osh飯(名詞)+xona=oshxona餐廳(名詞)

be (表示否定意義的前綴)+xabar消息(名詞)=bexabar沒(méi)有消息

烏孜別克語(yǔ)的格范疇有六種，即主格、屬格、賓格、從格、向格、位格。為方便從計(jì)算語(yǔ)言學(xué)的角度處理烏孜別克語(yǔ)，本研究還添加了從格、止格、范圍特征格、量似格、形似格。烏孜別克語(yǔ)名詞的復(fù)數(shù)附加成分有1個(gè)、格附加成分有10個(gè)、領(lǐng)屬附加成分有10個(gè)，總共有21個(gè)詞綴。

(1) 烏孜別克語(yǔ)的格范疇

名詞的格表示名詞與句子中其他詞之間的語(yǔ)法關(guān)系。烏孜別克語(yǔ)的名詞有以下10種形式：

① 主格，沒(méi)有詞綴符號(hào)，例： Kitob(書)，said(人名)。

② 屬格，ning,例： kitobning(書的)，ishekning(門的)。

③ 向格，ga/ka /qa,例： kitobga(向書)，ishekka(向門)。

④ 賓格，ni,例： kitobni(把書)，ishekni(把門)。

⑤ 位格，da,例： kitobda(在書上)，ishekda(在門)。

⑥ 從格，dan,例： kitobdan(從書上)，ishekdan(從門那里)。

⑦ 止格,gacha,例： kitobgacha(到書那里)，ishekgacha(到門那里)。

⑧ 范圍特征格，dagi,例： kitobdagi(書里的)，ishekdagi(門口的)。

⑨ 形似格，dek,例： kitobdek(像書一樣)，ishekdek(像門一樣)。

⑩ 量似格，chali,例： kitobchali(和書相同)，ishekchali(和門相同)。

從上10種烏孜別克語(yǔ)格可見(jiàn)，只有向格有三個(gè)變體，其他的格只有一種變體。

(2) 名詞的復(fù)數(shù)詞綴

名詞的復(fù)數(shù)范疇是表示人或事物跟數(shù)量的關(guān)系的語(yǔ)法范疇。烏孜別克語(yǔ)只有一種詞綴，如lar(復(fù)數(shù)詞綴)。

(3) 名詞的領(lǐng)屬詞綴

名詞的領(lǐng)屬范疇是表示人或事物屬于另一個(gè)事物的語(yǔ)法范疇。烏孜別克語(yǔ)里每個(gè)形式均有兩個(gè)變體。例如，

① 第一人稱：

單數(shù)，mim，例： Aka-Akam，kitob-kitobim。

復(fù)數(shù)，mizimiz，例： Akam-Akamiz，kitob-kitobimiz。

② 第二人稱：

一般，nging，例： Aka-Akang，kitob-kitobing。

尊稱，ngizingiz，例： Aka-Akangiz，kitob-kitobingiz。

③ 第三人稱：

i-si，例： Aka-Akasi，kitob-kitobi。

1.5 基于詞法分析的名詞詞干提取方法

烏孜別克語(yǔ)自身具有獨(dú)特的形態(tài)特征。烏孜別克語(yǔ)中存在大量的構(gòu)形、構(gòu)詞詞綴，而且它們都有同形或兼類現(xiàn)象，在烏孜別克語(yǔ)中名詞、動(dòng)詞、數(shù)詞、形容詞等詞類具有特定的構(gòu)形附加成分[5]。烏孜別克語(yǔ)名詞識(shí)別研究主要包括烏孜別克語(yǔ)語(yǔ)料采集、詞匯統(tǒng)計(jì)、詞干提取、詞性標(biāo)注等關(guān)鍵技術(shù)與方法。

烏孜別克語(yǔ)的詞干提取方法的設(shè)計(jì)與實(shí)現(xiàn),要求掌握語(yǔ)言的形態(tài)變化規(guī)則和理解應(yīng)用系統(tǒng)的需求。由于烏孜別克語(yǔ)的形態(tài)結(jié)構(gòu)與規(guī)則不同，因此本研究采用多策略詞干提取方法，其流程如圖2所示。

圖2 多策略詞干提取方法流程圖

2 融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型

熵是描述事物無(wú)序性的參數(shù)，熵越大說(shuō)明事物的無(wú)序性越強(qiáng)。Jaynes首次提出了最大熵模型，其基本原理如下：對(duì)所有的已知事實(shí)建模，對(duì)未知不做任何假設(shè)，也就是建模時(shí)選擇一個(gè)滿足約束的且熵盡可能大的概率模型。若將詞性標(biāo)注或者其他自然語(yǔ)言處理任務(wù)看作一個(gè)隨機(jī)過(guò)程，最大熵模型就是從所有符合條件的分布中，選擇最均勻的分布，此時(shí)熵值最大。最大熵方法通過(guò)將樣本數(shù)據(jù)中的已知知識(shí)轉(zhuǎn)化為特征來(lái)進(jìn)行。特征可以定義為以下的二值特征函數(shù)[7]：

(1)

由最大熵理論可知，系統(tǒng)必須選擇能夠滿足所有的作用在特征值上的約束，表示為式(2)。

(2)

最大熵原理的主要思想描述為：將已知事實(shí)作為制約條件，求得可使熵最大化的概率分布作為正確的概率分布，該模型的形式[8]如式(3)、式(4)所示。

其中，Zλ(x)為歸一化函數(shù)；fi(x,y)∈(0,1)為特征函數(shù)；λi是特征函數(shù)的權(quán)重，代表每個(gè)特征函數(shù)的重要性，每個(gè)λi對(duì)應(yīng)一個(gè)特征函數(shù)[8]。

本文提出一種融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。依據(jù)上文中提出的烏孜別克語(yǔ)構(gòu)詞特點(diǎn)，定義了上下文特征模板，提取其特征集，然后根據(jù)人工設(shè)置的規(guī)則篩選模板，并訓(xùn)練最大熵概率模型參數(shù)。實(shí)驗(yàn)結(jié)果表明，使用該模型標(biāo)注烏孜別克語(yǔ)名詞能獲得較好的性能。本文依據(jù)烏孜別克語(yǔ)名詞本身的構(gòu)詞特點(diǎn)選擇了相應(yīng)的模型特征。根據(jù)烏孜別克語(yǔ)構(gòu)詞特點(diǎn)和統(tǒng)計(jì)結(jié)果，本文分別設(shè)計(jì)了詞內(nèi)部特征和前后依存詞特征。

詞內(nèi)部特征表現(xiàn)了一個(gè)詞的內(nèi)部變化，其中包括詞干信息和詞綴信息。烏孜別克語(yǔ)中的詞是通過(guò)在一個(gè)詞干之后連接不同的詞綴(構(gòu)詞詞尾)構(gòu)成的，詞綴信息表現(xiàn)詞性等語(yǔ)法意義，故本研究設(shè)計(jì)了詞干信息和詞綴信息兩個(gè)類型的詞內(nèi)部信息特征模板。

(1) 詞干信息

烏孜別克語(yǔ)構(gòu)形詞尾不影響整個(gè)詞的詞類信息，對(duì)于烏孜別克語(yǔ)詞干、詞根上連接構(gòu)形詞尾構(gòu)成的詞，只需要考慮該詞的詞干或詞根的標(biāo)注信息。比如，joyda是名詞，該詞由詞干joy加上詞綴da構(gòu)成，只需要考慮詞干joy的詞性即可，特征函數(shù)定義為式(5)。

(5)

表4 詞內(nèi)部信息特征模板

(2) 詞綴信息

盡管烏孜別克語(yǔ)的構(gòu)詞和構(gòu)形都是以詞根、詞干上連接不同詞尾來(lái)形成各類詞，但是詞尾信息是有限的，根據(jù)“烏孜別克語(yǔ)法信息詞干詞典”收錄為準(zhǔn)烏孜別克語(yǔ)詞綴中過(guò)濾的詞綴。設(shè)計(jì)例如，“da”等作為名詞詞綴的一些特征模板。特征函數(shù)可以定義為式(6)。

(6)

(3) 前后依存詞特征

前后依存詞特征體現(xiàn)一個(gè)句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系。使用前后依存詞相關(guān)信息可以解決一詞兼多個(gè)詞類的問(wèn)題[5]。例如，句子1: Men otga minishni o’rgandim(我學(xué)會(huì)了騎馬)和句子2： Siz boshqa basketbol o’yinchilar otish(請(qǐng)你籃球扔給對(duì)方選手)中的“ot”有動(dòng)詞和名詞兩種詞性，可以通過(guò)其前后詞的詞類特征進(jìn)行消歧處理。本文設(shè)計(jì)的特征如表5所示。

表5 前后依存詞信息特征模板

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明

(1) 開(kāi)發(fā)文字統(tǒng)一轉(zhuǎn)換工具

本工具把烏孜別克語(yǔ)西里爾文文本轉(zhuǎn)換成烏孜別克語(yǔ)拉丁文，形成統(tǒng)一的拉丁文文本語(yǔ)料庫(kù)。文字轉(zhuǎn)換工具模塊，如圖3所示。

圖3 文字轉(zhuǎn)換模塊圖

(2) 研制烏孜別克語(yǔ)詞匯統(tǒng)計(jì)系統(tǒng)

在現(xiàn)有的維吾爾語(yǔ)統(tǒng)計(jì)技術(shù)基礎(chǔ)上，結(jié)合烏孜別克語(yǔ)特點(diǎn)，研發(fā)烏孜別克語(yǔ)統(tǒng)計(jì)系統(tǒng)，總文本語(yǔ)料的70%作為封閉語(yǔ)料，構(gòu)建烏孜別克詞匯庫(kù)，共建立五萬(wàn)多種詞匯，是烏孜別克語(yǔ)詞干庫(kù)的構(gòu)建及烏孜別克語(yǔ)詞類標(biāo)注的重要基礎(chǔ)。

(3) 烏孜別克語(yǔ)詞匯庫(kù)詞類標(biāo)注

以烏孜別克語(yǔ)詞匯庫(kù)為處理對(duì)象，對(duì)36 790篇文本中出現(xiàn)的68 750個(gè)詞匯進(jìn)行詞類標(biāo)注，構(gòu)建68 750種烏孜別克語(yǔ)標(biāo)注詞匯庫(kù)，為建立烏孜別克語(yǔ)語(yǔ)法信息詞干詞典做準(zhǔn)備。

(4) 建立烏孜別克語(yǔ)法信息詞干詞典

以上研究基礎(chǔ)上，結(jié)合人機(jī)交互技術(shù)和人工參與的方法，對(duì)68 750種烏孜別克語(yǔ)標(biāo)注詞匯進(jìn)行詞干提取，建立規(guī)模為17 064種的烏孜別克語(yǔ)語(yǔ)法信息詞干詞典。

3.2 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)數(shù)據(jù)如表6所示。

表6 烏孜別克語(yǔ)語(yǔ)料結(jié)果概括表

表6的實(shí)驗(yàn)結(jié)果表明，本方法可行、有效。在實(shí)驗(yàn)結(jié)果中，有些綴接詞綴的動(dòng)詞命令式、帶有屬性人稱的代詞等也被識(shí)別成名詞。為了提高識(shí)別效率，將要補(bǔ)充詞干庫(kù)，同時(shí)也需要進(jìn)一步深入研究烏孜別克語(yǔ)的語(yǔ)法、語(yǔ)義特征。另外，還有一些不帶附加成分的未登錄詞，不在名詞庫(kù)中的人名、地名、專有名詞容易被忽略，需要豐富名詞詞干庫(kù)，彌補(bǔ)本詞庫(kù)的缺陷，提高名詞識(shí)別正確率及效率。

4 總結(jié)

本文介紹了烏孜別克語(yǔ)名詞詞干識(shí)別的一些研究工作，重點(diǎn)陳述了烏孜別克語(yǔ)名詞的形態(tài)分析和在最大熵模型下的特征選擇。依據(jù)烏孜別克語(yǔ)的自身特點(diǎn)，以詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息為特征，提出了融合烏孜別克語(yǔ)形態(tài)特征的最大熵名詞標(biāo)注模型。實(shí)驗(yàn)結(jié)果表明，利用該模型，能夠有效地利用上下文信息，可對(duì)烏孜別克語(yǔ)名詞標(biāo)注產(chǎn)生顯著效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡