国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于短語結(jié)構(gòu)樹的維吾爾語義角色標(biāo)注的設(shè)計(jì)與實(shí)現(xiàn)

2017-10-21 15:32艾山江亞生阿里甫·庫爾班
電腦知識與技術(shù) 2017年18期

艾山江 亞生 阿里甫·庫爾班

摘要:研究維吾爾語是作為一個(gè)自然語言中的一個(gè)很重要的研究領(lǐng)域之一,維吾爾語的詞法分析和句法分析的研究是視為非常重要的研究領(lǐng)域。為了能夠更有效地對維吾爾語語義角色標(biāo)注的研究,需要針對維吾爾語的特征提出相關(guān)的方案和方法。該文根據(jù)維吾爾語語義角色標(biāo)注研究在國內(nèi)研究進(jìn)展現(xiàn)狀,從基于維吾爾語規(guī)則和基于雛吾爾語短語結(jié)構(gòu)樹的角度,對該研究詞性標(biāo)注,句法功能編輯,句子分析等方面進(jìn)行全面的分析和探索。基于短語結(jié)構(gòu)樹的維吾爾語語義標(biāo)注的研究為將來的自然語言處理,結(jié)構(gòu)化研究,標(biāo)注功能的實(shí)現(xiàn),校對功能的研究等方面要打下很踏實(shí)的基礎(chǔ)和作用。

關(guān)鍵詞:短語結(jié)構(gòu)樹;結(jié)構(gòu)化研究;校對功能;語義角色標(biāo)注;詞性標(biāo)注

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)18-0088-03

1背景

隨著維吾爾語自然語言處理研究的不斷發(fā)展,初步地形成了系統(tǒng)的維吾爾語自然語言處理技術(shù)體系,研究人員的數(shù)量有限等原因,目前有關(guān)理論研究和相關(guān)方法、技術(shù)等領(lǐng)域的研究較少而且速度慢,還處在初步探索階段,取得的成果還不能完全滿足人們的需求。國家自然科學(xué)基金自助西部項(xiàng)目和在政策上傾斜的支持下維吾爾語自然語言處理技術(shù)得到了迅速的發(fā)展并邁進(jìn)了智能化趨勢。維吾爾語與漢語和某些西方語言不同,有豐富的語法形態(tài),以表示各種語法意義。在維吾爾語自然語言處理中,分析或生成數(shù)量多,復(fù)雜的語法形態(tài),也是維吾爾文信息處理的特色難點(diǎn)。庫,雙語語料庫的質(zhì)量和規(guī)模直接影響最終的結(jié)果。雙語語料庫的構(gòu)建過程。維吾爾語目標(biāo)詞識別是維吾爾語語義角色自動(dòng)標(biāo)注的核心模塊之一,但因維吾爾語語言處理技術(shù)還不夠成熟,詞干提取、詞性標(biāo)注、句法分析等基礎(chǔ)性技術(shù)需要進(jìn)一步深入研究。

2設(shè)計(jì)與實(shí)現(xiàn)

2.1維吾爾語語義角色及標(biāo)注標(biāo)記集

維吾爾語語義角色的劃分是個(gè)十分復(fù)雜的問題,不僅涉及動(dòng)詞的語義特征,而且與論元的句法位置和句法實(shí)現(xiàn)方式有關(guān)。同一個(gè)動(dòng)詞的論元,因其句法實(shí)現(xiàn)方式的不同,可能會擔(dān)當(dāng)不同的語義角色。課題組已就維吾爾語名詞、形容詞、動(dòng)詞、量詞和副詞,無論任何一種目標(biāo)詞,在語義和句法層面作為特定的論元與動(dòng)詞發(fā)生聯(lián)系,而且根據(jù)這些論元與動(dòng)詞的關(guān)系充當(dāng)不同的語義角色。當(dāng)然,這些論元的句法功能也是劃分語義角色的依據(jù)之一。由于語言之間有千差萬別,各語言當(dāng)中語義角色的數(shù)量、語義特征及其在句法平上的表現(xiàn)形式等方面,可能出現(xiàn)各種各樣的特殊情況。賦予顏色保證了同一個(gè)框架中不出現(xiàn)同一個(gè)顏色,又保證了同一個(gè)元素在不同的框架中用一個(gè)顏色來著色,保證了一致性和可讀性。本模塊的基本意思通過哈爾濱大學(xué)在線分析系統(tǒng)來更進(jìn)一步的了解。下面是維吾爾語語義角色及標(biāo)注標(biāo)記集如下表1所示:

表1可以看出,維吾爾語中的詞性的分類及表主代碼語義角色除了受句法結(jié)構(gòu)限制之外,同詞匯的語義特征也有著緊密的內(nèi)在聯(lián)系。對于一些僅依靠句法分析不能很好解決的角色標(biāo)注問題,如句法結(jié)構(gòu)相同的兩個(gè)成分所對應(yīng)的角色分別為完全不同的施事、受事角色的情況,可以通過引入一些詞匯語義特征來進(jìn)行處理。

2.1.2設(shè)計(jì)工作數(shù)據(jù)流

首先,要完成收集資料模塊的實(shí)現(xiàn)。即,輸入(打開)維吾爾語語文本,然后對此進(jìn)行切分詞及分句,其工作完成完以后,將內(nèi)容保存至數(shù)據(jù)庫當(dāng)中。其次,針對分完的詞語和句子,按照對應(yīng)的標(biāo)注英文字母來進(jìn)行語義詞性標(biāo)注工作,并查看結(jié)果。最后,整個(gè)收集資料模塊和標(biāo)注工作結(jié)束以后,將所有內(nèi)容按標(biāo)注形式保存到數(shù)據(jù)庫之中。

2.2數(shù)據(jù)庫設(shè)計(jì)

“基于短語結(jié)構(gòu)樹的維吾爾語語義角色標(biāo)注方法的設(shè)計(jì)和實(shí)現(xiàn)”設(shè)計(jì)為自然語言處理的應(yīng)用程序。開發(fā)時(shí)用Visual Stu-dio 2013開發(fā)工具,后臺用Microsoft SQL Server數(shù)據(jù)庫。在此設(shè)計(jì)中,每一個(gè)內(nèi)容作為一個(gè)單獨(dú)表。如詞形表,語義角色表,短語表,零碎成分表等。除此之外,數(shù)據(jù)庫管理系統(tǒng)應(yīng)有的功能。下面是單詞和句子數(shù)據(jù)表的詳細(xì)設(shè)計(jì):

按照上述設(shè)計(jì)建立表以后,后面的研究將要變更方便得多。因?yàn)椋乱徊降难芯啃枰獢?shù)據(jù)庫的查詢和存儲等過程。因此,這些變得建立是為下一步要做的工作的必不可少的一個(gè)重要部分。

2.3程序設(shè)計(jì)

1)收集資料(信息)功能需求:本模塊是整個(gè)部分的天體部分。因?yàn)樵跊]有本模塊的情況下就無法進(jìn)行后面的工作和研究。該模塊主要過程是先在文本區(qū)里錄入或打開研究對象(一篇文章或短文),然后對此對象進(jìn)行分詞及分句動(dòng)作。整個(gè)系統(tǒng)本模塊的功能有:詞性標(biāo)注,短語標(biāo)注,語義角色標(biāo)注,句法功能標(biāo)注,零碎成分標(biāo)注等一系列功能。其中語義角色標(biāo)注和詞性標(biāo)注是我個(gè)人主要研究的方向。程序截面圖如下圖3、4所示:

系統(tǒng)的主功能模塊是主要是句子編輯和查找功能是當(dāng)中所實(shí)現(xiàn)功能是關(guān)鍵的功能分詞是譯文生成后按照烏茲別克語句子和維吾爾語句子按照空格來分詞,句子編輯界面的設(shè)計(jì):本界面功能算是關(guān)鍵點(diǎn)。因?yàn)檎麄€(gè)系統(tǒng)的核心作用通過本界面來實(shí)現(xiàn)的。在數(shù)據(jù)庫里所保存好的資料通過該界面被進(jìn)行操作。主要功能是查詢數(shù)據(jù)庫當(dāng)中的每一行句子。然后對此句子按訶性標(biāo)注(另叫語法標(biāo)注),短語標(biāo)注,短語標(biāo)注,語義角色標(biāo)注。

3結(jié)束語

在維吾爾語自然語言處理中,分析或生成數(shù)量繁多,復(fù)雜的語法形態(tài),也是維吾爾文信息處理的特色難點(diǎn)。維吾爾語中的很多現(xiàn)象從其表面上看是語法現(xiàn)象,但如就其根源而言,實(shí)為屬于語義屬性制約。在研究維吾爾語文法處理過程中,維吾爾語同一類的詞,理論上都應(yīng)有,某語法形態(tài),而另一些側(cè)沒有。這些現(xiàn)象不僅使維吾爾文信息處理的具體技術(shù)遇到了一些難題,而且使維吾爾語語法理論也面臨新的挑戰(zhàn)。面向信息處理的維吾爾語詞語分類及其標(biāo)注體系,是維吾爾文信息處理研究各個(gè)層面中的中心環(huán)節(jié),它的成敗將決定維吾爾文信息處理研究能否從表層研究轉(zhuǎn)入深層研究。而維吾爾語詞性標(biāo)注研究是面向信息處理的維吾爾語語法分析的核心內(nèi)容。根據(jù)信息處理的實(shí)際需要,我們目前已經(jīng)擬定了一套維吾爾語詞性標(biāo)注集。其目的是探討現(xiàn)代維吾爾語的詞語分類,給出相應(yīng)的窮盡性的形式化描述,建立現(xiàn)代維吾爾語語料庫詞性標(biāo)注系統(tǒng),使維吾爾文信息處理從詞處理階段轉(zhuǎn)入句處理階段?,F(xiàn)代維吾爾語語料庫詞性標(biāo)注系統(tǒng),對維吾爾語語料庫的加工處理上升到一個(gè)新的層次,構(gòu)造大規(guī)模的維吾爾語樹庫,進(jìn)一步做語義、語境及短語標(biāo)注,開發(fā)以維吾爾語為一方的機(jī)器翻譯系統(tǒng),都會起到舉足輕重的作用。endprint