国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“蒙古語名詞語義信息詞典”的開發(fā)與應(yīng)用

2015-04-21 08:43:51海銀花那順烏日圖
中文信息學(xué)報 2015年3期
關(guān)鍵詞:內(nèi)蒙古大學(xué)蒙古語詞條

海銀花,那順烏日圖

(1. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

?

“蒙古語名詞語義信息詞典”的開發(fā)與應(yīng)用

海銀花1,那順烏日圖2

(1. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021)

2009年至今,“蒙古語名詞語義信息詞典”(以下簡稱為“名詞語義詞典”)通過幾年的開發(fā)目前詞典基本成形,并且有了顯著的新進(jìn)展。其新進(jìn)展主要體現(xiàn)在詞條的擴(kuò)充、屬性字段的增添及其初步應(yīng)用。該文概要介紹“名詞語義詞典”的研發(fā)過程,實例說明這部詞典的新進(jìn)展和初步應(yīng)用情況。

蒙古語名詞;語義信息詞典;開發(fā);應(yīng)用

1 引言

“蒙古語語義信息詞典”是基于“蒙古語語法信息詞典”研發(fā)的一部面向蒙古語語句自動處理的語言知識庫。它以數(shù)據(jù)庫文件形式收錄5.7萬個詞條,不但給出每個詞語所屬的詞類、語義分類、近義、反義、同形等基本語義屬性之外,而且以義項為單位詳細(xì)描述了它們的各種語義搭配限制和配價信息。無論是基礎(chǔ)研究還是應(yīng)用開發(fā),它是一部基于蒙古語詞匯的語義屬性描述體系,為滿足計算機(jī)語義自動分析、詞義消歧等更深層次的語言信息處理提供形式化語義知識。整個詞典的研發(fā)進(jìn)程包括如下內(nèi)容:

(1) 充分表示蒙古語詞語語義關(guān)系和語義層次的詞語語義分類框架體系及其相關(guān)標(biāo)記集,它是面向語義分析和語義生成的蒙古語詞語語義屬性描述體系。主要包括七項大類、198項子類的名詞語義分類體系及其標(biāo)記集;六項大類、217項子類的形容詞語義分類體系及其標(biāo)記集;以及五項大類、121項子類的動詞語義分類體系及其相應(yīng)的標(biāo)記集。

(2) 描述每個詞語翔實語義信息的“名詞語義信息詞典”、“形容詞語義信息詞典”和“動詞語義信息詞典”等蒙古語三大詞類的知識庫,其各自囊括的信息量和信息總量計算如表1所示。

(3) 針對該詞典是一部盡可能從多角度、多層次上描述現(xiàn)代蒙古語常用詞語語義特征的知識庫這一特點,開發(fā)了“蒙古語同形詞知識庫”、“蒙古語多義詞詞典”、“蒙古語連接形式知識庫”等三個輔助庫[1]。

表1 “蒙古語語義信息詞典”信息量計算表

(4) 集語法信息與語義信息于一身的語言知識庫管理平臺。為了更好地管理并補(bǔ)充和完善蒙古語語言知識庫中的詞條及語法、句法、語義信息的統(tǒng)一性和完整性,管理平臺對各個資源庫設(shè)計了若干個MDI子節(jié)點窗體,分別實現(xiàn)了添加、修改、刪除、查詢、瀏覽和校對等功能和一系列連貫操作。

本課題是已有國家自然科學(xué)基金項目的原有成果“蒙古語語法信息詞典”的繼承和延伸。譬如,“名詞語義詞典”14 105詞條的直接來源為語法信息詞典“名詞分庫”的原有詞條[2],“形容詞語義詞典”的11 025余詞條是通過 擴(kuò) 充 語法信息詞典“形容詞分庫”的7 600余詞條而獲取的[3]。詞典管理平臺集成語法信息和語義信息的同時具備了對于語法信息詞典和語義信息詞典均可進(jìn)行科學(xué)的管理和維護(hù)功能[4]。

2 “名詞語義詞典”的開發(fā)

2.1 語義分類體系及其標(biāo)記集

我們充分利用有關(guān)蒙古語詞語語義分類前人研究成果,借鑒和參考英語、漢語等其他語言的詞語語義分類體系的同時,根據(jù)名詞的基本詞匯語義把蒙古語14 105個常用名詞進(jìn)行語義分類。整個語義分類體系包括事、物、智慧、時間、空間、動作、度量等七個大類,198個子類,具有九個層次,如圖1所示。有關(guān)名詞語義分類體系另有一篇文章詳述[5]。由于該分類體系是針對“名詞語義詞典”的開發(fā)而研制,所以詞典庫中的“大語義類”和“子語義類”等兩個屬性字段的取值來源于該分類體系。

圖1 蒙古語名詞語義分類體系及其標(biāo)記集樣本

2.2 語義屬性描述

“名詞語義詞典”數(shù)據(jù)庫中填置了22個屬性字段及其相應(yīng)的取值。我們把22種語義屬性信息可以歸納為“連接信息”、“基本語義信息”、“語義分類信息”、“搭配規(guī)則信息”和“配價信息”等五種大類,其各自囊括的屬性字段如表2所示。

表2 語義屬性類別表

詞典數(shù)據(jù)庫中設(shè)制的屬性字段名稱和取值翔實說明如表3所示。

表3 屬性字段名稱和屬性取值說明

續(xù)表

圖2 “名詞語義詞典”數(shù)據(jù)庫樣本

3 新進(jìn)展

3.1 詞條的擴(kuò)充和整理

我們通過以下兩個步驟把詞典詞條從原有的14 105條擴(kuò)充成18 000條。

3.2 屬性字段的增加

目前我們在詞典數(shù)據(jù)庫中增添的屬性字段及其屬性值說明如下所述。

表4 “名詞語義詞典”中的一價名詞配價信息描述樣本

3.3應(yīng)用價值

“名詞語義詞典”中的語義屬性在蒙古語多義詞義消歧、同形異義詞的辨別、短語結(jié)構(gòu)關(guān)系判定以及語義角色的標(biāo)注等各個層面都提供形式化語義知識。例如,以蒙古語作為目標(biāo)語的機(jī)器翻譯系統(tǒng)中“名詞語義詞典”判斷哪些詞是多義詞的方法是通過“義項”、“同形”、“大語義類”、“子語義類”等四個字段中的任何一個內(nèi)容可以說明當(dāng)前的詞條是否一個多義詞。當(dāng)同一個名詞的多個義項屬于不同語義類時,它們在句子中所受到的搭配限制也有所不同。其中可以利用“大語義類”、“子語義類”、“釋義”、“價量”和“價質(zhì)”等字段在生成目標(biāo)語言過程中對當(dāng)前多義詞進(jìn)行消歧,從多義詞的不同譯法中挑選最合適的一個譯詞來提高譯文質(zhì)量。

由于該詞典處于開發(fā)完后的初步階段,尚未進(jìn)入全面的應(yīng)用或產(chǎn)品化階段,所以下面我們只能以兩個實例來說明該詞典已開始逐步投入應(yīng)用這一進(jìn)展情況。

(1) 蒙古語名詞短語語義角色的統(tǒng)計分析研究[8]中應(yīng)用“名詞語義詞典”的“詞語”、“大語義類”、“子語義類”等三個字段,通過標(biāo)注蒙古語5 107個簡單句進(jìn)行語義角色標(biāo)注,統(tǒng)計分析7 646條名詞短語充當(dāng)語義角色情況,歸納出813條名詞短語的語義角色識別規(guī)則,其具體方法步驟如下:

1) 構(gòu)建名詞語義角色分析庫的基礎(chǔ)上,統(tǒng)計分析名詞短語語義角色結(jié)構(gòu)特征,例如,“存在”(0rs)的語義角色由NPd,NPs,Ne1, Ne2等形式表現(xiàn),其實例為{{{{SAYIN Ac HELE-TEI Ne1}NPd {MAGV Ac J0HIYAL Ne1}NPd}NPd

安岳县| 沙田区| 延边| 玉山县| 墨竹工卡县| 三明市| 克拉玛依市| 交口县| 丰镇市| 郁南县| 福鼎市| 澎湖县| 淮南市| 信宜市| 合江县| 华宁县| 育儿| 光泽县| 象山县| 寿光市| 胶州市| 齐河县| 岑溪市| 福安市| 屯门区| 安徽省| 崇州市| 林甸县| 乃东县| 舒兰市| 曲沃县| 黄陵县| 临澧县| 广饶县| 乃东县| 元朗区| 临汾市| 巴林左旗| 漠河县| 彩票| 普定县|