国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)料庫(kù)的蒙古人名知識(shí)庫(kù)建設(shè)與實(shí)踐

2016-01-19 02:52:52通拉嘎李佳正泉州師范學(xué)院圖書(shū)館福建泉州6000中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京0090中國(guó)移動(dòng)北京分公司北京00007
圖書(shū)館理論與實(shí)踐 2015年2期
關(guān)鍵詞:特征選擇語(yǔ)料庫(kù)實(shí)驗(yàn)

●通拉嘎,劉 凱,李佳正(.泉州師范學(xué)院 圖書(shū)館,福建 泉州 6000;.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 0090;.中國(guó)移動(dòng)北京分公司,北京 00007)

基于語(yǔ)料庫(kù)的蒙古人名知識(shí)庫(kù)建設(shè)與實(shí)踐

●通拉嘎1,劉凱2,李佳正3
(1.泉州師范學(xué)院圖書(shū)館,福建泉州362000;2.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100190;3.中國(guó)移動(dòng)北京分公司,北京100007)

[關(guān)鍵詞]語(yǔ)料庫(kù);人名;蒙古人名;最大熵;特征選擇;實(shí)驗(yàn)

[摘要]為提取較為完備的蒙古人名特征,以內(nèi)蒙古大學(xué)語(yǔ)料庫(kù)及網(wǎng)頁(yè)人名句為基礎(chǔ),采用量化分析的方法,建立普通人名知識(shí)庫(kù)及兼類人名知識(shí)庫(kù),將知識(shí)庫(kù)歸并為14個(gè)特征,進(jìn)行特征選擇實(shí)驗(yàn),在直接保留“漢語(yǔ)姓氏映射表”及“漢語(yǔ)人名映射表”等特征集后,鑒于對(duì)正確率和召回率的貢獻(xiàn),去除了地名詞典、地名后綴詞典、機(jī)構(gòu)名后綴詞典等3個(gè)特征集,保留了9個(gè)作為最大熵模型的特征集,從實(shí)驗(yàn)結(jié)果看,予以保留的特征影響并不相同。

1 引言

命名實(shí)體往往包含了文章的主要內(nèi)容,是正確理解文本的基礎(chǔ)。人名等命名實(shí)體在文本中有很高的使用頻率,是開(kāi)放的集合,無(wú)法窮舉,在未登錄詞中占有相當(dāng)大的比例,鄭家恒[1]統(tǒng)計(jì)出人名在未登錄詞中的比例是30.24%。人名等命名實(shí)體的識(shí)別(NER)是信息抽取的子任務(wù),是自然語(yǔ)言處理的基礎(chǔ)工作,是詞法分析與標(biāo)注的重點(diǎn)及難點(diǎn)之一。要取得更高的正確率,必須解決人名等命名實(shí)體的識(shí)別問(wèn)題。人名可以分為普通人名及兼類人名,人名識(shí)別的主要難點(diǎn)是兼類人名的識(shí)別,因?yàn)槊麑?shí)體之間、人名和普通詞之間存在大量的歧義和沖突。為實(shí)現(xiàn)蒙古文人名識(shí)別,本文建立了人名知識(shí)庫(kù),并對(duì)知識(shí)庫(kù)進(jìn)行特征選擇實(shí)驗(yàn),以期尋找出更有利于統(tǒng)計(jì)模型的知識(shí)。

最大熵模型(ME)是一個(gè)通用的機(jī)器學(xué)習(xí)框架,最早由E.T.Jaynes于1957年提出,在自然語(yǔ)言處理方面的應(yīng)用非常廣泛,已經(jīng)成功應(yīng)用于不同的研究領(lǐng)域,如詞法分析、組塊分析、短語(yǔ)識(shí)別、詞義消歧、指代消解、文本分類、句子的邊界檢測(cè)等,并且表現(xiàn)良好。最大熵的兩個(gè)基本任務(wù)是特征選擇和參數(shù)估計(jì)。特征選擇,就是選能表達(dá)這個(gè)隨機(jī)過(guò)程的特征集合,使系統(tǒng)的特定指標(biāo)最優(yōu)化。特征空間很大,并不是每一個(gè)特征都是可靠的,所以選擇特征就是很關(guān)鍵的問(wèn)題,對(duì)模型的訓(xùn)練和使用都十分重要,最大熵通過(guò)特征選擇可以減少計(jì)算量,降低噪聲,對(duì)識(shí)別的正確率及解碼的效率都有很大影響。

為提取較為完備的蒙古文人名特征,本文以蒙古文語(yǔ)料庫(kù)為基礎(chǔ),建立了普通人名知識(shí)庫(kù)及兼類人名知識(shí)庫(kù),并以最大熵的統(tǒng)計(jì)模型,對(duì)人名知識(shí)庫(kù)中的各類特征進(jìn)行選擇實(shí)驗(yàn),從中提取了更為有效的人名特征,為進(jìn)一步的人名識(shí)別工作做好準(zhǔn)備。

2 語(yǔ)料庫(kù)的應(yīng)用

語(yǔ)料庫(kù)是統(tǒng)計(jì)建模的知識(shí)來(lái)源,是蒙古文人名識(shí)別的基礎(chǔ)與前提,用以提取人名前后詞、規(guī)則及訓(xùn)練最大熵模型。

2.1內(nèi)蒙古大學(xué)詞法標(biāo)注語(yǔ)料庫(kù)

26萬(wàn)詞規(guī)模詞法標(biāo)注語(yǔ)料庫(kù)是內(nèi)蒙古大學(xué)蒙學(xué)院詞法標(biāo)注語(yǔ)料庫(kù)的局部,一詞一行,切分與標(biāo)注出詞干及附加成分,格式為蒙古文拉丁形式。語(yǔ)料來(lái)源是中小學(xué)蒙古語(yǔ)課本共12冊(cè),《內(nèi)蒙古日?qǐng)?bào)》1988年7月1~3日,《實(shí)踐》月刊1988年1~3期,含264000

詞(包含標(biāo)點(diǎn)符號(hào))。[2]有3522個(gè)人名句可以提取人名的前后詞規(guī)則,但由于標(biāo)注格式問(wèn)題,提取到的是2570個(gè)人名句。

2.2網(wǎng)頁(yè)蒙古人名句

自建的5千人名句用作最大熵模型訓(xùn)練,共5773句。人名句從蒙科立編碼的中國(guó)蒙古語(yǔ)新聞網(wǎng)、人民網(wǎng)(蒙古文版)、蒙古文化網(wǎng)等9個(gè)網(wǎng)站人工抓取。網(wǎng)站選取原則為統(tǒng)一的蒙科立編碼,句子選取原則為人名句,盡量為兼類人名句。從上述網(wǎng)站上抓取人名句,以蒙科立轉(zhuǎn)拉丁的編碼轉(zhuǎn)換工具轉(zhuǎn)換為內(nèi)蒙古大學(xué)拉丁格式,并著重對(duì)人名及前后兩詞進(jìn)行校對(duì)。

2.3測(cè)試集的選取

訓(xùn)練及測(cè)試所用的句子共為8343句,共11583個(gè)人名。封閉測(cè)試集是訓(xùn)練集的子集,開(kāi)放測(cè)試集與訓(xùn)練集不存在包含與被包含關(guān)系。使用的訓(xùn)練集、測(cè)試集的各項(xiàng)數(shù)據(jù)如表1。

表1 訓(xùn)練集、測(cè)試集數(shù)據(jù)統(tǒng)計(jì)表

3 人名知識(shí)庫(kù)的建立

3.1普通人名知識(shí)庫(kù)的構(gòu)建

蒙古文語(yǔ)料庫(kù)規(guī)模偏小,形態(tài)變化眾多,建設(shè)相關(guān)的知識(shí)庫(kù),以此提取人名識(shí)別的各類特征,保證識(shí)別的指導(dǎo)性。相對(duì)于中文人名識(shí)別中較為常見(jiàn)的姓氏、名字用字概率信息的使用,蒙古文人名識(shí)別更加側(cè)重運(yùn)用形態(tài)特征及上下文信息。因此,構(gòu)建的普通人名知識(shí)庫(kù)包括以下10個(gè)知識(shí)庫(kù):姓氏辭典(漢語(yǔ)姓氏、蒙古姓氏),漢語(yǔ)姓氏拉丁映射表,梵、藏、滿人名詞典,地名詞典,人名指示詞庫(kù)(左邊界詞典、右邊界詞典、有距離邊界詞典),機(jī)構(gòu)名后綴詞典,蒙古族普通人名詞典,漢語(yǔ)名拉丁映射表,著名人物詞典,地名后綴詞典。

(1)姓氏詞典。中文文本中的姓氏根據(jù)是否可以獨(dú)立成詞,分為絕對(duì)封閉的姓氏、相對(duì)封閉的姓氏、開(kāi)放姓氏等。[3]蒙古文本中的姓氏很多是絕對(duì)封閉姓氏,與其他詞無(wú)法構(gòu)詞,也不易獨(dú)立成詞,所以,蒙古文本中姓氏是識(shí)別人名的重要知識(shí)來(lái)源,收集的姓氏包括漢語(yǔ)姓氏及蒙古姓氏。①蒙古姓氏詞典。以曹納木的《蒙古族姓氏集》[4]列舉的蒙古族姓氏1133個(gè)為基礎(chǔ),輔之拉丁轉(zhuǎn)寫(xiě),建立了蒙古族蒙古姓氏詞典,如“ANGCIN安、ABAHANAR安”等。②漢語(yǔ)姓氏詞典。蒙古族漢語(yǔ)姓氏庫(kù)的建立以曹納木的《蒙古族姓氏集》為數(shù)據(jù)基礎(chǔ),漢語(yǔ)姓氏共419個(gè),除去重復(fù)姓氏9個(gè),共包含蒙古族漢語(yǔ)姓氏410個(gè),輔之拉丁轉(zhuǎn)寫(xiě),如“B0V包薄寶保鮑暴爆”、BI鼻畢、DONG東冬董棟”。漢語(yǔ)姓氏詞典的建立以《姓氏人名用字分析統(tǒng)計(jì)》[5]為依據(jù),共有734個(gè)姓氏,按拉丁轉(zhuǎn)寫(xiě)順序重新排序錄入,如“SI郗奚席溪司思郗習(xí)洗喜”等。不過(guò)漢語(yǔ)姓氏在語(yǔ)料庫(kù)中與其他詞發(fā)生兼類的現(xiàn)象較難排除,所以,在實(shí)際實(shí)驗(yàn)中,僅選取了蒙古姓氏詞典為特征。

(2)人名詞典。人名詞典對(duì)有效識(shí)別人名很有意義,有助于提高系統(tǒng)的執(zhí)行速度及效率,建立人名詞典是必要的。不過(guò)蒙古文網(wǎng)站有很多不同的編碼格式,無(wú)法直接像漢語(yǔ)人名一樣從浩瀚網(wǎng)絡(luò)抓取,因而本文的人名詞典建立只能以學(xué)生名為主,輔之語(yǔ)料庫(kù)人名及某刊物作者名的搜集;蒙古國(guó)人名與中國(guó)蒙古族人名相比也有其不同分布特點(diǎn),因而也收集了一定的蒙古國(guó)人名,這些人名被整理歸入“普通人名詞典”。

14世紀(jì)至17世紀(jì),蒙古族十分盛行以梵、藏、滿文字為人名,這些正逐漸退出蒙古族人名歷史舞臺(tái)的名字,可用列舉的方法予以識(shí)別,本文建立了有“YVNDVN(云敦)、SURUNG(蘇榮)”等582個(gè)詞條的“梵、藏、滿人名詞典”。著名人物名在文本中出現(xiàn)頻率較高,文章還建立了包括“TEMUJIN(鐵木真)、SONG=GING=LING(宋慶齡)”等244個(gè)名字的“著名人物詞典”。

(3)漢語(yǔ)姓氏、人名拉丁映射表。漢語(yǔ)名在蒙古文本中占有很高比例,所以,漢語(yǔ)人名知識(shí)庫(kù)的建立也是研究的重點(diǎn)之一。然而,人名是無(wú)法窮舉的命名實(shí)體,研究者在姓氏與人名詞典的基礎(chǔ)上,提煉出漢語(yǔ)姓氏拉丁映射表、漢語(yǔ)名拉丁映射表,以姓氏及人名的搭配爭(zhēng)取識(shí)別更多的漢語(yǔ)人名。

漢語(yǔ)姓氏拉丁映射表即以“漢族漢語(yǔ)姓氏詞典”為基礎(chǔ),將其轉(zhuǎn)寫(xiě)為蒙古文拉丁形式,如“BU卜補(bǔ)布步佈、LU盧蘆魯陸鹿逯路”等;共有301詞條;漢語(yǔ)人名拉丁映射表即以漢語(yǔ)人名為基礎(chǔ),將人名歸結(jié)為不同拉丁轉(zhuǎn)寫(xiě)形式。聲調(diào)對(duì)拉丁轉(zhuǎn)寫(xiě)并無(wú)影響,因而,將聲調(diào)不同、拼音相同的漢語(yǔ)人名用詞,如“楊、洋、陽(yáng)、揚(yáng)”都轉(zhuǎn)寫(xiě)為“YANG”,共含記錄190條。

(4)指示詞庫(kù)的建立。指示詞指在人名句中出現(xiàn)頻率較高,與人名有語(yǔ)義或語(yǔ)法聯(lián)系,對(duì)人名的存在與識(shí)別有指示作用的詞。蒙古文人名的指示詞有親屬稱謂詞、人體詞、稱謂詞、職務(wù)詞、職稱詞、特定行

為動(dòng)詞等。文章將指示詞分為左邊界詞、右邊界詞、有距離邊界詞,將其作為最大熵模型的上下文邊界特征。人名左邊界詞分別為稱謂詞、親屬稱謂詞、職務(wù)詞、職業(yè)詞、部分的形容詞、數(shù)詞;人名右邊界詞分別為稱謂詞、親屬稱謂詞、人體詞、職務(wù)詞、職業(yè)詞、部分連詞、副詞、形容詞、語(yǔ)氣詞;特定行為動(dòng)詞與人名距離較遠(yuǎn),被稱為有距離邊界詞。具體的數(shù)據(jù)量見(jiàn)表2。

表2 指示詞庫(kù)詞匯量統(tǒng)計(jì)

(5)地名詞典。蒙古族歷來(lái)注重人與自然的和諧共處,崇尚以山川、河流、國(guó)名、城市為人名,喜歡以地名作人名,如“H0RCIN(科爾沁)、ENEDHEG(印度)”都是人名、地名的兼類詞。地名對(duì)人名有一定的指示作用,鑒于地名對(duì)人名識(shí)別的重要性,本文建立了“地名詞典”,包括“$ANDUiNG(山東)、ALA$A(阿拉善)”等中外地名詞共558個(gè)。

(6)地名后綴詞典及機(jī)構(gòu)名后綴詞典。地名后綴詞典及機(jī)構(gòu)名后綴詞典有助于識(shí)別地名及機(jī)構(gòu)名,進(jìn)而有利于確定人名的位置。本文建立了包括“YEHE ASAR(大樓)”等130個(gè)詞的“地名后綴詞典”,包括“ARIHIN MVHVLAG(酒館)、0RD0N(殿、宮)”等83個(gè)詞的“機(jī)構(gòu)名后綴詞典”。

3.2兼類人名知識(shí)庫(kù)的建立

兼類人名指一個(gè)詞兼屬人名及其他詞類。如“BOHE”(布赫),既是人名,也是普通名詞及形容詞。筆者隨機(jī)統(tǒng)計(jì)了中央民族大學(xué)蒙古語(yǔ)言文學(xué)系1953~1997級(jí),2004~2011級(jí)蒙古族907個(gè)學(xué)生人名。其中,可以充當(dāng)兼類人名的詞共有205個(gè),占人名總數(shù)的22.60%。從上述數(shù)據(jù)可以看出,兼類人名在人名當(dāng)中有相當(dāng)高的比例。兼類人名不僅出現(xiàn)頻率較高,而且較難識(shí)別,為識(shí)別兼類人名,需要建立專門的兼類人名知識(shí)庫(kù)。

以往的兼類詞識(shí)別方法較多使用詞語(yǔ)的詞性信息,詞性信息對(duì)兼類人名的識(shí)別有重要的輔助作用,但鑒于蒙古文現(xiàn)有的切分與詞性標(biāo)注系統(tǒng)在命名實(shí)體識(shí)別上較為薄弱,如果運(yùn)用詞性信息識(shí)別人名,會(huì)出現(xiàn)將人名詞誤切分或標(biāo)注為更小顆粒的情況,導(dǎo)致歧義或誤差,因而在本研究中未使用兼類人名的詞性信息。

兼類人名詞典的建立依賴于內(nèi)蒙古大學(xué)語(yǔ)料庫(kù)、5千網(wǎng)頁(yè)人名句及蒙古人名詞典,從上述數(shù)據(jù)中提取到未重復(fù)兼類人名共968個(gè)。蒙古人名中復(fù)合人名占很大比例,因而,只依靠人名詞典而不考慮人名的復(fù)合情況是不完整的。為此還建立了蒙古人名詞干詞典,包含“YEHE(耶和)”等1336個(gè)可以充當(dāng)人名的蒙古人名詞干詞典,用以識(shí)別任何與詞典中的詞復(fù)合產(chǎn)生的蒙古人名。具體應(yīng)用中發(fā)現(xiàn)“兼類人名詞典”及“蒙古人名詞干詞典”有大部分的重合,因而,將其合并為“兼類人名詞典”。

兼類詞搭配詞典指列舉兼類人名的固定搭配詞,遇到兼類人名,以兼類詞搭配詞典進(jìn)行匹配,這對(duì)兼類人名詞的判斷起著重要的輔助作用?;趦?nèi)蒙古大學(xué)語(yǔ)料庫(kù)及德·青格樂(lè)圖的《現(xiàn)代蒙古語(yǔ)固定短語(yǔ)語(yǔ)法信息詞典詳解》[6]收集了2383個(gè)兼類詞搭配詞,以兼類人名為中心,提取前后2位的搭配詞,制作成excel表格,每行為一條兼類信息。

4 最大熵特征選擇實(shí)驗(yàn)

4.1實(shí)施方案

最大熵模型的關(guān)鍵在于如何用特定的任務(wù)為模型選取特征集合。特征可以分為基本特征和語(yǔ)言學(xué)特征,語(yǔ)言學(xué)特征包括上下文特征、詞典特征等知識(shí)。

在最大熵模型中使用的特征集={地名詞典,蒙古族蒙古姓氏詞典,著名人物詞典,地名后綴詞典,機(jī)構(gòu)名后綴詞典,漢語(yǔ)姓氏映射表,漢語(yǔ)人名映射表,有距離邊界詞典,左邊界詞詞典,右邊界詞詞典,梵藏滿人名詞典,兼類人名詞典,蒙古人名詞典,兼類搭配詞典},共包含14個(gè)特征。雖然最大熵可以不用設(shè)定規(guī)則的優(yōu)先集來(lái)避免規(guī)則的沖突,但是所使用的特征集中哪些特征是有效的,哪些特征有副作用。為驗(yàn)證特征集中各個(gè)特征的效果,設(shè)計(jì)了以下方案。

(1)令特征集=簡(jiǎn)單上下文特征集,在特征集的基礎(chǔ)上訓(xùn)練最大熵模型,然后進(jìn)行測(cè)試。

(2)在原始的簡(jiǎn)單上下文特征集的基礎(chǔ)上,逐次加入某一項(xiàng)新特征,在新特征集的基礎(chǔ)上訓(xùn)練最大熵模型,然后進(jìn)行測(cè)試,參考開(kāi)放測(cè)試的結(jié)果,如果某特征集導(dǎo)致正確率和召回率都下降,說(shuō)明該特征是無(wú)效特征,予以去除;如果正確率和召回率都有一定提升,表明該特征的有效性,則保留該特征,直至每個(gè)特征集都實(shí)驗(yàn)過(guò)。需要指出的是,鑒于漢語(yǔ)人名在語(yǔ)

料庫(kù)中出現(xiàn)較多,形式與蒙古人名又有較大區(qū)別,漢語(yǔ)姓氏映射表與漢語(yǔ)人名拉丁映射表能覆蓋大多數(shù)人名,因此,本文直接選取“漢語(yǔ)姓氏映射表”、“漢語(yǔ)人名映射表”為最大熵的特征,未經(jīng)過(guò)特征選取的步驟。

4.2特征選擇實(shí)驗(yàn)

在制定具體實(shí)施方案后,以最大熵計(jì)算了簡(jiǎn)單上下文特征集的正確率及召回率,以此為基礎(chǔ),逐步加入各語(yǔ)言學(xué)特征,進(jìn)行特征選擇實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。

表3 特征選擇實(shí)驗(yàn)

建立地名詞典、地名后綴詞典是因?yàn)槿嗣c地名兼類的現(xiàn)象在蒙古文中出現(xiàn)較多,語(yǔ)料庫(kù)中地名對(duì)人名有一定的指稱作用,因而,希望以此來(lái)排除與地名的兼類現(xiàn)象,但能滿足這些特征的情況還是較少,而且地名及地名后綴與人名的距離有時(shí)過(guò)遠(yuǎn),運(yùn)用這些特征后不僅正確率和召回率都有一定程度下降,也影響了系統(tǒng)的運(yùn)行速度。因而,經(jīng)過(guò)考慮,本文去除了上述兩個(gè)特征。機(jī)構(gòu)名后綴特征的建立也是因?yàn)闄C(jī)構(gòu)名對(duì)人名有一定的指稱作用,機(jī)構(gòu)名后也有出現(xiàn)人名的現(xiàn)象,但在特征選擇中通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),機(jī)構(gòu)名特征的運(yùn)用未能使正確率、召回率有提升,反而有了較為明顯的下降。因而,經(jīng)過(guò)考慮,本文去除了機(jī)構(gòu)名后綴特征。經(jīng)過(guò)上述實(shí)驗(yàn),去除了機(jī)構(gòu)名后綴詞典、地名后綴詞典、地名詞典等3個(gè)特征,保留了9個(gè)特征集作為最大熵統(tǒng)計(jì)模型的特征集。

從實(shí)驗(yàn)結(jié)果看,各個(gè)保留的特征對(duì)識(shí)別結(jié)果的影響并不相同,具體表現(xiàn)在:有些特征的貢獻(xiàn)僅是單方面的,如“兼類人名詞典”雖然使召回率有所提升,但正確率卻出現(xiàn)了下降;各個(gè)特征對(duì)結(jié)果影響的大小也不相同,如“梵藏滿人名詞典”及“蒙古人名詞典”對(duì)正確率和召回率的影響比較明顯,而“蒙古族蒙古姓氏詞典”的影響并不十分明顯。

蒙古文人名識(shí)別遇到很多難題,主要表現(xiàn)在:人名是開(kāi)放集合,無(wú)法窮舉,蒙古人名兼類現(xiàn)象較為嚴(yán)重,越普通的詞,成為人名的現(xiàn)象也越普遍,給人名識(shí)別帶來(lái)很大困難。蒙古文深加工語(yǔ)料庫(kù)規(guī)模比起中英文規(guī)模尚小,本文使用的語(yǔ)料庫(kù)規(guī)模僅有30萬(wàn)詞,必定影響了統(tǒng)計(jì)模型的規(guī)則提取與自動(dòng)學(xué)習(xí)。但是,本文的創(chuàng)新和貢獻(xiàn)主要體現(xiàn)在:首次建立了蒙古文人名識(shí)別語(yǔ)料庫(kù),與內(nèi)蒙古大學(xué)的語(yǔ)料庫(kù)一同訓(xùn)練數(shù)學(xué)模型,測(cè)試自動(dòng)識(shí)別的結(jié)果,有效補(bǔ)充了語(yǔ)料庫(kù)缺乏帶來(lái)的缺憾;首次建立了蒙古文普通人名知識(shí)庫(kù)及兼類人名知識(shí)庫(kù),對(duì)人名及其他命名實(shí)體的識(shí)別有重要意義;知識(shí)庫(kù)整理為14個(gè)特征,進(jìn)行了特征選擇實(shí)驗(yàn),更科學(xué)地鑒定了知識(shí)庫(kù)的有效性及針對(duì)性;在以傳統(tǒng)的規(guī)則為主的研究基礎(chǔ)上,將最大熵的數(shù)學(xué)模型成功應(yīng)用于蒙古文命名實(shí)體的識(shí)別當(dāng)中,是統(tǒng)計(jì)模型應(yīng)用于蒙古文命名實(shí)體研究的較早成果。

[參考文獻(xiàn)]

[1]鄭家恒.智能信息處理——漢語(yǔ)語(yǔ)料庫(kù)加工技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2010:41.

[2]牧仁高娃.蒙古語(yǔ)語(yǔ)料庫(kù)標(biāo)注及相關(guān)對(duì)策研究[D].內(nèi)蒙古:內(nèi)蒙古大學(xué),2008:41.

[3]喬永波.規(guī)則與統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別[D].山東:山東大學(xué),2007:8.

[4]曹納木.蒙古族姓氏集[M].呼和浩特:內(nèi)蒙古人民出版社,2007:1-256.

[5]中國(guó)社會(huì)科學(xué)院語(yǔ)言文字應(yīng)用研究所整理研究室編.姓氏人名用字分析統(tǒng)計(jì)[M].北京:語(yǔ)文出版社,1991:747-757.

[6]德·青格樂(lè)圖.現(xiàn)代蒙古語(yǔ)固定短語(yǔ)語(yǔ)法信息詞典詳解[M].呼和浩特:內(nèi)蒙古教育出版社,2005:31-188.

[收稿日期]2014-08-28 [責(zé)任編輯]菊秋芳

[作者簡(jiǎn)介]通拉嘎(1976-),女,內(nèi)蒙古科爾沁右翼中旗人,中央民族大學(xué)博士,泉州師范學(xué)院圖書(shū)館館員,中國(guó)社科院閩南文化研究基地成員,研究方向:計(jì)算語(yǔ)言學(xué)、方言及情報(bào)學(xué);劉凱(1987-),男,福建龍巖人,中科院計(jì)算所博士畢業(yè),研究方向:機(jī)器翻譯及自然語(yǔ)言處理;李佳正(1988-),女,中科院計(jì)算所碩士畢業(yè),研究方向:機(jī)器翻譯。

[基金項(xiàng)目]本文系國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目“跨語(yǔ)言社會(huì)輿情分析基礎(chǔ)理論與關(guān)鍵技術(shù)”(項(xiàng)目編號(hào):61331013)的系列成果之一。

[文章編號(hào)]1005-8214(2014)12-0109-04

[文獻(xiàn)標(biāo)志碼]A

[中圖分類號(hào)]TP391.1;G250.74

猜你喜歡
特征選擇語(yǔ)料庫(kù)實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
民丰县| 宁波市| 新竹市| 潼南县| 盐源县| 镇平县| 沙洋县| 西青区| 昌图县| 县级市| 南汇区| 咸丰县| 泸州市| 通山县| 新干县| 大邑县| 微山县| 星座| 乳源| 巨野县| 资溪县| 米脂县| 贵德县| 海口市| 寿阳县| 江油市| 济源市| 峨山| 孟津县| 云龙县| 栾城县| 大同县| 芜湖县| 诏安县| 南城县| 濮阳县| 合川市| 来宾市| 崇义县| 青阳县| 房产|