基于詞干提取的維吾爾語事件類時(shí)間短語識(shí)別

2014-12-23 01:28鄒岳琳吐爾根依布拉音麥熱哈巴艾力艾山吾買爾帕力旦吐爾遜

計(jì)算機(jī)工程與設(shè)計(jì) 2014年2期

鄒岳琳，吐爾根·依布拉音，麥熱哈巴·艾力，艾山·吾買爾，帕力旦·吐爾遜

（1.新疆大學(xué) 信息科學(xué)與工程學(xué)院，新疆烏魯木齊830046；2.新疆大學(xué) 軟件學(xué)院，新疆烏魯木齊830008）

0 引言

時(shí)間信息抽?。?］作為命名實(shí)體識(shí)別［2，3］的子任務(wù)，逐漸成為自然語言處理研究中的熱點(diǎn)問題。在計(jì)算語言學(xué)領(lǐng)域，通過提取出時(shí)間短語、事件和時(shí)間的關(guān)系來計(jì)算時(shí)間維度并獲取自然語言中精確的時(shí)間表達(dá)式，最終確定文本中時(shí)間信息和事件信息的映射關(guān)系。自1998年MUC－7首次在命名實(shí)體定義中加進(jìn)了對(duì)時(shí)間評(píng)測(cè)要求以來，不少語種［4，5］的時(shí)間抽取任務(wù)已逐步完善，但對(duì)于實(shí)現(xiàn)像維吾爾語這樣典型黏著性語言的時(shí)間信息抽取仍是一個(gè)挑戰(zhàn)。

維吾爾語屬于阿爾泰語系突厥語族，是典型的黏著性語言，具有強(qiáng)大的形態(tài)生產(chǎn)特性，一個(gè)給定的詞干后綴接若干個(gè)詞綴可產(chǎn)生多個(gè)詞匯，如：küz（秋天）－küzlük （秋天的）－küzlüki（在秋天）－küzlükiche（直到秋天），因而引起數(shù)據(jù)稀疏的問題。本文研究維吾爾語文本中一類特殊的時(shí)間信息－事件類時(shí)間短語（uyghur event－anchored temporal expressions，UETE），該類時(shí)間短語不含數(shù)字且無明顯邊界特征，是一種隱性的時(shí)間，因而使用一般規(guī)則方法難以識(shí)別。為解決上述問題，本文考慮黏著語典型特征，提出一種將詞級(jí)別的UETE識(shí)別轉(zhuǎn)換為基于詞干的UETE 識(shí)別方法。實(shí)驗(yàn)結(jié)果表明這一方法對(duì)其它黏著性語言研究具有通用性和擴(kuò)展性。

1 研究背景

在自然語言中，時(shí)間信息用來描述事件的發(fā)生、變化及事件間的先后順序。時(shí)間信息的表達(dá)具有多樣性、無規(guī)則性和不唯一性，其類別以是否包含數(shù)字特征可分為顯性時(shí)間信息和隱性時(shí)間信息；以參考對(duì)象可分為相對(duì)時(shí)間和絕對(duì)時(shí)間；以坐標(biāo)系理論又可分為時(shí)間點(diǎn)和時(shí)間段。豐富多樣的表述形式給時(shí)間信息識(shí)別增大了難度，國內(nèi)外文獻(xiàn)中常用的解決方法主要是基于規(guī)則（rule－based）的方法和基于統(tǒng)計(jì) （statistic－based）的方法。通常識(shí)別對(duì)象具有多樣性、無規(guī)則性等特點(diǎn)，基于規(guī)則的方法需要人工構(gòu)建大量規(guī)則，代價(jià)高，難以全面概括復(fù)雜的語言現(xiàn)象，對(duì)于不同語言得到的規(guī)則不具有可移植性。而基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法多是通過分類器學(xué)習(xí)，利用特征將識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題，在信息識(shí)別中有著不錯(cuò)的表現(xiàn)，但對(duì)語料嚴(yán)格依賴。

現(xiàn)階段信息識(shí)別研究涉及語種包括英語［6］，德語［7］，西班牙語［8］，日語［9］，漢語［10］，法語［11］，意大利語［12］，葡萄牙語［13］，俄語［14］等。相對(duì)來說維吾爾語的信息識(shí)別研究由于條件限制，起步較晚，命名實(shí)體識(shí)別任務(wù)尚處于初級(jí)階段，研究者多選用基于規(guī)則方法進(jìn)行命名實(shí)體識(shí)別［15，16］。考慮到維吾爾語與土耳其語同屬阿爾泰語系突厥語族，都屬于黏著性語言，語法較相似，因而以土耳其語對(duì)兩種主流方法進(jìn)行對(duì)比分析。

在基于規(guī)則的方法研究，Küük等［17］在土耳其語命名實(shí)體識(shí)別研究中做出了比較具有代表性的嘗試，文中提出建立多個(gè)詞典資源和模式庫，通過規(guī)則匹配方式對(duì)人名、地名和機(jī)構(gòu)名進(jìn)行識(shí)別。作者提出的方法使用起來非常簡單，易于理解，且實(shí)驗(yàn)結(jié)果表明取得了較好識(shí)別效果，但該方法人工工作量較大，需要分別建立人名、地名及機(jī)構(gòu)名的詞典庫和模式庫，建立語法規(guī)則。

在基于統(tǒng)計(jì)的方法研究，Som T 等［18］在其研究中使用隱馬爾可夫模型，利用機(jī)器學(xué)習(xí)的方式進(jìn)行嘗試，充分利用標(biāo)注語料特征，使得識(shí)別率、召回率提高。實(shí)驗(yàn)結(jié)果表明，基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法在信息識(shí)別任務(wù)中有著不錯(cuò)的表現(xiàn)，適合大規(guī)模復(fù)雜語料情況。

本文采用基于統(tǒng)計(jì)的條件隨機(jī)場(chǎng)模型，通過對(duì)UETE構(gòu)成特點(diǎn)分析，結(jié)合黏著語構(gòu)詞特征，分別在詞匯層面和詞干層面實(shí)現(xiàn)UETE短語的識(shí)別，在新疆大學(xué)維吾爾語百萬詞詞法分析語料庫的實(shí)驗(yàn)結(jié)果顯著，F(xiàn)－值達(dá)到85.37%，這一結(jié)果對(duì)于其它黏著語言的研究具有參考價(jià)值。

2 維吾爾語的事件類時(shí)間短語

2.1 概述

時(shí)間信息識(shí)別研究中存在時(shí)間短語邊界定位不準(zhǔn)確和復(fù)雜時(shí)間短語識(shí)別困難兩大問題，除此之外維吾爾語復(fù)雜的形態(tài)變化也增加了UETE 的識(shí)別難度。其形態(tài)變化可分為兩種情況，其一，詞干后綴接不同詞綴，表現(xiàn)出不同形態(tài)而表達(dá)不同意義。如：yaz （夏天，n.）－yazniN （夏天的，adj.）－yazda（在夏天的時(shí)候，adv.）；其二，詞干綴接詞綴時(shí)，可多層綴接，這也是導(dǎo)致維吾爾語詞匯量龐大的原因。如漢語中 “你們不能進(jìn)行標(biāo)準(zhǔn)化嗎？”翻譯成維吾爾語為 “l(fā)chemlextürelmemsiler”，由詞干 “l(fā)chem” （標(biāo)準(zhǔn)）綴接多個(gè)詞綴（＋lex＋tür＋el＋m＋siler），僅通過一個(gè)詞干綴接多層詞綴實(shí)現(xiàn)完整語法功能。

2.2 UETE定義和分類

定義在句子中以事件為參考系的時(shí)間信息，一般是事件及與時(shí)間描述相關(guān)詞匯的組合。如：yighinchixtin burun （開會(huì)之前）。其中，事件為 “yighinchixtin（開會(huì)）”，時(shí)間描述相關(guān)詞匯為 “burun （……之前）”。

由定義可以看出，事件類時(shí)間短語不同于含有數(shù)字特征的顯性時(shí)間短語，也不給出事件發(fā)生的精確時(shí)間，它屬于一種相對(duì)時(shí)間信息，是以一個(gè)事件為參考系而確定另一事件的發(fā)生時(shí)間，其中起參考系作用的事件被稱為參考事件。以參考事件為中心映射到坐標(biāo)軸，對(duì)應(yīng)的點(diǎn)和段分別稱為時(shí)點(diǎn)事件類時(shí)間和時(shí)段事件類時(shí)間。時(shí)點(diǎn)事件類時(shí)間用來表示在什么時(shí)候發(fā)生的事件行為，如：hadise yüz bergen chüshtin kyin （事故發(fā)生的當(dāng)天），而時(shí)段事件類時(shí)間用來表示在什么時(shí)間段里發(fā)生的事件行為，如inqilapning deslepliride（改革初期），tamaqtin kyinki ikki saet（吃過飯兩個(gè)小時(shí)后）等。

2.3 UETE特點(diǎn)和結(jié)構(gòu)

事件類時(shí)間短語以事件為中心，其表達(dá)的時(shí)間信息是隱性的，有時(shí)不易察覺。如mekteptin qaytqandin kyin （放學(xué)后），其中包含的時(shí)間信息很容易被人為忽略。此外，維吾爾語強(qiáng)大的形態(tài)生成功能也使得其事件類時(shí)間短語的構(gòu)成更為復(fù)雜，其形態(tài)變化按詞干意義劃分可分為兩類：其一，某些非時(shí)間后附加成分可能構(gòu)成時(shí)間詞，如desse（踩）－desside（立刻）；其二，某些時(shí)間詞后可附加詞尾構(gòu)成不同時(shí)間詞，如kech （晚上）－kchiche（整夜）。

由定義，維吾爾語事件類時(shí)間短語一般由事件＋邊界搭配詞構(gòu)成。如：sawaqdashlar mektepke kelgendin bri nahaytti tiriship Oqudi.（同學(xué)們來校后學(xué)習(xí)很努力），其中“mektepke kelgendin”為中心事件，“bri”（以來）為邊界搭配詞。在維吾爾語中，這樣的邊界詞還有：toxtimaq （截止），kyin （之后，以后），mezgil（期間，時(shí)期），Ilgiri（以前），deslepki mezgil（初期，前期），harpa （前夕），waqit（時(shí)候）等。

3 條件隨機(jī)場(chǎng)模型

條件隨機(jī)場(chǎng) （conditional random fields，CRFs）是一種典型的序列標(biāo)注判別模型，最早在2001年由Lafferty等提出，模型思想的主要來源是最大熵模型，可以被看成是一個(gè)無向圖模型或馬爾可夫隨機(jī)場(chǎng)。該模型是在給定觀察序列的條件下，計(jì)算整個(gè)觀察序列狀態(tài)標(biāo)記的聯(lián)合條件概率的無向圖模型，采用一階鏈?zhǔn)浇Y(jié)構(gòu)來構(gòu)造模型（如圖1所示）。

圖1 條件隨機(jī)場(chǎng)概率模型

根據(jù)最大熵原理和無向圖理論，對(duì)輸入觀察序列X ＝（x1，x2，…xn），狀態(tài)序列Y ＝（y1，y2…yn），CRFs的形式可以用一個(gè)聯(lián)合條件概率分布P ＝（Y X）來表示，定義為

其中，λj和μj 為特征權(quán)重，可采用IIS （improved iterative scaling）、感知機(jī) （perceptron）或GIS （generalized iterative scaling）等迭代算法估算。

而

CRFs是一種典型判別式模型，常被用于解決序列化標(biāo)注問題。它兼具判別式模型的優(yōu)點(diǎn)和產(chǎn)生式模型的特點(diǎn)，考慮到上下文標(biāo)記間的轉(zhuǎn)移概率，不再是對(duì)每個(gè)節(jié)點(diǎn)都進(jìn)行歸一化，而是對(duì)所有特征進(jìn)行全局歸一化，以序列化的

4 UETE的識(shí)別系統(tǒng)

4.1 基于CRFs的UETE識(shí)別模型

對(duì)于UETE的識(shí)別，不僅是要能自動(dòng)識(shí)別隱性的事件類時(shí)間，更重要的是能確定其精確匹配的邊界。本文采用基于條件隨機(jī)場(chǎng)模型的識(shí)別方法，目前用于實(shí)現(xiàn)CRFs的工具包有Flex CRF，CRF＋＋和Pocket CRF等，本文利用C＃對(duì)CRFs開源工具包CRF＋＋0.57［19］進(jìn)行了改寫，開發(fā)了維吾爾語事件類時(shí)間短語識(shí)別系統(tǒng)，基于CRFs 的UETE識(shí)別（如圖2 所示）主要有數(shù)據(jù)訓(xùn)練和數(shù)據(jù)測(cè)試兩部分。

圖2 基于CRFs模型的UETE抽取模型

4.2 特征選擇

為了獲取最優(yōu)實(shí)驗(yàn)結(jié)果，特征選擇在CRFs模型中對(duì)識(shí)別效率有著極為重要的影響。有效的特征集合不但能有效地降低干擾噪聲、壓縮特征空間減少計(jì)算量，更有助于提高標(biāo)注效率和識(shí)別準(zhǔn)確率。經(jīng)過分析，影響事件類時(shí)間識(shí)別效果的因素主要有詞、詞性、位置特征等。綜合考慮本文特征選擇如下：

（1）詞匯特征（WORD）：詞是維吾爾語最小單位，源語料中詞本身被作為一個(gè)特征。同時(shí)前兩個(gè)詞和后兩個(gè)詞也被作為上下文特征。

（2）詞性特征（POS）：詞性用來表明詞在句子中充當(dāng)?shù)恼Z法功能，對(duì)源語料預(yù)處理時(shí)標(biāo)注出每個(gè)詞的屬性，這一特征可以在檢測(cè)時(shí)定位時(shí)間短語邊界詞的位置。

（3）位置特征（LOC）：利用事件類時(shí)間短語出現(xiàn)的位置作為特征。事件類時(shí)間短語出現(xiàn)在句首，常用于表示事件發(fā)生的特定時(shí)間。

（4）詞表特征（DIC）：通過對(duì)現(xiàn)有語料庫資源統(tǒng)計(jì)，人工統(tǒng)計(jì)建立維吾爾語時(shí)間邊界詞詞表，作為外部特征。

4.3 標(biāo)注策略

本文標(biāo)注策略借鑒了組塊分析的方法，采用包含信息比較豐富的IOE2 標(biāo)注策略，標(biāo)記集合定義為｛B，I，E，O｝，各標(biāo)記含義見表1。如： “sawaqdashlar mektepke kelgendin bri nahaytti tiriship Oqudi.（同學(xué)們來校后學(xué)習(xí)很努力）”，標(biāo) 注為 “sawaqdashlar／O mektepke／B kelgendin／I bri／E nahaytti／O tiriship／O Oqudi／O.／O”。

表1 S／E標(biāo)注策略標(biāo)記集合定義

4.4 特征模版設(shè)計(jì)

為了充分考慮維吾爾語典型的黏著性語言特點(diǎn)，生成能反映語言本身內(nèi)在規(guī)律的模型，借助于CRFs模版，綜合利用詞、詞性、上下文等特征。在本實(shí)驗(yàn)中，還將邊界詞詞表作為外部特征引入。CRFs模型通過特征模版的選擇來調(diào)整特征函數(shù)集，尤其對(duì)于復(fù)合特征模版的選擇需要多次嘗試，最終確定最優(yōu)特征模版。本文部分特征模版示例見表2。

表2 部分特征模版示例

5 實(shí)驗(yàn)結(jié)果分析與評(píng)測(cè)

5.1 實(shí)驗(yàn)語料

實(shí)驗(yàn)利用C＃改寫的crf＋＋程序，在新疆大學(xué)多語種重點(diǎn)實(shí)驗(yàn)室的《維吾爾語百萬詞詞法分析語料庫》進(jìn)行測(cè)試，該語料庫涉及政治、經(jīng)濟(jì)、文學(xué)、科技等領(lǐng)域，囊括如小說《故鄉(xiāng)》，報(bào)告《十七大報(bào)告》，農(nóng)業(yè)雜志《棉花技術(shù)》《知識(shí)－力量》《新疆社科》和《小麥》等的部分內(nèi)容。實(shí)驗(yàn)從中隨機(jī)抽取句子26046個(gè)，采用《新疆大學(xué)維吾爾語詞性標(biāo)注規(guī)范》［20］進(jìn)行詞性標(biāo)注。進(jìn)而對(duì)所有單詞進(jìn)行詞干提取，通過人工方式對(duì)事件類時(shí)間短語標(biāo)注，作為實(shí)驗(yàn)訓(xùn)練和測(cè)試語料。實(shí)驗(yàn)中使用交叉驗(yàn)證法，每次隨機(jī)選取75%作為訓(xùn)練語料，其余25%作為測(cè)試語料。使用語料信息見表3。

表3 實(shí)驗(yàn)語料信息統(tǒng)計(jì)

5.2 實(shí)驗(yàn)結(jié)果

本文實(shí) 驗(yàn) 結(jié) 果評(píng) 測(cè) 采用 CoNLL－2000 的conlleval.pl［21］。對(duì)識(shí)別性能評(píng)估時(shí)，采用3個(gè)評(píng)測(cè)指標(biāo)：準(zhǔn)確率（precision，P），召回率（recall，R），綜合指標(biāo)F－值（Fmeasure，F(xiàn)）

為驗(yàn)證本文提出的方法，分別進(jìn)行基于詞級(jí)別和詞干提取后基于詞干級(jí)別的事件類時(shí)間短語識(shí)別實(shí)驗(yàn)。

實(shí)驗(yàn)1：詞級(jí)別的UETE識(shí)別實(shí)驗(yàn)

本組實(shí)驗(yàn)以詞為基線數(shù)據(jù)，分為五小組并分別使用如下組合特征：①Baseline：當(dāng)前使用詞特征；②Baseline＋POS：當(dāng)前詞特征＋當(dāng)前詞詞性特征；③Baseline＋POS＋DIC：當(dāng)前詞特征＋當(dāng)前詞詞性特征＋當(dāng)前詞是否在詞表；④Baseline＋POS＋DIC＋LOC：當(dāng)前詞特征＋當(dāng)前詞詞性特征＋當(dāng)前詞是否在詞表＋當(dāng)前詞位置是否在句首；⑤All Features：即當(dāng)前詞特征＋當(dāng)前詞詞性特征＋當(dāng)前詞是否在詞表＋當(dāng)前詞位置特征＋上下文特征。

識(shí)別結(jié)果見表4。從表4可以看出，即使在僅考慮詞匯特征時(shí)，對(duì)于維吾爾語事件類時(shí)間短語的識(shí)別已有較好的識(shí)別率，在Baseline基礎(chǔ)上識(shí)別效率隨著特征的加入而不斷提高，說明CRFs對(duì)特征融合能力較強(qiáng)。在依次加入詞性、位置、詞表和上下文特征后，總結(jié)果得到很大提高，F(xiàn)－值達(dá)到84.49%。結(jié)合表3的語料信息統(tǒng)計(jì)，語料中事件類時(shí)間短語僅占2.18%，但即使對(duì)于較少的數(shù)據(jù)來說，識(shí)別效果仍然很好，說明本實(shí)驗(yàn)采用CRFs模型能有效克服數(shù)據(jù)稀疏現(xiàn)象。

表4 每組特征對(duì)識(shí)別結(jié)果的影響（%）

實(shí)驗(yàn)2：詞干級(jí)別的UETE識(shí)別實(shí)驗(yàn)

為了與基于詞匯的識(shí)別結(jié)果進(jìn)行對(duì)比，在對(duì)所有句子中的單詞進(jìn)行詞干提取后，使用基于詞干的方法，以提取出的詞干為基線數(shù)據(jù)，仍使用實(shí)驗(yàn)1的分組方式，將Baseline替換為詞干特征，以相同的5組組合特征集合再次進(jìn)行識(shí)別，實(shí)驗(yàn)結(jié)果見表5。

表5 每組特征對(duì)識(shí)別結(jié)果的影響（%）

對(duì)比表4和表5不難看出，每個(gè)特征加入后識(shí)別效果都有不同程度提高，融合所有特征后，總結(jié)果得到很大提高。比較兩組識(shí)別結(jié)果可以發(fā)現(xiàn)，詞干提取后的識(shí)別率要優(yōu)于基于詞匯的識(shí)別結(jié)果，對(duì)比各組數(shù)據(jù)發(fā)現(xiàn)該結(jié)果產(chǎn)生原因是由于黏著性語言豐富的形態(tài)變化而導(dǎo)致的特征稀疏現(xiàn)象。

通過對(duì)實(shí)驗(yàn)結(jié)果分析，常見維吾爾語事件類時(shí)間短語識(shí)別錯(cuò)誤可歸類為以下3種：

（1）語料標(biāo)注錯(cuò)誤。事件類時(shí)間短語由于其以事件為錨點(diǎn)，不含數(shù)字、明顯時(shí)間特征而難于發(fā)現(xiàn)，因此在進(jìn)行原始語料人工標(biāo)注時(shí)可能漏標(biāo)或錯(cuò)標(biāo)時(shí)間信息，導(dǎo)致錯(cuò)誤級(jí)聯(lián)放大引起結(jié)果標(biāo)注錯(cuò)誤。

（2）邊界定位錯(cuò)誤。一個(gè)事件類時(shí)間短語可能由多個(gè)詞組成，CRFs雖然能識(shí)別出其中的邊界指示詞，但是卻不能準(zhǔn)確定位事件類時(shí)間短語的完整邊界。

（3）由外部特征引起的錯(cuò)誤。存在邊界詞表中的詞，在當(dāng)前上下文中可能不再表示時(shí)間意義，從而引起對(duì)非事件類時(shí)間短語的錯(cuò)誤標(biāo)注。如： “Zomigerlik axiri meghlup bolidu.”（霸權(quán)主義終歸要失?。渲?“axiri”不再具有時(shí)間意義，只是表示說話人認(rèn)為事物發(fā)展具有 “必然性”的模糊義。

6 結(jié)束語

本文針對(duì)維吾爾語典型的黏著語特性，利用現(xiàn)有的維吾爾語百萬詞詞法分析語料庫，以條件隨機(jī)場(chǎng)模型為基礎(chǔ)，改寫crf＋＋工具包，實(shí)現(xiàn)了維吾爾語事件類時(shí)間短語的識(shí)別，以基于詞和基于詞干兩種方式進(jìn)行對(duì)比實(shí)驗(yàn)，在Baseline的基礎(chǔ)上引入其它特征，提高識(shí)別效率。在模型訓(xùn)練過程中還利用了邊界詞詞表作為外部特征，該特征的加入顯著的提高了識(shí)別效果。從實(shí)驗(yàn)結(jié)果來看，該方法是可行的，對(duì)事件類時(shí)間短語的識(shí)別是有效的。

由于維吾爾語命名實(shí)體識(shí)別研究起步較晚，各項(xiàng)研究尚不完善，目前對(duì)人名、地名、機(jī)構(gòu)名的識(shí)別因語料庫等多種原因限制，也多采用基于規(guī)則的方法，而時(shí)間短語識(shí)別是其中的一個(gè)新課題，尚無學(xué)者研究，因此對(duì)比同屬黏著語的土耳其語研究文獻(xiàn) ［17］的結(jié)果，表明本文方法較好地解決了事件類時(shí)間短語的準(zhǔn)確識(shí)別和邊界定位問題。因本文提出的方法不依賴具體語言和領(lǐng)域，實(shí)驗(yàn)結(jié)果對(duì)其它黏著語的研究具有參考價(jià)值。

時(shí)間信息的識(shí)別和抽取，最終目標(biāo)是建立時(shí)間和事件、以及事件和事件之間的關(guān)系。因此在以后研究中將重點(diǎn)解決以下問題：

（1）由于本文采用機(jī)器學(xué)習(xí)方法嚴(yán)格依賴于語料規(guī)模和人工標(biāo)注結(jié)果，由實(shí)驗(yàn)錯(cuò)誤分析可知目前語料標(biāo)注標(biāo)準(zhǔn)不夠完善，因此下一步將建立準(zhǔn)確標(biāo)注規(guī)則，擴(kuò)大標(biāo)注語料庫。

（2）分析事件類時(shí)間短語語法結(jié)構(gòu)，該類時(shí)間短語除去一部分特殊的由 “事件＋詞綴”構(gòu)成，其它多是由 “事件＋邊界詞”構(gòu)成，根據(jù)構(gòu)成方式找到一種能將統(tǒng)計(jì)與規(guī)則結(jié)合的識(shí)別方法，進(jìn)而提高識(shí)別準(zhǔn)確率。

（3）利用識(shí)別結(jié)果抽取出事件類時(shí)間信息和事件，最終達(dá)到建立事件與時(shí)間的映射關(guān)系的目的。這一模型的建立對(duì)維吾爾語的機(jī)器翻譯、信息抽取等自然語言處理研究任務(wù)具有積極意義。

［1］Sasayama M，Kuroiwa S，Ren F.Extracting date／time expressions in super‐function based Japanese－English machine translation ［J］.Electronics and Communications in Japan，2011，94 （4）：44－54.

［2］Strtgen J，Gertz M.HeidelTime：High quality rule－based extraction and normalization of temporal expressions［C］／／Proceedings of the 5th International Workshop on Semantic Evaluation.Association for Computational Linguistics，2010：321－324.

［3］Dos Santos C N，MilidiúR L.Entropy guided transformation learning：Algorithms and applications［M］.London：Springer，2012：51－58.

［4］UzZaman N，Allen J F.TRIPS and TRIOS system for TempEval－2：Extracting temporal information from text［C］／／Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics，2010：276－283.

［5］Lee C，Ryu P M，Kim H K.Named entity recognition using a modified Pegasos algorithm ［C］／／Proceedings of the 20th ACM International Conference on Information and Knowledge Management.ACM，2011：2337－2340.

［6］Ritter A，Clark S，Etzioni O.Named entity recognition in tweets：An experimental study ［C］／／Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics，2011：1524－1534.

［7］Faruqui M，Padó S，Sprachverarbeitung M.Training and evaluating a German named entity recognizer with semantic generalization ［J］.Semantic Approaches in Natural Language Processing，2010，124 （9）：129－135.

［8］Finkel J R，Manning C D.Nested named entity recognition［C］／／Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics，2009：141－150.

［9］Ptaszynski M，Rzepka R，Araki K，et al.Annotating syntactic information on 5.5billion word corpus of Japanese blogs［C］／／Proceedings of the 18th Annual Meeting of the Association for Natural Language Processing，2012：385－388.

［10］Guo H，Zhu H，Guo Z，et al.Domain adaptation with latent semantic association for named entity recognition ［C］／／Proceedings of Human Language Technologies：The Annual Conference of the North American Chapter of the Association for Computational Linguistics，2009：281－289.

［11］Rizzo G，Troncy R.Nerd：A framework for unifying named entity recognition and disambiguation extraction tools ［C］／／Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics，2012：73－76.

［12］Buscaldi D，Magnini B.Grounding toponyms in an Italian local news corpus ［C］／／Proceedings of the 6th Workshop on Geographic Information Retrieval.ACM，2010：15－19.

［13］Marcińczuk M，Piasecki M.Study on named entity recognition for Polish based on hidden Markov models ［C］／／Text，Speech and Dialogue.Berlin：Springer Berlin Heidelberg，2010：142－149.

［14］Nabende P，Tiedemann J，Nerbonne J.Pair hidden Markov model for named entity matching ［M］.Innovations and Advances in Computer Sciences and Engineering.Netherlands：Springer，2010：497－502.

［15］ Mirigu，Tuergen，LIU Qun.Uighur organization name recognition ［C］／／The Fourth Session of Chinese Minority Youth Conference on Natural Language Information Processing.Qinghai：Qinghai Normal University，2012：112－117（in Chinese）.［米日姑，吐爾根，劉群.基于語法語義知識(shí)的維吾爾文機(jī)構(gòu)名識(shí)別［C］／／第四屆中國少數(shù)民族青年自然語言信息處理學(xué)術(shù)研討會(huì).青海：青海師范大學(xué)，2012：112－117.］

［16］LI Jiazheng，LIU Kai，Mairehaba，et al.Recognition and translation for Chinese names in Uighur language［J］.Journal of Chinese Information Processing，2011，25 （4）：82－87 （in Chinese）.［李佳正，劉凱，麥熱哈巴，等.維吾爾語中漢族人名的識(shí)別及翻譯［J］.中文信息學(xué)報(bào)，2011，25 （4）：82－87.］

［17］Küük D，Yazici A.Rule－based named entity recognition from Turkish texts［C］／／Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications，2009：30－36.

［18］Som T，Can D，Saraclar M.HMM－based sliding video text recognition for Turkish broadcast news ［C］／／24th International Symposium on Computer and Information Sciences，2009：475－479.

［19］CRF＋＋：Yet another CRF toolkit［EB／OL］. ［2011－08－05］.http：／／crfpp.sourceforge.net／.

［20］Turgun，YUAN Baoshe.A survey on minority language information processing research and application in Xinjiang ［J］.Journal of Chinese Information Processing，2011，25 （6）：149－156 （in Chinese）.［吐爾根，袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用［J］.中文信息學(xué)報(bào)，2011，25（6）：149－156.］

［21］Melli G，Ester M.Supervised identification and linking of concept mentions to a domain－specific ontology ［C］／／Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM，2010：1717－1720.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡