国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞干提取的維吾爾語事件類時(shí)間短語識(shí)別

2014-12-23 01:28鄒岳琳吐爾根依布拉音麥熱哈巴艾力艾山吾買爾帕力旦吐爾遜
關(guān)鍵詞:詞干維吾爾語語料

鄒岳琳,吐爾根·依布拉音,麥熱哈巴·艾力,艾山·吾買爾,帕力旦·吐爾遜

(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046;2.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊830008)

0 引 言

時(shí)間信息抽?。?]作為命名實(shí)體識(shí)別[2,3]的子任務(wù),逐漸成為自然語言處理研究中的熱點(diǎn)問題。在計(jì)算語言學(xué)領(lǐng)域,通過提取出時(shí)間短語、事件和時(shí)間的關(guān)系來計(jì)算時(shí)間維度并獲取自然語言中精確的時(shí)間表達(dá)式,最終確定文本中時(shí)間信息和事件信息的映射關(guān)系。自1998年MUC-7首次在命名實(shí)體定義中加進(jìn)了對(duì)時(shí)間評(píng)測(cè)要求以來,不少語種[4,5]的時(shí)間抽取任務(wù)已逐步完善,但對(duì)于實(shí)現(xiàn)像維吾爾語這樣典型黏著性語言的時(shí)間信息抽取仍是一個(gè)挑戰(zhàn)。

維吾爾語屬于阿爾泰語系突厥語族,是典型的黏著性語言,具有強(qiáng)大的形態(tài)生產(chǎn)特性,一個(gè)給定的詞干后綴接若干個(gè)詞綴可產(chǎn)生多個(gè)詞匯,如:küz(秋天)-küzlük (秋天的)-küzlüki(在秋天)-küzlükiche(直到秋天),因而引起數(shù)據(jù)稀疏的問題。本文研究維吾爾語文本中一類特殊的時(shí)間信息-事件類 時(shí)間短語 (uyghur event-anchored temporal expressions,UETE),該類時(shí)間短語不含數(shù)字且無明顯邊界特征,是一種隱性的時(shí)間,因而使用一般規(guī)則方法難以識(shí)別。為解決上述問題,本文考慮黏著語典型特征,提出一種將詞級(jí)別的UETE識(shí)別轉(zhuǎn)換為基于詞干的UETE 識(shí)別方法。實(shí)驗(yàn)結(jié)果表明這一方法對(duì)其它黏著性語言研究具有通用性和擴(kuò)展性。

1 研究背景

在自然語言中,時(shí)間信息用來描述事件的發(fā)生、變化及事件間的先后順序。時(shí)間信息的表達(dá)具有多樣性、無規(guī)則性和不唯一性,其類別以是否包含數(shù)字特征可分為顯性時(shí)間信息和隱性時(shí)間信息;以參考對(duì)象可分為相對(duì)時(shí)間和絕對(duì)時(shí)間;以坐標(biāo)系理論又可分為時(shí)間點(diǎn)和時(shí)間段。豐富多樣的表述形式給時(shí)間信息識(shí)別增大了難度,國內(nèi)外文獻(xiàn)中常用的解決方法主要是基于規(guī)則 (rule-based)的方法和基于統(tǒng)計(jì) (statistic-based)的方法。通常識(shí)別對(duì)象具有多樣性、無規(guī)則性等特點(diǎn),基于規(guī)則的方法需要人工構(gòu)建大量規(guī)則,代價(jià)高,難以全面概括復(fù)雜的語言現(xiàn)象,對(duì)于不同語言得到的規(guī)則不具有可移植性。而基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法多是通過分類器學(xué)習(xí),利用特征將識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題,在信息識(shí)別中有著不錯(cuò)的表現(xiàn),但對(duì)語料嚴(yán)格依賴。

現(xiàn)階段信息識(shí)別研究涉及語種包括英語[6],德語[7],西班 牙 語[8],日 語[9],漢 語[10],法 語[11],意 大 利 語[12],葡萄牙語[13],俄語[14]等。相對(duì)來說維吾爾語的信息識(shí)別研究由于條件限制,起步較晚,命名實(shí)體識(shí)別任務(wù)尚處于初級(jí)階段,研究者多選用基于規(guī)則方法進(jìn)行命名實(shí)體識(shí)別[15,16]。考慮到維吾爾語與土耳其語同屬阿爾泰語系突厥語族,都屬于黏著性語言,語法較相似,因而以土耳其語對(duì)兩種主流方法進(jìn)行對(duì)比分析。

在基于規(guī)則的方法研究,Küük等[17]在土耳其語命名實(shí)體識(shí)別研究中做出了比較具有代表性的嘗試,文中提出建立多個(gè)詞典資源和模式庫,通過規(guī)則匹配方式對(duì)人名、地名和機(jī)構(gòu)名進(jìn)行識(shí)別。作者提出的方法使用起來非常簡單,易于理解,且實(shí)驗(yàn)結(jié)果表明取得了較好識(shí)別效果,但該方法人工工作量較大,需要分別建立人名、地名及機(jī)構(gòu)名的詞典庫和模式庫,建立語法規(guī)則。

在基于統(tǒng)計(jì)的方法研究,Som T 等[18]在其研究中使用隱馬爾可夫模型,利用機(jī)器學(xué)習(xí)的方式進(jìn)行嘗試,充分利用標(biāo)注語料特征,使得識(shí)別率、召回率提高。實(shí)驗(yàn)結(jié)果表明,基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)方法在信息識(shí)別任務(wù)中有著不錯(cuò)的表現(xiàn),適合大規(guī)模復(fù)雜語料情況。

本文采用基于統(tǒng)計(jì)的條件隨機(jī)場(chǎng)模型,通過對(duì)UETE構(gòu)成特點(diǎn)分析,結(jié)合黏著語構(gòu)詞特征,分別在詞匯層面和詞干層面實(shí)現(xiàn)UETE短語的識(shí)別,在新疆大學(xué)維吾爾語百萬詞詞法分析語料庫的實(shí)驗(yàn)結(jié)果顯著,F(xiàn)-值達(dá)到85.37%,這一結(jié)果對(duì)于其它黏著語言的研究具有參考價(jià)值。

2 維吾爾語的事件類時(shí)間短語

2.1 概 述

時(shí)間信息識(shí)別研究中存在時(shí)間短語邊界定位不準(zhǔn)確和復(fù)雜時(shí)間短語識(shí)別困難兩大問題,除此之外維吾爾語復(fù)雜的形態(tài)變化也增加了UETE 的識(shí)別難度。其形態(tài)變化可分為兩種情況,其一,詞干后綴接不同詞綴,表現(xiàn)出不同形態(tài)而表達(dá)不同意義。如:yaz (夏天,n.)-yazniN (夏天的,adj.)-yazda(在夏天的時(shí)候,adv.);其二,詞干綴接詞綴時(shí),可多層綴接,這也是導(dǎo)致維吾爾語詞匯量龐大的原因。如漢語中 “你們不能進(jìn)行標(biāo)準(zhǔn)化嗎?”翻譯成維吾爾語為 “l(fā)chemlextürelmemsiler”,由詞干 “l(fā)chem” (標(biāo)準(zhǔn))綴接多個(gè)詞綴 (+lex+tür+el+m+siler),僅通過一個(gè)詞干綴接多層詞綴實(shí)現(xiàn)完整語法功能。

2.2 UETE定義和分類

定義 在句子中以事件為參考系的時(shí)間信息,一般是事件及與時(shí)間描述相關(guān)詞匯的組合。如:yighinchixtin burun (開會(huì)之前)。其中,事件為 “yighinchixtin(開會(huì))”,時(shí)間描述相關(guān)詞匯為 “burun (……之前)”。

由定義可以看出,事件類時(shí)間短語不同于含有數(shù)字特征的顯性時(shí)間短語,也不給出事件發(fā)生的精確時(shí)間,它屬于一種相對(duì)時(shí)間信息,是以一個(gè)事件為參考系而確定另一事件的發(fā)生時(shí)間,其中起參考系作用的事件被稱為參考事件。以參考事件為中心映射到坐標(biāo)軸,對(duì)應(yīng)的點(diǎn)和段分別稱為時(shí)點(diǎn)事件類時(shí)間和時(shí)段事件類時(shí)間。時(shí)點(diǎn)事件類時(shí)間用來表示在什么時(shí)候發(fā)生的事件行為,如:hadise yüz bergen chüshtin kyin (事故發(fā)生的當(dāng)天),而時(shí)段事件類時(shí)間用來表示在什么時(shí)間段里發(fā)生的事件行為,如inqilapning deslepliride(改革初期),tamaqtin kyinki ikki saet(吃 過飯兩個(gè)小時(shí)后)等。

2.3 UETE特點(diǎn)和結(jié)構(gòu)

事件類時(shí)間短語以事件為中心,其表達(dá)的時(shí)間信息是隱性的,有時(shí)不易察覺。如mekteptin qaytqandin kyin (放學(xué)后),其中包含的時(shí)間信息很容易被人為忽略。此外,維吾爾語強(qiáng)大的形態(tài)生成功能也使得其事件類時(shí)間短語的構(gòu)成更為復(fù)雜,其形態(tài)變化按詞干意義劃分可分為兩類:其一,某些非時(shí)間后附加成分可能構(gòu)成時(shí)間詞,如desse(踩)-desside(立刻);其二,某些時(shí)間詞后可附加詞尾構(gòu)成不同時(shí)間詞,如kech (晚上)-kchiche(整夜)。

由定義,維吾爾語事件類時(shí)間短語一般由事件+邊界搭配詞構(gòu)成。如:sawaqdashlar mektepke kelgendin bri nahaytti tiriship Oqudi.(同學(xué)們來校后學(xué)習(xí)很努力),其中“mektepke kelgendin”為中心事件,“bri”(以來)為邊界搭配詞。在維吾爾語中,這樣的邊界詞還有:toxtimaq (截止),kyin (之后,以后),mezgil(期間,時(shí)期),Ilgiri(以前),deslepki mezgil(初 期,前 期),harpa (前 夕),waqit(時(shí)候)等。

3 條件隨機(jī)場(chǎng)模型

條件隨機(jī)場(chǎng) (conditional random fields,CRFs)是一種典型的序列標(biāo)注判別模型,最早在2001年由Lafferty等提出,模型思想的主要來源是最大熵模型,可以被看成是一個(gè)無向圖模型或馬爾可夫隨機(jī)場(chǎng)。該模型是在給定觀察序列的條件下,計(jì)算整個(gè)觀察序列狀態(tài)標(biāo)記的聯(lián)合條件概率的無向圖模型,采用一階鏈?zhǔn)浇Y(jié)構(gòu)來構(gòu)造模型 (如圖1所示)。

圖1 條件隨機(jī)場(chǎng)概率模型

根據(jù)最大熵原理和無向圖理論,對(duì)輸入觀察序列X =(x1,x2,…xn),狀態(tài)序列Y =(y1,y2…yn),CRFs的形式可以用一個(gè)聯(lián)合條件概率分布P =(Y X)來表示,定義為

其中,λj和μj 為特征權(quán)重,可采用IIS (improved iterative scaling)、感 知 機(jī) (perceptron)或GIS (generalized iterative scaling)等迭代算法估算。

CRFs是一種典型判別式模型,常被用于解決序列化標(biāo)注問題。它兼具判別式模型的優(yōu)點(diǎn)和產(chǎn)生式模型的特點(diǎn),考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,不再是對(duì)每個(gè)節(jié)點(diǎn)都進(jìn)行歸一化,而是對(duì)所有特征進(jìn)行全局歸一化,以序列化的

4 UETE的識(shí)別系統(tǒng)

4.1 基于CRFs的UETE識(shí)別模型

對(duì)于UETE的識(shí)別,不僅是要能自動(dòng)識(shí)別隱性的事件類時(shí)間,更重要的是能確定其精確匹配的邊界。本文采用基于條件隨機(jī)場(chǎng)模型的識(shí)別方法,目前用于實(shí)現(xiàn)CRFs的工具包有Flex CRF,CRF++和Pocket CRF等,本文利用C#對(duì)CRFs開源工具包CRF++0.57[19]進(jìn)行了改寫,開發(fā)了維吾爾語事件類時(shí)間短語識(shí)別系統(tǒng),基于CRFs 的UETE識(shí)別 (如圖2 所示)主要有數(shù)據(jù)訓(xùn)練和數(shù)據(jù)測(cè)試兩部分。

圖2 基于CRFs模型的UETE抽取模型

4.2 特征選擇

為了獲取最優(yōu)實(shí)驗(yàn)結(jié)果,特征選擇在CRFs模型中對(duì)識(shí)別效率有著極為重要的影響。有效的特征集合不但能有效地降低干擾噪聲、壓縮特征空間減少計(jì)算量,更有助于提高標(biāo)注效率和識(shí)別準(zhǔn)確率。經(jīng)過分析,影響事件類時(shí)間識(shí)別效果的因素主要有詞、詞性、位置特征等。綜合考慮本文特征選擇如下:

(1)詞匯特征 (WORD):詞是維吾爾語最小單位,源語料中詞本身被作為一個(gè)特征。同時(shí)前兩個(gè)詞和后兩個(gè)詞也被作為上下文特征。

(2)詞性特征 (POS):詞性用來表明詞在句子中充當(dāng)?shù)恼Z法功能,對(duì)源語料預(yù)處理時(shí)標(biāo)注出每個(gè)詞的屬性,這一特征可以在檢測(cè)時(shí)定位時(shí)間短語邊界詞的位置。

(3)位置特征 (LOC):利用事件類時(shí)間短語出現(xiàn)的位置作為特征。事件類時(shí)間短語出現(xiàn)在句首,常用于表示事件發(fā)生的特定時(shí)間。

(4)詞表特征 (DIC):通過對(duì)現(xiàn)有語料庫資源統(tǒng)計(jì),人工統(tǒng)計(jì)建立維吾爾語時(shí)間邊界詞詞表,作為外部特征。

4.3 標(biāo)注策略

本文標(biāo)注策略借鑒了組塊分析的方法,采用包含信息比較豐富的IOE2 標(biāo)注策略,標(biāo)記集合定義為 {B,I,E,O},各標(biāo)記含義見表1。如: “sawaqdashlar mektepke kelgendin bri nahaytti tiriship Oqudi.(同學(xué)們來校 后學(xué)習(xí)很 努 力)”, 標(biāo) 注 為 “sawaqdashlar/O mektepke/B kelgendin/I bri/E nahaytti/O tiriship/O Oqudi/O./O”。

表1 S/E標(biāo)注策略標(biāo)記集合定義

4.4 特征模版設(shè)計(jì)

為了充分考慮維吾爾語典型的黏著性語言特點(diǎn),生成能反映語言本身內(nèi)在規(guī)律的模型,借助于CRFs模版,綜合利用詞、詞性、上下文等特征。在本實(shí)驗(yàn)中,還將邊界詞詞表作為外部特征引入。CRFs模型通過特征模版的選擇來調(diào)整特征函數(shù)集,尤其對(duì)于復(fù)合特征模版的選擇需要多次嘗試,最終確定最優(yōu)特征模版。本文部分特征模版示例見表2。

表2 部分特征模版示例

5 實(shí)驗(yàn)結(jié)果分析與評(píng)測(cè)

5.1 實(shí)驗(yàn)語料

實(shí)驗(yàn)利用C#改寫的crf++程序,在新疆大學(xué)多語種重點(diǎn)實(shí)驗(yàn)室的 《維吾爾語百萬詞詞法分析語料庫》進(jìn)行測(cè)試,該語料庫涉及政治、經(jīng)濟(jì)、文學(xué)、科技等領(lǐng)域,囊括如小說 《故鄉(xiāng)》,報(bào)告 《十七大報(bào)告》,農(nóng)業(yè)雜志 《棉花技術(shù)》《知識(shí)-力量》 《新疆社科》和 《小麥》等的部分內(nèi)容。實(shí)驗(yàn)從中隨機(jī)抽取句子26046個(gè),采用 《新疆大學(xué)維吾爾語詞性標(biāo)注規(guī)范》[20]進(jìn)行詞性標(biāo)注。進(jìn)而對(duì)所有單詞進(jìn)行詞干提取,通過人工方式對(duì)事件類時(shí)間短語標(biāo)注,作為實(shí)驗(yàn)訓(xùn)練和測(cè)試語料。實(shí)驗(yàn)中使用交叉驗(yàn)證法,每次隨機(jī)選取75%作為訓(xùn)練語料,其余25%作為測(cè)試語料。使用語料信息見表3。

表3 實(shí)驗(yàn)語料信息統(tǒng)計(jì)

5.2 實(shí)驗(yàn)結(jié)果

本文 實(shí) 驗(yàn) 結(jié) 果 評(píng) 測(cè) 采 用 CoNLL-2000 的conlleval.pl[21]。對(duì)識(shí)別性能評(píng)估時(shí),采用3個(gè)評(píng)測(cè)指標(biāo):準(zhǔn)確率(precision,P),召回率 (recall,R),綜合指標(biāo)F-值 (Fmeasure,F(xiàn))

為驗(yàn)證本文提出的方法,分別進(jìn)行基于詞級(jí)別和詞干提取后基于詞干級(jí)別的事件類時(shí)間短語識(shí)別實(shí)驗(yàn)。

實(shí)驗(yàn)1:詞級(jí)別的UETE識(shí)別實(shí)驗(yàn)

本組實(shí)驗(yàn)以詞為基線數(shù)據(jù),分為五小組并分別使用如下組合特征:①Baseline:當(dāng)前使用詞特征;②Baseline+POS:當(dāng)前詞特征+當(dāng)前詞詞性特征;③Baseline+POS+DIC:當(dāng)前詞特征+當(dāng)前詞詞性特征+當(dāng)前詞是否在詞表;④Baseline+POS+DIC+LOC:當(dāng)前詞特征+當(dāng)前詞詞性特征+當(dāng)前詞是否在詞表+當(dāng)前詞位置是否在句首;⑤All Features:即當(dāng)前詞特征+當(dāng)前詞詞性特征+當(dāng)前詞是否在詞表+當(dāng)前詞位置特征+上下文特征。

識(shí)別結(jié)果見表4。從表4可以看出,即使在僅考慮詞匯特征時(shí),對(duì)于維吾爾語事件類時(shí)間短語的識(shí)別已有較好的識(shí)別率,在Baseline基礎(chǔ)上識(shí)別效率隨著特征的加入而不斷提高,說明CRFs對(duì)特征融合能力較強(qiáng)。在依次加入詞性、位置、詞表和上下文特征后,總結(jié)果得到很大提高,F(xiàn)-值達(dá)到84.49%。結(jié)合表3的語料信息統(tǒng)計(jì),語料中事件類時(shí)間短語僅占2.18%,但即使對(duì)于較少的數(shù)據(jù)來說,識(shí)別效果仍然很好,說明本實(shí)驗(yàn)采用CRFs模型能有效克服數(shù)據(jù)稀疏現(xiàn)象。

表4 每組特征對(duì)識(shí)別結(jié)果的影響 (%)

實(shí)驗(yàn)2:詞干級(jí)別的UETE識(shí)別實(shí)驗(yàn)

為了與基于詞匯的識(shí)別結(jié)果進(jìn)行對(duì)比,在對(duì)所有句子中的單詞進(jìn)行詞干提取后,使用基于詞干的方法,以提取出的詞干為基線數(shù)據(jù),仍使用實(shí)驗(yàn)1的分組方式,將Baseline替換為詞干特征,以相同的5組組合特征集合再次進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果見表5。

表5 每組特征對(duì)識(shí)別結(jié)果的影響 (%)

對(duì)比表4和表5不難看出,每個(gè)特征加入后識(shí)別效果都有不同程度提高,融合所有特征后,總結(jié)果得到很大提高。比較兩組識(shí)別結(jié)果可以發(fā)現(xiàn),詞干提取后的識(shí)別率要優(yōu)于基于詞匯的識(shí)別結(jié)果,對(duì)比各組數(shù)據(jù)發(fā)現(xiàn)該結(jié)果產(chǎn)生原因是由于黏著性語言豐富的形態(tài)變化而導(dǎo)致的特征稀疏現(xiàn)象。

通過對(duì)實(shí)驗(yàn)結(jié)果分析,常見維吾爾語事件類時(shí)間短語識(shí)別錯(cuò)誤可歸類為以下3種:

(1)語料標(biāo)注錯(cuò)誤。事件類時(shí)間短語由于其以事件為錨點(diǎn),不含數(shù)字、明顯時(shí)間特征而難于發(fā)現(xiàn),因此在進(jìn)行原始語料人工標(biāo)注時(shí)可能漏標(biāo)或錯(cuò)標(biāo)時(shí)間信息,導(dǎo)致錯(cuò)誤級(jí)聯(lián)放大引起結(jié)果標(biāo)注錯(cuò)誤。

(2)邊界定位錯(cuò)誤。一個(gè)事件類時(shí)間短語可能由多個(gè)詞組成,CRFs雖然能識(shí)別出其中的邊界指示詞,但是卻不能準(zhǔn)確定位事件類時(shí)間短語的完整邊界。

(3)由外部特征引起的錯(cuò)誤。存在邊界詞表中的詞,在當(dāng)前上下文中可能不再表示時(shí)間意義,從而引起對(duì)非事件類時(shí)間短語的錯(cuò)誤標(biāo)注。如: “Zomigerlik axiri meghlup bolidu.”(霸權(quán)主義終歸要失?。渲?“axiri”不再具有時(shí)間意義,只是表示說話人認(rèn)為事物發(fā)展具有 “必然性”的模糊義。

6 結(jié)束語

本文針對(duì)維吾爾語典型的黏著語特性,利用現(xiàn)有的維吾爾語百萬詞詞法分析語料庫,以條件隨機(jī)場(chǎng)模型為基礎(chǔ),改寫crf++工具包,實(shí)現(xiàn)了維吾爾語事件類時(shí)間短語的識(shí)別,以基于詞和基于詞干兩種方式進(jìn)行對(duì)比實(shí)驗(yàn),在Baseline的基礎(chǔ)上引入其它特征,提高識(shí)別效率。在模型訓(xùn)練過程中還利用了邊界詞詞表作為外部特征,該特征的加入顯著的提高了識(shí)別效果。從實(shí)驗(yàn)結(jié)果來看,該方法是可行的,對(duì)事件類時(shí)間短語的識(shí)別是有效的。

由于維吾爾語命名實(shí)體識(shí)別研究起步較晚,各項(xiàng)研究尚不完善,目前對(duì)人名、地名、機(jī)構(gòu)名的識(shí)別因語料庫等多種原因限制,也多采用基于規(guī)則的方法,而時(shí)間短語識(shí)別是其中的一個(gè)新課題,尚無學(xué)者研究,因此對(duì)比同屬黏著語的土耳其語研究文獻(xiàn) [17]的結(jié)果,表明本文方法較好地解決了事件類時(shí)間短語的準(zhǔn)確識(shí)別和邊界定位問題。因本文提出的方法不依賴具體語言和領(lǐng)域,實(shí)驗(yàn)結(jié)果對(duì)其它黏著語的研究具有參考價(jià)值。

時(shí)間信息的識(shí)別和抽取,最終目標(biāo)是建立時(shí)間和事件、以及事件和事件之間的關(guān)系。因此在以后研究中將重點(diǎn)解決以下問題:

(1)由于本文采用機(jī)器學(xué)習(xí)方法嚴(yán)格依賴于語料規(guī)模和人工標(biāo)注結(jié)果,由實(shí)驗(yàn)錯(cuò)誤分析可知目前語料標(biāo)注標(biāo)準(zhǔn)不夠完善,因此下一步將建立準(zhǔn)確標(biāo)注規(guī)則,擴(kuò)大標(biāo)注語料庫。

(2)分析事件類時(shí)間短語語法結(jié)構(gòu),該類時(shí)間短語除去一部分特殊的由 “事件+詞綴”構(gòu)成,其它多是由 “事件+邊界詞”構(gòu)成,根據(jù)構(gòu)成方式找到一種能將統(tǒng)計(jì)與規(guī)則結(jié)合的識(shí)別方法,進(jìn)而提高識(shí)別準(zhǔn)確率。

(3)利用識(shí)別結(jié)果抽取出事件類時(shí)間信息和事件,最終達(dá)到建立事件與時(shí)間的映射關(guān)系的目的。這一模型的建立對(duì)維吾爾語的機(jī)器翻譯、信息抽取等自然語言處理研究任務(wù)具有積極意義。

[1]Sasayama M,Kuroiwa S,Ren F.Extracting date/time expressions in super‐function based Japanese-English machine translation [J].Electronics and Communications in Japan,2011,94 (4):44-54.

[2]Strtgen J,Gertz M.HeidelTime:High quality rule-based extraction and normalization of temporal expressions[C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Association for Computational Linguistics,2010:321-324.

[3]Dos Santos C N,MilidiúR L.Entropy guided transformation learning:Algorithms and applications[M].London:Springer,2012:51-58.

[4]UzZaman N,Allen J F.TRIPS and TRIOS system for TempEval-2:Extracting temporal information from text[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Association for Computational Linguistics,2010:276-283.

[5]Lee C,Ryu P M,Kim H K.Named entity recognition using a modified Pegasos algorithm [C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management.ACM,2011:2337-2340.

[6]Ritter A,Clark S,Etzioni O.Named entity recognition in tweets:An experimental study [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[7]Faruqui M,Padó S,Sprachverarbeitung M.Training and evaluating a German named entity recognizer with semantic generalization [J].Semantic Approaches in Natural Language Processing,2010,124 (9):129-135.

[8]Finkel J R,Manning C D.Nested named entity recognition[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2009:141-150.

[9]Ptaszynski M,Rzepka R,Araki K,et al.Annotating syntactic information on 5.5billion word corpus of Japanese blogs[C]//Proceedings of the 18th Annual Meeting of the Association for Natural Language Processing,2012:385-388.

[10]Guo H,Zhu H,Guo Z,et al.Domain adaptation with latent semantic association for named entity recognition [C]//Proceedings of Human Language Technologies:The Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009:281-289.

[11]Rizzo G,Troncy R.Nerd:A framework for unifying named entity recognition and disambiguation extraction tools [C]//Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics,2012:73-76.

[12]Buscaldi D,Magnini B.Grounding toponyms in an Italian local news corpus [C]//Proceedings of the 6th Workshop on Geographic Information Retrieval.ACM,2010:15-19.

[13]Marcińczuk M,Piasecki M.Study on named entity recognition for Polish based on hidden Markov models [C]//Text,Speech and Dialogue.Berlin:Springer Berlin Heidelberg,2010:142-149.

[14]Nabende P,Tiedemann J,Nerbonne J.Pair hidden Markov model for named entity matching [M].Innovations and Advances in Computer Sciences and Engineering.Netherlands:Springer,2010:497-502.

[15] Mirigu,Tuergen,LIU Qun.Uighur organization name recognition [C]//The Fourth Session of Chinese Minority Youth Conference on Natural Language Information Processing.Qinghai:Qinghai Normal University,2012:112-117(in Chinese).[米日姑,吐爾根,劉群.基于語法語義知識(shí)的維吾爾文機(jī)構(gòu)名識(shí)別 [C]//第四屆中國少數(shù)民族青年自然語言信息處理學(xué)術(shù)研討會(huì).青海:青海師范大學(xué),2012:112-117.]

[16]LI Jiazheng,LIU Kai,Mairehaba,et al.Recognition and translation for Chinese names in Uighur language[J].Journal of Chinese Information Processing,2011,25 (4):82-87 (in Chinese).[李佳正,劉凱,麥熱哈巴,等.維吾爾語中漢族人名的識(shí)別及翻譯 [J].中文信息學(xué)報(bào),2011,25 (4):82-87.]

[17]Küük D,Yazici A.Rule-based named entity recognition from Turkish texts[C]//Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications,2009:30-36.

[18]Som T,Can D,Saraclar M.HMM-based sliding video text recognition for Turkish broadcast news [C]//24th International Symposium on Computer and Information Sciences,2009:475-479.

[19]CRF++:Yet another CRF toolkit[EB/OL]. [2011-08-05].http://crfpp.sourceforge.net/.

[20]Turgun,YUAN Baoshe.A survey on minority language information processing research and application in Xinjiang [J].Journal of Chinese Information Processing,2011,25 (6):149-156 (in Chinese).[吐爾根,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用 [J].中文信息學(xué)報(bào),2011,25(6):149-156.]

[21]Melli G,Ester M.Supervised identification and linking of concept mentions to a domain-specific ontology [C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.ACM,2010:1717-1720.

猜你喜歡
詞干維吾爾語語料
論柯爾克孜語詞干提取方法
維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識(shí)別方法
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
融合多策略的維吾爾語詞干提取方法
基于維吾爾語詞干詞綴粒度的漢維機(jī)器翻譯
《苗防備覽》中的湘西語料