国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

泰語新聞事件觸發(fā)詞抽取研究

2017-04-18 00:29彭籍沖
價值工程 2017年11期

彭籍沖

摘要:自然語言領(lǐng)域內(nèi)事件抽取是信息抽取中一項重要的研究課題。事件觸發(fā)詞的識別與抽取在事件抽取中扮演著重要角色。針對目前缺少對泰語觸發(fā)詞識別與抽取的技術(shù)研究,提出了通過中文事件觸發(fā)詞入手構(gòu)建初始泰語新聞事件觸發(fā)詞表,并根據(jù)初始泰語新聞事件觸發(fā)詞表自動抽取泰語觸發(fā)詞。實驗結(jié)果表明此方法很好有效的實現(xiàn)了泰語新聞事件觸發(fā)詞的識別與抽取。

Abstract: The research of event extraction in natural language processing field is an important research topic in information extraction area, and the recognition and extraction of event trigger word plays a decisive role in event extraction. For the current situation that lacks of technology research of Thai trigger word recognition and extraction, propose to build the initial Thai news events trigger words table by Chinese event trigger words, and extract Thai trigger word automatically based on initial Thai news events trigger word table. Experimental results show that this method can effectively realize the Thai news events trigger word recognition and automatic extraction.

關(guān)鍵詞:事件抽?。恍侣勈录?;泰語觸發(fā)詞表;觸發(fā)詞抽取

Key words: event extraction;news events;Thai trigger word table;trigger word extraction

中圖分類號: TP311 文獻標識碼:A 文章編號:1006-4311(2017)11-0226-03

0 引言

隨著全球化的推進,中國與泰國之間政治、經(jīng)濟、文化交流日益頻繁。中泰兩國之間各方面交往的新聞報道越來越多,而新聞報道能客觀地反映一個國家對不同領(lǐng)域的政策和態(tài)度。對泰國新聞事件進行有效的抽取,有利于更好地了解泰語新聞報道的內(nèi)容,以便更好地處理中國與泰國的國際關(guān)系。因此,對泰語新聞事件抽取研究至關(guān)重要。

新聞事件抽取主要把人們感興趣的新聞以結(jié)構(gòu)化的形式呈現(xiàn)出來,如什么時間,什么地方,發(fā)生什么事,由哪些人參與或被涉及。事件在不同領(lǐng)域有著不同的定義,在信息抽?。↖nformation Extraction,IE)中,事件是指某個特定的時間和環(huán)境下發(fā)生的、由若干角色參與、表現(xiàn)出若干動作特征的一件事情,通常情況下是句子級。在ACE(Automatic Content Extraction)評測會議中,事件定義為由事件觸發(fā)詞及事件元素構(gòu)成??梢?,事件觸發(fā)詞識別與抽取是事件抽取的關(guān)鍵。因此,本文將參照ACE2005[1]有關(guān)事件抽取的相關(guān)定義,開展泰語新聞事件觸發(fā)詞的抽取研究。

1 國內(nèi)外研究現(xiàn)狀

作為信息抽取的一個熱門研究領(lǐng)域,事件抽取研究主要聚焦在中英文兩方面。Ahn[2]用英語句中的每一個詞作為實例,使用二元分類的方法判別句中的詞是否為觸發(fā)詞,用多元分類方法識別它所屬事件類型。這種方法能夠自動識別觸發(fā)詞和事件類型。但是,句子中的每一個詞作為實例用于訓(xùn)練機器學習模型導(dǎo)致引入大量的反例,造成正反例嚴重失衡。Hilda Hardy[3]提出了基于數(shù)據(jù)驅(qū)動的方法進行篇章級的事件識別,并進一步證明了選取特征向量用于訓(xùn)練常見學習算法比人工定義規(guī)則模型進行事件識別用時更短而且不受專業(yè)限制。Ji Heng[4]提出基于規(guī)則的方法對觸發(fā)詞、事件參與者和角色進行判斷的方法實現(xiàn)同一話題集文檔的事件抽取,不再局限于對一篇文檔進行事件抽取。由于考慮了全局信息,即話題集簇中的所有相關(guān)文檔,該方法取得了很好的效果。趙妍妍[5]提出根據(jù)對構(gòu)建的初始中文觸發(fā)詞表,先采用類似TF*IDF的方法過濾存在一詞多義現(xiàn)象的觸發(fā)詞,再使用《同義詞詞林(擴展版)》擴充觸發(fā)詞表,不僅提高了召回率,而且解決了由于語料小構(gòu)建的觸發(fā)詞表有限的不足。侯立斌[6]提出了通過LDA模型對詞語聚類來解決詞形特征過擬合問題,并使用基于字的事件觸發(fā)詞檢測的方法解決中文自動分詞與標注與觸發(fā)詞邊界不一致問題。LongTian[7]以CEC語料庫作為訓(xùn)練語料及測試預(yù)料,提出了結(jié)合擴展事件觸發(fā)詞表與機器學習的方法進行事件觸發(fā)詞的自動抽取。實驗結(jié)果表明提取中文事件觸發(fā)詞的F值達到了71.2%。朱少華[8]采用基于馬爾科夫邏輯網(wǎng)絡(luò),利用觸發(fā)詞或核心詞素同指與相關(guān)一致性推理規(guī)則,學習訓(xùn)練語料中候選觸發(fā)詞填充真假事件的概率和觸發(fā)詞實例間的關(guān)系,進行中文觸發(fā)詞推理,巧妙地利用同一文檔中各個觸發(fā)詞實例之間的一致性關(guān)系,此方法觸發(fā)詞識別的F值達到了73.79%。

2 泰語新聞事件觸發(fā)詞抽取

首先,本文根據(jù)CEC[11]語料庫創(chuàng)建初始中文觸發(fā)詞表;使用《哈工大信息檢索研究室同義詞詞林擴展版》[12]對初始中文觸發(fā)詞表進行擴展;調(diào)用百度翻譯API端口[13],將中文觸發(fā)詞翻譯為泰語,生成初始泰語觸發(fā)詞表。然后,對泰語新聞文本句子進行預(yù)處理,其中包括分詞、標注詞性、抽取實體,將抽取出的實體構(gòu)建候選觸發(fā)詞集。最后,根據(jù)初始泰語觸發(fā)詞表計算候選觸發(fā)詞集中詞的權(quán)重值,進而實現(xiàn)使用初始泰語觸發(fā)詞表對泰語新聞事件觸發(fā)詞的識別與抽取。泰語新聞事件觸發(fā)詞抽取過程如圖1所示。

2.1 構(gòu)建中文初始觸發(fā)詞表

根據(jù)CEC語料構(gòu)建一張中文初始觸發(fā)詞表。CEC語料庫,包含五類新聞文本:地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒,共計332篇。其中已經(jīng)對事件、觸發(fā)詞、事件類型、事件元素進行標注。構(gòu)建的部分初始中文觸發(fā)詞表如表1所示。

2.2 擴展初始中文觸發(fā)詞表

由于語料規(guī)模太小覆蓋面不夠廣泛,許多事件類型的觸發(fā)詞無法召回。如:新聞句E1印尼蘇門答臘島附近海域1個月來發(fā)生多次強震?!皬娬稹辈辉诘卣痤愂录|發(fā)詞表中,E1就很難被識別為地震類事件。而“強震”與地震類事件觸發(fā)詞表中“余震”在同義詞詞林中被標記為同類詞。Id14E02#余震、強震。所以根據(jù)文獻[14]提出的使用《哈工大信息檢索研究室同義詞詞林擴展版》對觸發(fā)詞表進行擴展來解決語料小召回率低的問題。然而,還存在一些觸發(fā)詞在同義詞詞林中有兩種編碼。如在同義詞詞林中查詢“震動”可得到以下兩個詞條:Id14E01=顫動、抖動、顛簸、顛、震、簸蕩、震蕩、振蕩、振動、震動、共振;Je02B01=觸動、感動、打動、撥動、震動、激動、震撼、撼動、撼、動。這種情況我們判定此項詞條中是否含有其他詞在同事件類觸發(fā)詞表中。Id14E01=詞條中存在“震”、“振動”同在地震類事件觸發(fā)詞表中,而Je02B01=詞條中并不存在多個(多余兩個)詞同屬地震類事件觸發(fā)詞。這種情況下,即把Id14E01=中的所有詞匯擴展到地震類事件觸發(fā)詞表中。根據(jù)以上方法對初始中文觸發(fā)詞表進行擴展。部分擴展觸發(fā)詞表如表2所示。

2.3 泰語觸發(fā)詞表的生成

2.4 基于泰語新聞事件觸發(fā)詞表抽取泰語新聞事件觸發(fā)詞

根據(jù)泰語新聞事件觸發(fā)詞表抽取泰語新聞事件觸發(fā)詞。由于泰語文本中不采用標點符號或是空格進行句子分割的使用特性與目前缺少對泰語文本句子切分的相關(guān)研究,本文開展對泰語新聞句子進行泰語新聞事件觸發(fā)詞抽取。首先,根據(jù)文獻[15]將泰語新聞句預(yù)處理,包含分詞、標注詞性;其次,提取出其中的名詞、動詞(文獻[16]統(tǒng)計表明觸發(fā)詞基本為名詞、動詞,此舉很大程度上縮小候選觸發(fā)詞集的范圍);最后,構(gòu)建候選泰語新聞事件觸發(fā)詞集。

3.2 實驗結(jié)果與分析

本文從中泰雙語新聞網(wǎng)[17]選取1000個泰語新聞句子作為實驗數(shù)據(jù)。將其中750個泰語新聞句作為訓(xùn)練語料,250個泰語新聞句作為測試預(yù)料。對訓(xùn)練預(yù)料進行標注,參照CEC標注標準,標記出事件、觸發(fā)詞、事件類型。由于在泰語觸發(fā)詞提抽取方法研究方面,目前未見相關(guān)研究論文。因此,本文僅給出了我們方法的實驗結(jié)果,實驗結(jié)果如表4所示。

實驗結(jié)果表明,由于泰語分詞、詞性標注準確率對泰語觸發(fā)詞識別及抽取有著較大影響及泰語新聞標注語料過于單一的這些原因,導(dǎo)致根據(jù)抽取泰語觸發(fā)詞的準確率不高,但召回率比較理想。

4 結(jié)語

目前泰語新聞事件抽取研究處于起步階段,本文提出通過中文觸發(fā)詞表構(gòu)建泰語觸發(fā)詞表,并通過泰語觸發(fā)詞表對泰語新聞文本中觸發(fā)詞進行抽取。實驗表明,此方法對泰語觸發(fā)詞抽取是可行的。為了實現(xiàn)更好的抽取結(jié)果,提高泰語新聞觸發(fā)詞抽取的準確率,下一步的工作重心是擴大泰語標注語料,結(jié)合泰語語言特性構(gòu)造特征向量,并結(jié)合機器學習的方法進行泰語新聞事件觸發(fā)詞抽取研究。

參考文獻:

[1]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[S]. National Institute of Standards and Technology, 2005.

[2]Ahn D. The stages of event extraction [C]. Arte06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events, 2006:1-8.

[3]Hardy, H., Kanchakouskaya, V., Stzalkowski, T. Automatic Event Classification Using Surface Text Features[C]. AAAI 2006 Workshop on Event Extraction and Synthesis, Boston, MA (2006).

[4]Ji H, Grishman R. Refining Event Extraction Through Cross-document Inference[C]. ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics, June 15-20, 2008, Columbus, Ohio, Usa. 2008:254-262.

[5]趙妍妍,王嘯吟,秦兵,等.中文事件抽取中事件類別的自動識別[C].第三屆學生計算語言學研討會.中國遼寧沈陽,2006.

[6]侯立斌,李培峰,朱巧明.基于CRFs和跨事件的事件識別研究[J].計算機工程,2012,38(24):191-195.

[7]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.

[8]Tian L, Ma W, Zhou W. Automatic Event Trigger Word Extraction in Chinese Event[J]. Journal of Software Engineering & Applications, 2012, 05(12):208-212.

[9]朱少華,李培峰,朱巧明.基于MLN的中文事件觸發(fā)詞推理方法[J].北京大學學報自然科學版,2016,52(1):89-96.

[10]張金花.漢泰語對比淺析[J].群文天地,2012(2):98-98.

[11]孫漢萍.漢、泰語的同異性比較[J].當代教育理論與實踐, 1995(2):34-39.

[12]付劍鋒.基于事件的中文語料庫標注方法[P].中國專利:201010126360.8,2010.

[13]http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm.2009.

[14]http://api.fanyi.baidu.com/api/trans/product/index.

[15]Qin B, Zhao Y, Ding X, et al. Event Type Recognition Based on Trigger Expansion[J]. Tsinghua Science and Technology, 2010, 15(3):251-258.

[16]趙世瑜,線巖團,郭劍毅,余正濤,洪玄貴,王紅斌.基于條件隨機場的泰語音節(jié)切分方法[J].計算機科學,2016,43(3):54-56,83.

[17]付劍鋒.面向事件的知識處理研究[D].上海:上海大學, 2010.

[18]http://th.hujiang.com/zt/zhngtaixinwen/.

鹰潭市| 黄陵县| 个旧市| 酒泉市| 墨玉县| 定南县| 两当县| 绩溪县| 长白| 巩留县| 海林市| 台中市| 泰宁县| 渝北区| 丰镇市| 长兴县| 阜新市| 无为县| 蒙阴县| 马山县| 德化县| 平山县| 夏河县| 安阳县| 大名县| 电白县| 锡林郭勒盟| 阳西县| 寿宁县| 台南县| 鹿邑县| 嘉义县| 平邑县| 曲靖市| 汪清县| 新干县| 通江县| 鹤庆县| 千阳县| 库车县| 靖远县|