国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于最大熵的越南語新聞事件元素抽取方法

2017-09-07 09:50:08廟介璞潘清清余正濤
數(shù)據(jù)采集與處理 2017年4期
關(guān)鍵詞:越南語實(shí)體模板

周 楓 廟介璞 潘清清 嚴(yán) 馨 余正濤

(昆明理工大學(xué)信息工程與自動化學(xué)院, 昆明, 650500)

基于最大熵的越南語新聞事件元素抽取方法

周 楓 廟介璞 潘清清 嚴(yán) 馨 余正濤

(昆明理工大學(xué)信息工程與自動化學(xué)院, 昆明, 650500)

越南與中國一水相依,是重要的政治、軍事和經(jīng)濟(jì)合作鄰國,然而針對越南語新聞事件元素的提取研究非常匱乏。本文針對越南語特點(diǎn),提出一種基于最大熵模型的越南語新聞事件元素抽取方法。該方法針對越語句子結(jié)構(gòu)和詞匯語義的特點(diǎn),采用最大熵算法,選取上下文、鄰近觸發(fā)詞以及鄰近實(shí)體作為特征,定義特征模版,訓(xùn)練獲得越南語新聞事件模型,實(shí)現(xiàn)新聞事件元素抽取。抽取實(shí)驗(yàn)結(jié)果表明本文提出的方法抽取新聞事件元素的準(zhǔn)確率達(dá)到80%以上。

越南語;最大熵;機(jī)器學(xué)習(xí);新聞事件元素抽取

引 言

新聞是指報紙、電臺、電視臺和互聯(lián)網(wǎng)等媒體所傳播的信息的一種稱謂。近年來,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,新聞的傳播媒體也越來越向互聯(lián)網(wǎng)傾斜。人們每天通過互聯(lián)網(wǎng)新聞獲取大量信息,“信息超載”成為人們天天面臨的重要問題。從海量新聞文本中有效獲取人們感興趣的信息成為了國內(nèi)外的一個研究熱點(diǎn),也就是新聞事件元素抽取[1]。新聞作為一種重要的傳播媒介,在中越兩國的發(fā)展和交流中發(fā)揮著重要的引導(dǎo)作用。中越兩國悠久的歷史淵源與現(xiàn)階段特殊的地緣關(guān)系,使得漢越新聞信息的共享、交流尤為重要。面對海量的越語新聞信息,及時、精準(zhǔn)地抽取越語新聞中的事件元素信息正是本文研究的主要問題。新聞事件元素抽取的任務(wù),就是抽取出新聞事件信息中的時間、地點(diǎn)和參與者,即常用的3類事件元素:人名事件元素、地名事件元素和時間事件元素[2]。近年來,事件元素抽取吸引了大量的專家學(xué)者,并開展了大量的基礎(chǔ)研究工作。事件抽取最初是由MUC會議[3](ACE會議的前身)提出的,并作為一項(xiàng)重要的評測項(xiàng)目,吸引了眾多的專家學(xué)者參與評測,ACE會議也在2005年引入了事件抽取的評測任務(wù)。新聞事件元素抽取主要包括3個步驟:(1)新聞事件類型識別,即區(qū)分一個事件所屬的類型;(2)事件類別的識別,關(guān)鍵任務(wù)是識別引起事件發(fā)生的詞,是區(qū)分事件類別的關(guān)鍵因素;(3)識別出事件的相關(guān)元素,即事件發(fā)生的時間、地點(diǎn)和參與者。本文主要就越南語新聞事件元素抽取開展相關(guān)研究,抽取新聞中的3類事件元素,即地名、人名和時間3類事件元素,這3類事件元素都是新聞文本當(dāng)中重要的實(shí)體信息,但事件元素和命名實(shí)體又有著本質(zhì)的區(qū)別。針對每一篇新聞,其中都含有大量的實(shí)體信息,這些實(shí)體可能只有一部分是事件元素,而并不是所有實(shí)體都是事件元素,這就需要對命名實(shí)體進(jìn)行分類,來確定哪些實(shí)體是事件元素。

為了能夠更好地理解和描述越南語新聞事件,以便于對其中的事件元素進(jìn)行抽取,需要分析越南語新文本的特點(diǎn)以及對越南語新聞事件當(dāng)中包含的重要事件元素進(jìn)行抽取。越南語新聞文本中的事件元素可以認(rèn)為是新聞事件的關(guān)鍵信息,主要包括事件發(fā)生的時間、地點(diǎn)以及參與者等。通過對越南語新聞文本的分析可以發(fā)現(xiàn),新聞的重要信息主要集中在新聞的標(biāo)題、各段首句與新聞關(guān)鍵詞對應(yīng)的關(guān)鍵句中。本文提取這些句子用于實(shí)體識別,并對實(shí)體識別的結(jié)果進(jìn)行分析,找出讀者感興趣的信息。

1 新聞事件元素抽取

新聞事件元素抽取是信息抽取領(lǐng)域的一個重要研究方向,其任務(wù)主要是從無結(jié)構(gòu)或半結(jié)構(gòu)化的新聞文本中抽取出有用的信息,如新聞事件發(fā)生的時間、地點(diǎn)、事件的主要參與者和事件的前因后果等。這對正確快速地從大量新聞文本中獲取讀者感興趣的信息非常重要?,F(xiàn)階段對于事件元素抽取主要有基于模式匹配的方法和基于機(jī)器學(xué)習(xí)分類器的方法。模式匹配的方法是早期信息抽取的主要方法之一。Chklovski[4]利用語句匹配模板(Lexcial-Syntactic pattern,LSP)抽取具有事件關(guān)系的資源,并將抽取的結(jié)果整理成一個稱為“VerbOcean”的知識庫。文獻(xiàn)[5]利用將模式泛化為特征性量的方法通過多特征層級模式來識別事件論元角色。模式匹配依賴人為的預(yù)先定義的事件模板,需要消耗大量的人力資源并且可移植性不強(qiáng),召回率低,但是擁有不錯的準(zhǔn)確率。近年來對于機(jī)器學(xué)習(xí)算法在事件抽取領(lǐng)域的應(yīng)用越來越多,對于支持向量機(jī)、最大熵算法的應(yīng)用越來越廣泛。文獻(xiàn)[5]于2002年首次將最大熵分類器融入到事件元素抽取中。文獻(xiàn)[6]結(jié)合MegaM和Timbl兩種機(jī)器學(xué)習(xí)方法分別實(shí)現(xiàn)了事件抽取中事件類別識別和事件元素識別,在ACE英文語料上均取得了不錯的效果。Ritter在大規(guī)模Twitter上提取潛在事件[7],提高了14%的F值。國內(nèi)對于中文事件元素的相關(guān)研究起步較晚, Li Qi通過全局特征聯(lián)合提取事件元素與觸發(fā)詞[8],在ACE語料上取得了不錯的效果。丁效[9]將最大熵分類器應(yīng)用于音樂領(lǐng)域的事件抽取上,并采用觸發(fā)詞聚類的方法自動發(fā)現(xiàn)事件類型,完成了在特定領(lǐng)域事件抽取的一次嘗試。而對于越南語的事件元素抽取,國內(nèi)外還未見相關(guān)研究資料報道。本文針對越南語新聞的特點(diǎn),主要抽取新聞事件發(fā)生的時間、地點(diǎn)和新聞事件的主要參與者,也就是事件抽取中最主要的時間、地點(diǎn)和人物3類事件元素。選取最大熵分類器作為事件元素的分類器。原因在于使用最大熵方法建模時,實(shí)驗(yàn)者只需集中精力選擇特征,而不需要花費(fèi)精力去考慮如何使用這些特征,所以可以更加靈活地選擇特征,結(jié)合更加豐富的信息,且不需要額外的獨(dú)立假設(shè)或內(nèi)在約束。

越南語是一種孤立語[10],動詞無變化,詞既沒有文法上的性別跟數(shù)的形式,也沒有文法上格的變化,形容詞也不需要跟被修飾的名詞保持文法上的性、數(shù)和格上的一致。它以不變的根詞的詞序和虛詞來表示語法關(guān)系。句子的主語在謂語之前,賓語和補(bǔ)語在動詞之后,名詞修飾語一般在名詞之后,但數(shù)詞、量詞修飾語在名詞之前。詞序或虛詞改變后,語義也隨之而變。越南語的文句機(jī)構(gòu)是:主語-謂語-賓語(SVO)。

2 基于最大熵的越南語新聞事件元素抽取

2.1 特征模板定義

越南語新聞事件元素的類型選擇可以看成是一個二元分類問題,為每類事件元素定義二元分類器,這里只需要定義人物、時間和地點(diǎn)這3個二元分類器。特征定義如下:

(1)上下文特征Fa,在考慮越南語新聞文本上下文特征時,要考慮候選實(shí)體是不是事件元素,就需要考慮該實(shí)體的左右兩側(cè)越南語詞的特征以及對應(yīng)詞性的特征,因此一個候選實(shí)體是不是事件元素與它左右的詞特征和詞性特征密切相關(guān)。因此上下文特征對于新聞事件元素抽取有至關(guān)重要的作用。本文選擇越南語新聞文本中實(shí)體兩側(cè)的詞和詞性作為基本特征:(a):實(shí)體左側(cè)n的詞語,(b):實(shí)體右側(cè)n的詞語,(c):實(shí)體左側(cè)n個詞性,(d):實(shí)體右側(cè)n個詞性,其中n為1~4之間的整數(shù)。

(2)鄰近觸發(fā)詞特征Fb,在識別越南語新聞事件元素時,實(shí)體左右兩側(cè)的觸發(fā)詞對確定該實(shí)體是不是事件元素有著非常重要的作用,比如李克強(qiáng)在北京會見阮善仁,“會見”是觸發(fā)詞,它決定了事件的類型,同時也標(biāo)志著該句子里的人名和地名都是事件元素,所以實(shí)體鄰近的觸發(fā)詞對事件元素的提取起到至關(guān)重要的作用。又因?yàn)樵侥险Z動詞沒有變化,既沒有時態(tài)也沒有格上的不同,所以選取實(shí)體左右側(cè)最鄰近的一個觸發(fā)詞作為特征:(a)實(shí)體左側(cè)最近的一個觸發(fā)詞,(b)實(shí)體右側(cè)最近的一個觸發(fā)詞。

(3)鄰近實(shí)體類型特征Fc,新聞事件元素左右兩側(cè)1~2個實(shí)體很有可能也是事件元素,這個跟該實(shí)體的類型有很大關(guān)系。比如在會見事件中,一個人名事件元素后若緊跟一個地名和一個時間實(shí)體的話,那么該地名實(shí)體和時間實(shí)體很有可能也是事件元素。越南語句子的主語在謂語之前,賓語和補(bǔ)語在動詞之后,名詞修飾語一般在名詞之后,但數(shù)詞、量詞修飾語在名詞之前。詞序或虛詞改變后,語義也隨之而變。越南語的文句機(jī)構(gòu)是:主語-謂語-賓語(SVO)。例如在訪問事件中,人名實(shí)體后緊跟一個地名實(shí)體,那么這個人名實(shí)體就很可能是訪問事件的人名事件元素。所以選取實(shí)體左右兩側(cè)實(shí)體的類型作為特征融入:(a)同一句子中實(shí)體左側(cè)的m個實(shí)體的類型,若沒有則以null代替。(b)同一句子中實(shí)體右側(cè)的m個實(shí)體的類型,若沒有則以null代替,其中m是1~2之間的整數(shù)。綜上所述取的越南語新聞事件元素特征如表1所示。

表1 越南語新聞事件元素特征定義

可以用特征向量來表述該人名事件元素,其中在描述特征時,若多個單子詞表示一個詞語,則將這多個單子詞用下劃線進(jìn)行連接,以方便構(gòu)建特征向量,如圖1所示。其中第1列為標(biāo)記列,其后依次為左側(cè)第1個詞以及該詞的詞性,左側(cè)最近的1個觸發(fā)詞,右側(cè)最近的1個觸發(fā)詞,左側(cè)的第1個實(shí)體類型,右側(cè)的第1個實(shí)體類型,其他標(biāo)簽以此類推,這里的實(shí)體類型采用簡潔定義為PER,LOC和TIM。

圖1 事件元素特征集
Fig.1 Feature set of event elements

針對收集的越南語新聞?wù)Z料,一共標(biāo)注了300篇越南語新聞,并對人名、地名和時間3類事件元素分別構(gòu)建了一個最大熵的分類器,以地名事件元素為例,圖2為地名事件元素標(biāo)注的特征集合。

2.2 模型構(gòu)建

最大熵模型[11]的基本思想就是為所有已知的因素構(gòu)建模型,同時把未知的因素排除在外。在預(yù)測一個候選實(shí)體是否屬于時間、地點(diǎn)或是人名事件元素的過程中,會涉及各種各樣的因素,這里假設(shè)x就是一個由這些因素構(gòu)成的向量,變量y即為當(dāng)前特征影響下對應(yīng)的事件元素類型。p(y|x) 指模型將候選實(shí)體在特征x下預(yù)測為事件類型y的概率。最大熵模型要求p(y|x)在滿足一定約束條件的情況下,必須使得下面定義的熵取得最大值,則

(1)

這里的約束條件實(shí)際上就是指所有已知的事實(shí),可以表示為

(2)

式中:fi(x,y)為最大熵模型的特征。最終概率輸出為

(3)

式中λi為每個向量的權(quán)重,且

(4)

表2 越南語新聞事件元素識別訓(xùn)練測試數(shù)據(jù)集

Tab.2 Vietnam news event element recognition training test data sets

訓(xùn)練語料集/篇測試語料集/篇3000500

3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)所采用的越南語新聞?wù)Z料來源于互聯(lián)網(wǎng)爬取的越南語新聞文本,該語料集主要包括政治、經(jīng)濟(jì)、社會、文化、生活、技術(shù)和科學(xué)7大類型。一共標(biāo)注了3 000篇越南語新聞文本。數(shù)據(jù)集中的5/6作為訓(xùn)練越南語新聞事件元素最大熵模型。數(shù)據(jù)集中的1/6作為測試集,用于驗(yàn)證抽取的效果。數(shù)據(jù)集基本情況如表2所示。

為了驗(yàn)證本文抽取的越南語新聞事件元素的效果,采用基于模板和最大熵模型相結(jié)合的事件元素抽取方法進(jìn)行實(shí)驗(yàn),若模板匹配成功,則抽取出對應(yīng)的事件元素,若模板匹配不成功,則采用最大熵模型進(jìn)行事件元素抽取,本文選取傳統(tǒng)的準(zhǔn)確率,召回率及F值作為評測標(biāo)準(zhǔn)。實(shí)驗(yàn)評測結(jié)果如表3所示。

表3 不同模板+特征的實(shí)驗(yàn)結(jié)果

(5)

式中:P為準(zhǔn)確率,R為召回率,其中

P= 正確識別的總數(shù)/(正確識別的總數(shù)+不正確識別的總數(shù))×100%

(6)

(7)

經(jīng)過實(shí)驗(yàn)驗(yàn)證,在采用模板和最大熵模型相結(jié)合的事件元素抽取方法中,最終確定當(dāng)n=2,m=2 并在最大熵模型訓(xùn)練迭代次數(shù)為150時,在開發(fā)集上達(dá)到效果最優(yōu)。從表3中的數(shù)據(jù)可以看出,采用不同的特征和模板相結(jié)合的方法識別效果不同,在僅使用模板與上下文基礎(chǔ)特征Fa時效果較差,F(xiàn)值不足50%。在模板與上下文特征的基礎(chǔ)上分別加入臨近觸發(fā)詞特征Fa與相鄰實(shí)體特征Fc,效果均較模板+Fa有所提高,其中模板+Fa+Fc的準(zhǔn)確率、召回率均高于其他兩種組合,可見臨近實(shí)體特征對事件元素的抽取效果影響最大。當(dāng)使用模板+Fa+Fb+Fc時,識別效果最好,兩者相結(jié)合的方法在越南語新聞事件元素的抽取上取得了較高的準(zhǔn)確率和召回率。由于越南語新聞事件元素抽取方面的研究尚處于起步階段,未見有相關(guān)文獻(xiàn)研究可用于對比,故本文參考文獻(xiàn)[9]中的中文研究結(jié)果作為對比以說明本文特征選取的有效性。

如表4所示,與文獻(xiàn)[9]相比,在人名、地名以及時間元素上的準(zhǔn)確率,召回率與F值雖有差距,但大多屬于正常誤差范圍,僅時間元素的抽取效果低于中文抽取效果5.18%。分析越南語新聞文本發(fā)現(xiàn),越南語在人物和地點(diǎn)上多為專有名詞,且在表達(dá)方式上與中文相同或類似。而在時間上越南語分詞工具將n?m(年)與2014切分成兩個詞,然而n?m在越南語中除了年以外還有很常用的“男的”意思。諸如此類的多義詞造成了一定程度上的識別偏差。

4 結(jié)束語

針對越南語新聞文本進(jìn)行事件元素抽取任務(wù),本文提出了一種基于模板和最大熵模型相結(jié)合的越南語新聞事件元素抽取方法。首先介紹了越南語新聞事件元素抽取的主要困難,介紹了越南語新聞的特點(diǎn),根據(jù)該特點(diǎn),并結(jié)合模板與最大熵模型進(jìn)行越南語新聞事件元素的抽取。實(shí)驗(yàn)結(jié)果表明,上述方法在越南語新聞事件元素的抽取上取得了很好的效果。由實(shí)驗(yàn)結(jié)果可以看出臨近實(shí)體特征對抽取效果顯著。由于中國與越南的毗鄰關(guān)系,且中文事件抽取技術(shù)已經(jīng)相當(dāng)成熟,下一步準(zhǔn)備借助于中越雙語對齊平行語料庫,并挖掘更多實(shí)體特征與句法信息以提高越南語新聞事件元素抽取的性能。

表4 不同評測對象的實(shí)驗(yàn)結(jié)果

[1] Wang Wei. Chinese news event 5W1H semantic elements extraction for event ontology population[C]// Proceedings of the 21st International Conference Companion on World Wide Web. JAPAN:ACM, 2012:197-202.

[2] Doddington G R, Mitchell A, Przybocki M A, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation[C]//LREC. Lisbon:ELRA/ELDA,2004:837-840.

[3] Walker C S, Strassel S Medero J, et al. ACE 2005 multilingual training corpus[J]. Linguistic Data Consortium, Philadelphia, 2006:57.

[4] Chklovski T , Pantel P. VerbOcean: Mining the web for fine-grained semantic verb relations[C]//Conference on empirical methods in natural language processing.Spain:ACL,2004:33-40.

[5] Chieu H L, Ng H T. Named entity recognition: A maximum entropy approach using global information[C]//Proceedings of the 19th International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics.San Francisco :Morgan Kaufmann Publishers,2002: 1-7.

[6] Ahn D. The stages of event extraction[J].Proceedings of the Workshop on Annotating and Reasoning about Time and Events. Sydney, Australia:ACL, 2006: 1-8.

[7] Ritter A, Oren E, Sam C. Open domain event extraction from twitter[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Japan: ACM, 2012:1104-1112.

[8] Li Q, Ji H, Huang L. Joint event extraction via structured prediction with global features[C]//Association for Computational Linguistics.Bulgaria:ACL,2013: 73-82.

[9] 丁效,宋凡,秦兵,等.音樂領(lǐng)域典型事件抽取方法研究[J].中文信息學(xué)報,2011,25(2):15-20.

Ding Xiao, Song Fan, Qin Bing, et al. Research on typical event extraction method in the field of music[J]∥Journal of Chinese Information Processing, 2011,25(2):15-20.

[10] 劉華明,畢學(xué)慧,王維蘭,等.基于最大熵和局部優(yōu)先度的裂痕唐卡分割[J].?dāng)?shù)據(jù)采集與處理,2015,30(2):433-434.

Liu Huaming, Bi Xuehui, Wang Wailan, et al. Segmentation of RIP Tangka based on maximum entropy and local prlority[J]. Journal of Data Acquisition and Processing, 2015,30(2):434-433.

[11] Berger A L, Pietra V J D, Pietra S A D. A maximum entopy approach to natural language processing[J]. Computational liguistics, 1996,22(1):39-71.

Extractiond Method of Vietnamese News Event Elements Based on Maximum Entropy

Zhou Feng, Miao Jiepu, Pan Qingqing, Yan Xin, Yu Zhengtao

(School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming, 650500, China)

The study on extraction of Vietnamese news event elements is rare, while Vietnam is a significant neighboring country with political, military and economic cooperation, which is just at a distance of a river with us. According to the Vietnamese characteristics, this paper puts forward a method of Vietnamese news event element extraction based on maximum entropy model. This method selects the context, adjacent trigger words and neighboring entities as features, delimits feature templates, trains Vietnamese news events model and achieves the extraction of news event elements of Vietnamese on the basis of the characteristics of the Vietnamese sentence structure and lexical semantic using the maximum entropy algorithm. The experimental result of the extraction shows that the accuracy of the news event elements extracted by the method proposed in this paper reaches more than 80%.

Vietnamese; maximum entropy; machine learning; news event elements extraction

國家自然科學(xué)基金(61462055,61562049)資助項(xiàng)目。

2014-05-09;

2016-10-14

TP391.1

A

周楓(1958-),男,副教授,研究方向:自然語言處理、軟件工程應(yīng)用技術(shù)。

廟介璞(1991-),男,碩士研究生,研究方向:自然語言處理,E-mail:iambeichen@163.com。

潘清清(1998-),男,碩士研究生,研究方向:自然語言處理,事件抽取等。

嚴(yán)馨(1969-),女,副教授、碩士生導(dǎo)師,研究方向:自然語言處理、數(shù)據(jù)挖掘理論及應(yīng)用等。

余正濤(1970-),男,教授、博士生導(dǎo)師,研究方向:自然語言處理、機(jī)器翻譯和機(jī)器學(xué)習(xí)等。

猜你喜歡
越南語實(shí)體模板
鋁模板在高層建筑施工中的應(yīng)用
鋁模板在高層建筑施工中的應(yīng)用
納蘇彝語越南語親屬稱謂特征及其文化內(nèi)涵異同研究
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
漢語經(jīng)歷體標(biāo)記“過”及其在越南語中的對應(yīng)形式
現(xiàn)代漢語與越南語存在句否定形式與情態(tài)特征的比較研究
鋁模板在高層建筑施工中的應(yīng)用
义马市| 高阳县| 红安县| 靖安县| 任丘市| 团风县| 太湖县| 汶川县| 通河县| 岑溪市| 乌兰县| 辽源市| 南丰县| 三台县| 正镶白旗| 定陶县| 登封市| 平果县| 巴中市| 湖北省| 平阳县| 木里| 仁寿县| 临沭县| 陵水| 栾城县| 昌都县| 华安县| 科技| 柳州市| 额济纳旗| 台江县| 娱乐| 霍邱县| 雷山县| 崇信县| 桦南县| 赣榆县| 白山市| 凤山市| 高平市|