国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全局優(yōu)化的中文事件同指消解方法

2016-10-12 08:29滕佳月李培峰朱巧明
關鍵詞:約束條件分類器全局

滕佳月 李培峰 朱巧明

?

基于全局優(yōu)化的中文事件同指消解方法

滕佳月 李培峰?朱巧明

蘇州大學計算機科學與技術學院, 蘇州 215006; ?通信作者, E-mail: pfli@suda.edu.cn

針對目前對事件同指關系的研究中多采用事件對分類或聚類方法而忽略事件相互之間內(nèi)在聯(lián)系的問題, 提出一個中文事件同指消解的全局優(yōu)化模型, 用于減少因分類器錯誤造成的同指事件鏈不一致問題。該模型利用對稱性、傳遞性、觸發(fā)詞、論元角色、事件距離等多種約束條件, 將同指消解轉(zhuǎn)化成整數(shù)線性規(guī)劃問題。實驗結(jié)果表明, 與分類器方法相比, 全局優(yōu)化模型的F1值提高4.20%。

事件; 同指關系; 全局優(yōu)化; 推理

事件同指具有普遍性。在自然語言表述中, 同一個事件常常多次出現(xiàn)。為了使語言表達清晰, 一般會分為幾個子句甚至段落來進行闡述。當兩個事件指向同一個事件本體時, 則認為這兩個事件具有同指(或共指)關系。

例1 兩國首腦今天在巴黎舉行。雙方在中討論了中東和平問題。

例1中首先引出事件“會談”發(fā)生的時間、地點信息, 然后指出“會談”的主題為“中東和平”問題。顯然, 該例中的兩個“會談”事件具有同指關系。一般情況下, 對于一個事件的報道, 首先會簡要概括, 然后對事件發(fā)生的時間、地點、人物等進行詳細介紹, 最后總結(jié)分析該事件造成的后果或意義。

事件同指消解是信息抽取的子任務, 具有重要的研究意義和應用價值。通過事件的同指關系, 可以有效地結(jié)合上下文來理解語意。同指鏈中的事件相互補充與擴展, 可以將語句成分缺失的事件轉(zhuǎn)換到其同指事件上, 提高語言理解效果。正確識別同指事件, 能更加準確地概括文章大意, 有利于篇章理解、文本摘要、信息抽取等應用。

目前, 事件同指消解的研究大部分針對英文事件, 且主要采用事件對模型進行研究, 即將任意兩個事件組成事件對, 然后根據(jù)選擇的特征或特征對進行訓練和分類, 最終得到每一個事件對被分為正例(兩個事件具有同指關系)的概率。但是, 這種基于事件對的研究忽略了事件對之間的關系, 認為事件對之間相互獨立, 容易造成分類結(jié)果矛盾、同指事件鏈不一致等問題。

事件同指關系具有明顯的傳遞性特點, 本文借鑒Chambers等[1]以及Do[2]等研究事件時序關系的思想, 采用全局優(yōu)化推理模型, 以減少分類器產(chǎn)生的這種矛盾問題。如圖1(a)所示, 分類器結(jié)果具有邏輯上的矛盾, 因為E1與E2同指, E2與E3同指, 則根據(jù)傳遞性可知E1與E3同指。圖1(b)中, 全局推理則沒有這種邏輯上的矛盾。但是, 使用傳遞性約束之后, 得到的并不一定是正確的事件關系圖(圖1(b)為一種可能的結(jié)果)。只有在E1與E2同指、E2與E3同指均正確時, 傳遞性推理才是正確的。

本文采用整數(shù)線性規(guī)劃方法(integer linear pro-gramming), 對同指事件鏈進行文檔級的全局優(yōu)化與推理, 可以消除部分識別錯誤的同指事件, 并能根據(jù)同指事件的傳遞性等推理出分類器未識別的同指事件, 對召回率有較大提升。本文按照以下兩個步驟進行: 1)構造一個事件對的同指消解器; 2)利用分類器的預測概率以及約束條件, 針對文檔級事件進行全局優(yōu)化推理。

1 相關工作

事件同指消解相關研究較少, 且主要針對英文事件的同指進行研究。Ahn[3]在研究事件抽取時, 指出事件同指消解對事件抽取有很大幫助, 并構建了一個簡單的事件對同指消解系統(tǒng)。事件同指研究主要采用事件對消解模型, 即將任意兩個事件組成事件對, 針對詞語、語句、距離等方面提出有效的特征, 然后使用機器學習方法, 訓練出分類模型, 最終完成事件對的同指消解。Bejan等[4]進一步具體化事件對的特征屬性, 增加結(jié)構化特征進行同指研究。Chen等[5]針對ACE語料庫, 基于最大熵模型建立了特征壓縮的事件對同指消解系統(tǒng)?;诜诸愃枷氲姆椒? 大多數(shù)假設數(shù)據(jù)樣本是獨立同分布的, 忽略了事件之間的相互聯(lián)系。Chen等[6]使用一種譜圖聚類方法, 根據(jù)事件聚類結(jié)果生成事件關系圖, 然后對該圖進行優(yōu)化。Bejan等[7-8]基于非參貝葉斯模型, 提出一種新的無監(jiān)督方法, 并在ACE- 2005與ECB (EventCorefBank)上分別進行驗證。

事件對模型的同指消解, 忽略了事件之間的內(nèi)在聯(lián)系, 容易造成同指事件鏈不一致問題。使用全局優(yōu)化的方法, 可以減少因分類器錯誤造成的矛盾情況。針對實體同指消解問題, Nicolae等[9]根據(jù)聚類算法生成實體關系圖, 然后提出BestCut算法, 對該圖進行優(yōu)化, 從而完成實體同指消解。Chen等[10]整合7種同指消解器, 并提出一種圖分割算法優(yōu)化同指事件鏈。Sangeetha等[11]使用聚類算法生成事件關系圖, 然后用Mincut算法對其進行優(yōu)化。Song等[12]提出一種聯(lián)合學習方法, 將事件對分類與事件聚類方法整合, 并使用馬爾科夫邏輯網(wǎng)絡進行全局推理?;趫D模型優(yōu)化方法, 一般是衡量每一條邊(關系)做出取舍, 然后對分割后的子圖進行評估, 只能保證裁剪最優(yōu)或最小, 但消解結(jié)果有可能是局部最優(yōu), 并且也沒有使用傳遞性等約束, 仍然無法消除同指事件鏈不一致的問題。

中文事件同指消解的研究相對較少, 語料庫匱乏, 主要使用事件對模型進行同指消解。此外中英文存在語言學上的差異, 中文詞語較多, 一詞多義普遍, 語法隨意, 沒有明顯的單復數(shù)和時態(tài)等, 導致中文事件同指消解的效果偏低。胡乃全等[13]基于最大熵模型建立中文指代消解系統(tǒng), 并在ACE05的BNews上進行驗證。黎耀炳等[14]提出中心詞匹配算法, 對共指消解有很大提高。謝永康等[15]首先用最大熵模型計算實體對的共指概率, 然后使用譜聚類算法進行劃分。龐寧等[16-17]基于多種語義特征, 增加維基百科信息, 針對突發(fā)事件進行共指消解。滕佳月等[18]提出基于觸發(fā)詞語義和組合特征的方法, 事件同指消解得到較大提高。

與已有研究不同, 本文使用整數(shù)線性規(guī)劃方法,對中文事件同指消解進行全局優(yōu)化推理, 借鑒Chambers等[1]和Do等[2]針對事件時序識別提出的全局推理模型, 并在該模型中引入多種新穎、有效的約束條件來進一步提高性能。實驗結(jié)果表明, 本文方法可以捕獲事件對之間的語義關系, 從而減少分類器造成的事件鏈不一致問題, 提高同指事件鏈的緊密程度, 推理出未被分類器識別的同指事件, 使得同指事件消解效果得到顯著的提高。

2 基準系統(tǒng)

本文首先使用傳統(tǒng)的機器學習方法構造一個事件對的中文同指消解器, 語料庫為ACE2005中文語料庫。與Ahn[3]的方法類似, 將任意兩個事件組成事件對, 并用分類器進行訓練和分類。最終, 由該分類器計算出每個事件對被分為正例的概率:

其中,ee表示第個和第個事件,ff表示第個事件與第個事件的特征,為該文章中所有的事件集合。

針對目前事件同指領域的研究, 本文首先實現(xiàn)龐寧等[17]的共指消解方法, 并將其作為基準系統(tǒng)1??紤]到龐寧等的方法并非專注事件共指消解, 還包括實體、指代消解, 本文實現(xiàn)了滕佳月等[18]的事件共指消解方法, 并將其作為基準系統(tǒng)2。

3 全局優(yōu)化推理模型

分類器往往將事件對看成獨立同分布的實例, 忽略了事件之間的聯(lián)系, 因此分類結(jié)果容易產(chǎn)生邏輯上的矛盾。使用全局優(yōu)化方法可以消除部分邏輯上錯誤的事件對, 并可以推理出未識別的同指事件。但是, 僅使用傳遞性約束并不能得到最優(yōu)的結(jié)果。如圖1所示, 盡管全局優(yōu)化方法可以避免圖1(a)中的不一致問題, 但圖1 (b)僅僅是一種可能的結(jié)果。因此, 本文使用整數(shù)線性規(guī)劃法, 增加多種有效的約束條件, 進一步提升事件同指消解性能。

3.1 優(yōu)化目標

本文以文檔為單位, 對該文檔中的同指事件鏈進行全局優(yōu)化?;诜诸惛怕首畲蠡乃枷? 提出以下優(yōu)化目標:

表示事件ee之間的關系, 取值為1表示同指關系, 取值為?1表示不具有同指關系。是一個二元變量(0或1), 保證的取值唯一。由于分類概率的取值范圍為[0, 1], 差異性較小, 本文對進行對數(shù)映射, 使得變量的權值差異更大, 更有利于對同指事件鏈進行全局優(yōu)化。在計算概率時, 本文使用以下公式替代:

式(3)可以更好地描述分類概率的離散差異。為了保證式(3)的有效性, 當=1時, 本文強制將設為0.9999;=0時, 將其設為0.0001。

3.2 基本約束條件

3.2.1 唯一性

整數(shù)線性規(guī)劃的思想類似于枚舉所有可能的結(jié)果, 然后根據(jù)優(yōu)化目標與約束條件, 計算出最優(yōu)的分類結(jié)果。為了保證事件ee之間有且只有一種關系, 首先限制的取值為{?1, 1} (1表示同指關系, ?1表示不具有同指關系), 然后保證二元變量相互之間不存在矛盾, 即有且只有一個二元變量取值為1, 其余均為0。具體描述如下:

3.2.2 對稱性

事件的同指關系是相互的, 即事件ee具有同指關系, 反之亦然。具體描述如下:

3.2.3 傳遞性

由事件同指的定義可知, 同指關系具有傳遞性特點。若已知1(e,e)和2(e,e), 則可以推出3(e,e)。具體表示如下:

其中(1,2,3)∈{(1, 1, 1), (1,-1,-1), (-1, 1,-1)}, 分別表示:

3.3 擴展約束條件

3.3.1 論元角色

事件的論元包含多種信息, 同指的兩個事件往往含有相同的論元。按照論元角色可以分為人物(Person)、地點(Place)、職位(Position)等, 若僅統(tǒng)計事件對論元異同個數(shù), 并不能很好地識別同指事件。本文針對開發(fā)集事件對, 按照論元角色類型分別統(tǒng)計異同個數(shù), 并依據(jù)論元異同個數(shù)分別計算正負例所占的比例, 最終得出正例比例較高的論元角色類型集合(Arg_Roles)。如果一個事件對含有相同的論元, 且該論元角色類型在上述Arg_Roles集合中, 則該事件對具有同指關系的概率較高, 具體表示為

Arge, Arge分別表示事件e,e的論元集合, argrole表示論元arg的角色。通常, 充當人物(Person)的論元對同指識別沒有明顯效果, 因為文章會介紹與該人物相關的其他事件; 充當職位(Position)的論元則有很大幫助。如例2所示(<>內(nèi)為論元), 其中例2(a)與例2(c)為同指事件。

例2(a) 〈楊富家教授〉起程赴世界著名大學〈英國〉〈諾丁漢大學〉〈校長〉。

例2(b) 〈楊富家教授〉〈1991年〉〈中國科學院院士〉。

例2(c) 〈他〉在接受記者采訪時說,〈諾丁漢大學〉聘請我〈校長〉, 表明中國教育水平和管理水平取得顯著成就, 并得到國際上的廣泛認可。

論元“楊富家教授”的角色為人物類型, 但事件“就任”與“當選”為非同指事件對, 而論元“校長”、“中國科學院院士”的角色為職位類型, 并且職位在集合Arg_Roles中。同指事件(a)和(c)包含相同論元“校長”; 非同指事件(a)和(b), 充當職位的論元則不同。

3.3.2 事件距離

從ACE語料庫可以看出, 一篇新聞報道會有一個主題或主要報道的事件。本文使用簡單的方法概括文檔的主題, 即統(tǒng)計一篇文章中出現(xiàn)次數(shù)最多的事件類型, 并將其作為該文章的主題。依據(jù)人們的寫作習慣, 一般首先提出文章的主要表達事件, 然后對該事件進行詳細闡述, 中間也會提及與該事件相關的事件, 最后會對該事件總結(jié)或闡明事件的后果。如果事件對的事件類型與該文章的主題一致, 則對該事件對進行事件距離的約束。

事件距離的衡量采用兩種方法(方法1: 兩個事件所在語句差; 方法2: 事件對間隔事件數(shù)), 并對兩者數(shù)據(jù)進行歸一化。以方法1為例, 值為0, 1, 2, 3, 分別表示事件在同一句、相鄰句、間隔一句、其他。開發(fā)集統(tǒng)計結(jié)果如圖2(a)所示(只統(tǒng)計與文章主題一致的事件對), 事件對在相鄰句、間隔一句的時候, 具有同指關系的比例較高, 如例1所示。因此提出以下約束:

其中bias(e,e)表示事件e,e所在語句差, type為該文章的主題(出現(xiàn)次數(shù)最多的事件類型), type, j為事件e,e的事件類型(事件e,e的類型相同, 因為類型不同的事件不具有同指關系)。經(jīng)開發(fā)集調(diào)節(jié)參數(shù), 取= {1, 2}。

3.3.3 觸發(fā)詞

通常, 一個復合句會包含多個事件, 而這些事件之間具有一定的相關性。當這些事件觸發(fā)詞不同時, 大多具有時序、轉(zhuǎn)折、因果等關系, 即多為非同指事件, 例如“造成2人10人”等; 當這些事件觸發(fā)詞語義相似時, 多為同指的, 如例1所示。針對觸發(fā)詞方面, 本文使用語義相似度計算以及詞語匹配方法來衡量觸發(fā)詞對的一致性。

圖2(b)為開發(fā)集統(tǒng)計結(jié)果, 其中“同指1”表示觸發(fā)詞一致時的結(jié)果, “同指2”表示觸發(fā)詞不一致時的結(jié)果。當觸發(fā)詞一致時, 觸發(fā)詞距離非常近的事件對中, 同指的比例高達81.6%; 觸發(fā)詞不一致時, 同指的事件對比例均不足10%。因此, 本文僅針對第一種情況約束, 具體表示為

其中bias(e,e)表示事件e,e觸發(fā)詞距離差, trigger與trigger分別表示事件e,e的觸發(fā)詞。經(jīng)開發(fā)集調(diào)節(jié)參數(shù),取值為12。

4 實驗

4.1 實驗設計

ACE中文語料庫共計632篇, 本實驗選擇其中含有相同類型事件對的文檔(事件類型不相同的事件對不具有同指關系, 故舍棄), 總計445篇。將同一文檔中的任意兩個事件組成事件對, 剔除事件類型不相同的事件對, 共計14394個事件對, 正負例比約為1:5。由于不同體裁來源文檔的語言風格有一定差異, 依據(jù)ACE2005語料庫來源, 本文在選擇開發(fā)集、訓練集、測試集時, 盡量覆蓋每種文檔來源。最終, 隨機選擇50篇文檔作為開發(fā)集, 測試集與訓練集約為1:4, 并進行五倍交叉驗證。

基準系統(tǒng)1部分實現(xiàn)了文獻[17]的方法, 只選擇與事件同指有關的特征?;鶞氏到y(tǒng)2實現(xiàn)了文獻[18]的基于事件對模型的事件同指消解方法。全局推理過程使用Gurobi Optimizer 6.0①。實驗結(jié)果評價標準為MUC-6, 使用的軟件為Conll2012-Scorer-8.0②。

4.2 實驗結(jié)果與分析

實驗結(jié)果如表1所示。其中, 基本約束條件使用式(4)~(6), 實現(xiàn)了文獻[2]中的傳遞性、對稱性約束; 擴展約束使用式(7)~(9)。經(jīng)顯著性檢驗,= 0.0003, 表明本文全局推理模型較基準系統(tǒng)具有極顯著的差異。由于基準系統(tǒng)2比基準系統(tǒng)1結(jié)果稍好, 故以下對比均基于基準系統(tǒng)2進行。

表1 實驗結(jié)果比較

說明: 括號內(nèi)數(shù)字表示與基準系統(tǒng)2的比較結(jié)果, +表示提升。

由表1可知, 基本約束條件對系統(tǒng)結(jié)果提升并不明顯。首先, 基本約束中的唯一性只是針對分類

結(jié)果不產(chǎn)生歧義進行約束, 對同指消解結(jié)果基本上沒有提升; 其次, 根據(jù)事件對的分類結(jié)果統(tǒng)計, 發(fā)現(xiàn)任意一個事件對均符合1(e,e) =2(e,e), 即滿足式(5), 所以對稱性對系統(tǒng)沒有提升; 最后, 傳遞性是根據(jù)已知兩條分類結(jié)果推理第三條, 只有在已知的分類結(jié)果正確的情況下, 傳遞性推理才正確。換言之, 存在這種矛盾情況(其中):

在滿足一系列約束條件下, ILP會根據(jù)優(yōu)化目標, 計算出結(jié)果最優(yōu)的一組解, 最終自動選擇3或3′作為正確結(jié)果, 消除矛盾。分析實驗結(jié)果可知, 只有一部分數(shù)據(jù)被推理成正例。由于本文使用MUC-6評價標準, 需要將基準系統(tǒng)中的事件對分類結(jié)果轉(zhuǎn)化成事件鏈形式, 才能進行MUC-6評估。由于在轉(zhuǎn)化成事件鏈時使用了傳遞性原理, 所以傳遞性提升較低, 最終導致基本約束條件對結(jié)果提升并不明顯。

由3.3節(jié)可知, 擴展約束條件大部分是利用正例結(jié)果來推理正例, 因此對召回率有提升明顯,值提高6.50%。對于準確率提升不明顯, 只有1.87%。這是因為: 1)擴展約束與傳遞性類似, 同樣會產(chǎn)生前面推理的矛盾, 而全局優(yōu)化軟件自動選擇最優(yōu)結(jié)果, 由于受到分類器錯誤判定結(jié)果的影響, 這個結(jié)果并不一定正確; 2)擴展約束基于開發(fā)集統(tǒng)計結(jié)果進行設定, 并從正負例分布概率上進行約束, 由于數(shù)據(jù)分布的不均勻問題, 測試集合中部分樣本不符合該約束條件。因此, 擴展約束對準確率提升較有限, 而對召回率提升大, 進而對系統(tǒng)的F1值提升4.20%, 表明全局推理模型對事件同指消解效果有明顯提高。

4.3 擴展約束分析

表2給出不同擴展約束對全局推理性能的貢獻度。3種擴展約束均基于開發(fā)集統(tǒng)計結(jié)果, 選擇同指比例較高的情況進行約束, 因此擴展約束條件對系統(tǒng)召回率的提升高于準確率。

表2 各約束條件的貢獻度

說明: 括號內(nèi)數(shù)字表示與基準系統(tǒng)2的比較結(jié)果,+表示提升。

論元角色約束對準確率提升最低, 但對召回率提升較高, 主要是因為論元角色集合Arg_Roles是根據(jù)同指事件比例較高的角色類型統(tǒng)計得出的, 只有少量樣本不符合該約束。例如, 事件內(nèi)容涉及A國總理的“就任”、“出訪”, 然后與B國總理“會晤”, B國總理“宣布”合作成立等。論元“總理”作為職位角色頻繁出現(xiàn)在這一系列事件中, 但這些事件大都不具有同指關系。

觸發(fā)詞約束對系統(tǒng)提升最高。一方面, 觸發(fā)詞約束使用了觸發(fā)詞語義特征。由圖2(b)可知, 當事件對觸發(fā)詞語義不一致時, 只有不到10%的事件對具有同指關系; 而觸發(fā)詞語義一致時, 距離最近的事件對中有80%以上是同指事件, 因此觸發(fā)詞語義相似度與事件同指有很大關系。另一方面, 觸發(fā)詞約束使用了觸發(fā)詞距離特征。距離較近的觸發(fā)詞對如果語義一致, 則具有同指關系的概率較高。經(jīng)統(tǒng)計分析實驗數(shù)據(jù), 發(fā)現(xiàn)未識別出的同指事件大多是觸發(fā)詞不一致的情況, 而觸發(fā)詞一致的同指事件大都被很好地識別。

事件距離約束的貢獻度較低, 因為根據(jù)3.3.2節(jié), 一篇文章只會對其主線的事件鏈(與文章主題相關的事件)進行約束, 沒有對與文章主題相關性較小的事件進行約束。由圖2(a)所示, 事件距離較近的事件對分為正例的概率只有80%左右(即事件距離≤10的事件對), 事件距離較遠的事件對中有55%左右為同指事件, 即有很大部分同指事件無法進行約束。此外, 3.3.2節(jié)中選擇出現(xiàn)次數(shù)最多的事件類型作為主題, 對文章主題的檢測過于簡單, 準確性較低。

從表2同樣可以發(fā)現(xiàn), 這些約束條件相互之間存在影響?!笆录嚯x+觸發(fā)詞”的貢獻度(2.8%)遠小于兩者貢獻度之和(4.34%), 因為兩者都是對距離的約束, 只不過側(cè)重點不同。由3.3.3節(jié)可知, 事件距離最近的樣本中非同指事件比例較高(即事件在同一句情況下), 而相鄰句、間隔一句的樣本中同指事件比例較高(如圖2(a)所示), 整體上近似正態(tài)分布。但是, 觸發(fā)詞距離差的同指事件概率分布與之不同, 兩者結(jié)合有抵消效果。并且, 基于統(tǒng)計角度的約束規(guī)則中存在重疊情況, 如例1所示, 符合事件距離和觸發(fā)詞兩種約束。

“觸發(fā)詞+論元角色”以及“論元角色+事件距離”的組合結(jié)果與兩者貢獻度之和相比, 召回率的下降幅度比準確率低。這是因為: 1)觸發(fā)詞約束包含事件觸發(fā)詞語義信息, 而論元角色以及事件距離約束僅依據(jù)同指出現(xiàn)概率, 缺少語義特征, 造成同指識別的準確率不高; 2)有時由于樣本的不均勻性, 開發(fā)集與測試集的樣本分布并不完全一致, 例如事件“前往”與“訪問”, 在開發(fā)集文檔中兩個事件的類型分別為“運動(Movement)”和“聯(lián)系(Contact)”, 為非同指事件, 且不存在這種組合(類型不同的事件對已被剔除), 但在測試集中, 有一篇文章中共有6 個事件與之同指, 標記為“運動(Movement)”類型。另外, 含有觸發(fā)詞約束的組合中準確率貢獻度都比較高, 表明觸發(fā)詞語義特征對同指消解的準確率有較大幫助。

5 總結(jié)

本文提出一個全局推理方法, 有效地減少因分類器造成的同指事件鏈不一致問題, 進一步提升了中文事件同指消解性能。在構建全局推理模型之前, 首先構造基于機器學習的同指消解器, 然后將分類器輸出的概率與同指事件特點結(jié)合, 提出觸發(fā)詞、論元角色以及事件距離多個約束條件。實驗結(jié)果表明, 基于全局優(yōu)化的推理方法較有監(jiān)督的機器學習方法有明顯提升, 其中召回率提高約6.5%。因此, 本文提出的幾個約束條件對同指消解有很大幫助。在下一步研究中, 將對事件時間信息、時序關系等做進一步研究, 然后加入到全局推理模型中, 以便進一步提高同指消解效果。

[1]Chambers N, Jurafsky D. Jointly combining implicit constraints improves temporal ordering // Proceedings of the Conference on EMNLP. Waikiki, 2008: 698? 706

[2]Do Q X, Lu W, Roth D. Joint inference for event timeline construction // Proceedings of the conference on EMNLP-CoNLL. Jeju Island, 2012: 677?687

[3]Ahn D. The stages of event extraction // Arte’06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events. Sydney, 2006: 1?8

[4]Bejan C A, Harabagiu S. A linguistic resource for discovering event structures and resolving event coreference // Sixth International Conference on Lan-guage Resources & Evaluation (LREC). Marrakech, 2008: 2881?2887

[5]Chen Zheng, Ji Heng, Haralick R. A pairwise event coreference model, feature impact and evaluation for event coreference resolution // Proceedings of the Workshop on Events in Emerging Text Types (eETTs). Borovets, 2009: 17?22

[6]Chen Zheng, Ji Heng. Graph-based event coreference resolution // Proceedings of the 2009 Workshop, ACL-IJCNLP. Suntec, 2009: 54?57

[7]Bejan C A, Titsworth M, Hickl A. Nonparametric bayesian models for unsupervised event coreference resolution // Advances in Neutal Information Proces-sing System 22 (NIPS 2009). Vancouver, 2009: 73?81

[8]Bejan C A, Harabagiu S. Unsupervised event core-ference resolution. Computational Linguistics, 2014, 40(2): 1412?1422

[9]Nicolae C, Nicolae G. BESTCUT: a graph algorithm for coreference resolution // Empirical Methods in Natural Language Processing. Sydney, 2006: 275?283

[10]Chen Bin, Su Jian, Pan S J. A unified event core-ference resolution by integrating multiple resolvers // Proceedings of International Joint Conference on Natural Language Processing. Chiang Mai, 2011: 102?110

[11]Sangeetha S, Arock M. Event coreference resolution using mincut based graph clustering // The Fourth International Workshop on Computer Networks & Communications. Coimbatore, 2012: 253?260

[12]Song Y, Jiang J, Zhao W X. Joint learning for coreference resolution with markov logic // Procee-dings of the Conference on EMNLP-CoNLL. Jeju Island, 2012: 1245?1254

[13]胡乃全, 孔芳, 王海東. 基于最大熵模型的中文指代消解系統(tǒng)實現(xiàn). 計算機應用研究, 2009, 26(8): 2948-2951

[14]黎耀炳, 張牧宇, 秦兵, 等. 基于中心語匹配的共指消解 // 第六屆全國信息檢索學術會議論文集. 哈爾濱, 2010: 3?8

[15]謝永康, 周雅倩, 黃萱菁. 一種基于譜聚類的共指消解方法. 中文信息學報, 2009, 23(3): 10?16

[16]龐寧, 楊爾弘. 基于最大熵模型的共指消解研究. 中文信息學報, 2008, 22(2): 24?27

[17]龐寧, 楊爾弘. 多種語義特征在突發(fā)事件新聞中的共指消解研究. 中文信息學報, 2014, 28(1): 26?32

[18]滕佳月, 李培峰, 朱巧明. 基于觸發(fā)詞語義和組合特征的中文同指事件消解方法 // 第十六屆詞匯語義學國際研討會. 北京, 2015: 334?339

Global Inference for Co-reference Resolution between Chinese Events

TENG Jiayue, LI Peifeng?, ZHU Qiaoming

School of Computer Science & Technology, Soochow University, Suzhou, 215006; ? Corresponding author, E-mail: pfli@suda.edu.cn

Currently, most pairwise resolution models for event co-reference focused on classification or clustering approaches, which ignored the relations between events in a document. A global optimization model for event co-reference resolution was proposed to resolve the inconsistent event chains in classifier-based approaches. This model regarded co-reference resolution as a integer linear program problem and introduced various kinds of constraints, such as symmetry, transitivity, triggers, argument roles, event distances, to further improve the performance. The experimental results show that the proposed model outperforms the local classifier by 4.20% in F1-measure.

event; co-reference relation; global optimization; inference

10.13209/j.0479-8023.2016.010

TP391

2015-06-06;

2015-08-26; 網(wǎng)絡出版日期: 2015-09-30

國家自然科學基金(61472265, 61331011)和江蘇省前瞻性聯(lián)合研究項目(BY-2014059-08)資助

① http://www.gurobi.com/

② http://www.cs.upc.edu/~esapena/?s=downloads

猜你喜歡
約束條件分類器全局
基于改進空間通道信息的全局煙霧注意網(wǎng)絡
地下汽車檢測站建設的約束條件分析
領導者的全局觀
學貫中西(6):闡述ML分類器的工作流程
基于樸素Bayes組合的簡易集成分類器①
基于動態(tài)分類器集成系統(tǒng)的卷煙感官質(zhì)量預測方法
二分搜索算法在全局頻繁項目集求解中的應用
一種自適應子融合集成多分類器方法
落子山東,意在全局
用“約束條件法”和“公式法”求二階線性微分方程的特解