丁 效,宋 凡,秦 兵,劉 挺
(哈爾濱工業(yè)大學 計算機學院,信息檢索研究中心,黑龍江 哈爾濱 150001)
事件抽取是信息抽取研究中最具挑戰(zhàn)性的任務(wù)之一,旨在把人們感興趣的,用自然語言描述的事件以結(jié)構(gòu)化的形式呈現(xiàn)出來,如什么人,什么地方,什么時間,做了什么事。事件抽取在多文檔文摘[1],自動文摘[2-3],自動問答[4]和信息檢索領(lǐng)域有著廣泛的應(yīng)用。
近些年來,事件抽取一直吸引著許多研究機構(gòu)和研究者的注意力。MUC (Message Understanding Conference) 會議(1987~1998)[5],作為ACE(Automatic Content Extraction)[6-7]會議的前身,在上個世紀八、九十年代對信息抽取領(lǐng)域起到了很大的促進作用,事件抽取(Scenario Template)始終是這一會議的評測項目之一。ACE也于2005年引入了事件抽取(Event Detection and Recognition、Event Mention Detection)評測任務(wù)。
目前的事件抽取方法采用信息抽取技術(shù)抽取預(yù)先定義的一種或者幾種事件,然而不同領(lǐng)域的事件類型互不相同,這樣的方法依賴于人工定義的事件類型,需要耗費大量的人工勞動,導(dǎo)致作為信息抽取關(guān)鍵技術(shù)的事件抽取缺乏足夠的自適應(yīng)性。從技術(shù)路線角度看,解決事件抽取問題的方法主要有兩種:基于模板的方法與基于機器學習的方法?;谀0宓闹饕ㄟ^手工或自動生成事件模板,采用各種模式匹配算法將待抽取的句子和已經(jīng)抽出的模板匹配。例如Yankova 的足球事件抽取系統(tǒng)[8]以及Lee的基于限定域Ontology的氣象事件抽取系統(tǒng)[9]等等?;跈C器學習的方法把主要的精力放在分類器的構(gòu)建和特征的發(fā)現(xiàn)、選擇上,把事件抽取問題看成分類問題,選擇合適的特征使用分類器來完成。Chieu和Ng于2002年首次在事件抽取中引入最大熵分類器[10],用于事件抽取中事件元素的識別。
本文借鑒ACE中事件抽取的相關(guān)概念,并結(jié)合實際的需求做了相應(yīng)的調(diào)整,將其轉(zhuǎn)移到音樂領(lǐng)域上來,從音樂新聞資訊中抽取出需要的結(jié)構(gòu)化信息。通過領(lǐng)域事件詞聚類的方法自動發(fā)現(xiàn)音樂領(lǐng)域典型事件,對典型事件分別從語料的獲取、標注、事件的定義、算法的應(yīng)用都做了嘗試,相同的方法可以平行的應(yīng)用到其他的事件類型上。
音樂領(lǐng)域的事件抽取任務(wù)與ACE事件抽取任務(wù)大致相同,主要包括以下三個步驟:
1. 事件類型發(fā)現(xiàn):事件類型是事件抽取任務(wù)的一個基礎(chǔ),本文不同于傳統(tǒng)事件抽取之處就在于不是預(yù)先定義好事件類型體系,而是通過基于領(lǐng)域事件詞聚類的方法自動發(fā)現(xiàn)事件類型;
2. 事件觸發(fā)詞及事件類別的識別:事件觸發(fā)詞是指引起事件發(fā)生的詞,是決定事件類別的重要特征;
3. 事件元素的識別:事件的元素是指事件的參與者,本文為音樂領(lǐng)域的兩個典型事件制定了模板,模板的每個槽值對應(yīng)著事件的元素。
圖1詳細的表述了一個音樂領(lǐng)域事件的構(gòu)成。其中,“舉辦”是該事件的觸發(fā)詞,所述事件類別為演唱會。該事件由四個元素組成,“周杰倫”、“2010年6月11日”、“臺北小巨蛋”、“周杰倫超時代演唱會”分別對應(yīng)著該類(演唱會)事件模板中的四個角色標簽,即:歌手、時間、地點以及演唱會名。
圖1 “演唱會”事件的基本組成要素
本文提出了基于聚類的自底向上的事件抽取方法。該方法依據(jù)謂語動詞是對領(lǐng)域事件刻畫的重要單元的特點,利用依存句法信息抽取領(lǐng)域事件詞,利用《知網(wǎng)》(HowNet)對領(lǐng)域事件詞進行聚類從而獲取不同的事件類型,隨后進行事件類型的識別及事件元素的抽取。和傳統(tǒng)的事件抽取技術(shù)相比,該方法不需要預(yù)先定義事件類型,不需要先驗的領(lǐng)域知識。因此,該方法是對領(lǐng)域移植的一個嘗試,特別適用于知識和資源有限的領(lǐng)域。
目前學者們處理事件抽取的方法,一般是分為兩個步驟:一是事件類型識別;二是事件元素識別。然而在實際應(yīng)用時,會發(fā)現(xiàn)如果人工定義事件類型,則需要耗費大量的人力勞動,另外在某個特定領(lǐng)域,事件類型發(fā)現(xiàn)中需要先驗知識,這種依賴使得不同領(lǐng)域特別是資源和知識有限領(lǐng)域的事件發(fā)現(xiàn)變得困難。因此,本文將自動發(fā)現(xiàn)事件類型作為音樂領(lǐng)域事件抽取的一個子任務(wù)。
事件類型發(fā)現(xiàn)分為兩個步驟:第一領(lǐng)域事件詞抽取,第二聚類領(lǐng)域事件詞自動發(fā)現(xiàn)事件類型。
事件觸發(fā)詞直接引發(fā)事件的產(chǎn)生,是決定事件類別的重要特征。而多數(shù)情況下事件觸發(fā)詞為動詞,因此對領(lǐng)域事件詞進行抽取是非常有必要的。
領(lǐng)域事件詞抽取算法DVE(Domain Verb Extraction)考慮領(lǐng)域語料中不同事件實例具有特定語義關(guān)系的動詞,通過計算其在通用領(lǐng)域和目標領(lǐng)域中的分布情況抽取領(lǐng)域事件詞,具體步驟如下:
Step 1:
對領(lǐng)域語料進行分句分詞;使用依存句法分析器識別主謂關(guān)系SBV和動賓關(guān)系VOB,主謂與動賓關(guān)系都關(guān)聯(lián)的那個動詞(Vt)即是作為本文抽取的候選領(lǐng)域事件觸發(fā)詞。
Step 2:
根據(jù)動詞Vt在領(lǐng)域語料和通用語料中的分布信息采用公式(1)計算其領(lǐng)域相關(guān)度DR(Vt),其中FreqD(Vt)和FreqG(Vt)分別表示Vt在領(lǐng)域語料和通用語料中的出現(xiàn)概率。
Step 3:
最后根據(jù)動詞細分類(分為八大類:系動詞、助動詞、形式動詞、趨向動詞、補語動詞、一般動詞、名動詞、副動詞),將領(lǐng)域事件詞再一次進行過濾,僅保留一般動詞。
(1)
其中依存句法分析器采用哈爾濱工業(yè)大學信息檢索研究中心的依存句法分析模塊GParser。
動詞是體現(xiàn)事件的最為重要的詞匯單元,一系列具有相同含義和用法的動詞體現(xiàn)同一類事件,因此采用基于領(lǐng)域事件詞聚類的方法發(fā)現(xiàn)事件類型是可行的,本文提出的方法通過利用HowNet借助語義知識實現(xiàn)領(lǐng)域事件詞聚類,從而發(fā)現(xiàn)事件類型。
本文提出的事件類型發(fā)現(xiàn)算法ETDA(The Event Type Discovery Algorithm)不需要預(yù)先給定類型數(shù)量,而直接采用領(lǐng)域事件詞聚類的方法獲取事件類型。事件類型發(fā)現(xiàn)算法具體步驟如下:
Step 1:
構(gòu)造候選事件實例
Step 2:
計算任意兩個候選事件實例
Step 3:
將那些沒有聚到一起的候選實例歸到未分類里面。
在該算法中,候選事件實例相似度的計算由領(lǐng)域事件詞間的相似度計算體現(xiàn)。本文中,利用語義相似度描述兩個領(lǐng)域事件詞Vi和Vj,其相似度值Sim(Vi,Vj)根據(jù)HowNet計算得到,Sim(Vi,Vj)由Vi和Vj相同“義原”的數(shù)量除以兩者的“義原”總和實現(xiàn)歸一化得到,如公式(2)所示。
(2)
其中Ns表示領(lǐng)域事件詞Vi和Vj在HowNet概念意義DEF(the concept definition in HowNet)中同樣“義原”的數(shù)量,Ni和Nj分別表示Vi和Vj概念定義中“義原”的數(shù)量。
通過該方法,在音樂領(lǐng)域語料上得到聚類后的兩個典型音樂事件:演唱會事件和專輯事件。
在自動發(fā)現(xiàn)了音樂領(lǐng)域兩類典型事件后,下面要進行音樂領(lǐng)域典型事件類別識別工作。
由于處理的語料全部來源于音樂的新聞資訊,詞的歧義性較少,而且現(xiàn)在所關(guān)注的兩類事件都有明顯的關(guān)鍵詞標志,所以本文最終采用基于關(guān)鍵詞與觸發(fā)詞過濾的方法,來形成候選事件。而對于候選事件的識別,首先進行事件元素的識別,然后看其組合是否符合本文定義的事件模板。
當完成候選事件識別之后,就要對候選事件中的眾多實體中挑選正確的事件元素。例如句子:“周華健2008新年倒計時演唱會12月31日在上海舉行,成龍、火炬手金晶等嘉賓捧場?!蓖ㄟ^關(guān)鍵詞“演唱會”過濾為一個候選演唱會事件,接下來需要識別歌手周華健、成龍哪個才是真正的該事件的元素。該問題可以借助于機器學習分類器的方法來解決。
通過對大規(guī)模音樂領(lǐng)域語料的統(tǒng)計分析,發(fā)現(xiàn)一個句子是否能夠成為本文所關(guān)注的演唱會及專輯事件,是要符合一定的事件模板,演唱會事件模板和專輯事件模板分別為:
(1)歌手[演唱會名字,時間,地點]
其中,方括號內(nèi)元素表示可選,該模板表示一個句子中首先必須包含歌手元素,然后還必須在演唱會名字、時間、地點三個要素中至少包含一個,才能算作是一個演唱會事件,否則應(yīng)該放棄,不作為演唱會事件來看待。
(2)歌手[時間,專輯名]
對于專輯事件,句子中必須包含歌手元素,然后還必須在時間、專輯名兩個要素中至少包含一個才可視為專輯事件。
特征選擇:
由于事件元素識別可以看作二元分類問題,本文為每類事件的每種元素訓練一個二元分類器,這樣一共有演唱會事件的歌手、時間、地點與專輯事件的歌手、時間、專輯6個二元分類器。
(1)上下文特征(FC:ContextFeatures)
? 實體左側(cè)p個詞語
? 實體右側(cè)p個詞語
? 實體右側(cè)p個詞語的POS信息
? 實體右側(cè)p個詞語的POS信息
其中,p為整數(shù),且p∈[1,4]。
候選事件元素是否是真正的事件元素,是由它所在上下文中的語義所決定的,因此上下文信息對于事件元素的判定非常重要。本文選取兩類上下文特征,上下文詞語特征和上下文詞語的詞性特征。并把它們作為基本特征。
(2)鄰近實體特征(FE:NeighborEntitesFeatures)
? 實體左側(cè)q個實體的類型
? 實體右側(cè)q個實體的類型
其中,q為整數(shù),且q∈[1,2]。
在識別候選事件元素的時候,鄰近的實體信息對事件元素的識別也很有所幫助。例如:在演唱會事件中當歌手元素后面緊跟著時間或者地點元素的時候,它是一個真正的事件元素的概率就很大,而當它后面還是歌手元素的時候,往往就不是真正的事件元素。
(3)規(guī)則特征(FR:RuleFeatures)
? 所在子句中是否有觸發(fā)詞
? 該類型的元素在事件中是否唯一
如果與觸發(fā)詞在一個子句中的候選元素與觸發(fā)詞存在較強的語義關(guān)聯(lián)性,則它是事件元素的可能性就相對較大。另外當某種類型的元素唯一時,它也很有可能就是事件元素。
(4)句法結(jié)構(gòu)特征(FS:SyntaxFeatures)
? 實體在句法樹中父節(jié)點的詞信息
? 實體在句法樹中父節(jié)點的POS信息
? 實體節(jié)點與父節(jié)點的句法關(guān)系
大量的研究表明,句法結(jié)構(gòu)特征能夠很好的描述實例的特征及上下文的語境,所以根據(jù)依存句法分析的特點,本文選取候選實體如上的句法結(jié)構(gòu)特征。
(5)動詞特征(FV:VerbFeatures)
? 實體左側(cè)最近的一個動詞
? 實體右側(cè)最近的一個動詞
? 實體在句法樹中最近的一個動詞
觸發(fā)詞在判斷事件元素的時候會起到?jīng)Q定性的作用。根據(jù)統(tǒng)計ACE中的觸發(fā)詞絕大多數(shù)都是動詞,所以動詞特征在判斷事件元素的時候也有很大的影響力。
下面結(jié)合實例來詳細描述各個特征,其中假設(shè)p=2,q=1。例如事件:“日前,F(xiàn)4在日本橫濱為7場巡回個唱揭開序幕。”考慮歌手元素“F4”,特征向量表示如圖2所示。
FC:前兩個詞和詞性分別是“日前”“,”“nt”“wp”,后兩個詞和詞性分別是“在”“日本橫濱”“p”“Ns”。
FE:前一個實體不存在,則標記為null。后一個實體類型為地點Ns。
FR:所在子句有觸發(fā)詞“揭開”且該歌手類型元素在事件中唯一。
FS:候選實體父節(jié)點的詞是“揭開”,詞性是“V”,與父節(jié)點的關(guān)系是SBV。
FV:前一個動詞不存在,標記為null,后一個動詞為“揭開”,句法樹中最近的動詞也為“揭開”。
本文使用2008年8月、9月、10月和11月,2009年3月和4月,6個月的新浪音樂新聞資訊。最終標注語料6 000句,拿出其中的4 000句作為訓練最大熵模型的訓練集,1 000句作為最大熵模型的開發(fā)集,剩下1 000句作為各種方法公共的測試集。訓練語料中包含演唱會事件1 560個,專輯事件555個;開發(fā)集中包含演唱會事件335個,專輯事件155個;而測試集中包含演唱會事件422個,專輯事件160個。
對于事件類型識別和事件元素識別的性能評價,本文采用了傳統(tǒng)的F值的評價方法,定義如下:
(1) 事件類型的識別,定義如下:
(3)
其中P為準確率,R為召回率,分別定義為:
(2) 事件元素的識別,定義如下:
(6)
其中P為準確率,R為召回率,分別定義為:
經(jīng)過實驗驗證,最終確定p=2,q=1并在最大熵訓練的迭代次數(shù)為100時在開發(fā)集上達到最優(yōu)。在分類的過程中,本文以p=2時的上下文特征為基本特征,系統(tǒng)為Baseline系統(tǒng)。在這個系統(tǒng)中不斷的加入新的特征,表1和表2列出了加入各種類型特征后的變化,這樣可以清楚的觀察到各種類型的特征在開發(fā)集上所起的作用。
從各種特征的對分類結(jié)果的貢獻來看:
表1 演唱會事件各元素的二元分類結(jié)果
表2 專輯事件各元素的二元分類結(jié)果
(1) 兩類事件中的規(guī)則特征都起了最重要的作用;
(2) 其次是動詞特征,因為事件元素左右動詞可以為該事件元素提供很強的語義信息;
(3) 句法特征,分析原因是由于現(xiàn)階段本文僅僅選擇了候選元素的父親節(jié)點的相關(guān)信息作為句法特征,相對來說還比較簡單,而且與其他特征存在一定程度的重復(fù),所以效果不是很明顯;
(4) 實體特征,對分類的結(jié)果貢獻最小。
采用最大熵分類的方法在測試集上得到的結(jié)果如表3所示。
表3 最大熵分類在測試集上的結(jié)果
本文針對音樂領(lǐng)域事件抽取的相關(guān)工作展開研究。對事件抽取的三個任務(wù)進行了探索性的嘗試:(1)本文提出了基于領(lǐng)域事件詞聚類的事件類型發(fā)現(xiàn),解決了以往很少被人關(guān)注的一個事件抽取先行問題,同時,也是對領(lǐng)域遷移的一個嘗試;(2)針對特定領(lǐng)域語料的基于觸發(fā)詞與關(guān)鍵詞相結(jié)合的事件類型識別,也簡化了以往事件類型識別的過程;(3)將事件元素識別看成分類問題,用最大熵模型將其解決。
在未來的工作中,將嘗試選擇更有效的句法特征以及其他特征;由于分類器的方法準確率要比基于模板的準確率低,因此將嘗試基于模式匹配與最大熵相結(jié)合的方法抽取事件元素。
[1] Daniel N, Radev D, Allison T. Sub-event based multi-document summarization[C]//Proceedings of the HLT-NAACL Workshop on Text Summarization. Edmonton, Canada, 2003: 9-16.
[2] Filatova E, Hatzivassiloglou V. Event-based extractive summarization[C]//Proceedings of ACL Workshop on Summarization. Barcelona, Spain, 2004: 104-111.
[3] Li W J, Wu M L, Lu Q. Extractive summarization using inter- and intra- event relevance[C]//Proceedings of the 44thAnnual Meeting of the Association for Computational Linguistics. Sydney, NSW, Australia, 2006: 369-376.
[4] Ahn D. The stages of event extraction[C]//Proceedings of the workshop on annotations and reasoning about time and events. Sydney, NSW, Australia, 2006: 1-8.
[5] Chen Ji H. Language specific issue and feature exploration in Chinese event extraction[C]//Proceedings of NAACL HLT 2009. Boulder, Colorado, 2009: 209-212.
[6] Nancy Chinchor, Lynette Hirschman and David D. LewW. 1994. Evaluating Message Understanding Systems: An Analysis of the Third Message Uderstanding Conference (MUC-3)[C]//Computational Linguistics 3,.California, USA.1994:409-449.
[7] http://projects.ldc.upenn.edu/ace/docs/English-Events-Guidelines v5.4.3.pdf[EB/OL].LDC. ACE(Automatic Content Extraction) Chinese Annotation Guidelines for Events. 2005.
[8] Yankova M. Focusing on scenario recognition in information extraction[C]//Proc. EACL. Budapest, Hungary, 2003: 41-48.
[9] Lee C S, Chen Y J, Jian Z W. Ontology-based fuzzy event extraction agent for Chinese e-news summarization[J]. Journal of Expert Systems with Applications. 2003, 25(3): 431-447.
[10] Chieu H L, Ng H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceedings of the 18th National Conference on Artificial Intelligence. Edmonton, Alberta, Canada, 2002: 786-791.