崔 瑩
(西南電子技術(shù)研究所,四川 成都 610036)
隨著科技水平日新月異的更新發(fā)展,各類新聞數(shù)據(jù)來源多種多樣,導(dǎo)致多源、多品類、異構(gòu)新聞數(shù)據(jù)量突飛猛漲。新聞數(shù)據(jù)作為開源情報的重要數(shù)據(jù)來源具有實時性高、海量、非結(jié)構(gòu)化等特點。面對海量非結(jié)構(gòu)化新聞數(shù)據(jù),如何從中對關(guān)注的目標(biāo)信息進(jìn)行深層次挖掘、分析與預(yù)測,實現(xiàn)數(shù)據(jù)態(tài)勢感知、風(fēng)險預(yù)警等目的成為當(dāng)前亟待解決的問題。目前,對非結(jié)構(gòu)化文本類新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換是新聞數(shù)據(jù)分析的基礎(chǔ),針對非結(jié)構(gòu)化文本類新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化信息提取主要有以下解決方法:命名實體提取、實體關(guān)系提取和事件提取等,其中命名實體提取、實體關(guān)系提取為初級信息提??;真正要做到信息關(guān)聯(lián)和事件關(guān)聯(lián)分析、預(yù)測挖掘等,需要進(jìn)行更高層次的信息提取,如事件抽取、主題提取等。事件抽取是指從文檔中識別出某個事件發(fā)生的時間、地點和事件的參與者等信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來,形成模板形式的事件場景描述。針對大量混雜數(shù)據(jù)中的事件信息,越來越多的學(xué)者希望實現(xiàn)這類特殊事件的自動發(fā)現(xiàn),獲得大量精度高、機(jī)器可閱讀的事件數(shù)據(jù),并構(gòu)建出各類結(jié)構(gòu)化事件庫[1 - 5]。本文針對政治外交(政外)領(lǐng)域事件提出了一種基于相似義原和依存句法的元事件提取方法,針對政外領(lǐng)域事件構(gòu)建了8種元事件類別及對應(yīng)的事件觸發(fā)詞表和事件模板。并以不同來源相同領(lǐng)域數(shù)據(jù)進(jìn)行測試,實驗結(jié)果較傳統(tǒng)基于觸發(fā)詞的事件的召回率和F值均有提升,較基于神經(jīng)網(wǎng)絡(luò)的端到端事件抽取模型的抽取準(zhǔn)確率有顯著提升,為政外領(lǐng)域事件庫的構(gòu)建提供了很好的基礎(chǔ)支撐。
定義1(元事件) 表示在特定時刻發(fā)生的一個動作或狀態(tài)變化[6]。
定義2(事件抽取) 事件抽取是信息抽取領(lǐng)域一個重要的研究方向。事件抽取主要把人們感興趣的、用自然語言表達(dá)的事件以結(jié)構(gòu)化的形式呈現(xiàn)出來[6]。
目前事件抽取的研究方法主要有2類,如表1所示:基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法?;谀J狡ヅ涞姆椒?zhǔn)確率較高(如果模式提取得非常準(zhǔn)確),且接近人的思維方式,知識表示直觀、自然,便于推理。但是,這種方法往往依賴于具體語言、具體領(lǐng)域和文本格式,可移植性差,需要富有經(jīng)驗的語言學(xué)家才能完成[7]。和基于模式匹配的方法相比,基于機(jī)器學(xué)習(xí)的方法健壯性和靈活性較好,比較客觀,不需要太多的人工干預(yù)和領(lǐng)域知識,召回率較高,但由于語料庫規(guī)模的影響數(shù)據(jù)稀疏問題比較嚴(yán)重,其準(zhǔn)確率較基于模式匹配的方法低,有時搜索空間很大還會導(dǎo)致巨大的空間開銷,效率不高[8]。另外,它需要大規(guī)模的語料庫進(jìn)行訓(xùn)練。
正是由于機(jī)器學(xué)習(xí)在政外領(lǐng)域進(jìn)行事件抽取時需要大規(guī)模的標(biāo)注語料,同時存在識別率低的問題,本文擬采用基于模式匹配的方法對政外領(lǐng)域新聞數(shù)據(jù)進(jìn)行事件抽取。
定義3(基于模式匹配方法的事件抽取) 模式是一種規(guī)則,模式定義了事件信息抽取的規(guī)范。基于模式匹配方法的事件抽取是指通過定義好的模式來識別某一類事件和抽取事件相關(guān)的元素信息。模式的獲取可以通過手工或者自動的方式來設(shè)定。通過定義模式,形成最終的模式庫,類似于對知識進(jìn)行總結(jié)然后形成知識庫,對整個系統(tǒng)起支撐作用。一般來說,基于模式匹配方法的事件信息抽取系統(tǒng)核心模塊是模式獲取和事件信息抽取[8]。
Table 1 Comparison of event extraction based on pattern matching and machine learning表1 基于模式匹配方法和基于機(jī)器學(xué)習(xí)方法的事件抽取對比
定義4(觸發(fā)詞) 觸發(fā)詞指的是能夠觸發(fā)事件發(fā)生的詞,多為動詞性詞語。
定義5(義原) 義原(Semantics)在語言學(xué)中是指最小的不可再分的語義單位,而知網(wǎng)(HowNet)則是最著名的義原知識庫[9]。
基于模式匹配方法的事件抽取主要分為2部分:事件檢測及類別識別(事件識別);事件論元角色抽取(事件元素識別)。具體處理流程如圖1所示。
(1) 定義事件類別,針對每類事件構(gòu)建觸發(fā)詞表和事件模板,其中事件模板包括觸發(fā)詞、事件論元角色,如表2所示為考察訪問類元模板。
(2) 對單篇文檔進(jìn)行分詞、詞性標(biāo)注、切分句子等文本預(yù)處理操作。
(3) 根據(jù)觸發(fā)詞表,判斷句中是否包含觸發(fā)詞或與觸發(fā)詞相似的詞,對相似詞計算相似度,這里考慮到無法枚舉出所有事件類型的觸發(fā)詞,因此采用了基于義原相似性的方法來擴(kuò)展事件觸發(fā)詞。
(4) 篩選觸發(fā)詞相似度滿足設(shè)定閾值的句子并將其作為事件句(即候選子事件),同時為事件句指定事件類別。
(5) 提取事件句中的實體要素。
(6)根據(jù)事件類別模板內(nèi)的論元角色約束篩選滿足事件類別模板的事件元素,即事件元素的識別。
(7) 根據(jù)事件模板生成事件描述。
Figure 1 Meta event extraction process圖1 元事件抽取處理流程
在基于模式匹配方法事件抽取過程中,有2個核心關(guān)鍵環(huán)節(jié)。一是事件觸發(fā)詞表的構(gòu)建,觸發(fā)詞表構(gòu)建的完整性和準(zhǔn)確性,對事件的識別起到?jīng)Q定性的作用,因此如何完整地構(gòu)建觸發(fā)詞詞表至關(guān)重要。二是事件論元角色內(nèi)容的填充,一句話中針對同一事件要素類型可能會提取到多個事件要素,如何選取合適的要素進(jìn)行事件論元內(nèi)容的填充同樣對事件提取最終結(jié)果的準(zhǔn)確性會產(chǎn)生深遠(yuǎn)的影響。
傳統(tǒng)觸發(fā)詞表的構(gòu)建主要通過計算詞頻、選取相關(guān)動詞性關(guān)鍵詞作為觸發(fā)詞,或通過專家手工構(gòu)建觸發(fā)詞表。本文在傳統(tǒng)觸發(fā)詞構(gòu)建基礎(chǔ)上,采取了基于義原相似性計算的方法,對觸發(fā)詞進(jìn)行擴(kuò)展,能夠提升觸發(fā)詞表的完整性,提升事件識別準(zhǔn)確率和召回率。
Table 2 Metaevent template of visit class表2 考察訪問類元事件模板
本文在事件論元角色內(nèi)容填充過程中,綜合考慮上下文語義信息,結(jié)合句法分析、指代消解及觸發(fā)詞詞性判斷等方法,進(jìn)行事件論元角色內(nèi)容的填充。
基于模式匹配方法的元事件抽取主要處理環(huán)節(jié)包括觸發(fā)詞表的構(gòu)建、事件句的識別以及事件模板中論元角色內(nèi)容的填充,下面對這幾方面在本文實驗中的實現(xiàn)原理及相關(guān)算法進(jìn)行詳細(xì)介紹。
事件觸發(fā)詞是事件描述中的重要組成要素,直接引發(fā)事件的產(chǎn)生,是決定事件類別的重要特征。而事件觸發(fā)詞具有領(lǐng)域特色,事件觸發(fā)詞的提取在進(jìn)行領(lǐng)域事件抽取過程中是非常重要的。本文對觸發(fā)詞表的構(gòu)建采用人工構(gòu)建初始觸發(fā)詞集合的方式,再通過對特定范圍內(nèi)的語料進(jìn)行人工分析結(jié)合義原相似性計算,擴(kuò)展并構(gòu)建觸發(fā)詞表。
首先根據(jù)新聞標(biāo)題或正文內(nèi)容中是否包含觸發(fā)詞作為判斷是否是候選事件的標(biāo)準(zhǔn),判斷句子中是否有觸發(fā)詞,有則歸類到相關(guān)候選類別中。判斷過程中考慮到觸發(fā)詞無法全面覆蓋所有新聞標(biāo)題關(guān)鍵詞,利用知網(wǎng)詞語相似度計算標(biāo)題文本中的詞語與類別觸發(fā)詞的相似度。實詞的每一個概念是由一組義原描述式來定義的,這些義原描述式可以分為4部分:第一獨立義原描述式和其他獨立義原描述式、關(guān)系義原描述式和符號義原描述式。本文參考并借鑒了劉群等[10,11]的詞語相似度計算方法來計算觸發(fā)詞語義相似度:
第一獨立義原之間的相似度是通過計算義原在知網(wǎng)中上下位關(guān)系樹中的距離得到的,公式為:
(1)
其中,p1和p2表示2個義原;d是p1和p2在義原層次體系中的路徑長度,是一個正整數(shù);α是一個可調(diào)節(jié)的參數(shù)。2個觸發(fā)詞概念之間的相似性可以通過式(1)計算觸發(fā)詞獨立義原之間的相似度得到,記為Sim1(S1,S2)。
其他獨立義原描述式,是指除第一獨立義原描述式以外的其他獨立義原描述式,因此這一部分相似度計算公式同第一獨立義原相似度計算公式,即式(1),這樣通過計算其他獨立義原描述式相似度得到2個概念之間的其它獨立義原相似度,記為Sim2(S1,S2)。
關(guān)系義原描述式,是用來描述概念和概念之間的關(guān)系,描述形式用“關(guān)系義原=基本義原”或者“關(guān)系義原=(具體詞)”或者“(關(guān)系義原=具體詞)”來表示,因此這一部分相似度計算仍然采用式(1),計算結(jié)果記為Sim3(S1,S2)。
符號義原描述式:其值是一個特征結(jié)構(gòu),該特征結(jié)構(gòu)中的每一個特征包含屬性和關(guān)系2部分,其中屬性是一個關(guān)系義原,值是一個基本義原或具體詞的集合。通過將2個概念的符號義原描述式中的基本義原或詞集合進(jìn)行兩兩組合,利用式(1)計算得到不同相似度值,符號義原相似度取其中基本義原相似度最大的值,我們將2個概念這一部分的相似度記為Sim4(S1,S2)。
最后,計算第一獨立義原描述式、其他獨立義原描述式、關(guān)系義原描述式和符號義原描述式4部分相似度的加權(quán)平均值作為詞語的相似度,如式(2)所示:
(2)
計算文本中的詞語與觸發(fā)詞的相似度過程中,如果文本中的詞語和多個類別的觸發(fā)詞的相似度都超過閾值,那么選擇觸發(fā)詞相似度最高的類別作為候選事件類別。
利用以上相似義原擴(kuò)充觸發(fā)詞集方法,不同類型事件觸發(fā)詞擴(kuò)展結(jié)果如表3所示。
因為絕大多數(shù)事件觸發(fā)詞的詞性是動詞,因此事件句的識別是通過對句子進(jìn)行分詞處理,將所有詞性為動詞的詞與觸發(fā)詞表進(jìn)行比對,當(dāng)該句子中包含有觸發(fā)詞表中的某觸發(fā)詞時,將該句判定為事件句,同時根據(jù)觸發(fā)詞指定該事件句的事件類別。當(dāng)一句話中包含多個觸發(fā)詞時,認(rèn)為該句屬于多事
Table 3 Trigger extension results表3 觸發(fā)詞擴(kuò)展結(jié)果
件句,對該事件句賦予多個事件類別。
論元角色內(nèi)容的填充主要是對事件句中的事件元素進(jìn)行識別,再按照事件模板將事件元素填充到對應(yīng)的論元角色中。論元角色內(nèi)容的填充結(jié)果準(zhǔn)確性主要依賴于分詞結(jié)果和依存句法分析結(jié)果的準(zhǔn)確性。由于政外領(lǐng)域語料觸發(fā)詞具有專業(yè)性,因此在觸發(fā)詞表構(gòu)建完成時,為提高事件句識別準(zhǔn)確率,同步對分詞算法中用戶自定義詞典進(jìn)行了手動更新。
本文實驗中的分詞方法采用了HanLP分詞算法,通過對句子做依存句法分析,得到句子的依存句法關(guān)系,如圖2所示,利用句子的依存句法關(guān)系作為指導(dǎo),對抽取的實體元素進(jìn)行論元角色的填充,論元角色內(nèi)容填充流程如圖3所示。
Figure 2 Dependency parsing graph圖2 依存句法分析圖
Figure 3 Content filling process for argument roles圖3 論元角色內(nèi)容填充流程
該事件要素識別環(huán)節(jié)中,因為數(shù)據(jù)涉及政外領(lǐng)域,HanLP分詞算法在政外領(lǐng)域中得到的分詞結(jié)果不夠準(zhǔn)確,經(jīng)常會將一個具有特殊含義的實體拆分為多個詞語,對事件要素抽取準(zhǔn)確性造成了干擾。同時,事件要素抽取后,需要對其在整個事件描述中的角色給予定義。因此,本文利用依存句法分析結(jié)果,加入一定的規(guī)則來提升事件要素識別和論元角色內(nèi)容填充的準(zhǔn)確率。部分規(guī)則如下:
規(guī)則1在句法樹中,通常將主謂賓詞語中的主語詞定義為事件主體,將謂語詞定義為事件觸發(fā)詞,賓語詞定義為事件客體。但是,實際情況是一句話中可能存在多個事件描述,因此需要進(jìn)一步結(jié)合規(guī)則來生成事件描述。如果存在多個動賓關(guān)系,則判斷多個動賓關(guān)系是否共享同一個主語,針對同一主語生成多個事件描述;否則在事件句中,按動賓關(guān)系對句子進(jìn)行分割,在子句中為各動賓關(guān)系找到主語即事件主體,進(jìn)而生成多個事件描述。
規(guī)則2對事件要素填充事件客體這一論元角色時,在句法樹中,如果與觸發(fā)詞構(gòu)成動賓關(guān)系的詞語前面有定語詞,則將該定語與賓語詞進(jìn)行拼接,如果該定中關(guān)系的父節(jié)點詞語前仍有定語,則繼續(xù)對該賓語進(jìn)行拼接,直至定中關(guān)系判定結(jié)束,則該拼接詞為事件客體。
例如,朝鮮勞動黨中央委員會、朝鮮中央政治局、中華人民共和國第十三屆全國人民代表大會等,在句法樹中,上述示例中的短語常被識別為委員會、政治局、大會等,在事件要素填充過程中,此類識別結(jié)果是不完整且不準(zhǔn)確的,因此通過結(jié)合句法樹中定中關(guān)系等判斷,可以提升事件要素識別準(zhǔn)確率和完整性,同時能夠?qū)︻I(lǐng)域詞典進(jìn)行很好的補(bǔ)充。
規(guī)則3同規(guī)則2,在判斷事件主體時,在句法樹中,如果主語前有多個詞語與其是定中關(guān)系,則不斷向該定中關(guān)系的父節(jié)點循環(huán)拼接,直至定中關(guān)系判定結(jié)束,則拼接詞為事件主體。
首先以朝鮮勞動新聞網(wǎng)金正恩相關(guān)報道為主要分析數(shù)據(jù)來源,對金正恩行為事件進(jìn)行分析。實驗場景如表4所示,建立8種元事件類別及對應(yīng)事件觸發(fā)詞和事件模板(如表5所示),利用該模板分別對不同來源數(shù)據(jù)和不同施事者數(shù)據(jù)的事件句識別和論元角色內(nèi)容填充進(jìn)行實驗設(shè)計,并對元事件抽取結(jié)果進(jìn)行驗證,驗證新聞數(shù)據(jù)中同一領(lǐng)域內(nèi)不同對象的相同類型事件的描述是否相似,進(jìn)一步驗證本文方法中事件觸發(fā)詞和事件模板對同一領(lǐng)域內(nèi)其他對象的相關(guān)數(shù)據(jù)抽取是否具有通用性。
同時,為對比傳統(tǒng)方法與基于相似義原和依存句法的事件抽取方法在特定領(lǐng)域的抽取效果,在實驗中采用傳統(tǒng)的基于模板匹配方法和基于LSTM的事件抽取方法,分別進(jìn)行實驗比對。具體來說,基于模板匹配方法中,主要采用元事件基礎(chǔ)模板(如表5所示),其中事件觸發(fā)詞未進(jìn)行擴(kuò)展;LSTM方法中,模型主要由表示層(詞向量、位置向量、實體向量)、雙向的LSTM層、卷積層、max-pooling層和softmax分類層組成,利用雙向LSTM完成詞表示,每個詞表示的基本信息包含有詞向量、實體類別向量和依存關(guān)系向量。通過對比不同方法抽取結(jié)果,驗證本文方法在特定領(lǐng)域中的優(yōu)勢。
實驗使用的觸發(fā)詞表及元事件模板是通過基于相似義原對朝鮮勞動網(wǎng)有關(guān)金正恩行為報道的數(shù)據(jù)進(jìn)行觸發(fā)詞相似性計算得到的。
Table 4 Experimental scenario settings表4 實驗場景設(shè)置
Table 5 Meta event triggers and meta event templates表5 元事件觸發(fā)詞及元事件模板
針對不同的任務(wù)、不同的語料來源,事件抽取的評價方法也有所不同,本文借鑒ACE會議的評價標(biāo)準(zhǔn),采用經(jīng)典的準(zhǔn)確率P(Precision)、R召回率(Recall)和F值(F-Measure)評價最終的抽取結(jié)果。具體計算公式如下所示。
(1) 事件類型類別的識別:
(3)
其中,PS為事件類型識別準(zhǔn)確率,RS為事件類型識別召回率,其計算方式如式(4)和式(5)所示。
(4)
(5)
(2) 事件元素的識別:
(6)
其中,PA為事件元素識別準(zhǔn)確率,RA為事件元素識別召回率,其計算方式如式(7)和式(8)所示:
(7)
(8)
實驗數(shù)據(jù)采用互聯(lián)網(wǎng)政治新聞領(lǐng)域事件數(shù)據(jù),如表6所示,共計784條新聞標(biāo)題數(shù)據(jù),標(biāo)注其所有事件要素和事件類型,標(biāo)注數(shù)據(jù)類別及個數(shù)如表7所示,其中550條作為訓(xùn)練數(shù)據(jù),234條作為測試數(shù)據(jù)。
Table 6 Experimental data表6 實驗數(shù)據(jù)
Table 7 Tagging data表7 標(biāo)注數(shù)據(jù)
事件類型識別結(jié)果對比和事件元素識別結(jié)果對比分別如圖4和圖5所示。
Figure 4 Comparison of event type recognition results圖4 事件類型識別結(jié)果對比
Figure 5 Comparison of event element recognition results圖5 事件元素識別結(jié)果對比
本實驗所采用的觸發(fā)詞表及事件模板類型來自于領(lǐng)域?qū)<覍Τr勞動網(wǎng)有關(guān)金正恩行為報道的總結(jié)歸納,事件類型參考目前最權(quán)威的事件數(shù)據(jù)分類編碼方案沖突與調(diào)解事件框架CAMEO(Conflict And Mediation Event Observations),所測試的數(shù)據(jù)均為同一領(lǐng)域相關(guān)報道。
(1)通過實驗可以看出本文方法中觸發(fā)詞及元事件模板對同一領(lǐng)域內(nèi)其他主體對象的相關(guān)事件要素抽取具有通用性,說明新聞數(shù)據(jù)中同一領(lǐng)域內(nèi)不同對象的相同類型事件的描述是相似的。
(2) 通過基于模式匹配、相似義原、深度神經(jīng)網(wǎng)絡(luò)LSTM不同方法的對比實驗分析發(fā)現(xiàn),在元事件類型識別中,采用相似義原的觸發(fā)詞擴(kuò)展方法使得事件類型召回率和事件類型識別F值均得到了一定的提升,如圖4所示。數(shù)據(jù)召回率低主要是因為觸發(fā)詞表不完備,元事件模板不完備,其他類型元事件在元事件模板定義中缺失,通過補(bǔ)充觸發(fā)詞表可提高元事件類型召回率。
(3) 通過基于模式匹配、相似義原、深度神經(jīng)網(wǎng)絡(luò)LSTM 3種方法的實驗分析,如圖5所示,在元事件元素識別中,有未召回的事件元素主要是因為分詞結(jié)果中部分分詞結(jié)果不準(zhǔn)確,或是特殊的專有名詞,在實驗過程中,通過將未識別出的詞加入到分詞詞典中,可提高事件元素識別召回率;同時,可以看出由于基于相似義原的方法對觸發(fā)詞進(jìn)行了擴(kuò)展,因此該方法在事件要素識別準(zhǔn)確率和召回率上均有提升。
(4) 基于深度神經(jīng)網(wǎng)絡(luò)LSTM在政治外交領(lǐng)域的元事件元素識別召回率和準(zhǔn)確率不高的主要原因是論元角色涉及大量領(lǐng)域?qū)S忻~,如“朝鮮勞動黨第5次支部委員長大會”,只能抽取到“朝鮮”“勞動黨”;而本文方法結(jié)合相似義原和依存句法的方法可以做到事件要素的準(zhǔn)確識別和抽取。
(5)針對政外領(lǐng)域數(shù)據(jù)的元事件抽取,需要專有的觸發(fā)詞表及元事件類型定義。
元事件識別過程中觸發(fā)詞的擴(kuò)展、論元角色的識別(包括時間表達(dá)式識別、專有名詞的識別)、事件類型的定義等都是影響元事件類型識別和元事件元素識別效果的因素,在未來的研究中,可針對各方面嘗試不同的方法,在整體上提高對元事件抽取的質(zhì)量。
本文方法在實際工程中主要用于針對非結(jié)構(gòu)化文本類新聞數(shù)據(jù)進(jìn)行結(jié)構(gòu)化抽取,通過元事件抽取得到數(shù)據(jù)內(nèi)部人物、時間、地點、組織等關(guān)聯(lián)關(guān)系,對事件庫的構(gòu)建進(jìn)行支撐和補(bǔ)充,進(jìn)一步為事件關(guān)系挖掘、事件預(yù)測等提供基礎(chǔ)支撐。