王紅斌+郜洪奎
摘要:
事件抽取包括兩大任務(wù):識(shí)別事件和事件要素抽取。對(duì)于事件抽取的傳統(tǒng)方法是模式匹配和機(jī)器學(xué)習(xí)。模式匹配包含規(guī)則有限,機(jī)器學(xué)習(xí)需要大量語(yǔ)料和眾多特征。針對(duì)傳統(tǒng)方法的不足,提出了結(jié)合觸發(fā)詞擴(kuò)展、神經(jīng)網(wǎng)絡(luò)及依存分析相結(jié)合的方法。該方法利用觸發(fā)詞擴(kuò)展增加觸發(fā)詞數(shù)量,利用神經(jīng)網(wǎng)絡(luò)選擇特征進(jìn)行事件分類,利用依存分析挖掘詞之間關(guān)系。實(shí)驗(yàn)證明該方法可行,在事件識(shí)別和事件要素抽取方面得到了較好結(jié)果。
關(guān)鍵詞:
機(jī)器學(xué)習(xí);事件識(shí)別;事件要素抽??;依存分析;神經(jīng)網(wǎng)絡(luò)
DOIDOI:10.11907/rjdk.172075
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001001903
Abstract:Event extraction consists of two tasks: identifying the extraction of events and event elements. Traditionally, pattern matching and machine learning methods are used for event extraction. Pattern matching involves limited rules. Machine learning requires a large number of corpus and many features. In view of the shortcomings of traditional methods, this paper proposes a combination of triggering word extension, neural network and dependency analysis. The method can increase the number of trigger words by using the trigger word extension, use the neural network to select the feature to classify the event, and use the dependency analysis to dig the relationship between the words. Experiments show that this method is feasible and has achieved good results in event recognition and event element extraction.
Key Words:machine learning; event recognition; event element extraction; dependency analysis; neural network
0引言
中國(guó)交通事故發(fā)生頻繁,突發(fā)性災(zāi)難事件研究受到重視。事故處理部門關(guān)心事故發(fā)生時(shí)間、地點(diǎn)、人員傷亡情況,以及哪個(gè)路段、哪個(gè)時(shí)間容易發(fā)生事故,從而采取措施最大限度地減少傷亡[1]。對(duì)事件的研究不僅具有理論價(jià)值,還具有實(shí)際應(yīng)用前景。
事件抽取研究已取得較多成果,研究大致分為兩類:基于規(guī)則的方法[24]和機(jī)器學(xué)習(xí)方法。基于規(guī)則的方法是事先制定一個(gè)字典,然后用待選詞與字典進(jìn)行匹配。Ahn D[5]采用二元分類器和多元分類器方法進(jìn)行事件抽取研究,并在ACE英文語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn),取得較好結(jié)果;吳平博等[6]采用預(yù)先定義的模版制定規(guī)則,從處理的文本中抽取事件信息來(lái)填充句型模板中的槽。結(jié)合上述事件抽取發(fā)現(xiàn),基于規(guī)則方法在一定范圍內(nèi)效果不錯(cuò),但它依賴具體環(huán)境,可移植性差,對(duì)于一些沒(méi)有統(tǒng)計(jì)到字典的詞識(shí)別不出來(lái),而且字典的制定費(fèi)時(shí)費(fèi)力,需要領(lǐng)域?qū)<抑笇?dǎo),機(jī)器學(xué)習(xí)方法則可以解決這些問(wèn)題。機(jī)器學(xué)習(xí)相關(guān)研究有:文檔相關(guān)性的研究方法 [7],跨越不同事件的推理演繹方法[8]。楊爾弘[9]根據(jù)中文特點(diǎn),采用語(yǔ)句聚類方法獲得事件的信息結(jié)構(gòu)(事件模板),并以此為標(biāo)準(zhǔn)抽取事件;趙妍妍等[10] 結(jié)合 Ahn等[11] 的工作,對(duì)機(jī)器學(xué)習(xí)需要的特征進(jìn)行了改進(jìn);付劍鋒等[12] 采用依存分析,深入挖掘詞與詞間的句法關(guān)聯(lián)性,李培峰等[13]采用語(yǔ)義進(jìn)行推理,對(duì)事件缺失信息進(jìn)行還原和補(bǔ)充。但是機(jī)器學(xué)習(xí)方法需要大量的語(yǔ)料和眾多特征作為支持,現(xiàn)今語(yǔ)料資源的缺乏和特征的選取影響了機(jī)器學(xué)習(xí)的提高,而且這兩種抽取方法均沒(méi)有考慮詞語(yǔ)間詞性特征及詞語(yǔ)之間的依賴性和事件之間的關(guān)聯(lián)。
針對(duì)上述情況,本文提出了一種新的事件抽取方法,充分考慮了上下文、核心詞和其它詞語(yǔ)的特征、觸發(fā)詞擴(kuò)展和詞語(yǔ)間的依存性。實(shí)驗(yàn)表明本文方法在事件識(shí)別和事件要素提取方面均有明顯提高。
1事件識(shí)別和事件要素
事件反映自然界中的運(yùn)動(dòng)以及產(chǎn)生和變化的行為,是人類進(jìn)行探索和發(fā)掘知識(shí)的基本單位。在自然語(yǔ)言處理和信息檢索領(lǐng)域,檢索的主題被稱作事件。事件是話題的子集,多個(gè)事件共同組成一個(gè)話題。 事件表示為在“特定時(shí)間特定地點(diǎn)發(fā)生”。國(guó)際ACE評(píng)測(cè)大會(huì)認(rèn)為,事件通常是一種狀態(tài)轉(zhuǎn)向另一種狀態(tài),并把“事件”定義為含有參與者、時(shí)間、地點(diǎn)等特征的集合。事件的定義包括行為(一般由動(dòng)詞、名詞或動(dòng)名詞來(lái)描述)、事件的參與者、事件發(fā)生的地點(diǎn)和時(shí)間等要素。下面給出事件和事件要素的定義。
定義1事件(Event):特定時(shí)間特定地點(diǎn)發(fā)生、由參與者參與、表現(xiàn)出若干動(dòng)作。
例如:2016年8月14日,在市中心,一輛公交車與多輛小轎車發(fā)生追尾,小轎車司機(jī)當(dāng)場(chǎng)死亡,公交車司機(jī)受重傷。
定義2事件觸發(fā)詞[14](Event Denoter):文本中清晰表示發(fā)生事情的詞語(yǔ),即事件的動(dòng)作要素。文獻(xiàn)表明事件觸發(fā)詞一般為動(dòng)詞、名詞、動(dòng)名詞。endprint
例如:北京時(shí)間2016年8月16日,澳大利亞發(fā)生了5.7級(jí)地震。
定義3事件要素(Event Elements):文本中時(shí)間、地點(diǎn)、人物等要素,具體描述事件。
例如:7日夜晚,昆湖高速公路上一輛大巴車與一輛大貨車相撞,截至8日,這起事故已造成8人死亡,2人受傷。
2觸發(fā)詞擴(kuò)展和依存關(guān)系
2.1語(yǔ)料
本實(shí)驗(yàn)所用語(yǔ)料是ACE2005中文語(yǔ)料資源,其中ACE2005定義的事件共有8大類,每大類下面又分33個(gè)小類事件。對(duì)語(yǔ)料的2/3標(biāo)記事件觸發(fā)詞及相應(yīng)的事件類別。
2.2觸發(fā)詞擴(kuò)展
本實(shí)驗(yàn)所用系統(tǒng)是觸發(fā)詞識(shí)別抽取系統(tǒng)。根據(jù)標(biāo)注的訓(xùn)練語(yǔ)料構(gòu)建一個(gè)字典,在此基礎(chǔ)上根據(jù)中文觸發(fā)詞擴(kuò)展系統(tǒng)及方法進(jìn)行觸發(fā)詞擴(kuò)展[15],從而得到含有大量觸發(fā)詞的字典,使觸發(fā)詞不斷擴(kuò)展。最后,根據(jù)得到的字典把帶有觸發(fā)詞的事件句與字典進(jìn)行匹配,得到大量候選事件集合。
2.3事件句
在事件識(shí)別和事件抽取兩大任務(wù)中,事件識(shí)別起到?jīng)Q定性作用。例如:張三患上了高血壓,癱瘓?jiān)诖病?/p>
例①小李在工作期間由于大意摔成癱瘓;②強(qiáng)大的暴雪致使公路癱瘓;③黑客攻擊網(wǎng)絡(luò)導(dǎo)致12306癱瘓。這3個(gè)例子,觸發(fā)詞都是癱瘓,但只有句子①才符合要求,才是真正事件。在事件識(shí)別中,對(duì)于包含觸發(fā)詞的事件統(tǒng)稱為候選事件。針對(duì)上述例子,本文所要解決的是從候選事件中選擇真正的事件句。漢語(yǔ)具有結(jié)構(gòu)靈活多變、表達(dá)含義多樣性等特點(diǎn),在事件識(shí)別和事件要素抽取中占到很高比例。因此,在中文事件識(shí)別和事件要素提取時(shí)不能孤立考慮句子,要結(jié)合上下文、依存分析,把觸發(fā)詞以及距離觸發(fā)詞相近的詞以及這些詞的詞性、位置信息、句子間的關(guān)聯(lián)性、依存關(guān)系等作為事件識(shí)別特征。
2.3.1候選事件識(shí)別的特征選擇
①詞性特征:候選事件中的觸發(fā)詞信息;②上下文特征:觸發(fā)詞左右兩邊3個(gè)詞的信息。
2.3.2神經(jīng)網(wǎng)絡(luò)分類器
神經(jīng)網(wǎng)絡(luò)(NeuralNetwork,縮寫NN),不僅是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學(xué)模型,而且是一種自我學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)的目的是讓計(jì)算機(jī)具有和人的大腦一樣的能力。神經(jīng)網(wǎng)絡(luò)由節(jié)點(diǎn)相互連接而成,由輸入層、隱藏層和輸出層組成。神經(jīng)網(wǎng)絡(luò)按照老師教的方式學(xué)習(xí),當(dāng)提供新的特征時(shí),神經(jīng)網(wǎng)絡(luò)的各個(gè)神經(jīng)元根據(jù)獲得的輸入產(chǎn)生連接權(quán)值,通過(guò)各層進(jìn)行處理,最后產(chǎn)生輸出結(jié)果。神經(jīng)網(wǎng)絡(luò)組成如圖1所示。
在用神經(jīng)網(wǎng)絡(luò)進(jìn)行事件句語(yǔ)義分類中,作為事件句的基本組成,詞向量具有重要作用。把事件句轉(zhuǎn)化為詞向量用于神經(jīng)元的輸入層。神經(jīng)網(wǎng)絡(luò)算法組成如下:
神經(jīng)網(wǎng)絡(luò)輸入層:Xi、Xi表示輸入特征;
神經(jīng)網(wǎng)絡(luò)的單元數(shù)量表示:d;
隱層的輸入表示:netj;隱層單元數(shù)量表示:nH
神經(jīng)網(wǎng)絡(luò)輸出層:Yi;
i表示的激活函數(shù)為線性函數(shù);
最后的輸出用yj表示,激活函數(shù)為非線性函數(shù);
j的輸出:
輸入層的相關(guān)信息為:net;單元的數(shù)量為c:
k的輸出:
神經(jīng)網(wǎng)絡(luò)算法描述如下:
(1)給定隱層單元及輸出層單元的激活函數(shù),一個(gè)神經(jīng)網(wǎng)絡(luò)就可以實(shí)現(xiàn)一個(gè)對(duì)輸入特征向量x的非線性映射。因此,神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)非線性函數(shù)。
(2)給定隱層單元及輸出層單元激活函數(shù),該非線性函數(shù)所對(duì)應(yīng)的映射關(guān)系完全由權(quán)系數(shù)決定。不同的權(quán)系數(shù)對(duì)應(yīng)不同的非線性映射。
(3)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目的,就是根據(jù)已知的訓(xùn)練樣本,確定神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù),這一過(guò)程稱為訓(xùn)練過(guò)程。在訓(xùn)練過(guò)程結(jié)束后,對(duì)于新樣本x,根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行判決。
(4)對(duì)于分類問(wèn)題,輸出結(jié)果為zk(x),k=1,…,c。
根據(jù)詞向量,采用word2vec工具轉(zhuǎn)換為相應(yīng)詞向量,結(jié)合特征用于神經(jīng)網(wǎng)絡(luò)分類器,最后選出真正的事件句并進(jìn)行事件分類。
2.4依存關(guān)系
依存關(guān)系是進(jìn)行句法分析的重要方法[17]。采用依存分析發(fā)現(xiàn)句子中心詞和其余詞語(yǔ)的關(guān)系,并且轉(zhuǎn)化為語(yǔ)義依存來(lái)描述。當(dāng)前的主流方法是基于短語(yǔ)的句法分析。基于依存結(jié)構(gòu)句法分析概念1984年由 Hudson首次提出,受到學(xué)者一致好評(píng)并廣泛推廣。依存關(guān)系主要包括核心詞、依賴詞。依存關(guān)系的基本原理是充分挖掘句子中詞與詞間的關(guān)系,轉(zhuǎn)化為描述自然語(yǔ)言的語(yǔ)法結(jié)構(gòu)。詞語(yǔ)間有聯(lián)系和相互支配關(guān)系,反映出詞語(yǔ)間的不對(duì)等現(xiàn)象,這種相互間具有的方向性關(guān)系稱為“依存關(guān)系”。依存關(guān)系中,定義箭頭發(fā)出的是支配者,箭頭指向的就是從屬者。例如2016年9月4日,20國(guó)集團(tuán)在中國(guó)杭州國(guó)際博覽中心召開(kāi)峰會(huì),依存分析表示如圖2所示。
“2016年9月4日,20國(guó)集團(tuán)在中國(guó)杭州國(guó)際博覽中心召開(kāi)峰會(huì)”的事件句中,Root是全句核心節(jié)點(diǎn)。HED代表核心詞,核心詞是“召開(kāi)”;“召開(kāi)”也是本事件句的觸發(fā)詞。依存關(guān)系表示中,COO表示并列關(guān)系,LAD表示左附加關(guān)系,SBV表示主謂關(guān)系,ATT表示定中關(guān)系。詞語(yǔ)間的依存關(guān)系是用帶箭頭的有向弧表示。箭頭的發(fā)起端代表的詞是依存詞,箭頭的指向端代表的詞是核心詞。在這個(gè)事件句中,中國(guó)、杭州、國(guó)家博覽中心都是表示地點(diǎn)的事件要素。經(jīng)過(guò)分析可知,只有國(guó)際博覽中心是真正的地點(diǎn)要素。依存分析表示地點(diǎn)詞按照核心詞和依賴詞順序排列,真正的地點(diǎn)要素是后面的依賴詞。中國(guó)是杭州的核心詞、杭州是國(guó)際博覽中心的核心詞。根據(jù)依存關(guān)系,只要出現(xiàn)最終地點(diǎn)要素均是依賴詞。依存分析依賴于分詞之上,因此分詞的效率直接影響依存分析結(jié)果。本文采用的分詞工具是中科院的ICTCLAS,依存分析采用斯坦福大學(xué)的Stanford。
3實(shí)驗(yàn)
3.1事件識(shí)別
本實(shí)驗(yàn)先進(jìn)行事件識(shí)別,然后在此基礎(chǔ)上進(jìn)行事件要素抽取。實(shí)驗(yàn)用的訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料是CEC語(yǔ)料,采用準(zhǔn)確率(P)、召回率(R)、F值作為評(píng)價(jià)指標(biāo)。事件識(shí)別對(duì)比實(shí)驗(yàn)結(jié)果如表1所示:①以詞(Word)作為特征;②以詞和詞法(Word+POS)作為特征;③以上下文(Context)作為特征;④上述全部特征(All Features)作為特征。endprint
從表1可知,選擇觸發(fā)詞及詞法和上下文這些特征來(lái)識(shí)別事件效果,好于單獨(dú)用詞作為特征識(shí)別事件。
將上面選出的事件作為候選事件句,選擇分類器進(jìn)行真正事件的選擇,表2為不同分類器對(duì)事件進(jìn)行分類的結(jié)果。
從表2可以得出,采用神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行事件分類效果好于最大熵和SVM分類器。
3.2事件要素抽取
采用準(zhǔn)確率(P)、召回率(R)、F值作為評(píng)價(jià)指標(biāo)。事件要素抽取對(duì)比實(shí)驗(yàn)結(jié)果如表3所示:①以詞(Word)作為特征;②以詞和依存關(guān)系(Word+DR)作為特征;③上述全部特征(All Features)作為特征。
從上述3組實(shí)驗(yàn)可知,采用依存關(guān)系可以提高事件要素抽取效率。
4結(jié)語(yǔ)
本文提出了一種結(jié)合觸發(fā)詞擴(kuò)展、神經(jīng)網(wǎng)絡(luò)及依存分析的事件識(shí)別和事件要素抽取方法。實(shí)驗(yàn)結(jié)果表明,該方法在事件識(shí)別和事件要素抽取中可以提高事件識(shí)別準(zhǔn)確率和召回率以及F值。同時(shí),從分析結(jié)果發(fā)現(xiàn)以下問(wèn)題:①事件觸發(fā)詞數(shù)量不足,導(dǎo)致事件識(shí)別效率不高;②語(yǔ)料資源不足;③事件要素識(shí)別的人稱代詞沒(méi)有具體指明所屬。因此,下一步將結(jié)合神經(jīng)網(wǎng)絡(luò)對(duì)上述問(wèn)題進(jìn)行研究。
參考文獻(xiàn):
[1]軒小星.事件及事件要素的提取研究[D].淮南:安徽理工大學(xué),2015.
[2]RILOFF E. Automatically generating extraction patterns from untagged text[C]. In: Proc. of the AAAI96. Palo Alto: AAAI Press, 1996:10441049.
[3]STEVENSON M, GREENWOOD M. A semantic approach to IE pattern induction[C]. In: Proc. of the ACL 2005. Stroudsburg: ACL, 2005:379386.
[4]PATWARDHAN S, RILOFF E. Effective information extraction with semantic affinity patterns and relevant regions[C]. In: Proc. of the EMNLPcoNLL 2007. Stroudsburg: ACL, 2007: 717727.
[5]AHN D.The stages of event extraction[C].Proceedings of the COLINGACL 2006 Workshop on Annotating and Reasoning About Time and Eyents.2006:18.
[6]吳平博,陳群秀,馬亮.基于事件框架的事件相關(guān)文檔的智能檢索研究[J].中文信息學(xué)報(bào),2003,17(6):2530.
[7]PATWARDHAN S, RILOFF E. A unified model of phrasal and sentential evidence for information extraction[C]. In: Proc. of the EMNLP Stroudsburg: ACL, 2009:151160.
[8]JI H, GRISHMAN R. Refining event extraction through crossdocument inference[C]. In: Proc. of the ACL 2008. Stroudsburg: ACL,2008:254262.
[9]楊爾弘.突發(fā)事件信息提取研究[D].北京:北京語(yǔ)言大學(xué),2005.
[10]AHN D. The stages of event extraction[C]. In: Proc. of the Workshop on Annotating and Reasoning about Time and Events (ARTE 2006). Stroudsburg: ACL, 2006:18.
[11]ZHAO YY, QIN B, CHE WX,et al. Research on Chinese event extraction[J]. Journal of Chinese Information Processing, 2008,22(1):38.(in Chinese with English abstract).
[12]FU JF, LIU ZD, FU XF, et al. Dependency parsing based eventrecognition[J]. Computer Science, 2009,36(11):217219.(in Chinese with English abstract).
[13]李培峰,周國(guó)棟,朱巧明.基于語(yǔ)義的中文事件觸發(fā)詞抽取聯(lián)合模型[J].軟件學(xué)報(bào),2016(2):280294.
[14]軒小星,廖濤,高貝貝.中文事件觸發(fā)詞的自動(dòng)抽取研究[J].計(jì)算機(jī)與數(shù)字工程,2015(3):457461.
[15]李培峰,朱巧明.中文事件觸發(fā)詞的擴(kuò)展方法及系統(tǒng)[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2016(1):156159.
[16]GROSZ B, ARAVIND J, SCOTT W. Centering: a framework for modeling the local coherence of discourse[J]. Computational Linguistics,1995,21(2):202225.
[17]高源,李弼程.基于依存句法分析與分類器融合的觸發(fā)詞抽取方法[J].計(jì)算機(jī)應(yīng)用研究,2016(5):14071410.
(責(zé)任編輯:杜能鋼)endprint