基于Bootstrapping的新聞事件型實體關(guān)系抽取方法

2017-07-05 12:59宋卿戚成琳楊越

中國傳媒大學(xué)學(xué)報(自然科學(xué)版) 2017年4期

關(guān)鍵詞：三元組傳媒大學(xué)實體

宋卿，戚成琳，楊越

(1.中國傳媒大學(xué) 新媒體研究院，北京 100024；2.中國傳媒大學(xué) 理工學(xué)部，北京 100024)

基于Bootstrapping的新聞事件型實體關(guān)系抽取方法

宋卿1，戚成琳1，楊越2

(1.中國傳媒大學(xué) 新媒體研究院，北京 100024；2.中國傳媒大學(xué) 理工學(xué)部，北京 100024)

新聞所包含核心內(nèi)容是事件，現(xiàn)有的中文實體關(guān)系抽取方法都針對屬性型關(guān)系，忽略了事件型關(guān)系的抽?。恍侣剝?nèi)容涉及領(lǐng)域廣，要求關(guān)系抽取方法具有良好的領(lǐng)域擴展能力；同時，開放域人工標注訓(xùn)練語料庫的難度較大。針對上述問題，本文提出Bootstrapping的關(guān)系種子集自動生成方法，并在迭代過程中加入擴展和過濾規(guī)則，最終得到準確度和復(fù)用性較高的實體關(guān)系提取模式。通過實驗測試，本文提出的方法在事件型實體關(guān)系的提取中能夠取得良好效果。

關(guān)系抽??；事件型關(guān)系；Bootstrapping；開放模板

隨著媒體行業(yè)信息化程度不斷加深，互聯(lián)網(wǎng)已成為媒體機構(gòu)最重要的宣傳陣地，中文新聞網(wǎng)頁總量也早已過億。面對海量的新聞內(nèi)容，傳統(tǒng)的搜索引擎基于關(guān)鍵字匹配和網(wǎng)頁重要度排序等方法，雖然在一定程度上能夠解決用戶查詢新聞信息的需求，但僅能提供符合條件的新聞文本，用戶仍需要通讀全文來獲取新聞所包含的事件內(nèi)容。此外，新聞記者進行新聞報道時，要花費大量的時間從以往相關(guān)報道中獲取相關(guān)知識作為素材。因此，如何幫助用戶快速準確的獲取新聞文本中所包含的核心內(nèi)容就成為近幾年新聞領(lǐng)域的一個研究熱點。

信息抽取(Information Extraction，IE)技術(shù)的主要目的是從非結(jié)構(gòu)化自然語言文本中抽取實體、實體關(guān)系和事件信息。其中實體關(guān)系抽取(Entity Relation Extraction)用于識別實體間的語義關(guān)系。例如 “國家主席習(xí)近平在中南海會見到訪的美國總統(tǒng)奧巴馬”一句中，“習(xí)近平”和“奧巴馬”是其中包含的兩個命名實體，而“會見”是兩個實體間的語義關(guān)系詞。我們可以看到：如果信息抽取是將非結(jié)構(gòu)化的自然語言文本表述為結(jié)構(gòu)化的表格數(shù)據(jù)，而實體識別確定了表格中各個元素的話，那么實體關(guān)系抽取則是確定這些元素在表格中的相對位置[1]?？傊?，實體關(guān)系抽取是在實體識別的基礎(chǔ)上，將無結(jié)構(gòu)的自然語言文本中包含的實體間的語義關(guān)系提取出來，然后以三元組(實體 1、關(guān)系、實體 2)的形式存儲在數(shù)據(jù)庫中，供用戶查詢或其他軟件系統(tǒng)復(fù)用。本文針對中文新聞的特點，提出了一種面向開放領(lǐng)域的中文新聞事件型實體關(guān)系抽取方法。

1 研究現(xiàn)狀

關(guān)系抽取任務(wù)最早由MUC[2]會議提出，在后續(xù)ACE[3]、TAC[4]測評會議的推動下取得了顯著的發(fā)展。早期主要采用基于規(guī)則的方法，一般針對特定關(guān)系類型，由語言專家或領(lǐng)域?qū)＜胰斯ぞ帉戧P(guān)系抽取規(guī)則集合。如：抽取層次關(guān)系，專家通過制定規(guī)則集合(Y such as X，such Y as X，such Y as X，X，and other Y，Y including X，Y especially X等)來抽取不同表述形式的層次關(guān)系[5]。上述方法非常依賴人工制定規(guī)則的質(zhì)量。優(yōu)點在于匹配精準，但即便是某一種關(guān)系類別，人工也很難窮舉所有可能規(guī)則。如果有新的關(guān)系類型抽取需求，則要重新制定規(guī)則，因此基于規(guī)則的方法領(lǐng)域移植性較差。

監(jiān)督學(xué)習(xí)方法在自然語言處理領(lǐng)域的廣泛應(yīng)用極大的促進了實體關(guān)系抽取方法的革新。監(jiān)督學(xué)習(xí)類方法又分為兩類：1)基于特征向量的方法和基于核函數(shù)的方法?；谔卣飨蛄糠椒▽㈥P(guān)系抽取任務(wù)轉(zhuǎn)化成分類問題，根據(jù)訓(xùn)練語料庫的特點選取有效特征，并構(gòu)造特征向量，使用條件隨機場[6]、最大熵[7]、SVM[8]等不同方法訓(xùn)練關(guān)系分類器用于關(guān)系預(yù)測。該方法性能好壞的關(guān)鍵在于特征選取，不同的領(lǐng)域不同的語料特征選取差別很大，所以移植性較差，但計算復(fù)雜度較低；2)基于核函數(shù)[9-11]的方法，引入核函數(shù)對樣例關(guān)系和待識別關(guān)系之間的相似度進行計算，不需要定義特征集合，通過一個隱含的高維特征空間計算相似度，一方面可以得到更加全面的特征信息，同時也解決了特征方法在特征選取方面存在的問題，但核函數(shù)方法的計算復(fù)雜較高。監(jiān)督學(xué)習(xí)方法相比人工規(guī)則的方法有了很大提升，但是還是需要人工進行算法訓(xùn)練語料的標注，往往只針對特定的關(guān)系或者特定的領(lǐng)域，難以適應(yīng)開放領(lǐng)域關(guān)系的抽取的要求。

面向開放域的關(guān)系抽取，Banko[12]等人最早提出了開放式關(guān)系抽取的概念，利用啟發(fā)式規(guī)則和簡單的句法特征訓(xùn)練分類器的TextRunner系統(tǒng)，Hasegawa[13]等人在ACL2004提出利用無監(jiān)督的方法，在假設(shè)相同實體關(guān)系具有相同的上下文語境的前提下，使用聚類算法對關(guān)系進行聚類，但這種方法過于依賴語料的好壞，而且假設(shè)也存在問題。哈工大劉安安[14]等人提出無監(jiān)督開放式的中文實體關(guān)系抽取方法主要研究人、機構(gòu)、地點之間的屬性型實體關(guān)系開放式描述。Wu F[15]等人提出的WOE系統(tǒng)，使用維基百科中的信息框來標注關(guān)系抽取語料，該類方法主要依靠已有知識庫，在假設(shè)兩個實體對應(yīng)的句子均表示同一種關(guān)系的基礎(chǔ)上，通過將知識庫中已有的關(guān)系實例和待標注訓(xùn)練語料進行對齊自動構(gòu)建訓(xùn)練語料庫，后續(xù)和監(jiān)督學(xué)習(xí)方法一樣進行關(guān)系抽取分類器的訓(xùn)練和關(guān)系的抽取。方法不需要人工過多干預(yù)，但是現(xiàn)階段沒有完備可供使用的中文知識庫，同時，目前所有的知識庫只有屬性型關(guān)系，缺少新聞需要的事件型關(guān)系，無法構(gòu)建訓(xùn)練語料滿足新聞文本中抽取事件型實體關(guān)系的要求。因此，我們考慮采用自動的方式生成種子關(guān)系集，然后通過自舉的方法不斷進行新的關(guān)系的學(xué)習(xí)，結(jié)合規(guī)則的思想，自動生成關(guān)系抽取模式，用于新的關(guān)系發(fā)現(xiàn)與抽取。

2 開放式中文新聞事件型實體關(guān)系抽取

面向開放領(lǐng)域的實體關(guān)系抽取目前普遍采用弱/遠監(jiān)督的方法，需要借助已有的知識庫，OLLIE系統(tǒng)[16]是抽取結(jié)果最好的系統(tǒng)，但其僅支持英文，初始種子集依靠ReVerb系統(tǒng)[17]產(chǎn)生。本文針對中文新聞提出自動構(gòu)建種子集的方法，能夠解決中文領(lǐng)域無現(xiàn)成可用的知識庫和關(guān)系抽取系統(tǒng)的問題。通過多次迭代學(xué)習(xí)關(guān)系抽取模式，以簡單的模式為起點，生成更多復(fù)雜模式，從而匹配更多的關(guān)系，獲得比較好的實體關(guān)系抽取結(jié)果。方法主要分為下面兩個部分：新聞文本預(yù)處理和新聞事件型關(guān)系抽取。

圖1 開放式中文新聞事件型關(guān)系抽取方法流程

2.1 文本預(yù)處理

新聞文本以非結(jié)構(gòu)化形式存在，為了便于后續(xù)處理，我們需要進行文本預(yù)處理，主要包括以下步驟：

(1)句子分詞與命名實體識別。綜合考慮分詞速度和準確率指標，我們選擇Ansj中文分詞包(分詞速度30萬字/秒，準確率大于96%)。輸出結(jié)果(有詞性標注、命名實體標注并且完成分詞的句子)將作為句子劃分和依存句法分析的基礎(chǔ)輸入。通過對結(jié)果分析發(fā)現(xiàn)，命名實體識別存在一定誤差，例如“中國傳媒大學(xué) 食堂最受歡迎的菜品是廣院肉餅”的命名實體識別結(jié)果是“中國傳媒大學(xué)”為機構(gòu)，但緊鄰的“食堂”并沒有與緊鄰的名詞共同識別為一個組織機構(gòu)，我們期望得到的是“中國傳媒大學(xué)食堂”作為組織機構(gòu)名，同時“廣院”和“肉餅”也存在類似的情況，因此，我們對ansj的命名實體識別結(jié)果進行如下處理：在識別出一個命名實體E1后，如果緊鄰這個實體的前后詞語是名詞N或者命名實體E2，我們就對其標記，在后續(xù)得到依存句法分析結(jié)果后，如兩個詞語之間的依存關(guān)系滿足“ATT關(guān)系”，我們則將詞語組合的整體為一個命名實體E3(E1E2/E1N)。

(2)復(fù)雜句切分?？紤]到依存句法分析對復(fù)雜長句的分析準確率很低，因此我們考慮對復(fù)雜句進行切分，通過對新聞?wù)Z料的分析，我們選用逗號作為分句的標點符號，遵循以下規(guī)則進行復(fù)雜句切分：對由一個或多個逗號分隔的復(fù)雜長句進行切分，如果任意一個切分結(jié)果中的按照前一步進行合并后的名詞或命名實體的總數(shù)少于2個，則不做切分。

(3)依存句法分析。依存句法分析選用哈工大的語言技術(shù)平臺云[18]，以完成分詞、命名實體識別和復(fù)雜句切分處理后的文本作為輸入，進行依存句法分析，輸出依存句法分析結(jié)果。

圖2 依存句法分析結(jié)果

2.2 事件型關(guān)系抽取

(1)關(guān)系抽取種子集自動生成。對于事件型關(guān)系來說，命名實體/名詞短語對之間的關(guān)系主要是施動和受動的關(guān)系，為了保證關(guān)系抽取種子集的質(zhì)量，我們選用最基本的關(guān)系抽取規(guī)則：依據(jù)依存句法分析的輸出結(jié)果，從依存樹中提取主語、謂語、賓語，其中主語和賓語是命名實體/名詞短語對，謂語則是與實體對主謂關(guān)系的動詞/動詞短語，進而得到候選的實體關(guān)系三元組?？紤]到種子集質(zhì)量對整個關(guān)系抽取的重要影響，我們定義以下規(guī)則對三元組進行篩選過濾：

?基于停用詞表過濾關(guān)系無實際意義的關(guān)系指示詞和名詞；

?關(guān)系指示詞為動補結(jié)構(gòu)時，排除該三元組；

?通過定中關(guān)系(ATT)將實體對象補充完整；

基于以上過濾和補充規(guī)則，我們可以將滿足這些條件的句子中的實體三元組從候選集合中刪除或者補充完整，作為后面實體關(guān)系提取的種子集。

(2)基于Bootstrapping的事件型關(guān)系提取。將種子集中的三元組作為Bootstrapping算法的初始三元組在新聞?wù)Z料庫進行軟匹配(句子中包含兩個以上三元組元素就匹配成功)，對匹配成功的句子抽取實體關(guān)系模式，存入模式庫，然后選擇模式庫中頻率高的前N項(本實驗中N取10)對語料庫進行模式匹配，匹配成功則抽取實體關(guān)系三元組。Bootstrapping方法的核心在于不斷迭代，每次迭代輸出的數(shù)據(jù)作為下次迭代的輸入數(shù)據(jù)，誤差會不斷被放大，因此對每一次迭代的輸入準確性要求較高，通過上一步中三元組過濾規(guī)則對迭代結(jié)果進行過濾。過濾新獲得的實體關(guān)系三元組再作為軟匹配的種子，不斷重復(fù)上述過程，直到?jīng)]有新的實體關(guān)系三元組產(chǎn)生為止。

Bootstrapping算法偽代碼

3 實驗結(jié)果與分析

(1)測試集獲?。耗壳皼]有公開的面向開放領(lǐng)域的中文新聞關(guān)系抽取語料庫，我們在新華社新聞庫中選取1000篇新聞文章(國內(nèi)政治領(lǐng)域300篇，國際政治領(lǐng)域200篇，體育領(lǐng)域100篇，科技領(lǐng)域50篇，歷史領(lǐng)域100篇，財經(jīng)領(lǐng)域50篇，軍事領(lǐng)域100篇，社會領(lǐng)域100篇)，采用交叉標注的方式對新聞中所包含的事件句進行人工標注。

(2)實驗設(shè)計與實現(xiàn)：利用已構(gòu)建種子集中實體關(guān)系三元組作為輸入，采用Bootstrapping方法進行開放模版的學(xué)習(xí)，表1中我們列舉了出現(xiàn)頻率最高的三個開放模版，模版符合下列條件：

?依存樹路徑中沒有空節(jié)點；

?關(guān)系表示節(jié)點位于實體之間；

?如果模版的介詞需要和關(guān)系中的介詞匹配；

?依存樹路徑中不能存在名詞組合或形容詞修飾的關(guān)系邊。

最后，就可以使用開放模版從待抽取關(guān)系的新聞文本中識別實體關(guān)系三元組。

表1 開放模板示例

(3)實驗結(jié)果與分析

從測試集中隨機抽取100個句子進行實驗，實驗結(jié)果如下：

表2 實驗關(guān)系三元組抽取結(jié)果

表3 實驗的召回率、準確率、F值

圖3 召回率、準確率、F值

從實驗結(jié)果中可以看出，引入了過濾規(guī)則后，算法的準確率得到大幅提高。

4 總結(jié)

本文自動從中文新聞文本中抽取實體關(guān)系的算法是在OLLIE系統(tǒng)方法的基礎(chǔ)之上進行改進的。本文自動構(gòu)建初始種子集，并通過過濾規(guī)則的設(shè)定控制了自舉算法每次迭代的誤差，對最終結(jié)果準確率的提高切實有效。接下來將會對方法進行優(yōu)化，在實體關(guān)系抽取基礎(chǔ)之上，進一步研究對時間、地點等關(guān)系屬性值的抽取。

[1]車萬翔，劉挺，李生.實體關(guān)系自動抽取[J].中文信息學(xué)報，2005，19(2)：1-6.

[2]Chinchor N.Overview of MUC-7[J].Seventh Message Understanding Conference(MUC-7)：Proceedings of a Conference held in Fairfax，VA，1998.

[3]ACE[EB/OL].http：//www.nist.gov/speech/tests/ace.

[4]TAC[EB/OL].http：//www.nist.gov.tac/203/KBP.

[5]M A Hearst.Automatic acquisition of hyponyms from large text corpora[J].Proceedings of the 14th conference on Computational linguistics-Volume 2，539-545，Association for Computational Linguistics，1992.

[6]Culotta，Aron，Andrew McCallum，Jonathan Betz.Integrating probabilistic extraction models and data mining to discover relations and patterns in text[J].Proceedings of HLT-NAACL，2006.

[7]Kambhatla N.Combining Lexical，Syntactic，Semantic Features with Maximum Entropy Models for Extracting Relations[C].ACL，2004.

[8]Mooney R J，Bunescu R C.Subsequence kernels for relation extraction[C].advances in neural information processing systems，2005，171-178.

[9]Zelenko D，Aone C，Richardella A.Kernel methods for relation extraction[J].The Journal od Machine Learning Research，2003(3)：1083-1106.

[10]Zhao S，Grishman R.Extracting relations with integrated information using kernel methods[C].Proceedings of 43rd annual Meeting on Association for Computational Linguistics，2005，419-426.

[11]Qian L，Zhou G，Kong F.Tree Kernel-Based Semantic Relation Extraction using Unified Dynamic Relation Tree[C].Advanced Language Processing and Web Information Technology，ALPIT’08 International Conference，2008，64-69

[12]M Banko，M Cafarella，S Soderland，M Broadhead，O Etzioni.Open information extraction from the Web[J].Procs of IJCAI.

[13]Hasegawa T，Sekine S，Grishman R.Discovering Relations among Named Entities form Large Corpora[C].Proc of ACL-2004，2004，415-422.

[14]劉安安.無指導(dǎo)的開放式中文實體關(guān)系抽取[D].哈爾濱工業(yè)大學(xué)，2013.

[15]Wu F，Weld D S.Open information extraction using Wikpedia[J].ACL ’10 Proceedings of the 48th Annual Meeting of the Association for Cimputational Linguistics，2010，118-127.

[16]Mausam，Michael Schmitz.Open Language Learning for Information Extraction[J].

[17]Oren Etzioni，Anthony Fader，Janara Christensen，Stephen Soderland，Mausam.Open information extraction：the second generation[J].Proceedings of the International Joint Conference on Artificial Intelligence，2011.

[18]Che W，Li Z，Liu T.LTP：A Chinese Language Technology Platform[J].Proceedings of the Coling 2010，8，13-16.

(責任編輯：宋金寶)

News Event Relation Extraction Approaches Based on Bootstrapping

SONG Qing1，QI Cheng-Lin1，YANG Yue2

(1.New Media Institute，Communication University of China，Beijing 100024，China2.Faculty of Science and Technology，Communication University of China，Beijing 100024，China)

Event is the core content of the news.The entity relation extraction methods，which have been obtained，can only be used for extracting property relations.And the work on event relation extraction is neglected；News contents involving a wide range of fields，require the relation extraction method has domain expansion capability；and it is difficult to annotate the training corpus.To solve the above problems，we proposed an automatic seed set generation method of bootstrapping，and add the extension and filtering rules throughout the iteration，finally get entity relation extraction template with accuracy and reusability.The experimental results show that the method proposed in this paper can achieve good results in the extraction of event entity relation.

relation extraction；event relation；Bootstrapping；open template

2017-04-15

北京市科委項目(Z161100000216141)；中國傳媒大學(xué)工科規(guī)劃項目(3132016XNG1605)

宋卿(1982-)，男(漢族)，貴州人，中國傳媒大學(xué)博士研究生、講師.E-mail：songqing@cuc.edu.cn

TP391.1

1673-4793(2017)04-0046-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Bootstrapping的新聞事件型實體關(guān)系抽取方法

1 研究現(xiàn)狀

2 開放式中文新聞事件型實體關(guān)系抽取

3 實驗結(jié)果與分析

4 總結(jié)