楊爾弘, 曾青青, 李婷婷
(1. 北京語言大學(xué) 國家語言資源監(jiān)測與研究中心 平面媒體語言分中心,北京 100083;2. 首都體育學(xué)院 國際教育學(xué)院,北京 100191)
隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,準(zhǔn)確地從海量、無序、雜亂、無結(jié)構(gòu)的網(wǎng)頁文本中提取用戶感興趣的事件信息是信息抽取領(lǐng)域的重要研究課題[1]。在美國,DARPA,NIST組織的MUC、ACE[2-4]等評測任務(wù)中,對事件信息抽取給出了明確的定義。當(dāng)前的事件抽取研究,大多以這樣的定義為基礎(chǔ):以若干特定的事件類型為目標(biāo),研究事件模板的獲取以及事件的論元識別[5-10]。事件模板主要依靠經(jīng)驗給出種子模板或聚類的方式獲取[5-7,10-12];論元角色多以計算事件模板論元的語義約束與詞語的相關(guān)屬性之間的對應(yīng)關(guān)系進行填充[6,12]。
目前,從整個語篇的角度探索事件信息的分布與事件抽取技術(shù)的研究還較少。文獻(xiàn)[7]嘗試了從語篇中過濾非事件句子,文獻(xiàn)[13]探索了語篇中事件與事件的關(guān)系,研究事件之間的推理。
本文針對突發(fā)事件新聞報道,從可操作的角度,將“事件”定義簡單化——與突發(fā)事件相關(guān)的動作、狀態(tài)改變都定義為一個事件,事件以事件詞為標(biāo)示,事件詞可以是動詞、名詞化(Nominalizations)、形容詞等。在此基礎(chǔ)上,研究事件信息在報道文本中的分布,從而確定文本中事件信息的組織方式,尋找到篇章結(jié)構(gòu)和事件信息結(jié)構(gòu)之間存在的聯(lián)系,為事件信息的形式化描述和準(zhǔn)確定位服務(wù)。
戴伊克(Van Dijk)在《作為話語的新聞》[16]一書中概括了新聞文本的假設(shè)性話語結(jié)構(gòu)圖式,如圖1所示。
圖1 假設(shè)性新聞圖式結(jié)構(gòu)
以戴伊克闡釋的假設(shè)性新聞圖式結(jié)構(gòu)為基礎(chǔ),了解文本描述的事件信息,需要閱讀“主要事件”和“后果”組成的“情節(jié)”部分,可以忽略圖式中的“背景”及“評價”信息。換言之,可以假定“情節(jié)”部分是突發(fā)事件的主體,也是事件信息抽取的主要部分。本文選取了關(guān)于火災(zāi)、地震、食物中毒等方面的新聞報道文本各200篇以及關(guān)于恐怖襲擊的新聞報道80篇,以此作為語料,調(diào)查報道的篇章結(jié)構(gòu)以及報道的主體內(nèi)容——事件信息在文本中的分布,以期發(fā)現(xiàn)新聞的圖式結(jié)構(gòu)和事件信息結(jié)構(gòu)之間的關(guān)系規(guī)律。
事件詞是文本中體現(xiàn)事件信息的重要元素,以事件詞作為事件信息的核心表達(dá),調(diào)查事件信息在篇章中的分布,具有表達(dá)簡潔、目標(biāo)明確、可操作性強的特點。人工標(biāo)注文本中出現(xiàn)的事件詞,得到每類文本的事件詞集合*地震類文本事件詞個數(shù)為132,火災(zāi)類文本事件詞個數(shù)為164,食物中毒類文本事件詞個數(shù)為202,恐怖襲擊類類文本事件詞個數(shù)為115。,事件信息的分布可以通過集合中事件詞的分布情況獲得。
標(biāo)注過程中發(fā)現(xiàn):“情節(jié)”部分基本上囊括了事件的信息,是事件信息抽取的重要部分;但此外,“情節(jié)”還包括了一些描述事件特別細(xì)節(jié)的句子和一些事件詞缺省的句子。由此,在戴伊克新聞圖式結(jié)構(gòu)的基礎(chǔ)上,進一步對突發(fā)事件新聞報道文本定義“主線信息鏈”、“副線信息鏈”,將報道文本的篇章結(jié)構(gòu)與事件信息對應(yīng)。
(1) 主線信息鏈。主線信息鏈?zhǔn)侵笀蟮馈扒楣?jié)”部分中除去細(xì)節(jié)信息所在句子和事件詞缺省的事件信息所在句子之后,由事件詞關(guān)聯(lián)起來的信息鏈。此信息鏈?zhǔn)且允录~為顯性標(biāo)記,將報道中的突發(fā)事件、核心事件及與該核心事件相關(guān)的各類事件關(guān)聯(lián)在一起,是文本的中心內(nèi)容部分,是篇章結(jié)構(gòu)中的主體部分,是讀者進行篇章閱讀和理解的最重要的部分。
(2) 副線信息鏈。副線信息鏈?zhǔn)怯伞霸u價”部分、“背景”部分以及“情節(jié)”部分中的細(xì)節(jié)信息和事件詞缺省的事件信息所在的句子構(gòu)成。從信息抽取的角度來說,副線信息鏈的信息不作為信息抽取的關(guān)注對象。副線信息鏈的作用在于使讀者加深對新聞報道的認(rèn)識和理解,深化新聞的主題。
突發(fā)事件新聞報道中的主副線信息鏈與新聞圖式結(jié)構(gòu)成分的對應(yīng)關(guān)系如圖2所示。
圖2 主副線信息鏈和新聞圖式結(jié)構(gòu)成分的對應(yīng)關(guān)系
由此,在戴伊克的話語宏觀結(jié)構(gòu)理論下,突發(fā)事件新聞報道的篇章結(jié)構(gòu)進一步由主線信息鏈和副線信息鏈兩個下位的結(jié)構(gòu)組成。通過考察發(fā)現(xiàn),突發(fā)事件文本中構(gòu)成主線信息鏈的句子和副線信息鏈的句子沒有明確的界限,它們總是交織在一起。如圖3所示。
圖3 突發(fā)事件文本信息鏈
前文定義的主線信息鏈即為突發(fā)事件文本的信息結(jié)構(gòu),主線信息鏈上關(guān)聯(lián)了事件詞和事件論元,這些是事件信息抽取的對象。通過對四類突發(fā)事件,共計680篇新聞報道文本的主線信息鏈進行意義分析,同時對以事件詞為標(biāo)志的事件和事件之間的關(guān)系進行分析,可以發(fā)現(xiàn)主線信息鏈代表的事件信息結(jié)構(gòu)通常是由四個部分組成的事件描述,即核心事件、前核心事件、次生事件以及后次生事件。在此信息結(jié)構(gòu)中,核心事件是主體,其余三部分事件信息都是圍繞核心事件而產(chǎn)生、存在的。組成事件信息的四個部分對應(yīng)的事件詞有明顯的差別。由此,可以事件詞為驅(qū)動,識別、區(qū)分事件的信息結(jié)構(gòu)。以火災(zāi)類突發(fā)事件為例,以事件詞集合為事件的基本表示,對應(yīng)的事件信息鏈?zhǔn)纠缦拢?/p>
(1) 核心事件信息鏈。核心事件是事件信息結(jié)構(gòu)中的重要構(gòu)成成分,它是突發(fā)事件文本報道的焦點事件。標(biāo)志核心事件發(fā)生的事件詞即為核心事件詞。包含核心事件詞的事件小句是核心事件信息鏈上的基本元素。例如,火災(zāi)文本的核心事件詞集合如下:
Core Event Words of Fire=【火災(zāi)、火災(zāi)事故、火勢、火海、大火、火、余火、火苗、明火、殘火、火情、火場、火魔、火光、火警、起火點、著火點、火源、過火面積、著火、著起火來、起火、失火、燃燒、冒煙、滾滾冒出、煙霧、黑煙、焦煙、煙柱、濃煙、濃煙滾滾、濃煙彌漫、濃煙籠罩、濃煙刺鼻、火光沖天、火光四射、火猛煙大】
(2) 前核心事件信息鏈。前核心事件指先于核心事件而發(fā)生的事件,通常前核心事件是造成核心事件發(fā)生的原因。前核心事件詞在文中標(biāo)示前核心事件的發(fā)生。包含前核心事件詞的事件小句構(gòu)成前核心事件信息鏈。例如,火災(zāi)類文本的前核心事件詞集合如下:
Former-Core Event Words of Fire =【爆炸、點燃、短路、使用不當(dāng)、操作不當(dāng)、縱火、閃電、雷擊、釋放煙花、燃放煙花炮竹、取暖、泄露、拆除、熏制、焊接、超負(fù)荷、故障、爭執(zhí)】
(3)次生事件信息鏈。次生事件是由核心事件直接造成的不可抗拒的事件,是事故造成的直接影響。次生事件詞在文本中標(biāo)示所發(fā)生的次生事件。包含次生事件詞的事件小句構(gòu)成次生事件信息鏈。例如,火災(zāi)文本的次生事件詞集合如下:
Secondary Event Words of Fire =【傷亡、死亡、死、喪生、失蹤、遇難、傷亡、傷、受傷、重傷、輕傷、燒傷、燒燙傷、燙傷、傷勢、輕微傷、灼傷、熏暈、熏黑、熏暈、熏得萎靡、熏傷、熏死、昏迷不醒、嚇壞、損失、被困、昏迷、蔓延、損害、身體不適、砸暈、骨折、撤離、撤退、逃出、逃生、逃散、逃離、踩踏、呼救、自救、跳窗、碎裂、損毀、破損、燒毀、燒焦、燒穿、被燒、被炸爆、炸裂、燒盡、爆炸、坍塌、砸、影響】
(4) 后次生事件信息鏈。后次生事件是指由核心事件造成的間接影響,主要是描述人在面對突發(fā)性的災(zāi)難時采取的各種應(yīng)對措施。后次生事件詞表示文本中描述的后次生事件。包含后次生事件詞的事件小句組成后次生事件信息鏈。例如,火災(zāi)文本的后次生事件詞集合如下:
Regeneration Events Words of Fire=【啟動(應(yīng)急預(yù)案)、報警、警戒、封閉、關(guān)閉、調(diào)集、安置、增援、出動、趕到、趕赴、奔赴、處理、指揮、部署、清理、撤離、搬出、轉(zhuǎn)移、撲滅、救火、滅火、撲救、救援、控制、疏散、善后、噴水、接水、潑水、搶險、搶救、急救、救出、搜救、救治、治療、觀察、就醫(yī)、檢查、核查、檢測、檢查、調(diào)查、隔離、呼吁、逮捕、運抵、宣判、判、通知】
在第二節(jié)中,我們通過人工標(biāo)注,獲得了每一類突發(fā)事件對應(yīng)的事件詞集合,進一步將事件詞區(qū)分,可以使事件詞集合中的不同元素,表達(dá)事件的信息結(jié)構(gòu),也就是可以利用事件詞區(qū)分前核心、核心、次生和后次生事件信息鏈,不同的事件信息鏈對應(yīng)不同的事件詞。
如果每一類突發(fā)事件的事件詞是一個相對穩(wěn)定的詞語集合,這對事件信息結(jié)構(gòu)的發(fā)現(xiàn)與識別將有很大幫助。為驗證從標(biāo)注文本中標(biāo)注得到的事件詞集合對新的文本事件信息表示的有效性,本文做了一個簡單的實驗,將標(biāo)注得到的事件詞作為種子事件詞,對新的測試語料文本進行事件詞覆蓋測試。以地震文本為例,重新選擇50篇新的文本。覆蓋結(jié)果表明從200篇地震文本中獲得的種子事件詞不能完全覆蓋新文本中事件信息,即新文本中出現(xiàn)了新的事件詞。這說明所獲得的事件詞對同類事件新聞報道文本信息表達(dá)的有效性不夠。
如何擴大事件詞集合?解決這個問題的方法可以是:增加標(biāo)注量,直到事件詞達(dá)到一個比較穩(wěn)定的狀態(tài),即隨著新文本的加入,不再出現(xiàn)新的事件詞。此方法的問題是:究竟多大的標(biāo)注量就夠了?如何選擇需進行標(biāo)注的文本?這兩個問題解決起來都比較困難。擴大事件詞集合的另一種方法是利用已有的詞典、知識資源。在此我們利用常識知識庫《知網(wǎng)》(HowNet)[15]對已有的種子事件詞進行擴充,從《知網(wǎng)》中獲得種子詞的相關(guān)詞,再利用詞性等限制篩選相關(guān)詞,得到擴充詞集合。以地震文本為例,核心事件詞經(jīng)擴充后由原來的17個擴展為21個*地震核心事件詞擴充個數(shù)較少。在人工標(biāo)注地震類文本的時候,表示地震事件的事件詞大多數(shù)已經(jīng)標(biāo)出了。;次生事件詞由原來的64個擴展為1 146個;后次生事件詞由原來的51個擴展為548個*地震類突發(fā)事件沒有明顯的前核心事件。。
在對四類突發(fā)事件文本的事件詞進行擴充時,擴充原則一樣,但是四類文本的前核心、次生、后次生事件詞之間有很多交集詞語,因此對組成事件信息結(jié)構(gòu)的不同部分,事件詞的擴充可以采用不同的策略獲得:突發(fā)事件的核心事件詞需要根據(jù)突發(fā)事件類型各自進行擴充,即分別對地震、火災(zāi)、食物中毒、恐怖襲擊文本的核心種子事件詞進行擴充;對于突發(fā)事件的前核心、次生和后次生事件詞,可以不考慮突發(fā)事件類型,按各個部分?jǐn)U充。
人工標(biāo)注過程中,已經(jīng)發(fā)現(xiàn)副線信息鏈中很多句子包含事件詞,諸如背景信息、評價信息等。因此從事件信息提取的角度來看,以事件詞作為驅(qū)動來識別、提取事件信息,文本中的副線信息鏈將會產(chǎn)生較大噪音。為此,根據(jù)篇章結(jié)構(gòu),對新聞報道文本中的副線信息進行過濾,可以消除文本中影響事件抽取的干擾信息,并提高事件詞對事件信息表達(dá)的區(qū)分度。
為過濾副線信息鏈,必須在文本中找到區(qū)分主線信息鏈和副線信息鏈的特征。一般來說,細(xì)節(jié)信息屬于客觀信息的一部分,但是因為其過于瑣碎,往往句子中不會包含有標(biāo)注和擴充得到的事件詞,所以對于細(xì)節(jié)信息可以暫不考慮。例如,以下兩個例句都屬于火災(zāi)事件的細(xì)節(jié)信息,均未包含事件詞。
(1) 羅周忠因外出不在家,逃過一劫,羅還有一個女兒在外地讀書。
(2) 這家店的店主說:“我們的所有財物都被燒毀了,徹底被毀了。我們失去了曾擁有的一切,現(xiàn)在可算是徹底完了。要知道,我們把所有的錢都投資到這個店上了?!?/p>
另外,有一些背景信息也不包含事件詞,不會對事件抽取造成干擾,例如:
(1) 呼圖壁縣位于新疆中北部,距離新疆首府烏魯木齊約六十公里。
(2) 巴達(dá)赫尚省是阿富汗最偏遠(yuǎn)的地區(qū),交通不便、通信落后、人口密度很低。
因此副線信息鏈中過濾的重點是包含事件詞的評價信息和背景信息。對這部分內(nèi)容的過濾方法,本文主要采取詞語的顯性標(biāo)記作為特征。例如,在標(biāo)注過程中發(fā)現(xiàn),地震文本的背景信息有比較明顯的詞語特征。通過對200篇地震文本考察,發(fā)現(xiàn)很多背景信息表達(dá)方式如下:
(1) 日本地震頻發(fā),每年發(fā)生有感地震1 000多次,是世界上地震最頻繁的國家之一。
(2) 墨西哥處于環(huán)太平洋地震帶東部,屬地震多發(fā)國家。
(3) 地處太平洋板塊和加勒比板塊交界處的尼加拉瓜境內(nèi)地殼運動頻繁,歷史上曾多次發(fā)生地震。
(4) 去年8月,秘魯發(fā)生里氏8級地震,至少造成500人死亡,4萬座房屋被毀。
在這些包含知識、歷史、環(huán)境以及以前事件在內(nèi)的背景信息中,諸如“(頻繁)|(頻發(fā))|(多發(fā)國家)|(多發(fā)區(qū))|(多發(fā)帶)|(多發(fā)地帶)|(強地震帶)|(最易發(fā)生)|(經(jīng)常發(fā)生)|(活躍)|(曾發(fā)生)|(曾多次發(fā)生)|(曾遭遇)|(發(fā)生過)|(上次發(fā)生)|(上一次發(fā)生)|(去年)……”這樣的詞語是副線信息的顯性標(biāo)記。將從文本中提出的明顯標(biāo)示背景信息的詞語作為顯性標(biāo)記,可以識別副線信息。在選取的200篇地震文本中,人工標(biāo)記有59個句子是背景信息,用程序根據(jù)顯性標(biāo)記在文本中自動識別背景信息,得到45個句子。由此,提取表達(dá)副線信息的顯性詞語,可以作為過濾副線信息的特征。
副線信息鏈中的不同內(nèi)容對應(yīng)的詞語特征是不一樣的。以下示例了評價信息部分對應(yīng)的特征詞語。
(1) 分析人士認(rèn)為,不管調(diào)查結(jié)果如何,巴基斯坦的國際形象因這次襲擊事件而再次遭受嚴(yán)重影響,使外界對巴基斯坦的安全形勢感到進一步擔(dān)憂。
(2) 警方初步判斷是泰南武裝分子制造了這起惡性恐怖襲擊事件。
(3) 估計在未來24小時內(nèi),景泰原震區(qū)發(fā)生更大級別地震的可能性不大。
(4) 伊朗駐聯(lián)合國官員的一系列可疑行為已引發(fā)了紐約警局官員有關(guān)伊朗特工可能主使發(fā)動恐怖襲擊的擔(dān)心。
為驗證事件詞擴充和副線信息鏈過濾的效果,設(shè)計如下實驗:
以已經(jīng)標(biāo)注的200篇地震文本為基礎(chǔ),提取事件詞,標(biāo)記副線信息鏈。隨機選擇50篇新的地震類事件報道文本進行測試。分別測試事件詞擴充前后和副線信息過濾前后,事件詞對文本中事件信息結(jié)構(gòu)的識別與區(qū)分結(jié)果。測試的指標(biāo)定義如下:
表1給出了未進行事件詞擴充和副線信息過濾時的情況。封閉測試的測試對象只包含200篇人工標(biāo)注過的突發(fā)事件報道文本,開放測試的測試對象是新選擇的50篇突發(fā)事件報道文本。
表1 地震類文本事件詞擴充前封閉及開放測試實驗(未過濾副線信息)
封閉測試的準(zhǔn)確率較低是由于副線信息鏈中的噪聲數(shù)據(jù)引起的。隨著文本量的增加,副線信息鏈的數(shù)量增加,噪聲會增大,這也是開放測試的準(zhǔn)確率比封閉測試的要高的原因。
表2給出了擴充事件詞并過濾副線信息鏈之后,對事件信息結(jié)構(gòu)的識別結(jié)果。實驗的步驟是:(1)利用顯性標(biāo)記規(guī)則過濾副線信息鏈; (2)利用擴充后的所有事件詞對文本中的事件信息結(jié)構(gòu)進行識別。
表2 地震類文本事件詞擴充后封閉及開放測試實驗(且過濾副線信息)
表2的實驗數(shù)據(jù)表明,通過過濾副線信息鏈和事件詞擴充兩個步驟,一方面減少了錯誤識別結(jié)果,提高了識別的準(zhǔn)確率;另一方面,因為擴充后的事件詞集擴大,使得更多的事件詞能夠被機器識別出來,召回率也得到了提高。
本文結(jié)合戴伊克新聞文本的話語圖式,通過考察事件詞在篇章中的分布情況,提出了突發(fā)事件新聞報道語篇可以進一步描述為主線信息鏈和副線信息鏈結(jié)構(gòu)。主線信息鏈中包括了突發(fā)事件新聞報道的主體內(nèi)容——事件信息,該信息在主線信息鏈中以事件信息的層級結(jié)構(gòu)形式體現(xiàn)出來,即事件信息由前核心事件鏈、核心事件鏈、次生事件鏈和后次生事件鏈構(gòu)成,事件信息結(jié)構(gòu)可以簡單地以事件詞的分布來區(qū)分,這為事件信息提取提供了幫助。副線信息鏈則是由“評價”部分、“背景”部分以及“情節(jié)”部分中的細(xì)節(jié)信息和事件詞缺省的事件信息所在的句子等構(gòu)成,不作為事件信息抽取時考慮的內(nèi)容。在此調(diào)查的基礎(chǔ)上,實驗了利用《知網(wǎng)》(HowNet)擴充事件詞、利用顯式詞語規(guī)則過濾副線信息鏈,從而盡可能準(zhǔn)確地識別、區(qū)分事件信息結(jié)構(gòu)。目前,本文的研究只考察了地震、火災(zāi)、食物中毒、恐怖襲擊這四類突發(fā)事件新聞報道文本,實驗結(jié)果表明方法是有效的。
核心事件詞需要根據(jù)突發(fā)事件的類別分別獲取,且相對穩(wěn)定。事件信息結(jié)構(gòu)中其他事件信息鏈對應(yīng)的事件詞有些具有共性,可以根據(jù)性質(zhì)獲取,并被不同的突發(fā)事件共享。本文的研究只是從文本結(jié)構(gòu)的角度,初步探索了以事件詞為區(qū)分特征的事件信息結(jié)構(gòu)識別。當(dāng)新聞報道的事件類型不斷增加時,還需要分類分析文本的特點,以獲得其相應(yīng)的事件信息結(jié)構(gòu)。
[1] Ralph Grishman. Information Extraction: Techniques and Challenges [M]. Information Extraction, ed. Maria Teresa Pazienza, Spring Notes in Artificial Intelligences, Spring-Vealag.1997.
[2] ACE. ACE Chinese Annotation Guidelines for Entities (Version 5.5) [EB/OL].http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-Entities-Guidelines_v5.5.pdf. 2005a.
[3] ACE Chinese Annotation Guidelines for Relations (Version 5.5.1) [EB/OL]. http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-Relations-Guidelines_v5.5.1.pdf.2005b.
[4] ACE Chinese Annotation Guidelines for Events [EB/OL].http://www.ldc.upenn.edu/Projects/ACE/docs/Chinese-Events-Guidelines_v5.5.1.pdf. 2005c.
[5] 姜吉發(fā).一種事件信息抽取模式獲取方法[J].計算機工程,2005, 31(15): 96-98.
[6] 趙妍妍,秦兵,車萬翔,等.中文事件抽取技術(shù)研究[J].中文信息學(xué)報,2008,22(1): 3-8.
[7] 許紅磊,陳錦秀,等.自動識別事件類別的中文事件抽取技術(shù)研究[J].心智與計算,2010,4(1): 34-44.
[8] 吳平博,陳群秀,馬亮.基于事件框架的事件相關(guān)文檔的智能檢索研究[J].中文信息學(xué)報,2003, 17(6): 25-30.
[9] 梁晗,陳群秀,吳平博.基于事件框架的信息抽取系統(tǒng)[J].中文信息學(xué)報,2006, 20(2): 40-46.
[10] 楊爾弘.突發(fā)事件信息提取研究[D].北京語言大學(xué),2005.
[11] 馮禮,李芳,盛煥燁.基于詞對特征的事件新側(cè)面探測[J].計算機工程,2009,35(3): 45-47.
[12] 馮禮.基于事件框架的突發(fā)事件信息抽取[D].上海交通大學(xué),2008.
[13] 仲兆滿,劉宗田,周文,等.事件關(guān)系表示模型[J].中文信息學(xué)報,2009,23(6): 56-60.
[14] Van Dijk(著),曾慶香(譯).作為話語的新聞[M].華夏出版社,2003.
[15] 董振東,董強.《知網(wǎng)》(HowNet)[EB/OL].http://www.keenage.com.