韓永峰,許旭陽,李弼程,朱武斌,陳 剛
(解放軍信息工程大學 信息工程學院,河南 鄭州450002)
在當今計算機和互聯(lián)網蓬勃發(fā)展的時代,大量的文本信息被快速地傳送與分享到全球各地,信息過載(Information Overload)問題也隨之產生。如何從大量無序、雜亂、無結構的文本中高效獲取有用信息已成為一個亟待解決的問題。在眾多的信息處理方法中,多文檔自動摘要被視為一項不可或缺的關鍵技術,它是利用計算機將同一主題下的多個文本描述的主要內容通過信息壓縮技術提煉為一個文本的自然語言處理技術[1],在軍事和民用方面都具有極其重要的實用意義。
目前,自動摘要方法主要分為兩大類:一是基于統(tǒng)計的機械摘要;二是基于意義的理解摘要?;诮y(tǒng)計的機械摘要源于Luhn[2]的思想,主要是利用各種統(tǒng)計信息如位置信息、頻率統(tǒng)計等找出最能代表文章主題的句子作為摘要句。這種方法雖然容易實現(xiàn),但對于包含多個事件的文檔集進行摘要時,不僅常常漏掉次重要的事件,而且對文檔內容的覆蓋度較低,往往形成大量的冗余。
基于意義理解的摘要是從語言學角度理解文檔集合,進而生成文檔集合的自動摘要結果[3],它需要對文章進行句法分析和語義分析。此方法生成的摘要質量較高,但需要龐大的專家知識庫和完善的語言學規(guī)則,且受限于領域,性價比較低。
為了克服這些缺點,近年來一些自動摘要方法基于文本片段(例如,段落、句子或事件等)聚類劃分文檔主題,并在此基礎上生成摘要。這種方法理論上冗余性更少,信息覆蓋率更大,是目前比較流行的一種研究方法。
Jiang Changjin等[4]通過識別組合詞和段落聚類實現(xiàn)中文自動摘要。首先根據詞或短語的頻率、詞性、位置和長度計算它們的權重,在此基礎上計算句子的權值;然后將相鄰的段落依據相似度聚到相同類或不同類中;最后根據類中句子的權值選擇摘要句組成摘要。
Zhang Peiying等[5]提出了一種基于句子聚類和抽取的自動摘要方法。首先對文本中的句子依據語義距離進行聚類;然后用基于多特征融合的方法計算類中每個句子的權重;最后通過一定規(guī)則抽取句子組成摘要。
Naomi Daniel[6]首次提出將新聞話題劃分為一系列子事件并應用在多文檔摘要中,引起了人們對基于事件多文檔摘要研究的興趣。劉茂福等[7]提出一種基于事件項語義圖聚類的多文檔摘要方法,將文檔中的動詞和動名詞看成事件項,然后對事件項進行聚類,最后通過抽取包含代表事件項的句子生成摘要。然而,多文檔摘要以段落為單元的研究已沒有更多的余地,因為以段落為單元會包含許多冗余信息;實際上句子作為摘要的最小單位也不是最理想的,因為文本中有些句子和主題無關,且有時在一個句子中還會包含冗余信息,有時單個句子表達的意思也不夠完整,需要多個句子才能表達清楚;其實文獻[7]中的方法也存在一定的問題,例如,事件項只能部分標識事件的發(fā)生,更有甚者是包含事件項的句子不一定都是事件。另外,文檔中很多詞語會出現(xiàn)兼類情況,例如,“襲擊”可以是動詞,也可以是名詞。
針對以上問題,本文將事件抽取技術與自動摘要技術相結合,提出一種基于事件抽取的多文檔自動摘要方法。首先,改變以段落和句子作為摘要基本單元,嘗試以“事件”為知識粒度去表示、處理文本,且本文所考慮的“事件”包含的特征更加豐富,不僅僅是文檔中包含動詞和動名詞的句子;然后,對抽取出的事件采用兩層聚類得到不同的事件集合;最后,通過對事件集合中主旨事件的抽取、排序以及潤色,生成摘要。實驗結果表明,該方法生成的摘要進一步減小了冗余,更加簡潔,是一種有效的多文檔摘要方法。
互聯(lián)網上新聞內容豐富、形態(tài)多樣,據中國互聯(lián)網絡信息中心(China Internet Network Information Center,CNNIC)2010年7月15日發(fā)布的《第26次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》[8]顯示:網絡新聞使用率為78.5%,占網絡信息極大的比重,且?guī)缀跛腥嗣刻於荚陉P注新聞信息。盡管內容多種多樣,出版社、發(fā)布源也不盡相同,但這一體裁的文檔卻有著一些共性。
(1)冗余性。由于新聞具有很強的時效性,因此同一時間關于同一主題的不同報道會陳述某些相同的信息,這些報道之間有很大的重復性,甚至包含完全相同的句子或段落。
(2)層次性。某些重大的新聞,通常會有多家媒體對其進行多天的跟蹤報道。隨著時間的推移,觀點和事實會不斷更新,導致出現(xiàn)“重心”漂移,即一個新聞主題中出現(xiàn)了不同的事件集。例如,2010年3月29日“莫斯科地鐵爆炸”這一主題新聞就出現(xiàn)了包括:現(xiàn)場、救援、傷亡、調查、善后以及各方反應等不同的事件集合,如圖1所示。
圖1 事件動態(tài)變化圖
1.概念層次關系
著名語言學家許嘉璐認為目前中文信息處理技術中統(tǒng)計概率的路已走到了盡頭,必須另辟語義“蹊徑”[9]。而漢語是以“字義基元化,詞義組合化”方式構造新詞,因此可以構建概念層次關系,如圖2所示。
圖2 概念層次關系示意圖
本文結合新聞文檔特點,直接從事件層描述文檔內容,建立語言模型,不再以段落、句子或詞語對文檔進行物理上的劃分,而是以“事件”為單位進行內容邏輯的劃分。這種方法從理論上來說,更接近人的認知過程,符合人們正常的認知規(guī)律,實驗結果表明:以“事件”進行建模是合理有效的。
2.事件定義
“事件”(Event)起源于認知心理學,認知科學家認為,人類主要是以“事件”為單位進行記憶和理解現(xiàn)實世界。但是目前對“事件”還沒有統(tǒng)一的定義,不同領域對“事件”的理解不同。
在ACE評測會議中,“事件”[10]被描述為一個動作的發(fā)生或狀態(tài)的變化。
美國佛羅里達州大學的Zwaan[11]將每個單句等同為一個“事件”。
本文研究的“事件”也屬于句子級,但不是每個句子都是事件,只有當一個句子含有事件特征時才構成事件,否則為非事件。
事件抽?。‥vent Extraction)隸屬于信息抽取領域,主要研究如何把含有事件信息的非結構化或半結構化文本以結構化的形式呈現(xiàn)出來[12]。目前,事件抽取的相關研究主要分為兩大類:模式匹配方法和機器學習方法。
模式匹配方法[13-14]盡管知識表示直觀、便于推理,但過于依賴具體領域,可移植性差,性價比不高。因此,基于機器學習的事件抽取方法[15-16]成為研究的主流,根據抽取模型中所采用的不同驅動源,主要分為三類:事件元素驅動、事件觸發(fā)詞驅動和事件實例驅動。然而,前兩種方法所面臨的最大問題就是正反例不平衡和數據稀疏,影響了抽取的性能。為此,本文提出了一種基于事件實例聚類的事件抽取方法,主要思想是:首先,以單句作為事件的基本抽取單位,通過二元分類器辨析出事件句和非事件句;然后,通過對事件句聚類,得到同一主題文檔集中所包含的不同事件集合,完成事件抽取。
1.事件實例的識別
統(tǒng)計表明,新聞文本中包含大量非事件實例,降低了事件抽取的準確率,因此,需要盡可能地過濾掉非事件實例。
首先對新聞文本進行預處理;然后將每個句子作為一個候選事件,抽取出刻畫一個事件的有代表性的特征構成候選事件實例表示;最后通過二元分類器對事件實例與非事件實例進行自動識別。具體步驟如下。
(1)預處理。主要包括中文分詞、詞性標注、句子切分等,完成對自然語言文本的初步處理;
(2)特征提取。在步驟(1)的基礎上,主要選取了以下幾個事件特征:句子長度、位置、詞語個數、命名實體個數、時間個數、數值個數、停用詞頻率、以及相應的詞語等。完成特征提取后利用向量空間模型(Vector Space Model,VSM)對所有候選的事件進行向量表示;
(3)事件識別。事件實例識別的實質是分類問題,由于支持向量機[17](Support Vector Machine,SVM)分類器通用性好、分類精度高、分類速度快、且分類速度與訓練樣本個數無關。因此,本文選用SVM分類器對候選事件進行分類,過濾非事件。
2.聚類算法
目前,聚類算法的研究相對比較成熟,傳統(tǒng)的聚類算法大體可分為兩大類[18]:層次聚類算法和非層次聚類算法。
層次聚類算法(如CURE等)應用較廣泛,優(yōu)點是不需要預先設定聚類最后的目標類別數,通過停止閾值就可以確定聚類是否結束。但層次聚類也存在明顯的缺點,在層次聚類中一個點一旦被歸為某類就不能再改變,不能進行迭代修正,但在聚類的過程中有許多情況需要通過不斷的迭代使聚類中心逐漸清晰,層次聚類不能滿足這個要求,在一些情況下會導致錯誤的分類。
非層次聚類算法如k-中心(CLARA等)聚類可以滿足不斷調整聚類結果的要求。但是非層次聚類算法需要預先設定目標類別k的值,而文本的主題數與內容有關,無法預先設定,且初始質心的選取也是隨機的,但是k值和初始質心對聚類結果會產生很大的影響。
為解決單一聚類算法存在的不足,本文提出了基于層次聚類的k-中心聚類方法,具體步驟如下。
(1)完成事件識別后,對所有事件進行層次聚類,直到任意兩個事件集合之間的相似度都小于停止閾值,層次聚類結束。聚類的結果為k個類C1,C1,…,Ck;
(2)步驟(1)完成后,得到的聚類總數作為k-中心聚類算法中的k值,從每個Ci(1≤i≤k)中任意選取一個事件作為k-中心聚類的k個初始中心點,將余下的事件按照最相近的原則分到k個類中去,然后重新選取類的中心點,循環(huán)進行,當各類別中的事件不再移動時,聚類結束。
3.基于事件實例聚類的事件抽取
基于事件實例聚類的事件抽取方法,一方面通過事件實例驅動構建抽取模型解決了以觸發(fā)詞驅動所帶來的正反例失衡和數據稀疏問題,另一方面通過引入聚類的思想突破了傳統(tǒng)方法對事件類別限制的局限性,有效提高了事件抽取的性能。本文事件抽取的流程如圖3所示。
圖3 新聞文檔事件抽取流程圖
基于事件實例聚類的事件抽取具體步驟如下。
(1)事件實例識別。通過基于SVM的事件實例的識別辨析出新聞文本中的事件實例和非事件實例,并過濾非事件實例;
(2)兩層聚類。經過步驟(1)后獲得了文本集中的所有的事件實例,然后對所有的事件實例采用基于層次聚類的k-中心聚類算法,最終得到k個類C′1,C′2,…,C′k,其中C′1(1≤i≤k),代表了新聞文檔集中同一主題下的不同的事件集合,其中的事件具有相似的語義。
事件抽取完成后,得到同一主題下不同事件的集合,每個集合都是對主題某一側面的集中描述。若想生成最終的摘要還需要解決四個問題:首先,事件集合中主旨事件的抽取;其次,主旨事件的排序;再次,摘要的平滑修飾;最后,摘要標題的確定?;谑录槿〉恼鞒倘鐖D4所示。
圖4 基于事件抽取的摘要流程
類C′1(1≤i≤k)中的每個事件都是相關或相似的,要生成最終的摘要,首先需要挑選出每個類中的主旨事件來概括該類的中心思想,然后才能對主旨事件排序,最終生成摘要。類中事件之間的關系可以抽象出來如圖5所示。
圖5 類內事件關系示意圖
從抽象的幾何關系來看,類內事件之間的距離可看作事件之間邊的長度。圖5所示的類中有5個事件,10條邊,顯然,最接近中心的事件所對應的邊的總長度最短。從圖5也可以看出,事件S最靠近類的中心,應該作為這個類的主旨事件抽取出來。因此,本文認為最靠近類中心的事件就是主旨事件,抽取算法如下。
輸入:同一主題下的不同事件集合
輸出:事件集中的主旨事件
(1)類內事件相似度計算。設類內任意兩個事件sI和sJ,sI中包含的詞語為sI1,sI2,…,sIm,sJ中包含的詞語為sJ1,sJ2,…,sJn,利用劉群[19]提出的利用《知網》[20]計算詞匯語義相似度的方法計算詞語sIi(1≤i≤m)和sJj(1≤j≤n)之間的語義相似度s(sIi,sJj),則事件sI和sJ之間的相似度Sim(sI,sJ)為:
其中,ai=max(s(sIi,sJ1),s(sIi,sJ2),…,s(sIi,sJn)),bj=max(s(sJj,sI1),s(sJj,sI2),…,s(sJj,sIm))。
(2)在步驟(1)的基礎上,通過公式:
計算類C′i中事件之間的距離;
(3)利用公式計算類內每個事件和類內其余事件之間的總距離,總距離最小的事件就是類內的主旨事件。類的主旨事件計算公式為:
其中,N為類C′i中的事件數。這樣就從每個類中
抽取主旨事件作為摘要句,完成主旨事件抽取。
主旨事件排序是生成摘要的重要環(huán)節(jié)。如果順序不當,會降低摘要本身的質量和可靠性。本文認為主旨事件排序不能簡單的依靠重要度進行排序,應按照事件的發(fā)展過程進行排序,這樣才能使用戶更加清楚地了解事件的來龍去脈。因此,提出了一種基于時間的主旨事件排序方法。具體流程如下。
(1)對于可以直接比較時間的主旨事件按照時間先后排序;
(2)對于無法比較時間,但屬于同一文檔的主旨事件按照其先后順序排序;
(3)對于無法比較時間,且屬于不同文檔的兩個主旨事件,則根據它們所在文檔中的報道時間先后排序。
時間的比較算法描述如下(精確到時):
以“2010年03月29日23:18”為例,假設時間信息提取與規(guī)范化已在預處理階段完成。
(1)查找字符“年”,抽取該字符左邊部分字符串“2010”,將其轉化為整型,用“year”表示。
(2)查找字符“月”,抽取該字符左邊部分字符串“03”,將其轉化為整型,用“month”表示。
(3)查找字符“日”,抽取該字符左邊部分字符串“29”,將其轉化為整型,用“day”表示。
(4)查找字符“:”,抽取該字符左邊部分字符串“23”,將其轉化為整型,用“hour”表示。
(5)令time=y(tǒng)ear×365×24+month×30×24+day×24+hour。
由算法可以看出,時間越小,事件發(fā)生的越早,排序時應靠前;時間越大,事件發(fā)生的越晚,排序時應靠后。
文章中句子間具有一定上下文關系,而摘要時只是從文章中抽取部分句子,失去了其表達上下文的關系,使得摘要的連貫性難以保證,需要進行一些平滑修飾提高摘要的連貫性和平滑性。
(1)標點符號平滑修飾。一些跨句需匹配的標點符號(如引號等),可能由于切分句子的原因被分離開,在摘要句子中發(fā)生失配。在平滑處理時,可以把摘要句中失配的標點符號刪除或補上。
(2)刪除摘要句中“無用信息”。摘要句集合中常包含一些無用信息,如句首關系詞、轉折詞等。句首關系連詞包括“另外”、“因此”等連詞,如果出現(xiàn)在摘要句句首,則顯得非常突兀,句子表達不連貫,需要刪除。
(3)指示代詞消解。指示代詞的消解可以使摘要的結果更通順流暢。所謂指示代詞包括人稱代詞(你、我、他)、一般代詞(前者、后者)等。
本文采用的方法是,如果一個被抽取的摘要句前面n個詞中含有這些代詞,則將該句的前一個句子也作為摘要句,依次類推。本文通過實驗n取7。
經過以上的后處理步驟,基本達到了摘要潤色的目的,增加了可讀性。
標題是摘要的重要組成部分,好的標題不僅能在第一時間吸引住人們的目光,而且能夠概括文檔的主旨,使人們一目了然。本文將多文檔集合中核心文檔的標題抽取出來作為摘要標題,算法如下。
(1)文本特征提取。對文本進行分詞后,由于低頻詞和停用詞所含有的信息量很小,故對已經切分的詞語過濾掉這些詞后所得的詞稱為文本的有效詞,這些詞都在一定程度上反映了原文的特征。假設一篇文本中共有n個有效詞,分別為t1,t2,…,tn。通過tf*idf對它們進行權重計算,其權值Wk(1≤k≤n)的計算公式如下:
其中,tfk為tk的絕對詞頻,N為文檔總數,nk為包含tk的文檔數。
(2)相似度計算。采用基于向量空間模型(Vector Space Model,VSM)統(tǒng)計的方法計算同一主題下N篇文檔集中任意兩篇文檔di=(Wi1,Wi2,…,Win)和dj=(Wj1,Wj2,…,Wjn)之間的相似度,計算公式如下:
其中,0<i,j≤N,O為向量空間的原點。
(3)對文檔集合中的每一篇文檔di求其與當前文檔集合中所有其他文檔之間相似度的和Sum,計算公式如下:
其中,i≠j且0<i,j≤N。
(4)對文檔集合中每一篇文檔求其相似度之和的平均值average(Sum),并求
其中,average(Sumi)的計算公式如下:
(5)第i*篇文檔di*被定義為當前文檔集的核心文檔,選取該文檔的標題作為摘要的標題。
本文實驗數據是從新浪、網易和搜狐等實際網絡環(huán)境中采集的3個主題相關的3組語料,所屬內容均為2010年間國內、國際相關話題的網絡新聞報道。通過網頁分析去除廣告鏈接等無關內容,只保留標題、報道時間和正文內容,并經去重和規(guī)范化處理轉化為同一文本格式(*.txt)。
本文所選取的語料具有代表性和區(qū)分性,既有時政新聞,又有社會新聞;既有國際新聞,又有國內新聞;既有突發(fā)事件,又有熱點問題。語料的具體統(tǒng)計信息如表1所示。
目前,自動摘要的評價方法大致分為兩大類:內部評價(Intrinsic)和外部評價(Extrinsic)。
表1 實驗數據統(tǒng)計結果/個
內部評價方法通過直接分析摘要的質量來評價摘要系統(tǒng),主要采用準確率、召回率等性能指標,方法簡單、容易實現(xiàn),但主觀性太強。
外部評價方法是一種間接方法,使用自動摘要系統(tǒng)生成的摘要去完成某個外部的任務,以任務完成的質量來評價摘要的質量,評價方法較為客觀,適用于大規(guī)模地對多個摘要系統(tǒng)進行綜合評價,但需要設計具體的評價任務,很耗時間和人力,且每次評價只針對一個特定的任務,有一定局限性。
可見,兩種評價方法都有其優(yōu)勢和劣勢,因此,本文分別采用內部評價和外部評價進行討論。1.內部評價
自動摘要的本質是信息的抽取和壓縮,因此本文借鑒信息抽取中的評價指標,主要采用召回率R(Recall)、準確率P(Precision)和流利度Flu(Fluency)三個指標對自動摘要系統(tǒng)進行內部評價。各評價指標如下:
· 摘要召回率反映摘要對原文主題信息的覆蓋程度,是對摘要質量的一個重要評價標準。摘要召回率R定義為:
·摘要準確率反映摘要表現(xiàn)原文主題信息的準確程度。摘要準確率P定義為:
·摘要流利度反映摘要流暢性和可讀性。在本文的評測中,通過比較系統(tǒng)摘要與人工摘要相匹配的句子在順序上是否一致。摘要流利度Flu定義為:
其中,A為人工標準摘要的語句集合,B為系統(tǒng)產生摘要的語句集合,C為系統(tǒng)摘要與人工摘要順序一致且最長匹配的語句數。
在綜合評測系統(tǒng)性能時,為了一目了然,應同時考慮R、P和Flu多個指標,本文利用多指標綜合評價方法中的線性加權綜合法進行綜合評價。所謂線性加權綜合法是指應用線性模型來進行綜合評價。本文綜合評價公式定義為:
其中,Y為系統(tǒng)的綜合評價值,α,β和γ分別為指標的相應權重,且α+β+γ=1。
權重α,β和γ的確定方法有很多種,本文采用較為簡單和成熟的專家咨詢權重法。按照指標對用戶重要程度的大小,主觀規(guī)定了各指標的權重大小,這里α=0.4,β=0.4,γ=0.2。
此外,為了評價不同摘要方法對不同主題語料的影響,本文引入了指標算術平均值(Arithmetic Mean),公式定義如下:
其中,ˉR、ˉP和ˉFlu分別為同一種摘要方法不同語料下的召回率、準確率和流利度的均值,n為同一種摘要方法下主題語料的數目,本文n=3。
(1)實驗結果
為了驗證本文自動摘要方法的有效性,依據當前比較主流的多文檔自動摘要研究方法[4-7],建立了兩個自動摘要系統(tǒng)與本文方法進行對比實驗。
系統(tǒng)一:首先,將同一主題下的文檔集合按照段落為單位進行物理上的劃分;然后,計算自然段之間的相似度,高度相似的不同文檔段落聚集到不同的類中;最后,從每個段落類中選擇代表段落生成摘要。
系統(tǒng)二:首先,將文檔集合按照句子為單位進行物理劃分;然后,計算句子之間的相似度,高度相似的不同句子聚集到不同的類中;最后,從每個句子類中選擇代表句生成摘要。
實驗中,先用本文方法對每個實驗語料生成一個摘要,然后人工分別對這三個主題做出標準摘要,將本文生成的摘要以及系統(tǒng)一、二生成的摘要分別與人工標準摘要對比,計算上面三個指標的值。
本文硬件實驗環(huán)境為Intel(R)Core(TM)2 DUO CPU E7400 @ 2.80GHz,2GB 內 存,Microsoft Windows XP Professional(SP3)操作系統(tǒng),開發(fā)工具為Visual C++6.0。實驗對比結果如表2所示。
表2 不同主題語料下不同方法實驗對比結果/%
由表2可見,相同語料下本文方法生成摘要的綜合評價值均高于系統(tǒng)一和系統(tǒng)二的,說明本文方法生成的摘要很好地兼顧了召回率、準確率和流利度;同時,本文方法生成摘要的召回率、準確率和流利度的算術平均值整體上也優(yōu)于系統(tǒng)一和系統(tǒng)二的,說明本文方法生成的摘要很好地兼顧了不同種類的語料??梢姡摲椒ú粌H適用范圍廣,而且具有一定的魯棒性,生成的摘要具有較高的質量。
系統(tǒng)一以自然段為摘要單元進行聚類,可以保留句子和句子之間的關聯(lián)關系,因而流利度較好,但是包含了很多的冗余信息,嚴重影響了準確率,且摘要的長度過長。因此,多文檔摘要中以段落為摘要單元的研究已沒有更多的余地。
目前的研究大部分以句子作為基本的摘要單元,句子是一個相對較小的摘要單元,它只是一個詞序列,不包含更多詞頻等統(tǒng)計信息。從表2來看,系統(tǒng)二中以句子作為摘要基本單位也不是最理想的;此外,當考慮所有句子時,不僅帶來了很多的“噪聲”,且時間復雜度將呈指數級增長。
本文以“事件”作為摘要的基本單元,從總的實驗結果來看,所生成摘要的效果達到了預定的實驗目標,可以被用戶接受。
實驗中還發(fā)現(xiàn),所選摘要單元越小,包含的信息越豐富和細膩,但一方面會失去許多關聯(lián)關系,影響對文本集合中信息的正確判斷,另一方面對自然語言生成技術要求很高,很難付諸實用;而摘要單元過大又會帶來許多冗余信息,降低聚合的程度。由表2不難看出,本文較好地兼顧了上述兩個問題,所選摘要單元的平均長度——“事件”介于句子的和段落的之間,生成的摘要不僅沒有失去關聯(lián)關系,而且進一步減小了冗余,是一種有效的多文檔自動摘要方法。
(2)實驗分析
分析“莫斯科地鐵爆炸”主題中的文章可知,每篇新聞的重點比較明確,有關于爆炸現(xiàn)場、救援情況、傷亡情況、原因調查、采取措施、善后工作以及各方反應等,因此,聚類結果較準確,生成的摘要效果很好。
分析“錢偉長逝世”這個主題中的文章可知,文章中的新聞時間差不多是相同的,但每個新聞文本的內容在時間上跨度很大,包括對錢偉長生平的紀事、錢偉長的貢獻、逝世的時間、地點以及各界的追思等的描述,且不同報道從不同側面對其生平、貢獻等進行描述,造成聚類結果不準確,同時嚴重影響了摘要的流利度。
分析“日本民主黨選舉”主題中的文章可知,主題中的新聞分為四個階段——選舉前瞻、選舉結果、分析評論及政壇影響,每個階段有6-8篇新聞,但都是圍繞選舉這個主題來描述的,不同階段之間的文檔有交疊,而且同一個階段的文檔往往從不同的角度進行敘述,中心不是很明確。因此,在對此主題下所有的事件聚類時,結果的準確性不能得到很好的保證,同時也造成信息的召回率偏低;由于根據時間對主旨事件進行排序,從而使得摘要的流利度還比較好。
分析實驗中影響自動摘要質量的因素主要有以下兩點。
a、聚類數目確定
本文的實驗中,沒有硬性規(guī)定摘要的壓縮比,而是根據聚類數目確定摘要的長度。通過實驗注意到聚類數目與文本的描述內容有關,如果一個文本內容很廣,即使文本句子數不多也具有較多的聚類數目,但這種情況往往出現(xiàn)單個樣本的類,影響摘要效果。因此,如何根據文本自身內容自適應確定類別數并完成聚類是今后的努力方向。
b、主旨事件抽取
聚類結束后,每個類成為一個事件集。在每個事件集中,包含的事件都是相似的。它們之間有很多信息可以互補,若只是簡單地從這些相似的事件中選出主旨事件作為這類的代表,那么有些信息將會丟失。較好的一種方法是以其中包含信息最多的事件作為主旨事件,將其它相似的事件中合適的信息添加進來,保持信息的豐滿,同時也不影響摘要的連貫性,這就涉及到事件句的壓縮和合并以及語義處理等深層語言處理技術,也是下一步要研究的主要內容。
2.外部評價
本文采用基于問答任務(Question Answering,Q&A)進行外部評價,通過提供一定數量的源于語料1、2、3的問題集及相應的標準答案,讓不同的評測員分別閱讀原文、閱讀由系統(tǒng)一、二生成的摘要以及本文方法產生的摘要,然后對比其回答問題的平均時間和準確率。不同測試環(huán)境下實驗對比結果如表3所示。
表3 基于Q&A外部評價實驗對比結果
由表3可見,閱讀原文所用的平均時間最長,回答問題的準確率也最高;閱讀系統(tǒng)一產生的摘要準確率有所降低,但所用時間縮短了近三分之二;閱讀系統(tǒng)二生成的摘要,雖然所用的平均時間是最短的,但準確率也是最差的。相對而言,對于本文方法產生的摘要能夠更加全面地覆蓋文章的主題信息,并很好地兼顧回答問題的時間和準確率,從而在回答問題的準確率與閱讀原文的準確率相差不大的情況下,大大節(jié)省用戶的瀏覽時間,提高了獲取信息的速率和效率。
目前,信息社會對能夠有效濃縮文本信息的自動摘要技術有著迫切的需求,它能對自然語言文本進行深層次知識的挖掘,通過閱讀它可以在短時間內了解事件的發(fā)生、發(fā)展和結束的全過程,以及對人們和社會造成的影響,同時有效地解決了數據的冗余問題,具有重要的現(xiàn)實意義。
針對當前自動摘要方法的不足,提出一種基于事件抽取的多文檔自動摘要方法,不僅進一步減小了流行方法中的冗余問題,而且很好地解決了傳統(tǒng)方法中由于給定壓縮比造成摘要有時由于字數限制表達不夠全面的問題,實現(xiàn)了摘要長度隨文檔內容自動確定。下一步研究的重點將是探索跨句子級事件抽取方法,構建完善的事件知識表示模型并應用于多文檔摘要中,從而生成更高質量的新聞摘要。
致謝 作者要向《知網》的發(fā)明人董振東先生和董強先生表示感謝,他們的工作是本文的基礎。另外,本文在文本預處理中采用了中科院計算所漢語詞法分析系統(tǒng)ICTCLAS 3.0,這里一并表示感謝!
[1]秦兵,劉挺,李生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):13-20.
[2]Luhn H P.The Automatic Creation of Literature Abstract[J]. IBM Journal of Research and Development,1958,2(2):159-165.
[3]宋銳,林鴻飛.基于文檔語義圖的中文多文檔摘要生成機制[J].中文信息學報,2009,23(3):110-115.
[4]Jiang Changjin,Peng Hong,Ma Qianli,et al.Automatic Summarization for Chinese Text Based on Combined Words Recognition and Paragraph Clustering[C]//Proceedings of 2010 3rd International Symposium on Intelligent Information Technology and Security Informatics(IITSI),2010:591-594.
[5]Zhang Peiying, Li Cunhe. Automatic text summarization based on sentences clustering and extraction[C]//Proceedings of 2nd IEEE International Conference on Computer Science and Information Technology(ICCSIT),2009:167-170.
[6]Naomi Daniel,Dragomir Redav,Timothy Allison.Sub-event based multi-document summarization[C]//Proceedings of HLT-NAACL workshop on text summarization,2003:9-16.
[7]劉茂福,李文捷,姬東鴻.基于事件項語義圖聚類的多文檔摘要方法[J].中文信息學報,2010,24(5):77-84.
[8]中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[OL].[2010-08-03].http://www.cnnic.net.cn/uploadfiles/pdf/2010/7/15/100708.pdf.
[9]司聯(lián)合.《概念層次網絡理論》(HNC)述評[J].語言科學,2003,2(4):101-108.
[10]ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events[M].National Institute of Standards and Technology,2005.
[11]Zwaan R A,Radvansky G A.Situation models in language comprehension and memory [J].Psychological Bulletin,1998,123(2):162-185.
[12]趙妍妍,秦兵,車萬翔等.中文事件抽取技術研究[J].中文信息學報,2008,22(1):3-8.
[13]梁晗,陳群秀,吳平博.基于事件框架的信息抽取系統(tǒng)[J].中文信息學報,2006,20(2):40-46.
[14]馮禮.基于事件框架的突發(fā)事件信息抽?。跠].上海:上海交通大學,2008.
[15]David Ahn.The stages of event extraction[C]//Proceedings of the Workshop on Annotations and Reasoning about Time and Events,Sydney,2006:1-8.
[16]許紅磊,陳錦秀,周昌樂等.自動識別事件類別的中文事件抽取技術研究[J].心智與計算,2010,4(1):34-44.
[17]Vapnik V.Nature of Statistical Learning Theory[M].New York:Springer Press,2000.
[18]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學報,2007,21(2):58-62.
[19]劉群,李素建.基于《知網》的詞匯語義相似度的計算[J].Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.
[20]董振東,董強.知網[OL].[2010-06-08].http://www.keenage.com.