国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種面向查詢的多文檔摘要方法

2010-06-05 06:31蔡東風(fēng)
中文信息學(xué)報 2010年6期

葉 娜,蔡東風(fēng)

(沈陽航空航天大學(xué) 知識工程研究中心, 遼寧 沈陽 110136)

1 引言

多文檔自動摘要(Multi-Document Summarization)的任務(wù)是識別多篇同主題文檔中的有用信息,壓縮其中的冗余信息,生成一篇簡短、流暢的摘要。該技術(shù)可以幫助用戶快速形成對特定主題的全面了解,提高獲取信息的效率。

多文檔摘要可分為一般性摘要(General Summarization)和面向查詢的摘要(Query-Focused Summarization)。與一般性摘要不同,面向查詢的多文檔摘要允許用戶提交當(dāng)前主題下自己最為關(guān)心的問題,并根據(jù)問題的要求生成摘要,為用戶帶來更大的便利。

在面向查詢的多文檔摘要領(lǐng)域,研究人員已經(jīng)做了許多工作。Goldstein[1]將文檔切分為基本片段,過濾掉與查詢相關(guān)度低的片段,利用MMR(Maximum Marginal Relevance)技術(shù)消除信息冗余,生成摘要。Pingali[2]設(shè)計了基于句子與查詢的相關(guān)度和無關(guān)度兩方面因素的打分函數(shù)進行內(nèi)容選擇。NeATS系統(tǒng)[3]利用WordNet[4]進行查詢擴展,并根據(jù)文檔句里的基本要素[5](Basic Elements)數(shù)目對句子排序,作為選擇摘要內(nèi)容的依據(jù),并使用簡化的MMR技術(shù)來消除冗余。GISTexter系統(tǒng)[6]用句法分析器對查詢進行分解,將分解后的查詢送入文檔集檢索,識別出相關(guān)的句子,并對句子進行聚類,從每個簇選擇文本以消除冗余。Filippova[7]利用相關(guān)網(wǎng)頁資源對查詢進行擴展,過濾掉與查詢匹配度低的句子,并依據(jù)新穎度(Novelty)對余下的句子進行排序。

從上述研究現(xiàn)狀來看,目前面向查詢的多文檔摘要技術(shù)存在兩個問題。第一,為了保證所生成的摘要與查詢密切相關(guān),現(xiàn)有方法通常選取與查詢之間相似度較高的句子加入摘要。但是這種策略容易造成摘要句之間的內(nèi)容重復(fù),影響摘要的全面性。雖然一些研究人員采用了冗余消除技術(shù)[1,3,6]來提高摘要的覆蓋率,但仍然無法很好地解決這個問題。實際上,與查詢的相關(guān)程度只是影響內(nèi)容選擇的一個因素,除此之外,還應(yīng)該從整個文檔集的角度出發(fā),盡量全面地選擇信息。第二,在計算文檔句與查詢的相關(guān)度時,僅使用原始查詢難以準確地描述用戶的隱含意圖,需進行查詢擴展。而現(xiàn)有方法多依賴語義詞典[3,6]和大規(guī)模語料庫[7]等外部知識和資源,來識別詞語之間的深層語義關(guān)系,在一定程度上受限于具體領(lǐng)域。

針對以上問題,本文提出一種基于主題分析的面向查詢的多文檔摘要方法。其基本思想是,同一主題下的文檔集包含多個子主題,分別論述主題的不同側(cè)面。子主題信息將為摘要提供有價值的線索。文獻[8-10]曾提出基于子主題的多文檔摘要方法,但這些算法適用于一般性摘要任務(wù),而本文的研究重點是面向查詢的摘要。

本文利用主題分析技術(shù),識別出子主題,并綜合考慮子主題與查詢的相關(guān)度以及子主題在當(dāng)前主題下的重要度兩方面因素,對子主題進行打分排序,從排序靠前的子主題中選取句子形成摘要,使得摘要在符合查詢要求的前提下,覆蓋更多的子主題,更全面地反映文檔集的主要內(nèi)容。另外,本文認為,詞語在不同子主題下的共現(xiàn)越頻繁,其語義相關(guān)性越強。通過選取與查詢詞的子主題分布最為相似的詞語,可以在不依賴外部語義資源和知識的情況下,對查詢進行擴展。在DUC2006評測語料上的實驗結(jié)果表明,與Baseline系統(tǒng)相比,本系統(tǒng)取得了更高的ROUGE評價值,基于子主題的查詢擴展方法則進一步提高了摘要的質(zhì)量。

2 面向查詢的多文檔摘要方法

2.1 總體流程

圖1為本文提出的SEG_SUM摘要方法的系統(tǒng)流程圖??梢钥闯?,系統(tǒng)主要分為主題分析、查詢擴展、子主題篩選排序和摘要生成等階段。

圖1 SEG_SUM摘要系統(tǒng)流程圖

2.2 主題分析

本文先對文檔進行了預(yù)處理,包括去除html標記、分句、禁用詞過濾和詞根還原等。為了識別當(dāng)前主題下的子主題,對目標文檔集進行了主題分析,包括主題分割和語義段落聚類兩個步驟。

1) 主題分割

主題分割是一項較為成熟的技術(shù),其任務(wù)是自動識別出一篇文本內(nèi)部不同子主題的邊界,并將其線性分割開來,形成多個語義段落,其中相鄰的語義段落論述不同的子主題。目前方法[11-13]主要是利用一些語言學(xué)線索,如新詞出現(xiàn)、重現(xiàn)特性、命名實體和代詞使用、線索短語等來判斷文本的主題連貫性,從而識別子主題邊界。本文使用C99算法[12]進行主題分割。該算法不需外部資源,僅利用文檔內(nèi)部的詞匯重現(xiàn)信息,分割效果較好,并且可以自動確定語義段落數(shù)目。

2) 語義段落聚類

對文檔集內(nèi)每篇文檔進行主題分割后,需要對全部語義段落進行聚類,得到子主題集合。本文采用自底向上的聚類方法,其基本過程如下:

設(shè)語義段落集合Ω= {S1,S2, …,Sn}

STEP1:計算n個語義段落兩兩之間的相似度Sim(Si,Sj),記為初始相似度矩陣。

STEP2:初始構(gòu)造n個簇,每個語義段落自成一簇。

STEP3:尋找相似度矩陣中的最小元素,合并相似度最小的兩簇形成一個新語義段落簇。

STEP4:計算新簇與當(dāng)前各簇的相似度,更新相似度矩陣。若矩陣中的最大值高于閾值threshold,則跳至步驟3,否則跳至步驟5。

STEP5:輸出聚類結(jié)果,即子主題集合Φ={T1,T2, …,TN}。

在聚類過程中,涉及到兩個相似度計算過程,一是語義段落之間的相似度,二是語義段落簇之間的相似度。語義段落之間的相似度通過向量余弦來計算。語義段落簇之間的相似度計算方法是,將兩個簇內(nèi)語義段落之間的最小相似度作為兩個簇的相似度。

假設(shè)兩個語義段落詞頻向量分別為x=(x1,x2,…,xn) 和y=(y1,y2,…,yn),則其相似度為:

(1)

假設(shè)兩個語義段落簇分別為Ti={Si1,Si2, …,Sin} 和Tj={Sj1,Sj2, …,Sjn},則其相似度為:

(2)

2.3 查詢擴展

首先識別出原始查詢中的關(guān)鍵詞,將查詢表示為關(guān)鍵詞集合Q={w1,w2, …,wt}。

為了進行查詢擴展,需要找到與查詢關(guān)鍵詞語義最為相關(guān)的詞語。本文認為,詞語的主題相關(guān)性可以反映其語義相關(guān)性。如果兩個詞wi和wj同時出現(xiàn)于子主題T內(nèi),那么這兩個詞具有一定的主題相關(guān)性,也就是可以反映同一個子主題的內(nèi)容,說明它們在一定程度上語義相關(guān)。兩個詞共現(xiàn)的子主題越多,即在子主題之間的分布越相似,表示它們的語義相關(guān)性越強。

本文將詞語表示為子主題向量w=(t1,t2, …,tN)。其中如果詞w在子主題Ti中出現(xiàn)過,那么ti取值為1,否則取值為0。通過向量余弦來計算兩個詞之間的主題相關(guān)度。

假設(shè)詞x和詞y的子主題向量分別為x=(x1,x2,…,xN) 和y=(y1,y2,…,yN),則它們之間的主題相關(guān)度為:

(3)

對于每個查詢關(guān)鍵詞wi,選取文檔集里與之主題相關(guān)度最大的詞來進行擴展,形成擴展詞集合Q′,則擴展后的查詢Qs=Q∪Q′。

2.4 子主題篩選排序

面向查詢的多文檔摘要系統(tǒng)中,為保證摘要內(nèi)容與查詢密切相關(guān),需要對子主題進行篩選,過濾掉與查詢無關(guān)或相關(guān)度低的子主題。同時由于摘要長度的限制,摘要應(yīng)盡量覆蓋當(dāng)前主題下的重要子主題,因此還需根據(jù)重要度對相關(guān)子主題進行排序。

1) 子主題篩選

本文過濾掉與查詢之間相關(guān)度為0的子主題,得到與查詢相關(guān)的子主題。相關(guān)度計算方法是,將查詢與子主題內(nèi)每個句子之間的最大相似度值作為查詢與子主題的相關(guān)度。其中查詢與子主題句之間的相似度通過向量余弦來計算。

假設(shè)查詢和子主題句的詞頻向量分別為q=(q1,q2,…,qn) 和s=(s1,s2,…,sn),則它們之間的相似度為:

(4)

假設(shè)子主題T有m個句子,則子主題可表示為句子集合T={t1,t2,…,tm},查詢q與子主題T之間的相關(guān)度為:

(5)

2) 子主題排序

本文認為,子主題的重要程度可以根據(jù)其大小來度量。包含句子個數(shù)較多的子主題由于在原始文本中所占的篇幅比例較大,可認為是描述了當(dāng)前主題下較為重要的側(cè)面,應(yīng)優(yōu)先予以涵蓋。因此本文將子主題所包含的句子數(shù)目m作為子主題的重要度,對相關(guān)子主題進行排序,選擇前K個子主題,用于最終的摘要生成。

2.5 摘要生成

至此得到了與查詢相關(guān)的K個重要的子主題有序序列。從第一個子主題開始,循環(huán)選取其中與查詢相似度最大的句子作為摘要句,連接起來形成摘要,直到摘要長度達到最大長度限制為止。其中重要度較高的子主題可能貢獻出多個摘要句,這是符合實際情況的,即對于較重要的主題側(cè)面,摘要應(yīng)涵蓋其中的更多內(nèi)容。

3 實驗

3.1 實驗設(shè)置

本文使用DUC2006評測中用于面向查詢的多文檔摘要任務(wù)的語料來評價摘要系統(tǒng)的性能。該語料共包含50個測試文檔集,均為英文語料。語料中的文章來自美聯(lián)社(Associated Press)、《紐約時報》(New York Times)和新華美通(Xinhua Newswire)的新聞報道。每個文檔集里面有25篇文檔和一個topic statement,其中指出了文檔集的主題和需要回答的問題。每個文檔集由4名評委分別做出人工摘要,作為標準答案。系統(tǒng)提交的摘要規(guī)定為250個詞。

實驗使用DUC2006會議提供的ROUGE-1.5.5工具包[14]對摘要進行評價。該工具包用多個評價指標實現(xiàn)了對摘要的自動評價。評價指標包括:ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-W、ROUGE-S和ROUGE-SU。對于多文檔摘要的評價來講,ROUGE-1、ROUGE-2、ROUGE-S4、ROUGE-SU4等幾個指標的評價效果較好。

3.3 實驗結(jié)果及分析

為了進行對比實驗,本文構(gòu)建了一個Baseline系統(tǒng),系統(tǒng)的設(shè)計遵循面向查詢的多文檔摘要系統(tǒng)的一般框架。首先,利用2.2小節(jié)的公式(1)計算文檔集里的每個句子與查詢的相似度,據(jù)此對句子進行排序,選取相似度較高的句子,作為摘要的候選句;然后,為了減少摘要中的冗余,使用了一個簡化的MMR方法,即計算句子與當(dāng)前摘要的重復(fù)度,若重復(fù)度低于閾值t,則將句子加入摘要,直至達到最大字數(shù)為止。

本文在DUC2006評測語料上對Baseline系統(tǒng)、未進行查詢擴展的SEG_SUM_NE系統(tǒng),以及SEG_SUM系統(tǒng)的摘要結(jié)果進行了對比。

SEG_SUM_NE和SEG_SUM系統(tǒng)有兩個參數(shù),即聚類的閾值threshold和子主題的個數(shù)K。Baseline系統(tǒng)也有一個參數(shù),即摘要重復(fù)度的閾值t。參數(shù)的選擇對于摘要系統(tǒng)的性能有一定影響。為得到系統(tǒng)的最優(yōu)參數(shù),本文進行了5重交叉檢驗。將全部測試語料隨機分為5部分,每次選取4部分作為訓(xùn)練語料,余下的1部分作為測試語料。表1為進行5重交叉檢驗后選擇的各個系統(tǒng)的最優(yōu)參數(shù)值。

表1 交叉檢驗估計出的系統(tǒng)參數(shù)值

表2給出了各個摘要系統(tǒng)的對比實驗結(jié)果。

表2 與Baseline系統(tǒng)的對比實驗結(jié)果

對比實驗結(jié)果表明,與baseline系統(tǒng)相比,基于主題分析的SEG_SUM系統(tǒng)取得了更好的評價結(jié)果,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率分別提高了9.2%、18.7%、16.0%和15.8%。

從表2中還可以看出,進行查詢擴展后,生成的摘要質(zhì)量有所提高,ROUGE-1、ROUGE-2、ROUGE-S4和ROUGE-SU4召回率與未擴展時相比,分別提高了2.3%、7.3%、5.3%和4.9%。這表明基于子主題分布的查詢擴展方法是有效的。詞語之間的子主題相關(guān)度能夠從一定程度上反映其語義相關(guān)度。

通過分析SEG_SUM系統(tǒng)和Baseline系統(tǒng)生成的摘要,我們發(fā)現(xiàn),前者所涉及的方面較廣,涵蓋了文檔集內(nèi)與查詢相關(guān)的多個事件或論點。而Baseline系統(tǒng)主要根據(jù)句子與查詢的相似度來生成摘要,并不考慮摘要中的子主題分布情況,經(jīng)常造成大量摘要句來自同一子主題的現(xiàn)象,雖然Baseline系統(tǒng)通過計算文本重復(fù)度,盡量防止加入內(nèi)容重復(fù)的摘要句,從一定程度上緩解了這個問題,但仍難以保證摘要中信息的全面性。

以評測語料中的D0603C文檔集為例,該文檔集的主題和查詢描述如圖2所示。

圖2 D0603C評測文檔集的主題和查詢描述

對于上述文檔集,DUC提供的標準摘要的內(nèi)容涉及濕地對于生態(tài)環(huán)境的重要作用、濕地受到威脅和破壞的原因、濕地的衰竭現(xiàn)狀、保護濕地的拉姆薩爾公約、世界各國(包括烏干達、中國、美國等)為保護和管理濕地采取的措施、濕地保護受到的阻礙等多個方面??梢娙斯鴮懙恼w的信息極為廣泛,內(nèi)容豐富多樣。

而Baseline系統(tǒng)生成的摘要中,有3個句子都是關(guān)于中國保護濕地的信息,可以歸為同一個子主題。該子主題占據(jù)了摘要中將近一半的篇幅。來自相同子主題的句子多次出現(xiàn),一方面增加了摘要的冗余度,另一方面使得摘要不得不丟棄了其余的重要信息,降低了摘要的覆蓋度。實際上,Baseline系統(tǒng)主要通過句子與查詢的相關(guān)度來提取摘要,雖然系統(tǒng)也考慮了降低摘要句之間的重復(fù)度,但實驗結(jié)果表明,這個問題仍無法很好地解決。

在SEG_SUM系統(tǒng)中,主題分析模塊將中國保護濕地的相關(guān)信息合并為一個子主題,從該子主題內(nèi)僅提取1個代表句,同時兼顧其余重要子主題,生成了冗余度低、覆蓋度高的摘要,取得了更好的性能。

本文也與系統(tǒng)DUC2006參賽系統(tǒng)[15]的評測性能進行了比較。DUC2006評測還提供了一個Baseline系統(tǒng)。其實現(xiàn)方法是從最新的文檔里抽取前250個詞作為摘要。實驗也引用了該系統(tǒng)的性能作為對比。DUC2006采用ROUGE-2和ROUGE-SU4的召回率作為主要評價指標。

表3 與DUC參賽系統(tǒng)的對比實驗結(jié)果

與DUC2006參賽系統(tǒng)相比,SEG_SUM系統(tǒng)的性能高于參賽系統(tǒng)的總體平均性能,其中ROUGE-2召回率高出7.6%,ROUGE-SU4召回率高出0.5%。但是,大部分參賽系統(tǒng)都利用了語言工具、外部語料和人工構(gòu)造的知識庫等資源的幫助,以實現(xiàn)對文檔內(nèi)容的深層理解。而SEG_SUM系統(tǒng)僅對文檔進行淺層分析,利用詞匯分布和文檔結(jié)構(gòu)特點進行主題分析,進而根據(jù)子主題的詞匯使用和大小等表層信息,識別出與查詢相關(guān)的重要子主題,生成摘要。系統(tǒng)不依賴于任何外部資源,是一種獨立于具體領(lǐng)域的方法。

4 結(jié)論

本文提出了一種面向查詢的多文檔摘要方法。該方法利用主題分析技術(shù)所提供的子主題信息,綜合考慮子主題與查詢的相關(guān)度及其在當(dāng)前主題下的重要度,對子主題進行篩選和排序,并從中分別選取代表句生成摘要。由于涵蓋了與查詢相關(guān)的多個重要子主題,因此摘要在符合查詢要求的前提下,更全面地覆蓋了當(dāng)前主題下的重要信息。本文還利用詞語在子主題之間的分布情況,提出了不依賴任何外部語義資源的查詢擴展方法。在DUC2006評測語料上進行的對比實驗結(jié)果表明,查詢擴展是有效的,同時與baseline系統(tǒng)相比,SEG_SUM系統(tǒng)取得了更好的摘要性能。

在未來的工作中,我們將考慮對摘要句進行修剪,削除其中的修飾性成分,以進一步提高摘要的覆蓋率。語義分析、指代消解和語言生成技術(shù)也將進一步改善摘要質(zhì)量。

[1] Jade Goldstein, Mark Kantrowitz, Vibhu Mittal, et al. Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGIR-99. Berkeley, CA. 1999:121-128.

[2] Prasad Pingali, Rahul K and Vasudeva Varma. IIIT Hyderabad at DUC 2007[C]//Proceedings of DUC 2007. 2007.

[3] Liang Zhou, Chin-Yew Lin, and Eduard Hovy. A BE-based Multi-document Summarizer with Query Interpretation[C]//Proceedings of DUC 2005. B.C. Canada. 2005.

[4] G.A. Miller. WordNet:A Lexical Databases for English. Communications of the ACM[J]. New York. 1995:39-41.

[5] Eduard Hovy, Chin-Yew Lin, Junichi Fukumoto. Automated Summarization Evaluation With Basic Elements[C]//Proceedings of the 5th International Conference on Language Resources and Evaluation. 2006.

[6] Finley Lacatusu, Andrew Hickl. LCC’s GISTexter at DUC 2006:Multi-Strategy Multi-Document Summarization[C]//Proceedings of DUC 2006. 2006.

[7] Katja Filippova, Mihai Surdeanu, Massimiliano Ciaramita, et al. Company-Oriented Extractive Summarization of Financial News[C]//Proceedings of the 12th Conference of the European Chapter of the ACL, Athens, Greece. 2009:246-254.

[8] 秦兵, 劉挺, 陳尚林,等. 多文檔文摘中句子優(yōu)化選擇方法研究[J].計算機研究與發(fā)展, 2006, 43(6):1129-1134.

[9] 鄭義, 黃萱菁, 吳立德. 文本自動綜述系統(tǒng)的研究與實現(xiàn)[J]. 計算機研究與發(fā)展, 2003, 40(11):1606-1611.

[10] Kathleen R. McKeown, Judith L. Klavans, Vasileios Hatzivassiloglou, et al. Towards multi-document summarization by reformulation:Progress and prospects[C]//Proceedings of the 17th National Conference on Artificial Intelligence. 1999.

[11] Olivier Ferret. Finding document topics for improving topic segmentation[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic. 2007:480-487.

[12] Freddy Y. Y. Choi. Advances in domain independent linear text segmentation[C]//Proceedings of North American chapter of the Association for Computational Linguistics annual meeting. Seattle. 2000.

[13] Fragkou Pavlina, Petridis Vassilios, Kehagias Athanasios. A Dynamic Programming Algorithm for Linear Text Segmentation[J]. Journal of Intelligent Information Systems. 2004, 23(2):179-197.

[14] Chin-Yew Lin. Looking for a few good metrics:ROUGE and its evaluation[C]//Proceedings of NTCIR Workshop. Tokyo, Japan. 2004.

[15] Hoa Trang Dang. Overview of DUC 2006[C]//Proceedings of DUC 2006. 2006