国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞項—句子—文檔三層圖模型的多文檔自動摘要

2014-02-28 00:45王明文李茂西萬劍怡
中文信息學報 2014年6期
關(guān)鍵詞:集上文檔權(quán)重

熊 嬌,王明文,李茂西,萬劍怡

(江西師范大學 計算機信息工程學院,江西 南昌 330022)

1 引言

多文檔自動摘要通過給人們提供簡潔全面的多文檔信息來提高人們獲取信息的效率。多文檔自動摘要的主要方法分為兩種: 抽取式摘要和生成式摘要。前者主要從多篇原始文檔中抽取出一些重要的句子來組成最后的摘要;后者則需要計算機在理解原文的基礎(chǔ)上,重新組織能夠表達文本主要信息的句子,作為摘要句[1-3]。本文針對抽取式多文檔自動摘要方法進行研究。

近年來,許多研究方法被應(yīng)用到文檔摘要系統(tǒng)上,其中以基于質(zhì)心[4-5]和基于圖模型[6-9]的兩種方法尤為突出?;谫|(zhì)心的方法主要是從文檔集中選擇一些比較重要的質(zhì)心詞(每個詞的tf*idf值在給定的閾值范圍內(nèi))構(gòu)成一個能代表文檔的中心句子,然后將文檔中所有句子同生成的中心句子進行相似度比較,挑選出與中心句子相似度較高的句子作為文檔的摘要。Radev提出的MEAD[10]就是一個基于質(zhì)心的摘要系統(tǒng),對于相關(guān)文檔類中的每一個句子,MEAD分別計算質(zhì)心得分、位置信息以及同第一個句子(可能是文檔的標題)的重復(fù)率這3個特征,然后將其線性組合起來確定出得分最高的句子。

而基于圖模型的方法則主要是將文檔集構(gòu)建成一個以句子為頂點,各頂點句子之間的余弦相似度構(gòu)成邊關(guān)系的圖模型。Radev在2004年提出的LexRank[6]就是這樣的一個模型,基于這個基礎(chǔ)再利用類似PageRank[11]算法對這個圖模型各頂點求出一個排序得分,然后在規(guī)定的摘要長度內(nèi)挑選出得分排在前面的句子組成摘要,但是這種模型僅僅只是考慮了句子之間的關(guān)系。Wei等人提出將文檔信息也加入到圖模型中,構(gòu)建文檔敏感圖模型(Document-Sensitive Ranking model,DsR),利用文檔集的全局信息對多文檔內(nèi)的句子的影響,將句子與句子之間的關(guān)系分為跨文檔關(guān)系與同一文檔內(nèi)關(guān)系,從而將文檔之間的相關(guān)信息融合到句子之間的信息中,達到提高系統(tǒng)摘要質(zhì)量的目的[12]。但是文檔所包含的信息太寬泛,對于句子信息的影響不是很大,因此可以嘗試融合更多的文本信息,從而使得生成的摘要更為準確。

在信息檢索相關(guān)工作中,Blanco和Lioma采取固定滑動窗口大小的方法得到詞項間的共現(xiàn)關(guān)系,若兩個詞項同時出現(xiàn)在窗口內(nèi),則可以看作這兩詞項之間有邊相連,構(gòu)建詞項的無向無權(quán)圖,然后采用類似PageRank算法的隨機游走方法根據(jù)詞項頂點的入度和出度計算詞項在文檔中的權(quán)重[13-14]。Rousseau等也是通過同樣的方法得到詞項的共現(xiàn)關(guān)系,同時還根據(jù)詞項出現(xiàn)的位置關(guān)系得到詞項間的順序關(guān)系,從而構(gòu)造出關(guān)于文檔詞項的有向無權(quán)圖,不同于Blanco等確定邊的權(quán)重方法,這里的邊的權(quán)重僅僅由該詞項節(jié)點的入度數(shù)來確定[15]。雖然這些研究確定詞項的權(quán)重方式不同,但是它們的共同點都是首先構(gòu)造出文檔的詞項圖,然后借助詞項圖來確定詞項的權(quán)重。這些研究都是從詞項權(quán)重信息角度出發(fā),可以看出詞項權(quán)重信息對文檔的自動摘要有著很大的影響。

總之,現(xiàn)有基于圖模型的多文檔自動摘要研究工作只考慮了句子層面的信息。盡管Wei等人提出的DsR模型[12]考慮了文檔層面信息,但也只利用了文檔和句子的信息來確定句子最后的得分,并沒有充分利用文檔中詞項的信息。因此本文在前人工作基礎(chǔ)上,融合詞項權(quán)重信息和文檔信息,構(gòu)建了基于詞項—句子—文檔的3層圖模型(Term-Sentence-Document Graph Model,TSDM),進行多文檔的自動摘要。

TSDM分為3層,分別是詞項圖、句子圖以及文檔圖。詞項圖是對文檔集內(nèi)所有詞項構(gòu)建一個無向帶權(quán)圖,頂點表示各詞項,邊用來刻畫兩詞項的共現(xiàn)關(guān)系,通過它們的共現(xiàn)句子數(shù)來確定邊的權(quán)重,從而構(gòu)建出一個關(guān)于詞項的共現(xiàn)矩陣,再通過馬爾科夫鏈計算方法確定詞項在當前文檔集中的權(quán)重;文檔圖通過計算文檔間的概率轉(zhuǎn)移矩陣構(gòu)造文檔關(guān)系矩陣;而句子圖則是通過結(jié)合文檔關(guān)系矩陣構(gòu)造句子相似度矩陣,再通過馬爾科夫鏈預(yù)測過程確定句子權(quán)重,最后再將句子權(quán)重和其所包含的詞項權(quán)重線性組合,將它作為最終的句子權(quán)重。

2 基于多層圖模型的多文檔摘要

2.1 多層圖模型的構(gòu)建

LexRank模型根據(jù)句子與句子之間的關(guān)系構(gòu)建句子級別的關(guān)系網(wǎng)絡(luò),以實現(xiàn)文檔摘要;DsR模型在LexRank模型的基礎(chǔ)上,根據(jù)文檔與文檔之間的相關(guān)性構(gòu)建文檔級別的關(guān)系圖模型,再結(jié)合句子的圖模型構(gòu)成句子-文檔雙層圖模型。受它們的啟發(fā),本文考慮信息粒度更小的詞匯信息,在原有的句子-文檔兩層圖模型基礎(chǔ)上,根據(jù)詞項與詞項之間的關(guān)系構(gòu)建詞項關(guān)系網(wǎng)絡(luò),從而構(gòu)建詞項—句子—文檔3層圖模型TSDM。

圖1為詞項—句子—文檔3層圖模型的一個簡單示例,第1層為文檔圖,每篇文檔都被看作是一個頂點,兩篇文檔相關(guān)時,兩頂點有邊相連,并且邊的權(quán)重由這兩篇文檔之間的相關(guān)性刻畫;第2層為句子圖,同文檔層構(gòu)建方法類似,句子看作頂點,句子之間的相似度看成是邊的權(quán)重,通過第1層和第2層,可以獲得文檔和句子之間的從屬關(guān)系,借助這個關(guān)系,可以將句子之間的邊分為跨文檔之間的邊和同一文檔內(nèi)的邊,然后區(qū)別處理這兩種邊;第3層為詞項圖,構(gòu)建詞項之間的關(guān)系圖,文檔中的每個詞項作為該層圖的頂點,頂點之間邊的權(quán)重表示詞項與詞項之間的共現(xiàn)句子數(shù)。

圖1 Term-Sentence-Document 3層圖模型的簡單示例

2.2 詞項圖

2.2.1 詞項圖構(gòu)建

詞項圖是由文檔集中所有的詞項ti構(gòu)成頂點,設(shè)定當且僅當兩個詞項至少在文檔集的某一句話中同時出現(xiàn)時,這兩個詞項之間才有邊相連,并且邊的權(quán)重為它們的共現(xiàn)次數(shù),即同時包含這兩個詞項的句子個數(shù)。不同于Blanco和Lioma工作中選擇以滑動窗口為單位,本文固定以句子為度量單位,這是因為詞項—句子—文檔3層圖模型通過句子的權(quán)重來確定當前句子是否為摘要內(nèi)容,采用這種方式句子中的語義信息能完整的保存,詞項之間的關(guān)系能夠較好的體現(xiàn)。在圖1所示的例子中共有s1、s2、s3、s4四句話,它們的內(nèi)容依次是{t1t2t4}、{t3t4t5}、{t2t4t5}、{t4t5t6},構(gòu)建出的詞項圖中,t4、t5因為在s2、s3、s4三句話中都出現(xiàn),所以它們的共現(xiàn)次數(shù)是3,t2、t4在s1、s3中共現(xiàn)2次,而其他詞項之間均只共現(xiàn)1次,從而得到該文檔集的詞項共現(xiàn)矩陣Mt={mij}Nt×Nt,Nt為詞項總數(shù),mij為同時出現(xiàn)了詞項i和詞項j的句子個數(shù)。

2.2.2 詞項權(quán)重計算

根據(jù)得到的詞項共現(xiàn)矩陣Mt生成詞項間的概率轉(zhuǎn)移矩陣Pt,如式(1)所示。

(1)

式(1)計算概率轉(zhuǎn)移矩陣Pt時只考慮了詞項在同一句話中的共現(xiàn)關(guān)系,它僅僅表示出局部關(guān)系,為了考慮詞項在該文檔集內(nèi)的全局關(guān)系,采用類似PageRank算法加入阻尼因子的方法,將式(1)修正如式(2)所示。

(2)

算法1 馬爾科夫鏈預(yù)測過程

續(xù)表

2.3 文檔圖

Wei提出的DsR模型[12]在生成文檔摘要時把文檔信息也添加進來了,但是DsR模型中只對可以直接轉(zhuǎn)移的文檔間的關(guān)系進行處理,卻忽略了可以間接轉(zhuǎn)移的文檔間的關(guān)系,所以本文還將通過馬爾科夫隨機游走算法同時捕獲可以直接轉(zhuǎn)移和間接轉(zhuǎn)移的文檔間的關(guān)系,得到更完整的文檔間信息。

2.3.1 文檔圖構(gòu)建

文檔圖中的頂點為每篇文檔,頂點與頂點之間邊的權(quán)重刻畫文檔之間的關(guān)系,這部分主要介紹如何定義文檔間關(guān)系。DsR模型在處理文檔信息時,僅僅對文檔間的相似度做了歸一化處理,這樣處理只能捕獲可以直接轉(zhuǎn)移的文檔間的關(guān)系,因此,本文采用馬爾科夫隨機游走的方法對文檔相似度進行一次隨機游走用于捕獲可以間接轉(zhuǎn)移的文檔間的關(guān)系。

首先對文檔間相似度進行歸一化處理,構(gòu)建文檔間概率轉(zhuǎn)移矩陣Pd,如式(3)所示。

(3)

其中,di表示第i篇文檔,sim(di,dj)表示兩篇文檔的余弦相似度。再對其進行馬爾科夫隨機游走,Pdk=Pdk-1·Pd,然后構(gòu)建文檔關(guān)系矩陣Wd,對于同一篇文檔,其自身與自身的關(guān)系看成1,不同的文檔間關(guān)系則在1的基礎(chǔ)上再加上對應(yīng)文檔間的轉(zhuǎn)移概率,Wd具體定義見式(4)。

(4)

通過上述處理,文檔關(guān)系矩陣Wd便得到了文檔信息,這部分信息可以為接下來度量句子間相似度時提供參考。

2.4 句子圖

2.4.1 句子圖構(gòu)建

句子圖是以文檔集中每個句子為頂點,句子之間的相似度看做是邊的權(quán)重。本文采用余弦相似度來計算句子相似度,構(gòu)建句子相似矩陣Ms為式(5)~(6)。

(5)

(6)

tfw,Si表示詞項w在句子Si中出現(xiàn)的次數(shù),idSw是逆句子頻率,類似于逆文檔頻率,Ns表示句子總數(shù),Nk表示包含詞項w的句子數(shù)。

(7)

2.4.2 句子權(quán)重計算

句子圖建好之后,再計算各句子權(quán)重,計算句子權(quán)重過程如下:

(8)

根據(jù)得到的鄰接矩陣A,再求解句子的概率轉(zhuǎn)移矩陣Ps為式(9)。

(9)

2.5 摘要生成

建立了TSDM的3層結(jié)構(gòu)后,本小節(jié)介紹如何利用它來確定摘要句。摘要里的句子必定是最能夠反映多個文檔中心主題的句子,同時這些句子之間相互重復(fù)要小,即低冗余,評判依據(jù)就是句子的權(quán)重以及句子之間的相似關(guān)系。通過文檔圖和句子圖,可以得到結(jié)合文檔信息和句子信息的表示句子權(quán)重的特征向量,但是這種方法并沒有考慮詞項權(quán)重信息。

(10)

式(10)得出的結(jié)果即句子權(quán)重最終結(jié)果,根據(jù)這個結(jié)果,按照權(quán)重由高到低的順序挑選句子組成摘要,同時為保證摘要的冗余度足夠小,在選擇候選句子加入到摘要前,將其權(quán)重同其所有鄰接的句子的權(quán)重進行對比,只有該句子的權(quán)重最大時,才能把當前句子加入摘要,直到達到規(guī)定的摘要長度。

3 實驗設(shè)計和結(jié)果

3.1 數(shù)據(jù)集

本文的實驗數(shù)據(jù)采用了DUC’2003*http://www-nlpir.nist.gov/projects/duc/data/2003_data.html和DUC’2004*http://www-nlpir.nist.gov/projects/duc/data/2004_data.html任務(wù)2的數(shù)據(jù)集。DUC’2003數(shù)據(jù)集包含了30個主題類,除去個別主題類,每個主題都含10篇文檔,而DUC’2004有50個主題類,每個主題下包含10篇文檔。對于每一個文檔集,都給出了4個對應(yīng)的專家摘要作為判斷標準,來評價系統(tǒng)生成的摘要。數(shù)據(jù)集的統(tǒng)計信息見表1。

表1 實驗使用數(shù)據(jù)集的統(tǒng)計信息

3.2 評價指標與實驗設(shè)置

為了評價多文檔自動摘要的結(jié)果,我們采用DUC評測官方評價指標Rouge[16]來測量不同方法的優(yōu)劣。Rouge指標通過計算系統(tǒng)摘要同專家摘要的N元組(連續(xù)的N個單詞組成)重復(fù)率來對摘要結(jié)果進行評價的。根據(jù)定義的N值和計算策略的不同,Rouge指標可以進一步細化為ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S、ROUGE-SU等指標。ROUGE-N計算兩個摘要里的N元詞的匹配率,計算公式如式(1)所示。

(11)

N表示N-gram的長度,Count(N-gram)表示專家摘要中N-grams的個數(shù)。在實驗中,我們采用ROUGE 1.5.5和DUC官方提供的ROUGE參數(shù)進行結(jié)果評估,包含ROUGE-1、ROUGE-2、ROUGE-W這3個指標,其中以ROUGE-2指標為主,且實驗結(jié)果都是采用這3個指標的平均F值。

在文本預(yù)處理過程中,我們實驗對比了許多常用的自然語言處理工具,發(fā)現(xiàn)德雷塞爾大學提供的開源的文本檢索與挖掘工具包(Dragon Toolkit)*http://dragon.ischool.drexel.edu/license.asp在處理英文文本分句結(jié)果上相對最優(yōu),因此在實驗預(yù)處理中采用了該工具包提供的分句程序。另外,我們發(fā)現(xiàn)對文檔集分句后進行去停用詞、詞干化等操作會影響詞項權(quán)重結(jié)果,降低自動摘要的效果,所以,實驗中未對數(shù)據(jù)集進行任何去停用詞以及詞干化等操作。

在詞項圖構(gòu)建過程中求解詞項概率轉(zhuǎn)移矩陣Pt時,根據(jù)經(jīng)驗本文設(shè)置阻尼因子d為0.15,通過馬爾科夫鏈預(yù)測過程求解詞項權(quán)重向量Bt時,誤差μ取0.000 01;構(gòu)建句子鄰接矩陣A時,句子相似度閾值ε的值與文獻[6]中的相同,均為0.1,求解句子權(quán)重向量Bs時,誤差μ取0.001。

對比實驗選擇了LexRank模型和DsR模型,為了驗證詞項權(quán)重信息和文檔信息對摘要結(jié)果的影響,實驗嘗試了不同的方案,實驗結(jié)果見表2和表3。實驗中,還對比了進行1次隨機游走后的文檔關(guān)系的摘要結(jié)果和不進行游走的文檔關(guān)系的摘要結(jié)果,對于公式(10)中ω對結(jié)果的影響將在圖2中展示。

表2 DUC’2003數(shù)據(jù)集對比結(jié)果

表3 DUC’2004數(shù)據(jù)集對比結(jié)果

圖2 各數(shù)據(jù)集上ω對ROUGE-2的影響(上圖DUC’2003數(shù)據(jù)集,下圖DUC’2004數(shù)據(jù)集)

3.3 實驗結(jié)果及分析

圖2分別給出了參數(shù)ω在DUC’2003數(shù)據(jù)集和DUC’2004數(shù)據(jù)集上對ROUGE-2的影響。上圖表明,在DUC’2003數(shù)據(jù)集上當ω取值為0.7時,ROUGE-2取得相對最高值,而下圖表明,在DUC’2004數(shù)據(jù)集上當ω取值為0.5時,ROUGE-2取得相對最高值。ω在兩個數(shù)據(jù)集上的較優(yōu)值不一致,這跟數(shù)據(jù)集本身的特性有關(guān)。所以實驗中ω都是取其對應(yīng)數(shù)據(jù)集上的較優(yōu)值,即在DUC’2003數(shù)據(jù)集中ω的值為0.7,在DUC’2004數(shù)據(jù)集中ω的值為0.5。

表2和表3分別表示不同模型在DUC’2003和DUC’2004數(shù)據(jù)集上的實驗結(jié)果。其中DsRM模型為對文檔轉(zhuǎn)移概率矩陣進行1次隨機游走后的方法,LexRankTerm模型為不考慮文檔信息只把詞項權(quán)重信息同句子權(quán)重進行線性結(jié)合的方法,通過實驗對比發(fā)現(xiàn)在DUC’2003數(shù)據(jù)集上將LexRank得到的句子權(quán)重與詞項權(quán)重比值設(shè)為1∶1,在DUC’2004數(shù)據(jù)集上該比值設(shè)為9∶1時,效果最好。

DsR模型較LexRank模型在DUC’2003數(shù)據(jù)集和DUC’2004數(shù)據(jù)集上各項指標均有較大提升。因為,如果兩篇文檔相似度較高,那么在這兩篇不同文檔中的兩個句子之間的主題關(guān)聯(lián)度更高。對比DsR模型原文的實驗結(jié)果,在DUC’2004數(shù)據(jù)集上的DsR模型較LexRank模型的提升效果同DsR模型原文的比較接近,但是在DUC’2003數(shù)據(jù)集上卻提升很多,這可能與系統(tǒng)生成的摘要長度有關(guān),2003年的系統(tǒng)摘要長度規(guī)定是100個單詞左右,2004年的系統(tǒng)摘要長度規(guī)定為665個字節(jié)左右。

實驗數(shù)據(jù)表明,DsRM模型相比DsR模型在DUC’2003數(shù)據(jù)集上ROUGE-2提升3.12%,在DUC’2004數(shù)據(jù)集上ROUGE-2提升1.50%。DsR模型在構(gòu)建文檔轉(zhuǎn)移概率矩陣時,只考慮了可以直接相關(guān)的文檔間關(guān)系,而DsRM通過一次隨機游走,把文檔之間的間接關(guān)系也結(jié)合進來,使得文檔之間的語義關(guān)系更加完整,從而進一步提升系統(tǒng)自動生成的摘要的質(zhì)量。

對比LexRank模型和LexRankTerm模型,LexRankTerm模型在DUC’2003數(shù)據(jù)集上ROUGE-2提升12.42%,在DUC’2004數(shù)據(jù)集上ROUGE-2提升1.27%。LexRank模型只考慮了句子之間的關(guān)系,而忽略了粒度更小的詞項權(quán)重信息,本文還通過構(gòu)建詞項圖計算詞項的重要性,最后將詞項的權(quán)重與句子的權(quán)重結(jié)合。從實驗結(jié)果上來看,結(jié)合詞項權(quán)重信息后,實驗的各項指標整體上都有提升。然而,結(jié)合詞項權(quán)重信息的模型沒有結(jié)合文檔信息的效果好,這是因為詞項所包含的信息比較少,由于數(shù)據(jù)集中的文檔長度都較短,詞項權(quán)重信息的噪聲相對文檔信息要大,所以結(jié)合詞項權(quán)重信息后的提升效果沒有結(jié)合文檔信息后的效果好。

在這兩個數(shù)據(jù)集上,本文提出的融合詞項和文檔信息后的TSDM模型在各項評價指標上均有良好的表現(xiàn)。在DUC’2003數(shù)據(jù)集上相比DsR模型,指標ROUGE-1提升2.06%,指標ROUGE-2提升3.25%,指標ROUGE-W提升1.34%;在DUC’2004數(shù)據(jù)集上相比DsR模型,ROUGE-1提升0.32%,ROUGE-2提升4.19%,ROUGE-W則略有下降。這表明詞項權(quán)重信息、文檔信息能夠顯著提高多文檔自動摘要的質(zhì)量。然而,在DUC’2003數(shù)據(jù)集上,ROUGE-1、ROUGE-2和ROUGE-W各項指標相比于DsRM算法提升并不明顯,對比DUC’2004數(shù)據(jù)集上的實驗結(jié)果,我們發(fā)現(xiàn)這與數(shù)據(jù)集自身特性有關(guān)。在DUC’2003數(shù)據(jù)集中,每個主題下的所有文章所包含的句子長度分布不均衡,這會導(dǎo)致部分句子長度較長但實際中相對不重要的句子的得分相應(yīng)提高,因此使得部分實驗結(jié)果略有下降。

4 總結(jié)與展望

本文提出了基于詞項—句子—文檔三層圖模型的多文檔自動摘要方法。它不僅利用句子之間的相似度,而且考慮了句子所屬的文檔之間的關(guān)系以及句子所包含的詞項權(quán)重信息來生成文檔摘要。實驗結(jié)果表明本文提出的模型能顯著的提高自動摘要的質(zhì)量。

在計算詞項權(quán)重信息時,本文只利用了詞項間的共現(xiàn)關(guān)系,未考慮詞項間存在的語義關(guān)系以及句子間的句法、語義關(guān)系,因此未來的工作包括進一步研究如何深層次的利用詞項間的語義關(guān)系以及句子間句法、語義關(guān)系來提高自動摘要的效果。

[1] 劉挺, 王開鑄. 自動文摘的四種主要方法[J]. 情報學報, 1999, 18(1): 11-19.

[2] 秦兵, 劉挺, 李生. 多文檔自動文摘綜述[J]. 中文信息學報, 2005, 19(6):13-20.

[3] E padma lahari, D V N Siva Kumar. A Comprehensive Survey on Feature Extraction in Text Summarization[J]. Computer Technology and Applications, 2014, 5(1): 248-256.

[4] Radev D, Winkel A, Topper M. Multi document centroid-based text summarization[C]//Proceedings of ACL'2002 Demo Session. ACL, 2002.

[6] Erkan G, Radev D R. LexRank: Graph-based lexical centrality as salience in text summarization[J]. Journal of Artificial Intelligence Research (JAIR), 2004, 22(1): 457-479.

[7] Chen H, Jin H, Zhao F. PSG: a two-layer graph model for document summarization[J]. Frontiers of Computer Science, 2014, 8(1): 119-130.

[8] Canhasi E, Kononenko I. Weighted archetypal analysis of the multi-element graph for query-focused multi-document summarization[J]. Expert Systems with Applications, 2014, 41(2): 535-543.

[9] 紀文倩, 李舟軍, 巢文涵, 等. 一種基于LexRank 算法的改進的自動文摘系統(tǒng)[J]. 計算機科學, 2010, 37(5): 151-154.

[10] Radev D, Allison T, Blair-Goldensohn S, et al. MEAD-a platform for multidocument multilingual text summarization[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'2004). LREC, 2004.

[11] Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the web[R]. California: Stanford InfoLab, 1999.

[12] Wei F, Li W, Lu Q, et al. A document-sensitive graph model for multi-document summarization[J]. Knowledge and information systems, 2010, 22(2): 245-259.

[13] Blanco R, Lioma C. Random walk term weighting for information retrieval[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 829-830.

[14] Blanco R, Lioma C. Graph-based term weighting for information retrieval[J]. Information retrieval, 2012, 15(1): 54-92.

[15] Rousseau F, Vazirgiannis M. Graph-of-word and TW-IDF: new approach to ad hoc IR[C]//Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 2013: 59-68.

[16] Lin C Y. Rouge: a package for automatic evaluation of summaries[C]//Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation. ACL, 2005: 74-81.

猜你喜歡
集上文檔權(quán)重
淺談Matlab與Word文檔的應(yīng)用接口
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補償性辱虐管理行為?*
GCD封閉集上的冪矩陣行列式間的整除性
有人一聲不吭向你扔了個文檔
權(quán)重常思“浮名輕”
R語言在統(tǒng)計學教學中的運用
為黨督政勤履職 代民行權(quán)重擔當
Word文檔 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
師如明燈,清涼溫潤
隆化县| 长兴县| 洛宁县| 临清市| 伊金霍洛旗| 大兴区| 田东县| 惠安县| 龙里县| 南城县| 白玉县| 星座| 永泰县| 山阳县| 上犹县| 四会市| 天门市| 万安县| 方城县| 名山县| 马关县| 紫金县| 衡山县| 陆河县| 云霄县| 英超| 岑溪市| 封丘县| 巴林左旗| 襄垣县| 武胜县| 中超| 南安市| 三穗县| 阳新县| 尉犁县| 怀远县| 赤水市| 长武县| 苍溪县| 凭祥市|