国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于話題集合的中文微博對(duì)比話題摘要生成

2017-03-01 04:32:09
關(guān)鍵詞:詞項(xiàng)代表性消息

張 旭

(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730050)

基于話題集合的中文微博對(duì)比話題摘要生成

張 旭

(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730050)

微博作為一種流行的信息交流平臺(tái),已經(jīng)受到人們的廣泛關(guān)注。如今有關(guān)微博搜索結(jié)果處理的研究也已經(jīng)成為熱點(diǎn),其中微博對(duì)比話題摘要是一個(gè)比較新穎的微博搜索結(jié)果處理方法。不同于基于微博消息的對(duì)比話題摘要生成算法,基于話題集合的中文微博對(duì)比話題摘要生成算法是將話題集合進(jìn)行對(duì)比并生成微博對(duì)比話題摘要。實(shí)驗(yàn)數(shù)據(jù)表明,以話題集合為單位生成對(duì)比話題摘要可以改善單條微博消息信息量不足的缺點(diǎn),提高對(duì)比話題摘要的代表性。

微博 話題集合 對(duì)比話題摘要

0 引 言

微博,如其字面所表達(dá)的意義,是一種微型的博客。它與博客的不同之處主要在于微博消息有140字上限并且可以通過轉(zhuǎn)發(fā)迅速傳播。

微博最早起源于2006年國(guó)外推出的推特,而后國(guó)內(nèi)的一些公司也陸續(xù)開始提供微博服務(wù),例如新浪微博、騰訊微博等。微博由于其消息內(nèi)容短小精悍,其消息發(fā)布具有一定的隨意性,從而降低了使用門檻,讓微博擁有大量的草根用戶。而微博的轉(zhuǎn)發(fā)功能可以讓一些熱點(diǎn)話題在用戶中快速傳播,并且用戶也可以通過轉(zhuǎn)發(fā)參與到話題的評(píng)論中。近幾年,國(guó)內(nèi)的很多熱點(diǎn)話題都是通過微博傳播的,同時(shí)民眾也通過微博參與話題評(píng)論,例如“國(guó)民老公王思聰”、“有錢就是任性”等話題。

但是隨著微博越來越受人們的關(guān)注,微博產(chǎn)生的數(shù)據(jù)量也隨之增加,這就導(dǎo)致了用戶在對(duì)微博消息進(jìn)行關(guān)鍵詞搜索時(shí)難以有效獲取所需的相關(guān)內(nèi)容。針對(duì)這一問題,已經(jīng)有許多研究提出了一些解決方法,例如對(duì)微博搜索結(jié)果進(jìn)行處理以提高用戶體驗(yàn),其中包括對(duì)搜索結(jié)果進(jìn)行排序、分類、摘要等。其中對(duì)微博的搜索結(jié)果自動(dòng)生成摘要是一種很有效的解決方法,通過對(duì)搜索結(jié)果抽取摘要,使用戶能夠在海量數(shù)據(jù)中獲取其所需信息?,F(xiàn)有的微博摘要方法很多來自于傳統(tǒng)的文本摘要方法,而在文本摘要問題中,對(duì)比文本摘要作為文本摘要的一種應(yīng)用被提出,其目的是為新聞、產(chǎn)品等描述文檔生成具有對(duì)比性質(zhì)的摘要。例如表1是對(duì)兩種電腦筆記本品牌的對(duì)比摘要。

表1 對(duì)比摘要示例

本文提出的基于話題集合的中文微博對(duì)比話題摘要生成算法,是對(duì)不同關(guān)鍵詞的微博搜索結(jié)果生成對(duì)比性摘要,讓用戶可以快速從搜索結(jié)果中獲取所需的對(duì)比性信息,提高用戶的搜索體驗(yàn)。

1 相關(guān)研究

1.1 對(duì)比文本摘要

在對(duì)比文本摘要的提取方法中,最常用的是基于對(duì)比性、代表性和差異度的方法。在基于文本代表性和對(duì)比性的加權(quán)和的文本摘要方法中,Kim等[1]通過句子的相似度得出代表性和對(duì)比性;Huang等[2]則選擇計(jì)算詞的相似度。文獻(xiàn)[3,4]提出基于兩個(gè)原文本的差異度文本摘要方法,不同的是Wang等[3]采用熵來估計(jì)差異度,而Lerman等[4]則采用相對(duì)熵。然而微博消息的發(fā)布具有一定的隨意性,消息內(nèi)容質(zhì)量較差,所以僅利用微博的文本特征難以確定其對(duì)比性、代表性和差異度。

也有一些研究提出了基于圖的對(duì)比摘要模型。Wan等[5]利用中英文句子的相似關(guān)系和差異關(guān)系為文檔中的句子建圖;黃小江等[6]采用協(xié)同圖排序方法;Shen等[7]在圖上尋找最小支配集對(duì)應(yīng)的句子作為對(duì)比摘要;Chitra等[8]將網(wǎng)頁表示成超文本標(biāo)記語言的文檔對(duì)象模型樹。在微博對(duì)比話題摘要的研究中,利用其轉(zhuǎn)發(fā)關(guān)系建圖是一個(gè)可行的研究方向。

1.2 推特對(duì)比話題摘要

在段亞娟[9]提出的推特對(duì)比話題摘要算法中,以微博消息之間的關(guān)聯(lián)關(guān)系建圖后分別利用PageRank與SimRank方法計(jì)算每條微博消息的代表性及任意兩條微博消息之間的對(duì)比性。關(guān)聯(lián)關(guān)系具體包括四種關(guān)系:第一,內(nèi)容相似關(guān)系:兩個(gè)關(guān)鍵詞搜索結(jié)果并集中的兩條微博消息內(nèi)容的余弦相似度超過閾值。第二,共享標(biāo)簽關(guān)系:并集中的兩條微博消息擁有同一話題標(biāo)簽。第三,共享鏈接關(guān)系:并集中的兩條微博消息分享同一鏈接。第四,轉(zhuǎn)發(fā)關(guān)系:屬于不同關(guān)鍵詞搜索結(jié)果集合的兩條微博消息存在轉(zhuǎn)發(fā)關(guān)系。

但是在例如新浪微博等中文微博中,包含話題標(biāo)簽及網(wǎng)頁鏈接的比例較小,同樣的話題標(biāo)簽及網(wǎng)頁鏈接在不同關(guān)鍵詞搜索結(jié)果的消息之間更是很少出現(xiàn)。況且由于轉(zhuǎn)發(fā)與被轉(zhuǎn)發(fā)消息之間大多屬于話題演化關(guān)系,而在需要對(duì)比的兩個(gè)關(guān)鍵詞的搜索結(jié)果集合中,其各自所包含的話題之間往往不存在演化關(guān)系。所以對(duì)于中文微博,需要一種新的對(duì)比話題摘要生成算法。

2 基于話題集合的中文微博對(duì)比話題摘要生成算法

在對(duì)比摘要生成問題中,推特對(duì)比話題摘要算法采用的方法是以兩個(gè)對(duì)比對(duì)象作為一個(gè)對(duì)比摘要,計(jì)算每個(gè)對(duì)比摘要的對(duì)比性以及所含對(duì)比對(duì)象的代表性,再根據(jù)計(jì)算結(jié)果進(jìn)行排序,顯示對(duì)比性與代表性較高的對(duì)比摘要。

由于一條微博消息一般只討論一個(gè)話題,推特對(duì)比話題摘要算法是以一條微博消息作為一個(gè)對(duì)比對(duì)象來進(jìn)行計(jì)算并得出對(duì)比話題摘要。但是由于單條微博消息所包含的信息質(zhì)量參差不齊,僅利用關(guān)聯(lián)關(guān)系難以篩選出合適的對(duì)比對(duì)象。所以在本文提出的中文微博對(duì)比話題摘要生成算法中,將數(shù)據(jù)集劃分為不同的話題集合,將一個(gè)話題集合視為一個(gè)對(duì)比對(duì)象。并且一條微博消息與其所在的轉(zhuǎn)發(fā)樹中的微博消息之間為話題關(guān)聯(lián)關(guān)系,所以需要將微博關(guān)鍵字搜索結(jié)果中的微博消息進(jìn)行轉(zhuǎn)發(fā)擴(kuò)充,劃分話題時(shí)以轉(zhuǎn)發(fā)擴(kuò)充后的搜索結(jié)果集合作為數(shù)據(jù)集。轉(zhuǎn)發(fā)擴(kuò)充的具體方法是:對(duì)于所有包含轉(zhuǎn)發(fā)關(guān)系的微博消息,將其所在轉(zhuǎn)發(fā)樹中的其余微博消息加入到搜索結(jié)果結(jié)合中。

綜上所述,本文提出的中文微博對(duì)比話題摘要生成算法以轉(zhuǎn)發(fā)擴(kuò)充后的搜索結(jié)果集合作為計(jì)算對(duì)象,通過計(jì)算每個(gè)對(duì)比話題集合的對(duì)比性以及所含話題集合的代表性,并根據(jù)計(jì)算結(jié)果進(jìn)行排序,最后顯示每個(gè)話題集合在劃分話題時(shí)所生成的摘要及對(duì)比話題摘要。

2.1 劃分話題并生成摘要

對(duì)于中文微博話題劃分問題,國(guó)內(nèi)已經(jīng)存在一些研究成果。其中趙斌等[10]提出的微博話題摘要生成算法(MTS算法)不僅劃分效果良好,而且算法的時(shí)間復(fù)雜度相對(duì)較低。在本文提出的中文微博對(duì)比話題摘要生成算法中,對(duì)MTS算法進(jìn)行改進(jìn)以增強(qiáng)其在對(duì)比話題摘要生成問題中的適應(yīng)性,提高對(duì)比話題的劃分效果。

在MTS算法中,首先利用微博的轉(zhuǎn)發(fā)關(guān)系生成微博轉(zhuǎn)發(fā)樹;然后計(jì)算一個(gè)節(jié)點(diǎn)中的詞項(xiàng)在后續(xù)節(jié)點(diǎn)出現(xiàn)的比例是否超過閾值,如果超過閾值則把該詞項(xiàng)加入代表性詞項(xiàng)集合;最后基于節(jié)點(diǎn)之間代表性詞項(xiàng)的相似度對(duì)微博轉(zhuǎn)發(fā)樹分別進(jìn)行深度與廣度歸并得到話題樹,話題樹中的每一個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)一個(gè)不同的話題。

但是在微博對(duì)比話題摘要生成的話題劃分問題中,主要目的是將微博消息劃分為描述不同屬性的話題。由于代表性詞項(xiàng)在選擇時(shí)不區(qū)分詞項(xiàng)的詞性,MTS算法不僅將話題描述屬性作為劃分參照,同時(shí)也將話題評(píng)論的感情色彩變化作為劃分參照。所以在本文提出的算法中,利用分詞系統(tǒng)對(duì)代表性詞項(xiàng)進(jìn)行過濾,只保留含有名詞性質(zhì)的代表性詞項(xiàng)作為劃分依據(jù)。

并且MTS算法對(duì)于許多不含轉(zhuǎn)發(fā)關(guān)系的微博消息沒有進(jìn)行有效處理,而在對(duì)比話題摘要問題中,這部分消息的作用也是不能忽視的。所以需要計(jì)算這部分消息集合的詞頻,篩選出高頻名詞加入到代表性詞項(xiàng)集合中,適當(dāng)擴(kuò)展話題集合的描述屬性。

根據(jù)上述思想,本文提出中文微博對(duì)比話題摘要的算法中,具體話題劃分方法分為以下幾步:

算法1MTS代表詞生成算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|vk,i∈VRk∧∈Ek};

}

}

push(Q,A);

}while(Q!=?)

(3) 不同于MTS算法,本文提出的算法以劃分不同描述屬性的話題集合為目標(biāo),所以需要對(duì)兩個(gè)代表性詞項(xiàng)集合R1、R2進(jìn)行篩選,挑選出具有名詞性質(zhì)的代表性詞項(xiàng)作為一個(gè)集合,分別生成RN1、RN2作為轉(zhuǎn)發(fā)樹歸并的依據(jù)。具體算法采用ICTALAS分詞系統(tǒng)對(duì)詞性進(jìn)行劃分。

(4) 對(duì)于轉(zhuǎn)發(fā)樹Gk(k=1,2),利用以MTS歸并算法為基礎(chǔ)的改進(jìn)算法進(jìn)行歸并。首先進(jìn)行深度歸并,與MTS算法主要的不同之處是歸并時(shí)的相似度計(jì)算以名詞性質(zhì)的代表性詞項(xiàng)為基礎(chǔ),具體算法如下:

算法2 深度歸并算法

push(Q,root(Gk));

do{

v=pop(Q);

A={vk,i|∈Ek};

forvk,i∈A{

R(v)=R(v)∩R(vk,i);

A=A∪{vk,j|∈Ek};

A=A-{vk,i};

}

}

push(Q,A);

}while(Q!=?)

算法3 廣度歸并算法

Sk=?;

do{

v=pop(Q);

A={vk,i|∈Ek};

S={sk,i={vk,i}|vk,i∈A};

forsk,i∈S{

R(sk,i)=R({vk,i|vk,i∈sk,i});

}

do{

if(max{φ(sk,i,sk,j)|sk,i,sk,j∈S,i!=j}>θb)then{

S=S∪{v|v∈sk,i∨v∈sk,j}-{si}-{sj};

R({v|v∈sk,i∨v∈sk,j})=R(si)∪R(sj);

}else break;

}while(true)

Sk=Sk∪S;

push(Q,A);

}while(Q!=?)

其中,Sk為Mk經(jīng)過話題劃分后的結(jié)果,Sk={sk,1,sk,2,…,sk,n},R(sk,i)為第k個(gè)關(guān)鍵詞搜索結(jié)果中的話題集合sk,1的話題摘要,參數(shù)θb是取值范圍為[0,1]的閾值。如果R(sk,i)包含超過10個(gè)代表性詞項(xiàng),則根據(jù)詞項(xiàng)在話題集合中的出現(xiàn)頻率過濾低頻詞項(xiàng)。φ(sk,i,sk,j)為兩個(gè)話題集合sk,i、sk,j中的名詞性代表詞的相似度,計(jì)算式為:

(1)

2.2 代表性與對(duì)比性計(jì)算

代表性在本文提出的算法中是指一個(gè)話題集合在關(guān)鍵詞搜索結(jié)果中的話題代表程度,話題的代表性越高則該話題的關(guān)注度越高,更加能夠代表用戶的需求。

對(duì)于一些突發(fā)性的熱點(diǎn)話題,與其相關(guān)的微博消息通過大量轉(zhuǎn)發(fā)迅速傳播,其話題集合的轉(zhuǎn)發(fā)頻率在時(shí)間線上表現(xiàn)為隨事件發(fā)生突然增長(zhǎng)而后緩慢降低。對(duì)于這些突發(fā)性的熱點(diǎn)話題,可以通過計(jì)算話題集合中平均每條消息的轉(zhuǎn)發(fā)次數(shù)來表現(xiàn)其代表性。

還有一部分話題集合非突發(fā)性的熱點(diǎn)話題,但是同樣對(duì)話題屬性進(jìn)行了描述并且有一定的代表性。這些非突發(fā)性的熱點(diǎn)話題集合雖然很少存在大量而突然的轉(zhuǎn)發(fā)關(guān)系,但是其集合中的消息數(shù)量多,且在時(shí)間線上分布較廣。對(duì)于這一部分話題集合,可以假設(shè)其消息發(fā)布時(shí)間符合均勻分布,以集合中平均每條消息的發(fā)布時(shí)間的方差表現(xiàn)其代表性

根據(jù)上述思想,話題集合s的代表性計(jì)算式為:

(2)

其中,Time(v)代表消息v的發(fā)布時(shí)間,發(fā)布時(shí)間經(jīng)過轉(zhuǎn)換后以Unix時(shí)間戳表示,并以三十天作為單位,Ret(v)代表消息v的轉(zhuǎn)發(fā)次數(shù)。

對(duì)比性是指兩個(gè)話題之間的可比較的程度,而對(duì)于兩個(gè)不同搜索結(jié)果中的話題集合,其各自所描述的屬性之間相似度越高,則認(rèn)為兩個(gè)話題集合的對(duì)比性越高。

在本文提出的算法中,以話題集合之間相似度作為兩個(gè)話題集合的對(duì)比性,話題集合s1,i、s2,j之間的相似度計(jì)算選擇含有名詞性質(zhì)的代表性詞項(xiàng)集合RN(s1,i)、RN(s2,j)作為計(jì)算依據(jù)。如果RN(s1,i)與RN(s2,j)之間有n個(gè)相同的詞項(xiàng),s1,i、s2,j之間的相似度則為n,即s1,i、s2,j之間的對(duì)比性Com(s1,i,s2,j)記為n。

2.3 對(duì)比話題摘要對(duì)的排序

在本文提出的算法中,選擇高代表性、高對(duì)比性的對(duì)比話題摘要對(duì)優(yōu)先顯示,所以將話題摘要對(duì)的代表性和對(duì)比性作為參考值進(jìn)行計(jì)算,并加入權(quán)值調(diào)整參數(shù)θ,θ的取值范圍值為[0,1],具體計(jì)算式為:

θ×(Rep(s1,i)×ρ2+Rep(s2,j)×ρ1)+(1-θ)×Com(s1,i,s2,j)

(3)

由于不同關(guān)鍵詞的搜索結(jié)果關(guān)注度不同,所以在式中引入關(guān)鍵詞平衡因子ρ1、ρ2,其中ρi為Si中所有話題集合的代表性之和比上S1、S2中所有話題集合的代表性之和。最后按照計(jì)算結(jié)果進(jìn)行排序,排序在前的對(duì)比話題摘要對(duì)中的話題集合將不會(huì)出現(xiàn)在后續(xù)的排序結(jié)果中,即每個(gè)話題集合至多匹配一個(gè)對(duì)比話題集合。

3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)所需的源數(shù)據(jù)采用北理工搜索挖掘?qū)嶒?yàn)室主任張華平博士提供的500萬微博語料,并使用全文檢索引擎工具Lucene為500萬微博語料建立索引,其中以開源的中文分詞工具包IKAnalyzer作為建立索引時(shí)的分詞工具。參數(shù)θt、θd、θb與趙斌等[10]在實(shí)驗(yàn)中的設(shè)置相同,三個(gè)參數(shù)均為0.8,參數(shù)θ則設(shè)置為0.75。停用詞過濾則通過ICTALAS挑選出代詞、介詞等缺乏含義的詞項(xiàng),并向停用詞庫添加例如“事”、“話”等高頻出現(xiàn)的干擾詞項(xiàng)。

3.1 評(píng)價(jià)標(biāo)準(zhǔn)

為評(píng)價(jià)微博消息話題劃分效果,將MTS算法與本文改進(jìn)后的MTS算法進(jìn)行對(duì)比。由于本文采用大規(guī)模語料集合,列舉話題摘要的所有相關(guān)文檔十分困難,所以僅考查話題集合的準(zhǔn)確率及可對(duì)比性,其中準(zhǔn)確率為話題集合中屬于該話題摘要的微博消息比例,可對(duì)比性為話題摘要的名詞性詞項(xiàng)數(shù)量。

為評(píng)價(jià)對(duì)比話題摘要生成算法的效果,將本文提出的算法與推特對(duì)比話題摘要算法進(jìn)行對(duì)比。在推特對(duì)比話題摘要的實(shí)驗(yàn)中,以實(shí)驗(yàn)結(jié)果的對(duì)比性與代表性作為最后的實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)。其中對(duì)比性以對(duì)比摘要的準(zhǔn)確率評(píng)價(jià),準(zhǔn)確率具體為對(duì)比摘要是否屬于對(duì)比話題的比例。代表性以對(duì)比摘要的覆蓋率評(píng)價(jià),覆蓋率具體為對(duì)比屬性占標(biāo)注的對(duì)比屬性的比例。

但是在具體實(shí)驗(yàn)中,由于實(shí)驗(yàn)數(shù)據(jù)量相比推特對(duì)比話題摘要的實(shí)驗(yàn)數(shù)據(jù)量較大,難以標(biāo)注所有對(duì)比話題的對(duì)比屬性,所以在本文的實(shí)驗(yàn)中,以覆蓋量表示對(duì)比摘要的代表性,其中覆蓋量為對(duì)比屬性的個(gè)數(shù)。

3.2 實(shí)驗(yàn)結(jié)果

在話題劃分效果的實(shí)驗(yàn)中,將“華為”作為搜索關(guān)鍵詞,以MTS算法與本文改進(jìn)后的MTS算法分別進(jìn)行劃分并生成摘要,按照式(2)計(jì)算得出的代表性將話題集合排序,選取代表性最大的前40個(gè)話題集合作為比較對(duì)象,并按照評(píng)價(jià)標(biāo)準(zhǔn)比較劃分效果,比較結(jié)果如表2所示。

表2 話題劃分效果對(duì)比

實(shí)驗(yàn)結(jié)果顯示,本文改進(jìn)后的MTS算法雖然提高了話題集合的可對(duì)比性,但是由于在劃分話題集合時(shí)加入了關(guān)鍵詞搜索結(jié)果中不含轉(zhuǎn)發(fā)關(guān)系的微博消息,使得文檔集合噪聲增加,導(dǎo)致相較MTS算法準(zhǔn)確率有所降低。

在對(duì)比話題摘要生成算法的實(shí)驗(yàn)中,具體以“諾基亞”與“華為”作為對(duì)比關(guān)鍵詞,將對(duì)比關(guān)鍵詞的搜索結(jié)果作為中文微博對(duì)比話題摘要的實(shí)驗(yàn)數(shù)據(jù)。采用本文提出的基于話題集合的中文微博對(duì)比話題摘要生成算法,得到的部分對(duì)比話題摘要如表3所示。

表3 生成的微博對(duì)比話題摘要

實(shí)驗(yàn)的比較對(duì)象為推特對(duì)比話題摘要算法所生成的結(jié)果,分別選取前5、10、15、20條結(jié)果進(jìn)行比較,其中準(zhǔn)確率的比較結(jié)果如圖1所示。

圖1 準(zhǔn)確率對(duì)比

覆蓋量的比較結(jié)果如圖2所示。

圖2 覆蓋量對(duì)比

實(shí)驗(yàn)結(jié)果顯示,本文提出的算法提高了對(duì)比話題摘要的覆蓋量,相較于推特對(duì)比話題摘要算法有更多的對(duì)比屬性。但是隨著選取實(shí)驗(yàn)結(jié)果的對(duì)比話題摘要個(gè)數(shù)增加,兩種算法的準(zhǔn)確率都有較大幅度的下降。

本文提出的算法以話題集合作為比較對(duì)象,相比于以微博消息進(jìn)行比較,每一個(gè)比較對(duì)象含有較多的話題相關(guān)屬性,擴(kuò)充了比較對(duì)象所含的信息量,因此增加了對(duì)比話題摘要的代表性。但是由于微博消息文本噪聲較大并且缺乏較好的對(duì)比性詞項(xiàng)詞庫,所以實(shí)驗(yàn)結(jié)果的準(zhǔn)確率有待提高。

4 結(jié) 語

本文提出了基于話題集合的中文微博對(duì)比話題摘要生成算法,相較于一般方法的主要不同之處在于生成對(duì)比話題摘要時(shí)的比較對(duì)象為話題集合。由于一個(gè)話題集合所包含的信息量比一條微博消息大很多,所以本文提出的算法有效地?cái)U(kuò)充了可對(duì)比的相關(guān)內(nèi)容,同時(shí)也證明了將微博劃分為話題集合進(jìn)行處理可以在一定程度上解決單條微博消息信息量不足的問題。

但是由于微博消息龐大的數(shù)量,其所需的計(jì)算時(shí)間也不容忽視。所以后續(xù)工作的主要內(nèi)容是研究對(duì)比話題摘要的索引建立問題,加快對(duì)比話題摘要的生成速度,為微博消息建立高效索引。

[1]KimHD,ZhaiC.GeneratingComparativeSummariesofContradictoryOpinionsinText[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:385-394.

[2]HuangX,WanX,XiaoJ.ComparativeNewsSummarizationUsingLinearProgramming[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies:ShortPapers.Stroudsburg:AssociationforComputationalLinguistics,2011,2:648-653.

[3]WangD,ZhuS,LiT,etal.ComparativeDocumentSummarizationviaDiscriminativeSentenceSelection[C]//Proceedingsofthe18thACMConferenceonInformationandKnowledgeManagement.NewYork:ACM,2009:1963-1966.

[4]LermanK,McDonaldR.ContrastiveSummarization:AnExperimentwithConsumerReviews[C]//ProceedingsofHumanLanguageTechnologies:The2009AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2009:113-116.

[5]WanX,JiaH,HuangS,etal.SummarizingtheDifferencesinMultilingualNews[C]//Proceedingsofthe34thInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork:ACM,2011:735-744.

[6] 黃小江,萬小軍,肖建國(guó).基于協(xié)同圖排序的對(duì)比新聞自動(dòng)摘要[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013,49(1):31-38.

[7]ShenC,LiT.Multi-documentSummarizationviatheMinimumDominatingSet[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg:AssociationforComputationalLinguistics,2010:984-992.

[8]ChitraP,BaskaranR,SarukesiK.Querysensitivecomparativesummarizationofsearchresultusingconceptbasedsegmentation[J].ComputerScience&Engineering:AnInternationalJournal,2011,1(5):31-43.

[9] 段亞娟.微博搜索的關(guān)鍵技術(shù)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2014.

[10] 趙斌,吉根林,徐偉,等.基于拓?fù)浣Y(jié)構(gòu)的微博話題摘要生成算法[J].數(shù)據(jù)采集與處理,2014,29(5):720-729.

CHINESE MICRO-BLOG COMPARATIVE TOPIC SUMMARIZATION BASED ON TOPIC SET

Zhang Xu

(CollegeofComputerandCommunication,LanzhouUniversityofTechnology,Lanzhou730050,Gansu,China)

Nowadays, micro-blog has received wide attention as a popular platform for information exchange, and the research on micro-blog search results reorganization has also become a hot spot. In this research field, micro-blog comparative topic summarization is a relatively new way of search results reorganization. Different from the comparative topic summarization based on messages, Chinese micro-blog comparative topic summarization generates summaries by comparing the topic sets instead of messages. The experimental results show that the method based on topic sets improves the shortcoming of insufficient information in single message and obtains an increase in the representativeness of comparative topic summaries.

Micro-blog Topic sets Comparative topic summaries

2015-09-17。張旭,碩士生,主研領(lǐng)域:智能信息處理。

TP391

A

10.3969/j.issn.1000-386x.2017.01.011

猜你喜歡
詞項(xiàng)代表性消息
國(guó)家級(jí)非遺項(xiàng)目代表性傳承人簡(jiǎn)介
漳州市非物質(zhì)文化遺產(chǎn)代表性項(xiàng)目代表性傳承人名錄
閩臺(tái)地區(qū)代表性道地藥材
一張圖看5G消息
自然種類詞項(xiàng)二難、卡茨解決與二維框架
非遺代表性傳承人
——勉沖·羅布斯達(dá)
消息
消息
消息
英語詞項(xiàng)搭配范圍及可預(yù)見度
喀喇沁旗| 定陶县| 剑阁县| 大冶市| 高台县| 驻马店市| 沂南县| 彭山县| 县级市| 平舆县| 通渭县| 泗阳县| 宿迁市| 广宗县| 昌邑市| 左云县| 金堂县| 梁平县| 玉溪市| 阿鲁科尔沁旗| 平昌县| 道孚县| 常宁市| 沙洋县| 南丹县| 连平县| 内乡县| 榆社县| 定日县| 广德县| 鄂托克旗| 镇安县| 凤阳县| 永宁县| 临澧县| 香港| 红安县| 太仆寺旗| 三明市| 九江市| 灌阳县|