国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多重增強圖和主題分析的社交短文本檢索方法

2018-05-04 06:46:27劉德喜付淇韋亞雄萬常選劉喜平鐘敏娟邱家洪
中文信息學報 2018年3期
關鍵詞:分值短文排序

劉德喜,付淇,韋亞雄,萬常選,劉喜平,鐘敏娟,邱家洪

(1. 江西財經(jīng)大學 信息管理學院,江西 南昌 330013;2. 江西財經(jīng)大學 數(shù)據(jù)與知識工程江西省高校重點實驗室,江西 南昌 330013;3. 江西科技師范大學,江西 南昌 330013)

0 引言

“短文本”(又稱消息或post)存在于以Twitter、微信、微博等為代表的社會網(wǎng)絡平臺上,內容和形式豐富,包括發(fā)表評論、抒發(fā)心情、分享趣事、好友互動等,極大地擴展了人們獲取信息的渠道,增強了普通民眾的參與感,受到用戶青睞。同時,社會網(wǎng)絡中用戶的行為特點和語言特點,使得存在于社會網(wǎng)絡平臺中的短文本不同于普通文本或網(wǎng)頁。短文本之間存在轉發(fā)、評論、回復等關系,短文本作者之間存在“Friends/Followers”或“朋友圈”等關系,短文本通過鏈接與Web頁面之間存在鏈接關系。本文統(tǒng)稱這些關系為短文本的“社會關系”[1],稱來自社會網(wǎng)絡平臺的有“社會關系”的短文本數(shù)據(jù)為“社交短文本”數(shù)據(jù)。

社交短文本數(shù)據(jù)中除了存在社會關系外,文本短、主題分散等特點也給社交短文本的檢索和利用帶來巨大挑戰(zhàn)。Twitter要求每篇tweet在140個字符以內、新浪微博要求每篇博文不超過140個漢字。與傳統(tǒng)長文本或網(wǎng)頁不同的是,大部分的詞語在短文本中僅出現(xiàn)一次,這就造成無法通過詞頻(TF)來區(qū)分詞語的重要程度;另外,逆文檔頻率(IDF)高的詞項可能來自于錯誤或不規(guī)范的拼寫,這在社會網(wǎng)絡平臺中非常常見。因此,數(shù)據(jù)的稀疏和不規(guī)范的拼寫導致傳統(tǒng)基于TF-IDF的檢索模型不能直接用在社交短文本檢索中。

普通民眾參與是社會網(wǎng)絡的一大特點,用戶關注的焦點不同、視角不同,使得社會網(wǎng)絡上產(chǎn)生了數(shù)量龐大的主題,這使得社交短文本檢索結果的組織和呈現(xiàn)面臨巨大挑戰(zhàn)。目前新浪等社會網(wǎng)絡平臺通常是將短文本檢索結果簡單地按照短文本發(fā)布的時間倒排,效果不甚理想。本文的主要工作是對傳統(tǒng)檢索模型在社交短文本數(shù)據(jù)上的檢索結果進行主題識別、利用社會關系再排序、過濾重復信息等,使得檢索結果更合理、可讀性更強,并且減少用戶閱讀社交短文本的負擔,提高用戶從社會網(wǎng)絡中獲取信息的效率。

本文的主要貢獻包括: (1)采用多重增強圖算法對檢索結果再排序,以提升檢索效果。多重增強圖算法主要通過作者、短文本、詞匯三個層面來建模社交短文本及其內容,并充分利用社交短文本中的社會關系來分析各層面中節(jié)點的重要性。(2)實驗對比了三種常用的文本與查詢之間相似度計算方法,包括余弦相似度、LDA主題模型及JS距離,實驗證明多重增強圖算法對NDCG指標的提高有很明顯的效果。

論文的結構安排如下: 引言部分,介紹“社交短文本”的概念及特點;相關研究概述了近幾年社交短文本的研究現(xiàn)狀和相關成果;第2節(jié)介紹基于多重增強圖的社交短文本檢索方法SSTR,包括數(shù)據(jù)預處理、主題分析、初步檢索、基于多重增強圖的社交短文本優(yōu)化排序、檢索結果自動摘要五個步驟;第3節(jié)介紹實驗數(shù)據(jù)、實驗內容、實驗結果及分析,驗證SSTR方法的有效性;最后在第4節(jié)進行總結。

1 相關研究

社交短文本檢索的相關研究近年來得到了專家學者的廣泛關注,特別是TREC中引入了Micro-blog任務并公布數(shù)據(jù)后[2-7]。除了將傳統(tǒng)信息檢索模型推廣到短文本數(shù)據(jù)上以外,還有大量的研究工作集中在抽取或概括原始文檔(集)中的重要或有代表性的內容,以提高信息訪問的效率,為用戶節(jié)省時間和資源。目前這類工作采用的方法可以歸納為基于統(tǒng)計特征、基于圖、基于特征和圖融合、基于事件抽取等四類方法。

統(tǒng)計特征通常作為判斷一篇短文本重要性的依據(jù)。文獻[8]借助語言模型(其實質是統(tǒng)計特征)分析tweets中的話題,并根據(jù)話題將短文本合并、分組,類似于聚類,然后從各個類中選擇一條具有代表性的短文本返回給用戶。文獻[9]基于詞頻特征判斷短文本中概念的重要性,并采用線性規(guī)劃策略使得短文本檢索結果在有限的長度中包含更全面且更重要的概念。文獻[10]認為短文本tweets中使用的詞或短語是與某主題相關的,并且流行的主題會得到更多的轉發(fā),以此來判斷短文本中詞或短語的重要性。在構建以用戶提交的查詢詞為根、以詞在tweets中的位置關系為邊的樹后,以樹中詞的重要性為基礎,返回權重較大的路徑(或tweets)。除上述提到的統(tǒng)計特征外,其他被利用的統(tǒng)計特征還有混合TF-IDF[11]、消息或短文本的頻率特征[12]、詞頻分布特征[13]、時間特征[14]、話題特征[15]、短文檔中的超級鏈接、內容的規(guī)范性[9]以及短文本作者的行為特征等[16]。

基于圖的方法是以社交短文本中的句子、詞項、短文本作者等對象為節(jié)點,以其社會關系為邊,構建圖并分析圖中節(jié)點的權重。文獻[17]采用PageRank方法,同時結合關鍵詞和主題分析對短文本進行排序。文獻[18]針對Twitter短文本,采用了增強圖算法??紤]了短文本、文本作者、詞語三者之間相互的關系以及三者內部的關系,利用類似PageRank的迭代方式考察它們的重要性。

基于特征和圖融合的方法是在基于特征考察短文本內容重要性或代表性的基礎上,利用圖中節(jié)點(短文本)之間的關系,將重要性或代表性在節(jié)點之間傳播、迭代。例如,文獻[19]運用基于特征的方法設置圖中邊的權重,這些特征包括: 短文本之間的相似性、短文本的可讀性、作者的粉絲數(shù)以及短文本被轉發(fā)的次數(shù)等。

基于事件抽取的方法是以事件為線索,從社交短文本中抽取能還原事件發(fā)展動態(tài)的信息并合理地組織。文獻[20]以來自多個不同微博平臺中與某個相同事件相關的短文本數(shù)據(jù)為對象,利用事件抽取技術,分析事件的結構,結合用戶行為模式分析,對短文本打分。文獻[21]針對體育賽事相關的Twitter短文本具有較強結構性的特點,采用隱馬爾科夫模型對事件建模,抽取短文本作為事件的摘要。文獻[22]分析社會網(wǎng)絡FlickrGroups中的活動,挖掘包括時間、地點、人物、行為等在內的事件信息。文獻[13]首先檢測Twitter中的子事件,然后再選擇短文本。

社交短文本里隱藏著豐富的主題,一些熱門主題往往蘊含了大量有用的信息,而這些主題兼具分散性、多樣性的特點。因此,社交短文本的主題分析結果有利于提高檢索模型的性能。關于短文本主題分析的相關研究工作比較豐富,但將主題分析方法運用于社交短文本檢索或自動摘要的工作相對較少[23]。

社交短文本主題分析的相關工作中,除了利用主題標簽和模板分析話題外,LDA模型及其多種擴展是近年來比較流行的基于概率的主題模型。在針對網(wǎng)絡論壇的突發(fā)話題研究中,文獻[24]采用一種頻譜劃分的方法對時間序列進行分析來發(fā)現(xiàn)突發(fā)特征,通過衡量時間序列相似性和文本內容重疊性的無監(jiān)督學習算法發(fā)現(xiàn)突發(fā)話題。該算法在實現(xiàn)突發(fā)話題檢測的同時還可以發(fā)現(xiàn)與話題相關聯(lián)的用戶社區(qū)。文獻[25]提出了基于LDA的微博主題生成模型MB-LDA,綜合考慮了微博的作者關聯(lián)關系和文本關聯(lián)關系,來輔助進行微博的主題挖掘。文獻[26]設計的TwitterMonitor系統(tǒng)通過話題檢測方法,分析tweets流中的話題趨勢。文獻[27]提出的Twitter-LDA模型采用蘊含作者社會關系的作者主題模型和傳統(tǒng)LDA模型相結合的方法,取得了較好的表現(xiàn)。

在對社交短文本檢索或自動摘要時,短文本作者的影響力、短文本的質量等因素也是影響短文本排序或內容選擇的重要因素。有研究表明,可信的用戶有可能發(fā)布信息質量高的短文本,而發(fā)布高質量短文本的用戶可能有更好的影響力[28]。目前對于短文本內容的代表性或重要性的判斷,除了考察短文本的特征外,有研究者還借助于外部資源,如用戶評論、社會標簽、用戶上下文[29]、社區(qū)信息[30]、社會網(wǎng)絡等??紤]到社會網(wǎng)絡平臺中的短文本通過鏈接與Web頁面關聯(lián),文獻[31]在對Web頁面自動摘要時,同時對Web頁面的內容和短文本的內容統(tǒng)一建模,將二者內容置于同一框架中,其基本思想是短文本的內容有助于Web頁面中關鍵句子的選擇。類似地,Pasoi等人設計的Summify*http: //summify.com/系統(tǒng)是通過用戶在社會網(wǎng)絡平臺上發(fā)布的短文本來分析社會網(wǎng)絡用戶的興趣,并依據(jù)用戶興趣對Web頁面或站點的內容做自動摘要,為Facebook和Twitter用戶提供個性化信息服務。

本文所采用的多重增強圖算法框架是受文獻[18]的啟發(fā)。文獻[18]提出一個基于時間軸的tweets短文本自動摘要框架,他們將話題按照時間先后及短文本中的主題標簽(hashtag)劃分成子話題,并根據(jù)短文本的重要程度、質量和多樣性對各子話題中的短文本排序,并抽取短文本生成摘要。本文與文獻[18]不同之處在于以下四個方面: (1)任務不同: 盡管都要考察短文本的重要性,但文獻[18]主要是對具有相同或相似主題的社交短文本數(shù)據(jù)做自動摘要,本文則主要是從社交短文本數(shù)據(jù)中檢索與用戶查詢相關的信息;(2)選擇的數(shù)據(jù)集不同: 文獻[18]通過Twitter API獲得的2010年9月至2012年4月1.27億條包含地震關鍵詞的tweets,本文使用的數(shù)據(jù)集和查詢主題是TREC 2011 Micoblog任務提供的 Tweets數(shù)據(jù),數(shù)據(jù)集的不同導致多重增強圖算法框架中數(shù)據(jù)的預處理及具體的計算方法有較大的不同;(3)核心內容之一的短文本相似度計算方法不同: 文獻[18]中短文本的相似度直接用余弦相似度方法,但考慮到社交短文本的特點,本文采用基于主題分析結果的相似度計算方法;(4)實驗評測不同: 文獻[18]采用自動摘要的評測指標ROUGE,主要評測自動摘要質量,本文采用評測指標NDCG,主要用于評測檢索結果的質量。另外,文獻[18]對比兩個經(jīng)典的基于圖的模型,短語圖模型(the phrase graph )和LexRank 模型,而本文重點考察了不同的重排序方法,特別是基于主題模型的相似度計算在重排序中的作用。

2 基于多重增強圖的社交短文本檢索方法SSTR

2.1 問題定義

對于社交短文本數(shù)據(jù)集C=,D={d1,d2, …,dN}表示N篇短文本組成的短文本集合,U={u1,u2, …,uM}表示M個作者組成的短文本作者集合,R是作者與短文本之間的關系集合,其中ri,j表示短文本di是由作者uj發(fā)表的。本文對社交短文本檢索的定義是,給定用戶查詢q和社交短文本數(shù)據(jù)集C,在C中檢索與查詢q相關的短文本集合,并按其相關度排序,最后生成摘要。

基于多重增強圖的社交短文本檢索方法SSTR(socialized short text retrieval)包括數(shù)據(jù)預處理、主題分析、初步檢索、檢索結果重排序、檢索結果自動摘要五個模塊。其中主題分析是利用LDA主題模型表示文本,進而實現(xiàn)短文本相似度計算;初步檢索采用檢索平臺Indri實現(xiàn),主要功能包括構建索引和實現(xiàn)查詢;重排序是采用多重增強圖算法對初步檢索結果重新排序,以便取得更好的排序效果;檢索結果自動摘要是選取那些與查詢密切相關且冗余程度較小的文本展現(xiàn)給用戶。最后展現(xiàn)給用戶的是主題全面、與查詢相關度高且有較好代表性的結果,以此來提高用戶在社會網(wǎng)絡平臺上檢索的效率。社交短文本檢索系統(tǒng)SSTR的框架如圖1所示。

圖1 SSTR框架

2.2 數(shù)據(jù)預處理

預處理工作包括數(shù)據(jù)過濾、去除停用詞、去重、詞條化等工作。數(shù)據(jù)過濾包括: (1)去除非英文的短文本(SSTR系統(tǒng)目前只針對英文數(shù)據(jù));(2)去除詞語個數(shù)不超過三個的過短的短文本;(3)去除只含特殊符號不含有其他詞語的短文本。文本去重主要是去除文檔集合中相似度極高的文本。由于文檔集合中文本數(shù)量眾多,采用常用的文本相似度計算方法難以完成,本文采用了Simhash*http: //my.oschina.net/leejun2005/blog/ 150086相似度計算方法。

2.3 主題分析

由于社交短文本內容短,傳統(tǒng)的向量空間模型中詞頻TF的影響幾乎無效,而微博中各種自創(chuàng)的、錯誤的拼寫使得那些并不是核心內容的詞卻有著很高的IDF值。因此,傳統(tǒng)向量空間模型中的TF-IDF不適合短文本的相似度計算。相對于TF-IDF文本表示模型,主題模型不再單純地利用本文檔中的詞頻信息來表示文本并進行文本相似度計算,而是在整個文檔集合上分析各個文檔的主題分布,挖掘文本中潛在的語義信息,直接映射至內部隱含主題,過濾噪聲等干擾信息,因此有助于緩解文檔短給相似度計算帶來的挑戰(zhàn)。

本文采用Python第三方庫Gensim*http: //radimrehurek.com/gensim/來實現(xiàn)文本LDA主題模型分析。在得到文檔屬于各個主題的概率分布后,采用兩個文檔概率分布p1和p2之間的KL(Kullback-Leibler divergence)距離計算文檔間的相似程度。由于KL距離不滿足對稱性,本文使用其對稱版本,如式(1)所示。

σλ(p1,p2)=λσKL(p1,λp1+(1-λ)p2)

+(1-λ)σKL(p2,λp1+(1-λ)p2)

(1)

當λ=1/2時,公式(1)轉變?yōu)镴S距離,如式(2)所示。

σjs(p1,p2)=

(2)

2.4 基于多重增強圖的社交短文本優(yōu)化排序

多重增強圖算法受文獻[18]的啟發(fā),主要從三個不同層面分析影響社交短文本排序的因素,包括: 作者層面(描述短文本作者之間的社會關系)、短文本層面(描述短文本之間的相似、轉發(fā)等關系)、詞匯層面(描述短文本中詞匯之間的關系)。各個層面內部相互影響,三個層面之間相互作用。圖2是三個層面分析示意圖。

圖2 三個層面分析示意圖

作者層面。作者之間的相互關注、互動交流體現(xiàn)了作者之間有多種社會關系,且權威作者發(fā)表的短文本、使用的詞語往往具有更好的代表性。

詞匯層面。與長文本分析類似,去除停用詞后仍然頻繁出現(xiàn)在短文本中的詞是重要的,但由于短文本內容短小,使用的詞語在140字之內,詞語重要性的衡量不再僅僅依靠詞頻,同時還考慮詞語的文檔頻率、詞語之間存在的關聯(lián)性、詞語所在的短文本特征以及使用該詞語的作者特性等。

短文本層面。主要是衡量短文本間的關系和短文本的重要性。短文本的特征包括其作者、詞語構成、主題、短文本之間的轉發(fā)、回復、評論關系等。通常,由重要或權威的作者發(fā)表的短文本也是重要或權威的,是值得推薦給用戶閱讀的。其次,重要的短文本應該包含豐富的信息,而這些信息最直接的表達就是詞語,重要的短文本應當含有能表達事件或主題的關鍵性詞語。同時重要的短文本作為信息傳播的重要載體或者重要節(jié)點,應當在內容上有代表性,即它與其他短文本具有一定的相似性。

通過上述分析可以發(fā)現(xiàn),三個層面以社交短文本中所蘊含的社會信息為紐帶,相互聯(lián)系,相互影響。因此,多重增強圖算法分別對作者、短文本、詞匯建模,并進行三者間迭代運算,直到最終結果穩(wěn)定,利用作者、短文本、詞匯的各自得分衡量它們的重要性。

一篇短文本的分值受到文本間相似度、文本中的詞語、文本質量、短文本的作者四個因素的影響: 短文本與其他短文本的相似度越高,說明該短文本的中心地位越高,給用戶呈現(xiàn)的信息越有代表性;短文本包含的詞越重要,則短文本的分值越高;短文本質量越高,其分值越高;短文本的作者越權威,該短文本的分值越高。如式(3)所示。

(3)

其中Q(di)表示短文本di的質量,D則表示短文本集。對于社交短文本質量的評價,通常采用基于機器學習的方法,從文本的可讀性和內容的豐富性等多個方面考察。由于人工標注工作量過大,本文將視文本質量為統(tǒng)一的定值。Sim(di,dj)表示兩文本的相似度,其中R[di] 表示與di相連的短文本集合。本文采用公式(2)中的JS距離計算文本主題相似度。Score(w)表示詞語的得分,Score(ui)表示作者的得分。α1、β1、γ1分別表示短文本層、詞匯層和作者層的權重,θ1與(1-θ1)表示短文內容和質量的權重,c表示迭代的次數(shù)。

作者的分值受到四個因素的影響,包括作者使用的詞語、作者發(fā)布的短文本、作者的社會關系、作者影響力。作者發(fā)布的文本中詞的分值越高,說明作者發(fā)布的內容質量越高,相應地作者的分值也越高;作者發(fā)布了分值越高的短文本,則作者的分值越高;作者的粉絲分值越高,說明該作者越權威,其分值應該越高;作者的影響力越大,其分值會越高。如式(4)所示。

(4)

其中Dui表示由作者ui發(fā)布的所有短文本,w則表示作者使用過的詞語,F(xiàn)lu(ui)表示作者影響力(uD表示短文本集D中所有作者),F(xiàn)ans[ui]表示作者ui的粉絲集合。作者影響力可以采用基于機器學習的方法獲得,可用的特征包括作者的粉絲數(shù)量、關注數(shù)量、被評論數(shù)量、被轉發(fā)數(shù)量等,但由于本文采用了TREC Microblog任務的數(shù)據(jù)集,作者權威性的特征無法獲取,所以本文將作者的權威度設為統(tǒng)一定值。而關注與被關注的粉絲關系,本文是通過提取短文本中的轉發(fā)和“@”關系來構建的。式(4)中的α2、β2、γ2分別表示短文本層、詞匯層和作者層的權重,θ2與(1-θ2)表示作者影響力與粉絲的權重。

一個詞語的分值與詞語的文檔頻率、詞語所在的短文本、使用該詞語的作者、與其他詞語的共現(xiàn)情況四個因素相關。類似于TF-IDF,逆文檔頻率越高,詞語的分值越高;短文本分值越高,其中用到的詞的分值則越高;詞語所在短文本的作者分值越高,該詞語的分值也越高;與其他詞共現(xiàn)越頻繁(停用詞已去除),說明該詞在表示檢索結果內容時代表性越強,分值應該越高。如式(5)所示。

(5)

其中Dwi表示含有詞語wi的短文本集合,Score(d)表示該詞語所在的短文本d的分值,df(wi)表示詞語的文檔頻率,con(wi)表示與詞語wi共同出現(xiàn)的詞語集合,Uwi表示所有使用詞語wi的作者的集合,Score(u)表示使用該詞語的作者的分值。公式(4)中的α3、β3、γ3分別表示短文本層、詞匯層和作者層的權重,θ3與(1-θ3)表示詞本身的信息含量(用逆文檔頻率表示)和詞對檢索結果的代表性(與其他詞共現(xiàn)情況,本文基于FP樹來計算)兩者各自的權重。

類似于PageRank,給定初始值后,根據(jù)式(3)~(5),迭代多次,計算短文本、作者、詞語的得分,直到收斂,并根據(jù)短文本最后的分值進行重排序。

2.5 檢索結果自動摘要

社交短文本集合經(jīng)過排序后,采用MMR(maximal marginal relevance)算法去除重復的信息。該算法的主要思想是選取那些與查詢相關性大,同時與其他文本相似度小的文本作為最終的摘要結果。如式(6)所示。

(6)

其中D和S分別表示文本集和已被選取作為摘要內容的文本集合,Sim(di,q)表示文本與查詢的相似度,dj∈S表示已被選取作為摘要的文本,Sim(di,dj)表示兩文本間的相似度,λ為權重系數(shù)。MMR算法在選取作為摘要的文本時,首先計算文本與查詢的相似度Sim(di,q),并計算文本與已經(jīng)被選取作為摘要的所有文本的相似度,選取其中最大值Sim(di,dj),然后計算Sim(di,q)和Sim(di,dj)之間的差值,最終選取差值最大的文本加入摘要集合。

3 實驗測評

3.1 實驗數(shù)據(jù)與參數(shù)設置

實驗數(shù)據(jù)采用TREC 2011 Microblog任務提供的tweets數(shù)據(jù),經(jīng)過Simhash去重后tweets數(shù)量約600萬條,并使用這些tweets數(shù)據(jù)集訓練LDA模型,主題數(shù)設置為200。實驗所用查詢同樣來自TREC 2011 Microblog任務提供的50個查詢,本文選取其中五個查詢,相對于其他查詢,這些查詢初始檢索結果較多。選擇初始檢索結果較多的原因在于,本文的主要目的是對檢索結果進行重排,并且為減輕用戶閱讀負擔而對檢索結果進行自動摘要。因此,本文提出的方法不太適用于初始檢索結果較少的情況。由于本文選擇的查詢主題數(shù)量有限,限制了參數(shù)的優(yōu)化(可能會出現(xiàn)過擬合)。參數(shù)設置的主要依據(jù)如下:

在計算短文本的分值時,由于是面向信息檢索的,因此認為短文本層的影響最大,詞匯層次之,作者層對短文本分值的影響最小,所以表示短文本層、詞匯層和作者層權重的三個參數(shù)α1、β1、γ1按4∶2∶1的比例來設置,分別為4/7、2/7和1/7。由于詞匯層介于作者層和短文本層之間,起到鏈接二者的作用,因此在計算詞的得分時,認為詞匯層的權重最大,短文本層和作者層次之,但二者權重相同,α2、β2、γ2按1∶2∶1的比例設置為0.25、0.5和0.25。計算作者權重時,認為作者層的權重最大,詞匯層次之,文本層最小,α3、β3、γ3按1∶2∶4的比例設置為1/7、2/7和4/7。

由于式(3)中的文本質量和式(4)中作者的影響力本文都未做進一步分析,式(5)中詞的信息含量也簡單地采用文檔頻率,所以為了減少該部分的影響,式(3)、式(4)和式(5)中的θ1、θ2、θ3都設置為0.85。由于面向用戶查詢,在檢索結果中需要強調查詢與短文本的相似性,因此式(6)中的λ設置為0.9。

3.2 實驗內容

本實驗設計了四個系統(tǒng)進行對比。

(1) Indri: 在Indri檢索系統(tǒng)中,完成查詢的初步檢索,并對初步檢索結果進行人工評價,以對比分析重排序的效果。本系統(tǒng)評價了前20條結果的效果。

(2) reRank-COS: 在Indri檢索系統(tǒng)中得到初步檢索結果后,將初步檢索結果和查詢用TF-IDF向量表示,計算檢索結果和查詢的余弦相似度,并按相似度大小對檢索結果重新排序,并評價排序效果。

(3) reRank-LDA: 在Indri檢索系統(tǒng)得到初步檢索結果后,將初步檢索結果和查詢都用LDA主題模型表示,計算檢索結果與查詢的JS距離,并按距離大小對檢索結果重新排序,并評價排序效果。

(4) reRank-SSTR: 在Indri檢索系統(tǒng)得到初步檢索結果后,使用社交短文本排序算法對檢索結果重新排序,并評價排序效果。排序算法中tweets間相似度計算方法是采用LDA主題模型表示文本,以JS距離衡量文本相似性。

實驗中采用NDCG指標進行評測,檢索并計算Top20的NDCG值,并得出文本評價等級。將實驗中短文本的分值劃分為五個等級:

① 等級4(最高): 語義清晰,含有較豐富相關信息;

② 等級3: 語義清晰,含有一定相關信息;

③ 等級2: 語義不清晰,但可以獲取一定信息;

④ 等級1: 與主題的關系不能確定;

⑤ 等級0: 確定與主題無關。

3.3 實驗結果及分析

實驗中分別以MB004: Mexico drug war、MB009 Toyota recall、MB022 healthcare law unconstitutional、MB036 Moscow airport bombing、MB039 egyptian curfew為查詢,得到查詢結果,并比較四種算法在各位置處的NDCG值,如圖3所示。

比較各組實驗結果發(fā)現(xiàn):

(1) 使用多重增強圖算法,能夠較好地提升檢索效果,因為多重增強圖算法綜合考慮了詞、文本、作者等多方面因素。對于tweets文本而言,多重增強圖傾向選擇較長的tweets文本、同時傾向于那些使用高頻詞(除停用詞外)的tweets(主要是在tweets作者重要性以及tweet文本質量區(qū)別不是很明顯的情況下)。

(2) 單獨采用LDA主題模型和TF-IDF模型來表示文本,利用查詢與tweets相似度值的高低作為重排序的依據(jù),反而沒有開源搜索引擎Indri獲得的原始結果好。這說明SSTR的多重增強圖對短文本的重排序起到了有益的幫助。

圖3 不同查詢上SSTR方法(multi_enhance_rank)與其他方法的性能對比(橫坐標為返回的短文本數(shù)量,縱坐標為NDCG值)

(3) 對比采用LDA主題模型和TF-IDF模型兩種表示文本的方法發(fā)現(xiàn),在文本集主題較為集中時,采用LDA主題模型和TF-IDF模型表示文本得到的效果相近,而在主題較為分散的文本集合中,采用LDA主題模型比采用TF-IDF模型表示文本得到的效果要好,這是由于LDA主題模型可以挖掘tweets文本中的潛在語義信息,可以發(fā)現(xiàn)那些采用不同詞語描述的具有相同或相近語義信息的tweets。

為了進一步考察SSTR如何受初始檢索結果的影響,實驗中分別將多個查詢詞之間用“and”和“or”連接關系作為查詢,進行初始檢索。檢索詞之間采用“and”連接進行初步檢索時,返回的初始檢索結果通常數(shù)量較少,召回率較低,對于個別主題,通常沒有檢索結果返回,但檢索結果的精度比較高。這種情況下,多重增強圖算法相對于其他算法在多數(shù)主題上都有較好的表現(xiàn)。檢索詞之間采用“or”連接進行初步檢索時可以返回較多的結果,通過SSTR對“or”連接的初始檢查結果進行重排和去重,結果發(fā)現(xiàn)SSTR沒能有效地改善初始檢索結果的重排序效果。因此,可以認為SSTR的表現(xiàn)與初始檢索結果的精度有關,初始檢索結果精度越高,SSTR的表現(xiàn)也越好。這一結論是比較直觀的,如果初始檢索結果中不相關短文本太多,通過多重增強圖計算的高分值的短文本就會偏離查詢主題。

4 結論

本文提出了一個基于多重增強圖的社交短文本檢索方法SSTR,利用多重增強圖算法對Indri系統(tǒng)的檢索結果實現(xiàn)再排序優(yōu)化。SSTR充分考慮社交短文本中蘊含的文本、作者、詞語三個不同層面上不同因素間的關系,通過多次迭代運算,最終尋求多個層面間相互關系所處的穩(wěn)定狀態(tài),以便取得更好的檢索效果。SSTR利用LDA主題模型表示文本并實現(xiàn)相似度計算,克服文本短帶來的影響。為了減輕閱讀負擔,本文對檢索結果進行自動摘要,選取那些與查詢密切相關且冗余程度較小的短文本返回給用戶。實驗結果表明,基于多重增強圖算法的SSTR與Indri、reRank-COS和reRank-LDA相比排序的效果更好,SSTR最后展現(xiàn)給用戶的是主題較全面、與用戶查詢相關度更高且更有代表性的結果。此外,根據(jù)論文的分析,如果考慮短文本的質量和短文本作者的權威度,SSTR得到的重排效果會有所提升,這將是我們下一步的工作。

另外,采用TREC 2011 Microblog的檢索任務,查詢主題和數(shù)據(jù)都有權威性和代表性。然而實驗中發(fā)現(xiàn),TREC 2011 Microblog給定的50個查詢主題中,很多查詢返回的結果(tweets數(shù)量)比較少,對之進行重排意義不大。因此本文從中選擇了返回結果數(shù)量較多的查詢主題,以考察所提出的模型在這種情況下的效果,這導致整個工作使用的查詢主題過少。主觀地再增加一些新的查詢主題,則相關文本(tweets)集合的獲取沒有權威性。因此,利用其他數(shù)據(jù)集上更多的查詢主題驗證本文的模型,也是我們正在著手的工作之一。同時,當查詢主題豐富時,本文所提出的模型中的參數(shù)也有了進一步優(yōu)化的可能,相信優(yōu)化后的參數(shù)能進一步改善模型的效果。

[1] 劉德喜, 萬常選. 社會化短文本自動摘要研究綜述[J]. 小型微型計算機系統(tǒng), 2013, 34(12): 2764-2771.

[2] Christophe Van Gysel, Evangelos Kanoulas, Maarten de Rijke. Lexical query modeling in session search [C]//Proceedings of the 2016 ACM International Conference on the Theory of Information Retrieval, ACM, 2016: 69-72.

[3] Ben Carterette, Paul Clough, Mark Hall, et al. Evaluating retrieval over sessions: The TREC session track 2011—2014 [C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM. 2016: 685-688.

[4] 韓中元, 楊沐昀, 孔蕾蕾, 等. 基于詞匯時間分布的微博查詢擴展[J]. 計算機學報, 2016, 39(10): 2031-2044.

[5] 衛(wèi)冰潔, 王斌. 面向微博搜索的時間感知的混合語言模型[J]. 計算機學報, 2014, 37(1): 229-237.

[6] 王書鑫, 衛(wèi)冰潔, 魯驍, 等. 面向微博搜索的時間敏感的排序學習方法[J]. 中文信息學報, 2015, 29(4): 175-182.

[7] 衛(wèi)冰潔, 史亮, 王斌. 一種融合聚類和時間信息的微博排序新方法[J]. 中文信息學報, 2015, 29(3): 177-189.

[8] Brendan O’Connor, Michel Krieger, DavidAhn. Tweetmotif: Exploratory search and topic summarization for Twitter [C]//Proceedings of the 4th International Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 384-385.

[9] Fei Liu, Yang Liu, Fuliang Weng. Why is “SXSW” trending?: Exploring multiple text sources for Twitter topic Summarization [C]//Proceedings of the ACL 2011 Workshop on Languages in Social Media. Portland, Oregon, USA, 2011: 66-75.

[10] Beaux Sharifi, Mark-Anthony Hutton, Jugal Kalita. Summarizing microblogs automatically [C]//Proceedings of the 2010 Conference of the North American Chapter of the Association for Computational Linguistics-Human Language Technologies, 2010: 685-688.

[11] Kevin Dela Rosa, Rushin Shah, Bo Lin, et al. Topical clustering of Tweets [C]//Proceedings of the ACM SIGIR 3rd Workshop on Social Web Search and Mining, 2011.

[12] Karen Shiells, Omar Alonso, Ho John Lee. Generating document summaries from user annotations [C]//Proceedings of the 3rd Workshop on Exploiting Semantic Annotations in Information Retrieval, 2010: 25-26.

[13] Arkaitz Zubiaga, Damiano Spina, Enrique Amig′o, et al. Towards real-time summarization of scheduled events from Twitter streams [C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media, Milwaukee, WI, USA, 2012: 319-320.

[14] Hiroya Takamura, Hikaru Yokono, Manabu Okumura. Summarizing a document stream [C]//Proceedings of the 2011 European Conference on Information Retrieval,2011: 177-188.

[15] Rui Long, Haofen Wang, Yuqiang Chen, et al. Towards effective event detection, tracking and summarization on microblog data [C]//Proceedings of the 12th International Conference on Web-Age Information Management. Wuhan, China, 2011: 652-663.

[16] Sanda Harabagiu, Andrew Hickl. Relevance modeling for microblog summarization [C]//Proceedings of the 5th International Conference on Weblogs and Social Media. Barcelona, Catalonia, Spain, 2011: 514-517.

[17] WayneXin Zhao, Jing Jiang, Yang Song, et al. Topical keyphrase extraction from Twitte[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 379-388.

[18] Yajuan Duan, Zhumin Chen, Furu Wei, et al. Twitter topic summarization by ranking Tweets using social influence and content quality [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 763-780.

[19] Xiaohua Liu, Yitong Li, Furu Wei, et al. Graph-based multi-tweet summarization using social signals [C]//Proceedings of the 24th International Conference on Computational Linguistics, 2012: 1699-1714.

[20] Sanda Harabagiu, Andrew Hickl. Relevance modeling for micmblog summarization [C]//Proceedings of International Conference on Weblogs and Social Media, 2011: 514-517.

[21] Deepayan Chakrabarti, Kunal Punera. Event summarization using Tweets [C]//Proceedings of International Conference on Weblogs and Social Media, 2011, 66-73.

[22] Yu-ru Lin, Hari Sundaram, Aisling Kelliher. Summarization of large scale social network activity [C]//Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 2009: 3481-3484.

[23] William M Darling,Fei Song. Probabilistic document modeling for syntax removal in text summarization [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011: 642-647.

[24] 陳友, 程學旗, 楊森. 面向網(wǎng)絡論壇的突發(fā)話題發(fā)現(xiàn)[J]. 中文信息學報, 2010, 24(3): 29-36.

[25] 張晨逸, 孫建伶, 丁軼群. 基于MB-LDA模型的微博主題挖掘[J]. 計算機研究與發(fā)展, 2011, 48(10): 1795-1802.

[26] Michael Mathioudakis, Nick Koudas. TwitterMonitor: Trend detection over the Twitter stream [C]//Proceeding of the Special Interest Group on Management of Data, 2010: 1155-1158.

[27] Eytan Bakshy, Jake M Hofman, Winter A Mason, et al. Everyone’s an influencer: Quantifying influence on Twitter [C]//Proceeding of the 4th International Conference on Web Search and Web Data Mining, 2011: 65-74.

[28] Hongzhao Huang, Arkaitz Zubiaga, Heng Ji. Tweet ranking based on heterogeneous networks [C]//Proceeding of the 24th International Conference on Computational Linguistics, 2012: 1239-1256.

[29] Po Hu, Donghong Ji, Cheng Sun, et al. Improving document summarization by incorporating social contextual information [C]//Proceeding of the Asia Conference on Information Retrieval Technology, 2011: 499-508.

[31] Zhen Yang,Kefeng Fan, Yingxu Lai, et al. Short texts classification through reference document expansion [J]. Chinese Journal of Electronics, 2014, 23(2): 315-321.

猜你喜歡
分值短文排序
一起來看看交通違法記分分值有什么變化
工會博覽(2022年8期)2022-06-30 12:19:30
排序不等式
恐怖排序
節(jié)日排序
KEYS
Keys
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
宿遷城鎮(zhèn)居民醫(yī)保按病種分值結算初探
病種分值結算模式下的醫(yī)療監(jiān)管之實踐與啟示
短文改錯
蒙山县| 综艺| 乌兰察布市| 会泽县| 博白县| 长兴县| 循化| 祁东县| 射阳县| 广西| 云霄县| 凤山市| 靖安县| 贵港市| 伊宁市| 桦川县| 汝州市| 盐边县| 九龙坡区| 曲阳县| 巴林左旗| 庄河市| 彰化市| 九龙县| 泰和县| 铜鼓县| 塘沽区| 宣汉县| 利津县| 南宫市| 洪雅县| 长岭县| 大竹县| 娱乐| 集贤县| 邻水| 英超| 北川| 水富县| 西充县| 海口市|