閆 蓉,高光來
內蒙古大學 計算機學院,呼和浩特 010021
利用主題內容排序的偽相關反饋*
閆 蓉+,高光來
內蒙古大學 計算機學院,呼和浩特 010021
傳統(tǒng)的偽相關反饋(pseudo relevance feedback,PRF)方法,將文檔作為基本抽取單元進行查詢擴展,抽取粒度過大造成擴展源中噪音量的增加。研究利用主題分析技術來減輕擴展源的低質量現(xiàn)象。通過獲取隱藏在偽相關文檔集(pseudo-relevant set)各文檔內容中的語義信息,并從中提取與用戶查詢相關的抽象主題內容作為基本抽取單元用于查詢擴展。在NTCIR 8中文語料上,與傳統(tǒng)PRF方法和基于主題模型的PRF方法相比較,實驗結果表明該方法可以抽取出更符合用戶查詢的擴展詞。此外,結果顯示從更小的主題內容粒度出發(fā)進行查詢擴展,可以有效提升檢索性能。
主題模型;主題內容;偽相關反饋
查詢擴展(query expansion,QE)技術[1]可以有效彌補用戶查詢信息不足造成的用戶表達問題,通過在用戶初始查詢中增加與其語義相近詞項的方式,將用戶初始查詢中未充分表達的內容展示出來。QE按照是否考慮初檢結果文檔集,分為全局和局部兩種技術。在局部QE技術中,按照是否考慮初檢結果文檔集中與用戶查詢真正相關的文檔,又可以分為相關反饋(relevance feedback,RF)和偽相關反饋(pseudo relevance feedback,PRF)兩種方法。RF方法利用與用戶查詢真相關文檔對用戶查詢進行重構。然而,這種方法要求用戶將初檢結果標注為相關或不相關,這在用戶的真實檢索過程中是很難實現(xiàn)的。相反,PRF方法[2]是一種與用戶行為無關、簡單有效的自動QE方法,其簡單假設初檢(first-pass)結果集中前k個文檔與用戶初始查詢相關,構成偽相關文檔集(pseudo-relevant set),并從中按照某種方式自動地抽取擴展詞,然后將擴展詞加入到初始查詢中,優(yōu)化初始查詢后進行二次檢索(second-pass)。影響PRF檢索性能的直接和主要因素是偽相關文檔集中的文檔質量。PRF方法研究中有大量的工作,都是圍繞如何提高偽相關文檔集文檔質量的,其本質就是如何提升擴展源質量。目前,相關研究[3-7]主要集中在對從詞項空間(term space)[3-4]和主題空間(topic space)[5-7]中獲取的統(tǒng)計信息提出的各種相關方法。這些研究工作中,大多數(shù)的工作都致力于找到一種有效二值判別方法,其主要策略是將偽相關文檔集中的文檔,利用判別方法區(qū)分為與用戶查詢相關和不相關,然后從判別為相關的文檔中提取擴展詞來重構用戶初始查詢,達到提高檢索性能的目的。但以上這些方法均是以文檔作為整體來判別其是否與用戶查詢相關,即將文檔作為擴展詞選取單元。顯然,片面地將文檔作為待區(qū)分單元,直接標定為與用戶查詢相關或不相關是不合適的,不能保證擴展源質量,增加了噪音量,導致“主題漂移”(topic drift)現(xiàn)象出現(xiàn)。本文認為,將文檔作為擴展源的抽取基本單元過于簡單和粗糙,不利于擴展詞的選取。本文嘗試從更細微的粒度——文檔內容本身出發(fā),不再以文檔作為判別基本單元,利用主題分析技術,構建文檔主題內容排序框架,將在主題空間抽象表示的文檔內容作為待區(qū)分單元,將判別為與用戶查詢相關的文檔內容作為擴展源。
PRF算法假設簡單,實現(xiàn)機制通俗,是一種有效的提高檢索系統(tǒng)整體性能的方法[3-7]。然而,傳統(tǒng)的PRF方法并不是針對所有查詢都有效,某些查詢經(jīng)過反饋處理后,檢索效果反而會很差[8-9],這也是制約PRF方法不能在實際檢索中應用的根本原因。為了提高PRF檢索的魯棒性,研究者們提出了很多解決方法和策略[9-12]。文獻[9]提出了一種帶有約束的優(yōu)化方法,用于降低反饋行為帶來的負面影響;文獻[10]提出利用EM算法減少PRF模型對于反饋文檔數(shù)量的敏感性;文獻[11]利用多種反饋模型提出一種啟發(fā)式的非監(jiān)督方法;文獻[12]綜合幾種偽反饋方法,研究如何既保證PRF的魯棒性,同時又兼顧整體性能有效性的方法。
但上述諸方法研究和擴展處理的對象,均是以文檔作為基本處理單元和粒度,未從更細微的文檔內容本身考慮與用戶查詢的相關性,會直接導致主題偏移現(xiàn)象,影響檢索性能。
近年來,潛在主題模型[13]這種主題分析(topic analysis)技術被用于文本內容的分析處理。文獻[7]嘗試通過對整個偽相關文檔集上建立與用戶查詢相關的主題模型TopicRF,抽取與用戶查詢相關的主題信息,來提高PRF的檢索性能。但其本質上還是以文檔作為擴展源單元。
本文的研究工作也并沒有直接區(qū)分偽相關文檔集中各文檔的相關性。但與文獻[7]工作不同的是,本文所關注的偽相關文檔集質量是文本本身內容的質量。本文認為在偽相關文檔集中包含的若干主題中,只有部分是與用戶查詢相關聯(lián),對反饋行為有效。在對用戶實際查詢需求不明確的情況下,在偽相關文檔集中,如何利用多樣化思想,彰顯文檔中與用戶查詢相關的那部分主題內容來進行擴展詞的選取,就是本文關注的核心和重點。具體實現(xiàn)可以描述為:首先對整個文檔數(shù)據(jù)集建立主題空間,然后對偽相關文檔集中每個文檔進行主題分析,從淺層語義角度出發(fā),充分挖掘這些文檔內容中與用戶信息需求相關的潛在語義信息,突顯刻畫主題特性的描述詞,并從中抽取擴展詞實施偽反饋。
3.1 主題內容排序
概率主題模型(probabilistic topic model,PTM)是一種利用貝葉斯方法,通過構造詞項-主題-文檔三層結構,對數(shù)據(jù)進行抽象建模的方法。通過引入主題變量(latent topic)概念,將數(shù)據(jù)集中共同隱含的信息描述出來。本質上,對數(shù)據(jù)集進行主題建模其實就是構建合適的文檔語義描述空間。假設對有M個文檔,存在V個不同詞項(keyword)的數(shù)據(jù)集進行主題建模,每個文檔會被表示成K個主題變量的概率分布(topic distribution),記為θ∈RM×K,每一個θj,i表示第j個文檔中主題i所占比重,它是從文檔角度獲得的語義信息。同時,主題變量被表示成各詞項的概率分布(word distribution),記為Φ∈RK×V,每一個?i,m表示在主題i中生成第m個詞項的概率值,它是從數(shù)據(jù)集角度獲得的語義信息。通常,上述兩種語義信息可以認為是數(shù)據(jù)集的特征信息,這些特征信息不僅包含豐富的語義,而且還具有很強的區(qū)分性[14]。但面對結構復雜多樣和信息量巨大的Web信息資源時,這兩個分布獲得的過程抽象,最終結果也抽象,用戶很難理解數(shù)據(jù)集的主題分析結果。另外,常常會發(fā)生同一詞項在多個主題中出現(xiàn)的情況,各主題并不是孤立的存在,這會進一步增加用戶理解主題結果的負擔。因此在實際應用中,為了有效利用數(shù)據(jù)集的主題建模結果的特征區(qū)分特性,非常有必要對主題建模結果進行排序。通常意義下,對主題建模結果的排序,即是對主題內容的排序。一般的,主題內容排序[15]的方式有兩種,包括主題分布中的詞項排序和主題分布排序。
Cao等人[16]研究表明,PRF選取的擴展詞數(shù)目并不是越多越好,過多的擴展詞反而會降低檢索性能;文獻[17]分別對8個不同的檢索系統(tǒng),針對查詢擴展中詞項數(shù)目的選擇進行了詳細實驗,其結果表明,針對主題對象來選擇擴展詞項將有助于提升檢索的性能。本文提出的PRF方法,目的是通過淺層語義信息來改善反饋擴展詞質量,提高查詢效率。因此,本文對于偽相關文檔集中文檔的主題內容排序,主要完成以下三方面工作:
(1)文檔主題分布中的詞項排序。實現(xiàn)用突顯刻畫主題特征的特征詞項來表示主題。
(2)文檔的主題分布排序。按照與用戶查詢的相關程度,將各個主題進行排序,實現(xiàn)用有限有效主題表達文檔,使得這些主題中的特征詞項可以分別具有將主題之間相互區(qū)別和文檔之間相互區(qū)別的特性。
(3)從文檔內容的主題表達結果中,針對判別為用戶查詢相關的內容,抽取擴展詞項進行二次反饋。
下面將分別對這三方面工作進行詳細闡述。
3.2 文檔主題分布中的詞項排序
對數(shù)據(jù)集進行主題建模得到的詞項-主題分布Φ中的各詞項,已經(jīng)按照其對所描述主題的概率值大小進行排列,但概率排列分布與各詞項對于描述其所在特定主題語義的貢獻分布描述是不一致的[18]。文獻[15]為了使文檔的Φ分布表達更易于理解,提出類似TF-IDF(term frequency-inverse documentation frequency)方法,計算每個詞項描述特定主題的權重(weight),來重新衡量描述主題中各詞項的重要程度。文獻[14]提出用詞項顯著度(term significance)來定義主題與文檔中包含的各詞項分布間的距離,用于特定領域的主題推薦和自動文摘。盡管這些方法計算權重的角度不同,但其目的都是將每個主題描述為有限有效詞項,即將描述Φ分布中那些對主題語義描述差或貢獻度低的詞項過濾掉。本文沿用文獻[15]計算各詞項權重的方法,將描述主題含義的各個詞項,按照計算得到的詞項權重值進行排序,并依此排序結果,過濾掉那些使得主題間語義區(qū)分度小的詞項,獲得更能描述主題的有限詞項組成的集合。各詞項權重值的計算如式(1)[15]所示:
其中,wi表示主題 j(j∈[1,K])中第i個詞項,i∈[1,V]。
本文采用標準的主題建模方式LDA(latent Dirichlet allocation)[13]對數(shù)據(jù)集建模。LDA假設主題變量服從Dirichlet分布,即主題之間是相互獨立的。但事實上,利用LDA對文本建模的結果,存在同一詞項同時出現(xiàn)在多個不同主題分布中的情況,這使得詞項信息不能很好地完成刻畫主題特征的任務,即影響主題間的差異性。本文關注的是如何利用主題信息來區(qū)分文本內容與用戶查詢的相關性,保持詞項信息對主題內容刻畫的互異性,也就是保證在主題數(shù)目確定的情形下,不降低LDA表示數(shù)據(jù)的能力。這里對式(1)做了適當?shù)淖冃?,如式?)所示:
通過上述方法,實現(xiàn)了用突顯刻畫主題特征的特征詞項來表示主題的目的,文中將有限詞項集記為keyword_set。
3.3 文檔的主題分布排序
由于主題建模過程中的“詞袋”假設,即不考慮詞項在文檔中的出現(xiàn)順序,主題間的差異僅限于各詞項對其描述的概率值大小的差異,主題之間并沒有明顯的區(qū)分特性。要從主題分析的角度,將偽相關文檔集的主題內容區(qū)分為與用戶查詢相關或不相關,就有必要對其中的文檔主題分布進行區(qū)分。在給定用戶查詢的情況下,按照與用戶查詢相關程度,將無序的文檔-主題分布按照其與用戶查詢的相關程度進行排序標定。由于主題信息已經(jīng)被表示為有限詞項集,那么用戶查詢與文檔主題分布中各主題之間的相關程度,就可以利用用戶查詢與表征主題信息的詞項集的相關程度來衡量,可以分別通過式(4)和式(5)得到:
其中,Q表示用戶查詢,記為Q={qw1,qw2,…,qwn},由n個不同詞項qwi組成。Rel(Q,j)表示用戶查詢Q與主題 j的相關程度。給定包含有M個文檔的文檔集C,有V個不同的詞C={d1,d2,…,dM},每個文檔di由Ni個不同的詞項構成di={w1,w2,…,wNi},wi表示文檔di中第i個詞。假設文檔集C存在K個主題,主題j(j∈[1,K])的描述詞集 keyword_setj={wtj1,wtj2,…,wtjl}由l個不同詞項wtji組成,i∈[1,l],θi,j表示文檔di在主題j上的概率分布。SR(wi,wj)表示兩個詞語wi和wj之間的語義相關度[19]。Rank(di,j)表示文檔di的文檔-主題分布中主題j與用戶查詢的相關程度。本文對詞語間語義相關度計算方法SR(w1,w2),由于篇幅關系不再贅述,詳細信息參閱文獻[19]。
文檔的主題分布排序算法描述如下:
算法1 Topic_distribution_ranking
輸入:(1)用戶查詢Q和文檔集C中所有文檔di的K個無序主題的描述詞集keyword_setj,j∈[1,K];(2)文檔-主題分布θ。
輸出:所有文檔di的K個有序主題分布。
步驟1對Q進行預處理;
步驟2利用式(4),計算Q中各詞項和每個主題j的描述詞集keyword_setj中各詞項的語義相關度;
步驟3利用式(5)計算文檔di的主題分布中各主題 j與Q之間的相關度,并按相關度大小對各主題進行排序。
3.4 基于主題內容排序的偽相關反饋
另外,相對于其他產(chǎn)業(yè),體育產(chǎn)業(yè)具有較強的靈活性。結合當?shù)厣鐣幕h(huán)境對體育產(chǎn)業(yè)進行相應的調整和改進,有助于突出當?shù)禺a(chǎn)業(yè)發(fā)展的特色。
綜上所述,基于主題內容排序的偽相關反饋方法實現(xiàn)過程如圖1所示。
Fig.1 Procedure of PRF based on topic content ranking圖1 基于主題內容排序的PRF過程
本文對于描述文檔di的特征主題集中各主題的抽取,采取設定閾值η的方式來進行。若文檔di中主題 j的Rank(di,j)值超過閾值η,則認為該主題是與用戶查詢是相關的,將該主題設定為topic_setdi集合中的元素。反之,則認為該主題與用戶查詢是不相關的。文檔di擴展詞集expan_setdi的獲取,是通過將topic_setdi中各主題的特征詞項集keyword_setj進行集合的合并操作完成的。特別的,在對文檔主題分布中的詞項排序過程中,本文利用式(2)通過重新計算每個詞項對其描述主題的權重大小,可以在一定程度上減少同一詞項在不同主題中出現(xiàn)的情況,或是增加同一詞項在不同主題中出現(xiàn)的特異性,即同一詞項在主題描述中的概率值差別顯著。但事實上,LDA建模的本質及語言描述文本的特殊性,決定了不同主題的描述詞項信息一定會出現(xiàn)交集,因此在特征詞項合并過程中,當出現(xiàn)有詞項重復的狀況時,實驗中會將該詞項在expan_setdi中僅保留一次,并設置其權重值為合并前的最大權重值。同樣,初檢集合的擴展詞集expan_set的獲取,是將排序靠前的各文檔的擴展詞集expan_setdi中的詞項進行集合的合并操作完成的。
4.1 實驗設置
(1)實驗數(shù)據(jù)集及預處理
實驗的數(shù)據(jù)集包括文本集和查詢集(均為簡體中文)兩部分。其中,文本數(shù)據(jù)集是Xinhua語料,共包含308 845個文檔,涉及多種主題2002年至2005年4年的新聞語料,最長的文檔長度為1 824,最短的文檔長度為4。查詢集為ACLIA2-CS-0001~ACLIA2-CS-0100,共100個查詢。在檢索過程中,本文將查詢中的主題描述作為用戶查詢。利用Lemur(http:// www.lemurproject.org)工具對文本數(shù)據(jù)集建立索引和進行查詢操作。實驗中,由于采用的是中文語料,首先對建立索引的文本數(shù)據(jù)集和查詢集都進行了預處理,包括分詞和去停用詞。主題建模過程中,對文本數(shù)據(jù)集還進行了去除低頻詞操作。
(2)實驗參數(shù)設置
初檢的相關度排序方法選用一元語言模型LM(language model)方法。實驗中統(tǒng)一采用Dirichlet平滑方法,設置固定平滑參數(shù)為1 000,設定初檢結果集中選取top-50個結果作為偽相關文檔集。主題建模過程中,采用吉布斯采樣(Gibbs sampling)[20]來實現(xiàn)模型估計和求解。設定每個主題返回NT=30個詞項信息,Gibbs采樣的迭代次數(shù)設定為100次。文檔di主題集topic_setdi中各特征主題的抽取實現(xiàn)中,設定閾值η為0.18,實驗效果最好。文獻[17]研究表明,擴展詞個數(shù)設定為10~20時,效果最佳。實驗中統(tǒng)一設定固定值 feedbackTermCount=20。
因為用戶在檢索過程中主要關注排名靠前的檢索結果,所以實驗中主要從查詢準確率角度進行評價。分別采用前n個結果的查準率Precision@n和平均查準率MAP(mean average precision)來衡量。
4.2 實驗結果與分析
表1列出了部分主題初始建模的部分詞項集合和重新計算詞項權重后的部分詞項集合。
從表1中可以看出,通過對詞項-主題分布中的各詞項按照其權重值進行重新排序,不僅做到了主題內容的進一步壓縮和抽象,同時降低了那些對主題內容區(qū)分能力描述弱的詞項的重要程度,使得描述主題的各詞項的重要程度差別更加明顯,從而主題間區(qū)別更加明顯。
為了實現(xiàn)用淺層語義指導檢索過程,本文設計并實現(xiàn)了如下實驗,并對實驗結果進行了分析。
首先,將本文方法(OurMethod)與基本的基于主題的PRF方法(LDA)進行比較,兩種方法Precision-Recal(l精度-召回率)對比分析結果如圖2所示。
從圖2中可以看出,本文方法好于基于主題的PRF方法檢索性能,說明對文本內容進行主題分析,將有助于提高檢索性能。
其次,將本文方法與未進行主題內容排序的基本PRF方法進行比較,表2給出了偽相關文檔集數(shù)量為50和100時的檢索結果,其中No_Trank和Trank分別表示沒有進行主題內容排序的PRF方法和進行主題內容排序的PRF方法。
從表2的結果中可以看出,選取那些豐富的、能表達語義的主題中的詞項集信息作為擴展詞,要比直接從偽相關文檔集中選取單個的詞項信息作為擴展詞,可以進一步地提升檢索性能,而且隨著偽相關文檔集中文檔數(shù)目的增加,MAP值增加明顯,MAP(100)比MAP(50)增加14.9%。分析其原因,在于隨著偽相關文檔集中文檔數(shù)目的增加,抽取出相關主題內容的可能性也增加了,其中包含了更多能夠體現(xiàn)用戶查詢需求中未能體現(xiàn)的上下文語義信息。
最后,為了進一步驗證本文方法的科學性,考察將PRF抽取基本單元由文檔轉變到文檔內容粒度是否真實有效,設計了如下實驗。將本文方法與傳統(tǒng)的偽反饋方法——TF-IDF和BM25進行比較,3種方法的Precision-Recal(l精度-召回率)對比分析結果如圖3所示。
Table1 Example of effective word sets in Topic 1 and Topic 4表1 Topic 1和Topic 4中部分有效詞項集合
Fig.2 Precision-Recall curve of two methods圖2 兩種方法的Precision-Recall曲線圖
Table 2 Comparison of retrieval performance表2 檢索評價指標對比
Fig.3 Precision-Recall curve of 3 methods圖3 3種方法的Precision-Recall曲線圖
從圖3中可以看出,與兩種傳統(tǒng)PRF方法比較,本文方法可以更有效地提高檢索性能,說明了本文方法的有效性。
主題模型是用來抽象地表示無標記文本的一種無監(jiān)督建模方法。為了保證PRF的魯棒性,本文提出了一種基于淺層語義的自動查詢擴展方法。實驗結果表明,這種將文檔內容作為擴展詞抽取的方法是切實可行的。但是隨著文本數(shù)據(jù)集規(guī)模的增大,主題建模之后的主題數(shù)目會進一步增加,通過主題學習到的特征描述知識就更為抽象,如何利用這些越來越抽象的主題特征,使其更適合描述用戶初始查詢意圖,將是進一步工作的方向。
[1]Arguello J,Elsas J L,Callan J,et al.Document representation and query expansion models for blog recommendation [C]//Proceedings of the 2nd International Conference on Weblogs and Social Media,Seattle,USA,Mar 30-Apr 2, 2008.Menlo Park,USA:AAAI,2008:11-18.
[2]Xu Jinxi,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,Aug 18-22,1996.New York:ACM,1996:4-11.
[3]He Ben,Ounis I.Finding good feedback documents[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6, 2009.New York:ACM,2009:2011-2014.
[4]Parapar J,Presedo-Quindimil M A,Barreiro á.Score distributions for pseudo relevance feedback[J].Information Sciences,2014,273:171-181.
[5]Yi Xing,Allan J.Evaluating topic models for information retrieval[C]//Proceedings of the 17th ACM Conference on Information and Knowledge Management,Napa Valley, USA,Oct 26-30,2008.New York:ACM,2008:1431-1432.
[6]Huang Shu,Zhao Qiankun,Mitra P,et al.Hierarchical location and topic based query expansion[C]//Proceedings of the 23rd National Conference onArtificial Intelligence,Chicago,USA,Jul 13-17,2008.Menlo Park,USA:AAAI,2008, 2:1150-1155.
[7]Zheng Ye,Huang Xiangji,Lin Hongfei.Finding a good queryrelated topic for boosting pseudo-relevance feedback[J]. Journal of the American Society for Information Science and Technology,2011,62(4):748-760.
[8]Harman D,Buckley C.The NRRC reliable information access(RIA)workshop[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Sheffield,UK,Jul 25-29,2004.New York:ACM,2004:528-529.
[9]Collins-Thompson K.Reducing the risk of query expansion via robust constrained optimization[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009.New York: ACM,2009:837-846.
[10]Tao Tao,Zhai Chenxiang.Regularized estimation of mixture models for robust pseudo-relevance feedback[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Seattle,USA,Aug 6-11,2006.NewYork:ACM,2006: 162-169.
[11]Soskin N,Kurland O,Domshlak C.Navigating in the dark: modeling uncertainty in ad hoc retrieval using multiple relevance models[C]//Proceedings of the 2nd International Conference on Theory of Information Retrieval:Advances in Information Retrieval Theory,Cambridge,UK,Sep 10-12,2009. Berlin,Heidelberg:Springer,2009:79-91.
[12]Lv Yuanhua,Zhai Chengxiang,Chen Wan.A boosting approach to improving pseudo-relevance feedback[C]//Proceedings of the 2011 ACM International Conference on Research and Development in Information Retrieval,Beijing, China,Jul 24-28,2011.New York:ACM,2011:165-174.
[13]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J]. Journal of Machine Learning Research,2003,3:993-1022.
[14]Xiao Zhibo.Research on ranking topic models and their applications[D].Dalian:Dalian Maritime University,2014.
[15]Song Yangqiu,Pan Shimei,Liu Shixia,et al.Topic and keyword re-ranking for LDA-based topic modeling[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6,2009. New York:ACM,2009:1757-1760.
[16]Cao Guihong,Nie Jianyun,Gao Jianfeng,et al.Selecting good expansion terms for pseudo-relevance feedback[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM, 2008:243-250.
[17]Ogilvie P,Voorhees E,Callan J.On the number of terms used in automatic query expansion[J].Information Retrieval, 2009,12(6):666-679.
[18]Xia Yunqing,Tang Nan,Hussain A,et al.Discriminative biterm topic model for headline-based social news clustering [C]//Proceedings of the 28th International Flairs Artificial Intelligence Research Society Conference,Hollywood,USA, May 18-20,2015.Menlo Park,USA:AAAI,2015:311-316.
[19]Yan Rong,Gao Guanglai.Word sense disambiguation based on word semantic relevancy computation[J].Computer Engineering andApplications,2012,48(27):109-113.
[20]Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States ofAmerica,2004,101(S1):5228-5235.
附中文參考文獻:
[14]肖智博.排序主題模型及其應用研究[D].大連:大連海事大學,2014.
[19]閆蓉,高光來.面向詞義消歧的詞語相關度計算[J].計算機工程與應用,2012,48(27):109-113.
YAN Rong was born in 1979.She is a Ph.D.candidate and lecturer at College of Computer Science,Inner Mongolia University.Her research interests include natural language processing and information retrieval.
閆蓉(1979—),女,內蒙古鄂爾多斯人,內蒙古大學計算機學院講師、博士研究生,主要研究領域為自然語言處理,信息檢索。
GAO Guanglai was born in 1964.He is a professor and Ph.D.supervisor at Inner Mongolia University.His research interest is intelligent information processing.
高光來(1964—),男,內蒙古扎賚特旗人,內蒙古大學教授、博士生導師,主要研究領域為智能信息處理。
Using Topic Content Ranking for Pseudo Relevance Feedback*
YAN Rong+,GAO Guanglai
College of Computer Science,Inner Mongolia University,Hohhot 010021,China
+Corresponding author:E-mail:csyanr@imu.edu.cn
YAN Rong,GAO Guanglai.Using topic content ranking for pseudo relevance feedback.Journal of Frontiers of Computer Science and Technology,2017,11(5):814-821.
Traditional pseudo relevance feedback(PRF)algorithms use the document as a unit to extract words for query expansion,which will increase the noise of expansion source due to the larger extraction unit.This paper exploits the topic analysis techniques so as to alleviate the low quality of expansion source condition.Obtain semantic information hidden in the content of each document of pseudo-relevant set,and extract the abstract topic content information according to the relevance of the user query,which is described as a basic extraction unit to be used for query expansion.Compared with the traditional PRF algorithms and the PRF based on topic model algorithm,the experimental results on NTCIR 8 dataset show that the scheme in this paper can effectively extract more appropriate expansion terms.In addition,the results also show that the scheme in this paper has a positive impact to improve the retrieval performance on a smaller topic content granularity level.
topic model;topic content;pseudo relevance feedback(PRF)
10.3778/j.issn.1673-9418.1603068
A
TP391.3
*The National Natural Science Foundation of China under Grant No.61263037(國家自然科學基金);the Natural Science Foundation of Inner Mongolia under Grant Nos.2014BS0604,2014MS0603(內蒙古自然科學基金).
Received 2016-02,Accepted 2016-04.
CNKI網(wǎng)絡優(yōu)先出版:2016-04-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160401.1614.014.html