廖亞男,王明文,左家莉,吳根秀,甘麗新
(1. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2. 江西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,江西 南昌 330022;3. 江西科技師范大學(xué),江西 南昌 330038)
基于多層Markov網(wǎng)絡(luò)的信息檢索模型
廖亞男1,王明文1,左家莉1,吳根秀2,甘麗新3
(1. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022;2. 江西師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,江西 南昌 330022;3. 江西科技師范大學(xué),江西 南昌 330038)
隨著信息檢索技術(shù)的不斷發(fā)展,挖掘更加有效的信息來提高檢索精度成為研究熱點(diǎn),已有的研究表明在檢索過程中有效地融合各種信息將得到更好的檢索效果。對(duì)一個(gè)具體查詢而言,可以充分利用與已有查詢的相關(guān)性、詞語相關(guān)性和文檔相關(guān)性等信息進(jìn)行查詢擴(kuò)展和重構(gòu)?;谶@種思路,該文分別構(gòu)造查詢網(wǎng)絡(luò)、詞網(wǎng)絡(luò)和文檔網(wǎng)絡(luò),提出了多層Markov網(wǎng)絡(luò)的信息檢索模型,模型可以融合詞間關(guān)系、文檔間關(guān)系和查詢間關(guān)系,為了有效降低計(jì)算量,給出了基于團(tuán)計(jì)算模型。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明該文的模型能夠有效融合三類信息,并較大幅度地提高檢索效果。
信息檢索;多層Markov網(wǎng)絡(luò);查詢擴(kuò)展;團(tuán)
信息檢索的核心的問題是如何從海量信息中快速地檢索出與用戶需求相關(guān)的內(nèi)容。Fox E A, Nunn G L[1]等提出并證明把有效的附加信息融合至信息檢索中將產(chǎn)生更好的檢索效果。查詢擴(kuò)展就是利用附加信息的方法來提高檢索效果,為了改善信息檢索中的召回率,這種方法將初始查詢句增加新的關(guān)鍵字來重構(gòu)查詢,使查詢包含更多的有效信息,從而找出更多的相關(guān)文檔。
查詢擴(kuò)展的方法有很多種[2-4],除了人工查詢擴(kuò)展,即由用戶自己人工修正查詢以外,還有相關(guān)反饋的查詢擴(kuò)展,基于人工詞典資源如WordNet,HowNet等相關(guān)語義詞表的查詢擴(kuò)展[5]以及利用圖形網(wǎng)絡(luò)模型的查詢擴(kuò)展。左家莉等提出一種基于Markov網(wǎng)絡(luò)的信息檢索擴(kuò)展模型[6],該模型通過對(duì)文檔集的學(xué)習(xí),構(gòu)造了關(guān)于索引項(xiàng)和文檔的Markov網(wǎng)絡(luò),將有利于檢索的信息加入到檢索中,從而改善檢索結(jié)果。但是該工作只提取了詞與詞和文檔與文檔的一層關(guān)系,沒有考慮他們之間的多層關(guān)系。盛俊等提出潛在語義的Markov網(wǎng)絡(luò)檢索模型[7],通過對(duì)文檔集的學(xué)習(xí),詞之間和文檔之間的潛在語義被提取出來,從而構(gòu)造出Markov知識(shí)網(wǎng)絡(luò),然后利用Markov網(wǎng)絡(luò)學(xué)習(xí)到的潛在語義信息進(jìn)行檢索。甘麗新等提出了一種基于Markov概念的信息檢索模型[8],使用團(tuán)的提取算法為每個(gè)查詢?cè)诰W(wǎng)絡(luò)中提取最相關(guān)的擴(kuò)展詞進(jìn)行查詢擴(kuò)展,該模型取得了良好的檢索效果。但是該工作沒有考慮文檔間和查詢間的相似度。付劍波等提出基于團(tuán)模型的文檔重排算法研究[9],此模型通過對(duì)文檔集的學(xué)習(xí),構(gòu)造文檔與文檔關(guān)系的Markov網(wǎng)絡(luò),提取出文檔團(tuán),應(yīng)用文檔團(tuán)信息進(jìn)行文檔重排,但是該工作沒有將文檔團(tuán)信息用于查詢擴(kuò)展中。
對(duì)一個(gè)具體查詢而言,可以充分利用與已有查詢的相關(guān)性、詞語相關(guān)性和文檔相關(guān)性等信息進(jìn)行查詢擴(kuò)展和重構(gòu)?;谶@種思路,本文在前述工作基礎(chǔ)上,提出了基于多層Markov網(wǎng)絡(luò)的信息檢索模型,首先通過計(jì)算詞與詞之間的相關(guān)性、文檔與文檔之間的相關(guān)性來構(gòu)造詞網(wǎng)絡(luò)和文檔網(wǎng)絡(luò),接著用基于團(tuán)的Markov網(wǎng)絡(luò)信息檢索模型[8]得出的檢索結(jié)果,即數(shù)據(jù)集中反饋出的每個(gè)查詢所對(duì)應(yīng)的一些相關(guān)文檔,由這些文檔計(jì)算出查詢之間的相關(guān)性,從而構(gòu)造出查詢網(wǎng)絡(luò)。然后對(duì)這三個(gè)網(wǎng)絡(luò)空間分別做團(tuán)的提取,最后將詞團(tuán)、文檔團(tuán)和查詢團(tuán)這三種關(guān)系結(jié)合在一起,重新計(jì)算文檔與查詢之間的相關(guān)概率即條件概率,從而提高檢索性能。在本文的實(shí)驗(yàn)中將我們的模型與一些經(jīng)典的模型進(jìn)行比較,結(jié)果表明本文的模型檢索性能更優(yōu)。
2.1 Markov網(wǎng)絡(luò)的描述
Markov網(wǎng)絡(luò)是一種不確定性推理的有利圖形工具[10],可以較好地表示知識(shí)關(guān)聯(lián),我們可以從實(shí)例數(shù)據(jù)來訓(xùn)練獲得Markov網(wǎng)絡(luò)。由于Markov網(wǎng)絡(luò)具有強(qiáng)大的學(xué)習(xí)功能,不需要構(gòu)造邊的方向,因此構(gòu)造Markov網(wǎng)絡(luò)比發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)容易得多。用Markov網(wǎng)絡(luò)中的無向邊來解釋信息檢索中的語義關(guān)系更加直觀恰當(dāng)。Markov網(wǎng)絡(luò)可以表示為一個(gè)二元組(V,E),V為所有節(jié)點(diǎn)的集合,E為一組無向邊的集合,E={(xi,xj)|xi≠xj∧xi,xj∈V},E中的邊表示節(jié)點(diǎn)之間的相關(guān)關(guān)系。如圖1所示,通過詞項(xiàng)間相關(guān)性得出的Markov網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)詞為一個(gè)節(jié)點(diǎn),連接兩節(jié)點(diǎn)的邊表示兩節(jié)點(diǎn)間的關(guān)系,用權(quán)重表示其相關(guān)性。當(dāng)查詢?yōu)椤疤O果筆記本”時(shí),分別找到“蘋果”的相關(guān)詞“MacBook”、“電腦”、“香蕉”和“水果”,而“筆記本”的相關(guān)詞又有“文具”、“電腦”等,可以發(fā)現(xiàn)“香蕉”、“水果”和“文具”這些詞對(duì)于查詢“蘋果筆記本”基本上是沒有關(guān)系的,如果直接把這些相關(guān)詞全部作為擴(kuò)展詞加入檢索中,勢(shì)必會(huì)降低結(jié)果的準(zhǔn)確率。因此本文選取與查詢關(guān)鍵字形成最大團(tuán)結(jié)構(gòu)的相關(guān)詞如“MacBook”和“電腦”為查詢擴(kuò)展詞,從而達(dá)到語義比較集中。在本文中,分別以查詢、詞項(xiàng)和文檔作為節(jié)點(diǎn),計(jì)算查詢間相關(guān)性、詞項(xiàng)間相關(guān)性和文檔間相關(guān)性,從而構(gòu)造出查詢網(wǎng)絡(luò)、詞網(wǎng)絡(luò)和文檔網(wǎng)絡(luò)。
圖1 Markov網(wǎng)絡(luò)結(jié)構(gòu)
2.2 基于多層Markov網(wǎng)絡(luò)的信息檢索模型描述
本文的模型融合查詢間關(guān)系、詞間關(guān)系和文檔間關(guān)系,分為三層:查詢子空間、索引詞項(xiàng)子空間、文檔子空間。如圖2所示,每層空間都構(gòu)成了一個(gè)推理網(wǎng)絡(luò),根節(jié)點(diǎn)分別為查詢子空間的查詢節(jié)點(diǎn)、詞項(xiàng)子空間的詞節(jié)點(diǎn)和文檔子空間的文檔節(jié)點(diǎn)。本文利用詞與詞之間的相關(guān)性來構(gòu)造詞項(xiàng)子空間,文檔與文檔之間的相關(guān)性來構(gòu)造文檔子空間,由基于團(tuán)的Markov網(wǎng)絡(luò)信息檢索查詢反饋[11]得到的相關(guān)文檔的相關(guān)程度得出查詢與查詢之間的相關(guān)性來構(gòu)造查詢子空間。
圖2 基于多層Markov網(wǎng)絡(luò)的信息檢索模型
在圖2中,qi代表查詢子空間中的查詢,q代表初始查詢,ti代表詞項(xiàng)子空間中的詞項(xiàng),di代表文檔子空間里的文檔,邊的類型有五種。
(1) 對(duì)任意的ti∈q,有一條從ti指向q的邊,這代表查詢q中包含詞項(xiàng)ti;
(2) 在詞項(xiàng)子空間中,詞與詞之間有一條無向邊,邊的權(quán)重取決于詞與詞之間依賴的程度;
(3) 對(duì)任意的ti∈d,有一條從ti指向d的邊,這代表文檔d中包含詞項(xiàng)ti;
(4) 在文檔子空間中,文檔與文檔之間有一條無向邊,邊的權(quán)重取決于文檔與文檔之間的依賴程度;
(5) 在查詢子空間中,查詢與查詢之間有一條無向邊,邊的權(quán)重取決于查詢與查詢之間的依賴程度。
在基于多層Markov網(wǎng)絡(luò)的信息檢索模型中,給定一個(gè)初始查詢,我們要計(jì)算文檔集中的文檔和查詢的相關(guān)概率。通過對(duì)Markov網(wǎng)絡(luò)的學(xué)習(xí),從構(gòu)造的詞項(xiàng)子空間中選擇與查詢?cè)~形成最大團(tuán)結(jié)構(gòu)的相關(guān)詞作為查詢擴(kuò)展詞,從文檔子空間選擇與查詢?cè)~有邊相連的文檔形成最大團(tuán)結(jié)構(gòu)的相關(guān)文檔信息,從查詢子空間中選擇與初始查詢有邊相連的查詢形成最大團(tuán)結(jié)構(gòu)的相關(guān)查詢信息,重新計(jì)算文檔與查詢之間的相關(guān)概率。
2.3 詞項(xiàng)相關(guān)性的度量
在本文中均采用詞的共現(xiàn)性來提取詞與詞之間的關(guān)系,計(jì)算詞共現(xiàn)的詞頻時(shí)一般可以以整個(gè)文檔、段落或是一個(gè)固定長(zhǎng)度為窗口[12]?;谛噬系目紤],本文選擇文檔作為窗口單元,對(duì)文檔集的倒排文件進(jìn)行統(tǒng)計(jì),兩個(gè)詞共現(xiàn)的次數(shù)越高,則相關(guān)性就越高。由于Markov網(wǎng)絡(luò)檢索模型中詞與詞之間的無向性,因此采用兩個(gè)詞的綜合共現(xiàn)性來計(jì)算,即公式(1)~(3)。
(1)
(2)
(3)
其中ti和tj指兩個(gè)詞項(xiàng),C(ti,tj)指在訓(xùn)練文檔集中ti和tj在同一篇文檔中同時(shí)出現(xiàn)的次數(shù),C(ti)指在訓(xùn)練文檔集中ti出現(xiàn)的次數(shù),C(tj)指在訓(xùn)練文檔集中tj出現(xiàn)的次數(shù),Sim(ti,tj)指ti和tj之間的關(guān)系,Sim值越大,兩個(gè)詞的相關(guān)性越高。給定閾值η詞,如果Sim(ti,tj)≥η詞,則認(rèn)為ti與tj相互依賴,即在多層Markov網(wǎng)絡(luò)檢索模型的詞項(xiàng)子空間中有邊相連。
2.4 文檔相關(guān)性的度量
在本文中文檔均表示為向量,采用文檔向量之間的夾角來構(gòu)造文檔子空間,表示為公式(4)。
(4)
2.5 查詢相關(guān)性的度量
大多數(shù)查詢的主題在搜索時(shí)是模糊不清的,WangX,ZhaiCX等從網(wǎng)絡(luò)搜索日志中組織搜索結(jié)果,從搜索日志數(shù)據(jù)中挖掘出給定查詢的相似查詢[13-14]。在本文中查詢之間的關(guān)系由與查詢相關(guān)的文檔間的依賴關(guān)系所決定,利用基于團(tuán)的Markov網(wǎng)絡(luò)信息檢索模型[8]得出的每個(gè)查詢返回的文檔,本文取每個(gè)查詢返回的前兩篇相關(guān)文檔,把這兩篇相關(guān)文檔信息合并,通過計(jì)算文檔間的相似度來確定查詢間的相似性,即式(5)。
(5)
2.6 團(tuán)的提取
在基于多層Markov網(wǎng)絡(luò)的信息檢索模型中,給定查詢q,可以計(jì)算文檔集D中任意文檔dj∈D和查詢q的相關(guān)概率p(dj|q),根據(jù)p(dj|q)值的大小給文檔集中的文檔排序,從而得出相關(guān)文檔。由左家莉等提出一種基于Markov網(wǎng)絡(luò)的信息檢索擴(kuò)展模型[6]可得公式(6)。
(6)
其中ti指一個(gè)詞項(xiàng),假定
wi,q和wi,j可以選用多種權(quán)重計(jì)算方式,分別表示為式(7)和式(8)。在本文的實(shí)驗(yàn)中,我們采用BM25 類似權(quán)重方式來計(jì)算權(quán)重。
(7)
其中α為歸一化因子,tfti指ti在q中出現(xiàn)的頻率,tft指構(gòu)成q的所有的t在q中出現(xiàn)的頻率。
(8)
其中,N指文檔集中的文檔數(shù),nti指出現(xiàn)ti的文檔數(shù),fti指該文檔出現(xiàn)ti的次數(shù),dlti指該文檔的長(zhǎng)度,avedl指文檔集中所有文檔的平均長(zhǎng)度,K和b是經(jīng)驗(yàn)參數(shù)。
在檢索階段,本文以最大團(tuán)為單位,基于詞團(tuán),把詞作為一個(gè)概念整體擴(kuò)展進(jìn)來,與原始查詢?cè)~重新組成一個(gè)新查詢,通過修正詞的權(quán)重,重新構(gòu)造文檔和查詢之間的相關(guān)性,計(jì)算文檔與查詢的相關(guān)概率p′(dj|q)。由公式(6)修正得到公式(9)。
(9)
其中t和tk指詞項(xiàng),θ指平滑參數(shù)(0≤θ≤1),Cmax(t)指包含t的最大團(tuán)集,sim(tk,t)指tk和t的相關(guān)程度。
然后基于文檔團(tuán),計(jì)算新查詢與文檔所在團(tuán)的其他文檔dk的相關(guān)概率p′(dk|q),如式(10)所示。
(10)
基于查詢團(tuán),計(jì)算文檔與初始查詢所在團(tuán)的其他查詢qi的相關(guān)概率p′(dj|qi),如式(11)所示。
(11)
最后通過文檔間的相似性和查詢間的相似性,由公式(9)、(10)和(11)可得出文檔和查詢的最后相關(guān)概率公式式(12)。
(12)
其中α(0≤α≤1)為基于文檔子空間的平滑參數(shù),β(0≤β≤1)為基于查詢子空間的平滑參數(shù),通過調(diào)節(jié)平滑參數(shù),使得模型達(dá)到檢索性能的最優(yōu)狀態(tài)。Cmax(dj)指包含dj的最大團(tuán)集,Cmax(q)指包含q的最大團(tuán)集,sim(dk,dj)指文檔dk和dj的相關(guān)程度,sim(q,qi)指查詢q和qi的相關(guān)程度。
一個(gè)標(biāo)準(zhǔn)的測(cè)試集一般包括一個(gè)文檔集、一組查詢和每一個(gè)查詢相對(duì)應(yīng)的相關(guān)文檔集(由專家判斷)。本文實(shí)驗(yàn)的測(cè)試集由Adi、Med、Cran、Cisi及Cacm五個(gè)標(biāo)準(zhǔn)測(cè)試文檔集組成,它是一個(gè)較常用的測(cè)試數(shù)據(jù)集,常用于對(duì)檢索系統(tǒng)的性能評(píng)價(jià),該測(cè)試集的文檔較小,且評(píng)價(jià)效果良好。具體內(nèi)容如表1 所示。
表1 實(shí)驗(yàn)中的數(shù)據(jù)集
本文模型中有θ、α、β這三個(gè)參數(shù)以及閾值η詞、η文檔、η查詢,調(diào)整這些參數(shù)和閾值的大小,都會(huì)對(duì)實(shí)驗(yàn)結(jié)果有一定的影響。理論上,我們?cè)O(shè)置詞團(tuán)的權(quán)重最大,文檔團(tuán)權(quán)重次之,查詢團(tuán)權(quán)重最小。因此分別令α以0.02,β以0.01的增量;α以0.03,β以0.01的增量;α以0.03,β以0.02的增量進(jìn)行實(shí)驗(yàn)比較,最終選擇第一種方式。以數(shù)據(jù)集Adi為例,當(dāng)θ取0.025,η詞取0.6,η文檔取0.1,η查詢?nèi)?.3,調(diào)整文檔權(quán)重參數(shù)α和查詢權(quán)重參數(shù)β的值,圖3說明其對(duì)實(shí)驗(yàn)結(jié)果的影響。
在圖3中,橫坐標(biāo)指α的值,實(shí)驗(yàn)中β的值為α/2,縱坐標(biāo)指平均準(zhǔn)確率,3-Avg指在三個(gè)召回率點(diǎn)(0.2,0.5,0.8)上每一個(gè)查詢對(duì)應(yīng)精度的平均值,11-Avg指在11個(gè)召回率點(diǎn)(0,0.1,…,1.0)上每一個(gè)查詢對(duì)應(yīng)精度的平均值,這也是我們實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)表明,在一定范圍內(nèi)α越大,檢索結(jié)果越好,但達(dá)到一定值以后結(jié)果開始變差。其中在α=0.16,β=0.08時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。為了得出擴(kuò)展詞權(quán)重參數(shù)θ對(duì)檢索結(jié)果的影響,我們同樣取β=α/2的情況下,改變?chǔ)戎?,?為Adi數(shù)據(jù)集下的最優(yōu)檢索結(jié)果。
圖3 α和β值的調(diào)整對(duì)實(shí)驗(yàn)結(jié)果的影響
表2 Adi數(shù)據(jù)集中取不同θ值的最優(yōu)檢索結(jié)果
本文把基于團(tuán)的Markov網(wǎng)絡(luò)信息檢索模型作為Baseline,與我們提出的基于Markov網(wǎng)絡(luò)的多層信息檢索擴(kuò)展模型(簡(jiǎn)稱MMR)做實(shí)驗(yàn)對(duì)比。表2表明,在數(shù)據(jù)集Adi中,無論是在3-Avg還是11-Avg上,我們的模型檢索效果都明顯優(yōu)于Baseline,其中在θ=0.025時(shí)檢索結(jié)果達(dá)到最優(yōu)。實(shí)驗(yàn)中我們還發(fā)現(xiàn)改變?chǔ)鹊闹祵?duì)實(shí)驗(yàn)結(jié)果影響不是很大,這是因?yàn)樵贏di中,詞項(xiàng)的數(shù)量相對(duì)較少。
最后,我們?nèi)MR的最優(yōu)檢索效果和其他一些經(jīng)典檢索模型分別在Adi、Med、Cran、Cisi及Cacm這五個(gè)標(biāo)準(zhǔn)測(cè)試文檔集上做對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)中,由于Adi數(shù)據(jù)集中的詞項(xiàng)個(gè)數(shù)比較少,因此詞之間的相關(guān)性閾值取0.6,其余四個(gè)數(shù)據(jù)集取0.7。由于Cacm數(shù)據(jù)集文檔比較多,因此文檔相關(guān)性閾值取0.2,其余四個(gè)數(shù)據(jù)集取0.1。由于Cran數(shù)據(jù)集查詢比較多,因此查詢相關(guān)性閾值取0.5,其余四個(gè)數(shù)據(jù)集取0.3。由于本模型中詞的權(quán)重最大,因此詞團(tuán)的最大團(tuán)的個(gè)數(shù)變化會(huì)使實(shí)驗(yàn)結(jié)果產(chǎn)生波動(dòng)。在實(shí)驗(yàn)中每個(gè)數(shù)據(jù)集加入的詞團(tuán)個(gè)數(shù)大約在(15,30)之間,所有的文檔最大團(tuán)和查詢最大團(tuán)都加入考慮。實(shí)驗(yàn)表明本文模型的實(shí)驗(yàn)效果不僅優(yōu)于Baseline模型,而且明顯比其他一些經(jīng)典模型如hits模型,tf模型,idf模型,tf*idf模型和BM25模型要好。實(shí)驗(yàn)結(jié)果見表3和表4。
表3 3-Avg實(shí)驗(yàn)結(jié)果
表4 11-Avg實(shí)驗(yàn)結(jié)果
本文提出并實(shí)現(xiàn)了基于多層Markov網(wǎng)絡(luò)的信息檢索模型,我們以詞與詞、文檔與文檔和查詢與查詢之間的關(guān)系構(gòu)造Markov網(wǎng)絡(luò),為了有效降低計(jì)算量和避免加入較多的噪音信息,通過分別設(shè)定閾值,提取詞團(tuán)、文檔團(tuán)和查詢團(tuán)信息,給這些信息分別賦予不同的權(quán)重,加入到信息檢索的過程中,并計(jì)算文檔與查詢的最終相關(guān)概率。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型可有效提高檢索的效果。
進(jìn)一步的工作有: (1)本文以文檔為窗口單元計(jì)算詞與詞之間的相關(guān)性,未來我們將考慮以段落或是句子為單元進(jìn)行計(jì)算;(2)本文利用向量夾角度量文檔與文檔之間的相關(guān)性,未來我們將會(huì)考察其他的方法;(3)本文用基于詞團(tuán)的方法得出的相關(guān)文檔來計(jì)算查詢與查詢之間的相關(guān)性,在今后我們可以利用查詢?nèi)罩緛砀玫乜坍嫴樵冎g的關(guān)系;(4)本文的實(shí)驗(yàn)基于Adi、Med、Cran、Cisi和Cacm這五個(gè)相對(duì)較小的數(shù)據(jù)集,在未來可以考慮使用一些大數(shù)據(jù)集。
[1] Fox E A, Nunn G L, Lee W C. Coefficients of combining concept classes in a collection[C]//Proceedings of the 11th annual international ACM SIGIR conference on research and development in information retrieval. ACM, 1988: 291-307.
[2] 王斌 譯.信息檢索導(dǎo)論[M].第一版.人民郵電出版社,2010.
[3] 賀宏朝,何丕廉,陳霞.利用人工和自動(dòng)生成的資源進(jìn)行中文信息檢索查詢擴(kuò)展[J]. 計(jì)算機(jī)工程與應(yīng)用,2002,21:18-20.
[4] 張敏,宋睿華,馬少平.基于語義關(guān)系查詢擴(kuò)展的文檔重構(gòu)方法[J].計(jì)算機(jī)學(xué)報(bào),2004,27(10):1395-1401.
[5] Richardson R, Smeaton A F, Murphy J. Using WordNet as a knowledge base for measuring semantic similarity between words[R]. Technical Report Working Paper CA-1294, School of Computer Applications, Dublin City University, 1994.
[6] 左家莉,王明文,王希.基于Markov網(wǎng)絡(luò)的信息檢索擴(kuò)展模型[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2005,45(1):1847-1852.
[7] 盛俊.潛在語義的 Markov 網(wǎng)絡(luò)檢索模型的研究[D].江西師范大學(xué),2006.
[8] 甘麗新. 基于 Markov 概念的信息檢索模型[D]. 江西師范大學(xué), 2007.
[9] 付劍波,王明文,羅遠(yuǎn)勝,等.基于團(tuán)模型的文檔重排算法研究[J].中文信息學(xué)報(bào),2009,23(1):71-78.
[10] 何盈捷, 劉惟一. 由 Markov 網(wǎng)到 Bayesian 網(wǎng)[J]. 計(jì)算機(jī)研究與發(fā)展, 2002, 39(1): 87-99.
[11] Xu Y, Jones G J F, Wang B. Query dependent pseudo-relevance feedback based on wikipedia[C]//Proceedings of the 32nd international ACM SIGIR conference on research and development in information retrieval. ACM, 2009: 59-66.
[12] 黃萱菁,張奇,邱錫鵬 譯.現(xiàn)代信息檢索[M].第一版.機(jī)械工業(yè)出版社,2012.
[13] Hu Y, Qian Y, Li H, et al. Mining query subtopics from search log data[C]//Proceedings of the 35th international ACM SIGIR conference on research and development in information retrieval. ACM, 2012: 305-314.
[14] Wang X, Zhai C X. Learn from web search logs to organize search results[C]//Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval. ACM, 2007: 87-94.
[15] Metzler D, Croft W B. Latent concept expansion using markov random fields[C]//Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval. ACM, 2007: 311-318.
An Information Retrieval Model Based on Multilayer Markov Network
LIAO Yanan1, WANG Mingwen1, ZUO Jiali1, WU Genxiu2,GAN Lixin3
(1. School of Computer Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China; 2. School of Mathematics and Information Science, Jiangxi Normal University, Nanchang, Jiangxi 330022, China; 3. Jiangxi Science & Technology Normal University, Nanchang, Jiangxi 330038, China)
The information retrieval usually can be improved by combining more information mined from the retrieval process. To fully take advantage of the existing queries correlation information, terms and documents for query expansion and reconstruction, we propose an information retrieval model based on multilayer Markov network. The Markov network is constructed by the correlation of query network, term network and document network. A clique model is further designed to speed up the computation. The experiments on the standard data sets have indicated that our model can integrate information of three aspects effectively for an improved effect of retrieval.
information retrieval; multilayer Markov network; query expansion; clique
廖亞男(1990-),碩士,主要研究領(lǐng)域?yàn)樾畔z索與數(shù)據(jù)挖掘。E?mail:yaya1022good@163.com王明文(1964-),通信作者,博士,教授,主要研究領(lǐng)域?yàn)樾畔z索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。E?mail:mwwang@jxnu.edu.cn左家莉(1982-),博士,副教授,主要研究領(lǐng)域?yàn)樾畔z索、文本挖掘。E?mail:august813cn@hotmail.com
1003-0077(2016)01-0056-07
2013-08-17 定稿日期: 2014-04-20
國(guó)家自然科學(xué)基金(61272212,61462043,61462045);江西省自然科學(xué)基金(20122BAB211032,20151BAB217014);江西省高校人文社會(huì)科學(xué)青年基金(JC1312)
TP391
A