国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于偽反饋的有效XML查詢擴展*

2016-12-19 01:12:20鐘敏娟萬常選劉德喜江騰蛟劉愛紅
計算機與生活 2016年12期
關鍵詞:詞項文檔排序

鐘敏娟,萬常選,劉德喜,江騰蛟,劉愛紅

1.江西財經(jīng)大學 信息管理學院,南昌 330013

2.江西財經(jīng)大學 數(shù)據(jù)與知識工程江西省高校重點實驗室,南昌 330013

基于偽反饋的有效XML查詢擴展*

鐘敏娟1,2+,萬常選1,2,劉德喜1,2,江騰蛟1,2,劉愛紅1,2

1.江西財經(jīng)大學 信息管理學院,南昌 330013

2.江西財經(jīng)大學 數(shù)據(jù)與知識工程江西省高校重點實驗室,南昌 330013

ZHONG Minjuan,WAN Changxuan,LIU Dexi,et al.Effective XML query expansion based on pseudo relevance feedback.Journal of Frontiers of Computer Science and Technology,2016,10(12):1673-1682.

偽反饋(pseudo relevance feedback,PRF)一直以來都被認為是一種有效的查詢擴展技術。然而傳統(tǒng)的偽反饋容易帶來主題漂移,從而影響檢索性能。如何確定高質(zhì)量的相關文檔集,以及如何從相關文檔集中挑選有用的擴展詞項,是解決偽反饋中查詢主題漂移的兩個重要方面。對此,針對XML(extensible markup language)文檔,提出了一個解決框架:一方面,研究了XML偽反饋文檔查找方法,在充分考慮XML內(nèi)容和結構特征的前提下,提出了基于檢索結果聚類和兩階段排序模型相結合的高質(zhì)量XML偽相關文檔查找技術;另一方面,針對CO(content only)查詢,對詞項擴展進行了研究,提出了帶結構語義的詞項權值計算方法。一系列的相關實驗數(shù)據(jù)表明,所提的XML偽反饋查詢擴展方法能有效地減少查詢主題漂移現(xiàn)象,獲得更好的檢索質(zhì)量。

XML偽反饋;檢索結果聚類;排序;查詢擴展

1 引言

XML(extensible markup language)文檔的大量涌現(xiàn),產(chǎn)生了對XML數(shù)據(jù)管理的需求,基于XML的信息查詢和檢索成為研究重點[1-2]。其中,如何有效獲取高質(zhì)量的檢索結果,提高最終檢索性能一直是學術界和工業(yè)界致力解決的熱點問題。然而,搜索引擎中用戶提交的短小查詢往往不能準確地描述自己的查詢意圖,使得返回結果里包含了大量無關的文檔。偽反饋是提高信息檢索性能的有效查詢擴展技術,其不需用戶參與的特性在眾多查詢擴展方法中備受關注。查閱XML偽反饋的相關文獻資料,大部分的研究成果都是針對傳統(tǒng)文本的偽反饋。

傳統(tǒng)偽反饋以初始檢索結果的前N篇文檔作為查詢詞的擴展源,其隱含前提假設該N篇文檔與查詢是相關的。多方的實驗數(shù)據(jù)也證實了該方法的有效性。但是近年來的研究表明,基于傳統(tǒng)偽反饋的查詢擴展方法容易產(chǎn)生“查詢主題漂移(query drift)”現(xiàn)象。究其原因,偽反饋的隱含假設并不總是成立的,檢索結果的前N篇文檔有可能與查詢主題并不相關,從不相關的文檔中提取擴展信息顯然會引入更多的噪音。因此,如何有效避免“查詢主題漂移”現(xiàn)象需要從以下兩方面著手:

(1)去除反饋源的噪音,獲取高質(zhì)量的相關文檔集。傳統(tǒng)偽反饋以初始檢索結果的前N篇文檔作為偽相關文檔集。而實際情況是,該N篇文檔與查詢的相關性并不純凈,有時包含著大量的噪音。比如,有些查詢本身比較歧義或者模糊,造成初始結果的前N篇里存在大量無關文檔的現(xiàn)象,而后續(xù)的查詢擴展基于此不相關的文檔集顯然會產(chǎn)生主題漂移,反而性能下降。因此,如何在初始檢索結果里有針對性地挑選出相關文檔,并基于此形成較高質(zhì)量的偽相關文檔集是避免“查詢漂移”的首要關鍵問題。

(2)在獲取較高質(zhì)量反饋源的基礎上,從中挑選擴展信息。對XML文檔而言,擴展信息的特征選擇不僅要考慮傳統(tǒng)的內(nèi)容特征,還要專門針對XML的結構特性。

對于如何確定相關文檔,現(xiàn)有工作主要存在兩種解決思路:一種是提出相應特征來衡量反饋文檔的質(zhì)量[2-4],或是借助機器學習方法[5-6]來保證反饋文檔的質(zhì)量;另一種解決思路是通過初始檢索結果聚類進行取樣與重取樣,從而提高偽相關文檔質(zhì)量[7-10]。比如,Sakai等人[7]提出了基于取樣的偽相關文檔選擇標準,對前N個返回文檔進行篩選。Lee等人[8-9]提出了基于聚類分析的重新取樣方法來更好地選擇偽相關文檔。Bashir[10]針對專利文檔,提出了一種改進的聚類方法用于確認好的偽相關文檔,提高了文檔的檢索率。

對于擴展詞項的挑選,查詢擴展往往基于各種不同的檢索模型。經(jīng)典概率模型里,擴展詞項主要依據(jù)Roberton/Sparck-Jones權重[11]挑選。近年來,語言模型也應用到查詢擴展技術中,比如基于混合模型的反饋方法[12]、基于相關模型的反饋方法[13]等。Cao等人[14]在混合模型的基礎上提出了選擇好詞項的特征,比如詞項之間的共現(xiàn)率、詞項的距離信息等。文獻[15]對相關模型進行了擴展,提出利用詞項的位置信息作為線索來推斷詞項是否與查詢主題相關。在國內(nèi),許多研究學者在Rocchio框架下也提出了偽反饋的查詢擴展方法。丁國棟等人[16]基于詞項與所有查詢詞在局部文檔集合中的共現(xiàn)程度來挑選較高質(zhì)量的擴展詞。黃名選等人[17]提出基于矩陣加權關聯(lián)規(guī)則挖掘的查詢擴展方法。

上述工作中偽反饋所處理的數(shù)據(jù)對象都是普通文本,并沒有專門針對XML格式的文檔??v觀目前的研究成果,基于XML文檔的偽反饋研究成果極少,現(xiàn)存的少數(shù)幾篇論文都是相關反饋模型。為此,本文基于XML文檔,針對偽反饋中存在的“查詢主題漂移”問題展開研究,力圖通過有效的查詢擴展來避免或減少“查詢主題漂移”的次數(shù),從而最終實現(xiàn)提高XML檢索整體性能的目的。

本文的主要貢獻如下:

(1)提出了基于檢索結果聚類和相關排序機制相結合的高質(zhì)量XML偽相關文檔查找策略。該策略與現(xiàn)有方法不同,不僅通過聚類將主題相似的文檔聚簇在一起,而且能在此基礎上充分利用聚類結果的相應特征,融入到所提排序模型中,從而獲得更高質(zhì)量的偽相關文檔集。

(2)有效地減少了XML偽反饋中存在的“查詢主題漂移”現(xiàn)象。一方面,通過檢索結果聚類和有效的排序機制,獲得了較高質(zhì)量的擴展源;另一方面,結合XML文檔的結構特性,基于所獲取的XML偽相關文檔擴展源,提出了帶結構語義的查詢詞擴展方案,從中挑選出與初始查詢語義相關的擴展詞項,最終有效地提高了檢索系統(tǒng)的檢索質(zhì)量。

(3)大量的實驗驗證了所提方法的有效性。一方面,實驗數(shù)據(jù)表明基于檢索結果聚類和相關排序機制相結合的XML偽反饋文檔查找方法是行之有效的,相比傳統(tǒng)的偽反饋方法,初始檢索結果聚類有益于獲取更高質(zhì)量的XML偽相關文檔集,有效地確保了擴展源的質(zhì)量;另一方面,所提的查詢詞擴展方案能有效提高XML文檔信息檢索的質(zhì)量,減少“查詢主題漂移”現(xiàn)象,并最終獲得較高的平均準確率和MAP(mean average precision)。

2 基于檢索結果聚類的高質(zhì)量XML反饋文檔查找

有效避免“查詢主題漂移”的首要關鍵問題是挑選與查詢需求相關的文檔,并匯聚在一起形成高質(zhì)量的偽相關反饋文檔集。

本文提出了高質(zhì)量XML偽相關文檔查找策略。其核心思想是借助聚類和相關排序機制共同對初始檢索結果集進行取樣與重取樣,從而將與查詢需求相關的文檔查找出來,作為查詢詞的擴展源。聚類采用k-mediod方法實施,具體思路可參考文獻[18],在此不再重述。相關排序機制主要基于文獻[19]中提出的策略,包含候選簇的排序和候選簇中文檔的排序兩個階段。通過兩階段的排序,挑選出N個相關文檔組成偽相關文檔集合,并以此作為后續(xù)查詢詞的擴展源。

2.1 候選相關簇的排序模型

初始檢索結果聚類實現(xiàn)了文檔的主題聚簇劃分,也就是說,各個文檔按照主題內(nèi)容劃分到了不同的簇中。本文的目的是要形成高質(zhì)量的偽相關文檔反饋源,因此任務并未結束,還需要對聚類結果進行后續(xù)的分析處理。其中第一個任務就是從眾多的簇中挑選出候選的相關簇??紤]到相關文檔可能分布在多個不同的簇中,相關簇的個數(shù)應該設置為多個,而不僅僅是單個。

最佳狀態(tài)下,如果某個簇中包含的文檔都是相關文檔,則該簇應該是相似程度最高的簇,也理應被選為候選的相關簇。在前述的檢索結果聚類中,k-mediod聚類算法會產(chǎn)生k個中心點,為此,利用這k個中心點與查詢的相似性對簇進行選擇。因為簇的中心點在一定程度上能夠表征整個簇。通過相似性的計算,對各個簇進行排序,排在前N位的簇即為候選的相關簇。相似性計算基于文獻[20],公式如下:

其中,tf(tk,Q)表示詞項tk在查詢Q中的出現(xiàn)頻率;s是一個實驗參數(shù)(通常取0.2);dl是簇中心文檔di的長度;avdl是數(shù)據(jù)集中文檔的平均長度;tfw(tk,di)表示詞項tk在簇中心文檔di中的權重頻率,如下所示:

2.2 基于候選簇的文檔排序模型

候選的相關簇敲定之后,接下來第二個任務就是從候選簇中確定與查詢需求相關的文檔。此過程實質(zhì)就是對相關簇中的所有文檔進行相似性計算,根據(jù)相似程度來排序。排序越靠前,說明與用戶的查詢意圖越相關,越是反饋源中需要獲取到的文檔。因此,需要利用一些特征來表征查詢需求的相關性,從而幫助相關文檔的挑選。本文提出了以下幾個特征:

(1)相關度值(R_Score)。在傳統(tǒng)信息檢索領域,相關度值表示與查詢主題的相關程度,值越大,說明與用戶的查詢越相關,從而越應該被挑選為反饋源中的文檔。

(2)與簇的相似性(Cluster_Sim)。挑選出的候選相關簇并不是一個純相關簇,也就是說,該相關簇中既包含有高質(zhì)量的相關文檔,同時也存在不相關的噪音文檔。因此,要盡可能地過濾掉這些噪音文檔。根據(jù)前面基于簇中心的候選簇挑選方法,相關簇的簇中心應該與查詢主題相關。為此,在挑選相關文檔時,不僅要考慮該文檔本身與查詢主題的相關程度,還要考慮該文檔與整個簇的相關性,即與簇中心的相關性。對于簇中心的衡量,可以借助簇標簽來表征。文獻[19]提出了均衡化權值的簇標簽獲取方法。簇標簽和文檔均可看成由中心詞項所構成的向量。對于有n個不同中心詞項的系統(tǒng),簇標簽ci可以表示為ci=(ti1,ti2,…,tin),文檔dj也可以表示為dj= (tj1,tj2,…,tjn),利用兩者之間的距離可以衡量文檔與簇的相似性。

(3)所在簇的相對排名(Cluster_RValue)。在前述的候選相關簇排序模型中,多個候選相關簇按照相關程度依次排序,因此其排名也體現(xiàn)了該簇整體與查詢意圖的相關程度。候選文檔隸屬于候選簇中,假如該候選文檔所在的候選簇排名越靠前,說明該簇所包含的文檔在一定程度上與查詢相關的概率越大。因此,利用其所在的候選簇的相對排名能間接地反映與查詢的相似程度。

綜合以上分析,定義偽相關反饋文檔的評價公式為如下形式:

其中,R_Score(di,Q)代表文檔di與用戶查詢Q的相似度,采用式(1)中基于PNW模型的計算方法。Cluster_RValuei表示文檔di所在簇的相對排名,公式定義如下:

ClusterNum表示聚類結果中簇數(shù);Ri表示文檔di所在簇在所有簇中的排名位序。

3 XML查詢詞擴展

查詢擴展中,研究者往往利用詞項的權值來挑選擴展詞項。區(qū)別于傳統(tǒng)文檔,XML文檔具有內(nèi)容和結構的雙重特性,特別是結構特性會對擴展詞的挑選產(chǎn)生影響。因此,需要將XML文檔表征出的結構特點反映到詞項的權重計算中。分析XML文檔的表示模型,需要考慮以下幾個方面因素:

(1)詞項的元素頻率。類似于傳統(tǒng)信息檢索中的詞項頻率,詞項在某標簽元素下出現(xiàn)的頻率次數(shù)越多,說明該詞項越重要,是該標簽片段的中心詞項。

(2)詞項的反比元素頻率。與經(jīng)典信息檢索中的反比文獻頻率相類似,反比元素頻率反映了詞項的通用性和普遍性特點。如果很多標簽片段下面都涵蓋有某詞項,說明該詞項很一般,不能用來區(qū)分各個標簽片段。

(3)詞項隸屬元素的標簽節(jié)點語義權重。在經(jīng)典信息檢索中,詞項出現(xiàn)在文檔的不同位置,其對文檔的貢獻程度是不同的。在XML文檔里,不同的位置信息表現(xiàn)為不同的標簽節(jié)點。比如,同一個詞項既出現(xiàn)在標簽節(jié)點“abs”(摘要)里,也出現(xiàn)在標簽節(jié)點“title”(標題)中,顯然出現(xiàn)在“title”標簽下面的詞項比出現(xiàn)在“abs”標簽下的詞項更為重要,因為title標簽節(jié)點的語義權重高于“abs”標簽節(jié)點的語義權重。

(4)詞項隸屬元素節(jié)點的路徑距離。直觀上認為,在XML文檔的表示模型中,元素節(jié)點到根節(jié)點的距離越遠,包含在此元素節(jié)點下面的詞項對整篇文檔內(nèi)容的貢獻程度越小,反之越大。因此,對同一標簽而言,路徑距離小的元素中詞項的權重要大于路徑距離大的元素中詞項的權重。

綜合上述分析,詞項權值計算采用如下公式:

其中,σij表示文檔di中第 j個標簽節(jié)點;w(σij)是標簽σij的節(jié)點語義權重;tf(tk,σij)表示詞項tk在標簽σij下出現(xiàn)的頻率;tags(σij)表示標簽節(jié)點σij與根節(jié)點的路徑距離;m表示文檔di中詞項tk出現(xiàn)的葉子節(jié)點數(shù)目。IEF(tk)表示詞項tk的反比元素頻率;N為整個數(shù)據(jù)集中元素節(jié)點的個數(shù);Nk是包含詞項tk的元素節(jié)點個數(shù)。從中選擇權重最大的幾個詞項作為候選查詢擴展詞。

4 實驗與分析

本文實驗是通過偽反饋對用戶的初始查詢進行擴展,并力圖減少或者避免偽反饋中存在的“查詢主題漂移”現(xiàn)象,從而提高檢索質(zhì)量。實驗數(shù)據(jù)采用INEX 2005提供的IEEE CS數(shù)據(jù)集,該數(shù)據(jù)集體現(xiàn)了以文檔為中心的特點,并針對不同的主題(topic)給出了官方的評價標準,對數(shù)據(jù)集中的相關文檔進行了標記。本實驗根據(jù)每個主題的描述,對29個官方主題全部進行了查詢構造,在文獻[18]檢索結果聚類的基礎上從兩大方面展開實驗:一是檢驗本文所提方法是否獲得了較高質(zhì)量的XML偽相關反饋文檔集;二是評價本文所提的偽反饋查詢擴展方法是否能提高XML檢索的性能,獲得更高質(zhì)量的檢索結果,并能有效避免或解決傳統(tǒng)偽反饋中存在的“查詢主題漂移”現(xiàn)象。

4.1 XML反饋源的質(zhì)量檢測

本文首先對XML偽相關反饋文檔集的質(zhì)量進行了驗證,分別比較了傳統(tǒng)偽反饋的擴展源(traditional pseudo relevance feedback,TPRF)和本文提出的基于檢索結果聚類和相關排序機制相結合的擴展源(clustering with structure and two ranking,CSTR_Method)的相關性質(zhì)量。

4.1.1 排序模型中的參數(shù)優(yōu)化

本文所提擴展源方法中利用了候選相關簇的排序及候選簇中文檔排序兩個階段。在文檔的排序過程中,從式(3)可以看出,文檔與查詢條件的相關度值和文檔與所屬簇的相似度兩個因素對文檔的最終排序起著不同程度的作用,因此首先對模型中不同的參數(shù)取值進行了優(yōu)化測試。實驗中采用逐步添加法,即以文檔與查詢條件的相似度因素為基準,每次變化0.1,多次的實驗結果如表1和表2所示。

Table 1 Coefficient value and their performance results表1 系數(shù)取值及其性能結果(Prec@5、Prec@10)

Table 2 Coefficient value and their performance results表2 系數(shù)取值及其性能結果(Prec@15、Prec@20)

從表中可以得出以下結論:

(1)文檔與查詢條件的相似性和文檔與簇的相似性共同對文檔的最終評價值起作用。數(shù)據(jù)顯示隨著文檔與簇的查詢條件因素參與到評價值里,查準率逐漸增大,說明相關文檔越來越多地排列在前。

(2)隨著文檔與簇的相似度因素權重值的增大,查準率逐漸提高,一直到兩者因素平衡(α=0.5, β=0.5)時達到峰值,隨后,隨著此因素權重值的進一步加大,性能反而呈下降趨勢。

(3)為了挑選出更多高質(zhì)量的反饋文檔,依據(jù)表中的數(shù)據(jù),選擇α=0.5,β=0.5而不是α=0.6,β=0.4作為最優(yōu)解。后續(xù)的查詢擴展也是在α=0.5,β=0.5所獲得的文檔里進行。

4.1.2 擴展源的相關性質(zhì)量檢測

對比傳統(tǒng)偽反饋的擴展源和本文方法的擴展源,表1和表2的數(shù)據(jù)表明,在參數(shù)最優(yōu)解的情況下(α=0.5,β=0.5),本文提出的檢索結果聚類和相關排序相結合的擴展源具有更高的質(zhì)量。一方面檢索結果聚類可以首先將文檔中大部分的相關文檔在一定程度上聚簇在一起;另一方面,兩階段的排序機制在前述聚類基礎上相繼進行相關簇的選取和簇中相關文檔的挑選,兩方面的有效實施共同保證了反饋源的質(zhì)量。而比較傳統(tǒng)偽反饋,僅僅簡單地認為前N篇文檔是相關的,并作為擴展源。顯然,前者更能保證選取文檔的相關性質(zhì)量。相關的數(shù)據(jù)表明,在Top@15以及Top@20的條件下,Prec@15和Prec@20性能分別提高了7%。與此同時,Top@5的條件下,Prec@5的平均精度不如傳統(tǒng)偽反饋結果,說明有些相關文檔盡管被挑選出來,但是并沒有排序在前。分析原因,排序機制起著至關重要的因素。

(1)候選簇的選擇問題。排序機制的第一階段是選擇相關簇,在此采用了簇中心文檔與用戶查詢的相似度值來確定。簇中心文檔是k-mediod聚類算法的結果,與聚類質(zhì)量息息相關。假如聚類效果并不理想,則簇中心文檔可能會偏離查詢主題,這樣會把帶有噪音的候選簇給挑選出來,從而嚴重影響后續(xù)的相關文檔排序,使得很多相關文檔無法查找出來。

(2)相關文檔排序模型中特征的選擇問題。排序模型中,文檔相關度評價值僅僅建立在查詢詞的頻率基礎上,并沒有過多地考慮詞項上下文等其他因素,因此挑選出的文檔有可能與用戶的查詢意圖并不相關,盡管該文檔中某些查詢詞項出現(xiàn)次數(shù)較多。比如查詢主題202(hidden Markov model),查找結果并不令人滿意。深入分析原因,發(fā)現(xiàn)排序在前的文檔大部分都包含了多次model詞項,而考察這些文檔內(nèi)容,發(fā)現(xiàn)它們并不是關于hidden Markov方面的model,從而與用戶的查詢需求不相符合,造成查準率降低。

4.1.3 聚類對反饋文檔查找的影響

擴展源的相關性質(zhì)量檢測實驗中,可以清晰地看出本文方法獲取的擴展源具有更高的質(zhì)量,能夠查找出更多的相關文檔。究其原因,此性能的獲取是檢索結果聚類和排序這兩方面因素造成的。在此,本文對聚類在反饋文檔查找中的影響進行了實驗分析,驗證了聚類對高質(zhì)量相關文檔查找的影響。實驗的目的不在于衡量聚類算法本身的性能,而主要驗證通過聚類這種手段是否能夠幫助查找到高質(zhì)量的反饋文檔以及更多數(shù)量的高質(zhì)量反饋文檔。

因此,本文對初始檢索結果的前100篇文檔重新進行了相似度計算,并對此進行排序,在相同文檔數(shù)目的前提下,比較聚類前后相關文檔的準確率。從表3的數(shù)據(jù)可以看出,聚類后排在前N的文檔里相關文檔數(shù)目要比聚類前的相關文檔數(shù)目多,在Prec@10以及Prec@20指標上,平均查準率分別提高了11.1%和15.8%,因此獲得了較好的性能。事實上,在相似度計算中,聚類利用了文檔與簇的相似度以及文檔所在簇的排名等聚類才能擁有的特征,這些特征能有效地幫助查找到更多相關文檔,并且使得它們能夠盡可能地排序在前。這充分說明了聚類能夠有效地幫助查找到更多的高質(zhì)量反饋文檔,對有效避免偽相關反饋中的查詢主題漂移奠定了前提基礎。

Table 3 Average precision comparison between before and after clustering表3 聚類前后反饋文檔平均查準率性能比較

4.2 查詢關鍵詞的擴展

實驗主要考察在前述較高質(zhì)量反饋源的前提下,本文基于XML文檔結構特性的查詢詞擴展方案能否提高XML文檔檢索的質(zhì)量。實驗分3組進行。

第一組實驗是將本文方法得到的擴展詞項的檢索結果與未進行擴展的用戶初始查詢(orginal query method,OQ_Method)的檢索結果進行比較,得到性能比較圖,如圖1和圖2所示。

Fig.1 Performance comparison on Prec@X圖1 Prec@X性能比較圖

Fig.2 Performance comparison on MAP@X圖2 MAP@X性能比較圖

從圖1和圖2的數(shù)據(jù)可以明顯看出,相比初始的查詢結果,本文方法在性能指標Prec@X和MAP上具有更好的性能。說明此查詢擴展是有效的,獲取的擴展詞與用戶的查詢意圖較為吻合。擴展詞與用戶查詢詞之間具有較為接近的語義。

第二組實驗是驗證本文方法是否有效解決了傳統(tǒng)偽反饋中“查詢漂移現(xiàn)象”,比如查詢漂移次數(shù)是否減少了。對此,將傳統(tǒng)偽反饋的查詢擴展方法(TranditionNoStructure method,TNS_Method)與本文方法進行了對比。同時,為了保證實驗的一致性和公平性,設定擴展源文檔數(shù)目均取值為20,查詢詞擴展都基于TFIDF方案進行,將所得的擴展詞項和初始查詢一同提交給同一搜索引擎,比較返回結果中前10和前20位文檔的準確率,實驗性能比較結果如圖3和圖4所示。

Fig.3 Performance comparison on Prec@10圖3 性能比較圖(Prec@10)

Fig.4 Performance comparison on Prec@20圖4 性能比較圖(Prec@20)

從圖3和圖4中數(shù)據(jù)可以看出,傳統(tǒng)偽反饋的查詢擴展方法顯然產(chǎn)生了主題漂移,29個官方查詢主題中17個查詢主題的準確率相比擴展前的初始查詢反而降低。而觀察本文的擴展方法,在返回結果的前10篇和前20篇文檔里,分別只有11和6個查詢主題的準確率低于擴展前,這充分說明了本文的擴展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。

分析原因,擴展源的質(zhì)量至關重要。傳統(tǒng)偽反饋是選擇初始檢索結果的前N篇文檔作為擴展源,此擴展源并非每次都包含有較多的相關文檔,當用戶查詢需求比較模糊的時候,得到的檢索結果可能會包含有較多的噪音,顯然在此環(huán)境下進行查詢詞擴展必然會導致性能下降。對比本文提出的CSTR_ Method方法,該方法通過檢索結果聚類和兩階段的相關排序機制在一定程度上比傳統(tǒng)偽反饋更能保證擴展源的質(zhì)量,使得挑選出的文檔與查詢需求更為接近,且數(shù)量也較多,為進一步查詢擴展保證了源頭質(zhì)量。查詢擴展在這種相對比較好的環(huán)境下進行,必然比傳統(tǒng)偽反饋獲得更好的檢索性能。

擴展源的質(zhì)量得到保證之后,要獲得好的檢索質(zhì)量,接下來還需要挑選好的擴展詞項。在充分考慮XML文檔結構特性的基礎上本文提出了帶結構語義的詞項權值擴展方法。

第三組實驗主要檢驗結構在查詢擴展方案中的影響和作用。為了更加公平地測試,擴展源必須保證相同。為此,實驗分兩批進行:第一批實驗在本文所獲得的擴展源里進行,即經(jīng)過檢索結果聚類和兩階段的排序后選擇前20篇文檔組成偽相關文檔集合,擴展詞項的權重分別采取帶結構的計算策略(CSTR_Method)與不帶結構的計算方法(CNSTR_ Method)。第二批實驗的擴展源基于傳統(tǒng)偽反饋,即初始檢索結果的前20篇文檔,擴展詞項的權重依然分別采取帶結構的計算策略(TS_Method)與不帶結構的計算方法(TNS_Method),實驗性能比較結果如表4所示。

Table 4 Performance comparison表4 性能比較

表4中數(shù)據(jù)顯示,相同擴展源的前提下,考慮XML文檔結構因素的擴展策略比不考慮結構的方法所獲得的性能普遍要好,體現(xiàn)在Prec@10和Prec@20性能指標上,CSTR_Method方法比CNSTR_Method方法平均查準率分別提高了9.6%和17%,帶結構的傳統(tǒng)偽反饋(TS_Method)方法比不帶結構的偽反饋(TNS_Method)方法平均查準率分別提高了16%和20%。這說明結構特性能幫助挑選到更好的擴展查詢詞,從而帶來更好的檢索質(zhì)量。

綜合上述3組實驗,匯總如下性能比較結果。本文所提方法(CSTR_Method)總的性能高于其他方法。通過前面一系列的實驗與分析,把原因歸結為以下兩大方面:

(1)高質(zhì)量的擴展源。這是查詢擴展的首要因素。假如擴展源的質(zhì)量不高,在此集合里挑選出的擴展詞項就會和用戶的真實查詢意圖相差較遠。比如傳統(tǒng)偽反饋,因為擴展源噪音太大,所以最終產(chǎn)生主題漂移。為此,在本文的擴展方案里,首先對檢索結果聚類,并對聚類結果進一步分析,通過兩階段排序機制把與用戶查詢相關的文檔聚簇在一起,從而在一定程度上先保證了擴展源的相關性。

(2)擴展詞項的選擇。好的擴展詞項能帶來最終檢索性能的提高。為此,需要合理制定相應的挑選準則。在上述的實驗中,綜合考慮了XML文檔的多個結構因素,提出了帶結構語義的查詢詞擴展方案,相比不考慮結構特性的擴展詞項挑選準則而言,能更好地挑選出相關擴展詞,表5中Prec@10、Prec@ 20以及MAP指標上的數(shù)據(jù)充分說明了這一點。

Table 5 Overall performance comparison表5 總的性能比較

5 結論

針對傳統(tǒng)偽反饋中存在的查詢主題漂移現(xiàn)象進行了研究,對如何有效避免“主題漂移”提出了系統(tǒng)的解決框架。一方面,提出了檢索結果聚類和排序機制相結合的高質(zhì)量擴展源獲取方法;另一方面,在高質(zhì)量的擴展源里,融合XML文檔內(nèi)容和結構的雙重特性,提出了帶結構語義的查詢詞擴展方法。一系列的實驗數(shù)據(jù)表明,整個系統(tǒng)框架的實施能有效提高檢索性能,在擴展源的質(zhì)量檢測中,本文方法獲得的擴展源具有較高的用戶查詢相關性,相比傳統(tǒng)的偽反饋擴展源,具有更高的質(zhì)量;與此同時,結合了XML結構特點的查詢擴展方案能獲得與用戶查詢意圖更為相關的擴展信息。高質(zhì)量的擴展源和有效擴展信息的獲取使得查詢主題漂移現(xiàn)象得到了控制和減少,更有效地提高了搜索引擎的檢索性能。

[1]Huang Qiang,Song Dawei,Rüger S.Robust query-specific pseudo feedback document selection for query expansion [C]//LNCS 4956:Proceedings of the 30th European Conference on Information Retrieval,Glasgow,UK,Mar 30-Apr 3, 2008.Berlin,Heidelberg:Springer,2008:547-554.

[2]He Ben,Ounis I.Finding good feedback documents[C]// Proceedings of the 18th ACM Conference on Information and Knowledge Management,Hong Kong,China,Nov 2-6, 2009.New York:ACM,2009:2011-2014.

[3]Ye Zheng.The research of machine learning techniques and external Web resources for relevance feedback[D].Dalian: Dalian University of Technology,2011.

[4]Raman K,Udupa R,Bhattacharya P,et al.On Improving pseudo-relevance feedback using pseudo-irrelevant documents [C]//LNCS 5993:Proceedings of the 32nd European Conference on Information Retrieval,Milton Keynes,UK,Mar 28-31,2010.Berlin,Heidelberg:Springer,2010:573-576.

[5]Lv Yuanhua,Zhai Chengxiang,Chen Wan.A boosting approach to improving pseudo-relevance feedback[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,Jul 25-29,2011.New York:ACM,2011:165-174.

[6]Zhou Dong,Truran M,Liu Jianxu,et al.Collaborative pseudorelevance feedback[J].Expert system with Application,2013, 40(17):6805-6812.

[7]Sakai T,Manabe T,Koyama M.Flexible pseudo-relevance feedback via selective sampling[J].ACM Transactions on Asian Language Information Processing,2005,4(2):111-135.

[8]Lee K S,Croft W B,Allan J.A cluster-based resampling method for pseudo-relevance feedback[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM,2008:235-242.

[9]Lee K S,Croft W B.A deterministic resampling method using overlapping document clusters for pseudo-relevant feedback [J].Information Processing&Management,2013,49(4): 792-806.

[10]Bashir S.Improving retrievablity with improved clusterbased pseudo-relevance feedback selection[J].Expert System withApplication,2012,39(8):7495-7502.

[11]Robertson S E,Jones K S.Relevance weighting of search terms[J].Journal of the American Society of Information Science,1976,27(3):129-146.

[12]Zhai Chengxiang,Lafferty J D.Model-based feedback in the language modeling approach to information retrieval [C]//Proceedings of the 13th ACM International Conference on Information and Knowledge Management,Atlanta, USA,Nov 5-10,2001.New York:ACM,2001:403-410.

[13]Lavrenko V,Croft W B.Relevance-based language models [C]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,New Orleans,USA,Sep 9-13,2001.New York:ACM, 2001:120-127.

[14]Cao Guihong,Nie Jianyun,Gao Jianfeng,et al.Selecting good expansion terms for pseudo-relevance-feedback[C]// Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Singapore,Jul 20-24,2008.New York:ACM, 2008:243-250.

[15]Lv Yuanhua,Zhai Chengxiang.Positional relevance model for pseudo-relevance feedback[C]//Proceedings of the 33rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Geneva,Swizerland,Jul 19-23,2010.New York:ACM,2010:579-586.

[16]Ding Guodong,Bai Shuo,Wang Bin.Local co-occurrence based query expansion for information retrieval[J].Journal of Chinese Information Processing,2006,20(3):84-91.

[17]Huang Mingxuan,Yan Xiaowei,Zhang Shichao.Query expansion of pseudo-relevance feedback based on matrixweighted association rules mining[J].Journal of Software, 2009,20(7):1854-1865.

[18]Zhong Minjuan.Clustering XML search results based on content and structure of semantic integration[J].Journal of China Society for Scientific and Technical Information,2012, 31(5):515-525.

[19]Zhong Minjuan,Wan Changxuan,Liu Dexi,et al.FindingXML pseudo-relevance document based on search results clustering[J].Journal of Computer Science,2013,40(10): 172-177.

[20]Singhal A,Choi J,Hindle D,et al.AT&T at TREC-7[C]// Proceedings of the 7th Text Retrieval Conference,Maryland,Gaithersburg,Nov 9-11,1998:239-252.

附中文參考文獻:

[3]葉正.基于網(wǎng)絡挖掘與機器學習技術的相關反饋研究[D].大連:大連理工大學,2011.

[16]丁國棟,白碩,王斌.一種基于局部共現(xiàn)的查詢擴展方法[J].中文信息學報,2006,20(3):84-91.

[17]黃名選,嚴小衛(wèi),張師超.基于矩陣加權關聯(lián)規(guī)則挖掘的偽相關反饋查詢擴展[J].軟件學報,2009,20(7):1854-1865.

[18]鐘敏娟.基于內(nèi)容與結構語義相融合的XML檢索結果聚類[J].情報學報,2012,31(5):515-525.

[19]鐘敏娟,萬常選,劉德喜,等.基于檢索結果聚類的XML偽相關文檔查找[J].計算機科學,2013,40(10):172-177.

ZHONG Minjuan was born in 1976.She is an associate professor at Jiangxi University of Finance and Economics, and the member of CCF.Her research interest is information retrieval.

鐘敏娟(1976—),女,湖南臨湘人,博士,江西財經(jīng)大學信息管理學院副教授,CCF會員,主要研究領域為信息檢索。

WAN Changxuan was born in 1962.He is a professor and Ph.D.supervisor at Jiangxi University of Finance and Economics,and the senior member of CCF.His research interests include data management and data mining,etc.

萬常選(1962—),男,江西南昌人,博士,江西財經(jīng)大學信息管理學院教授、博士生導師,CCF高級會員,主要研究領域為數(shù)據(jù)管理,數(shù)據(jù)挖掘等。

LIU Dexi was born in 1975.He is a professor at Jiangxi University of Finance and Economics,and the member of CCF.His research interest is text automatic summarization.

劉德喜(1975—),男,博士,湖南襄樊人,江西財經(jīng)大學信息管理學院教授,CCF會員,主要研究領域為文本自動文摘。

JIANG Tengjiao was born in 1976.She is a Ph.D.candidate and lecturer at Jiangxi University of Finance and Economics.Her research interests include sentiment analysis and Web data management,etc.

江騰蛟(1976—),女,安徽懷寧人,江西財經(jīng)大學信息管理學院講師,博士研究生,主要研究領域為情感分析與Web數(shù)據(jù)管理等。

LIU Aihong was born in 1971.She is an associate professor at Jiangxi University of Finance and Economics.Her research interest is database technology.

劉愛紅(1971—),女,江西南昌人,碩士,江西財經(jīng)大學信息管理學院副教授,主要研究領域為數(shù)據(jù)庫技術。.

Effective XMLQuery Expansion Based on Pseudo Relevance Feedback*

ZHONG Minjuan1,2+,WAN Changxuan1,2,LIU Dexi1,2,JIANG Tengjiao1,2,LIUAihong1,2
1.School of Information Technology,Jiangxi University of Finance and Economics,Nanchang 330013,China
2.Jiangxi Key Laboratory of Data and Knowledge Engineering,Jiangxi University of Finance and Economics,Nanchang 330013,China
+Corresponding author:E-mail:lucyzmj@sina.com

Pseudo relevance feedback(PRF)has been perceived as an effective solution for automatic query expansion.However,traditional pseudo relevance feedback can result in the query representation“drifting”away from the original query and a decreased retrieval performance.Therefore,the key issues in applying PRF are to identify the real relevant documents in the top retrieved results without any other assistant information,and expend the query based on the these relevant documents.This paper presents a solution framework from extensible markup language (XML)data.Firstly,this paper considers the XML content and structure features,and proposes a good XML query scheme based on pseudo relevance feedback documents by combining search results clustering with a two-stage ranking model.Furthermore,this paper explores the XML query expansion of CO(content only)query,and givesthe term weight computation with structure.The experimental results show that the proposed scheme can reduce the topic drift effectively and obtain the better retrieval quality.

XML pseudo relevance feedback;search results clustering;ranking;query expansion

10.3778/j.issn.1673-9418.1509082

A

TP391

*The National Natural Science Foundation of China under Grant Nos.61363039,61363010,71361012,61562032(國家自然科學基金);the National Social Science Foundation of China under Grant No.12CTQ042(國家社會科學基金);the Natural Science Foundation of Jiangxi Province under Grant Nos.20142BAB217014,20142BAB207010(江西省自然科學基金);the Humanities and Social Science Research Project in Colleges and Universities of Jiangxi Province under Grant No.TQ1504(江西省高校人文社會科學研究規(guī)劃基金項目).

Received 2015-09,Accepted 2015-11.

CNKI網(wǎng)絡優(yōu)先出版:2015-11-24,http://www.cnki.net/kcms/detail/11.5602.TP.20151124.1430.008.html

猜你喜歡
詞項文檔排序
排序不等式
有人一聲不吭向你扔了個文檔
恐怖排序
節(jié)日排序
自然種類詞項二難、卡茨解決與二維框架
哲學評論(2018年1期)2018-09-14 02:34:18
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
基于RI碼計算的Word復制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
英語詞項搭配范圍及可預見度
调兵山市| 蕉岭县| 社会| 泾源县| 宁阳县| 峨眉山市| 海林市| 旺苍县| 贵德县| 台东县| 康平县| 临桂县| 湘乡市| 开阳县| 保山市| 邢台县| 思茅市| 大新县| 南安市| 天气| 宾阳县| 万荣县| 大英县| 承德市| 石棉县| 靖江市| 屯门区| 中方县| 冀州市| 垦利县| 体育| 临武县| 隆尧县| 额济纳旗| 株洲市| 邻水| 大新县| 六安市| 三明市| 永宁县| 安陆市|