国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種長短期興趣結(jié)合的個性化檢索模型

2016-05-04 01:15:52王曉春李生楊沐昀趙鐵軍
中文信息學報 2016年3期
關(guān)鍵詞:信息檢索文檔檢索

王曉春,李生,楊沐昀,趙鐵軍

(哈爾濱工業(yè)大學 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)

一種長短期興趣結(jié)合的個性化檢索模型

王曉春,李生,楊沐昀,趙鐵軍

(哈爾濱工業(yè)大學 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001)

個性化信息檢索針對用戶個人興趣優(yōu)化文檔排序,被認為是改善用戶檢索體驗的一種有效途徑。為提高個性化檢索模型的檢索性能,該文提出了一種將用戶的長短期興趣結(jié)合的通用方法,利用用戶長期興趣和短期興趣對查詢模型進行改進。大規(guī)模真實搜索日志數(shù)據(jù)上的實驗結(jié)果顯示,利用長短期興趣能夠獲得準確表達信息需求的查詢模型,相對于傳統(tǒng)的個性化檢索模型取得了更好的效果。

個性化信息檢索;長期興趣;短期興趣

1 引言

作為輔助人們檢索信息的工具,搜索引擎大大提高了信息檢索的效率。然而,用戶習慣使用短查詢[1],致使信息需求表達不準確,加之傳統(tǒng)搜索引擎沒有考慮用戶個人興趣的差異,通常難以返回針對具體用戶的結(jié)果[2-3],未能充分滿足用戶的個性化信息需求。

相比之下,個性化信息檢索不僅考慮了查詢和文檔之間相關(guān)性,還考慮了文檔和用戶興趣之間的相關(guān)性,因此被認為是改善用戶檢索體驗的一個有效途徑[4]。很多研究表明個性化信息檢索的返回結(jié)果能夠讓用戶更加滿意[5-7]。

個性化檢索模型在很大程度上依靠用戶興趣模型優(yōu)化文檔的排序結(jié)果。很多研究工作圍繞建立準確的興趣模型展開。用戶興趣按照時間跨度可以分為長期興趣和短期興趣[8]。長期興趣表示具有持續(xù)性的興趣,其優(yōu)勢是可以用于預測即興興趣或者發(fā)現(xiàn)多個即興興趣的長期性性規(guī)律[9]。短期興趣的優(yōu)勢是可以用于發(fā)現(xiàn)用戶某一時刻的短暫興趣[10]。研究發(fā)現(xiàn),長期歷史中可以發(fā)現(xiàn)和用戶相關(guān)的信息,短期歷史中可以發(fā)現(xiàn)與查詢有關(guān)的信息[11]。也有研究認為長期興趣模型在查詢會話的開始非常重要,而短期興趣模型在長的查詢會話中非常重要[10]。

為了綜合利用用戶的長短期興趣,本文設計了一種長短期興趣結(jié)合的通用方法,構(gòu)造能夠準確表達個性化需求的查詢模型。通過對引入長期興趣、短期興趣前后的查詢模型的檢索結(jié)果進行比較,發(fā)現(xiàn)了長期興趣和短期興趣均有利于當前查詢意圖的準確表達,同時引入長短期興趣的查詢模型的檢索性能最好。

2 相關(guān)工作概述

用戶興趣按照時間跨度可以分為長期興趣和短期興趣[12]。長期興趣來自于長期歷史,即當前查詢以前用戶提交的查詢和點擊記錄[12]。短期興趣來自于短期歷史,一般指當前的查詢會話*嚴格地說,短期歷史包含在長期歷史當中,短期興趣是長期興趣的一部分。。查詢會話指用戶為了滿足一個搜索意圖而在較短的時間內(nèi)進行的連續(xù)查詢行為。由于用戶的信息需求難以通過查詢完全表達清楚,研究者經(jīng)常借助歷史信息中體現(xiàn)出來的用戶興趣提高檢索性能。

長期歷史記錄了過去很長一段時間里用戶感興趣的信息,很多研究基于長期歷史對用戶興趣建模。文獻[13]搜集了所有用戶的歷史點擊,利用用戶點擊的文檔和跳過的文檔構(gòu)成訓練序?qū)?,采用SVM模型優(yōu)化檢索結(jié)果。文獻[11]在向量空間模型框架下為每個用戶建立長期興趣模型,從用戶歷史點擊中提取關(guān)鍵詞??紤]到不是所有的歷史都對當前查詢有幫助,Bin Tan等[15]提出了一種挑選有效信息的方法。長期歷史中每一次查詢被看作一個歷史興趣單元,計算各個歷史興趣單元與當前查詢的相關(guān)度,以該相關(guān)度為權(quán)重對相關(guān)歷史單元加和作為長期興趣模型,最后與當前查詢線性結(jié)合從而構(gòu)成帶有個性化的查詢模型。該方法有效過濾了長期歷史中的無關(guān)信息,對新舊查詢都可以提高檢索性能。宋巍等用歷史點擊的摘要代替網(wǎng)頁內(nèi)容,根據(jù)當前查詢從中尋找最相關(guān)的摘要,再從相關(guān)摘要當中提取候選擴展詞,根據(jù)候選詞和查詢在上下文的共現(xiàn)頻率篩選出擴展詞[16]。Matthijs利用單個用戶瀏覽歷史,利用歷史網(wǎng)頁結(jié)構(gòu)化信息和過濾技術(shù)對用戶長期興趣建模[17]。

與長期興趣不同,短期興趣來自查詢會話,它表示用戶當下的興趣。一般認為,短期歷史與當前查詢主題是連貫的[9,18],因此短期歷史用于用戶興趣建模引起了很多研究者的重視。Sriram在2004年提出一種利用歷史查詢和歷史點擊建立用戶興趣模型的方法,但是沒有提供實驗結(jié)果。文獻[19]系統(tǒng)討論了在語言模型框架下建立短期興趣模型的方法,當前查詢、歷史查詢和歷史點擊線性組合形成查詢模型,并在TREC數(shù)據(jù)上驗證了方法的有效性。文獻[20]給出了基于短期歷史的個性化檢索模型的統(tǒng)一框架,采用語言模型對用戶興趣建模,并與當前查詢進行線性組合,在大規(guī)模搜索引擎日志數(shù)據(jù)上驗證了引入短期興趣可以提高搜索引擎的檢索性能。近年來,研究者對短期歷史中查詢變化進行了更加細致的研究。文獻[5]將短期歷史中相鄰查詢之間的關(guān)系區(qū)分成五種類型,將其作為特征融入排序模型,提高了針對初始檢索結(jié)果的重排序效果。文獻[21〗采用機器學習算法對用戶連續(xù)的查詢行為建模,把每一次查詢和點擊看作是隱狀態(tài)的觀測值,根據(jù)測試查詢和短期歷史的轉(zhuǎn)移概率預測點擊排序。與現(xiàn)有商業(yè)搜索引擎的檢索結(jié)果進行比較,發(fā)現(xiàn)該方法能有效提高檢索結(jié)果。

實際上,短期興趣體現(xiàn)了用戶短暫的興趣信息,長期興趣體現(xiàn)了持續(xù)性信息,二者結(jié)合能夠更加準確地刻畫用戶完整的興趣信息。已有研究者將長期興趣和短期興趣進行結(jié)合。文獻[21]建立了長期興趣模型和短期興趣模型,根據(jù)文檔 和用戶興趣的相似度對初始檢索結(jié)果重排序。然而長短期興趣結(jié)合前后檢索性能的變化這部分實驗沒有給出。文獻[22]為每個用戶分別建立了用戶長期和短期興趣模型,考慮了歷史點擊、查詢和用戶的共現(xiàn)頻率。但是該方法僅針對重復查詢,沒有在更廣泛的查詢上驗證該方法的有效性。文獻[23]在過濾問題上探討了長短期興趣結(jié)合問題,按照文檔與用戶興趣的相似度對文檔進行過濾,實驗結(jié)果顯示用戶興趣結(jié)合可以提高文檔過濾效果。文獻[10]將用戶興趣區(qū)分為長期興趣、短期興趣、除去短期興趣的長期興趣,實驗結(jié)果顯示結(jié)合三種興趣的檢索結(jié)果的準確率最高。這種做法實際上是對用戶的整個歷史進行重采樣,難以看出用戶的長短期興趣各自產(chǎn)生檢索性能的變化。

從現(xiàn)有研究來看,用戶的長期興趣和短期興趣均可提高檢索性能。然而,用戶長期興趣、短期興趣、以及二者結(jié)合對個性化檢索性能的不同提升效果沒有明確結(jié)論。為此,本文在語言模型框架下探索用戶的長短期興趣及二者結(jié)合對個性化檢索性能的影響,提出一種長短期興趣結(jié)合的方法。為每位用戶建立興趣模型,利用用戶的長短期興趣改進用戶的查詢意圖模型,從而返回針對用戶的檢索結(jié)果。實驗結(jié)果顯示,綜合利用用戶長短期興趣能夠構(gòu)造準確表達個性化需求的查詢模型,相對于單獨使用一種用戶興趣的個性化檢索模型取得了更好的效果。

3 結(jié)合長短期興趣的個性化檢索模型

個性化信息檢索中,基于語言模型的檢索模型常被用來檢驗融入用戶興趣后檢索性能的變化[15,17]。這里也借助這一經(jīng)典的檢索框架,探索用戶的長短期興趣及二者結(jié)合對個性化檢索性能的影響。

3.1 模型框架

信息檢索系統(tǒng)根據(jù)已知查詢和文檔集合中的文檔內(nèi)容的相似度來計算查詢和文檔的相關(guān)性。在語言模型的框架下,Kullback-Leibler (KL)距離常被用于衡量查詢和文檔的相關(guān)度[24],如式(1)所示。

(1)

式(1)中ω表示一個詞,V代表了整個詞表,q表示當前查詢,θq代表當前查詢對應的查詢意圖語言模型,d表示一篇文檔,θd代表了文檔d所對應的文檔語言模型;D(θq||θd)衡量了查詢模型和文檔模型兩種模型的相似度。

根據(jù)KL距離模型,檢索問題實際上等價于分別估計查詢語言模型θq和文檔語言模型θd,并以兩個模型之間的KL距離衡量查詢和文檔的相關(guān)度。

準確估計查詢意圖模型θq是個性化信息檢索的關(guān)鍵??紤]到用戶提交的查詢難以足夠清晰表達查詢意圖,而用戶歷史包含用戶個人的興趣信息,它有利于當前查詢意圖的準確理解。因此,我們對用戶查詢意圖建模時考慮了用戶提交的查詢和用戶的歷史興趣,見式(2)。

(2)

式(2)中,ω表示一個詞,θq表示根據(jù)用戶提交的查詢而估計的查詢語言模型,θhistory表示根據(jù)用戶歷史而估計的歷史興趣模型。

用戶歷史興趣由長期興趣和短期興趣兩部分組成,見式(3)。用戶長期興趣代表持續(xù)一段時間的興趣,用戶短期興趣代表瞬間興趣。

(3)

式(3)中,θshort表示根據(jù)短期點擊歷史的網(wǎng)頁內(nèi)容而估計的短期興趣模型,p(ω|θshort)表示詞ω在短期興趣模型中的權(quán)重,θlong表示根據(jù)用戶的長期點擊文檔而估計出來的長期興趣模型,p(ω|θlong)表示詞ω在長期興趣模型中的權(quán)重。

將式(3)代入式(2)。于是,含有用戶長短期興趣的查詢意圖模型p(ω|θq)由用戶提交的查詢模型、用戶短期興趣模型、用戶長期興趣模型組成。也就是說,查詢意圖模型p(ω|θq)可改寫為式(4)。

(4)

式(4)中,a,?,γ分別表示用戶提交的查詢模型、用戶短期興趣模型、用戶長期興趣模型的重要性,它們的和為1。

這里,用戶長短期興趣采用一種直觀的線性組合方式進行結(jié)合,方便考量短期興趣模型、長期興趣模型以及二者結(jié)合對個性化信息檢索性能的影響。

3.2 長期興趣模型

長期興趣來自于用戶的長期歷史。長期歷史從第一個歷史查詢開始累積。如果當前查詢Qk是第k個查詢,那么長期歷史Hk指從第一個到當前查詢之前的歷史總和。中間某一次查詢和點擊分別表示為qi和Ci(1≤i≤k-1)。我們?yōu)槊總€用戶建立興趣模型,選擇了基于長期興趣建模的有代表性的方法做基線模型。按照文獻[15]介紹的方法,對長期歷史中的每次查詢建立一個歷史興趣模型單元θi,每個歷史興趣單元有對應的權(quán)重λi。以當前查詢Qk返回結(jié)果中前20篇文檔代替當前查詢,計算與各個歷史興趣模型θi的Cosine相似度作為該歷史興趣模型的權(quán)值λi。用戶的長期興趣模型由每個歷史興趣模型單元按照各自權(quán)重加和而成。如式(5)所示。

(5)

3.3 用戶短期興趣模型

用戶提交了一個查詢,檢索系統(tǒng)返回了檢索結(jié)果,用戶查看了部分網(wǎng)頁之后發(fā)現(xiàn)返回結(jié)果沒有滿足自己的信息需求,于是再次向檢索系統(tǒng)提交了一個查詢,如此往復,直到用戶的查詢需求得到滿足。該用戶在短時間內(nèi)提交的查詢和做出的點擊就構(gòu)成了用戶的短期歷史。如果當前查詢是用戶短期歷史中的第k個查詢Qk,那么短期歷史查詢指當前查詢之前的查詢Qi(1≤i≤k-1),短期歷史查詢所對應的點擊Ci(1≤i≤k-1)則構(gòu)成短期歷史點擊。用戶短期興趣模型p(ω|θshort)根據(jù)短期歷史點擊用語言模型進行估計。文獻[23]給出了基于短期興趣建模方法,如式(6)所示。

(6)

其中|Ci|表示某次歷史點擊的網(wǎng)頁內(nèi)容的長度,用詞數(shù)表示,tf(ω,Ci)表示詞ω在某次歷史點擊文檔Ci中出現(xiàn)的次數(shù)。

3.4 參數(shù)調(diào)整

個性化檢索中涉及很多參數(shù),例如,當前查詢模型和用戶歷史興趣模型的權(quán)重、偽相關(guān)反饋選取文檔數(shù)目、每個模型用多少個詞表示等等,這些參數(shù)對于最終的個性化信息檢索結(jié)果都有影響。為了確定查詢意圖模型中原始查詢模型權(quán)重和用戶歷史興趣模型的權(quán)重值,按照文獻[25]介紹的方法: 以0.1為步長在區(qū)間0到1之間進行線性搜索: 參數(shù)а,?,γ∈{0.1,0.2,…,0.9},并且滿足а+?+γ= 1。使訓練集合的檢索結(jié)果的MAP值達到最大的權(quán)重組合設定為模型測試時的參數(shù)。同樣,我們也對偽反饋的文檔數(shù)和詞數(shù)量進行了專門的訓練。偽反饋中的文檔數(shù)變化范圍為{5,10,15…50},詞的數(shù)量的變化范圍設定為{10,20…100}。

4 實驗數(shù)據(jù)和實驗設計

4.1 實驗數(shù)據(jù)和評價指標

實驗數(shù)據(jù)來自2007年3月31天的中文搜索日志*http: //www.sogou.com/labs/resources.html不存在的網(wǎng)頁和空網(wǎng)頁被過濾掉了。搜索日志中記錄了用戶的查詢和瀏覽信息,包括日期和時間、用戶ID、查詢、用戶點擊過的URL,點擊的URL在返回結(jié)果中的排序,用戶點擊次序。我們下載了日志記錄中所有用戶點擊過的網(wǎng)頁*http: //trec.nist.gov/,構(gòu)成了帶檢索文檔集合。

已知用戶的ID號、日期和時間可以得到該用戶一個月內(nèi)的查詢歷史和點擊歷史。根據(jù)點擊歷史將原始網(wǎng)頁下載并搜集整理,得到該用戶的點擊數(shù)據(jù)。這些數(shù)據(jù)組成候選實驗數(shù)據(jù)。

候選實驗數(shù)據(jù)按照如下標準進行篩選。

(1) 為保證測試查詢有長期點擊歷史,測試查詢必須由頻繁進行檢索的用戶所提交。頻繁檢索用戶指在一個月之中至少進行30次檢索的用戶。以每個用戶的最后一個查詢作為測試查詢;

(2) 為保證測試查詢確實存在相關(guān)文檔,用戶至少點擊過1篇文檔,并且該文檔確實存在于待檢索文檔集合中;

(3) 為了保證測試查詢存在個性化潛力,測試查詢必須被多個用戶提交過,并且不同用戶有不同點擊。

經(jīng)過這樣的篩選,我們的測試查詢有比較充分的歷史信息,針對不同的用戶需要檢索模型提供不同的檢索結(jié)果。最終獲得了180個測試查詢,平均每條查詢有51.67個長期點擊歷史。

測試查詢確定之后,測試查詢之前提交的所有查詢構(gòu)成長期查詢歷史,對應的點擊構(gòu)成了長期歷史點擊。而對于短期歷史,我們采用了實踐中的一種常用方法,即將與目標查詢最近的n次查詢歷史近似看作短期歷史,并在實驗中對n的范圍進行了初步探討。實驗數(shù)據(jù)統(tǒng)計信息見表1。

表1 實驗數(shù)據(jù)描述

我們以搜索日志中的用戶的真實點擊為查詢的答案,即相關(guān)文檔。實驗條件所限沒有對文檔的相關(guān)等級進行人工標注,因而不適合采用如NDCG等更加復雜的評價指標。我們以MAP(Mean Average Precision)為個性化檢索模型的評判標準,這是一種非插值的平均準確率計算方法,可以從整體上衡量檢索結(jié)果的精確程度。它也是文本檢索會議評測中一直使用的評價指標之一。

4.2 實驗結(jié)果及分析

實驗中我們把只考慮原始查詢的模型記作Query,把結(jié)合了短期興趣的查詢模型記為Query+short;把結(jié)合了長期興趣的查詢模型記為Query+long;把同時結(jié)合了長短期興趣的查詢模型記為Query+combine。我們比較上述幾個查詢模型的檢索結(jié)果。

我們采用三重交叉驗證方法驗證本文中提出的方法。全部數(shù)據(jù)隨機分成三份。每一次,2/3的數(shù)據(jù)用于訓練模型中的參數(shù),1/3的數(shù)據(jù)用于測試模型的檢索性能,每次訓練數(shù)據(jù)和測試數(shù)據(jù)不重合。這樣一共進行三次。三次測試結(jié)果合并組成了最終的測試結(jié)果。

我們以引入了長期興趣的個性化檢索模型Query+long為基線模型,與結(jié)合了長短期興趣的個性化檢索模型Query+combine進行對比。在上述實驗數(shù)據(jù)上比較長短期興趣結(jié)合前后檢索性能的變化。實驗結(jié)果如表2所示(t檢驗表明新模型與基線模型的差異是顯著的,p值為0.004)。

實驗結(jié)果顯示,只考慮用戶提交的查詢時檢索結(jié)果的MAP值為0.1402,用戶長期興趣或者短期興趣提高了檢索結(jié)果的質(zhì)量,相對于原始查詢的檢索結(jié)果,MAP分別提升了7.20%和8.06%;在長期興趣的基礎上比較結(jié)合短期興趣前后的檢索性能的變化,發(fā)現(xiàn)Query+combine模型MAP值相對升高了9.65%??梢姡脩襞d趣有利于準確理解當前的查詢意圖,當把長短期興趣結(jié)合的時候檢索質(zhì)量最高。

表2 個性化檢索結(jié)果對比

短期歷史在這里近似定義為與測試查詢時間距離最近的n(1≤n≤5)次查詢及其對應的點擊。n的取值不同,短期歷史信息的數(shù)量就不同。上述實驗中選取了與測試查詢最近的兩次查詢作為短期歷史。為了研究短期歷史的長度對于最終檢索性能的影響,我們對n取不同的值,重新計算短期興趣,同樣采用三重交叉檢驗,實驗結(jié)果如表3所示。

表3 不同短期歷史對原始查詢檢索模型的影響

實驗結(jié)果顯示,當n從1到5之間變化時,查詢結(jié)合短期興趣Query+short檢索性能均超過原始查詢的檢索性能(原始查詢的檢索結(jié)果的MAP為0.1402),而將長短期興趣結(jié)合Query+combine檢索性能進一步得到提升。當n取值為2時,查詢結(jié)合短期興趣Query+short檢索性能提升最大,查詢結(jié)合長短期興趣Query+combine檢索性能也提升最大。當n取值大于2的時候,查詢結(jié)合短期興趣Query+short、以及查詢結(jié)合長短期興趣Query+combine檢索性能的提升幅度變小??梢姡脩糸L短期興趣結(jié)合要比使用一種興趣模型產(chǎn)生更準確的檢索結(jié)果。在長期興趣和短期興趣結(jié)合的時候,并不是短期歷史查詢的數(shù)量越多檢索效果越好。

值得一提的是,通過訓練我們發(fā)現(xiàn)偽反饋通常取返回結(jié)果的前30至40篇文檔,從偽反饋提取30至50個詞左右,原始查詢的權(quán)重一般在0.7或者0.8,可見在整個查詢模型當中原始查詢占據(jù)著最重要的作用,用戶興趣對于當前查詢起到輔助和補充作用。

6 結(jié)論

個性化檢索根據(jù)用戶歷史興趣模型調(diào)整文檔排序而提供更加精準的檢索結(jié)果。本文探討了如何更加準確地構(gòu)建用戶歷史興趣模型來提升搜索用戶的個性化檢索體驗。與現(xiàn)有方法不同,我們將用戶長期興趣模型、短期興趣模型和查詢模型線性組合形成新的查詢模型。實驗數(shù)據(jù)表明,將長期興趣和短期興趣結(jié)合可以提升個性化檢索結(jié)果的質(zhì)量。

[1] Spink,B J Jansen,D Wolfram,T Saracevic.From E-sex to E-commerce: Web Search Changes. IEEE Comput. 2002,35(3): 107-109.

[2] Jaime Teevan,Susan T Dumais,Daniel J Liebling. To personalize or not to personalize: modeling queries with variation in user intent[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval.2008: 163-170.

[3] Ryen W White,Steven M Drucker. Investigating behavioral variability in web search[C]//Proceedings of the 16th international conference on World Wide Web. 2007: 21-30.

[4] Pitkow J,Schütze H,Cass T,et al[J].Communications of the ACM. ACM,New York,NY,45(9): 50-55.

[5] Biao Xiang,Daxin Jiang,Jian Pei,et al.Context-aware ranking in web search[C]//Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,New York,NY,2010: 451-458.

[6] 周博,岑榮偉,劉奕群,張敏等. 一種基于文檔相似度的檢索結(jié)果重排序方法在線全文. 中文信息學報,2010,24(3): 19-26.

[7] 蔣在帆,王斌. 基于用戶行為分析的個人信息檢索研究. 中文信息學報,2010,24(3): 9-12.

[8] David Sontag,Kevyn Collins-Thompson,Paul N. Bennett,et al.Probabilistic models for personalizing web search[C]//Proceedings of the fifth ACM international conference on Web search and data mining,2012: 433-442.

[9] Carsten Eickhoff,Kevyn Collins-Thompson,Paul N Bennett,et al. Personalizing atypical web search sessions[C]//Proceedings of the sixth ACM international conference on Web search and data mining. 2013: 285-294.

[10] Paul N Bennett,Ryen W White,Wei Chu,et al. Modeling the impact of short-and long-term behavior on search personalization[C]//Proceedings of the 35th international ACM SIGIR conference on Research and development in information retrieval,2012: 185-194.

[11] Matthew Richardson. Learning about the world through long-term query logs.Transactions on the Web(TWEB),2008,2(4): Article.

[12] Billsus D,Pazzani M. A hybrid user model for news story classification[C]//Proceedings of 7th International Conference on User Modeling. 1999: 99-108.

[13] Gui-rong Xue,Jie Han,Yong Yu. User Language Model for Collaborative Personalized Search. ACM Transactions on Information Systems,Vol. 27,No. 2,Article 11. 2009,27(2): Articlell.

[14] K Sugiyama,K Hatano,M Yoshikawa. Adaptive web search based on user profile constructed without any effort from users[C]//Proceedings of the 13th international conference on World Wide Web,2004: 675-684.

[15] Bin Tan,Xuehua Shen,ChengXiang Zhai. Mining long-term search history to improve search accuracy[J]//Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006: 718-723.

[16] 宋巍,張宇,劉挺,等. 基于檢索歷史上下文的個性化查詢重構(gòu)技術(shù)研究.中文信息學報,2010,24(3): 55-61.[17] Nicolaas Matthijs,Filip Radlinski. Personalizing web search using long-term browsing history[C]//Proceedings of the fourth ACM international conference on Web search and data mining,2011: 25-34.

[18] Rosie Jones,Benjamin Rey,OmidMadani,et al. Generating query substitutions[C]//Proceedings of the 15th international conference on World Wide Web,2006: 387-396.

[19] Smitha Sriram,Xuehua Shen,Chengxiang Zhai. A Session-based Search Engine[C]//Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. 2004.

[20〗 Xuehua Shen,Bin Tan,ChengXiang Zhai. Context-sensitive information retrieval using implicit feedback. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval,2005: 43-50.

[21] Huanhuan Cao,Daxin Jiang,Jian Pei,et al.Towards context-aware search by learning a very large variable length Hidden Markov Model from search logs[C]//Proceedings of the 18th International Conference on World Wide Web. 2009: 191-200.

[22] Zhicheng Dou,Ruihua Song,JiRong Wen. A large-scale evaluation and analysis of personalized search strategies[C]//Proceedings of the 16th international conference on World Wide Web,2007: 581-590.

[23] Thorsten Joachims. Optimizing search engines using clickthrough data[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining,2002: 133-142.

[24] Chengxiang Zhai,John Lafferty.Language modeling for information retrieval[C]//Proceedings of the tenth international conference on Information and knowledge management,2003: 403-410.

[25] Jianfeng Gao,Haoliang Qi,Xinsong Xia,et al. Linear discriminant model for information retrieval[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. 2005: 290-297.

Personalized Search by Combining Long-term and Short-term User Interests

WANG Xiaochun,LI Sheng,YANG Muyun,ZHAO Tiejun

(School of Computer Science and Technology,Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)

Personalized information retrieval tailors the ranking of documents by taking into account individual interests,which has long been recognized as promising in improving the search experience. In order to improve personalized retrieval performance,this paper presents a general method of combining long-term and short-term interest to improve the query model. Tested on a large-scale real search log of a commercial search engine,our method can capture the individual information needs more accurately and significantly outperforms the state-of-the-art method.

personalized information retrieval;long-term interests;short-term interests

王曉春(1982—),博士研究生,主要研究領(lǐng)域為信息檢索。E?mail:xcwang@mtlab.hit.edu.cn李生(1943—),教授,博士生導師,主要研究領(lǐng)域為信息檢索、機器翻譯。E?mail:lisheng@hit.edu.cn楊沐昀(1971—),副教授,碩士導師,主要研究領(lǐng)域為信息檢索、機器翻譯。E?mail:ymy@mtlab.hit.edu.cn

2014-09-11 定稿日期: 2015-05-28

國家自然科學基金(61105072 & 61272384);國家863計劃項目(2011AA01A207)

1003-0077(2016)03-0172-06

TP391

A

猜你喜歡
信息檢索文檔檢索
有人一聲不吭向你扔了個文檔
2019年第4-6期便捷檢索目錄
基于RI碼計算的Word復制文檔鑒別
醫(yī)學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
上饶市| 台中县| 轮台县| 忻州市| 安远县| 江阴市| 张掖市| 息烽县| 清丰县| 佛学| 德安县| 乳源| 长兴县| 黄冈市| 桃园市| 阿拉善左旗| 元谋县| 乳源| 盈江县| 苗栗市| 冕宁县| 湛江市| 安远县| 张家口市| 嘉峪关市| 五华县| 锡林浩特市| 望都县| 浪卡子县| 禄丰县| 九江市| 昆山市| 冀州市| 淳化县| 惠安县| 集安市| 封丘县| 永定县| 南澳县| 沾化县| 奉新县|