張振中,孫 樂,韓先培
(中國科學院軟件研究所 基礎(chǔ)軟件中心,北京 100190)
?
基于翻譯模型的查詢會話檢測方法研究
張振中,孫 樂,韓先培
(中國科學院軟件研究所 基礎(chǔ)軟件中心,北京 100190)
查詢會話檢測的目的是確定用戶為了滿足某個特定需求而連續(xù)提交的相關(guān)查詢。查詢會話檢測對于查詢?nèi)罩痉治鲆约坝脩粜袨榉治鰜碚f是非常有用的。傳統(tǒng)的查詢會話檢測方法大都基于查詢詞的比較,無法解決詞語不匹配問題(vocabulary-mismatch problem)——有些主題相關(guān)的查詢之間并沒有相同的詞語。為了解決詞語不匹配問題,我們在該文提出了一種基于翻譯模型的查詢會話檢測方法,該方法將詞與詞之間的關(guān)系刻畫為詞與詞之間的翻譯概率,這樣即使詞與詞之間沒有相同的詞語,我們也可以捕捉到它們之間的語義關(guān)系。同時,我們也提出了兩種從查詢?nèi)罩局泄烙嬙~翻譯概率的方法,第一種方法基于查詢的時間間隔,第二種方法基于查詢的點擊URLs。實驗結(jié)果證明了該方法的有效性。
查詢會話檢測;詞語不匹配問題;查詢?nèi)罩?/p>
近年來,大規(guī)模網(wǎng)絡(luò)查詢?nèi)罩镜目捎脼椴樵內(nèi)罩痉治鲆约坝脩粜袨榉治鎏峁┝诵碌臋C會,許多與搜索相關(guān)的應(yīng)用(如查詢推薦、查詢擴展以及查詢理解等)在很大程度上依賴于查詢?nèi)罩就诰騕1-2]。查詢會話檢測是查詢?nèi)罩就诰蛑械囊粋€重要問題,其主要目的是確定用戶為了滿足某個特定信息需求而連續(xù)提交的相關(guān)查詢[3]。由于其重要性,查詢會話檢測已經(jīng)得到學術(shù)與工業(yè)界的普遍關(guān)注[1,4-10]。
由于搜索引擎按照時間順序記錄用戶提交的查詢,因此查詢會話檢測可以描述為確定同一用戶提交的一系列連續(xù)查詢的意圖邊界。圖1給出了一個例子,查詢被分到三個會話中(虛線表示邊界)。
圖1 查詢會話檢測示例
兩種線索通常用來檢測查詢會話的邊界: 查詢的時間間隔以及查詢共享的詞語。由于計算查詢的時間間隔簡單方便,因此出現(xiàn)很多基于時間間隔的查詢會話檢測方法[5, 8, 11-12]。這類方法通過學習一個時間間隔來判斷兩個查詢是否屬于同一個查詢會話: 如果兩個查詢的時間間隔超過給定的閾值,則它們屬于不同的會話;反之則屬于相同的會話。雖然基于時間間隔的方法快速簡便,但這類方法忽略了查詢的具體內(nèi)容,所以通常不能取得很高的準確率[1]。
為了提高準確率,一些方法開始利用查詢的具體內(nèi)容。具體來說就是如果兩個查詢共享相同的詞語則它們屬于同一會話[9, 13-14]。例如,圖1中的查詢“NBA”和“NBA teams”共享相同的詞語“NBA”,所以它們屬于同一會話。由于考慮了查詢的具體內(nèi)容,這類方法通常比基于時間間隔的方法具有更高的準確率。然而,基于查詢內(nèi)容的方法無法解決詞語不匹配問題(vocabulary-mismatch problem)[15]。例如,它們會將圖1中的查詢“apple products”和“iphone”分到不同的查詢會話中,因為這兩個查詢之間沒有相同的詞語。為了解決詞語不匹配問題,很多方法通過引入外部資源(如搜索結(jié)果[12,16]、維基百科[17]等)來擴展查詢表示。然而這些基于外部資源的方法依賴于外部資源的質(zhì)量和覆蓋度。例如,維基百科只包含常用的概念,不能對大量的長尾查詢進行擴展。利用搜索結(jié)果對查詢進行擴展則依賴搜索結(jié)果的質(zhì)量,同時需要花費大量的時間進行處理,因此不適合實時應(yīng)用[7]。
本文提出了一種基于翻譯模型的查詢會話檢測方法,該方法將詞與詞之間的關(guān)系建模成詞之間的翻譯概率來解決詞語不匹配問題。通過這樣的方式,即使查詢之間不共享相同的詞語,也可以通過詞之間的翻譯概率來確定兩個查詢是否屬于同一會話。例如,我們的方法可以通過翻譯概率P(iphone|apple)=0.37確定“iphone”和“apple”屬于同一會話。為了獲得有助于查詢會話檢測的詞翻譯概率,我們提出了兩種方法可以有效地從查詢?nèi)罩局谐槿∮柧氄Z料,用來學習詞翻譯概率。第一種是基于查詢時間間隔的方法,另一種是基于查詢共同點擊URLs的方法。相比維基百科,從查詢?nèi)罩局谐槿〉挠柧氄Z料有很高的覆蓋性。我們對提出的方法進行了若干實驗,實驗結(jié)果表明我們的方法顯著地超過了基線方法。
本文的組織結(jié)構(gòu)如下: 第二節(jié)給出了基于翻譯模型的查詢會話檢測方法;第三節(jié)介紹如何從查詢?nèi)罩局袑W習詞翻譯概率;第四節(jié)給出實驗結(jié)果;第五節(jié)對本文進行總結(jié)。
本節(jié)將描述基于翻譯模型的查詢會話檢測方法。首先,我們利用兩個連續(xù)查詢間的詞匯模式確定它們的關(guān)系: (1)重復;(2)泛化;(3)具體;(4)改寫;(5)新查詢。如果兩個查詢之間的關(guān)系是前四種則將它們歸到同一會話中,如果它們的關(guān)系是最后一種,則用基于翻譯模型的查詢會話檢測方法進一步分析以判別它們是否屬于不同的查詢會話。
2.1 基于詞匯模式分類的查詢會話檢測
給定兩個連續(xù)查詢qi和qi+1,我們首先確定它們之間的詞匯模式。具體來說,分為以下五種類型。
(1) 重復。第二個查詢qi+1和第一個查詢qi完全相同,例如,qi=“NBA teams” ,qi+1=“NBA teams”;
(2) 泛化。第二個查詢qi+1是第一個查詢qi的子集,例如,qi=“NBA teams” ,qi+1=“NBA”;
(3) 具體。第一個查詢qi是第二個查詢qi+1的子集,例如,qi=“NBA” ,qi+1=“NBA teams”;
(4) 改寫。查詢qi和qi+1存在相同的詞語但是每個查詢都包含至少一個詞語是另一個查詢不包含的,例如,qi=“NBA teams” ,qi+1=“NBA player salary”;
(5) 新查詢。查詢qi和qi+1的關(guān)系不屬于以上任何一種則歸入新查詢關(guān)系,例如,兩個查詢沒有相同的詞語,如qi=“NBA teams” ,qi+1=“ Lakers”。
直觀上,前四類關(guān)系強烈提示著兩個查詢應(yīng)該屬于同一會話,因此我們將處于前四類關(guān)系的查詢歸入同一會話中。圖2給出了基于詞匯模式的查詢會話檢測示例,虛線表示查詢會話邊界。
然而由于詞語不匹配問題,基于詞匯模式的方法對于新查詢關(guān)系無法做出判斷,因為兩個查詢處于新查詢關(guān)系有可能屬于同一會話,如“NBA teams”和“Lakers”,也有可能屬于不同會話,如“NBA teams”和“Harry Potter”,因此我們需要對處于新查詢關(guān)系的查詢做進一步的分析。針對這一問題,我們提出基于翻譯模型的查詢會話檢測方法,通過查詢之間的語義關(guān)系來判斷處于新查詢關(guān)系的兩個查詢是否屬于同一會話。
2.2 基于翻譯模型的查詢會話檢測
正如上面描述的那樣,由于詞語不匹配問題,我們需要更多的信息對處于新查詢關(guān)系的查詢進行分析,判斷它們是否屬于同一會話。我們將詞語不匹配問題建模成詞語間的翻譯問題,而翻譯概率則反映了它們之間語義關(guān)系的緊密程度,概率越大說明語義越相關(guān)。本文從查詢?nèi)罩局袑W習詞之間的翻譯概率,具體細節(jié)將在第三節(jié)描述。
給定詞翻譯概率,我們可以通過如下過程計算查詢間的翻譯概率。假設(shè)用戶不滿意查詢qi的搜索結(jié)果,并依據(jù)如下過程產(chǎn)生查詢qi+1。
1) 用戶首先依據(jù)分布Φ(n|qi)產(chǎn)生查詢qi+1的長度n;
依據(jù)上面的生成過程,從qi到qi+1的翻譯概率P(qi+1|qi)為:
(1)
其中,m是查詢qi的長度。式(1)看起來有些繁瑣,但經(jīng)過變換可以寫成如下形式:
(2)
其中
圖3 查詢“NBA teams”生成“Lakers”的過程
給定查詢間的翻譯概率,則兩個查詢之間的語義相關(guān)度定義為
(3)
為了計算查詢間的語義相關(guān)度,我們還需要給出查詢qi產(chǎn)生查詢qi+1長度n的分布Φ(n|qi)。在本文我們假設(shè)該分布是以參數(shù)λ(qi)為均值的泊松分布,即
(4)
給定查詢間的相關(guān)度,我們設(shè)定一個閾值θ,如果相關(guān)度超過θ則兩個查詢屬于同一會話,否則屬于不同會話。算法1給出了基于翻譯模型的查詢會話檢測方法。
Algorithm1TranslationmodelbasedMethodforqueryses-siondetectionInput:twosecutivequeriesqi,qi+1Output:whethertheybelongtothesamesession1.ifpattern(qi,qi+1)isnotallocatedtotheNewpatternthen
翻譯模型的表現(xiàn)很大程度上依賴于參數(shù)λ(q)以及詞翻譯概率Ptr(wj|wi)。如果存在人工標注好的查詢會話訓練語料,我們就可以直接從訓練語料中估計這些參數(shù)。然而據(jù)我們所知,目前并不存在這樣大規(guī)模的訓練語料。同時人工標注查詢會話需要耗費大量的人力物力,代價較大,因此如何自動地構(gòu)建訓練語料至關(guān)重要,本節(jié)提出兩種自動構(gòu)建訓練語料的方法,隨后將描述如何利用這些語料訓練翻譯模型。
3.1 構(gòu)建訓練語料
在本節(jié)我們提出兩種自動構(gòu)建訓練語料的方法,第一種是基于時間間隔的方法,第二種是基于點擊URLs的方法。
3.1.1 基于時間間隔的方法
為了滿足同一信息需求,用戶通常在短時間內(nèi)連續(xù)提交一系列主題相關(guān)的查詢[8]。因此我們設(shè)定一個時間閾值并利用該閾值進行查詢會話檢測(即同一用戶提交的兩個查詢間的時間間隔小于給定閾值就認為它們屬于同一查詢)。我們將屬于同一會話的查詢對作為訓練語料。用這種方法獲得的訓練語料中存在一定的“噪音”(即主題不相關(guān)的查詢對,如(NBA, dog health)),但由于查詢?nèi)罩局胁煌脩籼峤幌嗤闹黝}相關(guān)的查詢對的次數(shù)比不相關(guān)的要多,所以“噪音”不會影響很大。例如,在查詢?nèi)罩局胁樵儗?NBA, NBA live)的出現(xiàn)次數(shù)遠多于(NBA, dog health)。為了降低“噪音”的影響,我們把在查詢?nèi)罩局谐霈F(xiàn)頻率低于一定閾值(本文設(shè)定為5)的查詢對從訓練語料中去掉。
為了確定一個合適的時間閾值,我們從2006 AOL數(shù)據(jù)集[19]中隨機抽取了1 600個查詢對,并人工標注每個查詢對是否是同一會話。然后我們找到能使F值最大的時間間隔作為閾值。圖4展示了不同時間間隔對應(yīng)的F值。從圖4中可以看到,當時間間隔為20分鐘時F值最大,因此我們采用20分鐘作為閾值。綜上所述,我們從查詢?nèi)罩局谐槿⊥挥脩暨B續(xù)提交的時間間隔不超過20分鐘并且共現(xiàn)次數(shù)超過五次的查詢對作為訓練數(shù)據(jù),一共抽取了1 515 535對,我們把這個訓練數(shù)據(jù)記作Corpus_TG。
圖4 使用不同時間間隔的F值
3.1.2 基于點擊URLs的方法
第二種構(gòu)建訓練語料的方法基于點擊URLs,基本假設(shè)是如果兩個查詢有很多相同的點擊URLs,則它們很可能共享相同的查詢意圖[20]?;谶@個假設(shè),我們把查詢表示成其點擊URLs的向量,然后計算查詢間的余弦相似度,對于每個查詢挑選相似度最大的前N(本文N=10)個查詢并和原查詢組成查詢對作為訓練數(shù)據(jù),通過這種方法我們共得到7 153 460個查詢對,我們把這個訓練數(shù)據(jù)記作Corpus_CL。
3.2 模型參數(shù)估計
使用上面的方法,我們構(gòu)建了兩個訓練數(shù)據(jù)集,每個數(shù)據(jù)集由若干查詢對組成{(qs1,qt1)…(qsN,qtN)}。本小節(jié)將描述如何使用訓練數(shù)據(jù)來訓練模型參數(shù)。
給定訓練數(shù)據(jù),我們通過最大化下面的對數(shù)似然函數(shù)來學習參數(shù)。
(5)
其中ni是查詢qti的長度。我們首先對參數(shù)λ(qsi)求導并將結(jié)果設(shè)為零,得到
(6)
其中δ是克羅內(nèi)克δ函數(shù)(當兩個參數(shù)相同時值為1否則為0)。從式(6)可以看出,λ(qsi)實際上就是訓練數(shù)據(jù)中緊隨查詢qsi后面的查詢的平均長度。然而訓練數(shù)據(jù)中不能包含所有查詢,當測試數(shù)據(jù)中出現(xiàn)訓練數(shù)據(jù)中不包含的查詢時,這個參數(shù)就無法用上述公式估計??紤]到用戶在連續(xù)提交相關(guān)的查詢時,查詢的長度通常不會變化很大,因此在本文中,如果查詢qi沒有出現(xiàn)在訓練數(shù)據(jù)中,設(shè)定λ(qsi)為qsi的長度。由于參數(shù)Ptr(t|w)沒有封閉解,我們使用EM算法學習參數(shù)Ptr(t|w)。表1展示了使用訓練語料Corpus_TG和Corpus_CL學習到的詞之間的翻譯,給定一個源詞語,我們依據(jù)翻譯概率列出了前五個概率最大的目標詞語,如表1所示。
表1 詞翻譯示例
注: 給定源詞語,每一列依據(jù)翻譯概率的大小列出了前5個目標詞語,TG和CL分別代表由訓練語料Corpus_TG和Corpus_CL學習得到的翻譯概率
4.1 測試數(shù)據(jù)和對比方法
為了測試提出方法的性能,我們從2006 AOL查詢?nèi)罩局须S機抽取179個用戶的8 854個查詢,并由三位標注者進行人工標注,共得到3 047個查詢會話(平均每個會話2.9個查詢)。我們使用以下四種方法作為對比方法。
(1) TIME_QSD[5]: TIME_QSD使用時間間隔來檢測會話。依據(jù)3.1節(jié)中的實驗,我們使用20分鐘作為閾值;
(2) CONTENT_QSD[14]: CONTENT_QSD通過詞語比較來檢測查詢會話,即如果兩個查詢共享相同的詞語則屬于同一會話,否則屬于不同會話。這個方法等價于我們方法的第一步;
(3) GEOMETRIC_QSD[8]: GEOMETRIC_QSD使用幾何插值技術(shù)將時間間隔和詞語比較結(jié)合起來進行會話檢測,當前兼顧性能和效率的最好方法之一;
(4) ESA_QSD: ESA_QSD是上述GEOMETRIC_QSD方法的擴展,在進行詞語比較的時候,通過ESA模型[21]使用維基百科對查詢進行顯式語義分析,然后使用幾何插值技術(shù)將時間間隔、詞語比較以及通過ESA得到的語義相關(guān)度結(jié)合起來進行會話檢測。
4.2 評價指標
我們使用文獻[6]中的指標來評價提出的方法以及對比方法,這些指標是: ERR、SER以及F-Measure,對于查詢會話檢測系統(tǒng)來說,F(xiàn)-Measure越高表明系統(tǒng)性能越好,SER和ERR越低說明系統(tǒng)性能越好。
4.3 實驗結(jié)果
我們使用上述的數(shù)據(jù)集和評價標準來測試我們的方法和對比方法,其中TRANS_TG表示在訓練語料Corpus_TG進行參數(shù)訓練的方法,TRANS_CL表示在訓練語料Corpus_CL進行參數(shù)訓練的方法。因為我們的方法需要設(shè)定相關(guān)度閾值θ,我們從數(shù)據(jù)集中隨機抽取10%的數(shù)據(jù)作為開發(fā)集用來確定θ,其余90%的數(shù)據(jù)作為測試語料。通過在開發(fā)集上的實驗,對TRANS_TG我們設(shè)定θ為0.05,對TRANS_CL設(shè)定為0.03。
表2展示了所有方法在ERR 和SER上的得分,表3給出了所有方法在準確率(precision)、召回率(recall)以及F-Measure上的得分。從這些實驗結(jié)果中我們可以得出以下結(jié)論。
1) 相比所有對比方法,我們的方法顯著地提升了性能。例如,相比TIME_QSD、CONTENT_QSD、 GEOMETRIC_QSD以及 ESA_QSD,TRANS_TG取得了10.14%、7.28%、3.18%以及2%的SER改善。在ERR以及F-Measure上,我們的方法也超過了對比方法。這表明了我們可以通過詞之間的翻譯概率來捕捉查詢間的關(guān)系,同時也表明了我們從查詢?nèi)罩局谐槿〉挠柧殧?shù)據(jù)可以有效地估計詞翻譯概率。
2) 相比CONTENT_QSD方法,我們的方法取得了3.51%的F-Measure提升、5.49%的ERR下降以及7.28%的SER下降。這表明我們的方法通過詞翻譯概率捕捉查詢間的關(guān)系在一定程度上可以解決詞語不匹配問題。
3) 相比ESA_QSD,我們的方法取得了1.2%的F-Measure提升、1.9%的ERR下降以及2%的SER下降。這表明相比維基百科,從查詢?nèi)罩局袑W習查詢間的關(guān)系對會話檢測更有效。主要是因為查詢中經(jīng)常包含一些維基百科中沒有的詞,這種情況ESA模型就無法對其進行映射,而我們的方法從查詢?nèi)罩局兄苯訉W習,相比維基百科具有高覆蓋性(即ESA無法進行映射的某些長尾查詢,我們的方法依然可以通過查詢?nèi)罩緦W習其翻譯概率)。
4) 我們方法的表現(xiàn)在很大程度上依賴于從訓練語料中學習的詞翻譯概率。相比TRANS_CL,TRANS_TG在三個指標上都取得了更好的表現(xiàn),這表明通過訓練數(shù)據(jù)Corpus_TG學習的詞翻譯概率更適合會話檢測。主要原因是通過時間間隔獲得的查詢對大部分都是屬于同一會話,從我們在測試語料上的實驗可以看到通過時間間隔得到的查詢對86.23%都屬于同一會話,而Corpus_CL通過點擊URLs來確定主題相關(guān)的查詢對,由于點擊URLs中存在一部分URLs與多個主題相關(guān)(如http://en.wikipedia.org 與體育、音樂、政治等主題都相關(guān)),因此通過點擊URLs確定的部分查詢對主題不相關(guān),這部分“噪音”影響了詞翻譯概率的學習。
表2 各方法在測試數(shù)據(jù)上的ERR和SER得分
注: 上標*表示結(jié)果在t檢驗的0.05水平上具有差異性
表3 各方法在測試數(shù)據(jù)上的準確率、召回率以及F值
4.4 時間效率分析
由于查詢會話檢測的時間效率對于實際應(yīng)用來說很重要,我們對提出的方法和對比方法進行了效率分析。表4給出了各個方法在桌面電腦上(2.66GHz CPU以及4GB RAM)處理一對查詢所需的平均時間。
表4 各方法處理一對查詢所需的平均時間
從表4可以看出,只使用單個線索的方法(TIME_QSD和CONTENT_QSD)速度最快。由于詞翻譯概率可以事先線下計算并存儲,而且查詢比較短,所以我們的方法耗時較少(所用時間是基于時間間隔方法的五倍)。相比而言,ESA_QSD效率最低(所用時間是基于時間間隔方法的16倍),主要原因是將每個詞映射到維基百科的概念并在這個巨大的概念空間中計算相似度。
4.5 處理詞語不匹配問題的表現(xiàn)
為了檢驗我們方法解決詞語不匹配問題的能力,我們構(gòu)建了一個新的數(shù)據(jù)集,該數(shù)據(jù)集包含450個查詢對,每一個查詢對中的兩個查詢屬于同一會話但沒有相同的詞語(如NBA teams和Lakers等),我們把這一個數(shù)據(jù)集記做VM。我們用這一個數(shù)據(jù)集對ESA_QSD、TRANS_TG以及TRANS_CL進行測試,使用的評價標準是準確率,計算公式如式(7)所示。
(7)
其中Nmethod是查詢會話檢測方法確定兩個查詢屬于同一查詢會話的查詢對數(shù)目,N是總共的查詢對數(shù)目(在我們的測試中N=450)。
圖5 TRANS_TG、 TRANS_CL和ESA_QSD在測試集VM上的準確率
圖5給出了三種方法在數(shù)據(jù)集VM上的準確率。從圖5中可以看到,TRANS_TG取得了最好的準確率(0.497 8),相比之下,TRANS_CL和ESA_QSD的準確率分別是0.462 2和0.4。相比ESA_QSD,TRANS_TG取得了9.78%的準確率提升,TRANS_CL取得了6.22%的準確率提升。這些結(jié)果表明我們的方法在一定程度上能解決詞語不匹配問題,同時在解決詞語不匹配問題上比基于維基百科的ESA方法更有效。
本文提出一種基于翻譯模型的查詢會話檢測方法,通過將詞之間的關(guān)系建模成詞翻譯概率來解決詞語不匹配問題。同時我們提出了兩種方法從查詢?nèi)罩局袑W習詞翻譯概率。實驗結(jié)果表明基于翻譯模型的查詢會話檢測方法比基線方法顯著地提升了會話檢測的性能。未來我們將進一步設(shè)計能夠更好地學習翻譯概率的方法,同時我們也準備在模型中引入更多的因素來提升系統(tǒng)的性能。
[1] Rosie Jones, Kristina L.Klinkner. Beyond the Session Timeout: Automatic Hierarchical Segmentation of Search Topics in Query Logs [C]// Proceedings of CIKM2008, 2008: 699-708.
[2] 余慧佳,劉奕群,張敏等.基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究 [J]. 中文信息學報,2007, 21(1): 109-114.
[3] Bernard J. Jansen, Amanda Spink, Chris Blakely, et al. Defining a Session on Web Search Engines [J], Journal of the American Society for Information Science and Technology, 2007, 58(6):862-871.
[4] Paolo Boldi, Francesco Bonchi, Carlos Castillo, et al. The query-flow graph: model and applications [C] // Proceedings of CIKM2008, 2008: 609-618.
[5] Doug Downey, Susan Dumais, Eric Horvitz. Models of searching and browsing: languages, studies, and application [C] // Proceedings of IJCAI, 2007: 2740-2747.
[6] Daniel Gayo-Avello. A survey on session detection methods in query logs and a proposal for future evaluation [J]. Information Sciences, 2009, 179(12):1822-1843.
[7] Matthias Hagen, Benno Stein, Tino Rüb. Query session detection as a cascade [C] // Proceedings of CIKM2011, 2011: 147-152.
[8] Daqing He, Ayse G?ker. Detecting session boundaries from Web user logs [C] // Proceedings of the 22nd Annual Colloquium on Information Retrieval Research, 2000: 57-66.
[9] Daqing He, Ayse G?ker, David J. Harper. Combining evidence for automatic Web session identification [J], Information Processing and Management, 2002, 38(5):727-742.
[10] 張磊,李亞男,王斌等. 網(wǎng)頁搜索引擎查詢?nèi)罩镜膕ession劃分研究 [J]. 中文信息學報, 2009, 23( 2): 54-61.
[11] Nikolai Buzikashvili, Bernard J. Jansen. Limits of the Web log analysis artifacts [C]//Proceedings of the Workshop on Logging Traces of Web Activity, WWW, 2006.
[12] Filip Radlinski, Thorsten Joachims. Query chains: learning to rank from implicit feedback [C]// Proceedings of KDD, 2005: 239-248.
[13] Tessa Lau, Eric Horvitz. Patterns of search: analyzing and modeling Web query refinement [C]// Proceedings of the Seventh International Conference on User Modeling, 1999: 119-128.
[14] Amanda Spink, Bernard J. Jansen, H. C. ?zmutlu. Use of query reformulation and relevance feedback by excite users [J], Internet Research: Electronic Networking Applications and Policy, 2000, 10(4): 317-328.
[15] Girill T R. Online access AIDS for documentation: a bibliographic outline [J]. ACM SIGIR Forum, 1985, 18(2-4):24-27.
[16] Xuehua Shen, Bin Tan, Chengxiang. Zhai. Implicit user modeling for personalized search [C]// Proceedings of CIKM, 2005: 824-831.
[17] Claudio Lucchese, Salvatore Orlando, Raffaele Perego, et al. Identifying task-based sessions in search engine query logs [C]// Proceedings of WSDM, 2011: 277-286.
[18] Craig Silverstein, hannes Marais, Monika Henzinger, et al. Analysis of a very large web search engine query log [J]. In SIGIR Forum, 1999, 33(1):6-12.
[19] Greg Pass, Abdur Chowdhury, Cayley Torgeson. A picture of search [C]// Proceedings of Infoscale, 2006: 1.
[20] Lin Li, Zhenglu Yang, Ling Liu, et al. Query-URL bipartite based approach to personalized query recommendation [C]// Proceedings of AAAI, 2008: 1189-1194.
[21] Evgeniy Gabrilovich, Shaul Markovitch. Computing semantic relatedness using Wikipedia-based explicit semantic analysis [C]//Proceedings of IJCAI, 2007: 1606-1611.
張振中(1983—),博士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘和信息檢索。E-mail:zhenzhong@nfs.iscas.ac.cn孫樂(1971—),博士,研究員,主要研究領(lǐng)域為信息檢索和自然語言處理。E-mail:sunle@nfs.iscas.ac.cn韓先培(1984—),博士,副研究員,主要研究領(lǐng)域為信息抽取、知識庫構(gòu)建以及自然語言處理。E-mail:xianpei@nfs.iscas.ac.cn
“第十五屆少數(shù)民族語言文字信息處理學術(shù)研討會”召開
2015年8月13—14日,由中國中文信息學會民族語言文字信息專委會主辦,延吉北亞信息技術(shù)研究所、中央民族大學、中國朝鮮語信息學會承辦的“第十五屆少數(shù)民族語言文字信息處理學術(shù)研討會”在吉林省延邊朝鮮族自治州延吉市召開。
今年適逢中國中文信息學會民族語言文字信息專委會成立暨全國少數(shù)民族語言文字信息處理研討會召開30周年。本屆會議得到了中國中文信息學會、教育部語言文字信息管理司、國家民委教科司、國家自然科學基金委員會、內(nèi)蒙古自治區(qū)民委、吉林省民委、延邊朝鮮族自治州等主管部門的大力支持,以及中國中文信息學會、延吉北亞信息技術(shù)研究所、中央民族大學等單位的真誠贊助!
本次會議共有來自全國各省市自治區(qū)的130余位代表參加,是歷屆“少數(shù)民族語言文字信息處理學術(shù)研討會”參與人數(shù)最多、投稿數(shù)量最多的一次會議。會議有幸邀請到中國工程院倪光南院士、吾守爾院士,中文信息學會理事長李生教授、秘書長孫樂研究員,北京大學俞士汶教授和王厚峰教授、清華大學孫茂松教授,中科院自動化所宗成慶研究員和趙軍研究員等眾多語言信息處理領(lǐng)域的知名學者,以及上海韜圖動漫科技有限公司的李秦女士,他們帶來了精彩的特邀報告,對國內(nèi)民族語言文字信息處理研究及應(yīng)用起到了很好的引導、規(guī)范及示范作用。
本屆大會的召開,進一步促進了各民族代表的學術(shù)研究和交流,以及民族語言文字信息化的發(fā)展,對建立中國少數(shù)民族語言資源的“統(tǒng)一規(guī)劃、統(tǒng)一建設(shè)、統(tǒng)一標準、統(tǒng)一平臺、資源共享”的機制具有積極的推動作用,對少數(shù)民族語言文字信息處理技術(shù)的交流與發(fā)展具有深遠的影響,會議取得了圓滿成功。
A Translation Model Based Method for Query Session Detection
ZHANG Zhenzhong, SUN Le, HAN Xianpei
(NFS, Institute of Software Technology, Chinese Academy of Sciences, Beijing 100190, China)
Query session detection is critical for query log analysis and user behavior characterization. It aims at identifying the consecutive queries submitted by a user for the same information need. Traditional query session detection methods are based on lexical comparisons, which often suffer from the vocabulary-mismatch problem(i.e, the topically related queries may not share any common words). To resolve the issue, this paper proposes a translation model based method for query session detection, which can model the relationship between words as word translation probability. In this way our method can capture the relatedness between queries even they do not share any common words. Furthermore, we also propose two approaches for generating training data from web query log for translation probability estimation. The first approach is based on time gap between queries and the second is based on the clicked URLs of queries. Experimental results show that our method can significantly outperform the baselines.
query session detection; vocabulary-mismatch problem; query log
1003-0077(2015)04-0095-08
2014-01-05 定稿日期: 2014-03-12
國家自然科學基金(61433015,61272324),國家高技術(shù)研究發(fā)展計劃項目(2015AA015405)
TP391
A