章露露 呂曉偉
摘要:查詢擴展是信息檢索領域重要研究內容。為了解決信息檢索過程中用戶提交查詢時描述不準確以及查詢詞不匹配的問題,提出一種基于Word2vec的語義查詢擴展方法。使用分布式神經語言概率模型Word2vec訓練低維詞向量,選取擴展詞候選集,利用面向擴展詞的查詢向量生成方法過濾候選集,使選取的擴展詞能更有效地體現(xiàn)整個查詢的語義及語法相關性。實驗結果表明基于Word2vec的語義查詢擴展方法使查全率及查準率均有提高,因此該方法能很好地應用于查詢擴展領域。
關鍵詞:查詢擴展;分布式神經語言概率模型;Word2vec;面向擴展詞;語義相關性
DOIDOI:10.11907/rjdk.181044
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2018)009004804
英文標題Semantic Query Expansion Method Based on Word2vec
--副標題
英文作者ZHANG Lulu,LV Xiaowei
英文作者單位( Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China)
英文摘要Abstract:Query expansion is an important research issue in the field of information retrieval.In order to solve the problem of inaccurate description and mismatch when users submit queries,we propose a new semantic query expansion method based on Word2vec.The distributed neural language probability model word2vec is used to train the low dimensional word vectors to select the expansion term anthology,and a new query vector generation method based on extended words is proposed to filter candidate sets,so that the selected extended words can be reflected more effectively in the semantic and grammatical correlation of the whole query.The experimental results show that the semantic query expansion method based on Word2vec has improved both the recall rate and the precision ratio.Therefore,the semantic query extension method based on Word2vec can be applied to the domain of query extension well.
英文關鍵詞Key Words:query expansion; distributed neural language probability model; Word2vec; expansion oriented words; semantic relevance
0引言
完整的信息檢索系統(tǒng)通常包括數(shù)據庫(數(shù)據庫中包含若干文檔),將每篇文檔與詞項相關聯(lián)的索引以及匹配機制,該機制由詞語組成的用戶查詢和相關文檔形成映射。建立信息檢索系統(tǒng)的主要目的是能在給定的索引數(shù)據庫中找到包含搜索者所需信息的文檔[1]。
傳統(tǒng)信息檢索系統(tǒng)處理用戶給定的查詢時,要求用戶描述精確并輸入查詢。但是通常情況下,用戶對想要查詢的信息并不能精確描述,因此信息檢索系統(tǒng)可能會返回大量非預期的結果,導致“詞典問題”(Dictionary Problem)[23]。想要解決詞典問題,用戶需要在提交查詢時使用足夠多的關鍵詞描述搜索內容,信息檢索系統(tǒng)才能返回滿意的結果。但是據調查顯示,用戶更傾向于少量關鍵詞搜索[4]。根據Encarta在線百科全書網站兩個月的用戶查詢日志表明,49%的用戶在描述查詢時僅使用一個單詞,33%的用戶查詢時使用兩個單詞,描述查詢的平均單詞只有1.4個[3,5],因此通過增加查詢關鍵詞的數(shù)量解決詞典問題在實際應用中意義不大。
除了用戶對查詢描述不精確的影響因素外,查詢詞不匹配也是影響查詢效率的一個不可忽略的因素。由于信息在當前系統(tǒng)中都是以字、詞或者詞組的形式表示,所以只有當文檔包含用戶查詢的信息時才能被檢索出來[6]。但是在自然語言中,一般對同一個概念的表達方式有多種,例如用戶查詢“automobile”時,包含“FORD”、“car”等也都與查詢直接相關,這種情況下即使用戶提出了準確的查詢描述,可由于還有其它不同表達方式[6],也會導致一些文檔不能被檢索出來,影響查詢結果。
1查詢擴展相關研究
由于用戶描述不準確和查詢詞不匹配問題,用戶有時不得不使用足夠多的詞描述查詢或是變換查詢詞才能找到所需信息。為了減輕用戶查詢負擔,信息檢索系統(tǒng)可以自動選擇一些與用戶查詢關鍵詞相關的其它詞項加入到原查詢中,從而組成更長、更全面的查詢,這種輔助查詢即為查詢擴展技術。在信息檢索領域,目前的查詢擴展方法主要分為基于語義知識詞典的方法、全局分析方法以及局部分析方法。
1.1基于語義知識詞典的方法
基于語義知識詞典的方法根據基于語義的語言學知識構建擴展詞表[79],選出與查詢詞存在一定語義關聯(lián)的詞進行擴展。該方法一般借助大規(guī)模的手工詞典,如通過WordNet、HowNet等選取查詢詞的上下義詞、同義詞,但是過分依賴完備的語義體系,而且獨立于待檢索的語料集,因此選出來的擴展詞難以反映語料集特性。
1.2全局分析方法
全局分析查詢擴展方法[10]首先對全部文檔中的詞或詞組進行相關分析,計算每對詞的關聯(lián)程度,然后再將與查詢詞關聯(lián)性最高的詞加入到初始查詢中生成新的查詢。該方法可以最大限度探求詞之間的關系,特別是在建立詞典之后能以較高的效率進行擴展,但是當文檔很大時,詞典要建立全部的詞關系不論在時間還是空間上都不可行,而且改變文檔集的更新的代價也很大。
1.3局部分析方法
局部分析方法[1112]主要利用二次檢索方法解決擴展問題,利用初次給定的查詢直接檢索,得到與原查詢最相關的 n 篇文檔作為擴展詞來源,在n篇文檔里尋找與原查詢最相關的詞加入到初始查詢中并建立新的查詢。目前比較流行的基于局部分析的查詢擴展方法是偽相關反饋,它是在相關反饋[1314]的基礎上發(fā)展而來的。這兩種反饋的不同在于相關反饋對初次檢索的結果需要由用戶判定,將用戶認為的相關文檔作為擴展詞來源,而偽相關反饋不需要與用戶交互,直接將返回的前 n 篇文檔認為是相關文章。雖然局部分析方法是目前應用最廣泛的查詢擴展方法,但存在的問題是,對用戶的查詢進行初次檢索后,在返回的文檔中,如果排在前面的文檔與原查詢相關度不大時,容易將大量無關的詞加入查詢,造成“查詢漂移”問題。
近年來Word2vec技術在自然語言處理領域引起了眾多研究者的關注。 通過 word2vec提供的訓練模型得到的詞向量反映了自然語言中語義和語法關系,可以通過計算詞向量之間的余弦值判斷詞項之間相似性,因此可很好地用于查詢擴展。
2Word2vec模型介紹
Word2vec是Google在2013年開源的一種將詞表征為實數(shù)值向量的工具,主要利用兩個重要模型:CBOW模型(Continuous Bag-of-Words Model)和Skip-gram模型(Continuous Skip-gram Model),Mikolov[15]在文獻中給出了模型示意圖,如圖1所示。
從圖中可以看出,CBOW模型是利用詞語的上下文信息預測詞語,而Skip-gram模型正好相反,它利用詞語預測上下文。本文實驗使用CBOW模型,故下文僅介紹該模型。
CBOW模型的網絡結構包括3層:輸入層、投影層和輸出層,如圖2所示。①輸入層:包括當前詞語前后各c個詞;②映射層:將輸入層的每個詞語詞向量進行累加;
③輸出層:以語料庫所有詞語為葉節(jié)點的一個二叉樹。
3基于word2vec的語義查詢擴展方法
3.1問題定義
假設用戶初始的查詢預處理之后表示為Q={q1,q2,....,qn},擴展詞表為T,T中所有詞即為擴展詞集,記為Qexp。待檢索的文檔集為D,共有N篇文檔,D的詞匯表為V={v1,v2,....,vV}。對V中的每個詞項建立倒排索引,假設文檔集的倒排索引集為ID。擴展后新的查詢?yōu)镼new,在索引集中匹配包含Qnew的文檔,最后利用檢索模型計算并返回包含用戶查詢信息且相關度較高的文檔。
3.2擴展詞候選集選取
對于處理后的查詢Q={q1,q2,....,qn}生成一個初始擴展詞集,通過Word2vec訓練詞向量,計算向量間相似度,找到每個關鍵詞語義或語法相似詞,生成擴展詞候選集,將擴展詞候選集表示為C:
C=∪qi∈QKNN(qi)(1)
其中,KNN(qi)是與qi最相似的K個詞項集合。例如對預處理之后的查詢 Q={automobile,maintenance}中的兩個關鍵詞,選擇K(K=5)個最相似的詞,如表1所示。表中擴展詞后面的數(shù)值表示與查詢關鍵詞的相似度。
3.3擴展詞表建立
C中所有候選詞選取的標準是各個查詢關鍵詞的相似詞,標注的相似度也只是與對應關鍵詞的相似度,不能體現(xiàn)與整個查詢的相關性。一般情況下,通過計算擴展詞與原查詢的平均余弦相似度評估與擴展詞和整個查詢的相似度,計算公式如下:
sim(t,Q)=∑qi∈Qcos(t,qi)|Q|(2)
根據平均余弦相似度的高低對C中所有詞項重新排序、篩選擴展詞。但是對查詢詞qi的某個擴展詞而言,其它查詢詞對該擴展詞的影響不應該和qi對該擴展詞的影響相當,因此本文提出了一種面向擴展詞的查詢向量生成方法篩選擴展詞、從而建立擴展詞表的方法。該方法以擴展詞對應的查詢關鍵詞為中心,針對整個查詢生成一個查詢Q相對于該查詢關鍵詞的查詢向量,代替該查詢關鍵詞的向量,以此計算查詢詞對應的擴展詞與整個查詢的相似度,重新計算得到的相似度表示的是與Q的相似度,而不是與其對應關鍵詞的相似度,從而更能體現(xiàn)整個查詢的相關性。查詢Q相對于查詢關鍵詞qi的查詢向量生成方法如下:
vec(Qqi)=∑|Q|j=0vec(qj)*sim(qi,qj)(3)
其中vec(Qqi)表示查詢Q相對于qi的查詢向量,sim(qi,qj)表示qi和qj的相似度。
按式(4)計算C中qi對應的每個候選詞t與查詢Q的相似度:
sim(t,Q)=cos(vec(t),vec(Qqi))(4)
依此類推,不同查詢關鍵詞的擴展詞得到的都是其與整個查詢的相似度,然后根據相似度的高低再對C中所有擴展詞進行篩選,選取閾值范圍內的擴展詞構建擴展詞表,記為T。
綜上所述,得到本文建立擴展詞表的步驟如下所示:
輸入:初始查詢 維基百科語料庫
輸出:擴展詞集
Step1:利用word2vec的CBOW模型訓練維基百科語料庫,得到詞向量文件。
Step2:對Q中的每個關鍵詞qi,根據詞向量得到前K個最相似的詞,記為C。
Step3:forQ中的每個關鍵詞qi:
vec(Qqi)=∑|Q|j=0vec(qj)*sim(qi,qj)
生成Q相對于qi的查詢向量。
Step4:forC中的擴展詞t:
sim(t,Q)=cos(vec(t),vec(Qqi))
Step5:根據相似度對C中的候選詞重新排序,選取與整個查詢的相似度在指定閾值τ內的候選詞,建立擴展詞表T,得到擴展詞集Qexp 。
4實驗設計與結果
本文采用Jelinek Mercer的平滑算法[16]計算擴展后的查詢Qnew與文檔d的相關度R(Qnew,d)。
R(Qnew,d)=λR(Q,d)+(1-λ)R(Qexp,d)(5)
其中λ為調節(jié)參數(shù),R(Q,d)為原查詢與文檔的相關度,R(Qexp,d)為擴展詞集與文檔的相關度,計算公式如下:
R(Q,d)=∑w∈Qtfw,d·idfw(6)R(Qexp,d)=∑w∈Ttfw,d·idfw(7)
4.1語料訓練參數(shù)
本文使用Word2vec的CBOW模型訓練的語料庫選擇英文維基百科作為語料,訓練的詳細信息如表2所示。
4.2數(shù)據集及評測方法
實驗數(shù)據主要來自維基百科的英文語料集和Cran數(shù)據集。維基百科的英文語料集主要用于訓練詞向量,Cran數(shù)據集是一個包括查詢集、文檔集以及查詢-文檔的關聯(lián)集,用于評估查詢擴展性能。
其中查詢集中共包含365個查詢,文檔集中共有1400篇文檔,關聯(lián)集中是查詢-文檔關聯(lián)的標注。
采用的評測指標為查全率(Recall)和查準率(Precision):
Recall=檢索到的相關文檔數(shù)文檔集中與查詢相關的總文檔數(shù)×100%(8)
Precision=檢索到的相關文檔數(shù)檢索到的文檔總數(shù)×100%(9)
4.3檢索結果
根據式(5)的檢索模型計算用戶提交的查詢并返回檢索結果。本文對原始查詢預處理,去掉停用詞并進行詞干還原得到查詢Q。初始擴展候選集設定K值為10,相似度閾值τ=0.7,調節(jié)參數(shù)λ=0.6。按該方法計算擴展后的查詢與文檔的相關度并排序,選取前100個相關度較高的文檔對結果進行評估。實驗結果如圖3所示。
由圖3可以看出,與不擴展查詢方法進行比較,本文方法獲得了較好的效果。
5結語
本文提出的基于Word2vec的語義查詢擴展方法,通過神經網絡訓練模型的使用,與不進行擴展查詢方法相比,查詢效果明顯上升,但還有一些問題尚未解決,如擴展詞的個數(shù)設定多少效果最佳?預處理查詢時選取多少個詞進行擴展效果能達到最優(yōu)效果?CBOW模型訓練詞向量時窗口詞個數(shù)的不同對結果是否有影響?這些問題還需進一步的探索研究。
參考文獻參考文獻:
[1]CARPINETO C,ROMAMO G.A survey of automatic query expansion in information retrieval[J].ACM Computing Surveys,2012,44(1):150.
[2]FURNAS G W,LANDAUER T K,GOMEZ L M,et al.The vocabulary problem in humansystem communication[J].Communication of ACM,1987,30(11):964971.
[3]崔航,文繼榮,李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].軟件學報,2003,14(9):15931599.
[4]REICHERT M,LINCKELS S,MEINEL C,et al.Student's perception of a semantic search engine[C].Cognition and Exploratory Learning in Digital Age,2005:139147.
[5]WEN J R,NIE J Y,ZHANG H J.Clustering user queries of a search engine[C].Proceedings of the 10th International World Wide Web conference,2001:162168.
[6]張敏,宋睿華,馬少平.基于語義關系查詢擴展的文檔重構方法[J].計算機學報,2004,27(10):13951401.
[7]RICHARDSON R,SMEATON A.Using WordNet in a knowledgebased approach to information retrieval[EB/OL].http://pdfs.semanticscholar.org/af2b/62f6bd6ba5204ad00a24829ac49807f0a757. pdf.
[8]SMEATON A,BERRUT C.Thresholding postings lists,query expansion by wordword distances and POS tagging of Spanish text[C].Gaithersburg:the 4th Text Retrieval Conference,1996.
[9]MILLER G A,BECKWITH R,F(xiàn)ELLBAUM C,et al.Introduction to wordnet:an online lexical database[J].International Journal of Lexicography,1990,3(4):235244.
[10]田萱,杜小勇,李海華.語義查詢擴展中詞語——概念相關度的計算[J].軟件學報,2008,19(8):20432053.
[11]丁國棟,白碩,王斌.一種基于局部共現(xiàn)的查詢擴展方法[J].中文信息學報,2006,20(3):8491.
[12]吳秦,白玉昭,梁永禎.一種基 于 語 義 詞 典 的 局 部 查 詢 擴 展 方 法[J].南京大學學報:自然科學,2014,50(4):526533.
[13]BUCKLEY C,SALTON G,ALLAN J,et al.Automatic query expansion using SMART [C].Text Retrieval Conference,1994:6980.
[14]BAEZAYATES R A,RIBEIRO NETO B .Modern information retrieval[M].England:Pearson Education Limited,1999.
[15]MIKOLOV T,LE Q V,SUTSKEVER I.Distributed representations of words and phrases and their compositionality[C].Proceedings of NIPS,2013:31113119,
[16]ZHAI C,LAFFERTY J.A study of smoothing methods for language models applied to information retrieval[J].ACM Transaction on Information System,2004,22(2):179214.
責任編輯(責任編輯:江艷)