齊富民,謝曉堯,吳 靜
(貴州師范大學(xué)貴州省信息與計算科學(xué)重點實驗室,貴州貴陽550001)
如何使搜索結(jié)果快速準(zhǔn)確盡可能的符合搜索者的意圖,是現(xiàn)階段需要解決的問題。關(guān)于搜索意圖識別問題,前人已經(jīng)做過相關(guān)的研究,如文獻[1]中提出利用搜索上下文來預(yù)測用戶的搜索意圖,該方法雖在一定程度上可以達(dá)到用戶搜索意圖識別的目的,但是存在相關(guān)技術(shù)缺陷,如,當(dāng)使用上下文的方法來進行搜索意圖識別時,搜索結(jié)果將受前一次用戶的搜索關(guān)鍵詞的影響,若兩次搜索的原始意圖完全不同,那么后一次搜索結(jié)果的準(zhǔn)確率將大打折扣。文獻[2]中提出使用基于用戶搜索日志的方法,利用對用戶的搜索日志的分析來預(yù)測用戶的搜索意圖,該方法從用戶本身的搜索日志入手考慮,在一定程度上達(dá)到了搜索意圖識別的目的,但是在很多時候,簡單通過用戶的搜索日志來分析搜索意圖,不同的人具有不同的搜索習(xí)慣和需求且搜索出來的結(jié)果具有很強的主觀性,實驗結(jié)果表明該搜索意圖識別方法得到的搜索結(jié)果正確率不高。文獻[3]中提出基于決策樹的方法進行用戶搜索意圖識別,該方法雖然對搜索意圖識別有一定的幫助,但是在處理高緯度數(shù)據(jù)方面效率較低,且在查詢出的結(jié)果方面意圖覆蓋面不廣。如無法一次盡可能多的查詢出用戶想要的結(jié)果,只能依據(jù)決策樹的構(gòu)建來完成查詢操作,有一定的局限性。針對以上搜索引擎中對用戶搜索意圖識別研究中暴露出來的諸如搜索結(jié)果關(guān)聯(lián)影響、搜索意圖預(yù)測依據(jù)單一、搜索意圖預(yù)測模型范圍局限等問題,本文利用最小二乘支持向量機對開源的網(wǎng)絡(luò)爬蟲(nutch)爬取到數(shù)據(jù)進行預(yù)先歸類以及對用戶輸入進行處理,通過參考答案和學(xué)生給出答案的對比模式來解決分類意圖識別的問題。在此過程中對于最小二乘支持向量機的參數(shù)設(shè)置一直是研究的熱點[2-5],當(dāng)用戶在客戶端提交搜索關(guān)鍵詞時,服務(wù)器端通過對關(guān)鍵詞進行歸類預(yù)測,再從已經(jīng)歸類處理過的網(wǎng)頁文件中搜索出相關(guān)結(jié)果,最后將相關(guān)符合項列出來。如此,對用戶搜索意圖識別問題進行分解,即同樣的特征向量庫和分類技術(shù)分別用于網(wǎng)頁文件離線處理和用戶輸入處理。
本文利用最小二乘支持向量機(least squares support vector machine,LSSVM)解決用戶搜索意圖識別的問題,將LSSVM作為搜索意圖識別器,應(yīng)用于用戶搜索意圖識別模型中的網(wǎng)頁文件離線處理和用戶輸入處理兩個方面。
用戶的搜索意圖識別是指用戶訪問某一類數(shù)據(jù)資源或服務(wù)時,數(shù)據(jù)資源或服務(wù)的提供商有導(dǎo)向的為用戶提供其所需,是一種為用戶提供便捷的技術(shù)手段。目前用戶搜索意圖識別可歸結(jié)為幾種類型[8-10]:
查詢互動型:這種方式基于網(wǎng)頁機器人,用戶輸入指定的關(guān)鍵詞,網(wǎng)頁機器人提供與之相關(guān)的主題鏈接,其實質(zhì)是一種搜索服務(wù),不同點在于用戶可根據(jù)搜索結(jié)果和網(wǎng)頁機器人提供的糾正選項,通過人機交互達(dá)到識別搜索意圖的目的。
導(dǎo)航型:目前國內(nèi)搜索引擎提供商等都提供了綜合的信息導(dǎo)航服務(wù)網(wǎng)站,其將用戶經(jīng)??赡軙褂玫降木W(wǎng)站進行歸類,為用戶提供分類向?qū)В_(dá)到預(yù)測用戶搜索意圖的目的。
檢索型:這種就是我們常見的搜索引擎,其將相關(guān)的包含關(guān)鍵詞的網(wǎng)頁羅列出來,達(dá)到用戶搜索意圖識別的目的。
捆綁型:用戶在下載或查詢某數(shù)據(jù)資源時,資源提供商順帶在資源文件或包中捆綁相關(guān)的信息,猜測用戶搜索意圖。
本文的搜索意圖識別問題屬于檢索型,基于B/S架構(gòu),客戶端輸入關(guān)鍵詞后,服務(wù)器端對用戶的輸入根據(jù)自身已經(jīng)訓(xùn)練好的預(yù)測模型對客戶端的輸入進行預(yù)測,根據(jù)預(yù)測的結(jié)果從相關(guān)的主題中找出最為符合的項目送回客戶端。
支持向量機(support vector machine,SVM)[4,5]是Vapnik等人提出來的一種統(tǒng)計學(xué)VC維理論的機器學(xué)習(xí)方法,SVM可以將低維度不可分割的集合映射到高維度,進而在高維度找出線性可分的超平面。LSSVM是在SVM的基礎(chǔ)之上發(fā)展而來的。LSSVM用線性方程組的形式實現(xiàn)最終的決策函數(shù),提高了問題的求解速度,適用于大規(guī)模問題。其與SVM的不同點是:LSSVM引入的損失函數(shù)εi不同以及約束條件不同,如下所示[4]
此時滿足KKT條件,式(1)通過拉格朗日函數(shù)來求解,如下所示
對式(2)進行拉格朗日求解,此求解過程相當(dāng)于解線性方程組。
最終LSSVM算法的決策函數(shù)可以由式(3)表示[4]
式中:K(xi,xj)——核函數(shù),本文中利用的是RBF核函數(shù),其引入是為了解決當(dāng)文本的維度過高時,產(chǎn)生的維度災(zāi)難問題。本文利用LSSVM對語料庫中的語料進行分類識別并建立分類模型。首先將語料庫中的詞匯按照分類別進行詞頻統(tǒng)計,然后將統(tǒng)計結(jié)果歸一化處理,生成便于LSSVM處理的歸一化數(shù)據(jù),再將這些帶有分類標(biāo)識的向量集合作為訓(xùn)練樣本用于訓(xùn)練分類模型。最后將分類模型用于用戶輸入的歸類。
在LSSVM分類器中,分類的結(jié)果是否準(zhǔn)確以及分類器的泛化能力的大小受到分類器中核函數(shù)寬度參數(shù)以及對錯誤樣本容忍度參數(shù)的影響,故下面章節(jié)利用粒子群優(yōu)化算法尋找這兩個參數(shù)。
本文中使用粒子群優(yōu)化算法(particle swarm optimization,PSO)的目的主要是解決LSSVM的核函數(shù)參數(shù)和泛化參數(shù)設(shè)置問題。因為LSSVM參數(shù)設(shè)置的好壞影響到分類器分類準(zhǔn)確率,而分類器的準(zhǔn)確高低直接影響到用戶分類意圖識別的準(zhǔn)確率。下面從兩個方面對粒子群優(yōu)化算法進行敘述。
粒子群算法是由美國心理學(xué)家Kennedy和電氣工程師Eberhart等人于1995年提出的一種全局優(yōu)化進化算法,其基本思想源于對鳥類捕食行為的模擬[5]。
設(shè)粒子群的規(guī)模為S,其維度為D且在D維空間內(nèi)存在可能的最優(yōu)值,粒子移動的目的在于在找出全局空間中能使目標(biāo)函數(shù)的適應(yīng)值達(dá)到最優(yōu)極值點時所攜帶的參數(shù)值。第i個粒子的飛行位置用Xi={xi1,xi2,…,xij,…,xiD}表示,其中i=[1,s],j=[1,D],第j個粒子的飛行速度與方向用Vi={vi1,vi2,…,vij,…,viD,}表示,其中i=[1,s],j=[1,D]。全局有兩個記錄目標(biāo)函數(shù)的變量gbestc和gbestg,這是文章中支持向量機所需要尋優(yōu)的兩個參數(shù)。局部對應(yīng)兩個變量pbestc和pbestg。用這4個變量分別記錄目前最優(yōu)的全局變量和局部變量。粒子群優(yōu)化算法中的速度更新公式以及當(dāng)前位置的更新公式如下[9,10]
式(4)中
式中:w——慣性權(quán)值因子,用來控制全局搜索步長的能力。c1和c2——學(xué)習(xí)因子,c1和c2的大小表示粒子對全局或者局部的飛行速度和方向的偏好程度。r1和r2——兩個隨機數(shù),這兩個因子的加入使得速度變動更具備隨機性。
可以根據(jù)粒子群更新式(4),看出式(4)的第二項和第三項,除了受到c1和c2的影響外還受到兩個隨機參數(shù)的影響,這樣就削弱了c1和c2的影響,變成了一個近似概率性的問題,這樣計算出來的Vij(t)就有可能超出尋優(yōu)域的邊界值,這樣做的好處是減少陷入局部最優(yōu)的概率,但是帶來了新的參數(shù)越界問題,這將增加邊界搜索的聚集密度,從而造成尋優(yōu)不充分。
基于以上經(jīng)典PSO算法的分析,我們得知其主要存在兩個方面的問題:一方面,粒子群的尋優(yōu)粒子如果過少,尋優(yōu)將不充分。另一方面,尋優(yōu)域過大將導(dǎo)致陷入局部最優(yōu)的概率變大,且在陷入局部最優(yōu)時逃離局部最優(yōu)的過程有可能由于參數(shù)越界問題導(dǎo)致尋優(yōu)參數(shù)聚集到邊界上,從而造成找不到LSSVM所需的最優(yōu)參數(shù)。PSO算法在用戶意圖識別器LSSVM的參數(shù)選擇問題上,本文對PSO的尋優(yōu)策略從局部最優(yōu)搜索和全局最優(yōu)搜索兩方面進行了改進。
(1)局部搜索改進
局部搜索的改進主要是為了解決粒子在逃離局部最優(yōu)時攜帶參數(shù)的越界問題。為了后面的敘述方便,將后期需要用到的內(nèi)容定義如下:
定義 設(shè)粒子群移動的次數(shù)稱為尋優(yōu)代數(shù),用N表示。尋優(yōu)的范圍稱為尋優(yōu)域,用D∈[xi,xj]表示。xi,xj表示第i個需要尋優(yōu)參數(shù)的尋優(yōu)邊界的最小值以及尋優(yōu)邊界的最大值。粒子群每一次移動的長度,用di表示。每次實際移動的長度,用dci表示。
式(4)中隨機函數(shù)的引入,使得速度更新的大小和方向的變化變得不可測。如果此時速度超出了尋優(yōu)域邊界,那么在更新粒子群當(dāng)前位置的時候,粒子群將超出尋優(yōu)域邊界。為了解決這個問題,傳統(tǒng)的做法是使得超出邊界的粒子攜帶的參數(shù)等于邊界,這樣當(dāng)超出邊界的粒子過多時就會造成邊界聚集的現(xiàn)象,浪費尋優(yōu)機會。本文的做法是引入sigmoid函數(shù)利用將原本成比例的數(shù)據(jù)映射到[0,1],仍然保持了一定的比例關(guān)系,在超出邊界時不是人為地將參數(shù)設(shè)置在邊界上,而是動態(tài)地進行更改,sigmoid函數(shù)如下所示
依據(jù)以上思路,本文將PSO算法的位置更新式(4)中的w變換成式(6)所示
式(6)可以看到dci=[0,1],此時如果單純的用dci表示速度大小和方向可以得知sigmoid函數(shù)永遠(yuǎn)為正,粒子群只能向正方向運動。此時我們將式(4),變換成式(7)所示
通過式(7)可以得出dci將在一個有正有負(fù)的區(qū)域上運動,這樣規(guī)約出來后速度具備大小的同時也擁有了方向,其圖形如圖1所示。
圖1 粒子速度規(guī)約
從圖1可以看出,這種規(guī)約方式步長在參數(shù)的最大值和最小值所對應(yīng)的sigmoid函數(shù)之間,因為其尋優(yōu)步長細(xì),搜索精細(xì),故適合局部尋優(yōu)。
(2)全局搜索的改進
全局搜索改進的目的主要在于解決粒子群搜索不均勻問題以及針對不同問題粒子群數(shù)目確定的問題。為了解決這些問題,本文將粒子群的尋優(yōu)域進行分割,如圖2所示。
圖2 全局步長的解決方案
從圖2可以看出改進型PSO算法將原始的尋優(yōu)問題轉(zhuǎn)化為分散的多個子尋優(yōu)問題進行求解,這樣不僅可以解決前面全局搜索分析中遇到的問題,而且可以將大問題分割化,便于后期工作的拓展(如分布式計算)。
對于用戶的搜索意圖識別問題,如果站在服務(wù)器存儲數(shù)據(jù)以及數(shù)據(jù)檢索的角度來看。其目的是將輸入文本進行歸類預(yù)測,使得預(yù)測的結(jié)果與檢索數(shù)據(jù)庫中某一類別搜索結(jié)果盡量吻合,進而在吻合的類別中進行全文檢索,從而達(dá)到提升用戶搜索體驗的目的。文中搜索引擎用戶輸入意圖識別分為兩部分,一部分是服務(wù)器端網(wǎng)頁文件離線分析,另一部分是在線的用戶輸入意圖預(yù)測。只有這兩部分的預(yù)測結(jié)果吻合才能夠提升體驗效果。本文整個搜索引擎的架構(gòu)如圖3所示。
圖3 分類器在搜索引擎中的應(yīng)用
圖3與一般的搜索引擎的模型不同點在于:首先,架構(gòu)中加入了基于PSO-LSSVM的網(wǎng)頁文件離線處理器和搜索意圖識別器,這兩個部件是用戶搜索意圖識別問題的兩個組成部件。其次,為了更好的使預(yù)測器準(zhǔn)確率不斷提升,本文在搜索架構(gòu)中加入了語料特征提取器,用于語料特征庫的自學(xué)習(xí),語料特征庫的不斷擴大,分類器的分類準(zhǔn)確率越高?;赑SO-LSSVM的網(wǎng)頁文件離線處理器主要解決離線文件歸類問題(相當(dāng)于考試中給出參考答案的過程);搜索意圖識別器主要解決用戶輸入意圖識別的問題(相當(dāng)于考試中學(xué)生給出自己答案的過程)。只有當(dāng)兩個部件的處理結(jié)果相吻合時,才能夠發(fā)揮這種搜索架構(gòu)的優(yōu)越性,達(dá)到用戶搜索意圖識別的目的。最后,在用戶輸入的后端加入了關(guān)鍵詞分發(fā)器和搜索比較處理器,這兩個處理器的目的在于當(dāng)語料特征庫中的特征不完備時,根據(jù)搜索比較器的處理結(jié)果將搜索結(jié)果進行排序,這樣在不失去普通搜索引擎優(yōu)勢的前提下可以達(dá)到用戶搜索意圖識別的目的,從而提高用戶搜索體驗。
文件離線分析其歸類是否準(zhǔn)確關(guān)系到搜索意圖判斷的準(zhǔn)確率。本文對此問題進行了相應(yīng)的探討,先對爬蟲抓取回來的結(jié)果進行預(yù)處理,其中很重要的一個步驟就是文本分類處理,在這篇文章中引入了改進型粒子群算法結(jié)合LSSVM來對抓取頁面進行分類。因為爬蟲抓取的數(shù)據(jù)量較大[6-8],故在線分類處理時顯然不合適的,因此在提供搜索服務(wù)時采取離線方式進行,將分類結(jié)果存入檢索數(shù)據(jù)庫,為用戶輸入意圖預(yù)測提供對比。文件離線分析的步驟如下:
(1)通過爬蟲獲取網(wǎng)頁文件到本地,對文件按照類別特征庫提取出相應(yīng)的特征字符,存放于特征文件中。
(2)對特征文件進行歸一化處理,對各特征文件中的特征項進行統(tǒng)計后歸一化到[0,1]區(qū)間,并將歸一化結(jié)果建立特征向量存放于數(shù)據(jù)庫中。
(3)利用改進型PSO-LSSVM算法對訓(xùn)練樣本進行建模得到模型用A表示。
(4)用得到的模型A,將數(shù)據(jù)庫中的歸一化特征向量進行分類預(yù)測,將相應(yīng)的網(wǎng)頁文件在數(shù)據(jù)庫中建立索引,設(shè)置相應(yīng)的網(wǎng)頁類別為預(yù)測到的類別,至此網(wǎng)頁文件離線處理完畢。
處理過程圖形如圖4中抓取網(wǎng)頁文件離線處理器部分所示。
圖4 搜索意圖識別
從圖4可以看出用戶搜索意圖識別依賴于分類模型,如果分類模型不準(zhǔn)確則提升用戶搜索體驗的效果就有限。
當(dāng)用戶在鍵入搜索關(guān)鍵詞進行搜索時,如果預(yù)先可以得知關(guān)鍵詞的所屬類別,那么就可以根據(jù)相應(yīng)的類別最大限度查找出最優(yōu)匹配的結(jié)果。用戶輸入意圖的識別,需要兩部分相結(jié)合,一部分是用戶輸入的識別(相當(dāng)于客戶端輸入識別),另外一部分是離線的文件分類(相當(dāng)于服務(wù)器數(shù)據(jù)識別),用戶輸入意圖預(yù)測器的工作步驟如下:
步驟1 用戶通過人機接口界面輸入搜索關(guān)鍵詞。將接受到的關(guān)鍵詞送入關(guān)鍵詞分發(fā)器,由關(guān)鍵詞分發(fā)器將關(guān)鍵詞分發(fā)至預(yù)測器和常規(guī)檢索器。
步驟2 搜索引擎接受來自分發(fā)器傳入的搜索關(guān)鍵詞,將數(shù)據(jù)送入中文分詞器進行處理,中文分詞器將搜索關(guān)鍵詞進行切分處理,在中文分詞器切割的過程中結(jié)合詞庫等輔助切割,提高切割準(zhǔn)確率。
步驟3 用戶輸入預(yù)測器接受來自步驟2的處理結(jié)果,對其切割結(jié)果聯(lián)合特征數(shù)據(jù)庫進行統(tǒng)計分析,根據(jù)特征數(shù)據(jù)庫提取出特征向量,將前一步的輔助搜索詞進行記錄。特征值提取以及詞頻歸一化步驟如下:
(1)詞頻統(tǒng)計:實驗中將語料庫中的教育類、汽車類、財經(jīng)類、IT等幾大類別的語料進行詞頻統(tǒng)計,設(shè)用xi表示以上類別中的第i個類別,如xi表示教育類。
(2)歸一化處理:設(shè)m個樣本有n個指標(biāo),則可以利用(1)中的類別詞頻生成詞頻矩陣Xij,其中i=[1,m],j=[1,m]。本文利用Z-score方法對數(shù)據(jù)進行歸一化操作,如下所示[11-15]
(3)特征向量獲取:首先依據(jù)(2)獲取的歸一化數(shù)據(jù),獲取各個指標(biāo)的相關(guān)性矩陣R,如下所示
式(9)中
(4)依據(jù)相關(guān)矩陣R確定主成分,求解其特征根與特征向量。
(5)確定主成分的個數(shù),依據(jù)所求得的方差貢獻率來確定,特征詞匯的個數(shù)依據(jù)滿足式(10)的k來確定
式中:λg——式(4)中所求特征根。
步驟4 如果用戶輸入的關(guān)鍵詞較短,則先將用戶的輸入從索引數(shù)據(jù)庫中進行全文檢索,將結(jié)果暫存。如果用戶輸入的搜索關(guān)鍵詞比較長,那么依據(jù)特征向量,利用用戶輸入預(yù)測部件中的LSSVM特征向量映射器來分析出用戶輸入是屬于哪一個領(lǐng)域,得到所屬領(lǐng)域標(biāo)識之后,在該領(lǐng)域的索引數(shù)據(jù)庫中進行全文檢索。將結(jié)果暫存,便于優(yōu)先顯示相關(guān)領(lǐng)域的全文匹配結(jié)果。
步驟5 用戶輸入預(yù)測器的檢索器部分按照步驟4的結(jié)果,從相關(guān)領(lǐng)域中檢索出用戶想要的網(wǎng)頁文件。并依據(jù)分類結(jié)果優(yōu)先顯示分類結(jié)果中全文匹配數(shù)據(jù),送給搜索比較處理器進行處理。
步驟6 搜索比較處理器接收到常規(guī)搜索和搜索意圖識別器的處理結(jié)果后對其結(jié)果進行比較,將意圖識別器匹配度較高的放在最前顯示,其后顯示常規(guī)搜索中最匹配的網(wǎng)頁鏈接,至此,完成用戶搜索意圖識別的任務(wù)。
步驟1 訓(xùn)練集的獲取
文章中使用的訓(xùn)練樣本是基于搜狐研發(fā)中心的搜狗詞庫(該詞庫是搜狗實驗室提供的開放式詞庫,該版本有157202條詞目,分為N名詞、V動詞、ADJ形容詞、ADV副詞、CLAS量詞、ECHO擬聲詞、STRU結(jié)構(gòu)助詞、AUX助詞、COOR并列連詞、CONJ連詞、SUFFIX前綴、PREFIX后綴、PREP介詞、PRON代詞、QUES疑問詞、NUM數(shù)詞、IDIOM成語等17種詞性組成)結(jié)合開源分詞庫對搜狐研發(fā)中心的搜狗文本語料庫(該語料庫是搜狗實驗室提供的基于搜狐分類目錄手工編輯的網(wǎng)頁分類結(jié)果組織成的網(wǎng)頁、分類結(jié)果及基準(zhǔn)分類算法在內(nèi)的綜合數(shù)據(jù)集合)里面的C00020教育、C000007汽車、C000008財經(jīng)、C000010 IT幾大類別進行分詞、量化得到訓(xùn)練樣本。
本實驗對搜狗語料庫中所有教育類語料進行詞頻統(tǒng)計以及特征抽取,抽取了教育類特征詞匯諸如:課程、必修課、選修課、課程表、課堂討論、畢業(yè)典禮、畢業(yè)論文等,本文分別用1,2,3,4,5,6,7表示。教育類特征向量構(gòu)成示意見表1。
表1 教育類訓(xùn)練集量化樣本
表1是本實驗從語料庫中抽取的教育類語料經(jīng)過詞頻統(tǒng)計后用式(8)將其歸一化后的部分結(jié)果,表中的數(shù)據(jù)越接近1表示該詞匯在該欄目中出現(xiàn)的次數(shù)越多。
步驟2 測試集的獲取
為了使實驗數(shù)據(jù)更加具有科學(xué)性,實驗采用Nutch將web站點上的頁面抓取下來后,利用基于搜狗詞庫以及開源分詞庫將文本進行分詞與校正,這樣處理后的數(shù)據(jù)融合語料庫中的數(shù)據(jù)作為測試集。
利用提取出來的特征向量對模型實施測試,因為LSSVM處理的是二分類問題,故文章的實驗中將LSSVM運用多次,將類別兩兩比較,迭代的方式用于多分類問題的處理。
步驟3 分類模型的建立
對表1中樣本數(shù)據(jù)建立分類模型(LSSVM),其最優(yōu)分類間隔參數(shù)是不斷通過用PSO算法來尋找的,直到分類錯誤率控制在可接受的范圍內(nèi)為止(根據(jù)本問題實際情況,本文容錯率設(shè)置為0.08%)。
步驟4 測試集對訓(xùn)練好的模型進行測試,測試使用交叉檢驗的辦法,將訓(xùn)練集分成若干份進行交叉檢驗,以保證模型的推廣性。
由于實驗的處理計算量大而且處理時實時性要求不高,故實驗采用離線訓(xùn)練的方式。
(1)改進后的粒子群最小二乘支持向量機結(jié)果比較
文中搜索意圖識別的效果依賴于分類效果,為了突出實驗效果,首先使用普通的支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)分類器、普通的PSO-LSSVM以及本文改進后的PSO-LSSVM等算法,對同樣規(guī)模的文章進行分類效果比較,首先將訓(xùn)練集分為6等,每一等級的文章數(shù)量不同,實驗中分別取10,50,150,200,500,1000進行對比,總體的訓(xùn)練樣本每一等級都從訓(xùn)練樣本中取3份相同大小的集合用于交叉檢驗,第一次訓(xùn)練時,用第一和第二份作為訓(xùn)練集,第三份作為測試集;第二次訓(xùn)練時,用第二份作為測試集,第一和第三份作為訓(xùn)練集;第三次訓(xùn)練時,用第二和第三份作為訓(xùn)練集,第一份作為測試集。實驗的對比結(jié)果見表2。
表2 改進型PSO-LSSVM 與其它分類算法用于文本分類的對比
表2中LSSVM(2)表示的是改進后的PSO-LSSVM,LSSVM(1)表示的是為改進前的PSO-LSSVM算法,NNs是神經(jīng)網(wǎng)絡(luò),SVM表示普通的支持向量機。
根據(jù)表2實驗結(jié)果,將實驗數(shù)據(jù)進一步進行分析,得到SVM,NNs,LSSVM(1),LSSVM(2)效果對比情況,見表3。
從表3可以看出SVM的分類效果不盡理想,這種現(xiàn)象的發(fā)生在于人為選取參數(shù)的不合理。NNs與LSSVM(1)的平均適應(yīng)度都不如改進后的PSO-LSSVM。
(2)分類結(jié)果與用戶分類意圖識別的關(guān)聯(lián)性實驗
從搜狗語料庫中隨機抽取文章,依據(jù)分類特征庫結(jié)合分詞工具摘取文章中的關(guān)鍵詞進行詞頻統(tǒng)計以及歸一化處理,利用本文的搜索模型進行測試搜索,我們得到一個關(guān)于文章分類準(zhǔn)確率與用戶搜索意圖是否匹配以及搜索時間等方面關(guān)系表,見表4。
表3 SVM,NNs,LSSVM(1),LSSVM(2)交叉分類準(zhǔn)確率對比
表4 分類準(zhǔn)確率,吻合度,查詢時間關(guān)系
表4中吻合度表示當(dāng)前搜索結(jié)果與用戶本身的搜索意圖吻合度,吻合度是依據(jù)用戶搜索后點擊鏈接和翻頁頻率計算出來的。從表4可以看出搜索關(guān)鍵詞與特征庫的匹配度高低影響到分類器的準(zhǔn)確率,平均匹配度越高,分類準(zhǔn)確率越高,其搜索出來的結(jié)果與用戶的期盼吻合度越高。經(jīng)過不同分類器的比較測試得知,用與神經(jīng)網(wǎng)絡(luò)相比支持向量機更加適合于用戶搜索意圖識別問題,實驗結(jié)果表明本文的PSO-LSSVM(2)分類準(zhǔn)確度最高,查詢結(jié)果的吻合度也最高,但是查詢時間略長。
本文提出將改進型PSO-LSSVM算法應(yīng)用于用戶搜索意圖識別,通過參考標(biāo)準(zhǔn)答案和學(xué)生答案相比較的模式來解決搜索意圖識別問題。與現(xiàn)有的搜索技術(shù)不同在于:使用改進后的PSO-LSSVM算法對服務(wù)器端的文本和用戶輸入進行領(lǐng)域類別標(biāo)記,服務(wù)器端按照標(biāo)記優(yōu)先從引擎中進行數(shù)據(jù)檢索。利用詞庫以及分詞技術(shù),將搜狗語料庫中的資源進行提取特征項并建立分類模型。將得到的模型用于用戶分類意圖識別。在優(yōu)先顯示全匹配的情況下,依據(jù)分類的結(jié)果顯示相關(guān)領(lǐng)域的內(nèi)容,從而提升用戶隨搜索效果的滿意度,這樣可以在既不影響傳統(tǒng)搜索架構(gòu)效果的同時提升用戶搜索體驗。
[1]Park K,Jee H,Lee T,et al.Automatic extraction of user's search intention from web search logs[J].Multimedia Tools and Applications,2012,61(1):145-162.
[2]Gupta V,Garg N,Gupta T.Search bot:Search intention based filtering using decision tree based technique[C]//International Conference on Intelligent Systems,Modelling and Simulation.IEEE,2012:49-54.
[3]WANG Daling,YU Ge,BAO Yubin,et al.Dynamically generalizing Web pages based on users'search intentions[J].Journal of Software,2010,21(5):1083-1097(in Chinese).[王大玲,于戈,鮑玉斌,等.基于用戶意圖的Web網(wǎng)頁動態(tài)泛化[J].軟件學(xué)報,2010,21(5):1083-1097.]
[4]JIANG Xue,SUN Le.Study on segmentation of user's query intents[J].Chinese Journal of Computers,2013,36(3):664-668(in Chinese).[江雪,孫樂.用戶查詢意圖切分的研究[J].計算機學(xué)報,2013,36(3):664-668.]
[5]Gu C,Zhang S,Xue X.Network intrusion detection based on improved proximal SVM[J].Advances in Information Sciences and Service Sciences,2011,3(4):132-140.
[6]Liu L,Yang S,Wang D.Particle swarm optimization with composite particles in dynamic environments[J].IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2010,40(6):1634-1648.
[7]Ojeda F,Suykens J A K,De Moor B.Low rank updated LSSVM classifiers for fast variable selection[J].Neural Networks,2008,21(2):437-449.
[8]Vokorokos L,BaláA,MadoB.Web search engine[J].Acta Electrotechnica et Informatica,2011,11(4):41-45.
[9]Ozmutlu S,Cenk Ozmutlu H,Spink A.Automatic new topic identification in search engine transaction logs using multiple linear regression[C]//Proceedings of the 41st Annual International Conference on System Sciences.IEEE,2008.
[10]CHEN Hua,LI Renfa,LIU Yufeng,et al.Algorithms recommend research on personalized search engine[J].Application Research of Computers,2010,27(1):49-53(in Chinese).[陳華,李仁發(fā),劉鈺峰,等.個性化搜索引擎推薦算法研究[J].計算機應(yīng)用研究,2010,27(1):49-53.]
[11]ZHOU Peng,WU Huarui,ZHAO Chunjiang,et al.Research and design of agriculture search engine based on Nutch[J].Computer Engineering and Design,2009,30(3):610-612(in Chinese).[周鵬,吳華瑞,趙春江,等.基于Nutch農(nóng)業(yè)搜索引擎的研究與設(shè)計[J].計算機工程與設(shè)計,2009,30(3):610-612.]
[12]WANG Feng,WANG Wei,ZHANG Jing,et al.Web crawler system based on Linux[J].Computer Engineering,2010,36(1):280-281(in Chinese).[王鋒,王偉,張璟,等.基于Linux的網(wǎng)絡(luò)爬蟲系統(tǒng)[J].計算機工程,2010,36(1):280-281.]
[13]HUANG Yuan,LI Bing,HE Peng,et al.Mashup services clustering based on tag recommendation[J].Computer Science,2013,40(2):167-171(in Chinese).[黃媛,李兵,何鵬,等.基于標(biāo)簽推薦的Mashup服務(wù)聚類[J].計算機科學(xué),2013,40(2):167-171.]
[14]WU Jieming,JI Dandan,HAN Yunhui.Research and design of vertical search engine for DCI based on Web[J].Computer Engineering and Design,2013,34(4):1481-1486(in Chinese).[吳潔明,冀單單,韓云輝.基于Web的DCI垂直搜索引擎的研究與設(shè)計[J].計算機工程與設(shè)計,2013,34(4):1481-1486.]
[15]LIU Yang,ZHANG Huaxiang.Improvement of Trust Rank algorithm based on combination of content features[J].Computer Engineering and Design,2013,34(4):1276-1279(in Chinese).[劉陽,張化祥.基于結(jié)合內(nèi)容特征的Trust Rank算法改進[J].計算機工程與設(shè)計,2013,34(4):1276-1279.]