石建國 ,薛玉倩,石彥芳
(1.河北軟件職業(yè)技術(shù)學院招生就業(yè)處 ,河北保定 071000 ;
2.河北軟件職業(yè)技術(shù)學院軟件工程系,河北保定 071000)
第一作者:石建國(1981-),男,河北永清人,河北軟件職業(yè)技術(shù)學院講師,主要從事搜索引擎、計算機智能、數(shù)據(jù)挖掘等方向的研究. E-mail:94794734@qq.com
摘 要:提出基于Agent的個性化元搜索引擎,將Agent技術(shù)與元搜索引擎技術(shù)相結(jié)合,較好地實現(xiàn)了搜索引擎的智能化,為用戶提供了一種良好的檢索解決方案.Agent具有的自主性、社會性、反應性和能動性等特性可提高系統(tǒng)的靈活性與智能性,可更好地根據(jù)用戶行為定制個性化模型,大大提升了用戶體驗,查全率與查準率得到改善.
關鍵詞:Agent;元搜索引擎;用戶興趣模型;MAS
DOI:10.3969/j.issn.1000-1565.2015.02.016
基于Agent的個性化元搜索引擎
石建國1,薛玉倩2,石彥芳2
(1.河北軟件職業(yè)技術(shù)學院招生就業(yè)處 ,河北保定071000 ;
2.河北軟件職業(yè)技術(shù)學院軟件工程系,河北保定071000)
第一作者:石建國(1981-),男,河北永清人,河北軟件職業(yè)技術(shù)學院講師,主要從事搜索引擎、計算機智能、數(shù)據(jù)挖掘等方向的研究. E-mail:94794734@qq.com
摘要:提出基于Agent的個性化元搜索引擎,將Agent技術(shù)與元搜索引擎技術(shù)相結(jié)合,較好地實現(xiàn)了搜索引擎的智能化,為用戶提供了一種良好的檢索解決方案.Agent具有的自主性、社會性、反應性和能動性等特性可提高系統(tǒng)的靈活性與智能性,可更好地根據(jù)用戶行為定制個性化模型,大大提升了用戶體驗,查全率與查準率得到改善.
關鍵詞:Agent;元搜索引擎;用戶興趣模型;MAS
DOI:10.3969/j.issn.1000-1565.2015.02.016
收稿日期:2014-10-30
基金項目:河北省科學技術(shù)研究與發(fā)展計劃項目(11227167)
中圖分類號:TP391
文獻標志碼:志碼:A
文章編號:編號:1000-1565(2015)02-0199-05
Abstract:A personal meta-search engine based on Agent was presented. Agent and meta-search engine were combined to realize intelligent search engine. The Agent’s attributes of autonomy, sociality, reactive and initiative can improve the flexibility and intelligence of the system and provide more accurate information for users according to personalized model of user behavior.
Personalized meta-search engine based on Agent
SHI Jianguo1, XUE Yuqian2, SHI Yanfang2
(1.Admissions Division, Hebei Software Institute, Baoding 071000, China;
2.Software Engineering Department, Hebei Software Institute, Baoding 071000, China)
Key words: Agent ;meta-search engine; user interest model; MAS
現(xiàn)在已是信息過載的時代,但現(xiàn)有的搜索引擎卻不能滿足用戶對信息的需求.首先,現(xiàn)有獨立搜索引擎其搜索范圍只是Internet上全部信息的30%,甚至更低,其原因在于各獨立搜索引擎都存在著一些局限性,比如百度,其對中文關鍵字的搜索效果就較好,而對英文關鍵字的搜索效果就不如 google.其次,現(xiàn)有各獨立搜索引擎返回的搜索結(jié)果存在“千人一面”的情況,由于絕大多數(shù)輸入的檢索詞都比較短,所表達的含義較為模糊,所以對于不同用戶的相同輸入返回的檢索結(jié)果相同,但是不同的用戶其信息需求是不同的.比如,對于輸入檢索詞“蘋果”,一些用戶可能希望獲得有關“水果蘋果”的信息,而另外一些用戶可能就希望獲得“手機蘋果”的信息,所以現(xiàn)有搜索引擎無論是從搜索個性化還是搜索數(shù)據(jù)的查全率、查準率都不能達到用戶的要求.
針對現(xiàn)有搜索引擎存在的問題,本文提出基于Agent的個性化元搜索引擎來解決上述問題.為了解決獨立搜索引擎各自存在的局限性,引入元搜索引擎概念.元搜索引擎就是對多個獨立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用.通過元搜索引擎可以實現(xiàn)一站式的搜索,用戶只需一次搜索就可以看到多個獨立搜索引擎的結(jié)果,較好地解決了查全率的問題.但是元搜索引擎返回的結(jié)果只是多個獨立搜索引擎返回結(jié)果的羅列,并不能解決用戶個性化需求和查準率的問題.人工智能領域的Agent 具有自主性、社會性、反應性和能動性,通過Agent技術(shù)來解決用戶個性化需求及查準率問題.本文通過Agent技術(shù)來對用戶進行個性化分析形成用戶興趣庫,調(diào)用各獨立搜索引擎進行搜索,并對其搜索結(jié)果進行合并、篩選、排序從而提高查準率,滿足用戶個性化需求.
1用戶興趣模型
本文以隱式方式獲取用戶偏好,隱式獲取是指以人工智能、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等理論為基礎,對用戶瀏覽網(wǎng)頁的行為進行分析,從而獲取用戶偏好信息,并將其轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)[1].隱式獲取不打斷用戶的瀏覽行為,對用戶不會帶來額外的負擔,并能獲得大量用戶偏好的信息.對于隱式獲取,用戶對見面的興趣程度主要表現(xiàn)在3方面:用戶瀏覽頁面的時間、瀏覽頁面期間鼠標移動的時間、鼠標點擊次數(shù).
用戶興趣模型的作用不僅是對用戶基本特征和偏好的簡單描述,而且還應具有一定的數(shù)據(jù)結(jié)構(gòu),以面向編程的形式化語言表述.本文以向量空間模型的方式來表示用戶興趣模型.
定義1將用戶興趣表示成一個n維的特征向量
model=((I1,W1,n1,t1), (I2,W2,n2,t2), …,(In,Wn,nn,tn)),
(1)
該特征向量的每一個特征項是(Ii,Wi,ni,ti)(i=1,2,…,n)),Ii表示第i個主題特征向量,Wi表示主題的權(quán)重,ni是主題包含的文檔實例個數(shù),ti表示該主題最近一次被更新的時間.Wi由用戶對包含主題網(wǎng)頁的興趣度決定,表示為
Wi=I(page1)I(page2)……I(pagen).
(2)
用戶對頁面的興趣度由用戶瀏覽頁面的時間、瀏覽頁面期間鼠標移動的時間、瀏覽頁面的次數(shù)、是否保存與收藏頁面來決定,表示為
I(page)=φ(c(page),v(page),m(page),s(page),b(page)),
(3)
其中c(pagei)為用戶訪問該頁面的次數(shù),v(pagei)為用戶訪問頁面的時間,m(pagei)為鼠標在頁面移動的時間,s(pagei)為頁面被保存的次數(shù),b(pagei)為頁面被收藏的次數(shù).對于頁面如果發(fā)生保存頁面與收藏頁面的行為,說明用戶對該頁面興趣度較高.于是定義如下:
(4)
對用戶來講,用戶訪問頁面的頻率越高,瀏覽頁面的時間越長,鼠標在頁面移動的時間越長,用戶的興趣度就越高.
(∞+β)∈[0,1],
(5)
其中s(page)為頁面的大小.P為用戶所訪問頁面的集合.
2基于Agent的個性化元搜索引擎
圖1 基于Agent的個性化元搜索引擎架構(gòu) Fig.1 Based personalized meta search engine architecture of agent
基于Agent的個性化元搜索引擎的架構(gòu)如圖1所示,其由用戶興趣庫、MAS(Multi Agent System)、詞匯庫、主題庫組成[2].MAS由用戶Agent、查詢Agent、檢索Agent、檢索合成Agent組成、興趣挖掘Agent.主題庫保存著采用TD_T方法描述的主題.
MAS實現(xiàn)了用戶興趣的挖掘、搜索引擎的調(diào)用、搜索結(jié)果的處理、用戶的交互.MAS由用戶Agent、興趣挖掘Agent、查詢Agent、檢索Agent、檢索合成Agent組成.Agent之間通過Agent交互平臺進行交互,使用ACL進行通信[3].為了適應網(wǎng)絡環(huán)境的變化,提高運行效率,本文還引入了移動協(xié)同方式.
2.2.1用戶Agent
用戶Agent負責與用戶進行交互,向用戶提供交互界面,并將用戶提交的檢索需求發(fā)送給查詢Agent,并由用戶Agent將最終檢索結(jié)果發(fā)給用戶.用戶Agent可5元組表示
UA(AID,RSM,K,BM,IM),
其中AID為Agent的標識,RSM為Agent接收和發(fā)送信息的機制;K為Agent的內(nèi)部知識庫;BM為Agent的業(yè)務機制,負責完成用戶交互;IM為Agent的信息反饋機制.
2.2.2興趣挖掘Agent
興趣挖掘Agent為移動Agent,可以在用戶允許的情況下移動到客戶端通過用戶日志機制對用戶的瀏覽行為進行信息采集并生成用戶查詢?nèi)罩荆⒏鶕?jù)用戶興趣模型分析用戶偏好,將最終分析結(jié)果保存到用戶興趣庫中,并根據(jù)用戶偏好更新主題庫與詞匯庫[4].用戶興趣Agent除了可以移動到客戶端,還可以移動到各數(shù)據(jù)庫服務器端.用戶興趣Agent 可用8元組表示
IA(AID,RSM,K, IM,RM,DM,RDM,LM),
其中AID為Agent的標識,RSM為Agent接收和發(fā)送信息的機制;K為Agent的內(nèi)部知識庫; IM為Agent的信息反饋機制;RM為Agent的路由機制,通過該路由機制興趣挖掘Agent在執(zhí)行分布式計算任務的過程中,能夠以最優(yōu)的效率來完成既定目標;DM為用戶興趣偏好分析機制,其對用戶的瀏覽信息按照用戶興趣模型進行加工處理,并得出用戶偏好.RDM數(shù)據(jù)更新機制,其完成對用戶興趣庫、主題庫、詞匯庫的數(shù)據(jù)更新操作;LM完成對用戶的瀏覽行為進行信息采集并生成用戶查詢?nèi)罩?
2.2.3查詢Agent
查詢Agent接收用戶Agent發(fā)送的檢索需求,首先將用戶檢索需求表示為q(q1,q2,q3……qn),然后將qi映射到主題樹結(jié)點中,并找到上下文結(jié)點.對映射到的結(jié)點及其上下文結(jié)點根據(jù)用戶興趣庫進行過濾得到最相關結(jié)點形成主題集合S(q)={s1,s2,s3……sn},然后在詞匯庫中找到相應的同義詞及直接上下位詞,從而得到主題描述集合Des_S(q),并根據(jù)調(diào)度策略安排檢索Agent調(diào)用各獨立搜索引擎按照主題描述集合進行相應檢索.查詢Agent可用8元組表示
FA(AID,RSM,K,EM,IM,F(xiàn)EM,UM, BM),
其中AID為Agent的標識,RSM為Agent接收和發(fā)送信息的機制;K為Agent的內(nèi)部知識庫,該知識庫中保存著搜索引擎的調(diào)度策略,調(diào)度策略是對各獨立搜索引擎搜索能力的描述; IM為Agent的信息反饋機制; FEM為查詢擴展機制,其根據(jù)用戶興趣庫、主題庫、詞匯庫對用戶的檢索需求進行處理,得到主題描述集合,從而提高查全率;EM為搜索引擎推理機制,其根據(jù)調(diào)度策略及主題描述集合給出相應搜索引擎:UM更新機制,根據(jù)檢索Agent返回的搜索引擎的變化更新搜索引擎的調(diào)度策略;BM 為Agent的業(yè)務機制,安排檢索Agent調(diào)用各獨立搜索引擎按照主題描述集合進行相應檢索.
2.2.4檢索Agent
檢索Agent負責接收檢索任務,根據(jù)檢索任務調(diào)用相應獨立搜索引擎,并負責將搜索結(jié)果返回給檢索合成Agent[5].在該檢索過程中由搜索引擎變化感知機制監(jiān)測搜索引擎狀態(tài),當搜索引擎狀態(tài)發(fā)生變化時將其變化發(fā)送給檢索合成Agent,更新其搜索引擎知識庫.檢索Agent 可用6元組表示
UA(AID,RSM,K,BM,IM,SM),
其中AID為Agent的標識,RSM為Agent接收和發(fā)送信息的機制;K為Agent的內(nèi)部知識庫;BM為Agent的業(yè)務機制,負責完成獨立搜索引擎的調(diào)用完成檢索任務;IM為Agent信息反饋機制;SM搜索引擎變化感知機制,其監(jiān)測搜索引擎狀態(tài),當搜索引擎狀態(tài)發(fā)生變化時將其變化發(fā)送給檢索合成Agent與查詢Agent.
2.2.5檢索合成Agent
檢索合成Agent接收各檢索Agent 返回的檢索結(jié)果,并由檢索結(jié)果合成機制根據(jù)搜索引擎知識庫中獨立搜索引擎的結(jié)果格式對其進行合成處理,然后對合成處理后的結(jié)果進行去重操作[6].最后,由排序機制對去重后的結(jié)果完成排序處理得到最終的檢索結(jié)果,最終的檢索結(jié)果返回給用戶Agent.檢索合成Agent可用7元組表示
CA(AID,RSM,K,BM,IM,CM,SM)
圖2 基于Agent的個性化元搜索引擎的執(zhí)行流程 Fig.2 Agent-based execution flow personalized meta-search engines
其中AID為Agent的標識,RSM為Agent接收和發(fā)送信息的機制;K為Agent的內(nèi)部知識庫保存搜索引擎知識庫;BM為Agent的業(yè)務機制,負責完成與其他Agent進行交互;IM為Agent的信息反饋機制; CM為檢索結(jié)果合成機制,根據(jù)搜索引擎知識庫中獨立搜索引擎的結(jié)果格式對其進行合成處理及去重;SM為排序機制,對合成、去重后的檢索結(jié)果進行排序.
用戶向用戶Agent提出檢索請求,用戶Agent向用戶提供交互界面,并將用戶提交的檢索需求提交給查詢Agent.查詢Agent接收到檢索需求,對檢索需求進行查詢擴展處理,從而得到主題描述集合Des_S(q),并根據(jù)調(diào)度策略安排檢索Agent調(diào)用各獨立搜索引擎按照主題描述集合進行相應檢索[7].各獨立搜索引擎完成檢索后,由檢索Agent把檢索結(jié)果返回給檢索合成Agent.檢索合成Agent對返回的檢索結(jié)果進行合成、去重、排序操作,從而得到最終的檢索結(jié)果,并將其返回給用戶Agent[8].最后,由用戶Agent 將最終檢索結(jié)果返回給用戶.具體運行流程如圖2所示.
3結(jié)論
普通搜索引擎所提供的檢索服務質(zhì)量較低,其主要原因在于采用的是基于意圖的檢索方法,沒有考慮用戶的個性化需求.本文提出基于Agent的個性化元搜索引擎,將Agent技術(shù)與元搜索引擎技術(shù)相結(jié)合,較好地實現(xiàn)了搜索引擎的智能化,通過使用元搜索引擎及建立用戶興趣模型不但較好地滿足了用戶個性化的檢索需求,而且也改善了搜索引擎的查全率及查準率.基于Agent的個性化元搜索引擎充分考慮用戶智能化、個性化的需求,以Agent間的通信與協(xié)作完成相應檢索任務,具有良好的擴展性及靈活性,為用戶提供了一種良好的檢索解決方案.
參考文獻:
[1]梁茹冰, 劉瓊. 移動計算環(huán)境中基于Agent技術(shù)的語義緩存一致性驗證方法[J]. 計算機科學,2014,41(3):132-136.
LIANG Rubing , LIU Qiong. Method of semantic cache consistency checking in mobile computing environments based on agent technology [J]. Computer Science, 2014,41(3):132-136.
[2]危世民, 戴牡紅. 多Agent協(xié)同的電子商務推薦系統(tǒng)模型[J]. 計算機應用,2014,34(4):1118-1121.
WEI Shimin,DAI Muhong . Multi-agent cooperative e-commerce recommender system model[J]. Journal of Computer Applications, 2014,34(4):1118-1121.
[3]曹鳳雪,黃成,薛小鋒. 一種基于agent的云服務組合的交互模型[J]. 計算機應用研究,2014,31(12):3804-3807.
CAO Fengxue,HUANG Cheng,XUE Xiaofeng. Interaction model of cloud service composition based on agent[J]. Application Research of Computers, 2014,31(12):3804-3807.
[4]鄭力明, 李曉冬. 淺談面向Agent的軟件工程[J]. 軟件,2014,35(10):51-53.
ZHENG Liming , LI xiaodong.Discussion on the agent-oriented software engineering[J]. Computer Engineering & Software, 2014,35(10):51-53.
[5]尹相權(quán), 田曉迪,楊雪萍. 基于多Agent技術(shù)的信息共享空間虛擬空間建設研究 [J]. 圖書館學研究,2013(19):20-23.
[6]周三琦. 基于Agent網(wǎng)絡監(jiān)控系統(tǒng)的研究 [J]. 信息安全與技術(shù),2014(7):105-112.
ZHOU Sanqi. The research of network monitoring system based on agent technology[J]. Information Security and Technology, 2014(7):105-112.
[7]LI Juan, KENDALL N. A multi-agent system using associate rule mining[Z]. The 2nd International Conference on Computer Engineering and Technology, Chengdu, China,2010.
[8]CAI Junjie, ZHA Zhengjun, QI Tian, et al. Semi-automatic Flickr group suggestion[Z]. Proceedings of the 17th International Multimedia Modeling Conference, Taibei,China,2011.
(責任編輯:孟素蘭)