趙靜
摘 要:針對(duì)高校的信息資源檢索的命中率低問題提出了運(yùn)用Web使用記錄挖掘的高校圖書館搜索引擎。通過采用Web使用記錄挖掘技術(shù)和Clementine對(duì)高校圖書館網(wǎng)站的Web訪問日志記錄進(jìn)行挖掘。在Web使用記錄挖掘流程中,提出一個(gè)基于用戶IP、登陸時(shí)間、網(wǎng)站的拓?fù)鋱D、引用網(wǎng)頁和Agent來識(shí)別出單個(gè)用戶的新算法,獲得有效提高識(shí)別用戶的實(shí)驗(yàn)結(jié)果。最后用路徑分析來挖掘模式,優(yōu)化網(wǎng)站結(jié)構(gòu),從而提高高校圖書館搜索引擎的命中率。
關(guān)鍵詞:Web使用記錄挖掘; 搜索引擎; 路徑分析; 高校圖書館; 用戶識(shí)別
中圖分類號(hào):TN911?34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004?373X(2013)02?0001?05
0 引 言
高校圖書館使用數(shù)字技術(shù)進(jìn)行信息資源的組織和管理,能夠存儲(chǔ)海量的信息。高校圖書館的搜索引擎部分地解決了資源發(fā)現(xiàn)的問題,但是它可能會(huì)返回給用戶成千上萬檢索到的網(wǎng)頁,而其中很大一部分與用戶的要求無關(guān),用戶不能快速、準(zhǔn)確地得到所需的有價(jià)值的信息。因此,運(yùn)用Web使用記錄挖掘的高校圖書館搜索引擎隨之產(chǎn)生。運(yùn)用Web使用記錄挖掘的高校圖書館搜索引擎是專門針對(duì)高校的信息資源進(jìn)行檢索的搜索引擎,是實(shí)現(xiàn)高校教學(xué)資源共享提高搜索命中率必不可少的工具,所以高校圖書館搜索引擎中Web使用記錄挖掘的應(yīng)用研究具有非常重要的科學(xué)意義和應(yīng)用價(jià)值。
Web使用記錄挖掘[1]是從用戶“訪問痕跡”中獲取有價(jià)值的信息,是對(duì)Web上日志數(shù)據(jù)及相關(guān)數(shù)據(jù)的挖掘。Web使用記錄挖掘技術(shù)和工具可分為2大類:訪問模式的追蹤和個(gè)性化的使用記錄的追蹤。一般的訪問模式追蹤通過分析使用記錄來了解用戶的訪問模式和傾向,以改進(jìn)站點(diǎn)的組織結(jié)構(gòu);個(gè)性化的使用記錄追蹤則傾向于分析個(gè)別用戶的偏好,其目的是根據(jù)不同用戶的訪問模式,為用戶提供定制的服務(wù)。其目的是預(yù)測(cè)用戶網(wǎng)上的行為,比較網(wǎng)站的實(shí)際使用與期望的差別,根據(jù)用戶的興趣調(diào)整網(wǎng)站結(jié)構(gòu)。通過Web使用記錄挖掘技術(shù)對(duì)高校圖書館網(wǎng)站的Web訪問日志記錄進(jìn)行挖掘,挖掘出用戶訪問模式、頻繁訪問路徑等信息,從而優(yōu)化站點(diǎn)結(jié)構(gòu)、獲取和分析用戶需求信息、為用戶提供高校圖書館搜索引擎系統(tǒng)服務(wù)以及為圖書館管理層提供決策支持。
1 高校圖書館搜索引擎中Web使用記錄挖掘 流程分析
在高校圖書館系統(tǒng)中,運(yùn)用Web使用記錄挖掘的Web訪問日志數(shù)據(jù)為核心分析高校圖書館搜索引擎系統(tǒng)。高校圖書館的日志文件采用SQL Server數(shù)據(jù)庫來完成相應(yīng)的挖掘操作,又用Clementine挖掘工具作以補(bǔ)充。
Clementine挖掘工具[2]是ISL公司開發(fā)的數(shù)據(jù)挖掘工具平臺(tái)。Clementine結(jié)合Web使用記錄挖掘技術(shù)可以快速建立預(yù)測(cè)性模型,進(jìn)而應(yīng)用到高校搜索引擎系統(tǒng)中,幫助高校圖書館改進(jìn)圖書館搜索引擎系統(tǒng)的結(jié)構(gòu),為讀者提供個(gè)性化服務(wù)。
整個(gè)高校圖書館搜索引擎系統(tǒng)提出了一套適合Web使用記錄挖掘的流程圖,根據(jù)這個(gè)流程圖,進(jìn)行數(shù)據(jù)收集,數(shù)據(jù)準(zhǔn)備,建立用戶興趣模型,模式挖掘等操作。如圖1高校圖書館搜索引擎中Web使用記錄挖掘的流程圖所示。
圖1 高校圖書館搜索引擎中Web使用記錄挖掘的流程圖
1.1 數(shù)據(jù)收集
用戶瀏覽信息被Web服務(wù)器自動(dòng)收集并保存在訪問日志、引用日志和代理日志中?;诟咝D書館網(wǎng)站自身特點(diǎn),主要研究Web訪問日志。根據(jù)高校圖書館的Web服務(wù)器訪問日志,通過訪問路徑C:/WINDOWS/System32/LogFiles 收集需要的信息。Web訪問日志記錄用戶訪問信息。下面是一段收集的Web服務(wù)器訪問日志:
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2012?05?21 07:06:45
#Fields: date time s?sitename s?ip cs?method cs?uri?stem cs?uri?query s?port cs?username c?ip cs(User?Agent) sc?status sc?substatus sc?win32?status
2012?05?21 07:06:45 W3SVC894523 192.168.16.86 GET /index.htm ? 80 ?192.168.16.80Mozilla/4.0+(compatible;
+MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+GTB6.6;
+.NET+CLR+2.0.50727;+360SE) 200 0 0
上述日志的數(shù)據(jù)包含的主要項(xiàng)的含義如下:
(1)date time:時(shí)間戳。
(2)s?sitename: 系統(tǒng)服務(wù)。
(3)s?ip: 被訪問服務(wù)器的IP地址。
(4)cs?method: 客戶訪問的方式,有GET和POST。
(5)cs?uri?stem: 請(qǐng)求文檔的URL,即所訪問的頁面。
(6)cs?uri?query: URL查詢,用戶預(yù)進(jìn)行的查詢。
(7)s?port: 被訪問服務(wù)器的端口。
(8)cs?username: 用戶ID,是在被訪問頁面需要進(jìn)行用戶注冊(cè)時(shí)才有的。
(9)c?ip: 客戶主機(jī)的IP地址。
(10)cs(User?Agent): 表示客戶機(jī)的瀏覽器類型、版本即所運(yùn)行的操作系統(tǒng)。
(11)sc?status: 返回碼。200代表成功,404代表找不到所請(qǐng)求的頁面。