梁杰
摘 要:當(dāng)前,隨著高等職業(yè)院校需求信息的豐富,以及互聯(lián)網(wǎng)所提供的海量信息時代的到來,圖書館用戶在網(wǎng)絡(luò)當(dāng)中查詢真正需要的信息已經(jīng)變得復(fù)雜廢時。隨著信息技術(shù)的不斷發(fā)展,圖書館用戶對于個性化服務(wù)的要求越來越普遍。將Web挖掘技術(shù)運用在高職院校圖書館個性化服務(wù)當(dāng)中,不僅效率高、安全性高、風(fēng)險低,而且有著很好的發(fā)展前景。文章在分析了高職院校數(shù)字圖書館個性化服務(wù)重要性的基礎(chǔ)上,研究了Web挖掘技術(shù),以及Web挖掘技術(shù)在高職院校數(shù)字圖書館個性化服務(wù)中的具體應(yīng)用。
關(guān)鍵詞:Web挖掘技術(shù) 高職院校 數(shù)字圖書館 個性化服務(wù)
中圖分類號:G250 文獻標識碼:A 文章編號:1672-3791(2015)03(b)-0204-02
1 高職院校數(shù)字圖書館個性化服務(wù)的重要性分析
當(dāng)前,隨著高等職業(yè)院校需求信息的豐富,以及互聯(lián)網(wǎng)所提供的海量信息時代的到來,圖書館用戶在網(wǎng)絡(luò)當(dāng)中查詢真正需要的信息已經(jīng)變得復(fù)雜廢時。如果,可以通過信息化技術(shù)將圖書館每一位用戶經(jīng)常瀏覽的、感興趣的、查找過的信息以主動推進的方式推送給圖書館用戶,則會增加信息的有效性,使得圖書館用戶學(xué)習(xí)工作效率提高,最終提高圖書館用戶的客戶滿意度。而高職院校數(shù)字圖書館個性化服務(wù)提高的就是這樣的一種有針對性的、主動的服務(wù)。通過這種個性化服務(wù),可以使用戶更快捷方便的得到感興趣的信息,得到需求范圍以外更多的服務(wù),這已經(jīng)成為未來云時代所必須的服務(wù)模式。
2 Web挖掘技術(shù)
Web挖掘,就是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在 Web上,從大量類型豐富的Web數(shù)據(jù)中挖掘隱含知識的過程。Web上的數(shù)據(jù)類型豐富,主要包括:HTML文檔中的文本數(shù)據(jù)、多媒體數(shù)據(jù)、超鏈數(shù)據(jù),以及Web服務(wù)器日志文件中登錄用戶的訪問行為數(shù)據(jù)等.在數(shù)據(jù)挖掘領(lǐng)域,如果面對的數(shù)據(jù)類型不同就會采用不同的挖掘算法。因此,根據(jù)所挖掘的Web數(shù)據(jù)的類型,可以將Web挖掘分為以下3類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web訪問日志的挖掘。
Web內(nèi)容挖掘是一種以文本內(nèi)容挖掘為主的過程。它是從Web文檔中挖掘以文本為主要媒介的知識結(jié)構(gòu),包括文本的總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web文檔進行趨勢推薦等,由于這一挖掘技術(shù)起步較早,應(yīng)用較廣,當(dāng)前已經(jīng)基本成熟。
Web結(jié)構(gòu)挖掘是指從Web文檔的鏈接中推導(dǎo)知識的過程.其中比較有代表性的工作是PageRank 和CLEVER.PageRank 的核心思想在于發(fā)現(xiàn)權(quán)威性頁面。CLEVER 系統(tǒng)主要采用了HITS算法,該算法的主要思想在于,如何識別hub/authority頁面。著名的搜索引擎Google中就采用了該算法,比較于其它基于詞類索引檢索的搜索引擎,可以得到明顯優(yōu)化的查詢結(jié)果。
Web訪問日志的挖掘的挖掘更加容易理解,它是指當(dāng)用戶訪問了Web網(wǎng)站的某些站點后,系統(tǒng)將此用戶所該問的關(guān)鍵數(shù)據(jù)進行搜集并進行記錄,如用戶的IP、進入網(wǎng)頁的時間,退出時間、所瀏覽頁面的地址、瀏覽模式、瀏覽路徑等。通過對瀏覽網(wǎng)站的大量用戶的數(shù)據(jù)進行分析,可以分析出進入本網(wǎng)站的大多數(shù)用戶所采用的瀏覽模式等信息,為Web網(wǎng)站的優(yōu)化提供更多的依據(jù)。
3 Web挖掘技術(shù)在高職院校數(shù)字圖書館個性化服務(wù)中的應(yīng)用
3.1 基于Web挖掘技術(shù)的高職院校數(shù)字圖書館個性化服務(wù)的數(shù)據(jù)需求分析
高職院校的師生對于數(shù)字化圖書館的數(shù)據(jù)需求主要是以下幾個方面。第一是信息檢索類,包括圖書的檢索、期刊檢索、論文檢索、會議檢索、文獻檢索等。第二是圖書借閱類,包括圖書預(yù)約、圖書借閱、圖書延期、圖書歸還等。第三是信息發(fā)布類,主要是圖書館理員發(fā)布與圖書館有關(guān)的信息,如新書資訊、圖書館借閱管理規(guī)范等。第四類是導(dǎo)航功能,如導(dǎo)航到知網(wǎng)數(shù)據(jù)庫、萬方數(shù)據(jù)庫、讀秀數(shù)據(jù)庫等。
實現(xiàn)圖書館個性化服務(wù)中,圖書館用戶可以在瀏覽圖書館Web頁面的時候看到系統(tǒng)向其推送的相關(guān)信息。例如用戶時常查找“Oracle數(shù)據(jù)庫管理與應(yīng)用”相關(guān)書籍,那么當(dāng)圖書館新進與Oracle數(shù)據(jù)庫管理與應(yīng)用相關(guān)的圖書時,就會自動顯示在頁面當(dāng)中,用戶可以根據(jù)需要進行查看。簡單的說不同的用戶登陸到相同的Web頁面看到的卻是不同的界面,不同的內(nèi)容,而這些內(nèi)容是個人性的,有針對性的,更適合當(dāng)前讀者的。
3.2 數(shù)字圖書館中的個性化服務(wù)的主要內(nèi)容分析
基于Web挖掘技術(shù)的高職院校數(shù)字圖書館可以為用戶提供的個性化服務(wù)包括以下幾個方面。
3.2.1 用戶內(nèi)容定制
用戶內(nèi)容定制是圖書館個性化服務(wù)當(dāng)中最為重要的部分。用戶內(nèi)容定制是通過作者進行設(shè)置,實現(xiàn)對于資源的選擇。用戶內(nèi)容定制是一種個性化的靜態(tài)服務(wù)。
3.2.2 信息檢索策略定制
信息檢索策略定制是根據(jù)用戶的具體需求,確定一種信息檢索的方案。
3.2.3 個性化界面定制
個性化界面定制,即用戶可以根據(jù)自身的喜好,去定制滿意的操作界面。如用戶設(shè)定將知網(wǎng)數(shù)據(jù)庫、萬方數(shù)據(jù)庫作為主要導(dǎo)航,設(shè)定在頁面的常用位置,用戶可以根據(jù)自己的需要,去選擇定制頁面上需要出現(xiàn)的內(nèi)容,使得圖書館的服務(wù)界面成為私人定制的操作界面,即實現(xiàn)個性化界面的定制。
3.2.4 是信息推薦服務(wù)
信息推薦服務(wù)是一種動態(tài)的服務(wù)模式,用戶的使用習(xí)慣、感興趣的內(nèi)容會隨著時間的推移和某些外在因素的影響而發(fā)生變化的。因此,需要記錄用戶的行為,分析用戶的興趣記錄,挖掘用戶當(dāng)前感興趣的主要內(nèi)容,從而進行有效的信息推薦服務(wù)。
3.3 基于Web挖掘技術(shù)的高職院校數(shù)字圖書館個性化服務(wù)系統(tǒng)模塊設(shè)計
從技術(shù)角度來說,要想實現(xiàn)這一功能,可以通過Web挖掘技術(shù)來實現(xiàn),當(dāng)然除此之外還需結(jié)合檢索技術(shù)?;赪eb挖掘技術(shù)的高職院校數(shù)字圖書館個性化服務(wù)系統(tǒng)具體設(shè)計了以下模塊。
3.3.1 數(shù)據(jù)采集模塊
該模塊的主要功能是收集用戶的基本信息,如用戶的IP地址、用戶登陸的時間、用戶退出時間等,以及用戶在查詢時使用的關(guān)鍵字,用戶的瀏覽信息、下載信息等。通過這一模塊實現(xiàn)對數(shù)據(jù)的收集功能,將這些數(shù)據(jù)存放在數(shù)據(jù)庫當(dāng)中,以便進行后面的分析。
3.3.2 數(shù)據(jù)預(yù)處理模塊
該模塊的主要功能是針對Web頁面中的全部信息進行數(shù)據(jù)化處理。網(wǎng)頁中的文字、圖片、視頻等到需要轉(zhuǎn)換成數(shù)據(jù)庫中可以識別的編碼形式。即將這些形成會話文件。
數(shù)據(jù)的預(yù)處理又包括數(shù)據(jù)清理以及事務(wù)識別兩部分操作。其中,數(shù)據(jù)清洗從字面上可以分析到,它是一種對數(shù)據(jù)進行整理的過程,即先判斷哪些數(shù)據(jù)是有用的,哪些是無用的,將有用的數(shù)據(jù)留下,將無關(guān)的信息刪除掉。事務(wù)識別過程是形成會話文件的過程,它以邏輯單元的形式體現(xiàn)頁面訪問序列。
3.3.3 挖掘處理
此模塊的功能是確定數(shù)據(jù)挖掘所采用的具體方法,實現(xiàn)挖掘的具體方法,得到挖掘的結(jié)果。
能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘的算法有很多,如分類、聚類、關(guān)聯(lián)規(guī)則等。此階段要設(shè)計合理的算法,將數(shù)據(jù)預(yù)處理環(huán)節(jié)形成的會話文件進行數(shù)據(jù)挖掘,以得到隱藏的未被發(fā)現(xiàn)的規(guī)則。如,通過分析該校圖書館網(wǎng)站被大多數(shù)用戶訪問的路徑,可以知道哪種站點結(jié)構(gòu)更適合本校的圖書館網(wǎng)站,從而為該網(wǎng)站的后續(xù)優(yōu)化提供準備。再如運用關(guān)聯(lián)規(guī)則算法可以挖掘出用戶在該圖書館網(wǎng)站內(nèi)部的各頁面之間的訪問關(guān)系,為圖書館來說也是十分重要的。
3.3.4 模塊分析模塊
此模塊的功能是將挖掘的結(jié)果進行數(shù)據(jù)分析,得到用戶模式。
這一階段需要通過專業(yè)的工具、專業(yè)的技術(shù)來輔助分析人員來行挖掘模式的理解,以使挖掘模式得到最優(yōu)的運用。
3.3.5 數(shù)據(jù)推送模塊
此模塊的功能是生成動態(tài)的Web頁面,使不同用戶看到不同的頁面。這里需要使用PUSH技術(shù),將用戶可能需要的數(shù)據(jù)呈現(xiàn)在用戶的界面上,即實現(xiàn)主動推送的功能。數(shù)據(jù)推送模塊可以說是面向用戶的最直接的個性服務(wù)的接口。
3.3.6 系統(tǒng)自學(xué)模塊
對于數(shù)據(jù)挖掘系統(tǒng)來說,系統(tǒng)必須具備自學(xué)能力,以不斷完善挖掘。
4 結(jié)語
當(dāng)前,隨著信息技術(shù)的不斷發(fā)展,圖書館用戶對于個性化服務(wù)的要求越來越普遍。將web挖掘技術(shù)運用在高職院校圖書館個性化服務(wù)當(dāng)中,不僅效率高、安全性高、風(fēng)險低,而且有著很好的發(fā)展前景。
參考文獻
[1] 肖鋒,張帆.Web挖掘技術(shù)在數(shù)字化校園中的應(yīng)用研究[J].科技創(chuàng)業(yè)月刊,2010(4).
[2] 王玉珍.Web數(shù)據(jù)挖掘在數(shù)字圖書館個性化服務(wù)中的應(yīng)用[J].自動化與儀器儀表,2010(3).
[3] 阮娟.基于Web挖掘的高校教務(wù)管理系統(tǒng)個性化服務(wù)模型系統(tǒng)設(shè)計[J].電腦學(xué)習(xí),2010(3).
[4] 郭秋萍,王全蘭.一種基于Web挖掘的圖書館服務(wù)推薦模型及其算法研究[J]. 圖書館雜志,2010(6).
[5] 孫士新,李海燕,王甫成.高校數(shù)字圖書館個性化服務(wù)關(guān)鍵技術(shù)探究[J].西昌學(xué)院學(xué)報(自然科學(xué)版),2010(2).
[6] 周鋒.Web挖掘技術(shù)在遠程網(wǎng)絡(luò)教育中的應(yīng)用[J].常州工學(xué)院學(xué)報,2010(Z1).
[7] 余金昌.基于知識挖掘的高校數(shù)字圖書館個性化服務(wù)模式[J].中國電化教育, 2010(11).
[8] 房敏.高校數(shù)字圖書館個性化服務(wù)綜述[J].科技創(chuàng)新導(dǎo)報,2010(33).
[9] 歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館個性化服務(wù)[J].現(xiàn)代情報,2008(1).