張希平,姜 華
(1普洱學(xué)院 云南 普洱 665000)
(2云南省寄生蟲病防治所 云南 普洱 665000)
目前,高校圖書館的信息化建設(shè)正在迅速發(fā)展,但仍然存在高校圖書借閱率不高、閑置書籍較多、教師和學(xué)生進(jìn)行信息和文獻(xiàn)檢索的過程中比較耗費(fèi)時(shí)間等現(xiàn)象。因此,補(bǔ)充目前高校圖書館已有的借閱服務(wù),增加個性化推薦內(nèi)容,能夠讓用戶在進(jìn)行信息檢索時(shí),不僅能夠看到精確查找的內(nèi)容,也能夠通過系統(tǒng)的篩選和聯(lián)想,發(fā)現(xiàn)另一些館藏有用的信息,從而實(shí)現(xiàn)更加高效的檢索。在相應(yīng)算法的支持下,對于用戶的瀏覽記錄進(jìn)行抓取和分析,從而形成個性化的報(bào)告,能夠推送相同或者相似類別的內(nèi)容,使圖書館系統(tǒng)的推薦功能更加具有實(shí)用性。因此,對用戶的瀏覽記錄及信息進(jìn)行收集分析、對館藏文獻(xiàn)和資源進(jìn)行挖掘,并用算法使他們產(chǎn)生關(guān)聯(lián)性,就能夠更好地實(shí)現(xiàn)圖書館資源的利用。
目前,高校圖書館系統(tǒng)還存在一定問題,比如圖書館系統(tǒng)的設(shè)計(jì)布局比較混亂,在學(xué)生或教師進(jìn)行信息檢索過程中,可能會出現(xiàn)檢索速度慢、檢索出的數(shù)據(jù)較少、相關(guān)性不強(qiáng)等問題。這些問題會直接影響到學(xué)生和教師使用圖書館網(wǎng)站進(jìn)行圖書查找的體驗(yàn),同時(shí),如果在系統(tǒng)中查找圖書和文獻(xiàn)反而耗費(fèi)時(shí)間較長且效果不佳,那么圖書館的圖書管理系統(tǒng)也就失去了其實(shí)際應(yīng)用性。
目前,高校圖書館系統(tǒng)大多使用的是匯文文獻(xiàn)信息服務(wù)系統(tǒng),能夠?yàn)榻處熀蛯W(xué)生提供一定程度的推薦服務(wù),系統(tǒng)也具備數(shù)據(jù)挖掘的工具,能夠采用算法為讀者推送相關(guān)的專題和全文鏈接等等,還能夠利用數(shù)據(jù)分析及相關(guān)算法,對目前系統(tǒng)中的數(shù)據(jù)進(jìn)行簡單統(tǒng)計(jì)。但是其數(shù)據(jù)挖掘和統(tǒng)計(jì)分析仍處于比較淺層次的階段,在圖書館系統(tǒng)中的應(yīng)用,在現(xiàn)實(shí)使用和讀者體驗(yàn)中仍然不是很明顯,并且對信息檢索能力的提升也不顯著。數(shù)據(jù)挖掘在這個系統(tǒng)中體現(xiàn)的價(jià)值并不大,目前的圖書館系統(tǒng)還沒有集成數(shù)據(jù)分析的功能。
圖書館系統(tǒng)是結(jié)合互聯(lián)網(wǎng)上的資源、高校內(nèi)部學(xué)生與教師的信息、館藏圖書以及數(shù)據(jù)等為教師和學(xué)生提供多元化服務(wù)的系統(tǒng),因此圖書館系統(tǒng)主要是以資源整合和讀者服務(wù)為主的,能夠向全校師生提供更加方便的圖書館借閱歸還服務(wù),使教師和學(xué)生在查找圖書和文獻(xiàn)的過程能夠更加方便、快捷。因此,將個性化推薦系統(tǒng)引入圖書館系統(tǒng),能夠使讀者在檢索的過程中更加精確和快捷,在輸入相關(guān)的關(guān)鍵詞后,個性化推薦系統(tǒng)就能夠根據(jù)關(guān)鍵詞本身、搜索結(jié)果的點(diǎn)擊量、借閱率以及相關(guān)文獻(xiàn)的點(diǎn)擊量等進(jìn)行推薦。這個服務(wù)系統(tǒng)能夠在較短的時(shí)間內(nèi),對大量數(shù)據(jù)進(jìn)行挖掘并結(jié)合算法進(jìn)行計(jì)算,起到幫助讀者檢索篩選的作用。
3.2.1 對圖書館館藏文獻(xiàn)及瀏覽數(shù)據(jù)進(jìn)行歸類
首先,需要對圖書館數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類,同時(shí)還需要分析教師和學(xué)生的訪問數(shù)據(jù),對其偏好度和相關(guān)信息的關(guān)聯(lián)性進(jìn)行分析,其中包括用戶瀏覽時(shí)間以及具體瀏覽的內(nèi)容等。對圖書館館藏文獻(xiàn)進(jìn)行分類,能夠更加明確在檢索過程中,用戶更偏向哪一類文獻(xiàn)的檢索和閱讀,在推送的時(shí)候可以按照大類進(jìn)行推送。而瀏覽時(shí)間、頻率以及相關(guān)文獻(xiàn)的數(shù)據(jù),就能夠通過個人的行為推斷出某些數(shù)據(jù)的相關(guān)性。在分析數(shù)據(jù)的過程中,應(yīng)當(dāng)設(shè)定條件值,在分析過程中,少于條件值的數(shù)據(jù)不具備參考意義,可以進(jìn)行剔除。另外,對于網(wǎng)頁的瀏覽時(shí)間,也需要進(jìn)行篩選,少于設(shè)定時(shí)間的瀏覽數(shù)據(jù)也無參考價(jià)值。在提取數(shù)據(jù)時(shí),一般使用的公式如下:
pref={(f-fmin)(t-tmin)/[(fmax-fmin)(tmax-tmin)]}
其中,pref表示用戶對于某篇文獻(xiàn)的偏好程度,f表示瀏覽次數(shù),t表示瀏覽時(shí)間,max和min表示最大值和最小值。在對用戶的瀏覽數(shù)據(jù)進(jìn)行分析后,就能夠較為科學(xué)地判斷出用戶對某篇文獻(xiàn)或者某一類文獻(xiàn)的偏好程度,從而有針對性地進(jìn)行推送[1]。
3.2.2 結(jié)合用戶偏好以及數(shù)據(jù)相關(guān)度進(jìn)行分析
除了可以對某個用戶對某篇或某類文獻(xiàn)的偏好程度、對用戶瀏覽數(shù)據(jù)進(jìn)行分析,還能夠得出文獻(xiàn)的相關(guān)性。在用戶進(jìn)行文獻(xiàn)瀏覽的過程中,往往不只需要查閱其中一篇,而是對相關(guān)性較強(qiáng)的內(nèi)容都進(jìn)行閱讀,從而得到用戶想要的信息。因此,用戶的瀏覽日志從某種意義上來說,也能夠提取出文獻(xiàn)的相關(guān)性。在實(shí)際分析過程中,可以將用戶的瀏覽時(shí)間、瀏覽的具體文章以及用戶名用序列表示,對重復(fù)序列進(jìn)行篩選后,就可以結(jié)合用戶偏好值進(jìn)行分析。此處可以采用Apriori技術(shù)進(jìn)行文獻(xiàn)之間的關(guān)聯(lián)性分析,從而能夠給用戶進(jìn)行更加精準(zhǔn)的推送。高校圖書館往往積累了大量的資源,每天在資源的更新和用戶數(shù)據(jù)檢索的過程中也積累了很多數(shù)據(jù),用戶在很難再檢索的時(shí)候很快獲得所需的信息。數(shù)據(jù)挖掘就是結(jié)合圖書館自身的數(shù)據(jù)庫與用戶的瀏覽信息進(jìn)行關(guān)聯(lián)性規(guī)則的挖掘和分類,從而能夠?yàn)樽x者提供更加精準(zhǔn)的個性化推薦服務(wù),最終提高用戶的信息檢索效率,滿足其在數(shù)據(jù)檢索和信息查找中的需求,提高高校圖書館系統(tǒng)的高效性和便捷性[2]。
數(shù)據(jù)分類是在數(shù)據(jù)挖掘中十分重要的一部分,能夠?qū)D書館中圖書、文獻(xiàn)等按照其特點(diǎn)歸結(jié)到分類組中。在分類過程中,除了按照傳統(tǒng)分類方式,按照學(xué)科、學(xué)段等方式進(jìn)行分類之外,還可以借助對圖書的題名進(jìn)行關(guān)鍵詞分析,通過D3.js可視化組件可以對用戶的閱讀偏好進(jìn)行調(diào)查分析,從而依照多種分類方式對數(shù)據(jù)進(jìn)行分類。決策樹(decision tree)就是一個很好的分類算法,通過ID系列規(guī)則,能夠?qū)Q策樹及其每個分支節(jié)點(diǎn)都進(jìn)行分類和輸出,轉(zhuǎn)換規(guī)則也相對簡單,ID3算法和C4.5算法就能夠完成。決策樹中主要包含數(shù)據(jù)訓(xùn)練集、決策樹分類算法、評估模式與預(yù)測、測試集與類別未知的數(shù)以及預(yù)測結(jié)果等部分。或者可以基于距離進(jìn)行分類,將每一個類別都使用一個數(shù)值向量來表示,就能夠通過相似性實(shí)現(xiàn)分類的結(jié)果,在計(jì)算中主要表現(xiàn)為距離越遠(yuǎn),相似性越小。
應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘能夠發(fā)現(xiàn)數(shù)據(jù)庫中各個項(xiàng)集之間的關(guān)聯(lián)關(guān)系,因此能夠解決很多問題。關(guān)聯(lián)規(guī)則中一般存在兩個閾值:minsup即最小支持度,minconf即最小置信度,分別反映一組物品需要滿足的最低程度以及關(guān)聯(lián)規(guī)則最低的可靠度。而在實(shí)際應(yīng)用中,可以基于處理的變量的分類、規(guī)則中數(shù)據(jù)的抽象層次、規(guī)則中涉及的數(shù)據(jù)維度等分為布爾型和數(shù)值型;單層關(guān)聯(lián)和多層關(guān)聯(lián);單維關(guān)聯(lián)和多維關(guān)聯(lián)等多種關(guān)聯(lián)規(guī)則。應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行算法挖掘一共有兩個步驟,第1步主要是根據(jù)minsup在短時(shí)間內(nèi)找出數(shù)據(jù)集D中所有的頻繁項(xiàng)目集,這一步所耗費(fèi)的時(shí)間是衡量關(guān)聯(lián)規(guī)則算法效率的關(guān)鍵標(biāo)準(zhǔn);第2步則是由頻繁項(xiàng)目集與minconf產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則的探查。因此,關(guān)聯(lián)規(guī)則主要是由指定的minsup與minconf與算法進(jìn)行交互,通過規(guī)則在數(shù)據(jù)中進(jìn)行挖掘,最終對挖掘結(jié)果進(jìn)行解釋的一種挖掘模型,能夠?qū)?shù)據(jù)庫與用戶所產(chǎn)生的瀏覽數(shù)據(jù)進(jìn)行有機(jī)聯(lián)系,從而實(shí)現(xiàn)對于用戶的個性化推薦,提高用戶的檢索體驗(yàn)和檢索效率。
Apriori算法主要是為了解決關(guān)聯(lián)規(guī)則問題提出的算法,主要目的是挖掘頻繁項(xiàng)集思想,在處理數(shù)據(jù)的過程中,主要分為頻繁項(xiàng)目集的產(chǎn)生和關(guān)聯(lián)規(guī)則產(chǎn)生兩步。Apriori算法主要使用層次順序搜索,篩選相應(yīng)的候選項(xiàng)集,然后掃描數(shù)據(jù)庫,使用subset函數(shù)找出所有候選的子集,對每一項(xiàng)進(jìn)行支持計(jì)數(shù)。從第一個形成頻繁的“1-項(xiàng)集(L1)”進(jìn)行標(biāo)記,用“1-項(xiàng)集(L1)”找出頻繁“2-項(xiàng)集(L2)”,再用“2-項(xiàng)集(L2)”找出頻繁“3-項(xiàng)集(L3)”以此類推,直到最終在圖書館數(shù)據(jù)庫中找出能夠滿足最小支持度的項(xiàng)集L。為了提高計(jì)算機(jī)運(yùn)行的效率,同時(shí)減少算法在數(shù)據(jù)庫中掃描的次數(shù),可以對Apriori算法進(jìn)行改進(jìn),比如基于Partition進(jìn)行數(shù)據(jù)劃分,這種算法的主要原理是,在第1次掃描數(shù)據(jù)庫之前,將數(shù)據(jù)庫分成許多小段,這其中的每一段都可以裝入內(nèi)存,在第2次掃描時(shí)則是合并每個分段,驗(yàn)證候選集是否都是頻繁項(xiàng)集。還可以基于散列利用DHP算法進(jìn)行優(yōu)化,這種算法則是通過在第1次掃描數(shù)據(jù)庫產(chǎn)生頻繁項(xiàng)集時(shí),增加桶的集數(shù),這樣就能夠在第2次產(chǎn)生候選項(xiàng)集時(shí)盡快進(jìn)行排除,從而大大壓縮了排除候選項(xiàng)集的時(shí)間。除此之外,還有采樣方法,犧牲了一些精準(zhǔn)度,但能夠很大程度上提升篩選和推薦的有效性,適用于數(shù)據(jù)挖掘數(shù)量較大,但對精確度要求并不高的情況。
目前,高校的圖書管理系統(tǒng)中仍存在很多問題,會對用戶的使帶來一定程度上的不便,不能夠很好地體現(xiàn)高校圖書館系統(tǒng)的優(yōu)越之處。因此,需要對目前的高校圖書館系統(tǒng)進(jìn)行改良,主要是基于數(shù)據(jù)挖掘加入個性化推薦系統(tǒng),從而能夠在教師和學(xué)生查找文獻(xiàn)和圖書的過程中,能夠智能化地進(jìn)行聯(lián)想和連接,節(jié)省教師和學(xué)生篩選查找的時(shí)間,從而提高學(xué)習(xí)和科研效率。