徐靜
摘要:該文闡述了數(shù)據(jù)挖掘技術(shù)在高校圖書館中應(yīng)用,結(jié)合圖書館的實際特征以及優(yōu)勢,為讀者提供個性化的推薦服務(wù),作為一種較為有效的技術(shù)手段,可以在根本上提升高校圖書館的服務(wù)質(zhì)量與水平。文章通過對現(xiàn)階段高校圖書館數(shù)據(jù)挖掘技術(shù)的簡單分析,論述了其主要的任務(wù)與方法,對高校圖書館服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用與方案設(shè)計進(jìn)行闡述。
關(guān)鍵詞:數(shù)據(jù)挖掘;高校圖書館;個性化推薦;服務(wù)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)25-0012-02
隨著數(shù)字圖書館的建設(shè)與發(fā)展,圖書館的電子資源庫在不斷地完善,電子圖書的購買量也在不斷地增多,各種數(shù)據(jù)的海量增加,使得讀者無法精準(zhǔn)的獲得自己的想要的信息數(shù)據(jù)資源。而數(shù)據(jù)挖掘技術(shù)是一種較為有效的基礎(chǔ)手段,可以實現(xiàn)高校圖書館的個性化發(fā)展,轉(zhuǎn)變傳統(tǒng)的被動服務(wù)模式,進(jìn)而構(gòu)建一個良好的數(shù)字資源環(huán)境。
1 高校圖書館數(shù)據(jù)挖掘技術(shù)任務(wù)及常用方法
1.1 分類發(fā)現(xiàn)
在數(shù)據(jù)挖掘中分類是一項重要的任務(wù),目前多為經(jīng)濟(jì)應(yīng)用。利用分類技術(shù)可以構(gòu)建分類函數(shù)以及模型,此種模型可以將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行映射處理,在預(yù)測中應(yīng)用分類可以對歷史數(shù)據(jù)進(jìn)行分析,了解今后的變化趨勢,進(jìn)而進(jìn)行精準(zhǔn)的判斷分析,綜合實際狀況進(jìn)行準(zhǔn)備處理。構(gòu)造分類器,就要有訓(xùn)練樣本數(shù)據(jù)集作為輸入的基礎(chǔ)。訓(xùn)練樣本數(shù)據(jù)集由一組數(shù)據(jù)庫記錄或者元組構(gòu)成,其中每個元組就是一種通過相關(guān)字段數(shù)值構(gòu)成的特征向量。分類器的主要構(gòu)造方法有機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等,其應(yīng)用的統(tǒng)計方法主要是貝葉斯法以及非參數(shù)統(tǒng)計法等,其對應(yīng)的知識表示則主要就是判別函數(shù)以及原型的實例。
1.2 聚類發(fā)現(xiàn)
聚類就是將一組中的個體基于相似狀態(tài)進(jìn)行類別的劃分,其主要目的就是縮小相同個體的差距,將不同類別的個體差距拉大。聚類的方法主要有機(jī)器學(xué)習(xí)方式、面向數(shù)據(jù)庫的方法以及統(tǒng)計方法等。在機(jī)器學(xué)習(xí)中應(yīng)用的聚類可以稱之為無監(jiān)督方式,相對于分類學(xué)習(xí)的方式來說,其使用的數(shù)據(jù)是未標(biāo)記的,主要就是通過聚類學(xué)習(xí)算法對其進(jìn)行自動的確定,其主要的統(tǒng)計方式主要有系統(tǒng)聚類法、分解法等。
1.3 數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)就是對數(shù)據(jù)的濃縮,將整體以及繁瑣的數(shù)據(jù)進(jìn)行緊湊的總結(jié),相對于傳統(tǒng)的數(shù)據(jù)挖掘方式來說,其方法較為單一,就是將數(shù)據(jù)在各個字段之上進(jìn)行求和處理,了解其平均值,再對其進(jìn)行簡單的分析處理。
2 高校圖書館服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在高校圖書館服務(wù)中數(shù)據(jù)挖掘技術(shù)的作用主要體現(xiàn)在可以完善信息資源庫,提高信息資源的利用效率。利用數(shù)據(jù)挖掘技術(shù)構(gòu)建完善的高校圖書館大數(shù)據(jù)挖掘方案,合理使用數(shù)據(jù)挖掘技術(shù)的應(yīng)用重點與技術(shù)手段,具體如下:
2.1 完善信息資源建設(shè)
通過數(shù)據(jù)挖掘技術(shù)對各種信息進(jìn)行挖掘處理,獲得的內(nèi)容就是圖書館讀者群體的基礎(chǔ)信息。為了提升圖書館個性化的服務(wù)質(zhì)量,完善信息資源的檢索服務(wù),要對各個方面的信息資源進(jìn)行收集整理,進(jìn)而構(gòu)造完善的個性化服務(wù)資源。在實際應(yīng)用中,要對讀者的閱讀需求以及閱讀方向進(jìn)行了解,對各項信息資源進(jìn)行有效的補(bǔ)充與完善,提升圖書館的個性化服務(wù)特征。
2.2 提高信息資源的利用效率
高校信息資源的采集與處理尤為重要,其直接關(guān)系到圖書館的綜合實力。圖書館如果涵蓋了豐富的信息資源,就會吸引大量的讀者。傳統(tǒng)的信息采集都是通過人工的方式開展的,因為個體差異導(dǎo)致其信息資源采集受到各種因素的干擾。通過現(xiàn)代化的數(shù)據(jù)挖掘技術(shù),可以對高校圖書館的內(nèi)部資源進(jìn)行系統(tǒng)的分析梳理,綜合具體狀況具體分析,給出合理的建議,進(jìn)而為讀者的閱讀提供方便。這樣不僅僅可以提升圖書館的利用率,也可以在根本上改善讀者的閱讀體驗。
2.3 高校圖書館大數(shù)據(jù)挖掘方案設(shè)計
在利用數(shù)據(jù)挖掘技術(shù)進(jìn)行高校圖書館方案的設(shè)計過程中,可以基于Hadoop大數(shù)據(jù)分析基礎(chǔ)平臺、利用MapReduce/Spark作為計算框架對其進(jìn)行個性化的服務(wù)設(shè)計。在整個大數(shù)據(jù)挖掘方案的設(shè)計中,其主要的模塊為數(shù)據(jù)收集、角色構(gòu)建、實現(xiàn)算法以及結(jié)果存儲、前端應(yīng)用等,主要分為在線部分以及離線部分,包括數(shù)據(jù)特征選取、個性化服務(wù)算法選取等相關(guān)內(nèi)容。
2.3.1 在線部分
1) 數(shù)據(jù)收集
基于開源分布式文件系統(tǒng)HDFS以及HBase數(shù)據(jù)庫管理系統(tǒng)基礎(chǔ)之上,進(jìn)行高校圖書館的大數(shù)據(jù)存儲以及數(shù)據(jù)信息的讀寫操作。其中HDFS文件系統(tǒng)就是一個具有高擴(kuò)展性、高穩(wěn)定性且高可靠性的大規(guī)模的數(shù)據(jù)分布存儲管理系統(tǒng),可以為上層的應(yīng)用程序提供邏輯較為完整的大規(guī)模的數(shù)據(jù)文件信息。而HBase則是基于HDFS之上的一種分布式的數(shù)據(jù)庫,可以解決結(jié)構(gòu)化以及半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的大數(shù)據(jù)的數(shù)據(jù)存儲問題,可以實現(xiàn)實時的讀寫以及隨機(jī)的訪問處理。
用戶的各種行為就是個性化服務(wù)算法的信息來源基礎(chǔ),對此必須要對用戶的訪問日志進(jìn)行收集整理。同時,用戶應(yīng)用的檢索以及推薦的引擎系統(tǒng)中的數(shù)據(jù)也會被系統(tǒng)記錄分析,主要用于對今后的算法進(jìn)行優(yōu)化處理。
2) 前端應(yīng)用
前端應(yīng)用主要就是對網(wǎng)頁接收以及移動設(shè)備推進(jìn)的各種請求的處理,在對其進(jìn)行處理之后要綜合實際狀況推薦后臺的引擎?zhèn)鬟f,在獲得其后臺的返回結(jié)果之后再反饋給用戶。通過網(wǎng)絡(luò)平臺上的關(guān)聯(lián)數(shù)據(jù)技術(shù)手段,結(jié)合海量的語義網(wǎng)絡(luò)知識庫系統(tǒng),對其進(jìn)行實時的檢索分析,可以為用戶提供實時性、交互性的個性化信息服務(wù)。
2.3.2 離線部分
1) 角色建模
角色建模主要可以分為用戶建模以及文獻(xiàn)建模兩種類型。其中用戶建模就是綜合用戶的人口統(tǒng)計學(xué)信息以及用戶的行為數(shù)據(jù)構(gòu)建完善的用戶畫像模型,了解用戶的短期以及中長期的興趣以及趨勢等。而文獻(xiàn)建模則是綜合文獻(xiàn)自身的領(lǐng)域?qū)傩蕴卣?,結(jié)合用戶訪問的文獻(xiàn)信息數(shù)據(jù),構(gòu)建基礎(chǔ)的文獻(xiàn)畫像模型,其主要的目的就是刻畫用戶本質(zhì)特征。用戶建模以及文獻(xiàn)建模其主要的方式就是本體建模方式以及非本體建模兩種方式,這兩種建模方式可以通過Spark/MapReduce計算框架實現(xiàn),而其模型主要就是通過HBase數(shù)據(jù)庫對其進(jìn)行分布式的存儲以及檢索。
2) 算法實現(xiàn)和結(jié)果存儲
推薦、檢索以及推送算法都是以已經(jīng)建立的用戶模型以及文獻(xiàn)模型為基礎(chǔ),利用不同的方式對其進(jìn)行計算分析,進(jìn)而尋找可以與用戶以及輸入信息匹配的文獻(xiàn)內(nèi)容,通過大數(shù)據(jù)挖掘技術(shù)對其進(jìn)行優(yōu)化,可以提升個性化服務(wù)的質(zhì)量,進(jìn)而提高用戶的使用滿意度。
Mahout則是一種以Hadoop以及MapReduce計算框架為基礎(chǔ)的具有擴(kuò)展性的軟件包,其主要的作用就是處理高校圖書館大數(shù)據(jù)。Mahout可以為推薦引擎提供了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典算法,涵蓋了聚類、分類、頻繁集等挖掘算法;可以利用降維方法對各項信息進(jìn)行降維處理,解決高校圖書館的高緯度問題;可以實現(xiàn)用戶推薦以及物品推薦,為用戶提供個性化的信息服務(wù)。
2.3.3 數(shù)據(jù)特征選取
在實際應(yīng)用中,無論應(yīng)用本體建模還是非本體的建模方式,用戶建模以及文獻(xiàn)建模的重點就是信息數(shù)據(jù)的特征選取,在掌握對象數(shù)據(jù)的基礎(chǔ)特征之后可以通過模型對其進(jìn)行分析處理,通過基于內(nèi)容的方式、用戶行為的方式、專業(yè)知識的方式以及社交網(wǎng)絡(luò)等方式了解其相似度,進(jìn)而提供個性化的服務(wù)。鑒于現(xiàn)階段高校圖書館中并沒有形成較為完善的社交網(wǎng)絡(luò)系統(tǒng),在實際應(yīng)用中可以綜合內(nèi)容以及行為特征進(jìn)行分析處理。其內(nèi)容特征則主要包括了文獻(xiàn)的標(biāo)題、類別、用戶的背景以及興趣等內(nèi)容。用戶行為則主要就是用戶的瀏覽、下載以及借閱的文獻(xiàn)歷史記錄。二者可以實現(xiàn)有效的互補(bǔ),例如,在用戶流量不足的時候其主要的內(nèi)容特征就是首選,無需了解用戶的訪問記錄,就可以解決大數(shù)據(jù)挖掘系統(tǒng)中存在的問題與不足;而在用戶具有較為充足的流量的時候,則可以對文章自身進(jìn)行挖掘,了解其存在的潛在語義,提供更為精準(zhǔn)的推薦內(nèi)容。
2.3.4 個性化服務(wù)推薦算法選取
高校圖書館要想提供高質(zhì)量的個性化服務(wù),需要合理的應(yīng)用推薦算法并保障算法的精準(zhǔn)性、高效性以及穩(wěn)定性。
1) 準(zhǔn)確性。在推薦系統(tǒng)推薦過程中,其自身的準(zhǔn)確性主要就是受到用戶的數(shù)量以及物品之間數(shù)量比例因素的影響。在一般狀況之下,小部分相似度較高的用戶,其價值要高于相似度較低的用戶。在高校圖書館中的主要用戶多為學(xué)生、教師以及相關(guān)行政人員,不同的類別可以進(jìn)行精準(zhǔn)的劃分處理,通過對學(xué)生的不同專業(yè)的分析了解用戶之間的區(qū)分狀況,通過基于用戶的協(xié)同過濾的方式進(jìn)行推薦,可以提升高校圖書館個性化推薦的效果與質(zhì)量。
2) 高效性。在一般狀況之下,多數(shù)的數(shù)據(jù)挖掘部分就是離線計算,對于實時返回的結(jié)果并沒有嚴(yán)格的要求,而在現(xiàn)階段的發(fā)展中必須對實時數(shù)據(jù)挖掘結(jié)果的計算時間提出一定的要求。因此,必須要提升挖掘的效率與質(zhì)量。在用戶數(shù)量高于物品數(shù)量的時候,物品的相似度計算其消耗的資源要小于用戶之間的相似度的計算,因此,物品的協(xié)同過濾效率也更高。反之,則既有用戶的協(xié)同過濾更為高效。因為在高校圖書館中應(yīng)用的文獻(xiàn)數(shù)量要高于實際的用戶數(shù)量,則可以應(yīng)用協(xié)同過濾的方式進(jìn)行處理。
3) 穩(wěn)定性。物品以及用戶在持續(xù)變化,在系統(tǒng)中,如果其物品集合的穩(wěn)定性高于用戶集合的穩(wěn)定性,則可以通過基于物品的方式進(jìn)行處理,進(jìn)而避免頻繁信息數(shù)據(jù)的計算以及更新。如果狀況相反,則要通過基于用戶的方式進(jìn)行處理。在高校中,學(xué)生的數(shù)量是變化的,學(xué)生的用戶也隨著新生入學(xué)以及畢業(yè)而出現(xiàn)變化,而圖書館的書籍以及文獻(xiàn)都會出現(xiàn)不同程度的變化,從穩(wěn)定性的角度對其進(jìn)行分析,可以綜合實際狀況合理的應(yīng)用。
3 結(jié)束語
在大數(shù)據(jù)時代,高校圖書館的個性化服務(wù)還是存在一定的問題與不足,通過大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,可以完善信息資源建設(shè),增強(qiáng)信息資源的利用效率,綜合實際狀況合理地設(shè)計高校圖書館大數(shù)據(jù)挖掘方案,進(jìn)而精準(zhǔn)的分析用戶的不同需求,進(jìn)而提高用戶的滿意度,這樣才可以為高校圖書館用戶提供高質(zhì)量的信息服務(wù),具有一定的應(yīng)用價值。
參考文獻(xiàn):
[1] 柳益君,何勝,馮新翎,等.大數(shù)據(jù)挖掘在高校圖書館個性化服務(wù)中應(yīng)用研究[J].圖書館工作與研究,2017,(5).
[2] 王哲.數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務(wù)中的應(yīng)用研究[D].重慶大學(xué),2012.
[3] 楊雪霞.數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J].軟件,2011,32(4).
[4] 項爾津.高校圖書館個性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].蘭臺世界,2014,(29).
[5] 李靜.數(shù)據(jù)挖掘技術(shù)在高校圖書館個性化服務(wù)中的應(yīng)用研究[D].2012.
【通聯(lián)編輯:唐一東】