倪偉燕
(菏澤學(xué)院,山東 菏澤 274000)
基于數(shù)據(jù)挖掘技術(shù)為主的數(shù)字圖書館是在互聯(lián)網(wǎng)環(huán)境下建立的,可使讀者擺脫空間和時間的限制,將傳統(tǒng)圖書館轉(zhuǎn)移到了某種介質(zhì)上,讀者可以通過移動設(shè)備,獲取圖書館的各種資源。數(shù)字圖書館能滿足讀者隨時隨地進(jìn)行信息檢索和圖書閱讀的要求,下面針對基于數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館建設(shè)進(jìn)行具體論述。
數(shù)據(jù)挖掘技術(shù)就是使用算法在大量的數(shù)據(jù)中搜索隱藏的信息。數(shù)據(jù)挖掘也是發(fā)現(xiàn)知識的過程,是通過科技,從繁雜冗長的數(shù)據(jù)中找到潛在的信息,再通過轉(zhuǎn)換分析,進(jìn)行模型化處理,從而獲得自己需要的數(shù)據(jù),最終為數(shù)據(jù)管理決策提供依據(jù)。同時該技術(shù)也可以和人工智能、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)庫等技術(shù)相結(jié)合進(jìn)一步深入挖掘下去。
美國加州大學(xué)的Michael Cooper教授通過數(shù)據(jù)挖掘技術(shù)對大學(xué)圖書館日志數(shù)據(jù)進(jìn)行分析,對不同類型的讀者在圖書館逗留的時間和規(guī)律,建立了一個數(shù)學(xué)模型,通過聚類對讀者的行為規(guī)律進(jìn)行分析,同時預(yù)測未來的發(fā)展情況。芝加哥大學(xué)的Swansan開發(fā)了Arrowsminth軟件系統(tǒng),可對每種文獻(xiàn)之間存在的關(guān)系進(jìn)行分析,從而為讀者提供更有價值的信息知識。Papatheodorou等人將數(shù)據(jù)挖掘技術(shù)使用到圖書館信息管理中,為圖書館建立數(shù)據(jù)管理對策和進(jìn)行館藏提供了更多的科學(xué)依據(jù)。
隨后出現(xiàn)的關(guān)聯(lián)挖掘理論技術(shù),實(shí)現(xiàn)了圖書館信息個性化推送服務(wù)。之后2011年,有學(xué)者提出使用數(shù)據(jù)挖掘技術(shù)建立針對性的推薦系統(tǒng),對讀者訪問圖書館網(wǎng)站的時間、偏好、瀏覽情況等進(jìn)行分析,總結(jié)讀者選擇信息的關(guān)聯(lián)性和規(guī)律性,從而在網(wǎng)頁上實(shí)現(xiàn)信息推薦。2012年,有學(xué)者在云計算基礎(chǔ)上建立圖書館數(shù)據(jù)挖掘系統(tǒng),為用戶提供平臺數(shù)據(jù)共享集和算法,從而實(shí)現(xiàn)開放性的圖書館數(shù)據(jù)共享系統(tǒng)[1]。同時也有人對圖書館讀者的行為進(jìn)行分析,建立根據(jù)讀者的行為和偏好建立數(shù)據(jù)挖掘技術(shù)模型。2014年逐漸實(shí)現(xiàn)移動性的數(shù)據(jù)挖掘技術(shù)數(shù)字圖書館[2]。
數(shù)據(jù)包括了:讀者的行為數(shù)據(jù),也就是讀者在高校圖書館訪問OPAC時生成的日志,其中涵蓋了讀者檢索詞、電子書下載、鏈接點(diǎn)擊、電子資源訪問等信息;讀者借還數(shù)據(jù),即讀者借閱的各類書籍名、次數(shù)、欠費(fèi)時間、類別、索書號等相關(guān)性的流通日志數(shù)據(jù)。
日志文件屬于非結(jié)構(gòu)式的文本文件,數(shù)量比較多,而且沒有統(tǒng)一性。在分析數(shù)據(jù)之前需要從非結(jié)構(gòu)數(shù)據(jù)中收集結(jié)構(gòu)化數(shù)據(jù),再完成預(yù)處理。先要進(jìn)行數(shù)據(jù)清洗,即去除冗余數(shù)據(jù)、缺失數(shù)據(jù)、噪聲過濾等。再進(jìn)行數(shù)據(jù)轉(zhuǎn)換,就是縮短數(shù)據(jù)的維度,降低數(shù)據(jù)挖掘時需要分析的變量數(shù)和特征[3]。
根據(jù)讀者聚類和分類分析,總結(jié)出讀者的個性化需求,從而建立關(guān)聯(lián)性規(guī)則模型。先要進(jìn)行分類和預(yù)測,尋找具有預(yù)測性的信息,建立重要數(shù)據(jù)模型,或是預(yù)測數(shù)據(jù)模型。再進(jìn)行關(guān)聯(lián)規(guī)則分析,分析讀者借閱特征和圖書間的關(guān)聯(lián)性。
讀書館每年采購文獻(xiàn)的經(jīng)費(fèi)有限,如果能在數(shù)字圖書館基礎(chǔ)上對流通日志、館藏書目數(shù)據(jù)和檢索請求等信息進(jìn)行分析,分析文獻(xiàn)信息的使用率、讀者感興趣的模式,同時預(yù)測未來讀者的興趣變化,以及未來圖書館文獻(xiàn)采購趨勢,這樣就能合理訂購文獻(xiàn)資源。筆者所在的圖書館設(shè)立了技術(shù)部,主要負(fù)責(zé)圖書館計算機(jī)管理系統(tǒng)的研究、管理以及應(yīng)用開發(fā)等工作,同時在資源采集方面,配合采編部做好資源購置工作。為了保證有限的資金能最大限度地得到合理利用,就需要運(yùn)用數(shù)據(jù)挖掘技術(shù),對圖書館的流通日志、館藏數(shù)據(jù)、檢索信息等進(jìn)行分析,找出流通量比較大的書籍?dāng)?shù)據(jù)信息,并依次分析出讀者感興趣的信息數(shù)據(jù),然后根據(jù)這些數(shù)據(jù)調(diào)整圖書采購計劃,訂購讀者喜歡的、熱門的、實(shí)用的圖書資源,減少購書的盲目性,進(jìn)而改進(jìn)圖書館的資源配置[4]。
筆者曾對所在圖書館2015、2016、2017三個年度的館藏紙質(zhì)資源流通情況進(jìn)行統(tǒng)計分析,結(jié)果發(fā)現(xiàn),圖書館的紙質(zhì)資源利用率較低,且呈每年繼續(xù)向下的趨勢。這是因?yàn)榫W(wǎng)絡(luò)環(huán)境下,讀者獲取信息資源的渠道已更為便捷而多元化。圖書館館藏資源的利用情況,反映的不僅是其資源是否滿足讀者的需求,而且也是衡量其文獻(xiàn)資源建設(shè)質(zhì)量的重要指標(biāo)。因此,圖書管理者有必要找出差距,分析原因,有針對性地采取提高資源利用率的具體措施,比如加大對紙質(zhì)資源的宣傳力度,建立好書、新書推薦欄,提高管理人員的專業(yè)素養(yǎng)等。
而對圖書館館藏圖書借閱情況的調(diào)查分析表明,讀者借閱最多的是文學(xué)藝術(shù)書籍,有14.2萬冊,占全年總借閱量的53%,說明文學(xué)和藝術(shù)類書籍是最受歡迎的。其次是語言類書籍,再次是政治經(jīng)濟(jì)類書籍,占全年借閱總量的13%。這是因?yàn)榻?jīng)濟(jì)專業(yè)在筆者學(xué)校屬于大專業(yè),學(xué)生人數(shù)多,對專業(yè)有追求。因此,圖書館在下一步的文獻(xiàn)資源建設(shè)中,必須考慮學(xué)生的興趣和閱讀傾向,調(diào)整文獻(xiàn)文種結(jié)構(gòu)和文獻(xiàn)學(xué)科結(jié)構(gòu),以及新書年代結(jié)構(gòu),準(zhǔn)確文獻(xiàn)復(fù)本校對,剔除呆滯文獻(xiàn),建立更加科學(xué)完善的館藏資源體系,保證圖書館資源的最大利用率,進(jìn)一步提高服務(wù)水平,建立圖書館全面質(zhì)量管理體系[5]。
傳統(tǒng)的圖書館形式無法滿足讀者及時查詢的需求,要快速獲取信息就需進(jìn)行加深擴(kuò)展。而數(shù)據(jù)挖掘技術(shù)的使用可以對這些繁雜的數(shù)據(jù)進(jìn)行詳細(xì)分析。該技術(shù)可以利用讀者的專業(yè)背景、學(xué)科等信息,根據(jù)讀者借閱的規(guī)律,進(jìn)行借閱興趣、習(xí)慣和趨勢的分析,為讀者提供針對性文獻(xiàn)資料,從而實(shí)現(xiàn)不斷更新的推送服務(wù),提高圖書館資源使用的效率。
數(shù)字讀書館儲存的不僅有本館的電子文獻(xiàn),同時也收集了很多來自Internet網(wǎng)絡(luò)上的資源信息。Internet上的數(shù)據(jù)是非結(jié)構(gòu)的、多樣的、動態(tài)的,而挖掘技術(shù)可以對Web系統(tǒng)中大量的文檔進(jìn)行分類、摘要、關(guān)聯(lián)分析,從中提取出自己想要的信息,并可以根據(jù)已經(jīng)定義好的主題類型,對每個網(wǎng)頁文檔科學(xué)分類和標(biāo)引,從而建立學(xué)科導(dǎo)航系統(tǒng),為數(shù)字圖書館提供更加豐富的信息資源。現(xiàn)在的圖書館除了購買電子圖書外,還會購進(jìn)各種數(shù)據(jù)庫,圖書管理人員可以利用這些數(shù)據(jù)庫,對有效的信息資源進(jìn)行開發(fā)和利用,繼而挖掘出信息資源的使用價值,而讀者則可利用這些資源,收集資料和數(shù)據(jù),用于滿足自己的使用需求。根據(jù)筆者對所在學(xué)校圖書館電子資源的使用情況調(diào)查統(tǒng)計發(fā)現(xiàn),雖然電子資源每年的登錄量逐年增加,但整體利用率仍舊偏低,可見電子資源的綜合利用情況很不理想。要提高電子資源的使用效能,竊以為,可以從以下幾方面入手。
一是要堅(jiān)持“讀者第一,服務(wù)至上”的宗旨,以敏銳的觀察判斷力和選擇信息的能力,以及熟練的資源檢索能力,為讀者提供高效、優(yōu)質(zhì)、多元化的信息技術(shù)服務(wù)。并加大宣傳力度,展開引導(dǎo)工作,使更多讀者了解圖書館的電子資源,擴(kuò)大電子資源的影響力。
二是要建立咨詢服務(wù)平臺,全方位服務(wù)讀者。可專門組織人員負(fù)責(zé)各個學(xué)科領(lǐng)域的科研需求分析、信息資源檢索分析和報道、課題跟蹤服務(wù)等咨詢服務(wù)工作,從而推進(jìn)咨詢服務(wù)工作的進(jìn)展。
三是要做好網(wǎng)絡(luò)環(huán)境下的數(shù)字圖書館知識信息導(dǎo)航。幫助用戶在網(wǎng)絡(luò)海量信息中識別、找到他們需要的知識信息是圖書館員的重要職責(zé),也是數(shù)字圖書館用戶教育的重要內(nèi)容。數(shù)字圖書館可建立專業(yè)網(wǎng)站,定期動態(tài)報道某一專業(yè)信息資源的更新情況,以及專業(yè)領(lǐng)域的學(xué)術(shù)動態(tài),為專業(yè)用戶提供及時的專業(yè)知識獲取窗口等方式,建立專業(yè)化的知識信息導(dǎo)航系統(tǒng)。
四是要完善網(wǎng)絡(luò)環(huán)境,提高讀者檢索能力。圖書館管理員應(yīng)在保證檢索工具的正常運(yùn)轉(zhuǎn)、擴(kuò)大網(wǎng)絡(luò)覆蓋面、設(shè)置合法用戶訪問權(quán)限、培訓(xùn)讀者、提供操作指南等方面,開展全方位、多層次的高水平服務(wù)。
每個學(xué)科都有其經(jīng)典書籍,可將它們設(shè)為好書推薦欄,并在網(wǎng)頁上進(jìn)行相關(guān)設(shè)置,讀者一輸入關(guān)鍵字,檢索系統(tǒng)就可以自動為讀者推薦與關(guān)鍵字相關(guān)的、閱讀量較高的圖書,從而有效滿足讀者的借閱需求。另外,數(shù)字圖書館可以根據(jù)讀者的專業(yè)進(jìn)行分析,快速準(zhǔn)確地搜索出讀者需要的圖書。該系統(tǒng)的建立可以節(jié)省讀者尋找信息的時間,同時為讀者提供更多有價值的圖書。
綜上,建立數(shù)字圖書館,就是利用挖掘技術(shù),對各種潛在的信息數(shù)據(jù)進(jìn)行搜索和分析,并推送給讀者,從而滿足更多讀者的個性化需求。這樣不僅減少了讀者搜索圖書的時間,同時也提高了讀者對圖書館資源的使用率,實(shí)現(xiàn)讀書館管理服務(wù)水平的提高。