徐杰
?
基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式研究
徐杰
山東省泰安市中心醫(yī)院,山東 泰安 271000
對用戶數(shù)據(jù)進(jìn)行挖掘可以優(yōu)化圖書館文獻(xiàn)采訪,利用用戶借閱數(shù)據(jù)可以指導(dǎo)采購資金分配,利用用戶檢索數(shù)據(jù)可以獲知讀者需求文獻(xiàn),利用用戶預(yù)約數(shù)據(jù)可以補充館藏文獻(xiàn)?;谟脩魯?shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式有3種,分別為應(yīng)用決策樹的分類分析、應(yīng)用數(shù)據(jù)群組的聚類分析和應(yīng)用數(shù)據(jù)挖掘的關(guān)聯(lián)分析,來指導(dǎo)圖書館文獻(xiàn)采訪決策。提出基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式實現(xiàn)思路為,采用點面結(jié)合方式、定位文獻(xiàn)采訪方向,應(yīng)用數(shù)據(jù)挖掘技術(shù)、輸出文獻(xiàn)采訪重點,多維度挖掘用戶數(shù)據(jù)、提高文獻(xiàn)采訪有效性。
讀者用戶;數(shù)據(jù)挖掘;公共圖書館;文獻(xiàn)采訪;決策模式
圖書館文獻(xiàn)采訪是公共圖書館館藏建設(shè)的首要內(nèi)容,也是為廣大讀者用戶提供良好服務(wù)的資源基礎(chǔ)。圖書館文獻(xiàn)采訪,是指圖書館在綜合考慮已有的資金經(jīng)費、讀者需求、館建性質(zhì)等因素的前提下,不斷補充與完善館藏資源的過程。圖書館文獻(xiàn)采訪不僅包括紙質(zhì)版的中外文圖書文獻(xiàn)與報刊資料,在數(shù)字信息化普及的當(dāng)今,也包括數(shù)字資源和信息資源的采訪。公共圖書館文獻(xiàn)資源的采訪質(zhì)量在很大程度上決定著圖書館的服務(wù)水平,直接影響著讀者的閱讀效果和公共圖書館的工作任務(wù)完成效率,因此圖書館文獻(xiàn)采訪工作要最大化契合讀者用戶的閱讀需求,在圖書館進(jìn)行文獻(xiàn)采訪工作之前,要對讀者用戶的數(shù)據(jù)進(jìn)行挖掘,通過大數(shù)據(jù)分析方法得到讀者閱讀喜好的客觀數(shù)據(jù),進(jìn)而開展有針對性、有目的性的文獻(xiàn)采訪,在圖書經(jīng)費有限的情況下,最大化滿足讀者用戶的閱讀要求[1]。
對于圖書館而言,讀者用戶的數(shù)據(jù)可以分為三類:用戶借閱數(shù)據(jù)、用戶檢索數(shù)據(jù)和用戶預(yù)約數(shù)據(jù),圖書館通過對這三類數(shù)據(jù)的跟蹤統(tǒng)計及挖掘分析,可以指導(dǎo)文獻(xiàn)采訪的資金分配、購買傾向、資源配置優(yōu)化等工作。
首先,圖書館可以利用管理系統(tǒng)集成的統(tǒng)計功能對讀者用戶的借閱數(shù)據(jù)進(jìn)行跟蹤統(tǒng)計,再利用數(shù)據(jù)挖掘技術(shù)和分類聚類方法對收集到的數(shù)據(jù)進(jìn)行分析,可以清晰地看出讀者用戶借閱各大類文獻(xiàn)資源的情況和趨勢變化,了解讀者用戶閱讀喜好與閱讀傾向,把握讀者對各大類別文獻(xiàn)資源的需求量,進(jìn)而預(yù)測新一輪的圖書館文獻(xiàn)采訪工作的側(cè)重點,并將有限的經(jīng)費有計劃地投入到各類文獻(xiàn)的采買預(yù)算中。對于借閱量較大的資源文獻(xiàn),可以適當(dāng)增加購買比例,對于零借閱量的圖書或資源,則可適當(dāng)減少購買數(shù)量或停止采訪。總之,以讀者借閱數(shù)據(jù)為基礎(chǔ),合理分配采訪資金,可以有效避免圖書館采訪工作中出現(xiàn)的主觀性和片面性錯誤,有利于提高館藏資源利用效率。表1是安徽蚌埠禹會區(qū)圖書館近兩年來用戶借閱統(tǒng)計表[2],由表可知,利用用戶借閱數(shù)據(jù)指導(dǎo)采購資金的分配,有利于提高圖書館采訪工作的時效性,對優(yōu)化圖書館文獻(xiàn)采訪工作具有重要作用。
表1 2015-2016年安徽蚌埠禹會區(qū)圖書館部分圖書流通借閱數(shù)量及占當(dāng)年采訪經(jīng)費百分比統(tǒng)計
基于用戶數(shù)據(jù)挖掘的內(nèi)容還包括用戶在檢索文獻(xiàn)過程中產(chǎn)生的記錄數(shù)據(jù),圖書館自動服務(wù)系統(tǒng)利用數(shù)據(jù)挖掘關(guān)聯(lián)技術(shù),對讀者用戶的檢索數(shù)據(jù)進(jìn)行全面捕捉、關(guān)聯(lián)、采集和整理,排除冗余的、無規(guī)律的隨機(jī)干擾性信息,整合成為具有一定規(guī)律性的用戶文獻(xiàn)檢索數(shù)據(jù),并將讀者關(guān)注度較高的檢索關(guān)鍵詞和主題詞進(jìn)行使用次數(shù)的降序排列,再從中分析出讀者用戶喜愛度較高的熱門文獻(xiàn)與圖書。圖書館經(jīng)過挖掘用戶檢索數(shù)據(jù)獲知的熱門閱讀文獻(xiàn)和圖書可以看做是讀者用戶迫切需要的資源,是讀者閱讀需求的直觀體現(xiàn)[3],因此,基于用戶數(shù)據(jù)挖掘的檢索數(shù)據(jù)分析結(jié)果可以指導(dǎo)圖書館采訪決策方向,圖書館在用于文獻(xiàn)采訪工作有限的經(jīng)費基礎(chǔ)上,優(yōu)先采購讀者檢索頻率高、需求量大的資源文獻(xiàn)。
讀者用戶預(yù)約服務(wù)是指讀者借閱某種借出狀態(tài)或空缺狀態(tài)的圖書時,讀者可以選擇預(yù)約,當(dāng)圖書處于在架狀態(tài),預(yù)約讀者享有優(yōu)先借閱的權(quán)利。一般來說,讀者預(yù)約借閱圖書的原因有二,一為館藏復(fù)本量不足,二為館藏文獻(xiàn)欠缺。用戶數(shù)據(jù)中的預(yù)約數(shù)據(jù)真實反映了讀者對某類圖書的閱讀需求,因此,圖書館對讀者預(yù)約數(shù)據(jù)進(jìn)行統(tǒng)計,根據(jù)讀者預(yù)約次數(shù),形成預(yù)約熱點的文獻(xiàn)書目表,增加預(yù)約頻率較高的文獻(xiàn)的復(fù)本量,并制定符合實際的采訪計劃,確定復(fù)本的采購數(shù)量,同時,通過監(jiān)控用戶預(yù)約數(shù)據(jù)的實時變化,圖書館可以靈活調(diào)整文獻(xiàn)采訪措施,從而加強(qiáng)圖書館的文獻(xiàn)資源保障能力[4]。
圖書館的文獻(xiàn)采訪系統(tǒng)是一種決策的過程,因此基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式設(shè)計可以結(jié)合決策樹分類分析、數(shù)據(jù)群組聚類分析、數(shù)據(jù)挖掘關(guān)聯(lián)分析等決策模型。
決策樹是一種常用的數(shù)據(jù)分析方法,可以對數(shù)據(jù)進(jìn)行精準(zhǔn)的分類和趨勢預(yù)測。圖書館通過對用戶數(shù)據(jù)的收集,制作用戶數(shù)據(jù)的流程圖樹結(jié)構(gòu),每一個內(nèi)部節(jié)點表示一個屬性的數(shù)據(jù),分支則代表測試輸出,用戶數(shù)據(jù)的決策樹節(jié)點則代表數(shù)據(jù)類別[5]。以用戶借閱數(shù)據(jù)為例,圖書館使用決策樹方法將讀者借閱圖書的數(shù)據(jù)按照活躍程度進(jìn)行分類,當(dāng)圖書館需要新書文獻(xiàn)采訪時,則可以通過決策樹對新書文獻(xiàn)進(jìn)行借閱程度的預(yù)測而得到采訪決策的結(jié)果。應(yīng)用決策樹的分類分析指導(dǎo)文獻(xiàn)采訪,具有計算規(guī)則簡便、能夠同時處理不同類型數(shù)據(jù)的優(yōu)勢。然而,由于讀者數(shù)據(jù)的多樣性和復(fù)雜性,在應(yīng)用決策樹分類分析進(jìn)行預(yù)測和指導(dǎo)文獻(xiàn)采訪時,容易出現(xiàn)計算錯誤增加和較難預(yù)測連續(xù)數(shù)據(jù)的缺點。
在對用戶數(shù)據(jù)收集過程中,圖書館可以通過數(shù)據(jù)群組的方式首先對讀者數(shù)據(jù)進(jìn)行聚類劃分,如借閱數(shù)據(jù)、檢索數(shù)據(jù)和預(yù)約數(shù)據(jù),對聚類群組內(nèi)的數(shù)據(jù)出現(xiàn)的頻段進(jìn)行降次排序,得到熱門流通文獻(xiàn)圖書的結(jié)果。其次,綜合不同聚類數(shù)據(jù)群組,若干個群組交集的文獻(xiàn)圖書則為最受讀者歡迎或最熱門的文獻(xiàn)資源,進(jìn)而采用數(shù)據(jù)關(guān)聯(lián)技術(shù),定位與高頻率借閱圖書具有相似主題的資源,并作出下一階段的圖書館文獻(xiàn)采訪決策計劃。這種聚類分析指導(dǎo)下的圖書館文獻(xiàn)采訪具有較高精準(zhǔn)性,可以將圖書館已有的借閱表、圖書表等數(shù)據(jù)考慮在內(nèi),增強(qiáng)了圖書館采訪計劃的全面性。此外,也兼顧到讀者檢索閱讀的個體性,即在聚類分析過程中,從群組的角度出發(fā),設(shè)定了一定的數(shù)據(jù)取值,只有相關(guān)的同類數(shù)據(jù)才能更好地、更準(zhǔn)確地衡量此維度的價值,因而應(yīng)用群組聚類分析指導(dǎo)的圖書館文獻(xiàn)采訪決策對圖書館個性化服務(wù)也具有一定作用[6]。
數(shù)據(jù)關(guān)聯(lián)是指對2個或2個以上的多個變量進(jìn)行整合,發(fā)現(xiàn)取值之間的某種規(guī)律,進(jìn)而關(guān)聯(lián)起來的一種數(shù)據(jù)處理手段。用戶數(shù)據(jù)被納入圖書館數(shù)據(jù)分析庫中,則可以對數(shù)據(jù)進(jìn)行預(yù)測性組合,這種數(shù)據(jù)挖掘的關(guān)聯(lián)分析主要目的在于探尋讀者與圖書館文獻(xiàn)之間存在的潛在關(guān)系,例如在進(jìn)行新書采訪或評估之前,可以把新書簡介發(fā)給部分讀者,收集這一部分的讀者反饋,篩選興趣度較高的讀者,再通過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)與該類讀者存在隱藏關(guān)聯(lián)的B類讀者,將同樣的圖書文獻(xiàn)發(fā)送給B類讀者,獲取B類讀者興趣值,經(jīng)過不斷地對用戶數(shù)據(jù)關(guān)聯(lián)分析,可以綜合評價采訪圖書的利用率和實際效用,從而知道圖書館做出合理的圖書文獻(xiàn)采訪決策。
結(jié)合上述關(guān)于用戶數(shù)據(jù)與圖書館文獻(xiàn)采訪決策機(jī)制的分析,筆者從操作層面提出點面結(jié)合分析用戶數(shù)據(jù),定位文獻(xiàn)采訪方向;應(yīng)用數(shù)據(jù)挖掘技術(shù),輸出文獻(xiàn)采訪重點;多維度挖掘用戶數(shù)據(jù),提高文獻(xiàn)采訪有效性3個實現(xiàn)思路,以完善基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式構(gòu)建。
圖書館在文獻(xiàn)采訪決策過程中可以采用點面結(jié)合的方法對圖書文獻(xiàn)進(jìn)行科學(xué)的篩選。在點的層面上,圖書館可以抽樣分析個體用戶數(shù)據(jù),調(diào)取個體用戶一段時間內(nèi)的借閱、檢索活動產(chǎn)生的數(shù)據(jù),分析數(shù)據(jù)變化趨勢,掌握個體用戶的閱讀偏好與習(xí)慣。在面的層次上,圖書館則可以以群組或某一類讀者為研究對象,通過對用戶數(shù)據(jù)的分類分析,結(jié)合圖書館館藏圖書分布情況,對圖書的讀者需求進(jìn)行排序,對讀者閱讀度較高的圖書歸類,再結(jié)合圖書館的采訪經(jīng)費情況,篩選出急需購買的文獻(xiàn)優(yōu)先采購??傊?,圖書館在基于用戶數(shù)據(jù)挖掘進(jìn)行文獻(xiàn)采訪決策時,可以采用點面結(jié)合的方式全面分析讀者的閱讀需求,將讀者的閱讀數(shù)據(jù)與圖書館的采訪機(jī)制有機(jī)地結(jié)合起來[7]。
數(shù)據(jù)挖掘技術(shù)普遍應(yīng)用于分析數(shù)據(jù)庫中的數(shù)據(jù)來解決實際問題,針對圖書館文獻(xiàn)采訪決策工作,圖書館可以按照數(shù)據(jù)挖掘的方式對用戶數(shù)據(jù)進(jìn)行分析。具體來說,圖書館可以通過自動化管理系統(tǒng)獲取一段時間內(nèi)的借閱數(shù)據(jù)、書目數(shù)據(jù)、檢索數(shù)據(jù)以及數(shù)據(jù)來源,分析各類數(shù)據(jù)中出現(xiàn)頻率較高的關(guān)鍵詞或主題等,產(chǎn)生量化的分析數(shù)據(jù),然后再將圖書館文獻(xiàn)資源采訪的需求進(jìn)行量化輸出,計算圖書文獻(xiàn)采訪權(quán)重系數(shù),用此來表示下一階段圖書館采訪工作的重點,更精準(zhǔn)地開展圖書采訪工作。
圖書館可以根據(jù)個案調(diào)查對比的定性研究和大數(shù)據(jù)調(diào)查的定量研究兩方面入手,從多角度和多維度去分析用戶數(shù)據(jù),深刻理解讀者的閱讀需求和潛在興趣點,形成可供圖書館文獻(xiàn)采訪決策使用的信息情報源,從而為優(yōu)化圖書館文獻(xiàn)采訪工作提供科學(xué)依據(jù)。此外,圖書館可以結(jié)合本館館藏結(jié)構(gòu)、特色資源等情況,合理分配有限的資金經(jīng)費,綜合考慮用戶數(shù)據(jù)中的因子分析,廣泛將數(shù)學(xué)建模等科學(xué)方法融合到圖書館文獻(xiàn)采訪決策過程中,并以具體的圖書館為案例,在實踐中不斷完善基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式的可行性與有效性,形成一套具有實際操作效用的圖書文獻(xiàn)采訪模式,并加以推廣和擴(kuò)大宣傳[8]。
用戶數(shù)據(jù)挖掘就是從大量的、不規(guī)律的、有噪聲的隨機(jī)數(shù)據(jù)中提取隱含其中的規(guī)律,這些規(guī)律為圖書館的文獻(xiàn)采訪決策工作提供潛在的、有用的信息指導(dǎo)。通過對用戶數(shù)據(jù)的挖掘計算,可以指導(dǎo)圖書館指導(dǎo)采購資金分配、使圖書館獲知讀者需求文獻(xiàn)以及及時補充館藏資源。隨著圖書館網(wǎng)絡(luò)化和信息化的發(fā)展,越來越多圖書館開通了網(wǎng)絡(luò)主頁,讀者可以自行登錄賬號進(jìn)行借閱、預(yù)約等操作,因此,圖書館可以利用自動化管理系統(tǒng)對讀者操作痕跡進(jìn)行記錄,儲存到用戶數(shù)據(jù)庫中。為了充分應(yīng)用讀者用戶在流通借還、書目檢索、網(wǎng)絡(luò)訪問過程中產(chǎn)生的數(shù)據(jù),圖書館在進(jìn)行文獻(xiàn)采訪決策時,可以應(yīng)用決策樹的分類分析方法、數(shù)據(jù)群組的聚類分析方法和數(shù)據(jù)挖掘的關(guān)聯(lián)分析方法對用戶數(shù)據(jù)有序篩選和排列,指導(dǎo)圖書館文獻(xiàn)采訪的方向與重點,為圖書館文獻(xiàn)采訪的資金分配和文獻(xiàn)配置提供科學(xué)的量化依據(jù)。
目前,我國公共圖書館在文獻(xiàn)采訪決策方面尚存在不足,只有從讀者需求出發(fā),充分做好讀者閱讀意愿調(diào)查,才能夠真正做到“每位讀者都有書”和“每本書都有讀者”的統(tǒng)一。基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式建設(shè),既能夠充分滿足讀者的閱讀要求,又能夠在最大程度避免資源文獻(xiàn)的浪費與閑置,提高館藏利用率。因此,圖書館要在實踐中不斷豐富自身的文獻(xiàn)采訪決策模式構(gòu)建思路,提高文獻(xiàn)采訪有效性,將成功的圖書館文獻(xiàn)采訪決策模式推廣出去。
[1]時海燕.數(shù)據(jù)挖掘在公共圖書館管理工作中的作用分析[J].辦公室業(yè)務(wù),2016(21):189-190.
[2]尹斌.數(shù)據(jù)挖掘技術(shù)在圖書館創(chuàng)新服務(wù)中的應(yīng)用探討[J].電子技術(shù)與軟件工程,2016(2):195.
[3]袁芳.大數(shù)據(jù)環(huán)境下圖書館文獻(xiàn)資源建設(shè)模式的變革[J].圖書情報工作,2015,59(18):91-94.
[4]張宏偉,史惠媛.數(shù)據(jù)挖掘在高校圖書館文獻(xiàn)采購決策中的應(yīng)用——以黑龍江中醫(yī)藥大學(xué)圖書館為例[J].中國中醫(yī)藥圖書情報雜志,2016, 40(2):22-24.
[5]李碩,石麗紅,呼忠權(quán),等.序列模式挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊,2015,27(7):40-43.
[6]俞錦梅.數(shù)據(jù)挖掘在國內(nèi)圖書館應(yīng)用領(lǐng)域研究綜述[J].圖書與情報,2015(2):137-141.
[7]楊杰.大數(shù)據(jù)環(huán)境下的公共圖書館采訪策略[J].圖書館學(xué)刊,2015(3):44-46.
[8]趙研科.基于數(shù)據(jù)挖掘的高校圖書采訪決策系統(tǒng)設(shè)計與實現(xiàn)[D].長沙:湖南大學(xué),2012.
Study on Decision-making Modes of Literature Acquisition of Libraries Based on User Data Mining
XU Jie
(Shandong Tai'an Central Hospital, Tai'an 271000, China)
Mining user data can optimize literature acquisition of libraries. Using user lending data can guide the allocation of procurement funds. Using user search data can retrieve reader-required literature. Using user booking data can supplement the collection of literature. Based on user data mining, there are three kinds of decision-making modes in literature acquisition of libraries: classification analysis of applied decision tree, the cluster analysis of applied data groups and the association analysis of applied data mining, ,which can guide the decision-making in literature acquisitioning of libraries. The realization ideas of decision-making modes of literature acquisition of libraries based on user data mining are using point-by-surface approach to position literature interview direction, applying data mining technology to output literature acquisition focus, and multi-dimensionally mining user data to improve the effectiveness of the literature acquisition.
reader users; data mining; public libraries; literature acquisition; decision modes
徐杰.基于用戶數(shù)據(jù)挖掘的圖書館文獻(xiàn)采訪決策模式研究[J].中國中醫(yī)藥圖書情報雜志,2018,42(2):28-31.
10.3969/j.issn.2095-5707.2018.02.007
G253
A
2095-5707(2018)02-0028-04
(2017-11-03)
(2017-11-17;編輯:魏民)
徐杰,E-mail: vo9000@126.com