摘要:信息時(shí)代以及大數(shù)據(jù)時(shí)代的到來,改變了人們以往的工作和生活方式,公共圖書管理也逐漸轉(zhuǎn)變?yōu)閿?shù)字化管理,這無疑便利了圖書館管理工作,使大量的圖書信息被完好且條理清晰地保存了下來。作為一種結(jié)合多領(lǐng)域技術(shù)開發(fā)而形成的一種現(xiàn)代化先進(jìn)信息技術(shù),數(shù)據(jù)挖掘在很大程度上推動(dòng)著圖書館數(shù)字化建設(shè)的快速發(fā)展。本文對公共圖書館管理中的數(shù)據(jù)挖掘技術(shù)進(jìn)行了系統(tǒng)分析,并討論了其功能以及在圖書館管理工作中的具體應(yīng)用,希望能加快我國圖書館的數(shù)字化建設(shè)。
關(guān)鍵詞:公共圖書館;數(shù)據(jù)挖掘;管理;應(yīng)用
一、 前言
科技的進(jìn)步推動(dòng)著我國網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,信息化、數(shù)字化潛移默化地改變著人們的工作和生活,也改變了傳統(tǒng)的公共圖書館管理方式。數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用于圖書館管理中,使得圖書館中海量、復(fù)雜的數(shù)據(jù)信息被完好、準(zhǔn)確地保存,這不但節(jié)省了大量的勞動(dòng)力,簡化了工作流程,提升了工作效率,更有利于在進(jìn)行圖書館管理時(shí)做出科學(xué)決策。因此,現(xiàn)代圖書館加強(qiáng)數(shù)據(jù)挖掘技術(shù)的開發(fā)和應(yīng)用十分必要。
二、 數(shù)據(jù)挖掘技術(shù)分析
(一) 數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)是在傳統(tǒng)的數(shù)據(jù)處理工具無法滿足信息提取需求的基礎(chǔ)上形成的一種新型的信息處理技術(shù),它通過現(xiàn)代化科學(xué)技術(shù),可以在大量模糊、隨機(jī)數(shù)據(jù)中提取出隱藏的有價(jià)值信息。數(shù)據(jù)挖掘技術(shù)為實(shí)現(xiàn)信息的分類管理、尋找數(shù)據(jù)隱藏規(guī)律等提供了諸多便利,從而幫助企業(yè)或個(gè)人對未來數(shù)據(jù)發(fā)展做出預(yù)測。和傳統(tǒng)的報(bào)表信息處理方式相比,數(shù)據(jù)挖掘技術(shù)更擅于在雜亂無章,甚至毫無關(guān)聯(lián)的數(shù)據(jù)中,提取出準(zhǔn)確的具有關(guān)鍵作用的數(shù)據(jù),從而幫助相關(guān)人員做出科學(xué)決策。
(二) 數(shù)據(jù)挖掘的基本流程
1. 數(shù)據(jù)準(zhǔn)備
圖書館在利用數(shù)據(jù)挖掘進(jìn)行信息管理時(shí),要通過獲取用戶信息、借閱歷史、圖書檢索記錄、書籍信息四大板塊進(jìn)行分析。首先是借閱書籍用戶的基本信息。普遍來講,用戶的基本信息包括姓名、性別、年齡、聯(lián)系電話、證件號(hào)等等,但在現(xiàn)代化圖書館中,數(shù)據(jù)挖掘還會(huì)獲取用戶的借閱等級、借閱信譽(yù)等。其次是獲取用戶的借閱歷史。收集和存儲(chǔ)借閱歷史信息是圖書館管理的重要工作,這類信息主要是指用戶編號(hào)、書籍編號(hào)、名稱、版本等,以及借閱和歸還的時(shí)間。圖書的實(shí)時(shí)使用情況就是通過對這些信息的整合分析呈現(xiàn)出來的。第三是獲取用戶的圖書檢索記錄。圖書檢索功能是現(xiàn)代化圖書館必不可少的一項(xiàng)重要功能,圖書館存書量巨大,用戶在借閱圖書前往往會(huì)通過檢索系統(tǒng)尋找自己的目標(biāo)書籍,圖書管理員便可以通過用戶的檢索信息,獲取檢索內(nèi)容、時(shí)間以及編號(hào)等信息,以此了解用戶的借閱需求。由于圖書館檢索系統(tǒng)的使用量巨大,檢索數(shù)據(jù)十分龐大,若要完好、準(zhǔn)確地存儲(chǔ)這些信息,就必須有高水平的硬件設(shè)施加以輔助。最后一個(gè)方面就是獲取圖書館內(nèi)的書籍信息。書籍信息是圖書館信息化數(shù)據(jù)系統(tǒng)需要處理的最基礎(chǔ)的信息,它主要包括書籍名稱、編號(hào)、位置、出版單位、作者等信息,這類信息的存儲(chǔ)一定要條理清晰,有相應(yīng)規(guī)律。
2. 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘首先要設(shè)置一個(gè)挖掘目標(biāo),之后確定數(shù)據(jù)挖掘假設(shè),這種假設(shè)可以由用戶親自建立,也可以由系統(tǒng)提出。完成挖掘目標(biāo)和挖掘假設(shè)的建立后,就是進(jìn)行數(shù)據(jù)處理了,系統(tǒng)會(huì)選擇合適的處理工具,并利用工具在大量的信息中進(jìn)行逐級搜索,進(jìn)而尋找符合需求的模型。數(shù)據(jù)挖掘也可以加入人機(jī)交互,也就是由工作人員主動(dòng)發(fā)問,利用系統(tǒng)工具逐級搜索,檢測假設(shè)是否正確。
3. 結(jié)果表述
完成以上一系列流程之后,系統(tǒng)會(huì)通過用戶的決策目標(biāo),進(jìn)行相應(yīng)檢索之后,將數(shù)據(jù)信息進(jìn)行分析,并將最有價(jià)值最關(guān)鍵的信息呈現(xiàn)出來,交給決策者,這便是結(jié)果表述。
三、 數(shù)據(jù)挖掘技術(shù)的功能分析
(一) 預(yù)測未來趨勢及行為可能
數(shù)據(jù)挖掘可以在海量數(shù)據(jù)信息中提取出隱藏的關(guān)鍵信息,以此預(yù)測未來趨勢和行為可能,為決策提供可靠依據(jù)。以往需要大量勞動(dòng)力進(jìn)行數(shù)據(jù)分析的過程,如今被數(shù)據(jù)挖掘簡化,快速得出準(zhǔn)確的結(jié)論。比如商家在進(jìn)行商業(yè)決策前,會(huì)對市場進(jìn)行分析預(yù)測,數(shù)據(jù)挖掘可以通過商家提供的過去收集來的相關(guān)促銷數(shù)據(jù),檢索出在今后的投資中會(huì)收獲最大回報(bào)的用戶。
(二) 尋找復(fù)雜數(shù)據(jù)信息的關(guān)聯(lián)網(wǎng)
數(shù)據(jù)庫中往往存儲(chǔ)著海量的數(shù)據(jù)信息,在這些信息當(dāng)中,如果兩個(gè)或兩個(gè)以上的數(shù)據(jù)信息之間具備某種規(guī)律,我們便稱之為“關(guān)聯(lián)”,數(shù)據(jù)挖掘便可以在大量復(fù)雜數(shù)據(jù)中挖掘出這種關(guān)聯(lián)。關(guān)聯(lián)可分為三種,簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。進(jìn)行關(guān)聯(lián)分析就是為了在數(shù)據(jù)庫中找出這種隱藏的、不確定的、具有可信度的關(guān)聯(lián)網(wǎng)。
(三) 通過聚類進(jìn)行偏差分析
將物理或抽象對象的集合分成由類似的對象組成的多個(gè)類的過程被稱為聚類。數(shù)據(jù)庫中具有繁雜的記錄存儲(chǔ),數(shù)據(jù)挖掘可將其劃分為一系列聚類,這些聚類是可理解的、可用的,如此便可明晰并強(qiáng)化人們對這些記錄或者數(shù)據(jù)的認(rèn)識(shí)。聚類是進(jìn)行概念描述和分析數(shù)據(jù)偏差的基本要素。
(四) 進(jìn)行概念描述
概念描述是對某一個(gè)對象的內(nèi)涵或者定義進(jìn)行客觀陳述,并總結(jié)出這類對象的特點(diǎn)。概念描述一般分為兩種類型,分別是特征性描述和區(qū)別性描述。不言而喻,特征性描述是對某類對象的特征進(jìn)行描述,區(qū)別性描述恰恰相反,是描述不同類對象的差異性。
(五) 檢測數(shù)據(jù)庫中的偏差
數(shù)據(jù)庫中存在大量的數(shù)據(jù)信息,也常伴有某些異常記錄,數(shù)據(jù)挖掘可以從海量信息中檢測出這些偏差。這些偏差包括的內(nèi)容很多,也包括大量的潛在有趣味性的知識(shí),如觀測結(jié)果與期望之間的差異、分類中的反常實(shí)例、模式的例外等。
四、 數(shù)據(jù)挖掘技術(shù)在公共圖書館管理工作中的應(yīng)用
(一) 實(shí)現(xiàn)多元化教育功能
當(dāng)今社會(huì),對于創(chuàng)新型人才的需求越來越大,因此,在人才培養(yǎng)方面,傳統(tǒng)的知識(shí)教育已無法滿足社會(huì)發(fā)展的需要,創(chuàng)造性思維和創(chuàng)新能力的培養(yǎng)逐漸占據(jù)人才教育的重要位置。為大力發(fā)展社會(huì)經(jīng)濟(jì),提升我國綜合實(shí)力,利用素質(zhì)教育的優(yōu)勢,培養(yǎng)大批既有良好的基礎(chǔ)知識(shí),又具備創(chuàng)新能力的復(fù)合型人才勢在必行。對于學(xué)習(xí)者來說,學(xué)習(xí)的目的在每一個(gè)人生階段都會(huì)有所不同,比如對于學(xué)生而言,學(xué)習(xí)的主要目的是汲取專業(yè)知識(shí),而對于職場達(dá)人來說,學(xué)習(xí)多是為了豐富知識(shí)儲(chǔ)備或者滿足考取某類證書的需要。公共圖書館中囊括各學(xué)科各領(lǐng)域的書籍,是汲取知識(shí)的最佳場所,如何滿足不同讀者多元化的閱讀需求,是圖書館工作人員的重點(diǎn)工作之一。endprint
數(shù)據(jù)挖掘技術(shù)可以通過相關(guān)數(shù)據(jù)檢索,了解讀者的職業(yè)、感興趣的學(xué)科以及對于圖書的需求,圖書館工作人員獲取這些信息之后,可以為書目采購、期刊訂閱等提供一些預(yù)測性指導(dǎo)。同時(shí),這些數(shù)據(jù)也可以提供給教育部門用于相關(guān)研究。除此之外,數(shù)據(jù)挖掘?qū)τ谧x者數(shù)據(jù)信息的分析,能夠幫助公共圖書館了解不同類型的讀者對于圖書的需求差異,以便制定與讀者需求相符的圖書決策表,優(yōu)化館藏結(jié)構(gòu)。
(二) 優(yōu)化信息資源和信息架構(gòu)
由于公共圖書館是由國家中央或地方政府管理、資助和支持的、免費(fèi)為社會(huì)公眾服務(wù)的圖書館,而并非盈利性組織,因此它的采購費(fèi)用是有限的,如何讓有限的采購費(fèi)用發(fā)揮最大的價(jià)值,是關(guān)鍵問題。數(shù)據(jù)挖掘則可以通過優(yōu)化信息架構(gòu),有效解決這個(gè)問題。首先,可以通過數(shù)據(jù)挖掘,檢索并分析用戶的借閱記錄以及館藏記錄,并以此檢索結(jié)果為依據(jù),根據(jù)讀者需求調(diào)整書目的采購比例。其次,互聯(lián)網(wǎng)技術(shù)的日漸發(fā)達(dá),使得網(wǎng)絡(luò)信息越來越豐富,公共圖書館可以通過數(shù)據(jù)挖掘,在網(wǎng)絡(luò)上篩選出優(yōu)質(zhì)內(nèi)容,補(bǔ)充到圖書館信息資源庫當(dāng)中,在減少經(jīng)費(fèi)使用率的情況下,豐富圖書館的電子信息資源。再次,數(shù)據(jù)挖掘技術(shù)對于圖書館電子文獻(xiàn)的管理發(fā)揮著重要作用。它可以高效地完成電子文獻(xiàn)的分類整理、資源查找等工作,既節(jié)省了人工成本,又提高了工作效率。
需要注意的是,公共圖書館在弘揚(yáng)地方文化方面發(fā)揮著不可忽視的作用,這就要求圖書館不斷加強(qiáng)地方文獻(xiàn)數(shù)據(jù)館藏的建設(shè)力度,但由于經(jīng)費(fèi)有限,必須進(jìn)行相應(yīng)的取舍,才能保證地方文獻(xiàn)的采購經(jīng)費(fèi)充足。普遍來講,圖書館在進(jìn)行書目采購時(shí),常常采用優(yōu)先選擇熱門書籍的方式,對于非熱門書的采購相對少了很多,這樣的策略會(huì)導(dǎo)致圖書館的館藏結(jié)構(gòu)不均衡。數(shù)據(jù)挖掘則可以利用遺傳算法,通過分析各個(gè)領(lǐng)域的熱度,給出不同的權(quán)重,指導(dǎo)科學(xué)采購策略的形成,從而避免圖書館館藏結(jié)構(gòu)不均衡的情況發(fā)生。
(三) 優(yōu)化并完善信息服務(wù)功能
公共圖書館是面向全體社會(huì)成員和社會(huì)組織的公益性信息服務(wù)機(jī)構(gòu),也因此信息服務(wù)功能是公共圖書館的主要功能。使用數(shù)據(jù)挖掘,可以優(yōu)化并完善圖書館的信息服務(wù)功能。依據(jù)上文提到的數(shù)據(jù)挖掘具有聚類功能,它可以將圖書館中的大量信息數(shù)據(jù),依據(jù)不同的標(biāo)準(zhǔn),進(jìn)行多層次聚類分析。公共圖書館運(yùn)用聚類分析時(shí),不必對信息進(jìn)行提前分類,只需根據(jù)圖書館的需求,選擇合適的門檻值,滿足門檻值要求的文獻(xiàn)信息就分為一類,依據(jù)不同的門檻值,可以將各種信息分為多個(gè)類別。這種聚類方式涉及全部文獻(xiàn)情報(bào),也就打破了目前情報(bào)分類方法的局限。
此外,數(shù)據(jù)挖掘還可以為讀者提供個(gè)性化的信息服務(wù)。比如,通過數(shù)據(jù)挖掘獲取讀者的借閱信息以及經(jīng)常訪問的網(wǎng)頁內(nèi)容,并對獲取的數(shù)據(jù)進(jìn)行分析,從而獲知讀者的興趣愛好、需求方向等,以便制定個(gè)性化服務(wù)主動(dòng)為讀者提供符合其需求的相關(guān)文獻(xiàn)資料。除此之外,還可以通過總結(jié)讀者特征、整理讀者的反饋信息,建立用戶檔案,將潛在用戶轉(zhuǎn)變?yōu)閷?shí)際用戶,使圖書館升級為一個(gè)能夠主動(dòng)提供信息的智能主體。
五、 結(jié)語
圖書館是存儲(chǔ)人類文明的重要場所,是人類汲取知識(shí)的理想圣地。伴隨著科技的進(jìn)步和信息時(shí)代的到來,信息化圖書館也日益發(fā)展壯大起來,這不但讓圖書館的館藏容量成倍增長,也極大地縮減了圖書館的建設(shè)和管理成本。數(shù)據(jù)挖掘是時(shí)代發(fā)展的必然產(chǎn)物,它的存在將公共圖書館繁雜的管理工作進(jìn)行了有效簡化,促進(jìn)了信息化圖書館的快速發(fā)展,并且為讀者提供了更加人性化、個(gè)性化、多元化的信息服務(wù),未來也定將取得更大、更廣的發(fā)展前景。
參考文獻(xiàn):
[1]時(shí)海燕.數(shù)據(jù)挖掘在公共圖書館管理工作中的作用分析[J].辦公室業(yè)務(wù),2016(21):189-190.
[2]張黎.數(shù)據(jù)挖掘在公共圖書館管理決策中的應(yīng)用[J].現(xiàn)代情報(bào),2006(08):122-126.
[3]陳海軍.數(shù)據(jù)挖掘在公共圖書館管理工作中的應(yīng)用[J].中國管理信息化,2016,(01):169-169.
[4]王真.數(shù)據(jù)挖掘及其在圖書館的應(yīng)用[J].情報(bào)探索,2007,2007(12):60-62.
作者簡介:
張學(xué)梅,河南省新鄉(xiāng)市,新鄉(xiāng)市圖書館。endprint