遼寧對(duì)外經(jīng)貿(mào)學(xué)院 劉奉駁
大數(shù)據(jù)處理在圖書(shū)館信息化管理中的應(yīng)用
遼寧對(duì)外經(jīng)貿(mào)學(xué)院 劉奉駁
人們現(xiàn)在越來(lái)越依賴(lài)網(wǎng)絡(luò),而大數(shù)據(jù)在近幾年已經(jīng)成為大多數(shù)人研究與分析的對(duì)象,其中大數(shù)據(jù)的應(yīng)用也深深的影響著圖書(shū)館的管理,大數(shù)據(jù)技術(shù)的發(fā)展改變了圖書(shū)館的管理的方式,加快了信息化管理的進(jìn)程。大數(shù)據(jù)技術(shù)對(duì)于含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理,加強(qiáng)了對(duì)圖書(shū)館的管理,為讀者提供更方便的服務(wù)。本文介紹了大數(shù)據(jù)處理為圖書(shū)館管理帶來(lái)的影響以及如何推進(jìn)圖書(shū)館的信息化進(jìn)程,改變了傳統(tǒng)圖書(shū)館的管理方式,為其提供了新的平臺(tái)。
大數(shù)據(jù);圖書(shū)館;應(yīng)用
1.1大數(shù)據(jù)的概念
大數(shù)據(jù),又稱(chēng)巨量資料,指的是所涉及的數(shù)據(jù)資料量規(guī)模巨大到無(wú)法通過(guò)人腦甚至主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征[1]。
1.2圖書(shū)館所具備的大數(shù)據(jù)特征
(1)大容量
圖書(shū)館作為存儲(chǔ)圖書(shū)的場(chǎng)所,其中存在大量的文獻(xiàn)圖書(shū)信息,音頻視頻資源,電子刊物等,而這之中不光有各種書(shū)籍的資源,還包括多媒體資源,并且每年圖書(shū)館都需要更新數(shù)據(jù)庫(kù),以及新增各種書(shū)籍和購(gòu)買(mǎi)最新的音頻視頻資源。還有讀者通過(guò)圖書(shū)館借閱書(shū)籍的信息,網(wǎng)上的交流,這些所產(chǎn)生的這些數(shù)據(jù),而且圖書(shū)館的數(shù)據(jù)量每天都在快速的增長(zhǎng)。在公元前3世紀(jì),希臘時(shí)代最著名的圖書(shū)館亞歷山大圖書(shū)館用盡全力獲得了大部分的書(shū)籍資料,可以說(shuō)希臘搜集的資料囊括了世界上絕大部分的書(shū)籍。但是當(dāng)大數(shù)據(jù)時(shí)代的到來(lái),每個(gè)人都可以通過(guò)各種渠道獲取到許多的數(shù)據(jù)資源,而這些相當(dāng)于當(dāng)時(shí)希臘圖書(shū)館中書(shū)籍資料的320倍。因此如果再用傳統(tǒng)的圖書(shū)館管理方式那是不行的,所以這都是圖書(shū)館需要大數(shù)據(jù)的大容量特點(diǎn)的理由。
(2)多樣性
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)格式變得越來(lái)越多樣,涵蓋了文本、音頻、圖片、視頻、模擬信號(hào)等不同的類(lèi)型;數(shù)據(jù)來(lái)源也越來(lái)越多樣,不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個(gè)環(huán)節(jié),也來(lái)自于組織外部。圖書(shū)館中的數(shù)據(jù)不光有圖書(shū)信息這樣的結(jié)構(gòu)化數(shù)據(jù),還有很多來(lái)自網(wǎng)上微博、社交網(wǎng)站等產(chǎn)生的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。圖書(shū)館的數(shù)據(jù)恰恰是驗(yàn)證了大數(shù)據(jù)在圖書(shū)館的應(yīng)用中多樣性的特點(diǎn)。
(3)快速度
時(shí)間就是金錢(qián)。而我們最多的就是時(shí)間,而最需要的也是時(shí)間,越快的讀取數(shù)據(jù),那么在競(jìng)爭(zhēng)時(shí)就會(huì)更有機(jī)會(huì)。讀者對(duì)圖書(shū)館中圖書(shū)的更新越來(lái)越看重,而這就要求圖書(shū)館能夠快速的將最新的圖書(shū)信息更新到圖書(shū)館中,并在網(wǎng)上的借閱系統(tǒng)中將信息顯示出來(lái),可以使讀者在圖書(shū)館借閱時(shí)盡快的找到自己想要的書(shū)籍,滿(mǎn)足讀者的需求。對(duì)于圖書(shū)館大量的數(shù)據(jù)變化,它需要以最快的速度改變信息,因此處理信息的速度尤為重要。
(4)價(jià)值密度低
追求高數(shù)據(jù)質(zhì)量是一項(xiàng)重要的大數(shù)據(jù)要求和挑戰(zhàn),即使最優(yōu)秀的數(shù)據(jù)清理方法也無(wú)法消除某些數(shù)據(jù)固有的不可預(yù)測(cè)性,例如在圖書(shū)館中監(jiān)控資源分析過(guò)程中,可能只有十幾秒甚至幾秒有用,因此必須用大數(shù)據(jù)來(lái)處理。
隨著信息化的發(fā)展,傳統(tǒng)圖書(shū)館的缺點(diǎn)已經(jīng)越來(lái)越明顯了,它已經(jīng)不能滿(mǎn)足讀者的需求,大數(shù)據(jù)時(shí)代帶來(lái)的價(jià)值也深深的影響著圖書(shū)館的管理。圖書(shū)館的宗旨就是為讀者提供優(yōu)秀的書(shū)籍以及更全面的服務(wù),也是圖書(shū)館的價(jià)值體現(xiàn)。在大數(shù)據(jù)時(shí)代,圖書(shū)館通過(guò)大數(shù)據(jù)的管理方式,用先進(jìn)的技術(shù)條件,進(jìn)行數(shù)據(jù)挖掘和分析,使圖書(shū)館更快速的更新最新的書(shū)籍,為讀者提供更便捷的服務(wù),加強(qiáng)圖書(shū)館的管理。
2.1大數(shù)據(jù)為圖書(shū)館帶來(lái)的機(jī)遇
大數(shù)據(jù)為圖書(shū)館帶來(lái)的機(jī)遇:一是為圖書(shū)館創(chuàng)建新型知識(shí)服務(wù)引擎,它更便捷的為讀者服務(wù),使讀者更快速的搜索到自己想要的書(shū)籍以及更重資料,節(jié)省了讀者的時(shí)間;二是通過(guò)大數(shù)據(jù)建立的圖書(shū)館管理系統(tǒng),可以節(jié)省更多的人力物力,并且可以減少發(fā)生失誤的概率,為讀者提供更方便的學(xué)習(xí)方式。三是為圖書(shū)館提供更精準(zhǔn)的分析能力,減少可能發(fā)生的資源故障,更好的管理圖書(shū)館。四是為圖書(shū)館帶來(lái)更完整的數(shù)據(jù)收集能力,增強(qiáng)圖書(shū)館的數(shù)據(jù)量,為讀者提供更多的資源。
2.2大數(shù)據(jù)為圖書(shū)館帶來(lái)的挑戰(zhàn)
在大數(shù)據(jù)的發(fā)展過(guò)程中一直存在的問(wèn)題就是隱私問(wèn)題,微軟張亞勤說(shuō):“大數(shù)據(jù)安全和隱私問(wèn)題永遠(yuǎn)無(wú)法解決”[2]。對(duì)大數(shù)據(jù)存儲(chǔ)、挖掘、 分析也是大勢(shì)所趨,也不能因?yàn)閼峙码[私問(wèn)題就停滯不前。在信息化的時(shí)代,圖書(shū)館需要為不同的讀者提供不同的服務(wù),而這勢(shì)必會(huì)侵犯到讀者的隱私問(wèn)題,就目前來(lái)說(shuō)還沒(méi)有太好的解決辦法,主要是樹(shù)立圖書(shū)館員的道德風(fēng)尚,使其更加重視讀者的隱私問(wèn)題?,F(xiàn)在由于大數(shù)據(jù)的快速發(fā)展,國(guó)家已經(jīng)制定了相關(guān)的法律來(lái)保護(hù)隱私問(wèn)題。
圖書(shū)館需要存儲(chǔ)大量的數(shù)據(jù),因此這就對(duì)數(shù)據(jù)的存儲(chǔ)有了更高的要求。隨著數(shù)據(jù)量的巨大增長(zhǎng)和數(shù)據(jù)來(lái)源的多樣化,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)已經(jīng)不能滿(mǎn)足圖書(shū)館的需求,可以考慮最大程度利用存儲(chǔ)系統(tǒng),進(jìn)行存儲(chǔ)虛擬化、分層存儲(chǔ)、堆棧管理等[3]。
3.1大數(shù)據(jù)采集
圖書(shū)館大數(shù)據(jù)采集是對(duì)圖書(shū)館中相關(guān)的數(shù)據(jù)庫(kù)、自動(dòng)化系統(tǒng)和外聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集,與傳統(tǒng)數(shù)據(jù)采集相比它是對(duì)全部類(lèi)型的資源的采集,能夠更多的增加數(shù)據(jù)庫(kù)中的數(shù)據(jù)量,滿(mǎn)足大部分讀者的需求。大數(shù)據(jù)采集沒(méi)有統(tǒng)一的要求,不管是結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)或是非結(jié)構(gòu)化數(shù)據(jù);也不管是采集正確的數(shù)據(jù),還是不正確的數(shù)據(jù);總之是不管什么樣的數(shù)據(jù),只要是數(shù)據(jù)統(tǒng)統(tǒng)都要,越多越好。因此圖書(shū)館的大數(shù)據(jù)采集可以用通用分布式大數(shù)據(jù)工具。系統(tǒng)日志采集可以應(yīng)用大數(shù)據(jù)工具如Cloudera的Flume、Hadoop的Chukwa、Facebook的Scribe等,這些工具采用分布式架構(gòu),可以滿(mǎn)足大量的系統(tǒng)日志的采集和上傳;外聯(lián)網(wǎng)絡(luò)數(shù)據(jù)可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站API等從網(wǎng)站上獲取來(lái)進(jìn)行采集,它不僅僅支持音頻視頻,還支持圖片等數(shù)據(jù)[4]。
3.2大數(shù)據(jù)存儲(chǔ)與組織
現(xiàn)如今大數(shù)據(jù)發(fā)展越來(lái)越迅速,而傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)其本身存在的缺點(diǎn)已經(jīng)不能滿(mǎn)足圖書(shū)館的要求,但是數(shù)據(jù)倉(cāng)庫(kù)也存在可擴(kuò)展性、容錯(cuò)性、低成本等優(yōu)點(diǎn)。所以說(shuō)要像圖書(shū)館更好的發(fā)展,可以將數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)結(jié)合起來(lái),創(chuàng)造一個(gè)混合的存儲(chǔ)平臺(tái)。
現(xiàn)如今使用最多的大數(shù)據(jù)處理平臺(tái)架構(gòu)是Hadoop,所以圖書(shū)館可以采用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)(DW)和 Hadoop大數(shù)據(jù)處理平臺(tái)的混合架構(gòu),用來(lái)保存圖書(shū)館中大量的資源,對(duì)于不同的要求來(lái)選擇不同的存儲(chǔ)方式。圖書(shū)館對(duì)傳統(tǒng)海量結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)可以采用現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行存儲(chǔ);對(duì)于海量半結(jié)構(gòu)化服務(wù)日志數(shù)據(jù)可以采用NoSQL數(shù)據(jù)庫(kù)(NoSQL為典型的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫(kù)),對(duì)于海量原生非結(jié)構(gòu)化數(shù)據(jù)可以將其提取元數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)資源對(duì)象存儲(chǔ)于Hadoop平臺(tái)的HDFS分布式文件系統(tǒng)中。這種存儲(chǔ)方式符合大數(shù)據(jù)基本存儲(chǔ)架構(gòu),同時(shí)它對(duì)于圖書(shū)館的硬件設(shè)施有很高的要求。
4.1圖書(shū)館的空間優(yōu)化
例如學(xué)校圖書(shū)館的門(mén)禁系統(tǒng),通過(guò)門(mén)禁系統(tǒng)圖書(shū)館可以統(tǒng)計(jì)進(jìn)館人數(shù)、讀者身份等等。再對(duì)這些信息進(jìn)行整體的劃分與推算,這樣就能更好的區(qū)分圖書(shū)館在何時(shí)人比較少,在何時(shí)是高峰期。載人比較少的時(shí)候減少一些工作人員,節(jié)省更多的財(cái)力物力;在高峰期的時(shí)候,提前做好準(zhǔn)備,可以更好的調(diào)節(jié)工作人員,整理圖書(shū),做到更好的服務(wù)。還可以將門(mén)禁系統(tǒng)加入到其他系統(tǒng)中,形成更加智能化的系統(tǒng),例如清華大學(xué)圖書(shū)館的RFID智能系統(tǒng),通過(guò)該系統(tǒng)進(jìn)行的座位預(yù)約,就是先在線(xiàn)預(yù)約,之后通過(guò)圖書(shū)館中的終端機(jī)刷卡確定身份后入座,利用這個(gè)系統(tǒng)我們還可以確認(rèn)讀者是否在閉館前是否還在圖書(shū)館中[5]。
還有就是圖書(shū)館的監(jiān)控系統(tǒng),通過(guò)監(jiān)控設(shè)備來(lái)確定圖書(shū)館中各個(gè)位置的使用率,以及在何時(shí)開(kāi)放哪個(gè)地區(qū)等;利用設(shè)備監(jiān)控整個(gè)圖書(shū)館的溫度與濕度,防止圖書(shū)的損壞和讀者的舒適度。
4.2圖書(shū)館的閱讀推廣
圖書(shū)館通過(guò)對(duì)網(wǎng)絡(luò)中得到的數(shù)據(jù)以及電子文獻(xiàn)數(shù)據(jù)和搜索數(shù)據(jù)、借閱數(shù)據(jù)等進(jìn)行推理分析,通過(guò)大數(shù)據(jù)得到的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行篩選、分類(lèi),進(jìn)一步的了解最近一段時(shí)間比較火熱的,話(huà)題最多的圖書(shū),根據(jù)大部分讀者的喜好選擇文學(xué)作品來(lái)進(jìn)行閱讀推廣。另外現(xiàn)在讀者都持有手機(jī),我們可以對(duì)讀者的身份信息進(jìn)行同意的管理,在通過(guò)第三方平臺(tái)例如微信、qq、郵箱、微博等進(jìn)行圖書(shū)的推廣,為讀者提供更加便捷的服務(wù),讓讀者不用到圖書(shū)館也能了解最新的圖書(shū)資訊,甚至可以通過(guò)手機(jī)、電腦等終端進(jìn)行下載或者在線(xiàn)閱讀。
4.3大數(shù)據(jù)在圖書(shū)館人力資源的應(yīng)用
人力資源的核心是人力資源管理。圖書(shū)館在大數(shù)據(jù)時(shí)代背景下,要想得到更好的發(fā)展,那么必須有大量的相關(guān)人才,而怎么樣培養(yǎng)出相關(guān)的人才就是我們需要仔細(xì)的研究和探討的了?,F(xiàn)如今圖書(shū)館的大部分的工作人員的工作素養(yǎng)、服務(wù)水平、對(duì)圖書(shū)館知識(shí)的掌握等方面都還差的很遠(yuǎn),需要很大的提高。我們可以利用圖書(shū)館中保存的大數(shù)據(jù)來(lái)進(jìn)行查找,分析有用的書(shū)籍和文獻(xiàn),通過(guò)其中得到的信息在根據(jù)圖書(shū)館自身的需求來(lái)進(jìn)行尋找,培養(yǎng)圖書(shū)館需要的人才。大數(shù)據(jù)作為前沿技術(shù)具有很高的難度,現(xiàn)如今它得到了廣泛的應(yīng)用,為了跟上時(shí)代的步伐,圖書(shū)館必須與時(shí)俱進(jìn),充分利用大數(shù)據(jù),為圖書(shū)館的管理等方面帶來(lái)巨大改變。如果想要在圖書(shū)館中擔(dān)任大數(shù)據(jù)的分析的工作,那么必須有相對(duì)應(yīng)得技術(shù)基礎(chǔ)的人才可以,但是這方面的人才又相對(duì)來(lái)說(shuō)比較缺乏,因此對(duì)于圖書(shū)館來(lái)說(shuō)培養(yǎng)大數(shù)據(jù)的人才那么就事關(guān)重要了,而這也是圖書(shū)館的一大挑戰(zhàn)。
大數(shù)據(jù)正在快速發(fā)展階段,圖書(shū)館作為社會(huì)中公共信息服務(wù)體系的一部分,其讀者的基礎(chǔ)以及各類(lèi)書(shū)籍資源將會(huì)越來(lái)越多,而這也就要求圖書(shū)館需要更新的技術(shù)支持。圖書(shū)館對(duì)大數(shù)據(jù)的應(yīng)用,推動(dòng)了圖書(shū)館信息化的進(jìn)程,改變了傳統(tǒng)圖書(shū)館的缺點(diǎn),為圖書(shū)館開(kāi)拓了新的平臺(tái),充分的發(fā)揮大數(shù)據(jù)的特點(diǎn),更好的提高圖書(shū)館的服務(wù)質(zhì)量,改善圖書(shū)館的閱讀環(huán)境,提升讀者的閱讀體驗(yàn),方便讀者,也使大數(shù)據(jù)在圖書(shū)館中得到更好的價(jià)值。
[1]The Age of Big Data[EB/OL].[2014-10-16].http:///www,nytimes. com/2012/02/12/Sunday review/big datas impact in the world,Html?pagewanter=all
[2]涂蘭敬.專(zhuān)家觀點(diǎn):“大數(shù)據(jù)”與“海量數(shù)據(jù)”的區(qū)別[J].網(wǎng)絡(luò)與信息,2011(12):37-38.
[3]張文彥,武瑞原,于潔.大數(shù)據(jù)時(shí)代的圖書(shū)館初探[J].圖書(shū)與情報(bào),2012(6):15-21.
[4]張毅,趙雅潔.論大數(shù)據(jù)在圖書(shū)館管理與服務(wù)中的應(yīng)用[J].圖書(shū)館工作與研究,2015(9):4-8.
[5]甘琳.RFID技術(shù)在圖書(shū)館的創(chuàng)新應(yīng)用[J].圖書(shū)館論壇,2007,27(3): 8-11.