居鑫磊,顧 勇,芮文軍
(常州工學(xué)院 圖書館,江蘇 常州 213022)
基于大數(shù)據(jù)技術(shù)的圖書館創(chuàng)新發(fā)展研究
居鑫磊,顧 勇,芮文軍
(常州工學(xué)院 圖書館,江蘇 常州 213022)
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,圖書館不可避免的面臨大數(shù)據(jù)時代的沖擊.本文根據(jù)圖書館的實(shí)際情況,結(jié)合大數(shù)據(jù)技術(shù)特點(diǎn)和思維理念,研究大數(shù)據(jù)在圖書館實(shí)際應(yīng)用中所面臨的問題,如何以分層架構(gòu)的形式,分階段構(gòu)建大數(shù)據(jù)在圖書館的實(shí)際應(yīng)用,助力圖書館為讀者提供滿意的個性化服務(wù).
圖書館;大數(shù)據(jù);分層框架;個性化服務(wù)
近年,大數(shù)據(jù)技術(shù)得到了飛速發(fā)展,已經(jīng)參與到各行各業(yè)的發(fā)展,越來越多的企業(yè)依托大數(shù)據(jù)技術(shù),對原有行業(yè)進(jìn)行了深刻的變革.圖書館作為一個傳統(tǒng)上就是數(shù)據(jù)匯聚的重要場所,更是需要義無反顧的站在大數(shù)據(jù)技術(shù)前沿,來迎接這場革命與挑戰(zhàn).
大數(shù)據(jù)(Big data或Megadata),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息.大數(shù)據(jù)技術(shù)則是指在很短的時間里從這些海量數(shù)據(jù)中,提取出對我們使用者有意義數(shù)據(jù)的技術(shù)[1].
而在經(jīng)歷過之前數(shù)字圖書館的發(fā)展后,圖書館正面臨著館藏數(shù)據(jù)資源爆炸式增長,數(shù)據(jù)種類繁多和有價值信息顆粒濃度小等問題.怎么樣讓圖書館數(shù)據(jù)價值得到最大發(fā)揮,怎么樣為圖書館的建設(shè)發(fā)展尋找準(zhǔn)確客觀依據(jù),大數(shù)據(jù)技術(shù)可以給我們提供一種解決方案.
著名中文搜索網(wǎng)站百度的創(chuàng)始人李彥宏,將百度企業(yè)文化和理念總結(jié)成29條法則,其中有一條就是“用數(shù)據(jù)說話”.以往我們通過流程,通過因果聯(lián)系來考慮事情該怎么做.而在大數(shù)據(jù)時代,在海量數(shù)據(jù)的支撐下,在Hadoop體系分布式計(jì)算框架下,圖書館工作流程將從簡單的量變進(jìn)化到架構(gòu)變化的質(zhì)變,圖書館工作將變成通過數(shù)據(jù)要答案,從流程驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動,如果獲取的數(shù)據(jù)越完整,就越能得到準(zhǔn)確的答案[2].改變目前的工作思路,從以往的人找數(shù)據(jù)轉(zhuǎn)變成數(shù)據(jù)找人,形成大數(shù)據(jù)思維,這是大數(shù)據(jù)在圖書館實(shí)際應(yīng)用的前提.
圖書館通過內(nèi)部圖像采集系統(tǒng)、安防門禁系統(tǒng)、網(wǎng)絡(luò)流量統(tǒng)計(jì)、服務(wù)器日志log文件、移動閱讀設(shè)備、文獻(xiàn)信息管理系統(tǒng)用戶信息和微信社交軟件等各種平臺搜集數(shù)據(jù),多方面的搜集數(shù)據(jù)能增加數(shù)據(jù)的全面性,但是也增加數(shù)據(jù)處理分析的難度,這些數(shù)據(jù)除了數(shù)量龐大,還有很多非結(jié)構(gòu)化、多維度數(shù)據(jù),包含讀者個人數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、時間數(shù)據(jù)和空間位置數(shù)據(jù)等,而且各個第三方廠商數(shù)據(jù)甚至圖書館內(nèi)各部門數(shù)據(jù)之間沒有建立數(shù)據(jù)鏈,還會產(chǎn)生了許多冗余數(shù)據(jù)和干擾數(shù)據(jù)[3].
面臨這么多不斷增長的復(fù)雜多樣異構(gòu)數(shù)據(jù),即使近年圖書館的軟硬件建設(shè)已經(jīng)得到了很大的提升,但是仍然無法獨(dú)立處理解析這些數(shù)據(jù).所以圖書館可以嘗試在某些領(lǐng)域與阿里巴巴和百度等國內(nèi)一流企業(yè)合作,提高自己搜集、整理和解析數(shù)據(jù)的能力.
圖書館通過各種途徑搜集數(shù)據(jù),并通過大數(shù)據(jù)技術(shù)來整理解析,目的是進(jìn)行資源的優(yōu)化配置,來為讀者提供個性化的服務(wù).
為每一個讀者提供有針對性的定制服務(wù)一直是圖書館服務(wù)工作的努力方向,但是長期以來,受制于各種現(xiàn)實(shí)條件,圖書館只能為廣大讀者提供通用普適的服務(wù).隨著大數(shù)據(jù)技術(shù)的出現(xiàn),在一個可接受成本范圍內(nèi),圖書館能夠提供滿足讀者需求的定制服務(wù),正在逐漸變得有現(xiàn)實(shí)意義[4].
若要圖書館提供的個性化服務(wù)讓讀者滿意,必須具備時效性和針對性.時效性就是要圖書館在自身有限的數(shù)據(jù)分析處理能力上盡可能迅速的處理接收到海量數(shù)據(jù);針對性則是要圖書館有效決策滿足讀者多樣化的需求.這兩點(diǎn)都需要圖書館對自身資源進(jìn)行充分有效的優(yōu)化配置后才能實(shí)現(xiàn).
大數(shù)據(jù)技術(shù)記錄的大量圖書館讀者個人信息,行為數(shù)據(jù)和閱讀個性參數(shù),是讀者個人社會信息的重要組成部分,在與第三方廠商進(jìn)行數(shù)據(jù)交換和大量數(shù)據(jù)的交匯存儲中,會增加數(shù)據(jù)泄露風(fēng)險,所以需要圖書館在使用過程中盡可能的提高防范意識,增加安全手段[5].另外大數(shù)據(jù)技術(shù)在對讀者的大量數(shù)據(jù)進(jìn)行深入解析中,過程中無意出現(xiàn)的結(jié)果還可能會泄露讀者隱私,進(jìn)而影響讀者個人信息安全,這也是要工作中極力避免的.
圖書館的大數(shù)據(jù)實(shí)際應(yīng)用工作可以利用分層框架結(jié)構(gòu)來實(shí)施,可以分成圖書館數(shù)據(jù)工程(Library data engineering)階段,圖書館數(shù)據(jù)科學(xué)(Library data science)階段和圖書館決策科學(xué)(Library decision science)階段.
圖書館數(shù)據(jù)工程指的是關(guān)于數(shù)據(jù)的基礎(chǔ)性工程工作,比如圖書館搜集的數(shù)據(jù)如何存放,以什么形式存放.目前在大數(shù)據(jù)領(lǐng)域主流的有Hadoop、Spark和Storm這三大分布式計(jì)算系統(tǒng)[6],這三大系統(tǒng)解決了如何可靠的存儲和管理大數(shù)據(jù)的問題.Hadoop采用MapReduce分布式計(jì)算框架,并根據(jù)GFS開發(fā)了 HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)利用將數(shù)據(jù)塊分解并復(fù)制多份的方式解決服務(wù)器或硬盤硬件故障的問題,讓普通服務(wù)器組成的集群能提供高可靠性的存儲服務(wù).Spark在Hadoop的基礎(chǔ)上進(jìn)行了一些架構(gòu)上的改良,與Hadoop最大的不同點(diǎn)在于,Hadoop使用硬盤來存儲數(shù)據(jù),而Spark使用內(nèi)存來存儲數(shù)據(jù),因此Spark可以提供超過Hadoop100倍的運(yùn)算速度,但是,由于內(nèi)存斷電后會丟失數(shù)據(jù),Spark不能用于處理需要長期保存的數(shù)據(jù).Storm是在Hadoop的基礎(chǔ)上提供了實(shí)時運(yùn)算的特性,可以實(shí)時的處理大數(shù)據(jù)流,但是它不存儲數(shù)據(jù).在圖書館實(shí)際應(yīng)用中,數(shù)據(jù)往往是離線的,并且來源復(fù)雜,對處理速度的要求不是特別高,Hadoop是目前最適合圖書館實(shí)際應(yīng)用.
然后還要利用數(shù)據(jù)倉庫技術(shù) ETL(Extract-Transform-Load),通過將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端,對數(shù)據(jù)進(jìn)行清理和驗(yàn)證工作,將初步搜集來的各種原始異構(gòu)數(shù)據(jù)歸一化,定義規(guī)范的數(shù)據(jù)格式,把數(shù)據(jù)過濾,統(tǒng)一了格式,ID和維度后在導(dǎo)入到分布式文件系統(tǒng)中.這是一個非常重要和耗時的步驟,但是只有通過數(shù)據(jù)工程形成數(shù)據(jù)的層次化機(jī)構(gòu)和抽象數(shù)據(jù)概念,我們才能進(jìn)入下一階段.
這一層的作用是利用之前整理好的數(shù)據(jù),然后建立具體針對某些問題的數(shù)學(xué)模型,通過深度學(xué)習(xí),讓系統(tǒng)自動分析讀者借閱數(shù)據(jù)和行為數(shù)據(jù),預(yù)測讀者使用習(xí)慣,將分析結(jié)果應(yīng)用在圖書館工作服務(wù)的各個環(huán)節(jié).例如通過讀者歷史瀏覽和訪問借閱記錄,自動給讀者推薦介紹相關(guān)的圖書館資源,可以有效的節(jié)約讀者時間,提高圖書館資源利用率.目前各種大數(shù)據(jù)開源社區(qū)蓬勃發(fā)展,圖書館正好可以借鑒其在商業(yè)領(lǐng)域的成熟算法模型,結(jié)合圖書館實(shí)際,就可以很快建立數(shù)據(jù)分析模型,進(jìn)行驗(yàn)證預(yù)測并應(yīng)用到圖書館實(shí)際工作中.
這個是大數(shù)據(jù)在圖書館應(yīng)用中產(chǎn)生實(shí)際意義的一層,大數(shù)據(jù)應(yīng)用通過之前的圖書館數(shù)據(jù)工程和圖書館數(shù)據(jù)科學(xué)方面的應(yīng)用,產(chǎn)生各種可視化數(shù)據(jù)分析結(jié)果,目的就是為圖書館決策提供幫助.
首先,圖書館決策在基于讀者行為分析的前提下,需要一套設(shè)計(jì)合理的指標(biāo)體系,當(dāng)數(shù)據(jù)發(fā)生較大波動的時候,利用大數(shù)據(jù)技術(shù)合理的對數(shù)據(jù)進(jìn)行拆解,從多個版本,多個維度分析數(shù)據(jù)來幫助圖書館做出決策[7].而且,大數(shù)據(jù)決策可以解決傳統(tǒng)決策中兩個問題:
3.3.1 決策依據(jù)不足問題
傳統(tǒng)圖書館決策中往往會遇到搜集的數(shù)據(jù)信息不夠全面,因而不具備足夠的代表性導(dǎo)致數(shù)據(jù)信息不可全信的問題.而在大數(shù)據(jù)應(yīng)用中,有個觀點(diǎn)叫“樣本即總體”,以前搜集分析的數(shù)據(jù),受到技術(shù)條件和成本所限,一般是隨機(jī)抽取部分樣本數(shù)據(jù),針對樣本數(shù)據(jù)進(jìn)行分析研究.但大數(shù)據(jù)不一樣,我們可以分析全面數(shù)據(jù),甚至可以處理和某個特別讀者現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣信息.
3.3.2 數(shù)據(jù)信息不準(zhǔn)確導(dǎo)致的風(fēng)險問題
傳統(tǒng)手段獲取的讀者行為信息難免會有誤差,并且容易受主觀因素影響.大數(shù)據(jù)應(yīng)用中獲得的數(shù)據(jù)規(guī)模非常龐大,以至于可以把數(shù)據(jù)誤差的影響減少到最低,有效的避免了圖書館決策中的隱藏風(fēng)險問題.
但是圖書館大數(shù)據(jù)決策只能改進(jìn)圖書館的服務(wù),而無法創(chuàng)新服務(wù);涉及到讀者個性的審美等主觀偏好也是無法數(shù)據(jù)化的,這是目前圖書館大數(shù)據(jù)決策中無法實(shí)現(xiàn)的.
2016年5月25日,李克強(qiáng)總理在貴陽出席中國大數(shù)據(jù)產(chǎn)業(yè)峰會暨中國電子商務(wù)創(chuàng)新發(fā)展峰會時說:“大數(shù)據(jù)等新一代互聯(lián)網(wǎng)技術(shù)深刻改變了世界,也讓各國站在科技革命的同一起跑線上.中國曾屢次與世界科技革命失之交臂,今天要把握這一歷史機(jī)遇,搶占先機(jī),贏得未來.”
圖書館掌握各種數(shù)據(jù)搜集手段,云計(jì)算和云存儲等大數(shù)據(jù)技術(shù),逐漸開始擁有能夠?yàn)樽x者提供個性化服務(wù)的能力.但是讀者個性化需求在大數(shù)據(jù)時代發(fā)生了快速變化,圖書館服務(wù)模式也隨之發(fā)生變革,這是圖書館無法回避的,圖書館只有把滿足讀者需求服務(wù)與大數(shù)據(jù)技術(shù)結(jié)合,建立在圖書館環(huán)境下的大數(shù)據(jù)解析決策體系,學(xué)習(xí)大數(shù)據(jù)思維,才能構(gòu)建真正的圖書館大數(shù)據(jù)策略,為讀者提供滿意的個性化服務(wù).
〔1〕維克托·邁爾-舍恩伯格,等.大數(shù)據(jù)時代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
〔2〕秦曉珠,李晨暉,麥范金.大數(shù)據(jù)知識服務(wù)的內(nèi)涵、典型特征及概念模型[J].情報資料工作,2013(2):18-22.
〔3〕譚磊.大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2014.
〔4〕胡蓮香.走向大數(shù)據(jù)知識服務(wù):大數(shù)據(jù)時代圖書館服務(wù)模式創(chuàng)新[J].農(nóng)業(yè)圖書情報學(xué)刊,2014(2):173-175.
〔5〕馬曉亭.基于情景大數(shù)據(jù)的圖書館個性化服務(wù)推薦系統(tǒng)研究[J].現(xiàn)代情報,2016,36(4):90-94.
〔6〕程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].圖書館學(xué)研究,2015(21):66-70.
〔7〕王萍,傅澤祿.數(shù)據(jù)驅(qū)動決策系統(tǒng):大數(shù)據(jù)時代美國學(xué)習(xí)改進(jìn)的有利工具[J].中國電化教育,2014,330(7):105-112.
G250.76
A
1673-260X(2017)09-0099-02
2017-07-12
赤峰學(xué)院學(xué)報·自然科學(xué)版2017年17期