范軍
摘 要:公共圖書館是社會知識服務(wù)中心,大數(shù)據(jù)作為計算機信息領(lǐng)域的前沿技術(shù),在公共圖書館中的應(yīng)用有利于提升其信息服務(wù)質(zhì)量和服務(wù)效率。本文首先對圖書館大數(shù)據(jù)的相關(guān)研究情況進行總體介紹,分析大數(shù)據(jù)技術(shù)的應(yīng)用特點,并探討大數(shù)據(jù)技術(shù)在圖書館信息化建設(shè)中的應(yīng)用和影響。在此基礎(chǔ)上,研究大數(shù)據(jù)技術(shù)的具體應(yīng)用對策,包括利用大數(shù)據(jù)技術(shù)提高數(shù)據(jù)分析處理能力、完善知識服務(wù)體系、保障用戶信息安全等。
關(guān)鍵字:公共圖書館;大數(shù)據(jù)技術(shù);應(yīng)用策略
在公共圖書館的信息化建設(shè)過程中,數(shù)字化水平不斷提高,同時信息數(shù)據(jù)規(guī)模也不斷擴大。人們對公共圖書館的信息服務(wù)質(zhì)量提出了更高要求,需要在現(xiàn)有建設(shè)成果的基礎(chǔ)上,繼續(xù)擴展圖書館的公共服務(wù)能力,為用戶提供更有針對性、更加優(yōu)質(zhì)的信息服務(wù)。在此背景下,大數(shù)據(jù)技術(shù)的研究與應(yīng)用受到了廣泛關(guān)注,隨著大數(shù)據(jù)技術(shù)的不斷成熟,其信息處理能力顯著提升。各國政府、各大企業(yè)紛紛建立大數(shù)據(jù)發(fā)展戰(zhàn)略計劃,非常重視大數(shù)據(jù)技術(shù)的研究與應(yīng)用。在現(xiàn)階段的公共圖書館信息化建設(shè)中,引入大數(shù)據(jù)技術(shù),可以突破信息化建設(shè)的瓶頸,使其信息服務(wù)質(zhì)量和服務(wù)提供能力邁上一個新的臺階。
1 圖書館大數(shù)據(jù)相關(guān)研究概述
在移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云服務(wù)的快速發(fā)展下,全球數(shù)據(jù)量表現(xiàn)出爆炸式增長趨勢,對大規(guī)模信息數(shù)據(jù)的提取和分析處理,已經(jīng)成為各組織機構(gòu)必須解決的問題。在此情況下,大數(shù)據(jù)技術(shù)應(yīng)運而生,為海量信息數(shù)據(jù)的存儲、整理、分析、統(tǒng)計等提供了技術(shù)方案。自大數(shù)據(jù)的概念被提出以來,已經(jīng)在世界范圍內(nèi)引起了研究熱潮。美國政府早在2012年時就推出了大數(shù)據(jù)研究發(fā)展計劃,投資2億多美元,由國防部、科學(xué)基金會等重要部門聯(lián)合開展相關(guān)研究工作。在信息應(yīng)用領(lǐng)域,IBM、Oracle等IT巨頭也紛紛加入大數(shù)據(jù)研究行列,收購大數(shù)據(jù)軟硬件技術(shù)供應(yīng)機構(gòu),實現(xiàn)軟硬件技術(shù)融合,推廣大數(shù)據(jù)技術(shù)的應(yīng)用,以期在以大數(shù)據(jù)為基礎(chǔ)的新行業(yè)競爭環(huán)境中占據(jù)有利地位。
我國工程院院士李國杰指出,大數(shù)據(jù)技術(shù)將成為信息科技的新交點,可能形成一門新興交叉學(xué)科,網(wǎng)絡(luò)數(shù)據(jù)學(xué)科。公共圖書館作為重要新技術(shù)的研究和實踐陣地,不可避免的受到大數(shù)據(jù)技術(shù)的沖擊和影響,同時也因大數(shù)據(jù)技術(shù)的研究發(fā)展迎來了新的發(fā)展契機。國外圖書館學(xué)研究人員已經(jīng)廣泛參與到大數(shù)據(jù)研究項目中,包括關(guān)聯(lián)開放數(shù)據(jù)、圖書館數(shù)據(jù)監(jiān)管等。一些知名大學(xué)已經(jīng)開設(shè)了大數(shù)據(jù)相關(guān)課程,這些研究活動都為我國的圖書館大數(shù)據(jù)技術(shù)研究與應(yīng)用提供了借鑒。但從國內(nèi)研究情況來看,關(guān)于大數(shù)據(jù)技術(shù)的研究普遍集中在計算機科學(xué)和企業(yè)管理方面,對圖書館的大數(shù)據(jù)應(yīng)用研究較少。這從一定程度上反映出國內(nèi)對大數(shù)據(jù)的接受程度仍然偏低。需要加快對圖書館大數(shù)據(jù)應(yīng)用的研究進程,真正運用大數(shù)據(jù)技術(shù)改善公共圖書館信息服務(wù)質(zhì)量。
2 大數(shù)據(jù)技術(shù)的應(yīng)用特點
2.1 大數(shù)據(jù)特征
大數(shù)據(jù)(Big Data)又稱巨量資料,是需要新處理模式才能獲取更強決策力、洞察力、流程優(yōu)化能力的海量多樣化信息資產(chǎn)。這一定義由Gartner研究機構(gòu)提出,關(guān)于大數(shù)據(jù)概念的研究最早可追述到舍恩伯格和庫克耶在《大數(shù)據(jù)時代》中的表述。目前學(xué)術(shù)界關(guān)于大數(shù)據(jù)的概念定義研究還在繼續(xù),仍未達成統(tǒng)一的理解??傮w而言,大數(shù)據(jù)是大規(guī)模的海量信息數(shù)據(jù),無法采用傳統(tǒng)信息處理軟件進行處理,或無法在合理時間內(nèi),達到數(shù)據(jù)擷取、管理和處理目的[1]。
大數(shù)據(jù)技術(shù)主要具備4方面特征,可概括為“4V”,即“Volume”(數(shù)據(jù)體量巨大)、“Variety”(數(shù)據(jù)類型眾多)、“Value”(數(shù)據(jù)價值密度低)、“Velocity”(處理速度快)。數(shù)據(jù)體量巨大是大數(shù)據(jù)的首要特征,數(shù)據(jù)體量已經(jīng)從TB量級躍升至PB和ZB量級。而且在如此龐大的信息體量中,數(shù)據(jù)類型也更加繁多,包括地理位置信息、圖片信息、視頻信息和網(wǎng)絡(luò)日志信息等。在這些復(fù)雜的信息數(shù)據(jù)中,數(shù)據(jù)價值密度較低,比如視頻類信息,整個視頻可能有幾分鐘甚至幾小時,但能夠被利用的有效信息可能僅有幾秒中。如此低的信息價值密度要求大數(shù)據(jù)有非??斓男畔⑻幚硭俣?,貫徹“1秒定律”,與數(shù)據(jù)挖掘等其他技術(shù)有本質(zhì)區(qū)別??傮w而言,大數(shù)據(jù)技術(shù)是量變引起質(zhì)變的集中體現(xiàn),由于信息數(shù)據(jù)規(guī)模的幾何倍增,信息處理技術(shù)已經(jīng)發(fā)生了本質(zhì)性變化[2]。
2.2 大數(shù)據(jù)應(yīng)用領(lǐng)域
大數(shù)據(jù)的應(yīng)用價值主要通過數(shù)據(jù)共享和交叉復(fù)用體現(xiàn),在其應(yīng)用過程中,可以獲得最大的信息利用價值。隨著大數(shù)據(jù)技術(shù)的發(fā)展成熟,大數(shù)據(jù)將如同基礎(chǔ)設(shè)施一樣,共各方人員進行共同使用。其中,數(shù)據(jù)交叉復(fù)用技術(shù)可以使大數(shù)據(jù)成為一個龐大的信息產(chǎn)業(yè)。目前我國對于大數(shù)據(jù)技術(shù)的研究與應(yīng)用還處于初步探索階段,但大數(shù)據(jù)技術(shù)的商業(yè)價值已經(jīng)充分顯現(xiàn)。在激烈的市場競爭中,掌握數(shù)據(jù)優(yōu)勢的企業(yè)總是能夠處于競爭優(yōu)勢地位,獲取更多的發(fā)展機會、基于數(shù)據(jù)挖掘的商業(yè)模式已經(jīng)誕生,通過對企業(yè)內(nèi)部數(shù)據(jù)進行挖掘和優(yōu)化,可以幫助企業(yè)精準(zhǔn)分析客戶需求,降低運營成本,提高產(chǎn)品或服務(wù)的市場占有率。因此,大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域的研究受到了廣泛關(guān)注,并已經(jīng)得到了一定應(yīng)用。在公共圖書館領(lǐng)域,大數(shù)據(jù)技術(shù)的應(yīng)用能夠解決圖書館海量信息數(shù)據(jù)存儲和管理問題,為圖書館的互聯(lián)網(wǎng)服務(wù)以及移動互聯(lián)網(wǎng)服務(wù)提供支持[3]。
2.3 大數(shù)據(jù)相關(guān)技術(shù)
云時代的來臨使大數(shù)據(jù)技術(shù)研究獲得了更多關(guān)注,與計算與大數(shù)據(jù)具有密切的聯(lián)系性,云計算需要以大數(shù)據(jù)技術(shù)作為基礎(chǔ)平臺支持,大數(shù)據(jù)技術(shù)也需要與云計算聯(lián)系到一起,才能得到更加廣泛的應(yīng)用。在大數(shù)據(jù)信息分析過程中,需要采用Map-Reduce等框架向運動發(fā)送電腦分配指令。大數(shù)據(jù)技術(shù)以數(shù)據(jù)為中心,其數(shù)據(jù)生命周期是數(shù)據(jù)本身,可由數(shù)據(jù)作用到計算,具備可運營性、可分享性和可增加性。云計算則是以用戶和計算為中心,數(shù)據(jù)生命周期是每個計算周期,將數(shù)據(jù)作為操作對象,具有私有性和更強的計算能力。兩者一個為橫向技術(shù),一個為縱向技術(shù),將兩者充分結(jié)合到一起,可以充分滿足公共圖書館的各方面信息數(shù)據(jù)處理需求[4]。