劉瓊
[摘 要]大數(shù)據(jù)時代的到來影響著社會的各個層面,從物聯(lián)網(wǎng)、云計算到微博等影響著人們生活的方方面面,圖書館作為存儲、傳播知識的重要場所受大數(shù)據(jù)的影響最為深刻。大數(shù)據(jù)時代,為圖書館大數(shù)據(jù)帶來影響與挑戰(zhàn)。可以斷定,大數(shù)據(jù)將是未來圖書館的核心產(chǎn)業(yè),是圖書館的核心競爭力所在。本文闡明了大數(shù)據(jù)內涵與特征,分析了圖書館建設與發(fā)展面臨大數(shù)據(jù)的復雜性、不確定性、涌現(xiàn)性三大挑戰(zhàn)。分析表明,加快圖書館建設與發(fā)展,要在大數(shù)據(jù)時代迎接挑戰(zhàn),抓住機遇。
[關鍵詞]大數(shù)據(jù);圖書館;復雜性;不確定性;涌現(xiàn)性;影響
[中圖分類號]G252 [文獻標識碼] A [文章編號] 1009 — 2234(2013)08 — 0112 — 02
大數(shù)據(jù)已成為2012年以來的研究熱點。2013年7月28日在中國期刊網(wǎng)上用“大數(shù)據(jù)”作為關鍵詞進行搜索,并以發(fā)表時間順序排列,1985年有1篇文獻,2000年有4篇,2011年有41篇,到了2012年有324篇,2013年的1-5月則達到了418篇,增長的速度如此驚人。由此說明,對大數(shù)據(jù)研究已成為科學研究的一個重要內容。綜觀國內外大數(shù)據(jù)領域的研究和應用發(fā)展現(xiàn)狀可見:大數(shù)據(jù)相關的研究與應用目前仍然處于起步階段,學術研究大多局限于宏觀層面;基于互聯(lián)網(wǎng)和社會媒體的企業(yè)大數(shù)據(jù)研究與應用亟需進一步深入開展;現(xiàn)有的大數(shù)據(jù)研究大多立足于信息科學,側重于大數(shù)據(jù)的獲取、存儲、處理、挖掘和信息安全等方面〔1〕。
圖書館的責任之一就是知識存貯、利用、開發(fā)和傳播,在即將出現(xiàn)的大數(shù)據(jù)的各種問題面前,圖書館已經(jīng)感受到其所帶來的轉變和創(chuàng)新知識服務的巨大壓力。要把壓力轉化為創(chuàng)新的動力,就要正確地認識大數(shù)據(jù)給圖書館帶來的環(huán)境改變,利用大數(shù)據(jù)實現(xiàn)圖書館服務能力的提升,推動圖書館事業(yè)的發(fā)展。
一、大數(shù)據(jù)的內涵與特征
“大數(shù)據(jù)”概念最早是由咨詢公司McKensey提出,而后《紐約時報》和《華爾街日報》開辟專欄,對其展開激烈討論。隨后,包括Oracle、Microsoft、IBM、Yahoo、VMWare、FaceBook等幾乎所有IT巨頭,紛紛加入到相關的軟硬件技術研究的陣營中?,F(xiàn)在,大數(shù)據(jù)已深深地影響了我們的生活。近年來,信息技術的飛速發(fā)展推動社會各個層面快速發(fā)展,新事物不斷涌現(xiàn)?!按髷?shù)據(jù)”是移動計算、物聯(lián)網(wǎng)、云計算等一系列新興技術之后的又一新興事物。早在 20 世紀 80 年代初,美國有人提出了大數(shù)據(jù)的概念,但是并沒有引起人們足夠的重視。近年來,各個領域的數(shù)據(jù)量都在大量的增長,因此,大數(shù)據(jù)這一概念也變得越來越流行,也越來越重要〔2〕。以“云計算”為標志的“大數(shù)據(jù)”已經(jīng)成為一些國家和政府的發(fā)展戰(zhàn)略。對于大數(shù)據(jù)的概念,企業(yè)和學術界目前尚未形成公認的準確定義。維基百科將大數(shù)據(jù)定義為“無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數(shù)據(jù)集合”〔3〕; 權威 IT研究與顧問咨詢公司Gartner將大數(shù)據(jù)定義為“在一個或多個維度上超出傳統(tǒng)信息技術的處理能力的極端信息管理和處理問題”〔4〕;美國國家科學基金會( NSF) 則將大數(shù)據(jù)定義為“由科學儀器、傳感設備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡點擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復雜、長期的分布式數(shù)據(jù)集”〔5〕。 盡管存在不同的表述,但一個普遍的觀點是,大數(shù)據(jù)與“海量數(shù)據(jù)”和“大規(guī)模數(shù)據(jù)”的概念一脈相承,但其在數(shù)據(jù)體量、數(shù)據(jù)復雜性和產(chǎn)生速度三個方面均大大超出了傳統(tǒng)的數(shù)據(jù)形態(tài),也超出了現(xiàn)有技術手段的處理能力,并帶來了巨大的產(chǎn)業(yè)創(chuàng)新機遇。大數(shù)據(jù)包含了互聯(lián)網(wǎng)、醫(yī)療設備、視頻監(jiān)控、移動設備、智能設備、非傳統(tǒng) IT 設備等渠道產(chǎn)生的海量結構化或非結構化數(shù)據(jù),并且時時刻刻都滲入到現(xiàn)代企業(yè)日常管理和運作的方方面面〔1〕。
二、大數(shù)據(jù)的特征
大數(shù)據(jù)的特點可以用“4V+1C”來概括,“4V+1C”分別代表了Variety(多樣化)、Volume(海量)、Velocity(快速)、Vitality(靈活)以及Complexity(復雜)。多樣化(Variety)指大數(shù)據(jù)一般包括以事務為代表的結構化數(shù)據(jù),以網(wǎng)頁為代表的半結構化數(shù)據(jù)和以視頻、語音信息為代表的非結構化等多類數(shù)據(jù),并且它們的處理和分析方式區(qū)別很大。海量(Volume)指通過各種智能設備產(chǎn)生了大量的數(shù)據(jù)。DCCI 互聯(lián)網(wǎng)數(shù)據(jù)中心在2012年7月26日舉辦的“Adworld2012 互動營銷世界”上給出的數(shù)據(jù)顯示:2010 年,全球數(shù)據(jù)量已達 1.2ZB(1ZB=1024EB,1EB 相當于10億GB),到2020年將暴增30倍達35ZB。2011年,全球被創(chuàng)建和復制數(shù)據(jù)總量為1.8ZB。2013年,我們生成這樣規(guī)模的信息量只需10分鐘〔6〕??焖伲╒elocity)指大數(shù)據(jù)要求快速處理,因為有些數(shù)據(jù)存在時效性。比如電商的數(shù)據(jù),假如今天數(shù)據(jù)的分析結果要等到明天才能得到,那么將會使電商很難做類似補貨這樣的決策,從而導致這些數(shù)據(jù)失去了分析的意義。靈活(Vitality)指在互聯(lián)網(wǎng)時代,和以往相比,企業(yè)業(yè)務需求更新的頻率加快了很多,那么相關大數(shù)據(jù)的分析和處理模型必須快速地適應新的業(yè)務需求。復雜(Complexity)指雖然傳統(tǒng)的已經(jīng)很復雜了,但是由于前面4個V的存在,使得針對大數(shù)據(jù)的處理和分析更艱巨。
圖書館作為知識信息的重要來源之一,不可避免地受到社會應用技術潮流的影響,圖書館也應與時代相呼應。如今,圖書館已具備了大數(shù)據(jù)的特征,至2008年底,CALIS文獻數(shù)據(jù)總量達到180TB,截止到2012年底,國家圖書館數(shù)字資源總量達807.3TB,內容豐富、種類齊全〔7〕。研究大數(shù)據(jù)對于圖書館來說具有重的現(xiàn)實意義。
三、大數(shù)據(jù)對圖書館建設的影響與挑戰(zhàn)
(一)大數(shù)據(jù)復雜性的影響與挑戰(zhàn)
大數(shù)據(jù)復雜性影響與挑戰(zhàn)主要表現(xiàn)為數(shù)據(jù)類型的復雜性、數(shù)據(jù)結構的復雜性和數(shù)據(jù)模式的復雜性。網(wǎng)絡時代大數(shù)據(jù)類型是復雜的,社交網(wǎng)絡的興起,使相關的信息表現(xiàn)為短文本數(shù)據(jù)信息,與傳統(tǒng)的長文本相比,由于信息很少給文本挖掘帶來很大的困難。大數(shù)據(jù)的結構也是復雜的,隨著數(shù)據(jù)生成方式的多樣化,如社交網(wǎng)絡、移動計算和傳感器等技術,非結構化數(shù)據(jù)成為大數(shù)據(jù)的主流形式。與結構化的數(shù)據(jù)相比,非結構化數(shù)據(jù)相對組織凌亂,包含更多的無用信息,給數(shù)據(jù)的存儲與分析帶來很大的困難。除此之外,大數(shù)據(jù)的模式復雜也帶來了很大的影響,數(shù)據(jù)類型的多樣化決定了數(shù)據(jù)模式的多樣化,同時也要善于把握它們之間的相互作用,這種面向多模式學習的研究需要綜合利用各個方面的知識 〔8〕。
(二)大數(shù)據(jù)不確定性的影響與挑戰(zhàn)
大數(shù)據(jù)具有不確定性,其不確定性使得網(wǎng)絡數(shù)據(jù)難以被建模和學習,從而難以有效利用其價值。數(shù)據(jù)本身的不確定性,原始數(shù)據(jù)的不準確,以及數(shù)據(jù)采集處理力度、應用需求與數(shù)據(jù)集成和展示等因素帶來了數(shù)據(jù)在不同維度、不同尺度上都有不同程度的不確定性。
大數(shù)據(jù)模型的不確定性。數(shù)據(jù)的不確定性要求對數(shù)據(jù)的處理方式有別于傳統(tǒng)的處理方法,能夠提出新的模型方法,并能夠把握模型的表達能力與復雜程度之間的平衡,這些處理方法要求建立的模式也具有不確定性。
大數(shù)據(jù)學習的不確定性。數(shù)據(jù)模型通常都需要對模型參數(shù)進行學習,然而,在很多情況下找到模型的最優(yōu)解是很困難的,因此很多學習問題都采用近似的、不確定的方法來尋找一個相對不錯的解。但在大數(shù)據(jù)的背景下,傳統(tǒng)近似的、不確定的學習方法需要面對規(guī)模和時效的挑戰(zhàn),圖書館應提高技術水平來應對大數(shù)據(jù)的學習不確定性。
(三)大數(shù)據(jù)涌現(xiàn)性的影響與挑戰(zhàn)
大數(shù)據(jù)涌現(xiàn)性概念來源于系統(tǒng)學,是指多個要素組成系統(tǒng)后,出現(xiàn)了系統(tǒng)組成前單個要素所不具有的性質,這個性質并不存在于任何單個要素當中,而是系統(tǒng)由低層次構成高層次時才表現(xiàn)出來,所以人們形象地稱其為“涌現(xiàn)”。系統(tǒng)功能之所以往往表現(xiàn)為“整體大于部分之和”,就是因為系統(tǒng)涌現(xiàn)了新質的緣故。涌現(xiàn)性是網(wǎng)絡數(shù)據(jù)有別于其它數(shù)據(jù)的關鍵特性。涌現(xiàn)性在度量、研判與預測上的困難使得網(wǎng)絡數(shù)據(jù)難以被駕馭。
網(wǎng)絡數(shù)據(jù)的涌現(xiàn)性主要表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性。大數(shù)據(jù)的模式涌現(xiàn)性是指在多尺度、異質關系的網(wǎng)絡數(shù)據(jù)中,由于不同的數(shù)據(jù)在屬性、功能等方面既存在差異又相互關聯(lián)。大數(shù)據(jù)的行為涌現(xiàn)性是指隨著數(shù)據(jù)采集技術的不斷發(fā)展,人們得到的很多數(shù)據(jù)都具有時序性,而社會網(wǎng)絡中個體行為的涌現(xiàn)性則是基于數(shù)據(jù)時序分布的統(tǒng)計結果。在社會網(wǎng)絡中有較大相似性的個體之間容易建立社會關系,當這些個體在產(chǎn)生網(wǎng)絡數(shù)據(jù)時每一個體的行為同時出現(xiàn)在一個系統(tǒng)中時,就表現(xiàn)為區(qū)別于個體的復雜性。大數(shù)據(jù)的智慧涌現(xiàn)性是指網(wǎng)絡數(shù)據(jù)在沒有全局控制和預先定義的情況下,通過對來自大量自發(fā)個體的語義進行互相融合和連接而形成語義,也可以稱之為智慧涌現(xiàn)。到目前為止,大數(shù)據(jù)的精確定義還缺乏一個統(tǒng)一的標準,網(wǎng)絡大數(shù)據(jù)科學需要一個完備的新的理論體系來指導該學科的發(fā)展和研究。
結語
我們已進入大數(shù)據(jù)時代,大數(shù)據(jù)伴隨著云計算、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息技術的成熟而迅速發(fā)展,相較于過去幾十年數(shù)字圖書館的研究與發(fā)展,大數(shù)據(jù)技術在未來幾年給云圖書館將會帶來革命性、持續(xù)性和創(chuàng)造性的變化,會對我們所熟知的知識服務能力和知識服務機制產(chǎn)生重大的顛覆和創(chuàng)新,我們必須面對大數(shù)據(jù)帶來的挑戰(zhàn),加強學習,以飽滿的信心迎接大數(shù)據(jù)的挑戰(zhàn),在挑戰(zhàn)中尋找機會,抓住機會發(fā)展大數(shù)據(jù)圖書館。
〔參 考 文 獻〕
〔1〕馮芷艷,郭迅華等. 大數(shù)據(jù)背景下商務管理研究若干前沿課題〔J〕. 管理科學學報,2013,(01).
〔2〕孫 琳. 大數(shù)據(jù)時代圖書館服務體系創(chuàng)新研究〔J〕. 理論觀察,2013,(04).
〔3〕http://en.wikipedia.org/wiki/Big_data〔EB/OL〕.
〔4〕http://www.gartner.com / it-glossary/big_data/〔EB/OL〕.
〔5〕http://www.nsf.gov/ funding/pgm_summ.jsp?pims_id=
504767〔EB/OL〕.
〔6〕韓翠峰. 大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展〔J〕. 圖書館,2013,(01).
〔7〕國家圖書館面向地方開放120TB數(shù)字資源,2013-7-28,〔DB/OL〕,http://roll.sohu.com/20130304/n367700292.shtml
〔8〕王元卓,靳小龍,等. 網(wǎng)絡大數(shù)據(jù):現(xiàn)狀與展望〔J〕. 計算機學報,2013,(06).
〔責任編輯:譚 蕊〕