馮秋燕
(河南財經(jīng)政法大學,河南 鄭州450000)
大數(shù)據(jù)對信息文獻資源共建共享的影響
馮秋燕
(河南財經(jīng)政法大學,河南 鄭州450000)
本文首先介紹了大數(shù)據(jù)的特征、概念,并對信息文獻資源共建共享的現(xiàn)狀進行分析,闡述了大數(shù)據(jù)對信息文獻資源共建共享的影響。[關(guān)鍵詞]大數(shù)據(jù);信息文獻資源;共建共享
大數(shù)據(jù)有著巨大的社會價值、經(jīng)濟價值和科學研究價值。通過挖掘和分析Facebook、微博等網(wǎng)絡(luò)大數(shù)據(jù),能夠預(yù)測社會一些重大和突發(fā)性事件。數(shù)據(jù)逐漸成為相關(guān)行業(yè)和業(yè)務(wù)職能領(lǐng)域重要的生產(chǎn)因素。
以“大數(shù)據(jù)”為基礎(chǔ),有效收集、存儲、組織、管理信息,使得用戶從海量信息中快速便捷的選取所需信息資源,是信息文獻資源共建共享的目標之一;傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)已不再適用于“大數(shù)據(jù)”、數(shù)據(jù)中心面對海量數(shù)據(jù)的巨大壓力、用戶從海量數(shù)據(jù)中選取信息的困惑性等都說明大數(shù)據(jù)時代對信息文獻共建共享帶來了巨大的影響。
本節(jié)首先介紹大數(shù)據(jù)的特征,然后基于大數(shù)據(jù)的特征闡述大數(shù)據(jù)的概念,簡單的分析大數(shù)據(jù)的應(yīng)用狀況。
大數(shù)據(jù)本身比較抽象,與“海量數(shù)據(jù)”、“超大規(guī)模數(shù)據(jù)”不同,目前尚未有統(tǒng)一的定義。比較有代表性的定義均基于大數(shù)據(jù)的特征進行歸納總結(jié),如下:一是3V定義[1]:大數(shù)據(jù)需滿足3個特征,規(guī)模性(volume)、多樣性(variety)、高速性(velocity);二是4V定義:IDC認為大數(shù)據(jù)除滿足3V定義外,還應(yīng)具有價值性(value)[2],IBM認為大數(shù)據(jù)除滿足3V定義外,還應(yīng)具有真實性(veracity)[3];三是維基百科對大數(shù)據(jù)的定義[4]為:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。
數(shù)據(jù)是一種基礎(chǔ)性資源,研究數(shù)據(jù)的根本目的是從數(shù)據(jù)中提取得到所需知識,并將之應(yīng)用到具體的工業(yè)、學術(shù)、工程等領(lǐng)域,如Scienticic Computing、Finance、Social network、Mobile Da?ta、Internet of Things、Web Data、Multimedia等。這7個典型大數(shù)據(jù)的數(shù)據(jù)量均在GB級及以上,而由于數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、模式和數(shù)據(jù)關(guān)系、處理對象等的變化,傳統(tǒng)的數(shù)據(jù)工程的處理方式已經(jīng)不能直接應(yīng)用于大數(shù)據(jù),需要采取新的數(shù)據(jù)思維來應(yīng)對。
大數(shù)據(jù)的應(yīng)用目前處于起步階段,其普及需要一個過程,首先應(yīng)從信息技術(shù)領(lǐng)域開始逐漸擴展至其他行業(yè)。信息文獻資源的共建共享需要以一定的技術(shù)環(huán)境和條件作為平臺,革新理念、更新手段、拓展空間。
隨著計算機網(wǎng)絡(luò)、通訊、多媒體的發(fā)展,文獻傳遞、聯(lián)合虛擬參考咨詢等服務(wù)得以實現(xiàn)并步入使用。目前,隨著紙質(zhì)文獻、數(shù)字資源等信息的大幅度增長,僅憑一己之力難以收集、整理出所有信息。只有“優(yōu)勢互補,資源共享”,才可以解決“信息超載”,提高資源的利用率。目前,國內(nèi)比較有影響力的信息文獻資源共建共享項目有CALIS、CASHL、NSTL、DARR等,其中,CALIS通過“3e服務(wù)”,旨在構(gòu)建一個多館合作、服務(wù)于全國高校的服務(wù)體系,實現(xiàn)知識庫資源的共建共享;CASHL提供一個檢索和瀏覽數(shù)據(jù)庫、書刊原文傳遞、館際互借、咨詢等服務(wù)的平臺;國家授權(quán)NSTL購買網(wǎng)絡(luò)數(shù)據(jù)庫資源,為我國NSTL授權(quán)用戶提供免費在線使用服務(wù)。DRAA采用集團采購的方式為DRAA聯(lián)盟館成員組織提供優(yōu)質(zhì)的數(shù)字資源。
由于我國數(shù)字資源建設(shè)相對較晚,雖著手進行資源調(diào)優(yōu),但在信息文獻資源共建共享方面,還存在著諸多問題,如:數(shù)據(jù)標準不規(guī)范,知識產(chǎn)權(quán)等相關(guān)法律體質(zhì)的不健全,信息資源的浪費,缺失全局觀念,各自為營等。
Gartner認為,信息量至少以59%年增長速度增加,據(jù)IDC統(tǒng)計,2020年,以電子形式存儲的數(shù)據(jù)量將達到35ZB。云計算、RFID、社交網(wǎng)絡(luò)、移動圖書館等日益增長的電子資源帶來了更為廣泛的信息文獻資源。
4.1 電子書刊等電子資源的積累,為大數(shù)據(jù)提供了廣泛的數(shù)據(jù)來源
隨著信息技術(shù)的發(fā)展,電子圖書、電子期刊、數(shù)據(jù)庫、多媒體資源、網(wǎng)絡(luò)資源等電子資源的種類和數(shù)量正在超越紙質(zhì)資源。截止2010年底,國內(nèi)數(shù)字報已達700多份,電子書已達115萬種,電子期刊近萬種。截止2011年底,中文網(wǎng)頁年增長率為44.3%,數(shù)量達866億個。傳統(tǒng)文獻的數(shù)字化、新生的數(shù)字資源、其他虛擬館藏等各種多媒體資源的積累,構(gòu)成了現(xiàn)今的大數(shù)據(jù)。
4.2 云計算、RFID、社交網(wǎng)絡(luò)、語義網(wǎng)等信息技術(shù)的發(fā)展,為大數(shù)據(jù)提供了廣泛的數(shù)據(jù)來源
云計算突破了傳統(tǒng)信息處理的局限性,強大的數(shù)據(jù)處理能力,信息資源整合、分配的能力,簡化的IT結(jié)構(gòu),為大數(shù)據(jù)提供了物質(zhì)基礎(chǔ)和技術(shù)借鑒。RFID、社交網(wǎng)絡(luò)、語義網(wǎng)等信息技術(shù)為大數(shù)據(jù)提供了大量的海量信息,詳見表1。
表1 RFID、社交網(wǎng)絡(luò)、語義網(wǎng)的作用
作為現(xiàn)代流行的RFID、社交網(wǎng)絡(luò)、語義網(wǎng)等信息技術(shù)分別有著不同的作用與功能,其作用不可忽視,這些技術(shù)從不同方面提供了大數(shù)據(jù)的數(shù)據(jù)來源。可見,信息技術(shù)的發(fā)展使得文獻資源具備了大數(shù)據(jù)的特征。
4.3 高速網(wǎng)絡(luò)、智能手機、移動圖書館等應(yīng)用的普及,為大數(shù)據(jù)提供了廣泛的數(shù)據(jù)來源
截止2011年底,我國數(shù)字電視用戶超過1 000萬,互聯(lián)網(wǎng)普及率為38.3%,上網(wǎng)人數(shù)為5.13億,手機用戶達9億,手機上網(wǎng)人數(shù)達3.56億,智能產(chǎn)品如平板電腦的出現(xiàn),為用戶提供了新的體驗、交互、學習的方式,也為數(shù)字資源的多網(wǎng)絡(luò)傳輸提供了新的渠道與服務(wù)。移動圖書館越來越普及,移動閱讀與搜索等新服務(wù)類型的不斷出現(xiàn),致使數(shù)據(jù)量以每年翻倍的速度產(chǎn)生。
由此可見,信息時代的發(fā)展使文獻資源具備了大數(shù)據(jù)的特征?,F(xiàn)代科學研究、科技創(chuàng)新依賴于對數(shù)據(jù)的管理、組織和利用,學科知識服務(wù)以對大數(shù)據(jù)的分析、挖掘為基奠。由于大數(shù)據(jù)的復(fù)雜性,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)不適用于“大數(shù)據(jù)”,數(shù)據(jù)中心壓力巨大,文獻資源的共建共享將遇到很多問題與挑戰(zhàn)。
本文首先提出了大數(shù)據(jù)的特征、概念,并對典型大數(shù)據(jù)應(yīng)用的情況做了比較分析,然后通過對中國信息文獻資源共建共享項目的分析,闡述了我國目前信息文獻資源共建共享的現(xiàn)狀,最后從電子書刊、云計算、RFID、社交網(wǎng)絡(luò)、語義網(wǎng)等信息技術(shù)、高速網(wǎng)絡(luò)、智能手機、移動圖書館等應(yīng)用的普及方面論述了大數(shù)據(jù)對信息文獻資源共建共享的影響。
[1]Grobelnik M.Big-data computing∶Creating revolutionary breakthroughs in commerce,science,and society[R/OL]. [2012-10-02].http://videolectures.net/eswc2012_grobelnik_big_
data/.
[2]Barwick H.The“four Vs”of Big Data.Implementing Infor?mation Infrastructure Symposium[EB/OL].[2012-10-02].http:// www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[3]IBM.What is big data?[EB/OL].[2012-10-02].http:// www-01.ibm.com/software/data/bigdata.
[4]Big data[EB/OL].[2012-10-02].http://en.wikipedia.org/wiki/ Big_data.
G250
A
1671-0037(2014)02-57-1.5
2013年12月26日。
馮秋燕(1988-),女,碩士,助理館員,研究方向:現(xiàn)代軟件工程技術(shù)、數(shù)據(jù)挖掘、大數(shù)據(jù)等研究。