国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對策略

2013-04-29 00:44:03朱靜薇李紅艷
現(xiàn)代情報(bào) 2013年5期
關(guān)鍵詞:數(shù)據(jù)服務(wù)數(shù)據(jù)處理數(shù)據(jù)挖掘

朱靜薇 李紅艷

〔摘要〕文章首先闡述了大數(shù)據(jù)的特征與內(nèi)涵,指出了大數(shù)據(jù)在圖書館工作中的重要性及兩者之間的關(guān)系,分析了大數(shù)據(jù)所帶來的數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘等方面的挑戰(zhàn)。然后研究了圖書館應(yīng)從數(shù)據(jù)管理、數(shù)據(jù)技術(shù)及數(shù)據(jù)隊(duì)伍建設(shè)上所采取的策略。最后探討了大數(shù)據(jù)驅(qū)動(dòng)下的圖書館服務(wù)新模式,如基于數(shù)據(jù)整合的一站式資源服務(wù),基于數(shù)據(jù)處理的學(xué)科知識服務(wù)、信息可視化服務(wù)及基于數(shù)據(jù)挖掘的個(gè)性化智慧服務(wù)。

〔關(guān)鍵詞〕大數(shù)據(jù);數(shù)據(jù)處理;數(shù)據(jù)挖掘;數(shù)據(jù)服務(wù);圖書館

DOI:10.3969/j.issn.1008-0821.2013.05.003

〔中圖分類號〕G250〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)05-0009-05

隨著社會(huì)高速的發(fā)展,泛互聯(lián)網(wǎng)的進(jìn)程加快,數(shù)據(jù)量的增加已經(jīng)到達(dá)了前所未有的速度。Facebook每天生成300TB(注:1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB)以上的日志數(shù)據(jù),Google公司每個(gè)月處理的數(shù)據(jù)量超過400PB,百度每天約處理幾十PB數(shù)據(jù),淘寶網(wǎng)每天交易能產(chǎn)生約20TB數(shù)據(jù)[1]。根據(jù)國際數(shù)據(jù)公司IDC 2011年發(fā)布的Digital Universe Study,全球信息總量每過2年,就會(huì)增長1倍。僅在2011年,全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為18ZB,且每年以60%增加,2020年全球每年產(chǎn)生的數(shù)字信息將達(dá)到35ZB[2]。數(shù)據(jù)的爆炸式增長超出人們的想象,“大數(shù)據(jù)”(Big Data)時(shí)代已經(jīng)來臨。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)以后,信息科技等行業(yè)又一次大的技術(shù)變革。

最早提出“大數(shù)據(jù)”概念是麥肯錫公司(Mckinsey and Company)。2011年5月,麥肯錫公司在大數(shù)據(jù)的報(bào)告中指出[3]:數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素。其后,大數(shù)據(jù)迅速成為政府及信息科技等行業(yè)關(guān)注的熱點(diǎn)。2012年3月,美國政府啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,將“大數(shù)據(jù)研究”上升為國家戰(zhàn)略高度[4];一些著名企業(yè)如IBM、EMC、Microsoft開始對大數(shù)據(jù)進(jìn)行研究。大數(shù)據(jù)最典型的應(yīng)用是在沃爾瑪公司利用大數(shù)據(jù)技術(shù)創(chuàng)造的“啤酒與尿布”的經(jīng)典商業(yè)案例[5]?;ヂ?lián)網(wǎng)企業(yè)Google及Facebook之所以取得令人矚目的成績,其核心的本質(zhì)就是其公司記錄和分析了用戶網(wǎng)絡(luò)操作的大數(shù)據(jù),從而精確掌握用戶行為、形成預(yù)判。圖書館是信息搜集、存儲(chǔ)和進(jìn)行知識服務(wù)的機(jī)構(gòu)。在大數(shù)據(jù)時(shí)代下,如何進(jìn)行數(shù)據(jù)管理;如何以“大數(shù)據(jù)”為基礎(chǔ),幫助用戶從海量的數(shù)據(jù)中快捷發(fā)現(xiàn)與獲取信息資源;如何挖掘用戶行為特征,實(shí)現(xiàn)個(gè)性化、定制化的智慧服務(wù)等等都是圖書館面臨的新的挑戰(zhàn)與機(jī)遇。本文對此進(jìn)行了深入的分析與研究,主要闡述了大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn),分析了大數(shù)據(jù)對圖書館的重要性,重點(diǎn)探討了圖書館的大數(shù)據(jù)建設(shè)若干策略及圖書館的大數(shù)據(jù)服務(wù)模式。

1大數(shù)據(jù)的特征與內(nèi)涵

什么是大數(shù)據(jù)?目前,還沒有一個(gè)統(tǒng)一的定義,簡單一點(diǎn)可以理解為超出傳統(tǒng)數(shù)據(jù)管理工具處理能力的大規(guī)模、復(fù)雜的數(shù)據(jù)集合。IBM公司認(rèn)為大數(shù)據(jù)具有“3V”特點(diǎn),即種類(Variety)多、速度(Velocity),快、容量(Volume)大[6]。但以IDC為代表的業(yè)界將其歸納為具有“4V”特征——海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)。不管是“3V”,還是“4V”,其內(nèi)涵包含了以下這些特性。第一,數(shù)據(jù)體量巨大?!按蟆笔侵笖?shù)據(jù)規(guī)模,一般指在10TB規(guī)模以上的數(shù)據(jù)量。一部《史記》,共526 500字,約1MB數(shù)據(jù),一組用于基因研究的染色體照片數(shù)據(jù)量超過2TB。第二,數(shù)據(jù)類型繁多。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?;ヂ?lián)網(wǎng)的迅猛發(fā)展,現(xiàn)在的數(shù)據(jù)類型早已不是單一的文本形式,還包含了大量的網(wǎng)絡(luò)日志、微博、視頻、圖片、郵件等大量的半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。第三,價(jià)值密度低。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。大數(shù)據(jù)中有很多垃圾,有很多不相關(guān)的信息,只有一些有用的信息隱藏在大數(shù)據(jù)信息里面。以視頻為例,一部一小時(shí)的視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。第四,處理速度快。大數(shù)據(jù)里面很多是實(shí)時(shí)數(shù)據(jù),像微博、社會(huì)網(wǎng)絡(luò)、SNS這些,要求它進(jìn)行立竿見影的分析和處理,而不是事后追訴。

隨著信息化建設(shè)的發(fā)展,圖書館除了本身包含的大量數(shù)字資源外,日益增長的電子資源,高速網(wǎng)絡(luò)及移動(dòng)圖書館的普及,云計(jì)算、RFID、語義網(wǎng)、社交網(wǎng)絡(luò)等新技術(shù)的發(fā)展提供了廣泛的數(shù)據(jù)來源,圖書館正在迎接大數(shù)據(jù)時(shí)代的到來。

21各種電子資源(電子書刊,多媒體資源等)的積累,給圖書館提供了海量數(shù)據(jù)信息技術(shù)的發(fā)展極大地促進(jìn)了圖書館數(shù)字資源的生產(chǎn),形成了包括電子圖書、電子期刊、數(shù)據(jù)庫、音視頻資源、網(wǎng)絡(luò)資源在內(nèi)的海量數(shù)字資源,電子資源種類和數(shù)量正在超越紙本資源。據(jù)調(diào)查,全球新產(chǎn)出的信息量每3年翻一番,大約90%的信息都是以數(shù)據(jù)形式儲(chǔ)存。截至2011年底,中文網(wǎng)頁數(shù)量達(dá)866億個(gè),年增長率達(dá)443%。文獻(xiàn)的出版方式發(fā)生巨大的變化,數(shù)字出版日益普及,截至2010年底,中國電子書總量已達(dá)115萬種,年新增18萬種。單獨(dú)出版的數(shù)字報(bào)已達(dá)700份以上,電子期刊已近萬種。2010年底,清華圖書館機(jī)房有110臺服務(wù)器,集中存儲(chǔ)170TB,國家圖書館資源總量達(dá)到470TB。這些資源分布在不同的系統(tǒng)中,形態(tài)不同,組織方式各異,既包括傳統(tǒng)文獻(xiàn)的數(shù)字化,也包括各種類型的原生數(shù)字資源,還包括其它虛擬館藏等各種多媒體資源。各種電子資源的積累,給圖書館提供了海量數(shù)據(jù)。

22智能手機(jī)、高速網(wǎng)絡(luò)及移動(dòng)圖書館的普及, 使數(shù)據(jù)量呈現(xiàn)指數(shù)上升的趨勢信息技術(shù)、網(wǎng)絡(luò)技術(shù)迅猛發(fā)展,手機(jī)上網(wǎng)、數(shù)字電視等跨網(wǎng)絡(luò)等業(yè)務(wù)發(fā)展迅速。截至2011年底,我國網(wǎng)民人數(shù)達(dá)513億,互聯(lián)網(wǎng)普及率達(dá)383%,手機(jī)用戶已突破9億人,其中手機(jī)上網(wǎng)達(dá)356億,數(shù)字電視用戶超過1 000萬戶,以上為數(shù)字圖書館提供了基于多網(wǎng)絡(luò)平臺的信息傳輸途徑和服務(wù)渠道。近幾年,移動(dòng)設(shè)備如雨后春筍,智能手機(jī)、平板電腦為學(xué)習(xí)者提供了新的學(xué)習(xí)途徑,并以其它設(shè)備無法比擬的優(yōu)勢提高學(xué)習(xí)體驗(yàn)并與人產(chǎn)生更多的交互,使得數(shù)據(jù)快速增加。自2003年以來,移動(dòng)圖書館越來越普及,移動(dòng)閱讀,移動(dòng)搜索等服務(wù)類型也不斷增加。未來3年內(nèi),移動(dòng)設(shè)備所產(chǎn)生的數(shù)據(jù)量呈現(xiàn)翻倍的趨勢。

23云計(jì)算、RFID、語義網(wǎng)、社交網(wǎng)絡(luò)等新技術(shù)的發(fā)展,為大數(shù)據(jù)提供了廣泛的數(shù)據(jù)來源云計(jì)算的到來,突破了傳統(tǒng)圖書館發(fā)展局限,超強(qiáng)的數(shù)據(jù)處理能力,信息資源的整合,動(dòng)態(tài)資源分配,簡化的IT結(jié)構(gòu),云計(jì)算為大數(shù)據(jù)的誕生創(chuàng)造了物質(zhì)基礎(chǔ)。利用RFID技術(shù),可實(shí)現(xiàn)圖書自動(dòng)借還,智能盤點(diǎn),自動(dòng)分揀,圖書位置與信息的實(shí)時(shí)跟蹤導(dǎo)航。以Facebook、Twitter/微博為代表的社會(huì)網(wǎng)絡(luò)因?yàn)轶w現(xiàn)了開放、共享、參與、個(gè)性化、用戶驅(qū)動(dòng)等Web20特性而深入人心。語義網(wǎng)是人們經(jīng)過研究,期待已久,能夠使信息發(fā)生“革命”,從而上升到“知識”的技術(shù)。2009年,美國康奈爾大學(xué)和六家機(jī)構(gòu)籌建一個(gè)Facebook風(fēng)格的專業(yè)社交網(wǎng)絡(luò)——VIVO網(wǎng),其宗旨是建立一個(gè)連接開發(fā)數(shù)據(jù)的語義Web??茖W(xué)家通過VIVO網(wǎng)可以看到網(wǎng)絡(luò)中的研究人員正在進(jìn)行的其它科學(xué)研究,便于快捷地找到同行并建立聯(lián)系,致力于新的發(fā)現(xiàn)和創(chuàng)新。

由此可知,信息時(shí)代的發(fā)展使得圖書館具備大數(shù)據(jù)的特征??茖W(xué)研究和科技創(chuàng)新越來越依賴于對數(shù)據(jù)的管理和利用,學(xué)科知識服務(wù)依賴于大數(shù)據(jù)的分析與挖掘。但是,要面臨的數(shù)據(jù)非常復(fù)雜,圖書館將遇到很多挑戰(zhàn)。

3大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)與建設(shè)策略

大數(shù)據(jù)不僅挑戰(zhàn)圖書館傳統(tǒng)的IT架構(gòu)與數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理的模式,而且來自數(shù)據(jù)管理及數(shù)據(jù)應(yīng)用、數(shù)據(jù)服務(wù)對圖書館的挑戰(zhàn)將更為突出。但從潛在的機(jī)會(huì)看,數(shù)據(jù)量的增加為圖書館提供了精確把握用戶群體和個(gè)體網(wǎng)絡(luò)行為模式的基礎(chǔ),如果能夠充分利用,就可以探索個(gè)性化,精確化和智能化地進(jìn)行推送和服務(wù),幫助用戶從海量的信息中迅速找到所需要的信息,提升圖書館的數(shù)字知識服務(wù)水平,促進(jìn)數(shù)字圖書館領(lǐng)域的發(fā)展。當(dāng)前,圖書館的大數(shù)據(jù)挑戰(zhàn)主要集中在以下3個(gè)方面:

問題一:傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)不適應(yīng)“大數(shù)據(jù)”時(shí)代

傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)是以用戶端向服務(wù)器發(fā)出請求,由服務(wù)器應(yīng)答返回結(jié)果給客戶的垂直結(jié)構(gòu)。而在大數(shù)據(jù)時(shí)代,這種垂直結(jié)構(gòu)的服務(wù)請求將變得越來越少,取而代之的是水平結(jié)構(gòu)的橫向請求服務(wù)?!按髷?shù)據(jù)”時(shí)代,大量的數(shù)據(jù)都存儲(chǔ)在分布廣泛、不同地域、各種類型的服務(wù)器中。當(dāng)用戶發(fā)出一個(gè)搜索或查詢請求時(shí),最多的運(yùn)算是服務(wù)器之間的信息交換,最后將結(jié)果返回給用戶。傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)已經(jīng)不能滿足大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)應(yīng)用需求。新一代網(wǎng)絡(luò)架構(gòu)要適應(yīng)Web20時(shí)代的水平服務(wù)應(yīng)用[7]。

問題二:數(shù)據(jù)中心將面臨巨大壓力

傳統(tǒng)的數(shù)據(jù)倉庫是通過ETL工具將數(shù)字資源中的數(shù)據(jù)抽取到數(shù)據(jù)倉庫進(jìn)行集中存儲(chǔ)和管理,然后組織數(shù)據(jù)進(jìn)一步從數(shù)據(jù)倉庫中讀取及訪問數(shù)據(jù),并進(jìn)行數(shù)據(jù)分析。但在大數(shù)據(jù)時(shí)代,圖書館數(shù)據(jù)庫里的內(nèi)容不僅僅是多,而且結(jié)構(gòu)已發(fā)生了極大改變,不是以二維表的規(guī)范結(jié)構(gòu)存儲(chǔ)。大量的數(shù)據(jù)是非結(jié)構(gòu)化的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖片和音頻/視頻等,面臨如此大量的非結(jié)構(gòu)化數(shù)據(jù),其移動(dòng)和修改將耗費(fèi)大量的人力物力,數(shù)據(jù)移動(dòng)代價(jià)太高,讀取效率也將越來越低。更多的網(wǎng)絡(luò)設(shè)備將同時(shí)訪問數(shù)據(jù)中心,傳統(tǒng)數(shù)據(jù)中心難以適應(yīng)快速變化,面臨巨大壓力[7]。

問題三:如何快速找到自已的資源,如何獲取、管理和分析這些用戶信息行為數(shù)據(jù)并加以利用及服務(wù)。

在大數(shù)據(jù)時(shí)代,用戶面對眾多圖書館的數(shù)據(jù)資源,深受大數(shù)據(jù)所帶來的困擾,很難方便、快捷、準(zhǔn)確地檢索到所需數(shù)據(jù)資料。2011年麥肯錫公司在報(bào)告中指出全球新的數(shù)據(jù)不斷增長,但是卻有875%的數(shù)據(jù),并沒有形成真正的知識源以供研究人員利用[3]。

大數(shù)據(jù)時(shí)代,圖書館面臨大數(shù)據(jù)管理、技術(shù)和應(yīng)用等方面存在的問題和挑戰(zhàn),對這些問題的思考,未來圖書館,是以數(shù)據(jù)為紐帶,其形態(tài)將從物理圖書館逐漸轉(zhuǎn)變?yōu)椤皵?shù)據(jù)圖書館”及“智慧圖書館”。由此,圖書館應(yīng)采取以下應(yīng)對策略:

31管理層次上:成立數(shù)據(jù)管理部門與機(jī)構(gòu),制定數(shù)據(jù)管理政策、統(tǒng)一的標(biāo)準(zhǔn)及共享平臺大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。為此,圖書館應(yīng)成立新的數(shù)據(jù)管理部門,負(fù)責(zé)數(shù)據(jù)管理,建立統(tǒng)一的數(shù)據(jù)獲取、使用、管理、分享的政策,加強(qiáng)校內(nèi),外各部門的數(shù)據(jù)協(xié)調(diào)工作。如在美國高校中,現(xiàn)在有些學(xué)校如MIT、弗吉尼亞大學(xué)及康奈爾大學(xué)圖書館成立了專門的“研究數(shù)據(jù)管理服務(wù)工作組(RDMSG)”,負(fù)責(zé)有關(guān)數(shù)據(jù)管理中所涉及的問題:如元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)共享和重用、數(shù)據(jù)管理計(jì)劃、處理數(shù)據(jù)版權(quán)和合理使用數(shù)據(jù)問題、舉辦知識產(chǎn)權(quán)、開放數(shù)據(jù)、開放科研等主題的培訓(xùn)和講座、研究數(shù)據(jù)知識庫的評估、管理、推介、導(dǎo)航服務(wù)等[8]。

32技術(shù)層次上:構(gòu)建圖書館大數(shù)據(jù)架構(gòu),研究解決大數(shù)據(jù)采集、存儲(chǔ),處理及分析相關(guān)技術(shù)問題大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。迎戰(zhàn)大數(shù)據(jù),進(jìn)行技術(shù)前傾是關(guān)鍵。要把大數(shù)據(jù)作為一系統(tǒng)工程來考慮,從數(shù)據(jù)采集,數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)處理,數(shù)據(jù)分析及數(shù)據(jù)應(yīng)用等方面考慮,構(gòu)成圖書館大數(shù)據(jù)架構(gòu)圖,見圖1。

在大數(shù)據(jù)技術(shù)中,從圖書館系統(tǒng)角度,主要解決下面幾方面的關(guān)鍵技術(shù):

321大數(shù)據(jù)的統(tǒng)一表示及融合

圖書館大數(shù)據(jù)中包括越來越多不同格式的數(shù)據(jù),從電子資源,到簡單的電子郵件、數(shù)據(jù)日志和閱讀記錄,社交網(wǎng)絡(luò),再到實(shí)驗(yàn)等科研中收集到的科學(xué)研究數(shù)據(jù)以及豐富的媒體數(shù)據(jù)(包括課件,照片、音樂、視頻資源等),這些不同格式的數(shù)據(jù)也需要不同的處理方法,給我們處理數(shù)據(jù)帶來了一定麻煩。從某種意義上來說,目前表示數(shù)據(jù)的方法,不一定能直觀地展現(xiàn)出數(shù)據(jù)本身的意義。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的重大價(jià)值。大數(shù)據(jù)面臨的一個(gè)基本問題是各種數(shù)據(jù)和信息能否規(guī)范、統(tǒng)一的表示及方便地融合,構(gòu)建文獻(xiàn)與數(shù)字資源體系。因此,要研究通過對海量的,來自異構(gòu)資源的數(shù)據(jù)和各種對象數(shù)據(jù)進(jìn)行抽取、映射、收割、導(dǎo)入等手段進(jìn)行預(yù)收集,歸并映射到一個(gè)標(biāo)準(zhǔn)表達(dá)式,進(jìn)行預(yù)聚合及融合,形成格式統(tǒng)一,內(nèi)容豐富、結(jié)構(gòu)清晰的數(shù)據(jù),靈活構(gòu)建各種分類和界面,按照知識本體進(jìn)行組織和揭示,進(jìn)而保障強(qiáng)大高效的檢索能力和良好的結(jié)果相關(guān)度排序。

322解決大數(shù)據(jù)量存儲(chǔ)的問題

在大數(shù)據(jù)的挑戰(zhàn)問題中,大數(shù)據(jù)的第一個(gè)關(guān)鍵技術(shù)問題:就是對大數(shù)據(jù)的高效率存儲(chǔ)和訪問需求,對數(shù)據(jù)庫高可擴(kuò)展性和高可用性的需求,隨著數(shù)據(jù)庫技術(shù)以及云計(jì)算技術(shù)的迅猛發(fā)展,大規(guī)模數(shù)據(jù)存儲(chǔ)要借助非關(guān)系型的數(shù)據(jù)庫分析技術(shù)——NoSQL、MapReduce和Hadoop。它們的優(yōu)勢具有大規(guī)模并行處理、簡單易用等特點(diǎn),非常適合非結(jié)構(gòu)數(shù)據(jù)處理,也成為大數(shù)據(jù)分析領(lǐng)域的主流技術(shù)。大數(shù)據(jù)存儲(chǔ)也可采用基于云計(jì)算的分布式存儲(chǔ)技術(shù),利用分布式的數(shù)據(jù)云存儲(chǔ)技術(shù)和與之相關(guān)的虛擬技術(shù)使得整合后的圖書館海量數(shù)據(jù)更加統(tǒng)一有序,能夠方便快捷地通過網(wǎng)絡(luò),根據(jù)需求訪問計(jì)算與存儲(chǔ)等服務(wù)。

323解決非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘的問題

大數(shù)據(jù)中包含數(shù)據(jù)信息量大且復(fù)雜多樣,因此數(shù)據(jù)分析和挖掘工作具有重要作用。傳統(tǒng)的數(shù)據(jù)挖掘?qū)﹃P(guān)系型數(shù)據(jù),非結(jié)構(gòu)化的、半結(jié)構(gòu)化的數(shù)據(jù)顯得力不從心。對于圖書館大數(shù)據(jù)中,待處理的非結(jié)構(gòu)化數(shù)據(jù)與讀者興趣密切相關(guān),通過分析讀者顯性行為和挖掘隱性行為,為讀者提供個(gè)性化服務(wù)。目前使用的推薦方法是基于內(nèi)容的推薦方法和協(xié)同過濾的推薦方法。協(xié)同過濾算法是目前最為成功的算法,但依然存在讀者興趣變化、數(shù)據(jù)稀疏性、讀者評分的真實(shí)性及差異性等問題,根據(jù)讀者信息數(shù)據(jù)構(gòu)建個(gè)性化讀者行為模型,結(jié)合基于讀者行為的協(xié)同過濾算法,挖掘模型中存在的規(guī)則,從而產(chǎn)生個(gè)性化服務(wù)值得研究。

33隊(duì)伍建設(shè)上:培養(yǎng)一支高素質(zhì)的數(shù)據(jù)管理的館員隊(duì)伍大數(shù)據(jù)環(huán)境下,圖書館傳統(tǒng)的管理模式、工作內(nèi)容、工作方式發(fā)生了本質(zhì)的變化。而目前不斷增長的數(shù)據(jù)共享和數(shù)據(jù)管理需求為圖書館服務(wù)開辟了新的領(lǐng)域,圖書館需要抓住這個(gè)機(jī)遇,盡快開展數(shù)據(jù)管理服務(wù),拓展支持研究的服務(wù)內(nèi)容和能力,使圖書館員成為數(shù)據(jù)管理服務(wù)的提供者。美國國家科學(xué)委員會(huì)(NSB)提出的以數(shù)據(jù)獲取、處理、保存、分析、利用和可視化為職業(yè)的"數(shù)據(jù)科學(xué)家(Data Scientist)中,其中含信息與計(jì)算機(jī)科學(xué)家,學(xué)科專家、數(shù)據(jù)處理員及圖書館員等。美國研究圖書館協(xié)會(huì)也已提出,研究數(shù)據(jù)管理將成為下一代圖書館員的能力之一[9-10]。因此必須培養(yǎng)和造就一支懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍。當(dāng)前的任務(wù)是如何在現(xiàn)有基礎(chǔ)上,拓寬館員知識面,增強(qiáng)業(yè)務(wù)能力,培養(yǎng)出能滿足圖書館數(shù)據(jù)服務(wù)需求的高素質(zhì)的“數(shù)據(jù)館員”,并使之成為學(xué)科信息資源的組織者、傳播者、導(dǎo)航者、教育者,促進(jìn)圖書館事業(yè)更好的發(fā)展。

4基于大數(shù)據(jù)的圖書館的服務(wù)模式研究

大數(shù)據(jù)時(shí)代下的圖書館將從“物理圖書館”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)圖書館”。圖書館服務(wù)不管是服務(wù)的方式、途徑、模式等也都將發(fā)生改變。從服務(wù)的理念上轉(zhuǎn)變?yōu)榛跀?shù)據(jù)的服務(wù)。以“大數(shù)據(jù)”為基礎(chǔ),圍繞從數(shù)據(jù)匯聚到信息加工,知識服務(wù),智慧服務(wù)的四個(gè)層次展開服務(wù),見圖2。下面具體對數(shù)據(jù)驅(qū)動(dòng)下的圖書館的服務(wù)模式進(jìn)行分析研究。

41基于數(shù)據(jù)整合的一站式資源服務(wù)

大數(shù)據(jù)時(shí)代下,數(shù)據(jù)資源是海量的,理論上一個(gè)圖書館可以收集所有的數(shù)據(jù)資源,如各類文獻(xiàn)資源,科研成果,學(xué)術(shù)交流,甚至包括各種訪問,社交等日志信息等各種網(wǎng)絡(luò)資源等。但是,這些數(shù)據(jù)來源于不同的機(jī)構(gòu)知識庫或讀者個(gè)人,圖書館可以充分利用機(jī)構(gòu)優(yōu)勢有組織地通過對各類數(shù)據(jù)源的定位和連接,實(shí)現(xiàn)數(shù)據(jù)的采集、傳輸和匯聚。鼓勵(lì)讀者開放存取各種數(shù)字資源,使用戶不僅是資源的接受者和學(xué)習(xí)者,而且是資源的的發(fā)布者和貢獻(xiàn)者[11]。由于數(shù)據(jù)資源具有數(shù)量巨大、類型多樣、變化快、無序等特點(diǎn),因此很有必要建立數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn),迎合對于飛速增長的異構(gòu)系統(tǒng)進(jìn)行有效整合的需求。提供資源之間的無縫鏈接,提供各種數(shù)據(jù)管理服務(wù),包括存儲(chǔ)備份、元數(shù)據(jù)加工、數(shù)據(jù)發(fā)布,數(shù)據(jù)共享等。在數(shù)據(jù)的洪流中,異構(gòu)、分布和海量的各種數(shù)據(jù)資源得以匯聚及融合,形成中心知識庫,通過預(yù)索引的方式,為用戶提供快速,簡單,易用的資源發(fā)現(xiàn)及獲取服務(wù),建立一站式數(shù)據(jù)資源服務(wù)平臺[8]。

42基于數(shù)據(jù)分析的學(xué)科知識服務(wù)

圖書館作為知識服務(wù)平臺,通過對匯集數(shù)據(jù)的加工整理,數(shù)據(jù)建模,提高數(shù)據(jù)的價(jià)值密度。探索以數(shù)據(jù)為基礎(chǔ)的知識發(fā)現(xiàn)分析,通過基于數(shù)據(jù)的增值服務(wù),面向用戶、滿足用戶的學(xué)科知識需求,開展知識服務(wù)。如以學(xué)科為基礎(chǔ),將不同學(xué)科用戶的檢索瀏覽下載的信息行為數(shù)據(jù)進(jìn)行分類;分析用戶檢索瀏覽下載的文獻(xiàn)(全文、摘要、關(guān)鍵詞)特征,加入時(shí)間緯度,歸納出某個(gè)學(xué)科某一時(shí)期的用戶感興趣的主題;利用數(shù)據(jù)挖掘、數(shù)據(jù)檢驗(yàn)、相關(guān)性分析、回歸分析、聚類分析、社會(huì)網(wǎng)絡(luò)分析等進(jìn)行學(xué)科熱點(diǎn)預(yù)測和交叉學(xué)科分析研究。構(gòu)建基于圖書館流通日志的圖書借閱數(shù)據(jù)倉庫維度模型,構(gòu)建基于OPAC日志點(diǎn)擊流數(shù)據(jù)倉庫,基于大數(shù)據(jù)的關(guān)聯(lián)關(guān)系分析,發(fā)現(xiàn)及展示學(xué)者、合作者、期刊、會(huì)議、文章之間的知識網(wǎng)絡(luò);基于大數(shù)據(jù)的學(xué)科趨勢分析,通過對大數(shù)據(jù)的有序處理來提升圖書館服務(wù)的品質(zhì)。

43基于數(shù)據(jù)應(yīng)用的信息可視化服務(wù)

大數(shù)據(jù)中包含大量重要信息,人們期待進(jìn)行深層次分析,以便更好的從數(shù)據(jù)中發(fā)現(xiàn)知識。信息可視化作為一種關(guān)鍵服務(wù)理念與技術(shù)手段,在處理復(fù)雜異構(gòu)的圖書館大數(shù)據(jù)方面有很大的優(yōu)勢,能為用戶提供了一個(gè)方便易用的知識環(huán)境。如從檢索過程、檢索結(jié)果以及結(jié)果之間關(guān)系的角度實(shí)現(xiàn)主題可視化,到數(shù)據(jù)庫分布可視化、時(shí)間分布可視化和作者合著關(guān)系可視化。也可將信息可視化技術(shù)與科學(xué)計(jì)量學(xué)方法等相結(jié)合,生成具有各種屬性的科學(xué)地圖,表達(dá)學(xué)科、領(lǐng)域、專業(yè)、文獻(xiàn)、著者之間的關(guān)系,解釋知識領(lǐng)域的結(jié)構(gòu)、映射知識領(lǐng)域的發(fā)展趨勢,促進(jìn)信息獲取、使知識結(jié)構(gòu)更加明顯,將數(shù)據(jù)集中看不見的抽象數(shù)據(jù)和數(shù)據(jù)之間的語義關(guān)系以一種可視化的方式呈現(xiàn)在用戶場景中。讓用戶充分發(fā)掘信息資源中潛在的價(jià)值資源,幫助用戶更好地組織、分析與利用信息。信息可視化作為將信息有效組織、分析、揭示的一種新技術(shù),為大數(shù)據(jù)提供了一種新的服務(wù)模式。

44基于數(shù)據(jù)挖掘的智慧服務(wù)

隨著讀者對知識需求的轉(zhuǎn)變,知識服務(wù)正在朝個(gè)性化,智慧化的方向發(fā)展。個(gè)性化服務(wù)是基于讀者對信息使用行為習(xí)慣及對信息的特定需求,是一種在分析預(yù)測用戶個(gè)體信息需求基礎(chǔ)上向用戶主動(dòng)提供其可能需求但又無法獲取的信息資源的服務(wù)方式,是解決海量信息困惑問題的重要方法。智慧服務(wù)是知識服務(wù)的升華。智慧服務(wù)則是建在知識服務(wù)基礎(chǔ)上的的創(chuàng)造性服務(wù)模式,是圖書館知識服務(wù)的核心。圖書館大數(shù)據(jù)存在大量的用戶信息行為產(chǎn)生的數(shù)據(jù),如用戶查詢書目產(chǎn)生的OPAC日志,用戶借還書產(chǎn)生的流通日志數(shù)據(jù),用戶檢索瀏覽下載電子資源產(chǎn)生的日志數(shù)據(jù),用戶訪問產(chǎn)生的流量數(shù)據(jù)及各種社交網(wǎng)絡(luò)等。這些數(shù)據(jù)中除了用于記錄讀者的個(gè)人信息外,還隱藏著許多重要的信息,因此可通過對這些數(shù)據(jù)進(jìn)行挖掘分析,知識發(fā)現(xiàn)、智能代理等技術(shù),描述用戶的行為,準(zhǔn)確定位讀者需求,向讀者提供主動(dòng)式推送服務(wù),滿足其個(gè)性化的智能服務(wù)。

5結(jié)語

數(shù)字信息的爆炸式增長催生出“大數(shù)據(jù)”概念,正席卷整個(gè)IT相關(guān)行業(yè),大數(shù)據(jù)已經(jīng)漸漸的滲入到了圖書情報(bào)工作中,挑戰(zhàn)與機(jī)遇同在。展望未來,大數(shù)據(jù)服務(wù)技術(shù)等熱點(diǎn)將不斷涌現(xiàn),將對圖書館知識服務(wù)的拓展和深化帶來重大影響,未來的工作將是“數(shù)據(jù)驅(qū)動(dòng)”的圖書情報(bào)工作。本文重點(diǎn)探討了在大數(shù)據(jù)時(shí)代下圖書館的建設(shè)策略及基于大數(shù)據(jù)的一站式服務(wù),學(xué)科知識及個(gè)性化智慧服務(wù)等服務(wù)模式。但是圖書館的大數(shù)據(jù)技術(shù)及服務(wù)是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及到數(shù)據(jù)管理的水平,數(shù)據(jù)處理的技術(shù)及數(shù)據(jù)服務(wù)的創(chuàng)新等等,均需要圖書館員的共同努力。

參考文獻(xiàn)

[1]李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2012,(9):8-15.

[2]海量數(shù)據(jù)爆發(fā)大數(shù)據(jù)時(shí)代來臨的五個(gè)轉(zhuǎn)變[EB/OL].http:∥labs.chinamobile.com/news/76217,2012-08-01.

[3]Big data:The next frontier for innovation,competition,and productivity[EB/OL].http∥www.mckinsey.com/Insights/MGI/Research/TechnologyandInnovation/BigdataThenextfrontierforinnovation,2011-05.

[4]Big Data is a Big Deal[EB/OL].http:∥www.whitehouse.gov/blog/2012/03/29/big-data-big-deal,2012-03-29.

[5]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學(xué)出版社,2008.

[6]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].http:∥www.dbta.com/Articles/Editorial/News -Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx,2012-07-21.

[7]王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,(10):1741-1752.

[8]馬建玲,祝忠明,王楠,等.美國高校圖書館參與研究數(shù)據(jù)管理服務(wù)研究[J].圖書情報(bào)工作,2012,(21):77-82.

[9]Geoffrey Little.MANAGING TECHNOLOGY·Managing the Data Deluge[J].The Journal of Academic Librarianship,2012,(5):263-264.

[10]王學(xué)勤,Amy Stout,Howard Silver.建立數(shù)據(jù)驅(qū)動(dòng)的e-Science圖書館服務(wù):機(jī)遇和挑戰(zhàn)[J].圖書情報(bào)工作,2011,(13):80-83.

[11]張曉林,李麟,劉細(xì)文,等.開放獲取學(xué)術(shù)信息資源:逼近“主流化”轉(zhuǎn)折點(diǎn)[J].圖書情報(bào)工作,2012,(9):42-47.

(本文責(zé)任編輯:馬卓)

猜你喜歡
數(shù)據(jù)服務(wù)數(shù)據(jù)處理數(shù)據(jù)挖掘
地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
如何運(yùn)用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
中國商論(2016年34期)2017-01-15 14:24:18
基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
一種基于數(shù)據(jù)服務(wù)超鏈進(jìn)行情景數(shù)據(jù)集成的方法*
巴彦县| 榕江县| 获嘉县| 永吉县| 洛南县| 巫山县| 古交市| 舞阳县| 南开区| 德清县| 瑞丽市| 定边县| 镇原县| 弥勒县| 亳州市| 孙吴县| 竹溪县| 尼玛县| 凤冈县| 日土县| 临泽县| 张家口市| 长顺县| 南昌县| 呼伦贝尔市| 抚松县| 广西| 甘孜县| 邢台市| 德庆县| 永济市| 红河县| 西乌珠穆沁旗| 宣威市| 海兴县| 镶黄旗| 双牌县| 南雄市| 阜宁县| 赤城县| 玛多县|