楊方銘,章 華
(淮安信息職業(yè)技術(shù)學(xué)院圖書館,江蘇 淮安 223003)
大數(shù)據(jù)環(huán)境下圖書館服務(wù)變革探討*
楊方銘,章華
(淮安信息職業(yè)技術(shù)學(xué)院圖書館,江蘇淮安223003)
論述大數(shù)據(jù)的特征,闡述大數(shù)據(jù)對(duì)圖書館服務(wù)、館藏的影響和作用,提出需要在分析和挖掘圖書館相關(guān)大數(shù)據(jù)的基礎(chǔ)上創(chuàng)新圖書館服務(wù),圖書館應(yīng)朝著一體化的個(gè)性化服務(wù)、面向創(chuàng)新的知識(shí)服務(wù)和智慧化服務(wù)的方向發(fā)展。
大數(shù)據(jù);圖書館服務(wù);數(shù)據(jù)挖掘;數(shù)據(jù)分析
從字面上看,大數(shù)據(jù)是一個(gè)表示龐大規(guī)模數(shù)據(jù)的抽象概念。如果僅在數(shù)量上,大數(shù)據(jù)和以前的“海量數(shù)據(jù)”“超大規(guī)模數(shù)據(jù)”等概念之間并無太大區(qū)別。目前,關(guān)于大數(shù)據(jù),學(xué)界尚未形成統(tǒng)一的定義,但是存在一些共識(shí),大數(shù)據(jù)是一個(gè)用來描述海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的動(dòng)態(tài)概念,這些數(shù)據(jù)的容量非常巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進(jìn)行存儲(chǔ)、管理和處理。其中,數(shù)據(jù)量并不是必須達(dá)到TB級(jí)或PB級(jí)才算是大數(shù)據(jù),它的數(shù)量是隨著技術(shù)的進(jìn)步而改變,過去或目前的大數(shù)據(jù),在未來可能不再是大數(shù)據(jù)。它的理念是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對(duì)象的多維度數(shù)據(jù),再對(duì)海量數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對(duì)象的潛在行為模式或規(guī)律[1]。
圖書館大數(shù)據(jù)環(huán)境具有 “4V+1C”特征:(1)Variety。數(shù)據(jù)種類多,包括結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)等數(shù)據(jù)類型,具有較強(qiáng)的異構(gòu)性。(2)Volume。圖書館利用監(jiān)控、服務(wù)終端采集讀者行為數(shù)據(jù)和系統(tǒng)運(yùn)營數(shù)據(jù),使其圖書館數(shù)據(jù)日益龐大。(3)Velocity。圖書館采集到的大部分?jǐn)?shù)據(jù)均為用戶行為和應(yīng)用服務(wù)等方面的數(shù)據(jù),它的分析處理時(shí)效性很強(qiáng)。(4)Vitality。圖書館依據(jù)用戶需求和服務(wù)實(shí)際情況對(duì)大數(shù)據(jù)進(jìn)行處理和分析,其需要很強(qiáng)的時(shí)間和空間適用性。(5)Complexity。圖書館需要采用高效算法對(duì)異構(gòu)數(shù)據(jù)進(jìn)行處理分析,其難度很大[2]。
2.1館藏收集范圍擴(kuò)大與知識(shí)挖掘
隨著移動(dòng)服務(wù)的普及和社交媒體的流行,圖書館收藏的數(shù)據(jù)源開始擴(kuò)展到視頻、音頻、數(shù)據(jù)流等非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)如此復(fù)雜的數(shù)據(jù),圖書館需要利用大數(shù)據(jù)技術(shù)和理念處理好以下幾個(gè)問題:(1)大數(shù)據(jù)的收集。圖書館需要收集的大數(shù)據(jù)主要包含自身網(wǎng)絡(luò)應(yīng)用子系統(tǒng)產(chǎn)生的數(shù)據(jù)和外部Internet產(chǎn)生的數(shù)據(jù),收集范圍是圖書館需要采集有價(jià)值的數(shù)據(jù)與可以采集到數(shù)據(jù)的相互交融的數(shù)據(jù)。(2)大數(shù)據(jù)由大變小,即如何處理和清洗大數(shù)據(jù)。圖書館要想利用大數(shù)據(jù),就必須掌握大數(shù)據(jù)處理流程和方法,對(duì)大數(shù)據(jù)進(jìn)行抽樣、篩選、壓縮、索引、提取元數(shù)據(jù)等操作,把海量數(shù)據(jù)變小。然后,采用主題分析,核心概念提取,選用上位詞、普選利用下位詞、縮小數(shù)據(jù)范圍等方法對(duì)大數(shù)據(jù)進(jìn)行分析和挖掘。(3)怎么對(duì)大數(shù)據(jù)進(jìn)行價(jià)值提煉。隨著圖書館越來越重視個(gè)性化服務(wù),圖書館系統(tǒng)與網(wǎng)絡(luò)日志、監(jiān)控與服務(wù)視頻、音頻、圖片、網(wǎng)絡(luò)行為及增值服務(wù)等非結(jié)構(gòu)化數(shù)據(jù)量將超結(jié)構(gòu)化數(shù)據(jù)量。因此,圖書館需要對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化解讀和梳理,利用群體智慧提煉和發(fā)酵數(shù)據(jù)的價(jià)值。
2.2以用戶為中心的服務(wù)創(chuàng)新
在大數(shù)據(jù)環(huán)境下,圖書館館藏?cái)?shù)量的激增、非機(jī)構(gòu)數(shù)據(jù)占主體、數(shù)據(jù)種類繁多等特征,使圖書館不能再利用傳統(tǒng)的信息搜集、組織、分析、傳遞與提供利用的服務(wù)模式以滿足用戶的信息需求,而是要在搜集、組織、分析、挖掘數(shù)據(jù)的基礎(chǔ)上,提煉知識(shí),關(guān)注知識(shí)服務(wù)的全過程,利用數(shù)據(jù)了解服務(wù)中發(fā)生了什么,分析和預(yù)測(cè)科研創(chuàng)新合作過程中、解決用戶問題過程中發(fā)生了什么,以便在關(guān)注用戶的結(jié)構(gòu)化信息需求時(shí),創(chuàng)新服務(wù)模式,通過對(duì)非結(jié)構(gòu)化、半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)的分析來滿足用戶急劇擴(kuò)張的知識(shí)需求。
其具體措施是:(1)加強(qiáng)用戶研究與交換數(shù)據(jù)的利用,對(duì)用戶數(shù)據(jù)進(jìn)行深度分析并建立用戶模型,開展精準(zhǔn)服務(wù)、知識(shí)關(guān)聯(lián)服務(wù),提供預(yù)測(cè)性信息服務(wù)產(chǎn)品;(2)將現(xiàn)有成熟的信息采集工作模式與先進(jìn)的數(shù)學(xué)模型結(jié)合,實(shí)現(xiàn)工作效率的提升;(3)關(guān)注和融入社交網(wǎng)站,擴(kuò)大圖書館的受眾面,實(shí)時(shí)了解讀者的需求,提升圖書館在讀者個(gè)人文化生活中的作用和影響[3];(4)圍繞用戶的問題、科研創(chuàng)新提供服務(wù)。
3.1圖書館服務(wù)走近用戶
大數(shù)據(jù)對(duì)圖書館工作的沖擊及其理念對(duì)圖書館服務(wù)的影響,迫使圖書館不能只重視館藏?cái)?shù)字化及其數(shù)據(jù)存儲(chǔ)量,而是要強(qiáng)化圖書館對(duì)大數(shù)據(jù)的分析和挖掘的能力。讓館藏建設(shè)走向知識(shí)組織,把無序的網(wǎng)絡(luò)空間變成有序的數(shù)字知識(shí)服務(wù)系統(tǒng),保證用戶高效、系統(tǒng)、可靠地獲取所需要的信息[4]。圖書館還要加強(qiáng)隨時(shí)隨地為用戶提供服務(wù)的能力,滿足他們對(duì)知識(shí)服務(wù)的需求,為用戶科學(xué)創(chuàng)造提供必需的情報(bào)服務(wù),讓用戶在科研過程中體驗(yàn)到圖書館細(xì)致入微的科研服務(wù),真正體現(xiàn)以用戶為主的服務(wù)思想。在服務(wù)方式上,圖書館要改變過去只注重吸引大量用戶到圖書館而不注重服務(wù)效果的服務(wù)方式,切實(shí)做到把圖書館服務(wù)延伸到用戶的第一線,用大數(shù)據(jù)理念預(yù)測(cè)用戶需求,提供精確服務(wù),真正讓圖書館服務(wù)走近用戶。
3.2一體化的個(gè)性化服務(wù)體系
隨著大數(shù)據(jù)技術(shù)與理念應(yīng)用到各行各業(yè),圖書館也要轉(zhuǎn)變信息資源建設(shè)觀念與信息服務(wù)理念,改變信息資源的選擇、組織與存儲(chǔ)方式,從海量數(shù)據(jù)中窺探用戶行為,并與已有業(yè)務(wù)流程、服務(wù)模式融合,創(chuàng)造新的方法讓圖書館服務(wù)更具價(jià)值。圖書館長期為用戶提供信息服務(wù),積累了大量用戶資料,在此基礎(chǔ)再研究用戶的網(wǎng)絡(luò)行為、學(xué)習(xí)行為、個(gè)人背景等數(shù)據(jù)資料,利用Hadoop、NoSQL等大數(shù)據(jù)處理技術(shù),挖掘用戶的知識(shí)背景、興趣、學(xué)習(xí)風(fēng)格、情感、社會(huì)關(guān)系等信息,利用語義網(wǎng)、信息檢索、個(gè)性化推薦等技術(shù),與用戶行為模式相似的其他用戶歷史數(shù)據(jù)進(jìn)行對(duì)照,并深層次分析、組織數(shù)字資源,讓圖書館系統(tǒng)能夠針對(duì)用戶的搜索信息行為,提供個(gè)性化語義搜索服務(wù);針對(duì)用戶的瀏覽行為,提供個(gè)性化語義導(dǎo)航服務(wù);針對(duì)用戶的提問行為,提供個(gè)性化的問答服務(wù);針對(duì)用戶的自主學(xué)習(xí)行為,提供個(gè)性化定制服務(wù);針對(duì)用戶需求,進(jìn)行語義分析、語義擴(kuò)展等步驟來明確用戶真實(shí)意圖,根據(jù)用戶本體,利用個(gè)性化推薦引擎為用戶推薦符合需求的知識(shí)內(nèi)容。這樣,最終建立以數(shù)據(jù)為中心,以用戶、服務(wù)、信息、技術(shù)和應(yīng)用為一體化的個(gè)性化服務(wù)體系。
3.3面向創(chuàng)新的知識(shí)服務(wù)
在大數(shù)據(jù)環(huán)境下,圖書館的服務(wù)策略建立在對(duì)大規(guī)模復(fù)雜數(shù)據(jù)搜集、組織、整理、分析和挖掘的基礎(chǔ)之上,因而圖書館服務(wù)項(xiàng)目更具有針對(duì)性和操作性[5]。圖書館經(jīng)過對(duì)海量數(shù)據(jù)的統(tǒng)計(jì)性搜索、比較、聚類、分類等分析歸納,能夠完成數(shù)據(jù)價(jià)值的挖掘和讀者需求的預(yù)測(cè),再利用大數(shù)據(jù)技術(shù)對(duì)多個(gè)信息平臺(tái)的數(shù)據(jù)進(jìn)行過濾整合,實(shí)現(xiàn)依據(jù)讀者需求的變化而提供差別化的知識(shí)服務(wù),滿足用戶智慧集群和群體創(chuàng)造的需要,滿足多用戶合作學(xué)習(xí)、合作科研、多元知識(shí)交互分析、利用與交流的需要,進(jìn)而把知識(shí)服務(wù)嵌入到用戶學(xué)習(xí)、科技創(chuàng)新的過程中,形成面向用戶科研創(chuàng)新的知識(shí)服務(wù)模式。
其模式以解決用戶問題為核心,深入解決問題的各個(gè)環(huán)節(jié),擁有解決問題的探索、構(gòu)建和測(cè)試等服務(wù)機(jī)制。此服務(wù)建立用戶數(shù)據(jù)庫,跟蹤和整理大量文獻(xiàn)(館內(nèi)外信息資源),對(duì)比、篩選與組織相關(guān)內(nèi)容,鑒別、分析可能的結(jié)構(gòu)和趨勢(shì)來構(gòu)建宏知識(shí),利用大數(shù)據(jù)技術(shù)進(jìn)一步挖掘知識(shí)結(jié)構(gòu)中的沖突、變異和可能性,分析知識(shí)內(nèi)容的發(fā)展趨勢(shì)與路徑,支持對(duì)科技創(chuàng)新、未來演變方向與可能性的挖掘與預(yù)警,從而開拓和激發(fā)創(chuàng)新思路與路徑。通過對(duì)多樣化數(shù)據(jù)和信息的關(guān)聯(lián)與分析,來支持具體領(lǐng)域的具體問題及其解決方法的分析,再根據(jù)需求的動(dòng)態(tài)變化不斷調(diào)適,與用戶共同探索問題的解決方案[6]。
3.4智慧化服務(wù)
大數(shù)據(jù)是數(shù)據(jù)世界的智慧基因,分析和應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵[7]。傳統(tǒng)分析數(shù)據(jù)基本上都是抽取樣本,事先確定收集什么樣的數(shù)據(jù),然后尋找“已知的未知(Known unknows)”,也就是證實(shí)某一結(jié)論正確。而大數(shù)據(jù)分析則是以全部數(shù)據(jù)為對(duì)象,發(fā)現(xiàn)未知的未知,也就是找到一些未曾想到的結(jié)果。大數(shù)據(jù)這種發(fā)現(xiàn)未知的未知功能為實(shí)現(xiàn)圖書館服務(wù)智慧化開辟了途徑。利用大數(shù)據(jù)技術(shù)能夠了解用戶信息行為、意愿、信息需求、知識(shí)應(yīng)用能力及服務(wù)需求等,還能夠預(yù)測(cè)用戶科研創(chuàng)新將要發(fā)生什么,從而提供智慧服務(wù)。
3.5數(shù)據(jù)分析與數(shù)據(jù)挖掘是圖書館提供服務(wù)的基礎(chǔ)
在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)資源已成為關(guān)系圖書館服務(wù)質(zhì)量和館藏資源結(jié)構(gòu)科學(xué)性的關(guān)鍵因素。人們將拋棄隨機(jī)采樣的調(diào)查方式,轉(zhuǎn)向分析大量數(shù)據(jù);人們不再瘋狂追求分析數(shù)據(jù)的精確度,轉(zhuǎn)向注重對(duì)事物發(fā)展趨勢(shì)的預(yù)測(cè);人們不再重視事情的前因后果,轉(zhuǎn)向關(guān)注挖掘事物之間的關(guān)聯(lián)性。因此,圖書館數(shù)據(jù)資源的質(zhì)量、管理和分析,將成為圖書館服務(wù)質(zhì)量提升的基礎(chǔ),成為準(zhǔn)確分析用戶需求、制定科學(xué)的管理與服務(wù)策略、服務(wù)質(zhì)量提升的關(guān)鍵。
圖書館通過對(duì)互聯(lián)網(wǎng)上的知識(shí)點(diǎn) (詞匯或?qū)S忻~)進(jìn)行搜索,并對(duì)知識(shí)點(diǎn)進(jìn)行關(guān)聯(lián)、描述,建立知識(shí)點(diǎn)的知識(shí)數(shù)據(jù)庫,再利用一定算法、鏈接技術(shù)和匹配技術(shù),能夠?qū)崿F(xiàn)基于知識(shí)的知識(shí)推送服務(wù),即網(wǎng)絡(luò)在線閱讀中提供動(dòng)態(tài)的專有名詞解釋或提示服務(wù);通過分析圖書館與用戶之間、不同服務(wù)數(shù)據(jù)之間、用戶與服務(wù)數(shù)據(jù)之間的關(guān)系數(shù)據(jù),能預(yù)測(cè)用戶需求,提供針對(duì)性服務(wù)和個(gè)性化定制服務(wù),還能合理調(diào)配館員,充分調(diào)動(dòng)他們的工作積極性;通過對(duì)用戶借閱信息、下載使用數(shù)字資源行為、瀏覽網(wǎng)站行為、檢索信息行為等記錄信息進(jìn)行分析,并與用戶行為模式相似的其他用戶歷史數(shù)據(jù)進(jìn)行對(duì)照,能提供基于用戶隱性知識(shí)的推送服務(wù);通過對(duì)圖書借閱率、流通量、訪問數(shù)字資源類型及時(shí)間、學(xué)習(xí)行為、利用資源模式等記錄進(jìn)行分析,能針對(duì)性地采購用戶需要的信息資源;通過對(duì)讀者閱讀習(xí)慣、學(xué)習(xí)方式、獲取資源方式等數(shù)據(jù)進(jìn)行分析,能科學(xué)合理地完善圖書館工作流程與服務(wù)模式。因此,大數(shù)據(jù)時(shí)代,圖書館需要對(duì)用戶數(shù)據(jù)進(jìn)行分析、處理和預(yù)測(cè),以便提供更好的服務(wù)。
在大數(shù)據(jù)時(shí)代,圖書館要真正將服務(wù)嵌入用戶的學(xué)習(xí)、科研、教學(xué)、科技創(chuàng)新、管理決策等活動(dòng)過程中,提供以知識(shí)、信息、智力、工具的應(yīng)用為特征的知識(shí)服務(wù),則需要搜集、分析、挖掘各種類型、各種結(jié)構(gòu)的數(shù)據(jù)資源和用戶的行為數(shù)據(jù)資源。只有這樣,圖書館的服務(wù)范圍和領(lǐng)域才會(huì)得到更大的擴(kuò)展和延伸,并且數(shù)據(jù)分析服務(wù)、數(shù)據(jù)挖掘服務(wù)會(huì)成為圖書館服務(wù)體系創(chuàng)新的制高點(diǎn)[8]。
[1]李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書館論壇,2014(2):78-83.
[2]陳臣.大數(shù)據(jù)時(shí)代一種基于用戶行為分析的圖書館個(gè)性化智慧服務(wù)模式[J].圖書館理論與實(shí)踐,2015(2):96-99.
[3]吳敏慧.大數(shù)據(jù)與圖書館信息服務(wù)新構(gòu)想[J].圖書館理論與實(shí)踐,2015(2):14-16.
[4]馮國權(quán).互聯(lián)網(wǎng)思維下圖書館服務(wù)變革[J].圖書情報(bào)工作, 2015(2):25-30.
[5]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析[J].圖書與情報(bào), 2012(4):120-122.
[6]張曉林.研究圖書館2020:嵌入式協(xié)作化知識(shí)實(shí)驗(yàn)室?[J].中國圖書館學(xué)報(bào),2012(1):11-20.
[7]韓煒.大數(shù)據(jù)時(shí)代公共圖書館消除數(shù)據(jù)不平等的路徑選擇[J].圖書館論壇,2014(3):14-21.
[8]程蓮娟.美國推進(jìn)大數(shù)據(jù)的應(yīng)用實(shí)踐及其有益借鑒[J].情報(bào)資料工作,2013(5):110-112.
(編發(fā):章忠平)
A Study of the Reform of Library Service Based on Big Data
YANG Fang-ming,ZHANG Hua
(Library of Huai’an College of Information Technology,Huai’an 223003,China)
This paper discusses the characteristic of big data,elaborates the influence and function of big data on library services and collections,points out innovations of library service which is based on the analysis and mining of big data related to the library.The integration of personalized service,the innovation of knowledge service and the intelligent service are the direction of library development.
big data;library service;data mining;data analysis
G250.73
G250.73
A
2095-5197(2016)01-0048-03
* 本文系2014 年中國職業(yè)技術(shù)教育學(xué)會(huì)科研規(guī)劃項(xiàng)目:“高職院校互動(dòng)學(xué)習(xí)平臺(tái)的構(gòu)建與實(shí)踐研究”(編號(hào):201410Y02)的研究成果之一。
楊方銘(1981-),男,館員,碩士,研究方向:信息服務(wù)與信息咨詢;章華(1963-),女,館員,大專,研究方向:圖書館服務(wù)。
2015-11-10