(蘭州商學(xué)院信息工程學(xué)院,蘭州730020)
大數(shù)據(jù)時代圖書館數(shù)據(jù)可用性:價值、挑戰(zhàn)和保障
●馬曉亭(蘭州商學(xué)院信息工程學(xué)院,蘭州730020)
大數(shù)據(jù)時代;圖書館;可用性
大數(shù)據(jù)時代已經(jīng)來臨,大數(shù)據(jù)給圖書館帶來的不僅僅是機遇,也帶來了挑戰(zhàn)。文章就大數(shù)據(jù)時代圖書館存在的數(shù)據(jù)浪費、數(shù)據(jù)污染和數(shù)據(jù)利用難等問題,以及大數(shù)據(jù)時代給讀者行為、讀者洞察力和圖書館服務(wù)策略帶來的影響進行了研究,同時,討論了大數(shù)據(jù)時代圖書館如何更好地管理和利用大數(shù)據(jù)。
大數(shù)據(jù)環(huán)境下,圖書館數(shù)據(jù)具有數(shù)據(jù)體量巨大、類型繁多、價值密度低和處理速度快等特點。根據(jù)維基百科對大數(shù)據(jù)定義:“大數(shù)據(jù)是由于數(shù)據(jù)規(guī)模、復(fù)雜性、實時而導(dǎo)致的,使之無法在一定時間內(nèi)用常規(guī)軟件工具對其進行獲取、存儲、搜索、分享、分析、可視化的數(shù)據(jù)集合?!庇纱丝梢?,大數(shù)據(jù)環(huán)境下圖書館數(shù)據(jù)的價值密度、價值數(shù)據(jù)的可提取性、已提取價值數(shù)據(jù)的可用性,成為圖書館數(shù)據(jù)整合、分析、探索和挖掘的重要內(nèi)容。同時,也是圖書館有效變革用戶服務(wù)模式和服務(wù)內(nèi)容,不斷提高新業(yè)務(wù)價值、服務(wù)競爭力、讀者忠誠度和擴展讀者群數(shù)量的關(guān)鍵。[1]
(1)數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)異構(gòu)和低價值密度性。大數(shù)據(jù)時代,圖書館數(shù)據(jù)的結(jié)構(gòu)類型從傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為主,轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三種數(shù)據(jù)的融合。數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性伴隨數(shù)據(jù)量的增長而不斷增加,對圖書館數(shù)據(jù)中心數(shù)據(jù)處理的模式和效率提出了較高要求。同時,數(shù)據(jù)源由單一性向多樣性轉(zhuǎn)變。數(shù)據(jù)產(chǎn)生、采集、存儲和處理的方式,與圖書館對數(shù)據(jù)的復(fù)雜度、價值性、處理效率和時限性需求相適應(yīng),具有較強的靈活性、多樣性和易變性。此外,大數(shù)據(jù)時代圖書館雖然擁有龐大的數(shù)據(jù)量,但整體上數(shù)據(jù)具有較低的價值密度,導(dǎo)致圖書館數(shù)據(jù)存儲、處理和挖掘成本較高,對圖書館大數(shù)據(jù)環(huán)境有用數(shù)據(jù)的挖掘、過濾和價值發(fā)現(xiàn)提出了較高要求。
(2)圖書館大數(shù)據(jù)環(huán)境數(shù)據(jù)清洗難度大。大數(shù)據(jù)時代,圖書館數(shù)據(jù)呈現(xiàn)海量激增、垃圾數(shù)據(jù)多、污染重和利用難的特點。從數(shù)據(jù)價值和可用性角度分析,這種海量激增的數(shù)據(jù),不一定代表圖書館有用信息量或者價值數(shù)據(jù)的增加,有時候則意味著信息垃圾的泛濫。
圖書館通常會從多個數(shù)據(jù)源采集數(shù)據(jù),多個數(shù)據(jù)源所采集數(shù)據(jù)的價值性、可用性、可管性和價值密度可能會具有較大差異。如果對海量數(shù)據(jù)不進行價值挖掘和數(shù)據(jù)清洗就直接使用,則會導(dǎo)致數(shù)據(jù)分析與處理難度增大、可用性降低和使用成本激增。此外,在數(shù)據(jù)的信息清洗和價值過濾過程中,過濾標(biāo)準(zhǔn)的價值顆粒度大小也是決定過濾有效性的重要因素。如果價值過濾顆粒度過小,則有可能會將有價值信息過濾掉,造成價值數(shù)據(jù)浪費。如果過濾顆粒度過大,則達不到數(shù)據(jù)的信息清洗和價值過濾需求,無法按照圖書館用戶服務(wù)需求提供有價值數(shù)據(jù)。第三,圖書館大數(shù)據(jù)環(huán)境數(shù)據(jù)價值密度低的實際特點,也對圖書館數(shù)據(jù)中心計算性能、數(shù)據(jù)庫存儲與管理能力和數(shù)據(jù)處理方法提出了更高要求。[2]
(3)讀者保密數(shù)據(jù)和個人閱讀隱私容易泄露。大數(shù)據(jù)時代,原始數(shù)據(jù)采集的數(shù)量、種類、速度和處理能力,是圖書館更好地利用數(shù)據(jù)價值提高服務(wù)能力和市場競爭力,不斷增強客戶群忠誠度和優(yōu)化圖書館信息管理的關(guān)鍵。圖書館必須極大擴展數(shù)據(jù)來源,并對所過濾的價值數(shù)據(jù)進行科學(xué)處理和分析,才能通過科學(xué)決策來提升讀者閱讀體驗愉悅感。[3]讀者數(shù)據(jù)主要分為兩類:一種是讀者閱讀活動所涉及的服務(wù)數(shù)據(jù)信息、讀者在微博或博客上發(fā)表的文章、讀者向圖書館發(fā)送的閱讀服務(wù)請求等公開信息。第二種是讀者閱讀活動的行為數(shù)據(jù)。比如,讀者開展移動閱讀等增值服務(wù)的內(nèi)容、閱讀活動的周期規(guī)律與行為分類、閱讀需求評估數(shù)據(jù)等。圖書館可通過對讀者閱讀活動行為數(shù)據(jù)的分析,而獲取讀者閱讀活動的內(nèi)容、個人愛好、未來需求,以及與其他讀者、微博或博客服務(wù)器交換的數(shù)據(jù)信息,這些數(shù)據(jù)可能會導(dǎo)致個人隱私和保密信息泄密。因此,圖書館在加強讀者群體閱讀行為和內(nèi)容分析的同時,應(yīng)努力消除對讀者個人閱讀行為數(shù)據(jù)分析的針對性,是保護讀者保密數(shù)據(jù)與閱讀隱私的關(guān)鍵。
(4)增強圖書館不同數(shù)據(jù)之間的價值相關(guān)性。首先,從圖書館的運營與服務(wù)職能出發(fā),大數(shù)據(jù)的價值應(yīng)通過對海量數(shù)據(jù)的采集、處理和分析,科學(xué)、準(zhǔn)確地預(yù)測圖書館用戶服務(wù)的需求和所面臨的安全威脅、服務(wù)瓶頸,并對云數(shù)據(jù)中心的故障進行分析、判定與定位。同時,可精準(zhǔn)地對圖書館營銷服務(wù)與業(yè)務(wù)進行分析,并制定安全、高效的管理與運營策略來提高圖書館的系統(tǒng)運營效率和服務(wù)保障性能。其次,圖書館大數(shù)據(jù)的另一個價值體現(xiàn),是通過海量數(shù)據(jù)的開放和聚合,大幅度提高圖書館海量無關(guān)數(shù)據(jù)的表面相關(guān)性,進一步增強大數(shù)據(jù)價值生態(tài)圈數(shù)據(jù)的整體價值。第三,圖書館應(yīng)通過對海量無關(guān)數(shù)據(jù)的進一步處理、分析和判斷,將數(shù)據(jù)隱藏價值和不同數(shù)據(jù)之間的相關(guān)信息價值進行再挖掘,不斷提高大數(shù)據(jù)平臺的數(shù)據(jù)價值增益。
(5)對圖書館大數(shù)據(jù)進行準(zhǔn)確的價值定位。隨著大數(shù)據(jù)時代圖書館數(shù)據(jù)量的飛速擴展,讀者服務(wù)對圖書館海量數(shù)據(jù)采集、存儲、處理和分析的能力提出了較高要求。然而,受大數(shù)據(jù)系統(tǒng)平臺建設(shè)資金與設(shè)備使用、更新周期等因素影響,圖書館數(shù)據(jù)中心系統(tǒng)的計算、存儲、網(wǎng)絡(luò)和管理性能增長的速度,遠遠低于大數(shù)據(jù)處理過程對系統(tǒng)性能需求的增長量。因此,在加強圖書館云數(shù)據(jù)中心系統(tǒng)資源調(diào)度、管理與分配的同時,應(yīng)重點加強對關(guān)系圖書館安全管理與高效運營、圖書館管理系統(tǒng)與用戶服務(wù)系統(tǒng)的優(yōu)化、讀者個性化閱讀服務(wù)保障、用戶服務(wù)標(biāo)準(zhǔn)未來發(fā)展與內(nèi)容變革等重要數(shù)據(jù)的采集、處理與分析。
首先,應(yīng)通過對數(shù)據(jù)驅(qū)動流程的科學(xué)管理、詳細劃分和優(yōu)化,明確影響圖書館管理與運營流程科學(xué)性、用戶服務(wù)系統(tǒng)整體運營性能、服務(wù)內(nèi)容的有效性、用戶服務(wù)效率與質(zhì)量的評估指標(biāo),以及不同評估指標(biāo)對評估結(jié)果的影響因子比例。其次,應(yīng)加強對讀者群閱讀行為數(shù)據(jù)的分析,明確用戶閱讀需求和閱讀習(xí)慣,為讀者提供高效、經(jīng)濟的個性化推送式服務(wù)。第三,利用大數(shù)據(jù)與云計算技術(shù)對已采集的數(shù)據(jù)進行科學(xué)分析,得出關(guān)系圖書館運營、服務(wù)市場動態(tài)、讀者群忠誠度評估數(shù)據(jù),以及分析圖書館運營、管理過程所面臨的安全威脅,制定出準(zhǔn)確、細致的服務(wù)系統(tǒng)管理與用戶服務(wù)策略。
(1)圖書館大數(shù)據(jù)應(yīng)用的價值定位。圖書館大數(shù)據(jù)具有生產(chǎn)要素性、數(shù)據(jù)恒溫性、價值潛在性三個主要屬性。數(shù)據(jù)已成為關(guān)系圖書館個性化服務(wù)產(chǎn)品生產(chǎn)、服務(wù)供應(yīng)與推送、服務(wù)風(fēng)險預(yù)測與規(guī)避、服務(wù)融合與變革的重要因素。同時,如何高效、合理地清洗數(shù)據(jù),發(fā)現(xiàn)、挖掘數(shù)據(jù)的潛在價值,已成為圖書館大數(shù)據(jù)價值準(zhǔn)確發(fā)現(xiàn)的前提。此外,數(shù)據(jù)結(jié)構(gòu)復(fù)雜化和非標(biāo)準(zhǔn)化是圖書館數(shù)據(jù)環(huán)境發(fā)展的一個大趨勢,如何有效整合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)化數(shù)據(jù)、單渠道與跨渠道數(shù)據(jù),是增強圖書館數(shù)據(jù)開放性、可用性和準(zhǔn)確價值定位的前提。
(2)實現(xiàn)圖書館大數(shù)據(jù)平臺價值數(shù)據(jù)的全面融合。圖書館必須加強與第三方增值服務(wù)商的數(shù)據(jù)共享,保證自身數(shù)據(jù)與其它數(shù)據(jù)源數(shù)據(jù)的有效融合,并不斷增強數(shù)據(jù)對服務(wù)的需求分析和服務(wù)質(zhì)量判定,才能實現(xiàn)圖書館大數(shù)據(jù)的全面融合,才能更有效地發(fā)現(xiàn)與挖掘大數(shù)據(jù)的價值。
圖書館數(shù)據(jù)源的廣泛性和可共享特性,是數(shù)據(jù)價值有效性和高可用性的保障。首先,大數(shù)據(jù)環(huán)境下,圖書館將逐步改變傳統(tǒng)IT環(huán)境下單一為用戶服務(wù)的模式。通信運營商、第三方增值服務(wù)商和圖書館共同為用戶提供大數(shù)據(jù)增值服務(wù),成為大數(shù)據(jù)時代圖書館用戶服務(wù)模式發(fā)展的主要趨勢。圖書館會通過與通信運營商、第三方增值服務(wù)商大數(shù)據(jù)平臺的融合與共享,在大數(shù)據(jù)用戶服務(wù)和市場競爭中占領(lǐng)制高點,為讀者提供滿意、持久和個性化的服務(wù)。其次,圖書館應(yīng)加強大數(shù)據(jù)與讀者服務(wù)的融合。管理員應(yīng)根據(jù)圖書館大數(shù)據(jù)平臺數(shù)據(jù)的類型、內(nèi)容和價值特點,與圖書館用戶服務(wù)業(yè)務(wù)需求、市場特點相融合,確保圖書館的大數(shù)據(jù)采集、存儲、處理、分析和決策平臺接口標(biāo)準(zhǔn)化,不斷提高大數(shù)據(jù)價值發(fā)現(xiàn)、挖掘和使用過程的靈活性和可控性。第三,必須科學(xué)、高效、準(zhǔn)確、快速地劃分主數(shù)據(jù)。按照圖書館數(shù)據(jù)的重要性和信息流向劃分,圖書館數(shù)據(jù)可分為讀者服務(wù)交互數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)和主數(shù)據(jù)三種類型。主數(shù)據(jù)主要關(guān)系圖書館核心系統(tǒng)管理、運營戰(zhàn)略規(guī)劃、賬戶與重要信息保密等,具有多系統(tǒng)共享、數(shù)據(jù)價值密度大和可處理性要求高的特點。因此,應(yīng)提高主數(shù)據(jù)的價值性、可控性、可用性和經(jīng)濟性,才能確保讀者服務(wù)安全、高效、易控和可擴展。
(3)強化云計算對圖書館大數(shù)據(jù)平臺的服務(wù)支撐與保障作用。圖書館大數(shù)據(jù)普遍具有的海量、數(shù)據(jù)結(jié)構(gòu)多樣性、價值密度低和處理實時性特點,導(dǎo)致圖書館大數(shù)據(jù)在存、管、用三個方面矛盾突出。因此,如何有效利用云計算技術(shù)在海量數(shù)據(jù)存儲、管理、計算和網(wǎng)絡(luò)傳輸中的技術(shù)優(yōu)勢,提高圖書館業(yè)務(wù)分析、管理和決策的科學(xué)性與有效性,是大數(shù)據(jù)時代云計算技術(shù)在圖書館應(yīng)用需要重點關(guān)注的問題。
云資源多用戶共享和動態(tài)分配是圖書館云數(shù)據(jù)中心的主要特點。首先,圖書館應(yīng)利用云計算技術(shù)分布式的計算方式,提高數(shù)據(jù)在挖掘、存儲、處理、分析、決策過程中的效率和精確度,為圖書館管理、運營和未來發(fā)展提供決策數(shù)據(jù)支持。其次,圖書館應(yīng)利用云計算技術(shù)較高的服務(wù)可用性與服務(wù)快速交付特點,在大幅度降低大數(shù)據(jù)管理復(fù)雜度的同時,不斷提高大數(shù)據(jù)資源的利用效率、價值可用性和數(shù)據(jù)清晰度。第三,圖書館必須建設(shè)具有較強安全性、可用性、可控性和經(jīng)濟性的云計算平臺,為圖書館大數(shù)據(jù)的應(yīng)用提供可靠的實現(xiàn)環(huán)境。同時,應(yīng)不斷增強圖書館大數(shù)據(jù)環(huán)境的智能化管理水平,保證管理員可憑借圖書館業(yè)務(wù)數(shù)據(jù)的完整視圖,而獲得敏銳的圖書館用戶服務(wù)未來發(fā)展洞察力,將數(shù)據(jù)信息價值有效轉(zhuǎn)化為讀者服務(wù)保障力。
(4)大數(shù)據(jù)應(yīng)重點關(guān)注讀者的個性化閱讀需求。根據(jù)讀者閱讀需求,為讀者提供具有較高精細度和精確度的個性化閱讀服務(wù),是圖書館運營方式轉(zhuǎn)變和服務(wù)模式變革的一個重要目標(biāo)。大數(shù)據(jù)時代,圖書館數(shù)據(jù)獲取具有極大的分散性和不確定性,如何準(zhǔn)確劃分用戶數(shù)據(jù)類別和信息顆粒度大小,是準(zhǔn)確掌握服務(wù)系統(tǒng)服務(wù)能力、讀者閱讀活動需求、圖書館與讀者信息交互反饋效率和讀者忠誠度,提高用戶個性化閱讀準(zhǔn)確度和滿意度的關(guān)鍵。
首先,圖書館在大數(shù)據(jù)平臺建設(shè)中應(yīng)避免數(shù)據(jù)孤島現(xiàn)象發(fā)生,可通過與其他服務(wù)商數(shù)據(jù)共享而提高大數(shù)據(jù)判定與決策的準(zhǔn)確性。依據(jù)大數(shù)據(jù)分析所獲得的讀者閱讀需求信息,將所提供的服務(wù)產(chǎn)品與讀者需求緊密結(jié)合起來,并根據(jù)用戶需求變化對產(chǎn)品內(nèi)容進行動態(tài)調(diào)整。其次,圖書館應(yīng)通過用戶行為監(jiān)測、服務(wù)商之間數(shù)據(jù)共享、問卷調(diào)查、論壇微博等方法,不斷改進用戶數(shù)據(jù)搜索和信息分析的方式,提高服務(wù)對讀者群覆蓋的廣度和深度,確保圖書館個性化服務(wù)的判定、決策和推送過程的智能、即時。第三,在對讀者閱讀行為數(shù)據(jù)和保密信息采集、分析時,加強對讀者閱讀隱私和重要數(shù)據(jù)的保護,是提高用戶對圖書館信任度的關(guān)鍵。此外,在加強讀者隱私數(shù)據(jù)訪問權(quán)限和內(nèi)容管理的同時,圖書館還應(yīng)重點關(guān)注服務(wù)系統(tǒng)的安全和重要數(shù)據(jù)的加密工作,防止隱私數(shù)據(jù)被竊取、截獲和篡改。
(5)利用大數(shù)據(jù)技術(shù)預(yù)測和降低圖書館運營風(fēng)險。隨著圖書館讀者閱讀需求的發(fā)展和服務(wù)模式變革,數(shù)據(jù)中心IT基礎(chǔ)設(shè)施的運營、管理復(fù)雜度快速增長,讀者閱讀活動和圖書館運營服務(wù)面臨著較大的風(fēng)險。如何有效利用大數(shù)據(jù)技術(shù),對讀者和圖書館采用模式識別、回歸分析、文本分析、社會數(shù)據(jù)聚集和情感分析等方法,開展全方位的閱讀與運營活動風(fēng)險監(jiān)控、預(yù)測和防范策略制定,是提高圖書館運營與讀者閱讀活動安全性的前提。[4]
伴隨著IT新技術(shù)的應(yīng)用和服務(wù)模式變革,圖書館服務(wù)運營商和不同地區(qū)集團聯(lián)盟之間的競爭與合作將進一步增強,專業(yè)化和壟斷經(jīng)營成為未來圖書館服務(wù)發(fā)展的主要趨勢。因此,如何利用大數(shù)據(jù)分析算法準(zhǔn)確分析競爭對手在圖書館管理方法、服務(wù)內(nèi)容、運營模式和成本控制方面的優(yōu)勢,并防止核心數(shù)據(jù)被非法用戶和競爭對手獲得,是圖書館管理者提高自身服務(wù)能力和市場競爭力的關(guān)鍵。此外,在圖書館建設(shè)與服務(wù)過程中,利用大數(shù)據(jù)技術(shù)提高用戶服務(wù)效率和降低運營成本,是增強圖書館市場競爭力的又一重要內(nèi)容。管理員可利用大數(shù)據(jù)技術(shù)有效整合圖書館服務(wù)資源和優(yōu)化服務(wù)流程,詳細分析每一位讀者的閱讀習(xí)慣和需求,根據(jù)客戶需求為用戶提供個性化定制的服務(wù)項目,確保圖書館運營和讀者閱讀收益最大化。[5]
隨著大數(shù)據(jù)信息浪潮的到來,圖書館也迎來了讀者的大服務(wù)時代,用戶服務(wù)的內(nèi)容從數(shù)據(jù)集成、管理向數(shù)據(jù)挖掘、分析與展現(xiàn)等方向全方位延伸。同時,圖書館業(yè)也面臨著嚴(yán)峻的挑戰(zhàn)與威脅。如何加強圖書館數(shù)據(jù)中心IT基礎(chǔ)設(shè)施建設(shè),提高數(shù)據(jù)的采集、挖掘、處理、整合、分析和決策能力,將數(shù)據(jù)資源高效轉(zhuǎn)化為圖書館信息資產(chǎn)和生產(chǎn)力,已成為大數(shù)據(jù)時代圖書館業(yè)面臨的重要問題。[6]
因此,圖書館必須樹立以讀者個性化服務(wù)質(zhì)量和客戶閱讀滿意度保障為中心的價值理念,以大數(shù)據(jù)應(yīng)用和價值挖掘為中心,不斷強化大數(shù)據(jù)管理平臺的安全性、高效性、模塊化和可擴展性建設(shè)。同時,應(yīng)努力提高數(shù)據(jù)生命周期管理的智能化、自動化水平,確保圖書館具有較強的業(yè)務(wù)績效洞察力和運營服務(wù)風(fēng)險控制能力,才能有效降低圖書館大數(shù)據(jù)環(huán)境復(fù)雜度和提高數(shù)據(jù)的利用效率,才能真正為讀者提供大數(shù)據(jù)環(huán)境下基于定制的個性化閱讀推送服務(wù)。[7]
[1]李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計算機學(xué)會通訊,2012,8(9):8-15.
[2]黃伯仲,等.超大規(guī)模數(shù)據(jù)可視分析十大挑戰(zhàn)[J].中國計算機學(xué)會通訊,2012,8(9):38-43.
[3]王樹良,等.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科技研究院學(xué)報,2013,8(2):8-17.
[4]李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013,50(6):1147-1162.
[5]BryantR E,etal.Big Data computing:Creatingrevolutionary breakthroughs in commerce,science,and society[EB/OL].[2013-06-19].http://www.cra. org/ccc/docs/init/BigData.pdf.
[6]Malewicz G,et al.Pregel:A system for large-scale graph processing[C]//Proc of SIGMOD 2010.New York:ACM,2010:135-146.
[7]Nature.BigData[EB/OL].[2013-06-17].http: //www.nature.com/news/specials/bigdata/index.html.
[責(zé)任編輯]菊秋芳
G250.73;G252.8
A
1005-8214(2014)10-0005-04
馬曉亭(1974-),女,碩士,蘭州商學(xué)院信息工程學(xué)院副教授,研究方向:大數(shù)據(jù)、數(shù)字圖書館建設(shè)。
2013-10-09