任黨利
(西安建筑科技大學(xué)圖書(shū)館 陜西西安 710055)
在大數(shù)據(jù)環(huán)境驅(qū)動(dòng)下,高校數(shù)字圖書(shū)館、智慧圖書(shū)館蓬勃發(fā)展,高校圖書(shū)館在日常文獻(xiàn)資源服務(wù)及學(xué)科服務(wù)過(guò)程中,產(chǎn)生了大量的館藏?cái)?shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、用戶信息數(shù)據(jù)、用戶行為數(shù)據(jù)、使用數(shù)據(jù)及管理數(shù)據(jù)等。這些數(shù)據(jù)對(duì)于圖書(shū)館深入了解自身館藏建設(shè)、空間資源、用戶信息與用戶行為、館員工作效率、圖書(shū)館系統(tǒng)運(yùn)行情況等具有重要的實(shí)證價(jià)值。高校圖書(shū)館通過(guò)解析和提煉這些原始數(shù)據(jù),能夠獲取大量有深度、有價(jià)值的數(shù)據(jù)信息,以這些指標(biāo)數(shù)據(jù)為指導(dǎo),能夠?qū)崿F(xiàn)“數(shù)據(jù)驅(qū)動(dòng)”下資源建設(shè)結(jié)構(gòu)的優(yōu)化、空間服務(wù)質(zhì)量的改善、個(gè)性化服務(wù)的精準(zhǔn)性提高,也能夠?yàn)閳D書(shū)館進(jìn)行功能轉(zhuǎn)換設(shè)置、服務(wù)模式調(diào)整、創(chuàng)新服務(wù)的未來(lái)分析與發(fā)展規(guī)劃提供數(shù)據(jù)支撐。
經(jīng)文獻(xiàn)研讀,目前國(guó)外高校圖書(shū)館對(duì)于數(shù)據(jù)管理研究主要集中在以下方面:①高校圖書(shū)館數(shù)據(jù)管理館員的素質(zhì)和技能培養(yǎng);②高校圖書(shū)館數(shù)據(jù)管理與分析在實(shí)踐中的應(yīng)用、決策支持和數(shù)據(jù)服務(wù);③高校圖書(shū)館數(shù)據(jù)管理與分析平臺(tái)的技術(shù)構(gòu)建、技術(shù)指標(biāo)等。
學(xué)者Renwick等人研究指出:管理研究數(shù)據(jù)已經(jīng)成為許多大學(xué)的一個(gè)問(wèn)題。在加勒比海地區(qū),西印度群島大學(xué)圣奧古斯丁校區(qū)的圖書(shū)館在這方面非常支持研究人員,目的是找出目前管理校園研究數(shù)據(jù)的做法,并確定校園圖書(shū)館可能發(fā)揮的作用[1]。學(xué)者Kim JiHyun研究分析了北美121個(gè)大學(xué)圖書(shū)館中51所提供的記錄數(shù)據(jù)管理(Research Data Management,RDM)培訓(xùn)項(xiàng)目的內(nèi)容,并從結(jié)果中得出數(shù)據(jù)館員培訓(xùn)的方法、教程和期望達(dá)到的效果[2]。學(xué)者Kim Seonghun等人進(jìn)一步指出,RDM服務(wù)中考慮的關(guān)鍵因素應(yīng)該包括以下因素,即研究服務(wù)與研究數(shù)據(jù)管理服務(wù)之間的聯(lián)系;國(guó)家、大學(xué)、機(jī)構(gòu)之間的協(xié)議;元數(shù)據(jù)輸入人員和所需要素;提供專業(yè)人員的戰(zhàn)略;通過(guò)用戶需求分析選擇主要服務(wù)領(lǐng)域;效果研究數(shù)據(jù)與研究成果之間的相互聯(lián)系;與用戶及相關(guān)組織密切合作[3]。學(xué)者Lassi Monica等人進(jìn)行了一項(xiàng)探索性的研究,研究人員在兩所瑞典大學(xué)進(jìn)行有效的研究數(shù)據(jù)管理,以便為研究數(shù)據(jù)服務(wù)的持續(xù)發(fā)展提供信息,關(guān)于主題元數(shù)據(jù)的附加問(wèn)題表明了指導(dǎo)研究人員用足夠的元數(shù)據(jù)描述其數(shù)據(jù)集的服務(wù)需要[4]。學(xué)者Lai MeiChi等人開(kāi)發(fā)了一套將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換成信息的系統(tǒng),提出了基準(zhǔn)論和基于知識(shí)的系統(tǒng)的集成框架,包括數(shù)據(jù)庫(kù)管理子系統(tǒng)、模型庫(kù)子系統(tǒng)、知識(shí)獲取子系統(tǒng)和對(duì)話子系統(tǒng)。在模型庫(kù)中使用DEA模型,包括CCR和BCC模型,以期對(duì)圖書(shū)館的運(yùn)作效率有準(zhǔn)確認(rèn)知,對(duì)圖書(shū)館發(fā)展方向和決策作出指導(dǎo)[5]。在實(shí)踐方面,休斯頓大學(xué)數(shù)字圖書(shū)館2015年成立了一個(gè)數(shù)字資產(chǎn)管理系統(tǒng)(Digital Asset Management System,DAMS)實(shí)施工作組,在系統(tǒng)安裝、數(shù)據(jù)遷移和接口開(kāi)發(fā)方面做了深度研究,以探索、評(píng)估、測(cè)試、推薦和實(shí)施一個(gè)更強(qiáng)大的數(shù)字資產(chǎn)管理系統(tǒng)。這個(gè)系統(tǒng)可擴(kuò)展和互操作,推動(dòng)了數(shù)據(jù)間的無(wú)縫訪問(wèn),擴(kuò)展了數(shù)據(jù)管理[6]。
經(jīng)文獻(xiàn)梳理,國(guó)內(nèi)高校圖書(shū)館數(shù)據(jù)管理研究主要有以下方面:①大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館數(shù)據(jù)管理及數(shù)據(jù)分析中的應(yīng)用;②綜述國(guó)外數(shù)據(jù)管理與數(shù)據(jù)分析實(shí)例,對(duì)國(guó)內(nèi)高校的啟示;③高校圖書(shū)館數(shù)據(jù)管理館員的培養(yǎng)、數(shù)據(jù)分析及數(shù)據(jù)服務(wù)。馬曉亭構(gòu)建了采用多層次系統(tǒng)結(jié)構(gòu)的圖書(shū)館大數(shù)據(jù)資源整合平臺(tái)的框架[7]。國(guó)內(nèi)學(xué)者Chen Min等人探討了圖書(shū)館大數(shù)據(jù)如何存儲(chǔ)、數(shù)據(jù)如何挖掘及如何實(shí)現(xiàn)個(gè)性化服務(wù)等具體技術(shù),提出“Hadoop+MapReduce”并行架構(gòu)的大數(shù)據(jù)存儲(chǔ)和應(yīng)用方案[8]。周曉燕、尹亞麗通過(guò)調(diào)研國(guó)外高校圖書(shū)館具體數(shù)據(jù)服務(wù)人才招聘崗位的數(shù)據(jù),分析社會(huì)對(duì)科研數(shù)據(jù)服務(wù)人員的知識(shí)結(jié)構(gòu)和技能的最真實(shí)需求和要求,從而總結(jié)出大數(shù)據(jù)時(shí)代國(guó)外高校圖書(shū)館科研數(shù)據(jù)服務(wù)人員的知識(shí)結(jié)構(gòu)和崗位職責(zé)[9]。司莉、曾粵亮通過(guò)分析國(guó)外高??蒲袛?shù)據(jù)管理領(lǐng)域關(guān)注的課題,針對(duì)我國(guó)目前研究現(xiàn)狀,認(rèn)為未來(lái)高校圖書(shū)館數(shù)據(jù)管理的研究重點(diǎn)應(yīng)關(guān)注機(jī)構(gòu)科研數(shù)據(jù)知識(shí)庫(kù)(Institutional Research Data Repository,IRDR)理論研究的系統(tǒng)化、平臺(tái)的建設(shè)與管理、面向科研人員服務(wù)的開(kāi)展、知識(shí)產(chǎn)權(quán)研究及聯(lián)盟機(jī)制的深入探索[10]。在實(shí)踐方面,國(guó)家圖書(shū)館2016年建成基于讀者與資源核心業(yè)務(wù)系統(tǒng)的圖書(shū)館大數(shù)據(jù)平臺(tái),應(yīng)用該平臺(tái)采集數(shù)據(jù),并通過(guò)一系列分析法,對(duì)國(guó)家圖書(shū)館的用戶群體、服務(wù)方向、資源利用情況進(jìn)行數(shù)據(jù)分析[11]。
高校圖書(shū)館數(shù)據(jù)按照數(shù)據(jù)源可分為:①用戶數(shù)據(jù)。用戶數(shù)據(jù)是指用戶在圖書(shū)館集成系統(tǒng)里注冊(cè)的個(gè)人信息等。②資源數(shù)據(jù)。資源數(shù)據(jù)包括館藏紙質(zhì)圖書(shū)資源、紙質(zhì)期刊資源、光盤(pán)、報(bào)紙等有形資源及數(shù)字化資源。數(shù)字化資源包括引進(jìn)的電子圖書(shū)、期刊等資源;還包括空間資源、座位資源、設(shè)備資源。③業(yè)務(wù)數(shù)據(jù)。業(yè)務(wù)數(shù)據(jù)包括圖書(shū)館員在圖書(shū)管理集成系統(tǒng)里的所有操作流程數(shù)據(jù),如圖書(shū)和期刊的征訂、編目、典藏等,以及數(shù)據(jù)庫(kù)采購(gòu)、發(fā)布數(shù)據(jù)等。④使用數(shù)據(jù)。使用數(shù)據(jù)包括高校圖書(shū)館用戶借閱圖書(shū)、還回圖書(shū)、委托圖書(shū)等數(shù)據(jù);用戶在圖書(shū)館OPAC(Online Public Access Catalog,聯(lián)機(jī)公共檢索目錄)、圖書(shū)館微信公眾號(hào)、圖書(shū)館微博產(chǎn)生的圖書(shū)薦購(gòu)等數(shù)據(jù);用戶訪問(wèn)圖書(shū)館主頁(yè)產(chǎn)生的訪問(wèn)、瀏覽數(shù)據(jù);用戶使用圖書(shū)館空間產(chǎn)生的入館、座位預(yù)約、選座、研討空間使用數(shù)據(jù)等;用戶使用圖書(shū)館數(shù)字資源產(chǎn)生的訪問(wèn)、檢索等數(shù)據(jù)。⑤管理數(shù)據(jù)。管理數(shù)據(jù)包括圖書(shū)館內(nèi)部的人員數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、資產(chǎn)數(shù)據(jù)等。各類型的數(shù)據(jù)來(lái)源如表1所示。
表1 高校圖書(shū)館數(shù)據(jù)類型及數(shù)據(jù)來(lái)源
從表1看出,高校圖書(shū)館數(shù)據(jù)具有3個(gè)顯著特點(diǎn)。
(1)數(shù)據(jù)類型具多源異構(gòu)性。高校圖書(shū)館館藏資源種類和形式豐富,每種載體的文獻(xiàn)有不同標(biāo)準(zhǔn)的數(shù)據(jù)統(tǒng)計(jì)方式。數(shù)字資源來(lái)源于各個(gè)不同的數(shù)據(jù)庫(kù)商,使用數(shù)據(jù)統(tǒng)計(jì)的標(biāo)準(zhǔn)和方式各有不同。高校圖書(shū)館集成管理系統(tǒng)子系統(tǒng)眾多,業(yè)務(wù)精細(xì)繁瑣,操作會(huì)產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)和日志數(shù)據(jù)。由此可見(jiàn),高校圖書(shū)館產(chǎn)生的數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有日志文件、XML文件等半結(jié)構(gòu)化數(shù)據(jù),還有很多文本類非結(jié)構(gòu)化數(shù)據(jù)。
(2)數(shù)據(jù)量龐大繁瑣。高校圖書(shū)館工作是一個(gè)日積月累的過(guò)程。經(jīng)過(guò)多年的資源建設(shè)、業(yè)務(wù)管理、信息服務(wù),每個(gè)高校圖書(shū)館都擁有大量的館藏資源數(shù)據(jù)、業(yè)務(wù)運(yùn)行數(shù)據(jù)、用戶信息數(shù)據(jù)、用戶行為數(shù)據(jù)、資源使用數(shù)據(jù)、系統(tǒng)日志數(shù)據(jù)、科研數(shù)據(jù)、管理數(shù)據(jù)等。這些數(shù)據(jù)量龐大繁瑣,需要進(jìn)行統(tǒng)一的管理。
(3)數(shù)據(jù)量增長(zhǎng)迅速。隨著數(shù)字圖書(shū)館的廣泛應(yīng)用和發(fā)展,高校圖書(shū)館對(duì)數(shù)字資源愈加重視?;谖锫?lián)網(wǎng)、移動(dòng)技術(shù)的資源在線訪問(wèn)、下載,以及基于社交網(wǎng)絡(luò)的信息服務(wù)和學(xué)科服務(wù)的開(kāi)展,高校圖書(shū)館資源數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、使用數(shù)據(jù)成倍增長(zhǎng),貢獻(xiàn)了大量在線、實(shí)時(shí)數(shù)據(jù),加速了圖書(shū)館各類數(shù)據(jù)的生成[12]。
高校圖書(shū)館的數(shù)據(jù)具有類型多源異構(gòu)、數(shù)據(jù)量龐大繁瑣、增長(zhǎng)迅速的特點(diǎn),這呈現(xiàn)出大數(shù)據(jù)的部分特征,可以利用大數(shù)據(jù)一些專業(yè)技術(shù)手段進(jìn)行管理。本文嘗試以BI(business intelligence,商業(yè)智能)技術(shù)搭建數(shù)據(jù)管理與分析平臺(tái),系統(tǒng)架構(gòu)如圖1所示。高校圖書(shū)館可以利用數(shù)據(jù)管理與分析平臺(tái)鏈接各數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù),管控、整合、清洗高校圖書(shū)館工作中產(chǎn)生的數(shù)據(jù)。高校圖書(shū)館要抓取有價(jià)值的數(shù)據(jù),必須先梳理數(shù)據(jù)源,確定核心數(shù)據(jù)采集點(diǎn),進(jìn)行數(shù)據(jù)的有效采集。數(shù)據(jù)采集后需先進(jìn)行數(shù)據(jù)整合,多維篩選,聚類分析。利用BI技術(shù)搭建的數(shù)據(jù)分析結(jié)構(gòu)平臺(tái)針對(duì)不同的用戶需求(初級(jí)數(shù)據(jù)分析用戶、深度數(shù)據(jù)分析用戶、查看數(shù)據(jù)分析結(jié)果的用戶)提供各個(gè)層面的數(shù)據(jù),這樣能在很大程度上提高工作效率,優(yōu)化協(xié)作方式,深層次挖掘數(shù)據(jù)的價(jià)值,并能針對(duì)不同的用戶層次提供不同層次的數(shù)據(jù)。
圖1 數(shù)據(jù)管理與分析平臺(tái)架構(gòu)圖
2016年,借鑒耶魯醫(yī)學(xué)圖書(shū)館期刊數(shù)據(jù)管理實(shí)踐經(jīng)驗(yàn),西安建筑科技大學(xué)圖書(shū)館(以下簡(jiǎn)稱“我館”)對(duì)歷年來(lái)積累的中文電子期刊和中文紙質(zhì)期刊的資源數(shù)據(jù)、用戶數(shù)據(jù)、使用數(shù)據(jù)等進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)整理,試圖通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘,對(duì)我館期刊工作做一些調(diào)整,建立新的期刊資源建設(shè)體系。
期刊的數(shù)據(jù)采集主要從我館應(yīng)用的匯文圖書(shū)集成管理系統(tǒng)以及我館引進(jìn)的電子期刊數(shù)據(jù)庫(kù)CNKI、萬(wàn)方以及維普進(jìn)行數(shù)據(jù)源收集,核心數(shù)據(jù)來(lái)源及數(shù)據(jù)采集內(nèi)容如表2所示。根據(jù)表2將所有期刊數(shù)據(jù)源逐一梳理,采集我館目前所有的館藏紙質(zhì)期刊數(shù)據(jù)、引進(jìn)的電子期刊數(shù)據(jù)、用戶信息數(shù)據(jù),并按照年度量和總量分為縱向和橫向數(shù)據(jù),分別進(jìn)行匯總。整理的數(shù)據(jù)如表3所示。
我館成立了一個(gè)期刊數(shù)據(jù)管理與數(shù)據(jù)分析小組,借助利用BI技術(shù)搭建的數(shù)據(jù)管理與分析平臺(tái),將同類數(shù)據(jù)進(jìn)行比對(duì),深度挖掘數(shù)據(jù)價(jià)值,分別分析用戶信息、用戶行為信息、紙質(zhì)期刊和電子期刊的投入以及產(chǎn)出效益、空間效益等。根據(jù)數(shù)據(jù)分析結(jié)果對(duì)我館期刊工作做了極大的調(diào)整,從以下方面優(yōu)化了我館期刊工作,取得了良好的效果和收益。
2016年,我館針對(duì)目前使用廣泛的CNKI中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版)、萬(wàn)方中文期刊、維普中文期刊作了各項(xiàng)技術(shù)指標(biāo)數(shù)據(jù)的比對(duì)和分析,分別從期刊收錄數(shù)量、期刊回溯年限、期刊學(xué)科分類、全文文獻(xiàn)數(shù)量、重復(fù)期刊數(shù)量、收錄核心期刊的種數(shù)、核心期刊的收錄年限、擁有獨(dú)家授權(quán)期刊數(shù)量、擁有優(yōu)先出版期刊數(shù)量等進(jìn)行了數(shù)據(jù)分析,并結(jié)合2013—2016年我校用戶對(duì)各數(shù)據(jù)庫(kù)的訪問(wèn)數(shù)據(jù)和下載數(shù)據(jù),我館調(diào)整了中文電子期刊采訪策略,只訂購(gòu)更適合我校用戶使用的CNKI中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版),這極大改善了我館電子期刊重復(fù)建設(shè)問(wèn)題。
我館對(duì)紙質(zhì)期刊和電子期刊資源種類和收藏年限進(jìn)行了數(shù)據(jù)分析,發(fā)現(xiàn)學(xué)術(shù)期刊方面,電子期刊已經(jīng)完全囊括了紙質(zhì)期刊館藏。通過(guò)用戶數(shù)據(jù)分析,入館閱覽期刊的89.1%為本科學(xué)生,且閱讀方向集中在基礎(chǔ)學(xué)科學(xué)習(xí)、文學(xué)文藝類期刊,專業(yè)學(xué)術(shù)期刊的需求很低。而對(duì)于碩博士研究生和教職工而言,面對(duì)教學(xué)和科研壓力,他們更習(xí)慣通過(guò)數(shù)字圖書(shū)館獲取學(xué)術(shù)期刊。以用戶需求和期刊效益為依據(jù),我館在紙質(zhì)期刊采購(gòu)方面調(diào)整了策略,結(jié)合西安建筑科技大學(xué)學(xué)科布局、教學(xué)安排等核心因素,調(diào)整期刊組成結(jié)構(gòu),突出重點(diǎn)學(xué)科和一流專業(yè),篩選具有本館特色和利用率高的紙質(zhì)期刊繼續(xù)訂購(gòu),停訂了987種紙電同步、借閱及復(fù)印率低的紙質(zhì)期刊。這在很大程度上節(jié)約了資源經(jīng)費(fèi),避免了資源重復(fù)建設(shè),并釋放了大量的物理空間和存儲(chǔ)空間。
表2 期刊數(shù)據(jù)來(lái)源
表3 采集的期刊數(shù)據(jù)表
在期刊管理工作中,實(shí)現(xiàn)電子期刊和紙質(zhì)期刊從概念到實(shí)體的整合工作,向?qū)W生展示我館紙質(zhì)期刊征訂目錄和電子期刊征訂目錄。期刊閱覽室安放電子設(shè)備和打印機(jī),學(xué)生可以在這里閱覽紙質(zhì)期刊,也可隨時(shí)瀏覽電子期刊和圖書(shū)館其他資源,還可以進(jìn)行多人協(xié)作式網(wǎng)上學(xué)習(xí),方便了期刊資源的使用,充分利用了空間資源。
我館經(jīng)過(guò)期刊數(shù)據(jù)管理和分析,對(duì)紙質(zhì)期刊不再做裝訂成冊(cè)處理工作。如果用戶對(duì)過(guò)期期刊有需求,工作人員可以協(xié)助其下載電子資源或通過(guò)文獻(xiàn)傳遞獲取資源。這項(xiàng)舉措釋放了很大一部分勞動(dòng)力,節(jié)約了館內(nèi)經(jīng)費(fèi),消除了僵死資源,避免了資源重復(fù)建設(shè),加快了期刊流動(dòng),提高了期刊的利用率。
我館通過(guò)培訓(xùn)、篩選,推行學(xué)科館員制度和數(shù)據(jù)館員制度,進(jìn)行學(xué)科嵌入式服務(wù)和個(gè)性化服務(wù)[13]。對(duì)圖書(shū)館產(chǎn)生的數(shù)據(jù)進(jìn)行分類管理、分析、深度挖掘工作,定期以分析報(bào)告和報(bào)表的形式呈現(xiàn)數(shù)據(jù)成果,為館里重大決策提供數(shù)據(jù)支撐,為圖書(shū)館的資源建設(shè)優(yōu)化提供數(shù)據(jù)支持,為學(xué)校的學(xué)科建設(shè)和科研教學(xué)提供數(shù)據(jù)服務(wù)。