張計(jì)龍
(復(fù)旦大學(xué)圖書(shū)館 上海 200433)
隨著信息技術(shù)的發(fā)展,泛在知識(shí)環(huán)境下數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長(zhǎng)并體現(xiàn)出社會(huì)化趨勢(shì)。根據(jù)國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB(1ZB等于 10億個(gè) TB),2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.4ZB,2011年的數(shù)據(jù)更是高達(dá)1.8ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)[1]。到2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍[2]。一般認(rèn)為數(shù)據(jù)量達(dá)到PB級(jí)(1000個(gè)TB)的數(shù)據(jù)可稱(chēng)為大數(shù)據(jù)(Big Data)。今天大數(shù)據(jù)已經(jīng)成為一種自然資源,業(yè)界普遍認(rèn)為大數(shù)據(jù)不被利用就是資源浪費(fèi)。面對(duì)大數(shù)據(jù)的規(guī)模和復(fù)雜性,現(xiàn)有技術(shù)在大數(shù)據(jù)的獲取、存儲(chǔ)、搜索、分享、分析和可視化方面顯得無(wú)能為力,需要對(duì)不同業(yè)務(wù)領(lǐng)域的大數(shù)據(jù)研究有效處理技術(shù)加以應(yīng)對(duì)。
大數(shù)據(jù)時(shí)代的圖書(shū)館面臨更加巨大的環(huán)境壓力。從內(nèi)部資源和服務(wù)角度看,圖書(shū)館館藏資源紙本增量不斷減少,更多的數(shù)字資源可在網(wǎng)上直接獲取,例如Google Scholar的海量數(shù)字資源。與此同時(shí),商業(yè)搜索引擎提供的服務(wù)正迅速吞噬圖書(shū)館提供的OPAC服務(wù),而無(wú)處不在的社會(huì)化網(wǎng)絡(luò)交流服務(wù)平臺(tái)也使得傳統(tǒng)的參考咨詢(xún)服務(wù)優(yōu)勢(shì)不斷減少。從外部需求來(lái)看,互聯(lián)網(wǎng)信息環(huán)境發(fā)生了巨大變化,如Google與圖書(shū)館合作數(shù)字化館藏、原生數(shù)字資源開(kāi)放獲取、新技術(shù)的滲透影響等,加上經(jīng)濟(jì)環(huán)境的衰退造成的采訪(fǎng)經(jīng)費(fèi)壓力加大以及大數(shù)據(jù)環(huán)境下教學(xué)、科研活動(dòng)對(duì)圖書(shū)館資源和服務(wù)提出了更高的新要求。
大數(shù)據(jù)環(huán)境下圖書(shū)館受到挑戰(zhàn)的同時(shí),也面臨了新的發(fā)展機(jī)遇,例如,圖書(shū)館各類(lèi)系統(tǒng)中存在大量的用戶(hù)訪(fǎng)問(wèn)圖書(shū)館資源時(shí)留存下來(lái)的日志和信息行為數(shù)據(jù),包括以下幾類(lèi):
(1)用戶(hù)查詢(xún)書(shū)目產(chǎn)生的OPAC日志,存在于圖書(shū)館OPAC系統(tǒng)中。
(2)用戶(hù)借還書(shū)產(chǎn)生的流通日志,存在于圖書(shū)館集成管理系統(tǒng)中,如Aleph500、匯文等。
(3)用戶(hù)檢索、瀏覽、下載電子資源產(chǎn)生的日志,廣泛存在于不同數(shù)據(jù)庫(kù)商的系統(tǒng)中。
(4)用戶(hù)訪(fǎng)問(wèn)產(chǎn)生的流量數(shù)據(jù)(包括交換機(jī)、服務(wù)器、存儲(chǔ)陣列),包括:
(a)交換機(jī)的出入口流量、上下行組包數(shù)、CPU、內(nèi)存占用率等等,緩存在不同交換機(jī)中。
(b)服務(wù)器的占用內(nèi)存、進(jìn)程數(shù)、CPU負(fù)載、當(dāng)前用戶(hù)數(shù)、硬盤(pán)卷占用情況,緩存在不同服務(wù)器設(shè)備中。
對(duì)于這些海量的、轉(zhuǎn)眼即逝的數(shù)據(jù),圖書(shū)館應(yīng)從中進(jìn)行有效的數(shù)據(jù)價(jià)值挖掘,以應(yīng)對(duì)解決圖書(shū)館面臨的各種困難和問(wèn)題,如:
(1)圖書(shū)館各類(lèi)管理系統(tǒng)、電子資源數(shù)據(jù)庫(kù)數(shù)量眾多,如何保障這些軟件系統(tǒng)、網(wǎng)絡(luò)設(shè)備正常運(yùn)行,提升服務(wù)質(zhì)量?
(2)圖書(shū)館購(gòu)買(mǎi)了大量電子資源數(shù)據(jù)庫(kù),如何實(shí)現(xiàn)對(duì)這些由不同廠商提供的電子資源使用情況進(jìn)行統(tǒng)一統(tǒng)計(jì)、分析和評(píng)估?如何解決應(yīng)用異構(gòu)和數(shù)據(jù)異構(gòu)?如何應(yīng)對(duì)日益頻繁的惡意下載行為?
(3)圖書(shū)館采訪(fǎng)工作是非常具有挑戰(zhàn)性、技術(shù)性的核心工作,能否利用不同系統(tǒng)提供的用戶(hù)訪(fǎng)問(wèn)信息行為數(shù)據(jù)為采訪(fǎng)工作提供輔助決策支持?
(4)對(duì)于學(xué)術(shù)圖書(shū)館來(lái)講,如何有效挖掘用戶(hù)信息行為數(shù)據(jù),擺脫目前學(xué)科服務(wù)重要而又走不出的困境?
大數(shù)據(jù)最近兩年來(lái)成為IT界、金融投資界的熱門(mén)關(guān)鍵詞,圍繞如何解決大數(shù)據(jù)環(huán)境下數(shù)據(jù)的獲取、存儲(chǔ)、傳輸、分析以及可視化應(yīng)用等關(guān)鍵技術(shù)進(jìn)行了大量研究。2013年3月29日,美國(guó)政府推出的“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”[3],承諾通過(guò)提升大數(shù)據(jù)利用能力,加快科學(xué)與工程研究步伐,加強(qiáng)國(guó)家安全,改變教學(xué)研究工作,從政府層面全面推進(jìn)大數(shù)據(jù)研究應(yīng)用。
我國(guó)圖書(shū)館界圍繞著大數(shù)據(jù)也開(kāi)展了一些研究探索,主要成果包括:楊海燕等[4]分析了大數(shù)據(jù)時(shí)代的圖書(shū)館數(shù)據(jù)處理與服務(wù),認(rèn)為從大量的數(shù)據(jù)中去分析、挖掘潛在的價(jià)值,以便圖書(shū)館決策層及時(shí)做出決定將成為圖書(shū)館的一大主要業(yè)務(wù),同時(shí)圖書(shū)館服務(wù)策略也將隨之改變;韓翠峰[5,6]從大數(shù)據(jù)帶給圖書(shū)館的影響與挑戰(zhàn)角度,認(rèn)為大數(shù)據(jù)將使圖書(shū)館在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等方面面臨巨大挑戰(zhàn)與考驗(yàn),通過(guò)挖掘隱藏在大數(shù)據(jù)背后的隱性知識(shí)可為圖書(shū)館分析與預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)提供支持。同時(shí)分析了大數(shù)據(jù)時(shí)代圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展,指出大數(shù)據(jù),如用戶(hù)信息行為數(shù)據(jù),將成為圖書(shū)館的核心資產(chǎn);王天泥[7,8]分析了大數(shù)據(jù)視角下圖書(shū)館的定位,提出拓展數(shù)據(jù)分析與處理業(yè)務(wù)、重視用戶(hù)隱私保護(hù)等圖書(shū)館的發(fā)展策略,并闡述知識(shí)咨詢(xún)是圖書(shū)館未來(lái)咨詢(xún)服務(wù)的新模式,重點(diǎn)討論了大數(shù)據(jù)時(shí)代的數(shù)據(jù)資源與人才建設(shè)兩大知識(shí)咨詢(xún)服務(wù)發(fā)展驅(qū)動(dòng)因素;張文彥等[9]指出大數(shù)據(jù)在圖書(shū)館事業(yè)中的應(yīng)用由于技術(shù)的成熟與完善尚需時(shí)日,可能產(chǎn)生一些問(wèn)題,包括大數(shù)據(jù)技術(shù)可能加深信息鴻溝、個(gè)人隱私泄露、大數(shù)據(jù)人才瓶頸等;朱靜薇等[10]分析了圖書(shū)館在大數(shù)據(jù)環(huán)境下的挑戰(zhàn),探討了大數(shù)據(jù)驅(qū)動(dòng)下的圖書(shū)館服務(wù)新模式,如基于數(shù)據(jù)整合的一站式資源服務(wù)、基于數(shù)據(jù)處理的學(xué)科知識(shí)服務(wù)、信息可視化服務(wù)以及基于數(shù)據(jù)挖掘的個(gè)性化智慧服務(wù)等。
總體說(shuō)來(lái),我國(guó)圖書(shū)館界對(duì)大數(shù)據(jù)時(shí)代圖書(shū)館面臨的挑戰(zhàn)和機(jī)遇進(jìn)行了比較充分的研究,并從理論上提出了解決思路和新服務(wù)模式,但尚沒(méi)有發(fā)現(xiàn)有相關(guān)的應(yīng)用實(shí)踐案例。
為應(yīng)對(duì)大數(shù)據(jù)環(huán)境下圖書(shū)館面臨的挑戰(zhàn)和機(jī)遇,需重點(diǎn)研究大數(shù)據(jù)如何驅(qū)動(dòng)圖書(shū)館業(yè)務(wù)應(yīng)用和服務(wù)創(chuàng)新,并通過(guò)實(shí)際案例進(jìn)行實(shí)證研究。研究?jī)?nèi)容包括圖書(shū)采訪(fǎng)輔助決策支持、學(xué)科服務(wù)支持、電子資源使用的統(tǒng)一統(tǒng)計(jì)分析及惡意下載監(jiān)控、圖書(shū)館網(wǎng)絡(luò)與應(yīng)用系統(tǒng)運(yùn)行服務(wù)監(jiān)控四個(gè)方面,大數(shù)據(jù)驅(qū)動(dòng)的關(guān)鍵技術(shù)包括數(shù)據(jù)獲取、數(shù)據(jù)建模、數(shù)據(jù)分析與展示三個(gè)步驟。
圖書(shū)采訪(fǎng)輔助決策支持的數(shù)據(jù)獲取思路包括兩部分:首先從圖書(shū)館的流通日志和OPAC日志采集用戶(hù)信息行為數(shù)據(jù),然后整合利用從圖書(shū)館網(wǎng)絡(luò)底層獲取的統(tǒng)一的用戶(hù)訪(fǎng)問(wèn)行為數(shù)據(jù)。其數(shù)據(jù)處理步驟如圖1所示:
圖1 圖書(shū)采訪(fǎng)輔助決策支持系統(tǒng)數(shù)據(jù)獲取流程
為了解決不同數(shù)據(jù)庫(kù)廠商系統(tǒng)提供的訪(fǎng)問(wèn)日志數(shù)據(jù)異構(gòu)和查詢(xún)統(tǒng)計(jì)程序的應(yīng)用異構(gòu)問(wèn)題,學(xué)科服務(wù)支持系統(tǒng)、電子資源使用統(tǒng)一統(tǒng)計(jì)分析及惡意下載監(jiān)控的數(shù)據(jù)獲取采取從網(wǎng)絡(luò)底層獲取統(tǒng)一訪(fǎng)問(wèn)數(shù)據(jù)的關(guān)鍵技術(shù),其關(guān)鍵技術(shù)包括四個(gè)流程:數(shù)據(jù)采集流程、數(shù)據(jù)發(fā)送流程、數(shù)據(jù)接收流程、數(shù)據(jù)解析入庫(kù)流程。具體見(jiàn)圖2。
圖2 網(wǎng)絡(luò)層數(shù)據(jù)獲取關(guān)鍵技術(shù)流程框架圖
圖書(shū)館網(wǎng)絡(luò)與應(yīng)用系統(tǒng)運(yùn)行服務(wù)監(jiān)控在數(shù)據(jù)獲取上主要從系統(tǒng)層面實(shí)時(shí)獲取用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù),技術(shù)上采取對(duì)有管理權(quán)限的應(yīng)用系統(tǒng)和網(wǎng)絡(luò)設(shè)備安裝管理程序代理,可管理到進(jìn)程級(jí)別;對(duì)沒(méi)有管理權(quán)限的遠(yuǎn)程數(shù)據(jù)庫(kù)等,采用模擬訪(fǎng)問(wèn)方法獲取系統(tǒng)服務(wù)狀態(tài)并進(jìn)行判斷是否有效。在此基礎(chǔ)上,采用隱馬爾科夫模型(HMM)對(duì)訪(fǎng)問(wèn)異常數(shù)據(jù)進(jìn)行異常行為報(bào)警、預(yù)警監(jiān)控,并通過(guò)電子郵件、短信方式通知到相應(yīng)的系統(tǒng)管理員。這些數(shù)據(jù)主要為各類(lèi)系統(tǒng)日志文件,包括服務(wù)器操作系統(tǒng)日志、交換機(jī)數(shù)據(jù)交換數(shù)據(jù)以及所有硬件設(shè)備的狀態(tài)信息等,如CPU使用率、內(nèi)存使用率等數(shù)據(jù)。
從2010年起,復(fù)旦大學(xué)圖書(shū)館逐步開(kāi)始研究如何有效整合利用圖書(shū)館采購(gòu)的大量數(shù)字資源、用戶(hù)訪(fǎng)問(wèn)信息行為數(shù)據(jù)、各類(lèi)系統(tǒng)日志數(shù)據(jù)等來(lái)有效應(yīng)對(duì)大數(shù)據(jù)環(huán)境下圖書(shū)館面臨的日益加大的各種環(huán)境壓力,挖掘有用的價(jià)值信息,提升服務(wù)水平和能力。
為了使圖書(shū)采訪(fǎng)決策具備科學(xué)的數(shù)據(jù)支持,系統(tǒng)通過(guò)從網(wǎng)絡(luò)底層、圖書(shū)館集成管理系統(tǒng)、數(shù)據(jù)庫(kù)廠商等多途徑獲取圖書(shū)館的現(xiàn)有館藏?cái)?shù)據(jù)、流通數(shù)據(jù)和OPAC檢索日志數(shù)據(jù),構(gòu)建基于圖書(shū)館流通日志的圖書(shū)借閱數(shù)據(jù)倉(cāng)庫(kù)維度模型和基于OPAC日志的點(diǎn)擊流數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行多維度統(tǒng)計(jì)分析,目前實(shí)現(xiàn)的功能包括:
⑴館藏分析。目前系統(tǒng)可對(duì)學(xué)科大類(lèi)以及大類(lèi)之下每個(gè)二級(jí)學(xué)科的各種圖書(shū)數(shù)量和比率進(jìn)行統(tǒng)計(jì)分析,并使用表格、餅圖和直方圖等方式加以可視化顯示。能夠按照年份、分館、學(xué)科、語(yǔ)種、出版社、作者等多維度組合,對(duì)圖書(shū)館館藏書(shū)目和館藏單冊(cè)進(jìn)行統(tǒng)計(jì)分析。在這些數(shù)據(jù)分析的基礎(chǔ)上,結(jié)合圖書(shū)館館藏發(fā)展策略和業(yè)務(wù)需求,可制定進(jìn)一步優(yōu)化館藏的方案。
⑵流通數(shù)據(jù)分析。系統(tǒng)可對(duì)流通數(shù)據(jù)從讀者借閱、讀者續(xù)借、讀者預(yù)約和零借閱圖書(shū)等不同細(xì)化層面進(jìn)行分析。對(duì)讀者借閱圖書(shū)情況還可根據(jù)需求從學(xué)科、出版社、分館、作者、讀者院系等多維度進(jìn)行組合統(tǒng)計(jì)分析;讀者續(xù)借分析,可根據(jù)年月、分館、院系、學(xué)科等維度進(jìn)行組合統(tǒng)計(jì)分析;讀者預(yù)約的數(shù)量和比率可根據(jù)年月、分館、院系、學(xué)科等維度進(jìn)行組合統(tǒng)計(jì)分析;零借閱分析是指對(duì)當(dāng)年入庫(kù)的新書(shū),且在當(dāng)年借閱量為零的圖書(shū)按照學(xué)科、借閱日期、入庫(kù)時(shí)間、分館進(jìn)行分析。以上多維度組合可幫助采訪(fǎng)人員更清楚地了解館藏利用狀況,有助于圖書(shū)館制定更為合理的館藏建設(shè)政策。
⑶OPAC檢索日志分析。這類(lèi)數(shù)據(jù)能夠反映讀者的資源利用趨勢(shì)和館藏資源之間的匹配度。目前系統(tǒng)包括兩大功能模塊,即無(wú)結(jié)果查詢(xún)和關(guān)鍵字頻次查詢(xún),可做關(guān)鍵詞、出版年、題名、中圖分類(lèi)號(hào)、出版者和著者等角度的頻次統(tǒng)計(jì)分析。比如,系統(tǒng)可對(duì)統(tǒng)計(jì)檢索返回結(jié)果為零而檢索頻率較高的情況進(jìn)行分析,一方面可反映館藏文獻(xiàn)未能滿(mǎn)足讀者需求的情況,另一方面也有可能是讀者不了解編目數(shù)據(jù)而誤檢,這些可為館藏建設(shè)及用戶(hù)培訓(xùn)目標(biāo)提供精準(zhǔn)的線(xiàn)索和依據(jù)。
另外系統(tǒng)還提供了電子圖書(shū)使用統(tǒng)計(jì)分析、中西文印本和電子圖書(shū)比照分析以及各類(lèi)輸出報(bào)表個(gè)性化定制和綜合檢索功能。
利用大數(shù)據(jù)能更好驅(qū)動(dòng)圖書(shū)館學(xué)科服務(wù)支持,可利用網(wǎng)絡(luò)底層數(shù)據(jù)獲取關(guān)鍵技術(shù)取得以學(xué)科為基礎(chǔ)的用戶(hù)檢索、瀏覽、下載電子資源所產(chǎn)生的日志數(shù)據(jù)。然后分析用戶(hù)檢索、瀏覽、下載的文獻(xiàn)的特征(全文、摘要、關(guān)鍵詞),加入時(shí)間緯度,歸納出某個(gè)學(xué)科某一時(shí)期用戶(hù)感興趣的主題;再利用關(guān)聯(lián)分析、聚類(lèi)分析、社會(huì)網(wǎng)絡(luò)分析等方法進(jìn)行學(xué)科熱點(diǎn)預(yù)測(cè)和交叉學(xué)科分析研究。
以復(fù)旦大學(xué)圖書(shū)館對(duì)法學(xué)學(xué)科的支持為例,對(duì)搜集到的2011年4月15日至2011年5月15日期間復(fù)旦大學(xué)法學(xué)專(zhuān)業(yè)師生訪(fǎng)問(wèn)中國(guó)期刊網(wǎng)的日志數(shù)據(jù),運(yùn)用關(guān)聯(lián)分析、聚類(lèi)分析和社會(huì)網(wǎng)絡(luò)分析等方法,得出復(fù)旦法學(xué)師生關(guān)注的法學(xué)學(xué)科排名前三的學(xué)科熱點(diǎn)包括:
種姓制度、《摩奴法典》、殖民法
當(dāng)代價(jià)值、歷史考察、永佃制、永佃權(quán)、一田兩主
日本能源政策、日本能源法律制度、中國(guó)能源立法
通過(guò)學(xué)科分析并將結(jié)論提供給用戶(hù),可以為用戶(hù)的學(xué)習(xí)和研究提供重要參考,幫助其厘清當(dāng)前的學(xué)科熱點(diǎn)。
復(fù)旦大學(xué)圖書(shū)館每年花費(fèi)大量經(jīng)費(fèi)采購(gòu)電子資源,如2012年電子資源采購(gòu)經(jīng)費(fèi)為1565.17萬(wàn)元[11],每年圖書(shū)館都要就續(xù)訂和新增數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)商進(jìn)行艱苦的談判,而數(shù)據(jù)庫(kù)使用統(tǒng)計(jì)報(bào)告是圖書(shū)館談判的一個(gè)重要依據(jù)。但目前使用報(bào)告均由數(shù)據(jù)庫(kù)商提供,數(shù)據(jù)真實(shí)性和統(tǒng)計(jì)口徑無(wú)法判定。同時(shí),復(fù)旦大學(xué)圖書(shū)館訂購(gòu)了230多種數(shù)據(jù)庫(kù),近兩年來(lái)的年度全文下載量都超過(guò)了一千萬(wàn)篇。在電子資源的使用過(guò)程中,極少數(shù)用戶(hù)惡意批量下載的行為也時(shí)有發(fā)生,一旦數(shù)據(jù)庫(kù)商的系統(tǒng)監(jiān)測(cè)到類(lèi)似行為,即自動(dòng)封禁復(fù)旦大學(xué)全部用戶(hù)的訪(fǎng)問(wèn)權(quán),造成復(fù)旦大學(xué)其他合法用戶(hù)一段時(shí)間內(nèi)都無(wú)法使用該數(shù)據(jù)庫(kù)。
復(fù)旦大學(xué)圖書(shū)館通過(guò)開(kāi)發(fā)電子資源使用統(tǒng)一統(tǒng)計(jì)分析及惡意下載監(jiān)控平臺(tái),解決了圖書(shū)館界資源使用統(tǒng)計(jì)存在的數(shù)據(jù)異構(gòu)和應(yīng)用異構(gòu)難題,實(shí)現(xiàn)了電子資源統(tǒng)一統(tǒng)計(jì)標(biāo)準(zhǔn),并實(shí)現(xiàn)基于內(nèi)容級(jí)進(jìn)行惡意下載控制。其功能包括:
(1)資源管理 首先對(duì)資源本身進(jìn)行了配置,將資源分成平臺(tái)、網(wǎng)站、數(shù)據(jù)庫(kù)、電子期刊、電子圖書(shū)等類(lèi)別,并根據(jù)學(xué)科分類(lèi)列表對(duì)數(shù)據(jù)庫(kù)、期刊進(jìn)行了分類(lèi),具體分為:電子期刊和圖書(shū)管理(有批量導(dǎo)入和導(dǎo)出功能),平臺(tái)、網(wǎng)站和數(shù)據(jù)庫(kù)管理,學(xué)科分類(lèi)管理,讀者分組管理。
(2)讀者使用統(tǒng)計(jì)分析 本模塊以讀者視角產(chǎn)生統(tǒng)計(jì)報(bào)表,包括:讀者使用行為查詢(xún)、讀者訪(fǎng)問(wèn)文獻(xiàn)信息查詢(xún)、讀者分組管理、讀者分組使用資源統(tǒng)計(jì)、讀者分組使用數(shù)據(jù)庫(kù)統(tǒng)計(jì)、讀者使用行為統(tǒng)計(jì)、讀者原始訪(fǎng)問(wèn)統(tǒng)計(jì)、讀者原始訪(fǎng)問(wèn)查詢(xún)。
(3)資源使用統(tǒng)計(jì) 資源使用統(tǒng)計(jì)以數(shù)據(jù)庫(kù)被訪(fǎng)問(wèn)視角生成報(bào)表,包括數(shù)據(jù)庫(kù)使用報(bào)告、期刊使用報(bào)告、圖書(shū)使用報(bào)告等報(bào)表??砂凑杖掌诰S度對(duì)數(shù)據(jù)庫(kù)和期刊的訪(fǎng)問(wèn)量、下載量進(jìn)行統(tǒng)計(jì);實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)、電子期刊、電子圖書(shū)、文摘的使用統(tǒng)計(jì),還可進(jìn)行讀者分組使用數(shù)據(jù)庫(kù)和電子資源的統(tǒng)計(jì)。
(4)Counter統(tǒng)計(jì)報(bào)告 提供基于Counter Release 4版本的統(tǒng)計(jì)報(bào)告,包括期刊使用報(bào)告、圖書(shū)使用報(bào)告、數(shù)據(jù)庫(kù)使用報(bào)告和平臺(tái)使用報(bào)告。
(5)流量監(jiān)控和用戶(hù)行為監(jiān)控 可監(jiān)測(cè)一個(gè)或多個(gè)IP的實(shí)際網(wǎng)絡(luò)流量信息和用戶(hù)訪(fǎng)問(wèn)行為數(shù)據(jù)(包括檢索、瀏覽、下載)并以列表形式顯示;若流量或單位時(shí)間內(nèi)某種類(lèi)型訪(fǎng)問(wèn)次數(shù)超過(guò)配置的閥值,界面提供報(bào)警顯示,對(duì)指定電子資源進(jìn)行過(guò)量下載判別、預(yù)警通知和控制。
復(fù)旦大學(xué)圖書(shū)館自2012年9月開(kāi)始應(yīng)用該平臺(tái)。2013年3月初,某公司通過(guò)爬蟲(chóng)軟件對(duì)復(fù)旦圖書(shū)館的館藏書(shū)目數(shù)據(jù)進(jìn)行非法下載,系統(tǒng)部的工作人員通過(guò)該平臺(tái)及時(shí)封禁非法IP,保證了館藏書(shū)目系統(tǒng)的正常使用。
復(fù)旦大學(xué)圖書(shū)館網(wǎng)絡(luò)與應(yīng)用系統(tǒng)服務(wù)監(jiān)控平臺(tái)包括6個(gè)功能模塊:交換機(jī)管理、服務(wù)器管理、模擬訪(fǎng)問(wèn)管理、數(shù)據(jù)庫(kù)管理、特定進(jìn)程管理和檢測(cè)項(xiàng)管理;4個(gè)管理模塊:用戶(hù)登錄、用戶(hù)管理、組管理、在線(xiàn)用戶(hù)列表;5個(gè)顯示模塊:查看服務(wù)狀態(tài)、拓?fù)鋱D顯示、MAC地址、算法分析和幫助。其功能模塊結(jié)構(gòu)圖見(jiàn)圖3。
目前該系統(tǒng)已于2011年9月份在復(fù)旦大學(xué)圖書(shū)館部署運(yùn)行,已對(duì)18臺(tái)網(wǎng)絡(luò)交換機(jī)、5臺(tái)具有管理權(quán)限的服務(wù)器及運(yùn)行的特定進(jìn)程、100TB容量存儲(chǔ)陣列、200多個(gè)遠(yuǎn)程數(shù)據(jù)庫(kù)資源進(jìn)行模擬訪(fǎng)問(wèn)監(jiān)測(cè),基本達(dá)到預(yù)期效果,例如復(fù)旦圖書(shū)館的Aleph 500自動(dòng)化系統(tǒng),其服務(wù)器硬盤(pán)有一卷曾因系統(tǒng)數(shù)據(jù)不斷增大,空間被用完,導(dǎo)致系統(tǒng)服務(wù)停止,影響到讀者的使用,此問(wèn)題出現(xiàn)后,花費(fèi)了大量時(shí)間緊急進(jìn)行數(shù)據(jù)和索引恢復(fù),重新清理出空間后方解決問(wèn)題。監(jiān)測(cè)平臺(tái)部署后,對(duì)該服務(wù)器的硬盤(pán)卷的剩余空間實(shí)施實(shí)時(shí)監(jiān)測(cè),設(shè)定剩余空間小于20%時(shí)自動(dòng)發(fā)送預(yù)警通知,有效避免了問(wèn)題再次發(fā)生。
信息技術(shù)的發(fā)展給圖書(shū)館帶來(lái)的不僅僅是挑戰(zhàn),有效利用大數(shù)據(jù)技術(shù)可驅(qū)動(dòng)圖書(shū)館業(yè)務(wù)更好地發(fā)展,通過(guò)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)圖書(shū)館海量非結(jié)構(gòu)化數(shù)據(jù)的獲取、數(shù)據(jù)建模和數(shù)據(jù)可視化分析利用,如各種類(lèi)型的數(shù)字資源、用戶(hù)信息行為數(shù)據(jù)、系統(tǒng)日志記錄等,能對(duì)圖書(shū)館館藏建設(shè)和用戶(hù)服務(wù)實(shí)現(xiàn)數(shù)據(jù)支持級(jí)別的精準(zhǔn)科學(xué)決策,建立圖書(shū)采訪(fǎng)輔助決策支持、學(xué)科服務(wù)支持、電子資源使用統(tǒng)一統(tǒng)計(jì)分析、惡意下載監(jiān)控、圖書(shū)館網(wǎng)絡(luò)與應(yīng)用系統(tǒng)運(yùn)行服務(wù)實(shí)時(shí)監(jiān)控等,由此逐步達(dá)到科學(xué)管理、深化服務(wù),提升用戶(hù)體驗(yàn)的目的。進(jìn)一步的研究將探索整合來(lái)自圖書(shū)館外部的用戶(hù)信息行為數(shù)據(jù),如科學(xué)數(shù)據(jù),并嘗試通過(guò)聯(lián)合多個(gè)學(xué)校共享用戶(hù)信息行為數(shù)據(jù)等,實(shí)現(xiàn)更大范圍、更深層次的大數(shù)據(jù)價(jià)值挖掘和服務(wù)。
1 IDC.The Digital Universe.[2013-06-16].http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
2 IDC.The Digital Universe Decade-Are You Ready?[2013-06-16].http://www.emc.com/collateral/analyst-reports/idc-digital-universe-are-you-ready.pdf.
3 The White house.Big Data is a Big Deal.[2013-06-16].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
4 楊海燕.大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)淺析[J].圖書(shū)與情報(bào),2012(4):120-122.
5 韓翠峰.大數(shù)據(jù)帶給圖書(shū)館的影響與挑戰(zhàn)[J].圖書(shū)與情報(bào),2012(5):37-40.
6 韓翠峰.大數(shù)據(jù)時(shí)代圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展[J].圖書(shū)館,2013(1):121-122.
7 王天泥.大數(shù)據(jù)視角下圖書(shū)館的發(fā)展對(duì)策[J].圖書(shū)館學(xué)刊,2013(3):42-44.
8 王天泥.知識(shí)咨詢(xún):大數(shù)據(jù)時(shí)代圖書(shū)館的知識(shí)服務(wù)增長(zhǎng)點(diǎn)[J].圖書(shū)與情報(bào),2013(2):74-77.
9 張文彥,武瑞原,于潔.大數(shù)據(jù)時(shí)代的圖書(shū)館初探[J].圖書(shū)與情報(bào),2012(6):15-21.
10 朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書(shū)館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013(5):9-13.
11 復(fù)旦大學(xué)圖書(shū)館.2012年度圖書(shū)館經(jīng)費(fèi)使用情況表.[2013-05-18].http://www.library.fudan.edu.cn/main/info/3291.htm