華南
很多閱讀功能,讀者以前必須到圖書館才能使用,現(xiàn)在坐在家里登陸國(guó)家圖書館網(wǎng)站就能輕松完成
登陸國(guó)家圖書館讀者賬號(hào),就接到國(guó)圖推送的個(gè)性化新書;翻開“掌上國(guó)圖”微信公眾號(hào),國(guó)家圖書館最新活動(dòng)推送已到眼前……在數(shù)據(jù)資源量每年以百分之幾十的速度增長(zhǎng)的當(dāng)下,大數(shù)據(jù)下的讀者體驗(yàn)隨時(shí)隨地、個(gè)性十足。
“全面、快速、便捷,今天讀者對(duì)圖書館服務(wù)體系已有更高要求?!眹?guó)家圖書館副館長(zhǎng)、全國(guó)青聯(lián)委員魏大威,在大數(shù)據(jù)背景下闡釋國(guó)家數(shù)字圖書館建設(shè),鋪展開基于大數(shù)據(jù)的圖書館服務(wù)發(fā)展藍(lán)圖。
從大數(shù)據(jù)的礦藏里挖出金子來(lái)
“大數(shù)據(jù)不僅在政府管理、公共服務(wù)中,企業(yè)和商業(yè)網(wǎng)站等都在用。我們平時(shí)接觸的互聯(lián)網(wǎng)內(nèi)容,在技術(shù)上都已有應(yīng)用。國(guó)家數(shù)字圖書館在大數(shù)據(jù)方面有基礎(chǔ)。”魏大威介紹到,在沒有大數(shù)據(jù)說(shuō)法的時(shí)候,國(guó)家數(shù)字圖書館建設(shè)就提出“海量數(shù)據(jù)”,即海量數(shù)據(jù)的長(zhǎng)期保存、加工、服務(wù)等等,所以對(duì)于國(guó)家數(shù)字圖書館來(lái)說(shuō),很自然就從“海量”過(guò)渡到“大數(shù)據(jù)”。
2015年8月,國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》指出:“大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對(duì)數(shù)量巨大、來(lái)源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)?!睂?duì)比這四條特征,魏大威說(shuō),國(guó)家數(shù)字圖書館不論從數(shù)據(jù)資源的容量、多樣性等方面,都與國(guó)家提法吻合。國(guó)家圖書館數(shù)字資源總量2015年年底已超過(guò)1100TB。
“其實(shí)數(shù)據(jù)人人有,包括現(xiàn)在的一些企業(yè)都是數(shù)據(jù)資源大戶,關(guān)鍵是有沒有能力從中挖出金子來(lái)。為什么搜索引擎說(shuō)可以比疾控部門提前預(yù)知流感的爆發(fā),就是他們根據(jù)搜索數(shù)據(jù)的趨勢(shì)得出的結(jié)論。對(duì)我們來(lái)說(shuō)也是這樣的概念,簡(jiǎn)單舉例,圖書檢索數(shù)據(jù)能夠顯示讀者最希望在國(guó)圖用到哪些資源和這些資源能不能找到。所以國(guó)圖現(xiàn)在有很大的數(shù)據(jù)基礎(chǔ),我們的工作就是努力從‘礦藏里挖金子。這需要很大投入,資金、人力、科研的投入。”1999年大學(xué)畢業(yè)進(jìn)入國(guó)家圖書館信息技術(shù)部的魏大威,趕上了國(guó)圖數(shù)字化發(fā)展的大時(shí)代。上世紀(jì)90年代末,國(guó)圖也結(jié)合信息技術(shù)發(fā)展趨勢(shì),提出建設(shè)“沒有圍墻的圖書館”,最近幾年隨著移動(dòng)技術(shù)的迅速普及,國(guó)圖又進(jìn)一步構(gòu)建“隨時(shí)隨地隨身的圖書館”。
進(jìn)步在讀者不知不覺中悄然而迅猛地發(fā)生著。魏大威語(yǔ)帶欣喜地說(shuō)道:“作為辦理過(guò)國(guó)家圖書館讀者卡的讀者,如果借閱某種類型的圖書比較多,讀者在利用手機(jī)或電腦客戶端檢索的時(shí)候就會(huì)推送相應(yīng)的資源”。700萬(wàn)名注冊(cè)讀者的年齡、性別、職業(yè)分布和對(duì)圖書館資源的需求特征,對(duì)于國(guó)家圖書館而言都是重要信息。另外,國(guó)家圖書館官網(wǎng)年訪問(wèn)量超過(guò)14億次,就是讀者利用圖書館的數(shù)據(jù)也是很龐大的數(shù)據(jù)資源,這方面此前沒納入國(guó)家圖書館數(shù)據(jù)資源內(nèi)容的讀者信息資源,現(xiàn)在已經(jīng)列入其中。
從2015年起,國(guó)家圖書館推出“我與國(guó)家圖書館的故事”項(xiàng)目。魏大威深入淺出地講解道:“通俗地說(shuō),就是給讀者畫像。我們的700萬(wàn)讀者到底都是什么樣的?利用微信公眾號(hào)等平臺(tái),以問(wèn)卷形式為讀者梳理出對(duì)國(guó)圖資源的利用情況,比如你第一次借閱是什么時(shí)候,至今借閱多少本書等等。這些數(shù)據(jù)我們都會(huì)分析,得出每天到館最多的讀者年齡段、閱讀喜好等,這會(huì)讓我們的服務(wù)更有針對(duì)性。“比如很多讀者檢索某一本書,但是查不到,就說(shuō)明讀者需求我們沒能滿足,要及時(shí)補(bǔ)充圖書。這些數(shù)據(jù)積累起來(lái)就對(duì)我們的館藏建設(shè)是一個(gè)促進(jìn)。”
“超大型元數(shù)據(jù)資源庫(kù)”
“建立超大型元數(shù)據(jù)倉(cāng)儲(chǔ)是未來(lái)數(shù)字圖書館進(jìn)行資源整合的思路之一,從而實(shí)現(xiàn)資源的統(tǒng)一聚合與一站式檢索,將云服務(wù)與關(guān)聯(lián)數(shù)據(jù)結(jié)合起來(lái)實(shí)現(xiàn)數(shù)字館藏的組織和聚合,構(gòu)建‘資源——用戶關(guān)系模型等思路展開工作,但資源整合也面臨著資金、人才、技術(shù)等方面的挑戰(zhàn)。”2014圖書館現(xiàn)代技術(shù)研討會(huì)上,魏大威在發(fā)言中闡釋“超大型元數(shù)據(jù)資源庫(kù)”理念。
“國(guó)家數(shù)字圖書館建設(shè)以來(lái),至今外購(gòu)到數(shù)百個(gè)國(guó)內(nèi)外數(shù)據(jù)庫(kù),按照傳統(tǒng)方式,讀者搜索一個(gè)信息內(nèi)容又不知在哪個(gè)數(shù)據(jù)庫(kù)里,就需要分別進(jìn)入幾百個(gè)數(shù)據(jù)庫(kù)搜索,或者只找?guī)讉€(gè)最知名的數(shù)據(jù)庫(kù),都很不方便。我們就把分布在不同數(shù)據(jù)庫(kù)里的元數(shù)據(jù)都拿出來(lái)放到我們?cè)O(shè)計(jì)的唯一“籃子”里,這就是我們現(xiàn)在做的檢索系統(tǒng),也就是發(fā)現(xiàn)系統(tǒng)。就相當(dāng)于讓讀者在一個(gè)檢索系統(tǒng)里同時(shí)看到所有數(shù)據(jù)庫(kù)里的內(nèi)容?!蔽捍笸枋龅溃S著國(guó)家圖書館和全國(guó)各省級(jí)、市級(jí)圖書館網(wǎng)絡(luò)的聯(lián)通,讀者可以很方便地檢索到全國(guó)哪些圖書館里有這本書。他坦言這對(duì)技術(shù)人員來(lái)說(shuō)也是很大挑戰(zhàn),但這又是未來(lái)數(shù)字圖書館發(fā)展方向,也是他們必須攻克的難關(guān)。
大數(shù)據(jù)時(shí)代,讀者在極其充沛的信息資源面前,另一個(gè)搜索要求就是快速。在魏大威的記憶中,2000年時(shí)用Aleph系統(tǒng),16G、32GCPU的內(nèi)存量可能就能滿足。在傳統(tǒng)數(shù)據(jù)量的模式下,甚至信息部工作人員編寫一個(gè)數(shù)據(jù)庫(kù)代碼就能解決數(shù)字資源檢索問(wèn)題,“而一旦數(shù)據(jù)上億之后,就非傳統(tǒng)手段所能完成。傳統(tǒng)系統(tǒng)放進(jìn)去幾億個(gè)數(shù)據(jù),不要說(shuō)并發(fā),也就是多個(gè)用戶同時(shí)搜索,就是一個(gè)人檢索幾十頁(yè)的內(nèi)容可能就要好幾天時(shí)間,這是不能忍受的?!彼赃@個(gè)東西對(duì)于我們很多平臺(tái)、資源管理來(lái)說(shuō)是全新的,但又必須克服。因?yàn)椴贿@么處理,作為國(guó)家圖書館,幾億條數(shù)據(jù),又要保證一定并發(fā)、一定的效率,肯定要有最先進(jìn)的解決辦法,我們現(xiàn)在用服務(wù)器分散式集群處理這個(gè)問(wèn)題,幾百臺(tái)服務(wù)器共同管理?,F(xiàn)在我們幾億條數(shù)據(jù),而且每年以10%的速度在增加,不斷補(bǔ)充,這些數(shù)據(jù)灌入、索引、處理、清洗,是很復(fù)雜的,這都是數(shù)字圖書科研人員在大數(shù)據(jù)時(shí)代必須解決的問(wèn)題。
“但是這個(gè)坎兒一旦跨過(guò)去了,就上升到另一個(gè)層次?!蔽捍笸硎?。很多閱讀功能,讀者以前必須到圖書館才能使用,現(xiàn)在坐在家里登陸國(guó)家圖書館網(wǎng)站就能輕松完成。
責(zé)任編輯 王海珍