王震宇,王寧
安徽行政學(xué)院圖書館,安徽 合肥 230059
大數(shù)據(jù)時(shí)代圖書館館藏?cái)?shù)字資源整合與存儲(chǔ)策略分析
王震宇,王寧
安徽行政學(xué)院圖書館,安徽 合肥 230059
大數(shù)據(jù)時(shí)代圖書館館藏?cái)?shù)字資源進(jìn)行整合,是信息組織自動(dòng)化、動(dòng)態(tài)性、多模式的需要,也是信息組織的標(biāo)準(zhǔn)化、易用性的需要。圖書館館藏實(shí)現(xiàn)數(shù)字存儲(chǔ),可以為資源共享提供技術(shù)保障,便于文獻(xiàn)資源的分享利用。文章提出了館藏?cái)?shù)字資源整合策略,并設(shè)計(jì)了存儲(chǔ)系統(tǒng)。
大數(shù)據(jù)時(shí)代;圖書館;館藏?cái)?shù)字資源;資源整合;存儲(chǔ)
隨著新興的物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)以及社交軟件的快速發(fā)展,衍生數(shù)據(jù)的增長速度驚人,網(wǎng)絡(luò)中存有海量數(shù)據(jù),這些都預(yù)示著大數(shù)據(jù)時(shí)代的來臨。人們的生產(chǎn)、生活已經(jīng)離不開數(shù)字化信息,而在海量數(shù)據(jù)中篩選出有效數(shù)據(jù)的相關(guān)技術(shù)已經(jīng)成為專家學(xué)者重點(diǎn)關(guān)注的問題[1]。值得注意的是,作為傳統(tǒng)圖書信息資源提供者的圖書館也應(yīng)與時(shí)俱進(jìn),嘗試獲取更為準(zhǔn)確、有效的數(shù)據(jù)信息,為用戶提供高質(zhì)量的服務(wù)。顯然,圖書館方面應(yīng)該依靠海量圖書資源平臺(tái),將大數(shù)據(jù)處理技術(shù)與圖書館服務(wù)理念進(jìn)行緊密結(jié)合,積極探究數(shù)據(jù)的獲取、整理以及存儲(chǔ)等技術(shù),為用戶提供更加有效和人性化的服務(wù)。為應(yīng)對(duì)數(shù)據(jù)量不斷增大的多類型信息資源,圖書館引進(jìn)了數(shù)字資源存儲(chǔ)和整合技術(shù),以保障數(shù)據(jù)處理的優(yōu)質(zhì)、高效。
1.1 數(shù)字資源整合是信息組織自動(dòng)化、動(dòng)態(tài)性、多模式的需要
傳統(tǒng)圖書館整理資料時(shí)是用人工方式,對(duì)各類書籍資料進(jìn)行標(biāo)注、分類和整理,而且檢索的關(guān)鍵字都是需要繁瑣的手工勞動(dòng)進(jìn)行整理和錄入。如今,網(wǎng)絡(luò)上的很多數(shù)字資源(比如多媒體資料,文本資料)都具有很強(qiáng)的時(shí)效性,如果用人工方式進(jìn)行整理,必然會(huì)影響資料使用的效果,所以,數(shù)字資源的自動(dòng)標(biāo)注、自動(dòng)分類和整理,資源關(guān)鍵字的編制以及自動(dòng)化管理等方面都是圖書館的重點(diǎn)研究內(nèi)容[2]。現(xiàn)在數(shù)字資源種類繁多,構(gòu)造成分較為復(fù)雜,信息化比重加大,都讓以傳統(tǒng)手工整理方式為基礎(chǔ)的圖書館的使用優(yōu)勢不再明顯,數(shù)字資源的非結(jié)構(gòu)化也讓自動(dòng)化提取資源特征的難度加大,非文本資源的整理以及低成本化也是傳統(tǒng)手工整理方式難以實(shí)現(xiàn)的。
1.2 數(shù)字資源整合是信息組織的標(biāo)準(zhǔn)化、易用性的需要
因特網(wǎng)是一種將多個(gè)網(wǎng)絡(luò)進(jìn)行整合的互聯(lián)網(wǎng)結(jié)構(gòu),網(wǎng)絡(luò)中的數(shù)字資源是以雜亂無序的方式進(jìn)行分布。信息網(wǎng)絡(luò)是以信息為處理的基本單元,并針對(duì)信息進(jìn)行存儲(chǔ)、添加以及整理的合作型的網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)之間的數(shù)據(jù)交流需要各方面的支持,因此整合網(wǎng)絡(luò)資源的前提就是制定一系列的信息整理和加工的標(biāo)準(zhǔn)(比如制定統(tǒng)一的數(shù)據(jù)格式、統(tǒng)一的索引和描述語言)[3]。在互聯(lián)網(wǎng)環(huán)境下,任何用戶都可以輕松地利用手機(jī)、平板電腦及個(gè)人計(jì)算機(jī)等終端訪問數(shù)字圖書館平臺(tái)并進(jìn)行操作??紤]到用戶的軟件操作水平參差不齊,在設(shè)計(jì)平臺(tái)功能時(shí)要盡量做到簡潔實(shí)用,使普通用戶可以非常方便地檢索到所需的數(shù)字資源,提高平臺(tái)的使用效果。
2.1 為資源共享提供技術(shù)保障
在整合和管理圖書館館藏資源后,圖書館還需要借助先進(jìn)的信息處理技術(shù)來維護(hù)和存儲(chǔ)圖書文獻(xiàn)資源,尤其是非常稀缺的光盤制品和微縮文獻(xiàn)制品等。由于采用的存儲(chǔ)技術(shù)具有運(yùn)行穩(wěn)定性高、技術(shù)成熟、壽命長、應(yīng)用面廣及密度大等優(yōu)勢,所以可以嘗試將簡易信息聚合(RSS)技術(shù)、標(biāo)簽技術(shù)以及Web2.0技術(shù)等應(yīng)用在圖書館存儲(chǔ)工作中,從而幫助圖書館實(shí)現(xiàn)用戶信息推送服務(wù)、用戶個(gè)性化定制服務(wù)、擴(kuò)大檢索服務(wù)、新書發(fā)送服務(wù)及相關(guān)信息鏈接服務(wù)等[4]。正是由于上述技術(shù)支持提供的服務(wù),才使圖書館與用戶的互動(dòng)交流存在有利環(huán)境,讓用戶有更多機(jī)會(huì)參與到信息交流過程中,并根據(jù)個(gè)人的信息需求來獲取相應(yīng)的信息資源服務(wù)。
2.2 便于文獻(xiàn)資源的提供利用
很多歷史文獻(xiàn)資源極其珍貴,尤其是孤本,不可能滿足用戶的閱讀需求,而且相互傳遞閱讀不可能實(shí)現(xiàn),而將其數(shù)字化,則可以滿足讀者的閱讀需要。另外,如果1本16開的書籍有1000多頁,經(jīng)過數(shù)字化處理之后就可以利用 6張微縮平片進(jìn)行存儲(chǔ),而且這些平片可以直接進(jìn)行傳送閱讀。當(dāng)然,關(guān)于音像制品、微縮制品以及光盤的管理和存儲(chǔ)技術(shù)則顯得十分重要,如果沒有有效的管理和存儲(chǔ)技術(shù),便會(huì)對(duì)資源管理和共享產(chǎn)生不良影響。
3.1 圖書館資源整合方案
基于大數(shù)據(jù)的圖書館數(shù)字資源整合方案主要分為大數(shù)據(jù)資源模塊、資源過濾和解析模塊、資源整合模塊、資源整合系統(tǒng)反饋控制模塊等部分(詳見圖1)。
圖1 圖書館館藏?cái)?shù)字資源整合方案
3.1.1 大數(shù)據(jù)資源層主要負(fù)責(zé)存儲(chǔ)和管理數(shù)據(jù)、系統(tǒng)管理數(shù)據(jù)及客戶管理數(shù)據(jù),而且該模塊還會(huì)參照數(shù)據(jù)的存儲(chǔ)特點(diǎn)、數(shù)據(jù)的來源、數(shù)據(jù)的應(yīng)用方向以及數(shù)據(jù)的使用頻率等特點(diǎn)將收集到的數(shù)據(jù)按照規(guī)則存儲(chǔ)到相應(yīng)的管理數(shù)據(jù)庫中,為整個(gè)信息服務(wù)資源整合系統(tǒng)提供信息數(shù)據(jù)的基礎(chǔ)管理服務(wù)。
3.1.2 資源過濾與解析層該部分是大數(shù)據(jù)資源的上層,接受下層的大數(shù)據(jù)資源提供的服務(wù)。該部分主要擔(dān)負(fù)著大數(shù)據(jù)特征的提取、類型和格式的判別、數(shù)據(jù)清洗(即篩選)及數(shù)據(jù)解析等工作,其目的在于不僅過濾掉大數(shù)據(jù)存在的不利噪音,還要規(guī)范數(shù)據(jù)的格式和類型,而且需要進(jìn)一步提高數(shù)據(jù)的存儲(chǔ)密度和使用價(jià)值。
3.1.3 資源整合層為使用大數(shù)據(jù)讀取和轉(zhuǎn)換準(zhǔn)則,將過濾后的數(shù)據(jù)進(jìn)行轉(zhuǎn)換并最終存儲(chǔ)在主數(shù)據(jù)庫中[5]。
3.1.4 資源整合反饋與控制層通過數(shù)據(jù)處理以及分析技術(shù)針對(duì)大數(shù)據(jù)進(jìn)行評(píng)估,并利用系統(tǒng)反饋技術(shù)實(shí)現(xiàn)數(shù)據(jù)整合、資源調(diào)整及反饋系統(tǒng)優(yōu)化,從而整體提高數(shù)據(jù)的操作管理水平,提高數(shù)據(jù)的有效性和可控性。數(shù)字圖書館還會(huì)全程監(jiān)管數(shù)據(jù)的整合過程,及時(shí)發(fā)現(xiàn)問題、糾正錯(cuò)誤及完善管理,為用戶提供安全、可靠及便捷的數(shù)據(jù)服務(wù)。系統(tǒng)反饋控制可以影響資源整合控制策略,進(jìn)一步影響整個(gè)圖書館館藏?cái)?shù)字資源整合方案。
3.2 實(shí)現(xiàn)數(shù)據(jù)在采集終端的過濾與整合策略
數(shù)字圖書館還會(huì)在提供優(yōu)質(zhì)數(shù)據(jù)服務(wù)的同時(shí)積極收集和整合用戶數(shù)據(jù),比如可以利用終端的傳感器、監(jiān)控儀器、服務(wù)器日志監(jiān)控系統(tǒng)以及終端數(shù)據(jù)收集器等設(shè)備,收集和整理系統(tǒng)運(yùn)行信息以及用戶使用的信息。需要強(qiáng)調(diào)的是,這些收集數(shù)據(jù)的設(shè)備構(gòu)建比較復(fù)雜,數(shù)據(jù)量較大,因此在收集數(shù)據(jù)時(shí)要把握系統(tǒng)所需收集數(shù)據(jù)量和網(wǎng)絡(luò)傳輸?shù)呢?fù)載之間的平衡,在不影響硬件設(shè)備正常運(yùn)行的基礎(chǔ)上盡可能地收集所需的信息數(shù)據(jù)[6]。因此在數(shù)據(jù)收集方面采用何種的收集、整理以及過濾策略對(duì)于整個(gè)信息服務(wù)資源整合系統(tǒng)的構(gòu)建起到至關(guān)重要的作用,先進(jìn)的收集技術(shù)將會(huì)大大減少硬件設(shè)備的運(yùn)載負(fù)荷,從而顯著提高數(shù)據(jù)的整理和分析效率。數(shù)字圖書館應(yīng)該注重針對(duì)大量原始數(shù)據(jù)的過濾和整合技術(shù)的研究,降低大數(shù)據(jù)的噪音,有效去除數(shù)據(jù)的冗余信息,提煉有價(jià)值的信息數(shù)據(jù)并進(jìn)行存儲(chǔ),整體上提高數(shù)據(jù)的時(shí)效性和利用率。
圖書館資源存儲(chǔ)系統(tǒng)主要包括應(yīng)用服務(wù)層、平臺(tái)服務(wù)層及基礎(chǔ)設(shè)施服務(wù)層等,這些都參照層次進(jìn)行分類[7]。其中應(yīng)用服務(wù)部分主要提供具體的系統(tǒng)功能;平臺(tái)服務(wù)部分主要提供系統(tǒng)監(jiān)控功能、用戶管理功能以及為應(yīng)用服務(wù)層提供專門接口等。圖書館資源存儲(chǔ)系統(tǒng)就是一種云端類型的網(wǎng)絡(luò),該系統(tǒng)可以提供高并發(fā)的網(wǎng)絡(luò)計(jì)算服務(wù)以及網(wǎng)絡(luò)功能服務(wù),利用分布式技術(shù)和虛擬化技術(shù)來擴(kuò)展 Web網(wǎng)絡(luò)服務(wù)器、應(yīng)用服務(wù)器、存儲(chǔ)服務(wù)器以及數(shù)據(jù)庫服務(wù)器,還可以為不同區(qū)域的數(shù)字圖書館之間提供多種檢索、計(jì)算以及存儲(chǔ)服務(wù)等。
4.1 基礎(chǔ)設(shè)施服務(wù)層
基礎(chǔ)設(shè)施服務(wù)層即 IaaS層,為圖書館資源存儲(chǔ)系統(tǒng)總體架構(gòu)的基礎(chǔ)部分,支撐著整體框架的運(yùn)作,其利用虛擬化技術(shù)將硬件資源和相應(yīng)管理功能進(jìn)行有機(jī)結(jié)合。該服務(wù)層包括 2個(gè)方面功能:⑴利用網(wǎng)絡(luò)硬件設(shè)備、存儲(chǔ)設(shè)備、主機(jī)進(jìn)行虛擬化、抽象化及分布式處理,將數(shù)字圖書館中的各種硬件設(shè)備整合在一起,共同封裝成為基于云存儲(chǔ)基礎(chǔ)服務(wù)設(shè)施,用戶只需將其當(dāng)成一個(gè)整體即可,無需知道是哪部設(shè)備提供服務(wù),只用發(fā)布調(diào)用設(shè)備命令就可以獲取所需的硬件和軟件資源。⑵借助虛擬化技術(shù)以及抽象化技術(shù),基礎(chǔ)設(shè)施服務(wù)層為用戶提供備份管理、計(jì)算服務(wù)管理、數(shù)據(jù)存儲(chǔ)管理及負(fù)載管理等服務(wù)。
4.2 平臺(tái)服務(wù)層
平臺(tái)服務(wù)層即PaaS層,為圖書館資源存儲(chǔ)系統(tǒng)總體架構(gòu)的中間部分,又稱為云中間件,它的作用是將系統(tǒng)的復(fù)用性軟件和通用性軟件進(jìn)行整合,從而實(shí)現(xiàn)為區(qū)域數(shù)字圖書館提供PaaS層服務(wù)。該服務(wù)層主要提供以下 6個(gè)方面功能:⑴提供系統(tǒng)信息管理接口功能,比如課題管理、專題管理、資源管理及簡報(bào)管理等;⑵提供平臺(tái)核心服務(wù)接口功能,比如行為分析和統(tǒng)計(jì)、任務(wù)調(diào)度、資源整合及檢索等;⑶提供信息發(fā)布接口服務(wù),比如提供用戶定制、發(fā)布信息檢索、系統(tǒng)資源導(dǎo)航及資源專題發(fā)布功能等;⑷提供信息規(guī)劃接口功能,比如信息資源規(guī)劃及資源體系規(guī)劃等;⑸系統(tǒng)信息資源加工接口功能,比如信息生產(chǎn)的分析和統(tǒng)計(jì)功能及信息內(nèi)容編發(fā)功能等;⑹提供資源庫的發(fā)布接口功能。
4.3 應(yīng)用服務(wù)層
應(yīng)用服務(wù)層即SaaS層,為圖書館資源存儲(chǔ)系統(tǒng)總體架構(gòu)的高層部分,可以為區(qū)域數(shù)字圖書館提供所需服務(wù)和應(yīng)用軟件支持。借助SaaS層提供的軟件功能,區(qū)域數(shù)字圖書館可以根據(jù)用戶具體需求將系統(tǒng)功能以租用方式提供給用戶或者其他組織。具體來講,提供的服務(wù)功能主要包括 RSS信息服務(wù)、信息訂閱推送服務(wù)、系統(tǒng)信息檢索服務(wù)、個(gè)性化用戶信息服務(wù)、系統(tǒng)公共信息服務(wù)、企業(yè)競爭監(jiān)管服務(wù)、用戶參考和咨詢服務(wù)、技術(shù)評(píng)估服務(wù)及高新技術(shù)查新服務(wù)等。
基礎(chǔ)設(shè)施服務(wù)層主要提供系統(tǒng)管理及業(yè)務(wù)支持的相關(guān)功能,從而保證整個(gè)系統(tǒng)能夠正常運(yùn)行。終端是整個(gè)數(shù)字圖書館的最高層,不僅為用戶提供登錄功能,而且還可以直接與服務(wù)器進(jìn)行交互,該層不再局限于個(gè)人計(jì)算機(jī),只要是能夠訪問云端的終端設(shè)備都可以登錄客戶端。
資源共享模式是大數(shù)據(jù)時(shí)代圖書館發(fā)展的必然趨勢。借助資源整合技術(shù),圖書館不僅可以實(shí)現(xiàn)信息資源的規(guī)模化處理,還可以實(shí)現(xiàn)本圖書館與其他圖書館在同一平臺(tái)上用戶和資源的統(tǒng)一管理,從而更大程度地實(shí)現(xiàn)資源共享目的。存儲(chǔ)功能是借助先進(jìn)技術(shù)將文獻(xiàn)資源按照一定的次序進(jìn)行管理和存儲(chǔ)處理,讓相同或相似的文獻(xiàn)資源緊密關(guān)聯(lián),這就是基于文獻(xiàn)資源的存儲(chǔ)處理的核心所在。
參考文獻(xiàn)
[1]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012,31(11):63-68,77.
[2]劉芳,盧國強(qiáng),劉賓娜,等.大數(shù)據(jù)時(shí)代的數(shù)字圖書館異構(gòu)數(shù)據(jù)集成分析[J].電子技術(shù)與軟件工程,2015(22):193.
[3]鄭颯.大數(shù)據(jù)時(shí)代的圖書館服務(wù)初探[J].黑龍江史志,2015(5):268.
[4]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報(bào),2012(5): 37-40.
[5]溫浩宇,李京京.大數(shù)據(jù)時(shí)代的數(shù)字圖書館異構(gòu)數(shù)據(jù)集成研究[J].情報(bào)雜志,2013,32(9):138-141.
[6]席亞軍.大數(shù)據(jù)時(shí)代下云技術(shù)在圖書館數(shù)據(jù)存儲(chǔ)中的應(yīng)用[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015,27(11):5-8.
[7]黃燕.云存儲(chǔ)在圖書館數(shù)字資源存儲(chǔ)中的應(yīng)用[J].現(xiàn)代情報(bào),2011, 31(4):68-70.
Analysis on the Integration and Storage of Digital Resources in Library Collection in the Era of Big Data
WANG Zhen-yu, WANG Ning
(Library of Anhui Administration Institute, Hefei Anhui 230059, China)
The integration of digital resources in the library collection in the era of big data is the need of automatic, dynamic and multi-mode information organization, and it is also the need of standardization and ease of use of information organization. The achievement of digital storage of library collection can provide technical support for resource sharing, and easy to sharing and use of literature resources. This article put forward to the strategies of digital resource integration and designed the storage system.
era of big data; libraries; digital resources of library collection; resource integration; storage
G250.71
A
2095-5707(2017)03-0035-04
王震宇,王寧.大數(shù)據(jù)時(shí)代圖書館館藏?cái)?shù)字資源整合與存儲(chǔ)策略分析[J].中國中醫(yī)藥圖書情報(bào)雜志,2017,41(3): 35-38.
10.3969/j.issn.2095-5707.2017.03.009
2017-03-27)
(修回日期:2017-05-12;編輯:魏民)
2016年度安徽省教育廳高校人文社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目(SK2016A0254)
王震宇,館員,研究方向?yàn)樽x者服務(wù)。E-mail:Daisj80@163.com