譚黔林
[摘要]針對目前高校圖書館特色數(shù)據(jù)庫的建設(shè)現(xiàn)狀,結(jié)合大數(shù)據(jù)時代的特點,提出了大數(shù)據(jù)環(huán)境下高校圖書館特色數(shù)據(jù)建設(shè)的設(shè)想,從數(shù)據(jù)標(biāo)簽、子節(jié)點建設(shè)、虛擬大數(shù)據(jù)庫系統(tǒng)、用戶訪問機制探討了特色大數(shù)據(jù)庫系統(tǒng)的建設(shè)模式、實現(xiàn)方式以及用戶訪問機制。利用“數(shù)據(jù)標(biāo)簽”將分散在不同高校不同類別的特色數(shù)據(jù)庫虛擬地集中起來,實現(xiàn)了特色數(shù)據(jù)的集中展示、統(tǒng)一檢索和共建共享。
[關(guān)鍵詞]大數(shù)據(jù);特色數(shù)據(jù)庫;數(shù)據(jù)標(biāo)簽;研究
1引言
特色數(shù)據(jù)庫是指依托館藏信息資源,針對用戶的信息需求,對某一學(xué)科或某一專題有利用價值的信息進行收集、分析、評價、處理、存儲,并按照一定的標(biāo)準(zhǔn)和規(guī)范將本館的特色資源數(shù)字化,以滿足用戶個性化需求的信息資源庫[1]。就國內(nèi)高校圖書館特色數(shù)據(jù)庫的建設(shè)情況來看,高校圖書館特色數(shù)據(jù)庫群分散在全國各地,數(shù)據(jù)總量可用PB級甚至是EB級來計數(shù),并以一定的周期成TB級的態(tài)勢增長。
2大數(shù)據(jù)與特色數(shù)據(jù)庫
2.1 大數(shù)據(jù)
學(xué)術(shù)界對大數(shù)據(jù)概念并沒有一個統(tǒng)一的定義,但大數(shù)據(jù)的“4V”特征已成科學(xué)界的共識,即規(guī)模性、高速性、多樣性以及價值性,正是這四個特征對數(shù)字時代的數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)共享技術(shù)、數(shù)據(jù)挖掘技術(shù)等方面帶來了巨大的沖擊和挑戰(zhàn),大數(shù)據(jù)的新技術(shù)正逐漸應(yīng)用于互聯(lián)網(wǎng)、超級計算、生物工程等領(lǐng)域。
2.2 國內(nèi)高校圖書館建設(shè)與共享情況
為彰顯館藏特色、傳承民族文化、滿足特色教學(xué)和科學(xué)研究需求,特色數(shù)據(jù)庫已成為各高校圖書館的建設(shè)重點,在CALIS地方特色數(shù)據(jù)建設(shè)項目的支持下,全國高校圖書館進一步掀起了特色數(shù)據(jù)庫的建設(shè)熱潮,其中東三?。ê邶埥⒓?、遼寧)建有210個特色數(shù)據(jù)庫[2],兩廣地區(qū)(廣東、廣西)建有100個特色數(shù)據(jù)庫[3],兩湖地區(qū)(湖北、湖南)建有160個特色數(shù)據(jù)庫[4—5],此外海南、陜西、天津、重慶等地區(qū)高校圖書館都分別建有不同數(shù)量和類別的特色數(shù)據(jù)庫。
從目前對國內(nèi)高校圖書館特色數(shù)據(jù)庫抽樣訪問情況來看,數(shù)據(jù)內(nèi)容的共享情況不容樂觀,以廣西高校圖書館特色數(shù)據(jù)庫的共享情況為例,21所高校圖書館所建的57個特色數(shù)據(jù)庫中,僅有12個數(shù)據(jù)庫可以訪問和下載,其余45個特色數(shù)據(jù)庫都作了不同形式的限制,基于時空和地域條件的差別,數(shù)據(jù)庫的共享程度還有待進一步提高。
3大數(shù)據(jù)時代特色數(shù)據(jù)庫建設(shè)設(shè)想
(1)由于數(shù)據(jù)庫的特色性,不同的地域文化、資源類別、辦學(xué)特點、學(xué)科優(yōu)勢等決定了特色數(shù)據(jù)庫的建設(shè)只能是分散建設(shè),但是能否用同一種途徑或手段將這些不同的特色數(shù)據(jù)庫有效地集中起來。
(2)能否讓已建成的特色數(shù)據(jù)庫通過一個統(tǒng)一的平臺,直觀地展現(xiàn)在用戶眼前,而不需要用戶通過逐一訪問各高校圖書館的特色數(shù)據(jù)庫平臺而獲取。
(3)在眾多的特色數(shù)據(jù)庫類別中,不論采取何種技術(shù)的數(shù)據(jù)庫建設(shè)方式,使用何種類型的檢索系統(tǒng),用戶都能通過統(tǒng)一的檢索平臺,從不同高校、不同類別的數(shù)據(jù)系統(tǒng)中獲取所需要的信息。
(4)基于大數(shù)據(jù)處理技術(shù)的優(yōu)越性,能否將各高校圖書館這些分散的處理系統(tǒng)、存儲系統(tǒng)、數(shù)據(jù)信息等看成是另一個類別的大數(shù)據(jù)系統(tǒng),從而利用大數(shù)據(jù)的核心技術(shù)來進行處理。
4大數(shù)據(jù)時代特色數(shù)據(jù)建設(shè)的技術(shù)手段
基于以上幾點設(shè)想,本節(jié)將從數(shù)據(jù)標(biāo)簽(Data Label)、子節(jié)點建設(shè)、虛擬大數(shù)據(jù)庫系統(tǒng)、用戶訪問機制四個方面來探討大數(shù)據(jù)時代特色數(shù)據(jù)庫的建設(shè)和實現(xiàn)形式。
4.1 數(shù)據(jù)標(biāo)簽
數(shù)據(jù)標(biāo)簽是元數(shù)據(jù)的身份標(biāo)志,主要起到數(shù)據(jù)的定位、查詢、獲取等作用,它在整個系統(tǒng)鏈中處于核心地位?;谔厣珨?shù)據(jù)庫數(shù)據(jù)內(nèi)容的唯一性和特殊性,數(shù)據(jù)標(biāo)簽的字符長度不必太大,也不必太復(fù)雜,太大、太復(fù)雜的數(shù)據(jù)標(biāo)簽雖然能夠提高信息的獲準(zhǔn)率,但同時也延長了數(shù)據(jù)獲取的時間,增加了計算系統(tǒng)的運行成本。數(shù)據(jù)標(biāo)簽內(nèi)容從幾B到幾K不等,在設(shè)計數(shù)據(jù)標(biāo)簽的過程中,考慮到標(biāo)簽內(nèi)容的普遍性、可檢性和預(yù)覽性,它主要包括:建設(shè)單位、數(shù)據(jù)庫類別、數(shù)據(jù)庫名稱、標(biāo)題、作者/出處/來源、關(guān)鍵詞、內(nèi)容簡介、元數(shù)據(jù)獲取標(biāo)志(詳見圖1)。
數(shù)據(jù)標(biāo)簽是特色數(shù)據(jù)庫系統(tǒng)的最小組成單元,它是用戶通過一定的條件限制,從大數(shù)據(jù)中過濾冗余數(shù)據(jù)的身份標(biāo)記,它貫穿于特色數(shù)據(jù)庫從建設(shè)到利用的始終,在特色數(shù)據(jù)庫建設(shè)過程中,數(shù)據(jù)標(biāo)簽可以是由內(nèi)容管理系統(tǒng)自動生成,也可以后期導(dǎo)出數(shù)據(jù)表進行加工處理,每一個特色數(shù)據(jù)庫的元數(shù)據(jù)按照數(shù)據(jù)標(biāo)簽的格式進行著錄建立一個數(shù)據(jù)標(biāo)簽表,給予它一個身份識別標(biāo)志,其中數(shù)據(jù)標(biāo)簽的部分內(nèi)容可以是重復(fù)的,但是構(gòu)成數(shù)據(jù)標(biāo)簽的“元數(shù)據(jù)獲取標(biāo)志”字段必須是唯一的,因為它是用戶從大數(shù)據(jù)中獲取原文件的唯一身份識別標(biāo)志。標(biāo)簽字符上限長度30B20B30B40B50B20B800B30B建設(shè)單位類別名稱標(biāo)題作者/出處/來源關(guān)鍵詞內(nèi)容簡介元數(shù)據(jù)獲取標(biāo)志圖1數(shù)據(jù)標(biāo)簽
4.2 特色數(shù)據(jù)庫子節(jié)點的建設(shè)
特色大數(shù)據(jù)庫系統(tǒng)是由不同地域、不同類別的子庫構(gòu)成。目前,國內(nèi)高校圖書館在特色數(shù)據(jù)庫建設(shè)方面已有了成功的經(jīng)驗和比較成熟的技術(shù)手段,基于數(shù)據(jù)庫的特色性,考慮到設(shè)備、人力、財力、管理、資源的屬地性、效率等諸多因素,特色數(shù)據(jù)庫子節(jié)點應(yīng)由各高校圖書館分散異步建設(shè),而不適用于重新組建統(tǒng)一的機構(gòu)來承擔(dān)建設(shè),在子節(jié)點的建設(shè)過程中,應(yīng)不拘泥于何種建庫標(biāo)準(zhǔn),采用何種建設(shè)方式,使用何種數(shù)據(jù)庫內(nèi)容管理系統(tǒng)。它可以是已建好的特色數(shù)據(jù)庫,也可以是正在建設(shè)的特色數(shù)據(jù)庫,還可以是任何結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)類型。
在子節(jié)點建設(shè)過程中,數(shù)據(jù)標(biāo)簽是數(shù)據(jù)內(nèi)容的基礎(chǔ)單元,對于已經(jīng)建成的特色數(shù)據(jù)庫,可以通過導(dǎo)出相關(guān)的字段信息和原址,進行簡單匹配重新生成數(shù)據(jù)標(biāo)簽表;對于正在建設(shè)的特色數(shù)據(jù)庫,通過制定相應(yīng)的數(shù)據(jù)著錄規(guī)則,從而實現(xiàn)數(shù)據(jù)標(biāo)簽的自動生成。
4.3 虛擬大數(shù)據(jù)庫系統(tǒng)
盡管不同種類的海量數(shù)據(jù)存在一定差異,但總的來說,支持海量數(shù)據(jù)管理的系統(tǒng)應(yīng)具有如下特性:可擴展性(滿足數(shù)據(jù)量增長的需要)、高性能(滿足數(shù)據(jù)讀寫的實時性和查詢處理的高性能)、容錯性(保證分布系統(tǒng)的可用性)、可伸縮性(按需分配資源)和盡量低的運營成本等[6]。
基于大數(shù)據(jù)系統(tǒng)的特點,虛擬數(shù)據(jù)庫系統(tǒng)主要由用戶、虛擬數(shù)據(jù)中心、特色數(shù)據(jù)庫子節(jié)點所構(gòu)成(如圖2)。子節(jié)點由每個高校圖書館的服務(wù)器群集、GPU群集、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備、軟件系統(tǒng)、特色數(shù)據(jù)庫資源系統(tǒng)等組成,每個子節(jié)都有獨立的運算系統(tǒng),一個節(jié)點的丟失不會影響到其他系統(tǒng)的運行。此外,從理論上來說,子節(jié)點可以無限地進行擴容,它們所承擔(dān)的任務(wù)就是數(shù)據(jù)的并行計算和與用戶的信息交匯。
虛擬數(shù)據(jù)中心,是整個特色大數(shù)據(jù)群的前臺,主要承擔(dān)展示特色數(shù)據(jù)庫、傳遞用戶與子節(jié)點的信息交匯、任務(wù)分派等任務(wù)。虛擬數(shù)據(jù)中心并不直接處理用戶提交的需求,也不存儲數(shù)據(jù)原文件,可以建立多個數(shù)據(jù)中心,避免一個虛擬數(shù)據(jù)中心系統(tǒng)的停機影響整個數(shù)據(jù)庫系統(tǒng)的正常運行,同時可以對它們做負載均衡處理以提高運行效率。虛擬數(shù)據(jù)中心通過Internet與每一個子節(jié)點進行連接,特色數(shù)據(jù)庫的子節(jié)點將數(shù)據(jù)標(biāo)簽表傳遞給每一個虛擬數(shù)據(jù)中心,數(shù)據(jù)中心根據(jù)一定的規(guī)則生成Web預(yù)覽目錄和索引表,將不同高校圖書館、不同類別的特色數(shù)據(jù)庫集中展現(xiàn)在虛擬數(shù)據(jù)中心上,從而實現(xiàn)元數(shù)據(jù)預(yù)覽和統(tǒng)一檢索的功能。
圖2虛擬大數(shù)據(jù)系統(tǒng)4.4 信息獲取機制
大數(shù)據(jù)環(huán)境下,用戶獲取信息機制與傳統(tǒng)意義上的信息獲取機制有所不同,用戶通過虛擬數(shù)據(jù)中心的統(tǒng)一搜索框提交新的查詢需求,虛擬數(shù)據(jù)中心通過存儲在本地的數(shù)據(jù)標(biāo)簽表與用戶提交的查詢需求進行內(nèi)容的匹配,如果沒有匹配到對應(yīng)的數(shù)據(jù)標(biāo)簽(DL)則向用戶返回查詢結(jié)果,如果匹配到對應(yīng)的數(shù)據(jù)標(biāo)簽將把查詢的結(jié)果返回用戶。用戶根據(jù)需要提取其中某一條標(biāo)簽,虛擬數(shù)據(jù)中心則根據(jù)數(shù)據(jù)標(biāo)簽內(nèi)容的建設(shè)單位、類別、名稱、數(shù)據(jù)獲取標(biāo)志等字段判定標(biāo)簽所屬節(jié)點,同時將用戶查詢信息、IP地址信息、數(shù)據(jù)標(biāo)簽等內(nèi)容進行封裝提交給所屬子節(jié)點,子節(jié)點在接收虛擬數(shù)據(jù)中心傳遞來的封裝信息后進行解包,根據(jù)數(shù)據(jù)標(biāo)簽內(nèi)容的“元數(shù)據(jù)獲取標(biāo)志”子字段,將本地存儲的原數(shù)據(jù)提取出來,再將原文件傳遞給查詢用戶,至此,整個原文件的獲取過程結(jié)束(見圖3)。
圖3大數(shù)據(jù)下用戶訪問機制
5大數(shù)據(jù)時代高校圖書館特色數(shù)據(jù)建設(shè)特點
5.1 實現(xiàn)了不同數(shù)據(jù)庫的統(tǒng)一展示和檢索
在傳統(tǒng)模式下,用戶想要獲取特色數(shù)據(jù)的內(nèi)容,首先要知道哪些高校建有此類型的特色數(shù)據(jù)庫,其次再進入特定的數(shù)據(jù)庫進行相關(guān)的查閱和下載,這樣既浪費了用戶的時間,也閑置了資源。特色大數(shù)據(jù)系統(tǒng)將所有高校圖書館所建設(shè)的特色數(shù)據(jù)庫資源通過虛擬數(shù)據(jù)中心集中展示在用戶眼前,用戶可以根據(jù)數(shù)據(jù)庫類別進行瀏覽,也可以根據(jù)所屬高校進行預(yù)覽,同時還可以通過統(tǒng)一的檢索界面一站式地進行查詢和檢索,從而提高了特色數(shù)據(jù)庫的利用效率和用戶資源獲取的效率。
5.2 便于特色資源的共建共享
在特色大數(shù)據(jù)庫系統(tǒng)環(huán)境下,各子節(jié)點通過虛擬數(shù)據(jù)中心可以直觀看到其他各節(jié)點特色數(shù)據(jù)庫的建設(shè)情況,這樣在很大程度上可以避免特色數(shù)據(jù)庫的重復(fù)建設(shè)和盲目建設(shè)。此外,特色數(shù)據(jù)庫的建設(shè)由各子節(jié)點來承擔(dān),多個節(jié)點的分散建設(shè)大大地提高了特色數(shù)據(jù)庫的產(chǎn)出效率,節(jié)點之間通過虛擬數(shù)據(jù)中心進行發(fā)布,實現(xiàn)了相互之間資源訪問、下載。
5.3 靈活性
特色大數(shù)據(jù)庫系統(tǒng)建設(shè)的靈活