任生楠
【摘要】? ? 目的/意義:利用互聯(lián)網(wǎng)信息化技術(shù)將博物館收藏的圖書、報(bào)紙、檔案、期刊、圖片等內(nèi)容進(jìn)行有效的保護(hù)和復(fù)用是對歷史文化傳承和研究的重要舉措。方法/過程:搭建7層架構(gòu)的文獻(xiàn)數(shù)據(jù)庫系統(tǒng),每層之間通過松散耦合的方式相互通信,同時(shí)為了系統(tǒng)的安全需要有安全訪問控制層,并將數(shù)據(jù)庫存儲(chǔ)、資源管理系統(tǒng)、發(fā)布服務(wù)系統(tǒng)等部署在同一臺(tái)服務(wù)器上。結(jié)果/結(jié)論:在文獻(xiàn)數(shù)據(jù)庫建設(shè)過程中要加強(qiáng)知識圖譜與知識演進(jìn)變化的研究,同時(shí)要解決史料征集與資源互換的問題。
【關(guān)鍵詞】? ? 博物館? ? 數(shù)字化? ? 文獻(xiàn)數(shù)據(jù)庫
引言:
2021年3月,《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》(以下簡稱“《十四五規(guī)劃》”)正式發(fā)布。筆者發(fā)現(xiàn),數(shù)字化建設(shè)任務(wù)相比以往的5年規(guī)劃,其戰(zhàn)略位勢和建設(shè)內(nèi)容都有了前所未有的提高,具體表現(xiàn)為數(shù)字化第一次在五年規(guī)劃中作為專篇論述,即“加快數(shù)字化發(fā)展 建設(shè)數(shù)字中國”位列規(guī)劃第五篇,前四篇分別是:“開啟全面建設(shè)社會(huì)主義現(xiàn)代化國家新征程”、“堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展 全面塑造發(fā)展新優(yōu)勢”、“加快發(fā)展現(xiàn)代產(chǎn)業(yè)體系 鞏固壯大實(shí)體經(jīng)濟(jì)根基”和“形成強(qiáng)大國內(nèi)市場 構(gòu)建新發(fā)展格局”,這足以說明數(shù)字化在十四五國家發(fā)展戰(zhàn)略中的重要地位。值得關(guān)注的是,“博物館數(shù)字化”在《十四五規(guī)劃》中兩次被提及,博物館數(shù)字化大發(fā)展的機(jī)遇已經(jīng)來臨。
數(shù)字化大發(fā)展可能為博物館在展覽策劃、藏品保護(hù)、學(xué)術(shù)研究、公眾服務(wù)、業(yè)務(wù)管理等方面帶來前所未有的變化,本文討論的文獻(xiàn)數(shù)據(jù)庫建設(shè)就是博物館學(xué)術(shù)研究領(lǐng)域的一項(xiàng)創(chuàng)新性工作。
一、數(shù)字化背景下博物館建設(shè)文獻(xiàn)數(shù)據(jù)庫的意義
習(xí)近平總書記指出:“保護(hù)好、傳承好歷史文化遺產(chǎn)是對歷史負(fù)責(zé)、對人民負(fù)責(zé)。我們要加強(qiáng)考古工作和歷史研究,讓收藏在博物館里的文物、陳列在廣闊大地上的遺產(chǎn)、書寫在古籍里的文字都活起來。”為了深度挖掘文化遺產(chǎn)中蘊(yùn)含的大量珍貴的知識,充分利用好其產(chǎn)生信息資源的無限性、可再生性、可共享性,開展對文化遺產(chǎn)信息資源的數(shù)字化采集、加工、挖掘、管理、傳播及應(yīng)用已經(jīng)成為博物館適應(yīng)數(shù)字化時(shí)代的必然要求。
博物館收藏的特定歷史時(shí)期的圖書、報(bào)紙、檔案、期刊、圖片等內(nèi)容,具有極其珍貴的歷史價(jià)值和學(xué)術(shù)價(jià)值。利用互聯(lián)網(wǎng)信息化技術(shù)將其進(jìn)行有效的保護(hù)和復(fù)用是對歷史文化傳承和研究的重要舉措。此外,文獻(xiàn)數(shù)據(jù)庫建設(shè)將會(huì)吸引機(jī)構(gòu)及學(xué)者共同進(jìn)行全方位深入研究,相關(guān)學(xué)術(shù)資料及其衍生出的研究成果可在展陳、社教、文創(chuàng)等方面提供支撐,進(jìn)而擴(kuò)大博物館在學(xué)術(shù)界的影響力。
二、博物館藏文獻(xiàn)數(shù)據(jù)庫建設(shè)策略
2.1總體目標(biāo)
通過對博物館藏特定歷史時(shí)期的圖書、報(bào)紙、檔案、期刊、圖片等內(nèi)容的數(shù)字化加工采集,同時(shí)利用網(wǎng)絡(luò)信息采集技術(shù)整合多方數(shù)據(jù)資源,構(gòu)建文獻(xiàn)數(shù)據(jù)庫,最終實(shí)現(xiàn)文獻(xiàn)資源數(shù)字化后的分享傳播及研究利用。
2.2設(shè)計(jì)思路
2.2.1平臺(tái)架構(gòu)
數(shù)據(jù)庫系統(tǒng)由原始資源層、數(shù)據(jù)收集層、數(shù)據(jù)資源層、資源處理層、資源管理層、業(yè)務(wù)應(yīng)用層以及訪問層自上而下組成,每層之間通過松散耦合的方式相互通信,同時(shí)為了系統(tǒng)的安全需要有安全訪問控制層。
1.原始資源層
主要是以博物館藏研究資料為主,包括圖書、報(bào)紙、檔案、期刊、圖片等,也包括互聯(lián)網(wǎng)資源。
2.數(shù)據(jù)收集層
此部分主要功能實(shí)現(xiàn)圖書、報(bào)紙、檔案、期刊、圖片及互聯(lián)網(wǎng)資源的收集整理、OCR識別、圖像處理、標(biāo)引及上傳入庫的過程。工作人員通過在線提交、網(wǎng)絡(luò)獲取、數(shù)字化加工等多種渠道和方式將博物館藏資源相關(guān)的數(shù)據(jù)統(tǒng)一提交到數(shù)據(jù)中心,進(jìn)行集中存儲(chǔ)和管理。
3.數(shù)據(jù)資源層
這一層是整個(gè)數(shù)據(jù)庫系統(tǒng)的核心,為上層的應(yīng)用系統(tǒng)提供數(shù)據(jù)服務(wù)是它的主要作用。經(jīng)過收集、加工的數(shù)據(jù)最終存儲(chǔ)在這一層上,并建成幾個(gè)核心的專題資源庫:圖書庫、報(bào)紙庫、檔案庫、期刊庫、圖片庫、其他資源庫等。
4.資源處理層
這一層主要是通過關(guān)鍵詞提取、相似索引等方式,采用自動(dòng)分類、自動(dòng)聚類等手段,進(jìn)行用戶行為分析、熱點(diǎn)分析、關(guān)聯(lián)分析等各類智能挖掘功能,進(jìn)而完成對資源數(shù)據(jù)庫中的各類資源元數(shù)據(jù)的挖掘分析。
5.資源管理層
收集整理的數(shù)據(jù)資源最終建成數(shù)字資源建設(shè)與管理平臺(tái),這一層主要是對本層數(shù)據(jù)庫里的資源進(jìn)行管理和維護(hù),包括元數(shù)據(jù)、數(shù)字對象以及各類資源的訪問權(quán)限。此模塊按云存儲(chǔ)的架構(gòu)采用分布式存儲(chǔ)系統(tǒng)建立博物館資源數(shù)據(jù)中心。
6.業(yè)務(wù)應(yīng)用層
這一層是為應(yīng)用系統(tǒng)提供基礎(chǔ)支撐的平臺(tái),包括信息檢索、知識關(guān)聯(lián)、資源分類、在線瀏覽下載、應(yīng)用權(quán)限控制、用戶行為分析等。
7.訪問層
這一層主要是實(shí)現(xiàn)各類資源的統(tǒng)一發(fā)布,為用戶提供統(tǒng)一的訪問入口,同時(shí)為其他業(yè)務(wù)系統(tǒng)提供程序訪問接口,以便進(jìn)行數(shù)據(jù)交換。在建設(shè)過程中應(yīng)考慮多終端應(yīng)用。
2.2.2網(wǎng)絡(luò)架構(gòu)
文獻(xiàn)數(shù)據(jù)庫是一個(gè)基于網(wǎng)絡(luò)的文化數(shù)據(jù)信息化平臺(tái),其網(wǎng)絡(luò)部署具有很大的機(jī)動(dòng)性和伸縮性,整個(gè)平臺(tái)的部署與將來的使用方式及用戶群體有很大關(guān)系。在最節(jié)省硬件的情況下,文獻(xiàn)數(shù)據(jù)庫可以部署在一臺(tái)高性能的服務(wù)器上,包括數(shù)據(jù)庫存儲(chǔ)、資源管理系統(tǒng)、發(fā)布服務(wù)系統(tǒng)等都可以部署在同一臺(tái)服務(wù)器上。同時(shí),整個(gè)系統(tǒng)主體部分可部署在單位內(nèi)網(wǎng)上,對互聯(lián)網(wǎng)用戶提供發(fā)布服務(wù)的系統(tǒng)可部署在外網(wǎng)上,并分配公網(wǎng) IP 和域名,外網(wǎng)部署的發(fā)布服務(wù)器可以訪問內(nèi)網(wǎng)的資源庫,從而獲取對外發(fā)布的各種內(nèi)容資源。
2.3標(biāo)準(zhǔn)規(guī)范
2.3.1信息資源加工規(guī)范
基礎(chǔ)不牢,地動(dòng)山搖。統(tǒng)一數(shù)字資源加工標(biāo)準(zhǔn),為數(shù)據(jù)庫建庫打牢基礎(chǔ)是非常必要的。我們當(dāng)前有著現(xiàn)成的、少量的數(shù)字化資源與原始的、海量的非數(shù)字化資源,其中非數(shù)字化資源需要對其進(jìn)行數(shù)字化轉(zhuǎn)換,才能為文獻(xiàn)數(shù)據(jù)庫所用。我們應(yīng)該針對不同資源,定義文件格式采樣規(guī)范,如圖書采樣標(biāo)準(zhǔn)、圖片采樣標(biāo)準(zhǔn)等。
2.3.2元數(shù)據(jù)規(guī)范
元數(shù)據(jù)( metadata) 是描述某種類型資源( 或?qū)ο螅┑膶傩圆@種資源進(jìn)行定位和管理、同時(shí)有助于數(shù)據(jù)檢索的數(shù)據(jù)[1]。數(shù)據(jù)庫建設(shè)的元數(shù)據(jù)標(biāo)準(zhǔn)可參考都柏林核心元數(shù)據(jù)(DC),DC元數(shù)據(jù)是在充分吸納了圖書情報(bào)界的編目、分類、文摘等經(jīng)驗(yàn),同時(shí)在利用計(jì)算機(jī)、網(wǎng)絡(luò)的自動(dòng)搜索、編目、索引、檢索等研究成果的基礎(chǔ)上發(fā)展起來的。它是描述、支持、發(fā)現(xiàn)、管理和檢索網(wǎng)絡(luò)資源的信息組織方式,其最大特點(diǎn)是數(shù)據(jù)結(jié)構(gòu)簡單,信息提供者可直接編碼[2]。建議將元數(shù)據(jù)從兩個(gè)角度進(jìn)行定義:一是將數(shù)據(jù)結(jié)構(gòu)化,元數(shù)據(jù)的作用是對信息資源進(jìn)行結(jié)構(gòu)化描述;二是突出元數(shù)據(jù)的功能性,元數(shù)據(jù)應(yīng)該用來發(fā)現(xiàn)、識別與評價(jià)信息資源,并對其進(jìn)行選擇、定位和調(diào)用,進(jìn)而追蹤資源在使用過程中的變化,最終實(shí)現(xiàn)信息資源的整合、管理及使用。
三、博物館藏文獻(xiàn)數(shù)據(jù)庫使用策略
3.1確保文獻(xiàn)數(shù)據(jù)庫用的“活”
既然建設(shè)文獻(xiàn)數(shù)據(jù)庫的初衷是為了讓“躺”在資料室、檔案室的大量文獻(xiàn)“活”起來,讓用戶足不出戶就能便捷地訪問、檢索、查閱及下載,筆者認(rèn)為除了上述的想法之外,我們應(yīng)該讓文獻(xiàn)數(shù)據(jù)庫為用戶帶來一些非凡的體驗(yàn)。
3.1.1研究知識圖譜的應(yīng)用
文獻(xiàn)數(shù)據(jù)庫提供的不僅僅是關(guān)鍵詞的精確與模糊搜索文獻(xiàn)的功能,還應(yīng)該能呈現(xiàn)例如人物關(guān)系、事件關(guān)系的知識圖譜,以某個(gè)人物或某個(gè)事件為關(guān)鍵詞搜索后呈現(xiàn)的圖譜,用戶的鼠標(biāo)在界面上移動(dòng)到任何人物或事件的時(shí)候,都會(huì)出現(xiàn)與該人物或事件關(guān)聯(lián)最大且用戶使用最多的幾項(xiàng)文獻(xiàn)或文章,用戶可以直接查閱、研究。
建議成立一個(gè)單獨(dú)的“知識圖譜研究項(xiàng)目小組”,專門就館藏文獻(xiàn)中各類高頻應(yīng)用的、能夠有知識圖譜展現(xiàn)的關(guān)鍵詞進(jìn)行一一研究,使搜索后呈現(xiàn)的知識更豐富,也區(qū)別于其他知識庫靜態(tài)地展現(xiàn)自有文獻(xiàn)資源,未能與用戶有直接的互動(dòng)關(guān)聯(lián)。
3.1.2研究知識演進(jìn)變化
館藏文獻(xiàn)在紙質(zhì)化使用的過程中,很少有人會(huì)對其中所包含的內(nèi)容做關(guān)聯(lián)與演進(jìn)變化分析,而文獻(xiàn)數(shù)據(jù)庫的投入使用,有可能將文獻(xiàn)原始資料由分散的、靜態(tài)化的呈現(xiàn)方式轉(zhuǎn)變?yōu)殛P(guān)聯(lián)的、動(dòng)態(tài)化的呈現(xiàn)方式??梢栽囅胍幌?,文獻(xiàn)上的一篇文章它的關(guān)鍵詞是可以提煉出來的,提煉之后我們還能夠做些什么?是否可以通過知識關(guān)聯(lián)系統(tǒng)分析提煉出它的研究起點(diǎn)、來源以及由這篇文章提煉出來的研究新方向。而這些研究起點(diǎn)、來源與新方向正是了解文獻(xiàn)與文獻(xiàn)之間強(qiáng)關(guān)聯(lián)與弱關(guān)聯(lián)的有力證據(jù),研究人員可以通過這些文獻(xiàn)之間的關(guān)聯(lián)性開展大量創(chuàng)新研究工作。
3.2確保文獻(xiàn)數(shù)據(jù)庫補(bǔ)的“全”
博物館藏文獻(xiàn)數(shù)據(jù)庫可能是專注于某一特定歷史時(shí)期的文獻(xiàn)資料的,而博物館現(xiàn)藏原始資料大概率是不全的,這就需要工作人員花費(fèi)一定的時(shí)間與精力去補(bǔ)全。筆者認(rèn)為可以通過史料征集與資源互換的形式解決。史料征集方面,博物館可以擴(kuò)大征集信息來源,與社會(huì)各類媒體、信息行業(yè)建立信息互通機(jī)制,依托論壇、微信、微博、QQ 等社交平臺(tái),定期發(fā)布征集信息,拓展征集空間,鼓勵(lì)、引導(dǎo)社會(huì)組織和個(gè)人參與其中[3]。資源互換方面,有能力做數(shù)字化建設(shè)的博物館可以申請與那些有著豐富館藏資源,但是自身數(shù)字化建設(shè)又遲遲無法推動(dòng)的博物館合作,將后者的資源進(jìn)行數(shù)字化后與之共享成果,又能通過此途徑快速帶動(dòng)其博物館數(shù)字化的快速發(fā)展。
四、結(jié)束語
在“十四五規(guī)劃”的大藍(lán)圖下,博物館數(shù)字化將迎來井噴式發(fā)展,誰能掌握優(yōu)質(zhì)資源與數(shù)據(jù)誰就能掌握話語權(quán)。而文獻(xiàn)數(shù)據(jù)庫作為博物館數(shù)字化建設(shè)的一個(gè)組成部分,其展示內(nèi)容直觀性,展示方式的便捷性能夠吸引更多的科研人員參與,并通過對歷史的傳承、精神的延續(xù),促使人們形成意識上的文化覺醒。
參? 考? 文? 獻(xiàn)
[1]許鑫,張悅悅.非遺數(shù)字資源的元數(shù)據(jù)規(guī)范與應(yīng)用研究[J].圖書情報(bào)工作,2014,58(21):13.
[2]艾雪松,石憲,彭超,王志強(qiáng).文物信息資源元數(shù)據(jù)模型構(gòu)建與應(yīng)用研究[J].情報(bào)科學(xué),2019,37(6):70-71.
[3]王守梅,檔案史料征集面臨的困境及應(yīng)對措施[J].黑龍江檔案,2021,(3):179.