摘 要:大數(shù)據(jù)時(shí)代數(shù)字檔案以指數(shù)型倍數(shù)暴增,數(shù)字資源易獲取但長(zhǎng)期保存難度大,數(shù)字資源生命周期短、計(jì)算機(jī)載體依附等特點(diǎn)使其比紙質(zhì)資源面臨更多風(fēng)險(xiǎn)。本文通過(guò)分析大數(shù)據(jù)時(shí)代數(shù)字資源長(zhǎng)期保存的價(jià)值,結(jié)合其存在數(shù)據(jù)結(jié)構(gòu)、技術(shù)、資金等問(wèn)題,提出健全法律建設(shè)、加大人才技術(shù)投入、完善備份等對(duì)策,為推動(dòng)數(shù)字資源長(zhǎng)期保存工作提供借鑒。
關(guān)鍵詞:大數(shù)據(jù);檔案;數(shù)字資源;長(zhǎng)期保存
大數(shù)據(jù)時(shí)代海量的數(shù)字資源使得傳統(tǒng)存儲(chǔ)方式不足以適應(yīng)社會(huì)的發(fā)展,數(shù)字資源的普及程度逐漸超越紙質(zhì)資源,其獨(dú)有的優(yōu)勢(shì)和特點(diǎn)以及重要價(jià)值日趨凸顯,同時(shí)也引發(fā)了對(duì)數(shù)字資源存儲(chǔ)工作的深入研究。2010年,耶魯大學(xué)完成了純電子本E-only的推行,我國(guó)中科院已經(jīng)大規(guī)模減少紙質(zhì)期刊[1]。數(shù)字資源生命周期短,為了在未來(lái)數(shù)字資源可以方便被讀取、理解、利用,數(shù)字資源長(zhǎng)期保存凸顯其更高的必要性和價(jià)值性。
1 大數(shù)據(jù)及數(shù)字資源長(zhǎng)期保存相關(guān)概述
1)大數(shù)據(jù)概述。大數(shù)據(jù)概念源于20世紀(jì)80年代,《大數(shù)據(jù)時(shí)代》中定義大數(shù)據(jù)為“不用隨機(jī)分析法而采用;所有數(shù)據(jù)進(jìn)行分析處理”;麥肯錫研究所對(duì)大數(shù)據(jù)定義是指一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)軟件工具能力范圍的數(shù)據(jù)集合,其具有4V特征,即數(shù)據(jù)量大、流轉(zhuǎn)速度快、類型多樣性、價(jià)值密度低[2]。大數(shù)據(jù)涵蓋了技術(shù)、資源和思維三個(gè)維度,其本質(zhì)意義在于對(duì)數(shù)據(jù)進(jìn)行加工處理挖掘數(shù)據(jù)的潛在價(jià)值。
2)數(shù)字資源長(zhǎng)期保存概述。數(shù)字資源主要指進(jìn)行了一定程度加工且相對(duì)獨(dú)立的數(shù)字資源系統(tǒng),無(wú)序的和自身沒(méi)有控制的資源不屬于數(shù)字資源[3],包括聲音、文字、圖像、視頻等多源異構(gòu)數(shù)據(jù)。數(shù)字資源長(zhǎng)期保存是指保證數(shù)字比特流(或數(shù)字資源)可撐起維護(hù)和內(nèi)容可長(zhǎng)期獲取必要的管理活動(dòng)。[4]數(shù)字資源長(zhǎng)期保存是數(shù)字資源的長(zhǎng)期保管并且保證其完整性有效性,確保數(shù)字資源的可持續(xù)利用,具有長(zhǎng)期儲(chǔ)存(storage)和長(zhǎng)期可獲?。╝ccess)性。
2 數(shù)字資源長(zhǎng)期保存的必要性和價(jià)值性
1)數(shù)字資源長(zhǎng)期保存的必要性。數(shù)字資源以及數(shù)字資源保存系統(tǒng)的更新迭代,導(dǎo)致數(shù)字信息的不可讀取丟失;其次,數(shù)字信息存在易被篡改的脆弱性以及受到自然災(zāi)害、人為因素影響遭到破壞,對(duì)數(shù)字資源妥善長(zhǎng)期保存的要求相應(yīng)提高。
2)數(shù)字資源長(zhǎng)期保存的價(jià)值性。從理論價(jià)值來(lái)說(shuō),檔案?jìng)鞒兄祟愇拿鞯陌l(fā)展,是社會(huì)進(jìn)步重要的文化瑰寶,是人類智慧的結(jié)晶,檔案數(shù)字資源亦如此??沙掷m(xù)性地利用檔案數(shù)字資源,汲取前人的智力成果,傳承人類的思想,從而推進(jìn)社會(huì)的持續(xù)創(chuàng)新。從現(xiàn)實(shí)價(jià)值來(lái)說(shuō),檔案數(shù)字資源長(zhǎng)期存儲(chǔ)和利用為科研人員提供參考資料,為學(xué)術(shù)研究提供淵源的理論基礎(chǔ)。檔案數(shù)字資源長(zhǎng)期存儲(chǔ)研究促進(jìn)文獻(xiàn)資源能夠更加便捷地服務(wù)于社會(huì),不僅能夠長(zhǎng)期完整、安全地保存檔案資源,同時(shí)也能長(zhǎng)期穩(wěn)定地為后代研究提供利用借鑒。
3 數(shù)字資源長(zhǎng)期保存面臨的主要問(wèn)題
1)數(shù)據(jù)的多源異構(gòu)性,限制數(shù)字資源廣泛利用。業(yè)務(wù)系統(tǒng)和數(shù)據(jù)管理系統(tǒng)的多樣性、差異性,以及人為數(shù)據(jù)管理的習(xí)慣性,導(dǎo)致各個(gè)部門累積了批量的不同格式的數(shù)據(jù)。從單一文件數(shù)據(jù)到繁雜的系統(tǒng)數(shù)據(jù)庫(kù),從網(wǎng)頁(yè)信息、音頻、聲像數(shù)據(jù)到視頻等,數(shù)據(jù)多源異構(gòu)要求機(jī)構(gòu)必須對(duì)批量數(shù)據(jù)進(jìn)行統(tǒng)一的轉(zhuǎn)碼、處理、加工,從而使數(shù)據(jù)盡量結(jié)構(gòu)統(tǒng)一,打通數(shù)據(jù)壁壘,并適用于各個(gè)機(jī)構(gòu)部門。然而,當(dāng)前很多存儲(chǔ)系統(tǒng)架構(gòu)及軟件無(wú)法滿足檔案數(shù)字資源指數(shù)暴增的態(tài)勢(shì),需要開(kāi)發(fā)新的系統(tǒng)架構(gòu)來(lái)滿足現(xiàn)在以及未來(lái)的數(shù)據(jù)要求。
2)存儲(chǔ)設(shè)備的局限性,促使數(shù)字資源保存的不穩(wěn)定。存儲(chǔ)設(shè)備更新迭代速度快的特點(diǎn)導(dǎo)致存儲(chǔ)設(shè)備兼容性差,設(shè)備工作環(huán)境的物理環(huán)境不當(dāng)也會(huì)造成設(shè)施損壞。數(shù)字媒介比傳統(tǒng)的膠片、紙質(zhì)圖書(shū)生命周期更短[5]。設(shè)備是數(shù)字資源的長(zhǎng)期保存的載體,長(zhǎng)期穩(wěn)定的存儲(chǔ)離不開(kāi)對(duì)存儲(chǔ)設(shè)備的定期維護(hù)、保養(yǎng)和更新。云存儲(chǔ)是當(dāng)前流行的存儲(chǔ)方式,但第三方數(shù)字存儲(chǔ)機(jī)構(gòu)存在風(fēng)險(xiǎn)導(dǎo)致數(shù)據(jù)丟失,如360云盤服務(wù)器停止服務(wù)導(dǎo)致用戶存在云盤里的資源遭到不同程度的損壞。
3)技術(shù)要求不斷升級(jí),促使資源長(zhǎng)期保存面臨新挑戰(zhàn)。數(shù)字資源長(zhǎng)期保存技術(shù)設(shè)計(jì)數(shù)據(jù)抽取、通用計(jì)算機(jī)虛擬(UVC)、數(shù)字再造技術(shù)等[6]。存儲(chǔ)器是數(shù)字檔案資源存儲(chǔ)重要性影響因素,其存儲(chǔ)的質(zhì)量關(guān)系到數(shù)字檔案的安全性。云儲(chǔ)存技術(shù)、區(qū)塊鏈技術(shù)當(dāng)前尚未成熟,存在數(shù)據(jù)安全和隱私性問(wèn)題。因此數(shù)字資源長(zhǎng)期存儲(chǔ)所依靠的優(yōu)質(zhì)環(huán)境離不開(kāi)安全技術(shù)的不斷提升來(lái)充分保障存儲(chǔ)系統(tǒng)的安全穩(wěn)定。
4)資金投入不足,阻礙資源長(zhǎng)期保存策略進(jìn)程。數(shù)字資源長(zhǎng)期存儲(chǔ)的投入包括設(shè)施、人力技術(shù)、維護(hù)等費(fèi)用,為采用最低的成本存儲(chǔ)最有價(jià)值的信息,數(shù)字保存機(jī)構(gòu)會(huì)對(duì)長(zhǎng)期存儲(chǔ)的數(shù)字資源數(shù)量進(jìn)行限制。制定合理的存儲(chǔ)策略,吸納有利的資金支持,也是長(zhǎng)期保存工作的重點(diǎn)。
4 檔案數(shù)字資源長(zhǎng)期保存實(shí)施路徑
1)建立健全檔案數(shù)字資源相關(guān)法律法規(guī)建設(shè)。法律法規(guī)可以有效保護(hù)數(shù)字資源的長(zhǎng)期保存。目前,檔案數(shù)字資源相關(guān)法律法規(guī)相對(duì)滯后,《檔案法》的修訂草案還未正式實(shí)施。同時(shí),法律用詞較籠統(tǒng)模糊,操作性不強(qiáng),主觀性強(qiáng)。因此,重視檔案數(shù)字資源長(zhǎng)期保存的法制建設(shè),提升法律的規(guī)范性與可操作性,明確檔案數(shù)字資源“保存什么”、“有誰(shuí)保存”、“如何保存”等[7],規(guī)范數(shù)字資源的安全標(biāo)準(zhǔn)和法律措施,為數(shù)字資源的長(zhǎng)期保存提供有力的保障。
2)推進(jìn)數(shù)字資源保存技術(shù)與存儲(chǔ)模式的深入研究。大數(shù)據(jù)、云計(jì)算、AI技術(shù)的快速發(fā)展推動(dòng)了檔案數(shù)字資源的長(zhǎng)期存儲(chǔ)的發(fā)展,同時(shí)也對(duì)檔案數(shù)字資源的存儲(chǔ)安全、信息隱私、數(shù)據(jù)真實(shí)性帶來(lái)了挑戰(zhàn)。數(shù)據(jù)安全方面,加強(qiáng)計(jì)算機(jī)防火墻與防病毒防御功能,開(kāi)發(fā)新存儲(chǔ)系統(tǒng),將存儲(chǔ)系統(tǒng)與外界網(wǎng)絡(luò)斷開(kāi)。推進(jìn)大數(shù)據(jù)存儲(chǔ)模式探究,大數(shù)據(jù)存儲(chǔ)意指將數(shù)據(jù)集合存儲(chǔ)在計(jì)算機(jī)中實(shí)現(xiàn)長(zhǎng)期可持續(xù)可利用。在數(shù)據(jù)開(kāi)放的范圍內(nèi),數(shù)據(jù)資源對(duì)公眾是透明開(kāi)并且可以隨時(shí)隨地使用數(shù)字資源。而在該種模式下,需要各部門共同合作,將有價(jià)值的數(shù)字資源存儲(chǔ)在大數(shù)據(jù)系統(tǒng)中。
3)制定合理的檔案數(shù)據(jù)備份與恢復(fù)策略。備份工作是檔案數(shù)據(jù)信息系統(tǒng)的日常管理的重點(diǎn),需要構(gòu)建科學(xué)完善的數(shù)據(jù)備份和恢復(fù)機(jī)制來(lái)避免數(shù)字資源災(zāi)害造成的危害[8]。檔案數(shù)字資源的安全隱患主要來(lái)源于自然災(zāi)害和人為因素兩方面,因此,定期做好備份并完善恢復(fù)系統(tǒng)極其重要。
5 結(jié)語(yǔ)
檔案數(shù)字資源長(zhǎng)期保存是一項(xiàng)持續(xù)且復(fù)雜的系統(tǒng)性工程,需要法律、人才、科技、資金等方面的支持。在緊跟大數(shù)據(jù)的發(fā)展步伐、規(guī)避傳統(tǒng)存儲(chǔ)方式的問(wèn)題的同時(shí),也要規(guī)避大數(shù)據(jù)、人工智能等新技術(shù)的弊端。檔案數(shù)字資源長(zhǎng)期保存需要制訂靈活、合理的存儲(chǔ)策略,確保有價(jià)值的檔案資源和人類記憶在大數(shù)據(jù)技術(shù)的支持下能有效地長(zhǎng)期保存。
參考文獻(xiàn)
[1]朱學(xué)武.網(wǎng)絡(luò)環(huán)境下圖書(shū)館數(shù)字資源的整合與利用[J].圖書(shū)館學(xué)刊,2009,21(2):82-83.
[2]張?jiān)汽?大數(shù)據(jù)背景下企業(yè)會(huì)計(jì)信息化研究[J].現(xiàn)代商貿(mào)工業(yè),2018,39(29):104-105.
[3]馬文峰.數(shù)字資源整合研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2002(4):64-67.
[4]8.RLG.Trusted Digital Repositories:Attributes and Responsibilities[EB/OL].[2019-12-10].http://www.rlg.org/longterm/repositories.pdf
[5]張容,李勇文.長(zhǎng)久保存數(shù)字資源的文件格式互操作探析[J].山西檔案,2017(06):75-77.
[6]劉曉英.大數(shù)據(jù)時(shí)代圖書(shū)館數(shù)字資源長(zhǎng)期保存問(wèn)題研究[J].圖書(shū)館(7期):90-96.
[7]祁天嬌.美國(guó)數(shù)字檔案資源長(zhǎng)期保存戰(zhàn)略的分析與啟示[J].檔案學(xué)研究,2019,166(01):110-115.
[8]吳筱貞.大數(shù)據(jù)時(shí)代構(gòu)建數(shù)字檔案資源安全保障體系探究[J].黑龍江檔案,2017(02):52.
作者簡(jiǎn)介
方俠(1993-),女,漢族,安徽黃山,研究生在讀,檔案基礎(chǔ)理論與檔案管理現(xiàn)代化。