張釗偉
引言
在21世紀(jì)的信息化時代,電子文件和電子檔案已經(jīng)成為主流形式,取代了大部分紙質(zhì)文件和檔案。然而,電子文件數(shù)量、格式和載體的急劇增加以及多變,使得電子文件長期保存變得更加困難,這也對相關(guān)技術(shù)、政策和標(biāo)準(zhǔn)提出了更高的要求。電子文件的長期保存是整個行業(yè)、相關(guān)部門和社會關(guān)注的重點(diǎn)和難點(diǎn)。通過對國內(nèi)外相關(guān)文獻(xiàn)的整理和總結(jié),本文從技術(shù)層面、政策框架和標(biāo)準(zhǔn)建設(shè)三個方面對電子文件的長期保存進(jìn)行了探討,旨在對當(dāng)前的研究熱點(diǎn)、成果和現(xiàn)狀進(jìn)行闡述和分析。
一、研究方法
本研究采用了關(guān)鍵詞聚類法、內(nèi)容分析法、中國知網(wǎng)可視化分析法以及可視化分析軟件CiteSpace6.1.R2關(guān)鍵詞共現(xiàn)等方法,以探索電子文件長期保存問題的發(fā)展現(xiàn)狀和發(fā)展趨勢。關(guān)鍵詞聚類法將相關(guān)話題詞匯集中展示,呈現(xiàn)出一個特定的研究框架;內(nèi)容分析法則通過精確的閱讀、總結(jié)、分析和整理,突破文獻(xiàn)的表象特征,達(dá)到對文獻(xiàn)準(zhǔn)確理解,以確保文獻(xiàn)分析的質(zhì)量和深度。中國知網(wǎng)可視化技術(shù)則反映出期刊文獻(xiàn)長時間內(nèi)發(fā)文量的變化趨勢,而CiteSpace6.1.R2是一種近年來在可視化數(shù)據(jù)統(tǒng)計(jì)分析領(lǐng)域備受關(guān)注的應(yīng)用工具。
二、文獻(xiàn)調(diào)研
本文所使用的文獻(xiàn)數(shù)據(jù)來源于中國知網(wǎng)、萬方數(shù)據(jù)庫和維普期刊網(wǎng)三大數(shù)據(jù)庫。采用逐條閱讀的方式進(jìn)行數(shù)據(jù)清理,篩選掉不相關(guān)的文獻(xiàn)和重復(fù)的文獻(xiàn)。檢索文獻(xiàn)的時間為2022年11月,主題檢索、文獻(xiàn)來源和發(fā)表時間均為不限,文獻(xiàn)均為中文文獻(xiàn)。共檢索到648篇文獻(xiàn),去除掉重復(fù)文獻(xiàn)后,共得到331篇文獻(xiàn)。通過中國知網(wǎng)進(jìn)行文獻(xiàn)可視化處理,然后將其以Refworks格式導(dǎo)出,再轉(zhuǎn)化為CiteSpace可用的特定格式,最終使用CiteSpace對文獻(xiàn)進(jìn)行分析,得出研究熱點(diǎn)。詳細(xì)的文獻(xiàn)篩選過程和檢索結(jié)果(表1)。
圖1展示了中國知網(wǎng)對長期保存電子文件的發(fā)文量進(jìn)行的可視化分析,該圖只對前200篇文獻(xiàn)進(jìn)行了分析。根據(jù)圖中的結(jié)果可以看出,第一篇相關(guān)文獻(xiàn)于1999年發(fā)表,而在2009年之前,電子文件長期保存文獻(xiàn)的年均文獻(xiàn)發(fā)表數(shù)量不足5篇。這表明在當(dāng)時,由于互聯(lián)網(wǎng)的發(fā)展程度有限,電子文件處于起步階段,學(xué)術(shù)界對于電子文件的關(guān)注程度并不高。然而,隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子文件的長期保存問題逐漸引起了業(yè)內(nèi)學(xué)者的關(guān)注。自2011年以來,相關(guān)文獻(xiàn)的發(fā)表數(shù)量激增,在2021年達(dá)到了頂峰,發(fā)表了24篇文獻(xiàn)。
根據(jù)中國知網(wǎng)的數(shù)據(jù),我們可以看出電子文件長期保存期刊文獻(xiàn)的主題分布情況。主題集中在長期保存、數(shù)字資源、數(shù)字資源長期保存、數(shù)字信息資源、開放存儲、元數(shù)據(jù)、存儲載體等方面。這表明,電子文件長期保存問題與技術(shù)的更新、政策制定以及標(biāo)準(zhǔn)的落實(shí)密切相關(guān)。特別是在數(shù)字資源的長期保存、開放存儲、元數(shù)據(jù)和存儲載體等方面,研究尤為深入,這些主題將成為未來研究電子文件長期保存的重要方向。
三、研究熱點(diǎn)
將清洗后的關(guān)鍵詞導(dǎo)入CiteSpace6.1.R2,分析年份為1999年到2022年,連接范圍Links Scope為 Within Slices,得到關(guān)鍵詞共現(xiàn)圖譜, 網(wǎng)絡(luò)同質(zhì)性指標(biāo)Silhouette=0.8324>0.7、Q=0.527表明聚類結(jié)果可信。結(jié)合中國知網(wǎng)的可視化結(jié)果,本文將從電子文件長期保存的技術(shù)層面、政策框架、標(biāo)準(zhǔn)建設(shè)三個方面對文獻(xiàn)進(jìn)行綜述。
四、國內(nèi)文獻(xiàn)綜述
(一)技術(shù)層面
1.策略層面
張艷敏、馬秀峰(2009) 對合作保存策略、技術(shù)有效性策略、風(fēng)險管理策略和經(jīng)濟(jì)策略進(jìn)行了對比分析[1]。黃維莉(2009)對我國數(shù)字資源的長期保護(hù)對策進(jìn)行了描述[2]。陶水龍(2012)提出了以云存儲技術(shù)為基礎(chǔ),構(gòu)建以云存儲為基礎(chǔ)的云備份方案及相應(yīng)的云備份體系結(jié)構(gòu),以解決文件的長期保存與載體的不穩(wěn)定問題[3]。
2.硬件層面
張智雄(2006)等將數(shù)字資源長期保存技術(shù)系統(tǒng)劃分為保存管理模塊、攝入模塊、存儲模塊和存取模塊四大功能模塊,以實(shí)現(xiàn)數(shù)字資源長期保存[4]。楊小云(2009)等提出了數(shù)據(jù)更新、數(shù)據(jù)仿真和數(shù)據(jù)遷移等實(shí)現(xiàn)數(shù)字資源的長期保存技術(shù),為數(shù)字資源長期保存提供了技術(shù)策略參考[5]。
3.軟件層面
李澤鋒(2010)認(rèn)為,OAIS(《開放檔案信息系統(tǒng)參考模型》,ISO14721)的六個功能模塊為數(shù)字檔案館建設(shè)提供了良好的參考架構(gòu),并分析了檔案室實(shí)施OAIS的策略,OAIS的六個功能模塊包括了獲取、鑒定、保管、描述、提取和管理六個方面[6]。肖秋會(2012) 對英國UKDA與TNA的數(shù)據(jù)資源庫與OAIS進(jìn)行比較分析,探討功能和信息流方面的共性與差異[7] 。
(二)政策框架
1.法規(guī)方面
《中華人民共和國檔案法》明確規(guī)定,要確保電子文件檔案的“真實(shí)性、完整性、可用性、安全性”,《電子文件管理暫行辦法》《電子公文歸檔管理暫行辦法》規(guī)定了電子文檔的長期保存?zhèn)浞莸南嚓P(guān)內(nèi)容?!吨腥A人民共和國著作權(quán)法》明確允許檔案館、圖書館為陳列、保存等目的復(fù)制館藏文獻(xiàn),對于電子文檔的長期保存也有相應(yīng)規(guī)定。
2.政策保障方面
《企業(yè)電子文件歸檔和電子檔案管理指南》提出了企業(yè)電子文件的四性保障要求和實(shí)現(xiàn)方法?!镀髽I(yè)數(shù)字檔案館(室)建設(shè)指南》則詳細(xì)介紹了數(shù)字檔案館(室)工作人員的職責(zé)、系統(tǒng)的運(yùn)行和維護(hù)、機(jī)房和檔案數(shù)字化加工場所的管理制度,以及數(shù)字檔案館(室)的安全與保密管理制度等。
3.格式載體方面
《版式電子文件長期保存格式需求》(DA/T47-2009) 基于電子文件長期保存,規(guī)定了版式電子文件的格式特征。《基于XML的電子文件封裝規(guī)范》 (DA/T48-2009)規(guī)定了電子文件基于XML的封裝規(guī)范?!段臅愲娮游募獢?shù)據(jù)方案》(DA/T46-2009)以及《文書類電子檔案檢測一般要求》(DA/T70-2018)共同為文書類電子文件長期保存提供可以遵循的規(guī)范。
(三)標(biāo)準(zhǔn)建設(shè)
旻蘇等(2009)對數(shù)字資源的長期維護(hù)問題進(jìn)行了專門探討,并提出了建設(shè)性的意見[8]。宛玲、張曉林(2006)對數(shù)字資源的長期維護(hù)問題進(jìn)行了專門探討,并提出了建設(shè)性的意見[9]。張家德、楊愛萍(2009)認(rèn)為要建立健全數(shù)字資源長期保存的法制保障制度[10]。袁麗華、包平(2009) 認(rèn)為我國的數(shù)字資源要想長久地保存,要盡快制定相關(guān)的法律法規(guī)[11] 。
五、國外文獻(xiàn)綜述
(一)技術(shù)層面
1.策略層面
Priscilla Caplan(2008) 探討了數(shù)字技術(shù)的被動和主動策略,并指出被動策略包括載體更新、遷移和維護(hù),而主動策略則包括仿真、格式遷移、格式規(guī)范化、軟硬件保存、通用虛擬機(jī)和通用虛擬計(jì)算機(jī)。佛羅里達(dá)圖書館 DAITSS提出了要依據(jù)需要的方式保存原始數(shù)據(jù)內(nèi)容,并且提出了全新的保存理念。
2.硬件層面
Sangchul Song和Joseph JaJa(2009) 對數(shù)字檔案的長期完整性審查與認(rèn)證技術(shù)進(jìn)行了探討,并提出了建議,要確保數(shù)字檔案的長期完整性,需要采用多重校驗(yàn)技術(shù)、定期審查、元數(shù)據(jù)的完整性保護(hù)等方法[12]。Erwin T (2009)等將仿真和元數(shù)據(jù)相結(jié)合,建立了一個三維數(shù)據(jù)的長期數(shù)字存儲框架,并對其進(jìn)行了評價以確??煽啃院涂捎眯訹13]。
3.軟件層面
Heydegger V (2008) 對OAIS的發(fā)展歷程與功能模型進(jìn)行了分析,并指出OAIS標(biāo)準(zhǔn)并不是一個具體的藍(lán)圖,而是一個系統(tǒng)設(shè)計(jì)的概念框架[14]。BRIAN F. LAVOIE (2004) 認(rèn)為,OAIS提供了一個通用的存取模型,但是它并不涉及存儲器的供應(yīng)、控制和存取的具體方式[15]。
(二)政策框架
1.法規(guī)方面
澳大利亞的《版權(quán)法》和英國的《版權(quán)法》以及《版權(quán)和數(shù)據(jù)庫權(quán)利條例》對電子文件長期保存做出了積極的規(guī)定,并提供了合理的版權(quán)保護(hù)豁免。在《保護(hù)文學(xué)和藝術(shù)作品伯爾尼公約》的第九條第二款中,聯(lián)盟成員國可以根據(jù)實(shí)際情況決定是否允許復(fù)制上述著作,并且該公約的正常使用不受影響[16]。
2.政策保障方面
澳大利亞國家審計(jì)署在其《包括電子文件的文件保管》報告中指出, 澳大利亞政府機(jī)構(gòu)發(fā)布的文件保管相關(guān)的立法、標(biāo)準(zhǔn)、政策和指南不斷增加。David O Stephens對英國數(shù)字資源的長期保護(hù)思想和方法進(jìn)行了歸納,并認(rèn)為數(shù)字存儲是國家大事,政府機(jī)關(guān)、商業(yè)機(jī)構(gòu)、大學(xué)、圖書館、檔案館、娛樂媒體產(chǎn)業(yè)、數(shù)字制造者、數(shù)據(jù)存儲中心等都在積極參與[17]。
3.格式載體方面
《開放檔案信息系統(tǒng)(OAIS)》(ISO14721-2003) 引入了表征信息的概念,并提出了“信息包”的定義,為建立可信的電子文件長期保存系統(tǒng)提供了基本參考和重要指南。PREMIS、《基于電子文檔信息的長久保存》(ISO18492-2005)、《文檔管理長期保存的電子文檔格式—第一部分:PDF1.4(PDF/A-1)的應(yīng)用》(ISO19005-1-2005)、《可信數(shù)字存儲庫的審核和認(rèn)證》(ISO16363-2012) 等標(biāo)準(zhǔn)的制定形成了一系列電子文件長期保存的規(guī)范。
(三)標(biāo)準(zhǔn)建設(shè)
電子系統(tǒng)中文件真實(shí)性永久保障國際研究項(xiàng)目(The International Research on Permanent Authentic Records in Electronic Systems,InterPARES)中的項(xiàng)目二中的一份報告《電子文件長期保存格式選擇》對開放、穩(wěn)定和標(biāo)準(zhǔn)化格式的適用范圍進(jìn)行了詳細(xì)的分析, 報告根據(jù)24個國家檔案館的檔案格式要求,總結(jié)出了5個主要標(biāo)準(zhǔn),包括廣泛的應(yīng)用、無專有的資源、標(biāo)準(zhǔn)的可獲得性、平臺的獨(dú)立以及無法被壓縮[18]。
六、研究述評
目前很多的國內(nèi)外學(xué)者對電子檔案長期保存開展了長期的關(guān)注,我國電子文件長期保存的研究熱點(diǎn)主要集中在技術(shù)層面、政策框架和標(biāo)準(zhǔn)建設(shè)三個方面。其中,技術(shù)研究是電子文件長期保存基本前提,相關(guān)政策和標(biāo)準(zhǔn)建設(shè)則是電子文件長期保存頂層設(shè)計(jì),這些研究推動了電子文件長期保存的發(fā)展。然而,當(dāng)前我國電子文件長期保存領(lǐng)域存在一些問題,需加以改進(jìn)。首先,研究成果主要集中在理論層面,缺乏相關(guān)的技術(shù)支持,并且缺乏跨學(xué)科、跨領(lǐng)域的研究成果。其次,針對電子文件長期保存的相關(guān)政策和標(biāo)準(zhǔn)落實(shí)不到位,甚至缺失。最后,電子文件長期保存系統(tǒng)存在不足,如部門之間的監(jiān)管不到位、銜接不順暢等,系統(tǒng)的功能無法滿足長期保存的需求,形成的電子文件不規(guī)范。
為了解決以上問題,需要采取以下改進(jìn)措施。首先,應(yīng)根據(jù)現(xiàn)實(shí)情況,建立跨學(xué)科、跨領(lǐng)域的研究視角,提供技術(shù)支持,建立多領(lǐng)域之間的有效合作。其次,國家和政府應(yīng)開發(fā)更加完善的政策和標(biāo)準(zhǔn),并由各個主體全面貫徹落實(shí)方針政策,為電子文件長期保存提供安全的社會和政策環(huán)境,對我國電子文件的長期保存問題進(jìn)行宏觀調(diào)控。最后,建立我國長期保存的國家策略體系,加強(qiáng)各部門之間的聯(lián)系,充分做好調(diào)研工作,在電子文件管理系統(tǒng)的設(shè)計(jì)前期明確長期保存系統(tǒng)需要的功能,完善文件管理系統(tǒng)。
參考文獻(xiàn):
[1]張艷敏,馬秀峰.中外數(shù)字資源長期保存策略比較研究[J].圖書館學(xué)研究,2009(06):29-32.
[2]黃維莉.數(shù)字資源長期保存策略研究[J].圖書館學(xué)刊,2009,31(07):68-70.
[3]陶水龍.檔案數(shù)字資源云備份策略的分析與研究[J].檔案學(xué)通訊,2012(04):12-16.
[4]張智雄,林穎,吳振新,張曉林.數(shù)字信息資源長期保存技術(shù)體系研究[J].現(xiàn)代圖書情報技術(shù),2006(04):2-7+13+1.
[5]楊小云,魏鑫,吳玉玲.數(shù)字資源長期保存存在的問題及對策[J].農(nóng)業(yè)圖書情報學(xué)刊,2009,21(11):30-33.
[6]李澤鋒.基于OAIS的數(shù)字檔案館功能模型研究[J].檔案學(xué)通訊,2010(03):60-65.
[7]肖秋會.基于OAIS的數(shù)字檔案館功能評價研究——以英國UKDA和TNA數(shù)字資源庫為例[J].檔案學(xué)研究,2012(06):75-78.
[8]旻蘇,李景,殷立新,潘薇.數(shù)字資源長期保存的標(biāo)準(zhǔn)與法律問題綜述[J].標(biāo)準(zhǔn)科學(xué),2009(05):53-57.
[9]宛玲,張曉林.數(shù)字資源長期保存權(quán)益管理政策研究[J].圖書情報知識,2006(02):24-27.
[10]張家德,楊愛萍.淺議數(shù)字資源長期保存的瓶頸——國家政策法律的缺失[J].中國科技信息,2009(12):313+318.
[11]袁麗華,包平.國外數(shù)字資源長期保存及我國的發(fā)展策略[J].新世紀(jì)圖書館,2009(02):9-11.
[12]Oltmans E, Van Wijngaarden H. The KB e-Depot digital archiving policy[J]. Library Hi Tech,2006,24(4):604-13.
[13]Erwin T,Sweetkindsinger J,Larsgaard M L. The?National Geospatial Digital Archives-Collection Development: lessons Leamed [J]. Library Trends2009,57(3):490-515.
[14]Heydegger V. Analysing the Impact of File Formats?on Data Integrity[C]Archiving Conference,2008:50-55(6).
[15]BRIAN F. LAVOIE. The Open Archival Information?System Reference Model: Introductory Guide[J]. Microform and imaging review,2004,33(2):68-81.
[16]姚健、高玉潔等. 圖書館信息化建設(shè)[M].天津:天津科學(xué)技術(shù)出版社,2014.
[17]謝永憲. 數(shù)字資源長期保存研究[M].北京.:世界圖書出版公司,2011.
[18]馮惠玲,趙國俊等.中國電子文件管理.問題與對策[M].北京:中國人民大學(xué)出版社,2009.
作者單位:北京聯(lián)合大學(xué)