謝永憲 王巧玲 閆格
摘要:本文從數(shù)字檔案信息的存儲量、格式類型、長期保存的責任認識、標準與指南使用率、數(shù)字檔案信息備份方式、數(shù)字檔案管理系統(tǒng)的長期保存功能、長期保存的技術措施、長期保存的困難、長期可讀取性等九個方面,對我國檔案形成機構數(shù)字檔案信息長期保存情況進行了調(diào)查。調(diào)研結(jié)果顯示,我國檔案形成機構的數(shù)字檔案信息長期保存工作整體情況比較嚴峻,還存在很多需要解決的問題。為了更好地解決實際中的問題,本文提出了七點建議。
關鍵詞:數(shù)字檔案 信息 長期保存 格式載體標準
檔案形成機構是在我國正式登記注冊的,能夠獨立行使職權的各種類型的法人單位,其在履行社會職責的過程中形成了大量具有保存價值的原始記錄,即檔案。隨著信息社會的到來,數(shù)字檔案信息在電子政務與電子業(yè)務系統(tǒng)中、在紙質(zhì)檔案數(shù)字化過程中海量生成。作為社會的“記憶”、國家的重要戰(zhàn)略資源,數(shù)字檔案信息必須被長期保存。數(shù)字檔案信息長期保存就是要保證數(shù)字檔案信息的真實性、完整性和長期可用性,為國家和社會的長遠發(fā)展提供有利用價值的數(shù)字信息資源。
本文通過調(diào)研,試圖摸清我國檔案形成機構中數(shù)字檔案信息的長期保存現(xiàn)狀,明確我國數(shù)字檔案信息面臨的風險,找到檔案形成機構在數(shù)字檔案信息長期保存工作中存在的問題、面對的困難,以期為我國數(shù)字檔案信息長期保存研究和實踐提供現(xiàn)實依據(jù)。
一、調(diào)查方案設計
本課題的調(diào)查研究對象是檔案形成機構,即社會中的正式組織。在調(diào)查方案設計中,從操作化的角度看,檔案形成機構被界定為在我國正式登記注冊的且具有專職檔案管理員的法人單位。
(一)調(diào)查內(nèi)容
本課題將調(diào)查研究的核心內(nèi)容“數(shù)字檔案信息長期保存”,具體化為以下九個方面:第一,數(shù)字檔案信息的存儲量;第二,保存的數(shù)字檔案信息格式類型:第三,數(shù)字檔案信息長期保存的責任認識;第四,數(shù)字檔案信息長期保存的標準與指南使用率;第五,數(shù)字檔案信息的備份方式;第六,數(shù)字檔案管理系統(tǒng)長期保存功能;第七,數(shù)字檔案信息長期保存的技術措施;第八,數(shù)字檔案長期保存面臨的困難:第九,數(shù)字檔案的長期可讀取性,并將其作為問卷的基本設計思路。
(二)抽樣方案
本次調(diào)查的樣本數(shù)量為320,為使樣本具有典型的代表性,我們采取配額抽樣的方法進行抽樣。配額的依據(jù)主要為組織類型,即國家機關、事業(yè)單位和企業(yè)的配額比例為1:2:2,由于企業(yè)又包括國有企業(yè)和私營企業(yè),所以,在企業(yè)這個大類中,國有企業(yè)和私營企業(yè)也按照1:1實施配額控制。
(三)調(diào)研數(shù)據(jù)收集方法
本次調(diào)查主要采用“自我管理式問卷調(diào)查法”,即按照抽樣方案,將問卷發(fā)送給作為樣本的單位,由樣本單位的檔案管理人員根據(jù)其單位的實際情況進行填寫。為保證有效問卷的回收率以及所填數(shù)據(jù)的可靠性,課題組成員與所有樣本單位都就有關調(diào)研事宜的配合問題進行了溝通。
二、調(diào)查數(shù)據(jù)分析
2018年7月初至8月底,課題組按照抽樣方案,向被抽樣單位發(fā)放了320份問卷,回收問卷320份,問卷回收率為100%;經(jīng)數(shù)據(jù)核查,其中有效問卷為278份,有效問卷回收率為87%。
(一)樣本基本信息
根據(jù)278個有效樣本的數(shù)據(jù),樣本的組織結(jié)構類型中事業(yè)單位最多,占比36.7%,之后分別是私營企業(yè)占比23%,國有企業(yè)占比20.9%和國家機關占比19.4%。
在樣本單位中,規(guī)模在100人以下的單位最多,占比32%,之后分別是500-1000人的單位占比23.7%,100-500人的單位占比21.9%,1000-2000人及2000人以上的單位較少,各占比11.2%。
在樣本單位中,61.9%的單位產(chǎn)生的檔案沒有對口接收的國家綜合檔案館,39.1%的單位產(chǎn)生的檔案有對口接收的國家綜合檔案館。
(二)數(shù)字檔案信息長期保存基本情況
1.數(shù)字檔案信息存儲量差異大。調(diào)研結(jié)果顯示,數(shù)字檔案信息存儲量最少的只有302M,最多的達到43.7TB。從存儲量規(guī)模來看,1GB(含)以下的樣本單位占比19.8%,1GB-10GB(含)的樣本單位占比52.9%,10GB-100GB(含)的樣本單位占比17.3%,100GB-1TB(含)的樣本單位占比7.6%,1TB以上的樣本單位占比2.5%。
2.數(shù)字檔案信息格式類型多樣。調(diào)研結(jié)果顯示,87.8%的樣本單位保存了文本文件,66.2%的樣本單位保存了圖像文件,55%的樣本單位保存了版式文件,42.1%的樣本單位保存了視頻文件,36%的樣本單位保存了數(shù)據(jù)庫文件,18.7%的樣本單位保存了音頻文件,11.2%的樣本單位保存了電子郵件。
樣本單位保存的文件格式主要包括:純文本文件、格式化文本文件、版式文件、圖像文件、音頻文件、視頻文件、數(shù)據(jù)庫文件等,其數(shù)量超過70種,主要有TXT、XML、UOF、RTF、Microsoft Office、WPS Office、OFD、PDF、SEP、CEB、TIFF、GIF、JPEG、JPEG-2000、BMP、DjVu、PNG、MP3、WAV、WMA、OGG Vorbis、AVI、MOV、MPEG、MDB、SQL等。同時,7.6%的樣本單位保存了業(yè)務環(huán)節(jié)產(chǎn)生的專有格式的電子文件,主要為生產(chǎn)型企業(yè)。
3.數(shù)字檔案信息長期保存責任認識不清。針對長期保存責任的調(diào)研結(jié)果顯示,不清楚責任主體的占比46.4%;認為長期保存的責任主體是國家綜合檔案館的樣本單位占比30.9%;認為責任主體是本單位的占比15.8%;認為本單位與國家綜合檔案館各負其責的占比6.8%。其中,向國家綜合檔案館移交了數(shù)字檔案的樣本單位僅占12.9%。
4.數(shù)字檔案信息管理標準、指南使用率低
從樣本單位遵循標準、指南的情況來看,48.6%的樣本單位認為自己的數(shù)字檔案信息長期保存工作遵循了相關標準、指南,其中45%的樣本單位選擇遵循了國家、行業(yè)標準或者指南,2.5%的樣本單位選擇遵循了國際(外)標準,7.2%的樣本單位選擇遵循了其他標準,如地方標準、企業(yè)標準等,但只有6.5%的樣本單位能夠說明遵循的具體標準、指南名稱;42.1%的樣本單位直接聲稱沒有遵循任何標準、指南;9.4%的樣本單位不清楚是否遵循了相關標準、指南。其中,使用最多的國際(外)標準是《信息與文獻文件管理》(ISO15489),使用最多的國內(nèi)標準、指南是《企業(yè)數(shù)字檔案館(室)建設指南》。
5.有效備份方式使用比率低。調(diào)查結(jié)果表明,15.1%的樣本單位以移動硬盤作為離線存儲的載體:12.6%的樣本單位將光盤作為離線存儲的載體:5%的樣本單位將磁帶作為離線存儲的載體;2.2%的樣本單位同時使用移動硬盤和光盤作為離線存儲的載體。云存儲作為一種新生的存儲方式,目前還沒有被社會廣泛應用,只有4.7%的樣本單位將數(shù)據(jù)存儲于云平臺。64.7%的樣本單位沒有選擇有效的長期保存?zhèn)浞莘绞健?/p>
6.數(shù)字檔案信息管理系統(tǒng)缺乏長期保存功能。從樣本單位數(shù)字檔案信息管理系統(tǒng)或者模塊的功能看,已經(jīng)使用具有數(shù)字檔案信息管理功能系統(tǒng)或者模塊的單位占75.9%,盡管目前大多數(shù)樣本單位僅僅是在OA中設置了文件歸檔模塊,但是可以看出,數(shù)字檔案信息管理的理念與實踐已經(jīng)得到普遍的認可。65.8%的樣本單位能夠?qū)崿F(xiàn)元數(shù)據(jù)的自動捕獲,但是捕獲的對象不夠全面,主要包括文件格式、大小、作者、最后形成時間等幾個常用的元數(shù)據(jù),并且很少有數(shù)字檔案信息管理系統(tǒng)設計了結(jié)構合理的元數(shù)據(jù)方案,普遍缺少專門用于實現(xiàn)數(shù)字檔案信息憑證性與長期保存的元數(shù)據(jù);電子文件與數(shù)字檔案的鑒定無論是在理論上還是在實踐中都是一個難以解決的問題,僅有3.55%的數(shù)字檔案信息管理系統(tǒng)或者模塊具有自動鑒定功能。
7.缺少必要的技術措施。調(diào)查結(jié)果表明,大多數(shù)樣本單位沒有注意到數(shù)字檔案信息長期可讀性的嚴重威脅,此項活動并沒有得到足夠的重視,只有22.7%的樣本單位采取了主動應對技術措施。主動應對的具體情況如下:定期對光盤、磁帶等數(shù)字介質(zhì)備份進行可讀性檢查的樣本單位比例為15.8%,采取遷移方式的樣本單位比例為11.2%,保存主要的數(shù)字檔案信息讀取所需的軟硬件系統(tǒng)的樣本單位比例為5.8%,將特殊格式的數(shù)字檔案轉(zhuǎn)換為通用格式的數(shù)字檔案的比例為4.88%,將此項工作承包給第三方的比例為3.6%,采取XML封裝形式的比例是2.9%,采用仿真方式的比例是0.7%。
8.數(shù)字檔案信息長期保存的困難多樣。從樣本單位數(shù)字檔案信息長期保存工作中出現(xiàn)的困難看,領導不重視是數(shù)字檔案信息長期保存工作中最大的問題,高達42.8%的樣本單位表示贊同,有36%的樣本單位經(jīng)費投入不足,34.9%的樣本單位缺少必要的設備和技術,30.9%的樣本單位認為需要加強人力資源建設,有8.6%的樣本單位認為保存政策缺乏或不穩(wěn)定是存在的困難。
9.數(shù)字檔案信息的長期可讀取性不容樂觀。調(diào)研結(jié)果表明,樣本單位數(shù)字檔案信息長期可讀取的狀況并不理想,僅42.1%的樣本單位表示數(shù)據(jù)完好無損:有26.3%的樣本單位出現(xiàn)了數(shù)字檔案信息不能讀取的現(xiàn)象,其中,19.1%的樣本單位出現(xiàn)了載體不能讀取的現(xiàn)象,11.2%的樣本單位出現(xiàn)了數(shù)據(jù)格式不能讀取的現(xiàn)象:31.6%的樣本單位表示不清楚是否出現(xiàn)了數(shù)字檔案信息不能讀取的現(xiàn)象。
三、研究結(jié)論
根據(jù)以上調(diào)查數(shù)據(jù)可知,我國檔案形成機構的數(shù)字檔案信息長期保存工作整體情況比較嚴峻,還存在很多需要解決的問題。為了更好地解決實際中的問題,筆者針對檔案形成機構如何做好數(shù)字檔案信息長期保存工作提出以下幾點建議。
(一)加快檔案信息化建設
按照我國檔案工作“存量數(shù)字化、增量電子化”的信息化戰(zhàn)略,各機構首先應根據(jù)《紙質(zhì)檔案數(shù)字化規(guī)范》(DAT31-2017)的相關要求,加快紙質(zhì)檔案數(shù)字化;其次應根據(jù)《企業(yè)數(shù)字檔案館(室)建設指南》《數(shù)字檔案室建設指南》的相關要求建設好數(shù)字檔案館(室)、數(shù)字檔案管理系統(tǒng),與機構辦公系統(tǒng)、業(yè)務系統(tǒng)對接,實現(xiàn)原生數(shù)字檔案的全生命周期管理,以解決數(shù)字檔案信息長期保存前端數(shù)據(jù)質(zhì)量控制問題。
(二)規(guī)范管理,加強宣傳
機構的數(shù)字檔案信息長期保存工作涉及大量的人、財、物,需要多個部門的通力配合,規(guī)范的管理和統(tǒng)一的理念必不可少。為了更好地協(xié)調(diào)長期保存工作,各機構需要制定專屬的“數(shù)字檔案信息長期保存規(guī)劃”或者“數(shù)字檔案信息長期保存管理辦法”,內(nèi)容應該包括長期保存的目的、本機構及內(nèi)部各部門的職責、標準應用、技術策略、數(shù)據(jù)備份、人員培訓、經(jīng)費保障、應急預案、定期演練等;同時,積極利用報告、會議、展板、微信平臺、內(nèi)部交流等多種形式向領導層與內(nèi)部員工宣傳數(shù)字檔案信息長期保存工作,培養(yǎng)長期保存的理念和意識,以解決責任不明、意識不強、管理不善、政策不穩(wěn)定的問題。
(三)提高標準、指南的應用程度
根據(jù)實踐的需要,目前國內(nèi)外相關組織已經(jīng)出臺了一批專門指導長期保存工作的國際(外)標準、國家標準、行業(yè)標準、地方標準和指南,初步形成了關于系統(tǒng)構建、元數(shù)據(jù)、專用格式等內(nèi)容可用的標準、指南體系,如《開放檔案信息系統(tǒng)》(ISO14721-2003)、《基于文件的電子信息的長期保存》(GB/Z 23283-2009)、《版式電子文件長期保存格式需求》( DAT47-2009)等。各機構應積極學習、選擇適用的標準、指南,提高長期保存工作的規(guī)范性、安全性,以解決系統(tǒng)功能缺乏、元數(shù)據(jù)方案不合理、數(shù)據(jù)格式多樣等問題。
(四)主動采用專門技術
各種研究表明,作為數(shù)字檔案的載體,包括光盤、磁盤、磁帶等,其耐久性普遍比紙張相差較遠,同時,技術過時被大部分館藏管理者看作對數(shù)字存儲的最大威脅。應對這些技術難題的常用方法包括遷移、仿真、標準化、保存軟硬件等。各機構應根據(jù)數(shù)字檔案格式類型、存儲量的多少制定本單位專用的技術策略,包括技術方案、存儲載體、技術管理等內(nèi)容,以解決載體老化與技術過時問題。
(五)加強人力資源建設
長期保存工作內(nèi)容涉及文件檔案管理、硬件工程、軟件設計等專業(yè)領域的知識,需要大量應用型、復合型人才,而目前我國的高等教育并不能成規(guī)模地培育這種專門人才,因此,各機構首先應該積極引進具有相關知識背景的人才,其次應該加大對工作人員的專業(yè)培訓,更新知識結(jié)構,以解決專業(yè)人員缺乏、知識結(jié)構不完整的問題。
(六)增加資金投入
數(shù)字檔案信息長期保存的標準采用、技術投入、規(guī)范管理、制度宣傳、人才培養(yǎng)等內(nèi)容都需要資金支持,而且這個過程是伴隨長期保存始終的,因此,各機構應根據(jù)實際需求做好資金預算,做到??顚S?、持續(xù)支持,以解決資金不足的問題。
(七)需要政府發(fā)揮引領、促進作用
數(shù)字檔案信息長期保存是社會性問題,需要靠政府引領、促進,需要依靠全社會的力量來解決。因此,政府必須整合各種社會力量,投入到數(shù)字檔案信息長期保存工作中,解決基礎性、復雜性、平臺性問題,營造好社會環(huán)境,具體包括:通過正反面案例大力宣傳長期保存的作用和危害,提高整體社會意識;通過相關法律法規(guī),明確數(shù)字檔案信息全生命周期中各相關主體的責任和權利:制定簡單實用的長期保存標準和指南:引導軟硬件提供商研發(fā)物美價廉的具備長期保存功能的系統(tǒng)或者模塊:幫助相關教學、研究機構建立具備指導、交流、培訓等功能于一體的長期保存工作平臺等,以解決檔案形成機構數(shù)字檔案信息長期保存意識不足、責任不明、標準缺失、成本高企、學習無門等問題。
*本文為國家社科基金項目“我國數(shù)字檔案信息長期保存的策略體系研究(批準號:13CTQ051)”的研究成果之一。
作者單位:北京聯(lián)合大學應用文理學院