覃海利 楊征 尹海波 陳孝經(jīng)
(湖南天河國云科技有限公司 湖南長(zhǎng)沙 410000)
大數(shù)據(jù)時(shí)代,電子文件的增加使得數(shù)字檔案和全文數(shù)據(jù)庫成為數(shù)字檔案館館藏資源的重要增長(zhǎng)點(diǎn)。2018年6月,國務(wù)院辦公廳印發(fā)《進(jìn)一步深化“互聯(lián)網(wǎng)+政務(wù)服務(wù)”推進(jìn)政務(wù)服務(wù)“一網(wǎng)、一門、一次”改革實(shí)施方案》,強(qiáng)調(diào)要加快構(gòu)建全國一體化網(wǎng)上政務(wù)服務(wù)體系,推進(jìn)跨層級(jí)、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)[1]。與傳統(tǒng)檔案館相比,數(shù)字檔案館具有接入形式多、存量數(shù)據(jù)大、管理難度高、授權(quán)程序復(fù)雜等問題,讓數(shù)字檔案高效流通,是當(dāng)下發(fā)展新型智慧數(shù)字檔案館的必經(jīng)之路。
2020年,國家明確將區(qū)塊鏈列為新型基礎(chǔ)設(shè)施中的信息基礎(chǔ)設(shè)施,其與社會(huì)生活融合程度日益緊密。我國目前已擁有近100家數(shù)字檔案館、檔案室,通過全國示范測(cè)評(píng),數(shù)字檔案館、檔案室建設(shè)初具規(guī)模。利用區(qū)塊鏈技術(shù),促進(jìn)數(shù)字檔案館數(shù)據(jù)匯聚及共享,提供方便、高效的檔案利用功能,使檔案以數(shù)字化形式充分融入現(xiàn)代化網(wǎng)絡(luò)世界,對(duì)于培育新型智慧數(shù)字檔案館生態(tài)體系、推動(dòng)數(shù)字檔案館轉(zhuǎn)型升級(jí)具有重要的實(shí)踐意義。
數(shù)字檔案館是政府信息資源的數(shù)據(jù)中心和數(shù)據(jù)交換站,它是在現(xiàn)代信息技術(shù)普遍應(yīng)用的基礎(chǔ)上,利用數(shù)字手段,以高度有序的綜合檔案信息資源為處理核心,以高速寬帶通信網(wǎng)絡(luò)為技術(shù)設(shè)施的超大規(guī)模、分布式數(shù)字信息系統(tǒng)。在現(xiàn)代技術(shù)迅速發(fā)展的今天,打造數(shù)字檔案館是政府信息化建設(shè)工作的必要發(fā)展趨勢(shì)。
數(shù)字檔案館擁有豐富的信息資源庫,其內(nèi)容不僅涵蓋了原本采集的文字檔案資源,隨著現(xiàn)代信息技術(shù)的發(fā)展,如今檔案館的采集范圍也進(jìn)一步擴(kuò)大到各行業(yè)的專業(yè)數(shù)據(jù)庫、社會(huì)服務(wù)信息等,磁盤、光盤等電子存儲(chǔ)文件大量出現(xiàn),檔案被以語音、視頻、圖形、圖像等更為豐富的形式記錄,形成具有社會(huì)綜合性質(zhì)的信息資源庫,滿足政府、圖書館等組織機(jī)構(gòu)對(duì)檔案信息資源的需求。
數(shù)字檔案館保存的各類信息主要是計(jì)算機(jī)生成的電子文件和經(jīng)過計(jì)算機(jī)進(jìn)行數(shù)字化處理的各類檔案信息及其他社會(huì)信息,電子文件的存儲(chǔ)介質(zhì)密度遠(yuǎn)大于以往各種人工可識(shí)讀信息介質(zhì)[2]。隨著信息技術(shù)的進(jìn)步,電子文件介質(zhì)的存儲(chǔ)密度還將繼續(xù)增加和擴(kuò)大,可以滿足海量存儲(chǔ)數(shù)據(jù)的需求。
數(shù)字檔案館通過信息網(wǎng)絡(luò)技術(shù),將分散的檔案信息數(shù)據(jù)庫以互聯(lián)網(wǎng)的形式連接起來,對(duì)電子文件資源進(jìn)行遠(yuǎn)程查閱和調(diào)用,擺脫時(shí)間和空間的限制,滿足跨館查詢的需求。數(shù)字檔案館強(qiáng)大的檢索機(jī)制及完善的借閱管理和調(diào)用控制功能可以根據(jù)檢索項(xiàng)對(duì)關(guān)鍵詞、標(biāo)題、日期等條件進(jìn)行篩選、組合,并對(duì)查詢結(jié)果進(jìn)行顯示、排序、轉(zhuǎn)存、打印輸出等技術(shù)處理,實(shí)現(xiàn)精準(zhǔn)查詢與使用。
數(shù)字檔案館具有公信力及權(quán)威性的原因之一來自于其對(duì)檔案信息的真實(shí)性維護(hù)?;谄涔獗P發(fā)布和網(wǎng)絡(luò)發(fā)布這兩種傳播方式,受傳播載體的局限性,前者的受眾只需將檔案信息復(fù)制到光盤,執(zhí)行光盤閱讀程序,即可對(duì)檔案進(jìn)行瀏覽與查閱;后者的傳播范圍更廣,有局域網(wǎng)跟公眾網(wǎng)之別,一些不能公開發(fā)布的檔案信息就必須在局域網(wǎng)上發(fā)布傳遞,對(duì)時(shí)效和保密程度進(jìn)行嚴(yán)格限制。
數(shù)字檔案館的安全包括網(wǎng)絡(luò)、系統(tǒng)、信息、物理等方面。從系統(tǒng)安全層面上看,數(shù)字檔案館分為信息認(rèn)證和訪問控制,信息認(rèn)證更多是基于利用者身份進(jìn)行認(rèn)證核實(shí);訪問控制更多是基于計(jì)算機(jī)及檔案信息進(jìn)行認(rèn)證,通過授權(quán)相關(guān)權(quán)限,控制用戶可訪問的范圍。從信息安全層面上看,數(shù)字檔案館是管理和技術(shù)等多個(gè)體系的整合,在邊界防衛(wèi)、入侵監(jiān)測(cè)和安全反應(yīng)等環(huán)節(jié),需要建立多重信息安全保障體系來維護(hù)系統(tǒng)安全。
根據(jù)檔案性質(zhì)的不同,一般的數(shù)字檔案館以完全公開的檔案信息、需要授權(quán)訪問才可查閱的檔案信息及從外界采集的其他數(shù)字化信息為主,通過專用的系統(tǒng)軟件,對(duì)入館的各類信息按照年份、品類等進(jìn)行分類排序,鑒定檔案價(jià)值,對(duì)所記錄的數(shù)據(jù)進(jìn)行校驗(yàn),生成信息目錄并標(biāo)記,確保檔案信息能被完整引用和查閱,形成有序的信息數(shù)據(jù)庫。
區(qū)塊鏈?zhǔn)侨ブ行幕姆植际劫~本技術(shù),利用塊鏈?zhǔn)綌?shù)據(jù)結(jié)構(gòu)來驗(yàn)證與存儲(chǔ)數(shù)據(jù)、利用分布式節(jié)點(diǎn)共識(shí)算法來生成和更新數(shù)據(jù)、利用密碼學(xué)的方式來保證數(shù)據(jù)傳輸和訪問的安全、利用自動(dòng)化腳本代碼組成的智能合約來編程和操作數(shù)據(jù)的一種全新的分布式基礎(chǔ)架構(gòu)與計(jì)算范式。
利用鏈?zhǔn)浇Y(jié)構(gòu)保障數(shù)據(jù)安全,采取分布式核算和存儲(chǔ)的方式,不存在第三方管理機(jī)構(gòu)或中心化管制,任意節(jié)點(diǎn)之間的權(quán)利和義務(wù)都是均等的,且任一節(jié)點(diǎn)的損壞或者失去都不會(huì)影響整個(gè)系統(tǒng)的運(yùn)作,塑造穩(wěn)定的區(qū)塊鏈運(yùn)行系統(tǒng)[3]。
區(qū)塊鏈利用帶有時(shí)間戳的鏈?zhǔn)絽^(qū)塊結(jié)構(gòu)存儲(chǔ)數(shù)據(jù),從而為數(shù)據(jù)增加了時(shí)間維度,具有可驗(yàn)證性和可追溯性。同時(shí),由于區(qū)塊是由整個(gè)系統(tǒng)中所有具有維護(hù)功能的節(jié)點(diǎn)來共同維護(hù)的,因此,當(dāng)數(shù)據(jù)出現(xiàn)錯(cuò)誤或者擾動(dòng)時(shí),系統(tǒng)能通過時(shí)間戳對(duì)數(shù)據(jù)進(jìn)行溯源,提升數(shù)據(jù)的可驗(yàn)證性。
鑒于區(qū)塊鏈?zhǔn)且粋€(gè)分布式平等部署的網(wǎng)絡(luò)[4],且由各節(jié)點(diǎn)共同維護(hù)、共同參與,因此,任何數(shù)據(jù)變化都能通過共識(shí)機(jī)制在區(qū)塊鏈網(wǎng)絡(luò)中實(shí)現(xiàn)同步共享,解決數(shù)據(jù)共享難、管理難問題。
區(qū)塊鏈利用非對(duì)稱密碼學(xué)原理對(duì)數(shù)據(jù)進(jìn)行加密,可以在驗(yàn)證數(shù)據(jù)真實(shí)性的同時(shí),防止數(shù)據(jù)泄露,防止他人倒推數(shù)據(jù)源,為區(qū)塊鏈數(shù)據(jù)不可偽造、不可篡改、可公開驗(yàn)證和隱私保護(hù)提供了基礎(chǔ)保障,各區(qū)塊節(jié)點(diǎn)的身份信息在無需公開或驗(yàn)證的前提下實(shí)現(xiàn)數(shù)據(jù)匿名傳遞。
與傳統(tǒng)檔案館相比,數(shù)字檔案館的信息資源庫種類豐富、形式復(fù)雜、規(guī)模浩瀚,對(duì)電子檔案的真實(shí)性和安全性提出了新要求。結(jié)合區(qū)塊鏈特點(diǎn),將區(qū)塊鏈技術(shù)應(yīng)用于數(shù)字檔案館具有一定可行性。
安全、可靠、可控地實(shí)現(xiàn)數(shù)字檔案共享是數(shù)字檔案館核心功能需求。數(shù)據(jù)共享分為涉密檔案、隱私檔案、政務(wù)檔案、公開檔案等多個(gè)級(jí)別,不同級(jí)別具有不同的共享安全需求。利用區(qū)塊鏈非對(duì)稱加密技術(shù),可對(duì)數(shù)字身份、用戶體系、權(quán)限控制、授權(quán)機(jī)制,以及對(duì)全部檔案管理及利用流程日志進(jìn)行記錄,對(duì)涉密文件進(jìn)行加密及對(duì)部分可使用身份授權(quán),確保涉密文件數(shù)據(jù)安全。同時(shí),對(duì)數(shù)字檔案采用分級(jí)、分類的加密存儲(chǔ)設(shè)計(jì)和多重備份模式,加強(qiáng)數(shù)據(jù)存儲(chǔ)安全。通過對(duì)數(shù)據(jù)安全的多方位保護(hù)及保障,確保檔案在安全可控環(huán)境下運(yùn)行,為數(shù)字檔案互聯(lián)互通營(yíng)造一個(gè)可信的操作環(huán)境。
通過人工智能及算法模型等技術(shù),以區(qū)塊鏈多中心治理機(jī)制,采用實(shí)時(shí)采集工作檔案及簡(jiǎn)便易操作的授權(quán)及查詢模式,降低數(shù)據(jù)檢索及查詢難度。政府單位、企業(yè)、個(gè)人可通過局域網(wǎng)(檔案館)、政務(wù)網(wǎng)絡(luò)、互聯(lián)網(wǎng)專用平臺(tái)、數(shù)據(jù)接口及開放平臺(tái)的方式進(jìn)行數(shù)據(jù)查詢,減少對(duì)實(shí)物資料的歸檔查閱,實(shí)現(xiàn)數(shù)據(jù)可信、可控,降低數(shù)據(jù)互通壁壘,簡(jiǎn)化檔案管理流程及查閱流程,提高數(shù)字檔案館運(yùn)行效率。
基于大數(shù)據(jù)及區(qū)塊鏈技術(shù)組件開放式系統(tǒng)架構(gòu),建立基于數(shù)據(jù)確權(quán)及授權(quán)基礎(chǔ)的大數(shù)據(jù)共享服務(wù)平臺(tái),將數(shù)字檔案館系統(tǒng)融入具體的業(yè)務(wù)系統(tǒng),降低數(shù)據(jù)匯聚難度,提高匯聚效率,實(shí)現(xiàn)與各單位業(yè)務(wù)系統(tǒng)的實(shí)時(shí)對(duì)接。另外,接通政府單位、企業(yè)、政務(wù)網(wǎng)絡(luò)、互聯(lián)網(wǎng)專用平臺(tái)、數(shù)據(jù)接口等,逐步建立完整、完善的數(shù)字檔案共享生態(tài)體系,提升公共檔案服務(wù)能力,實(shí)現(xiàn)檔案信息資源的社會(huì)共享,形成融合式發(fā)展。
2017年6月30日,英國薩里大學(xué)(University of Surrey)聯(lián)合英國國家檔案館(The National Archives)、開放數(shù)據(jù)研究所(Open Data Institute)等機(jī)構(gòu),開展名為ARCHANGEL的研究[5],利用區(qū)塊鏈技術(shù),解決當(dāng)時(shí)數(shù)字檔案長(zhǎng)期性與完整性管理問題。
4.1.1 多方“參與記賬”管理提效
鑒于ARCHANGEL數(shù)字檔案館的檔案管理者及參與機(jī)構(gòu)大多都跨學(xué)科、跨國家、跨地區(qū),因此,ARCHANGEL 項(xiàng)目在實(shí)踐之初采用區(qū)塊鏈去中心化和智能合約技術(shù)來實(shí)現(xiàn)“許可記賬”,只有被許可的參與者才能在賬本上存儲(chǔ)新內(nèi)容,更新數(shù)據(jù)庫,每個(gè)參與者地位平等,實(shí)現(xiàn)數(shù)字檔案館的共同管理。被許可的參與者通過數(shù)字指紋、時(shí)間戳、數(shù)字簽名等來驗(yàn)證身份,追溯數(shù)字檔案的管理流程及經(jīng)手人員,實(shí)現(xiàn)信任體系的相互制約和協(xié)同。
4.1.2 靈活架構(gòu)驗(yàn)證檔案完整性
ARCHANGEL項(xiàng)目基于區(qū)塊鏈的哈希算法構(gòu)建了一種可驗(yàn)證檔案完整性的架構(gòu),從數(shù)字檔案初始移入檔案館開始,在區(qū)塊鏈上保存電子檔案文件的哈希值及檢索必要的檔案屬性元數(shù)據(jù),一旦需要對(duì)電子檔案進(jìn)行驗(yàn)證時(shí),僅需對(duì)現(xiàn)有文件計(jì)算哈希值并與區(qū)塊鏈中對(duì)應(yīng)值進(jìn)行對(duì)比,如有差異,則表示保存文件被篡改。
值得一提的是,ARCHANGEL項(xiàng)目還開發(fā)了一種針對(duì)視頻檔案的專用哈希算法,即使視頻的檔案格式發(fā)生改變,但只要內(nèi)容不變,則運(yùn)算后的哈希值也保持不變。
長(zhǎng)沙縣智慧數(shù)字檔案館是在數(shù)字檔案館的基礎(chǔ)上,利用區(qū)塊鏈技術(shù),加強(qiáng)權(quán)限控制及身份驗(yàn)證,升級(jí)數(shù)字檔案安全防護(hù),發(fā)揮數(shù)字檔案更大價(jià)值。
4.2.1 實(shí)現(xiàn)檔案資源智能化管理
長(zhǎng)沙縣智慧數(shù)字檔案館通過打造數(shù)字檔案資源管理平臺(tái),對(duì)所接收的各類數(shù)字檔案信息進(jìn)行整理、比對(duì)、分類、著錄、掛接、鑒定、檢索、統(tǒng)計(jì)等操作,對(duì)重復(fù)數(shù)據(jù)進(jìn)行識(shí)別及過濾,對(duì)館藏?cái)?shù)字檔案及實(shí)體檔案進(jìn)行數(shù)據(jù)分析、匯總等智慧化管理,使無序信息有序化,對(duì)數(shù)字檔案數(shù)據(jù)、元數(shù)據(jù)及索引數(shù)據(jù)(目錄)建立自動(dòng)生成及關(guān)聯(lián)功能,實(shí)現(xiàn)一定程度的智能化自動(dòng)或檔案管理功能,滿足基于身份驗(yàn)證、權(quán)限控制的數(shù)字檔案管理需求。
在實(shí)現(xiàn)對(duì)檔案信息資源有效管理的同時(shí),長(zhǎng)沙縣智慧數(shù)字檔案館面向不同用戶群體提供檔案信息的共享利用,建立全市檔案信息資源總庫,庫中數(shù)據(jù)通過鑒定后,可根據(jù)不同的性質(zhì)面向不同群體的用戶提供檔案利用服務(wù)。例如,發(fā)布到電子閱覽室系統(tǒng)中,面向到館查檔的用戶提供查詢利用;發(fā)布到黨政機(jī)關(guān)利用服務(wù)平臺(tái)中,面向市直立檔單位用戶提供檔案查詢服務(wù);發(fā)布到互聯(lián)網(wǎng)信息門戶,面向社會(huì)公眾提供檔案信息服務(wù)等。
4.2.2 多重加密保障數(shù)據(jù)安全
利用區(qū)塊鏈技術(shù)的可追溯、不可篡改和分布式存儲(chǔ)特征,長(zhǎng)沙縣數(shù)字檔案館將系統(tǒng)操作日志保存在區(qū)塊鏈上,在工作時(shí)間之外,如有系統(tǒng)啟動(dòng)辦理查詢業(yè)務(wù),則會(huì)將操作人員、操作時(shí)間、操作結(jié)果等業(yè)務(wù)信息上鏈存證,同時(shí)通知相關(guān)管理人員,能有效避免數(shù)字檔案查詢權(quán)限的濫用,防止檔案文件泄密。
針對(duì)數(shù)字檔案海量數(shù)據(jù)所帶來的隱私保護(hù)及數(shù)據(jù)安全問題,長(zhǎng)沙縣數(shù)字檔案館打造大數(shù)據(jù)安全保障服務(wù)系統(tǒng),在區(qū)塊鏈分布式節(jié)點(diǎn)網(wǎng)絡(luò)的基礎(chǔ)上,通過數(shù)據(jù)分級(jí)分類加密存儲(chǔ)[6]、數(shù)字身份關(guān)聯(lián)綁定、分級(jí)數(shù)據(jù)授權(quán)訪問、隱私數(shù)據(jù)分離等技術(shù),結(jié)合常規(guī)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全、數(shù)據(jù)安全及控制安全的技術(shù)所形成的綜合安全保障服務(wù)體系,實(shí)現(xiàn)大數(shù)據(jù)匯聚、確權(quán)、授權(quán)、應(yīng)用、分析、監(jiān)管等全生命周期的監(jiān)管及預(yù)警,確保數(shù)據(jù)隱私及數(shù)據(jù)安全,能夠在統(tǒng)一安全策略下防護(hù)系統(tǒng)免受來自國家級(jí)別的、敵對(duì)組織的惡意攻擊,避免受嚴(yán)重的自然災(zāi)難及其他相當(dāng)危害程度的威脅所造成的資源損害,及時(shí)發(fā)現(xiàn)安全漏洞和安全事件,并在系統(tǒng)遭到損害后迅速恢復(fù)所有功能。
4.2.3 水印追溯便于定責(zé)維權(quán)
在長(zhǎng)沙縣數(shù)字檔案館的自助和人工查詢界面中,所查詢的數(shù)字檔案將會(huì)添加區(qū)塊鏈認(rèn)證編碼,并以數(shù)字水印的形式顯示在查詢界面或者打印出來的紙質(zhì)文件中。Web 端顯示檔案時(shí),統(tǒng)一調(diào)用帶有保護(hù)功能的檔案顯示引擎,它具有不可復(fù)制、數(shù)字水印、不可下載等保護(hù)功能,防止大部分情況下用戶未經(jīng)授權(quán)的數(shù)據(jù)下載及泄露情況,可確保數(shù)據(jù)未經(jīng)授權(quán)的下載及外泄。如果出現(xiàn)檔案的非法泄露,如被旁觀的人非法拍攝和傳播等,可通過區(qū)塊鏈認(rèn)證編碼對(duì)非法傳播的源頭進(jìn)行追溯,為檔案泄露的追責(zé)和維權(quán)提供有力的證據(jù)。
目前,長(zhǎng)沙縣智慧數(shù)字檔案館已完成20多萬卷館藏和37萬件檔案的區(qū)塊鏈上鏈認(rèn)證[7-8],并成功被中國工程院《中國區(qū)塊鏈發(fā)展戰(zhàn)略研究》項(xiàng)目的“發(fā)現(xiàn)100個(gè)中國區(qū)塊鏈創(chuàng)新應(yīng)用”欄目收錄,為區(qū)塊鏈賦能其他檔案館應(yīng)用和其他行業(yè)區(qū)塊鏈落地有非常好的借鑒意義。
隨著國家和社會(huì)信息化進(jìn)程的加快,檔案信息化建設(shè)是檔案事業(yè)適應(yīng)社會(huì)信息化發(fā)展的必然趨勢(shì),是創(chuàng)新檔案服務(wù)機(jī)制、全面提高檔案工作為社會(huì)服務(wù)能力的必要手段。利用區(qū)塊鏈技術(shù),打造新型數(shù)字檔案館,將為檔案館海量數(shù)據(jù)管理與服務(wù)帶來深刻改變,進(jìn)一步發(fā)揮其知識(shí)管理、知識(shí)開發(fā)和知識(shí)服務(wù)的核心載體功能,為國家信息化建設(shè)提供重要知識(shí)支撐。