錢秀芳
摘要:檔案具有歷史記錄性,有重要的憑證價(jià)值,檔案的數(shù)字化為長期保存和開發(fā)利用提供了解決方案,但是在傳統(tǒng)的中心化檔案管理模式下,電子檔案的真實(shí)性、安全性問題不容忽視。文章分析總結(jié)區(qū)塊鏈技術(shù)在保證檔案的真實(shí)性、降低檔案歸檔成本和防篡改等方面的優(yōu)勢,探究基于區(qū)塊鏈技術(shù)的高校檔案管理模式,以期對區(qū)塊鏈技術(shù)全面應(yīng)用于檔案部門有所幫助。
關(guān)鍵詞:高校檔案管理;中心化;區(qū)塊鏈;防篡改
檔案是人們在各種社會(huì)活動(dòng)中直接形成的數(shù)據(jù)記錄,能夠還原真實(shí)的歷史,具備重要的保存與參考價(jià)值,并且擁有法律效力[1],因此保證檔案的完整性和真實(shí)性十分重要。目前我國檔案的保存形式主要是以紙質(zhì)檔案和電子檔案相結(jié)合的形式存在,隨著信息技術(shù)的不斷發(fā)展,為解決紙質(zhì)檔案不易保存、管理低效等問題,檔案數(shù)字化應(yīng)運(yùn)而生。
一、我國的檔案數(shù)字化進(jìn)程
20世紀(jì)90年代末,國家檔案局提出了構(gòu)建數(shù)字檔案館的規(guī)劃,指出實(shí)現(xiàn)各類檔案的數(shù)字化,以期達(dá)到檔案的長期存儲(chǔ)、高效共享和快捷查詢等目標(biāo)[2][3]。在2000年12月通過的《全國檔案事業(yè)發(fā)展“十五”計(jì)劃》中提出要加快現(xiàn)有檔案的數(shù)字化進(jìn)程。2014年國家檔案局《數(shù)字檔案室建設(shè)指南》中明確提出了數(shù)字檔案室的建設(shè)原則及內(nèi)容[4]。2017年南京市建鄴區(qū)建成全國首家集中式示范數(shù)字檔案室[5]。如今數(shù)字檔案的相關(guān)規(guī)范標(biāo)準(zhǔn)已日趨完善,大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新技術(shù)正逐步應(yīng)用到數(shù)字檔案館的建設(shè)中。在推進(jìn)檔案數(shù)字化的進(jìn)程中也出現(xiàn)了許多新問題,如王卓在2019年提出大數(shù)據(jù)時(shí)代數(shù)字檔案信息的安全風(fēng)險(xiǎn)以及防范策略[6],檔案界給予了高度關(guān)注。
二、高校檔案數(shù)字化帶來的問題
檔案數(shù)字化改變了高校檔案工作的局面,極大地提高了工作效率,檔案的宣傳、編研、開發(fā)等工作成果初步展現(xiàn)。同時(shí),數(shù)字檔案的真實(shí)性、安全性等問題時(shí)有顯現(xiàn)。
1.數(shù)字檔案高度易變
檔案形成過程包括諸多環(huán)節(jié),需要多部門人員共同配合,數(shù)字檔案在收集、存儲(chǔ)、傳輸和處理等過程中存在不確定性。以高校科研檔案為例,檔案涉及教師個(gè)人科研信息提交、學(xué)院科研管理人員審核、學(xué)??萍疾块T各科室(項(xiàng)目科、成果科等)的管理人員審核和確認(rèn)以及相應(yīng)檔案管理人員的歸檔,因此過程中很容易出現(xiàn)數(shù)據(jù)誤差、丟失或損壞的問題。
2.數(shù)字檔案易被篡改
現(xiàn)有的數(shù)字檔案保護(hù)方案大多是通過數(shù)字水印和數(shù)字簽名等技術(shù)實(shí)現(xiàn),這些保護(hù)技術(shù)防篡改能力弱,而且在檔案遭到篡改或破壞后一般難以恢復(fù)。
現(xiàn)有模式下,保障數(shù)字檔案的真實(shí)性和原始性前提是出于對檔案館人員和各類檔案收集人員的絕對信任,一旦出現(xiàn)中心系統(tǒng)數(shù)據(jù)庫遭入侵,或管理員被脅迫或收買,檔案數(shù)據(jù)的真實(shí)性將蕩然無存[7]。以高校人事檔案為例,重慶安全技術(shù)職業(yè)學(xué)院原黨委副書記、院長杜曉陽借向主管單位移送個(gè)人檔案之機(jī),篡改、偽造個(gè)人檔案資料32處。
3.數(shù)字檔案存儲(chǔ)成本高
檔案館為了保證檔案的可靠性,需要存儲(chǔ)多個(gè)檔案數(shù)據(jù)的副本,因此存儲(chǔ)性能會(huì)有所降低。另外,由于部分檔案涉及的部門較多,檔案信息的存儲(chǔ)存在大量相同信息,導(dǎo)致大量的數(shù)據(jù)冗余。還要考慮數(shù)據(jù)存儲(chǔ)的電腦出現(xiàn)設(shè)備老化、系統(tǒng)缺陷、網(wǎng)絡(luò)攻擊等情況。為了保證檔案存儲(chǔ)性能,需要購買高性能和大容量存儲(chǔ)設(shè)備,這樣就大大增加了檔案存儲(chǔ)的運(yùn)行和維護(hù)成本。
三、檔案管理去中心化
檔案管理不僅具有很強(qiáng)的專業(yè)性,而且還具有保密性強(qiáng)的特點(diǎn),這就要求檔案人員必須具備高度的責(zé)任感,才能保證檔案的安全和完整[8]。目前我國檔案管理都是遵從中心化原則,檔案數(shù)據(jù)的真實(shí)性完全建立在對檔案管理人員和中心數(shù)據(jù)庫完全信任的基礎(chǔ)上。
高校檔案目前都是由單一機(jī)構(gòu)來管理和維護(hù)的,而高校檔案數(shù)據(jù)并不是由檔案管理人員產(chǎn)生的,其涉及學(xué)校里面的每一個(gè)人。檔案數(shù)據(jù)的收集又需要多個(gè)部門協(xié)作完成,因此在填寫、收集數(shù)據(jù)的過程中很容易出錯(cuò),檔案數(shù)據(jù)庫中的數(shù)據(jù)并不能保證完全真實(shí)可信。檔案管理員并不能獨(dú)立驗(yàn)證檔案系統(tǒng)中信息的真實(shí)性,如果檔案數(shù)據(jù)被惡意篡改,用戶和檔案管理機(jī)構(gòu)很難察覺。這些不能保證真實(shí)的檔案就不具備還原真實(shí)歷史的作用以及保存與參考價(jià)值。
傳統(tǒng)中心化的數(shù)據(jù)庫因無法解決多方互信問題,使得每個(gè)參與方都需要獨(dú)立維護(hù)一套保存自己業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)庫,這些數(shù)據(jù)庫實(shí)際上是一座座信息孤島[9]。以學(xué)生檔案為例,學(xué)生的黨員發(fā)展信息由學(xué)校組織部保存,學(xué)生成績檔案由教務(wù)部門保存,學(xué)生日常信息由學(xué)工部門管理,而學(xué)生的科研檔案由學(xué)??蒲胁块T管理。另外,中心化架構(gòu)存在著天然的不平等性,因此檔案管理的去中心化是必然趨勢。
四、區(qū)塊鏈技術(shù)方興未艾
區(qū)塊鏈(blockchain)是一種去中心化、不可篡改、可追溯、多方節(jié)點(diǎn)共同維護(hù)的分布式數(shù)據(jù)庫,每筆交易需要全網(wǎng)大多數(shù)節(jié)點(diǎn)達(dá)成共識后,才能存儲(chǔ)到區(qū)塊鏈中[10],能夠很好地解決中心化管理中數(shù)字檔案產(chǎn)生的問題。區(qū)塊鏈包含五層核心架構(gòu),如圖1所示。
在高校區(qū)塊鏈檔案系統(tǒng)中的角色按功能可分為兩類,分別為參與節(jié)點(diǎn)(檔案數(shù)據(jù)產(chǎn)生人員)和維護(hù)節(jié)點(diǎn)(檔案數(shù)據(jù)驗(yàn)證人員)。參與節(jié)點(diǎn)包括學(xué)生、教師等,該類節(jié)點(diǎn)進(jìn)行信息交互,用戶在客戶端節(jié)點(diǎn)發(fā)起數(shù)據(jù)修改、增加請求,并廣播到網(wǎng)絡(luò)。維護(hù)節(jié)點(diǎn)就是檔案數(shù)據(jù)真實(shí)性驗(yàn)證人員,該類節(jié)點(diǎn)用于驗(yàn)證用戶請求,并最終把檔案數(shù)據(jù)上傳到區(qū)塊鏈中,是區(qū)塊鏈檔案系統(tǒng)中的核心角色[11]。以高校二級學(xué)院為例,具體角色分類如圖2所示。以教師科研檔案為例,由于國家重點(diǎn)實(shí)驗(yàn)室開放課題并不是由直屬部門直接統(tǒng)一申報(bào)和下達(dá),因此這類項(xiàng)目成果就需要教師個(gè)人去申請?zhí)砑?,然后由維護(hù)節(jié)點(diǎn)中的科研管理人員去審核真實(shí)性,最后由節(jié)點(diǎn)投票決定是否上傳到區(qū)塊鏈中。
五、區(qū)塊鏈在高校檔案管理中的應(yīng)用探討
1.檔案數(shù)據(jù)真實(shí)性高
如前所述,中心化管理模式下,檔案不是由檔案管理員形成,產(chǎn)生檔案的個(gè)人又無權(quán)錄入或隨時(shí)查看自己的檔案信息,因此檔案的真實(shí)性和完整性很難驗(yàn)證。以高校教師的個(gè)人科研檔案為例,在傳統(tǒng)管理模式下教師在填寫數(shù)據(jù)時(shí),只會(huì)選擇性地填寫學(xué)校和個(gè)人認(rèn)為比較重要的科研數(shù)據(jù),過程中還可能存在著填寫錯(cuò)誤的情況。比如教師個(gè)人在填寫自己某年發(fā)表的論文情況時(shí),把某篇CSSCI擴(kuò)展論文填寫成CSSCI源刊,如果審核人員不專業(yè)、不認(rèn)真,該教師的個(gè)人檔案里就會(huì)保存錯(cuò)誤的信息。
區(qū)塊鏈技術(shù)應(yīng)用于高校檔案管理后,高校教師可以方便快捷地查看個(gè)人檔案,一旦發(fā)現(xiàn)檔案中的錯(cuò)誤可以向區(qū)塊鏈中的節(jié)點(diǎn)申請修改。修改的信息需要經(jīng)過大多數(shù)節(jié)點(diǎn)投票通過后才能寫入?yún)^(qū)塊鏈,寫入的檔案信息上會(huì)有時(shí)間戳,申請修改檔案的人都會(huì)經(jīng)過實(shí)名認(rèn)證,修改前后的檔案信息都會(huì)被保存,因此修改的檔案可以被追溯。由于區(qū)塊鏈技術(shù)是采用分布式數(shù)據(jù)存儲(chǔ)管理和P2P網(wǎng)絡(luò),寫入?yún)^(qū)塊的檔案信息會(huì)在區(qū)塊鏈中的每個(gè)節(jié)點(diǎn)存儲(chǔ)相同的檔案信息,這樣可以達(dá)到去除檔案管理中心化的目的。這種分布式檔案存儲(chǔ)模式可以避免因某個(gè)節(jié)點(diǎn)受到攻擊,影響整個(gè)檔案數(shù)據(jù)的真實(shí)性。區(qū)塊鏈中的共識算法又增加了系統(tǒng)信息的可信性,同時(shí)保證了所有節(jié)點(diǎn)間的數(shù)據(jù)信息一致性。正是由于區(qū)塊鏈的去中心化、不可偽造、全程留痕、可以追溯的特點(diǎn),能夠保證檔案的真實(shí)可靠[12]。
2.檔案數(shù)據(jù)安全性高
區(qū)塊鏈的數(shù)據(jù)結(jié)構(gòu)如表1所示。哈希算法是一個(gè)函數(shù),將任意長度的數(shù)據(jù)輸入都會(huì)被映射為固定長度的字符串。同時(shí),它也是一個(gè)單向函數(shù),由輸入信息可以輕易地算出哈希值,卻無法由哈希值逆向推出原數(shù)據(jù)信息[13]。
一個(gè)優(yōu)秀的哈希算法具備正向快速、輸入敏感、逆向困難、強(qiáng)抗碰撞等特征。以高校檔案管理為例,正向快速指是當(dāng)輸入檔案數(shù)據(jù)時(shí)能夠快速地產(chǎn)生哈希值;當(dāng)檔案數(shù)據(jù)中某一個(gè)字符輸入錯(cuò)誤,得到的哈希值會(huì)和正確輸入數(shù)據(jù)所生成的哈希值有極大的不同;逆向困難指根據(jù)哈希值很難在短時(shí)間內(nèi)算出輸入信息;強(qiáng)抗碰撞指輸入不同的檔案數(shù)據(jù)不可能產(chǎn)生相同的哈希值。
每個(gè)區(qū)塊頭包含了上一個(gè)區(qū)塊數(shù)據(jù)的哈希值,這些哈希層層嵌套,最終將所有區(qū)塊串聯(lián)起來形成區(qū)塊鏈。區(qū)塊鏈里包含了自該鏈誕生以來所有的檔案記錄,因此,要篡改一份檔案,意味著它之后的所有區(qū)塊的父區(qū)塊哈希全部要篡改一遍,這幾乎是一個(gè)不可能完成的任務(wù)。因此區(qū)塊鏈檔案數(shù)據(jù)被泄露,泄露的也只是檔案的哈希值,數(shù)據(jù)獲得者無法獲得具體的檔案信息。
在基于區(qū)塊鏈技術(shù)的分布式檔案存儲(chǔ)方式中,所有參與節(jié)點(diǎn)都可以保存一份相同的檔案數(shù)據(jù),新加入的參與方可以下載完全一致的檔案并驗(yàn)證檔案的正確性[14]。這種方式降低了傳統(tǒng)集中檔案存儲(chǔ)中檔案人員的多副本數(shù)據(jù)維護(hù)成本,同時(shí)參與方也可以通過訪問本地檔案數(shù)據(jù)來提高訪問效率。在區(qū)塊鏈系統(tǒng)中,檔案錄入采用數(shù)字簽名和加密算法處理,從而提高了檔案系統(tǒng)中數(shù)據(jù)的安全性。區(qū)塊鏈中的數(shù)字簽名是通過非對稱加密來實(shí)現(xiàn)的,用戶將私鑰保存在自己手中,將自己的公鑰分發(fā)到網(wǎng)絡(luò)節(jié)點(diǎn)上。用戶使用私鑰生成簽名,其余節(jié)點(diǎn)可使用公鑰驗(yàn)證簽名的正確性。相反,如果沒有私鑰,用戶無法偽造簽名[15][16]。通過數(shù)字簽名來保證檔案的實(shí)名寫入,不可偽造。區(qū)塊之間通過哈希值串聯(lián)的數(shù)據(jù)關(guān)聯(lián)方式和基于共識算法確認(rèn)區(qū)塊數(shù)據(jù)的寫入機(jī)制,能夠保證區(qū)塊鏈上的數(shù)據(jù)不能被篡改[17]。“防篡改”并不等于不允許編輯區(qū)塊鏈系統(tǒng)上記錄的內(nèi)容,只是整個(gè)編輯的過程被以類似“日志”的形式完整記錄了下來,這個(gè)“日志”是不能被修改的。通過在智能合約上存儲(chǔ)檔案的修改記錄和歷史檔案,可以實(shí)現(xiàn)對修改操作人和歷史檔案的追溯,從而保證了檔案的安全性。
3.檔案數(shù)據(jù)形成成本低
傳統(tǒng)的檔案收集需要冗長的歸檔審查、確認(rèn)、檔案數(shù)據(jù)信息核對,而基于區(qū)塊鏈技術(shù)的高校檔案管理可以大大簡化流程。以高校學(xué)生檔案為例,涉及學(xué)生成績檔案方面,只要學(xué)生本人、任課教師、班主任、輔導(dǎo)員、教學(xué)院長和教務(wù)處在各自節(jié)點(diǎn)投票確認(rèn),學(xué)生成績便可歸檔(寫入?yún)^(qū)塊鏈中)。檔案被存儲(chǔ)在多方共同維護(hù)的多個(gè)節(jié)點(diǎn)上,節(jié)點(diǎn)按照嚴(yán)格的規(guī)則和共識進(jìn)行維護(hù)與添加,從而實(shí)現(xiàn)了多方間的檔案信息共享和監(jiān)督,避免了煩瑣的人工對賬,提高了業(yè)務(wù)處理效率,降低了人力成本[18]。
高校均采用教育網(wǎng),因此高校區(qū)塊鏈網(wǎng)絡(luò)環(huán)境是安全可信的,所以共識算法可以采用結(jié)合可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)的軟硬件結(jié)合的共識算法。另外,采用可信執(zhí)行環(huán)境的共識算法可以與現(xiàn)有檔案管理系統(tǒng)并存,因此節(jié)約了資源成本。
*本文系江蘇省高校社科基金一般項(xiàng)目“大數(shù)據(jù)環(huán)境下高校圖書館數(shù)字資源的知識發(fā)現(xiàn)及個(gè)性化知識服務(wù)研究”(項(xiàng)目編號:2017SJB1748)階段性研究成果。
注釋與參考文獻(xiàn)
[1][2][4][7]譚海波,周桐,趙赫,趙哲,王衛(wèi)東,張中賢,盛念祖,李曉風(fēng).基于區(qū)塊鏈的檔案數(shù)據(jù)保護(hù)與共享方法[J].軟件學(xué)報(bào),2019(9):2620-2635.
[3]史志偉.循序漸進(jìn)穩(wěn)步進(jìn)取——談山東數(shù)字檔案館(室)建設(shè)[J].山東檔案,2013(3):10-11.
[5]沈夢瀅.鎮(zhèn)江市檔案局圓滿完成2017年度省級數(shù)字檔案館(室)創(chuàng)建工作[J].檔案與建設(shè), 2018(1):95.
[6]王卓.大數(shù)據(jù)時(shí)代數(shù)字檔案信息安全風(fēng)險(xiǎn)分析及防范策略[J].中國檔案, 2019(9):74-75.
[8]韋衛(wèi).加強(qiáng)檔案管理建設(shè),促進(jìn)學(xué)校持續(xù)發(fā)展——淺談新形勢下技師學(xué)院檔案管理現(xiàn)狀及規(guī)范化、信息化建設(shè)[J].檔案學(xué)研究,2017(S2):117-123.
[9]Morkunas VJ,Paschen J,Boon E. How blockchain technologies impact your business model[J]. Business Horizons 2019,62(3):295-306.
[10][14]邵奇峰,張召,朱燕超,周傲英.企業(yè)級區(qū)塊鏈技術(shù)綜述[J].軟件學(xué)報(bào),2019(9):2571-2592.
[11][15]蔡曉晴,鄧堯,張亮,史久琛,陳全,鄭文立,劉志強(qiáng),龍宇,王堃,李超,過敏意.區(qū)塊鏈原理及其核心技術(shù)[J].計(jì)算機(jī)學(xué)報(bào),2019(115):1-51.
[12]張倩.數(shù)字檔案在線利用避偽防護(hù)技術(shù)應(yīng)用研究[J].檔案與建設(shè),2007(11):21-24.
[13]王秀利,江曉舟,李洋.應(yīng)用區(qū)塊鏈的數(shù)據(jù)訪問控制與共享模型[J].軟件學(xué)報(bào),2019(6):1661-1669.
[16]袁勇,王飛躍.區(qū)塊鏈技術(shù)發(fā)展現(xiàn)狀與展望[J].自動(dòng)化學(xué)報(bào),2016(4): 481-494.
[17]于戈,聶鐵錚,李曉華,張巖峰,申德榮,鮑玉斌.區(qū)塊鏈系統(tǒng)中的分布式數(shù)據(jù)管理技術(shù)——挑戰(zhàn)與展望[J].計(jì)算機(jī)學(xué)報(bào),2019(116):1-28.
[18]邵奇峰,金澈清,張召,錢衛(wèi)寧,周傲英.區(qū)塊鏈技術(shù):架構(gòu)及進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2018(5):3-22.