胡祥科 陳靜
摘要:該文結(jié)合水電工程檔案管理的特點(diǎn),研究了如何將區(qū)塊鏈應(yīng)用在水電工程電子檔案管理中,以實(shí)現(xiàn)電子檔案的防偽存證和可追溯性,同時(shí)提出通過對(duì)水電工程電子檔案設(shè)計(jì)全局唯一編碼,并結(jié)合倒排索引構(gòu)建技術(shù),提升電子檔案的追溯、查詢效率的可行路徑,以供檔案管理人員參考。
關(guān)鍵詞:區(qū)塊鏈應(yīng)用 水電工程檔案 計(jì)算機(jī)應(yīng)用
水電工程建設(shè)屬于大型工程項(xiàng)目建設(shè)范疇,其建設(shè)周期長(zhǎng)、工程規(guī)模大,涉及參建方、關(guān)聯(lián)方眾多,形成的檔案文件類型復(fù)雜,具體表現(xiàn)為來(lái)源廣、數(shù)量大、類型多、多方審簽、傳播周期鏈條長(zhǎng)等特點(diǎn)。如何保障全過程電子檔案的真實(shí)有效、防止人為篡改,成為當(dāng)前亟待解決的問題。
區(qū)塊鏈技術(shù)由中本聰在2009年提出,是新一代信息技術(shù)的重要推動(dòng)力,它利用了存儲(chǔ)、密碼學(xué)、點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)及共識(shí)算法等四大基礎(chǔ)技術(shù),具有去中心化、可追溯以及不可篡改等三大特性,可以用來(lái)解決信任及安全問題。在該技術(shù)背景下,可將區(qū)塊鏈應(yīng)用到水電工程電子檔案的管理中,達(dá)到電子檔案的可追溯和防偽效果,并輔助使用其他技術(shù)手段提升電子檔案的查詢利用效率。
當(dāng)前,水電工程建設(shè)形成的電子檔案由相關(guān)業(yè)務(wù)信息系統(tǒng)形成、分發(fā)和傳遞,并由專用的檔案管理信息系統(tǒng)進(jìn)行長(zhǎng)期管理,電子檔案的“四性”保障(即真實(shí)性、完整性、可用性和安全性)主要依賴于數(shù)字認(rèn)證技術(shù)(即電子簽名)。由于該項(xiàng)技術(shù)重度依賴服務(wù)提供方,在服務(wù)時(shí)效、信息權(quán)威以及數(shù)據(jù)安全性方面存在可能的風(fēng)險(xiǎn)。此外,所有電子檔案的存儲(chǔ)一般是基于中心數(shù)據(jù)庫(kù)實(shí)現(xiàn)的,而由于水電工程檔案的傳播周期和鏈條路徑較長(zhǎng),一旦發(fā)生數(shù)據(jù)庫(kù)級(jí)別的篡改,難以保證檔案絕對(duì)安全,且很難追溯電子檔案的修改和流轉(zhuǎn)過程,因此便無(wú)法保障其真實(shí)性、時(shí)序性和有效性。
另外,當(dāng)前對(duì)電子檔案的檢索大多通過建立索引的方式進(jìn)行以提升效率,一般采用的是正向索引方式,而一旦涉及數(shù)量龐大的水電工程電子檔案時(shí),采用此方法將極大影響檢索效率。
圍繞上述問題,本文擬通過引入?yún)^(qū)塊鏈技術(shù),構(gòu)建水電工程電子檔案區(qū)塊鏈系統(tǒng),利用其去中心化、可追溯以及不可篡改等特性并輔助倒排索引技術(shù),解決當(dāng)前水電工程電子檔案管理中所遇到的問題。
(一)區(qū)塊鏈系統(tǒng)節(jié)點(diǎn)搭建
水電工程建設(shè)過程中涉及眾多業(yè)務(wù)子系統(tǒng),這里以工程管理系統(tǒng)、招投標(biāo)系統(tǒng)、施工管理系統(tǒng)、智能建造系統(tǒng)為例,在區(qū)塊鏈系統(tǒng)框架下,每個(gè)業(yè)務(wù)子系統(tǒng)均關(guān)聯(lián)若干區(qū)塊鏈節(jié)點(diǎn)(見圖1)。每個(gè)節(jié)點(diǎn)都能接受該子系統(tǒng)工程電子檔案的操作請(qǐng)求(如上傳、審簽、流轉(zhuǎn)、移交、使用等),所涉及的工程電子檔案通過區(qū)塊鏈實(shí)現(xiàn)上鏈、發(fā)布、驗(yàn)證、共識(shí)。
上述區(qū)塊鏈節(jié)點(diǎn)圖中,每個(gè)業(yè)務(wù)子系統(tǒng)均是一個(gè)去中心化的、點(diǎn)對(duì)點(diǎn)區(qū)塊鏈節(jié)點(diǎn)組成的網(wǎng)絡(luò)結(jié)構(gòu)。節(jié)點(diǎn)中的數(shù)據(jù)和狀態(tài)是由其所在網(wǎng)絡(luò)中所有節(jié)點(diǎn)共同維護(hù)的,每一個(gè)節(jié)點(diǎn)都能對(duì)外提供服務(wù),同樣也能從其他節(jié)點(diǎn)請(qǐng)求服務(wù)。即使某一節(jié)點(diǎn)出現(xiàn)故障,只要還有正常運(yùn)行的節(jié)點(diǎn),該業(yè)務(wù)子系統(tǒng)就可以照常運(yùn)行。
業(yè)務(wù)子系統(tǒng)中的各區(qū)塊鏈節(jié)點(diǎn)是對(duì)等的,每一個(gè)節(jié)點(diǎn)存儲(chǔ)的數(shù)據(jù)都是一致的,即便出現(xiàn)突發(fā)情況導(dǎo)致部分節(jié)點(diǎn)中的數(shù)據(jù)丟失,但只要還有一個(gè)節(jié)點(diǎn)有效,就能確保歷史數(shù)據(jù)完好,避免單點(diǎn)故障帶來(lái)的服務(wù)不可用和數(shù)據(jù)缺失等問題,極大提升了系統(tǒng)可靠性和穩(wěn)定性。
(二)確定全局唯一編碼標(biāo)識(shí)并建立倒排索引
在本區(qū)塊鏈系統(tǒng)中,通過引入全局唯一編碼標(biāo)識(shí)的方式對(duì)每份電子檔案進(jìn)行編碼,編碼規(guī)則為“全宗號(hào)-類別號(hào)-項(xiàng)目號(hào)-業(yè)務(wù)系統(tǒng)編號(hào)-流水號(hào)-時(shí)間戳”。該編碼將貫穿整套系統(tǒng),具有唯一性和全局性,可作為后期查詢檢索的編號(hào)標(biāo)識(shí)。
在確認(rèn)全局編碼標(biāo)識(shí)后,本系統(tǒng)將建立電子檔案的倒排索引。而傳統(tǒng)正向索引技術(shù)主要是建立檔案與關(guān)鍵詞的映射關(guān)系,將檔案ID或者標(biāo)題作為文檔唯一標(biāo)識(shí)Key,例如“檔案A”“檔案B”“檔案C”中包含水電工程這個(gè)關(guān)鍵詞,其對(duì)應(yīng)的正向索引為:{“檔案A”:“水電工程”、“檔案B”:“水電工程”、“檔案C”:“水電工程”}。利用通過此種方式建立的映射關(guān)系,在對(duì)“水電工程”這個(gè)關(guān)鍵詞進(jìn)行檢索查詢時(shí),需逐一從每份檔案中進(jìn)行全文檢索,此舉將影響檢索效率。
本區(qū)塊鏈系統(tǒng)應(yīng)用倒排索引技術(shù)建立檔案與關(guān)鍵詞的映射關(guān)系,即將檔案內(nèi)容關(guān)鍵詞或者屬性作為文檔唯一標(biāo)識(shí)Key。仍以上述為例,采用倒排索引建立的映射關(guān)系為:{“水電工程”:“檔案A”,“檔案B”,“檔案C”},后期通過“水電工程”關(guān)鍵詞檢索時(shí),只需要查詢一次就可以得到所有包含該關(guān)鍵詞的檔案信息,從而有效提升檢索效率。
(三)水電工程電子檔案上鏈
1.利用SHA-512算法為每個(gè)電子檔案生成可標(biāo)識(shí)該檔案的哈希指紋,其中半結(jié)構(gòu)化、非結(jié)構(gòu)化的檔案可通過電子檔案的元數(shù)據(jù)生成。
2.將電子檔案的元數(shù)據(jù)、哈希指紋進(jìn)行上鏈,并生成操作記錄。這里的操作記錄包括發(fā)起方、接收方、操作的方法(如上傳、修改等)、電子檔案的相關(guān)參數(shù)(如全局唯一標(biāo)識(shí)、元數(shù)據(jù)、哈希指紋等)、操作的時(shí)間戳以及操作發(fā)起方生成的數(shù)字簽名。
3.將業(yè)務(wù)系統(tǒng)中一個(gè)周期(如1個(gè)月)的操作記錄形成區(qū)塊,并進(jìn)行區(qū)塊的鏈?zhǔn)接涗洠渲袇^(qū)塊的存儲(chǔ)結(jié)構(gòu)和每個(gè)區(qū)塊存放的數(shù)據(jù)如圖2所示。
如圖2所示,區(qū)塊中的每一次操作都會(huì)進(jìn)行哈希函數(shù)運(yùn)算,往上相鄰的葉子節(jié)點(diǎn)將再次進(jìn)行哈希函數(shù)運(yùn)算,得到的哈希函數(shù)運(yùn)算結(jié)果作為這兩個(gè)葉子節(jié)點(diǎn)的父節(jié)點(diǎn),依次往上,最后一次哈希函數(shù)運(yùn)算的父節(jié)點(diǎn)就是操作的根哈希節(jié)點(diǎn)。
若區(qū)塊中的某個(gè)操作被惡意篡改,該操作對(duì)應(yīng)的葉子節(jié)點(diǎn)哈希運(yùn)算結(jié)果會(huì)發(fā)生變化,并向上逐一傳遞到父節(jié)點(diǎn)和根節(jié)點(diǎn)。操作根節(jié)點(diǎn)的哈希運(yùn)算結(jié)果實(shí)際上是包含了所有葉子節(jié)點(diǎn)的哈希運(yùn)算過程,一旦出現(xiàn)篡改,能快速定位有問題的操作節(jié)點(diǎn)。
通過構(gòu)建水電工程電子檔案的區(qū)塊鏈系統(tǒng),可將區(qū)塊鏈的防偽存證和可追溯的特性應(yīng)用到檔案管理中,同時(shí)依托倒排索引技術(shù),可有效提升檔案數(shù)據(jù)檢索利用效率。具體應(yīng)用場(chǎng)景如下所述。
(一)防偽存證應(yīng)用
1.數(shù)據(jù)發(fā)送:操作發(fā)起方(如某個(gè)業(yè)務(wù)子系統(tǒng))將電子檔案和生成的哈希指紋發(fā)送到接收方(另一個(gè)業(yè)務(wù)子系統(tǒng))。
2.身份驗(yàn)證:每個(gè)操作均由操作發(fā)起方的私鑰進(jìn)行數(shù)字簽名,接收方通過操作發(fā)起方的公鑰進(jìn)行解密來(lái)對(duì)該簽名進(jìn)行驗(yàn)證,如果驗(yàn)證通過,則證明該操作確實(shí)是由操作發(fā)起方發(fā)起。
3.防偽驗(yàn)證:接收方獲取該電子檔案,利用SHA-512算法生成該檔案的哈希指紋,與發(fā)送方的哈希指紋進(jìn)行比對(duì),如果一致則證明該電子文檔未被篡改,否則不予接收。
(二)溯源應(yīng)用
針對(duì)水電工程檔案數(shù)據(jù)的傳播周期鏈條長(zhǎng)等特點(diǎn),系統(tǒng)中所有操作均通過區(qū)塊進(jìn)行鏈?zhǔn)酱鎯?chǔ)記錄,當(dāng)需要對(duì)某份電子檔案進(jìn)行追溯時(shí),通過全局唯一編碼標(biāo)識(shí)檢索查詢,可將存放在區(qū)塊中的所有操作進(jìn)行遍歷,并將遍歷結(jié)果形成鏈?zhǔn)降挠涗洝?/p>
由于所有數(shù)據(jù)全部記錄在區(qū)塊鏈存儲(chǔ)系統(tǒng)上,且為去中心化的存儲(chǔ)方式,節(jié)點(diǎn)中的數(shù)據(jù)是按時(shí)間先后順序串聯(lián)存儲(chǔ)的,將前一時(shí)間段的數(shù)據(jù)指紋與后一時(shí)間段的數(shù)據(jù)整合在一起,這樣后一時(shí)間段的數(shù)據(jù)永遠(yuǎn)都會(huì)包含前一時(shí)間段的數(shù)據(jù)指紋,形成了一條由數(shù)據(jù)指紋串聯(lián)的信息鏈條。
如果要非法修改中間某一時(shí)間段的數(shù)據(jù),依照哈希算法原理,對(duì)應(yīng)的數(shù)據(jù)指紋將會(huì)改變。因此,必須修改后續(xù)的每一個(gè)時(shí)間段的數(shù)據(jù),否則數(shù)據(jù)鏈條就會(huì)在修改這一刻斷掉,不再具備可追溯性。同時(shí),為避免非法入侵修改相關(guān)記錄,可通過容錯(cuò)PBFT共識(shí)算法防止篡改。
(三)檢索應(yīng)用
針對(duì)水電工程形成的電子檔案數(shù)據(jù)量較大的特點(diǎn),當(dāng)涉及檢索應(yīng)用時(shí),傳統(tǒng)做法是通過檢索關(guān)鍵詞進(jìn)行匹配,并反饋檢索結(jié)果。本應(yīng)用前期建立了倒排索引,當(dāng)輸入檢索關(guān)鍵詞時(shí),可直接通過建立好的倒排索引進(jìn)行關(guān)鍵詞匹配,當(dāng)查詢到匹配的關(guān)鍵詞后,其所對(duì)應(yīng)的電子檔案以列表的形式依次串聯(lián),可第一時(shí)間獲取到所需的電子檔案列表,將結(jié)果反饋給用戶,此舉將有效提升檔案數(shù)據(jù)利用效率,并可節(jié)約大量的計(jì)算資源。
將區(qū)塊鏈技術(shù)應(yīng)用到水電工程電子檔案管理后,可降低傳統(tǒng)以數(shù)字證書認(rèn)證方式為主的第三方依賴,通過構(gòu)建鏈?zhǔn)絽^(qū)塊的存儲(chǔ)方式,可做到電子檔案的防篡改和全過程溯源,所有鏈?zhǔn)讲僮骶豢傻仲嚕瑯O大提升了電子檔案的安全性。另外,通過引入全局編碼標(biāo)識(shí)并利用倒排索引技術(shù),有效提升了水電工程電子檔案數(shù)據(jù)的查詢、檢索、利用效率。作為新興技術(shù),區(qū)塊鏈在檔案行業(yè)應(yīng)用尚處于探索階段,檔案工作者應(yīng)以需求為導(dǎo)向,兼顧技術(shù)與管理間的融合,持續(xù)不斷探索,以找到最適合的實(shí)施路徑。
參考文獻(xiàn):
[1]賈寧霄,馮敏,黃博豪.基于區(qū)塊鏈技術(shù)的水利工程智慧化建管研究[J].人民長(zhǎng)江,2021,52(增2):312-315.
[2]駱建珍,楊安榮,馬來(lái)娣.電子檔案“四性”檢測(cè)要求及其實(shí)現(xiàn)方法[J].浙江檔案,2017(12):27-30.
[3]黃文燕.區(qū)塊鏈技術(shù)在電子檔案管理領(lǐng)域的應(yīng)用探析[J].北京檔案,2021(7):25-27.
[4]楊偉華,汪輝,劉武念.區(qū)塊鏈技術(shù)在工程項(xiàng)目管理中的應(yīng)用構(gòu)想[J].建筑經(jīng)濟(jì),2020,41(S1):141-143.
作者單位:1.中國(guó)長(zhǎng)江三峽集團(tuán)有限公司檔案中心2.中國(guó)長(zhǎng)江三峽集團(tuán)有限公司科學(xué)技術(shù)研究院