劉海鷗 何旭濤 李 凱 高 悅
(1. 燕山大學(xué)經(jīng)濟(jì)管理學(xué)院MBA教育中心 秦皇島 066004;2.燕山大學(xué)互聯(lián)網(wǎng)+與產(chǎn)業(yè)發(fā)展研究中心 秦皇島 066004)
作為繼互聯(lián)網(wǎng)之后的下一代顛覆性核心技術(shù),區(qū)塊鏈具有去中心化、分布式存儲、數(shù)據(jù)可溯源等特性,被譽(yù)為“下一個信任的基石”。其中,可溯源被視為區(qū)塊鏈技術(shù)落地的最佳性能之一,許多領(lǐng)域已成功運(yùn)用區(qū)塊鏈技術(shù)來實(shí)現(xiàn)數(shù)據(jù)溯源,區(qū)塊鏈數(shù)據(jù)溯源技術(shù)可以清楚地找到目標(biāo)數(shù)據(jù)的源頭,并通過判斷目標(biāo)數(shù)據(jù)的真實(shí)性來維護(hù)自己的權(quán)利,同時也更加深入地了解目標(biāo)數(shù)據(jù)的全面信息等。但在進(jìn)行數(shù)據(jù)溯源過程中,如果沒有有效的措施來對溯源信息進(jìn)行保護(hù),在其產(chǎn)生及后續(xù)演變過程中也會遭到意外破壞、篡改或刪除等。此外,目前有關(guān)區(qū)塊鏈數(shù)據(jù)溯源的重要研究成果主要集中在溯源模型、溯源存儲以及溯源應(yīng)用等方面,如Liu等[1]構(gòu)建了一種基于數(shù)字水印和區(qū)塊鏈的邊緣計算分布式溯源模型,這種模型通過劃分內(nèi)外區(qū)域和選取主節(jié)點(diǎn),能夠提高傳統(tǒng)區(qū)塊鏈數(shù)據(jù)溯源模型的安全性,并進(jìn)一步降低資源受限節(jié)點(diǎn)的存儲容量,進(jìn)而實(shí)現(xiàn)解決區(qū)塊鏈可擴(kuò)展性差等問題。Amin等[2]建立了一個支持不可變交易和時間快照的區(qū)塊鏈數(shù)據(jù)溯源信息存儲系統(tǒng),該存儲系統(tǒng)通過在關(guān)系表中嵌入?yún)^(qū)塊鏈,使系統(tǒng)數(shù)據(jù)庫以防篡改的方式高效存儲數(shù)據(jù)溯源相關(guān)信息。Provenance[3]首次利用區(qū)塊鏈進(jìn)行數(shù)據(jù)溯源(存儲食品從生產(chǎn)到被消費(fèi)的溯源)。
需要指出的是,如何保障數(shù)據(jù)溯源的安全性與可靠性是當(dāng)前學(xué)界關(guān)注的熱點(diǎn)問題,部分學(xué)者也針對該問題進(jìn)行了一定程度的研究,但相關(guān)成果還處于碎片化狀態(tài),沒有形成完備和規(guī)范的區(qū)塊鏈數(shù)據(jù)溯源機(jī)制研究模型和理論體系。亟需科學(xué)梳理區(qū)塊鏈數(shù)據(jù)溯源的概念內(nèi)涵、應(yīng)用范圍、面臨困境及解決機(jī)制,開展區(qū)塊鏈數(shù)據(jù)溯源機(jī)制專項研究。鑒于此,本文對現(xiàn)有的區(qū)塊鏈溯源文獻(xiàn)進(jìn)行了系統(tǒng)梳理,著重介紹目前區(qū)塊鏈溯源機(jī)制研究領(lǐng)域的最新進(jìn)展和研究熱點(diǎn),追蹤新的研究成果并分析其發(fā)展趨勢,以期引起國內(nèi)學(xué)者對區(qū)塊鏈溯源機(jī)制研究領(lǐng)域的關(guān)注,為圖情學(xué)科的信息追溯與信息組織管理提供參考。
中本聰(Satoshi Nakamoto)[4]最早提出了“比特幣”概念,其底層技術(shù)區(qū)塊鏈開始受到關(guān)注。此后,學(xué)者們試著從不同角度出發(fā)對區(qū)塊鏈概念進(jìn)行了定義。如Melanie[5]在其著作《區(qū)塊鏈:新經(jīng)濟(jì)藍(lán)圖及導(dǎo)讀》中指出區(qū)塊鏈技術(shù)是一種可以全員參與共建、共識的數(shù)據(jù)庫。劉海鷗等[6]把區(qū)塊鏈比作一份電子賬本,這種電子賬本由各個不可修改的單獨(dú)區(qū)塊組成,并且是從首頁按順序鏈接到下一頁,各個區(qū)塊又承擔(dān)著記錄發(fā)生在相應(yīng)區(qū)段交易的詳細(xì)記錄。HE等[7]指出區(qū)塊鏈?zhǔn)怯晒沧R算法、隱私保護(hù)、智能合約等技術(shù)組合而成;蔡曉晴等[8]通過研究認(rèn)為區(qū)塊鏈?zhǔn)峭ㄟ^借助去中心化及去信任方式進(jìn)行集體維護(hù)的安全可靠技術(shù)方案。
綜上所述,在已有的區(qū)塊鏈相關(guān)概念定義基礎(chǔ)上,本文認(rèn)為區(qū)塊鏈在實(shí)質(zhì)上是一種計算機(jī)技術(shù)在互聯(lián)網(wǎng)時代的創(chuàng)新應(yīng)用模式,它有效整合了數(shù)據(jù)庫、密碼學(xué)以及共識機(jī)制等技術(shù),其高度去中心化、集體維護(hù)、防偽不可篡改以及溯源可追蹤等特征,為數(shù)據(jù)信用賦能、碎片化服務(wù)疊加和場景化服務(wù)重置等智慧化應(yīng)用創(chuàng)造了鏈?zhǔn)浇Y(jié)構(gòu)。
數(shù)據(jù)溯源概念的提出是一個持續(xù)完善更新的過程?!皵?shù)據(jù)從哪來”和“有哪些中間數(shù)據(jù)可用來實(shí)現(xiàn)數(shù)據(jù)溯源”的相關(guān)問題促使數(shù)據(jù)溯源思想開始萌芽;其后,數(shù)據(jù)世系被提出用于形容目標(biāo)數(shù)據(jù)的產(chǎn)生和后續(xù)數(shù)據(jù)的應(yīng)用轉(zhuǎn)化過程;在后續(xù)研究中,Cui等[9]又進(jìn)一步擴(kuò)展了數(shù)據(jù)溯源的內(nèi)涵范疇:一是對數(shù)據(jù)產(chǎn)生直接影響的源頭數(shù)據(jù),二是發(fā)現(xiàn)目標(biāo)數(shù)據(jù)在源頭數(shù)據(jù)庫中的位置。至此,數(shù)據(jù)溯源這一術(shù)語被正式使用。不同領(lǐng)域?qū)?shù)據(jù)溯源的認(rèn)識存在較大的差別。Goble[10]基于生物信息學(xué)視角,認(rèn)為數(shù)據(jù)溯源不僅要追蹤其源頭數(shù)據(jù)及其演變過程,還需要更加具體的信息來保證目標(biāo)數(shù)據(jù)的可重復(fù)使用;喬蕊等[11]指出數(shù)據(jù)溯源在本質(zhì)上是一種記錄目標(biāo)數(shù)據(jù)的演變路徑及其注釋的元數(shù)據(jù);Glavic等[12]指出數(shù)據(jù)溯源主要有兩層含義,一層含義是將目標(biāo)數(shù)據(jù)的溯源描述為導(dǎo)致其創(chuàng)建的過程,另一層含義是關(guān)注演變數(shù)據(jù)的原始數(shù)據(jù)來源。
通過上述分析可以看出,雖然學(xué)者對數(shù)據(jù)溯源定義的側(cè)重點(diǎn)不同,但均重點(diǎn)關(guān)注目標(biāo)數(shù)據(jù)的源頭數(shù)據(jù)及其后續(xù)演變過程。因此,本文認(rèn)為數(shù)據(jù)溯源就是針對目標(biāo)數(shù)據(jù)的源頭數(shù)據(jù)及其后演變?nèi)A段加以追溯、確認(rèn)、描述、分析以及最后保存的動態(tài)過程。整個過程主要涉及三方面內(nèi)容:一是對目標(biāo)數(shù)據(jù)源頭數(shù)據(jù)的追蹤與描述;二是對源頭數(shù)據(jù)怎樣演變成當(dāng)前數(shù)據(jù)過程的全階段信息的追溯與記錄,具體包括目標(biāo)數(shù)據(jù)的移動、演變、執(zhí)行以及傳播和交流等行為,以及在整個過程中產(chǎn)生的派生數(shù)據(jù);三是從源頭數(shù)據(jù)到當(dāng)前數(shù)據(jù)過程中,對目標(biāo)數(shù)據(jù)狀態(tài)產(chǎn)生影響的各種因素進(jìn)行追溯、描述以及分析和記錄。因此,數(shù)據(jù)溯源既是從當(dāng)前數(shù)據(jù)到源頭數(shù)據(jù)的逆向追溯的過程,也是記錄從源頭數(shù)據(jù)到當(dāng)前數(shù)據(jù)的整個演變過程。在整個數(shù)據(jù)溯源過程中,形成了一系列內(nèi)容豐富、系統(tǒng)科學(xué)、緊密聯(lián)系的數(shù)據(jù)項集,也即數(shù)據(jù)溯源的結(jié)果信息。
在系統(tǒng)梳理區(qū)塊鏈與數(shù)據(jù)溯源的相關(guān)概念后,本部分從網(wǎng)絡(luò)輿情、政府?dāng)?shù)據(jù)開放共享、數(shù)字圖書館以及農(nóng)業(yè)食品生產(chǎn)等方面進(jìn)一步分析區(qū)塊鏈數(shù)據(jù)溯源的典型應(yīng)用。
區(qū)塊鏈溯源機(jī)制在網(wǎng)絡(luò)輿情領(lǐng)域的應(yīng)用主要體現(xiàn)為輿情的溯源與管控。如Soto D[13]借助區(qū)塊鏈技術(shù)有效解決了網(wǎng)絡(luò)輿情在傳播過程中的信息傳播鴻溝問題。Huckle S[14]提出了一種用于追溯數(shù)字媒體內(nèi)容的區(qū)塊鏈技術(shù)原型,并進(jìn)一步驗(yàn)證了區(qū)塊鏈在數(shù)字媒體信息溯源領(lǐng)域的科學(xué)有效性。Zhang X等[15]研究了區(qū)塊鏈技術(shù)在健康社區(qū)輿情信息隱私問題、前因及輿情信息披露意愿等方面的應(yīng)用。國內(nèi)學(xué)者黃微等[16]基于扎根理論研究范式,借助區(qū)塊鏈技術(shù)對輿情用戶信息進(jìn)行溯源,并進(jìn)一步構(gòu)建了區(qū)塊鏈技術(shù)能力對網(wǎng)民輿情信息接受行為的影響模型。趙丹等[17]基于區(qū)塊鏈和信息傳播理論,提出了區(qū)塊鏈環(huán)境下的網(wǎng)絡(luò)輿情信息傳播概念模型,基于此概念模型進(jìn)行網(wǎng)絡(luò)輿情信息溯源,該研究通過區(qū)塊鏈技術(shù)破解網(wǎng)絡(luò)謠言溯源與識別瓶頸,有助于重構(gòu)網(wǎng)絡(luò)輿情信息傳播生態(tài)。
Liang等[18]提出將政務(wù)數(shù)據(jù)嵌入到區(qū)塊鏈來收集和驗(yàn)證云數(shù)據(jù)的溯源信息,同時保留哈希值以保護(hù)隱私不受其他節(jié)點(diǎn)的影響。Hofman等[19]提出創(chuàng)建一個語義法律層來支持基于區(qū)塊鏈的法律合同,同時創(chuàng)建一個特定司法管轄區(qū)的法律本體以及開發(fā)一套保持記錄證據(jù)特征以及智能合約的方法。戚學(xué)詳?shù)萚20]指出區(qū)塊鏈技術(shù)是一種去中心化、去信任、可追溯、透明、安全的新興互聯(lián)網(wǎng)技術(shù),能有效克服當(dāng)前政府?dāng)?shù)據(jù)治理存在的問題。董祥千[21]系統(tǒng)闡述了區(qū)塊鏈的概念與技術(shù)原理,并分析區(qū)塊鏈在政府網(wǎng)站信息資源安全保存中的應(yīng)用價值,然后結(jié)合區(qū)塊鏈的技術(shù)特征,設(shè)計基于區(qū)塊鏈的政府網(wǎng)站信息資源安全保存流程,最后從網(wǎng)絡(luò)安全評估、資源加密存儲、用戶認(rèn)證授權(quán)、信息安全共享等方面提出了具體的保障策略。此外,蔡婷等[22]以無邊界管理理論為基礎(chǔ),以區(qū)塊鏈技術(shù)為技術(shù)支撐,從打破智慧政務(wù)垂直信息協(xié)同邊界、智慧政務(wù)水平信息協(xié)同邊界、智慧政務(wù)內(nèi)外信息協(xié)同邊界與智慧政務(wù)地域信息協(xié)同邊界四種邊界入手,分析當(dāng)前影響無邊界化智慧政務(wù)推進(jìn)的阻礙因素,并探索無邊界化智慧政務(wù)的推進(jìn)機(jī)制問題。
通過區(qū)塊鏈溯源技術(shù),可以對圖書館的數(shù)字資源建設(shè)、數(shù)字資產(chǎn)管理、服務(wù)優(yōu)化管理以及知識產(chǎn)權(quán)維護(hù)等方面進(jìn)行深度賦能。如區(qū)塊鏈溯源機(jī)制有助于為文獻(xiàn)資源數(shù)據(jù)和用戶行為數(shù)據(jù)賦予“生命”,以此優(yōu)化圖書館服務(wù)流程,提高服務(wù)對接效率,保證資源傳遞穩(wěn)定性,同時還可有效保障數(shù)字資源知識產(chǎn)權(quán)的唯一性以及對數(shù)字資產(chǎn)進(jìn)行科學(xué)管理,進(jìn)而構(gòu)建和諧版權(quán)生態(tài)。同時,基于區(qū)塊鏈數(shù)據(jù)溯源技術(shù)的數(shù)字圖書館可以為用戶提供多樣化的數(shù)字資產(chǎn)管理服務(wù)。區(qū)塊鏈數(shù)據(jù)溯源賦能下的圖書館數(shù)字資產(chǎn)管理服務(wù)模式通過產(chǎn)品體驗(yàn)與底層資管基礎(chǔ)鏈,可有效解決資管環(huán)節(jié)中服務(wù)流程的去中介化問題與可信透明問題,有助于實(shí)現(xiàn)價值互聯(lián)、信息公開透明以及有跡可循,從而為構(gòu)建數(shù)字圖書館資產(chǎn)管理生態(tài)系統(tǒng)提供切實(shí)可行的解決方案。也有研究提出構(gòu)建專屬于數(shù)字圖書館領(lǐng)域處理流程的PROV溯源應(yīng)用模型,由此促進(jìn)國家科技成果轉(zhuǎn)化,通過對轉(zhuǎn)化項目各項流程的規(guī)范化控制,提高成果數(shù)據(jù)質(zhì)量。但值得注意的是,需要長期保存的數(shù)字資源在錄入到數(shù)據(jù)存儲系統(tǒng)過程中,數(shù)據(jù)可能會發(fā)生一系列變化(例如數(shù)據(jù)篡改等),因此,如將數(shù)據(jù)發(fā)生的變化記錄為溯源信息,就可以在一定程度上保證數(shù)字資源的真實(shí)性與可靠性。目前已出現(xiàn)支持?jǐn)?shù)據(jù)溯源功能的數(shù)字資源長期存儲系統(tǒng),如美國一家圖書館自行開發(fā)的DAITSS系統(tǒng)[23]。
農(nóng)產(chǎn)品從生產(chǎn)、加工到最后的分銷過程中,涉及到農(nóng)產(chǎn)品各個方面的信息,而將區(qū)塊鏈技術(shù)應(yīng)用到農(nóng)產(chǎn)品溯源過程中國內(nèi)外已有相關(guān)研究做了介紹。例如,Orjuela等[24]在數(shù)據(jù)溯源存在不信任這一問題背景下,提出設(shè)計和開發(fā)一種基于區(qū)塊鏈技術(shù)的數(shù)據(jù)庫平臺,這種平臺主要是為管理農(nóng)業(yè)供應(yīng)鏈和控制互聯(lián)網(wǎng)提出解決方案。Torky等[25]提出一種新穎的區(qū)塊鏈模型,這種模型可用于解決農(nóng)業(yè)精準(zhǔn)溯源系統(tǒng)中的一些重大挑戰(zhàn)。以此為基礎(chǔ),Demestichas等[26]概述區(qū)塊鏈技術(shù)在農(nóng)產(chǎn)品可追溯領(lǐng)域的具體應(yīng)用,并就有關(guān)區(qū)塊鏈集成到可追溯性系統(tǒng)方面的應(yīng)用進(jìn)行了廣泛的文獻(xiàn)綜述。國內(nèi)近幾年也有區(qū)塊鏈農(nóng)業(yè)溯源的一些具體應(yīng)用,如學(xué)者王志鏵等[27]提出一種利用區(qū)塊鏈技術(shù)的農(nóng)產(chǎn)品柔性可信溯源解決方案,并建立一種系統(tǒng)模式降低存儲結(jié)構(gòu)復(fù)雜度以實(shí)現(xiàn)可信溯源,以此為基礎(chǔ)采用動態(tài)追溯機(jī)制使系統(tǒng)靈活適應(yīng)不同生產(chǎn)場景,并將超級賬本作為區(qū)塊鏈實(shí)現(xiàn)方式,對關(guān)鍵數(shù)據(jù)進(jìn)行分布式加密存儲以提高追溯結(jié)果可信性,并以生姜產(chǎn)品為溯源對象,通過剖析產(chǎn)業(yè)鏈上下游產(chǎn)品對應(yīng)關(guān)系確定溯源對象粒度、賬本內(nèi)容與數(shù)據(jù)格式,對基于區(qū)塊鏈的柔性可信溯源系統(tǒng)模型進(jìn)行驗(yàn)證。
雖然比特幣底層支撐技術(shù)的區(qū)塊鏈項目發(fā)展迅速,但區(qū)塊鏈數(shù)據(jù)溯源依舊面臨較為嚴(yán)峻的應(yīng)用困境,如數(shù)據(jù)溯源存儲平臺性能缺陷、數(shù)據(jù)溯源安全危機(jī)以及溯源效率瓶頸等一系列問題,相關(guān)研究也對此進(jìn)行了探討。
目前基于區(qū)塊鏈技術(shù)存儲數(shù)據(jù)溯源信息的類型大致有兩種。一種是通過比特幣公鏈等公有鏈進(jìn)行信息存儲,另外一種則是借助更為開源的區(qū)塊鏈如比特幣、以太坊等構(gòu)建聯(lián)盟鏈進(jìn)行數(shù)據(jù)溯源信息存儲。但無論是公有鏈還是基于開源代碼的聯(lián)盟鏈,都很難避免區(qū)塊鏈自身技術(shù)性能瓶頸導(dǎo)致的數(shù)據(jù)溯源信息存儲障礙問題,且在大數(shù)據(jù)時代背景下,無論是政府?dāng)?shù)據(jù)開放共享還是數(shù)字圖書館建設(shè)方面,都面臨著用戶或資源數(shù)據(jù)規(guī)模爆炸式增長這一問題,因此,如何在政府?dāng)?shù)據(jù)溯源或數(shù)字圖書館用戶(資源)數(shù)據(jù)溯源過程中對溯源信息進(jìn)行高效存儲,是亟待解決的關(guān)鍵問題。此外,區(qū)塊鏈數(shù)據(jù)溯源系統(tǒng)存儲的相關(guān)信息大部分來自物聯(lián)網(wǎng)系統(tǒng),由于每個處于運(yùn)輸狀態(tài)的商品都會帶有不同的感知設(shè)備,在商品持續(xù)流通的過程中,上報數(shù)據(jù)規(guī)模會隨著物聯(lián)網(wǎng)感知節(jié)點(diǎn)數(shù)量的增加而不斷增長。同時,為滿足物聯(lián)網(wǎng)海量數(shù)據(jù)的上報需求,區(qū)塊鏈數(shù)據(jù)溯源信息存儲需要強(qiáng)大的信息寫入性能,但當(dāng)前通用的區(qū)塊鏈技術(shù)如比特幣、以太坊等針對大規(guī)模信息的寫入性能一般,難以滿足系統(tǒng)的信息存儲需要。國內(nèi)外學(xué)者的相關(guān)研究也驗(yàn)證了這一觀點(diǎn),如Aitzhan等[28]指出目前基于區(qū)塊鏈與數(shù)字簽名技術(shù)的交易信息存儲仍面臨較大的技術(shù)瓶頸;黑一鳴等[29]認(rèn)為分布式存儲可以提高云服務(wù)數(shù)據(jù)信息的存儲性能,但信息集中存儲于存儲服務(wù)商,完整性驗(yàn)證需要通過第三方完成,故仍存在一定的存儲缺陷。因此,迫切需要探討更為高效科學(xué)的區(qū)塊鏈數(shù)據(jù)溯源信息存儲方案,以期更好地應(yīng)用于數(shù)據(jù)溯源信息存儲管理。
一方面,區(qū)塊鏈數(shù)據(jù)溯源的信息安全問題本質(zhì)上是區(qū)塊鏈安全監(jiān)管問題,例如,如何對農(nóng)業(yè)食品生產(chǎn)過程中食品的安全信息進(jìn)行溯源是近幾年研究的熱點(diǎn)問題。值得注意的是,區(qū)塊鏈安全監(jiān)管問題主要涉及兩個方面:一是區(qū)塊鏈共識機(jī)制、密鑰管理以及智能合約等自身技術(shù)局限帶來的安全問題;二是區(qū)塊鏈高度去中心化和自治性能特點(diǎn)為現(xiàn)有的網(wǎng)絡(luò)和數(shù)據(jù)安全監(jiān)管技術(shù)帶來的全新挑戰(zhàn)。針對溯源數(shù)據(jù)信息安全問題,Baker J等[30]利用區(qū)塊鏈作為數(shù)據(jù)溯源跟蹤,將區(qū)塊鏈交易用于存儲食品從生產(chǎn)到消費(fèi)者的溯源詳細(xì)信息;Barber S等[31]在研究中探討了以比特幣為研究場景的數(shù)據(jù)溯源系統(tǒng),提出將研究目標(biāo)作為編碼文件存儲在比特幣交易數(shù)據(jù)字段中的技術(shù)手段。
另一方面,隱私性與保密性是區(qū)塊鏈數(shù)據(jù)溯源應(yīng)用能否大力推廣的基本條件,這一點(diǎn)在網(wǎng)絡(luò)輿情治理、政府?dāng)?shù)據(jù)開放共享以及數(shù)字圖書館建設(shè)顯得尤為重要,例如輿情治理數(shù)據(jù)信息溯源過程中會涉及網(wǎng)絡(luò)用戶的個人隱私,政府?dāng)?shù)據(jù)開放共享過程中會涉及政府部分的相關(guān)數(shù)據(jù)隱私,數(shù)字圖書館建設(shè)過程中同樣會涉及圖書館用戶和資源的隱私。因此,如何保護(hù)數(shù)據(jù)溯源信息的隱私是一個值得注意的問題。針對區(qū)塊鏈溯源導(dǎo)致的隱私泄露問題,Wang等[32]采用智能合約與同態(tài)加密技術(shù)保護(hù)用戶隱私,相比傳統(tǒng)的單一使用智能合約技術(shù)來保護(hù)用戶隱私安全性更高;Lei等[33]指出零知識證明是一種涉及雙方或更多方的協(xié)議,對于保護(hù)用戶交易隱私具有很大的實(shí)際價值,可以通過引入零知識證明方法對用戶的交易隱私進(jìn)行保護(hù)。
效率是數(shù)據(jù)溯源過程中非常重要的技術(shù)指標(biāo)。無論是將區(qū)塊鏈數(shù)據(jù)溯源用于網(wǎng)絡(luò)輿情治理、政府?dāng)?shù)據(jù)開放共享,還是應(yīng)用于數(shù)字圖書館建設(shè)與農(nóng)業(yè)食品生產(chǎn)方面,使用方對溯源效率的要求極高,同時還需要對數(shù)據(jù)溯源質(zhì)量進(jìn)行嚴(yán)格把控,而當(dāng)前的數(shù)據(jù)溯源尚面臨較大的效率瓶頸,對溯源的整體效果造成了較大影響。這一問題也引起了國內(nèi)外學(xué)者的關(guān)注,如Dai等[34]認(rèn)為傳統(tǒng)的數(shù)據(jù)溯源方法如順序溯源法最大的問題就是數(shù)據(jù)溯源效率不高,數(shù)據(jù)查詢也存在類似的性能瓶頸,并且這種方法還需要較大的數(shù)據(jù)存儲空間。在此基礎(chǔ)上,Woodruff等[35]指出,在順序溯源過程中加入一定的標(biāo)注功能有利于提高數(shù)據(jù)溯源的效率,但存儲空間需求大的問題依舊沒有得到解決。明華等[36]對已有的數(shù)據(jù)溯源模型進(jìn)行了回顧,指出雖然目前的數(shù)據(jù)溯源模型已頗具規(guī)模,但始終存在一個共性問題:模型性能有待提高,數(shù)據(jù)溯源效率還存在缺陷。因此,溯源效率已成為數(shù)據(jù)溯源亟需解決的關(guān)鍵問題之一。
針對區(qū)塊鏈數(shù)據(jù)溯源在實(shí)際應(yīng)用過程中面臨的上述困境,部分研究通過建立雙鏈存儲機(jī)制、安全模型機(jī)制以及逆向溯源機(jī)制等破解區(qū)塊鏈數(shù)據(jù)溯源面臨的諸多難題。
雙鏈存儲機(jī)制以鏈?zhǔn)浇Y(jié)構(gòu)為基礎(chǔ),憑借鏈上區(qū)塊中交易的無序特性構(gòu)建各項交易的鏈?zhǔn)浇Y(jié)構(gòu),進(jìn)而解決數(shù)據(jù)溯源過程中的信息存儲問題。雙鏈存儲機(jī)制分為數(shù)據(jù)溯源信息存儲及數(shù)據(jù)溯源信息查詢兩部分,具體是利用以太坊交易的附加字段,將父交易的哈希散列作為附加數(shù)據(jù)添加到區(qū)塊的交易中,這樣才能在數(shù)據(jù)信息查詢時按照鏈?zhǔn)浇Y(jié)構(gòu)對鏈上的全部數(shù)據(jù)進(jìn)行查詢。針對數(shù)據(jù)溯源過程中存在的數(shù)據(jù)信息存儲性能瓶頸,已有研究從雙鏈存儲機(jī)制層面給出了具體的解決方案,如SUN等[37]在IPFS存儲環(huán)境下實(shí)現(xiàn)電子病歷的穩(wěn)定存儲和高效共享,構(gòu)造了一種基于區(qū)塊鏈的數(shù)據(jù)加密存儲方案。WANG等[38]研究了分布式存儲系統(tǒng)的數(shù)據(jù)存儲與共享方案,提出了將IPFS、以太坊和基于屬性的加密技術(shù)相結(jié)合的數(shù)據(jù)存儲架構(gòu)。為了解決數(shù)據(jù)難以流通及數(shù)據(jù)存儲問題,劉煒等[39]基于區(qū)塊鏈的高度去中心化、不可篡改以及集體維護(hù)等性能特點(diǎn),采用雙鏈結(jié)構(gòu)作為區(qū)塊鏈架構(gòu),構(gòu)建了一個雙鏈結(jié)構(gòu)傳染病數(shù)據(jù)共享區(qū)塊鏈模型,同時通過IPFS獲得大容量存儲空間,以此解決了區(qū)塊數(shù)據(jù)溯源信息存儲面臨的空間問題,充分保障了數(shù)據(jù)溯源信息存儲的穩(wěn)定性與共享的安全性。此外,張利華等[40]為解決高速鐵路分布存儲的數(shù)據(jù)溯源信息遭受惡意篡改及存儲困難等問題,提出一種基于聯(lián)盟鏈的去中心化的雙鏈存儲模型,由此安全、可靠、高效地存儲鐵路沿線監(jiān)測數(shù)據(jù)溯源信息。
在數(shù)據(jù)溯源過程中,數(shù)據(jù)溯源信息易被惡意篡改,導(dǎo)致數(shù)據(jù)溯源信息面臨較大的信息安全隱患。因此,為了保證數(shù)據(jù)溯源信息的真實(shí)性、完整性與可靠性,有必要建立數(shù)據(jù)溯源安全機(jī)制,從多個方面保證數(shù)據(jù)溯源的信息安全。針對數(shù)據(jù)溯源的潛在威脅,Hansan等[41]指出憑借安全可信源機(jī)制可以對數(shù)據(jù)溯源信息進(jìn)行檢測,由此判定數(shù)據(jù)溯源信息是否完整,是否遭到破壞,從而保障其安全性。Zhang等[42]利用改進(jìn)的數(shù)據(jù)溯源威脅模型解決了數(shù)據(jù)庫中數(shù)據(jù)溯源信息管理的兩個問題:對每條數(shù)據(jù)記錄進(jìn)行溯源檢查,改變數(shù)據(jù)溯源信息的序列管理方式。賈大宇等[43]利用已有數(shù)據(jù)溯源標(biāo)準(zhǔn)及模型對數(shù)據(jù)溯源安全管理進(jìn)行了擴(kuò)展,提出一種分層次的數(shù)據(jù)溯源安全模型,通過這種數(shù)據(jù)溯源安全模型來保證數(shù)據(jù)溯源信息的完整性及可信性。此外,通過分析數(shù)據(jù)隱私攻擊方法可以看出,攻擊者主要通過監(jiān)聽數(shù)據(jù)溯源過程中的網(wǎng)絡(luò)層信息、交易層信息以及應(yīng)用層信息來獲取數(shù)據(jù)信息。因此,可以從這三個層面出發(fā)進(jìn)行數(shù)據(jù)溯源隱私保護(hù)。首先,在數(shù)據(jù)網(wǎng)絡(luò)層隱私保護(hù)方面,有研究提出采用限制接入的方式進(jìn)行安全防御,該方法可以從根本上加大攻擊者對信息網(wǎng)絡(luò)層進(jìn)行攻擊的難度,但需要對區(qū)塊鏈的運(yùn)行機(jī)制進(jìn)行修改,因此存在一定的局限。目前,該種方法主要應(yīng)用于私有鏈或聯(lián)盟鏈架構(gòu)中,如超級賬本等[44]。還有研究通過檢測和屏蔽的方式對數(shù)據(jù)隱私進(jìn)行保護(hù),如Huang等[45]通過行為模式聚類來檢測存在缺陷的數(shù)據(jù)信息,該方法能夠有效消除數(shù)據(jù)隱私安全問題。其次,在數(shù)據(jù)交易層隱私保護(hù)方面,Bitlaunder[46]在研究中提出了基于數(shù)據(jù)失真技術(shù)保護(hù)數(shù)據(jù)隱私的方法;Monero[47]研究了門羅幣這一專注于隱私保護(hù)的數(shù)字貨幣,設(shè)計了基于加密機(jī)制的保護(hù)方案,以此對數(shù)據(jù)交易層隱私進(jìn)行保護(hù)。最后,在數(shù)據(jù)應(yīng)用層隱私保護(hù)方面,有研究提出了具有隱私保護(hù)機(jī)制的區(qū)塊鏈技術(shù),如Meiklejohn等[48]通過找尋比特幣地址進(jìn)行污點(diǎn)分析,由此驗(yàn)證比特幣址的身份信息并進(jìn)行隱私防護(hù);還有學(xué)者指出利用冷錢包技術(shù)[49]對數(shù)據(jù)秘鑰進(jìn)行離線緩存,以此防止網(wǎng)絡(luò)對其進(jìn)行惡意攻擊,保護(hù)數(shù)據(jù)隱私存儲介質(zhì)的安全。
逆向溯源機(jī)制是解決數(shù)據(jù)溯源效率不高的有效方法,該機(jī)制對于目標(biāo)數(shù)據(jù)的追蹤較為簡單,且只需要存儲較少的元數(shù)據(jù)就可以實(shí)現(xiàn)有效地追蹤,且不需要耗用多余的空間來存儲溯源過程中的中間處理信息、溯源全過程的注釋信息等,因此在很大程度上可以規(guī)避數(shù)據(jù)存儲缺陷問題。針對逆向溯源機(jī)制,已有學(xué)者進(jìn)行了相關(guān)研究,如Dai等[34]詳細(xì)論述了數(shù)據(jù)庫中逆置追蹤的數(shù)據(jù)溯源機(jī)制,并指出逆向溯源的關(guān)鍵是構(gòu)造逆向函數(shù),能否構(gòu)造出有效的逆向函數(shù)將直接影響數(shù)據(jù)溯源查詢的效果以及溯源算法的性能,最終決定整個溯源過程的效率;相較于標(biāo)注法,逆向溯源機(jī)制的最大優(yōu)點(diǎn)是所需存儲空間較小。在此基礎(chǔ)上,Woodruff等[35]提出了逆置函數(shù)反向查詢法,該方法通過逆向查詢或構(gòu)造逆向函數(shù)對查詢求逆,或者說根據(jù)轉(zhuǎn)換過程反向推導(dǎo),由結(jié)果追溯至原數(shù)據(jù),由于該方法是在必要時才進(jìn)行計算,因此又叫做Lazzy方法。此外,Xu等[50]簡要描述了用于農(nóng)業(yè)食品數(shù)據(jù)記錄和追蹤的區(qū)塊鏈數(shù)據(jù)逆向溯源工作原理,并從提高數(shù)據(jù)透明度、實(shí)現(xiàn)數(shù)據(jù)可追溯、提高食品安全質(zhì)量監(jiān)控以及降低交易成本四個方面探討了區(qū)塊鏈數(shù)據(jù)逆向溯源機(jī)制的落地策略。
在數(shù)據(jù)信用深度賦能的時代背景下,區(qū)塊鏈數(shù)據(jù)溯源受到學(xué)術(shù)界和業(yè)界的廣泛關(guān)注并取得了一定的進(jìn)展,但仍是一個充滿挑戰(zhàn)的熱點(diǎn)研究領(lǐng)域。此外,雖已建立了相應(yīng)的數(shù)據(jù)溯源機(jī)制來解決實(shí)際應(yīng)用中的諸多問題,但依舊存在以下待完善之處。
a.數(shù)據(jù)溯源信息存儲技術(shù)亟待更新和完善。通過文獻(xiàn)梳理可以看出,大數(shù)據(jù)時代需要充分考慮數(shù)據(jù)溯源信息的規(guī)模及相應(yīng)數(shù)據(jù)溯源信息存儲系統(tǒng)的存儲性能。已有研究大多從增鏈角度考慮,如采用雙鏈結(jié)構(gòu)[41]作為區(qū)塊鏈架構(gòu),通過IPFS獲得大容量存儲空間以此來充分保障數(shù)據(jù)溯源信息的存儲穩(wěn)定性與共享安全性。在此基礎(chǔ)上,有文獻(xiàn)提出基于雙鏈存儲模型構(gòu)建聯(lián)盟鏈,由此對雙鏈存儲模型性能進(jìn)行進(jìn)一步優(yōu)化,該模型能有效提升區(qū)塊鏈數(shù)據(jù)溯源系統(tǒng)的存儲性能和數(shù)據(jù)信息的吞吐量,進(jìn)而廣泛應(yīng)用于鐵路沿線監(jiān)測數(shù)據(jù)溯源信息存儲[40]。需要指出的是,雖然雙鏈存儲機(jī)制能在一定程度上改善溯源系統(tǒng)的數(shù)據(jù)信息存儲性能,但由于數(shù)據(jù)溯源信息不斷趨于增長,在數(shù)據(jù)溯源過程中捕獲到的數(shù)據(jù)溯源信息有可能比原始數(shù)據(jù)信息本身的規(guī)模和體量還要大,這就意味著需要更大的數(shù)據(jù)信息存儲空間以及更低的數(shù)據(jù)信息存儲成本,且存儲效率也需要不斷增強(qiáng),因此相應(yīng)的數(shù)據(jù)溯源信息存儲技術(shù)還需要進(jìn)一步優(yōu)化和完善。
b.數(shù)據(jù)溯源信息安全管理模型與隱私保護(hù)機(jī)制尚不規(guī)范。已有的數(shù)據(jù)溯源模型及其框架大多是針對具體的指定任務(wù)建立,其構(gòu)建的系統(tǒng)也是在自身系統(tǒng)內(nèi)對數(shù)據(jù)溯源信息進(jìn)行溯源和管理,在訪問或獲取跨系統(tǒng)的溯源信息時,需要通過現(xiàn)有的API接口才能實(shí)現(xiàn),但目前該類接口在擴(kuò)展性和通用性方面還均有欠缺。因此,如何構(gòu)建一套通用規(guī)范的API訪問接口就顯得尤為必要。同時,現(xiàn)有的數(shù)據(jù)溯源模型復(fù)雜多樣,數(shù)據(jù)溯源信息格式也不盡相同,導(dǎo)致數(shù)據(jù)溯源信息異構(gòu)問題突出,進(jìn)而會影響到數(shù)據(jù)溯源信息的檢索及共享效率。針對此類問題,可通過建立數(shù)據(jù)溯源威脅模型來規(guī)范數(shù)據(jù)溯源信息訪問途徑[42]或提出訪問控制策略,進(jìn)而保障數(shù)據(jù)溯源的信息安全。然而,已有的溯源數(shù)據(jù)信息訪問控制及安全模型機(jī)制仍然需要不斷優(yōu)化,如需要持續(xù)優(yōu)化安全模型涉及的參數(shù)及變量,以此來改進(jìn)模型效能,規(guī)范溯源信息訪問與安全管理機(jī)制。此外,區(qū)塊鏈自身獨(dú)有的高度去中心化功能保障了數(shù)據(jù)溯源的完整性和不可篡改性能,智能合約有效降低了數(shù)據(jù)溯源的收集成本,提高了數(shù)據(jù)溯源的應(yīng)用效率。從文獻(xiàn)梳理來看,目前的區(qū)塊鏈隱私保護(hù)機(jī)制有從事前進(jìn)行防范的方面,如節(jié)點(diǎn)準(zhǔn)入限制、匿名通信系統(tǒng)的使用以及節(jié)點(diǎn)隔離機(jī)制的應(yīng)用等;也有從事后方面的監(jiān)管措施,如惡意節(jié)點(diǎn)的監(jiān)測和屏蔽等[45]。但不同的保護(hù)機(jī)制也有其自身的適用條件和一定的場景限制,在實(shí)際應(yīng)用過程中,還需要因地制宜地針對區(qū)塊鏈網(wǎng)絡(luò)的類型和特點(diǎn)制定相應(yīng)的隱私安全維護(hù)方案。
c.區(qū)塊鏈數(shù)據(jù)溯源機(jī)制的理論創(chuàng)新性與實(shí)踐實(shí)用性有待結(jié)合深化。區(qū)塊鏈?zhǔn)悄壳白顬榍把氐男畔⒓夹g(shù)之一,其數(shù)據(jù)溯源機(jī)制在很多領(lǐng)域尚未形成有效具體的應(yīng)用場景和成功經(jīng)驗(yàn),甚至已落地的應(yīng)用和當(dāng)前技術(shù)管理手段與制度產(chǎn)生沖突。但是,越來越多的研究成果充分證明了區(qū)塊鏈數(shù)據(jù)溯源的潛在價值,且隨著區(qū)塊鏈數(shù)據(jù)溯源技術(shù)的不斷成熟,其實(shí)際應(yīng)用場景也會不斷擴(kuò)展,這在一定程度上可進(jìn)一步驗(yàn)證已有區(qū)塊鏈數(shù)據(jù)溯源的相關(guān)標(biāo)準(zhǔn)、模型以及方法,也能夠更好地解決現(xiàn)實(shí)問題,如在如前所述的網(wǎng)絡(luò)輿情治理、政府?dāng)?shù)據(jù)開放共享、數(shù)字圖書館建設(shè)以及農(nóng)業(yè)食品生產(chǎn)等領(lǐng)域,區(qū)塊鏈將傳統(tǒng)互聯(lián)網(wǎng)架構(gòu)提升到集成性創(chuàng)新的全新維度,通過區(qū)塊鏈賦能形成“區(qū)塊鏈+應(yīng)用”的各類場景,充分發(fā)揮區(qū)塊鏈在降本增效方面的巨大潛能,重構(gòu)各領(lǐng)域的發(fā)展模式。此外,在未來的發(fā)展中,需要進(jìn)一步提升政府部門和業(yè)界對區(qū)塊鏈數(shù)據(jù)溯源技術(shù)的重視程度,業(yè)界專家也需針對數(shù)據(jù)溯源開展加密追蹤相關(guān)技術(shù)的創(chuàng)新研究,在為區(qū)塊鏈數(shù)據(jù)溯源機(jī)制與數(shù)據(jù)隱私保護(hù)提供技術(shù)支持的同時,協(xié)助區(qū)塊鏈數(shù)據(jù)溯源項目的實(shí)際應(yīng)用落地。因此,創(chuàng)新性與實(shí)用性的結(jié)合將是今后完善區(qū)塊鏈數(shù)據(jù)溯源機(jī)制的一個發(fā)展方向,需在現(xiàn)有區(qū)塊鏈數(shù)據(jù)溯源技術(shù)基礎(chǔ)上,不斷探索和優(yōu)化更為合理、系統(tǒng)以及規(guī)范的技術(shù)準(zhǔn)則,為今后大規(guī)模的區(qū)塊鏈數(shù)據(jù)溯源應(yīng)用落地奠定基礎(chǔ)。
溯源機(jī)制作為區(qū)塊鏈的核心特征,可以對數(shù)據(jù)整個生命周期的演變過程進(jìn)行實(shí)時追蹤,從而保障數(shù)據(jù)溯源信息存儲的穩(wěn)定性與共享的安全性。本文在深入分析區(qū)塊鏈數(shù)據(jù)溯源典型應(yīng)用及困境的基礎(chǔ)上,系統(tǒng)梳理了各種溯源機(jī)制的研究成果,并對區(qū)塊鏈數(shù)據(jù)溯源機(jī)制的未來發(fā)展方向進(jìn)行了展望。隨著5G時代的來臨,區(qū)塊鏈將在新型數(shù)字化建設(shè)中發(fā)揮更加重要的作用,不可避免地會與物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、AI等新興技術(shù)產(chǎn)生接觸。因此,如何深度融合前沿的信息化技術(shù),構(gòu)建高容量、高效率、規(guī)范化的區(qū)塊鏈數(shù)據(jù)溯源機(jī)制是一個值得關(guān)注的研究方向。