張帥領(lǐng),湯殿華,2,胡華鵬
(1.中國電子科技集團公司第三十研究所,四川 成都 610041;2.保密通信重點實驗室,四川 成都 610041)
隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、5G 通信、人工智能技術(shù)等新興技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)已經(jīng)成為企業(yè)和國家的基礎(chǔ)資源,在政府高效治理、企業(yè)生產(chǎn)提質(zhì)增效、市場資源獲取、科技創(chuàng)新等方面發(fā)揮了關(guān)鍵作用,極大地促進了社會經(jīng)濟的快速發(fā)展。以數(shù)據(jù)為中心的信息時代已經(jīng)到來,數(shù)據(jù)已成為國家戰(zhàn)略資源。2015年10 月,中共十八屆五中全會首次提出“國家大數(shù)據(jù)戰(zhàn)略”,旨在全面推進我國大數(shù)據(jù)發(fā)展和應(yīng)用,建設(shè)數(shù)據(jù)強國,促進經(jīng)濟轉(zhuǎn)型升級;2020 年4 月,中共中央、國務(wù)院正式發(fā)布了《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》,首次提出將數(shù)據(jù)作為生產(chǎn)要素,強調(diào)推進政府?dāng)?shù)據(jù)開放共享,加強數(shù)據(jù)資源整合和安全保護;2022 年1 月,國務(wù)院印發(fā)了《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》,部署了優(yōu)化升級數(shù)字基礎(chǔ)設(shè)施、充分發(fā)揮數(shù)據(jù)要素作用、大力推進產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型、加快推動數(shù)字產(chǎn)業(yè)化、持續(xù)提升公共服務(wù)數(shù)字化水平、健全完善數(shù)字經(jīng)濟治理體系、著力強化數(shù)字經(jīng)濟安全體系、有效拓展數(shù)字經(jīng)濟國際合作8 項重點任務(wù),目標(biāo)是實現(xiàn)2025 年數(shù)字經(jīng)濟核心產(chǎn)業(yè)增加值占國內(nèi)生產(chǎn)總值比重達到10%;2022 年1 月,《求是》雜志發(fā)布了習(xí)近平總書記重要文章《不斷做強做優(yōu)做大我國數(shù)字經(jīng)濟》,指出發(fā)展數(shù)字經(jīng)濟是把握新一輪科技革命和產(chǎn)業(yè)變革新機遇的戰(zhàn)略選擇。我國從大數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)生產(chǎn)要素等逐漸向數(shù)字經(jīng)濟的國家戰(zhàn)略發(fā)展,持續(xù)強化了數(shù)據(jù)的戰(zhàn)略意義。
數(shù)據(jù)作為重要的基礎(chǔ)資源,受到世界各國、組織的高度重視。各個組織可以運用先進的數(shù)據(jù)分析處理技術(shù),收集多來源的海量數(shù)據(jù),實施數(shù)據(jù)挖掘、機器學(xué)習(xí)等算法,提煉出高價值數(shù)據(jù)信息。同時,數(shù)據(jù)是指任何以電子或者其他方式對信息的記錄,其復(fù)制成本低、環(huán)境容易不受控。由于數(shù)據(jù)本身具有利用價值且容易被攻擊,因此數(shù)據(jù)安全問題日益嚴重,危及國家、社會及個人的安全,嚴重時將引發(fā)國家威脅、社會混亂、個人財產(chǎn)或生命安全威脅。2019 年9 月,F(xiàn)acebook 公司泄露了4 億條用戶的賬號、電話號碼等信息,并被美國聯(lián)邦貿(mào)易委員會罰款50 億美元;2020 年4 月,知名的視頻會議軟件Zoom,在用戶安裝或打開應(yīng)用程序時收集用戶信息,并因安全防護不到位,導(dǎo)致1.5 萬個會議視頻遭泄露;2021 年10 月,江蘇無錫警方成功破獲了一起侵犯公民個人信息案,犯罪嫌疑人非法獲取各類公民信息54 億多條,并通過非法網(wǎng)絡(luò)平臺以查詢、出售等方式牟取利益??梢?,國內(nèi)外每年的數(shù)據(jù)安全事件頻發(fā)。
為了降低數(shù)據(jù)安全事件頻發(fā)導(dǎo)致的安全危害,確保數(shù)據(jù)被合理地開發(fā)使用,并保證數(shù)據(jù)經(jīng)濟健康有序發(fā)展,世界各大經(jīng)濟體相繼制定了一系列數(shù)據(jù)安全法律法規(guī)。2012 年2 月,美國白宮提出了《消費者隱私權(quán)法案》,讓消費者能更好地控制他們留在互聯(lián)網(wǎng)上數(shù)據(jù)足跡的使用、儲存和銷售。2018 年5 月,歐盟出臺了《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR),成為歐盟隱私和數(shù)據(jù)保護的法律框架,要求在歐盟地域內(nèi)的企業(yè)滿足條例的合規(guī)性要求。2021 年6—8 月,我國相繼發(fā)布了《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》,規(guī)范數(shù)據(jù)處理活動、個人信息處理活動,保障數(shù)據(jù)安全,促進數(shù)據(jù)開發(fā)利用和個人信息合理利用,保護個人、組織的合法權(quán)益,維護國家主權(quán)、安全和發(fā)展利益。
由此可見,數(shù)據(jù)是企業(yè)和國家發(fā)展的基礎(chǔ)資源、關(guān)鍵資源,數(shù)據(jù)要素基礎(chǔ)設(shè)施建設(shè)、數(shù)字經(jīng)濟發(fā)展、數(shù)據(jù)安全防護是世界各國的戰(zhàn)略共識。本文主要聚焦于數(shù)據(jù)安全利用,分析開放環(huán)境下數(shù)據(jù)安全面臨的挑戰(zhàn),介紹數(shù)據(jù)安全技術(shù)的發(fā)展現(xiàn)狀,設(shè)計數(shù)據(jù)安全開發(fā)利用技術(shù)架構(gòu)和系統(tǒng)組成,并簡要提出典型場景下的應(yīng)用模式。
數(shù)據(jù)開發(fā)利用過程,也是數(shù)據(jù)、算法和算力協(xié)同發(fā)展、持續(xù)遞進的過程,其核心是“以數(shù)據(jù)為資源,挖掘信息價值”。如今,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、5G 通信等網(wǎng)絡(luò)技術(shù)為大規(guī)模邊端數(shù)據(jù)采集提供了可靠手段。云計算技術(shù)為數(shù)據(jù)存儲與處理提供了靈活配置的基礎(chǔ)設(shè)施資源池,具備了算力基礎(chǔ)。大數(shù)據(jù)技術(shù)使得大規(guī)模數(shù)據(jù)存儲與處理具備了高效運行和海量數(shù)據(jù)匯聚融合的能力。人工智能技術(shù)為數(shù)據(jù)智能分析和價值提煉提供了算法能力。整個數(shù)據(jù)開發(fā)利用過程融合了云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動通信、人工智能等技術(shù),貫穿了大規(guī)模邊端、云計算設(shè)施、大數(shù)據(jù)中心、智能應(yīng)用等信息系統(tǒng),涉及數(shù)據(jù)擁有方、平臺運營方、數(shù)據(jù)使用方、監(jiān)管方等角色。因此,數(shù)據(jù)環(huán)境是一個廣泛開放式環(huán)境,并處于頻繁流動與共享利用狀態(tài),加劇了跨部門、跨行業(yè)的數(shù)據(jù)流動趨勢。因數(shù)據(jù)具有來源廣、規(guī)模大、結(jié)構(gòu)類型豐富、處理行為多樣、擁有權(quán)與使用權(quán)分離等特點,使數(shù)據(jù)安全在開放環(huán)境下面臨著新的挑戰(zhàn)。
(1)數(shù)據(jù)隱私泄露風(fēng)險高。信息技術(shù)的發(fā)展極大地促進了社會向著數(shù)字化、智能化方向快速發(fā)展,數(shù)據(jù)已經(jīng)成為承載和描述實體信息的基礎(chǔ)要素,同時也記錄了關(guān)系個人和機構(gòu)的敏感信息。例如,個人使用的網(wǎng)上購物、網(wǎng)上銀行、電子支付、打車平臺、個人政務(wù)辦理等數(shù)字化服務(wù),會向服務(wù)運營商注冊并提供身份證、個人照片、住址、性別、年齡等敏感信息;企業(yè)使用商業(yè)云計算和大數(shù)據(jù)平臺執(zhí)行企業(yè)協(xié)同辦公、業(yè)務(wù)流程、財務(wù)管理等應(yīng)用,同樣會導(dǎo)致企業(yè)敏感信息被置于第三方運營商中,一些運營商為了提升服務(wù)能力,會基于用戶數(shù)據(jù)進行分析處理。而這些具有挖掘價值的數(shù)據(jù),往往成為黑客攻擊的對象。因此,隨著社會數(shù)字化進程加快,數(shù)據(jù)成為描述實體信息的基礎(chǔ)要素,但數(shù)據(jù)收集和使用的不可控導(dǎo)致數(shù)據(jù)隱私泄露風(fēng)險高。
(2)數(shù)據(jù)融合安全能力弱。數(shù)據(jù)作為一種生產(chǎn)要素,能夠通過數(shù)據(jù)挖掘、聯(lián)合分析來產(chǎn)生價值,促進企業(yè)生產(chǎn)力的提升。隨著數(shù)據(jù)挖掘和人工智能技術(shù)的發(fā)展,需要大量高質(zhì)量的數(shù)據(jù)集來生成準(zhǔn)確的算法模型,這促進了多個機構(gòu)間的數(shù)據(jù)形成特征互補、數(shù)據(jù)量擴充,以聯(lián)合協(xié)作的方式執(zhí)行數(shù)據(jù)融合計算。但數(shù)據(jù)涉及用戶和機構(gòu)的隱私,必須采用安全手段保護數(shù)據(jù)融合過程的安全。傳統(tǒng)安全防護以邊界防護為主,無法實施數(shù)據(jù)流通的動態(tài)防護。同時,常用的基礎(chǔ)加密技術(shù)會破壞數(shù)據(jù)結(jié)構(gòu),導(dǎo)致無法執(zhí)行加密計算,而執(zhí)行密態(tài)處理的同態(tài)加密計算、安全多方計算等技術(shù)的效率還不能滿足大規(guī)模應(yīng)用的需求。因此,數(shù)據(jù)作為生產(chǎn)要素需要被匯聚和計算,僅憑當(dāng)前安全防護技術(shù)和加密技術(shù),無法滿足海量密態(tài)數(shù)據(jù)處理需求,呈現(xiàn)出數(shù)據(jù)融合安全能力弱的問題。
(3)數(shù)據(jù)流轉(zhuǎn)全程監(jiān)管難。合規(guī)性是當(dāng)前數(shù)據(jù)安全治理的重要內(nèi)容,在當(dāng)前政務(wù)數(shù)據(jù)開放共享、互聯(lián)網(wǎng)企業(yè)聯(lián)盟數(shù)據(jù)共享等背景下,以及國家不斷增強的數(shù)據(jù)安全法律法規(guī)約束下,實施數(shù)據(jù)內(nèi)容和數(shù)據(jù)行為的全程監(jiān)管是一個具有挑戰(zhàn)性的難題。數(shù)據(jù)在采集匯聚時,來自不同的終端和用戶,其類型多樣,敏感程度不同,難以實施細粒度的管理。數(shù)據(jù)流轉(zhuǎn)使得數(shù)據(jù)形成一張復(fù)雜的數(shù)據(jù)網(wǎng)絡(luò),其流向復(fù)雜、與計算任務(wù)深度耦合,難以跟蹤。數(shù)據(jù)在融合計算時,關(guān)聯(lián)數(shù)據(jù)方較多、權(quán)重不一、融合計算行為多樣,難以進行授權(quán)和可信度量化。因此,數(shù)據(jù)動態(tài)流動頻繁、數(shù)據(jù)類型豐富、數(shù)據(jù)利用行為多樣,使數(shù)據(jù)采集、存儲、傳輸、處理、交換、銷毀等全程監(jiān)管能力實施難度加大。
數(shù)據(jù)隱私泄露風(fēng)險高、數(shù)據(jù)融合安全能力弱、數(shù)據(jù)流轉(zhuǎn)全程監(jiān)管難是當(dāng)前開放環(huán)境下數(shù)據(jù)安全面臨的主要挑戰(zhàn)。為了應(yīng)對挑戰(zhàn),本文以密碼技術(shù)為核心,構(gòu)建新型計算模式,重點解決安全存儲、密態(tài)利用、有效監(jiān)管等關(guān)鍵環(huán)節(jié)的安全防護問題。
數(shù)據(jù)生命周期主要有采集、傳輸、存儲、處理、交換、銷毀等6 個階段,在傳統(tǒng)的安全手段中,針對靜態(tài)數(shù)據(jù)主要以加密和認證為主,針對動態(tài)數(shù)據(jù)主要以邊界式防護為主。在采集、傳輸階段的密碼防護手段較為成熟,本文聚焦于動態(tài)數(shù)據(jù)處理,重點分析數(shù)據(jù)的安全存儲、密態(tài)利用和有效監(jiān)管的現(xiàn)狀。
在安全存儲方面,數(shù)據(jù)的完整性、可用性、可靠性亟需保障。Bellare 等人(2013 年)[1]、Li等人(2016 年)[2]、Ren 等人(2021 年)[3]提出的輕量級加密存儲方案,Dijk 等人(2012 年)[4]、Fisch 等人(2019 年)[5]、Cecchetti 等人(2019 年)[6]提出的多副本編碼協(xié)議,以及Ateniese 等人(2007年)[7]、Bowers 等人(2009 年)[8]提出的數(shù)據(jù)完整性驗證技術(shù),推動了分布式安全存儲應(yīng)用。谷歌GFS(2003 年)、亞馬遜Snowball(2006 年)、微軟OneDrive(2014 年)、華為GaussDB(2020 年)等云存儲方案的安全性逐漸增強,但都是針對中心化環(huán)境而設(shè)計,不適用于跨中心或去中心化的分布式存儲。2020 年,主網(wǎng)上線的星際文件系統(tǒng)(InterPlanetary File System,IPFS)采用無中心組網(wǎng),將加密文件切割成多個碎片,采用基于zk-SNARK 的副本證明機制,實現(xiàn)安全存儲,周數(shù)據(jù)增量為PB 級,且能提供100 Gbps以上的吞吐量,解決了單點故障等缺陷,但仍存在存儲空間浪費嚴重、數(shù)據(jù)完整性無保障、數(shù)據(jù)濫用難控制等問題。
收斂加密、數(shù)據(jù)完整性驗證、細粒度訪問控制等技術(shù)提升了數(shù)據(jù)存儲安全性,但存儲環(huán)境開放帶來的數(shù)據(jù)泄露、篡改、刪除等事件對數(shù)據(jù)安全可靠存儲造成了嚴重威脅,仍然存在技術(shù)瓶頸,主要包括加密存儲模式下數(shù)據(jù)難以去重、加密存儲備份與同步效率低、數(shù)據(jù)遠程完整性驗證困難。因此,面向海量、異構(gòu)、多維數(shù)據(jù)安全可靠存儲,亟需研究輕量級加密、多備份存儲、高效更新、完整性驗證等關(guān)鍵技術(shù),為我國數(shù)據(jù)治理提供安全存儲技術(shù)支撐。
開放環(huán)境下打破數(shù)據(jù)流通壁壘的關(guān)鍵在于解決制約數(shù)據(jù)利用的隱私保護掣肘。數(shù)據(jù)安全利用主要涉及可搜索加密、隱私信息檢索等密文檢索技術(shù),以及同態(tài)加密、安全多方計算等密態(tài)計算技術(shù)。其中,在密文檢索方面,Boneh等人(2004年)[9]、Lai 等人(2018 年)[10]、Wang 等人(2018年)[11]、Bossuat 等人(2021 年)[12]提出的可搜索加密方案都是針對中心化環(huán)境而設(shè)計,不適用于跨中心分布式檢索;2011 年,麻省理工學(xué)院更新的CryptDB[13]密態(tài)數(shù)據(jù)庫系統(tǒng),在2.5 萬條數(shù)據(jù)集下等值、范圍檢索耗時不超過7.3 秒;NDSS 2021 最新結(jié)果表明隱私信息檢索發(fā)現(xiàn)方案[14]在282 條數(shù)據(jù)下單次檢索耗時1.92 秒。在同態(tài)計算方面,Brakerski 等人(2012 年)[15]、 Fan 等人(2012 年)[16]、Gentry 等人(2013 年)[17]、 Cheon 等人(2017 年)[18]提出的方案只適用于中心化的外包計算場景,無法直接應(yīng)用于多方計算場景;2020 年,IBM 更新的HeLib 和Microsft更新的SEAL 同態(tài)密態(tài)計算庫的加法門電路計算耗時較少,但是乘法門電路計算耗時動輒數(shù)十甚至上百毫秒;2021 年,中國電科三十所依托國家重點研發(fā)計劃項目集成的密態(tài)數(shù)據(jù)計算系統(tǒng)能夠?qū)崿F(xiàn)密文加法、乘法及密文刷新耗時都控制在10 毫秒內(nèi)。在安全多方計算方面,Yao(1986 年)[19]、Damgard 等 人(2012 年)[20]、Hong等人(2019年)[21]、Garimella等人(2021年)[22]提出的方案大多難以平衡通信負載、計算開銷和安全強度。對此,國際上,單同態(tài)加密標(biāo)準(zhǔn)ISO/IEC 18033-6、安全多方計算標(biāo)準(zhǔn)草案IEEE P2842、聯(lián)邦學(xué)習(xí)IEEE 3652.1-2020 相關(guān)國際標(biāo)準(zhǔn)被提出。國內(nèi),2020 年,中國信息通信研究院成立了隱私計算聯(lián)盟;同年,中國人民銀行發(fā)布了行業(yè)標(biāo)準(zhǔn)JR/T 0196—2020《多方安全計算金融應(yīng)用技術(shù)規(guī)范》,凸顯了密態(tài)數(shù)據(jù)處理技術(shù)在國家數(shù)據(jù)安全發(fā)展中的重要作用。
現(xiàn)有的密態(tài)計算技術(shù),能夠?qū)崿F(xiàn)加密數(shù)據(jù)下的數(shù)據(jù)利用,但仍然存在技術(shù)瓶頸待突破,主要包括可搜索加密復(fù)雜檢索效率低、安全多方計算通信開銷高、同態(tài)加密計算耗時大。因此,突破跨中心場景下可搜索加密、同態(tài)加密、安全多方計算等實用化關(guān)鍵技術(shù),是未來的重要發(fā)展方向。
數(shù)據(jù)監(jiān)管主要涉及數(shù)據(jù)行為檢測與威脅預(yù)警、異常事件取證溯源等技術(shù)。在行為檢測與威脅預(yù)警方面,2019 年,Amazon 的Security Hub 將 機器學(xué)習(xí)和模式匹配技術(shù)應(yīng)用于敏感數(shù)據(jù)識別,實現(xiàn)了自動化持續(xù)安全性檢查,并規(guī)范化調(diào)查結(jié)果格式;2020 年,IBM QRadar 在推出的最新版本中引入異常搜索參數(shù),檢測超過7 萬種異常與危險,并利用人工智能技術(shù)的自動分類將調(diào)查速度提高了60 倍,實現(xiàn)了秒級實時監(jiān)控與危險預(yù)警。在異常事件取證溯源方面,2019 年,Exabeam 提出Cloud Archive 組件以提供可搜索的日志存儲,該組件可將數(shù)據(jù)保留長達10 年,通過構(gòu)建日志事件時間線實現(xiàn)威脅事件的取證溯源;2020 年,Splunk 整合數(shù)據(jù)利用行為日志,用于加速關(guān)聯(lián)屬性異常定位,結(jié)合自動化的噪音事件隔離和端對端的信息共享,實現(xiàn)在秒級以內(nèi)對65 種異常和25 種威脅行為的范圍確定與原因追溯;國內(nèi)山東大學(xué)、數(shù)字廣東網(wǎng)絡(luò)建設(shè)有限公司等團隊也在此領(lǐng)域進行了深入的探索,對于多源異構(gòu)數(shù)據(jù)采集、數(shù)據(jù)標(biāo)準(zhǔn)體系建設(shè)、數(shù)據(jù)資產(chǎn)治理與監(jiān)管3 個層面,建立了涵蓋數(shù)據(jù)快速定位、數(shù)據(jù)流轉(zhuǎn)監(jiān)管的技術(shù)體系??傮w而言,目前數(shù)據(jù)流轉(zhuǎn)監(jiān)管技術(shù)大多部署在行業(yè)數(shù)據(jù)中心內(nèi)部,缺乏對開放平臺數(shù)據(jù)利用行為的準(zhǔn)確監(jiān)測,數(shù)據(jù)利用的合理規(guī)則策略尚未形成。因此,亟需研究開放環(huán)境下數(shù)據(jù)利用行為監(jiān)管技術(shù),制定全日志自動審計規(guī)則,構(gòu)建層級化監(jiān)管平臺。
數(shù)據(jù)監(jiān)管經(jīng)歷了人工為主的初級監(jiān)管、自動化監(jiān)管、大數(shù)據(jù)監(jiān)管,以及正在發(fā)展的智能化監(jiān)管,但仍然存在技術(shù)瓶頸,主要包括現(xiàn)有監(jiān)管方案不適合開放平臺,數(shù)據(jù)行為合規(guī)策略尚未形成,層級化第三方監(jiān)管效率低。因此,亟需構(gòu)建事前、事中、事后全鏈條運用的大數(shù)據(jù)化智能監(jiān)管。
綜上,目前大數(shù)據(jù)安全利用技術(shù)僅具備海量數(shù)據(jù)簡單密態(tài)處理能力,不能滿足開放環(huán)境下跨中心海量數(shù)據(jù)流通的復(fù)雜處理安全需求。我國在數(shù)據(jù)安全利用理論、算法設(shè)計、系統(tǒng)開發(fā)方面尚需突破,產(chǎn)業(yè)化尚處于探索階段。亟需創(chuàng)新開放環(huán)境下自主、安全、可信的數(shù)據(jù)安全利用算法理論和關(guān)鍵技術(shù),推動我國數(shù)據(jù)要素可信流通,助力數(shù)字經(jīng)濟健康發(fā)展。
密碼技術(shù)是信息安全、數(shù)據(jù)安全的核心技術(shù),是成本低、防護最有效的安全技術(shù)。本節(jié)以密態(tài)計算、區(qū)塊鏈技術(shù)為核心設(shè)計數(shù)據(jù)安全開發(fā)利用平臺架構(gòu),實現(xiàn)跨中心的數(shù)據(jù)安全流通,建立數(shù)據(jù)可控共享、合規(guī)監(jiān)管的數(shù)據(jù)安全開發(fā)利用平臺系統(tǒng)。
為了促進數(shù)據(jù)要素在各個機構(gòu)間安全流通,本文基于密態(tài)計算、區(qū)塊鏈等技術(shù),設(shè)計了數(shù)據(jù)安全開發(fā)利用平臺架構(gòu),以實現(xiàn)數(shù)據(jù)安全融合共享。主要涉及數(shù)據(jù)提供方、數(shù)據(jù)使用方、平臺運營方、可信監(jiān)管方等角色,其職責(zé)如下文所述。
(1)數(shù)據(jù)提供方。數(shù)據(jù)的歸屬方,或者受委托存儲和管理數(shù)據(jù)的服務(wù)運營方,存儲了大量的數(shù)據(jù),并負責(zé)執(zhí)行本地明文計算、明密文計算等任務(wù)。
(2)數(shù)據(jù)使用方。數(shù)據(jù)開發(fā)利用請求的發(fā)起方,根據(jù)具體的業(yè)務(wù)需求,向數(shù)據(jù)開發(fā)利用平臺發(fā)起數(shù)據(jù)請求(包括所需的數(shù)據(jù)集、業(yè)務(wù)執(zhí)行代碼等),并獲取和解密最終的數(shù)據(jù)計算結(jié)果。
(3)平臺運營方。數(shù)據(jù)開發(fā)利用任務(wù)的具體執(zhí)行者和協(xié)調(diào)者,解析數(shù)據(jù)使用方業(yè)務(wù)請求,根據(jù)所涉及的數(shù)據(jù)集位置,執(zhí)行安全計算,輸出計算結(jié)果。
(4)可信監(jiān)管方。權(quán)威合規(guī)性監(jiān)管機構(gòu)或運營平臺自身的監(jiān)管方,負責(zé)整個系統(tǒng)的密鑰管理和身份認證授權(quán),執(zhí)行事前授權(quán)、事中感知、事后追溯的全程監(jiān)管。
如圖1 所示,本文基于分布式加密存儲、本地化明文計算、平臺化密態(tài)處理計算模式,設(shè)計數(shù)據(jù)安全開放利用平臺架構(gòu),構(gòu)建分布式存儲引擎、密文高效檢索引擎、密文協(xié)同計算引擎,實施智能化監(jiān)管手段,形成以“原始數(shù)據(jù)不共享、數(shù)據(jù)流轉(zhuǎn)必加密、數(shù)據(jù)可用不可見”為原則的數(shù)據(jù)可控共享機制。
(1)分布式存儲引擎。以區(qū)塊鏈為基礎(chǔ)設(shè)施,構(gòu)建分布式存儲模式。采用收斂加密、多備份存儲、增量同步等技術(shù),實現(xiàn)加密數(shù)據(jù)下的低冗余、高可靠存儲。融合遠程完整性驗證技術(shù),實現(xiàn)委托存儲數(shù)據(jù)的低通信量、高準(zhǔn)確率的完整性驗證。
(2)密文高效檢索引擎。面向分布式存儲模式,構(gòu)造分布式數(shù)據(jù)索引結(jié)構(gòu)。以對稱可搜索加密技術(shù)為基礎(chǔ),設(shè)計基于對稱密碼的鏈?zhǔn)矫芪臋z索方法,通過檢索令牌的密態(tài)轉(zhuǎn)換,實現(xiàn)不同數(shù)據(jù)中心的高效索引檢索。同時,在密文檢索結(jié)果中嵌入認證結(jié)構(gòu),實現(xiàn)對檢索結(jié)果完備性和正確性的驗證。
(3)密文協(xié)同計算引擎。以同態(tài)加密、安全多方計算協(xié)議為核心,通過密文轉(zhuǎn)換實現(xiàn)二者密態(tài)計算方法的融合,充分利用高維矩陣同態(tài)高效計算、安全多方計算的非線性計算等優(yōu)勢,實現(xiàn)大規(guī)模密態(tài)數(shù)據(jù)的復(fù)雜計算能力。采用零知識證明、同態(tài)哈希等技術(shù),實現(xiàn)對密文計算結(jié)果的正確性驗證。
(4)監(jiān)管系統(tǒng)。基于身份分級授權(quán),設(shè)計分布式數(shù)字身份管理與訪問控制方案,制定數(shù)據(jù)開發(fā)利用的約束規(guī)則,構(gòu)建多維度事務(wù)動作的日志審計管理?;谧匀徽Z言處理、深度學(xué)習(xí)等技術(shù),實現(xiàn)智能化實時異常檢測與風(fēng)險預(yù)警。通過行為日志的上鏈和狀態(tài)遷移模型,實現(xiàn)數(shù)據(jù)取證和追蹤溯源。
本架構(gòu)的具體運行流程如下:
(1)數(shù)據(jù)注冊與發(fā)布。數(shù)據(jù)提供方向平臺注冊身份,并對所持有的數(shù)據(jù)也進行注冊,上傳其元數(shù)據(jù),并進行發(fā)布。
(2)數(shù)據(jù)安全存儲。數(shù)據(jù)提供方可以使用平臺提供安全存儲服務(wù),將數(shù)據(jù)加密,并委托給平臺進行分布式存儲。
(3)數(shù)據(jù)利用請求。數(shù)據(jù)使用方查看平臺中發(fā)布的數(shù)據(jù)描述,根據(jù)業(yè)務(wù)需要,選擇相應(yīng)的數(shù)據(jù)集,并編寫相應(yīng)業(yè)務(wù)代碼,發(fā)送給平臺。
(4)數(shù)據(jù)利用解析與執(zhí)行。平臺根據(jù)請求中所包含的數(shù)據(jù)集和計算邏輯,將計算任務(wù)分割為數(shù)據(jù)提供方的本地任務(wù)、多個數(shù)據(jù)利用方協(xié)同任務(wù)、平臺全局任務(wù),形成一個完整的任務(wù)流,并啟動任務(wù)執(zhí)行。數(shù)據(jù)提供方在本地執(zhí)行明文計算或明密文計算,并加密上傳中間結(jié)果。平臺執(zhí)行全局任務(wù)調(diào)度和全局密態(tài)計算,聚合成最終的加密計算結(jié)果,并返回給數(shù)據(jù)使用方。
(5)結(jié)果獲取與解密。數(shù)據(jù)使用方獲得平臺返回的加密結(jié)果,并使用自己的私鑰解密,得到明文計算結(jié)果。
20 世紀70 年代,美國開發(fā)了傳輸控制協(xié)議/ 網(wǎng) 際 協(xié) 議(Transmission Control Protocol/Internet Protocol,TCP/IP),該協(xié)議用于不同網(wǎng)絡(luò)中,以實現(xiàn)信息的傳輸,使得電子化信息數(shù)據(jù)廣泛在網(wǎng)絡(luò)上傳播使用,極大地加速了全球網(wǎng)絡(luò)的互聯(lián)互通。其中IP 報文與IP 協(xié)議是關(guān)鍵。類比當(dāng)前的數(shù)字經(jīng)濟時代,數(shù)據(jù)作為生產(chǎn)要素,需要在不同機構(gòu)中以數(shù)據(jù)本身或者中間計算結(jié)果進行流通,同樣可以組成一個數(shù)據(jù)融合網(wǎng)絡(luò)。因此,本文提出數(shù)據(jù)安全流通格式結(jié)構(gòu)的設(shè)計思路。
安全是數(shù)據(jù)要素流通的基礎(chǔ),必須在數(shù)據(jù)中將安全屬性作為基因加入。如圖2 所示,本文提出的數(shù)據(jù)安全流通格式結(jié)構(gòu)包含了數(shù)據(jù)ID號、認證碼、敏感等級、數(shù)據(jù)關(guān)聯(lián)者、標(biāo)簽、數(shù)據(jù)簽名、密碼算法ID、源數(shù)據(jù)節(jié)點地址、目的數(shù)據(jù)節(jié)點地址、加密的有效數(shù)據(jù)。
數(shù)據(jù)ID 號表示該數(shù)據(jù)安全流通格式的唯一身份號,用于數(shù)據(jù)格式的審計定位。認證碼用于數(shù)據(jù)完整性驗證。敏感等級表示數(shù)據(jù)的敏感程度,可以對數(shù)據(jù)進行隱私等級的劃分。數(shù)據(jù)關(guān)聯(lián)者表示該數(shù)據(jù)歸屬的數(shù)據(jù)方以及權(quán)重,用于對數(shù)據(jù)歸屬權(quán)的界定。標(biāo)簽表示特點用途的標(biāo)簽信息,用于業(yè)務(wù)需求的數(shù)據(jù)分級分類標(biāo)識。數(shù)據(jù)簽名為數(shù)據(jù)關(guān)聯(lián)者對該數(shù)據(jù)的簽名,用于驗證數(shù)據(jù)歸屬權(quán)。密碼算法ID 用于表示該有效數(shù)據(jù)的加密使用的加密算法。源數(shù)據(jù)節(jié)點地址表示數(shù)據(jù)提供方的地址,是數(shù)據(jù)的來源節(jié)點。目的數(shù)據(jù)節(jié)點地址表示數(shù)據(jù)將要流向的目的數(shù)據(jù)節(jié)點,以備進行數(shù)據(jù)處理。加密數(shù)據(jù)表示加密的有效數(shù)據(jù),將有效載荷數(shù)據(jù)進行加密后形成的密文。
如圖3 所示,數(shù)據(jù)融合網(wǎng)絡(luò)實現(xiàn)不同地域、不同數(shù)據(jù)中心、不同機構(gòu)間的數(shù)據(jù)流通,仍然以“原始數(shù)據(jù)不共享、數(shù)據(jù)流轉(zhuǎn)必加密、數(shù)據(jù)可用不可見”的原則進行交換和共享。數(shù)據(jù)處理節(jié)點執(zhí)行對數(shù)據(jù)的產(chǎn)生、存儲、計算等操作,形成中間計算結(jié)果或者最終輸出結(jié)果。當(dāng)數(shù)據(jù)使用者在某個數(shù)據(jù)節(jié)點(稱為主任務(wù)節(jié)點)發(fā)起請求時,該數(shù)據(jù)節(jié)點將會分析該請求所需要的數(shù)據(jù)資源,當(dāng)本身數(shù)據(jù)資源滿足需求時,將直接執(zhí)行計算任務(wù);當(dāng)本身數(shù)據(jù)資源不滿足需求時,將通過本身的數(shù)據(jù)目錄向相鄰數(shù)據(jù)節(jié)點發(fā)起請求,以此建立該請求所對應(yīng)的數(shù)據(jù)相關(guān)網(wǎng)絡(luò)(相關(guān)的數(shù)據(jù)節(jié)點稱為從任務(wù)節(jié)點)。主任務(wù)節(jié)點根據(jù)從任務(wù)節(jié)點解析數(shù)據(jù)使用請求的計算任務(wù),并將相關(guān)的子任務(wù)和全局流程發(fā)給從任務(wù)節(jié)點,以執(zhí)行相應(yīng)的計算任務(wù)。結(jié)合本文提出的數(shù)據(jù)安全開放利用平臺架構(gòu),將在主任務(wù)節(jié)點生成最終的計算結(jié)果,并返回給數(shù)據(jù)使用者。
本文所提出的數(shù)據(jù)安全開發(fā)利用平臺系統(tǒng)組成如圖4 所示,主要由數(shù)據(jù)提供接入端系統(tǒng)、數(shù)據(jù)使用客戶端系統(tǒng)、數(shù)據(jù)開發(fā)利用協(xié)同系統(tǒng)、數(shù)據(jù)利用監(jiān)管系統(tǒng)組成。數(shù)據(jù)提供方通過數(shù)據(jù)提供接入端系統(tǒng)接入到數(shù)據(jù)安全開發(fā)利用平臺。數(shù)據(jù)使用方通過數(shù)據(jù)使用客戶端系統(tǒng)訪問數(shù)據(jù)安全開發(fā)利用平臺。平臺運營方負責(zé)運營和管理數(shù)據(jù)安全開發(fā)利用平臺,執(zhí)行數(shù)據(jù)開發(fā)利用協(xié)同系統(tǒng)和數(shù)據(jù)利用監(jiān)管系統(tǒng)。
(1)數(shù)據(jù)提供接入端系統(tǒng)。部署于各個數(shù)據(jù)提供方,其主要由客戶端監(jiān)管組件、數(shù)據(jù)資源注冊與發(fā)布、本地存儲資源、多功能密碼算法融合加密、本地數(shù)據(jù)處理引擎組成。承擔(dān)數(shù)據(jù)提供方的數(shù)據(jù)注冊、本地存儲、數(shù)據(jù)分級加密、本地明文計算、本地監(jiān)管等功能。該系統(tǒng)主要以硬件設(shè)備方式提供。
(2)數(shù)據(jù)使用客戶端系統(tǒng)。部署于數(shù)據(jù)使用方,是數(shù)據(jù)使用方獲取數(shù)據(jù)開發(fā)利用的入口,主要負責(zé)登錄授權(quán)、請求發(fā)起、結(jié)果獲取等功能。該系統(tǒng)可以是硬件、軟件的形式。
(3)數(shù)據(jù)開發(fā)利用協(xié)同系統(tǒng)。是數(shù)據(jù)開發(fā)利用平臺的主系統(tǒng),集成了海量數(shù)據(jù)安全存儲系統(tǒng)、大規(guī)模密態(tài)數(shù)據(jù)協(xié)同計算系統(tǒng)、密態(tài)數(shù)據(jù)高效檢索系統(tǒng)等密態(tài)處理引擎,并部署了數(shù)據(jù)資源目錄、數(shù)據(jù)主題模板庫、授權(quán)管理、數(shù)據(jù)處理任務(wù)智能分割與柔性調(diào)度、密態(tài)處理結(jié)果的正確性與完整性驗證模塊。主要承擔(dān)數(shù)據(jù)安全存儲、密文檢索、密態(tài)計算、訪問控制、監(jiān)管接入等功能,并負責(zé)將數(shù)據(jù)使用者發(fā)起的請求進行解析和分割,協(xié)調(diào)各個數(shù)據(jù)提供方的計算任務(wù)??梢钥闯觯麄€數(shù)據(jù)開發(fā)利用協(xié)調(diào)系統(tǒng)執(zhí)行的計算任務(wù)為全程密態(tài)計算。
(4)數(shù)據(jù)利用監(jiān)管系統(tǒng)。負責(zé)對數(shù)據(jù)開發(fā)利用協(xié)同系統(tǒng)、數(shù)據(jù)使用客戶端系統(tǒng)、數(shù)據(jù)提供接入端系統(tǒng)執(zhí)行全程透明監(jiān)管,并對外提供監(jiān)管接入應(yīng)用程序編程接口(Application Programming Interface,API),使得政府、公安等機構(gòu)能夠接入系統(tǒng)實施全程監(jiān)管。該系統(tǒng)基于智能化技術(shù)實現(xiàn)事前授權(quán)、事中感知、事后追溯。
當(dāng)前數(shù)字化進程不斷加快,社會生活邁進了大數(shù)據(jù)化、智能化的時代,數(shù)據(jù)為產(chǎn)業(yè)賦能成效顯著,數(shù)據(jù)要素安全流通已經(jīng)成為數(shù)字經(jīng)濟健康發(fā)展的重要保障。本文提出了開放環(huán)境下大數(shù)據(jù)安全開發(fā)利用平臺架構(gòu),為數(shù)據(jù)要素安全流通提供參考,能夠?qū)崿F(xiàn)“原始數(shù)據(jù)不共享、數(shù)據(jù)流轉(zhuǎn)必加密、數(shù)據(jù)可用不可見”可控共享機制。本文給出該架構(gòu)在跨機構(gòu)數(shù)據(jù)交易、金融風(fēng)控數(shù)據(jù)聯(lián)合建模的應(yīng)用場景。
(1)跨機構(gòu)數(shù)據(jù)交易。為了激發(fā)數(shù)據(jù)要素活力,北京、上海等地區(qū)已經(jīng)落地數(shù)據(jù)交易機構(gòu),將數(shù)據(jù)資源市場化,構(gòu)建數(shù)據(jù)資源供應(yīng)方和需求方之間的橋梁。本文所提出的解決方案,能夠?qū)崿F(xiàn)數(shù)據(jù)注冊與發(fā)布,形成一個數(shù)據(jù)資源市場。如圖5 所示,數(shù)據(jù)使用方可以訪問數(shù)據(jù)安全開發(fā)利用平臺,查詢線上發(fā)布的數(shù)據(jù),按需挑選數(shù)據(jù),付費使用。同時,算法提供方也可以將所研發(fā)的數(shù)據(jù)利用算法以加密形式部署到數(shù)據(jù)安全開發(fā)利用平臺,以供數(shù)據(jù)使用方選擇使用。本文的方案提供了數(shù)據(jù)監(jiān)管接口,可以接入權(quán)威機構(gòu),保障數(shù)據(jù)市場的有序運行。
(2)金融風(fēng)控聯(lián)合建模。為了維護金融管理秩序,銀行、證券等金融機構(gòu)需要防范欺詐,實施風(fēng)險控制。根據(jù)交易行為、用戶特征、歷史記錄、環(huán)境條件等信息識別欺詐行為,是事前反欺詐的重要手段。但通常單一銀行機構(gòu)所擁有的數(shù)據(jù)量小,模型構(gòu)建的樣本或特征不足,無法建立推理準(zhǔn)確度高的機器學(xué)習(xí)算法。如圖6所示,基于本文提出的數(shù)據(jù)安全開發(fā)利用平臺架構(gòu),可以聯(lián)合多家機構(gòu)的數(shù)據(jù)進行聯(lián)合建模,訓(xùn)練出準(zhǔn)確度高、泛化能力強的模型算法。當(dāng)一家銀行獲得新型欺詐行為相關(guān)的數(shù)據(jù)時,可以及時更新模型參數(shù),使其他銀行也能夠快速具備預(yù)測和識別新型欺詐行為的能力,從而提高銀行抗風(fēng)險的能力。
本文分析了開放環(huán)境下的數(shù)據(jù)安全挑戰(zhàn)和數(shù)據(jù)安全開發(fā)利用的技術(shù)現(xiàn)狀,針對性地提出了開放環(huán)境下數(shù)據(jù)安全開發(fā)利用平臺的技術(shù)架構(gòu)和系統(tǒng)組成。但面對當(dāng)前日益嚴重的開放環(huán)境下數(shù)據(jù)安全形勢,仍需要持續(xù)關(guān)注數(shù)據(jù)安全的防護,全面支撐數(shù)字經(jīng)濟的高質(zhì)量發(fā)展,對此,提出以下幾點應(yīng)對建議。
(1)加大數(shù)據(jù)合規(guī)監(jiān)管力度。近年來,國家高度重視安全建設(shè),統(tǒng)籌發(fā)展和安全,推進行業(yè)數(shù)據(jù)安全保障能力提升,構(gòu)建起堅實有力的安全法律屏障,形成了《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國密碼法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》“四法共治”的新局面,但國內(nèi)數(shù)據(jù)監(jiān)管仍存在技術(shù)標(biāo)準(zhǔn)不統(tǒng)一、行業(yè)資源配置割裂、監(jiān)管力度不足等問題,建議結(jié)合頂層設(shè)計、法律法規(guī),以及數(shù)據(jù)安全新監(jiān)管的要求,出臺相關(guān)數(shù)據(jù)監(jiān)管技術(shù)標(biāo)準(zhǔn)規(guī)范,同時體現(xiàn)對過程和結(jié)果的合規(guī)要求,明確數(shù)據(jù)處理者既應(yīng)當(dāng)從過程方面積極履行數(shù)據(jù)安全保護義務(wù),也要對數(shù)據(jù)安全防護的最終結(jié)果負責(zé)。
(2)加強數(shù)據(jù)安全技術(shù)創(chuàng)新。密碼是保證數(shù)據(jù)安全的重要手段,加密數(shù)據(jù)存儲與密態(tài)數(shù)據(jù)分析利用技術(shù)的結(jié)合能夠更好地護航“新基建”場景泛在化發(fā)展,對我國數(shù)字經(jīng)濟的發(fā)展具有重大意義。雖然我國在數(shù)據(jù)安全存儲發(fā)展方面已取得一定成績,但仍然存在較大差距,加密存儲使用不夠普及,相關(guān)密態(tài)計算技術(shù)仍有瓶頸,未能得到廣泛應(yīng)用。建議進一步推進加密數(shù)據(jù)存儲與密態(tài)數(shù)據(jù)分析利用技術(shù)的研究,深化可搜索加密、同態(tài)加密、安全多方計算等密態(tài)計算領(lǐng)域基礎(chǔ)研究,形成海量數(shù)據(jù)加密存儲與密態(tài)數(shù)據(jù)分析利用方面的實用化方案,為產(chǎn)業(yè)化提供基礎(chǔ)。
(3)打造網(wǎng)絡(luò)安全與數(shù)據(jù)安全協(xié)調(diào)發(fā)展。傳統(tǒng)的城防式數(shù)據(jù)安全,主要是保護被傳統(tǒng)物理網(wǎng)絡(luò)多層包圍的數(shù)據(jù),這種防護體系僅適用于保護靜態(tài)數(shù)據(jù)。如今,數(shù)據(jù)已成為新的生產(chǎn)要素,數(shù)據(jù)被充分共享流轉(zhuǎn)以產(chǎn)生價值,傳統(tǒng)的城防式數(shù)據(jù)安全已經(jīng)難以滿足需求。因此,建議網(wǎng)絡(luò)安全與數(shù)據(jù)安全并重建設(shè),針對數(shù)據(jù)本身進行主動式防護,面向失效的安全機制,將數(shù)據(jù)安全技術(shù)和網(wǎng)絡(luò)安全問題進行融合,創(chuàng)造性地提供新框架、新方法,通過聯(lián)動協(xié)同的縱深安全機制,構(gòu)建有效防線。
(4)加快數(shù)據(jù)安全人才培養(yǎng)。人才是數(shù)據(jù)安全發(fā)展和數(shù)字經(jīng)濟健康發(fā)展的血液。數(shù)據(jù)安全技術(shù)研發(fā)需要專業(yè)性技術(shù)人才,企業(yè)組織機構(gòu)的數(shù)據(jù)安全問題防護與合規(guī)性建設(shè)需 要 數(shù) 據(jù) 保 護 官(Data Protection Officer,DPO)。但由于數(shù)據(jù)安全技術(shù)研發(fā)涉及密碼學(xué)、計算機科學(xué)、數(shù)據(jù)科學(xué)、人工智能等門類知識,是一門綜合性很強的專業(yè)領(lǐng)域,同時,數(shù)據(jù)安全管理涉及數(shù)據(jù)質(zhì)量、數(shù)據(jù)合規(guī)、數(shù)據(jù)資產(chǎn)、應(yīng)急處置、安全檢測評估等領(lǐng)域,管理復(fù)雜度較高。這導(dǎo)致數(shù)據(jù)安全技術(shù)研發(fā)、數(shù)據(jù)安全管理等方面的人才稀缺。因此,應(yīng)該聯(lián)合國內(nèi)院校,結(jié)合國家數(shù)字經(jīng)濟健康發(fā)展需要,加強數(shù)據(jù)安全人才培養(yǎng),建立數(shù)據(jù)安全人才崗位認證體系。