張昊星 趙景欣 岳星輝 任家東
1(中國(guó)信息通信研究院安全研究所 北京 100018)
2(燕山大學(xué)信息科學(xué)與工程學(xué)院 河北秦皇島 066004)
在數(shù)字時(shí)代的激烈競(jìng)爭(zhēng)下,伴隨企業(yè)和組織機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型腳步加快,數(shù)據(jù)資產(chǎn)價(jià)值不斷躍升,進(jìn)而面對(duì)的卻是數(shù)據(jù)泄露、破壞與濫用等數(shù)據(jù)安全事件頻發(fā),甚至對(duì)社會(huì)、國(guó)家造成嚴(yán)重影響.加強(qiáng)數(shù)據(jù)安全對(duì)護(hù)航數(shù)字經(jīng)濟(jì)發(fā)展、捍衛(wèi)國(guó)家安全、提升國(guó)家競(jìng)爭(zhēng)力意義重大,企業(yè)和政府強(qiáng)化數(shù)據(jù)安全管理技術(shù)能力建設(shè),有效預(yù)判、識(shí)別數(shù)據(jù)安全風(fēng)險(xiǎn),不斷提升防護(hù)能力更顯得至關(guān)重要.然而,傳統(tǒng)數(shù)據(jù)安全管理技術(shù)面對(duì)海量數(shù)據(jù)的獲取、管理、處理場(chǎng)景和日益增長(zhǎng)的數(shù)據(jù)交易流通市場(chǎng),已無(wú)法有效滿足大規(guī)模、高效率、精細(xì)化的數(shù)據(jù)安全管理需求.
而人工智能技術(shù)的不斷成熟為數(shù)據(jù)安全管理技術(shù)的迭代升級(jí)帶來(lái)了可能.近年來(lái),人工智能技術(shù)發(fā)展伴隨新一輪科技革命進(jìn)入了快車道,成為驅(qū)動(dòng)產(chǎn)業(yè)變革的重要力量和引領(lǐng)未來(lái)的新興戰(zhàn)略技術(shù),也在產(chǎn)業(yè)化和商業(yè)化進(jìn)程不斷提速過(guò)程中,與千行百業(yè)深度融合并賦能.數(shù)據(jù)安全與人工智能技術(shù)的結(jié)合,將更好地解決數(shù)據(jù)全生命周期安全管理所面臨的困難和挑戰(zhàn),為數(shù)據(jù)要素更加高效地發(fā)揮價(jià)值提供安全可靠穩(wěn)定的業(yè)務(wù)環(huán)境.
本文以數(shù)據(jù)全生命周期安全管理為切入點(diǎn),通過(guò)對(duì)數(shù)據(jù)全生命周期各環(huán)節(jié)所使用的數(shù)據(jù)安全管理技術(shù)和風(fēng)險(xiǎn)進(jìn)行分析,提出了傳統(tǒng)技術(shù)在當(dāng)前發(fā)展趨勢(shì)下可能面臨的一些問(wèn)題和挑戰(zhàn).在此基礎(chǔ)上介紹了人工智能技術(shù)引入的優(yōu)勢(shì),并梳理總結(jié)了數(shù)據(jù)全生命周期各個(gè)階段的基于人工智能的典型數(shù)據(jù)安全管理技術(shù),以及在生產(chǎn)實(shí)踐過(guò)程中的應(yīng)用.本文旨在為數(shù)據(jù)安全管理領(lǐng)域的研究者和實(shí)踐者提供有益的參考,推動(dòng)人工智能在數(shù)據(jù)安全管理技術(shù)領(lǐng)域的創(chuàng)新和應(yīng)用.
數(shù)據(jù)生命周期通常指的是一個(gè)數(shù)據(jù)集從產(chǎn)生或收集到銷毀的過(guò)程.隨著數(shù)據(jù)要素的日益豐富和數(shù)據(jù)價(jià)值的增長(zhǎng),數(shù)據(jù)生命周期的觀念和內(nèi)涵也在不斷發(fā)展,從早期的靜態(tài)數(shù)據(jù)生命周期逐步轉(zhuǎn)向動(dòng)態(tài)數(shù)據(jù)生命周期.無(wú)論如何變化,數(shù)據(jù)生命周期的核心是關(guān)注每個(gè)數(shù)據(jù)或數(shù)據(jù)集在各個(gè)活動(dòng)階段的行為和特點(diǎn).數(shù)據(jù)生命周期主要包括數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)共享和數(shù)據(jù)銷毀6個(gè)階段.
在數(shù)據(jù)生命周期內(nèi),數(shù)據(jù)價(jià)值決定了數(shù)據(jù)全生命周期的時(shí)長(zhǎng),且隨著時(shí)間推移,數(shù)據(jù)價(jià)值會(huì)逐漸降低.此外,數(shù)據(jù)采集粒度、時(shí)效性、存儲(chǔ)策略、整合狀態(tài)、可視化水平、分析深度以及應(yīng)用融合程度都會(huì)對(duì)數(shù)據(jù)價(jià)值產(chǎn)生影響.因此,需要根據(jù)數(shù)據(jù)生命周期各階段的特性采用不同的管理方式和控制手段,以便從數(shù)據(jù)中提取更多有價(jià)值的信息.
數(shù)據(jù)處理實(shí)體需高度關(guān)注數(shù)據(jù)全生命周期管理(data lifecycle management, DLCM),以更好地實(shí)現(xiàn)數(shù)據(jù)價(jià)值的挖掘和應(yīng)用.而在數(shù)據(jù)全生命周期的管理體系中,安全是必不可少的一部分,基于全生命周期的數(shù)據(jù)安全管理,是確保數(shù)據(jù)最大價(jià)值變現(xiàn)和有效利用的前提.所以數(shù)據(jù)安全的保護(hù)能力建設(shè),首先是滿足企業(yè)數(shù)據(jù)管理的合規(guī)要求,落實(shí)安全責(zé)任義務(wù)到數(shù)據(jù)處理活動(dòng)的方方面面.其次在滿足數(shù)據(jù)可用性的基本原則下,幫助企業(yè)取得數(shù)據(jù)價(jià)值挖掘和安全的最佳平衡.
數(shù)據(jù)隨著分析利用和流轉(zhuǎn)共享場(chǎng)景的不斷豐富,其價(jià)值也越來(lái)越凸顯.有價(jià)值的數(shù)據(jù)在數(shù)據(jù)生命周期各個(gè)環(huán)節(jié)都面臨安全防護(hù)技術(shù)不足或失效,導(dǎo)致數(shù)據(jù)破壞、數(shù)據(jù)泄露事件屢屢發(fā)生,對(duì)社會(huì)和組織機(jī)構(gòu)造成了一定危害.而數(shù)據(jù)在每個(gè)階段的載體、形態(tài)、相關(guān)方均有不同,從而導(dǎo)致面臨的安全風(fēng)險(xiǎn)也有所差異[1].
1.2.1 數(shù)據(jù)收集階段
數(shù)據(jù)收集階段,主要采用的技術(shù)包括數(shù)據(jù)資產(chǎn)識(shí)別、敏感/重要數(shù)據(jù)識(shí)別、數(shù)據(jù)分類分級(jí)等,為后續(xù)階段的數(shù)據(jù)挖掘打好基礎(chǔ).但采集階段的數(shù)據(jù)安全往往容易被忽視,可能面臨以下風(fēng)險(xiǎn):
1) 由于數(shù)據(jù)識(shí)別技術(shù)或算法的不完善,可能導(dǎo)致收集的數(shù)據(jù)存在質(zhì)量問(wèn)題.例如數(shù)據(jù)不準(zhǔn)確、不完整、重復(fù)等,垃圾數(shù)據(jù)和臟數(shù)據(jù)的收集入庫(kù)將對(duì)后續(xù)數(shù)據(jù)處理和決策的準(zhǔn)確性和可靠性產(chǎn)生較大影響.
2) 數(shù)據(jù)的來(lái)源可能存在不可靠因素.例如未經(jīng)驗(yàn)證的數(shù)據(jù)源可能包含虛假數(shù)據(jù)或進(jìn)行惡意投毒,從而導(dǎo)致后續(xù)數(shù)據(jù)處理錯(cuò)誤或產(chǎn)生誤導(dǎo)性的結(jié)果.
1.2.2 數(shù)據(jù)存儲(chǔ)階段
數(shù)據(jù)存儲(chǔ)階段,目前更多使用的只是傳統(tǒng)的數(shù)據(jù)災(zāi)備、數(shù)據(jù)存儲(chǔ)加密等技術(shù).但由于數(shù)據(jù)的集中匯聚,也是攻擊者最主要的攻擊目標(biāo),一旦發(fā)生安全事件將可能導(dǎo)致大規(guī)模數(shù)據(jù)泄露、損毀.一方面,可能遭受黑客攻擊、內(nèi)部員工濫用權(quán)限所帶來(lái)的未經(jīng)授權(quán)訪問(wèn)、篡改、泄露或損壞的風(fēng)險(xiǎn);另一方面,可能面臨硬件故障、備份恢復(fù)措施不完備、自然意外災(zāi)害突發(fā)等事件,從而導(dǎo)致數(shù)據(jù)丟失、損毀或不可恢復(fù).
1.2.3 數(shù)據(jù)處理和交換共享階段
這2個(gè)階段是數(shù)據(jù)安全風(fēng)險(xiǎn)多發(fā)的重災(zāi)區(qū),開(kāi)發(fā)、測(cè)試、分析和運(yùn)維人員或第三方人員因?yàn)椴煌臉I(yè)務(wù)工作需要接觸數(shù)據(jù)并進(jìn)行加工,并把數(shù)據(jù)處理結(jié)果進(jìn)行交換與共享.于是,這2個(gè)階段的數(shù)據(jù)處理過(guò)程,將特別關(guān)注內(nèi)部人員可能導(dǎo)致的數(shù)據(jù)泄露風(fēng)險(xiǎn),如竊取機(jī)密、濫用權(quán)限或疏忽操作.為防止這些風(fēng)險(xiǎn),需確保相關(guān)人員僅接觸與其業(yè)務(wù)需求和職責(zé)相關(guān)的敏感數(shù)據(jù).因此這2個(gè)階段中的數(shù)據(jù)安全管理,往往更多使用身份認(rèn)證與授權(quán)、訪問(wèn)控制、數(shù)據(jù)加密脫敏等技術(shù).
1.2.4 數(shù)據(jù)傳輸階段
數(shù)據(jù)傳輸階段,目前仍然普遍采用數(shù)據(jù)傳輸加密和網(wǎng)絡(luò)邊界安全防護(hù)技術(shù),其所面臨風(fēng)險(xiǎn)也是來(lái)自于傳輸鏈路安全和通信協(xié)議安全:
1) 在數(shù)據(jù)傳輸過(guò)程中,由于傳輸鏈路或接口安全防護(hù)措施不到位,數(shù)據(jù)可能面臨被篡改、截獲、竊聽(tīng)等安全風(fēng)險(xiǎn),特別是在數(shù)據(jù)通過(guò)公共網(wǎng)絡(luò)或無(wú)線網(wǎng)絡(luò)傳輸時(shí),可能面臨更高的安全風(fēng)險(xiǎn).
2) 在數(shù)據(jù)傳輸過(guò)程中,由于未考慮業(yè)務(wù)場(chǎng)景安全需要,或未按照相關(guān)法律法規(guī)、行業(yè)標(biāo)準(zhǔn)、組織政策等要求,采用必要的安全通信協(xié)議,導(dǎo)致數(shù)據(jù)未加密明文傳輸、數(shù)據(jù)傳輸異常等問(wèn)題.
1.2.5 數(shù)據(jù)銷毀階段
數(shù)據(jù)銷毀階段也是容易被忽視但卻存在重大隱患的環(huán)節(jié).一方面,在數(shù)據(jù)銷毀過(guò)程中,由于管理審批機(jī)制和審計(jì)策略的不完善,會(huì)導(dǎo)致數(shù)據(jù)存在被誤銷毀的可能性;另一方面,由于存儲(chǔ)介質(zhì)銷毀不徹底、存儲(chǔ)設(shè)備清除不完全等情況,可能被惡意攻擊者利用,導(dǎo)致數(shù)據(jù)泄露、惡意恢復(fù)等安全風(fēng)險(xiǎn).
當(dāng)前,數(shù)據(jù)全生命周期的處理活動(dòng),一方面面臨著業(yè)務(wù)場(chǎng)景的極大豐富和海量數(shù)據(jù)的飛速增長(zhǎng),給數(shù)據(jù)安全管理和可用性的平衡提出了更大挑戰(zhàn);另一方面,面向數(shù)據(jù)的攻擊、竊取和破壞手段逐步豐富和升級(jí),傳統(tǒng)的數(shù)據(jù)加密、數(shù)據(jù)脫敏、訪問(wèn)權(quán)限控制等技術(shù)無(wú)法適應(yīng)這些新的變化,并面臨新的問(wèn)題.
一是業(yè)務(wù)規(guī)模和數(shù)據(jù)規(guī)模越大,傳統(tǒng)數(shù)據(jù)安全管理技術(shù)能力的效率就越低,就越需要大量的資源和投入,包括硬件、軟件、人力和培訓(xùn)等,加之當(dāng)前數(shù)據(jù)安全技術(shù)手段對(duì)專業(yè)人員分析判斷高度依賴,給數(shù)據(jù)重資產(chǎn)主體特別是有需求的中小型企業(yè)和資源有限的組織帶來(lái)不小壓力.
二是隨著企業(yè)和組織數(shù)據(jù)規(guī)模的不斷增長(zhǎng),數(shù)據(jù)安全管理技術(shù)需要處理更加復(fù)雜和大規(guī)模的數(shù)據(jù)集,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、云端和邊緣端數(shù)據(jù)、多源數(shù)據(jù)等.這可能導(dǎo)致系統(tǒng)復(fù)雜性的增加,對(duì)技術(shù)的性能、可擴(kuò)展性和靈活性提出更高的要求.
三是業(yè)務(wù)場(chǎng)景的復(fù)雜交疊將使得傳統(tǒng)數(shù)據(jù)安全管理技術(shù)需要聯(lián)動(dòng)融合,如加密、訪問(wèn)控制、身份認(rèn)證、日志審計(jì)、安全監(jiān)測(cè)等,這些技術(shù)之間的復(fù)雜性和多樣性可能導(dǎo)致系統(tǒng)設(shè)計(jì)、配置和管理的復(fù)雜性增加,也提高了技術(shù)能力調(diào)度和管理的難度,從而使操作和實(shí)施也變得更加困難.
四是數(shù)據(jù)處理場(chǎng)景的不斷變化需要及時(shí)對(duì)系統(tǒng)和數(shù)據(jù)的潛在威脅進(jìn)行識(shí)別、評(píng)估和處理,同步地對(duì)安全策略和防護(hù)措施進(jìn)行定期評(píng)估和調(diào)整.在數(shù)據(jù)全生命周期管理的場(chǎng)景下,牽一發(fā)動(dòng)全身,一處策略的調(diào)整可能需要大規(guī)模的協(xié)同配合,給數(shù)據(jù)安全管理工作帶來(lái)壓力.
綜上所述,本節(jié)通過(guò)分析數(shù)據(jù)全生命周期各階段的安全風(fēng)險(xiǎn),以及各個(gè)環(huán)節(jié)使用的典型數(shù)據(jù)安全技術(shù),提出了在海量數(shù)據(jù)處理和攻擊手段升級(jí)的背景下,傳統(tǒng)數(shù)據(jù)安全管理技術(shù)所面臨的問(wèn)題和挑戰(zhàn),亟需適應(yīng)新的發(fā)展變化并迭代升級(jí),為數(shù)據(jù)安全提供更加高效和先進(jìn)的解決方案.
人工智能(artificial intelligence, AI)[2]是研究計(jì)算機(jī)模擬自主思考甚至能自由活動(dòng)的學(xué)科和工程.人工智能的目的是作出有關(guān)行動(dòng)的最佳決策并有效地完成既定任務(wù).隨著人工智能技術(shù)的不斷發(fā)展,逐漸地人工智能可被細(xì)分為眾多領(lǐng)域,如自然語(yǔ)言處理(natural language processing, NLP)[3]、深度學(xué)習(xí)(deep learning, DL)[4]等.各個(gè)子領(lǐng)域有其獨(dú)特的特性,但它們都離不開(kāi)對(duì)數(shù)據(jù)分析、解析等基礎(chǔ)工作.
在數(shù)據(jù)安全管理技術(shù)領(lǐng)域引入人工智能,將驅(qū)動(dòng)數(shù)據(jù)安全加速向自動(dòng)化、智能化、高效化、精準(zhǔn)化方向演進(jìn).相比于傳統(tǒng)的技術(shù)能力,基于人工智能的數(shù)據(jù)安全管理技術(shù)將在以下幾個(gè)方面凸顯更大優(yōu)勢(shì):
一是海量數(shù)據(jù)處理質(zhì)量更高.人工智能技術(shù)可以長(zhǎng)時(shí)間穩(wěn)定工作,更適用于處理海量數(shù)據(jù)的應(yīng)用場(chǎng)景,依托大量的人工智能算法和模型,不斷對(duì)海量數(shù)據(jù)和廣泛的數(shù)據(jù)處理活動(dòng)進(jìn)行學(xué)習(xí)和訓(xùn)練,將得到一些泛化較好的模型,從而更加有效地提升數(shù)據(jù)處理質(zhì)量.
二是數(shù)據(jù)識(shí)別更加精準(zhǔn).基于NLP和智能模式識(shí)別分類技術(shù),可以通過(guò)自學(xué)習(xí)方式,自動(dòng)識(shí)別和分類各種數(shù)據(jù),還可以一定程度地篩除噪聲數(shù)據(jù)和臟數(shù)據(jù),不斷提高數(shù)據(jù)識(shí)別的準(zhǔn)確率,擴(kuò)大識(shí)別數(shù)據(jù)的范圍.
三是智能化分析提高管理效率.利用機(jī)器學(xué)習(xí)技術(shù),判斷數(shù)據(jù)處理場(chǎng)景變化所帶來(lái)的安全管理需求變化,智能化地對(duì)數(shù)據(jù)安全管理防護(hù)策略和配置進(jìn)行動(dòng)態(tài)調(diào)整,自動(dòng)化調(diào)度相關(guān)技術(shù)能力,滿足安全基線管理要求.
四是自動(dòng)化決策提高風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警能力.利用深度學(xué)習(xí)技術(shù),根據(jù)已知的數(shù)據(jù)安全管理技術(shù)模型和策略庫(kù),在大規(guī)模流量中有效精準(zhǔn)識(shí)別潛在的數(shù)據(jù)安全風(fēng)險(xiǎn),并進(jìn)行及時(shí)預(yù)警和溯源.
數(shù)據(jù)安全管理在全生命周期各個(gè)階段都有非常豐富的應(yīng)用場(chǎng)景,而已經(jīng)有相當(dāng)一部分傳統(tǒng)、成熟的數(shù)據(jù)安全管理技術(shù)逐漸與人工智能技術(shù)進(jìn)行融合,并在企業(yè)或政府機(jī)構(gòu)的實(shí)際業(yè)務(wù)生產(chǎn)環(huán)境中逐漸進(jìn)行融合應(yīng)用實(shí)踐.
2.2.1 數(shù)據(jù)收集階段的典型融合應(yīng)用
1) 數(shù)據(jù)質(zhì)量檢測(cè)和清洗.數(shù)據(jù)質(zhì)量是確保數(shù)據(jù)計(jì)算結(jié)果更加精準(zhǔn)、數(shù)據(jù)價(jià)值有效利用的基本保障.智能化數(shù)據(jù)檢測(cè)和清洗技術(shù),借助于大規(guī)模、長(zhǎng)時(shí)間的機(jī)器學(xué)習(xí)和深度訓(xùn)練,配合智能特征值縮放(scaling)、極端/離群/缺省值補(bǔ)齊去重、智能樣本審查等智能技術(shù),可以逐漸得到更加精準(zhǔn)的特征數(shù)據(jù)篩選模型,大幅提高數(shù)據(jù)收集處理效率,有效識(shí)別、修復(fù)或剔除數(shù)據(jù)中的錯(cuò)誤、噪聲和缺失,從而提高數(shù)據(jù)的準(zhǔn)確性和完整性,保障數(shù)據(jù)計(jì)算結(jié)果的精確.
2) 智能數(shù)據(jù)分類分級(jí).通過(guò)NLP、機(jī)器學(xué)習(xí)、智能語(yǔ)義分析、圖像識(shí)別等技術(shù),深入分析提取數(shù)據(jù)內(nèi)容和核心信息并構(gòu)建標(biāo)準(zhǔn)化樣本,經(jīng)過(guò)一定規(guī)模和時(shí)間的樣本訓(xùn)練及模型修正,實(shí)現(xiàn)針對(duì)結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)、智能分類分級(jí)[5-7].例如,基于正則匹配+luhn校驗(yàn)的復(fù)合識(shí)別算法模式,可用于精確識(shí)別身份證、銀行卡等敏感信息,從而實(shí)現(xiàn)敏感數(shù)據(jù)的自動(dòng)提取與分類.
2.2.2 數(shù)據(jù)存儲(chǔ)階段的典型融合應(yīng)用
1) 智能化數(shù)據(jù)加解密.當(dāng)面對(duì)當(dāng)前海量的數(shù)據(jù)樣本和多樣化的數(shù)據(jù)結(jié)構(gòu)差異的同時(shí),還要確保數(shù)據(jù)存儲(chǔ)安全性,引入智能化數(shù)據(jù)加解密技術(shù),通過(guò)采取智能化高、靈活性強(qiáng)的安全策略,使數(shù)據(jù)在存儲(chǔ)過(guò)程中,不改變數(shù)據(jù)處理方式、數(shù)據(jù)文件的格式以及應(yīng)用程序的前提下,自動(dòng)、實(shí)時(shí)、靈活地對(duì)數(shù)據(jù)進(jìn)行透明、半透明加解密運(yùn)算,既保證數(shù)據(jù)存儲(chǔ)的機(jī)密性和完整性,又能兼顧數(shù)據(jù)計(jì)算的安全性.
2) 數(shù)據(jù)訪問(wèn)控制權(quán)限智能管理.伴隨當(dāng)前網(wǎng)絡(luò)融合生態(tài)以及指數(shù)級(jí)的數(shù)據(jù)增長(zhǎng),面臨復(fù)雜而龐大的數(shù)據(jù)處理權(quán)限管理和訪問(wèn)控制需求,為應(yīng)對(duì)多模型、多應(yīng)用、復(fù)雜結(jié)構(gòu)的集中化管理趨勢(shì),充分利用單點(diǎn)登錄、多因子身份驗(yàn)證等新型訪問(wèn)控制技術(shù),充分結(jié)合龐大業(yè)務(wù)場(chǎng)景和數(shù)據(jù)處理者需求的動(dòng)態(tài)變化,通過(guò)不斷深度學(xué)習(xí)各類型業(yè)務(wù)場(chǎng)景權(quán)限分配策略和不同數(shù)據(jù)處理人員權(quán)限分配差異特征,實(shí)現(xiàn)對(duì)于多模型、多應(yīng)用、復(fù)雜結(jié)構(gòu)的設(shè)備、平臺(tái)或應(yīng)用的智能化權(quán)限分配技術(shù)以及相應(yīng)地智能化核驗(yàn)、審計(jì)能力,在確保只有授權(quán)的用戶能夠訪問(wèn)數(shù)據(jù),防止未授權(quán)的數(shù)據(jù)訪問(wèn)和數(shù)據(jù)導(dǎo)出的同時(shí),提升數(shù)據(jù)處理權(quán)限管理效率[8].
3) 智能數(shù)據(jù)災(zāi)備.傳統(tǒng)數(shù)據(jù)災(zāi)備應(yīng)用場(chǎng)景往往集中在數(shù)據(jù)存儲(chǔ)環(huán)節(jié),隨著人工智能技術(shù)的發(fā)展,災(zāi)備的外延逐漸擴(kuò)大至存儲(chǔ)之外的網(wǎng)絡(luò)、計(jì)算等場(chǎng)景.目前,智能災(zāi)備技術(shù)更多還是基于弱人工智能,以傳統(tǒng)災(zāi)備技術(shù)為基礎(chǔ),綜合考慮實(shí)際業(yè)務(wù)運(yùn)轉(zhuǎn)負(fù)荷、系統(tǒng)設(shè)備性能、數(shù)據(jù)計(jì)算需求,結(jié)合智能動(dòng)態(tài)帶寬調(diào)節(jié)、智能彈性計(jì)算、智能切換監(jiān)測(cè)技術(shù),實(shí)現(xiàn)智能化動(dòng)態(tài)數(shù)據(jù)備份,大幅提升設(shè)備使用效率,降低成本,確保應(yīng)急場(chǎng)景下的數(shù)據(jù)存儲(chǔ)安全.
2.2.3 數(shù)據(jù)處理階段的典型融合應(yīng)用
1) 智能訪問(wèn)控制和身份認(rèn)證.通過(guò)NLP技術(shù),對(duì)數(shù)據(jù)訪問(wèn)控制和權(quán)限管理進(jìn)行調(diào)整或增強(qiáng)[9].如使用NLP技術(shù)對(duì)用戶的請(qǐng)求進(jìn)行語(yǔ)義解析和分析,以判斷請(qǐng)求的合法性和訪問(wèn)權(quán)限,實(shí)現(xiàn)細(xì)粒度的數(shù)據(jù)訪問(wèn)控制,從而防止未經(jīng)授權(quán)的數(shù)據(jù)訪問(wèn).此外,人工智能可以通過(guò)多因子身份認(rèn)證技術(shù),如人臉識(shí)別、聲紋識(shí)別、指紋識(shí)別等,對(duì)用戶進(jìn)行身份驗(yàn)證,從而防止未經(jīng)授權(quán)的用戶訪問(wèn)和數(shù)據(jù)操作[10-11].人工智能可以通過(guò)對(duì)多維度的用戶特征進(jìn)行分析和比對(duì),提高用戶身份認(rèn)證的精確性和安全性,并關(guān)聯(lián)記錄操作日志.
2) 異常檢測(cè)和行為分析.利用傳統(tǒng)數(shù)據(jù)安全防護(hù)能力中的異常行為模型和檢測(cè)策略,通過(guò)機(jī)器學(xué)習(xí)技術(shù)進(jìn)行強(qiáng)化訓(xùn)練,再進(jìn)行自學(xué)習(xí)建立具有相關(guān)性的異常行為模型,對(duì)數(shù)據(jù)處理過(guò)程中的可能威脅動(dòng)作進(jìn)行檢測(cè)和感知,預(yù)警相應(yīng)安全風(fēng)險(xiǎn),從而提前采取措施進(jìn)行防范和修復(fù)[12].例如,利用智能化審計(jì)技術(shù),對(duì)于超閾值的批量數(shù)據(jù)導(dǎo)出、非授權(quán)數(shù)據(jù)讀寫等異常操作行為,及時(shí)預(yù)警并采取措施防范處理,同時(shí)自動(dòng)備份數(shù)據(jù)以防被竊、損毀.
3) 基于同態(tài)加密的數(shù)據(jù)計(jì)算.同態(tài)加密是一種加密形式,允許對(duì)加密的數(shù)據(jù)執(zhí)行計(jì)算而無(wú)需先解密,同時(shí)將得到與解密數(shù)據(jù)計(jì)算相一致的結(jié)果.假設(shè)把數(shù)據(jù)比作基本的化學(xué)元素并置于一個(gè)元素池中,那么數(shù)據(jù)計(jì)算就是各種類型的化學(xué)反應(yīng)方程式,數(shù)據(jù)計(jì)算結(jié)果就是化學(xué)反應(yīng)后得到的化合物.同態(tài)加密就好比讓最終用戶只能在元素池中通過(guò)一定化學(xué)反應(yīng)得到想要的化合物,但卻無(wú)法詳細(xì)知道生成這種化合物的原材料是什么.那對(duì)于掌握原始數(shù)據(jù)但又想在保護(hù)數(shù)據(jù)隱私情況下,將數(shù)據(jù)交給合作方處理分析的場(chǎng)景,同態(tài)加密將有助于消除數(shù)據(jù)共享的隱私障礙限制并發(fā)揮最大價(jià)值[13].同態(tài)加密技術(shù)在醫(yī)療健康、金融服務(wù)等數(shù)據(jù)敏感度高的行業(yè)更加適用.
2.2.4 數(shù)據(jù)傳輸階段的典型融合應(yīng)用
1) 安全通信和傳輸協(xié)議.通過(guò)對(duì)基于業(yè)務(wù)場(chǎng)景和傳輸數(shù)據(jù)特征的深度學(xué)習(xí),加之不斷訓(xùn)練掌握動(dòng)態(tài)的數(shù)據(jù)傳輸變化需求,包括端到端傳輸甚至多方數(shù)據(jù)交互,在提前預(yù)置的數(shù)據(jù)安全傳輸協(xié)議庫(kù)、傳輸通道以及API接口庫(kù)中,利用人工智能算法,靈活調(diào)動(dòng)相匹配的數(shù)據(jù)安全通信和傳輸協(xié)議以及接口,如SSL/TLS協(xié)議、VPN等,大幅提高數(shù)據(jù)傳輸效率,保障數(shù)據(jù)在傳輸過(guò)程中的安全性和完整性.
2) 網(wǎng)絡(luò)流量異常監(jiān)測(cè).通過(guò)使用機(jī)器學(xué)習(xí)算法,配合提前配置的流量異常策略模型,對(duì)大量的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分析,以檢測(cè)潛在的數(shù)據(jù)大規(guī)模流轉(zhuǎn)、數(shù)據(jù)異??缇车劝踩L(fēng)險(xiǎn).如可以使用支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法訓(xùn)練模型,用于檢測(cè)網(wǎng)絡(luò)流量中的異常行為,從而識(shí)別可能的威脅[14-15].
3) 數(shù)據(jù)包智能檢測(cè)和過(guò)濾.通過(guò)對(duì)海量的數(shù)據(jù)包安全檢測(cè)模型的深度學(xué)習(xí)訓(xùn)練,對(duì)數(shù)據(jù)傳輸過(guò)程中數(shù)據(jù)包進(jìn)行自動(dòng)化、智能化檢測(cè)和過(guò)濾,并結(jié)合數(shù)據(jù)傳輸場(chǎng)景和特征自動(dòng)調(diào)整檢測(cè)策略,分析其中潛在的網(wǎng)絡(luò)攻擊、惡意代碼、漏洞利用等威脅,提高對(duì)于數(shù)據(jù)安全威脅的風(fēng)險(xiǎn)預(yù)警準(zhǔn)確率或者降低誤報(bào)率,從而及時(shí)有效防止未經(jīng)授權(quán)或惡意數(shù)據(jù)泄露、竊取、篡改和其他破壞行為[16-18].
2.2.5 數(shù)據(jù)共享階段的典型融合應(yīng)用
1) 數(shù)據(jù)智能脫敏.通過(guò)使用深度學(xué)習(xí)和智能匿名化技術(shù)對(duì)敏感數(shù)據(jù)進(jìn)行隱私保護(hù),如使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)來(lái)生成具有隱私保護(hù)特性的合成數(shù)據(jù),從而避免原始數(shù)據(jù)的直接使用,減少隱私泄露的風(fēng)險(xiǎn)[19].如在金融或醫(yī)療領(lǐng)域可以使用數(shù)據(jù)智能泛化技術(shù),依托預(yù)置敏感信息識(shí)別策略,對(duì)患者數(shù)據(jù)進(jìn)行匿名化處理,以保護(hù)患者隱私[20].
2) 基于差分隱私的數(shù)據(jù)匿名化.差分隱私計(jì)算是數(shù)學(xué)計(jì)算的一種手段,旨在當(dāng)?shù)谌綌?shù)據(jù)處理者在進(jìn)行統(tǒng)計(jì)數(shù)據(jù)庫(kù)查詢時(shí),既能最大化提高數(shù)據(jù)查詢準(zhǔn)確性,同時(shí)又能防止其利用查詢結(jié)果差異,識(shí)別原始數(shù)據(jù)集中的個(gè)體數(shù)據(jù)或相關(guān)隱私信息[21].差分隱私技術(shù)作為一種隱私模型,嚴(yán)格定義了隱私保護(hù)的強(qiáng)度,即任意一條記錄的添加或刪除,都不會(huì)影響最終的查詢結(jié)果,可以在保留統(tǒng)計(jì)學(xué)特征的前提下去除個(gè)體特征,以保護(hù)用戶隱私.差分隱私計(jì)算在大數(shù)據(jù)環(huán)境下表現(xiàn)出極高的兼容性,如在智能推薦、網(wǎng)絡(luò)行為分析、運(yùn)輸信息保護(hù)、醫(yī)療健康研究等方面都有很好的應(yīng)用效果.
2.2.6 其他基于人工智能的數(shù)據(jù)安全管理技術(shù)
當(dāng)前,數(shù)據(jù)銷毀階段的數(shù)據(jù)安全管理技術(shù)方案主要是物理或化學(xué)銷毀.與此同時(shí),也有一些人工智能數(shù)據(jù)安全管理技術(shù),并不受限于某個(gè)數(shù)據(jù)生命周期管理階段,可以全程為數(shù)據(jù)安全防護(hù)進(jìn)行能力供給.例如:
1) 智能數(shù)據(jù)隱私保護(hù)技術(shù).數(shù)據(jù)隱私保護(hù)始終是數(shù)據(jù)生命周期各個(gè)階段活動(dòng)中不可或缺的目標(biāo),通過(guò)越來(lái)越多的人工智能技術(shù)的綜合運(yùn)用,如智能數(shù)據(jù)加密、分布式計(jì)算、邊緣計(jì)算、機(jī)器學(xué)習(xí)等技術(shù),用于數(shù)據(jù)隱私保護(hù)目標(biāo)下的安全計(jì)算[22-23].目前除上文提到的同態(tài)加密、差分隱私計(jì)算等技術(shù)外,還包括多方安全計(jì)算(secure multi-party computation, MPC)[24]、聯(lián)邦學(xué)習(xí)(federated learning, FL)[25]等新興技術(shù)都在助力多方面隱私保護(hù).
多方安全計(jì)算旨在零信任場(chǎng)景下,多個(gè)數(shù)據(jù)處理者共同計(jì)算同一目標(biāo)函數(shù),在確保數(shù)據(jù)計(jì)算結(jié)果準(zhǔn)確的同時(shí),阻止其他相關(guān)方在獲取自己的計(jì)算結(jié)果以外的信息,主要是無(wú)法借助計(jì)算推測(cè)出原始輸入數(shù)據(jù).
聯(lián)邦學(xué)習(xí)采用分布式機(jī)器學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)本地?cái)?shù)據(jù)在不出庫(kù)情況下,僅將各個(gè)邊緣終端的數(shù)據(jù)處理參數(shù)或訓(xùn)練后模型進(jìn)行融合分析獲取最終的計(jì)算結(jié)果,計(jì)算過(guò)程中各方數(shù)據(jù)對(duì)其他相關(guān)方不可見(jiàn),從而降低數(shù)據(jù)泄露風(fēng)險(xiǎn).
這些智能數(shù)據(jù)隱私保護(hù)技術(shù)的應(yīng)用,例如在政務(wù)領(lǐng)域、醫(yī)療領(lǐng)域、金融領(lǐng)域等涉及國(guó)家經(jīng)濟(jì)發(fā)展、社會(huì)民生穩(wěn)定的重點(diǎn)業(yè)務(wù)領(lǐng)域的重要數(shù)據(jù)處理場(chǎng)景中,在確保數(shù)據(jù)隱私得到有效保護(hù)的前提下,充分釋放數(shù)據(jù)價(jià)值.
2) 審計(jì)日志智能分析.依托深度學(xué)習(xí)技術(shù),對(duì)不同業(yè)務(wù)、不同系統(tǒng)、不同環(huán)節(jié)的多源異構(gòu)日志進(jìn)行關(guān)聯(lián)分析,匹配相似特征,實(shí)現(xiàn)安全風(fēng)險(xiǎn)事件的智能溯源[26-27].此外,定期開(kāi)展全量日志合規(guī)性審計(jì),匹配安全管理機(jī)制,及時(shí)發(fā)現(xiàn)管理漏洞和異常行為,并提出整改方案建議.
3) 安全事件智能響應(yīng).依托智能巡檢技術(shù),可以通過(guò)自動(dòng)化的方式對(duì)有效命中的數(shù)據(jù)安全事件進(jìn)行實(shí)時(shí)響應(yīng)和處理[28].例如,當(dāng)檢測(cè)到異常行為時(shí),人工智能可以自動(dòng)觸發(fā)警報(bào)、阻止惡意行為、記錄日志等,并通知安全管理員采取進(jìn)一步的措施.通過(guò)自動(dòng)化的安全事件響應(yīng),人工智能可以提高安全事件的處理速度和準(zhǔn)確性,降低對(duì)人工干預(yù)的依賴.
綜上所述,本節(jié)通過(guò)分析傳統(tǒng)數(shù)據(jù)安全管理技術(shù)手段面臨的技術(shù)難點(diǎn),提出了引入人工智能技術(shù)可能帶來(lái)的優(yōu)勢(shì).在此基礎(chǔ)上,詳細(xì)介紹了已經(jīng)或可能用于數(shù)據(jù)生命周期各個(gè)階段的基于人工智能的數(shù)據(jù)安全管理技術(shù).基于人工智能的數(shù)據(jù)全生命周期安全管理技術(shù),除了提高防護(hù)效率、降低管理成本、強(qiáng)化風(fēng)險(xiǎn)監(jiān)測(cè)等優(yōu)勢(shì),還能為建立體系化的數(shù)據(jù)安全防護(hù)能力、打破業(yè)務(wù)系統(tǒng)和網(wǎng)絡(luò)邊界壁壘、實(shí)現(xiàn)全局?jǐn)?shù)據(jù)安全管理提供更多可能.
當(dāng)前,人工智能技術(shù)發(fā)展正處于爆炸式發(fā)展階段.其在信息收集處理、人機(jī)交互、感知預(yù)測(cè)等方面帶來(lái)的變化都是顛覆性的,ChatGPT和GPT-4等大模型AI的出現(xiàn)讓大眾對(duì)人工智能有了更新、更深刻的認(rèn)識(shí)[29].
未來(lái),隨著數(shù)據(jù)安全和個(gè)人信息保護(hù)法律法規(guī)的逐步實(shí)施,不斷強(qiáng)調(diào)數(shù)據(jù)安全的重要性,加強(qiáng)用戶對(duì)數(shù)據(jù)隱私的關(guān)注,基于人工智能的數(shù)據(jù)安全管理技術(shù)將會(huì)趨向更加嚴(yán)格的數(shù)據(jù)安全防護(hù)模型研究.在數(shù)據(jù)源輸入方面,將逐步適應(yīng)多模態(tài)數(shù)據(jù)和多源異構(gòu)數(shù)據(jù),進(jìn)一步提升數(shù)據(jù)安全識(shí)別技術(shù)的數(shù)據(jù)資產(chǎn)覆蓋范圍.在新技術(shù)應(yīng)用方面,隨著差分隱私、同態(tài)加密等先進(jìn)的隱私保護(hù)技術(shù)日趨成熟,與人工智能的結(jié)合將實(shí)現(xiàn)對(duì)重要敏感數(shù)據(jù)更加精細(xì)化、智能化管理.在跨界技術(shù)融合方面,如物聯(lián)網(wǎng)、云計(jì)算、邊緣計(jì)算技術(shù)等,為各個(gè)行業(yè)領(lǐng)域的數(shù)據(jù)安全管理賦能,為數(shù)據(jù)安全管理人員提供智能化的推薦和決策支持,以應(yīng)對(duì)更加復(fù)雜的數(shù)據(jù)安全威脅.
此外,針對(duì)本文第2節(jié)介紹的傳統(tǒng)數(shù)據(jù)安全技術(shù)面臨的潛在問(wèn)題,也需要基于人工智能技術(shù)進(jìn)一步完善其算法,優(yōu)化機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù),開(kāi)發(fā)更具魯棒性的機(jī)器學(xué)習(xí)模型,對(duì)抗性攻擊防御機(jī)制,提高模型的可解釋性,使決策過(guò)程更加透明和可理解.
本文結(jié)合數(shù)據(jù)爆炸和數(shù)字化轉(zhuǎn)型加速等時(shí)代背景,以及數(shù)據(jù)安全管理面臨的海量數(shù)據(jù)處理和攻擊手段升級(jí)等新情況,深入分析了數(shù)據(jù)全生命周期各個(gè)階段存在的安全風(fēng)險(xiǎn),以及傳統(tǒng)數(shù)據(jù)安全技術(shù)面臨的瓶頸和挑戰(zhàn),論述了人工智能技術(shù)在解決這些問(wèn)題的優(yōu)勢(shì),并總結(jié)了當(dāng)前基于人工智能的數(shù)據(jù)安全管理技術(shù)發(fā)展現(xiàn)狀和一些應(yīng)用實(shí)踐案例.
總之,數(shù)據(jù)安全管理技術(shù)的體系化發(fā)展還處在起步階段,借助人工智能技術(shù)的興起,為未來(lái)數(shù)據(jù)安全技術(shù)的研究提供了新的思路和方向,新的技術(shù)所面臨的挑戰(zhàn)也必將推動(dòng)其不斷完善,最終助力數(shù)據(jù)安全技術(shù)產(chǎn)業(yè)走向成熟.