金華松
(福建中信網(wǎng)安信息科技有限公司,福建 福州 350014)
隨著現(xiàn)代社會對數(shù)據(jù)快速增長和數(shù)據(jù)資產(chǎn)安全的日益關(guān)注,有效地對數(shù)據(jù)進(jìn)行監(jiān)測、管理和保護(hù)變得越來越重要。近年來,很多學(xué)者已經(jīng)針對數(shù)據(jù)資產(chǎn)安全進(jìn)行深入的探討。朱俊豐等[1]通過建立基于時空大數(shù)據(jù)的平臺,快速構(gòu)建了“新冠”疫情地圖應(yīng)用,實現(xiàn)對疫情數(shù)據(jù)的有效監(jiān)控。黃朔等[2]提出了一種基于時空網(wǎng)格數(shù)據(jù)的平臺系統(tǒng),強(qiáng)調(diào)了數(shù)據(jù)的時空維度對數(shù)據(jù)安全性的影響。郭晟楠[3]從預(yù)測的角度對時空數(shù)據(jù)學(xué)習(xí)方法進(jìn)行深入的研究。盡管已有很多研究針對數(shù)據(jù)資產(chǎn)安全和時空數(shù)據(jù)進(jìn)行了探討,但是在數(shù)據(jù)資產(chǎn)安全監(jiān)測領(lǐng)域,如何將時空網(wǎng)格技術(shù)與安全監(jiān)測技術(shù)有效結(jié)合,特別是如何利用時空網(wǎng)格實現(xiàn)數(shù)據(jù)溯流,仍然存在研究空白。此外,當(dāng)前的研究很少涉及評估基于時空網(wǎng)格的溯流算法的效率與準(zhǔn)確性。本研究通過引入時空網(wǎng)格技術(shù),探討其在數(shù)據(jù)資產(chǎn)安全監(jiān)測中的關(guān)鍵應(yīng)用,并設(shè)計一個基于時空網(wǎng)格的數(shù)據(jù)資產(chǎn)安全監(jiān)測溯流平臺。
時空網(wǎng)格是一個多維的數(shù)據(jù)結(jié)構(gòu),旨在捕捉并顯示數(shù)據(jù)在時間和空間維度上的變化和分布,其基本構(gòu)思源于將空間和時間2 個維度融合,創(chuàng)建了一個離散的、多維的網(wǎng)狀結(jié)構(gòu)。在空間上,時空網(wǎng)格將地理空間劃分為規(guī)則或非規(guī)則的單元格,每一個單元格都對應(yīng)一個特定的空間區(qū)域。在時間上,每個單元格會被進(jìn)一步細(xì)分為一系列連續(xù)或離散的時刻,每個時刻都代表一個特定的時間區(qū)間。這種結(jié)構(gòu)使數(shù)據(jù)可以在每一個空間單元的每一個時間點上都能夠被捕獲和存儲。此外,為支持多尺度和多粒度的數(shù)據(jù)查詢和分析,時空網(wǎng)格的構(gòu)造通常會考慮多種分辨率,從宏觀的大區(qū)域、長時間跨度,到微觀的小區(qū)域、短時間跨度[4],提供了一個強(qiáng)大的框架,不僅可以有效地存儲和管理大量的時空數(shù)據(jù),還可以為時空數(shù)據(jù)分析和模式挖掘提供有力的工具。
時空網(wǎng)格模型是一種專門為處理和分析在時間和空間維度上變化的數(shù)據(jù)而設(shè)計的結(jié)構(gòu)化模型,這種模型將連續(xù)的空間和時間信息離散化,形成一個多維格網(wǎng),其中每個格子代表特定的空間區(qū)域和時間范圍,其核心思想在于將時間和空間作為數(shù)據(jù)維度的組成部分同等對待。時空網(wǎng)格模型的關(guān)鍵在于其能夠為各種各樣的時空查詢提供高效、一致且直觀的表示,無論是關(guān)于特定空間位置在一段時間內(nèi)的變化,還是關(guān)于某一特定時刻的空間分布情況。此外,時空網(wǎng)格模型為大規(guī)模時空數(shù)據(jù)的存儲、檢索和分析提供了便利。不僅如此,該模型支持從不同的粒度和視角對數(shù)據(jù)進(jìn)行觀察,從而為復(fù)雜的時空數(shù)據(jù)分析任務(wù)提供強(qiáng)大的靈活性和可擴(kuò)展性。
時空數(shù)據(jù)索引技術(shù)針對的是在時間和空間2 個維度上都存在的數(shù)據(jù),其主要目的是提高時空數(shù)據(jù)的查詢效率,滿足高效的數(shù)據(jù)檢索、更新和分析需求。這種技術(shù)融合了傳統(tǒng)的空間數(shù)據(jù)索引方法和時間序列數(shù)據(jù)索引方法,形成一個多維索引結(jié)構(gòu)。其中,R 樹、四叉樹和k-d 樹等結(jié)構(gòu)經(jīng)常被用作空間維度的索引,而B+樹、日志結(jié)構(gòu)合并樹等常被用于時間維度的索引。對于動態(tài)變化的時空數(shù)據(jù),特別是大數(shù)據(jù)環(huán)境下的數(shù)據(jù),時空數(shù)據(jù)索引技術(shù)可以極大地提高點查詢、范圍查詢、相鄰查詢的操作效率。這種技術(shù)的核心優(yōu)勢在于能夠減少為滿足查詢需求而必須掃描的數(shù)據(jù)量,從而為實時分析、動態(tài)監(jiān)測和預(yù)測提供支持。
數(shù)據(jù)資產(chǎn)作為企業(yè)和組織在數(shù)字化時代的核心價值載體,具有獨特性、多變性、時效性和復(fù)雜性等主要特性。獨特性意味著數(shù)據(jù)資產(chǎn)通常與特定的應(yīng)用場景、業(yè)務(wù)過程或?qū)嶓w相關(guān);多變性則指數(shù)據(jù)資產(chǎn)可以以多種格式、來源和粒度存在,其內(nèi)容及價值會隨時間和環(huán)境而變化;時效性體現(xiàn)在數(shù)據(jù)資產(chǎn)的價值會隨著時間的推移而減少或增長,特別是在高速變化的商業(yè)環(huán)境中;數(shù)據(jù)資產(chǎn)的復(fù)雜性來源于其與各種技術(shù)、流程、政策和文化因素的交互作用[5]。與此同時,數(shù)據(jù)資產(chǎn)面臨的挑戰(zhàn)主要包括數(shù)據(jù)安全、質(zhì)量、一致性、隱私和合規(guī)性等問題。在復(fù)雜的技術(shù)和業(yè)務(wù)環(huán)境中,如何有效地管理和利用數(shù)據(jù)資產(chǎn),以實現(xiàn)其最大的經(jīng)濟(jì)和社會價值,已成為當(dāng)今組織和企業(yè)關(guān)注的關(guān)鍵議題。
傳統(tǒng)安全監(jiān)測方法主要圍繞固定的閾值、模式匹配及基于規(guī)則的策略進(jìn)行操作,這些方法大多采用預(yù)先定義的安全規(guī)則或已知的威脅模式識別異常或惡意行為。例如,入侵檢測系統(tǒng)(IDS)經(jīng)常利用已知的簽名庫匹配潛在的威脅行為,而防火墻則基于預(yù)設(shè)的規(guī)則監(jiān)控特定的網(wǎng)絡(luò)流量。這些方法在面對已知威脅時相對有效,但隨著技術(shù)進(jìn)步和威脅行為的復(fù)雜化,它們可能在檢測零日攻擊、高級持續(xù)性威脅(APT)和其他復(fù)雜威脅時顯得力不從心。此外,由于依賴于靜態(tài)規(guī)則和已知簽名,這些方法可能產(chǎn)生較高的誤報率和漏報率,增加了安全分析師的工作負(fù)擔(dān),并且往往缺乏對上、下文的分析能力,無法有效地解析復(fù)雜的攻擊場景和行為模式。
基于時空網(wǎng)格的安全監(jiān)測策略是一個新穎的方法,它將時間和空間2 個維度整合進(jìn)監(jiān)測框架中,為數(shù)據(jù)資產(chǎn)的安全提供高度的上、下文敏感性。時空網(wǎng)格將監(jiān)測區(qū)域劃分為多個時空單元,每個單元都反映了特定時間和空間范圍內(nèi)的信息狀態(tài),允許監(jiān)測系統(tǒng)在精確的時間和位置上捕獲和分析數(shù)據(jù)異?;顒?。相較于傳統(tǒng)方法,這種策略可以更為有效地識別出細(xì)微、分散或延遲的威脅行為。例如,當(dāng)一個惡意活動在不同的時間和位置逐步展開時,通過分析其在時空網(wǎng)格中的分布和模式,可以更準(zhǔn)確地識別和預(yù)測其行為軌跡。此外,時空網(wǎng)格的策略也提供了更豐富的上、下文信息,幫助安全分析師理解攻擊的整體情境和可能的目標(biāo)。這種方法不僅可以提高攻擊檢測的準(zhǔn)確性和效率,還有助于減少誤報和漏報,使安全響應(yīng)更為迅速和具有針對性。
異常檢測與響應(yīng)機(jī)制是信息安全領(lǐng)域的核心組成部分,旨在及時發(fā)現(xiàn)并對潛在的威脅進(jìn)行響應(yīng)。從技術(shù)角度看,異常檢測是基于建立正常行為模型并與實時行為進(jìn)行對比,以識別不符合預(yù)期模式的行為,這種檢測可以基于統(tǒng)計學(xué)方法、機(jī)器學(xué)習(xí)算法或行為分析技術(shù)實現(xiàn)。一旦檢測到異常,即可觸發(fā)預(yù)定的響應(yīng)機(jī)制。響應(yīng)策略的選擇依賴于異常的性質(zhì)、影響范圍和潛在后果[6]。常見的響應(yīng)行動包括發(fā)出警報、隔離受影響的系統(tǒng)、限制網(wǎng)絡(luò)流量或自動執(zhí)行預(yù)定義的修復(fù)腳本。為提高檢測準(zhǔn)確性,減少誤報,異常檢測系統(tǒng)應(yīng)當(dāng)能夠?qū)崟r學(xué)習(xí)并調(diào)整其行為模型,同時需要與其他安全系統(tǒng)(如入侵檢測系統(tǒng)、防火墻和終端安全解決方案)緊密集成,以獲取全局視圖并進(jìn)行協(xié)同防御。此外,響應(yīng)機(jī)制也需能夠區(qū)分真實威脅與虛假警報,在避免不必要干預(yù)的同時,對真正的安全事件給予足夠的關(guān)注和迅速的反應(yīng)。
溯流技術(shù)通常應(yīng)用于信息安全和網(wǎng)絡(luò)取證領(lǐng)域,主要目的是追蹤數(shù)據(jù)的來源和流向,從而確定數(shù)據(jù)的原始來源、經(jīng)過的節(jié)點及其在網(wǎng)絡(luò)中的傳播方式,該技術(shù)是基于對網(wǎng)絡(luò)中的數(shù)據(jù)包或事件進(jìn)行深入分析,以識別其源頭和傳播路徑;核心思想是通過分析數(shù)據(jù)流的特征、時間戳、源/目標(biāo)地址和其他相關(guān)屬性,構(gòu)建數(shù)據(jù)在網(wǎng)絡(luò)中的傳播圖譜。溯流技術(shù)對應(yīng)對檢測網(wǎng)絡(luò)攻擊、數(shù)據(jù)泄露和非法數(shù)據(jù)訪問問題尤為關(guān)鍵,因為它能夠揭示惡意行為的起源和傳播機(jī)制。對于組織來說,溯流技術(shù)不僅能夠追溯安全事件的根源,對犯罪行為進(jìn)行取證,而且能夠幫助安全團(tuán)隊預(yù)測和預(yù)防未來的威脅。此外,隨著大數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)環(huán)境的出現(xiàn),溯流技術(shù)也逐漸融入機(jī)器學(xué)習(xí)和人工智能算法,從而提高了追蹤精度,擴(kuò)展了應(yīng)用范圍。
基于時空網(wǎng)格的溯流算法設(shè)計考慮數(shù)據(jù)在時間和空間維度的特性,從而在大數(shù)據(jù)環(huán)境中實現(xiàn)有效的溯源分析。首先,該設(shè)計將數(shù)據(jù)按照生成和流動的時間進(jìn)行排序,并通過時空網(wǎng)格將每一個數(shù)據(jù)點映射到特定的時間-空間單元中。此時,每一個時空單元格都包含特定時間窗口內(nèi)某一空間位置的數(shù)據(jù)。其次,算法利用一個二維矩陣,其中列代表時間序列,行代表空間序列,該矩陣的每一個單元格都存儲與其對應(yīng)時空單元相關(guān)的數(shù)據(jù)信息,此矩陣可以視為數(shù)據(jù)流動的地圖,而數(shù)據(jù)流動路徑則可以通過分析這一矩陣得到。為追蹤數(shù)據(jù)的具體流向,算法會分析相鄰時空單元之間的數(shù)據(jù)變動情況,包括數(shù)據(jù)的生成、消失和變化等情況[7]。例如,如果某一時空單元在時間t有數(shù)據(jù)A,在時間t+1 這一數(shù)據(jù)消失,同時在相鄰的時空單元中出現(xiàn),則可以推斷數(shù)據(jù)從一個位置流向另一個位置。此外,為提高溯流的準(zhǔn)確性,算法還會考慮數(shù)據(jù)的屬性和關(guān)聯(lián)性,以判斷數(shù)據(jù)是否真正從一個位置流向另一個位置。例如,如果兩個相鄰的時空單元在相同的時間窗口內(nèi)都有數(shù)據(jù)A 和數(shù)據(jù)B,而數(shù)據(jù)A 和B 之間存在強(qiáng)烈的關(guān)聯(lián)性,那么可以進(jìn)一步確認(rèn)數(shù)據(jù)的流動路徑。最后,該算法將所有的數(shù)據(jù)流動路徑整合,形成一個完整的數(shù)據(jù)溯源圖,數(shù)據(jù)溯源圖不僅展現(xiàn)了數(shù)據(jù)的流動過程,還展現(xiàn)了數(shù)據(jù)在不同時間、不同地點的狀態(tài)變化,為進(jìn)一步的數(shù)據(jù)分析和決策提供了重要的參考依據(jù)。
表1為溯流算法效率與準(zhǔn)確性示例。基于時空網(wǎng)格的溯流算法在不同大小的數(shù)據(jù)集上的效率和準(zhǔn)確性得到具體評估。在數(shù)據(jù)集大小與溯流時間的關(guān)系中,處理更大的數(shù)據(jù)集需要更多的時間,但該增長并非嚴(yán)格線性,說明算法具有一定的擴(kuò)展性。真實溯源路徑數(shù)與檢測到的溯源路徑數(shù)的對比顯示算法具有較高的準(zhǔn)確性,特別是在10 GB 的數(shù)據(jù)集上,其準(zhǔn)確率達(dá)到97%。召回率同樣在3個數(shù)據(jù)集上都維持在較高的水平,表明該溯流算法能夠有效地識別出絕大部分的真實數(shù)據(jù)流路徑。綜合來看,此算法在效率和準(zhǔn)確性上均表現(xiàn)出色,尤其在處理大型數(shù)據(jù)集時仍能保持高水準(zhǔn)的性能。
表1 溯流算法效率與準(zhǔn)確性示例
平臺架構(gòu)設(shè)計是確保系統(tǒng)性能、擴(kuò)展性和穩(wěn)定性的關(guān)鍵環(huán)節(jié)。為實現(xiàn)基于時空網(wǎng)格的數(shù)據(jù)資產(chǎn)安全監(jiān)測與溯流功能,平臺采用分層設(shè)計策略。第一層是數(shù)據(jù)接入層,負(fù)責(zé)各種數(shù)據(jù)源的接入與初步的數(shù)據(jù)清洗和預(yù)處理;第二層是核心計算層,包含所有的算法模塊,如時空網(wǎng)格構(gòu)建、安全監(jiān)測策略及溯流算法;第三層是服務(wù)層,提供API接口和服務(wù),為上層應(yīng)用提供數(shù)據(jù)支持;第四層是應(yīng)用與展示層,包括數(shù)據(jù)可視化、報警系統(tǒng)及各種安全報告的生成模塊。此外,整體架構(gòu)中融入了高效的數(shù)據(jù)存儲與查詢機(jī)制,如時空數(shù)據(jù)索引技術(shù),以保證在大數(shù)據(jù)量下的查詢效率。
在基于時空網(wǎng)格的數(shù)據(jù)資產(chǎn)安全監(jiān)測溯流平臺中,關(guān)鍵模塊被精心設(shè)計以實現(xiàn)細(xì)致和精準(zhǔn)的功能。首先,數(shù)據(jù)處理模塊主要負(fù)責(zé)數(shù)據(jù)的收集、預(yù)處理、清洗和轉(zhuǎn)換,確保輸入平臺的數(shù)據(jù)具有高質(zhì)量和統(tǒng)一的格式。其次,時空網(wǎng)格構(gòu)建模塊利用先進(jìn)的算法將整合后的數(shù)據(jù)映射到特定的時空網(wǎng)格中,為后續(xù)數(shù)據(jù)分析提供便利。安全監(jiān)測策略模塊則在此基礎(chǔ)上進(jìn)行數(shù)據(jù)的實時監(jiān)測,憑借一系列的策略和閾值設(shè)定,實時識別潛在的安全威脅。溯流算法模塊作為核心組件,對所有檢測到的異常進(jìn)行深入分析,確定其溯源路徑,從而迅速鎖定數(shù)據(jù)被泄露或篡改的源頭。最后,報告和可視化模塊負(fù)責(zé)將所有分析結(jié)果以圖形和報告的形式呈現(xiàn)給用戶,使其能夠輕松理解并采取相應(yīng)措施[8]。這些模塊協(xié)同工作,為數(shù)據(jù)資產(chǎn)的安全性提供了強(qiáng)有力的技術(shù)支撐。
基于時空網(wǎng)格的數(shù)據(jù)資產(chǎn)安全監(jiān)測溯流平臺的實際實現(xiàn)階段,采用模塊化和分層的設(shè)計策略,保證各組件的高度協(xié)同性和可擴(kuò)展性。首先,選擇具有高并發(fā)處理能力和低延遲響應(yīng)特性的編程語言和框架,確保平臺可以處理大規(guī)模數(shù)據(jù)流并實時響應(yīng)。其次,為驗證平臺的功能和性能進(jìn)行一系列測試,這些測試包括單元測試、集成測試和系統(tǒng)測試,確保每個模塊都能正常工作并滿足預(yù)定要求。在此基礎(chǔ)上,還進(jìn)行大量的性能測試和壓力測試,模擬了各種實際運行環(huán)境和極端情況,驗證平臺的穩(wěn)定性和擴(kuò)展能力。測試結(jié)果顯示,平臺在大多數(shù)情況下都能達(dá)到預(yù)期的性能指標(biāo),并在面對突發(fā)事件時能夠迅速、準(zhǔn)確響應(yīng)。這一系列實驗和測試流程可確保平臺在真實環(huán)境中高效、穩(wěn)定地運行,為保障數(shù)據(jù)資產(chǎn)的安全。
在信息時代的背景下,數(shù)據(jù)資產(chǎn)日益顯現(xiàn)出其無可替代的價值。然而,隨著數(shù)據(jù)資產(chǎn)規(guī)模的快速擴(kuò)增和應(yīng)用領(lǐng)域的不斷擴(kuò)展,其安全性問題也日益凸顯。本文針對數(shù)據(jù)資產(chǎn)的安全監(jiān)測問題,提出一個基于時空網(wǎng)格的監(jiān)測溯流平臺,結(jié)合時空網(wǎng)格技術(shù)、安全監(jiān)測技術(shù)和溯流技術(shù),為數(shù)據(jù)資產(chǎn)提供一種更為穩(wěn)健、高效和智能的保護(hù)手段。