【關(guān)鍵詞】數(shù)據(jù)脫敏;靜態(tài)脫敏;動態(tài)脫敏;產(chǎn)品測試
隨著互聯(lián)網(wǎng)、云計算、移動互聯(lián)、物聯(lián)網(wǎng)等技術(shù)的迅猛發(fā)展,我們已經(jīng)進入一個信息化、數(shù)字化的時代。信息化讓我們可以通過技術(shù)將業(yè)務(wù)數(shù)據(jù)化,將物理世界的信息以數(shù)據(jù)的形式錄入信息系統(tǒng)中記錄下來。數(shù)字化又通過技術(shù)將數(shù)據(jù)業(yè)務(wù)化,利用數(shù)字技術(shù)將積累的數(shù)據(jù)不斷整合分析,提供新的價值和機會。在信息化數(shù)字化時代,數(shù)據(jù),就像石油一樣,已經(jīng)成為國家基礎(chǔ)性戰(zhàn)略資源和生產(chǎn)要素[1],是企業(yè)發(fā)展的核心競爭力,深刻改變著生產(chǎn)、生活方式和社會治理方式。
大數(shù)據(jù)的爆發(fā)式增長,讓數(shù)據(jù)價值持續(xù)釋放,但另一方面,數(shù)據(jù)開放共享程度越高、數(shù)據(jù)挖掘深度越深,數(shù)據(jù)面臨的安全風(fēng)險就越高[2]。在數(shù)據(jù)安全問題中,數(shù)據(jù)泄露問題一直是占比高、影響大的一類問題。Verizon發(fā)布的《2023年度數(shù)據(jù)泄露調(diào)查報告》中,在總量約16000的事件中,數(shù)據(jù)泄露事件包含約5200起,占比32.5%。此外,從蘋果公司發(fā)布的數(shù)據(jù)泄露報告中也可以看到,2023年前9個月的敏感數(shù)據(jù)泄漏總量已經(jīng)比2022全年高出了20%,預(yù)計2023年數(shù)據(jù)泄漏規(guī)模將創(chuàng)歷史新高。
為了解決數(shù)據(jù)泄露等安全問題,各類安全產(chǎn)品應(yīng)運而生,其中,數(shù)據(jù)脫敏產(chǎn)品,是通過處理敏感數(shù)據(jù),降低數(shù)據(jù)敏感程度,從而保障敏感數(shù)據(jù)安全的一類網(wǎng)絡(luò)安全產(chǎn)品,并且它可以保留數(shù)據(jù)原有格式、屬性等,在保證數(shù)據(jù)安全的前提下,使數(shù)據(jù)的可用性、共享性得到最大化利用[3],因此在各行業(yè)、場景中也得到了越來越多地應(yīng)用。本文將根據(jù)對數(shù)據(jù)脫敏產(chǎn)品的技術(shù)分析,從產(chǎn)品測試的角度,分析測試數(shù)據(jù)脫敏產(chǎn)品時的主要關(guān)注點。
(一)數(shù)據(jù)脫敏產(chǎn)品分類
根據(jù)技術(shù)實現(xiàn)和應(yīng)用場景的不同,數(shù)據(jù)脫敏產(chǎn)品可以分為靜態(tài)數(shù)據(jù)脫敏產(chǎn)品和動態(tài)數(shù)據(jù)脫敏產(chǎn)品。
靜態(tài)數(shù)據(jù)脫敏,一般是在非實時訪問數(shù)據(jù)時進行脫敏處理,常用于將脫敏數(shù)據(jù)分發(fā)到測試、開發(fā)、培訓(xùn)、分析或外部第三方等場景[4],如圖1所示。
動態(tài)數(shù)據(jù)脫敏,一般是在實時訪問生產(chǎn)環(huán)境的數(shù)據(jù)時進行脫敏處理,可針對不同的應(yīng)用或者運維人員等進行不同的脫敏展示,如圖2所示。
(二)數(shù)據(jù)脫敏產(chǎn)品部署使用流程
數(shù)據(jù)脫敏產(chǎn)品部署使用的流程,主要可分為以下內(nèi)容:
1.產(chǎn)品部署
靜態(tài)數(shù)據(jù)脫敏產(chǎn)品一般采用旁路方式部署,將產(chǎn)品部署在生產(chǎn)環(huán)境和測試、開發(fā)等共享環(huán)境之間,對生產(chǎn)數(shù)據(jù)進行抽取和脫敏,并將脫敏數(shù)據(jù)輸出到需要使用的其他環(huán)境中。
動態(tài)數(shù)據(jù)脫敏產(chǎn)品一般采用串聯(lián)方式部署,包括物理串聯(lián)或者物理旁路、邏輯串聯(lián),所有訪問數(shù)據(jù)庫的流量先經(jīng)過脫敏產(chǎn)品再到數(shù)據(jù)庫,實時動態(tài)進行敏感數(shù)據(jù)脫敏。
2.數(shù)據(jù)源
進行數(shù)據(jù)脫敏,首先需要明確脫敏的數(shù)據(jù)源,即數(shù)據(jù)脫敏對象。通過配置數(shù)據(jù)源連接信息或?qū)霐?shù)據(jù)源文件,使得數(shù)據(jù)脫敏產(chǎn)品可以獲取需要進行脫敏的原始數(shù)據(jù)。
3.敏感數(shù)據(jù)識別
獲取到原始數(shù)據(jù)后,其中可能包含了敏感數(shù)據(jù)以及普通的非敏感數(shù)據(jù),由于數(shù)據(jù)脫敏針對的是敏感數(shù)據(jù),且后續(xù)需要根據(jù)敏感數(shù)據(jù)的不同類型設(shè)置不同的脫敏方式,因此,需要能識別出疑似敏感的數(shù)據(jù)以及相應(yīng)的數(shù)據(jù)類型。
4.數(shù)據(jù)脫敏
針對敏感數(shù)據(jù),需要設(shè)置相應(yīng)的脫敏算法及策略,并執(zhí)行數(shù)據(jù)脫敏,將脫敏后的數(shù)據(jù)輸出到目標(biāo)位置或?qū)崟r展示。
根據(jù)對數(shù)據(jù)脫敏產(chǎn)品類型以及部署使用流程的分析,將對測試數(shù)據(jù)脫敏產(chǎn)品時各環(huán)節(jié)主要需要關(guān)注的內(nèi)容進行分析梳理。
(一)部署方式
靜態(tài)數(shù)據(jù)脫敏由于一般旁路部署對數(shù)據(jù)進行離線脫敏,相當(dāng)于先脫敏后使用,所以一般對產(chǎn)品的高可用性沒有較高要求。
但是動態(tài)數(shù)據(jù)脫敏由于一般采用串聯(lián)方式部署(物理或邏輯串聯(lián)),所有的訪問都需要先到脫敏產(chǎn)品上,再到訪問的數(shù)據(jù)端,所以一旦數(shù)據(jù)脫敏產(chǎn)品出現(xiàn)故障,那必然會導(dǎo)致訪問失敗。因此,對于動態(tài)數(shù)據(jù)脫敏產(chǎn)品,測試時需要著重關(guān)注一下是否支持冗余部署,從而保證業(yè)務(wù)的連續(xù)性。
(二)數(shù)據(jù)源類型
隨著大數(shù)據(jù)技術(shù)的發(fā)展,當(dāng)前數(shù)據(jù)存儲的方式、類型豐富多彩。按照結(jié)構(gòu)化程度區(qū)分,數(shù)據(jù)源可以分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)[5];按照數(shù)據(jù)存儲方式區(qū)分,數(shù)據(jù)源可以分為數(shù)據(jù)庫數(shù)據(jù)、文件數(shù)據(jù)等。此外,數(shù)據(jù)庫按照模型區(qū)分還可以分為關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫;按照類型區(qū)分還可以分為國際主流數(shù)據(jù)庫、國產(chǎn)數(shù)據(jù)庫等。為了保證數(shù)據(jù)脫敏產(chǎn)品更多場景的應(yīng)用,測試時需要著重關(guān)注是否對于常見的數(shù)據(jù)源都能支持連接或?qū)?。常見的?shù)據(jù)源分類舉例如表1所示。
(三)敏感數(shù)據(jù)發(fā)現(xiàn)
敏感數(shù)據(jù),是指泄漏后可能會給個人或社會帶來嚴(yán)重影響和危害的數(shù)據(jù)。針對個人來說,比如姓名、身份證號、手機號、地址、郵箱、銀行卡號、教育信息等屬于敏感數(shù)據(jù),針對企業(yè)或機構(gòu)來說,比如企業(yè)機構(gòu)代碼等基本信息、財務(wù)信息、客戶信息、技術(shù)信息等屬于敏感數(shù)據(jù),如果泄露可能會對個人和企業(yè)機構(gòu)的經(jīng)濟財產(chǎn)、安全等方面帶來風(fēng)險。在進行數(shù)據(jù)脫敏前,需要首先能夠配置規(guī)則自動發(fā)現(xiàn)數(shù)據(jù)源中的敏感數(shù)據(jù)。因此,在測試時需要關(guān)注:一方面,產(chǎn)品是否支持內(nèi)置的常見敏感數(shù)據(jù)類型,包括前面提到的姓名、手機號、身份證等等,方便用戶直接選擇配置;另一方面,對于不常見的敏感數(shù)據(jù)類型,是否支持自定義設(shè)置,比如通過正則表達式等方式,保證發(fā)現(xiàn)規(guī)則能覆蓋所需的各類敏感數(shù)據(jù)。
(四)數(shù)據(jù)脫敏
在發(fā)現(xiàn)識別出敏感數(shù)據(jù)的基礎(chǔ)上,便可以根據(jù)實際需求進行脫敏設(shè)置,使敏感數(shù)據(jù)在保證可用性、關(guān)聯(lián)性的前提下達到數(shù)據(jù)失真的目的。數(shù)據(jù)脫敏過程中主要有3個環(huán)節(jié)需要著重關(guān)注:選擇合適的脫敏算法、設(shè)置所需的脫敏策略、存儲或展示正確的脫敏結(jié)果。
1.脫敏算法
脫敏算法的選擇和應(yīng)用是數(shù)據(jù)脫敏過程中的核心問題。常見的脫敏算法包括替換、屏蔽、截斷、仿真、混淆、加密等等,在測試時需要關(guān)注產(chǎn)品是否內(nèi)置了常見的脫敏算法,方便用戶針對不同場景、不同數(shù)據(jù)類型可選擇不同的脫敏方式。此外,除了常規(guī)的脫敏方式,在一些特殊場景可能需要定制化的脫敏算法,為了能滿足對應(yīng)需求,測試時還需關(guān)注產(chǎn)品是否支持自定義數(shù)據(jù)脫敏算法,如通過設(shè)置參數(shù)或通過編寫函數(shù)等方式實現(xiàn)更多樣的脫敏效果。
2.脫敏策略
除了選擇合適的脫敏算法,在進行數(shù)據(jù)脫敏測試過程中,還需要關(guān)注另外幾點脫敏策略設(shè)置的情況。
對于靜態(tài)數(shù)據(jù)脫敏產(chǎn)品,一般是根據(jù)使用方的需求獲取所需的源數(shù)據(jù),脫敏后提供給使用方,因此,針對不同的使用需求所需的數(shù)據(jù)范圍可能會有所不同,比如僅需要數(shù)據(jù)庫中某張表、某張表的某幾列字段、某張表的部分行數(shù)據(jù)等等,所以需要關(guān)注產(chǎn)品是否具備抽取數(shù)據(jù)子集的功能,能夠根據(jù)用戶要求設(shè)置抽取規(guī)則創(chuàng)建原始數(shù)據(jù)的子集數(shù)據(jù)。此外,在如今大數(shù)據(jù)持續(xù)爆發(fā)性增長的時代,許多業(yè)務(wù)系統(tǒng)每天都會新產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),在針對這些數(shù)據(jù)進行脫敏時,為了提高效率,需要關(guān)注產(chǎn)品是否具備增量數(shù)據(jù)脫敏的能力,能夠識別增量的數(shù)據(jù)并僅抽取該部分?jǐn)?shù)據(jù)進行脫敏[6]。
對于動態(tài)數(shù)據(jù)脫敏產(chǎn)品,一般是在應(yīng)用程序或運維人員實時訪問業(yè)務(wù)數(shù)據(jù)時進行脫敏,對于不同應(yīng)用程序、運維人員,其具有的數(shù)據(jù)權(quán)限會有所不同,因此需要關(guān)注產(chǎn)品是否能夠設(shè)置動態(tài)脫敏策略的生效條件,針對客戶端IP、用戶身份、訪問時間等進行設(shè)置,達到讓不同訪問者看到不同數(shù)據(jù)信息的目的。
3.脫敏結(jié)果
根據(jù)匹配的脫敏策略進行數(shù)據(jù)脫敏后,靜態(tài)數(shù)據(jù)脫敏產(chǎn)品會將脫敏結(jié)果進行存儲供使用方獲取,動態(tài)數(shù)據(jù)脫敏產(chǎn)品則將脫敏結(jié)果實時返回給用戶。在測試時,除了需要對照脫敏策略確認脫敏結(jié)果的正確性外,還有一點需要著重關(guān)注,當(dāng)進行脫敏的原始表字段之間存在關(guān)聯(lián)關(guān)系時,脫敏結(jié)果是否能夠保持同樣的關(guān)聯(lián)關(guān)系,比如主外鍵、索引等,從而保證脫敏數(shù)據(jù)的可用性。此外,針對靜態(tài)數(shù)據(jù)脫敏產(chǎn)品,由于其脫敏結(jié)果需要存儲到指定目標(biāo)位置,為了滿足多樣化數(shù)據(jù)文件類型的需求,需要關(guān)注產(chǎn)品是否能夠支持多種數(shù)據(jù)分發(fā)形式,如源數(shù)據(jù)庫到目標(biāo)數(shù)據(jù)庫、源數(shù)據(jù)庫到目標(biāo)文件、源文件到目標(biāo)數(shù)據(jù)庫、源文件到目標(biāo)文件等。
隨著《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個人信息保護法》等法律法規(guī)的出臺,國家對于數(shù)據(jù)安全越來越重視,企事業(yè)單位等也在不斷尋求更有效的產(chǎn)品幫助自己提升數(shù)據(jù)的安全性,數(shù)據(jù)脫敏產(chǎn)品能夠幫助各單位實現(xiàn)在不泄露敏感數(shù)據(jù)的前提下達到數(shù)據(jù)可用性、共享性的最大化利用,具有較為廣闊的應(yīng)用前景。本文通過對數(shù)據(jù)脫敏產(chǎn)品分類、部署使用流程進行梳理,分析了在測試數(shù)據(jù)脫敏產(chǎn)品時需要著重關(guān)注的地方,為數(shù)據(jù)脫敏產(chǎn)品開發(fā)單位測試產(chǎn)品以及用戶單位選擇產(chǎn)品等提供參考。