基于分類分級的數(shù)據(jù)安全防控策略研究

2023-03-04 06:21:38周成祖吳文蔡曉強

數(shù)據(jù)與計算發(fā)展前沿 2023年1期

周成祖，吳文，蔡曉強

廈門市美亞柏科信息股份有限公司，福建廈門 361000

關(guān)鍵字：大數(shù)據(jù)；數(shù)據(jù)分類分級；數(shù)據(jù)安全；動態(tài)授權(quán)

引言

大數(shù)據(jù)時代下的數(shù)據(jù)融合、流通、共享是必然趨勢，海量數(shù)據(jù)分析在現(xiàn)代研究中的需求越來越突出[1]，而分析過程中不可避免地會有不同敏感級別的數(shù)據(jù)共存，數(shù)據(jù)分類分級管理是數(shù)據(jù)實現(xiàn)共享和開放最基礎(chǔ)的工作[2]。2021年6月10日，《中華人民共和國數(shù)據(jù)安全法》正式通過，數(shù)據(jù)分類分級保護制度成為國家數(shù)據(jù)安全與數(shù)字經(jīng)濟發(fā)展的重要基石。自國家實施大數(shù)據(jù)戰(zhàn)略以來，各領(lǐng)域的分類分級地方或行業(yè)標準相繼發(fā)布。如貴州省地方標準《政府數(shù)據(jù)：數(shù)據(jù)分類分級指南》、中華人民共和國金融行業(yè)標準《證券期貨業(yè)數(shù)據(jù)分類分級指引》、《工業(yè)數(shù)據(jù)分類分級指南（試行）》[3-5]等,都對不同行業(yè)的數(shù)據(jù)分類分級提出了指導(dǎo)意見。本文針對大數(shù)據(jù)提出多維度、多層次的分類分級意見，根據(jù)受侵害客體與受侵害程度兩大要素，展開數(shù)據(jù)安全級別的定級工作，構(gòu)建數(shù)據(jù)安全防控模型。

1 多維度多層次的分類分級策略

數(shù)據(jù)分類分級是通過描述數(shù)據(jù)的多維度特征和內(nèi)容敏感程度，為制定數(shù)據(jù)資源的開放和共享策略提供支撐。大數(shù)據(jù)涵蓋領(lǐng)域的多樣性決定了大數(shù)據(jù)的分類分級必須是多維度、多層次的模式。數(shù)據(jù)分類可按照數(shù)據(jù)來源、數(shù)據(jù)內(nèi)容、字段類別、字段關(guān)系等不同維度對數(shù)據(jù)進行類別上的區(qū)分，數(shù)據(jù)分級可根據(jù)數(shù)據(jù)信息涉及敏感內(nèi)容程度不同做出相應(yīng)等級的限制。

1.1 數(shù)據(jù)分類方法

數(shù)據(jù)分類主要是按照數(shù)據(jù)的屬性特征，對數(shù)據(jù)進行類別的劃分。在進行數(shù)據(jù)分類時可采用線面結(jié)合的分類方式，以多維度和多層級的方式進行類別的劃分。

從數(shù)據(jù)分類的對象來看，可對數(shù)據(jù)資源、字段和字段之間的關(guān)系進行分類。

1.1.1 數(shù)據(jù)資源分類

數(shù)據(jù)資源分類可從數(shù)據(jù)來源、數(shù)據(jù)組織形式、數(shù)據(jù)內(nèi)容三個維度進行。

不同來源類型的數(shù)據(jù)，其敏感程度及數(shù)據(jù)的歸屬權(quán)可能不一樣，在服務(wù)階段亦可能需要面向不同用戶進行開放?？剂繑?shù)據(jù)來源，可按照數(shù)據(jù)的來源地市、提供部門等不同維度進行劃分。

數(shù)據(jù)從產(chǎn)生到投入應(yīng)用，必然經(jīng)過清洗、提取、模型分析、統(tǒng)計等加工流程，數(shù)據(jù)的價值密度會逐級提升，并基于數(shù)據(jù)之間的關(guān)系，衍生出增值數(shù)據(jù)，這意味著不同組織形式的數(shù)據(jù)具備不同的特性。

根據(jù)數(shù)據(jù)的內(nèi)容，可從主題對象、行業(yè)領(lǐng)域、社會行為等角度進行劃分。從數(shù)據(jù)的主題對象來看，包括人、地、事、物、組織等；從行業(yè)領(lǐng)域來看，又可分為農(nóng)業(yè)、金融業(yè)、教育業(yè)、工業(yè)、服務(wù)業(yè)等；從社會行為來看，又包括企業(yè)管理、社會服務(wù)、社會管理等。

1.1.2 字段分類

以字段為粒度對數(shù)據(jù)資源進行分類，需要分析字段所包含的數(shù)據(jù)內(nèi)容可能涉及的信息。

《GBT 35273-2020 個人信息安全規(guī)范》[6]對刻畫人的信息進行了字段的分類，這是一個啟發(fā)，意味著在字段層面可根據(jù)主題對象進行大類的劃分，包括人、物、組織、地、虛擬對象等。在描述對象時，又可分為標識類信息和特征類信息。標識類信息包括身份證號碼、車牌號、統(tǒng)一社會信用代碼、虛擬身份賬號等，特征類信息包括姓名、年齡、車身顏色、組織規(guī)模、虛擬身份昵稱等。從廣義上說，事件、系統(tǒng)、行為，乃至對象之間的關(guān)系也是對象，也可以進行標識和特征描述。

1.1.3 字段關(guān)系分類

字段關(guān)系會以兩種形式體現(xiàn)：

（1）一個字段由復(fù)數(shù)個字段組成，如身份證號碼包括了出生地（行政區(qū)劃代碼）、出生年月和性別信息，收件地址由省市縣名稱、街道社區(qū)和門牌樓號組成；

（2）兩個字段構(gòu)成了推導(dǎo)關(guān)系，超過了單個字段攜帶的信息量。例如身份證號碼與銀行卡號的資產(chǎn)持有關(guān)系，手機號碼與虛擬賬號的綁定關(guān)系。

對以上兩種形式的字段關(guān)系，成熟的體系都應(yīng)當進行授權(quán)層面上的管理。

1.2 數(shù)據(jù)分級方法

數(shù)據(jù)分類主要是按照數(shù)據(jù)的自身特性進行類別上的劃分，遵循“是什么就是什么”的原則，主觀因素層面較少。相對的，數(shù)據(jù)分級通常是根據(jù)數(shù)據(jù)信息攜帶敏感內(nèi)容程度不同而劃分為不同的級別，以便對不同級別的數(shù)據(jù)實行有針對性保護，因此存在一定的主觀因素。

從數(shù)據(jù)分級的對象來看，可對數(shù)據(jù)資源、字段和單條數(shù)據(jù)記錄進行分級。

1.2.1 數(shù)據(jù)資源分級

資源的分級是將數(shù)據(jù)獲取手段的隱蔽性、來源的特殊性、內(nèi)容的敏感程度作為數(shù)據(jù)資源分級的依據(jù)。例如，數(shù)據(jù)資源作為數(shù)據(jù)挖掘的對象，需要關(guān)注三個隱私問題：涉及用戶隱私、涉及商業(yè)機密和涉及國家安全[7]；這對應(yīng)于不同的敏感程度：公開數(shù)據(jù)（不涉及隱私）、內(nèi)部數(shù)據(jù)（涉及個人隱私）、涉密數(shù)據(jù)（涉及商業(yè)機密）和絕密數(shù)據(jù)（涉及國家安全）。再如，《GB/T 39725-2020 信息安全技術(shù) 健康醫(yī)療數(shù)據(jù)安全指南》[8]依據(jù)數(shù)據(jù)資源可供使用的范圍大小，將數(shù)據(jù)分為5 個級別，其中1 級為完全可公開使用，5 級為僅在極小范圍內(nèi)并在嚴格限制條件下可使用的數(shù)據(jù)。

1.2.2 字段分級

對于字段的分級通常是以字段分類為前提，分析字段泄露所造成的“后果”對字段進行分級。例如，《JRT 0197-2020 金融數(shù)據(jù)安全數(shù)據(jù)安全分級指南》在完成字段分類的基礎(chǔ)上，綜合考慮實際應(yīng)用過程中數(shù)據(jù)的類型、特性以及規(guī)模，將字段分類映射到安全級別上，作為數(shù)據(jù)防控工程的最低安全級別參考[9]。

1.2.3 數(shù)據(jù)記錄分級

在海量數(shù)據(jù)中，可能會出現(xiàn)觸及敏感內(nèi)容的數(shù)據(jù)記錄。例如國家領(lǐng)導(dǎo)人的基本身份信息，軍事建筑或重要機構(gòu)的地理位置信息。此類信息無法通過分類枚舉的方式進行歸納，通常采取紅名單形式單獨建庫并定義所有敏感記錄的分級規(guī)則。在數(shù)據(jù)治理過程中按照預(yù)定的策略掃描數(shù)據(jù)池，標記匹配到紅名單的記錄并賦予更高的分級。當一條記錄與復(fù)數(shù)敏感規(guī)則匹配時，優(yōu)先選擇最高級別。顯然，紅名單自身也具備相當高的敏感度。

2 基于分類分級的數(shù)據(jù)安全級別設(shè)計

2.1 數(shù)據(jù)安全級別定義

通常數(shù)據(jù)分類分級都是從元數(shù)據(jù)層面進行設(shè)置，控制主數(shù)據(jù)的使用。事實上，除分類與分級外，時間、業(yè)務(wù)、數(shù)據(jù)狀態(tài)或資源規(guī)模等諸多因素都會改變數(shù)據(jù)的敏感度，這些信息未在現(xiàn)有的分類分級系統(tǒng)中體現(xiàn)。這就需要在分類分級的結(jié)果上，動態(tài)判定數(shù)據(jù)的最終定級，以滿足不同場景的業(yè)務(wù)使用需求。在此為區(qū)別于數(shù)據(jù)分級概念，將數(shù)據(jù)的最終級別定義為數(shù)據(jù)安全級別。

參照《中華人民共和國數(shù)據(jù)安全法》第21 條規(guī)定，本文將數(shù)據(jù)安全級別定義為：數(shù)據(jù)對于國家安全、社會穩(wěn)定、組織利益和公民安全的重要程度，以及一旦遭到濫用、泄露、丟失后，以對黨政機關(guān)、公共服務(wù)機構(gòu)、其他機構(gòu)組織以及公民和法人的合法權(quán)益造成的侵害程度來確定的級別。

2.2 數(shù)據(jù)安全級別定級原則

參照《JRT 0197-2020 金融數(shù)據(jù)安全數(shù)據(jù)安全分級指南》對數(shù)據(jù)安全定級的刻畫，本文將數(shù)據(jù)安全級別劃分為從低至高8 個等級,見表1。

表1 數(shù)據(jù)安全級別Table 1 Data security protection level

同時，根據(jù)《中華人民共和國數(shù)據(jù)安全法》第21 條規(guī)定，本文選擇受侵害的客體與對客體的侵害程度作為數(shù)據(jù)安全級別的定級要素，不同受侵害客體與受侵害程度的安全級別劃分見表2。

表2 定級要素與數(shù)據(jù)安全級別的關(guān)系Table 2 The relationship between grading elements and data security protection level

其中，關(guān)于受侵害客體的定義有如下依據(jù)：

（1）依據(jù)《中華人民共和國國家安全法(2015)》第2 條，當國家政權(quán)、主權(quán)、領(lǐng)土完整、人民福祉、經(jīng)濟社會和其他重大國家利益可能受到侵害時，受侵害客體定義為國家安全；

（2）依據(jù)2011年國務(wù)院正式出臺的《國有土地上房屋征收與補償條例》對“公共利益”的舉例，當政府組織的生產(chǎn)經(jīng)營、科技教育、醫(yī)療衛(wèi)生、公共交通等社會基礎(chǔ)設(shè)施建設(shè)或社會秩序建設(shè)可能受到侵害時，受侵害客體定義為社會秩序或公共利益；

（3）依據(jù)《社會組織登記管理條例》與《企業(yè)法》等其他經(jīng)濟組織相關(guān)法律的規(guī)定，當社會團體、基金會、社會服務(wù)機構(gòu)等社會組織或公司、企業(yè)、個人獨資企業(yè)等經(jīng)濟組織的合法權(quán)益可能受到侵害時，受侵害客體定義為法人和組織；

（4）依據(jù)《中華人民共和國民法典》對隱私權(quán)與個人信息的描述，當自然人的私人生活安寧和不愿為他人知曉的私密空間、私密活動、私密信息，以及能夠單獨或與其他信息結(jié)合識別特定自然人的各種信息可能受到侵害時，受侵害客體定義為公民或個人。

另一方面，《JRT 0197-2020 金融數(shù)據(jù)安全：數(shù)據(jù)安全分級指南》對受侵害程度的界定有如下描述：

（1）當受侵害客體是公民時，依賴于泄露個人隱私的敏感程度、危害個人權(quán)益的程度。

（2）當受侵害客體是法人和其他組織時，依賴于損害法人或組織的經(jīng)濟利益、聲譽的程度，以及干擾其正常運營的程度。

（3）當受侵害客體是社會秩序、公共利益時，依賴于對社會秩序的破壞程度。

（4）當受侵害客體是國家安全時，依賴于對國家造成的損失。

2.3 基于分類分級的數(shù)據(jù)安全級別定級

受侵害客體與侵害程度都是定性的結(jié)果，無法進行量化計算，通?；跀?shù)據(jù)的分類分級信息，結(jié)合2.2 節(jié)所述受侵害客體與受侵害程度的相關(guān)依據(jù)進行界定，并查詢表2得到最終的安全級別。

對應(yīng)于資源、字段、記錄和字段關(guān)系，可分別適配以下數(shù)據(jù)安全級別定級策略：

（1）對于資源，從資源的分類和分級出發(fā)，分析兩個定級要素，決定數(shù)據(jù)安全級別。

示例：以常住人口信息資源為例，其主體對象分類為人員，受侵害客體隨之界定為公民。由于涉及了公民的身份、住所等一般隱私信息，受侵害程度隨之界定為一般，查詢表2可知其數(shù)據(jù)安全級別為3。

（2）對于字段，可從數(shù)據(jù)元層面定義每個數(shù)據(jù)元的分類分級，基于此建立字段與安全級別的映射關(guān)系。

示例：從標識類字段（身份證號碼）映射到受侵害客體（人），從特征類字段（性別、病史）映射到受侵害程度（輕微、嚴重），最終得到數(shù)據(jù)安全級別（2、6）。

（3）對于記錄，優(yōu)先繼承資源的數(shù)據(jù)安全級別。

示例：常住人口表的安全級別為4，其每一條完整數(shù)據(jù)記錄的安全級別亦為4。

（4）對于字段關(guān)系，可根據(jù)1.1.3 中的兩種情形分別處理：

①一個字段由復(fù)數(shù)個字段組成，此時可為每個組成字段分配映射的數(shù)據(jù)安全級別；

示例：身份證號碼的組成部分出生日期（輕微侵害）與出生地行政區(qū)劃代碼（無侵害）的安全級別分別為2 和1。

②兩個字段構(gòu)成了推導(dǎo)關(guān)系，此時可依據(jù)就高從嚴原則進行定級。

示例：身份證號（安全級別為3）與基因檢測編號（安全級別為6）構(gòu)成推導(dǎo)關(guān)系，此關(guān)系的安全級別取高值為6，當用戶的權(quán)限低于此級別時，不同時返回兩個字段。

3 基于分類分級的大數(shù)據(jù)安全防控模型設(shè)計

大數(shù)據(jù)平臺的安全防護大多數(shù)是基于單點或單面防護，對數(shù)據(jù)整體框架結(jié)構(gòu)安全的防護尚且考慮不足[10]。本文基于數(shù)據(jù)分類分級和數(shù)據(jù)安全級別，設(shè)計了如圖1的大數(shù)據(jù)安全防控模型。

如圖1所示，本文所述大數(shù)據(jù)安全防控模型，包含四個子策略，當用戶向數(shù)據(jù)發(fā)出訪問請求時：

圖1 大數(shù)據(jù)安全防控模型框架圖Fig.1 Framework diagram of big data security prevention and control model

（1）鑒權(quán)系統(tǒng)收集用戶的類別與權(quán)限信息，與數(shù)據(jù)的分類與分級信息進行比對，符合要求的數(shù)據(jù)直接返回，是為靜態(tài)授權(quán)策略；

（2）在數(shù)據(jù)側(cè)，基于數(shù)據(jù)的分類分級信息，結(jié)合當前時間、規(guī)模、狀態(tài)等實時因素，動態(tài)調(diào)節(jié)數(shù)據(jù)的安全級別，是為數(shù)據(jù)安全級別的動態(tài)控制策略；

（3）在靜態(tài)授權(quán)策略的基礎(chǔ)上，鑒權(quán)系統(tǒng)收集用戶的訪問環(huán)境與操作內(nèi)容信息，并與數(shù)據(jù)的安全級別進行綜合評定、鑒權(quán)，是為動態(tài)授權(quán)策略；

（4）接收動態(tài)授權(quán)策略的鑒權(quán)結(jié)果，結(jié)合數(shù)據(jù)安全級別對字段進行脫敏處理，是為數(shù)據(jù)脫敏策略。

3.1 基于數(shù)據(jù)分類分級的靜態(tài)授權(quán)策略

基于資源、字段、字段關(guān)系的分類分級，設(shè)計數(shù)據(jù)的授權(quán)策略：

（1）對于資源，當用戶不具備相應(yīng)類別或級別的資源權(quán)限時，不返回數(shù)據(jù)資源；

（2）對于字段，當用戶不具備相應(yīng)類別或級別的字段權(quán)限時，不返回字段；

（3）對于字段關(guān)系，當用戶不具備相應(yīng)字段關(guān)系的權(quán)限時，根據(jù)其操作目的，分為以下兩種情形：

①可見不可用，即單獨返回構(gòu)成字段關(guān)系的組成內(nèi)容而非同時返回，無法建立要素之間的關(guān)聯(lián)關(guān)系，也就無法進行其他分析運算；

②可用不可見，即給予用戶對構(gòu)成關(guān)系的字段的使用權(quán)限，返回要素的關(guān)聯(lián)關(guān)系，但不予展示或可視化。

3.2 數(shù)據(jù)安全級別的動態(tài)控制策略

數(shù)據(jù)安全級別不是一成不變的，會隨著時間、業(yè)務(wù)、規(guī)模和數(shù)據(jù)開放狀態(tài)等因素動態(tài)變化。

在資源層面上的動態(tài)影響因素主要有3 個：業(yè)務(wù)狀態(tài)、時效、資源規(guī)模：

（1）業(yè)務(wù)狀態(tài)：在特定事件后，數(shù)據(jù)安全級別可能發(fā)生改變，如行業(yè)標準文檔的起草、評審到最終發(fā)布，文件內(nèi)容會逐漸公開化；

（2）時效：在一定時間后，數(shù)據(jù)安全級別可能發(fā)生改變?；ヂ?lián)網(wǎng)數(shù)據(jù)作為典型案例，具有時效性短的特性；

（3）資源規(guī)模：當數(shù)據(jù)資源達到一定規(guī)模時，數(shù)據(jù)安全級別可能發(fā)生改變?？上攵?，依靠億萬級的平臺打的或車輛導(dǎo)航數(shù)據(jù)，能夠繪制出高分辨率的全國交通路線圖，甚至精確定位重要的單位機構(gòu)，此時的受侵害客體或?qū)⑥D(zhuǎn)變?yōu)閲野踩?/p>

字段層面的動態(tài)影響因素主要有兩個：是否經(jīng)過脫敏處理，是否是回填字段、標簽字段或統(tǒng)計字段。通常當數(shù)據(jù)經(jīng)過脫敏后，其安全級別會隨之降低。如果字段并非來源數(shù)據(jù)，而是經(jīng)過數(shù)據(jù)融合、治理得到的回填、打標簽或統(tǒng)計信息，這些字段體現(xiàn)了更高的數(shù)據(jù)價值，也伴隨著更高的敏感度。

記錄層面更多的是根據(jù)紅名單的規(guī)則進行動態(tài)調(diào)整，字段關(guān)系層面可根據(jù)構(gòu)成關(guān)系的字段的數(shù)據(jù)安全級別設(shè)計動態(tài)控制規(guī)則。

3.3 基于數(shù)據(jù)安全級別的動態(tài)授權(quán)策略

傳統(tǒng)的授權(quán)是靜態(tài)的，粗粒度的，且授權(quán)過程僅發(fā)生在首次訪問資源節(jié)點，完成后就不再進行控制，無法滿足動態(tài)、精細化的訪問控制需求。

對數(shù)據(jù)的訪問涉及到四個因素：訪問用戶、訪問環(huán)境、被訪問資源和操作內(nèi)容。不同的訪問用戶擁有各自的角色信息[11-12]與預(yù)設(shè)的訪問權(quán)限級別，角色信息決定了用戶可訪問哪些類別的數(shù)據(jù)資源。訪問的權(quán)限受環(huán)境因素影響，包括訪問主體所處的網(wǎng)絡(luò)環(huán)境、時空環(huán)境、硬件環(huán)境、后臺應(yīng)用環(huán)境。被訪問的資源具有預(yù)設(shè)的分類分級信息，以及依托于時間、規(guī)模、業(yè)務(wù)狀態(tài)而動態(tài)控制的數(shù)據(jù)安全級別。不同的操作內(nèi)容，根據(jù)其可能造成的結(jié)果也影響了本次訪問的權(quán)限研判。

3.4 基于數(shù)據(jù)安全級別的數(shù)據(jù)脫敏策略

當用戶能夠查看特定資源的數(shù)據(jù)時，其中的高敏感字段、記錄的信息脫敏就至關(guān)重要?？梢罁?jù)數(shù)據(jù)安全級別，在字段、記錄、字段關(guān)系的層面上進行脫敏。

（1）對于字段，當用戶的權(quán)限級別低于字段的安全級別時，對這些字段的數(shù)據(jù)進行脫敏處理；

（2）對于記錄，當用戶的權(quán)限級別低于敏感記錄的安全級別時，將一整行的記錄脫敏后展示或不返回；

（3）對于字段關(guān)系，分以下兩種情形：

①一個字段由復(fù)數(shù)個字段組成，對高于用戶權(quán)限的組成字段進行脫敏；

②兩個字段構(gòu)成了推導(dǎo)關(guān)系，至少對其中一個字段進行脫敏。

4 結(jié)束語

對所有數(shù)據(jù)“一視同仁”的傳統(tǒng)處理模式無法適應(yīng)大數(shù)據(jù)時代的管理需求，傳統(tǒng)的分類分級策略缺乏對數(shù)據(jù)多維度多層次的安全控制。本文從數(shù)據(jù)資源、字段、字段關(guān)系出發(fā)對數(shù)據(jù)進行分類，從數(shù)據(jù)資源、字段、記錄出發(fā)進行分級。另一方面，基于分類分級，以相關(guān)法律法規(guī)、標準規(guī)范為依據(jù)，獲得最終的數(shù)據(jù)安全級別，并基于此設(shè)計由靜態(tài)授權(quán)策略、數(shù)據(jù)安全級別的動態(tài)控制策略、動態(tài)授權(quán)策略和數(shù)據(jù)脫敏策略構(gòu)成的大數(shù)據(jù)安全防控模型，滿足數(shù)據(jù)工程在治理、組織、服務(wù)和應(yīng)用過程中的需求，確保數(shù)據(jù)的安全性。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡