周成祖,吳文,蔡曉強
廈門市美亞柏科信息股份有限公司,福建 廈門 361000
關(guān)鍵字:大數(shù)據(jù);數(shù)據(jù)分類分級;數(shù)據(jù)安全;動態(tài)授權(quán)
大數(shù)據(jù)時代下的數(shù)據(jù)融合、流通、共享是必然趨勢,海量數(shù)據(jù)分析在現(xiàn)代研究中的需求越來越突出[1],而分析過程中不可避免地會有不同敏感級別的數(shù)據(jù)共存,數(shù)據(jù)分類分級管理是數(shù)據(jù)實現(xiàn)共享和開放最基礎(chǔ)的工作[2]。2021年6月10日,《中華人民共和國數(shù)據(jù)安全法》正式通過,數(shù)據(jù)分類分級保護制度成為國家數(shù)據(jù)安全與數(shù)字經(jīng)濟發(fā)展的重要基石。自國家實施大數(shù)據(jù)戰(zhàn)略以來,各領(lǐng)域的分類分級地方或行業(yè)標準相繼發(fā)布。如貴州省地方標準《政府數(shù)據(jù):數(shù)據(jù)分類分級指南》、中華人民共和國金融行業(yè)標準《證券期貨業(yè)數(shù)據(jù)分類分級指引》、《工業(yè)數(shù)據(jù)分類分級指南(試行)》[3-5]等,都對不同行業(yè)的數(shù)據(jù)分類分級提出了指導(dǎo)意見。本文針對大數(shù)據(jù)提出多維度、多層次的分類分級意見,根據(jù)受侵害客體與受侵害程度兩大要素,展開數(shù)據(jù)安全級別的定級工作,構(gòu)建數(shù)據(jù)安全防控模型。
數(shù)據(jù)分類分級是通過描述數(shù)據(jù)的多維度特征和內(nèi)容敏感程度,為制定數(shù)據(jù)資源的開放和共享策略提供支撐。大數(shù)據(jù)涵蓋領(lǐng)域的多樣性決定了大數(shù)據(jù)的分類分級必須是多維度、多層次的模式。數(shù)據(jù)分類可按照數(shù)據(jù)來源、數(shù)據(jù)內(nèi)容、字段類別、字段關(guān)系等不同維度對數(shù)據(jù)進行類別上的區(qū)分,數(shù)據(jù)分級可根據(jù)數(shù)據(jù)信息涉及敏感內(nèi)容程度不同做出相應(yīng)等級的限制。
數(shù)據(jù)分類主要是按照數(shù)據(jù)的屬性特征,對數(shù)據(jù)進行類別的劃分。在進行數(shù)據(jù)分類時可采用線面結(jié)合的分類方式,以多維度和多層級的方式進行類別的劃分。
從數(shù)據(jù)分類的對象來看,可對數(shù)據(jù)資源、字段和字段之間的關(guān)系進行分類。
1.1.1 數(shù)據(jù)資源分類
數(shù)據(jù)資源分類可從數(shù)據(jù)來源、數(shù)據(jù)組織形式、數(shù)據(jù)內(nèi)容三個維度進行。
不同來源類型的數(shù)據(jù),其敏感程度及數(shù)據(jù)的歸屬權(quán)可能不一樣,在服務(wù)階段亦可能需要面向不同用戶進行開放??剂繑?shù)據(jù)來源,可按照數(shù)據(jù)的來源地市、提供部門等不同維度進行劃分。
數(shù)據(jù)從產(chǎn)生到投入應(yīng)用,必然經(jīng)過清洗、提取、模型分析、統(tǒng)計等加工流程,數(shù)據(jù)的價值密度會逐級提升,并基于數(shù)據(jù)之間的關(guān)系,衍生出增值數(shù)據(jù),這意味著不同組織形式的數(shù)據(jù)具備不同的特性。
根據(jù)數(shù)據(jù)的內(nèi)容,可從主題對象、行業(yè)領(lǐng)域、社會行為等角度進行劃分。從數(shù)據(jù)的主題對象來看,包括人、地、事、物、組織等;從行業(yè)領(lǐng)域來看,又可分為農(nóng)業(yè)、金融業(yè)、教育業(yè)、工業(yè)、服務(wù)業(yè)等;從社會行為來看,又包括企業(yè)管理、社會服務(wù)、社會管理等。
1.1.2 字段分類
以字段為粒度對數(shù)據(jù)資源進行分類,需要分析字段所包含的數(shù)據(jù)內(nèi)容可能涉及的信息。
《GBT 35273-2020 個人信息安全規(guī)范》[6]對刻畫人的信息進行了字段的分類,這是一個啟發(fā),意味著在字段層面可根據(jù)主題對象進行大類的劃分,包括人、物、組織、地、虛擬對象等。在描述對象時,又可分為標識類信息和特征類信息。標識類信息包括身份證號碼、車牌號、統(tǒng)一社會信用代碼、虛擬身份賬號等,特征類信息包括姓名、年齡、車身顏色、組織規(guī)模、虛擬身份昵稱等。從廣義上說,事件、系統(tǒng)、行為,乃至對象之間的關(guān)系也是對象,也可以進行標識和特征描述。
1.1.3 字段關(guān)系分類
字段關(guān)系會以兩種形式體現(xiàn):
(1)一個字段由復(fù)數(shù)個字段組成,如身份證號碼包括了出生地(行政區(qū)劃代碼)、出生年月和性別信息,收件地址由省市縣名稱、街道社區(qū)和門牌樓號組成;
(2)兩個字段構(gòu)成了推導(dǎo)關(guān)系,超過了單個字段攜帶的信息量。例如身份證號碼與銀行卡號的資產(chǎn)持有關(guān)系,手機號碼與虛擬賬號的綁定關(guān)系。
對以上兩種形式的字段關(guān)系,成熟的體系都應(yīng)當進行授權(quán)層面上的管理。
數(shù)據(jù)分類主要是按照數(shù)據(jù)的自身特性進行類別上的劃分,遵循“是什么就是什么”的原則,主觀因素層面較少。相對的,數(shù)據(jù)分級通常是根據(jù)數(shù)據(jù)信息攜帶敏感內(nèi)容程度不同而劃分為不同的級別,以便對不同級別的數(shù)據(jù)實行有針對性保護,因此存在一定的主觀因素。
從數(shù)據(jù)分級的對象來看,可對數(shù)據(jù)資源、字段和單條數(shù)據(jù)記錄進行分級。
1.2.1 數(shù)據(jù)資源分級
資源的分級是將數(shù)據(jù)獲取手段的隱蔽性、來源的特殊性、內(nèi)容的敏感程度作為數(shù)據(jù)資源分級的依據(jù)。例如,數(shù)據(jù)資源作為數(shù)據(jù)挖掘的對象,需要關(guān)注三個隱私問題:涉及用戶隱私、涉及商業(yè)機密和涉及國家安全[7];這對應(yīng)于不同的敏感程度:公開數(shù)據(jù)(不涉及隱私)、內(nèi)部數(shù)據(jù)(涉及個人隱私)、涉密數(shù)據(jù)(涉及商業(yè)機密)和絕密數(shù)據(jù)(涉及國家安全)。再如,《GB/T 39725-2020 信息安全技術(shù) 健康醫(yī)療數(shù)據(jù)安全指南》[8]依據(jù)數(shù)據(jù)資源可供使用的范圍大小,將數(shù)據(jù)分為5 個級別,其中1 級為完全可公開使用,5 級為僅在極小范圍內(nèi)并在嚴格限制條件下可使用的數(shù)據(jù)。
1.2.2 字段分級
對于字段的分級通常是以字段分類為前提,分析字段泄露所造成的“后果”對字段進行分級。例如,《JRT 0197-2020 金融數(shù)據(jù)安全 數(shù)據(jù)安全分級指南》在完成字段分類的基礎(chǔ)上,綜合考慮實際應(yīng)用過程中數(shù)據(jù)的類型、特性以及規(guī)模,將字段分類映射到安全級別上,作為數(shù)據(jù)防控工程的最低安全級別參考[9]。
1.2.3 數(shù)據(jù)記錄分級
在海量數(shù)據(jù)中,可能會出現(xiàn)觸及敏感內(nèi)容的數(shù)據(jù)記錄。例如國家領(lǐng)導(dǎo)人的基本身份信息,軍事建筑或重要機構(gòu)的地理位置信息。此類信息無法通過分類枚舉的方式進行歸納,通常采取紅名單形式單獨建庫并定義所有敏感記錄的分級規(guī)則。在數(shù)據(jù)治理過程中按照預(yù)定的策略掃描數(shù)據(jù)池,標記匹配到紅名單的記錄并賦予更高的分級。當一條記錄與復(fù)數(shù)敏感規(guī)則匹配時,優(yōu)先選擇最高級別。顯然,紅名單自身也具備相當高的敏感度。
通常數(shù)據(jù)分類分級都是從元數(shù)據(jù)層面進行設(shè)置,控制主數(shù)據(jù)的使用。事實上,除分類與分級外,時間、業(yè)務(wù)、數(shù)據(jù)狀態(tài)或資源規(guī)模等諸多因素都會改變數(shù)據(jù)的敏感度,這些信息未在現(xiàn)有的分類分級系統(tǒng)中體現(xiàn)。這就需要在分類分級的結(jié)果上,動態(tài)判定數(shù)據(jù)的最終定級,以滿足不同場景的業(yè)務(wù)使用需求。在此為區(qū)別于數(shù)據(jù)分級概念,將數(shù)據(jù)的最終級別定義為數(shù)據(jù)安全級別。
參照《中華人民共和國數(shù)據(jù)安全法》第21 條規(guī)定,本文將數(shù)據(jù)安全級別定義為:數(shù)據(jù)對于國家安全、社會穩(wěn)定、組織利益和公民安全的重要程度,以及一旦遭到濫用、泄露、丟失后,以對黨政機關(guān)、公共服務(wù)機構(gòu)、其他機構(gòu)組織以及公民和法人的合法權(quán)益造成的侵害程度來確定的級別。
參照《JRT 0197-2020 金融數(shù)據(jù)安全 數(shù)據(jù)安全分級指南》對數(shù)據(jù)安全定級的刻畫,本文將數(shù)據(jù)安全級別劃分為從低至高8 個等級,見表1。
表1 數(shù)據(jù)安全級別Table 1 Data security protection level
同時,根據(jù)《中華人民共和國數(shù)據(jù)安全法》第21 條規(guī)定,本文選擇受侵害的客體與對客體的侵害程度作為數(shù)據(jù)安全級別的定級要素,不同受侵害客體與受侵害程度的安全級別劃分見表2。
表2 定級要素與數(shù)據(jù)安全級別的關(guān)系Table 2 The relationship between grading elements and data security protection level
其中,關(guān)于受侵害客體的定義有如下依據(jù):
(1)依據(jù)《中華人民共和國國家安全法(2015)》第2 條,當國家政權(quán)、主權(quán)、領(lǐng)土完整、人民福祉、經(jīng)濟社會和其他重大國家利益可能受到侵害時,受侵害客體定義為國家安全;
(2)依據(jù)2011年國務(wù)院正式出臺的《國有土地上房屋征收與補償條例》對“公共利益”的舉例,當政府組織的生產(chǎn)經(jīng)營、科技教育、醫(yī)療衛(wèi)生、公共交通等社會基礎(chǔ)設(shè)施建設(shè)或社會秩序建設(shè)可能受到侵害時,受侵害客體定義為社會秩序或公共利益;
(3)依據(jù)《社會組織登記管理條例》與《企業(yè)法》等其他經(jīng)濟組織相關(guān)法律的規(guī)定,當社會團體、基金會、社會服務(wù)機構(gòu)等社會組織或公司、企業(yè)、個人獨資企業(yè)等經(jīng)濟組織的合法權(quán)益可能受到侵害時,受侵害客體定義為法人和組織;
(4)依據(jù)《中華人民共和國民法典》對隱私權(quán)與個人信息的描述,當自然人的私人生活安寧和不愿為他人知曉的私密空間、私密活動、私密信息,以及能夠單獨或與其他信息結(jié)合識別特定自然人的各種信息可能受到侵害時,受侵害客體定義為公民或個人。
另一方面,《JRT 0197-2020 金融數(shù)據(jù)安全:數(shù)據(jù)安全分級指南》對受侵害程度的界定有如下描述:
(1)當受侵害客體是公民時,依賴于泄露個人隱私的敏感程度、危害個人權(quán)益的程度。
(2)當受侵害客體是法人和其他組織時,依賴于損害法人或組織的經(jīng)濟利益、聲譽的程度,以及干擾其正常運營的程度。
(3)當受侵害客體是社會秩序、公共利益時,依賴于對社會秩序的破壞程度。
(4)當受侵害客體是國家安全時,依賴于對國家造成的損失。
受侵害客體與侵害程度都是定性的結(jié)果,無法進行量化計算,通?;跀?shù)據(jù)的分類分級信息,結(jié)合2.2 節(jié)所述受侵害客體與受侵害程度的相關(guān)依據(jù)進行界定,并查詢表2得到最終的安全級別。
對應(yīng)于資源、字段、記錄和字段關(guān)系,可分別適配以下數(shù)據(jù)安全級別定級策略:
(1)對于資源,從資源的分類和分級出發(fā),分析兩個定級要素,決定數(shù)據(jù)安全級別。
示例:以常住人口信息資源為例,其主體對象分類為人員,受侵害客體隨之界定為公民。由于涉及了公民的身份、住所等一般隱私信息,受侵害程度隨之界定為一般,查詢表2可知其數(shù)據(jù)安全級別為3。
(2)對于字段,可從數(shù)據(jù)元層面定義每個數(shù)據(jù)元的分類分級,基于此建立字段與安全級別的映射關(guān)系。
示例:從標識類字段(身份證號碼)映射到受侵害客體(人),從特征類字段(性別、病史)映射到受侵害程度(輕微、嚴重),最終得到數(shù)據(jù)安全級別(2、6)。
(3)對于記錄,優(yōu)先繼承資源的數(shù)據(jù)安全級別。
示例:常住人口表的安全級別為4,其每一條完整數(shù)據(jù)記錄的安全級別亦為4。
(4)對于字段關(guān)系,可根據(jù)1.1.3 中的兩種情形分別處理:
①一個字段由復(fù)數(shù)個字段組成,此時可為每個組成字段分配映射的數(shù)據(jù)安全級別;
示例:身份證號碼的組成部分出生日期(輕微侵害)與出生地行政區(qū)劃代碼(無侵害)的安全級別分別為2 和1。
②兩個字段構(gòu)成了推導(dǎo)關(guān)系,此時可依據(jù)就高從嚴原則進行定級。
示例:身份證號(安全級別為3)與基因檢測編號(安全級別為6)構(gòu)成推導(dǎo)關(guān)系,此關(guān)系的安全級別取高值為6,當用戶的權(quán)限低于此級別時,不同時返回兩個字段。
大數(shù)據(jù)平臺的安全防護大多數(shù)是基于單點或單面防護,對數(shù)據(jù)整體框架結(jié)構(gòu)安全的防護尚且考慮不足[10]。本文基于數(shù)據(jù)分類分級和數(shù)據(jù)安全級別,設(shè)計了如圖1的大數(shù)據(jù)安全防控模型。
如圖1所示,本文所述大數(shù)據(jù)安全防控模型,包含四個子策略,當用戶向數(shù)據(jù)發(fā)出訪問請求時:
圖1 大數(shù)據(jù)安全防控模型框架圖Fig.1 Framework diagram of big data security prevention and control model
(1)鑒權(quán)系統(tǒng)收集用戶的類別與權(quán)限信息,與數(shù)據(jù)的分類與分級信息進行比對,符合要求的數(shù)據(jù)直接返回,是為靜態(tài)授權(quán)策略;
(2)在數(shù)據(jù)側(cè),基于數(shù)據(jù)的分類分級信息,結(jié)合當前時間、規(guī)模、狀態(tài)等實時因素,動態(tài)調(diào)節(jié)數(shù)據(jù)的安全級別,是為數(shù)據(jù)安全級別的動態(tài)控制策略;
(3)在靜態(tài)授權(quán)策略的基礎(chǔ)上,鑒權(quán)系統(tǒng)收集用戶的訪問環(huán)境與操作內(nèi)容信息,并與數(shù)據(jù)的安全級別進行綜合評定、鑒權(quán),是為動態(tài)授權(quán)策略;
(4)接收動態(tài)授權(quán)策略的鑒權(quán)結(jié)果,結(jié)合數(shù)據(jù)安全級別對字段進行脫敏處理,是為數(shù)據(jù)脫敏策略。
基于資源、字段、字段關(guān)系的分類分級,設(shè)計數(shù)據(jù)的授權(quán)策略:
(1)對于資源,當用戶不具備相應(yīng)類別或級別的資源權(quán)限時,不返回數(shù)據(jù)資源;
(2)對于字段,當用戶不具備相應(yīng)類別或級別的字段權(quán)限時,不返回字段;
(3)對于字段關(guān)系,當用戶不具備相應(yīng)字段關(guān)系的權(quán)限時,根據(jù)其操作目的,分為以下兩種情形:
①可見不可用,即單獨返回構(gòu)成字段關(guān)系的組成內(nèi)容而非同時返回,無法建立要素之間的關(guān)聯(lián)關(guān)系,也就無法進行其他分析運算;
②可用不可見,即給予用戶對構(gòu)成關(guān)系的字段的使用權(quán)限,返回要素的關(guān)聯(lián)關(guān)系,但不予展示或可視化。
數(shù)據(jù)安全級別不是一成不變的,會隨著時間、業(yè)務(wù)、規(guī)模和數(shù)據(jù)開放狀態(tài)等因素動態(tài)變化。
在資源層面上的動態(tài)影響因素主要有3 個:業(yè)務(wù)狀態(tài)、時效、資源規(guī)模:
(1)業(yè)務(wù)狀態(tài):在特定事件后,數(shù)據(jù)安全級別可能發(fā)生改變,如行業(yè)標準文檔的起草、評審到最終發(fā)布,文件內(nèi)容會逐漸公開化;
(2)時效:在一定時間后,數(shù)據(jù)安全級別可能發(fā)生改變?;ヂ?lián)網(wǎng)數(shù)據(jù)作為典型案例,具有時效性短的特性;
(3)資源規(guī)模:當數(shù)據(jù)資源達到一定規(guī)模時,數(shù)據(jù)安全級別可能發(fā)生改變??上攵?,依靠億萬級的平臺打的或車輛導(dǎo)航數(shù)據(jù),能夠繪制出高分辨率的全國交通路線圖,甚至精確定位重要的單位機構(gòu),此時的受侵害客體或?qū)⑥D(zhuǎn)變?yōu)閲野踩?/p>
字段層面的動態(tài)影響因素主要有兩個:是否經(jīng)過脫敏處理,是否是回填字段、標簽字段或統(tǒng)計字段。通常當數(shù)據(jù)經(jīng)過脫敏后,其安全級別會隨之降低。如果字段并非來源數(shù)據(jù),而是經(jīng)過數(shù)據(jù)融合、治理得到的回填、打標簽或統(tǒng)計信息,這些字段體現(xiàn)了更高的數(shù)據(jù)價值,也伴隨著更高的敏感度。
記錄層面更多的是根據(jù)紅名單的規(guī)則進行動態(tài)調(diào)整,字段關(guān)系層面可根據(jù)構(gòu)成關(guān)系的字段的數(shù)據(jù)安全級別設(shè)計動態(tài)控制規(guī)則。
傳統(tǒng)的授權(quán)是靜態(tài)的,粗粒度的,且授權(quán)過程僅發(fā)生在首次訪問資源節(jié)點,完成后就不再進行控制,無法滿足動態(tài)、精細化的訪問控制需求。
對數(shù)據(jù)的訪問涉及到四個因素:訪問用戶、訪問環(huán)境、被訪問資源和操作內(nèi)容。不同的訪問用戶擁有各自的角色信息[11-12]與預(yù)設(shè)的訪問權(quán)限級別,角色信息決定了用戶可訪問哪些類別的數(shù)據(jù)資源。訪問的權(quán)限受環(huán)境因素影響,包括訪問主體所處的網(wǎng)絡(luò)環(huán)境、時空環(huán)境、硬件環(huán)境、后臺應(yīng)用環(huán)境。被訪問的資源具有預(yù)設(shè)的分類分級信息,以及依托于時間、規(guī)模、業(yè)務(wù)狀態(tài)而動態(tài)控制的數(shù)據(jù)安全級別。不同的操作內(nèi)容,根據(jù)其可能造成的結(jié)果也影響了本次訪問的權(quán)限研判。
當用戶能夠查看特定資源的數(shù)據(jù)時,其中的高敏感字段、記錄的信息脫敏就至關(guān)重要??梢罁?jù)數(shù)據(jù)安全級別,在字段、記錄、字段關(guān)系的層面上進行脫敏。
(1)對于字段,當用戶的權(quán)限級別低于字段的安全級別時,對這些字段的數(shù)據(jù)進行脫敏處理;
(2)對于記錄,當用戶的權(quán)限級別低于敏感記錄的安全級別時,將一整行的記錄脫敏后展示或不返回;
(3)對于字段關(guān)系,分以下兩種情形:
①一個字段由復(fù)數(shù)個字段組成,對高于用戶權(quán)限的組成字段進行脫敏;
②兩個字段構(gòu)成了推導(dǎo)關(guān)系,至少對其中一個字段進行脫敏。
對所有數(shù)據(jù)“一視同仁”的傳統(tǒng)處理模式無法適應(yīng)大數(shù)據(jù)時代的管理需求,傳統(tǒng)的分類分級策略缺乏對數(shù)據(jù)多維度多層次的安全控制。本文從數(shù)據(jù)資源、字段、字段關(guān)系出發(fā)對數(shù)據(jù)進行分類,從數(shù)據(jù)資源、字段、記錄出發(fā)進行分級。另一方面,基于分類分級,以相關(guān)法律法規(guī)、標準規(guī)范為依據(jù),獲得最終的數(shù)據(jù)安全級別,并基于此設(shè)計由靜態(tài)授權(quán)策略、數(shù)據(jù)安全級別的動態(tài)控制策略、動態(tài)授權(quán)策略和數(shù)據(jù)脫敏策略構(gòu)成的大數(shù)據(jù)安全防控模型,滿足數(shù)據(jù)工程在治理、組織、服務(wù)和應(yīng)用過程中的需求,確保數(shù)據(jù)的安全性。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。