寇蔣恒,何明星*,陳愛良,何明澤
(1.西華大學計算機與軟件工程學院,四川 成都610039;2.民航成都信息技術有限公司,四川 成都610000)
隨著機場人流量的在不斷增加,機場每天會產(chǎn)生大量數(shù)據(jù)。對于小型機場而言,受其人力、財力、物力的限制,他們管理并處理數(shù)據(jù)的能力有限,因此數(shù)據(jù)需要被托管到其他機構進行分析與處理,以達到改善機場服務水平的目的。
在商業(yè)上數(shù)據(jù)托管、分析與處理已經(jīng)比較成熟,例如Dropbox、OneDrive、GoogleDrive、云上貴州、阿里云、騰訊云等。這些數(shù)據(jù)托管方式節(jié)約了數(shù)據(jù)本地存儲與運算的成本[1],但數(shù)據(jù)庫托管也存在風險。由于民航數(shù)據(jù)包含了大量的敏感信息,在將數(shù)據(jù)托管到第三方時,應進行數(shù)據(jù)脫敏處理[2-3]以確保敏感數(shù)據(jù)安全。
數(shù)據(jù)脫敏技術是去除存在于數(shù)據(jù)中的敏感信息的一種技術,通過使用該技術來避免托管數(shù)據(jù)泄漏所帶來的危害。一般來講,利用數(shù)據(jù)庫進行測試、開發(fā)、訓練、托管的第三方機構并不需要知道數(shù)據(jù)庫中某些準確信息,只要內(nèi)容看起來真實即可[4-7]。
在數(shù)據(jù)庫托管的過程中,為了避免某些客戶的隱私信息直接出現(xiàn)在外包數(shù)據(jù)庫中,學者們提出了多種數(shù)據(jù)脫敏方法:1)數(shù)據(jù)失真技術[5-6,8-20];2)數(shù)據(jù)加密技術[21-29];3)限制公開的技術[30-33]。
1.2.1 數(shù)據(jù)混淆技術
數(shù)據(jù)混淆技術是較早用于數(shù)據(jù)脫敏的一種技術,早期的數(shù)據(jù)混淆技術是基于線性變換的一種技術。研究表明,數(shù)據(jù)混淆是一種比較簡單且有效的數(shù)據(jù)脫敏方式。由于對字段不需要任何復雜的操作,所以此脫敏技術有較高的運行效率。
數(shù)據(jù)混淆技術有3個主要屬性:可逆性、規(guī)范性和變換性??赡嫘灾笖?shù)據(jù)混淆將原始數(shù)據(jù)集D映射到一個新的數(shù)據(jù)集D′??赡嫘杂址譃?類:部分信息可逆、過程可逆、組合可逆和不可逆。部分信息可逆:若混淆技術僅僅只是原始數(shù)據(jù)集的常量偏移,則將混淆數(shù)據(jù)集與原始數(shù)據(jù)集的已知條目進行匹配會顯示出混淆算法的模式。過程可逆:數(shù)據(jù)混淆的方式或者其標準過程可能導致完全或者部分的混淆數(shù)據(jù)集可逆。組合可逆:敵手了解數(shù)據(jù)混淆技術和原始數(shù)據(jù)集中的部分信息,則可以對使用此混淆技術的數(shù)據(jù)進行逆向工程得到原始數(shù)據(jù)。不可逆:敵手根本無法通過混淆后的數(shù)據(jù)找到原有數(shù)據(jù)。
1.2.2 差分隱私算法
差分隱私算法是數(shù)據(jù)失真技術的一種[9]。差分隱私模型在降低隱私泄露風險的同時又保證了數(shù)據(jù)的高可用性,所以被廣泛應用于商業(yè)上的數(shù)據(jù)脫敏。Apple和Google是首先將差分隱私算法商用的公司,并且該算法已開源[10]。近年來,Cormode等[11]通過降低敏感度等方式以解決數(shù)據(jù)噪聲過大的問題。Sarathy等[12]將差分隱私首次應用在數(shù)值類型的數(shù)據(jù)脫敏上。Dwork等[13-14]針對連續(xù)觀測和流數(shù)據(jù)的差分隱私保護,提出了泛隱私概念。Li 等[15]、 Zhou等[16]、Gehrke等[17]、Zhang等[18]將其他方法與差分隱私相結合,提高了隱私數(shù)據(jù)的安全性。
設數(shù)據(jù)集D和D′具有相同的數(shù)據(jù)結構,兩者的對稱差記作DΔD′,|DΔD′|表示D和D′ 2個數(shù)據(jù)庫中記錄條數(shù)的相差值。若|DΔD′|=1,表示D和D′之間僅僅只有一個紀錄不同,稱D和D′為鄰近數(shù)據(jù)集。對D或D′任何查詢都會得到近似的結果,因此敵手無法通過查詢得到任何有關敏感數(shù)據(jù)的信息[19]。
定義1給定一個差分隱私查詢函數(shù)κ(D)提供ε-差分隱私,任意2個鄰近數(shù)據(jù)集D和D′最多相差一行記錄的差分隱私公式為
Pr[κ(D)∈r]≤exp(ε)×Pr[κ(D′)∈r]r∈Range
(1)
式中:Pr[ ]表示隱私被披露的概率,概率空間由差分函數(shù)κ決定;實數(shù)ε稱為差分隱私保護預算,值越小隱私保護強度越大,ε取值視具體數(shù)據(jù)情況而定。
目前存在一種對差分隱私模型的攻擊,當敵手在查詢某數(shù)據(jù)庫表時,可能會使用數(shù)據(jù)庫查詢中的統(tǒng)計函數(shù)來查詢數(shù)據(jù)。因為數(shù)據(jù)庫統(tǒng)計是順序統(tǒng)計,所以當敵手查詢count(n)-count(n-1)時,旅客的某種信息就會被找到。如表1所示,敵手查詢性別時使用count(4)-count(3)就可以獲得Alice的真實性別。
表1 旅客信息(部分數(shù)據(jù))
差分隱私的主要噪聲產(chǎn)生機制有Laplace機制和指數(shù)機制。Laplace機制主要處理數(shù)值型數(shù)據(jù);指數(shù)機制主要處理非數(shù)值型數(shù)據(jù)。噪聲產(chǎn)生機制受到全局敏感性和隱私預算的制約。
Laplace機制將服從拉普拉斯分布的噪聲加入查詢結果中,從而實現(xiàn)ε-差分隱私保護。式(2)是服從位置參數(shù)為0、尺度參數(shù)為b的拉普拉斯分布函數(shù)Lap(b)的概率密度函數(shù)。
(2)
定義2給定數(shù)據(jù)庫中的查詢函數(shù)q:Dn→R,差分隱私函數(shù)κ(D)的輸出滿足ε-差分隱私公式,為
(3)
噪聲的大小與Δq和ε的取值相關,Δq與噪聲成正比、與ε成反比。當Δq比較小時查詢結果較好。當ε變小時Laplace(Δq/ε)曲線會更加扁平,噪聲增大。在滿足ε-差分隱私保護時,ε越小則噪聲越多,隱私保護級別越高,對不同數(shù)據(jù)庫設置不同的ε值,也可以對同一個數(shù)據(jù)庫中不同屬性設置不同ε值來實現(xiàn)不同的隱私保護等級。
Laplace機制只能向精確的數(shù)值類型查詢結果中添加噪聲從而實現(xiàn)對數(shù)據(jù)的保護,例如查詢某位旅客的某次所購買機票的價格或某位旅客的信用等級等數(shù)據(jù)。然而在許多實際民航信息系統(tǒng)查詢中,查詢結果為一種組合(例如一種方案或者一種選擇),對于這一類查詢結果適合使用指數(shù)機制來進行數(shù)據(jù)脫敏,例如對多家航空公司的滿意度調(diào)查數(shù)據(jù)等。選擇指數(shù)機制來進行數(shù)據(jù)脫敏則可以在保護數(shù)據(jù)的同時保留數(shù)據(jù)之間的關聯(lián)。
(4)
對數(shù)據(jù)脫敏也可用多種加密技術,其中常用的有保形加密技術,也稱保留格式的加密[22-23]。它是一種對稱加密體制,主要特點是密文數(shù)據(jù)的格式與明文數(shù)據(jù)格式完全相同。第三方托管平臺對于數(shù)據(jù)集中數(shù)據(jù)的格式、數(shù)據(jù)的類型非常敏感,例如托管中心對于身份證號需要進行校驗,若脫敏后數(shù)據(jù)的身份證號不符合則第三方托管平臺將會視此信息為非真實信息。
當用戶數(shù)據(jù)庫中存在某些重要信息,例如用戶唯一ID標識、身份證號等,需要進行加密處理,則可使用密碼學加密算法,但直接使用此類算法可能會改變原始數(shù)據(jù)長度或數(shù)據(jù)格式,例如采用高級加密標準算法(advanced encryption standard,AES)來脫敏數(shù)據(jù)則不能保留數(shù)據(jù)格式,從而第三方平臺無法進行分析與處理。
正因為通用的數(shù)據(jù)脫敏方法會改變數(shù)據(jù)的格式從而使第三方無法對數(shù)據(jù)進行分析,所以保形加密(format preserving encryption,F(xiàn)PE)被提出。使用FPE方法對用戶ID進行脫敏后,數(shù)據(jù)類型、數(shù)據(jù)長度與原始數(shù)據(jù)完全相同。對于需要特定格式數(shù)據(jù)的第三方應用來講,因為輸入類型、數(shù)據(jù)長度并沒有發(fā)生改變,從而能順利地對數(shù)據(jù)進行分析并獲得其中有用信息。在T.Spies提出使用FPE來保護數(shù)據(jù)庫中的個人識別信息[24]之后,Bellare等提出了一種基于非平衡菲斯特網(wǎng)絡(Feistel network)的FPE方案[25],此方案增加了保形加密的安全性。之后Schneier等提出FPE的FFX模型為保形加密算法的發(fā)展奠定了模型基礎[26]。隨后Morris等[27]提出了一種基于Thorp Shuffle的方案,Liu等[28]提出了針對日期的FPE方案,使保形加密可以處理更多類型的字段。目前最常用的FPE方案有The Thorp Shuffle、Hasty Pudding Cipher、VIL mode。雖然FPE算法有很多但由標準機構認證的保形加密算法有FF1與FF3,并統(tǒng)一叫做FFX算法,Prefix、Cycle-walking、Generalized-Feistel是幾個最常用于構造加密算法的方法。Prefix方法在處理數(shù)據(jù)之前會先建立一個隨機的置換表,再使用此置換表來對數(shù)據(jù)進行加解密。對于有限集X={0,1,…,n-1},當消息空間n<106時數(shù)據(jù)的加解密速度較快,但是當n>106時僅建立置換表就會耗費大量時間。
如果需要對旅客數(shù)據(jù)表中的旅客ID進行處理,首先選擇分組密碼算法E,接下來選擇對稱密鑰k∈K,計算元組I=(Ek(0),Ek(1),…,Ek(n-1)),最后替換消息空間中的值得到加密結果。為了建立置換表來加密消息M={0,1,2,3,4,5,6,7,8,9},假設E是一個理想的8位的分組密碼,Ek為從[0,255]均勻且隨機的置換算法,將Ek的結果經(jīng)過從小到大重新排序得到表2。通過將消息空間的字段按照表2的規(guī)則進行映射從而達到數(shù)據(jù)脫敏的目的。本文在2.2.2節(jié)中使用了此處所構造的一個簡易置換表對數(shù)據(jù)進行脫敏處理。
表2 Prefix置換表
匿名化技術[29]是早期外包數(shù)據(jù)庫所常用的限制公開技術之一。在匿名化技術中最為常用的模型是k-anonymity、t-closeness、l-diversity等[30-33]。
定義4給定數(shù)據(jù)集D,設TD={t1,t2,…,tn}為D中的一個數(shù)據(jù)表,ti為數(shù)據(jù)表TD中第i條記錄,其屬性集為X={X1,X2,…,Xm},Xj表示這條記錄屬性集中的第j個屬性,QI={Xi,…,Xj}表示數(shù)據(jù)表TD中所有準標識符屬性的集合,其中QI?X,給定正整數(shù)k,如果對于任何一條記錄t∈TD,TD中都有至少k-1條其他記錄t1,t2,…,tk-1與記錄t在準標識符上具有相同的屬性值,則稱數(shù)據(jù)表TD滿足k-anonymity 保護模型。
k-anonymity(k-匿名)保護模型能泛化處理數(shù)據(jù)表中的準標識符屬性,以防止敵手使用準標識符屬性把具體的個體與其他k-1個個體區(qū)分開來,其核心想法是保證數(shù)據(jù)集中有關準標識符的k條記錄在同一個集合內(nèi),集合內(nèi)記錄為同一個等價類,從而降低某個特定個體被識別出的概率。
此類脫敏算法主要關注數(shù)據(jù)集的微觀方面,數(shù)據(jù)集包含N條記錄,每條記錄包含M個屬性的表單,數(shù)據(jù)集中一條記錄的屬性可粗略劃分為2類:1)標識符屬性EI,用于唯一地識別出個體,如ID、身份證號、車牌號等;2)準標識符屬性QI,用于間接地識別出個體,如性別、單位和地址等。
l-diversity(l-多樣性)模型是對k-anonimity模型的一種更精確的定義。l-diversity模型通過減少同一等價類中的不同種類數(shù)量來保護敏感數(shù)據(jù)。在一個等價類里的敏感數(shù)據(jù)屬性至少有l(wèi)個良好表示值,則稱該等價類具有l(wèi)-diversity。如果一個數(shù)據(jù)表中所有等價類都具有l(wèi)-diversity,則該表具有l(wèi)-diversity。可以通過3種方式來定義l-diversity。
1)可區(qū)分l-diversity:同一等價類中的敏感屬性至少有l(wèi)個不同的值。
2)熵l-diversity:一個等價類所提供的熵應該不大于log(l),l為等價類中不同值的個數(shù)。
3)遞歸l-diversity:常出現(xiàn)的值不能出現(xiàn)過多,不常出現(xiàn)的值也不能明顯太少。
t-closeness(t-接近性)模型是對l-diversity模型更精確的定義。t-closeness模型通過減少數(shù)據(jù)表示的細粒度來保護數(shù)據(jù)集中的敏感數(shù)據(jù)。數(shù)據(jù)細粒度的減少程度需要根據(jù)數(shù)據(jù)細膩度減少后對數(shù)據(jù)托管與數(shù)據(jù)分析造成的損失來決定。若一個等價類具有t-closeness則在此等價類中敏感數(shù)據(jù)屬性的分布與整個表的屬性分布的距離差值應該不超過閾值t。
表3為各種數(shù)據(jù)脫敏技術在保護程度、數(shù)據(jù)損失程度、計算開銷等方面的對比[6]。每種算法都有其優(yōu)勢與劣勢,民航數(shù)據(jù)庫中隱私數(shù)據(jù)與其他商業(yè)數(shù)據(jù)不同,需要根據(jù)具體的民航數(shù)據(jù)特點來選擇不同的脫敏算法。
本文以民航信息系統(tǒng)的數(shù)據(jù)為研究對象,對民航信息系統(tǒng)中的VIP表、旅客數(shù)據(jù)表、行李數(shù)據(jù)表、配載數(shù)據(jù)表進行敏感數(shù)據(jù)的定義,并按照k-anonymity保護模型在敏感數(shù)據(jù)中劃分了標識符屬性與準標識符屬性。這些敏感數(shù)據(jù)均屬于非統(tǒng)計類敏感數(shù)據(jù)。對于統(tǒng)計類敏感數(shù)據(jù),本文使用差分隱私來進行脫敏實驗。
本文對民航數(shù)據(jù)庫中的VIP表進行分析,確定了標識符為特殊旅客唯一ID、特殊旅客姓名,準標識符為單位、職務、艙位信息、座位號、隨行人數(shù)、警位等級、聯(lián)系人、聯(lián)系電話、備注、VIP等級、航班標識,如表4所示。因為敵手可以通過特殊旅客唯一ID、特殊旅客姓名找到VIP客戶,所以將這2個字段歸為標識符信息。通過分析旅客數(shù)據(jù)表中的數(shù)據(jù),將旅客ID、ICS記錄信息、旅客證件號歸入標識符屬性。因為這些字段都是對某個用戶的唯一標識信息,如表5所示。通過同樣的方法,對行李數(shù)據(jù)表和配載數(shù)據(jù)表進行分析,得到表6和表7。
表3 數(shù)據(jù)脫敏技術對比
表4 VIP敏感數(shù)據(jù)
表5 旅客敏感數(shù)據(jù)
表6 行李敏感數(shù)據(jù)
表7 配載敏感數(shù)據(jù)
2.2.1 組合方法中的數(shù)據(jù)混淆技術
數(shù)據(jù)混淆技術可用于本文2.1中所定義的敏感數(shù)據(jù)中的數(shù)字與數(shù)值類型數(shù)據(jù)脫敏。給出混淆脫敏算法為
yi=xi×(1+r)+C
(5)
式中:xi,yi分別表示原始數(shù)據(jù)集和混淆數(shù)據(jù)集中對應的第i個實體;r表示隨機變量;C代表常數(shù)。敵手可以結合隨機混淆過程的知識,使用逆向工程技術來分析部分脫敏數(shù)據(jù)從而推斷出整個原始數(shù)據(jù)。使用式(5)對旅客ID進行脫敏,選擇隨機數(shù)r與常數(shù)C。對于隨機數(shù)r的選擇需要使xi×(1+r)的位數(shù)大于所規(guī)定的ID的最小長度并且小于ID的最大長度,常數(shù)C的長度也要保證在規(guī)定ID的長度內(nèi),在此例中xi×(1+r)的值要大于190億并且小于999億9 999萬9 999。表8為混淆處理后的旅客ID。
表8 可逆技術脫敏后旅客信息
在脫敏實驗中,可以使用具有可逆性的混淆技術,例如使用加密算法進行數(shù)據(jù)脫敏,也可以使用具有不可逆性的混淆技術,例如散列算法對數(shù)據(jù)進行脫敏??赡嫘曰煜夹g一般用于保護一些完全不能被第三方所知道,但在將來會被民航單位重新利用的數(shù)據(jù)。不可逆數(shù)據(jù)用于保護一些完全不能被第三方所知道,且民航單位在將來也不需要利用的數(shù)據(jù)。表9為對旅客ID使用不可逆性的混淆技術中的安全散列算法(Secure Hash Algorithm 1,SHA-1)進行脫敏后所得到的結果。
表9 不可逆旅客信息
2.2.2 組合方法中的保形加密技術
保形加密適用于敏感數(shù)據(jù)中具有某些特定格式的數(shù)值與數(shù)字類型數(shù)據(jù)脫敏。使用這種方法,脫敏后的數(shù)據(jù)依然保持某種格式,從而可以讓數(shù)據(jù)更適合第三方的數(shù)據(jù)分析與托管。對表10中旅客ID使用1.3節(jié)中的Prefix方法脫敏,其結果如表11所示。
表10 旅客原始數(shù)據(jù)
表11 Prefix方法脫敏后旅客數(shù)據(jù)
在某些情況下要保證民航外包數(shù)據(jù)中身份證字段脫敏后與脫敏前格式不變。相較于其他數(shù)值型數(shù)據(jù),這類數(shù)據(jù)處理更加復雜,處理過程的一個應用如表12所示,將一個出生日期為1988年12月21日的江蘇省揚州市寶應縣男性身份證號碼,轉換成一個出生日期為1970年01月05日四川省成都市錦江區(qū)男性身份證號碼。
表12 身份證字段的脫處理
身份證的預先處理過程可將身份證分為4段:第1段為前6位數(shù)字,表示行政區(qū)劃代碼,可以通過保形加密生成不同于原始數(shù)據(jù)的行政區(qū)劃代碼;第2段為第7位到第14位,表示對象出生年月日,脫敏過后的值要在合理范圍內(nèi),并考慮每個月中含有天數(shù)不同,是否為閏年;第3段中第15位到第16位為對同一天出生的人的編號,17位為性別編號,男生則分配奇數(shù),女生則分配偶數(shù);最后一段為校驗碼。通過保形加密對于每段數(shù)字進行合理變換,使最終脫敏后的身份證依然符合國家標準GB11643—1999。
2.2.3 組合方法中的匿名化技術
匿名化技術更加精確地劃分了敏感數(shù)據(jù),根據(jù)2.1節(jié)中不同數(shù)據(jù)表定義出的標識符與準標識符,使用匿名化技術進行脫敏。表13、14為脫敏前民航信息系統(tǒng)數(shù)據(jù)庫中原始數(shù)據(jù)表中的部分數(shù)據(jù),表15、16、17為脫敏后數(shù)據(jù)。VIP表中標識符特殊旅客唯一ID保留1位數(shù)。特殊旅客姓名只保留姓氏,刪除單位、職務、隨行人數(shù),保留艙位信息等字段。航班標識保留前6位用于識別航空公司和飛機類型。旅客數(shù)據(jù)表中保留旅客ID前2位,因航班標識與VIP表中航班標識格式不同所以保留前5位航班標識。ICS記錄信息保留前2位,對于旅客證件號此處使用簡單的字段屏蔽方法保留前2位,也可以采用保形加密與其他方法來處理此字段。旅客數(shù)據(jù)表和行李數(shù)據(jù)表中脫敏操作與VIP表的脫敏操作相同。
表13 原始VIP數(shù)據(jù)
表14 原始配載數(shù)據(jù)
表15 脫敏后VIP數(shù)據(jù)
表16 脫敏后配載數(shù)據(jù)
在實際民航數(shù)據(jù)庫中使用匿名方法脫敏時可能存在某個等價類中某種數(shù)據(jù)類別較少的問題,敵手能夠通過一些其他信息將此用戶辨識出來,因此通過增加一些干擾記錄來降低屬性數(shù)據(jù)泄漏的風險。表16雖然滿足k-anonymity保護模型定義,但只有一條航班ID為22592*的記錄,導致該等價類中數(shù)據(jù)量較少,敵手只需要找到近期其他發(fā)布數(shù)據(jù)中航班ID為22592*的數(shù)據(jù)則可以很大概率確定此航班ID對應個體的詳細信息。將其他始發(fā)站和目的站作為此航班ID的干擾項插入表中來構造每個等價類符合l-diversity模型的數(shù)據(jù)集。表17為插入干擾數(shù)據(jù)形成滿足3-diversity的新配載數(shù)據(jù)表。
表17 滿足3-diversity的配載數(shù)據(jù)
2.2.4 組合方法中的差分隱私技術
差分隱私適用于具有統(tǒng)計特征的數(shù)據(jù)脫敏,例如平均旅客年齡、航空公司滿意度調(diào)查等。表18為差分隱私指數(shù)機制在民航數(shù)據(jù)脫敏中的應用。假設現(xiàn)有4個航空公司進行用戶滿意度調(diào)查,根據(jù)差分隱私指數(shù)機制,在給定隱私保護預算ε下可以計算出各項目的概率。ε值根據(jù)當前想要達到的保護級別來動態(tài)設定,ε越小保護級別越好,數(shù)據(jù)可用性越差,ε越大保護級別越低,數(shù)據(jù)可用性越高。對普通旅客滿意度調(diào)查結果使用差分隱私進行脫敏時建議讓ε接近于1;對于VIP旅客滿意度調(diào)查結果使用差分隱私進行脫敏時建議讓ε大于0.5且盡量接近0.5,這樣選擇ε可以使VIP旅客的數(shù)據(jù)得到更強的保護。
表18 指數(shù)機制在脫敏中的應用
本文對通用脫敏算法進行了介紹,定義了民航信息系統(tǒng)的敏感數(shù)據(jù),對敏感數(shù)據(jù)中數(shù)字與數(shù)值類型采用混淆技術、加密技術進行脫敏實驗,并使用數(shù)據(jù)脫敏評價標準k-anonymity模型對本文所定義的敏感數(shù)據(jù)更加細致地劃分出標識符與準標識符。針對非統(tǒng)計類型敏感數(shù)據(jù),可組合使用數(shù)據(jù)混淆技術中的可逆技術、不可逆技術,加密技術中的AES對稱加密技術、保形加密技術進行脫敏。針對身份證數(shù)據(jù),給出了一種保形加密的思路與算法。對標識符與準標識符使用簡易的字段處理技術進行脫敏,并使實驗結果滿足匿名化模型。針對統(tǒng)計類的敏感數(shù)據(jù),使用差分隱私技術來對數(shù)據(jù)進行脫敏。
實驗結果表明:若敏感數(shù)據(jù)需要被還原,則使用數(shù)據(jù)混淆技術中的線性變換;若敏感數(shù)據(jù)需要被還原且需要較高保護級別,則可以使用加密算法,例如AES;若數(shù)據(jù)需要較高保護級別且不需要被還原,直接使用假名替換、散列算法或直接刪除此字段等方法;若標識符字段中要求此數(shù)據(jù)脫敏后必須滿足某種格式,例如身份證信息,則可以使用保形加密,如表12中的身份證脫敏算法,此算法同樣可以推廣到其他需要保留格式的ID型數(shù)據(jù)的脫敏操作。
民用機場航班保障類核心系統(tǒng)敏感數(shù)據(jù)脫敏技術研究包含了影響脫敏效果的多項指標,但是受到可操作性限制,本文只使用了3萬條民航數(shù)據(jù)作為實驗數(shù)據(jù)。由于數(shù)據(jù)量偏小,有個別指標項的數(shù)據(jù)在實證研究時過于單一,在一定程度上可能對價值評估的結果產(chǎn)生影響,使得最終脫敏效果并不能最為理想。在未來研究中,筆者會增加數(shù)據(jù)量進行脫敏實驗從而對組合方法進行優(yōu)化改進。