唐明坤,錢 慶,張麗鑫,周佳茵,吳思竹
隨著大數(shù)據(jù)和醫(yī)療信息化建設(shè)的發(fā)展,數(shù)據(jù)共享成為大數(shù)據(jù)利用和學(xué)術(shù)研究過程中的重要環(huán)節(jié),數(shù)據(jù)安全問題也受到越來越多的關(guān)注。2017 年國務(wù)院發(fā)布的《“十三五”衛(wèi)生與健康規(guī)劃》提到,我國要全面深化醫(yī)療大數(shù)據(jù)的應(yīng)用,加強醫(yī)療數(shù)據(jù)保護和患者隱私保護,推動醫(yī)療信息化的建設(shè)[1]。隨后我國陸續(xù)出臺了《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例(征求意見稿)》等數(shù)據(jù)安全相關(guān)的法律或規(guī)定,反復(fù)強調(diào)了數(shù)據(jù)生命周期流程中數(shù)據(jù)安全和隱私保護的重要性。數(shù)據(jù)的共享和發(fā)布是數(shù)據(jù)生命周期中最容易出現(xiàn)隱私泄露的環(huán)節(jié),然而單純地刪去數(shù)據(jù)集中的標識符并不能保證數(shù)據(jù)隱私安全。如美國馬薩諸塞州曾發(fā)布過刪除患者姓名和地址的醫(yī)療信息數(shù)據(jù)庫,僅保留性別、出生日期、診斷結(jié)果等信息,但攻擊者通過結(jié)合另一個具有性別、出生日期等信息的州選民登記表,鎖定了大部分選民的醫(yī)療健康信息,從而造成了嚴重的醫(yī)療信息泄露事故[2]。因此數(shù)據(jù)共享和發(fā)布不能只是簡單地刪除數(shù)據(jù)集中的標識符,還需要結(jié)合其他隱私保護技術(shù)對數(shù)據(jù)集進行處理。
目前常用的隱私保護技術(shù)主要包括數(shù)據(jù)匿名化發(fā)布技術(shù)、數(shù)據(jù)加密技術(shù)、隱私保護數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)訪問控制技術(shù)4 類[3]。其中,數(shù)據(jù)匿名化發(fā)布技術(shù)即統(tǒng)計披露控制相關(guān)技術(shù),是最基本和核心的隱私保護技術(shù),其核心思想是在數(shù)據(jù)共享或發(fā)布前對數(shù)據(jù)集進行處理,防止敏感信息泄露的同時確保數(shù)據(jù)能夠用于分析挖掘[4]。隨著數(shù)據(jù)匿名化發(fā)布技術(shù)的發(fā)展,陸續(xù)出現(xiàn)了k-Anonymity[2]、l-Diversity[5]、t-Closeness[6]等隱私模型。這些隱私模型的算法逐漸復(fù)雜,隨著數(shù)據(jù)量的增加,匿名化轉(zhuǎn)換的計算量也逐漸增大,因此需要集合到可靠、可拓展的工具中才能實現(xiàn)基于隱私模型的匿名化轉(zhuǎn)換的操作。近年來,國外多家機構(gòu)和單位的研究人員在這些隱私模型的基礎(chǔ)上開發(fā)了多款開源數(shù)據(jù)匿名化工具,如ARX 匿名化工具、UTD匿名化工具箱、康奈爾匿名化工具包(CAT)、R統(tǒng)計軟件開源包sdcMicro 等[7]。對國外成熟的匿名化工具進行研究可以為開發(fā)適用于我國實際需求的數(shù)據(jù)匿名化工具提供很好的借鑒。因此,本文針對生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)匿名化處理需求,重點研究了目前發(fā)展最成熟的生物醫(yī)學(xué)數(shù)據(jù)匿名化工具ARX 的組成結(jié)構(gòu)和功能特點,為我國匿名化工具的研發(fā)和數(shù)據(jù)共享技術(shù)的發(fā)展提供參考。
ARX 工具是由慕尼黑工業(yè)大學(xué)的Fabian Prasser團隊在2011 年開發(fā)的一款擁有易操作的用戶圖形界面的開源可拓展的數(shù)據(jù)匿名化工具。Fabian Prasser 團隊長期專注于數(shù)據(jù)匿名化研究,研究內(nèi)容包括統(tǒng)計披露控制、隱私模型、匿名化數(shù)據(jù)效用評價等[8-12]。ARX 工具的設(shè)計特別關(guān)注了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)匿名化的需求,但同時也適合其他領(lǐng)域數(shù)據(jù)的應(yīng)用。2015 年發(fā)布的ARX 工具2.2.0 版本已經(jīng)具備了豐富的隱私模型支持、匿名化數(shù)據(jù)效用評估及重識別風險評估等主要功能。2016 年,ARX 工具還成為了歐洲藥品管理局臨床數(shù)據(jù)發(fā)布政策的數(shù)據(jù)匿名化和風險評估推薦工具[13]。隨后,ARX 工具經(jīng)過不斷的更新,又增加了基于統(tǒng)計模型的匿名化方法[14]、基于博弈論的隱私模型[15]、差分隱私模型[16]等功能。由于出色的效用評估功能、重識別風險評估功能及能處理數(shù)百萬條記錄并支持豐富的隱私模型的特點,ARX 工具被廣泛應(yīng)用于各領(lǐng)域的數(shù)據(jù)匿名化研究,包括開放政府數(shù)據(jù)的匿名化技術(shù)應(yīng)用[17]、實現(xiàn)醫(yī)療信息數(shù)據(jù)庫匿名化策略方案[18]等。有學(xué)者在進行醫(yī)療領(lǐng)域數(shù)據(jù)匿名化現(xiàn)狀研究時發(fā)現(xiàn),與其他工具相比,ARX 工具的功能更豐富全面,支持的隱私模型數(shù)量也遙遙領(lǐng)先[19]。目前,ARX 工具還在持續(xù)更新中,隱私模型和相關(guān)功能也在進一步豐富。
本文使用2021 年1 月10 日發(fā)布的ARX 3.9.0 Windows 64-Bit 版本(https://arx.deidentifier.org/downloads/)。ARX 工具具有友好的圖形用戶界面,操作界面與各功能模塊緊密連接。本文通過對各個功能模塊的分析,總結(jié)了ARX 工具整體架構(gòu)圖(圖1)。從功能上進行歸納,ARX 工具的整體架構(gòu)可以分為數(shù)據(jù)導(dǎo)入導(dǎo)出模塊、數(shù)據(jù)處理模塊、隱私模型及其他參數(shù)模塊、匿名化方案探索模塊、效用分析及風險分析模塊。其中,隱私模型及其他參數(shù)模塊、效用分析及風險分析模塊具有很高的可拓展性,在歷次版本更新中,這些模塊功能得到不斷強化。
圖1 ARX 工具的整體架構(gòu)
2.1.1 數(shù)據(jù)導(dǎo)入導(dǎo)出模塊
ARX 工具主要支持結(jié)構(gòu)化數(shù)據(jù)的匿名化處理,其數(shù)據(jù)導(dǎo)入導(dǎo)出模塊目前支持CSV、XLS、XLSX、JDBC 等多種格式的數(shù)據(jù)的導(dǎo)入,但經(jīng)過匿名化處理后的數(shù)據(jù)僅可以保存輸出為CSV 格式。
2.1.2 數(shù)據(jù)處理模塊
導(dǎo)入ARX 工具的數(shù)據(jù)需要在數(shù)據(jù)處理模塊進行數(shù)據(jù)類型設(shè)置、數(shù)據(jù)屬性設(shè)置及數(shù)據(jù)轉(zhuǎn)換,這是獲得匿名化方案的前提。數(shù)據(jù)類型設(shè)置根據(jù)每列數(shù)據(jù)的格式特點決定。數(shù)據(jù)屬性設(shè)置則需要研究者根據(jù)每個屬性與個體身份的關(guān)系進行設(shè)置。數(shù)據(jù)屬性共分為標識符、準標識符、敏感屬性和不敏感屬性4 類。標識符是指能直接確定個體身份的屬性,如姓名、身份證號等;準標識符是指在一定的背景知識下,能夠通過該屬性或?qū)傩越M合確定個體身份的屬性,如年齡、性別、身高等;敏感屬性是指想保護的、涉及個體隱私信息的屬性,如疾病、家族史等;不敏感屬性是與隱私無關(guān)的屬性。標識符和準標識符是匿名化處理過程中的重點關(guān)注對象,也是數(shù)據(jù)轉(zhuǎn)換的處理對象。標識符直接暴露了個體身份,需要進行完全的信息刪除即抑制處理。準標識符間接暴露了個體身份,需要進行泛化、集群等轉(zhuǎn)換,將暴露的風險降低到符合隱私保護要求的水平。泛化是數(shù)據(jù)轉(zhuǎn)換最常用的方式,是指創(chuàng)建多個范圍更廣的層級的數(shù)據(jù)值來替代原數(shù)據(jù)值,如用區(qū)間值[18,28]替代年齡值18。匿名化處理的過程需要通過算法實現(xiàn),泛化可以根據(jù)不同的算法處理進一步分為全域泛化和局域泛化,前者是指在一個準標識符中所有值采取同一泛化層級,后者則是允許一個準標識符中存在不同泛化層級的值。
2.1.3 隱私模型及其他參數(shù)模塊
泛化層級的創(chuàng)建是隱私模型實現(xiàn)的基礎(chǔ)。在ARX 工具中,匿名化處理的過程是通過篩選出準標識符泛化層級組合方案中所有滿足隱私模型和相關(guān)參數(shù)要求的方案,并形成一個隱私保護效果最佳的推薦方案的過程。根據(jù)隱私模型對生成數(shù)據(jù)的要求,可以將其分為面向準標識符的隱私模型、面向敏感屬性的隱私模型及超人群模型等。多種隱私模型和相關(guān)參數(shù)可以組合使用,但是隱私模型越嚴格,準標識符的值會被泛化到更高的層級,雖然隱私信息能夠得到更好保護,卻會降低數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)分析質(zhì)量。因此,需要結(jié)合數(shù)據(jù)處理和使用需求選擇合適的隱私模型和相關(guān)參數(shù),以獲得最佳的結(jié)果。
2.1.4 匿名化方案探索模塊
ARX 工具形成隱私保護效果最佳的推薦方案的過程是通過Flash 檢索算法實現(xiàn)的。當該方案不能滿足需要時,可在匿名化方案探索模塊提供的泛化層級組合方案集合中探索新的匿名化方案。在該模塊中,ARX 工具提供的哈斯圖和隱私保護分數(shù)列表分別展示了所有滿足隱私模型和相關(guān)參數(shù)的匿名化方案。研究者可以通過泛化層級過濾,保留自己所需要的重要信息。假如年齡是研究所需要的重要屬性,在探索模塊中指定年齡的泛化層級為0,那么最終篩選出的泛化方案均為保留原始年齡數(shù)據(jù)的方案,保證了重要屬性信息的留存。
2.1.5 效用分析及風險分析模塊
效用分析及風險分析模塊提供了多個維度的指標衡量輸出數(shù)據(jù)的數(shù)據(jù)質(zhì)量和重識別風險。ARX工具關(guān)注的重點是輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的質(zhì)量變化,提供輸入和輸出數(shù)據(jù)的差異分析對比和展示。效用分析包含質(zhì)量模型評價指標、統(tǒng)計分析和分類性能分析3 個部分,分析內(nèi)容圍繞著匿名化處理前后數(shù)據(jù)的分布、屬性相關(guān)關(guān)系、數(shù)據(jù)規(guī)模、數(shù)據(jù)包含信息的缺失等變化評價數(shù)據(jù)的質(zhì)量;風險分析模塊則主要包含風險直方分布圖、準標識符探索和攻擊者模型3 個部分,分析內(nèi)容圍繞匿名化處理后的數(shù)據(jù)的重識別風險,即攻擊者基于背景知識從共享發(fā)布的數(shù)據(jù)中確定個體身份的危險。
ARX 工具進行數(shù)據(jù)匿名化流程設(shè)計時考慮較為全面,包括數(shù)據(jù)輸入、數(shù)據(jù)處理(屬性設(shè)置、泛化層級創(chuàng)建、模型和參數(shù)的選擇)、匿名化方案探索及效用和重識別風險評價等步驟,考慮了數(shù)據(jù)處理的評估和反饋。圖2 展示的是ARX 工具從導(dǎo)入數(shù)據(jù)到生成并輸出匿名化數(shù)據(jù)的工作流程,具體分為5 個步驟。同時,本文以UCI Machine Learning Repository 中的Adult 數(shù)據(jù)集進行k=5 的k-anonymity匿名化處理為例,對各個步驟進行介紹。
圖2 ARX 工具進行數(shù)據(jù)匿名化處理的工作流程
2.2.1 數(shù)據(jù)輸入
數(shù)據(jù)輸入是匿名化處理的第一個步驟。在ARX 工具中,需要先創(chuàng)建一個項目,然后再把結(jié)構(gòu)化的Adult 數(shù)據(jù)集導(dǎo)入,如圖3 左半部分所示,數(shù)據(jù)集以表格的形式在工具中展現(xiàn)。
圖3 ARX 的工作界面
2.2.2 數(shù)據(jù)處理
輸入的Adult 數(shù)據(jù)集需要進行屬性的設(shè)置、泛化層次的創(chuàng)建及模型和參數(shù)的選擇。屬性設(shè)置需要研究者根據(jù)領(lǐng)域知識將所有屬性中的標識符、準標識符、敏感屬性標記出來,如本文將id 設(shè)為標識符,將年齡、性別、種族等屬性設(shè)為準標識符,將教育年限、收入作為敏感屬性。然后,準標識符需要創(chuàng)建相應(yīng)的泛化層級來保證隱私模型的實現(xiàn)。ARX 工具提供了4 種系統(tǒng)定義的泛化方法用于快速創(chuàng)建泛化層級方案,包括時間泛化、區(qū)間泛化、順序泛化及遮蓋泛化。對諸如年齡等數(shù)值類型的準標識符采用區(qū)間泛化的方法,以5 為間隔區(qū)間范圍創(chuàng)建泛化層級方案;對諸如種族等標量類型的準標識符首先考慮語義關(guān)系創(chuàng)建泛化層級方案并導(dǎo)入使用,當準標識符沒有語義層級概念時,考察數(shù)據(jù)的特點使用順序泛化或遮蓋泛化創(chuàng)建泛化層級方案。在隱私模型選擇方面,本文選擇k-anonymity 模型,k 值設(shè)置為5;兩個敏感屬性均選擇參數(shù)為2 的?-diversity 模型。在相關(guān)參數(shù)設(shè)置方面,最大抑制率設(shè)置為推薦的100%,其他相關(guān)參數(shù)使用默認值。經(jīng)過上述處理后,選擇實現(xiàn)隱私模型的默認最優(yōu)算法檢索策略,ARX 工具就會自動計算出所有符合隱私模型要求的泛化層級的組合方案,并生成一個最優(yōu)推薦方案。圖4 為ARX 工具匿名化解決方案空間,每一個節(jié)點代表一種準標識符泛化層級組合,黃色方形的節(jié)點為最優(yōu)推薦方案,節(jié)點中的數(shù)字代表準標識符的泛化層級。
圖4 ARX 工具匿名化解決方案空間
2.2.3 匿名化方案探索
ARX 工具生成的最優(yōu)推薦方案是滿足隱私模型和相關(guān)參數(shù)標準下的最佳方案,但該方案不一定能滿足實際情況中對某準標識符泛化層級及數(shù)據(jù)效用指標的要求。如果選擇保留年齡準標識符的最大信息,在匿名化解決方案空間中把年齡的泛化層級限制為0,可以在維持年齡不泛化的基礎(chǔ)上調(diào)整最佳匿名化方案。
2.2.4 效用和重識別風險評價
生物醫(yī)學(xué)領(lǐng)域?qū)?shù)據(jù)質(zhì)量具有較高的要求,因此需要對匿名化方案進行效用和重識別風險評價以確保輸出數(shù)據(jù)的質(zhì)量。在該步驟中,ARX 工具會自動給出匿名化方案的數(shù)據(jù)值缺失率、粒度及非均衡熵等衡量數(shù)據(jù)質(zhì)量的指標和風險直方分布圖、檢察官模型風險等重識別風險評價內(nèi)容。當該方案滿足數(shù)據(jù)效用和重識別風險的要求時,則可確定為匿名化最優(yōu)方案并輸出,否則需要進行新方案的探索。
2.2.5 數(shù)據(jù)輸出
當匿名化方案滿足效用和重識別風險后,通過數(shù)據(jù)效用評價模塊對輸出數(shù)據(jù)進行預(yù)覽,確認無誤后以結(jié)構(gòu)化的CSV 格式輸出數(shù)據(jù)。
ARX 工具功能豐富全面,支持匿名化處理的全流程。與UTD 匿名化工具箱、sdcMicro、CAT等其他數(shù)據(jù)匿名化工具相比,ARX 具有采用高效的全域匿名化算法、支持豐富的隱私模型、較為全面的數(shù)據(jù)效用評價指標、較為豐富的風險分析功能等4 個功能特點。ARX 工具的歷次更新也多是在圍繞增加更多的隱私模型和效用評價指標方面進行的。ARX 工具與其他匿名化工具具體的功能特點比較如表1 所示。
表1 ARX 工具與其他匿名化工具的功能特點比較
3.1.1 高效的全域匿名化算法
ARX 工具支持全域匿名化處理和局域匿名化處理。在全域匿名化處理中,支持多種高效穩(wěn)定的Flash 算法及變體是ARX 工具的一個重要特點。UTD 匿名化工具箱支持Datafly、Incognito 等算法實現(xiàn)k-anonymity 等匿名化處理,CAT 支持Incognito算法[20]實現(xiàn)匿名化處理,而sdcMicro 則提供多種自底向上和自頂向下的全域匿名化算法和10 余種局域匿名化算法[21]。與這些算法相比,F(xiàn)lash 算法使用預(yù)測標記的方法,采用垂直遍歷匿名化解決方案空間的策略,剪枝能力和執(zhí)行時間要優(yōu)于Incognito 等其他算法,算法穩(wěn)定性較強,能夠?qū)崿F(xiàn)數(shù)據(jù)集的快速全域匿名化處理。目前,ARX 工具還加入了對遺傳算法的支持,顯著提高了對高維數(shù)據(jù)的處理能力。
3.1.2 豐富的隱私模型
相比于UTD 匿名化工具箱、sdcMicro、CAT等其他匿名化工具僅支持2~3 種隱私模型,ARX工具支持的隱私模型高達10 余種,是目前支持隱私模型數(shù)量最多的數(shù)據(jù)匿名化工具。表2 是對各隱私模型相關(guān)研究的總結(jié)。根據(jù)隱私模型計算原理的不同,面向?qū)ο笾饕蕵俗R符和敏感屬性。k-anonymity、k-map 等隱私模型面向?qū)ο鬄闇蕵俗R符,是較為常用的隱私模型,這些模型主要通過泛化和抑制等手段增加準標識符中等價類(即準標識符值相同的記錄)的數(shù)目,減少唯一記錄,從而降低重識別風險;?-diversity、t-closeness 等隱私模型主要面向敏感屬性,因為盡管等價類數(shù)目增多保證了唯一記錄的減少,但如果同一等價類記錄對應(yīng)的敏感屬性值都相同時會導(dǎo)致一致性攻擊,容易使個體的敏感屬性信息被發(fā)現(xiàn)。因此,還需要保證敏感屬性的分布具有多樣性,從不同算法的層面上要求相同等價類記錄的敏感屬性下至少要存在一定閾值數(shù)量不同的值。此外,k-map、δ-presence 等隱私模型考慮到了種群唯一性的再識別風險,使用時還需要獲得人群信息作為參數(shù),而ARX 工具也內(nèi)置了美國等國家的人口數(shù)量供參考;Profitability 模型基于博弈論進行成本效益分析,可以更明確地解釋數(shù)據(jù)發(fā)布者和接收者的動機,但需要獲取攻擊者成本和收益等參數(shù);Average-reidentification-risk 模型則通過設(shè)置重識別風險閾值,獲得滿足重識別風險要求的匿名化方案。
表2 ARX 工具支持的主要隱私模型及其原理
3.1.3 數(shù)據(jù)效用評估
從生物醫(yī)學(xué)研究需求的不同角度衡量匿名化數(shù)據(jù)的質(zhì)量,會獲得不同的結(jié)果。為此,ARX 工具提供了一系列的質(zhì)量評估指標和數(shù)據(jù)質(zhì)量模型對匿名化數(shù)據(jù)進行效用評估,供使用者從多個角度評估匿名化處理導(dǎo)致的信息丟失情況。在ARX 工具中,質(zhì)量評估指標分為屬性級別的質(zhì)量評估指標和數(shù)據(jù)集級別的質(zhì)量評估指標。前者包含缺失率、泛化強度、粒度、非均衡熵和平方誤差等指標,后者包含泛化強度、粒度、非均衡熵、平方誤差和平均等價類大小等指標。ARX 工具提供的部分質(zhì)量評估指標的具體含義如表3 所示。
表3 ARX 工具提供的部分質(zhì)量評估指標
數(shù)據(jù)質(zhì)量模型用于優(yōu)化匿名化處理的目標函數(shù),不同的數(shù)據(jù)質(zhì)量模型側(cè)重考慮不同的評價指標,如粒度、泛化強度等,從而影響最終生成的匿名化數(shù)據(jù)。如在參數(shù)配置階段選擇了側(cè)重匿名化數(shù)據(jù)平均等價類大小的模型(AECS 模型)時,最終生成的匿名化數(shù)據(jù)是具有平均等價類大小更優(yōu)的匿名化方案。質(zhì)量評估指標眾多,ARX 工具中也內(nèi)置了豐富的數(shù)據(jù)質(zhì)量模型可供選擇,包括Loss模型、AECS 模型、Precision 模型、Discernibility模型和Non-Uniform Entropy 模型等。
ARX 工具還提供了邏輯回歸、隨機森林和樸素貝葉斯等算法對輸入數(shù)據(jù)和輸出數(shù)據(jù)的分類性能進行比較。研究結(jié)果顯示,選擇了Discernibility模型、Precision 模型和Non-Uniform Entropy 模型的輸出數(shù)據(jù)具有較好的分類模型訓(xùn)練能力,測量結(jié)果的相對準確度為94%~99%,因此具有無監(jiān)督學(xué)習(xí)研究需求的數(shù)據(jù)應(yīng)優(yōu)先選擇這幾類數(shù)據(jù)質(zhì)量模型進行匿名化處理[22]。
3.1.4 風險分析功能
風險分析主要是指對輸出數(shù)據(jù)的重識別風險的評估、ARX 工具中提供了攻擊風險模型分析、風險分布直方圖和發(fā)現(xiàn)準標記符等功能。
3.1.4.1 攻擊風險模型分析
攻擊風險模型分析包括對檢察官風險模型、記者風險模型和營銷攻擊者風險模型3 種模型風險的分析。檢察官風險和記者風險是數(shù)據(jù)集隱私風險兩個基礎(chǔ)的重識別風險度量方法,都是衡量攻擊者從數(shù)據(jù)集中鎖定目標個體的數(shù)據(jù)的風險。二者的區(qū)別在于對手能否知道某個特定的個體是否在數(shù)據(jù)集中。如果攻擊者能知道目標是否在數(shù)據(jù)集內(nèi),則是所謂的“檢察官風險”;如果攻擊者不知道或不能知道目標是否在數(shù)據(jù)集中,則被稱為“記者風險”。由于不能事先確定攻擊者掌握的背景知識,因此無法得出一個固定的檢察官風險值或記者風險值。使用者可以在ARX 工具中設(shè)置風險閾值,工具將自動計算超過閾值風險的記錄比例、平均能被重識別的記錄比例和單個記錄最高重識別風險。營銷攻擊者風險模型則是以重新識別數(shù)據(jù)集中的大部分個體為目標,而不是特定個體為目標來計算重識別風險。
3.1.4.2 風險分布直方圖
風險分布直方圖是數(shù)據(jù)集記錄中重識別風險分布的直方圖,它是以檢察官重識別風險作為橫坐標,受影響記錄百分比為縱坐標,可以直觀地看到有多少數(shù)量的記錄的檢察官風險小于某一個值。通過對比輸入輸出數(shù)據(jù)的風險分布直方圖可以發(fā)現(xiàn)檢察官重識別風險與受影響記錄的變化。ARX 工具可以直觀地對比輸入輸出數(shù)據(jù)風險直方分布圖的變化。一般而言,經(jīng)過了匿名化處理的數(shù)據(jù)集的最大重識別風險和平均重識別風險都將明顯下降。
3.1.4.3 發(fā)現(xiàn)準標記符功能
發(fā)現(xiàn)準標記符功能是指通過分析單個屬性或多個屬性組合的重識別風險,發(fā)現(xiàn)其中的準標識符。ARX 工具提供了所有的屬性組合(包括不敏感屬性)的重新識別相關(guān)風險的值。當這些值較高甚至達到100%時,則需要考慮相應(yīng)屬性組合中是否存在未發(fā)現(xiàn)的準標識符。
ARX 工具是面向結(jié)構(gòu)化數(shù)據(jù)集設(shè)計的開源匿名化工具,研究者可以脫機使用,能保障處理過程中的數(shù)據(jù)安全。該工具應(yīng)用功能豐富全面,適用于高維大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)集。但該工具在真實世界生物醫(yī)學(xué)數(shù)據(jù)匿名化的應(yīng)用中,還存在以下3 個問題。一是真實世界生物醫(yī)學(xué)數(shù)據(jù)集中存在許多非結(jié)構(gòu)化數(shù)據(jù),但ARX 工具僅適用于結(jié)構(gòu)化數(shù)據(jù)集的匿名化;二是當數(shù)據(jù)集存在的缺失值較多時,需要對數(shù)據(jù)集進行預(yù)處理,因為ARX 工具的匿名化處理過程缺乏對缺失值的考慮,當缺失值較多時會導(dǎo)致過度泛化而造成較多的信息損失;三是不太適合小規(guī)模數(shù)據(jù)集匿名化處理的應(yīng)用,因為小規(guī)模的數(shù)據(jù)集處理成本較低,往往采用局域匿名化的方法保留更細顆粒度的信息,而該工具提供的局域匿名化算法較少,它使用的Flash 算法的匿名化處理能力雖然高效穩(wěn)定,但在保留數(shù)據(jù)信息的能力方面不如局域匿名化算法。
目前,我國生物醫(yī)學(xué)領(lǐng)域有大量的數(shù)據(jù)匿名化需求,但卻缺乏可靠的開源數(shù)據(jù)匿名化工具。ARX工具作為一款在國際上被廣泛應(yīng)用的開源數(shù)據(jù)匿名化工具,具有高效的全域匿名化算法、豐富的隱私模型、數(shù)據(jù)效用分析和風險分析功能,為我國數(shù)據(jù)匿名化工具的研發(fā)提供了很好的啟示。
生物醫(yī)學(xué)數(shù)據(jù)匿名化工具的研發(fā)比較重視數(shù)據(jù)匿名化處理算法模型研究,而容易忽視數(shù)據(jù)處理結(jié)果的可用性和風險評估。首先,過度的匿名化處理會導(dǎo)致過多的信息丟失,在開展臨床科學(xué)研究時,容易引起假陰性研究結(jié)果的出現(xiàn)。其次,數(shù)據(jù)匿名化處理后,由于處理粒度不足,或通過與其他數(shù)據(jù)關(guān)聯(lián),也存在個人信息被重識別的風險。ARX工具較好地考慮了數(shù)據(jù)匿名化處理的全鏈條,不僅提供了眾多可選擇的隱私模型,而且在效用評估和風險評價方面提供了較為豐富的評價指標和參數(shù)。因此,我國生物醫(yī)學(xué)數(shù)據(jù)匿名化工具研發(fā)時可以借鑒它,完善數(shù)據(jù)匿名化處理全流程,完善效用評估和風險評價功能。結(jié)合不同生物醫(yī)學(xué)數(shù)據(jù)的實際應(yīng)用場景(如科學(xué)研究、臨床應(yīng)用、跨域共享等),建立完善多維度數(shù)據(jù)效用評價和風險評價指標及技術(shù)方法,形成對匿名化處理方法和工具處理有效性的評估和及時反饋閉環(huán),探索實現(xiàn)隱私保護和數(shù)據(jù)利用的相對平衡,提高工具匿名化處理的效果和能力。
中文生物醫(yī)學(xué)數(shù)據(jù)來源廣泛,包括基礎(chǔ)調(diào)查、臨床、實驗室等多種來源,具有數(shù)據(jù)量大、關(guān)聯(lián)性強、類型多樣(如數(shù)值、時間/日期、字符等)等特點。不同來源和不同數(shù)據(jù)類型的匿名化處理需要使用合適的隱私模型和相關(guān)參數(shù)才能取得理想的匿名化處理結(jié)果。ARX 工具支持k-anonymity、?-diversity、t-closeness 等10 余種隱私模型和多種隱私參數(shù)設(shè)置,雖然有一部分的改進模型并未得到支持,但目前已經(jīng)能夠滿足大多數(shù)研究的數(shù)據(jù)匿名化處理需求。在我國數(shù)據(jù)匿名化工具的研發(fā)過程中,應(yīng)不斷研究和豐富工具所能支持的隱私模型,包括面向準標識符的隱私模型、面向敏感屬性的隱私模型和考慮人群唯一性的隱私模型等。同時還要保證工具的可拓展性,使工具可以隨著隱私模型的研究改進不斷進行更新迭代,從而滿足更廣泛的研究需求,并得到更優(yōu)的匿名化處理結(jié)果,從而提高研究效率。此外,ARX 工具實現(xiàn)隱私模型的算法主要集中在全域匿名化算法方面,提供的局域匿名化算法較少,減少泛化造成的信息損失的能力較弱。因此,在研發(fā)我國數(shù)據(jù)匿名化工具時,還需要拓展對局域匿名化算法的支持,使匿名化工具的應(yīng)用場景更加豐富和全面。
ARX 工具主要是針對結(jié)構(gòu)化數(shù)據(jù)的匿名化處理,雖然對結(jié)構(gòu)化數(shù)據(jù)提供了豐富的匿名化處理功能,但是缺乏對文本等非結(jié)構(gòu)化數(shù)據(jù)的處理功能。而生物醫(yī)學(xué)領(lǐng)域中存在大量的非結(jié)構(gòu)化數(shù)據(jù),需要對散落在非結(jié)構(gòu)化文本中的敏感信息進行識別和處理,如電子病歷數(shù)據(jù)中的現(xiàn)病史、既往史、主訴等部分的非結(jié)構(gòu)化文本描述。特別是中文數(shù)據(jù)中的專業(yè)術(shù)語、分詞和表達與英文數(shù)據(jù)存在較大差異,需要予以關(guān)注。敏感數(shù)據(jù)類型和特征識別也要結(jié)合國內(nèi)外發(fā)布的相關(guān)法律、法規(guī)和政策中對敏感數(shù)據(jù)或信息的范圍和類型的要求進行及時更新和補充。因此,在研發(fā)我國生物醫(yī)學(xué)數(shù)據(jù)匿名化工具時,還需要結(jié)合自然語言處理、深度學(xué)習(xí)、圖像識別等技術(shù),自動和半自動提取和識別電子病歷數(shù)據(jù)現(xiàn)病史中的準標識符和敏感屬性,并提供數(shù)據(jù)審查,支持泛化等匿名化處理功能進行數(shù)據(jù)處理,從而實現(xiàn)敏感信息的保護。
ARX 工具豐富的隱私模型和可自定義的參數(shù)設(shè)置,能夠滿足面向多種需求的數(shù)據(jù)處理需要,但同時,這種靈活性需要研究者了解隱私模型和掌握一定的數(shù)據(jù)匿名處理相關(guān)專業(yè)知識,對研究者使用該工具有一定門檻。而要達到較好的數(shù)據(jù)處理效果,也的確需要結(jié)合數(shù)據(jù)集特點和匿名化轉(zhuǎn)換目的調(diào)整和優(yōu)化數(shù)據(jù)匿名化處理方案,才能獲得較好的數(shù)據(jù)匿名化處理結(jié)果。因此,在研發(fā)我國生物醫(yī)學(xué)數(shù)據(jù)匿名化工具時,需要著重考慮用戶的應(yīng)用場景,提供快捷、易用的應(yīng)用入口,加強工具使用的指導(dǎo)性和引導(dǎo)性。另外,還需要增強工具的人性化設(shè)計,結(jié)合用戶使用習(xí)慣設(shè)計工具功能和流程,采用用戶可理解的方式描述并進行提示和說明,提供一鍵式自動化和分步檢查等不同運行方式滿足用戶需求。
此外,ARX 工具數(shù)據(jù)處理規(guī)模較大,適用范圍較廣,這也是許多研究者選擇使用ARX 工具進行數(shù)據(jù)匿名化處理的原因。隨著生物醫(yī)學(xué)研究數(shù)據(jù)規(guī)模的不斷增長,對數(shù)據(jù)匿名化工具的數(shù)據(jù)處理能力要求也在不斷增加,因此在工具研發(fā)時還需要在此基礎(chǔ)上繼續(xù)拓展,達到更大規(guī)模的數(shù)據(jù)處理能力,保障工具的實用性。
我國的數(shù)據(jù)匿名化工具的研發(fā)還處于探索階段。本文剖析了具有代表性的匿名化工具ARX 的功能架構(gòu),以Adult 數(shù)據(jù)集的匿名化處理為例介紹了ARX 工具的應(yīng)用流程。通過與其他匿名化工具的比較,本文歸納了ARX 工具的功能特點和不足之處,總結(jié)了隱私模型的原理、匿名化數(shù)據(jù)評價指標和重識別風險評估的內(nèi)涵,并在此基礎(chǔ)上提出了我國數(shù)據(jù)匿名化工具研發(fā)時需要重點關(guān)注的內(nèi)容。但因為篇幅的限制,本文也存在一定的不足,如未深入分析ARX 工具各隱私模型和功能指標的具體適用場景,對我國數(shù)據(jù)匿名化工具的研發(fā)僅提供了方向上的指導(dǎo)等。后續(xù)的研究中,可以增加場景化的研究,為數(shù)據(jù)匿名化工具的研發(fā)提供更全面、更具體的指導(dǎo)。