辛均益 陳如梵 王 林 唐丹葉 孫 琪 沈 濤 王 爽
(杭州醫(yī)學(xué)院 杭州310059) (杭州锘崴信息科技有限公司 杭州310053) (濟(jì)南大學(xué) 濟(jì)南250022)(杭州锘崴信息科技有限公司 杭州310053 (檢科測(cè)試集團(tuán)有限公司北京 100176) (1杭州锘崴信息科技有限公司 杭州310053) 2四川大學(xué)華西醫(yī)院 成都610041)
近年來(lái)隨著新技術(shù)不斷發(fā)展與深度融合應(yīng)用,生命科學(xué)和醫(yī)學(xué)領(lǐng)域數(shù)據(jù)規(guī)模正在迅速擴(kuò)增。以新一代測(cè)序技術(shù)應(yīng)用為例,每臺(tái)高通量的測(cè)序儀每天可產(chǎn)生約100 GB的基因組測(cè)序數(shù)據(jù)。在此背景下,生命科學(xué)與醫(yī)學(xué)基礎(chǔ)研究正在從實(shí)驗(yàn)科學(xué)向數(shù)據(jù)、人工智能驅(qū)動(dòng)的新方向發(fā)展。生物醫(yī)學(xué)數(shù)據(jù)的分散分布與存儲(chǔ)為大范圍數(shù)據(jù)應(yīng)用帶來(lái)全新挑戰(zhàn)。如果說(shuō)大數(shù)據(jù)是生命科學(xué)和醫(yī)學(xué)研究的重要基礎(chǔ),那么數(shù)據(jù)共享便是形成大數(shù)據(jù)的必要手段。醫(yī)學(xué)領(lǐng)域積累了海量數(shù)據(jù),但存儲(chǔ)相對(duì)分散,且敏感度高、類型多樣,導(dǎo)致較為嚴(yán)重的“數(shù)據(jù)孤島”問題。同時(shí),不同醫(yī)院、不同機(jī)構(gòu)之間存儲(chǔ)的數(shù)據(jù)也存在異構(gòu)、非獨(dú)立同分布等問題。為了最大程度利用相對(duì)分散的數(shù)據(jù)以服務(wù)各項(xiàng)生物醫(yī)學(xué)應(yīng)用,進(jìn)行數(shù)據(jù)共享十分必要,同時(shí)需將數(shù)據(jù)資源有效且安全地連接起來(lái)。
生物醫(yī)學(xué)研究中患者信息的隱私問題是不容回避的現(xiàn)實(shí)挑戰(zhàn)。醫(yī)療數(shù)據(jù)涉及患者隱私,具有特殊性和敏感性。2021年我國(guó)頒布的《中華人民共和國(guó)個(gè)人信息保護(hù)法》[1]中將醫(yī)療健康信息視為敏感信息,醫(yī)療行業(yè)中大量患者相關(guān)信息均會(huì)進(jìn)入敏感個(gè)人信息的范疇,此類信息包含診療過程中的病歷信息、不良反應(yīng)報(bào)告信息、臨床試驗(yàn)數(shù)據(jù)信息等。因此,在大數(shù)據(jù)應(yīng)用環(huán)境中保護(hù)好個(gè)人醫(yī)療相關(guān)隱私數(shù)據(jù)至關(guān)重要。盡管有相應(yīng)監(jiān)管要求,醫(yī)療數(shù)據(jù)的合規(guī)有序流通問題依然嚴(yán)峻?;颊呒?jí)明文數(shù)據(jù)過于敏感,不能直接共享,但生物醫(yī)學(xué)數(shù)據(jù)開放合作勢(shì)必為未來(lái)疾病防治帶來(lái)重大影響和突破,如何解決這兩者之間的沖突一直以來(lái)都是生物醫(yī)學(xué)數(shù)據(jù)開放方面的一個(gè)難點(diǎn)。針對(duì)這種兩難的境地,本文探討采用隱私計(jì)算安全技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理,在共享數(shù)據(jù)的可實(shí)施性和數(shù)據(jù)隱私安全之間進(jìn)行平衡。
針對(duì)醫(yī)療數(shù)據(jù)合規(guī)性的監(jiān)管相對(duì)分散,缺乏統(tǒng)一標(biāo)準(zhǔn)。這一點(diǎn)在跨境(域)醫(yī)療數(shù)據(jù)流動(dòng)上尤為明顯。我國(guó)針對(duì)醫(yī)療數(shù)據(jù)跨境(域)監(jiān)管要求分散在不同監(jiān)管部門和法律法規(guī)中,這些法律法規(guī)在不少環(huán)節(jié)上都有重疊。這意味著對(duì)于同一數(shù)據(jù)處理主體,當(dāng)涉及醫(yī)療數(shù)據(jù)跨境(域)時(shí),很可能同時(shí)受到多種法規(guī)監(jiān)管且這些法規(guī)之間各不相同,很難同時(shí)滿足所有要求。此外,國(guó)內(nèi)很多法律法規(guī)都提到當(dāng)涉及醫(yī)療數(shù)據(jù)跨境(域)時(shí),需要進(jìn)行安全評(píng)估,然而針對(duì)醫(yī)療場(chǎng)景的跨境(域)數(shù)據(jù)安全評(píng)估的具體量化標(biāo)準(zhǔn)仍有待明確,這無(wú)疑增加了醫(yī)療數(shù)據(jù)跨境(域)流動(dòng)難度。
傳統(tǒng)的隱私保護(hù)手段不夠完善,很難滿足現(xiàn)行法律對(duì)于隱私安全的要求,導(dǎo)致醫(yī)療數(shù)據(jù)流動(dòng)困難。以往在科研過程中會(huì)利用數(shù)據(jù)脫敏手段對(duì)需要共享的數(shù)據(jù)進(jìn)行處理,以保證科研過程中數(shù)據(jù)及隱私的安全性。然而數(shù)據(jù)脫敏已被證實(shí)存在一定漏洞。1997年的一項(xiàng)研究顯示[2],盡管通過傳統(tǒng)數(shù)據(jù)脫敏技術(shù),剔除了可以直接識(shí)別患者身份信息的識(shí)別符,然而脫敏后的數(shù)據(jù)結(jié)合公開的數(shù)據(jù)庫(kù)仍然可以重新識(shí)別某些個(gè)體的身份信息。為證明這并非個(gè)例,Sweeney團(tuán)隊(duì)進(jìn)行一項(xiàng)范圍更廣的研究[3]。結(jié)果顯示通過郵編、生日、性別的信息求交集,63%~87%美國(guó)人可被唯一確認(rèn)。此后Emam團(tuán)隊(duì)的研究則進(jìn)一步證實(shí),即便依照美國(guó)《健康保險(xiǎn)攜帶和責(zé)任法案》(Health Insurance Portability and Accountability Act, HIPAA)中安全港(Safe Harbor)脫敏方法[4],通過類似的背景信息求交集,大概每15 000名個(gè)體中就有兩名可以被重新識(shí)別[5]。類似的風(fēng)險(xiǎn)也存在于我國(guó)醫(yī)療數(shù)據(jù)中,一項(xiàng)有關(guān)我國(guó)患者數(shù)據(jù)隱私風(fēng)險(xiǎn)評(píng)估的研究顯示,我國(guó)患者脫敏后數(shù)據(jù)的重識(shí)別風(fēng)險(xiǎn)約為0.01%,與之前國(guó)外研究結(jié)果中的比例相當(dāng)。這項(xiàng)研究也是目前我國(guó)最大規(guī)模的患者數(shù)據(jù)隱私風(fēng)險(xiǎn)評(píng)估。這意味著,數(shù)據(jù)脫敏不等于匿名化,盡管經(jīng)過處理的數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)降低,但仍具有一定的泄露可能性。隱私泄露導(dǎo)致多方面的負(fù)面影響,如果所泄露的是基因數(shù)據(jù),其傷害還會(huì)蔓延至患者的血親及整個(gè)家族?!吨腥A人民共和國(guó)數(shù)據(jù)安全法》[7]《中華人民共和國(guó)個(gè)人信息保護(hù)法》[1]等法律法規(guī)嚴(yán)格規(guī)范了數(shù)據(jù)的安全流動(dòng)。其中《中華人民共和國(guó)個(gè)人信息保護(hù)法》規(guī)定“匿名化”是指?jìng)€(gè)人信息經(jīng)過處理無(wú)法識(shí)別特定自然人且不能復(fù)原的過程。因此數(shù)據(jù)脫敏并不等價(jià)于數(shù)據(jù)匿名化?!吨腥A人民共和國(guó)個(gè)人信息保護(hù)法》將匿名化的信息排除在“個(gè)人信息”概念以外,以便促進(jìn)數(shù)據(jù)利用與流通。此外,數(shù)據(jù)脫敏這類隱私保護(hù)手段還具有一定的使用場(chǎng)景局限性,無(wú)法處理特定類型數(shù)據(jù),如基因數(shù)據(jù)?;驍?shù)據(jù)具有唯一性,通過十幾個(gè)或幾十個(gè)基因位點(diǎn)就能夠識(shí)別出個(gè)體的身份[8],然而這些位點(diǎn)又有很重要的研究?jī)r(jià)值,簡(jiǎn)單地剔除這些位點(diǎn)雖然能夠?qū)崿F(xiàn)隱私安全保護(hù),但卻破壞了基因數(shù)據(jù)完整性,研究?jī)r(jià)值大幅降低。
數(shù)據(jù)脫敏是通過數(shù)據(jù)消隱、泛化、置換、擾動(dòng)等方法對(duì)原數(shù)據(jù)中的隱私信息進(jìn)行處理,以便降低數(shù)據(jù)中敏感信息的過程。數(shù)據(jù)脫敏的主要目的是保護(hù)個(gè)人身份信息、敏感的個(gè)人數(shù)據(jù)或業(yè)務(wù)數(shù)據(jù)。在美國(guó)HIPAA法案下,數(shù)據(jù)脫敏主要包括兩種方法,一種是專家模式,具有數(shù)學(xué)或者統(tǒng)計(jì)學(xué)背景的專業(yè)人士,通過統(tǒng)計(jì)學(xué)的方法來(lái)移除數(shù)據(jù)中的敏感信息。但這種方法無(wú)法提供明確的數(shù)據(jù)脫敏規(guī)則,在實(shí)際應(yīng)用中具有很大局限性。另一種被廣泛采用的方法是安全港,其規(guī)定18種識(shí)別符,通過移除這18種識(shí)別符號(hào)來(lái)降低身份及敏感信息泄露風(fēng)險(xiǎn)。數(shù)據(jù)脫敏的難點(diǎn)是脫敏后既要保護(hù)數(shù)據(jù)隱私,又要保持?jǐn)?shù)據(jù)可用性。數(shù)據(jù)脫敏處理過程主要包括敏感數(shù)據(jù)識(shí)別、制定脫敏策略、敏感數(shù)據(jù)處理、審計(jì)評(píng)估等階段。除之前所述的脫敏數(shù)據(jù)被重新識(shí)別風(fēng)險(xiǎn)以外,脫敏數(shù)據(jù)在共享過程中仍以明文傳輸,存在被復(fù)制后轉(zhuǎn)賣或超范圍使用甚至濫用的風(fēng)險(xiǎn),可見脫敏數(shù)據(jù)無(wú)法滿足生命科學(xué)和醫(yī)學(xué)研究發(fā)展要求。
數(shù)據(jù)安全沙箱是一個(gè)隔離的數(shù)據(jù)處理環(huán)境,用戶在一個(gè)受控的環(huán)境內(nèi)使用數(shù)據(jù)進(jìn)行分析,并在權(quán)限范圍內(nèi)獲得數(shù)據(jù)分析的相關(guān)結(jié)果,而非原始數(shù)據(jù),從而一定程度上解決數(shù)據(jù)共享過程中泄露和權(quán)限控制的問題。此外,安全沙箱提供隔離運(yùn)行環(huán)境,對(duì)于惡意代碼有防護(hù)作用,可以一定程度上避免對(duì)數(shù)據(jù)源方其他系統(tǒng)的影響。但是在多中心合作過程中,沙箱也面臨著新的挑戰(zhàn),例如怎樣找到一個(gè)多中心共信的沙箱進(jìn)行數(shù)據(jù)匯聚計(jì)算。
隱私計(jì)算是融合密碼學(xué)、系統(tǒng)安全、機(jī)器學(xué)習(xí)和硬件安全技術(shù)來(lái)有效解決數(shù)據(jù)共享過程中隱私安全保護(hù)的新興技術(shù)。隱私計(jì)算可以支持多個(gè)參與方在不泄露各自數(shù)據(jù)和機(jī)密信息的前提下,聯(lián)合參與計(jì)算和數(shù)據(jù)共享,以實(shí)現(xiàn)聯(lián)合建模和分析、隱私查詢、隱私求交等目的[9]。隨著人工智能和大數(shù)據(jù)的普及,隱私計(jì)算已經(jīng)成為數(shù)據(jù)安全和數(shù)據(jù)價(jià)值之間的橋梁和安全底座。利用隱私計(jì)算技術(shù),數(shù)據(jù)變得“可用而不可見”,實(shí)現(xiàn)原始數(shù)據(jù)無(wú)需共享下的多中心合作,多主體間的數(shù)據(jù)安全合規(guī)交換,平臺(tái)內(nèi)數(shù)據(jù)分級(jí)授權(quán)使用,確保數(shù)據(jù)安全可控。
機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析模型的效果跟訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)量、數(shù)據(jù)特征和數(shù)據(jù)質(zhì)量有著密切關(guān)系。較大的數(shù)據(jù)樣本量、豐富的數(shù)據(jù)維度和高質(zhì)量的數(shù)據(jù)往往是生物醫(yī)學(xué)研究中的前提條件。但由于生物醫(yī)學(xué)數(shù)據(jù)存儲(chǔ)往往比較分散,分布在不同機(jī)構(gòu)的不同系統(tǒng)中,且受限于數(shù)據(jù)共享法律和倫理限制,存在“數(shù)據(jù)孤島”問題。聯(lián)邦學(xué)習(xí)即是為了解決這個(gè)問題而提出的,其主要思想是多個(gè)數(shù)據(jù)源(如醫(yī)院、醫(yī)療研究機(jī)構(gòu)等)共同參與1個(gè)全局模型的構(gòu)建,每個(gè)數(shù)據(jù)源使用本地?cái)?shù)據(jù)進(jìn)行計(jì)算并生成相應(yīng)的本地模型統(tǒng)計(jì)信息(如模型的本地梯度),全局節(jié)點(diǎn)通過收集到的各數(shù)據(jù)源本地梯度進(jìn)行全局模型的更新并返回更新后的模型到各數(shù)據(jù)源,通過反復(fù)迭代直到全局模型收斂。聯(lián)邦學(xué)習(xí)使得全局模型的效果能夠與將數(shù)據(jù)共享集中起來(lái)訓(xùn)練的模型效果基本一致,甚至在某些場(chǎng)景下具有更強(qiáng)的魯棒性。有學(xué)者[10]在2012年提出醫(yī)療在線安全聯(lián)邦學(xué)習(xí)構(gòu)架,有效解決了多中心生物醫(yī)療數(shù)據(jù)協(xié)作過程中“數(shù)據(jù)可用不可見”和隱私保護(hù)問題。在聯(lián)邦學(xué)習(xí)執(zhí)行過程中數(shù)據(jù)仍保留在各數(shù)據(jù)源,各方僅提供梯度或模型中間結(jié)果,即便如此,該類中間信息仍可通過一定計(jì)算反推獲得部分原始數(shù)據(jù)信息,存在隱私信息泄露風(fēng)險(xiǎn)。因此有的場(chǎng)景會(huì)綜合利用同態(tài)加密、多方安全計(jì)算、可信執(zhí)行環(huán)境等多種隱私計(jì)算技術(shù)融合的方法來(lái)解決此類問題。
多方安全計(jì)算[11]是多個(gè)數(shù)據(jù)擁有者根據(jù)各自私有數(shù)據(jù)聯(lián)合計(jì)算,確保每方獲取聯(lián)合計(jì)算結(jié)果,且不泄露己方數(shù)據(jù)。多方安全計(jì)算為解決多中心環(huán)境下的信息安全協(xié)作共享提供一種新的計(jì)算模式,對(duì)多中心數(shù)據(jù)安全具有重要價(jià)值。但多方安全計(jì)算在執(zhí)行過程中的計(jì)算量和通信量十分龐大,對(duì)于網(wǎng)絡(luò)帶寬有限、算法復(fù)雜或數(shù)據(jù)量較大的任務(wù)場(chǎng)景具有一定局限性。
傳統(tǒng)數(shù)據(jù)運(yùn)算需要在明文上進(jìn)行,在數(shù)據(jù)擁有者需要將計(jì)算任務(wù)外包時(shí),相應(yīng)數(shù)據(jù)也需要交給任務(wù)執(zhí)行者,這帶來(lái)巨大的安全隱患。與一般關(guān)注數(shù)據(jù)存儲(chǔ)安全方案不同的是,同態(tài)加密主要解決的是數(shù)據(jù)處理安全問題。同態(tài)加密可以簡(jiǎn)單概括為實(shí)現(xiàn)密文上的特定運(yùn)算,且運(yùn)算結(jié)果通過解密后與明文計(jì)算的結(jié)果相同。這使得許多外包或多方協(xié)作場(chǎng)景對(duì)數(shù)據(jù)安全有了進(jìn)一步的保護(hù),通過傳輸加密數(shù)據(jù)、在加密數(shù)據(jù)上執(zhí)行運(yùn)算得到加密結(jié)果、傳輸加密結(jié)果、解密獲取結(jié)果這一流程實(shí)現(xiàn)不泄露數(shù)據(jù)隱私的協(xié)作運(yùn)算。盡管這一思想非常直觀簡(jiǎn)潔,但是目前同態(tài)加密算法只能執(zhí)行部分操作[12-13],對(duì)一些復(fù)雜的非線性計(jì)算仍需要消耗巨大的計(jì)算資源,離實(shí)際應(yīng)用落地還有很長(zhǎng)的路要走。
可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)通常指存在于計(jì)算機(jī)硬件上(如CPU)的一塊特定隔離區(qū)域(如Enclave),這塊區(qū)域可以給數(shù)據(jù)和代碼的執(zhí)行提供一個(gè)安全的空間,以保證機(jī)密性和完整性。可信執(zhí)行環(huán)境可以在不信任操作系統(tǒng)、虛擬機(jī)、基本輸入輸出系統(tǒng)(Basic Input Output System,BIOS)等底層資源的支持下,為特定區(qū)域內(nèi)的數(shù)據(jù)和技術(shù)提供安全保證??尚艌?zhí)行環(huán)境實(shí)現(xiàn)了安全性和可用性之間較好的平衡,然而其安全性依然在一定程度上依賴硬件設(shè)計(jì)的信任。一些研究表明可信執(zhí)行環(huán)境也面臨著例如測(cè)信道攻擊等相關(guān)問題[14]。
醫(yī)療大數(shù)據(jù)包含海量個(gè)人隱私信息,在進(jìn)行醫(yī)療數(shù)據(jù)合規(guī)共享時(shí)需要保證其全生命周期數(shù)據(jù)安全,需要對(duì)數(shù)據(jù)使用者和管理者操作行為進(jìn)行規(guī)范[15]。目前國(guó)際上對(duì)于個(gè)人健康醫(yī)療數(shù)據(jù)跨境流動(dòng)的專門標(biāo)準(zhǔn)并不多,2004年國(guó)際標(biāo)準(zhǔn)化組織發(fā)布的《健康信息學(xué)推動(dòng)個(gè)人健康信息跨國(guó)流動(dòng)的數(shù)據(jù)保護(hù)指南》提出,除保護(hù)數(shù)據(jù)主體切身利益所必要的傳輸之外,個(gè)人健康數(shù)據(jù)不應(yīng)傳輸,除非得到數(shù)據(jù)主體明確的授權(quán)。因此在使用醫(yī)療數(shù)據(jù)過程中需理清數(shù)據(jù)種類是什么,數(shù)據(jù)在哪,誰(shuí)在用,如何用,實(shí)現(xiàn)數(shù)據(jù)保護(hù)、數(shù)據(jù)形式合規(guī)與實(shí)質(zhì)合規(guī)。對(duì)我國(guó)而言,一方面,可通過完善醫(yī)療數(shù)據(jù)合規(guī)跨境的制度體系,推動(dòng)面向國(guó)際的數(shù)據(jù)流動(dòng);另一方面,還可探索數(shù)據(jù)跨境試點(diǎn)。此外,可參考?xì)W盟及其他國(guó)家經(jīng)驗(yàn),設(shè)立符合我國(guó)國(guó)情的多樣化合法流動(dòng)機(jī)制,以及指引性的數(shù)據(jù)跨境流動(dòng)協(xié)議范本。在形式合規(guī)方面,醫(yī)療數(shù)據(jù)安全合規(guī)體系的建立必須圍繞醫(yī)療數(shù)據(jù)全周期的運(yùn)行開展。相關(guān)企業(yè)和機(jī)構(gòu)應(yīng)首先確保根據(jù)本國(guó)法律法規(guī)要求,進(jìn)行數(shù)據(jù)分類分級(jí)。此外,建設(shè)完備的醫(yī)療數(shù)據(jù)跨境人員保障制度同樣必不可少,應(yīng)形成由決策層、管理層、執(zhí)行層、監(jiān)督層及協(xié)同層構(gòu)成的組織結(jié)構(gòu),同時(shí)加強(qiáng)人員培訓(xùn),通過配置檢查和旁站式驗(yàn)證確保相關(guān)制度落實(shí)。在實(shí)質(zhì)合規(guī)方面,相關(guān)方必須通過采取必要的技術(shù)措施,如隱私計(jì)算技術(shù),確保形式合規(guī)的充分落實(shí)和執(zhí)行,使跨境醫(yī)療數(shù)據(jù)在“可用不可見”模式下,實(shí)現(xiàn)可管、可控、可計(jì)量的共享。通過結(jié)合區(qū)塊鏈技術(shù),實(shí)現(xiàn)數(shù)據(jù)使用全流程可溯源、可追蹤,確保醫(yī)療數(shù)據(jù)跨境過程中的有效保護(hù)和合法利用,并使其處于持續(xù)安全的狀態(tài),避免數(shù)據(jù)出境及再轉(zhuǎn)移后被泄露、毀損、篡改、濫用等。一個(gè)完善的醫(yī)療數(shù)據(jù)隱私保護(hù)平臺(tái)應(yīng)具備3項(xiàng)核心功能,包括隱私合規(guī)多維的檢測(cè)、智能數(shù)據(jù)的分級(jí)分類與精細(xì)化安全管控,以及隱私計(jì)算與區(qū)塊鏈結(jié)合。
在實(shí)踐中,單一中心樣本量和樣本維度往往難以支撐一項(xiàng)研究的進(jìn)行,因此需要多家機(jī)構(gòu)、中心合作以增加樣本量、豐富數(shù)據(jù)維度。為了保護(hù)患者隱私,相關(guān)法律法規(guī)嚴(yán)格限制生物醫(yī)學(xué)數(shù)據(jù)的不安全流動(dòng),這也意味著需要將明文數(shù)據(jù)物理聚合的傳統(tǒng)集中式計(jì)算不再適用于醫(yī)療場(chǎng)景。聯(lián)邦學(xué)習(xí)等隱私計(jì)算技術(shù)可以在明文數(shù)據(jù)不出域的前提下,實(shí)現(xiàn)帶有隱私保護(hù)的跨中心數(shù)據(jù)協(xié)作、分析和建模,既滿足日益嚴(yán)格的隱私保護(hù)要求,又能促進(jìn)多方數(shù)據(jù)協(xié)作。有研究團(tuán)隊(duì)運(yùn)用聯(lián)邦學(xué)習(xí)等隱私計(jì)算技術(shù)開發(fā)帶有隱私保護(hù)的多中心全基因組關(guān)聯(lián)分析技術(shù)框架——iPRIVATES,用于強(qiáng)直性脊柱炎的研究[16]。利用iPRIVATES,通過分布式、聯(lián)邦式計(jì)算方式,實(shí)現(xiàn)在不分享明文數(shù)據(jù)(個(gè)體級(jí)基因數(shù)據(jù))前提下,構(gòu)建多中心臨床輔助診斷模型。研究結(jié)果顯示,分布式計(jì)算下算法耗時(shí)和靶點(diǎn)特征等價(jià)于物理聚合數(shù)據(jù)的集中式計(jì)算。同時(shí),由于分布式計(jì)算可以觸達(dá)更多數(shù)據(jù)源,該項(xiàng)研究中包含跨省的多家三甲醫(yī)院、高校數(shù)據(jù),其樣本量和數(shù)據(jù)維度相比于集中式計(jì)算更高,因此研究得出的結(jié)論更可靠、準(zhǔn)確且更具有普適性。另一個(gè)關(guān)于多中心隱私數(shù)據(jù)建模的案例則聚焦于罕見病。由于罕見病的特性,在臨床診斷中往往容易被誤診,例如該案例中研究的兒童川崎病,其早期癥狀并不典型,很容易與普通的呼吸道感染等疾病混淆,導(dǎo)致錯(cuò)失最佳治療時(shí)機(jī)。為解決這一問題,需要聯(lián)合更多數(shù)據(jù)對(duì)疾病進(jìn)行分析,找出致病的基因位點(diǎn),提供更多診斷依據(jù),使醫(yī)生能夠在臨床診斷中及早發(fā)現(xiàn)。該研究團(tuán)隊(duì)聯(lián)合國(guó)際川崎病聯(lián)盟,實(shí)現(xiàn)跨3國(guó)的多中心兒童川崎病數(shù)據(jù)聯(lián)合分析[17]。這項(xiàng)研究中仍然使用安全聯(lián)邦式計(jì)算結(jié)合可信執(zhí)行環(huán)境,在各數(shù)據(jù)源處部署本地計(jì)算節(jié)點(diǎn),完成本地計(jì)算后,通過交換加密的中間統(tǒng)計(jì)信息,構(gòu)建更為精確的全局模型。由于明文數(shù)據(jù)不出域,在保證患者隱私信息的同時(shí)也滿足各國(guó)不同的隱私政策要求。研究結(jié)果顯示其所使用的技術(shù)框架可以在分鐘級(jí)完成跨多個(gè)國(guó)家的聯(lián)合數(shù)據(jù)分析,且結(jié)果等價(jià)于集中式計(jì)算。
隨著醫(yī)院信息化程度的加深,臨床輔助診斷系統(tǒng)的普及率也越來(lái)越高。然而這其中存在一些隱私安全隱患。在臨床輔助診斷系統(tǒng)中,查詢條件、被查詢數(shù)據(jù)源、匹配信息、匹配結(jié)果等都是高敏感度數(shù)據(jù),不帶隱私保護(hù)的明文查詢很有可能導(dǎo)致患者身份及敏感信息泄露。一項(xiàng)由復(fù)旦大學(xué)附屬兒科醫(yī)院發(fā)起的研究項(xiàng)目中,將隱私計(jì)算應(yīng)用到兒童罕見病查詢網(wǎng)絡(luò)中,實(shí)現(xiàn)目標(biāo)條件隱私查詢。研究團(tuán)隊(duì)利用TEE等多種隱私計(jì)算技術(shù)保證查詢過程中的數(shù)據(jù)隱私安全。查詢過程中,通過自然語(yǔ)言處理,提取出查詢條件,在兒童罕見病網(wǎng)絡(luò)中進(jìn)行相似患者匹配,返回患者可能潛在存在的罕見病報(bào)告。其中,用戶輸入的查詢條件在加密狀態(tài)下與加密數(shù)據(jù)庫(kù)進(jìn)行匹配,生成加密的報(bào)告,為所有敏感數(shù)據(jù)和信息提供全流程隱私安全保護(hù)。
醫(yī)療臨床數(shù)據(jù)庫(kù)或?qū)2?shù)據(jù)網(wǎng)絡(luò)的構(gòu)建有助于提高科研效率,進(jìn)一步挖掘臨床數(shù)據(jù)價(jià)值,為臨床醫(yī)生提供更多真實(shí)世界證據(jù)、輔助臨床決策。通過隱私計(jì)算構(gòu)建帶有隱私保護(hù)的醫(yī)療臨床數(shù)據(jù)庫(kù)或?qū)2?shù)據(jù)網(wǎng)絡(luò)能夠解決其中存在的隱私安全隱患。在全球范圍內(nèi),結(jié)直腸癌 (Colorectal Cancer,CRC) 已成為僅次于肺癌和前列腺癌的男性第3大常見惡性腫瘤,也是女性中僅次于乳腺癌的第2大常見惡性腫瘤。人工智能的發(fā)展為 CTC 臨床信息預(yù)測(cè)、避免過度治療或治療不足帶來(lái)新機(jī)遇。臨床信息可以是腫瘤亞型、復(fù)發(fā)、死亡率和疾病進(jìn)展。中華醫(yī)學(xué)會(huì)消化外科結(jié)直腸癌學(xué)組將隱私計(jì)算技術(shù)應(yīng)用到類似醫(yī)療臨床數(shù)據(jù)庫(kù)的搭建中,實(shí)現(xiàn)全國(guó)范圍內(nèi)帶有隱私保護(hù)的結(jié)直腸癌數(shù)據(jù)共享。該項(xiàng)目支持每家醫(yī)院?jiǎn)为?dú)管理各自數(shù)據(jù)及密鑰,但不同醫(yī)院之間能在隱私計(jì)算技術(shù)的支持下進(jìn)行跨院的聯(lián)合數(shù)據(jù)統(tǒng)計(jì)、分析等,兼顧隱私保護(hù)和數(shù)據(jù)共享的雙重目標(biāo)。同時(shí),系統(tǒng)使用的TEE環(huán)境為英特爾軟件防護(hù)擴(kuò)展技術(shù)(Intel SGX)。該技術(shù)是一種基于硬件的隔離和內(nèi)存加密機(jī)制,對(duì)執(zhí)行的代碼和數(shù)據(jù)提供針對(duì)軟件和物理攻擊的額外保護(hù),其可信計(jì)算基僅包括處理器硬件和應(yīng)用程序代碼本身。通過提供一組擴(kuò)展指令集,可以將敏感信息及其處理邏輯放置在安全的飛地環(huán)境,防止系統(tǒng)管理員、操作系統(tǒng)等對(duì)信息的篡改和訪問。目前該數(shù)據(jù)庫(kù)已覆蓋全國(guó)24個(gè)省、60余家三甲醫(yī)院,為相關(guān)領(lǐng)域的科研項(xiàng)目提供高質(zhì)量的數(shù)據(jù)樣本支持,也進(jìn)一步推動(dòng)相關(guān)防治、干預(yù)措施的發(fā)展進(jìn)程。
生物醫(yī)學(xué)大數(shù)據(jù)的共享和聯(lián)合分析已經(jīng)成為現(xiàn)代醫(yī)學(xué)研究中必不可少的環(huán)節(jié),隱私計(jì)算通過技術(shù)手段為醫(yī)療數(shù)據(jù)價(jià)值在安全可控前提下的共享提供有效的安全保障,推動(dòng)醫(yī)療數(shù)據(jù)價(jià)值最大化利用。此外,在醫(yī)療領(lǐng)域廣泛推動(dòng)隱私計(jì)算應(yīng)用和數(shù)據(jù)安全共享,有助于提升醫(yī)療資源利用率。展望未來(lái),隱私計(jì)算也將推動(dòng)精準(zhǔn)醫(yī)學(xué)加速發(fā)展,助力醫(yī)療健康行業(yè)邁入全新發(fā)展階段。