許 瑩,馬小睦,岳 強 ,劉俊香,趙心明
1國家癌癥中心/國家腫瘤臨床醫(yī)學研究中心/中國醫(yī)學科學院北京協(xié)和醫(yī)學院腫瘤醫(yī)院,北京,100021;
2中國醫(yī)學科學院北京協(xié)和醫(yī)學院整形外科醫(yī)院,北京,100043;
3中國醫(yī)學科學院北京協(xié)和醫(yī)學院人文和社會科學學院,北京,100730;
4國家癌癥中心/國家腫瘤臨床醫(yī)學研究中心/中國醫(yī)學科學院北京協(xié)和醫(yī)學院腫瘤醫(yī)院,北京,100021
2019年9月12日國際癌癥研究機構(International Agency for Research on Cancer)發(fā)布的《2018年全球癌癥統(tǒng)計報告》顯示,2018年全球肺癌發(fā)病率及死亡率均穩(wěn)居榜首[1],且在中低收入國家每年有50%以上的肺癌患者死亡[2],而中國肺癌發(fā)病率高于全球水平。隨著大數(shù)據(jù)與深度學習神經(jīng)網(wǎng)絡在影像學中的應用與發(fā)展,人工智能(Artificial Intelligence, AI)在肺結節(jié)早期篩查及良惡性診斷中已有較多研究及應用[3-6],但由于數(shù)據(jù)來源受限、可利用度低及共享障礙等,其研究尚存在諸多局限。本文以更好地為肺癌患者及未來潛在患者服務為出發(fā)點,提出應將肺癌影像數(shù)據(jù)資源作為公共資源進行二次利用;在合理有效保護受試者權益的前提下推動科研的順利發(fā)展,充分發(fā)揮肺癌影像數(shù)據(jù)的潛在價值,推動影像數(shù)據(jù)在肺癌方向的病因學、診斷研究及相關對因治療的發(fā)展,最終降低肺癌的發(fā)病率及死亡率,造福肺癌患者和未來的潛在患者。
當前AI在肺結節(jié)診斷方面的研究主要根據(jù)肺結節(jié)的影像學特征,如結節(jié)大小、密度(CT值)、性質(實性結節(jié)SN/磨玻璃密度結節(jié)GGN)、征象(分葉征、毛刺征、臍凹征、血管集束征)等,但腫瘤征象并不是腫瘤所特有的,在臨床上,只有將臨床數(shù)據(jù)與影像數(shù)據(jù)相結合才能做出更準確的診斷。目前以隱私保護為前提的數(shù)據(jù)共享可能會選擇性地去除患者的一些敏感信息(如年齡、性別、居住地、吸煙史、病史等)[7],有時不能很好地滿足AI的數(shù)據(jù)分析。如能將肺癌影像數(shù)據(jù)作為公共資源二次使用,這將更好地實現(xiàn)二者的結合,進一步提高肺癌診斷的準確性。
影響肺癌發(fā)病的危險因素有很多:吸煙、PM2.5、性別、年齡、種族/民族、社會經(jīng)濟地位、遺傳因素、地理環(huán)境等[2, 8]。當前AI關于肺癌的影像學研究更多聚焦于篩查及診斷,屬于醫(yī)療產(chǎn)業(yè)鏈的偏后階段,對于影像數(shù)據(jù)與肺癌病因學相關性的分析較少,而這恰恰是減少肺癌發(fā)病率及死亡率的關鍵所在。如果將個人肺癌影像學數(shù)據(jù)作為公共資源,建立肺癌影像學數(shù)據(jù)庫,由政府主導進行數(shù)據(jù)庫的建設和數(shù)據(jù)采集,可以有效打破機構之間數(shù)據(jù)共享的壁壘,增加醫(yī)療機構或企業(yè)對數(shù)據(jù)的可獲得性,進一步挖掘數(shù)據(jù)的潛在價值,推動影像數(shù)據(jù)與肺癌病因學相關性研究,加快相關對因治療的發(fā)展進程,降低肺癌發(fā)病率與死亡率,使人類在肺癌的預防及治療層面邁上一個新臺階。
數(shù)據(jù)共享障礙主要源于以下幾個方面:①目前AI研發(fā)機構的數(shù)據(jù)幾乎均來自于與醫(yī)院的合作,但其合作的醫(yī)院數(shù)量有限,且合作醫(yī)院的患者肺癌影像數(shù)據(jù)同樣有限,導致數(shù)據(jù)來源缺乏廣泛性。只有千分之一的論文通過來自其他人群的影像數(shù)據(jù)來驗證其算法及診斷結果[9]。以有限數(shù)據(jù)進行算法訓練的軟件,其普適性是存在疑問的。②目前我國對個人數(shù)據(jù)所有權尚無明確規(guī)定,相關機構通常將自己與各醫(yī)院合作收集來的數(shù)據(jù)歸自己所有,如第三方需要數(shù)據(jù)分享,就要高價購買,這就必然導致數(shù)據(jù)流通成本的增加。③醫(yī)療機構為避免倫理及法律糾紛對于影像數(shù)據(jù)共享持消極態(tài)度。④采集到的影像數(shù)據(jù)還需經(jīng)臨床經(jīng)驗豐富的醫(yī)生標注才能使用,但不同醫(yī)院與軟件研發(fā)機構間的影像數(shù)據(jù)標注在標準、質量、格式等方面參差不齊,使數(shù)據(jù)共享在技術層面上存在障礙。如果建立一個全國性的肺癌公共影像數(shù)據(jù)庫,并制定標準的數(shù)據(jù)標注指南,AI軟件研發(fā)機構取得的肺癌影像數(shù)據(jù)將是從全國范圍內(nèi)聚合的數(shù)據(jù),且可有效避免醫(yī)療機構對于數(shù)據(jù)共享的消極性,提高數(shù)據(jù)質量及數(shù)據(jù)的可利用率,從而進一步提高AI軟件的精確性與普適性。
所謂公共資源,是由政府、個人或相關組織向社會所有成員提供的非營利性的商品或服務。美國國家醫(yī)學院(Institute of Medicine)2008年專門探討了將醫(yī)療保健數(shù)據(jù)作為公共資源的問題[10],并針對將臨床數(shù)據(jù)作為公共資源進行二次使用提出了兩個關鍵的倫理要求:①任何實體都無權直接從數(shù)據(jù)中獲利;②為促進醫(yī)療發(fā)展,應鼓勵和促進數(shù)據(jù)的傳播和使用。
第一點主要涉及數(shù)據(jù)所有權的問題,截至2021年2月,我國尚無立法對個人數(shù)據(jù)所有權進行明確規(guī)定,但學術界存在幾種不同的觀點:即個體對數(shù)據(jù)的所有權、企業(yè)等組織對數(shù)據(jù)的所有權、國家對數(shù)據(jù)的所有權、全人類對數(shù)據(jù)的所有權[11]。下文將上述觀點與影像數(shù)據(jù)庫的利用相結合,并一一評述。
2.1.1 肺癌患者對數(shù)據(jù)的所有權。該學說認為個人數(shù)據(jù)具有人格權屬性和財產(chǎn)權屬性,個人對于自身的相關信息應當具有所有權和控制權[11]。但我們也不得不思考其中的一些弊端:首先,如果簡單地將數(shù)據(jù)所有權僅賦予肺癌患者,即使經(jīng)過提取、重組和整合等途徑進行去識別化和匿名化處理后形成的聚合數(shù)據(jù)庫仍然屬于肺癌患者個人所有,軟件研發(fā)機構每次使用聚合數(shù)據(jù)時均要經(jīng)過患者同意,這勢必增加數(shù)據(jù)使用成本。其次,肺癌患者采集影像數(shù)據(jù)及其他臨床數(shù)據(jù)是為了其個人當前的疾病診療,當這一目的達成后,為進一步充分挖掘影像數(shù)據(jù)的潛在價值,以更好地服務于當前和未來的肺癌患者,可以考慮將這些數(shù)據(jù)作為公共資源進入影像數(shù)據(jù)庫進行二次使用。Faden等認為患者有義務為改善臨床護理質量以及衛(wèi)生保健系統(tǒng)做出貢獻[12]。而患者參與的方式,不僅僅是通過支付醫(yī)療服務費用、納稅或慈善捐款等,還可以通過提供數(shù)據(jù)、參與研究等,且后者的社會價值更大。
2.1.2 醫(yī)療機構對數(shù)據(jù)的所有權。這意味著醫(yī)療機構可以將數(shù)據(jù)進行轉賣。但醫(yī)療機構在對肺癌患者進行診療過程中已向患者收取了相應的費用,其勞動已得到回饋,醫(yī)療機構只是數(shù)據(jù)的暫存者,其對數(shù)據(jù)所有權的觀點難以成立。我們堅決反對醫(yī)療機構將數(shù)據(jù)“商品化”進行高價售賣及壟斷。當前關于數(shù)據(jù)售賣的例子已屢見不鮮:例如,2016年,為研究治療腎臟損傷的新方法,英國倫敦皇家自由醫(yī)院將約160萬名患者的信息交給“DeepMind”公司,因數(shù)據(jù)來源的合法性和正當性受到質疑,被英國信息委員會勒令整改[13]。市場的迫切需求將導致數(shù)據(jù)交易泛濫,進而造成患者數(shù)據(jù)安全隱患及隱私泄露可能。
2.1.3 AI軟件研發(fā)機構對于數(shù)據(jù)的所有權。該觀點認為,機構對于經(jīng)由自身搜集、整理形成的數(shù)據(jù)庫(即經(jīng)過匿名化處理,并保證無法通過其他技術手段再次識別到具體個人),應當享有所有權,僅在最初搜集個人原始數(shù)據(jù)時需要獲得用戶的同意[11]。對于肺癌影像數(shù)據(jù)庫來說,由于所有影像數(shù)據(jù)的提取、采集、保存均由數(shù)據(jù)庫相關管理人員及工作人員進行操作,AI軟件研發(fā)機構對數(shù)據(jù)僅有申請使用權,沒有所有權,因此軟件研發(fā)人員從數(shù)據(jù)本身獲利(如高價轉售數(shù)據(jù))是違反道德和法律的。
2.1.4 國家對數(shù)據(jù)的所有權。該學說認為國家代表著最廣大人民的根本利益,收集的個人數(shù)據(jù)大多用于公民本身或者其他公益目的,取之于民用之于民[11]。這就意味著國家可以對各個醫(yī)院、數(shù)據(jù)庫管理人員、AI軟件研發(fā)機構及個人在數(shù)據(jù)的采集、保存、提取等一系列過程中進行監(jiān)督和調(diào)控。但數(shù)據(jù)國有化也會產(chǎn)生一些弊端,比如可能對AI軟件研發(fā)機構及個人發(fā)揮抑制作用,或者可能導致數(shù)據(jù)政治化獨裁。由此可見,任何一方的數(shù)據(jù)壟斷都不利于數(shù)據(jù)的流通與共享。
2.1.5 全人類對數(shù)據(jù)的所有權。即數(shù)據(jù)歸社會全體人員所有[11]。這在一定程度上可以促進數(shù)據(jù)的流通,但也意味著數(shù)據(jù)處于無所有權狀態(tài),所有人都可以對數(shù)據(jù)庫中的數(shù)據(jù)任意支配、隨意使用而不需要承擔風險與責任,這樣勢必會導致混亂,包括無法保護個人隱私。
以上分析表明,數(shù)據(jù)所有權歸屬的各類主張利弊皆有,且當前倫理學界與法學界尚無定論。但數(shù)據(jù)所有權的爭議并不代表著數(shù)據(jù)流通與應用的停滯。如前所述,為促進醫(yī)療發(fā)展,應鼓勵和促進數(shù)據(jù)的傳播和使用。歐盟的《一般數(shù)據(jù)保護條例》在第一章第一條的“一般性規(guī)定”中提到“個人數(shù)據(jù)在歐盟境內(nèi)的自由流通不得因為在個人數(shù)據(jù)處理過程中保護自然人而被限制和禁止”[14],即不能因為個人利益最大化而禁止數(shù)據(jù)流通。本文提出建立肺癌公共影像數(shù)據(jù)庫,并不是想要確定數(shù)據(jù)所有權歸屬問題,而是表明該數(shù)據(jù)庫所產(chǎn)生的社會價值應由所有社會成員共享。本文只是提出建立一個全國性的數(shù)據(jù)庫,將各醫(yī)院肺癌患者的影像數(shù)據(jù)由數(shù)據(jù)庫管理人員按照統(tǒng)一標準進行采集、保存、提取、使用,在保證患者隱私安全的同時,促進影像數(shù)據(jù)的合理流通、共享和應用。
目前肺結節(jié)篩查主要使用低劑量螺旋CT(LDCT),有研究顯示,與X線胸片相比,在高危人群中進行LDCT篩查可降低20%的肺癌死亡率[15]。LDCT管電壓采用100KVp-140KVp,輻射較小[16],但與其他獲取影像數(shù)據(jù)的手段相比(這些手段會讓更多的人遭受額外輻射劑量),我們更應該發(fā)揮已有數(shù)據(jù)的潛在價值,即便是輻射劑量較低也應該避免。Larson等人認為從人類公益角度看,不使用已有臨床數(shù)據(jù)來開發(fā)有可能造福全人類的工具是不道德的[17-18]。
從數(shù)據(jù)本身的價值來看,肺癌影像數(shù)據(jù)對患者本人的直接價值在于它們在臨床診療過程中所起的重要作用。當這些數(shù)據(jù)被去標識化與匿名化處理并進行聚合時,就可以被視為AI軟件研發(fā)的原材料,不再具有個體屬性。軟件研發(fā)人員通過觀察并匯總群體特征,可了解群體共有的基本解剖結構、疾病病因學及發(fā)展過程,充分發(fā)揮已有數(shù)據(jù)的價值。從長遠看,肺癌患者及未來的潛在患者將會是最大受益者,因為肺癌影像數(shù)據(jù)與病因學的相關性研究勢必會推動對因治療方案的發(fā)展(如某個影像特征即對應病因或流行病學特點,或通過相關性研究發(fā)現(xiàn)新的可能病因),以期降低肺癌發(fā)病率和死亡率,這對于未來潛在患者及現(xiàn)患肺癌者都是有利的。
目前國際上關于數(shù)據(jù)保護較為權威的法律依據(jù)是2018年生效的歐盟《統(tǒng)一數(shù)據(jù)保護條例》[14]。該條例在第二章第六條“數(shù)據(jù)處理的合法性”中提到“為履行涉及公共利益的職責所必要的數(shù)據(jù)處理”為合法的數(shù)據(jù)處理。肺癌公共影像數(shù)據(jù)庫的宗旨也是如此:即在保護患者隱私與數(shù)據(jù)安全的前提下,為了公共利益,對肺癌患者的影像數(shù)據(jù)進行合理應用,以造福更多的肺癌現(xiàn)存患者及潛在患者。我們要避免兩個極端,既不能因追求個人利益最大化而禁止數(shù)據(jù)流通,也不能將公眾利益凌駕于個人利益之上而一味追求數(shù)據(jù)共享,需要在兩者間找到一個平衡點,在保證肺癌影像數(shù)據(jù)安全的同時,合理促進其共享與研究,增進人類福祉,這也是倫理研究與立法機制所追求的目標。
我們遵循知情同意的基本倫理原則,認為在初次數(shù)據(jù)采集過程中需要經(jīng)過患者的知情同意,而在影像數(shù)據(jù)經(jīng)過去標識化、匿名化處理采集、聚合入庫后,由于患者的敏感信息如姓名、身份證號碼、聯(lián)系方式等已進行加密或匿名處理,無法通過現(xiàn)有技術手段識別到患者本人,我們即認為該數(shù)據(jù)庫脫離了個人數(shù)據(jù)的范疇,以聚合的數(shù)據(jù)形式保存于數(shù)據(jù)庫中。在后期軟件研發(fā)機構對數(shù)據(jù)進行提取應用時,不需要就數(shù)據(jù)再次履行知情同意程序,其原因如下:首先,由于以后各個申請數(shù)據(jù)使用的軟件研發(fā)機構的研究方向及數(shù)據(jù)處理方式具有不確定性,可能永遠無法做到完全的知情同意。其次,經(jīng)過去識別化處理的數(shù)據(jù)進行再次知情同意需要經(jīng)過數(shù)據(jù)解碼才能聯(lián)系到患者個人,且數(shù)據(jù)量龐大,這就意味著以后每次數(shù)據(jù)提取都要投入大量時間及人力成本進行再次知情同意;而經(jīng)過匿名化處理的數(shù)據(jù)已不可能再聯(lián)系到個人,再次知情同意已不可能。Larson等人提出在符合以下條件時可免除知情同意進行臨床數(shù)據(jù)的二次使用:個人隱私得到妥善保護;數(shù)據(jù)被用于研究時是以聚合形式;僅用于對未來患者有益的目的,并已建立了機構監(jiān)督機制;通過公共網(wǎng)站或其他便捷方式讓患者了解他們的數(shù)據(jù)被如何使用[18]。上海市臨床研究倫理委員會發(fā)布的《人類生物樣本庫倫理審查范本》中也提到,“樣本具有較大的科學意義和社會價值,且研究項目不涉及商業(yè)利益的,倫理委員會審查批準后,可以免除知情同意”[19]。肺癌影像數(shù)據(jù)的再次使用是以公益性為目的,以數(shù)據(jù)聚合的形式用于具有巨大社會價值的研究。我們有理由相信,只要建立完善的倫理審查委員會,在保證數(shù)據(jù)安全、不泄露患者隱私的條件下,免除數(shù)據(jù)使用的再次知情同意是合乎道德的。如果可能,我們也建議政府建立相應的網(wǎng)站或查詢平臺,以便于患者追蹤了解自身肺癌影像數(shù)據(jù)的使用狀況。
2.4.1 個人信息與可識別性。影響深遠的《世界經(jīng)合組織隱私指南》、《亞太隱私框架》以及《歐盟1995年個人數(shù)據(jù)保護指令》均將個人信息定義為“與已識別或可識別的人有關的任何信息”[7]。即,當人具有可識別性時,與之相關的任何信息均為個人信息,識別性是個人信息的賦權基礎。根據(jù)《最高人民法院、最高人民檢察院關于辦理侵犯公民個人信息刑事案件適用法律若干問題的解釋》,公民個人信息即“能夠單獨或者與其他信息結合識別特定自然人身份或者反映特定自然人活動情況的各種信息”,其可識別性的特征非常突出。對于肺癌影像數(shù)據(jù)庫中的數(shù)據(jù)而言,若要保證數(shù)據(jù)安全并進行隱私保護,就必須消除影像數(shù)據(jù)的可識別性,尤其是對于AI軟件研發(fā)機構及研發(fā)人員的可識別性,使其脫離可識別的個人信息范疇。
2.4.2 隱私保護方案。我們認為在影像數(shù)據(jù)采集前,應由肺癌影像數(shù)據(jù)庫管理者及工作人員對患者進行當前條件下的初次知情同意,在尊重患者意愿的前提下進行操作。數(shù)據(jù)采集及保存、數(shù)據(jù)提取與使用等過程均與隱私保護密切相關,需采取有效的保護措施。
數(shù)據(jù)采集及保存。在數(shù)據(jù)采集過程中就使用去識別化及匿名化措施進行隱私保護。去標識化,是通過對個人信息的適當處理,使其在不借助額外信息的情況下,無法識別個人信息主體的過程[20]。對于肺癌影像數(shù)據(jù)的去標識化,可將身份信息用一對一無關代號表示,AI軟件研發(fā)人員只能接觸到代號,由數(shù)據(jù)庫負責人掌握代號與身份關聯(lián)的密鑰,而解碼必須制定相應規(guī)定。舉例而言,“00123,70歲,肺癌患者”為軟件研發(fā)人員拿到的信息,而“00123與李明”的對應關系密鑰由數(shù)據(jù)庫負責人保管,且只有符合相關規(guī)定時才可被允許解碼。而匿名化處理則是不可逆的,如果最初收集肺癌影像數(shù)據(jù)時進行了匿名化處理就意味著完全去除了數(shù)據(jù)中的個人標識符,數(shù)據(jù)提供者與其數(shù)據(jù)之間不存在任何聯(lián)系。與之相對應,關于數(shù)據(jù)保存,也可以采用去標識化與匿名化兩種保存方法。
數(shù)據(jù)提取與使用。對于AI軟件研發(fā)公司及研發(fā)人員需要的數(shù)據(jù)提取,我們認為其研究目的必須是公益性的,并要與影像數(shù)據(jù)庫簽訂保密協(xié)議。比如不從數(shù)據(jù)中試圖識別任何個人信息,不與其他數(shù)據(jù)庫連接,不進行數(shù)據(jù)的復刻、改造與破壞,不將數(shù)據(jù)泄露給第三方,并且為個人及機構導致的數(shù)據(jù)泄露及隱私侵犯行為承擔法律責任等。而該公益性研究目的應由倫理委員會評估鑒定,并對研究過程及成果進行倫理審查和監(jiān)督。
如果能建立上述數(shù)據(jù)采集、保存、提取、使用的方案,就能在保證患者隱私及數(shù)據(jù)安全的前提下,實現(xiàn)肺癌影像數(shù)據(jù)的二次使用,為肺癌患者帶來福音。隨著AI技術的發(fā)展,去標識化的實現(xiàn)方式不是一成不變的,絕對匿名化與可識別信息的界限也變得越來越模糊[7],為保證影像數(shù)據(jù)庫的隱私安全,我們反對AI軟件研發(fā)機構將影像數(shù)據(jù)庫與其他數(shù)據(jù)庫連接,如人口統(tǒng)計信息數(shù)據(jù)庫等,這可能導致匿名化信息不可逆地變成可識別信息。我們也堅決反對AI軟件研發(fā)機構或研發(fā)人員私自將數(shù)據(jù)轉交給第三方使用,更反對數(shù)據(jù)的公開披露,因為不能保證公開披露后不受限制的數(shù)據(jù)使用均是以公益性為目的。
要實現(xiàn)識別風險為零以及匿名化的絕對性和永久性,難度確實很大。這就要求肺癌影像數(shù)據(jù)庫管理者與時俱進,定期評估剩余風險;選擇恰當?shù)娜俗R化與匿名化模型和技術措施;評估對識別風險的控制手段是否足夠且匹配;監(jiān)控并及時發(fā)現(xiàn)新的識別風險;若有新的識別風險,則需要重新進行匿名化處理等[21]。
以上探討了保障數(shù)據(jù)安全和隱私保護的技術性原則,以下論證倫理學方面的保障措施。與對違規(guī)事件進行被動的事后批評制裁策略相比,主動采用倫理審查委員會事先的評估防范策略顯得更為可取[22]。
關于AI的倫理審查,需要由醫(yī)學、計算機科學、法學、倫理學等不同領域的專家共同協(xié)商審查。迄今為止,完善的AI倫理審查系統(tǒng)尚未建立。這是因為許多人工智能的研發(fā)都是在私營企業(yè)中進行的,尚未經(jīng)過多學科的評估[23],這些研發(fā)機構為保證數(shù)據(jù)獨特性及AI軟件的市場價值,勢必進行數(shù)據(jù)壟斷,從而阻礙影像數(shù)據(jù)在各機構間的共享,更難實現(xiàn)不同學科間的共享,這在一定程度上阻礙了AI多學科間的同步發(fā)展。而肺癌公共影像數(shù)據(jù)庫則能消除壟斷危險,任何以公益性為目的的數(shù)據(jù)使用申請均可得到批準,且數(shù)據(jù)來源多元廣泛,這必將促進AI在諸多領域的共同發(fā)展,促進不同學科專家間進行同水平、同階段的技術及倫理學探討,為多學科合作、評估和監(jiān)管提供可能,并有望促進AI倫理學審查機制的建立、發(fā)展和完善。
為了更好地服務于肺癌患者及未來潛在患者,我們主張將肺癌影像數(shù)據(jù)作為公共資源進行二次使用。本文為這一設想提供了一個合理的倫理學框架并加以論證。我們希望以此突破AI在當前肺癌研究中存在的數(shù)據(jù)來源、使用及共享方面的障礙,充分挖掘和利用肺癌影像數(shù)據(jù)的潛在價值,促進肺癌影像數(shù)據(jù)與病因學的相關性研究、推動對因治療方案的發(fā)展,最終降低肺癌發(fā)病率及死亡率,更好地促進人類健康。