劉再毅,石鎮(zhèn)維
近年來(lái),人工智能(artificial intelligence,AI)技術(shù)在醫(yī)學(xué)影像領(lǐng)域的發(fā)展與應(yīng)用備受關(guān)注。在眾多醫(yī)療健康領(lǐng)域中,醫(yī)學(xué)影像的圖像數(shù)據(jù)量大且采用全球標(biāo)準(zhǔn)統(tǒng)一的DICOM存儲(chǔ)格式,有望成為AI最先實(shí)現(xiàn)突破的領(lǐng)域之一[1]。
目前,AI在醫(yī)學(xué)影像領(lǐng)域的臨床應(yīng)用主要在影像診斷環(huán)節(jié),多集中于病變檢出、識(shí)別,以及良惡性判斷等。一方面,利用AI的感知與認(rèn)知性能對(duì)醫(yī)學(xué)影像進(jìn)行識(shí)別,挖掘其重要信息,為經(jīng)驗(yàn)不足的影像科醫(yī)生提供幫助,從而提高閱片效率;另一方面,通過(guò)機(jī)器學(xué)習(xí)對(duì)大量影像數(shù)據(jù)和臨床信息進(jìn)行整合并訓(xùn)練AI系統(tǒng),使其具備診斷疾病的能力,有利于降低影像科醫(yī)生漏診率[2]。相比現(xiàn)有的影像科工作模式,AI系統(tǒng)不受外界因素的干擾并時(shí)刻保持高效連續(xù)的工作狀態(tài),有助于提升影像科醫(yī)生閱片的效率和質(zhì)量。
此外,近年來(lái)醫(yī)學(xué)影像AI相關(guān)研究也備受關(guān)注,尤其在腫瘤領(lǐng)域的應(yīng)用,包括腫瘤的定性、臨床分級(jí)分期、基因分析、療效評(píng)估和預(yù)后預(yù)測(cè)等。作為醫(yī)學(xué)影像AI研究的重要內(nèi)容,影像組學(xué)通過(guò)深度挖掘醫(yī)學(xué)影像中的高通量特征來(lái)描述病變的生物學(xué)特點(diǎn),進(jìn)而實(shí)現(xiàn)無(wú)創(chuàng)、全面、動(dòng)態(tài)量化病變的時(shí)間和空間異質(zhì)性,對(duì)于疾病的精準(zhǔn)診療、預(yù)后預(yù)測(cè)具有重要的臨床價(jià)值[3-5]。
盡管醫(yī)學(xué)影像AI研究在國(guó)內(nèi)外蓬勃發(fā)展,但基于AI模型的預(yù)測(cè)結(jié)果與疾病的發(fā)生、進(jìn)展以及影像表征之間的關(guān)系尚不清晰,僅依靠機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,不足以解釋醫(yī)學(xué)影像與臨床終點(diǎn)之間的關(guān)系[4]。此外,醫(yī)學(xué)影像AI研究需要醫(yī)學(xué)數(shù)據(jù)驅(qū)動(dòng),因此數(shù)據(jù)標(biāo)注、數(shù)據(jù)標(biāo)準(zhǔn)化、樣本的數(shù)據(jù)和多樣性、模型泛化性以及生物學(xué)可解釋性等都是研究成敗的關(guān)鍵因素,同時(shí)也是目前該領(lǐng)域研究的重要方向[4,6-7]。另外,在全球范圍內(nèi)對(duì)數(shù)據(jù)隱私保護(hù)的重視使數(shù)據(jù)隱私安全問(wèn)題愈發(fā)突出,加劇了數(shù)據(jù)孤島現(xiàn)象的產(chǎn)生[5]。如何合法合規(guī)地聯(lián)合國(guó)內(nèi)外多中心開展醫(yī)學(xué)影像AI研究成為當(dāng)下的研究熱點(diǎn)。
2.1 醫(yī)學(xué)影像數(shù)據(jù)標(biāo)準(zhǔn)化 醫(yī)學(xué)影像數(shù)據(jù)標(biāo)準(zhǔn)化問(wèn)題來(lái)自于行業(yè)本身以及AI技術(shù)的需求。目前普遍缺乏高質(zhì)量的訓(xùn)練數(shù)據(jù),現(xiàn)有的數(shù)據(jù)集標(biāo)準(zhǔn)多樣、系統(tǒng)偏差較大,缺乏對(duì)疾病的統(tǒng)一認(rèn)識(shí)。其次,缺乏對(duì)數(shù)據(jù)和標(biāo)注數(shù)據(jù)統(tǒng)一且清晰的標(biāo)準(zhǔn)化描述,導(dǎo)致機(jī)器學(xué)習(xí)與數(shù)據(jù)之間產(chǎn)生交互障礙、機(jī)器錯(cuò)誤理解數(shù)據(jù)的真實(shí)含義,因此亟待從技術(shù)上解決醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化的問(wèn)題。
在2016年,國(guó)際組織FORCE11正式提出了FAIR科學(xué)數(shù)據(jù)管理準(zhǔn)則[8],強(qiáng)調(diào)了數(shù)據(jù)的科學(xué)管理、使用以及數(shù)據(jù)標(biāo)準(zhǔn)化的重要性,提出數(shù)據(jù)應(yīng)可查詢(Findable)、可訪問(wèn)(Accessible)、可交互(Interoperable)、可再用(Reusable)。FAIR數(shù)據(jù)準(zhǔn)則通過(guò)對(duì)醫(yī)學(xué)影像數(shù)據(jù)的采集、處理、使用,以及管理等方面進(jìn)行標(biāo)準(zhǔn)化描述及溯源,為醫(yī)學(xué)影像AI研究提供了標(biāo)準(zhǔn)化數(shù)據(jù)保障。其重要核心目標(biāo)之一是實(shí)現(xiàn)機(jī)器對(duì)數(shù)據(jù)的可操作性,即在無(wú)人為干預(yù)的情況下,機(jī)器(計(jì)算機(jī))可對(duì)相應(yīng)數(shù)據(jù)進(jìn)行自動(dòng)化操作。因此,F(xiàn)AIR科學(xué)數(shù)據(jù)管理準(zhǔn)則有望實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化,輔助構(gòu)建AI模型,應(yīng)用于疾病臨床診療領(lǐng)域[9]。
2.2 模型泛化性AI模型的泛化性對(duì)其臨床應(yīng)用至關(guān)重要[10]。簡(jiǎn)單來(lái)說(shuō),模型的泛化性體現(xiàn)在兩方面:①可復(fù)現(xiàn)性,反映預(yù)測(cè)模型在相似分布數(shù)據(jù)上的表現(xiàn);②可遷移性,反映預(yù)測(cè)模型在不同分布數(shù)據(jù)上的表現(xiàn)[11],這里所謂的不同主要指時(shí)間、治療方案、地理等信息。然而,實(shí)際情況是多數(shù)AI模型在訓(xùn)練數(shù)據(jù)上性能表現(xiàn)優(yōu)異,但在內(nèi)部和外部獨(dú)立驗(yàn)證時(shí)無(wú)法呈現(xiàn)穩(wěn)定的表現(xiàn),即模型的泛化性差??赡艿脑蛴泻芏?,如數(shù)據(jù)的樣本量、樣本的多樣性不足;數(shù)據(jù)標(biāo)注一致性差;特征篩選方法欠佳,未能找到反映腫瘤異質(zhì)性的穩(wěn)定且通用的特征等。因此,如何提升模型泛化性是目前醫(yī)學(xué)影像AI領(lǐng)域亟需解決的問(wèn)題。
首先,通過(guò)增加數(shù)據(jù)樣本量和數(shù)據(jù)多樣性可提升模型的泛化性,因此多中心研究是未來(lái)的發(fā)展方向;通過(guò)聯(lián)合多中心數(shù)據(jù)可以解決樣本量和多樣性的問(wèn)題。其次,由于病灶與醫(yī)學(xué)圖像相比尺寸較小,屬于大視野、小目標(biāo)問(wèn)題;常規(guī)的方法是先對(duì)病灶區(qū)域(即感興趣區(qū)域)進(jìn)行標(biāo)注,然后對(duì)標(biāo)注區(qū)域中定量影像特征進(jìn)行量化分析。以往研究[6]表明人工標(biāo)注的方式不可避免地存在人為誤差,導(dǎo)致AI模型泛化性差。因此,采用全自動(dòng)或半自動(dòng)標(biāo)注方式,可提高標(biāo)注的一致性,提升影像特征的可復(fù)現(xiàn)性,進(jìn)而提升模型的泛化能力。
2.3 生物學(xué)可解釋性 醫(yī)學(xué)影像生物標(biāo)志物的挖掘幾乎完全依靠數(shù)據(jù)驅(qū)動(dòng),通過(guò)深度挖掘影像特征與臨床終點(diǎn)事件之間的關(guān)系,探索反映疾病發(fā)生和進(jìn)展的生物標(biāo)志物。然而,當(dāng)缺乏生物學(xué)可解釋性時(shí),醫(yī)學(xué)影像AI系統(tǒng)則難以應(yīng)用于臨床[12]。因此,探究醫(yī)學(xué)影像AI模型的生物學(xué)意義將是其獨(dú)立輔助臨床診療的關(guān)鍵一步。
由于傳統(tǒng)影像組學(xué)手工特征具有完整的公式與定義,與醫(yī)學(xué)影像診斷學(xué)中對(duì)病灶描述的語(yǔ)義特征關(guān)系緊密,因此可用于近似解釋影像組學(xué)特征的潛在生物學(xué)意義。然而,基于深度學(xué)習(xí)的特征具有“黑盒子”的特點(diǎn)[12],無(wú)準(zhǔn)確、完整的公式與定義,因此缺乏生物學(xué)可解釋性。常用的方法是通過(guò)建立特征熱力圖對(duì)深度學(xué)習(xí)模型的決策進(jìn)行反向推理,探索模型的注意力區(qū)域是否具有臨床診斷決策意義。然而,熱力圖方法無(wú)法真正地滿足生物學(xué)可解釋性的要求,誤差較大。此外,醫(yī)學(xué)影像AI研究中可能會(huì)發(fā)現(xiàn)一些生物學(xué)潛在的關(guān)系,例如某些具有高預(yù)測(cè)能力的影像特征可能與某些特定基因或蛋白的高度表達(dá)相關(guān),那么通過(guò)探究該基因或蛋白與臨床終點(diǎn)事件之間關(guān)系,可進(jìn)一步提升AI模型的生物學(xué)可解釋性[13]。
2.4 醫(yī)學(xué)“數(shù)據(jù)孤島”與隱私保護(hù) 在過(guò)去的十余年中,數(shù)據(jù)量、算法和高性能計(jì)算設(shè)備都有了明顯的發(fā)展,AI展現(xiàn)出了高效化和規(guī)?;纳鐣?huì)化應(yīng)用潛力。其中,基于醫(yī)學(xué)影像(如放射影像[10,12]和數(shù)字病理[14-15])的AI系統(tǒng)在輔助疾病診療方面的潛在應(yīng)用價(jià)值巨大,已經(jīng)成為學(xué)術(shù)界與工業(yè)界共同關(guān)注的焦點(diǎn)。然而,醫(yī)學(xué)影像數(shù)據(jù)具有長(zhǎng)尾效應(yīng),除了有限的高發(fā)病種外,更多的疾病屬于小數(shù)據(jù);并且分散在不同中心、不同科室的圖像儲(chǔ)存系統(tǒng)內(nèi),因此形成了一個(gè)個(gè)缺乏有效溝通的“數(shù)據(jù)孤島”[7]。其次,隨著相關(guān)法律、法規(guī)的逐步完善以及公眾對(duì)數(shù)據(jù)隱私保護(hù)意識(shí)的不斷增強(qiáng),更難于將散落在各個(gè)“孤島”的數(shù)據(jù)匯聚成中心化的大數(shù)據(jù)[16]。
隨著全球范圍內(nèi)對(duì)數(shù)據(jù)隱私保護(hù)的日益重視,數(shù)據(jù)安全問(wèn)題愈發(fā)突出,進(jìn)而加劇了“數(shù)據(jù)孤島”現(xiàn)象。例如歐洲的《通用數(shù)據(jù)保護(hù)條例》(general data protection regulation,GDPR)對(duì)個(gè)人醫(yī)療健康相關(guān)數(shù)據(jù)的存儲(chǔ)和交換做出了嚴(yán)格規(guī)定,即在使用前需要認(rèn)證、授權(quán)、清晰責(zé)任與義務(wù),起到對(duì)數(shù)據(jù)所有權(quán)和AI產(chǎn)品監(jiān)管的作用[17-18]。盡管有上述明確的法律法規(guī),但在實(shí)際操作中,濫用醫(yī)學(xué)影像數(shù)據(jù)的現(xiàn)象屢見(jiàn)不鮮,數(shù)據(jù)隱私安全問(wèn)題仍然是醫(yī)學(xué)影像人工智能AI技術(shù)在疾病診療方面落地的難題,也因此難以開展多中心數(shù)據(jù)構(gòu)建AI模型的研究,從而嚴(yán)重阻礙了醫(yī)學(xué)影像AI賦能疾病診療。如何從技術(shù)上解決醫(yī)學(xué)影像領(lǐng)域“數(shù)據(jù)孤島”、數(shù)據(jù)隱私安全及數(shù)據(jù)行業(yè)標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題,進(jìn)而開發(fā)出更加高效、準(zhǔn)確的AI疾病診療系統(tǒng)是當(dāng)下亟需突破的難關(guān)。
2.5 聯(lián)邦學(xué)習(xí)與群體學(xué)習(xí)2017年,谷歌提出了新一代聯(lián)邦學(xué)習(xí)的概念[19],隨后聯(lián)邦學(xué)習(xí)被應(yīng)用到眾多領(lǐng)域,其目標(biāo)就是解決“數(shù)據(jù)孤島”和數(shù)據(jù)隱私保護(hù)之間的矛盾。通過(guò)建立數(shù)據(jù)聯(lián)邦,在保證數(shù)據(jù)隱私安全、合法合規(guī)的前提下,在多中心或多計(jì)算節(jié)點(diǎn)之間開展高效的機(jī)器學(xué)習(xí)。簡(jiǎn)單來(lái)說(shuō),聯(lián)邦學(xué)習(xí)可實(shí)現(xiàn)基于多中心數(shù)據(jù)共同建模,且有利于保護(hù)數(shù)據(jù)隱私安全,推動(dòng)AI技術(shù)的持續(xù)發(fā)展。因數(shù)據(jù)與特征維度不同,聯(lián)邦學(xué)習(xí)可分為橫向?qū)W習(xí)、縱向?qū)W習(xí)和遷移學(xué)習(xí)[20]。在醫(yī)學(xué)領(lǐng)域,聯(lián)邦學(xué)習(xí)已被用于肺癌生存分析[21-22]、新型冠狀病毒肺炎(COVID-19)[23-24]等方面的研究且應(yīng)用范圍漸趨廣泛。
202 1 年,Warnat-Herresthal等[25]提出群體學(xué)習(xí)的概念。群體學(xué)習(xí)是將聯(lián)邦和區(qū)塊鏈結(jié)合于一體的去中心化的分布式學(xué)習(xí)方法。與聯(lián)邦學(xué)習(xí)不同的是,群體學(xué)習(xí)不需要設(shè)置專門負(fù)責(zé)模型分發(fā)與聚合的全局統(tǒng)籌中心服務(wù)器,而是在區(qū)塊鏈對(duì)等網(wǎng)絡(luò)機(jī)制運(yùn)行下,在每次模型聚合時(shí),隨機(jī)指定一個(gè)客戶端充當(dāng)中心服務(wù)器的職能進(jìn)行模型聚合,真正地實(shí)現(xiàn)了去中心化。除此之外,群體學(xué)習(xí)還將有關(guān)模型訓(xùn)練、聚合和參與者之間的協(xié)議打包載入?yún)^(qū)塊鏈,以保證訓(xùn)練信息的安全性、透明性和公平性。
總體來(lái)說(shuō),醫(yī)學(xué)影像AI的臨床落地面臨著諸多挑戰(zhàn),如醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化,模型泛化性,模型生物學(xué)可解釋性,“數(shù)據(jù)孤島”和隱私安全。但隨著科學(xué)技術(shù)的發(fā)展,針對(duì)上述挑戰(zhàn)不斷有新方法涌現(xiàn)。對(duì)于這些新方法的開發(fā)與探索,是學(xué)術(shù)界的主要研究方向,也是工業(yè)界的關(guān)注熱點(diǎn)。
我國(guó)的醫(yī)學(xué)影像AI(包括影像組學(xué))發(fā)展至今已經(jīng)取得了階段性的成功。醫(yī)學(xué)數(shù)據(jù)作為醫(yī)學(xué)影像AI的主要原料,在AI系統(tǒng)構(gòu)建中起到關(guān)鍵作用。然而,與國(guó)外先進(jìn)團(tuán)隊(duì)相比,我們依然有很大差距。下面我們將從醫(yī)學(xué)影像AI標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)的構(gòu)建展望未來(lái)。
近年來(lái),隨著醫(yī)療條件的不斷改善以及醫(yī)院信息化程度的不斷提高,醫(yī)學(xué)影像數(shù)據(jù)呈現(xiàn)暴發(fā)式增長(zhǎng)。據(jù)《2018年醫(yī)療人工智能技術(shù)與應(yīng)用白皮書》統(tǒng)計(jì),目前我國(guó)醫(yī)療數(shù)據(jù)的年增長(zhǎng)率約為30%?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(internet data center,IDC)的統(tǒng)計(jì)數(shù)據(jù)顯示,2020年全球醫(yī)療數(shù)據(jù)量已達(dá)到2010年的40倍,其中醫(yī)學(xué)影像數(shù)據(jù)(包括X線、超聲、CT、MRI、PET、病理圖像等)約占80%[12,26]。目前,醫(yī)療影像數(shù)據(jù)具有大規(guī)模(volume)、高增速(velocity)、多種類(variety)、高價(jià)值(value)和真實(shí)準(zhǔn)確(veracity)等五大特點(diǎn),符合當(dāng)代大數(shù)據(jù)5V特征,因此促進(jìn)了醫(yī)學(xué)影像AI的發(fā)展。醫(yī)學(xué)影像大數(shù)據(jù)為醫(yī)學(xué)影像AI帶來(lái)了良好的發(fā)展前景和機(jī)遇,但卻同樣面臨著巨大挑戰(zhàn)。
盡管我國(guó)臨床醫(yī)學(xué)影像數(shù)據(jù)積累迅速,但真正規(guī)范且可被用于臨床科學(xué)研究的醫(yī)學(xué)影像數(shù)據(jù)卻極度匱乏,導(dǎo)致很大一部分科學(xué)研究仍然依賴于國(guó)際醫(yī)學(xué)影像數(shù)據(jù),尤其是一些公開數(shù)據(jù)庫(kù)。因此,構(gòu)建符合我國(guó)法律、法規(guī)、國(guó)情以及科研人員使用習(xí)慣的標(biāo)準(zhǔn)化醫(yī)學(xué)影像數(shù)據(jù)庫(kù)勢(shì)在必行。通過(guò)建立標(biāo)準(zhǔn)化醫(yī)學(xué)影像數(shù)據(jù)庫(kù),可提升醫(yī)學(xué)影像數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值的最大化,促進(jìn)醫(yī)學(xué)影像AI的發(fā)展。FAIR準(zhǔn)則所倡導(dǎo)的科學(xué)使用和管理原則恰好符合上述目標(biāo)。若基于該準(zhǔn)則構(gòu)建醫(yī)學(xué)影像AI標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù),首先需要建立完備的醫(yī)學(xué)影像數(shù)據(jù)行業(yè)標(biāo)準(zhǔn),并為科研人員提供便捷的標(biāo)準(zhǔn)醫(yī)學(xué)影像數(shù)據(jù)信息平臺(tái)和服務(wù);其次需要清晰描述醫(yī)學(xué)影像數(shù)據(jù)的產(chǎn)生、處理、使用、管理以及發(fā)布等各個(gè)環(huán)節(jié),明確各方的權(quán)利、責(zé)任及義務(wù);另外還需要科研人員包括醫(yī)務(wù)人員在數(shù)據(jù)采集、數(shù)據(jù)庫(kù)構(gòu)建以及醫(yī)學(xué)影像數(shù)據(jù)描述術(shù)語(yǔ)等方面達(dá)成共識(shí)(可參照國(guó)際標(biāo)準(zhǔn)構(gòu)建符合中國(guó)國(guó)情的醫(yī)學(xué)本體語(yǔ)義庫(kù));最后,計(jì)算、存儲(chǔ)等硬件設(shè)備與軟件對(duì)構(gòu)建醫(yī)學(xué)影像AI數(shù)據(jù)庫(kù)同樣重要,亟需開發(fā)相應(yīng)的計(jì)算機(jī)軟件以實(shí)現(xiàn)醫(yī)學(xué)影像數(shù)據(jù)的實(shí)時(shí)轉(zhuǎn)化及存儲(chǔ),并最終實(shí)現(xiàn)醫(yī)學(xué)影像AI標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)建設(shè),促進(jìn)醫(yī)療AI的發(fā)展。
基于醫(yī)學(xué)影像構(gòu)建的AI系統(tǒng)已在疾病診療方面展現(xiàn)出了巨大的應(yīng)用潛能。然而,由于醫(yī)學(xué)影像數(shù)據(jù)標(biāo)準(zhǔn)化程度不足、模型泛化能力不足、生物學(xué)可解釋性差、醫(yī)學(xué)“數(shù)據(jù)孤島”與隱私保護(hù)等諸多難題,導(dǎo)致醫(yī)學(xué)影像數(shù)據(jù)無(wú)法建立廣泛連接、形成合力,難以發(fā)揮數(shù)據(jù)最大價(jià)值,從而嚴(yán)重阻礙了AI賦能醫(yī)療健康。因此,我們有必要引入新技術(shù)如(聯(lián)邦或群體學(xué)習(xí)),使得在多中心之間無(wú)隱私數(shù)據(jù)交換的前提下共同構(gòu)建AI模型成為可能,進(jìn)而打破“數(shù)據(jù)孤島”。同時(shí),引入新理論,如FAIR數(shù)據(jù)管理準(zhǔn)則,構(gòu)建標(biāo)準(zhǔn)化醫(yī)學(xué)影像數(shù)據(jù)庫(kù);對(duì)醫(yī)學(xué)影像數(shù)據(jù)的采集、處理、使用以及管理等方面進(jìn)行標(biāo)準(zhǔn)化描述,為醫(yī)學(xué)影像AI技術(shù)落地提供標(biāo)準(zhǔn)化數(shù)據(jù)保障,可輔助AI技術(shù)落地疾病診療領(lǐng)域。我們確信通過(guò)整合新技術(shù)、新理論,構(gòu)建高效的、泛化性強(qiáng)的疾病診療AI系統(tǒng),有望實(shí)現(xiàn)疾病精準(zhǔn)診療評(píng)估,可減輕醫(yī)生臨床負(fù)擔(dān),為病人提供更優(yōu)質(zhì)且低價(jià)的治療服務(wù)并能增加醫(yī)院的經(jīng)濟(jì)效益。在國(guó)內(nèi)外學(xué)者的共同努力下,醫(yī)學(xué)影像AI的發(fā)展前景依舊充滿曙光。