肖慶穎 于廣軍
在過(guò)去的20年里,各個(gè)領(lǐng)域的大規(guī)模數(shù)據(jù)不斷增加,“大數(shù)據(jù)”一詞主要用來(lái)描述海量數(shù)據(jù)集。在全球生物醫(yī)學(xué)數(shù)據(jù)量呈爆炸性增長(zhǎng)的背景下,如今醫(yī)療數(shù)據(jù)量被預(yù)測(cè)將達(dá)40萬(wàn)億GB。與傳統(tǒng)數(shù)據(jù)集相比,大數(shù)據(jù)通常包含大量非結(jié)構(gòu)化數(shù)據(jù),需要進(jìn)行更多實(shí)時(shí)分析,大數(shù)據(jù)分析作為一種先進(jìn)的分析技術(shù),涉及大規(guī)模且復(fù)雜的應(yīng)用。2019年WHO《數(shù)字健康全球戰(zhàn)略2020-2025》提出要促進(jìn)全球合作并促進(jìn)數(shù)字健康知識(shí)的轉(zhuǎn)移;推進(jìn)國(guó)家數(shù)字衛(wèi)生戰(zhàn)略的實(shí)施;在全球和國(guó)家層面加強(qiáng)數(shù)字醫(yī)療治理;倡導(dǎo)以數(shù)字醫(yī)療為基礎(chǔ)、以人為本的醫(yī)療系統(tǒng)。
在當(dāng)今時(shí)代背景下,人工智能(artificial intelligence,AI)是一種引發(fā)諸多領(lǐng)域產(chǎn)生顛覆性變革的前沿技術(shù)。近5年來(lái),“AI+”應(yīng)用于醫(yī)療研究已成為現(xiàn)代科技的熱點(diǎn),數(shù)據(jù)存儲(chǔ)和處理技術(shù)的快速進(jìn)步為AI模型和算法的開(kāi)發(fā)創(chuàng)造了良好的環(huán)境,引領(lǐng)醫(yī)學(xué)走在AI的時(shí)代前沿。
1.1 美國(guó)和歐洲現(xiàn)狀 在全球醫(yī)療大數(shù)據(jù)應(yīng)用方面,隨著以深度學(xué)習(xí)為代表的AI帶來(lái)的技術(shù)和產(chǎn)品不斷涌現(xiàn)重大突破,美國(guó)已開(kāi)始進(jìn)行大數(shù)據(jù)、AI技術(shù)與醫(yī)療健康領(lǐng)域深度結(jié)合。美國(guó)擁有完整的醫(yī)療健康大數(shù)據(jù)庫(kù),建成覆蓋本土的12個(gè)區(qū)域電子病歷數(shù)據(jù)中心、9個(gè)醫(yī)療知識(shí)中心、8個(gè)醫(yī)學(xué)影像與生物信息數(shù)據(jù)中心。美國(guó)國(guó)立衛(wèi)生研究院還著重發(fā)起B(yǎng)ig Data to Knowledge計(jì)劃,通過(guò)資助研究項(xiàng)目、培訓(xùn)科學(xué)家和建立數(shù)據(jù)共享平臺(tái)等方式,促進(jìn)生物醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用[1]。在戰(zhàn)略規(guī)劃方面,2016年,美國(guó)將AI為醫(yī)療診斷和處方治療提供決策支持系統(tǒng)列入《國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》。2021年,美國(guó)《國(guó)家數(shù)字健康戰(zhàn)略》提出建設(shè)一個(gè)能夠及時(shí)提供信息,使針對(duì)公眾健康的決策和行動(dòng)更加明智的、數(shù)字化的健康生態(tài)系統(tǒng)。美國(guó)加州大學(xué)的研究團(tuán)隊(duì)在JAMA上首次報(bào)道AI從10萬(wàn)余幅眼底視網(wǎng)膜照片中診斷糖尿病視網(wǎng)膜病變,與54位有美國(guó)醫(yī)師執(zhí)照的眼科醫(yī)師及高年資住院醫(yī)師的診斷結(jié)果相比較,其靈敏度及特異度均高于人工判斷[2],該研究為醫(yī)療AI領(lǐng)域具有代表性的研究。2023年,熱度很高的ChatGPT(Chat Generative Pre-trained Transformer)主要用于患者的實(shí)時(shí)醫(yī)療咨詢(xún)、隨訪、健康教育等。
歐洲的醫(yī)療信息化和醫(yī)院管理水平較高,AI在健康管理、醫(yī)院管理、智能問(wèn)診等領(lǐng)域的應(yīng)用較為成熟。英國(guó)Babylon Health公司通過(guò)AI為用戶(hù)提供遠(yuǎn)程醫(yī)療問(wèn)診服務(wù),全球用戶(hù)達(dá)到430萬(wàn)人,每天可進(jìn)行4 000個(gè)臨床咨詢(xún),已完成120多萬(wàn)人次數(shù)字咨詢(xún)。在英國(guó),大數(shù)據(jù)和AI已成為大力發(fā)展的戰(zhàn)略領(lǐng)域之一。在醫(yī)學(xué)AI領(lǐng)域方面,德國(guó)政府將“大數(shù)據(jù)+AI”視為未來(lái)經(jīng)濟(jì)的重要增長(zhǎng)點(diǎn),2018年11月出臺(tái)了《人工智能戰(zhàn)略》,其口號(hào)為“AI Made in Germany”。德國(guó)柏林的學(xué)者研發(fā)了一款基于AI的醫(yī)療健康應(yīng)用軟件Ada Health,該軟件可識(shí)別1萬(wàn)多種病癥和疾病,已被應(yīng)用于歐洲家庭醫(yī)師領(lǐng)域,其診斷準(zhǔn)確率超過(guò)90%。
1.2 中國(guó)現(xiàn)狀 中國(guó)的大數(shù)據(jù)與醫(yī)療結(jié)合的需求重點(diǎn)在輔助診斷、患者虛擬助手、醫(yī)學(xué)影像分析等方面,醫(yī)藥開(kāi)發(fā)相對(duì)落后。在中國(guó),AI技術(shù)在影像識(shí)別和輔助診斷領(lǐng)域的應(yīng)用較為廣泛,在其他場(chǎng)景中的應(yīng)用也快速發(fā)展,展現(xiàn)出多元發(fā)展態(tài)勢(shì)。從本質(zhì)上來(lái)看,中國(guó)對(duì)當(dāng)下醫(yī)療體系的窘境有著深度認(rèn)知,因此大數(shù)據(jù)和AI作為能幫助中國(guó)醫(yī)療體系革新,為臨床醫(yī)師對(duì)患者進(jìn)行診治帶來(lái)便利的技術(shù)手段,受到了較高程度的重視和應(yīng)用。2022年10月,黨的二十大報(bào)告對(duì)推進(jìn)健康中國(guó)和數(shù)字中國(guó)戰(zhàn)略做出了重要部署:要求把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置,完善人民健康促進(jìn)政策,構(gòu)建新一代信息技術(shù)、AI、生物技術(shù)等一批新的增長(zhǎng)引擎。2023年2月,中共中央、國(guó)務(wù)院印發(fā)《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》,其中強(qiáng)調(diào)要“在農(nóng)業(yè)、工業(yè)、醫(yī)療等重點(diǎn)領(lǐng)域,加快數(shù)字技術(shù)創(chuàng)新應(yīng)用”,并明確提到“發(fā)展數(shù)字健康”等內(nèi)容,彰顯了我國(guó)對(duì)利用大數(shù)據(jù)賦能社會(huì)發(fā)展的堅(jiān)定決心。
本述評(píng)重點(diǎn)討論醫(yī)療大數(shù)據(jù)中AI技術(shù)的研究和進(jìn)展,以及醫(yī)療大數(shù)據(jù)如何實(shí)現(xiàn)下一代AI。
2.1 機(jī)器學(xué)習(xí)和深度學(xué)習(xí) 計(jì)算促進(jìn)了臨床研究中各關(guān)鍵領(lǐng)域的發(fā)展,基于AI的算法為研究人員提供了更多的用途方向。目前,機(jī)器學(xué)習(xí)算法已被廣泛應(yīng)用于設(shè)計(jì)圖像的學(xué)科領(lǐng)域中,包括病理圖像、超聲成像、內(nèi)窺鏡成像等,提高了診斷準(zhǔn)確率,并可對(duì)疾病的嚴(yán)重程度進(jìn)行分類(lèi)。此外,臨床腫瘤學(xué)已成為機(jī)器學(xué)習(xí)最重要的領(lǐng)域,機(jī)器學(xué)習(xí)利用數(shù)據(jù)來(lái)學(xué)習(xí)數(shù)據(jù)集的模式和結(jié)構(gòu),豐富的成像和分子數(shù)據(jù)促進(jìn)了機(jī)器學(xué)習(xí)的應(yīng)用,并將這些數(shù)據(jù)源與早期癌癥檢測(cè)、癌癥進(jìn)展監(jiān)測(cè)和確定最佳治療方法相關(guān)聯(lián)。Placido等[3]展示了AI在識(shí)別癌癥高風(fēng)險(xiǎn)人群方面的潛力,研究人員利用丹麥600萬(wàn)例患者和美國(guó)300萬(wàn)例患者的臨床數(shù)據(jù)開(kāi)發(fā)機(jī)器學(xué)習(xí)模型;根據(jù)患者的病史,評(píng)估罹患胰腺癌的風(fēng)險(xiǎn),最佳模型在36個(gè)月內(nèi)預(yù)測(cè)癌癥發(fā)生的AUC的ROC為0.88。這樣類(lèi)似的研究問(wèn)題和方法同樣適用于兒科領(lǐng)域。同時(shí),將深度學(xué)習(xí)應(yīng)用于多種生物標(biāo)志物分析的研究結(jié)果表明,其診斷的靈敏度和特異度均有所提高。澳大利亞莫納什大學(xué)癌癥研究團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)方法為224個(gè)兒童癌癥細(xì)胞系建立了一個(gè)多組學(xué)癌癥細(xì)胞系圖譜,能夠更準(zhǔn)確地對(duì)兒童癌癥類(lèi)型進(jìn)行分類(lèi),通過(guò)藥理學(xué)和遺傳學(xué)CRISPR-Cas9功能喪失篩選,確認(rèn)了兒童癌癥中132種基因依賴(lài)性和53種藥物敏感性細(xì)胞系,助力探索兒童癌癥特異性生物標(biāo)志物[4]。以深度學(xué)習(xí)為代表的AI技術(shù)可基于大數(shù)據(jù)驅(qū)動(dòng)的算法,學(xué)習(xí)并模擬人類(lèi)行為,處理海量、高維數(shù)據(jù)。2021年,美國(guó)華盛頓國(guó)立兒童醫(yī)院的研究團(tuán)隊(duì)利用2 800張兒童的面部照片開(kāi)發(fā)出一種基于深度神經(jīng)網(wǎng)絡(luò)和面部統(tǒng)計(jì)模型的遺傳病篩查技術(shù),該模型能夠在普通兒科人群中識(shí)別遺傳畸形,解釋與種族、年齡和性別相關(guān)的表型變異[5]。
深度學(xué)習(xí)方法帶來(lái)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的革命,隨著AlphaFold的發(fā)展,準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在很大程度上已為更多的人所接受,除了單體蛋白質(zhì),AlphaFold-Multimer還展示了較強(qiáng)的蛋白質(zhì)復(fù)合物建模能力[6]。在制藥領(lǐng)域,3名高中生利用由20余種預(yù)測(cè)模型和生物學(xué)模型構(gòu)成的AI靶點(diǎn)發(fā)現(xiàn)引擎PandaOmics,識(shí)別出3個(gè)全新的針對(duì)衰老和膠質(zhì)母細(xì)胞瘤的潛在雙效靶點(diǎn)[7],相關(guān)研究成果發(fā)表在Aging上,顯示了AI系統(tǒng)輔助新藥研發(fā)的廣闊前景。
2.2 大語(yǔ)言模型賦能醫(yī)療大數(shù)據(jù)的利用 AI在醫(yī)療診斷和臨床決策中的作用越來(lái)越受到重視,高度靈活且可重復(fù)使用的AI模型的快速發(fā)展,有望為醫(yī)學(xué)領(lǐng)域帶來(lái)全新變革。在AI領(lǐng)域的前沿進(jìn)展中,生成式預(yù)訓(xùn)練模型在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了成功,隨著算力的不斷提升,語(yǔ)言模型已從最初基于概率預(yù)測(cè)的模型逐步走向大語(yǔ)言模型的時(shí)代。大語(yǔ)言模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型,具體表現(xiàn)為模型參數(shù)量規(guī)模較大(通常為千億級(jí)別),大語(yǔ)言模型是在大量通用文本數(shù)據(jù)上進(jìn)行訓(xùn)練,以學(xué)習(xí)語(yǔ)言中的模式與實(shí)體關(guān)系。研究[8]結(jié)果表明,大語(yǔ)言模型具有明顯的新能力,能夠補(bǔ)充現(xiàn)有的因果方法,通過(guò)捕捉與任務(wù)相關(guān)的人類(lèi)領(lǐng)域知識(shí),形成任何因果分析的重要組成部分。
2022年以來(lái),以ChatGPT為代表的AI大語(yǔ)言模型開(kāi)始崛起,大語(yǔ)言模型在解釋和生成廣泛領(lǐng)域的序列方面表現(xiàn)出非凡的能力。目前有研究者將GPT-4作為一種醫(yī)療AI聊天機(jī)器人,支持自然語(yǔ)言發(fā)問(wèn),簡(jiǎn)化了AI的應(yīng)用流程,并極大地拓展了其在醫(yī)學(xué)領(lǐng)域的應(yīng)用范圍,包括醫(yī)學(xué)圖像分析、藥物相互作用檢測(cè)、高?;颊咦R(shí)別和醫(yī)療記錄編輯等。Lee等[9]研究中,1例COPD患者與GPT-4進(jìn)行了兩輪深度對(duì)話,結(jié)果顯示,GPT-4給出了如何確定患者病情發(fā)生惡化、病情惡化的主要特征及是否需要緊急治療等信息,整體回答結(jié)果可與臨床醫(yī)師相媲美。在醫(yī)學(xué)圖像報(bào)告分析領(lǐng)域,利用Chat GPT開(kāi)發(fā)的ChatCAD能夠基于圖像生成報(bào)告,并利用大語(yǔ)言模型廣泛且可靠的醫(yī)學(xué)知識(shí)來(lái)提供交互式的影像報(bào)告解釋和建議[10]。除了在醫(yī)療文本和醫(yī)療對(duì)話領(lǐng)域,大語(yǔ)言模型在單細(xì)胞生物學(xué)領(lǐng)域也展現(xiàn)出非常良好的涌現(xiàn)思維。近日,加拿大彼得·蒙克心臟中心的研究人員,通過(guò)利用呈指數(shù)增長(zhǎng)的單細(xì)胞測(cè)序數(shù)據(jù),首次嘗試對(duì)超過(guò)1 000萬(wàn)個(gè)細(xì)胞進(jìn)行生成式預(yù)訓(xùn)練來(lái)構(gòu)建單細(xì)胞基礎(chǔ)模型scGPT[11],這是第1個(gè)基于單細(xì)胞生物學(xué)的大語(yǔ)言模型。
2023年4月Nature上發(fā)表的文章提出通用醫(yī)療AI(general medical artificial intelligence,GMAI)的范式,GMAI模型可使用少量數(shù)據(jù)或沒(méi)有指定標(biāo)記的數(shù)據(jù)來(lái)執(zhí)行不同的任務(wù)[12]。相比于當(dāng)前的醫(yī)學(xué)AI模型,GMAI提供了更靈活的交互方式,使不同受眾群體更容易理解其輸出,并在不同任務(wù)和環(huán)境中提供前所未有的靈活性。目前研究關(guān)注于在無(wú)機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)專(zhuān)家的情況下,使開(kāi)發(fā)高性能的醫(yī)療AI模型成為可能。Wagner等[13]使用Google Cloud Auto ML開(kāi)發(fā)了一個(gè)無(wú)代碼深度學(xué)習(xí)分類(lèi)器和定制模型,用于在英國(guó)倫敦的多種族人群中早產(chǎn)兒視網(wǎng)膜病變的分類(lèi),這兩種模型的分類(lèi)結(jié)果與高年資兒童眼科醫(yī)師的分類(lèi)結(jié)果相似,該研究突顯了自動(dòng)機(jī)器學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的潛力,可以在缺乏數(shù)據(jù)科學(xué)專(zhuān)業(yè)知識(shí)的資源匱乏地區(qū)開(kāi)發(fā)針對(duì)其特定人群的優(yōu)化模型。
2.3 數(shù)據(jù)安全和隱私保護(hù) 由于醫(yī)療數(shù)據(jù)的復(fù)雜性和敏感性,醫(yī)療AI平臺(tái)的開(kāi)發(fā)和應(yīng)用也面臨一些挑戰(zhàn),如數(shù)據(jù)隱私保護(hù)、技術(shù)安全性等。2014年,在聯(lián)合國(guó)統(tǒng)計(jì)委員會(huì)的領(lǐng)導(dǎo)下成立了聯(lián)合國(guó)全球大數(shù)據(jù)工作組,該工作組旨在利用大數(shù)據(jù)技術(shù)在聯(lián)合國(guó)全球平臺(tái)基礎(chǔ)上,建立面向全球的大數(shù)據(jù)共享和經(jīng)濟(jì)獲益的分析組織。2016年,Scientific Data上發(fā)表了《科學(xué)數(shù)據(jù)管理和監(jiān)督的FAIR指導(dǎo)原則》,F(xiàn)AIR原則強(qiáng)調(diào)機(jī)器的可操作性,即計(jì)算系統(tǒng)在沒(méi)有或最少人工干預(yù)的情況下查找、訪問(wèn)、互操作和重用數(shù)據(jù)的能力。歐盟于2018年通過(guò)了通用數(shù)據(jù)保護(hù)條例(general data protection regulation,GDPR),規(guī)定在處理個(gè)人數(shù)據(jù)方面保護(hù)自然人及此類(lèi)數(shù)據(jù)的自由流動(dòng),該法規(guī)旨在保護(hù)歐盟公民的個(gè)人數(shù)據(jù)和隱私權(quán),并規(guī)定了個(gè)人數(shù)據(jù)的收集、使用、處理和存儲(chǔ)的方式。GDPR具有適用范圍廣泛、處罰嚴(yán)格、強(qiáng)調(diào)對(duì)個(gè)人數(shù)據(jù)的保護(hù)和強(qiáng)制性通知義務(wù)等特點(diǎn),被認(rèn)為是“史上最嚴(yán)”的個(gè)人數(shù)據(jù)保護(hù)條例。
我國(guó)數(shù)據(jù)監(jiān)管和應(yīng)用促進(jìn)的法律法規(guī)起步較晚,但發(fā)展速度很快。2021年以來(lái)頒布的《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》《數(shù)據(jù)出境安全評(píng)估辦法》,以及2022年國(guó)家衛(wèi)生健康委員會(huì)等3部門(mén)聯(lián)合發(fā)布《醫(yī)療衛(wèi)生機(jī)構(gòu)網(wǎng)絡(luò)安全管理辦法》,為醫(yī)療衛(wèi)生機(jī)構(gòu)的網(wǎng)絡(luò)和數(shù)據(jù)安全管理提供指導(dǎo),以充分發(fā)揮健康醫(yī)療大數(shù)據(jù)作為國(guó)家重要基礎(chǔ)性戰(zhàn)略資源的積極作用,為健康醫(yī)療大數(shù)據(jù)合規(guī)、開(kāi)放提供依據(jù)。
醫(yī)療大數(shù)據(jù)的研究及應(yīng)用成為各國(guó)醫(yī)學(xué)健康領(lǐng)域發(fā)展的新引擎,也是引領(lǐng)科技變革的新動(dòng)能。我國(guó)在醫(yī)療大數(shù)據(jù)的研究建設(shè)起步較晚,目前仍面臨著數(shù)據(jù)孤島尚未完全打破、數(shù)據(jù)質(zhì)量和治理效能需要提升、醫(yī)療大數(shù)據(jù)的開(kāi)放使用需要破局、AI需要與大數(shù)據(jù)深度融合等問(wèn)題。在大語(yǔ)言模型時(shí)代到來(lái)的今天,ChatGPT影響了醫(yī)療行業(yè)的變革,加上機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法等AI技術(shù)的賦能,使醫(yī)療大數(shù)據(jù)的發(fā)展越來(lái)越迅速。醫(yī)療大數(shù)據(jù)和AI技術(shù)的蓬勃發(fā)展改變了既往醫(yī)學(xué)模式,可在不同層面提高醫(yī)療水平和保障人類(lèi)健康。