醫(yī)療大數(shù)據(jù)的研究與進(jìn)展

2023-11-19 04:28肖慶穎于廣軍

上海醫(yī)學(xué) 2023年7期

肖慶穎于廣軍

在過(guò)去的20年里，各個(gè)領(lǐng)域的大規(guī)模數(shù)據(jù)不斷增加，“大數(shù)據(jù)”一詞主要用來(lái)描述海量數(shù)據(jù)集。在全球生物醫(yī)學(xué)數(shù)據(jù)量呈爆炸性增長(zhǎng)的背景下，如今醫(yī)療數(shù)據(jù)量被預(yù)測(cè)將達(dá)40萬(wàn)億GB。與傳統(tǒng)數(shù)據(jù)集相比，大數(shù)據(jù)通常包含大量非結(jié)構(gòu)化數(shù)據(jù)，需要進(jìn)行更多實(shí)時(shí)分析，大數(shù)據(jù)分析作為一種先進(jìn)的分析技術(shù)，涉及大規(guī)模且復(fù)雜的應(yīng)用。2019年WHO《數(shù)字健康全球戰(zhàn)略2020-2025》提出要促進(jìn)全球合作并促進(jìn)數(shù)字健康知識(shí)的轉(zhuǎn)移；推進(jìn)國(guó)家數(shù)字衛(wèi)生戰(zhàn)略的實(shí)施；在全球和國(guó)家層面加強(qiáng)數(shù)字醫(yī)療治理；倡導(dǎo)以數(shù)字醫(yī)療為基礎(chǔ)、以人為本的醫(yī)療系統(tǒng)。

在當(dāng)今時(shí)代背景下，人工智能（artificial intelligence，AI）是一種引發(fā)諸多領(lǐng)域產(chǎn)生顛覆性變革的前沿技術(shù)。近5年來(lái)，“AI+”應(yīng)用于醫(yī)療研究已成為現(xiàn)代科技的熱點(diǎn)，數(shù)據(jù)存儲(chǔ)和處理技術(shù)的快速進(jìn)步為AI模型和算法的開(kāi)發(fā)創(chuàng)造了良好的環(huán)境，引領(lǐng)醫(yī)學(xué)走在AI的時(shí)代前沿。

1 國(guó)內(nèi)外研究現(xiàn)狀

1.1 美國(guó)和歐洲現(xiàn)狀在全球醫(yī)療大數(shù)據(jù)應(yīng)用方面，隨著以深度學(xué)習(xí)為代表的AI帶來(lái)的技術(shù)和產(chǎn)品不斷涌現(xiàn)重大突破，美國(guó)已開(kāi)始進(jìn)行大數(shù)據(jù)、AI技術(shù)與醫(yī)療健康領(lǐng)域深度結(jié)合。美國(guó)擁有完整的醫(yī)療健康大數(shù)據(jù)庫(kù)，建成覆蓋本土的12個(gè)區(qū)域電子病歷數(shù)據(jù)中心、9個(gè)醫(yī)療知識(shí)中心、8個(gè)醫(yī)學(xué)影像與生物信息數(shù)據(jù)中心。美國(guó)國(guó)立衛(wèi)生研究院還著重發(fā)起B(yǎng)ig Data to Knowledge計(jì)劃，通過(guò)資助研究項(xiàng)目、培訓(xùn)科學(xué)家和建立數(shù)據(jù)共享平臺(tái)等方式，促進(jìn)生物醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用[1］。在戰(zhàn)略規(guī)劃方面，2016年，美國(guó)將AI為醫(yī)療診斷和處方治療提供決策支持系統(tǒng)列入《國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》。2021年，美國(guó)《國(guó)家數(shù)字健康戰(zhàn)略》提出建設(shè)一個(gè)能夠及時(shí)提供信息，使針對(duì)公眾健康的決策和行動(dòng)更加明智的、數(shù)字化的健康生態(tài)系統(tǒng)。美國(guó)加州大學(xué)的研究團(tuán)隊(duì)在JAMA上首次報(bào)道AI從10萬(wàn)余幅眼底視網(wǎng)膜照片中診斷糖尿病視網(wǎng)膜病變，與54位有美國(guó)醫(yī)師執(zhí)照的眼科醫(yī)師及高年資住院醫(yī)師的診斷結(jié)果相比較，其靈敏度及特異度均高于人工判斷[2］，該研究為醫(yī)療AI領(lǐng)域具有代表性的研究。2023年，熱度很高的ChatGPT（Chat Generative Pre-trained Transformer）主要用于患者的實(shí)時(shí)醫(yī)療咨詢(xún)、隨訪、健康教育等。

歐洲的醫(yī)療信息化和醫(yī)院管理水平較高，AI在健康管理、醫(yī)院管理、智能問(wèn)診等領(lǐng)域的應(yīng)用較為成熟。英國(guó)Babylon Health公司通過(guò)AI為用戶(hù)提供遠(yuǎn)程醫(yī)療問(wèn)診服務(wù)，全球用戶(hù)達(dá)到430萬(wàn)人，每天可進(jìn)行4 000個(gè)臨床咨詢(xún)，已完成120多萬(wàn)人次數(shù)字咨詢(xún)。在英國(guó)，大數(shù)據(jù)和AI已成為大力發(fā)展的戰(zhàn)略領(lǐng)域之一。在醫(yī)學(xué)AI領(lǐng)域方面，德國(guó)政府將“大數(shù)據(jù)+AI”視為未來(lái)經(jīng)濟(jì)的重要增長(zhǎng)點(diǎn)，2018年11月出臺(tái)了《人工智能戰(zhàn)略》，其口號(hào)為“AI Made in Germany”。德國(guó)柏林的學(xué)者研發(fā)了一款基于AI的醫(yī)療健康應(yīng)用軟件Ada Health，該軟件可識(shí)別1萬(wàn)多種病癥和疾病，已被應(yīng)用于歐洲家庭醫(yī)師領(lǐng)域，其診斷準(zhǔn)確率超過(guò)90%。

1.2 中國(guó)現(xiàn)狀中國(guó)的大數(shù)據(jù)與醫(yī)療結(jié)合的需求重點(diǎn)在輔助診斷、患者虛擬助手、醫(yī)學(xué)影像分析等方面，醫(yī)藥開(kāi)發(fā)相對(duì)落后。在中國(guó)，AI技術(shù)在影像識(shí)別和輔助診斷領(lǐng)域的應(yīng)用較為廣泛，在其他場(chǎng)景中的應(yīng)用也快速發(fā)展，展現(xiàn)出多元發(fā)展態(tài)勢(shì)。從本質(zhì)上來(lái)看，中國(guó)對(duì)當(dāng)下醫(yī)療體系的窘境有著深度認(rèn)知，因此大數(shù)據(jù)和AI作為能幫助中國(guó)醫(yī)療體系革新，為臨床醫(yī)師對(duì)患者進(jìn)行診治帶來(lái)便利的技術(shù)手段，受到了較高程度的重視和應(yīng)用。2022年10月，黨的二十大報(bào)告對(duì)推進(jìn)健康中國(guó)和數(shù)字中國(guó)戰(zhàn)略做出了重要部署：要求把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置，完善人民健康促進(jìn)政策，構(gòu)建新一代信息技術(shù)、AI、生物技術(shù)等一批新的增長(zhǎng)引擎。2023年2月，中共中央、國(guó)務(wù)院印發(fā)《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》，其中強(qiáng)調(diào)要“在農(nóng)業(yè)、工業(yè)、醫(yī)療等重點(diǎn)領(lǐng)域，加快數(shù)字技術(shù)創(chuàng)新應(yīng)用”，并明確提到“發(fā)展數(shù)字健康”等內(nèi)容，彰顯了我國(guó)對(duì)利用大數(shù)據(jù)賦能社會(huì)發(fā)展的堅(jiān)定決心。

本述評(píng)重點(diǎn)討論醫(yī)療大數(shù)據(jù)中AI技術(shù)的研究和進(jìn)展，以及醫(yī)療大數(shù)據(jù)如何實(shí)現(xiàn)下一代AI。

2 大數(shù)據(jù)在醫(yī)學(xué)AI中的應(yīng)用

2.1 機(jī)器學(xué)習(xí)和深度學(xué)習(xí) 計(jì)算促進(jìn)了臨床研究中各關(guān)鍵領(lǐng)域的發(fā)展，基于AI的算法為研究人員提供了更多的用途方向。目前，機(jī)器學(xué)習(xí)算法已被廣泛應(yīng)用于設(shè)計(jì)圖像的學(xué)科領(lǐng)域中，包括病理圖像、超聲成像、內(nèi)窺鏡成像等，提高了診斷準(zhǔn)確率，并可對(duì)疾病的嚴(yán)重程度進(jìn)行分類(lèi)。此外，臨床腫瘤學(xué)已成為機(jī)器學(xué)習(xí)最重要的領(lǐng)域，機(jī)器學(xué)習(xí)利用數(shù)據(jù)來(lái)學(xué)習(xí)數(shù)據(jù)集的模式和結(jié)構(gòu)，豐富的成像和分子數(shù)據(jù)促進(jìn)了機(jī)器學(xué)習(xí)的應(yīng)用，并將這些數(shù)據(jù)源與早期癌癥檢測(cè)、癌癥進(jìn)展監(jiān)測(cè)和確定最佳治療方法相關(guān)聯(lián)。Placido等[3］展示了AI在識(shí)別癌癥高風(fēng)險(xiǎn)人群方面的潛力，研究人員利用丹麥600萬(wàn)例患者和美國(guó)300萬(wàn)例患者的臨床數(shù)據(jù)開(kāi)發(fā)機(jī)器學(xué)習(xí)模型；根據(jù)患者的病史，評(píng)估罹患胰腺癌的風(fēng)險(xiǎn)，最佳模型在36個(gè)月內(nèi)預(yù)測(cè)癌癥發(fā)生的AUC的ROC為0.88。這樣類(lèi)似的研究問(wèn)題和方法同樣適用于兒科領(lǐng)域。同時(shí)，將深度學(xué)習(xí)應(yīng)用于多種生物標(biāo)志物分析的研究結(jié)果表明，其診斷的靈敏度和特異度均有所提高。澳大利亞莫納什大學(xué)癌癥研究團(tuán)隊(duì)利用機(jī)器學(xué)習(xí)方法為224個(gè)兒童癌癥細(xì)胞系建立了一個(gè)多組學(xué)癌癥細(xì)胞系圖譜，能夠更準(zhǔn)確地對(duì)兒童癌癥類(lèi)型進(jìn)行分類(lèi)，通過(guò)藥理學(xué)和遺傳學(xué)CRISPR-Cas9功能喪失篩選，確認(rèn)了兒童癌癥中132種基因依賴(lài)性和53種藥物敏感性細(xì)胞系，助力探索兒童癌癥特異性生物標(biāo)志物[4］。以深度學(xué)習(xí)為代表的AI技術(shù)可基于大數(shù)據(jù)驅(qū)動(dòng)的算法，學(xué)習(xí)并模擬人類(lèi)行為，處理海量、高維數(shù)據(jù)。2021年，美國(guó)華盛頓國(guó)立兒童醫(yī)院的研究團(tuán)隊(duì)利用2 800張兒童的面部照片開(kāi)發(fā)出一種基于深度神經(jīng)網(wǎng)絡(luò)和面部統(tǒng)計(jì)模型的遺傳病篩查技術(shù)，該模型能夠在普通兒科人群中識(shí)別遺傳畸形，解釋與種族、年齡和性別相關(guān)的表型變異[5］。

深度學(xué)習(xí)方法帶來(lái)了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的革命，隨著AlphaFold的發(fā)展，準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)在很大程度上已為更多的人所接受，除了單體蛋白質(zhì)，AlphaFold-Multimer還展示了較強(qiáng)的蛋白質(zhì)復(fù)合物建模能力[6］。在制藥領(lǐng)域，3名高中生利用由20余種預(yù)測(cè)模型和生物學(xué)模型構(gòu)成的AI靶點(diǎn)發(fā)現(xiàn)引擎PandaOmics，識(shí)別出3個(gè)全新的針對(duì)衰老和膠質(zhì)母細(xì)胞瘤的潛在雙效靶點(diǎn)[7］，相關(guān)研究成果發(fā)表在Aging上，顯示了AI系統(tǒng)輔助新藥研發(fā)的廣闊前景。

2.2 大語(yǔ)言模型賦能醫(yī)療大數(shù)據(jù)的利用 AI在醫(yī)療診斷和臨床決策中的作用越來(lái)越受到重視，高度靈活且可重復(fù)使用的AI模型的快速發(fā)展，有望為醫(yī)學(xué)領(lǐng)域帶來(lái)全新變革。在AI領(lǐng)域的前沿進(jìn)展中，生成式預(yù)訓(xùn)練模型在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了成功，隨著算力的不斷提升，語(yǔ)言模型已從最初基于概率預(yù)測(cè)的模型逐步走向大語(yǔ)言模型的時(shí)代。大語(yǔ)言模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型，具體表現(xiàn)為模型參數(shù)量規(guī)模較大（通常為千億級(jí)別），大語(yǔ)言模型是在大量通用文本數(shù)據(jù)上進(jìn)行訓(xùn)練，以學(xué)習(xí)語(yǔ)言中的模式與實(shí)體關(guān)系。研究[8］結(jié)果表明，大語(yǔ)言模型具有明顯的新能力，能夠補(bǔ)充現(xiàn)有的因果方法，通過(guò)捕捉與任務(wù)相關(guān)的人類(lèi)領(lǐng)域知識(shí)，形成任何因果分析的重要組成部分。

2022年以來(lái)，以ChatGPT為代表的AI大語(yǔ)言模型開(kāi)始崛起，大語(yǔ)言模型在解釋和生成廣泛領(lǐng)域的序列方面表現(xiàn)出非凡的能力。目前有研究者將GPT-4作為一種醫(yī)療AI聊天機(jī)器人，支持自然語(yǔ)言發(fā)問(wèn)，簡(jiǎn)化了AI的應(yīng)用流程，并極大地拓展了其在醫(yī)學(xué)領(lǐng)域的應(yīng)用范圍，包括醫(yī)學(xué)圖像分析、藥物相互作用檢測(cè)、高?；颊咦R(shí)別和醫(yī)療記錄編輯等。Lee等[9］研究中，1例COPD患者與GPT-4進(jìn)行了兩輪深度對(duì)話，結(jié)果顯示，GPT-4給出了如何確定患者病情發(fā)生惡化、病情惡化的主要特征及是否需要緊急治療等信息，整體回答結(jié)果可與臨床醫(yī)師相媲美。在醫(yī)學(xué)圖像報(bào)告分析領(lǐng)域，利用Chat GPT開(kāi)發(fā)的ChatCAD能夠基于圖像生成報(bào)告，并利用大語(yǔ)言模型廣泛且可靠的醫(yī)學(xué)知識(shí)來(lái)提供交互式的影像報(bào)告解釋和建議[10］。除了在醫(yī)療文本和醫(yī)療對(duì)話領(lǐng)域，大語(yǔ)言模型在單細(xì)胞生物學(xué)領(lǐng)域也展現(xiàn)出非常良好的涌現(xiàn)思維。近日，加拿大彼得·蒙克心臟中心的研究人員，通過(guò)利用呈指數(shù)增長(zhǎng)的單細(xì)胞測(cè)序數(shù)據(jù)，首次嘗試對(duì)超過(guò)1 000萬(wàn)個(gè)細(xì)胞進(jìn)行生成式預(yù)訓(xùn)練來(lái)構(gòu)建單細(xì)胞基礎(chǔ)模型scGPT[11］，這是第1個(gè)基于單細(xì)胞生物學(xué)的大語(yǔ)言模型。

2023年4月Nature上發(fā)表的文章提出通用醫(yī)療AI（general medical artificial intelligence，GMAI）的范式，GMAI模型可使用少量數(shù)據(jù)或沒(méi)有指定標(biāo)記的數(shù)據(jù)來(lái)執(zhí)行不同的任務(wù)[12］。相比于當(dāng)前的醫(yī)學(xué)AI模型，GMAI提供了更靈活的交互方式，使不同受眾群體更容易理解其輸出，并在不同任務(wù)和環(huán)境中提供前所未有的靈活性。目前研究關(guān)注于在無(wú)機(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)專(zhuān)家的情況下，使開(kāi)發(fā)高性能的醫(yī)療AI模型成為可能。Wagner等[13］使用Google Cloud Auto ML開(kāi)發(fā)了一個(gè)無(wú)代碼深度學(xué)習(xí)分類(lèi)器和定制模型，用于在英國(guó)倫敦的多種族人群中早產(chǎn)兒視網(wǎng)膜病變的分類(lèi)，這兩種模型的分類(lèi)結(jié)果與高年資兒童眼科醫(yī)師的分類(lèi)結(jié)果相似，該研究突顯了自動(dòng)機(jī)器學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的潛力，可以在缺乏數(shù)據(jù)科學(xué)專(zhuān)業(yè)知識(shí)的資源匱乏地區(qū)開(kāi)發(fā)針對(duì)其特定人群的優(yōu)化模型。

2.3 數(shù)據(jù)安全和隱私保護(hù) 由于醫(yī)療數(shù)據(jù)的復(fù)雜性和敏感性，醫(yī)療AI平臺(tái)的開(kāi)發(fā)和應(yīng)用也面臨一些挑戰(zhàn)，如數(shù)據(jù)隱私保護(hù)、技術(shù)安全性等。2014年，在聯(lián)合國(guó)統(tǒng)計(jì)委員會(huì)的領(lǐng)導(dǎo)下成立了聯(lián)合國(guó)全球大數(shù)據(jù)工作組，該工作組旨在利用大數(shù)據(jù)技術(shù)在聯(lián)合國(guó)全球平臺(tái)基礎(chǔ)上，建立面向全球的大數(shù)據(jù)共享和經(jīng)濟(jì)獲益的分析組織。2016年，Scientific Data上發(fā)表了《科學(xué)數(shù)據(jù)管理和監(jiān)督的FAIR指導(dǎo)原則》，F(xiàn)AIR原則強(qiáng)調(diào)機(jī)器的可操作性，即計(jì)算系統(tǒng)在沒(méi)有或最少人工干預(yù)的情況下查找、訪問(wèn)、互操作和重用數(shù)據(jù)的能力。歐盟于2018年通過(guò)了通用數(shù)據(jù)保護(hù)條例（general data protection regulation，GDPR），規(guī)定在處理個(gè)人數(shù)據(jù)方面保護(hù)自然人及此類(lèi)數(shù)據(jù)的自由流動(dòng)，該法規(guī)旨在保護(hù)歐盟公民的個(gè)人數(shù)據(jù)和隱私權(quán)，并規(guī)定了個(gè)人數(shù)據(jù)的收集、使用、處理和存儲(chǔ)的方式。GDPR具有適用范圍廣泛、處罰嚴(yán)格、強(qiáng)調(diào)對(duì)個(gè)人數(shù)據(jù)的保護(hù)和強(qiáng)制性通知義務(wù)等特點(diǎn)，被認(rèn)為是“史上最嚴(yán)”的個(gè)人數(shù)據(jù)保護(hù)條例。

我國(guó)數(shù)據(jù)監(jiān)管和應(yīng)用促進(jìn)的法律法規(guī)起步較晚，但發(fā)展速度很快。2021年以來(lái)頒布的《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》《數(shù)據(jù)出境安全評(píng)估辦法》，以及2022年國(guó)家衛(wèi)生健康委員會(huì)等3部門(mén)聯(lián)合發(fā)布《醫(yī)療衛(wèi)生機(jī)構(gòu)網(wǎng)絡(luò)安全管理辦法》，為醫(yī)療衛(wèi)生機(jī)構(gòu)的網(wǎng)絡(luò)和數(shù)據(jù)安全管理提供指導(dǎo)，以充分發(fā)揮健康醫(yī)療大數(shù)據(jù)作為國(guó)家重要基礎(chǔ)性戰(zhàn)略資源的積極作用，為健康醫(yī)療大數(shù)據(jù)合規(guī)、開(kāi)放提供依據(jù)。

醫(yī)療大數(shù)據(jù)的研究及應(yīng)用成為各國(guó)醫(yī)學(xué)健康領(lǐng)域發(fā)展的新引擎，也是引領(lǐng)科技變革的新動(dòng)能。我國(guó)在醫(yī)療大數(shù)據(jù)的研究建設(shè)起步較晚，目前仍面臨著數(shù)據(jù)孤島尚未完全打破、數(shù)據(jù)質(zhì)量和治理效能需要提升、醫(yī)療大數(shù)據(jù)的開(kāi)放使用需要破局、AI需要與大數(shù)據(jù)深度融合等問(wèn)題。在大語(yǔ)言模型時(shí)代到來(lái)的今天，ChatGPT影響了醫(yī)療行業(yè)的變革，加上機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法等AI技術(shù)的賦能，使醫(yī)療大數(shù)據(jù)的發(fā)展越來(lái)越迅速。醫(yī)療大數(shù)據(jù)和AI技術(shù)的蓬勃發(fā)展改變了既往醫(yī)學(xué)模式，可在不同層面提高醫(yī)療水平和保障人類(lèi)健康。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

醫(yī)療大數(shù)據(jù)的研究與進(jìn)展

1 國(guó)內(nèi)外研究現(xiàn)狀

2 大數(shù)據(jù)在醫(yī)學(xué)AI中的應(yīng)用