鄭欣雅,黃運有,張奕婷,翁晟杰,詹劍鋒,張知非
1首都醫(yī)科大學基礎醫(yī)學院,北京 100069 2廣西師范大學計算機科學與工程學院,廣西桂林 541000 3中國科學院計算技術研究所先進計算機系統(tǒng)研究中心,北京 100086
人工智能自20世紀50年代誕生以來,在社會生活的各個領域得到了廣泛應用,其中醫(yī)療領域是人工智能應用的主要場景之一。近年來,醫(yī)學人工智能研究迎來爆發(fā)式發(fā)展,涉及領域包括腫瘤在內(nèi)的各類疾病的診斷、分類與預測,疫情診治與監(jiān)測,醫(yī)療機器人,可穿戴設備,智能藥物研發(fā)與健康管理[1-2],以及智能醫(yī)學教育[3-4]等。
醫(yī)學人工智能的優(yōu)勢在于其能夠快速處理和學習大量數(shù)據(jù),形成等同或超越人類能力的算法或模型[5],通過支持和促進循證醫(yī)學實踐以及患者的個性化治療,明顯提高醫(yī)學研究和醫(yī)療服務效率,降低醫(yī)療成本和醫(yī)生負荷,讓患者獲取優(yōu)質(zhì)便捷的醫(yī)療服務,改善醫(yī)療體驗,在推進醫(yī)療保健方面具有巨大潛力。然而,目前大部分人工智能模型仍停留在實驗室階段,最為關鍵的是,醫(yī)學人工智能標準研究也處于初級階段,現(xiàn)有的標準在術語、數(shù)據(jù)、標注以及追溯等方面多為通用標準[6],缺乏成熟的規(guī)范及標準用于對醫(yī)學人工智能產(chǎn)品整個研發(fā)周期的管控,難以保證醫(yī)學人工智能產(chǎn)品的質(zhì)量。另一方面,醫(yī)學人工智能產(chǎn)品在研發(fā)及落地的過程中面臨應用、理解及接受多樣化以及應用方面存在偏差等挑戰(zhàn),造成醫(yī)學人工智能產(chǎn)品統(tǒng)一交互、比較以及評價困難。同時,醫(yī)學人工智能在部署過程中還需面對復雜的倫理挑戰(zhàn)[2],解決這些挑戰(zhàn)亟需科學完備的規(guī)范與標準體系管控及引導。
建立統(tǒng)一的醫(yī)學人工智能技術安全標準、應用規(guī)范和評價體系是保證人工智能在醫(yī)療健康領域發(fā)展與應用的基礎和前提。依據(jù)在醫(yī)療全生命周期中承擔的功能分類,醫(yī)學人工智能標準體系包括基礎類、數(shù)據(jù)類、技術類、應用與服務類、安全與隱私類、管理類6種類型[7],而依據(jù)其存在形式可分為醫(yī)學數(shù)據(jù)標準、標準數(shù)據(jù)集、基準和規(guī)范/指南4類[8]。本文基于后者進行總結分析,以期為醫(yī)學人工智能標準的進一步發(fā)展提供參考。
醫(yī)學數(shù)據(jù)龐大復雜,既有傳統(tǒng)的臨床數(shù)據(jù)、實驗室數(shù)據(jù),又有人口健康數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)等,隨著可穿戴設備進入人們?nèi)粘I睿瑪?shù)據(jù)采集的方式和來源也越來越多樣化,而醫(yī)學數(shù)據(jù)的質(zhì)量是醫(yī)學人工智能的根本,直接決定醫(yī)學人工智能的可靠性和最終應用。統(tǒng)一的醫(yī)學元數(shù)據(jù)(Metadata)標準是臨床研究數(shù)據(jù)資源管理和共享的關鍵,是發(fā)展大數(shù)據(jù)人工智能的前提。元數(shù)據(jù)又稱為中介數(shù)據(jù),是描述數(shù)據(jù)的數(shù)據(jù)(data about data),主要是描述數(shù)據(jù)屬性的信息,用來支持和指示歷史數(shù)據(jù)存儲位置。醫(yī)學元數(shù)據(jù)標準是醫(yī)學數(shù)據(jù)標準研究領域中最活躍的研究方向之一,該方向覆蓋了從數(shù)據(jù)采集到處理的各個方面,是實現(xiàn)數(shù)據(jù)統(tǒng)一互通的基礎。當前,醫(yī)學元數(shù)據(jù)標準的建設已經(jīng)跨入成熟階段,獲得了眾多成果。其可用于規(guī)范醫(yī)學數(shù)據(jù)采集、存儲、傳輸、計算和展示[9],從而實現(xiàn)異源異構醫(yī)學信息資源整合、提高醫(yī)學數(shù)據(jù)處理的效率和質(zhì)量。由于醫(yī)療領域數(shù)據(jù)化發(fā)展較早,醫(yī)學元數(shù)據(jù)標準化進程已經(jīng)歷了漫長的過程[10],相對于醫(yī)學人工智能標準體系中的其他類型,目前相關數(shù)據(jù)標準和術語標準已經(jīng)比較成熟。
1994 年,Regenstrief 研究院發(fā)布的觀測指標標識符邏輯命名與編碼系統(tǒng)(logical observation on identi-fiers names andcodes,LOINC)覆蓋了實驗室測試臨床觀測指標語義標準,該標準成為臨床數(shù)據(jù)交換標準協(xié)會(Clinical Data Interchange Standards Consortium,CDISC)標準的一部分。值得注意的是,美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)、日本醫(yī)藥品醫(yī)療器械綜合機構強制要求遞交符合CDISC標準的電子數(shù)據(jù),我國國家藥品監(jiān)督管理局2016年發(fā)布的臨床試驗數(shù)據(jù)管理工作技術指南也建議采用CDISC標準遞交原始數(shù)據(jù)庫和分析數(shù)據(jù)庫[11]。
SNOMED-CT (Systematized Nomenclature of Medicine-Clinical Terms)醫(yī)學系統(tǒng)命名法-臨床術語,是當前國際廣泛采用的臨床醫(yī)學術語標準。SNOMED-CT標準是以概念為中心對臨床信息進行系統(tǒng)編排的標準數(shù)據(jù)集合,適用于計算機處理和電子健康檔案記錄,主要用于臨床信息采集、與臨床知識庫連接、信息追溯以及臨床數(shù)據(jù)積累和交換。SNOMED-CT已與其他常用國際臨床術語標準建立映射與合作關系,并發(fā)展出多種語言擴展版。
為了對醫(yī)學知識資源的重要特征進行準確、規(guī)范描述,從而有利于對互聯(lián)網(wǎng)海量醫(yī)學資源質(zhì)量與真實性進行評估,國際標準化組織(International Organization for Standardization,ISO)與歐洲標準化委員會(European Committee for Standardization,CEN)合作出臺了ISO 13119:2022《健康信息學-知識資源-元數(shù)據(jù)》[9]。此外,DS/EN ISO 13119-2013(丹麥標準化協(xié)會)、KS X ISO 13119-2015(KR-KATS)、GOST R ISO 13119-2016(RU-GOST R)、KS X ISO 13119-2015(2020)(KR-KS)、BS/EN ISO 13119-2022(英國標準學會)均屬于ISO 13119標準。
醫(yī)學數(shù)字成像與通信(Digital Imaging and Communications in Medicine,DICOM)是醫(yī)學圖像存儲和傳輸?shù)膰H標準,其由美國放射學會和美國國家電氣制造商協(xié)會聯(lián)合成立的標準委員會于1993年首次發(fā)布。DICOM標準應用于放射學、心臟病學成像和放射治療設備(X線、CT、MRI、超聲等),并越來越多地應用于眼科和牙科等其他醫(yī)學領域的設備。DICOM?被國際標準化組織認定為ISO 12052標準,在中國乃至全球均有廣泛應用。
HL7s(Health Level seven standards)是與醫(yī)療健康信息傳輸與交換相關的醫(yī)學元數(shù)據(jù)標準,是支撐互操作性、互聯(lián)互通能力的基礎標準之一[12]。此標準隨1987年成立的HL7組織一起誕生。在美國,HL7s實際上已成為一個強制性標準,主要涉及醫(yī)療保健信息的交換、管理及整合,還包括病房和患者信息管理系統(tǒng)、化驗系統(tǒng)、放射系統(tǒng)等各個方面。在我國,醫(yī)院病歷系統(tǒng)供應商早在制定行業(yè)標準之前就建立了自己的系統(tǒng),導致可用于數(shù)據(jù)交換的標準醫(yī)學術語缺乏標準化,另外醫(yī)院間數(shù)據(jù)共享活動不活躍,HL7s標準在我國尚未得到廣泛應用。
近年來,快速醫(yī)療保健互操作性資源(Fast Heal-thcare Interoperability Resources,F(xiàn)HIR)標準越來越受到研究者的關注。其是HL7組織于2011年開發(fā)的一項新標準[13],最初由美國聯(lián)邦機構和保險公司推廣使用。FHIR標準主要思想是構建一組資源,用于定義數(shù)據(jù)格式、數(shù)據(jù)元素和基于HTTP的REST應用程序編程接口協(xié)議,以實現(xiàn)健康護理相關信息的交換。這些規(guī)則和程序的核心組成部分共同實現(xiàn)了醫(yī)療保健中越來越多的計算機應用程序之間的數(shù)據(jù)交換。其在智能手機、平板電腦、移動健康應用程序、智能手表和健身追蹤器等智能技術的支持方面均一致,且能夠在單個文檔中顯示患者細粒度的數(shù)據(jù)訪問,使臨床研究數(shù)據(jù)檢索既及時又高效。FHIR標準具有其他標準不可替代的優(yōu)勢,因此在醫(yī)療保健領域被迅速采用,2019年以來美國國立衛(wèi)生研究院加大開發(fā)FHIR工具研究的資金支持,鼓勵研究人員探索FHIR的應用,進一步促進了基于FHIR的數(shù)據(jù)基礎設施和管道的開發(fā),以及研究產(chǎn)生的數(shù)據(jù)的存儲、分析和共享。有學者認為,F(xiàn)HIR標準可能成為未來解決醫(yī)療保健互操作性問題的合適解決方案[13]。
人工智能研發(fā)過程中,數(shù)據(jù)的收集和處理通常占據(jù)70%左右的工作量,標準亦是如此。醫(yī)學數(shù)據(jù)標準已開展多年,積累了大批可互操作以及規(guī)范的數(shù)據(jù)資源,成為基于數(shù)據(jù)驅(qū)動的醫(yī)學人工智能研究的基礎,避免了醫(yī)學人工智能標準建設需從頭開始的窘境。然而,多年來醫(yī)學數(shù)據(jù)標準的建設均是以臨床目標為主,近年的醫(yī)學人工智能數(shù)據(jù)標準充分考慮了人工智能的具體需求,但仍缺乏對人工智能與醫(yī)學深度融合后產(chǎn)生的新問題的標準。例如,數(shù)據(jù)的選擇沿用了傳統(tǒng)醫(yī)學的納入和排除規(guī)范,忽略了數(shù)據(jù)對真實世界還原度的標準規(guī)范,這會導致醫(yī)學人工智能模型部署在真實世界時難以泛化。
鑒于人工智能模型自身以及研發(fā)過程中的隨機性、復雜性,不同的數(shù)據(jù)集上研發(fā)和測試的模型可能存在巨大差異,甚至相同數(shù)據(jù)集上不同訓練策略或測試策略也會造成模型的差異。因此,數(shù)據(jù)集的建立需要遵循相同的標準,而數(shù)據(jù)集本身也成為人工智能標準的重要組成部分。然而,人工智能標準建設存在滯后性且數(shù)據(jù)集構建需耗費大量時間,使得人工智能發(fā)展初期不得不使用影響力大或公認的現(xiàn)有數(shù)據(jù)集作為標準。例如,在缺乏標準的時代建立的ImageNet數(shù)據(jù)集存在很多問題,但卻被圖像識別領域作為標準引領了人工智能技術復蘇以及發(fā)展的潮流。與人工智能技術發(fā)展初期相似,醫(yī)學人工智能數(shù)據(jù)構建標準的欠缺導致部分現(xiàn)有數(shù)據(jù)集成為了用于人工智能技術研發(fā)和評價的標準。目前存在的大多數(shù)標準數(shù)據(jù)集是根據(jù)目標疾病的數(shù)據(jù)類型進行分類,例如與X線、CT、MRI、超聲等相關的醫(yī)學影像數(shù)據(jù)集,與心電、腦電等波形數(shù)據(jù)相關的生理參數(shù)數(shù)據(jù)集,與基因、蛋白相關的組學數(shù)據(jù)集及與特定疾病或研究目標相關的多模態(tài)數(shù)據(jù)集等[14]。
得益于成熟的醫(yī)學數(shù)據(jù)標準,醫(yī)學影像領域積累了大量數(shù)據(jù),已成為醫(yī)學人工智能最先獲得突破的領域。目前,醫(yī)學數(shù)據(jù)標準從數(shù)據(jù)的收集、存儲、標注、處理、安全及倫理多方面均有了成熟標準。例如,醫(yī)學影像的格式標準DICOM、數(shù)據(jù)交互標準FHIR、疾病分類標準ICD-10等。上述醫(yī)學數(shù)據(jù)標準的建立為醫(yī)學數(shù)據(jù)集的構建提供了基礎,因此國內(nèi)外涌現(xiàn)出了大量的醫(yī)學影像數(shù)據(jù)集,促進了人工智能技術在醫(yī)學影像領域的創(chuàng)新和發(fā)展。
2011年建立的癌癥影像檔案館(Cancer Imaging Archive,TCIA)[15]是一個應用廣泛的癌癥醫(yī)學影像的大型公開數(shù)據(jù)集,由美國國家癌癥研究所資助,目前由弗雷德里克癌癥研究國家實驗室進行管理。該數(shù)據(jù)集收集的成像數(shù)據(jù)可按常見疾病類型(如癌癥)或圖像(如MRI、CT、數(shù)字組織病理學等)進行分組,還包括患者結果、治療細節(jié)、基因組學、病理學和專家分析等與圖像相關的數(shù)據(jù)。TCIA數(shù)據(jù)集是最早提供遵循FAIR原則的結構化數(shù)據(jù)的數(shù)據(jù)集。FAIR原則是指可查詢(Findable)、可訪問(Accessible)、可交互(Interoperable)和可再用(Reusable)的數(shù)據(jù)科學管理準則,2016 年由國際組織 FORCE11 正式提出,為醫(yī)學影像 AI 科研提供了標準化數(shù)據(jù)保障[16]。其他代表性的數(shù)據(jù)集還包括LIDC(Lung Image Database Consortium)、EyePACS、RICORD(RSNA International COVID-19 Open Radio-logy Database)等。
為促進我國醫(yī)學影像數(shù)據(jù)集的建設,2019 年國家衛(wèi)生健康委員會能力建設和繼續(xù)教育中心、國家藥品監(jiān)督管理局醫(yī)療器械技術審評中心等多家單位啟動建設我國“肺部病變多模態(tài)影像和乳腺癌 X 線醫(yī)學人工智能標準數(shù)據(jù)集”,涵蓋肺部常見疾病 CT(包括增強 CT)、PET/CT 標準數(shù)據(jù)集和乳腺癌 X 線標準數(shù)據(jù)集[17]。該數(shù)據(jù)集打破了單一病種的局限性,構建了面向器官的數(shù)據(jù)集方案。
歐美各國最主要的4個心電數(shù)據(jù)集包括美國麻省理工學院與 Beth Israel 醫(yī)院建立的MIT-BIH 心電數(shù)據(jù)集、美國心臟學會的AHA 心律失常心電數(shù)據(jù)集、歐盟的 CSE心電數(shù)據(jù)集和ST-T 心電數(shù)據(jù)集。上述心電數(shù)據(jù)集遵循國際電工委員會創(chuàng)立的IEC 標準并對心電圖進行逐幀標注,但多為單導聯(lián)心電圖,數(shù)據(jù)量相對較小。2018年,我國在國家重點研發(fā)計劃的支持下建設了首個符合中國人群的中國心電數(shù)據(jù)集,為我國AI心電智能分析算法的發(fā)展提供了數(shù)據(jù)基礎[18]。最近,中國、美國及韓國分別建成了采集人數(shù)超過10 000人的12導聯(lián)心電圖數(shù)據(jù)集[19]。
癌癥基因組圖譜(Cancer Genome Atlas,TCGA)數(shù)據(jù)集始建于2006年,存儲和管理關于癌癥基因組數(shù)據(jù)的各類信息。TCGA已經(jīng)生成了超過2.5 PB的基因組、表觀基因組、轉錄組和蛋白質(zhì)組數(shù)據(jù)。該數(shù)據(jù)集旨在提高診斷、治療和預防癌癥的能力,是目前醫(yī)療領域應用最廣的公開數(shù)據(jù)集之一。其他組學數(shù)據(jù)集還包括GTEx、GEO、TIMER2.0、HPA、TISIDB、cBioPortal、LinkedOmics和ImmuCellAI等[15]。
以疾病或特定研究目標建立的標準數(shù)據(jù)集,通常包括影像、生理參數(shù)、實驗室檢查、臨床觀察以及組學數(shù)據(jù)等在內(nèi)的綜合多模態(tài)數(shù)據(jù)集。例如,旨在對阿爾茨海默病進行早期檢測和跟蹤的ADNI(Alzheimer’s Disease Neuroimaging Initiative)公共數(shù)據(jù)集、重癥監(jiān)護醫(yī)療信息相關數(shù)據(jù)集MIMIC(Medical Information Mart for Intensive Care)[8]。北京協(xié)和醫(yī)院眼科于2021年構建的糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)眼底彩照人工智能研究標準數(shù)據(jù)集,填補了我國基于實際臨床應用場景的DR標準數(shù)據(jù)集的空白[20]。為提高我國肝臟移植臨床診療和科研水平,中華醫(yī)學會外科學分會外科手術學學組、中華醫(yī)學會器官移植學分會肝移植學組、中國醫(yī)師協(xié)會器官移植醫(yī)師分會移植免疫學專業(yè)委員會聯(lián)合組織撰寫了《肝臟移植標準數(shù)據(jù)集》,此數(shù)據(jù)集主要參考國際國內(nèi)術語標準(如ICD-10、ATC LONIC等),電子病歷規(guī)范(HL7 CDA),國際及國內(nèi)疾病標準指南、數(shù)據(jù)規(guī)范及專家共識,同時兼顧中國肝移植注冊等系統(tǒng)的填報需求,為我國AI在肝臟移植方面的發(fā)展提供助力[21]。最近,廣州醫(yī)科大學建立了世界上首個專門研究鐵死亡調(diào)控因子和鐵死亡疾病關聯(lián)的FerrDb V2數(shù)據(jù)集,為鐵死亡相關疾病的機制研究奠定了基礎[22]。
研究表明,使用有限和特定臨床環(huán)境數(shù)據(jù)訓練的模型應用于特定患者群體往往會出現(xiàn)數(shù)據(jù)選擇偏倚和覆蓋偏倚,這些數(shù)據(jù)偏倚可能造成模型在實際部署與開發(fā)過程中的表現(xiàn)產(chǎn)生明顯差距。而對于同一個數(shù)據(jù)集,也存在用不同模型訓練產(chǎn)生的效果迥異的現(xiàn)象[23]。由于醫(yī)療的特殊性和人體的復雜性,每一個用于醫(yī)療實際的人工智能模型或產(chǎn)品的實用價值和安全性都必須經(jīng)過嚴格評估。2021年世界衛(wèi)生組織發(fā)布了全球首份衛(wèi)生人工智能報告及其設計和使用6項指導原則,報告指出,盡管在醫(yī)療領域應用人工智能具有明顯益處,但必須將其臨床部署過程中存在的風險降至最低[24]。第三方評測和臨床試驗是風險控制和評價的最佳選擇,但因其對資源和時間的巨大需求無法滿足人工智能模型快速迭代開發(fā)中頻繁測試的要求,因此在人工智能研究中,通常采用“基準”來評估和比較模型性能,其也是人工智能發(fā)展的驅(qū)動力?;鶞时举|(zhì)上是標準化的任務集,包括任務(如乳腺癌篩查)、代表任務的數(shù)據(jù)集(如乳腺癌篩查數(shù)據(jù)集CBIS-DDSM)以及評估模型性能的一個或多個指標(如準確率)。在智能醫(yī)學領域,構建標準化的醫(yī)學人工智能基準是一項緊迫且頗具挑戰(zhàn)性的任務。醫(yī)學人工智能的未來取決于人工智能基準可在多大程度上反映醫(yī)療保健的實際需求[25]。
最近,針對開發(fā)和評估具有臨床診斷推理能力的臨床自然語言處理模型,推出了一套新的診斷推理基準Dr.Bench。其是一套臨床任務,包括來自10個公開可用數(shù)據(jù)集的6項任務,涉及臨床文本理解、醫(yī)學知識推理和診斷生成,目標是推進臨床自然語言處理模型的科學發(fā)展,以支持計算機診斷決策對應的下游應用,并提高醫(yī)療保健提供者在患者護理過程中的效率和準確性[26]。MedPerf則是由來自13個國家的20家公司、20家學術機構和9家醫(yī)院代表組成的的專家聯(lián)盟創(chuàng)建的基準測試平臺,旨在用聯(lián)合學習方法將人工智能模型安全地分發(fā)至不同的機構(如醫(yī)療機構),以實現(xiàn)人工智能模型的聯(lián)合評估[27]。
另外,研究人員還開發(fā)了用于自動血栓檢測的基準CODEC-Ⅳ[28],有望提高手術機器人性能的手術工作流程和技能分析基準HeiChole[29]等。而CBLUE_數(shù)據(jù)集則是一套中文醫(yī)療信息處理評測基準。
2023年ChatGPT-4和Bard的發(fā)布,大語言模型(large language models,LLM)在醫(yī)療環(huán)境中的潛在應用前景引起了空前關注。LLM不僅以優(yōu)秀的成績通過了美國執(zhí)業(yè)醫(yī)師考試,可生成臨床文檔(如出院總結、手術和程序說明)、綜述研究論文或作為聊天機器人回答患者有疑慮的醫(yī)學問題等,還可協(xié)助醫(yī)生根據(jù)醫(yī)療記錄、圖像、實驗室結果診斷病情,并提出治療方案[30]。但由于LLM的輸入和輸出范圍幾乎是無限的,且無法提供信息的確切來源,因此無法確保答案的確定性和可信度。開發(fā)測試LLM的可用性和市場表現(xiàn)的測試基準是醫(yī)學人工智能面臨的新挑戰(zhàn)。有研究使用EQIP(Ensuring Quality Information for Patients)工具測試ChatGPT-4提供的5種肝膽疾病醫(yī)藥信息的可靠性,發(fā)現(xiàn)與臨床指南的一致性為60%[31]。此外,測試LLM抽象推理能力及其他認知能力的方法仍然是一個懸而未決的問題。2023年5月的一項研究在2019年創(chuàng)建的抽象推理語料庫基礎上,制作了一套新的謎題,稱之為ConceptARC,旨在為測試人工智能系統(tǒng)的能力提供更好的基準,測試結果顯示ChatGPT-4在邏輯謎題檢測中正確率很低,提示ChatGPT-4在推理抽象概念能力方面存在欠缺[32]。
隨著AI的發(fā)展和應用,醫(yī)學領域必將帶來顛覆性的改變,這也必然對現(xiàn)有的秩序和人際關系造成沖擊,同時也將產(chǎn)生新的技術、法律和倫理問題,需要健全相關的規(guī)范加以約束。2021—2023年迎來了人工智能的快速發(fā)展時期,世界衛(wèi)生組織相繼發(fā)布了《為基于人工智能的醫(yī)療設備生成證據(jù):訓練、驗證和評估框架》《醫(yī)療衛(wèi)生中人工智能的倫理治理》等指導性文件,旨在對AI醫(yī)療設備產(chǎn)品生命周期內(nèi)的驗證、生成證據(jù)和報告等方面的具體方法、原則、標準、基本路徑和實施要點,以及醫(yī)學人工智能倫理治理達成全球共識[33]。與此同時,為提高醫(yī)療市場人工智能設備的安全性和性能,美國FDA發(fā)布了基于人工智能/機器學習的“軟件即醫(yī)療器械(SaMD)行動計劃”,歐盟則發(fā)布了《醫(yī)療器械條例》[34]。為順應醫(yī)學人工智能在我國的快速發(fā)展,2022年國家市場監(jiān)督管理總局和國家標準化管理委員會聯(lián)合發(fā)布了《信息技術 人工智能 平臺計算資源規(guī)范》[35],為我國人工智能平臺建設提供了標準依據(jù)。同年,中共中央辦公廳、國務院辦公廳印發(fā)了《關于加強科技倫理治理的意見》[36],這是我國首個國家層面的科技倫理治理指導性文件,是為了進一步完善我國科技倫理體系,實現(xiàn)高水平科技自立自強,是加強我國科技倫理治理的標志性事件之一。為應對ChatGPT-4,Med-PaLM2等生成式人工智能技術的挑戰(zhàn),2023年7月國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合公布了《生成式人工智能服務管理暫行辦法》[37],旨在促進生成式人工智能技術健康發(fā)展和規(guī)范應用,但仍缺乏在醫(yī)學領域應用的細化規(guī)定。
當前我國醫(yī)學人工智能規(guī)范較多,然而各類規(guī)范并未形成統(tǒng)一體系,涉及不同臨床任務的規(guī)范均需單獨開發(fā),因此規(guī)范發(fā)布滯后于研發(fā)速度的現(xiàn)象普遍存在。例如,關于阿爾茨海默病的人工智能研究如火如荼,相關規(guī)范卻未見發(fā)布。另一方面,當前醫(yī)學人工智能規(guī)范對人工智能與醫(yī)學的融合程度相對較低。例如,國家藥品監(jiān)督管理局發(fā)布的評審要點中對于醫(yī)療器械的評價采用了臨床試驗結合傳統(tǒng)人工智能指標的方式,而并未進一步將醫(yī)療器械的評價推向臨床獲益,易造成人們對醫(yī)療器械應用的過度樂觀。
應用醫(yī)學人工智能已成為我國現(xiàn)代醫(yī)療領域發(fā)展的必然趨勢,但相關標準研究相對滯后,目前仍缺乏統(tǒng)一且規(guī)范化的中文臨床醫(yī)學術語標準、大規(guī)模高質(zhì)量標注的訓練數(shù)據(jù)集,規(guī)范化的測試基準和專業(yè)化的監(jiān)管體系尚不成熟,不利于人工智能在醫(yī)療領域的長遠發(fā)展。此外,人類疾病譜不斷遷延變化,醫(yī)學人工智能作為健康領域極具潛能的助手,其標準體系亦需不斷完善。
未來醫(yī)學人工智能的標準建設應著重關注人工智能與醫(yī)學深度融合所產(chǎn)生的新的術語、關系以及問題,圍繞真實臨床場景進行拓展。因此,如何將傳統(tǒng)臨床獲益納入醫(yī)學人工智能標準建設將是急需突破的重要目標之一。然而,目前臨床獲益卻無法直接融入當前的醫(yī)學人工智能體系。一方面,傳統(tǒng)臨床試驗中臨床獲益通常需對患者進行一定時間的觀察,并且根據(jù)患者的主要臨床結局進行計算。該方式耗時耗力,與需要頻繁測試評價的人工智能開發(fā)流程相沖突。另一方面,為了降低臨床試驗相關時間和資源成本,最近基于真實世界數(shù)據(jù)的臨床評價方法被提出。然而,該方法存在一定局限性。首先,基于該方法的評價是回顧性的,難以模擬類似前瞻性試驗中出現(xiàn)的不確定因素。其次,真實世界數(shù)據(jù)通常關注受試者當前以及歷史狀態(tài),難以根據(jù)患者受干預后臨床結局給出準確評價。因此,當前的臨床獲益要融入醫(yī)學人工智能標準并非易事。為了降低成本以及保持試驗的準確性,結合基準以及小規(guī)模真實臨床試驗的評價標準可能是建立臨床獲益在內(nèi)的醫(yī)學人工智能標準的可行途徑。