陳明揚,蔡紫庭,薛 鵬,江 宇,喬友林
(北京協和醫(yī)學院 群醫(yī)學及公共衛(wèi)生學院,北京 100005)
人工智能(artificial intelligence, AI)是計算機科學領域的一個分支,包括任何利用機器模擬人類智能解決問題或進行決策的技術。AI的歷史可追溯到20世紀50年代, 計算機科學家Alan Turing于1950年發(fā)表了一篇劃時代的論文,預言了計算機模擬人腦執(zhí)行任務的可能性[1]。在1956年美國達特茅斯學院的一次研討會上,John McCarthy首次提出“人工智能”這一概念,標志著AI學科的誕生[2]。1956年之后的十幾年是AI發(fā)展的黃金年代,直至70年代初,AI缺乏有效研究進展,使其遭遇了第一次低谷。此后幾十年,隨著數據的爆發(fā)性增長、算法的不斷創(chuàng)新以及計算機性能的穩(wěn)步提升,AI已在許多領域取得突破性進展,包括腫瘤領域。
AI有3大基本要素: 數據、 算法和算力。數據是AI的基礎、AI的“糧食”,基于大數據進行大量訓練,總結規(guī)律,再應用于新的樣本,是AI的基本思路。腫瘤防控中,AI的數據類型包括影像學、病理學、電子健康數據和組學數據,從結構化的一維數據到非結構化的高維數據均有所覆蓋[3]。算法是AI的“大腦”,爆發(fā)增長的數據對算法提出了更高要求。主流的AI算法主要分為傳統機器學習(machine learning,ML)算法和神經網絡算法,目前神經網絡算法因深度學習(deep learning,DL)的快速發(fā)展逐漸成為研究熱點。DL是包含大量隱層的神經網絡,當傳統ML學習能力有限時,DL可通過增加數據量提升學習性能。主要的DL算法有卷積神經網絡(convolutional neural network,CNN)、全卷積網絡(fully convolutional network,FCN)、循環(huán)神經網絡(recurrent neural network,RNN)和生成對抗網絡(generative adversarial network,GAN)[4]。算力即計算能力,是AI的“身體”,支撐著算法和數據。算力依附于設備之上,常見的算力設備有CPU、GPU、TPU、NPU等。在腫瘤領域,一位患者就可以產生上百張醫(yī)學影像圖片,需要處理的數據集龐大,對AI系統算力的需求加速膨脹。主流CPU在計算能力上距支撐快速迭代要求的算力水準還有較大差距,而GPU的靈活性、效率性、與人工智能算法的適應性更高,成為AI計算需求量最大的芯片。
從國家藥品監(jiān)督管理局(NMPA)公布的人工智能醫(yī)療器械獲批情況可以看出,自2020年以來,已有超過20款產品獲得NMPA認證,10余款基于深度學習技術并可應用于腫瘤領域,主要集中在顱內腫瘤、肺結節(jié)等領域。表1列出了較有代表性的獲批產品,其應用場景多集中于病灶分割,輔助診斷的產品較少。其中,肺結節(jié)CT影像輔助檢測軟件居多,主要用于胸部CT影像處理、肺結節(jié)自動識別與測量、自動生成報告,以作為肺癌早期篩查和診斷的參考。與之相比,美國FDA認證的基于深度學習的人工智能醫(yī)療產品(表2)覆蓋的癌癥種類更多,以肺癌和乳腺癌為主,還包括前列腺癌、腦癌、肝癌等。
表1 經中國NMPA認證的基于深度學習的腫瘤相關人工智能醫(yī)療產品
續(xù)表1
表2 經美國FDA認證的基于深度學習的腫瘤相關人工智能醫(yī)療產品
2016至2022年期間認證的23款產品中,各有7項與乳腺癌、 肺癌有關, 其應用場景包括風險預測、輔助篩查、輔助診斷和治療等多個方面。
Kann等人回顧了AI在腫瘤風險預測、篩查、診斷、風險分層和預后、初始治療策略、反應評估、后續(xù)治療和隨訪中的重要研究[5];Bi等人結合肺癌、腦癌、乳腺癌和膀胱癌的應用實例,梳理基于影像學的AI在腫瘤的檢測、表征和監(jiān)測方面的研究進展[6]。但目前AI最成熟的應用仍是利用圖像資料進行腫瘤的篩查和診斷[7]。腫瘤的預后很大程度上取決于腫瘤的類型和診斷時的分期,若其在發(fā)展早期被檢測出來,則預后相對良好。AI可以檢測出人眼容易忽視的微小病變,降低漏診率, 使醫(yī)生從重復閱片工作中解脫, 投入更多精力到與患者的互動中,從而提升醫(yī)療質量。然而,AI也可能會產生相反的效果,這取決于AI系統的準確性以及醫(yī)生與AI的互動機制。
2021年的一篇系統綜述評估了AI在乳房X線篩查實踐中檢測乳腺癌的準確性[8]。在被評估的36個AI系統中,有34個(94%)的準確度低于單個放射科醫(yī)師的診斷準確度。雖有5項研究報告AI系統比單個放射科醫(yī)師的診斷結果更準確,但存在樣本量小、偏倚風險高和外推性差等缺陷。此外,該綜述發(fā)現目前缺乏在真實篩查情景下評估AI診斷準確性的前瞻性研究。英國國家篩查委員會審查AI在乳腺癌篩查中的證據的方法中總結了多閱片者多病例(multiple-reader, multiple-case, MRMC)試驗、回顧性比較研究、前瞻性比較研究、隨機對照試驗4類研究設計的價值和局限,強調未來需要更多前瞻性研究來評估將AI系統納入常規(guī)乳腺癌篩查的效果[9]。Ardila等人利用CT圖像構建深度學習算法來預測肺癌發(fā)生風險,該算法在內部和外部驗證集中都達到良好的預測性能,且優(yōu)于6名放射科醫(yī)生,使肺癌假陽性和假陰性結果分別減少了11%和5%[10]。Hassan等人在一篇有關AI輔助腸鏡用于腺瘤和息肉檢測性能的系統綜述中納入了5篇隨機對照試驗,發(fā)現AI顯著提升了結直腸腺瘤檢出率[11]。Jones等人開展了一項關于AI早期檢測皮膚癌的系統綜述,綜合了272篇相關研究的數據,得到AI對黑色素瘤、鱗狀細胞癌和基底細胞癌的平均診斷準確性分別為89.5%、85.3%和87.6%[12],但只有兩項研究使用的數據來自社區(qū)或初級醫(yī)療機構的低皮膚癌患病率人群,故作者不建議在初級醫(yī)療機構廣泛采用皮膚癌AI診斷系統。Xue等人通過系統綜述發(fā)現,基于陰道鏡圖像和基于細胞學圖像的深度學習算法均在宮頸癌診斷中表現出良好性能[13],但作者強調這一發(fā)現基于的原始研究質量普遍較差,可能高估了深度學習算法的診斷表現。
陰道鏡診斷和定向活檢是宮頸癌篩查程序的關鍵組成部分,但高年資陰道鏡醫(yī)生的短缺、對主觀經驗的依賴、操作者之間的差異,都限制了陰道鏡在宮頸癌篩查中的表現,尤其對于中低收入國家。而AI具有一致性好、效率高等優(yōu)勢,為解決這一問題帶來機遇。中國的一項多中心回顧性研究用6家醫(yī)院的19 435例患者的陰道鏡圖像開發(fā)并驗證了人工智能陰道鏡輔助診斷系統,該系統診斷結果與病理金標準之間的一致率為82.3%,顯著高于陰道鏡醫(yī)生與金標準之間的一致率(65.9%),且在預測活檢位點中展現出良好性能[14]。未來建立基于人工智能陰道鏡的自動化篩查流程,有望提高中低收入國家的宮頸癌篩查能力,緩解醫(yī)療資源短缺,助力加速全球消除宮頸癌。
AI是數據驅動的研究方法,大量高質量的數據是建立可靠AI算法的基礎。腫瘤輔助診斷AI的訓練往往需要大量圖像,而Wen等人通過系統梳理現有的21個皮膚圖像公開數據庫[15],發(fā)現數據庫中報告的關鍵特征和元數據有限且多變、地理分布受限、對深色皮膚類型的代表性明顯不足,限制了其在真實臨床場景中的應用。而此類問題不僅限于皮膚圖像,在放射科、眼科、病理學、胃腸病學中也有報道[16-17]。健康數據貧乏,即由于缺乏具有充分代表性的數據使部分個人或群體無法從中受益,是導致數字健康鴻溝不斷擴大的一個根本原因[18]。而造成健康數據貧乏的原因包括對傳輸患者健康信息的擔憂、機構間數據共享基礎設施的缺乏、數據收集的異質性和不完整性。目前學界越來越重視簡化數據采集,強調建立各類圖像數據庫的最低特征和元數據報告的質量標準,提高數據透明度,并使用已定義的標準進行前瞻性圖像收集,以確保良好的人群代表性。此外,多機構數據共享協議也被提出以支持可發(fā)現、可訪問、可互操作、可重用的數據使用[19]。
算法可解釋性較差是AI發(fā)展的一大瓶頸,然而良好的算法性能和較高的可解釋性在現階段往往無法兼具。因此,如何將黑盒決策轉化為透明過程并建立醫(yī)生對機器的信任是近年的研究熱點。有學者將黑盒決策的解釋方式分為視覺解釋方法、基于擾動的解釋方法、基于知識的解釋方法和因果解釋方法,并提出針對AI可解釋方法的主觀和客觀評價指標[20]。在腫瘤的診療過程中,錯誤預測可能會造成漏診、誤診,甚至危及患者生命安全,這使醫(yī)生在使用AI進行決策時更為謹慎,醫(yī)生需要如AI系統訓練所用數據、模型構建過程和參數等更詳細的信息,以幫助其判斷AI的結果是否可靠。然而,目前許多臨床研究存在方法學報告模糊、標準化命名缺乏和結局指標的異質性等問題,限制了AI技術的下游評估和其在真實世界中發(fā)揮作用[21]。因此,許多知名的研究報告指南已頒布或正在開發(fā)AI版本[22]。2020年9月發(fā)布了涉及AI干預措施的臨床試驗報告指南SPIRIT-AI[23]和CONSORT-AI[24]。目前正在開發(fā)的還有診斷準確性研究報告標準STARD-AI[21]和個人預后或診斷的多變量預測模型的透明報告TRIPOD-AI等[25]。日后的AI研究應嚴格遵循上述標準,使研究透明化和標準化,為腫瘤防治策略的優(yōu)化提供高質量證據。
從應用層面來看,許多在研發(fā)階段表現良好的AI系統在真實世界中卻表現不佳,這是由于AI系統在開發(fā)階段所使用的人群、對照、終點結局均與真實世界相差甚遠,且鮮有前瞻性的、利用外部驗證集的研究設計,與人類專家進行比較的研究則更少。Walter等人于2019年開發(fā)了CanTest框架,形成了新診斷試驗從開發(fā)到實施和評估的清晰轉化路徑[26]。該框架包括5個迭代研究階段,研究場景從高度選擇性的人群到真實世界人群,干預設計從單一的診斷試驗到臨床上多種診斷方式相結合的策略,對照從金標準到醫(yī)生常規(guī)診療,結果評估從診斷試驗的準確性到人群整體收益和成本。Kleppe等人也提出深度學習系統在醫(yī)學應用中的4個開發(fā)等級和2個臨床試驗評估階段[27],他強調要通過前瞻性的隨機對照試驗來對比常規(guī)醫(yī)療表現和整合AI后的醫(yī)療表現,從而評估AI系統在特定臨床情景中的效用。同時也需監(jiān)測獲批后的AI系統應用于醫(yī)療實踐中的長期利益、危害和成本,并根據真實世界中獲得的數據及時調整更新AI系統。
AI的飛速發(fā)展同樣凸顯出該領域的法規(guī)和監(jiān)管機制不夠完善及許多倫理問題。對此,世界衛(wèi)生組織于2021年發(fā)布的《醫(yī)療衛(wèi)生中人工智能的倫理治理》指南中提出保護人類自主權、促進人類福祉和安全以及公共利益,確保透明性和可解釋性、發(fā)展責任和問責制、確保包容性和公平性、促進響應性和可持續(xù)性的6大原則,旨在對醫(yī)療實踐中部署AI提供理論指導框架[28]。醫(yī)生是醫(yī)學AI的直接使用者,其對AI的接受度影響著AI能否順利整合至臨床實踐。但目前大部分醫(yī)生幾乎沒有接受過數據科學和機器學習方面的培訓,這限制了他們理解深度學習機制、適當采用算法和進行研究的能力。同樣,大多數數據科學家在腫瘤的篩查和管理方面幾乎沒有經驗,這限制了其識別重要且適宜的臨床用例的能力。因此,腫瘤科與生物信息學和數據科學部門之間應進一步合作,建立戰(zhàn)略伙伴關系,共同開發(fā)切合臨床需求的AI產品。
由于電子數據的爆炸式增長、深度學習算法的開創(chuàng)性研究和基礎設施的進步,AI為腫瘤防控帶來新的希望。目前,AI在腫瘤的風險預測、篩查、診斷、治療反應評估等關鍵環(huán)節(jié)均有重要進展,其中利用圖像實現腫瘤的早期檢測和診斷是研究最多、發(fā)展最快的領域。然而AI從研發(fā)到臨床應用的路上還存在諸多挑戰(zhàn),如健康數據貧乏、算法可解釋性差、研究報告不規(guī)范、真實世界研究欠缺、監(jiān)管機制不夠完善、長效評估體系缺失等。未來應建立多學科合作網絡、搭建數據共享平臺、完善法律法規(guī)和監(jiān)管機制,AI相關研究要從臨床需求出發(fā)、嚴格遵循已建立的研究報告規(guī)范、開展前瞻性真實世界研究、重視對AI在人群整體層面應用的長期效益和成本評估,為腫瘤防控策略的建立和優(yōu)化提供高質量證據。