胡凱,甄輝,楊輝,夏建松,何蕊浙江省醫(yī)療器械審評(píng)中心,杭州市,311121
自美國(guó)國(guó)會(huì)通過(guò)“21世紀(jì)健康法案”以來(lái),美國(guó)醫(yī)療產(chǎn)業(yè)界加大對(duì)人工智能產(chǎn)品的投入與應(yīng)用。2019年2月,美國(guó)總統(tǒng)特朗普簽署“美國(guó)人工智能倡議”行政令[1],釋放了產(chǎn)業(yè)扶持信號(hào)。我國(guó)十九大報(bào)告中明確指出“加快建設(shè)制造強(qiáng)國(guó),加快發(fā)展先進(jìn)制造業(yè),推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)融合”[2]。2018年10月,中央政治局集體學(xué)習(xí)了人工智能產(chǎn)業(yè)發(fā)展[3],也將醫(yī)學(xué)作為人工智能重要的應(yīng)用領(lǐng)域。可見(jiàn),人工智能醫(yī)療器械產(chǎn)業(yè)已經(jīng)受到全世界的重視,成為未來(lái)戰(zhàn)略的一部分。如何服務(wù)好人工智能器械產(chǎn)業(yè),引導(dǎo)其健康良性發(fā)展是醫(yī)療器械監(jiān)管從業(yè)人員共同的重任。據(jù)報(bào)道[4],2018年度FDA審批通過(guò)了十余款人工智能產(chǎn)品,文章列舉的產(chǎn)品中有10款通過(guò)510(k)上市、4款通過(guò)DE NOVO上市[5],預(yù)期用途包括影像輔助診斷、生理信號(hào)檢測(cè)與診斷、決策支持等。其中,數(shù)量最為豐富的產(chǎn)品為影像輔助診斷產(chǎn)品,涵蓋神經(jīng)科、心胸科、眼科。影像類人工智能輔助診斷軟件,由于其數(shù)據(jù)類型為“二維或三維圖像”,相比于體外診斷領(lǐng)域的量化指標(biāo),其特征的提取較為抽象和復(fù)雜,對(duì)診斷醫(yī)生的經(jīng)驗(yàn)要求較高。本文將選取其中的若干個(gè)產(chǎn)品,探討其臨床評(píng)價(jià)方式并概括要點(diǎn),探索國(guó)內(nèi)同類產(chǎn)品在臨床評(píng)價(jià)時(shí)的相關(guān)思路。
本文討論了2018年FDA上市總結(jié)中明確提出,使用人工智能(AI)或深度學(xué)習(xí)的幾款影像類人工智能輔助診斷軟件:糖尿病視網(wǎng)膜病變輔助篩查軟件IDx-DR、骨折輔助檢測(cè)軟件OsteoDetect、腦卒中輔助檢查軟件ContaCT、顱內(nèi)出血輔助檢查軟件AccipioIx、顱內(nèi)出血輔助檢查軟件BriefCase、乳腺異常輔助診斷軟件QuantX、冠狀動(dòng)脈鈣化輔助評(píng)估軟件HealthCCS、影像輔助分析軟件ArterysMICA。其中IDx-DR、OsteoDetect、ContaCT、QuantX為低風(fēng)險(xiǎn)新產(chǎn)品上市途徑De Novo(申請(qǐng)時(shí)無(wú)實(shí)質(zhì)性等同上市產(chǎn)品),AccipioIx、BriefCase、HealthCCS、ArterysMICA上市途徑為510(k)。
根據(jù)美國(guó)相關(guān)法律和規(guī)章要求,各上市途徑中臨床評(píng)價(jià)的要求不盡相同。對(duì)于高風(fēng)險(xiǎn)III類產(chǎn)品上市途徑PMA,21 CFR 814.20部分明確要求提交包含人類數(shù)據(jù)的臨床研究[6];510(k)則基于“實(shí)質(zhì)性等同”的評(píng)價(jià)方式,可通過(guò)非臨床或臨床測(cè)試數(shù)據(jù)來(lái)證明與對(duì)比產(chǎn)品的等同性(21 CFR 807.92);而De Novo途徑的誕生基于FD&C法案513(f)部份,產(chǎn)品風(fēng)險(xiǎn)尚未達(dá)到III類但尚無(wú)實(shí)質(zhì)性等同產(chǎn)品,目前CFR暫未有具體的要求,僅有指南《De Novo Classification Process》對(duì)臨床評(píng)價(jià)的要求作出建議,要求提供必要的臨床和非臨床數(shù)據(jù)。
但從FDA允許上市的若干影像類人工智能輔助診斷軟件來(lái)看,除ArterysMICA均提供了與臨床相關(guān)的數(shù)據(jù),分別來(lái)自于美國(guó)境內(nèi)外的臨床機(jī)構(gòu)。根據(jù)21 CFR 812/807.87等規(guī)定,對(duì)于取自臨床研究的數(shù)據(jù)需符合患者利益及倫理審查機(jī)構(gòu)等相關(guān)要求,前序需申請(qǐng)IDE。而對(duì)于使用回顧性臨床數(shù)據(jù)進(jìn)行性能測(cè)試,目前未有相關(guān)臨床法規(guī)要求,但應(yīng)保障數(shù)據(jù)的真實(shí)性。
基于這5個(gè)產(chǎn)品的臨床評(píng)價(jià)情況,并結(jié)合其預(yù)期用途表述要點(diǎn),分析如表1所示。
從上表可以觀察,產(chǎn)品均為輔助診斷工具,并不替代專業(yè)醫(yī)生最終的診斷結(jié)論;所輸出的結(jié)果,不具有臨床診斷意義,為物理學(xué)、圖像幾何學(xué)參數(shù)或基于這些參數(shù)所建立的評(píng)分指數(shù)、通知。
上表結(jié)合FDA公開(kāi)發(fā)布文件,這8個(gè)II類影像類人工智能輔助診斷軟件的臨床評(píng)價(jià)具有以下特點(diǎn):
(1)用于非緊急情況篩查的輔助診斷產(chǎn)品無(wú)同品種產(chǎn)品時(shí),若預(yù)期用途同時(shí)涉及陰性和陽(yáng)性判斷提示,應(yīng)進(jìn)行臨床研究;對(duì)于流程優(yōu)化型產(chǎn)品,應(yīng)在臨床研究中考察使用者在有輔助和無(wú)輔助情況下的診斷結(jié)果差異;
(2)緊急情況下疾病篩查的輔助診斷產(chǎn)品若預(yù)期用僅涉及陽(yáng)性判斷提示,無(wú)論是否具有同品種,需臨床數(shù)據(jù)性能測(cè)試,不進(jìn)行臨床研究;
(3)產(chǎn)品在有同類產(chǎn)品時(shí)均接受同品種比對(duì)。
根據(jù)FDA的CFR條款特點(diǎn),對(duì)于影像類人工智能輔助診斷軟件,部分II類產(chǎn)品除510(k)的一般控制外,可能以利用回顧性臨床數(shù)據(jù)進(jìn)行性能測(cè)試作為后續(xù)同類II類產(chǎn)品的特殊控制方式(Special Control)。
根據(jù)前文,影像類人工智能輔助診斷軟件的臨床數(shù)據(jù)可來(lái)自于性能測(cè)試和臨床研究?jī)煞矫妗?/p>
其中IDx-DR的前瞻性臨床研究,OsteoDetect、HealthCCS的臨床數(shù)據(jù)性能測(cè)試使用3位讀者/專家采取多數(shù)表決法獲得結(jié)果,與軟件結(jié)果進(jìn)行對(duì)比;ContaCT的臨床數(shù)據(jù)性能測(cè)試采用“雙人復(fù)核+第三人仲裁”法獲取結(jié)果,與軟件結(jié)果對(duì)比;OsteoDetect、QuantX的臨床研究則進(jìn)行了全交叉研究,每個(gè)醫(yī)生對(duì)每個(gè)病例進(jìn)行閱讀。
從已上市產(chǎn)品的輸出結(jié)果分析,目標(biāo)癥狀均有陰陽(yáng)性的二分類特征。絕大多數(shù)對(duì)照判斷均為單一的“陰/陽(yáng)—是/否”維度;而OsteoDetect是性能測(cè)試使用框柱法,軟件結(jié)果表現(xiàn)除“是/否”外,還具有空間位置特異性,因此需特別注意假陽(yáng)性(專家標(biāo)注陽(yáng)性結(jié)果為所有專家標(biāo)注框邊界的并集,并集結(jié)果為0像素則是陰性)的兩類表現(xiàn)方式:軟件輸出框結(jié)果非空,專家標(biāo)注結(jié)果非空,但兩者無(wú)交集;軟件輸出框結(jié)果非空,專家標(biāo)注結(jié)果為空。
對(duì)于二分類結(jié)果,產(chǎn)品研究可采用混淆矩陣來(lái)分析靈敏度和特異性。部分產(chǎn)品的臨床評(píng)價(jià)終點(diǎn)公開(kāi)數(shù)據(jù)如表2。
此外,全交叉的多讀者方案臨床研究的產(chǎn)品還關(guān)注了ROC曲線下的面積,進(jìn)行了兩組對(duì)照的AUC面積差的假設(shè)檢驗(yàn)。在臨床試驗(yàn)過(guò)程,得到了純?nèi)斯そM(無(wú)軟件輔助)的ROC曲線,以及輔助組的ROC曲線,驗(yàn)證兩者的曲線下面積差值的假設(shè)檢驗(yàn)。
由于不同產(chǎn)品在臨床決策的作用不同,所針對(duì)適應(yīng)癥的緩急等特征不同,因此在次要評(píng)價(jià)指標(biāo)的設(shè)置具有比較大的差異性。
(1)非緊急情況使用的輔助診斷產(chǎn)品考慮檢測(cè)結(jié)果的重復(fù)性。應(yīng)考慮同一素材其結(jié)果在不同時(shí)間和地點(diǎn)的測(cè)量值的重復(fù)性。IDx-DR軟件進(jìn)行了一項(xiàng)臨床子研究,對(duì)24名受試者進(jìn)行了重復(fù)試驗(yàn)。其中12名受試者人工判讀對(duì)照組結(jié)果陰性,12名受試者為陽(yáng)性。每名受試者由3名不同的操作員在兩臺(tái)不同的Topcon眼底攝像機(jī)上成像。每人接受完整的IDx-DR判讀10次產(chǎn)生10組圖像,共240組圖像。結(jié)果一名受試者的5張圖像不能被分析,其余235張(97.9%)圖像可被分析。對(duì)于24名受試者中的23名,每人所有經(jīng)IDx-DR軟件輸出結(jié)果相同。因此,IDx-DR的輸出結(jié)果重復(fù)性(99.6%)好,且對(duì)人員和設(shè)備不敏感。
(2)對(duì)于結(jié)果呈現(xiàn)為框注感興趣區(qū)域[7]的輔助診斷產(chǎn)品,考慮其結(jié)果的位置精確程度。OsteoDetect的性能測(cè)試設(shè)置了中心位置對(duì)比,軟件預(yù)測(cè)邊界框的圖心與參考標(biāo)準(zhǔn)邊界框的圖心之間的平均像素距離是33.52(標(biāo)準(zhǔn)差為30.03)。圖像的平均大小為1 663像素 × 1 109像素(面積為1 844 267個(gè)像素),以及參考標(biāo)準(zhǔn)邊界框的平均面積為30 164個(gè)像素,軟件的預(yù)測(cè)邊界框的平均面積為34 924個(gè)像素,中心差遠(yuǎn)小于框的長(zhǎng)寬尺度??梢?jiàn),OsteoDetect通常會(huì)在橈骨遠(yuǎn)端骨折部位檢出點(diǎn)附近畫出邊界框。
(3)對(duì)于緊急情況下使用的輔助診斷產(chǎn)品,時(shí)間與診療效果可能相關(guān)的適應(yīng)癥,應(yīng)考察其在工作流中的時(shí)間指標(biāo)。兩款用于檢測(cè)腦部血管狀態(tài)的軟件,性能測(cè)試均對(duì)真陽(yáng)性病例統(tǒng)計(jì)觀察了時(shí)間指標(biāo),軟件檢測(cè)出陽(yáng)性結(jié)果的時(shí)間和按照臨床的標(biāo)準(zhǔn)流程判斷出陽(yáng)性結(jié)果的時(shí)間進(jìn)行了對(duì)比。t軟件/t標(biāo)準(zhǔn)的值為51.4 min、68.1 min,具有統(tǒng)計(jì)學(xué)意義。應(yīng)特別注意預(yù)期用途中未宣稱對(duì)陰性結(jié)果優(yōu)化工作流程,所以不需考察陰性結(jié)果的時(shí)間指標(biāo)。
2.4.1 最壞情況考慮
由于個(gè)體差異的存在,有較小概率人工判讀沒(méi)有結(jié)果。這種情況下,為最大限度地保證產(chǎn)品的安全性,將人工判讀無(wú)結(jié)果修正為人工判讀陽(yáng)性。例如,IDx-DR在892名中的73名不可分析的受試者圖像中,有35名(4%)受試者無(wú)法通過(guò)人工評(píng)分(FPRC)[8]。在最壞的情況下,假設(shè)這35名受試者均患有糖尿病視網(wǎng)膜病變,則這73例病例靈敏度和特異性分別為80.7%和89.8%,仍符合總體的臨床評(píng)價(jià)指標(biāo)。
2.4.2 陰陽(yáng)性病例數(shù)量
由于部分適應(yīng)癥可能存在人群發(fā)病率較低的情況,導(dǎo)致特異性虛高。為防止這一現(xiàn)象的發(fā)生,應(yīng)適當(dāng)調(diào)整陰陽(yáng)性病例的比例:
(1)開(kāi)展回顧性的臨床研究,可選擇已有的病例數(shù)據(jù)開(kāi)展,盡量控制陰陽(yáng)性病例的數(shù)量相等。但應(yīng)注意選擇過(guò)程對(duì)試驗(yàn)操作雙方“雙盲”。對(duì)人工判讀/標(biāo)注者盲,病例入組操作人員和判讀操作人員不能相同;對(duì)軟件“盲”是指,入組的病例不能在前期已作為軟件的基礎(chǔ)訓(xùn)練病例(如OsteoDetect)。
(2)前瞻性實(shí)驗(yàn)人為富集陽(yáng)性病例。為防止陽(yáng)性病例收集過(guò)慢,人為設(shè)置條件加快陽(yáng)性病例入組,但應(yīng)從統(tǒng)計(jì)學(xué)角度觀察和排除該條件對(duì)結(jié)果的影響,同時(shí)盡可能防止陽(yáng)性病例的漏判。如IDx-DR軟件依據(jù)糖化血紅蛋白水平(HbA1C)來(lái)收集陽(yáng)性病例,并通過(guò)邏輯回歸的方式排除了這一影響;同時(shí)對(duì)糖尿病視網(wǎng)膜病變,陽(yáng)性的判斷綜合考慮眼底相機(jī)數(shù)據(jù)、OCT數(shù)據(jù)、評(píng)分法的結(jié)果[9]。
2.4.3 真實(shí)世界數(shù)據(jù)
通過(guò)真實(shí)世界已有相關(guān)研究,來(lái)輔助臨床性能測(cè)試或臨床研究的指標(biāo)來(lái)衍生推論,從而證明產(chǎn)品的臨床價(jià)值。如已有足夠文獻(xiàn)指出,神經(jīng)血管專家在LVO患者的管理中起著關(guān)鍵作用,并且神經(jīng)血管專家的早期介入明顯有益于LVO患者。因此,通過(guò)軟件檢測(cè)發(fā)現(xiàn)LVO陽(yáng)性的平均時(shí)間少于標(biāo)準(zhǔn)流程操作所用平均時(shí)間,可證明產(chǎn)品有利于LVO患者。
2.4.4 數(shù)據(jù)格式
預(yù)期用途中描述的硬件適配的不同可能造成輸出文件的不同,包括文件格式和因操作造成的圖像分辨率、圖像層間距等的不同。對(duì)于文件格式,可盡可能采用統(tǒng)一標(biāo)準(zhǔn)處理,如DICOM。
2.4.5 可用性因素
部分輔助診斷產(chǎn)品的模塊和功能較為復(fù)雜多樣,使用者學(xué)習(xí)曲線較為平緩。在實(shí)際操作過(guò)程中可加強(qiáng)對(duì)使用者的培訓(xùn),防止數(shù)據(jù)不必要的脫落。也可通過(guò)開(kāi)展子研究來(lái)排除可用性因素干擾。
對(duì)比上述美國(guó)影像類人工智能輔助診斷軟件的上市途徑和臨床評(píng)價(jià)特點(diǎn),我國(guó)從業(yè)人員在臨床評(píng)價(jià)時(shí)存在諸多困難,如缺乏對(duì)臨床影像標(biāo)注的標(biāo)準(zhǔn)、同類產(chǎn)品臨床對(duì)比數(shù)據(jù)較難獲取、尚未有統(tǒng)一的產(chǎn)品標(biāo)準(zhǔn)、產(chǎn)品性能泛化能力弱等。結(jié)合以上情況,提出下文建議。
FDA對(duì)幾款影像類人工智能輔助診斷軟件公開(kāi)了臨床評(píng)價(jià)信息,企業(yè)在申請(qǐng)文件中參照或?qū)Ρ韧惍a(chǎn)品的臨床或者性能測(cè)試數(shù)據(jù),而這些數(shù)據(jù)都可在公開(kāi)數(shù)據(jù)庫(kù)中獲取。在中國(guó),除了相關(guān)方主動(dòng)公開(kāi)(如發(fā)表文獻(xiàn)、審評(píng)報(bào)告公開(kāi)等),較難獲取臨床數(shù)據(jù)和真實(shí)世界數(shù)據(jù)[10]。這直接增加了企業(yè)在同品種比對(duì)時(shí)獲取數(shù)據(jù)的時(shí)間和經(jīng)濟(jì)成本。對(duì)此,一方面對(duì)于企業(yè)公開(kāi)相關(guān)信息給予支持和鼓勵(lì);另一方面,可參考美國(guó)相關(guān)機(jī)構(gòu),將信息公開(kāi)制度化。如FDA通過(guò)510(k)的summary文件明確了幾款影像類人工智能產(chǎn)品的部分評(píng)價(jià)終點(diǎn)數(shù)據(jù)(靈敏度、特異性、一致性);NIH(美國(guó)國(guó)立衛(wèi)生研究院)則將一些臨床試驗(yàn)予以公開(kāi)和公布[11]。公開(kāi)部分臨床評(píng)價(jià)數(shù)據(jù)有利于降低同品種對(duì)比數(shù)據(jù)獲取難度,縮短低風(fēng)險(xiǎn)輔助診斷產(chǎn)品的上市時(shí)間。
在研發(fā)初步完成后,高效的產(chǎn)品研發(fā)檢測(cè)給后續(xù)的臨床評(píng)價(jià)做好鋪墊。“臨床數(shù)據(jù)性能測(cè)試+臨床研究”的模式可以理解為“驗(yàn)證+測(cè)試”,所使用數(shù)據(jù)分別為“驗(yàn)證集”與“測(cè)試集”[12]。對(duì)于人工智能輔助診斷軟件產(chǎn)品,通過(guò)高效的驗(yàn)證集來(lái)調(diào)整優(yōu)化產(chǎn)品的參數(shù),為臨床研究提供最佳的產(chǎn)品性能狀態(tài)。對(duì)于后續(xù)進(jìn)行臨床研究的產(chǎn)品,可考慮使用“公開(kāi)數(shù)據(jù)+非公開(kāi)數(shù)據(jù)”進(jìn)行前期的臨床數(shù)據(jù)性能測(cè)試。美國(guó)已建立部分開(kāi)放資源,如NIH的CT圖像開(kāi)放數(shù)據(jù)集DeepLesion[13],美國(guó)國(guó)家癌癥研究所(National Cancer Institute)的胸部影像數(shù)據(jù)集LIDC-IDRI[14],斯坦福大學(xué)的上肢肌肉骨骼X光片數(shù)據(jù)集MURA[15]等等。但也應(yīng)注意,在產(chǎn)品的訓(xùn)練時(shí)如使用了公開(kāi)數(shù)據(jù)集訓(xùn)練,則應(yīng)避免驗(yàn)證集使用同一個(gè)數(shù)據(jù)集而造成結(jié)果偏倚。
軟件類產(chǎn)品的研發(fā)過(guò)程較為復(fù)雜,特別是人工智能產(chǎn)品訓(xùn)練集、驗(yàn)證集、測(cè)試集等各個(gè)環(huán)節(jié)的優(yōu)化,需要大量的前期工作基礎(chǔ)。而等到產(chǎn)品上市審批時(shí),在短時(shí)間對(duì)智力密集型成果進(jìn)行評(píng)價(jià)有較大難度。目前美國(guó)FDA對(duì)產(chǎn)品提前介入形式有“早期可行性研究(EFS)”[16]和“預(yù)認(rèn)證(pre-cert)”[17]。EFS在提交臨床研究(IDE)之前,企業(yè)預(yù)提交器械概念描述、臨床背景和基本原理,目標(biāo)在于與FDA就基于風(fēng)險(xiǎn)分析、非臨床測(cè)試和臨床風(fēng)險(xiǎn)緩解策略支持研究啟動(dòng)所需的信息達(dá)成共識(shí)。而對(duì)于數(shù)字軟件產(chǎn)品,F(xiàn)DA于2017年啟動(dòng)了“pre-cert”計(jì)劃,并公布了一批參與該計(jì)劃的企業(yè)。2019年1月公布了該計(jì)劃最新的1.0版本,以簡(jiǎn)化版De Novo途徑對(duì)相關(guān)廠家的產(chǎn)品進(jìn)行提前介入。該計(jì)劃的企業(yè)需先滿足質(zhì)量體系法規(guī)(QSR)的要求。國(guó)內(nèi)可參考美國(guó)的這一模式,提前介入人工智能產(chǎn)品的評(píng)價(jià),加大對(duì)人工智能產(chǎn)品的支持力度。
由于人工智能產(chǎn)品自身特性,產(chǎn)品會(huì)不斷完善、更新和迭代。最直觀的如產(chǎn)品訓(xùn)練集發(fā)生變化,可能導(dǎo)致對(duì)于同一樣本前后兩次處理結(jié)果不相同,并且不能完全保證這種變化是有利于提高產(chǎn)品的性能。目前尚無(wú)統(tǒng)一模式對(duì)這一變化進(jìn)行量化評(píng)價(jià)??赏ㄟ^(guò)建立完善臨床再評(píng)價(jià)體系,利用包含獨(dú)立非公開(kāi)的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集合在內(nèi)的工具,定期對(duì)產(chǎn)品的性能進(jìn)行綜合的臨床評(píng)價(jià)和“校準(zhǔn)”[18],保證產(chǎn)品的可靠性。同時(shí),參照再評(píng)價(jià)體系,成立合規(guī)的第三方再評(píng)價(jià)中心,客觀上促進(jìn)數(shù)據(jù)的標(biāo)準(zhǔn)化和網(wǎng)絡(luò)資源的數(shù)據(jù)安全,并促進(jìn)影像類人工智能輔助診斷軟件質(zhì)量的提升,引導(dǎo)產(chǎn)業(yè)健康務(wù)實(shí)發(fā)展。