国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)集在人工智能醫(yī)療器械質(zhì)控中的角色與要求

2019-02-13 07:16孟祥峰任海萍
中國醫(yī)療器械雜志 2019年1期
關(guān)鍵詞:醫(yī)療器械臨床試驗人工智能

【作 者】王 浩,孟祥峰,李 澍,任海萍

中國食品藥品檢定研究院光機電室,北京市,100050

0 引言

隨著深度學(xué)習(xí)[1]、GPU[2]等軟硬件技術(shù)的突破,國外人工智能(artificial intelligence, AI)醫(yī)療器械產(chǎn)業(yè)的發(fā)展進入井噴狀態(tài),預(yù)期用途豐富多樣[3-12]。我國也有大量產(chǎn)品進入注冊申報階段。目前人工智能產(chǎn)品大多采用監(jiān)督學(xué)習(xí)的技術(shù)路徑,產(chǎn)品研發(fā)、訓(xùn)練、優(yōu)化都需要訓(xùn)練集,而產(chǎn)品的驗證/確認需要測試集,二者都需要優(yōu)質(zhì)數(shù)據(jù)。

人工智能醫(yī)療器械監(jiān)管還處于探索階段。其中一個重要問題是如何理解和明確數(shù)據(jù)集在產(chǎn)品質(zhì)控中的作用,如何對數(shù)據(jù)集進行評價和規(guī)范。企業(yè)一般需要準備自身的數(shù)據(jù)資源,或借助于公開訓(xùn)練集開展研發(fā),與臨床試驗之間存在廣泛的聯(lián)系和相似性。從數(shù)據(jù)集的角度打通兩個環(huán)節(jié)之間的壁壘,有助于人工智能醫(yī)療器械的科學(xué)監(jiān)管,有助于企業(yè)研發(fā)與上市的提速降費,對于行業(yè)發(fā)展意義深遠。

基于以上考慮,本文對數(shù)據(jù)集在國內(nèi)外的發(fā)展概況、國外上市審批過程中的角色、數(shù)據(jù)集質(zhì)量要求等關(guān)鍵內(nèi)容進行研究和探討,旨在分析人工智能醫(yī)療器械專用測試集的定位、準入條件、評價標準,為鼓勵全社會開發(fā)公用數(shù)據(jù)集和支撐藥監(jiān)部門上市前審批、上市后監(jiān)管等管理活動提供有用的信息。

1 國內(nèi)外醫(yī)學(xué)數(shù)據(jù)集發(fā)展現(xiàn)狀

國外建立了很多著名的醫(yī)學(xué)數(shù)據(jù)集,對醫(yī)學(xué)影像AI的發(fā)展尤其是算法訓(xùn)練做出突出貢獻,代表包括LIDC(Lung Image Database Consortium)[13]、NLST(National Lung Screening Trial)[14]、Messidor[15]、EyePACS[16]、MIT-BIH心率失常數(shù)據(jù)庫[17]、ChestX-ray8[8]等。表1對它們進行了比對,說明國外數(shù)據(jù)集的建設(shè)思路和特點是多種多樣的,尚未形成統(tǒng)一的模式。

表1 國外著名醫(yī)學(xué)數(shù)據(jù)集的比對Tab.1 Comparison between datasets abroad

國內(nèi)起步較晚,數(shù)據(jù)集種類和數(shù)量相對有限,代表有阿里天池競賽使用的肺結(jié)節(jié)公開數(shù)據(jù)集等。我國醫(yī)學(xué)數(shù)據(jù)基數(shù)大,門診量多,后發(fā)優(yōu)勢和發(fā)展?jié)摿薮螅斜匾M行引導(dǎo)和規(guī)范,促進優(yōu)質(zhì)數(shù)據(jù)集的發(fā)展壯大。

2 FDA各指導(dǎo)原則有關(guān)數(shù)據(jù)集和測試集的內(nèi)容

美國FDA發(fā)布過幾部相關(guān)指導(dǎo)原則,對于啟發(fā)人工智能醫(yī)療器械監(jiān)管思路、明晰測試集在醫(yī)療器械評價中的作用和要求具有借鑒意義,因此分別介紹如下:

(1)計算機輔助探測(Computer-assisted Detection Devices)提交上市前通知(510(k))指導(dǎo)原則

該原則發(fā)布于2012年7月,對應(yīng)預(yù)期用于處理放射影像圖像和設(shè)備數(shù)據(jù)的II類產(chǎn)品,比如生理異常的特征的識別、標記、高亮顯示等,與部分AI醫(yī)療器械較為相似。該原則要求企業(yè)提交510(k)資料時應(yīng)描述使用的數(shù)據(jù)庫信息,包括訓(xùn)練和測試用的放射影像、設(shè)備數(shù)據(jù)。數(shù)據(jù)的形式由具體評價方式?jīng)Q定,可以包括計算機仿真數(shù)據(jù)、體模數(shù)據(jù)和實際患者數(shù)據(jù),其意義在于第一次提出將數(shù)據(jù)集的描述納入計算機輔助探測產(chǎn)品申報材料。

(2)計算機輔助探測(Computer-assisted Detection Devices)臨床性能評價指導(dǎo)原則

該原則也發(fā)布于2012年7月,用于規(guī)范計算機輔助探測類醫(yī)療器械的臨床試驗設(shè)計,適用于II類產(chǎn)品的510(k)和III類產(chǎn)品的上市前許可(PMA),要求進一步描述臨床試驗中的數(shù)據(jù)細節(jié),其意義在于明確要求臨床試驗數(shù)據(jù)獨立于研發(fā)數(shù)據(jù),允許使用回顧式和前瞻式兩種方式開展臨床試驗,并強調(diào)在回顧式臨床試驗中重視偏倚控制。

(3)真實世界證據(jù)指導(dǎo)原則(Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices)

該文件發(fā)布于2017年8月,提出在滿足質(zhì)量要求的前提下,真實世界數(shù)據(jù)可以用于監(jiān)管活動,包括上市前批準、上市后監(jiān)管、臨床試驗、產(chǎn)品分類、公共健康監(jiān)控等等。該指南明確對數(shù)據(jù)質(zhì)量的要求取決于用途。根據(jù)這一文件,AI的測試集理論上也可以用于監(jiān)管活動。

教以生為本,學(xué)以悟為根。在語文教材中,很多篇章,或真實生動地展現(xiàn)我們民族的優(yōu)良傳統(tǒng),或熱情謳歌我們民族的精神,或精彩地描繪美麗多嬌的祖國山河,或深刻闡述生命的意義等。我們教師要用中華優(yōu)秀文化的精髓來啟發(fā)自己的學(xué)生,使他們懂得生命的意義和價值,將古詩文的優(yōu)秀文化內(nèi)涵在不知不覺中潛移默化地滲透到高中語文課堂教學(xué)中來。

(4)醫(yī)療器械軟件臨床試驗指導(dǎo)原則

該文件發(fā)布于2017年12月,明確軟件的臨床試驗被看做是軟件算法驗證和確認的結(jié)果與預(yù)期臨床條件之間的關(guān)系,可以使用現(xiàn)有臨床數(shù)據(jù)(針對本預(yù)期用途采集,或針對其他預(yù)期用途采集但經(jīng)解釋可用于本預(yù)期用途)。在此意義下推斷,以回顧方式采集臨床數(shù)據(jù)建立的測試集理論上可用于臨床試驗。

以上指導(dǎo)原則,從理論依據(jù)的角度說明測試集,特別是回顧式測試集,在滿足條件的情況下既可能成為產(chǎn)品驗證與確認的依據(jù),又可能充當臨床試驗,意味著建設(shè)優(yōu)質(zhì)的測試集,可能起到一箭雙雕的作用,加速AI產(chǎn)品上市。

3 FDA已批準的人工智能醫(yī)療器械資料中對測試集的描述

目前,從FDA官網(wǎng)提供的資料中,可以發(fā)現(xiàn)不少有關(guān)測試集的描述,表2中列舉了10個與人工智能或計算機輔助探測有關(guān)的已上市產(chǎn)品和FDA公開資料中涉及測試集的描述,類別包括5個510(k)、3個de novo和2個PMA。

表2所示的5個510(k)產(chǎn)品都進行了非臨床的測試,其中的4個產(chǎn)品沒有進行臨床試驗。3個de novo產(chǎn)品全部開展臨床試驗(2個為回顧式),除IDx-DR外都進行了非臨床的測試;IDx-DR做了前瞻式臨床試驗,也發(fā)表過回顧式臨床試驗結(jié)果[10]。2個PMA產(chǎn)品全部進行了非臨床性能測試和回顧式臨床測試。表2的內(nèi)容基本符合前面FDA各指導(dǎo)原則的思想,說明非臨床階段一般需要進行性能測試,使用的數(shù)據(jù)來源包括臨床數(shù)據(jù)、仿真數(shù)據(jù)和標準數(shù)據(jù)集(心電專標);臨床試驗廣泛使用了回顧式臨床。

人工智能醫(yī)療器械目前尚未進入我國醫(yī)療器械分類目錄,根據(jù)業(yè)內(nèi)對于其風(fēng)險的認識,一般分為III類(最高風(fēng)險),類似于iCAD PowerLook Tomo和QVCAD的監(jiān)管級別。參考FDA的工作思路,由臨床數(shù)據(jù)構(gòu)成的測試集對于產(chǎn)品的驗證和確認可以發(fā)揮重要作用,有潛力用于臨床試驗本身。

4 對測試集的要求

測試集的監(jiān)管價值由其自身質(zhì)量和風(fēng)險水平?jīng)Q定。考慮成本限制,無論是前瞻式還是回顧式建庫,其本質(zhì)都是對現(xiàn)實數(shù)據(jù)的抽樣,抽樣誤差和統(tǒng)計偏倚是數(shù)據(jù)集面臨的主要質(zhì)量風(fēng)險。

抽樣誤差主要由預(yù)期考察的數(shù)據(jù)類型的數(shù)量決定,數(shù)量越高,抽樣誤差越小。抽樣誤差可以采用基于二項分布用公式定量描述[7]。數(shù)據(jù)集設(shè)計時如果能明確總?cè)萘亢鸵疾斓奶囟ú》N的患病率,可以估計抽樣誤差和置信區(qū)間,反過來對數(shù)據(jù)集的規(guī)模和患病率設(shè)置進行調(diào)整。

表2 FDA公開資料中對測試集的描述Tab.2 Description of test datasets from FDA website

統(tǒng)計偏倚的控制是建設(shè)數(shù)據(jù)集的難點,共包括六類主要問題:

(1)選擇偏倚:進入測試集的樣本不能代表目標人群,包括患者人群和使用者(醫(yī)生)?;颊呷巳哼x擇偏倚主要以患者準入條件和信息進行控制。使用者的選擇偏倚相對容易控制,因為AI的運行環(huán)境容易統(tǒng)一,醫(yī)生對于同一軟件產(chǎn)品的操作可以通過培訓(xùn)來提升一致性,消除人員差異。

(2)覆蓋偏倚:樣本不能覆蓋目標人群的全部情形。與(1)不同,覆蓋偏倚問題要求的是病種齊全、比例合理,并且考慮同一病種的不同情況,例如并發(fā)癥等。然而,有些AI產(chǎn)品的預(yù)期用途往往把并發(fā)癥和復(fù)雜病理排除在外(例如IDx-DR排除了青光眼),因此覆蓋偏倚的風(fēng)險取決于產(chǎn)品預(yù)期用途本身。

(3)參考標準偏倚:樣本的金標準不是100%準確。金標準的采集受制于情景、成本和患者意愿,不一定全覆蓋。以肺結(jié)節(jié)為例,只有醫(yī)生要求做穿刺活檢的高風(fēng)險結(jié)節(jié)能得到病理信息,而一般的小結(jié)節(jié)不會獲取病理,此時以醫(yī)生的標注作為參考標準。醫(yī)生的參考標準可以由專家共識、培訓(xùn)、流程優(yōu)化等方式控制偏倚,等同于金標準。例如,醫(yī)學(xué)影像專業(yè)閱片中心被認為具有較高的可信度,我國的臨床評價指導(dǎo)原則也接受中心閱片室作為第三方盲評的一種。

(4)驗證偏倚:對診斷價值的驗證只使用了參考標準(非金標準)。該問題主要取決于參考標準偏倚的控制。如果醫(yī)學(xué)影像AI產(chǎn)品測試的目的是比較AI結(jié)果與醫(yī)學(xué)真相,那么應(yīng)當加入輔助信息來糾正驗證偏倚,例如患者病史、化驗結(jié)果、遺傳等等;如果測試的目的是單純地比較AI和標注者對單張或單個序列圖像的識別,那么驗證偏倚的風(fēng)險會相對可控。

(5)閱讀順序偏倚:多個測試之間比較時,打分者的判斷會受到對某組測試記憶的影響。由于人工智能醫(yī)療器械的數(shù)據(jù)集建設(shè)和標注大多采用隨機雙盲的方式,標注者的判斷獨立于工作進度,不涉及多個測試的比較,該風(fēng)險影響較小。

(6)情景偏倚:樣本的患病率不同于目標人群,從而影響測試結(jié)果。情景偏倚與測試集的患病率設(shè)計有關(guān),可以通過優(yōu)化抽樣方式或樣本入選條件進行改善。情景偏倚主要影響陽性預(yù)測值PPV、陰性預(yù)測值NPV等統(tǒng)計指標,在測試時應(yīng)當引起重視。

除此之外,測試集的常規(guī)要求還包括隱私保護與數(shù)據(jù)清洗。首先應(yīng)根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》、《醫(yī)療器械網(wǎng)絡(luò)安全注冊技術(shù)指導(dǎo)原則》等法規(guī)的要求,參照美國健康保險攜帶和責(zé)任法案(Health Insurance Portability and Accountability Act,HIPAA)的具體要求,對于原始數(shù)據(jù)進行脫敏,防止患者隱私泄露。其次,為保證訓(xùn)練與測試效果,應(yīng)當對原始數(shù)據(jù)進行清洗,去除重復(fù)數(shù)據(jù)、不完整數(shù)據(jù)、不可讀取的數(shù)據(jù)和錯誤數(shù)據(jù)。

簡而言之,一個有能力服務(wù)監(jiān)管的測試集,應(yīng)當在容量方面滿足抽樣誤差的要求,在數(shù)據(jù)多樣性方面、標注的權(quán)威性方面、數(shù)據(jù)構(gòu)成等方面滿足偏倚控制的要求,同時做到注重患者隱私保護和數(shù)據(jù)安全。

5 討論與總結(jié)

本文對于人工智能醫(yī)療器械發(fā)展所必需的數(shù)據(jù)集的發(fā)展概況進行了介紹,結(jié)合國外情況和相關(guān)文獻討論了測試集在監(jiān)管中的定位與作用,從理論和實例兩個方面證明了回顧式數(shù)據(jù)集可以用于人工智能醫(yī)療器械的非臨床評價和發(fā)揮臨床試驗的作用。同時,本文對于測試集的要求和評價角度進行了深入研究,對于回顧式數(shù)據(jù)集的偏倚問題及解決方案、數(shù)據(jù)質(zhì)量控制、標注質(zhì)量控制等影響數(shù)據(jù)集質(zhì)量和風(fēng)險水平的要素進行了分析,初步確定了如何對測試集進行約束與規(guī)范。

從實現(xiàn)的角度考慮,回顧式建庫的效率優(yōu)于前瞻式建庫,周期相對較短,數(shù)據(jù)多樣性相對容易滿足;從隨機性和偏倚控制的角度考慮,前瞻式建庫優(yōu)于回顧式建庫,在直觀意義上更接近臨床試驗,患者信息更完整,驗證手段更豐富。二者的選取主要由產(chǎn)品預(yù)期用途和成本控制決定,評價方式和要求基本一致,都應(yīng)當滿足產(chǎn)品測試要求,避免偏倚。對于訓(xùn)練集,建議按照測試集的要求和實際條件對數(shù)據(jù)質(zhì)量、多樣性、統(tǒng)計偏倚等內(nèi)容進行控制。

綜上所述,本文論證了數(shù)據(jù)集在人工智能醫(yī)療器械的監(jiān)管中能夠發(fā)揮積極作用。有序開發(fā)能夠替代臨床試驗的高質(zhì)量測試集,對于企業(yè)、監(jiān)管機構(gòu)、醫(yī)學(xué)機構(gòu)是互利共贏的重要舉措,應(yīng)當鼓勵;同時,本文對測試集的質(zhì)量評價建立了理論依據(jù),為下一步形成測試集評價規(guī)范與認證機制打下了良好的基礎(chǔ)。

猜你喜歡
醫(yī)療器械臨床試驗人工智能
醫(yī)療器械檢驗數(shù)據(jù)修約問題的探討
外來醫(yī)療器械管理存在的問題與對策
醫(yī)院醫(yī)療器械維修中存在的問題及維修管理策略
美國特戰(zhàn)司令部參與抗衰藥臨床試驗 合成一百余種新型NAD+增強劑
品管圈在持續(xù)改進醫(yī)療器械臨床試驗全周期質(zhì)量控制中的應(yīng)用
參加臨床試驗,也要“順道”
做事如做藥
北京市醫(yī)療器械檢驗所
2019:人工智能
人工智能與就業(yè)