數(shù)據(jù)集在人工智能醫(yī)療器械質(zhì)控中的角色與要求

2019-02-13 07:16孟祥峰任海萍

中國醫(yī)療器械雜志 2019年1期

【作者】王浩，孟祥峰，李澍，任海萍

中國食品藥品檢定研究院光機電室，北京市，100050

0 引言

隨著深度學(xué)習(xí)[1]、GPU[2]等軟硬件技術(shù)的突破，國外人工智能（artificial intelligence, AI）醫(yī)療器械產(chǎn)業(yè)的發(fā)展進入井噴狀態(tài)，預(yù)期用途豐富多樣[3-12]。我國也有大量產(chǎn)品進入注冊申報階段。目前人工智能產(chǎn)品大多采用監(jiān)督學(xué)習(xí)的技術(shù)路徑，產(chǎn)品研發(fā)、訓(xùn)練、優(yōu)化都需要訓(xùn)練集，而產(chǎn)品的驗證/確認需要測試集，二者都需要優(yōu)質(zhì)數(shù)據(jù)。

人工智能醫(yī)療器械監(jiān)管還處于探索階段。其中一個重要問題是如何理解和明確數(shù)據(jù)集在產(chǎn)品質(zhì)控中的作用，如何對數(shù)據(jù)集進行評價和規(guī)范。企業(yè)一般需要準備自身的數(shù)據(jù)資源，或借助于公開訓(xùn)練集開展研發(fā)，與臨床試驗之間存在廣泛的聯(lián)系和相似性。從數(shù)據(jù)集的角度打通兩個環(huán)節(jié)之間的壁壘，有助于人工智能醫(yī)療器械的科學(xué)監(jiān)管，有助于企業(yè)研發(fā)與上市的提速降費，對于行業(yè)發(fā)展意義深遠。

基于以上考慮，本文對數(shù)據(jù)集在國內(nèi)外的發(fā)展概況、國外上市審批過程中的角色、數(shù)據(jù)集質(zhì)量要求等關(guān)鍵內(nèi)容進行研究和探討，旨在分析人工智能醫(yī)療器械專用測試集的定位、準入條件、評價標準，為鼓勵全社會開發(fā)公用數(shù)據(jù)集和支撐藥監(jiān)部門上市前審批、上市后監(jiān)管等管理活動提供有用的信息。

1 國內(nèi)外醫(yī)學(xué)數(shù)據(jù)集發(fā)展現(xiàn)狀

國外建立了很多著名的醫(yī)學(xué)數(shù)據(jù)集，對醫(yī)學(xué)影像AI的發(fā)展尤其是算法訓(xùn)練做出突出貢獻，代表包括LIDC（Lung Image Database Consortium）[13]、NLST(National Lung Screening Trial)[14]、Messidor[15]、EyePACS[16]、MIT-BIH心率失常數(shù)據(jù)庫[17]、ChestX-ray8[8]等。表1對它們進行了比對，說明國外數(shù)據(jù)集的建設(shè)思路和特點是多種多樣的，尚未形成統(tǒng)一的模式。

表1 國外著名醫(yī)學(xué)數(shù)據(jù)集的比對Tab.1 Comparison between datasets abroad

國內(nèi)起步較晚，數(shù)據(jù)集種類和數(shù)量相對有限，代表有阿里天池競賽使用的肺結(jié)節(jié)公開數(shù)據(jù)集等。我國醫(yī)學(xué)數(shù)據(jù)基數(shù)大，門診量多，后發(fā)優(yōu)勢和發(fā)展?jié)摿薮螅斜匾M行引導(dǎo)和規(guī)范，促進優(yōu)質(zhì)數(shù)據(jù)集的發(fā)展壯大。

2 FDA各指導(dǎo)原則有關(guān)數(shù)據(jù)集和測試集的內(nèi)容

美國FDA發(fā)布過幾部相關(guān)指導(dǎo)原則，對于啟發(fā)人工智能醫(yī)療器械監(jiān)管思路、明晰測試集在醫(yī)療器械評價中的作用和要求具有借鑒意義，因此分別介紹如下：

（1）計算機輔助探測（Computer-assisted Detection Devices）提交上市前通知（510(k)）指導(dǎo)原則

該原則發(fā)布于2012年7月，對應(yīng)預(yù)期用于處理放射影像圖像和設(shè)備數(shù)據(jù)的II類產(chǎn)品，比如生理異常的特征的識別、標記、高亮顯示等，與部分AI醫(yī)療器械較為相似。該原則要求企業(yè)提交510(k)資料時應(yīng)描述使用的數(shù)據(jù)庫信息，包括訓(xùn)練和測試用的放射影像、設(shè)備數(shù)據(jù)。數(shù)據(jù)的形式由具體評價方式?jīng)Q定，可以包括計算機仿真數(shù)據(jù)、體模數(shù)據(jù)和實際患者數(shù)據(jù)，其意義在于第一次提出將數(shù)據(jù)集的描述納入計算機輔助探測產(chǎn)品申報材料。

（2）計算機輔助探測（Computer-assisted Detection Devices）臨床性能評價指導(dǎo)原則

該原則也發(fā)布于2012年7月，用于規(guī)范計算機輔助探測類醫(yī)療器械的臨床試驗設(shè)計，適用于II類產(chǎn)品的510(k)和III類產(chǎn)品的上市前許可（PMA），要求進一步描述臨床試驗中的數(shù)據(jù)細節(jié)，其意義在于明確要求臨床試驗數(shù)據(jù)獨立于研發(fā)數(shù)據(jù)，允許使用回顧式和前瞻式兩種方式開展臨床試驗，并強調(diào)在回顧式臨床試驗中重視偏倚控制。

（3）真實世界證據(jù)指導(dǎo)原則（Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices）

該文件發(fā)布于2017年8月，提出在滿足質(zhì)量要求的前提下，真實世界數(shù)據(jù)可以用于監(jiān)管活動，包括上市前批準、上市后監(jiān)管、臨床試驗、產(chǎn)品分類、公共健康監(jiān)控等等。該指南明確對數(shù)據(jù)質(zhì)量的要求取決于用途。根據(jù)這一文件，AI的測試集理論上也可以用于監(jiān)管活動。

教以生為本，學(xué)以悟為根。在語文教材中，很多篇章，或真實生動地展現(xiàn)我們民族的優(yōu)良傳統(tǒng)，或熱情謳歌我們民族的精神，或精彩地描繪美麗多嬌的祖國山河，或深刻闡述生命的意義等。我們教師要用中華優(yōu)秀文化的精髓來啟發(fā)自己的學(xué)生，使他們懂得生命的意義和價值，將古詩文的優(yōu)秀文化內(nèi)涵在不知不覺中潛移默化地滲透到高中語文課堂教學(xué)中來。

（4）醫(yī)療器械軟件臨床試驗指導(dǎo)原則

該文件發(fā)布于2017年12月，明確軟件的臨床試驗被看做是軟件算法驗證和確認的結(jié)果與預(yù)期臨床條件之間的關(guān)系，可以使用現(xiàn)有臨床數(shù)據(jù)（針對本預(yù)期用途采集，或針對其他預(yù)期用途采集但經(jīng)解釋可用于本預(yù)期用途）。在此意義下推斷，以回顧方式采集臨床數(shù)據(jù)建立的測試集理論上可用于臨床試驗。

以上指導(dǎo)原則，從理論依據(jù)的角度說明測試集，特別是回顧式測試集，在滿足條件的情況下既可能成為產(chǎn)品驗證與確認的依據(jù)，又可能充當臨床試驗，意味著建設(shè)優(yōu)質(zhì)的測試集，可能起到一箭雙雕的作用，加速AI產(chǎn)品上市。

3 FDA已批準的人工智能醫(yī)療器械資料中對測試集的描述

目前，從FDA官網(wǎng)提供的資料中，可以發(fā)現(xiàn)不少有關(guān)測試集的描述，表2中列舉了10個與人工智能或計算機輔助探測有關(guān)的已上市產(chǎn)品和FDA公開資料中涉及測試集的描述，類別包括5個510(k)、3個de novo和2個PMA。

表2所示的5個510(k)產(chǎn)品都進行了非臨床的測試，其中的4個產(chǎn)品沒有進行臨床試驗。3個de novo產(chǎn)品全部開展臨床試驗（2個為回顧式），除IDx-DR外都進行了非臨床的測試；IDx-DR做了前瞻式臨床試驗，也發(fā)表過回顧式臨床試驗結(jié)果[10]。2個PMA產(chǎn)品全部進行了非臨床性能測試和回顧式臨床測試。表2的內(nèi)容基本符合前面FDA各指導(dǎo)原則的思想，說明非臨床階段一般需要進行性能測試，使用的數(shù)據(jù)來源包括臨床數(shù)據(jù)、仿真數(shù)據(jù)和標準數(shù)據(jù)集（心電專標）；臨床試驗廣泛使用了回顧式臨床。

人工智能醫(yī)療器械目前尚未進入我國醫(yī)療器械分類目錄，根據(jù)業(yè)內(nèi)對于其風(fēng)險的認識，一般分為III類（最高風(fēng)險），類似于iCAD PowerLook Tomo和QVCAD的監(jiān)管級別。參考FDA的工作思路，由臨床數(shù)據(jù)構(gòu)成的測試集對于產(chǎn)品的驗證和確認可以發(fā)揮重要作用，有潛力用于臨床試驗本身。

4 對測試集的要求

測試集的監(jiān)管價值由其自身質(zhì)量和風(fēng)險水平?jīng)Q定。考慮成本限制，無論是前瞻式還是回顧式建庫，其本質(zhì)都是對現(xiàn)實數(shù)據(jù)的抽樣，抽樣誤差和統(tǒng)計偏倚是數(shù)據(jù)集面臨的主要質(zhì)量風(fēng)險。

抽樣誤差主要由預(yù)期考察的數(shù)據(jù)類型的數(shù)量決定，數(shù)量越高，抽樣誤差越小。抽樣誤差可以采用基于二項分布用公式定量描述[7]。數(shù)據(jù)集設(shè)計時如果能明確總?cè)萘亢鸵疾斓奶囟ú》N的患病率，可以估計抽樣誤差和置信區(qū)間，反過來對數(shù)據(jù)集的規(guī)模和患病率設(shè)置進行調(diào)整。

表2 FDA公開資料中對測試集的描述Tab.2 Description of test datasets from FDA website

統(tǒng)計偏倚的控制是建設(shè)數(shù)據(jù)集的難點，共包括六類主要問題：

（1）選擇偏倚：進入測試集的樣本不能代表目標人群，包括患者人群和使用者（醫(yī)生）?；颊呷巳哼x擇偏倚主要以患者準入條件和信息進行控制。使用者的選擇偏倚相對容易控制，因為AI的運行環(huán)境容易統(tǒng)一，醫(yī)生對于同一軟件產(chǎn)品的操作可以通過培訓(xùn)來提升一致性，消除人員差異。

（2）覆蓋偏倚：樣本不能覆蓋目標人群的全部情形。與（1）不同，覆蓋偏倚問題要求的是病種齊全、比例合理，并且考慮同一病種的不同情況，例如并發(fā)癥等。然而，有些AI產(chǎn)品的預(yù)期用途往往把并發(fā)癥和復(fù)雜病理排除在外（例如IDx-DR排除了青光眼），因此覆蓋偏倚的風(fēng)險取決于產(chǎn)品預(yù)期用途本身。

（3）參考標準偏倚：樣本的金標準不是100%準確。金標準的采集受制于情景、成本和患者意愿，不一定全覆蓋。以肺結(jié)節(jié)為例，只有醫(yī)生要求做穿刺活檢的高風(fēng)險結(jié)節(jié)能得到病理信息，而一般的小結(jié)節(jié)不會獲取病理，此時以醫(yī)生的標注作為參考標準。醫(yī)生的參考標準可以由專家共識、培訓(xùn)、流程優(yōu)化等方式控制偏倚，等同于金標準。例如，醫(yī)學(xué)影像專業(yè)閱片中心被認為具有較高的可信度，我國的臨床評價指導(dǎo)原則也接受中心閱片室作為第三方盲評的一種。

（4）驗證偏倚：對診斷價值的驗證只使用了參考標準（非金標準）。該問題主要取決于參考標準偏倚的控制。如果醫(yī)學(xué)影像AI產(chǎn)品測試的目的是比較AI結(jié)果與醫(yī)學(xué)真相，那么應(yīng)當加入輔助信息來糾正驗證偏倚，例如患者病史、化驗結(jié)果、遺傳等等；如果測試的目的是單純地比較AI和標注者對單張或單個序列圖像的識別，那么驗證偏倚的風(fēng)險會相對可控。

（5）閱讀順序偏倚：多個測試之間比較時，打分者的判斷會受到對某組測試記憶的影響。由于人工智能醫(yī)療器械的數(shù)據(jù)集建設(shè)和標注大多采用隨機雙盲的方式，標注者的判斷獨立于工作進度，不涉及多個測試的比較，該風(fēng)險影響較小。

（6）情景偏倚：樣本的患病率不同于目標人群，從而影響測試結(jié)果。情景偏倚與測試集的患病率設(shè)計有關(guān)，可以通過優(yōu)化抽樣方式或樣本入選條件進行改善。情景偏倚主要影響陽性預(yù)測值PPV、陰性預(yù)測值NPV等統(tǒng)計指標，在測試時應(yīng)當引起重視。

除此之外，測試集的常規(guī)要求還包括隱私保護與數(shù)據(jù)清洗。首先應(yīng)根據(jù)《中華人民共和國網(wǎng)絡(luò)安全法》、《醫(yī)療器械網(wǎng)絡(luò)安全注冊技術(shù)指導(dǎo)原則》等法規(guī)的要求，參照美國健康保險攜帶和責(zé)任法案（Health Insurance Portability and Accountability Act，HIPAA）的具體要求，對于原始數(shù)據(jù)進行脫敏，防止患者隱私泄露。其次，為保證訓(xùn)練與測試效果，應(yīng)當對原始數(shù)據(jù)進行清洗，去除重復(fù)數(shù)據(jù)、不完整數(shù)據(jù)、不可讀取的數(shù)據(jù)和錯誤數(shù)據(jù)。

簡而言之，一個有能力服務(wù)監(jiān)管的測試集，應(yīng)當在容量方面滿足抽樣誤差的要求，在數(shù)據(jù)多樣性方面、標注的權(quán)威性方面、數(shù)據(jù)構(gòu)成等方面滿足偏倚控制的要求，同時做到注重患者隱私保護和數(shù)據(jù)安全。

5 討論與總結(jié)

本文對于人工智能醫(yī)療器械發(fā)展所必需的數(shù)據(jù)集的發(fā)展概況進行了介紹，結(jié)合國外情況和相關(guān)文獻討論了測試集在監(jiān)管中的定位與作用，從理論和實例兩個方面證明了回顧式數(shù)據(jù)集可以用于人工智能醫(yī)療器械的非臨床評價和發(fā)揮臨床試驗的作用。同時，本文對于測試集的要求和評價角度進行了深入研究，對于回顧式數(shù)據(jù)集的偏倚問題及解決方案、數(shù)據(jù)質(zhì)量控制、標注質(zhì)量控制等影響數(shù)據(jù)集質(zhì)量和風(fēng)險水平的要素進行了分析，初步確定了如何對測試集進行約束與規(guī)范。

從實現(xiàn)的角度考慮，回顧式建庫的效率優(yōu)于前瞻式建庫，周期相對較短，數(shù)據(jù)多樣性相對容易滿足；從隨機性和偏倚控制的角度考慮，前瞻式建庫優(yōu)于回顧式建庫，在直觀意義上更接近臨床試驗，患者信息更完整，驗證手段更豐富。二者的選取主要由產(chǎn)品預(yù)期用途和成本控制決定，評價方式和要求基本一致，都應(yīng)當滿足產(chǎn)品測試要求，避免偏倚。對于訓(xùn)練集，建議按照測試集的要求和實際條件對數(shù)據(jù)質(zhì)量、多樣性、統(tǒng)計偏倚等內(nèi)容進行控制。

綜上所述，本文論證了數(shù)據(jù)集在人工智能醫(yī)療器械的監(jiān)管中能夠發(fā)揮積極作用。有序開發(fā)能夠替代臨床試驗的高質(zhì)量測試集，對于企業(yè)、監(jiān)管機構(gòu)、醫(yī)學(xué)機構(gòu)是互利共贏的重要舉措，應(yīng)當鼓勵；同時，本文對測試集的質(zhì)量評價建立了理論依據(jù)，為下一步形成測試集評價規(guī)范與認證機制打下了良好的基礎(chǔ)。