国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

糖尿病視網(wǎng)膜病變輔助診斷軟件安全有效性評價方法研究

2021-04-03 23:07劉梟寅梁宏郭兆君賀偉罡
中國醫(yī)療設(shè)備 2021年12期
關(guān)鍵詞:軟件評估性能

劉梟寅,梁宏,郭兆君,賀偉罡

1.國家藥品監(jiān)督管理局 醫(yī)療器械技術(shù)審評中心,北京 100081;2.國家藥品監(jiān)督管理局 醫(yī)療器械技術(shù)審評檢查長三角分中心,上海 201203

引言

據(jù)統(tǒng)計2017年全球約有4.25億糖尿病患者,其中中國約占1.14億,超過1/3的患者會出現(xiàn)糖尿病視網(wǎng)膜病變(以下簡稱“糖網(wǎng)”)[1]。糖網(wǎng)是工作年齡人群第一位的致盲性疾病,早期干預(yù)可延緩病情發(fā)展避免致盲,早期干預(yù)的主要方式是定期的眼底照相檢查[2]。但目前我國87%的患者就診于縣級以下基層醫(yī)療機(jī)構(gòu),近70%未接受規(guī)范檢查[3],由于各種原因,又難以在基層配備足夠數(shù)量具備眼底檢查能力的醫(yī)生。近年來基于深度學(xué)習(xí)的糖網(wǎng)人工智能(Artificial Intelligence,AI)輔助診斷軟件首先于國外出現(xiàn)[4-5],國內(nèi)也開展了很多相關(guān)研究[6-8],相關(guān)產(chǎn)品的出現(xiàn)為這一問題的解決帶來了希望。

近兩年在國內(nèi)申請注冊的糖網(wǎng)AI軟件核心功能是采用深度學(xué)習(xí)算法對單張眼底照片進(jìn)行糖網(wǎng)二分類,即判斷眼底彩照是否存在II期及以上糖網(wǎng)。II期及以上的糖網(wǎng)患者應(yīng)轉(zhuǎn)診到專業(yè)眼科機(jī)構(gòu)進(jìn)行干預(yù),II以下可留在基層醫(yī)療機(jī)構(gòu)定期復(fù)查。不同產(chǎn)品支持的拍攝方式(散瞳或免散瞳)、拍攝范圍、相機(jī)種類等方面有所區(qū)別。AI對患者雙眼多張照片分析結(jié)果進(jìn)行簡單邏輯運(yùn)算后給出綜合結(jié)果,但不能僅憑AI診斷結(jié)果進(jìn)行臨床決策,需要由醫(yī)生對圖像拍攝質(zhì)量和診斷結(jié)果進(jìn)行綜合判斷,報告簽字后生效,必要時需重新拍攝、修改結(jié)果。有些產(chǎn)品還具有一些輔助功能,如:自動圖像質(zhì)量判定、糖網(wǎng)分級(給出每一級糖網(wǎng)分級)、眼底病灶識別,這些功能采用深度學(xué)習(xí)算法或常規(guī)模式識別算法。產(chǎn)品一般由客戶端和云端(或本地服務(wù)器)組成,深度學(xué)習(xí)算法運(yùn)行在云端或本地服務(wù)器。

這些產(chǎn)品是否具有足夠的安全有效性并符合法規(guī)上市,需要藥監(jiān)部門的把關(guān)。藥監(jiān)局發(fā)布了《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點(diǎn)》[9],為所有深度學(xué)習(xí)醫(yī)療器械軟件構(gòu)建了監(jiān)管框架,還有一些專家學(xué)者從倫理、標(biāo)準(zhǔn)、質(zhì)量體系等方面探索評估方法[10-14],但國內(nèi)外尚無專門針對糖網(wǎng)AI軟件評價方法。筆者所在的部門過去2年完成多個此類產(chǎn)品的審評,形成了對其安全有效性評價的方法。除常規(guī)軟件要求外,需要重點(diǎn)評估訓(xùn)練數(shù)據(jù)質(zhì)控、人機(jī)配合、算法性能評估、性能影響因素評估、使用限制說明、網(wǎng)絡(luò)安全等方面。上述方法有效地支持了產(chǎn)品上市前評估,為后續(xù)同類產(chǎn)品的審評提供了依據(jù),并為類似產(chǎn)品的審評提供了一定參考價值。

1 評價方法

1.1 訓(xùn)練數(shù)據(jù)質(zhì)控

深度學(xué)習(xí)算法需要優(yōu)質(zhì)和足夠的訓(xùn)練數(shù)據(jù)以保證訓(xùn)練質(zhì)量,而醫(yī)療數(shù)據(jù)的標(biāo)注專業(yè)性很高,因此需要充分評估算法訓(xùn)練數(shù)據(jù)的質(zhì)控過程,從源頭上保證算法質(zhì)量[15]。應(yīng)從“人機(jī)料法環(huán)”方面評估訓(xùn)練數(shù)據(jù)采集、整理、標(biāo)注過程的科學(xué)性和規(guī)范性,訓(xùn)練、調(diào)優(yōu)、驗證集劃分的合理性。

數(shù)據(jù)采集方面,重點(diǎn)關(guān)注申請人對采集人員、采集設(shè)備、采集過程的要求。采集人員應(yīng)規(guī)定資質(zhì)、培訓(xùn)、考核要求。采集設(shè)備應(yīng)明確所使用的相機(jī)的品牌型號、散瞳與否、拍攝角度、范圍、分辨率。采集過程應(yīng)明確人員職責(zé)、采集步驟、結(jié)果審核等要求。采集到的原始數(shù)據(jù)應(yīng)進(jìn)行脫敏以保護(hù)患者隱私。若使用歷史數(shù)據(jù),至少應(yīng)明確采集設(shè)備的要求,對其他要求開展差異分析論證采集過程和標(biāo)準(zhǔn)的科學(xué)性、規(guī)范性。

數(shù)據(jù)整理方面,應(yīng)明確預(yù)處理方式,如濾波、增強(qiáng)、重采樣、尺寸裁剪、均一化等,建議要求申請人使用典型圖片演示每步預(yù)處理后圖像的變化以便直觀了解。應(yīng)明確棄用照片的規(guī)則和棄用的數(shù)量,以便于了解產(chǎn)品不適用的情形。

數(shù)據(jù)標(biāo)注方面,應(yīng)評估標(biāo)注人員、基層設(shè)施、標(biāo)注過程、質(zhì)量評估是否科學(xué)規(guī)范。標(biāo)注人員可區(qū)別于采集人員,按照一線標(biāo)注人員、審核人員、仲裁人員分別制定選拔、培訓(xùn)、考核的要求,要求通常逐級增高。基礎(chǔ)設(shè)施方面,眼底照相作為光學(xué)直接成像,標(biāo)注環(huán)境宜與實際閱片環(huán)境一致,還應(yīng)給出標(biāo)注軟件的情況及其驗證確認(rèn)。標(biāo)注過程應(yīng)以流程圖的形式給出,重點(diǎn)明確會對標(biāo)注質(zhì)量產(chǎn)生重要影響環(huán)節(jié)的細(xì)節(jié),如標(biāo)注規(guī)則及其合理性依據(jù),持續(xù)保證一線標(biāo)注人員標(biāo)注質(zhì)量的方法,審核和仲裁的規(guī)則。

數(shù)據(jù)集構(gòu)建方面,需給出標(biāo)注前基礎(chǔ)數(shù)據(jù)集和標(biāo)注后劃分的訓(xùn)練集、調(diào)優(yōu)集、驗證集的樣本量和分布情況及其確定依據(jù)。樣本分布宜接近流行病學(xué)分布,應(yīng)特別注意保證糖網(wǎng)I級、II級樣本的比例。樣本分布應(yīng)充分考慮采集設(shè)備、主要采集參數(shù)(如散瞳與否、拍攝角度范圍)、來源醫(yī)療機(jī)構(gòu)、合并其他眼底疾病/癥狀等因素,兼顧地域、年齡、性別等基線信息。為解決樣本分布不均衡問題,可對訓(xùn)練集、調(diào)優(yōu)集進(jìn)行數(shù)據(jù)擴(kuò)增,不宜對測試集擴(kuò)增。若進(jìn)行了數(shù)據(jù)擴(kuò)增,應(yīng)給出擴(kuò)增數(shù)據(jù)集的樣本量和分布情況。

1.2 人機(jī)交互驗證

糖網(wǎng)AI軟件核心功能單一,結(jié)果明確,看似可以替代醫(yī)生,但其實是由于使用場景局限,反而更需要操作者充分了解產(chǎn)品的使用限制,二者各自需承擔(dān)的工作,合理配合,才能發(fā)揮產(chǎn)品優(yōu)勢。國家衛(wèi)健委印發(fā)的糖網(wǎng)分級診療技術(shù)方案希望發(fā)揮基層全科醫(yī)生承擔(dān)起糖網(wǎng)初篩任務(wù)[16],但目前很多基層醫(yī)生尚不具備相應(yīng)能力,需要經(jīng)過培訓(xùn)以獲得拍攝和糖網(wǎng)分級的能力,在此基礎(chǔ)上再借助AI提升效率。

需要評估產(chǎn)品使用流程是否落實了“醫(yī)生負(fù)責(zé),AI輔助”,說明書中是否充分提示了使用風(fēng)險和使用限制,申請人應(yīng)制定包括基本操作和上述關(guān)注點(diǎn)的操作者培訓(xùn)和考核方案,并驗證方案的可行性,以證明人機(jī)交互良好。糖網(wǎng)AI軟件需要操作者完成的工作主要有圖像拍攝、圖像質(zhì)量判斷(主要包括拍攝范圍、拍攝質(zhì)量)、結(jié)果確認(rèn)簽字,必要時還需要重新拍攝或修改結(jié)論。需要注意的是,有些產(chǎn)品雖然有圖像質(zhì)量判斷模塊,但由于軟件驗證無法窮舉覆蓋所有不合格情況,仍需由醫(yī)生對圖像質(zhì)量做最終判斷。

1.3 算法性能評估

糖網(wǎng)二分類主要采用敏感性、特異性來考量算法性能,應(yīng)一并給混淆矩陣,已批準(zhǔn)產(chǎn)品的性能下限定在80%~90%。還可給出準(zhǔn)確性、陽性預(yù)測值、陰性預(yù)測值、ROC-AUC等參數(shù)。糖網(wǎng)多分類的應(yīng)給出各類的敏感性、特異性以及多分類的kappa系數(shù)。圖像質(zhì)量評估輸出二分類的參考糖網(wǎng)二分類,輸出圖像質(zhì)量評分的參考糖網(wǎng)多分類。

算法性能評估可基于自建測試集、臨床試驗數(shù)據(jù)集、回顧數(shù)據(jù)、真實世界數(shù)據(jù)、第三方數(shù)據(jù)集等。各測試集應(yīng)明確用于產(chǎn)品測試的樣本量和樣本分布情況,明確數(shù)據(jù)收集、整理、標(biāo)注的情況,特別是標(biāo)注過程和標(biāo)注規(guī)則,對于標(biāo)注質(zhì)控不佳、標(biāo)注規(guī)則有差異的測試集不宜與其他測試集進(jìn)行合并統(tǒng)計分析。列表給出基于各測試集的測試結(jié)果,結(jié)果應(yīng)包含置信區(qū)間,分析測試結(jié)果之間差異的原因,進(jìn)而初步識別出產(chǎn)品性能的影響因素及其影響程度。

1.4 性能影響因素評估

算法性能影響因素評估是為了了解產(chǎn)品的泛化能力,若對于某項性能影響因素的泛化能力不佳,如處理某一機(jī)型圖片的性能低于預(yù)期,應(yīng)視其影響程度在不同文件中增加使用限制。從目前申報產(chǎn)品來看,影響糖網(wǎng)二分類性能的主要因素有圖像質(zhì)量、合并其他眼底疾病/癥狀、機(jī)型差異。為提高產(chǎn)品泛化能力,首先應(yīng)盡可能保證訓(xùn)練集針對各因素有充足的樣本分布,此外還應(yīng)針對各因素建立子測試集,驗證算法是否具備了對這些因素的泛化能力。如同算法性能評估,各子測試集數(shù)據(jù)可以來自不同數(shù)據(jù)集,但只有標(biāo)注規(guī)則相同的集合才能合并。

針對圖像質(zhì)量,對于無論圖像質(zhì)量評分高低均給出糖網(wǎng)分級的軟件,應(yīng)對不同圖像質(zhì)量評分的測試集進(jìn)行測試,算法性能低于預(yù)期的,不宜在軟件中展示糖網(wǎng)分級結(jié)果,或在軟件界面和說明書中給出“圖像質(zhì)量評分較低時糖網(wǎng)分級結(jié)果不可靠應(yīng)由醫(yī)生自行判斷”的提示。

合并其他眼底疾病/癥狀,應(yīng)明確算法訓(xùn)練過程是否單獨(dú)考慮了其他疾病,并驗證是否符合設(shè)計,可以對合并與未合并其他疾病的數(shù)據(jù)集分別進(jìn)行測試,分析性能差異是否均能滿足預(yù)期,是否出現(xiàn)顯著性差異。

針對機(jī)型差異,應(yīng)對預(yù)期宣稱可處理其圖片的機(jī)型分別建立子測試集進(jìn)行算法性能評價,單機(jī)型的圖像數(shù)量和樣本分布應(yīng)具有一定的代表性,性能測試結(jié)果應(yīng)滿足預(yù)期性能。

1.5 使用限制說明

產(chǎn)品軟件操作流程、相機(jī)拍攝方式、操作者要求、產(chǎn)品性能、可達(dá)到預(yù)期性能的相機(jī)等方面的差異決定了產(chǎn)品的使用限制。在證明產(chǎn)品滿足基本安全有效性的前提下,為解決剩余風(fēng)險的使用限制應(yīng)在注冊證、產(chǎn)品界面、說明書等處給出。

在注冊證適用范圍中,強(qiáng)調(diào)不能僅憑本產(chǎn)品結(jié)果進(jìn)行臨床決策,圖像質(zhì)量應(yīng)由醫(yī)生評價認(rèn)可。產(chǎn)品的禁忌證為無法拍攝眼底照片的患者,其他禁忌證與眼底照相檢查相同。

在產(chǎn)品技術(shù)要求中,應(yīng)給出經(jīng)前期性能影響因素評估后允許對其圖像進(jìn)行分析的眼底相機(jī)的型號。

在軟件界面中,AI分析結(jié)果界面應(yīng)允許醫(yī)生修改,報告界面應(yīng)有醫(yī)生簽字處以落實醫(yī)生責(zé)任。

在說明書中,應(yīng)給出產(chǎn)品的所有注意事項,特別是結(jié)合前期的人機(jī)配合、算法性能評估、算法影響因素評估后得出的使用限制,如:① 產(chǎn)品僅用于檢測糖網(wǎng),不用于檢測其他疾病,如果未檢測糖網(wǎng),不意味著不存在其他眼部疾??;② 產(chǎn)品應(yīng)由有資質(zhì)的機(jī)構(gòu)和人員按照說明書使用;③ 執(zhí)業(yè)醫(yī)師應(yīng)該結(jié)合軟件診斷、患者病史、主訴等各種信息綜合給出診斷意見,特別應(yīng)關(guān)注患者眼部相關(guān)的疾病及做過的治療;④ 執(zhí)業(yè)醫(yī)師應(yīng)接受過相應(yīng)培訓(xùn),產(chǎn)品使用中負(fù)責(zé)評估圖像拍攝質(zhì)量和范圍是否符合診斷要求,AI診斷結(jié)果是否正確,必要時重新拍攝或修改結(jié)論。此外,作為新生事物還應(yīng)簡述產(chǎn)品訓(xùn)練過程、臨床試驗、網(wǎng)絡(luò)部署等以便用戶了解產(chǎn)品。

1.6 網(wǎng)絡(luò)安全

產(chǎn)品若部署在云端,云計算服務(wù)供應(yīng)商視為供應(yīng)商,除提交網(wǎng)絡(luò)安全描述文檔證實常規(guī)網(wǎng)絡(luò)安全風(fēng)險可控之外,還需要提供云計算服務(wù)供應(yīng)商出具的安全等級評測報告和信息安全管理體系認(rèn)證證明,以證明所采用云計算服務(wù)的網(wǎng)絡(luò)安全風(fēng)險可控。

2 討論

在國內(nèi)外沒有同類產(chǎn)品安全有效性評價方法和相關(guān)產(chǎn)品標(biāo)準(zhǔn)的情況下,本研究以現(xiàn)有軟件、網(wǎng)絡(luò)安全和深度學(xué)習(xí)的監(jiān)管框架[9,17-19]為基礎(chǔ),結(jié)合已獲批上市糖網(wǎng)AI軟件的特點(diǎn),提出了安全有效性評價方法。已發(fā)布的肺炎CT影像輔助分診與評估軟件審評要點(diǎn)[20]也采用了類似方法制定,但由于產(chǎn)品特點(diǎn)差異,評價重點(diǎn)不同。本研究不是機(jī)械的套用深度學(xué)習(xí)審評要點(diǎn),而是以人機(jī)配合和算法性能為切入點(diǎn),提出了6方面重點(diǎn)評價內(nèi)容,明確了糖網(wǎng)AI軟件上市前審評尺度,有效指導(dǎo)后續(xù)產(chǎn)品申報。

本研究針對眼底照相屬于直接光學(xué)成像,采集易受影響,圖像變異性大的特點(diǎn),提出人機(jī)配合方面的評估要求。這一思路可供未來具有類似特點(diǎn)的產(chǎn)品借鑒,如直接成像的設(shè)備、需要連續(xù)處理(如內(nèi)窺鏡)、使用者需要培訓(xùn)才能具有資質(zhì)或能力的產(chǎn)品。關(guān)于算法性能評估和性能影響因素評估,本研究提出了可將自建測試集、臨床試驗、回顧數(shù)據(jù)、真實世界數(shù)據(jù)、第三方數(shù)據(jù)集在滿足一定條件情況下重排形成不同的子測試集進(jìn)行性能評估的思路,可供各類AI產(chǎn)品借鑒。本研究重視產(chǎn)品注意事項的呈現(xiàn),提出對于上述環(huán)節(jié)發(fā)現(xiàn)的問題應(yīng)根據(jù)其嚴(yán)重程度分別在注冊證、產(chǎn)品界面、說明書中給出相應(yīng)的使用限制,這是解決產(chǎn)品剩余風(fēng)險的重要手段。

上述評價方法主要針對目前我國已上市的基于眼底照片的糖網(wǎng)單病種AI產(chǎn)品,主要關(guān)注糖網(wǎng)二分類功能,未深入討論圖像質(zhì)量判斷、病灶識別等輔助功能的評估。由于產(chǎn)品比較新,缺少定量的評價指標(biāo),本研究僅是基于當(dāng)前認(rèn)知的審評尺度,隨著研究的深入,希望未來能夠給出更多定量的評價指標(biāo)。當(dāng)前,眼底多病種AI病灶識別圈畫也在蓬勃發(fā)展,其評價方法有待進(jìn)一步研究。

3 總結(jié)

針對眼底糖網(wǎng)AI軟件,本文在現(xiàn)有深度學(xué)習(xí)算法監(jiān)管要求框架基礎(chǔ)上,針對算法性能和泛化能力,提出了該產(chǎn)品安全有效性的評價方法,主要包括訓(xùn)練數(shù)據(jù)質(zhì)控、人機(jī)配合、算法性能評估、性能影響因素評估、注意事項說明、網(wǎng)絡(luò)安全等6方面內(nèi)容。評價方法有效指導(dǎo)相關(guān)產(chǎn)品上市申報,并對類似產(chǎn)品的評價起到借鑒作用。

猜你喜歡
軟件評估性能
禪宗軟件
第四代評估理論對我國學(xué)科評估的啟示
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
軟件對對碰
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
即時通訊軟件WhatsApp
強(qiáng)韌化PBT/PC共混物的制備與性能
評估依據(jù)
立法后評估:且行且盡善
RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能