国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能醫(yī)療器械質(zhì)量評(píng)價(jià)測(cè)試集樣本量分析

2021-09-03 10:43:36孟祥峰王浩李佳戈
中國(guó)醫(yī)療設(shè)備 2021年8期
關(guān)鍵詞:樣本量醫(yī)療器械波動(dòng)

孟祥峰,王浩,李佳戈

中國(guó)食品藥品檢定研究院 光機(jī)電室,北京 100050

引言

隨著人工智能技術(shù)的發(fā)展,人工智能醫(yī)療器械得到了飛速的發(fā)展,目前在國(guó)內(nèi)外已有多種類型及用途的人工智能醫(yī)療器械上市,種類及數(shù)量呈上升趨勢(shì)。2018年4月11日,美國(guó)FDA批準(zhǔn)了IDx公司IDx-DR糖尿病視網(wǎng)膜病篩查軟件,這是美國(guó)FDA批準(zhǔn)的第一款采用新一代人工智能技術(shù)的糖網(wǎng)篩查軟件產(chǎn)品。隨后在輔助診斷、輔助篩查等諸多領(lǐng)域,基于影像、信號(hào)、文本等多種數(shù)據(jù)模態(tài)的產(chǎn)品出現(xiàn)[1-3]。2020年8月10日,我國(guó)兩款糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件產(chǎn)品獲批上市[4];2020年11月,又有兩款肺結(jié)節(jié)CT影像輔助檢測(cè)軟件獲批上市。

我國(guó)人工智能醫(yī)療器械產(chǎn)品功能不斷增加、快速迭代,目前還有多個(gè)產(chǎn)品處于注冊(cè)臨床試驗(yàn)狀態(tài),不久以后將迎來(lái)人工智能產(chǎn)品上市的爆發(fā)期。大量產(chǎn)品的上市,將給市場(chǎng)監(jiān)管帶來(lái)壓力。目前對(duì)于人工智能醫(yī)療器械的評(píng)價(jià)方法已經(jīng)有相關(guān)機(jī)構(gòu)展開(kāi)了研究[5-13],《人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià) 第1部分:術(shù)語(yǔ)》《人工智能醫(yī)療器械質(zhì)量要求和評(píng)價(jià) 第2部分:數(shù)據(jù)集通用要求》兩項(xiàng)標(biāo)準(zhǔn)已完成審定[14],即將發(fā)布。

人工智能醫(yī)療器械在特定訓(xùn)練集訓(xùn)練或測(cè)試時(shí),會(huì)得到較好的效果,然而在新的數(shù)據(jù)集上的表現(xiàn)很難保證,即說(shuō)明其泛化能力差,魯棒性能有待提高。目前對(duì)其性能指標(biāo)的評(píng)價(jià)主要通過(guò)利用產(chǎn)品在封閉測(cè)試集上的表現(xiàn)進(jìn)行,因此封閉測(cè)試集的樣本量及樣本構(gòu)成必須進(jìn)行合理的設(shè)計(jì)。本文對(duì)數(shù)據(jù)集的樣本量進(jìn)行分析,在一定的樣品構(gòu)成情況下(對(duì)應(yīng)特定應(yīng)用場(chǎng)景),分析國(guó)內(nèi)已上市輔助診斷產(chǎn)品對(duì)于測(cè)試集樣本量的需求,在滿足測(cè)試的條件下,節(jié)約社會(huì)資源,以小樣本達(dá)到性能準(zhǔn)確評(píng)價(jià)的目的。

1 試驗(yàn)設(shè)計(jì)

建立一個(gè)測(cè)試集,需嚴(yán)格控制各類偏倚,設(shè)計(jì)標(biāo)注流程,投入很大的人力物力,在人工智能產(chǎn)品不斷多樣化、模態(tài)與病種不斷聚合的情況下,為快速、有效地實(shí)現(xiàn)產(chǎn)品驗(yàn)證,首先需考慮資源問(wèn)題。人工智能醫(yī)療器械測(cè)試集樣本量的估計(jì)是基于主要評(píng)價(jià)指標(biāo)的相應(yīng)假設(shè)進(jìn)行的,樣本量的大小和構(gòu)成應(yīng)與產(chǎn)品預(yù)期要應(yīng)用的目標(biāo)群體匹配,測(cè)試集樣本應(yīng)能很好地代表目標(biāo)人群參數(shù)。適合的樣本量可有助于研究者用合理的資源發(fā)現(xiàn)有意義的性能差異;過(guò)少的樣本量難以準(zhǔn)確地發(fā)現(xiàn)測(cè)試的科學(xué)問(wèn)題;而過(guò)多的樣本量會(huì)造成資源的浪費(fèi)[15-18]。

以診斷試驗(yàn)為例,在臨床評(píng)價(jià)試驗(yàn)中,其評(píng)價(jià)指標(biāo)為靈敏度和特異度,可用靈敏度或特異度計(jì)算總體的樣本量[19]。

為保證靈敏度的抽樣誤差不大于允差,樣本量應(yīng)不低于式(1)的計(jì)算結(jié)果。

為保證特異度的抽樣誤差不大于允差,樣本量應(yīng)不低于式(2)的計(jì)算結(jié)果。

本文測(cè)試采用回顧性數(shù)據(jù)對(duì)產(chǎn)品進(jìn)行性能驗(yàn)證,參考臨床評(píng)價(jià)試驗(yàn)中的樣本量計(jì)算方案,觀測(cè)該方法樣本量估算是否滿足測(cè)試需求。

1.1 試驗(yàn)1:糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件測(cè)試

根據(jù)衛(wèi)健委和中華醫(yī)學(xué)會(huì)的統(tǒng)計(jì),我國(guó)糖尿病視網(wǎng)膜病變?cè)谔悄虿』颊呷巳褐械陌l(fā)病率約為25%[20],以此作為數(shù)據(jù)庫(kù)的患病率,假設(shè)產(chǎn)品預(yù)期靈敏度和特異度為90%,置信區(qū)間95%,允許誤差5%,因此根據(jù)公式,二者的最大值是單次測(cè)試樣本數(shù)量的最低要求。對(duì)于糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,以靈敏度計(jì)算測(cè)試集樣本量,樣本最低數(shù)量為554例,以特異度計(jì)算測(cè)試集樣本量,樣本最低數(shù)量為185例。

選取某一糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,在特定陰陽(yáng)性比例情況下,采用分層隨機(jī)抽樣,陰陽(yáng)性比例保持不變,設(shè)置18個(gè)不同樣本量,見(jiàn)表1,分別進(jìn)行靈敏度、特異度測(cè)試,并對(duì)結(jié)果進(jìn)行波動(dòng)分析。

表1 糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件不同樣本量設(shè)置

1.2 試驗(yàn)2:肺部CT影像輔助診斷軟件測(cè)試

肺癌的早期診斷和早期治療是提高患者生存率、降低醫(yī)療負(fù)擔(dān)的關(guān)鍵。近年來(lái),我國(guó)人工智能在肺結(jié)節(jié)檢測(cè)上是研究的熱點(diǎn)。但肺結(jié)節(jié)不一定意味著是腫瘤,此外肺結(jié)節(jié)的發(fā)病率目前沒(méi)有具體的流行病學(xué)統(tǒng)計(jì),如果以結(jié)節(jié)為單位估算召回率和精確度,按照式(1)和式(2)較難進(jìn)行樣本量估算。本文從實(shí)際檢測(cè)角度出發(fā),對(duì)肺部CT影像輔助診斷軟件的測(cè)試樣本量進(jìn)行估計(jì)和推測(cè)。

本文對(duì)某兩個(gè)肺部CT影像輔助診斷軟件,在測(cè)試集中(每個(gè)病例平均結(jié)節(jié)個(gè)數(shù)為10個(gè))按照病例隨機(jī)抽樣,設(shè)置14個(gè)不同樣本量(表2),分別進(jìn)行召回率、精確度測(cè)試,并對(duì)結(jié)果進(jìn)行波動(dòng)分析。

表2 肺部CT影像輔助診斷軟件不同樣本量設(shè)置

2 試驗(yàn)結(jié)果

2.1 試驗(yàn)1測(cè)試結(jié)果

糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件在不同樣本量下靈敏度和特異度的測(cè)試結(jié)果如圖1所示。波動(dòng)值的計(jì)算公式為式(3),靈敏度的波動(dòng)度為11%,506例及以后的波動(dòng)度為0.6%,633例及以后的波動(dòng)度為0.4%;特異度波動(dòng)度為2.6%,506例及以后的波動(dòng)度為1.5%,633例及以后的波動(dòng)度為0.6%。

圖1 糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件測(cè)試結(jié)果

式中,Pmax為測(cè)量結(jié)果最大值;Pmin為測(cè)量結(jié)果最小值;P為測(cè)量過(guò)過(guò)平均值;S為波動(dòng)度。

2.2 試驗(yàn)2測(cè)試結(jié)果

肺部CT影像輔助診斷軟件兩個(gè)樣品在不同樣本量下召回率和精確度的測(cè)試結(jié)果如圖2~3所示。樣品1召回率的波動(dòng)度為10.9%,精確度的波動(dòng)為6.1%;400例(3942個(gè)結(jié)節(jié))及以后召回率的波動(dòng)度為1.5%,精確度的波動(dòng)為0.7%;450例(4635個(gè)結(jié)節(jié))及以后召回率的波動(dòng)度為0.8%,精確度的波動(dòng)為0.4%。樣品2召回率的波動(dòng)度為5.5%,精確度的波動(dòng)為2.4%;300例(2940個(gè)結(jié)節(jié))及以后召回率的波動(dòng)度為0.6%,精確度的波動(dòng)為1.1%;350例(3625個(gè)結(jié)節(jié))及以后召回率的波動(dòng)度為0.5%,精確度的波動(dòng)為0.9%。

圖2 樣品1測(cè)試結(jié)果

圖3 樣品2測(cè)試結(jié)果

2.3 試驗(yàn)結(jié)果分析

從圖1~3可知,隨著樣本量的增加,被測(cè)參數(shù)的波動(dòng)不斷減小,當(dāng)樣本量達(dá)到一定數(shù)量時(shí),被測(cè)參數(shù)的波動(dòng)趨于穩(wěn)定,說(shuō)明在測(cè)試過(guò)程中找到這個(gè)拐點(diǎn)即可保證統(tǒng)計(jì)結(jié)果準(zhǔn)確性,也可不必追求更高數(shù)量的測(cè)試集。如果假設(shè)1%的波動(dòng)能夠滿足測(cè)試要求,那么對(duì)于糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,本文試驗(yàn)?zāi)軌蛲瑫r(shí)滿足靈敏度和特異度的最低限為633例。測(cè)量結(jié)果與理論計(jì)算值相近。即說(shuō)明對(duì)于人工智能產(chǎn)品基于回顧性樣本的測(cè)試集測(cè)試,其樣本量的估算可按照本文式(1)~(2)的方法進(jìn)行估計(jì)。

對(duì)于肺部CT影像輔助診斷軟件,如果假設(shè)1%的波動(dòng)能夠滿足測(cè)試要求,那么樣品1的樣本量為450例(4635個(gè)結(jié)節(jié)),樣品2為350例(3625個(gè)結(jié)節(jié))。二者結(jié)果的差異也體現(xiàn)了產(chǎn)品性能的差異,從圖2~3可知,樣品2整體波動(dòng)量比樣品1低了2倍,樣品2的性能要優(yōu)于樣品1。造成差異的原因可能是產(chǎn)品的魯棒性能和泛化能力對(duì)結(jié)果的影響,產(chǎn)品抽樣更細(xì)分的構(gòu)成如結(jié)節(jié)尺寸、結(jié)節(jié)類型、數(shù)據(jù)質(zhì)量等,這些都會(huì)對(duì)測(cè)試結(jié)果帶來(lái)影響,因此在實(shí)際評(píng)價(jià)中也應(yīng)考慮測(cè)試集中各種維度抽樣帶來(lái)的統(tǒng)計(jì)偏倚。產(chǎn)品的魯棒性能、泛化能力越強(qiáng),對(duì)于測(cè)試集數(shù)量的依賴程度越低。采用測(cè)試集對(duì)人工智能的評(píng)價(jià)是一種統(tǒng)計(jì)的評(píng)價(jià)方式,應(yīng)該在測(cè)試集數(shù)量的選取上考慮實(shí)際應(yīng)用場(chǎng)景,以預(yù)計(jì)測(cè)試指標(biāo)和發(fā)病率等情況為基礎(chǔ)進(jìn)行估計(jì)。

3 討論

本文通過(guò)對(duì)糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件及肺部CT影像輔助診斷軟件兩類產(chǎn)品性能評(píng)價(jià)的試驗(yàn),測(cè)算其測(cè)試集樣本量。考慮實(shí)際抽樣的偏差,以本實(shí)驗(yàn)<1%的波動(dòng)推算,抽樣數(shù)量以百位向前取整,推薦糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件的測(cè)試集樣本量不低于700例,肺部CT影像輔助診斷軟件的測(cè)試集樣本量不低于500例(5300個(gè)結(jié)節(jié))。

目前對(duì)于人工智能醫(yī)療器械的功能越來(lái)越多,應(yīng)用場(chǎng)景也不盡相同。因此需要組建各類測(cè)試集對(duì)產(chǎn)品質(zhì)量進(jìn)行檢測(cè)。測(cè)試集區(qū)別于訓(xùn)練集,測(cè)試集更突出對(duì)于檢測(cè)結(jié)果的客觀性、代表性和權(quán)威性,因此它的建設(shè)需要投入大量的人力、物力等社會(huì)資源。現(xiàn)有的方法多建議選取大量的數(shù)據(jù)作為測(cè)試集,以保證評(píng)估結(jié)果有統(tǒng)計(jì)學(xué)意義,但是針對(duì)應(yīng)用場(chǎng)景不定,無(wú)流行病學(xué)統(tǒng)計(jì)的病種,大量數(shù)據(jù)的樣本量是多少很難把握。本文通過(guò)理論計(jì)算和試驗(yàn)驗(yàn)證相結(jié)合的方法,給出了目前兩類已取得醫(yī)療器械注冊(cè)證產(chǎn)品的測(cè)試集樣本量,這將有利于指導(dǎo)企業(yè)自檢或第三方檢驗(yàn)機(jī)構(gòu)檢測(cè)對(duì)于測(cè)試集樣本量的構(gòu)成,而不必追求大樣本量進(jìn)行測(cè)試,節(jié)約社會(huì)資源。

4 結(jié)論

人工智能輔助診斷軟件樣本量的估算方法可參考臨床評(píng)價(jià)診斷試驗(yàn)的樣本量估算方法。在沒(méi)有流行病學(xué)統(tǒng)計(jì)的情況下,可根據(jù)產(chǎn)品的預(yù)期用途、應(yīng)用場(chǎng)景進(jìn)行發(fā)病率的推測(cè),來(lái)估計(jì)樣本量。但人工智能醫(yī)療器械的模態(tài)已經(jīng)從影像擴(kuò)展到信號(hào)、文本,甚至是多模態(tài),適用病種也包含多種,按照上述方法確定樣本量依然是個(gè)難題,需進(jìn)一步研究。本文通過(guò)理論計(jì)算和實(shí)際驗(yàn)證的方式,給出目前已上市的兩類人工智能輔助診斷產(chǎn)品的測(cè)試集樣本量估計(jì),為人工智能醫(yī)療器械的測(cè)試集樣本量的研究提供了研究基礎(chǔ),具有實(shí)際應(yīng)用價(jià)值。

猜你喜歡
樣本量醫(yī)療器械波動(dòng)
醫(yī)學(xué)研究中樣本量的選擇
北京市醫(yī)療器械檢驗(yàn)所
羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
北京市醫(yī)療器械檢驗(yàn)所
微風(fēng)里優(yōu)美地波動(dòng)
2019年國(guó)內(nèi)外油價(jià)或?qū)⒉▌?dòng)加劇
北京市醫(yī)療器械檢驗(yàn)所簡(jiǎn)介
航空裝備測(cè)試性試驗(yàn)樣本量確定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
干濕法SO2排放波動(dòng)對(duì)比及分析
阳春市| 普陀区| 渝北区| 方城县| 彭泽县| 通道| 镇宁| 潜江市| 新乡县| 汉中市| 汪清县| 长寿区| 晋中市| 广元市| 阿拉善盟| 玛多县| 金坛市| 金湖县| 石狮市| 抚松县| 固镇县| 永康市| 文水县| 吉木乃县| 开阳县| 南乐县| 赤城县| 江口县| 云和县| 平塘县| 阜阳市| 绿春县| 抚远县| 金堂县| 宝应县| 湘潭县| 广宗县| 姜堰市| 涡阳县| 安达市| 阿克|