王浩,周娟,曾雪,孟祥峰,張超,李佳戈
1. 中國食品藥品檢定研究院 醫(yī)療器械檢定所,北京 102629;2. 中國人民解放軍總醫(yī)院 醫(yī)學(xué)計量室,北京 100853
健康檔案數(shù)據(jù)集是臨床診療、健康服務(wù)、醫(yī)保、臨床隊列研究等各個領(lǐng)域的重要資源。根據(jù)衛(wèi)生行業(yè)標(biāo)準(zhǔn)WS 365[1],其含義是:醫(yī)療衛(wèi)生機構(gòu)為城鄉(xiāng)居民提供醫(yī)療衛(wèi)生服務(wù)過程中的規(guī)范記錄,是以居民個人健康為核心,貫穿整個生命過程,涵蓋各種健康相關(guān)因素,滿足居民自我保健和健康管理、健康決策需要的系統(tǒng)化信息資源。健康檔案數(shù)據(jù)集是醫(yī)院信息化的重要對象,在慢病防治[2]、居民健康管理[3]、公共衛(wèi)生[4-5]、疫情防控[6]等方面具有重要的支撐作用。
在人工智能、組學(xué)技術(shù)蓬勃發(fā)展的今天,健康檔案數(shù)據(jù)集的內(nèi)涵日益豐富,涉及多源異構(gòu)數(shù)據(jù)的交叉融合。從數(shù)據(jù)來源看,可能包括來自院內(nèi)的檢查、檢驗數(shù)據(jù),也可能包括院外的家用醫(yī)療器械、移動健康終端、社區(qū)篩查設(shè)備等。這些數(shù)據(jù)是人工智能醫(yī)療器械的重要研發(fā)資源,需要建立標(biāo)準(zhǔn)規(guī)范。目前,健康檔案數(shù)據(jù)集在元數(shù)據(jù)方面已有相關(guān)行業(yè)標(biāo)準(zhǔn)[1],但質(zhì)量評價規(guī)范相對薄弱[7-9]。
在抗擊新冠疫情期間,智能化快速部署醫(yī)院、方艙醫(yī)院作為公共衛(wèi)生應(yīng)急的重要基礎(chǔ)設(shè)施,在我國獲得了很大的發(fā)展,也成為醫(yī)院信息化建設(shè)和人工智能醫(yī)療器械研發(fā)的重要場所[10-11]。此類醫(yī)院具有快速、機動、靈活的特點,部署和調(diào)度具有動態(tài)性和臨時性。在新冠疫情防控的特殊背景下,數(shù)據(jù)的采集、隨訪、跟蹤頻率更高,處于動態(tài)變化中,健康檔案數(shù)據(jù)集的建設(shè)和質(zhì)量控制面臨更多的挑戰(zhàn)[12-16]。
本文結(jié)合人工智能醫(yī)療器械對數(shù)據(jù)集的通用要求[17],研究健康檔案數(shù)據(jù)集的特殊問題和質(zhì)量控制要點,旨在促進智能化快速部署醫(yī)院等特殊場景下的數(shù)據(jù)集建設(shè)。同時,在實踐環(huán)節(jié),本文使用不同方法開展了數(shù)據(jù)集抽樣檢驗,為健康檔案數(shù)據(jù)集的質(zhì)量評價工作積累經(jīng)驗。
數(shù)據(jù)集作為人工智能醫(yī)療器械研發(fā)、訓(xùn)練、驗證、確認(rèn)、日常質(zhì)控等各個環(huán)節(jié)的重要材料,已納入醫(yī)療器械監(jiān)管的關(guān)注范圍[18]。在參考現(xiàn)有的標(biāo)準(zhǔn)規(guī)范和前人研究[17-20]基礎(chǔ)上,在智能化快速部署醫(yī)院的背景下,健康檔案數(shù)據(jù)集在質(zhì)控方面應(yīng)關(guān)注4項問題。
(1)多模態(tài)數(shù)據(jù)的融合。在現(xiàn)代醫(yī)學(xué)背景下,檢驗數(shù)據(jù)、文本數(shù)據(jù)、影像數(shù)據(jù)和視頻數(shù)據(jù)等都有可能納入健康檔案數(shù)據(jù)集。模態(tài)之間的關(guān)聯(lián)和一致性、單一模態(tài)及組合的質(zhì)量,都應(yīng)納入考量。
(2) 敏感數(shù)據(jù)范圍的擴大。在新冠疫情防控的特殊時期,社區(qū)篩查與監(jiān)控數(shù)據(jù)、流行病學(xué)調(diào)查數(shù)據(jù)、個人活動軌跡都可能與健康檔案數(shù)據(jù)集相關(guān)聯(lián),數(shù)據(jù)集的建設(shè)需要對更廣泛的個人隱私、生物特征識別信息進行保護,質(zhì)控工作在數(shù)據(jù)脫敏、匿名化方面需要加強。
(3)標(biāo)注的不確定性。在應(yīng)對重大突發(fā)公共衛(wèi)生事件時,臨床診療規(guī)范和數(shù)據(jù)標(biāo)注依據(jù)可能出現(xiàn)快速的迭代變化,意味著健康檔案數(shù)據(jù)集的數(shù)據(jù)標(biāo)簽具有不確定性,對數(shù)據(jù)標(biāo)注的組織管理和動態(tài)更新提出了更高的要求。
(4)管理的動態(tài)性。對于智能化快速部署醫(yī)院,醫(yī)療方艙的編組和部署是動態(tài)的,醫(yī)務(wù)人員和患者/受試者也是快速流動的。數(shù)據(jù)采集、標(biāo)注、人員、來源、存儲設(shè)施都具有動態(tài)性,數(shù)據(jù)集的可追溯性、版本控制、標(biāo)志標(biāo)識都面臨更大的挑戰(zhàn)。
基于以上考慮,對照《人工智能醫(yī)療器械質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求(報批稿)》[17],健康檔案數(shù)據(jù)集的說明文檔宜增加6項特殊要求。
(1)數(shù)據(jù)形態(tài)。健康檔案數(shù)據(jù)集說明應(yīng)描述健康檔案數(shù)據(jù)集包含的每一種數(shù)據(jù)模態(tài)對應(yīng)的數(shù)據(jù)格式、數(shù)據(jù)量、存儲方式,明確哪些數(shù)據(jù)模態(tài)可獨立使用,哪些數(shù)據(jù)模態(tài)需聯(lián)合或組合使用。
(2)版本控制。對于可獨立使用的數(shù)據(jù)模態(tài)、需要聯(lián)合使用的數(shù)據(jù)模態(tài)組合,特殊需要(適當(dāng))時,可作為子集分配額外的版本號。
(3)數(shù)據(jù)元屬性。對于新型疾病或未知疾病,應(yīng)設(shè)置專用的數(shù)據(jù)元名稱。特殊需要(適當(dāng))時,對該名稱進行動態(tài)更新,并確??勺匪菪?。
(4) 標(biāo)注信息。健康檔案數(shù)據(jù)集說明應(yīng)描述數(shù)據(jù)集整體、每一種可獨立使用的數(shù)據(jù)模態(tài)、需要聯(lián)合使用的多個數(shù)據(jù)模態(tài)是否具有標(biāo)注信息。
(5)隱私保護。健康檔案數(shù)據(jù)集說明應(yīng)描述受試者隱私保護的范圍、技術(shù)手段和規(guī)則。隱私保護的范圍至少考慮個人敏感信息、醫(yī)療健康數(shù)據(jù)、流行病學(xué)調(diào)查數(shù)據(jù)等。
(6)標(biāo)識。健康檔案數(shù)據(jù)集應(yīng)顯示唯一的標(biāo)識,與數(shù)據(jù)采集相關(guān)的醫(yī)院、方艙的標(biāo)識建立關(guān)聯(lián)。當(dāng)醫(yī)院、方艙的部署發(fā)生變化時,數(shù)據(jù)集標(biāo)識應(yīng)相應(yīng)改變。
在健康檔案數(shù)據(jù)集的具體質(zhì)量測度方面,應(yīng)增加5項特殊要求。
(1)對于多模態(tài)、多階段的健康檔案數(shù)據(jù),各個模態(tài)時間戳的同步性、數(shù)據(jù)流轉(zhuǎn)的時效性應(yīng)納入檢查范圍。
(2)在數(shù)據(jù)管理人員、數(shù)據(jù)來源動態(tài)變化的情況下,數(shù)據(jù)的用戶權(quán)限、訪問控制機制、隱私保護/加密機制應(yīng)足夠快速,防止出現(xiàn)非授權(quán)訪問和隱私泄露。
(3)數(shù)據(jù)集的訪問、預(yù)覽、檢索工具及輔助工具應(yīng)考慮單一模態(tài)、模態(tài)組合,確保數(shù)據(jù)集的用戶能充分地利用數(shù)據(jù)集的信息。
(4)健康檔案數(shù)據(jù)集整體、各獨立模態(tài)及其組合的數(shù)據(jù)特征層次、流行病學(xué)統(tǒng)計、樣本來源多樣性、數(shù)據(jù)多樣性等應(yīng)符合數(shù)據(jù)集陳述的應(yīng)用場景。
(5)健康檔案數(shù)據(jù)集各個模態(tài)的標(biāo)注結(jié)論應(yīng)不出現(xiàn)矛盾;數(shù)據(jù)集的一致性需考慮模態(tài)之間的一致性,對離群值、缺失數(shù)據(jù)進行解釋和處理。
健康檔案數(shù)據(jù)集的質(zhì)量評價,需要開展必要的抽樣檢驗。一般來說,數(shù)據(jù)集的抽樣檢驗可分為生產(chǎn)驗收檢驗、質(zhì)量監(jiān)督檢驗兩種方式,但需要的樣本量不同,將影響成本和操作的可行性。
在生產(chǎn)驗收檢驗方面,業(yè)內(nèi)通常參考GB/T 2828.2-2008[21](計數(shù)型抽樣檢驗)、GB/T 8054-2008[22](計量型抽樣檢驗)等標(biāo)準(zhǔn),對產(chǎn)品進行抽檢。如果把數(shù)據(jù)集中的數(shù)據(jù)元看作產(chǎn)品,那么靜態(tài)的數(shù)據(jù)集符合孤立批的定義,而連續(xù)采集、動態(tài)增長的數(shù)據(jù)集符合連續(xù)批的定義。
一般來說,人工智能醫(yī)療器械訓(xùn)練、測試使用的健康檔案數(shù)據(jù)集在一定周期內(nèi)保持靜止,因此可看作孤立批,質(zhì)量評價可采用極限質(zhì)量(Limit Quality,LQ,不合格品百分率)作為主要指標(biāo)。根據(jù)生產(chǎn)驗收評價思路,宜采用GB/T 2828.2-2008[21]規(guī)定的方法進行抽樣檢驗。此種情形下,應(yīng)選用標(biāo)準(zhǔn)描述的模式A,根據(jù)數(shù)據(jù)集制造責(zé)任方聲稱的LQ、數(shù)據(jù)集的容量N查閱標(biāo)準(zhǔn)[21]中的表1,確定抽樣總量n和接收數(shù)(Accept,AC)。當(dāng)抽樣數(shù)據(jù)中的不合格數(shù)量低于AC時,認(rèn)為該數(shù)據(jù)集可接受。
在質(zhì)量監(jiān)督檢驗領(lǐng)域,業(yè)內(nèi)通常參照GB/T 2828.4-2008[23](計數(shù)型抽樣)、GB/T 6378.4-2008[24](計量型抽樣)等標(biāo)準(zhǔn)開展產(chǎn)品抽驗。當(dāng)健康檔案數(shù)據(jù)集作為核查對象時,由于樣本量一般大于250,可采用GB/T 2828.4-2008[23]規(guī)定的方法進行抽樣檢驗。檢驗時,應(yīng)根據(jù)數(shù)據(jù)集制造責(zé)任方聲稱的聲稱質(zhì)量水平(Declared Quality Level,DQL,單位為每百單位產(chǎn)品不合格數(shù))、極限質(zhì)量比(Limit Quality Ratio,LQR)水平、核查樣本總數(shù)N,查閱標(biāo)準(zhǔn)[23]中的表2~9相關(guān)內(nèi)容,確定抽樣樣本數(shù)n、不合格品限定數(shù)L。當(dāng)抽樣樣本中的不合格數(shù)量低于L時,認(rèn)為通過檢驗。此處應(yīng)注意,GB/T 2828.4-2008的生產(chǎn)方風(fēng)險為5%,消費方風(fēng)險為10%。
DQL與LQR的乘積為實際不合格品百分?jǐn)?shù)。LQR水平包括O、I、II、III四種水平。LQR的水平越高,意味著實驗允許的樣本量越大,LQR取值越小,實際不合格品百分?jǐn)?shù)越小。LQR水平的選擇,由經(jīng)濟成本和抽樣檢驗的嚴(yán)格程度權(quán)衡決定。對于健康檔案數(shù)據(jù)集,本文建議選用水平II,樣本量較大,嚴(yán)格程度較高。
為了直觀比較上述兩種思路的評價方式與樣本量需求,本文設(shè)計了比對實驗。實驗材料是帶標(biāo)注的肺結(jié)節(jié)封閉測試集,包含600個CT序列。具體評價對象是標(biāo)注結(jié)果的形式有效性,考察肺結(jié)節(jié)的標(biāo)注框是否充分包裹結(jié)節(jié)區(qū)域,屬于計數(shù)型抽樣檢驗。對于每一個被抽中的CT序列,核查人員需要進行手動操作,對每一層圖像上的標(biāo)注框和實際的結(jié)節(jié)圖像進行檢查。
本次實驗分別參照GB/T 2828.2-2008[21]和GB/T 2828.4-2008[23],進行生產(chǎn)驗收抽樣檢驗和質(zhì)量監(jiān)督抽樣檢驗。由于抽樣方案依據(jù)的主要參數(shù)量綱相同,以LQ/DQL為橫坐標(biāo),以抽樣樣本量為縱坐標(biāo)繪制圖1,可以比較兩種方案對樣本量的需求。以LQ/DQL為橫坐標(biāo),以接收數(shù)/不合格品限定數(shù)為縱坐標(biāo)繪制圖2,可以比較兩種抽樣方案對不合格品的寬容程度。根據(jù)圖1展示的曲線,可見對同等要求的LQ/DQL,質(zhì)量監(jiān)督需要的樣本量低于生產(chǎn)驗收需要的樣本量,降幅為50%~80%。根據(jù)圖2展示的曲線,可見對同等要求的LQ/DQL,質(zhì)量監(jiān)督對不合格品更寬容。假設(shè)數(shù)據(jù)集制造責(zé)任方約定LQ/DQL為2%,那么生產(chǎn)驗收抽樣檢驗需要抽取125個CT序列,且全部合格后判定通過檢驗。質(zhì)量監(jiān)督抽樣檢驗需要抽取50個CT序列,其中至少48個序列合格后判定通過,工作量為前者的40%。假設(shè)檢查每個序列平均用時20 min,則后者比前者節(jié)省25 h,能夠明顯減少人力和時間。
圖1 兩種思路的樣本量需求比較
圖2 兩種思路的不合格品限定數(shù)比較
本文圍繞健康檔案數(shù)據(jù)集開發(fā)與質(zhì)控開展研究,針對數(shù)據(jù)來源和層次的多樣性、數(shù)據(jù)采集與標(biāo)注的動態(tài)性、執(zhí)行單元的靈活部署與調(diào)度等問題,提出了數(shù)據(jù)集說明文檔、質(zhì)量特性方面的特殊要求,擴展了對這一專業(yè)領(lǐng)域的數(shù)據(jù)集質(zhì)量意識和質(zhì)控要求。這些要素適合智能化快速部署醫(yī)院等特殊場景下的數(shù)據(jù)集建設(shè)背景,有助于促進相關(guān)的數(shù)據(jù)集開發(fā)和人工智能醫(yī)療器械研發(fā)活動。
同時,本文針對數(shù)據(jù)集質(zhì)量評價的實操問題,對具體案例設(shè)計了抽樣檢驗比對試驗,直觀地比較了GB/T 2828.2、GB/T 2828.4兩個常見標(biāo)準(zhǔn)的抽樣方案設(shè)計。本文采用胸部CT肺結(jié)節(jié)數(shù)據(jù)集作為試驗對象,評價角度為數(shù)據(jù)標(biāo)注形式的有效性,作為數(shù)據(jù)集質(zhì)量評價的一種簡單情形進行舉例。試驗中發(fā)現(xiàn),質(zhì)量監(jiān)督抽樣檢驗比生產(chǎn)驗收抽樣檢驗節(jié)省50%以上的人力和時間。在實際工作中,根據(jù)人工智能醫(yī)療器械數(shù)據(jù)集通用要求[17],數(shù)據(jù)集質(zhì)量評價的維度遠比本次試驗豐富,單一樣本需要投入的人力和時間成本更高。健康檔案數(shù)據(jù)集具有多模態(tài)交叉融合的特點,評價難度和成本將大于單模態(tài)數(shù)據(jù)集。因此,質(zhì)量監(jiān)督抽樣檢驗更具有經(jīng)濟性、可行性,建議在成本受控的情況下,使用質(zhì)量監(jiān)督思路開展質(zhì)量評價工作。同時,本文的研究工作還存在一定的限制,主要考慮靜態(tài)的健康檔案數(shù)據(jù)集和孤立批數(shù)據(jù)的檢驗。對于動態(tài)、連續(xù)采集的數(shù)據(jù)集,有必要繼續(xù)研究每批數(shù)據(jù)的檢驗策略,兼顧經(jīng)濟性與合規(guī)性。