李澍,王浩,王晨希,郝燁,李佳戈,李靜莉
中國食品藥品檢定研究院 醫(yī)療器械檢定所,北京 102629
醫(yī)療器械產(chǎn)品從前期的設(shè)計開發(fā)、設(shè)計轉(zhuǎn)化、驗證和確認到后期的設(shè)計變更、不合格品控制等各個環(huán)節(jié)都應(yīng)該進行嚴格把控,才能確保產(chǎn)品本身的安全有效,因此為了保證每個環(huán)節(jié)不出紕漏,每個醫(yī)療器械生產(chǎn)企業(yè)都要建立一套完整的醫(yī)療器械生產(chǎn)質(zhì)量管理體系[1-2]。2019年7月,國家藥品監(jiān)督管理局發(fā)布《醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范附錄獨立軟件》,旨在加強獨立軟件類醫(yī)療器械生產(chǎn)監(jiān)管,規(guī)范獨立軟件生產(chǎn)質(zhì)量管理[3]。該附錄已于2020年7月1日起實施。對于獨立軟件的設(shè)計與開發(fā),附錄提出,設(shè)計與開發(fā)應(yīng)結(jié)合軟件生命周期模型的特點,建立軟件生命周期過程控制程序等要求;在生產(chǎn)管理方面,附錄規(guī)定應(yīng)確保軟件發(fā)布的可重復(fù)性。在質(zhì)量控制方面,附錄規(guī)定軟件產(chǎn)品需要進行安裝和卸載測試、產(chǎn)品完整性檢查、發(fā)布批準等活動。在不良事件的監(jiān)測、分析和改進方面,附錄規(guī)定數(shù)據(jù)分析和控制程序應(yīng)涵蓋軟件缺陷和網(wǎng)絡(luò)安全事件要求,并保存相關(guān)記錄[4-5]。
獨立軟件附錄的特殊要求中需要引起關(guān)注的就是軟件的變更控制。目前,獨立軟件附錄要求:軟件更新應(yīng)當形成文件,涵蓋現(xiàn)成軟件、網(wǎng)絡(luò)安全的變更控制要求,確定軟件更新請求評估、軟件更新策劃、軟件更新實施、風(fēng)險管理、驗證與確認、缺陷管理、可追溯性分析、配置管理、文件與記錄控制、評審、用戶告知等活動要求,形成相關(guān)文件和記錄并經(jīng)批準。軟件版本變更應(yīng)當與軟件更新情況相匹配。驗證與確認應(yīng)當根據(jù)軟件更新的類型、內(nèi)容和程度實施相適宜的回歸測試、用戶測試等活動[6-8]。然而,和常規(guī)軟件不同,當前以大數(shù)據(jù)與深度學(xué)習(xí)為基礎(chǔ)的人工智能技術(shù)存在不可解釋性和不可理解性,在動態(tài)變化的環(huán)境,或者信息不完全、存在干擾與虛假信息時,人工智能系統(tǒng)的性能可能會顯著下降。同時,人工智能算法的靈敏度和準確性高度依賴訓(xùn)練用測試數(shù)據(jù)集,數(shù)據(jù)集的變更會對人工智能系統(tǒng)的判斷結(jié)果產(chǎn)生很大的影響。因此,訓(xùn)練用數(shù)據(jù)庫如何更新、產(chǎn)品如何迭代,以及這種更新和迭代是否允許、允許多大程度的變更、變更如何控制,這樣的監(jiān)管問題一直是討論的焦點[9-11]。因此,生產(chǎn)企業(yè)及監(jiān)管方有必要在獨立軟件附錄基礎(chǔ)上,進一步研究人工智能類醫(yī)療器械(Artificial Intelligence Medical Device,AIMD)生產(chǎn)質(zhì)量管理的特殊要求。
在開發(fā)AIMD系統(tǒng)時,應(yīng)根據(jù)其在開發(fā)生命周期中的階段對某些考慮因素進行最佳描述,并基于這些因素考慮相應(yīng)的框架。ISO/IEC 62304軟件標準[12]針對產(chǎn)品開發(fā)生命周期的不同階段進行了定義和說明,因此,在考慮AIMD生產(chǎn)質(zhì)量管理規(guī)范框架模型時,可以參考現(xiàn)有標準,并結(jié)合AIMD的特殊性,以便將這些考慮因素整合到現(xiàn)有的軟件開發(fā)過程中[13]。
將全生命周期(Total Product Lifecycle,TPLC)方法應(yīng)用于軟件產(chǎn)品的管理對于基于AIMD產(chǎn)品來說尤其重要,因為它能夠在真實世界使用過程中進行適應(yīng)和改變。在針對TPLC認證方法中,通過評估特定公司的質(zhì)量體系和組織架構(gòu),并對其軟件開發(fā)、測試和產(chǎn)品性能監(jiān)控的質(zhì)量進行評價,保證產(chǎn)品在TPLC中是有效的,從而增強患者、護理人員、醫(yī)療保健專業(yè)人員和其他用戶對產(chǎn)品安全有效性的信心[14]。
為了充分實現(xiàn)AIMD學(xué)習(xí)算法的強大功能,同時實現(xiàn)其性能的持續(xù)改進和限制退化,可以基于以下一般原則平衡利益和風(fēng)險,并評估基于AIMD的安全有效性:① 對質(zhì)量體系和質(zhì)量管理規(guī)范建立明確的期望;② 對必要的AIMD進行上市前審查,以合理保證其安全性和有效性。并為AIMD制造商建立明確的期望,以在整個生命周期內(nèi)持續(xù)管理患者風(fēng)險;③ 建議制造商持續(xù)監(jiān)控AIMD產(chǎn)品,并在算法變更的開發(fā)、驗證和執(zhí)行中納入風(fēng)險管理方法;④ 使用上市后真實的再評價報告,提高產(chǎn)品對用戶和監(jiān)管部門的透明度,以持續(xù)保證產(chǎn)品安全性和有效性。
軟件開發(fā)計劃顯然在確保產(chǎn)品質(zhì)量方面起著重要作用。對于AIMD產(chǎn)品,需要在計劃階段,說明確保數(shù)據(jù)完整性、可靠性和有效性所需的處理步驟、確定良好輸入數(shù)據(jù)的定義、確定數(shù)據(jù)是單一來源還是多種來源、明確“持續(xù)”的訓(xùn)練數(shù)據(jù)來源是否與最初開發(fā)產(chǎn)品時使用的來源的一致、使用的數(shù)據(jù)提取工具的說明、可接受性標準的說明、產(chǎn)品上市后驗收標準的差異性等[15-16]。
設(shè)計開發(fā)與需求階段應(yīng)針對以下內(nèi)容進行考慮:① 質(zhì)量保證方面。應(yīng)規(guī)定AIMD訓(xùn)練用和測試用數(shù)據(jù)集需要的檢查項目。例如,某些項目可能是獨立的測試用例,從而確保訓(xùn)練數(shù)據(jù)的質(zhì)量,其他項目可能是內(nèi)置的測試項目,在某些質(zhì)量檢查手段運行時發(fā)現(xiàn)質(zhì)量問題;② 質(zhì)量改進方面。為了在產(chǎn)品發(fā)布后更好地促進其安全有效,應(yīng)該考慮添加有助于將來進行根本原因分析和功能改進的功能和需求。例如,為支持將來的根本原因分析,當在現(xiàn)場對AIMD系統(tǒng)進行更新時,應(yīng)記錄數(shù)據(jù)、時間、數(shù)據(jù)源以及神經(jīng)網(wǎng)絡(luò)加權(quán)因子等信息,該信息對可能快速跟蹤性能的重大變化非常有用。
上市后活動應(yīng)遵循上市后計劃進行考慮。AIMD的持續(xù)學(xué)習(xí)系統(tǒng)需要持續(xù)監(jiān)控,以確保系統(tǒng)在預(yù)期性能范圍內(nèi)運行。由于AIMD系統(tǒng)可以宣稱具有診斷功能,因此創(chuàng)建持續(xù)的受益-風(fēng)險分析以針對AIMD性能和醫(yī)師診斷結(jié)果進行比較很有必要,因為兩者都會隨時間變化。同時,安裝階段應(yīng)制定AIMD系統(tǒng)訓(xùn)練數(shù)據(jù)的質(zhì)量標準;應(yīng)該驗證在安裝階段訪問的數(shù)據(jù)源是否符合這些標準(例如數(shù)據(jù)值、格式、類型等)。同時,版本控制對于AIMD系統(tǒng)而言特別重要,尤其是考慮到頻繁更新以及回滾到先前版本的可能性。
在此產(chǎn)品生命周期階段,主要進行軟件更新(例如增加新功能)和變更維護(例如錯誤修復(fù)等)。對于AIMD系統(tǒng),軟件更新可能是由于額外的訓(xùn)練、持續(xù)更新,或者由制造商定義的定期更新。對于AIMD學(xué)習(xí)系統(tǒng),變更速度可能比傳統(tǒng)的醫(yī)療器械軟件版本快得多。因此,在初始產(chǎn)品發(fā)布之前,應(yīng)建立評估準則標準,以評估何時需要軟件更新。同時,在執(zhí)行更新時應(yīng)通知用戶,并清楚描述變更(例如導(dǎo)致變更的因素)。用戶應(yīng)能夠拒絕算法更新或恢復(fù)到以前的算法版本。但是,這可能會導(dǎo)致在同一時間市場上存在多個有效算法版本,需要考慮如何跟蹤算法的投訴或其他問題。
基于AIMD的軟件,在用于診斷、治療、緩解或預(yù)防疾病時,符合醫(yī)療器械的定義,屬于醫(yī)療器械的范疇。因此與其他軟件類醫(yī)療器械類似,AIMD的風(fēng)險等級取決于預(yù)期用途在風(fēng)險分類框架下對患者的影響。
根據(jù)國際醫(yī)療器械監(jiān)管者論壇IMDRF的風(fēng)險框架,可以確定以下兩個主要因素,用來說明AIMD的預(yù)期用途:① AIMD提供的信息對醫(yī)療決策的重要性(表1),該信息確定了AIMD提供信息的預(yù)期用途。例如用于治療或診斷、臨床決策、臨床通知等;② 醫(yī)療條件或環(huán)境的狀態(tài),從而用于識別AIMD的預(yù)期使用者、疾病狀況以及人群。例如緊急、嚴重或非嚴重的醫(yī)療事件或狀況。
表1 IMDRF AIMD風(fēng)險分類表決策重要性
需要注意的是,雖然AIMD取決于患者的風(fēng)險分類,但由于人工智能算法的特殊性,因此風(fēng)險也取決于從“鎖定”到“持續(xù)學(xué)習(xí)”的程度?!版i定”算法是指每次提供相同輸入時都提供相同結(jié)果的算法。因此,“鎖定”算法將固定函數(shù)(例如靜態(tài)查找表、決策樹或復(fù)雜分類器)應(yīng)用于給定的輸入集,這些算法可以使用手動過程進行更新和驗證。與“鎖定”算法相比,自適應(yīng)算法(例如機器學(xué)習(xí)算法)使用定義的學(xué)習(xí)過程改變其行為。算法的自適應(yīng)性使得對于給定的一組輸入,在實現(xiàn)改變之前和之后,輸出可能是不同的。這些算法變更通常是通過一個定義良好且可能完全自動化的過程來實現(xiàn)和驗證的,該過程旨在通過對新數(shù)據(jù)或附加數(shù)據(jù)的分析來提高算法性能。
適應(yīng)過程可用于解決多種不同的臨床情況,例如在特定環(huán)境中優(yōu)化性能(如基于當?shù)鼗颊呷后w)、基于設(shè)備的使用方式優(yōu)化性能(如基于特定醫(yī)生的偏好)、通過收集更多臨床數(shù)據(jù)以提高性能、更改設(shè)備的預(yù)期用途等。適應(yīng)過程包括兩個階段:學(xué)習(xí)和更新。算法“學(xué)習(xí)”如何改變自身的行為。例如,通過添加新的輸入類型或向已經(jīng)存在的訓(xùn)練數(shù)據(jù)庫中添加新的案例。當部署新版本的算法時,“更新”就會發(fā)生。因此,在時間A(更新前)和時間B(更新后)給定相同的輸入集,算法的輸出可能不同。
總體來說,將TPLC方法應(yīng)用于軟件產(chǎn)品的監(jiān)管對于基于AIMD來說尤其重要,因為它能夠在真實世界使用過程中進行適應(yīng)和改變。在針對TPLC預(yù)認證方法中,通過評估相應(yīng)公司的質(zhì)量體系和組織架構(gòu),并對其軟件開發(fā)、測試和產(chǎn)品性能監(jiān)控的質(zhì)量進行合理評價,繼而保證產(chǎn)品在整個生命周期中都是有效的,從而對患者、護理人員、醫(yī)務(wù)人員和其他用戶提供產(chǎn)品安全有效的信心。因此,TPLC方法能夠?qū)浖a(chǎn)品從上市前的開發(fā)到上市后的性能進行評估和監(jiān)控,并持續(xù)展示組織的優(yōu)異性(圖1)。
圖1 基于全生命周期的AIMD要求框架
AIMD可能有很多類型的修改,修改一般包括算法架構(gòu)修改和使用新數(shù)據(jù)集重新訓(xùn)練兩部分。修改類型通常分為三大類:① 性能更變,包括臨床和使用性能發(fā)生變化;② 輸入變更,算法使用的輸入及其與輸出的臨床關(guān)聯(lián)變化;③ 預(yù)期用途變更,AIMD的預(yù)期用途發(fā)生變化。
與性能相關(guān)的修改,不改變預(yù)期用途或增加新的輸入類型,這種類型的修改包括分析和臨床性能的改進。這些改進可以由許多更改引起,可能包括使用相同類型輸入信號的預(yù)期使用群體內(nèi)的新數(shù)據(jù)集進行重新訓(xùn)練、人工智能架構(gòu)的改變或其他方式。對于這種類型的修改,制造商通常旨在更新用戶的性能,而不改變其產(chǎn)品的任何明確使用聲明。
與輸入相關(guān)的修改,不改變預(yù)期用途,這些類型的修改是改變?nèi)斯ぶ悄芩惴ㄊ褂幂斎氲男薷?。這些修改可能涉及對用于新類型輸入信號的算法的更改,但不會更改產(chǎn)品使用聲明。這些變化的例子有:擴展軟件與相同輸入數(shù)據(jù)類型的其他來源數(shù)據(jù)的兼容性(例如修改以支持與其他制造商的CT掃描儀兼容);添加不同的輸入數(shù)據(jù)類型(例如將診斷心房顫動的輸入擴展到包括血氧飽和度數(shù)據(jù))。
與預(yù)期用途相關(guān)的修改,這些類型的修改包括導(dǎo)致軟件提供的信息的重要性發(fā)生變化(例如從“輔助診斷”到“最終診斷”)。預(yù)期用途的修改也包括擴大預(yù)期患者群體(例如擴大至兒童群體)、預(yù)期疾病或條件(例如從一種癌癥到另一種癌癥的病變檢測)等。當然,所述的更改可能不是相互排斥的,一個軟件修改可能會導(dǎo)致輸入的變化和性能的變化;或者,性能更改可能會增加設(shè)備的臨床性能,進而影響預(yù)期用途等等。
基于AIMD系統(tǒng)關(guān)鍵的挑戰(zhàn)之一是對系統(tǒng)的可解釋性。在傳統(tǒng)的軟件開發(fā)項目中,促使人們對產(chǎn)品充滿信心的基本原因是可以理解的算法設(shè)計以及完善的、透明的驗證和確認工作。但是,對于AIMD系統(tǒng),軟件工程師不會直接創(chuàng)建決策算法,并且在測試時可能將系統(tǒng)視為黑盒,所以這個部分并不容易實現(xiàn)。
目前,可解釋性在人工智能領(lǐng)域有新的含義和目的,通常指完全理解和記錄人工智能系統(tǒng)輸出、建議、預(yù)測或決策開發(fā)中所用邏輯、決策方法和數(shù)據(jù)源的必要性。對于某些不包括人工干預(yù)的高級人工智能系統(tǒng),尤其是AIMD系統(tǒng),這個概念成了問題。此外,隨著最近發(fā)布的歐盟GDPR法規(guī),這種可解釋性的概念已具有新的形式化緊迫感。例如,根據(jù)這些法規(guī),受影響的數(shù)據(jù)主體和用戶有權(quán)要求提供關(guān)于人工智能驅(qū)動輸出中涉及的邏輯等有意義的信息,以及在決策做出后提出質(zhì)疑的能力。
AIMD系統(tǒng)的持續(xù)學(xué)習(xí)是關(guān)于學(xué)習(xí)、忘記和重新學(xué)習(xí)的過程。當系統(tǒng)完成持續(xù)學(xué)習(xí)時,就必然需要建立對系統(tǒng)操作和輸出的關(guān)系。驗證和確認為可信度和系統(tǒng)性能提供了證據(jù)。本文使用以下定義:驗證指“以正確的方式構(gòu)建系統(tǒng)”,即證明系統(tǒng)正確實施且符合其質(zhì)量標準(滿足技術(shù)要求)。確認指“構(gòu)建正確的系統(tǒng)”,即證明系統(tǒng)執(zhí)行任務(wù)的準確性的程度(滿足預(yù)期用途)。
針對AIMD的驗證,應(yīng)定義與一致性、完整性、正確性和冗余概念相關(guān)的驗證方法,以實現(xiàn)異常檢測和/或錯誤消除,從而建立對系統(tǒng)的信心。開發(fā)者可以在知識庫中記錄他們擁有或獲得的專業(yè)知識,這將為AIMD系統(tǒng)算法的“可解釋性”奠定基礎(chǔ)。這是該過程的重要可交付成果,隨著算法的日趨成熟以及內(nèi)容的性質(zhì),需要不斷修訂,預(yù)期它會成為具有非常復(fù)雜的科學(xué)和數(shù)學(xué)內(nèi)容的高技術(shù)性文件,并且可能從數(shù)據(jù)科學(xué)家的角度編寫。
針對AIMD系統(tǒng)的確認。一般而言,確認是指通過檢查和提供客觀證據(jù)來證實設(shè)計的系統(tǒng)符合用戶需求和預(yù)期用途的過程。具體到AIMD,則是指通過使用獨立的參考標準來衡量系統(tǒng)性能的過程。參考標準可有多種來源,包括明確定義的基準事實(例如患者是否患有系統(tǒng)預(yù)測的疾?。?、相關(guān)領(lǐng)域?qū)<业墓沧R(例如比較AIMD與病理學(xué)家對活檢標本的解讀)或臨床醫(yī)生做出的臨床決定。
本節(jié)介紹了在醫(yī)療衛(wèi)生系統(tǒng)中使用AIMD軟件的實際場景以及發(fā)生變更的實際情況。
3.3.1 肌電假體控制
肌電控制假肢是一種通過用戶自身肌肉產(chǎn)生的電信號實現(xiàn)控制的外部供電假肢。大多數(shù)假肢控制方法的局限性在于控制器無法隨時間推移適應(yīng)患者及其意圖或使用模式的變化。因此,大多數(shù)假肢使用者無法在診所外獨立改善其肢體控制器。而AIMD配合機器學(xué)習(xí),能夠了解并預(yù)測用戶意圖,并根據(jù)使用者反饋不斷改進控制。因此,需要針對每例患者對器械進行訓(xùn)練,并使該器械在患者使用后仍可繼續(xù)學(xué)習(xí)。依據(jù)使用者培訓(xùn)不同,每例患者的器械表現(xiàn)出來的性能可能有所不同,進而需要相應(yīng)的魯棒性能評估方法。
3.3.2 基于AIMD分類的醫(yī)學(xué)影像篩查系統(tǒng)
AIMD系統(tǒng)已廣泛應(yīng)用于醫(yī)學(xué)影像篩查。以胸部CT影像檢測肺癌為例,選擇了特定于深度學(xué)習(xí)架構(gòu)進行初步訓(xùn)練。該架構(gòu)包括層數(shù)量、每一層卷積核大小、每一層卷積核的數(shù)量、每一層激活函數(shù)的類型、每一層應(yīng)用梯度下降算法等。如果設(shè)計人員希望有更多數(shù)據(jù)可用時對AIMD架構(gòu)進行再訓(xùn)練,在訓(xùn)練時,不僅神經(jīng)網(wǎng)絡(luò)權(quán)值會發(fā)生變化,甚至整個架構(gòu)都會發(fā)生變化。因此,權(quán)值/系數(shù)發(fā)生變化但其架構(gòu)保持不變的AIMD和權(quán)值/系數(shù)和架構(gòu)均發(fā)生變化的AIMD對持續(xù)學(xué)習(xí)的置信度和適應(yīng)性均有顯著的差別。
AIMD正處于蓬勃發(fā)展期,為臨床醫(yī)生提高醫(yī)療診斷效率和治療的可靠性提供了幫助,目前有許多AIMD正在臨床實踐中使用,因此,需要針對AIMD的需要建立動態(tài)穩(wěn)健的質(zhì)量管理模式,在縮短產(chǎn)品研發(fā)與驗證周期的同時,及時前瞻性地發(fā)現(xiàn)AIMD帶來的新的使用風(fēng)險。本文討論了AIMD的質(zhì)量管理體系框架,在此基礎(chǔ)上,討論了影響人工智能醫(yī)療器械質(zhì)量的關(guān)鍵因素,設(shè)計變更和驗證確認環(huán)節(jié)的控制思路。并對人工智能醫(yī)療器械在質(zhì)量評價過程中需重點關(guān)注的軟件可解釋性、評價方法和驗證和確認進行了討論。