奈日樂,王可欣,謝輝輝,楊潔瑾,蔡金秀,李昌欣,王祥鵬,張曉東,王霄英*
1.北京大學(xué)第一醫(yī)院醫(yī)學(xué)影像科,北京 100034;2.首都醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,北京 100069;3.北京賽邁特銳醫(yī)學(xué)科技有限公司,北京 100011
自發(fā)性腦出血(intracranial hemorrhage,ICH)是指非外傷引起的成年人顱內(nèi)動靜脈和毛細血管自發(fā)性破裂所致的腦實質(zhì)內(nèi)出血,是腦卒中的第二常見病因[1]。中國腦出血診治指南(2019)指出,ICH占所有腦卒中的18.8%~47.6%[2]。ICH發(fā)病后12個月,僅12%~26%的患者能夠獨立生活,病死率達40%~50%[3]?;颊咴诩毙园l(fā)病時通常會以頭痛頭暈、惡心、嘔吐等癥狀就診于急診科,醫(yī)師需盡快診治。
CT因操作快、檢查結(jié)果準確,成為ICH首選的檢查方法[4]。影像科醫(yī)師出具報告的速度和準確度對臨床處理具有重要影響。在急診放射科實際臨床工作中,醫(yī)師手工測量血腫徑線耗時較長,且不同醫(yī)師測量值存在個體差異。自動測量血腫三維徑線不僅能縮短報告時間,還能提高測量一致性,為臨床制訂治療方案提供可靠的依據(jù)。
近年來,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于醫(yī)學(xué)影像的圖像識別任務(wù)中,在顱內(nèi)出血分類診斷等方面取得了重大進步[5-7]。本研究基于U形全卷積神經(jīng)網(wǎng)絡(luò)(Ushaped fully convolutional neural network,U-Net)對ICH患者顱內(nèi)血腫進行分割和徑線自動測量,以影像醫(yī)師手工標注的結(jié)果為參考標準,對其準確性進行驗證,探索將模型植入臨床工作流程的可行性。
1.1 用例定義 根據(jù)本單位人工智能(artificial intelligence,AI)訓(xùn)練管理方法定義研發(fā)頭CT平掃圖像上腦實質(zhì)血腫分割模型的用例,包括模型的ID、臨床問題、場景描述、模型在實際工作中的調(diào)用流程、模型輸入輸出數(shù)據(jù)結(jié)構(gòu)等。AI模型返回結(jié)果定義為:腦實質(zhì)內(nèi)血腫的坐標、三維徑線和體積,返回結(jié)果應(yīng)用于頭CT平掃結(jié)構(gòu)化報告的“病灶列表”模塊(圖1)。
圖1 腦血腫分割模型訓(xùn)練及臨床場景應(yīng)用
1.2 數(shù)據(jù)收集 回顧性收集PACS系統(tǒng)中2009年7月25日—2019年11月6日于北京大學(xué)第一醫(yī)院急診行頭顱CT平掃的圖像用于模型建立及內(nèi)部驗證;另外收集PACS系統(tǒng)中2019年11月7日—2020年3月31日于我院急診行頭顱CT平掃的圖像作為外部驗證集。納入標準:①CT診斷為腦實質(zhì)出血;②患者臨床診斷與影像診斷相符。排除標準:①明確或可疑外傷、術(shù)后等繼發(fā)性腦出血;②非腦實質(zhì)出血,如硬膜下、硬膜外、蛛網(wǎng)膜下腔出血以及腦室積血;③臨床癥狀與影像診斷不符;④掃描范圍不完整。納入用于模型建立及內(nèi)部驗證的病例256例,其中男174例,女82例,年齡24~93歲,平均(63.3±16.0)歲;納入外部驗證集病例50例,其中男31例,女19例,年齡33~90歲,平均(68.0±18.2)歲。掃描范圍為顱底至顱頂,掃描層厚為5 mm。全部數(shù)據(jù)血腫分布位置見表1。
表1 各組病例出血部位(例)
本研究獲得北京大學(xué)第一醫(yī)院倫理審查委員會批準[審批號:2019(169)],免除患者知情同意,按照本單位AI模型訓(xùn)練規(guī)范執(zhí)行研究方案。
1.3 圖像標注 從PACS導(dǎo)出的DICOM格式批量轉(zhuǎn)換為NIFTI格式。由2名影像科住院醫(yī)師利用ITKSNAP軟件標記出病灶輪廓。由1名影像科主任醫(yī)師(具有28年影像診斷經(jīng)驗)審核完成標注(圖2)。標注范圍為腦實質(zhì)內(nèi)血腫,不包括血腫周圍的水腫區(qū)域。
圖2 腦血腫標注及預(yù)測結(jié)果。A.頭顱CT平掃圖像;B.醫(yī)師標注血腫(紅色區(qū)域);C.模型預(yù)測血腫(綠色區(qū)域)。標注過程中未包括腦血腫周圍的水腫區(qū)域
1.4 數(shù)據(jù)預(yù)處理 見圖3。
圖3 腦血腫分割模型數(shù)據(jù)預(yù)處理。A.設(shè)置圖像窗寬、窗位為40、80 Hu;B.使用既往訓(xùn)練的腦區(qū)分割模型將CT圖像中的顱骨(綠色區(qū)域)與顱腔(紅色區(qū)域)區(qū)分開;C.圖像像素設(shè)為32×128×128;D.在顱內(nèi)區(qū)域中完成后續(xù)分割模型訓(xùn)練
1.5 模型訓(xùn)練 模型訓(xùn)練的硬件為GPU NVIDIA Tesla P100 16G,軟件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等。采用3D U-Net網(wǎng)絡(luò)訓(xùn)練深度學(xué)習(xí)模型。模型的輸入是頭顱CT圖像和腦血腫標簽,輸出是模型預(yù)測的腦血腫區(qū)域。
1.6 模型評價
1.6.1 客觀評價方法 以Dice相似系數(shù)(Dice similarity coefficient,DSC)評估測試集腦血腫分割的效果。
1.6.2 主觀評價方法 影像醫(yī)師主觀判斷模型預(yù)測的血腫邊界是否符合臨床實際工作要求,參考文獻[8-9]并結(jié)合臨床實際工作場景,制訂具體評價標準(表2)。血腫評分總分為5分,評分合計4分及以上代表正確性良好,可滿足臨床工作要求;3分及以下代表正確性欠佳,不能滿足臨床工作要求。
表2 醫(yī)師主觀評價標準
1.7 定量值的輸出和評價
1.7.1 定量值的輸出 針對測試集,共獲得3種定量值,①參考值:專家標注的血腫區(qū)域生成的徑線和體積,為研究的參考標準;②模型值:模型預(yù)測的血腫徑線和體積;③報告值:既往影像報告中醫(yī)師書寫的最大血腫徑線,根據(jù)多田公式(A×B×C/2)獲得血腫體積[8]。
參考值和模型值均是基于血腫區(qū)域的坐標信息,通過最小體積包圍盒算法輸出血腫的三維徑線,血腫的總體積為所有陽性體素的全部體積,軟件將模型預(yù)測結(jié)果包括血腫大小、體積、平均CT值自動填寫到結(jié)構(gòu)化報告中,并自動存儲和返回關(guān)鍵圖像。
1.7.2 定量值的評價 實際工作中在書寫報告時,影像醫(yī)師如果在圖像中發(fā)現(xiàn)多個出血病灶,常選取最大病灶進行徑線測量,并在報告中描述最大橫截面的長短徑以及累及層數(shù),并注明層厚。為了模擬實際報告過程中的操作,僅對最大病灶(最大連通域)進行比較,在定位一致的基礎(chǔ)上評價3種定量值的一致性。
1.8 統(tǒng)計學(xué)分析 采用SPSS 26.0軟件,使用PRISM GraphPad 8.0軟件繪圖。采用Kolmogorov-Smirnov檢驗數(shù)據(jù)的正態(tài)性分布,呈正態(tài)分布的計量資料以表示;非正態(tài)分布的計量資料以M(Q1,Q3)表示,非正態(tài)分布定量值比較采用Wilcoxon符號秩和檢驗。不同方法之間的一致性檢驗采用Bland-Altman分析、組內(nèi)相關(guān)系數(shù)(ICC)表示。以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 模型評價 在內(nèi)部驗證集的25例中U-Net模型檢出全部血腫,模型預(yù)測的敏感度為100%,以病灶為單位平均DSC為0.84,最高為0.94(圖4);在外部驗證集的50例中U-Net模型檢出49例,以病灶為單位平均DSC為0.90,最高為1。醫(yī)師主觀評價結(jié)果顯示內(nèi)部驗證集中88%(22/25)的病例以及外部驗證集中80%(40/50)的病例均達到4分及以上。
圖4 男,50歲,頭顱CT發(fā)現(xiàn)左側(cè)基底節(jié)區(qū)出血。A.頭顱CT平掃圖像;B.醫(yī)師標注圖像;C.模型預(yù)測圖像;DSC為0.94,醫(yī)師的主觀評價滿意
2.2 定量值評價 在內(nèi)部驗證集中,模型值與參考值的血腫病灶三維徑線和體積比較,差異均無統(tǒng)計學(xué)意義(P>0.05);報告值與參考值比較,左右徑及前后徑差異有統(tǒng)計學(xué)意義(Z=-4.319、-3.242,P<0.05),上下徑和體積差異無統(tǒng)計學(xué)意義(P>0.05)。在外部驗證集中,模型值與參考值血腫病灶上下徑及體積比較,差異有統(tǒng)計學(xué)意義(Z=-2.146、-2.590,P<0.05),左右徑及前后徑差異均無統(tǒng)計學(xué)意義(P>0.05);報告值與參考值比較,血腫病灶三維徑線和體積差異均有統(tǒng)計學(xué)意義(Z=-4.793、-4.580、-5.855、-3.335,P<0.05)(表3)。血腫體積的一致性檢驗,無論是內(nèi)部驗證集還是外部驗證集中,模型值和報告值與參考值的一致性均高,兩兩比較ICC均達到0.9以上(圖5)。
表3 內(nèi)、外部驗證集腦血腫定量指標參考值與模型值、報告值比較[M(Q1,Q3)]
圖5 內(nèi)部、外部驗證集不同方法血腫體積的一致性。A為內(nèi)部驗證集的模型值與參考值血腫體積的一致性檢驗;B為內(nèi)部驗證集的報告值與參考值血腫體積的一致性檢驗;C為外部驗證集的模型值與參考值血腫體積的一致性檢驗;D為外部驗證集的報告值與參考值血腫體積的一致性檢驗
非外傷性腦卒中患者行頭顱CT檢查后,精確并穩(wěn)定地計算血腫體積,有助于急診臨床醫(yī)師做出治療決策。腦血腫體積是判斷患者是否需要急診手術(shù)治療的指征[9],還可用于精確和有效地量化初始疾病負荷,有助于判斷預(yù)后[10-11]。
3.1 本研究臨床應(yīng)用場景 在急診情況下測量血腫體積的傳統(tǒng)方法是影像科醫(yī)師手工測量三維徑線,并通過多田公式估算血腫體積。這種方法可以快速評估血腫體積,但對于不規(guī)則形態(tài)的血腫則有一定的偏差[12]。此外,急性腦出血患者往往在短時間內(nèi)多次行CT復(fù)查,多位醫(yī)師測量的一致性欠佳,影響隨訪觀察。近年多項研究表明AI對腦血腫的分割準確,有潛在的臨床應(yīng)用價值[13-14]。本研究用U-Net深度學(xué)習(xí)模型分割頭顱CT平掃圖像上腦血腫病灶,可在急診情況下快速準確自動獲取其徑線及體積,以利于患者接受快速診治,模型分割結(jié)果的準確性與既往研究結(jié)果相似[15]。
3.2 本研究較既往研究的特色 基于深度學(xué)習(xí)算法對顱內(nèi)出血的識別和分割既往已有大量研究,不僅有綜合各種出血類型的研究,也有單純分析腦實質(zhì)出血的研究[7,13-16]。既往研究證實AI在技術(shù)方面的可行性,需要進一步驗證AI整合到臨床工作流程中是否具備可行性,是否在保證準確性的前提下提高醫(yī)師工作效率,并改善患者預(yù)后[17-18]。因此本研究更多關(guān)注AI與結(jié)構(gòu)化報告的整合。本研究通過內(nèi)、外部驗證集測試模型的分割效能,其平均DSC均達到0.80以上。同時影像醫(yī)師的主觀評價結(jié)果顯示至少80%的數(shù)據(jù)結(jié)果可以用于臨床工作,這對模型植入臨床工作極為重要。與既往研究不同,本研究中以專家手工標注的血腫區(qū)域為參考標準,分別對模型預(yù)測結(jié)果和既往影像報告中的三維徑線及體積進行一致性檢驗。結(jié)果顯示,內(nèi)、外部驗證集中模型值和報告值與參考標準的一致性均高,兩兩比較ICC均達到0.9以上,表明影像醫(yī)師在急診條件下基本可以準確測量血腫的三維徑線,并通過傳統(tǒng)多田公式計算獲得的體積與實際血腫量相差不大。與既往影像醫(yī)師測量的報告值相比,模型值與參考值的ICC更高,表明模型預(yù)測結(jié)果更穩(wěn)定,與參考標準一致性更好。因此,與傳統(tǒng)多田公式相比,深度學(xué)習(xí)模型對腦血腫體積預(yù)測效果更優(yōu),獲得的體積更接近實際腦出血量,可以對制訂臨床決策提供更好的幫助。本研究的另一個特點是將測量結(jié)果自動填入結(jié)構(gòu)化報告中,優(yōu)化影像報告流程,節(jié)省影像醫(yī)師工作時間,保證測量結(jié)果的一致性。
3.3 本研究的局限性 ①本研究中深度學(xué)習(xí)模型主要是為了分割腦血腫從而獲得其三維徑線及體積,因此在收集數(shù)據(jù)時均采用腦血腫陽性數(shù)據(jù)。未來當模型應(yīng)用到臨床工作時一定會有腦血腫陰性的頭顱CT圖像,因此后續(xù)工作應(yīng)補充陰性數(shù)據(jù)迭代模型。②本研究納入樣本均來自我院急診情況下非外傷性ICH,未涉及其他臨床場景,如術(shù)后腦出血、梗死后出血等,未來應(yīng)擴展更多應(yīng)用場景,增加不同場景下的數(shù)據(jù)迭代模型。③在本研究的數(shù)據(jù)集中腦出血多發(fā)生于幕上雙側(cè)基底節(jié)區(qū),幕上腦葉和幕下血腫相對較少,這也使得模型在識別以上少見部位血腫時存在一定的誤差,在后續(xù)訓(xùn)練模型時將進一步輸入少見部位的血腫以提高模型的準確性。④本實驗數(shù)據(jù)集均為腦實質(zhì)內(nèi)出血,但顱內(nèi)出血還包括硬膜下出血、硬膜外出血、蛛網(wǎng)膜下腔出血以及腦室內(nèi)出血等,也需要進一步研究。
總之,使用深度學(xué)習(xí)模型對CT圖像中急診自發(fā)性腦實質(zhì)出血自動分割及體積測量可行,模型自動生成定量測量值準確,與臨床醫(yī)師報告的結(jié)果基本一致。