李娟, 湯翔宇, 沈逸, 廖術(shù), 石峰, 朱文珍
顱內(nèi)出血是臨床常見急重癥,具有極高的致死率及致殘率,嚴(yán)重危害患者的生命健康安全。顱內(nèi)出血的病因多種多樣,常見病因包括外傷、血管性疾病及先天發(fā)育異常等。根據(jù)出血部位的不同,顱內(nèi)出血又可以分為腦實質(zhì)內(nèi)出血(intraparenchymal hemorrhage,IPH)、腦室內(nèi)出血(intraventricular hemorrhage,IVH)、硬膜下出血(subdural hemorrhage,SDH)、硬膜外出血(extradural hemorrhage,EDH)及蛛網(wǎng)膜下腔出血(subarachnoid hemorrhage,SAH)五種類型。不同的出血類型及程度決定了患者是否需要外科手術(shù)處理等干預(yù)措施,而出血量反映了出血的嚴(yán)重程度,與患者的預(yù)后相關(guān),并且是臨床進(jìn)行隨訪復(fù)查的重要指標(biāo)。對不同類型顱內(nèi)出血的早期檢出對于挽救患者的神經(jīng)功能乃至生命有重要意義,而對血腫體積的精確測量則為臨床決策提供了重要依據(jù)。
CT廣泛應(yīng)用于急診科顱內(nèi)出血的診斷。近幾十年來,全國每年進(jìn)行CT檢查的人數(shù)逐年增長。閱讀和分析大量的CT圖像數(shù)據(jù)不僅耗費醫(yī)生大量的時間及精力,同時也增加了漏診和誤診的可能性。目前,急診顱腦CT診斷,尤其是夜班的急診顱腦CT初步診斷多由低年資放射科醫(yī)生提供,后期再由高年資放射科醫(yī)生進(jìn)行二次審核。已有多項研究顯示低年資放射科醫(yī)生提供的初步診斷存在不同程度的漏診和誤診[1,2]。
近年來,人工智能(artificial intelligent,AI)特別是深度學(xué)習(xí)(deep learning)算法作為大數(shù)據(jù)處理的有效手段,在醫(yī)療影像研究中得到了非常廣泛的應(yīng)用。以卷積神經(jīng)網(wǎng)絡(luò)為代表的相關(guān)深度學(xué)習(xí)算法在肺結(jié)節(jié)監(jiān)測及良惡性判別[3,4]、肋骨骨折檢測[5]、新型冠狀病毒肺炎診斷、病變分割及體積測量[6,7]、糖尿病視網(wǎng)膜病變分類[8]、淋巴結(jié)組織學(xué)切片中轉(zhuǎn)移的檢測[9]及皮膚癌圖像的分級[10]等方面取得了較好的效果,其精確度可與專家評估相媲美。部分學(xué)者也嘗試將深度學(xué)習(xí)算法應(yīng)用于顱內(nèi)出血的研究[11-13],但均局限于單一的出血檢測或血腫分割,且多數(shù)研究建立在較小的訓(xùn)練集樣本量基礎(chǔ)上。因此,我們開發(fā)了一套建立在較大樣本量訓(xùn)練集基礎(chǔ)上的深度學(xué)習(xí)算法來檢測顱內(nèi)出血并自動測量血腫體積,以期有助于提高臨床診斷準(zhǔn)確率及降低誤診漏診率,同時方便臨床醫(yī)生對血腫進(jìn)行隨訪評估,輔助臨床決策。
1.數(shù)據(jù)集的采集
回顧性搜集2016年1月-2018年12月期間我院門診及住院部以及qure.ai開源數(shù)據(jù)集的9594例顱腦CT平掃圖像,其中顱內(nèi)出血陽性6643例,陰性2951例,所有患者信息已匿名處理。涉及的CT掃描機器主要包括GE、西門子、東芝、飛利浦、聯(lián)影等多種機型及多種參數(shù),圖像層厚1.5~7.5 mm不等,多數(shù)為5 mm。qure.ai開源數(shù)據(jù)集所提供的圖像數(shù)據(jù)由三位資深放射科醫(yī)師的一致診斷為金標(biāo)準(zhǔn),當(dāng)三位醫(yī)師中兩位與另外一位的診斷意見不同時以多數(shù)者的診斷為金標(biāo)準(zhǔn);其余圖像均由兩位資深放射科醫(yī)生的一致診斷為金標(biāo)準(zhǔn),當(dāng)診斷意見不一致時通過協(xié)商達(dá)成一致。圖像排除標(biāo)準(zhǔn)為圖像不全、偽影嚴(yán)重及顱腦術(shù)后。隨機選取223例顱內(nèi)出血陽性患者的數(shù)據(jù)作為顱內(nèi)出血類型識別的測試集,剩余CT圖像數(shù)據(jù)作為其訓(xùn)練集。
另選取我院門診及病房819例已進(jìn)行人工手動勾畫血腫邊界的急性顱內(nèi)出血CT圖像數(shù)據(jù)來研究血腫分割的精準(zhǔn)性。排除標(biāo)準(zhǔn)為圖像不全、嚴(yán)重偽影、顱腦術(shù)后及同一患者復(fù)查。隨機選取74例顱內(nèi)出血陽性患者的數(shù)據(jù)作為測試集,剩余CT圖像數(shù)據(jù)作為其訓(xùn)練集。人工手動分割采用開源軟件Insight Toolkit SANP(ITK-SNAP) 3.6.0進(jìn)行分割,于CT平掃橫軸面圖像沿血腫邊界進(jìn)行勾畫,標(biāo)注后的血腫由軟件生成1個分割文件,并輸出血腫體積。
顱內(nèi)出血分類識別模型及血腫分割模型的構(gòu)建由上海聯(lián)影智能醫(yī)療科技有限公司算法部門實施。
2.模型的建立及算法
首先進(jìn)行CT圖像的數(shù)據(jù)輸入,所有CT圖像均為標(biāo)準(zhǔn)的DICOM格式。數(shù)據(jù)預(yù)處理包括圖像擺正、去頭骨和灰度歸一化。在橫軸面數(shù)據(jù)中,基于深度學(xué)習(xí)對腦中線兩個端點的位置進(jìn)行檢測,并對橫軸面CT圖像進(jìn)行旋轉(zhuǎn),進(jìn)而自動擺正腦部位置。然后,基于深度學(xué)習(xí)自動對腦組織區(qū)域進(jìn)行分割,自動剔除圖像中包括顱骨及之外的干擾信息。在將灰度歸一化到[-1, 1]之后,根據(jù)五種出血類型及未出血共六個標(biāo)簽,對圖像的每一層調(diào)用殘差網(wǎng)絡(luò)(ResNet)進(jìn)行分類。對每一層的分類結(jié)果,調(diào)用循環(huán)神經(jīng)網(wǎng)絡(luò)(long short term memory network,LSTM)進(jìn)行結(jié)果修正,最終合并為基于患者個體的分類結(jié)果。算法細(xì)節(jié)參考2019年RSNA腦出血分類競賽[14]。
圖1 深度學(xué)習(xí)算法對五種不同類型顱內(nèi)出血識別的示意圖。a、b)深度學(xué)習(xí)算法對腦實質(zhì)出血及硬膜外出血的識別;c、d)深度學(xué)習(xí)算法對硬膜下出血的識別;e、f)深度學(xué)習(xí)算法對腦室內(nèi)出血的識別;g、h)深度學(xué)習(xí)算法對蛛網(wǎng)膜下腔出血的識別。
對于出血灶分割任務(wù),在圖像預(yù)處理之后,調(diào)用V型網(wǎng)絡(luò)(VB-Net)進(jìn)行模型訓(xùn)練,并通過體素的統(tǒng)計和間距的換算,自動得到每個出血量的統(tǒng)計從而計算血腫體積。同時,采用同樣網(wǎng)絡(luò)對CT圖像中側(cè)腦室進(jìn)行分割,并通過與出血灶的匹配自動得到是否存在腦室內(nèi)出血的結(jié)果[15]。
3.統(tǒng)計學(xué)分析
所有數(shù)據(jù)采用SPSS 23.0和MedCalc 19.0統(tǒng)計軟件進(jìn)行處理與分析。算法識別顱內(nèi)出血類型的效能采用準(zhǔn)確率(%)、敏感度、特異度及受試者操作特征(receiver operating characteristic,ROC)曲線分析中曲線下面積(area under curve,AUC)來評估。不同類型的血腫體積先進(jìn)行Kolmogorov-Smirnov正態(tài)性檢驗,符合正態(tài)分布的數(shù)據(jù)以均數(shù)±標(biāo)準(zhǔn)差表示,不符合正態(tài)分布者以中位數(shù)(上、下四分位數(shù))表示。人工手動分割和卷積神經(jīng)網(wǎng)絡(luò)算法分割血腫體積之間的一致性采用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC)分析并繪制Bland-Altman圖。以P<0.05為差異有統(tǒng)計學(xué)意義。
1.深度學(xué)習(xí)算法對五種類型顱內(nèi)出血的識別
223例CT圖像數(shù)據(jù)納入測試集,其中62.78%(140/223)合并有兩種或兩種以上類型的顱內(nèi)出血。測試集中五種類型顱內(nèi)出血的分布見表1,占比最高的是腦實質(zhì)出血(IPH>SAH>IVH>SDH> EDH)。深度學(xué)習(xí)算法對不同類型顱內(nèi)出血識別的示意圖見圖1。
表1 測試集不同類型顱內(nèi)出血的分布 (例)
深度學(xué)習(xí)算法對五種類型顱內(nèi)出血的識別效能見表2和圖2,其AUC均高于或接近0.85,特異度均高于0.95,尤其是對于腦實質(zhì)出血與腦室內(nèi)出血,深度學(xué)習(xí)算法具有良好的識別效能(AUC為 0.922, 95%CI:0.879~0.954)。
表2 深度學(xué)習(xí)算法對五種類型顱內(nèi)出血的識別效能
表3 人工手動分割方法與深度學(xué)習(xí)算法測量血腫體積的一致性
圖2 五種類型顱內(nèi)出血的ROC曲線。a)EDH的ROC曲線,AUC為0.879;b)IPH的ROC曲線,AUC為0.922;c)SAH的ROC曲線,AUC為0.860;d)IVH的ROC曲線,AUC為0.922;e)SDH的ROC曲線,AUC為0.845。
五種類型顱內(nèi)出血中,算法識別準(zhǔn)確率最高的為腦室內(nèi)出血(IVH>EDH>SDH>IPH>SAH),敏感度最高的為腦實質(zhì)出血(IPH>IVH>EDH>SAH>SDH)。
2.人工手動分割方法與深度學(xué)習(xí)算法測量血腫體積的一致性
人工手動分割方法與深度學(xué)習(xí)算法對74例人工標(biāo)注的不同類型的顱內(nèi)出血體積測量結(jié)果的一致性見表3及圖3。對于四種不同的顱內(nèi)出血類型,深度學(xué)習(xí)算法與人工手動分割方法測量的出血體積之間均顯示了較好的一致性,其中硬膜下出血、腦實質(zhì)內(nèi)出血和腦室內(nèi)出血體積測量的ICC接近于1,硬膜下出血體積測量的ICC接近0.9。
本研究結(jié)果顯示,我們開發(fā)的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法對不同類型顱內(nèi)出血具有良好的識別效能(AUC大于或接近0.85,特異度均高于0.95),且對除蛛網(wǎng)膜下腔出血以外的其他類型的顱內(nèi)出血血腫分割具有較高的一致性(ICC高于或接近0.9)。Ye等[13]及Kuo等[12]采用不同的深度學(xué)習(xí)算法對顱內(nèi)出血亞型進(jìn)行檢測,前者對不同亞型顱內(nèi)出血識別的AUC達(dá)到0.8以上,后者更是達(dá)到專家水平,但前者的訓(xùn)練集僅包含2836例CT圖像,后者的結(jié)果則建立在單中心小樣本訓(xùn)練集上,測試集中顱內(nèi)出血陽性僅25例。Chilamkurthy等[16]的研究納入了印度20余家醫(yī)療中心的30余萬例CT圖像數(shù)據(jù),對各種亞型顱內(nèi)出血識別的AUC接近或高于0.9,但該研究未涉及對血腫體積的測量。我們開發(fā)的模型納入了較大樣本量的CT數(shù)據(jù),對不同類型顱內(nèi)出血的識別效能高于或接近既往研究結(jié)果,同時可以自動測量血腫體積,更適合于臨床應(yīng)用與推廣。
硬膜下出血和蛛網(wǎng)膜下腔出血是顱內(nèi)出血中最容易漏診或誤診的類型[17],給深度學(xué)習(xí)算法的識別帶來了很大挑戰(zhàn)。Ye等[13]開發(fā)的深度學(xué)習(xí)算法對蛛網(wǎng)膜下腔出血識別的敏感度僅為0.69,本模型對蛛網(wǎng)膜下腔出血和硬膜下出血識別的敏感度分別為0.7565和0.7143。62.78%(140/223)的病例合并有兩種或兩種以上類型的顱內(nèi)出血可能是本模型敏感度低的原因之一。對模型中不同類型顱內(nèi)出血假陰性病例進(jìn)一步分析,發(fā)現(xiàn)28例蛛網(wǎng)膜下腔出血假陰性病例中35.71%(10/28)為腦挫裂傷合并少許蛛網(wǎng)膜下腔出血,21.43%(6/28)為腦室積血合并少許蛛網(wǎng)膜下腔積血;18例硬膜下出血假陰性病例中44.44%(8/18)被誤診為硬膜外出血(同時也增加了硬膜外出血的假陽性率),16.67%(3/18)為腦挫裂傷合并少許硬膜下出血;22例腦實質(zhì)出血假陰性病例全部合并有兩種或兩種以上出血類型,其中63.64%(14/22)為腦挫裂傷合并少許腦實質(zhì)出血,18.18%(4/22)為腦室周圍腦實質(zhì)出血破入腦室被誤診為原發(fā)性腦室內(nèi)出血。深度學(xué)習(xí)算法對腦挫裂傷合并少量腦實質(zhì)出血或蛛網(wǎng)膜下腔出血的識別以及對硬膜外出血與硬膜下出血的鑒別有待進(jìn)一步提升。
圖3 人工手動分割方法與深度學(xué)習(xí)算法測量血腫體積的一致性Bland-Altman圖。a)硬膜外出血(EDH):95%一致性界限(95%LoA)范圍為-9.41~6.22mL,10%(2/20)的點在 95%LoA 以外;b)腦室內(nèi)出血(IVH):95%LoA范圍為-8.18~2.84mL,8.7%(2/23)的點在 95%LoA 以外;c)腦實質(zhì)出血(IPH):95%LoA范圍為-0.66~0.98mL,10%(2/20)的點在 95%LoA 以外;d)硬膜下出血(SDH):95%LoA范圍為8.71~119.94mL,0%(0/11)的點在 95%LoA 以外。
目前比較公認(rèn)的出血體積測量的金標(biāo)準(zhǔn)是人工手動勾畫分割測量,但需要耗費大量的時間及精力,無法在臨床大規(guī)模推廣應(yīng)用。對于腦實質(zhì)出血,臨床普遍采用多田公式(V=a×b×c×1/2,其中V代表血腫體積,a、b分別是CT片中血腫最大層面的最長徑、最寬徑,c是CT片中出現(xiàn)血腫的層面數(shù))來計算血腫體積[18]。多項研究顯示多田公式得到的血腫體積存在較大誤差[19,20],特別是在血腫體積較小或形態(tài)不規(guī)則的情況下[21],而且測量的主觀性較強,可重復(fù)性不高。而其它類型的顱內(nèi)出血則沒有公認(rèn)的測量標(biāo)準(zhǔn),部分研究中硬膜下出血和硬膜外出血延用了多田公式或調(diào)整的多田公式計算體積[22-24],但由于多田公式的計算建立在血腫為橢球形的基礎(chǔ)上[18],而硬膜下出血及硬膜外出血的形態(tài)多為新月形及梭形,這種測量方式得到的血腫體積與實際出血量之間必然存在誤差。我們開發(fā)的深度學(xué)習(xí)算法自動計算的出血體積與人工手動分割得到的血腫體積之間有很好的一致性,尤其是對于腦實質(zhì)內(nèi)出血(ICC為1),與既往研究結(jié)果一致或高于既往研究結(jié)果[25];而且深度學(xué)習(xí)算法測量1例出血體積耗時約10秒,明顯快于多田公式測量或人工手動勾畫分割。鑒于蛛網(wǎng)膜下腔出血體積測量的臨床意義較低,未將其納入本研究中。
本研究存在一定局限性:首先,本研究為回顧性研究,可能存在選擇偏倚;其次,雖然納入了較大樣本量的CT數(shù)據(jù)作為訓(xùn)練集,但測試集樣本量較少,結(jié)果可能存在誤差,后續(xù)仍需加大樣本量進(jìn)行驗證。
綜上所述,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法可以較準(zhǔn)確地識別各種類型的顱內(nèi)出血,并精確測量出血體積,有望應(yīng)用于臨床幫助減輕放射科醫(yī)生的工作負(fù)擔(dān)并降低其漏診誤診率,為輔助臨床決策提供依據(jù)。