左 斌,李菲菲
(上海理工大學(xué) 上??祻?fù)器械工程技術(shù)研究中心,上海 200093)
新型冠狀病毒肺炎(簡稱“新冠肺炎”)在全球的廣泛傳播,引起了一場世界性的健康危機(jī),嚴(yán)重威脅了人類健康。世衛(wèi)組織將此疾病命名為“2019年冠狀病毒”,簡稱為COVID-19。截止2021年2月23日,全球已累計報告超過1.11億例確診病例,其中逾247.3萬人死亡,該病已經(jīng)成為人類歷史上致死人數(shù)最多的流行病之一。針對疫情防控,快速檢測與隔離感染者對于限制病毒的傳播起著十分重要的作用。逆轉(zhuǎn)錄聚合酶鏈反應(yīng)(Reverse Transcription-Polymerase Chain Reaction,RT-PCR)是鑒定COVID-19的金標(biāo)準(zhǔn),可檢測由鼻咽拭子、口咽拭子、支氣管肺泡灌洗液或氣管抽吸物樣本中的病毒RNA。然而,RT-PCR的檢測操作較為繁雜,且檢測時耗較長。胸部計算機(jī)斷層掃描(Computed Tomography,CT)成像可通過肺部影響快速識別出疑似病例,故而可作為COVID-19篩查的輔助解決方案[1]。
CT肺部圖像的毛玻璃結(jié)節(jié)可以作為檢測新冠肺炎的重要指標(biāo),但感染初期的肺部玻璃結(jié)節(jié)在CT影像圖中特征并不明顯,若醫(yī)生經(jīng)驗不足或診斷不夠細(xì)致都極易導(dǎo)致誤診。因此,精確地分割病變區(qū)域?qū)υ\斷、治療和預(yù)后都有著重要意義。
近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展[2],基于深度學(xué)習(xí)的自動分割技術(shù)可以輔助醫(yī)生進(jìn)行診斷,能有效提高COVID-19的診斷準(zhǔn)確率和醫(yī)生的診斷效率,為臨床治療爭取更多時間。文獻(xiàn)[3]提出了PPM-Unet,使用金字塔池化模塊替換了原始U-Net中的跳躍連接,并且通過加入全局注意力機(jī)制提升神經(jīng)網(wǎng)絡(luò)的特征表示能力,從而提升網(wǎng)絡(luò)對于新冠肺炎圖像的分割效果。文獻(xiàn)[4]針對多站點數(shù)據(jù)存在較大差異的問題,提出了一種基于U-Net的深度卷積網(wǎng)絡(luò)。該方法使用了重采樣體素間距和ROI提取,并運(yùn)用深監(jiān)督和集成分割來提升網(wǎng)絡(luò)性能。文獻(xiàn)[5]提出一種基于U-Net改進(jìn)模型的自動分割方法,其編碼器采用預(yù)訓(xùn)練好的EfficientNet-B0網(wǎng)絡(luò)進(jìn)行特征提取,解碼器部分采用DUpsampling結(jié)構(gòu)替換傳統(tǒng)的上采樣操作,以此來獲取病灶的細(xì)節(jié)信息。
將深度學(xué)習(xí)方法應(yīng)用到新冠肺炎感染CT切片分割的相關(guān)工作仍然較少,且存在一些問題:(1)CT切片中不同病灶間的紋理、大小和位置差異較大;(2)類間差異很小,例如毛玻璃影的邊界通常對比度較低且外觀模糊,難以識別;(3)新冠疫情爆發(fā)突然,短時間內(nèi)較難獲取高質(zhì)量、像素級標(biāo)注的肺部感染圖像,因此目前大部分COVID-19公開數(shù)據(jù)集都僅集中在診斷上,只有極少數(shù)據(jù)集提供了分割標(biāo)簽,且具有分割標(biāo)注的CT圖像數(shù)量極其有限。
為了解決上述問題,本文提出了一種基于注意力機(jī)制和Inf-Net[6]改進(jìn)的mInf-Net,用于二維CT圖像中COVID-19肺部感染的分割。注意力機(jī)制能夠強(qiáng)調(diào)有用的特征,并抑制不相關(guān)的特征,增強(qiáng)特征的表示能力,有效提高網(wǎng)絡(luò)的分割精度[7]。實驗表明,相較于原始Inf-Net以及其他一些主流方法,本文提出的改進(jìn)算法有效提高了CT圖像下新冠肺炎病灶分割的準(zhǔn)確率。
本文所提算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示?;诨A(chǔ)的編碼器-解碼器結(jié)構(gòu),CT圖像首先通過前兩層卷積層獲取高分辨率、弱語義性的低層特征。同時,加入邊緣注意力模塊來顯式提升目標(biāo)區(qū)域邊緣的表示。所獲取的低層特征f2隨后被送入后3層卷積層,用于提取高層特征。為了聚合這些高層特征,首先利用一個平行部分解碼器(Parallel Part Decoder, PPD),生成一個全局映射特征圖Sg用于肺部感染的粗定位。然后,這些特征與f2結(jié)合,并在Sg的指導(dǎo)下被送入多個反向注意力(Recurrent Attention,RA)模塊。這些RA模塊以級聯(lián)的方式連接并依賴于上一個RA模塊的輸出。最后,末尾的RA模塊輸出S3被送入Sigmoid激活函數(shù)中,生成最終的肺部感染區(qū)域預(yù)測圖。下文將對所提出的mInf-Net算法進(jìn)行詳細(xì)說明。
圖1 mInf-Net模型的架構(gòu)圖Figure 1. The architecture of the mInf-Net model
邊緣信息在分割中是十分有用的信息,它可以在分割的過程中提供有效的約束關(guān)系。有經(jīng)驗的放射科醫(yī)生在進(jìn)行手動標(biāo)注時也通常是先確定目標(biāo)區(qū)域的邊緣,再進(jìn)行內(nèi)部區(qū)域的推斷[8-10]。由于低層特征(例如模型中的f2)已經(jīng)保留了足夠豐富的邊緣信息,因此將具有合適分辨率的低層特征f2輸入到邊緣注意力(External Attention,EA)模塊,即可學(xué)習(xí)到關(guān)注于邊緣的特征表示。具體地,特征f2通過卷積層得到邊緣映射圖,之后使用標(biāo)準(zhǔn)的二值交叉熵?fù)p失函數(shù)來度量邊緣映射圖與由真值圖(Ground Truth,GT)導(dǎo)出的邊緣真值圖Ge的差異性
(1)
式中,Ge由真值圖Gs的導(dǎo)數(shù)求得;(x,y)是所預(yù)測的邊緣圖Se和邊緣真值圖Ge中每一個像素點的坐標(biāo),w和h分別代表對應(yīng)特征映射圖的寬和高。
目前大多數(shù)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)[11-15]在分割目標(biāo)器官和病灶區(qū)域時利用了編碼器中所有的高、低層特征。低層特征由于其具有更大的空間分辨率,相較于高層特征往往需要占用更多的計算資源,但其對性能的提升卻效果甚微。因此,本文算法采用平行部分解碼器模塊來聚合高級特征。首先,采用Res2Net[16]網(wǎng)絡(luò)的前5層作為編碼器,分別提取兩組低層特征{fi,i=1,2}和3組高層特征{fi,i=3,4,5}。然后,使用部分解碼器pd(?)[17]以平行連接的方式來聚合高層特征。
圖2 平行部分解碼器Figure 2. Paralleled partial decoder
為了進(jìn)一步加強(qiáng)特征表示,本文在平行部分解碼器中加入了通道注意力模塊,如圖2所示。高層特征的每一個通道圖都可以被看作是某一個特定類的響應(yīng)[18],因此通過采用通道注意力模塊來顯式地建模通道之間的相互依賴關(guān)系,從而提升特定語義的特征表示能力,具體的通道注意力模塊細(xì)節(jié)如圖3所示。
圖3 通道注意力模塊Figure 3. Channel attention module
在臨床實踐中,臨床醫(yī)生通常將分割分成兩步,首先粗略定位感染區(qū)域,然后通過檢查局部組織結(jié)構(gòu)對這些區(qū)域進(jìn)行準(zhǔn)確標(biāo)記。受此過程啟發(fā),本文的網(wǎng)絡(luò)分別使用兩種不同的網(wǎng)絡(luò)組件作為粗略的定位器和精細(xì)的標(biāo)注器。首先,PPD模塊作為粗略定位器生成一個無結(jié)構(gòu)化細(xì)節(jié)的全局映射圖Sg,用以提供肺部感染區(qū)域的粗略定位信息。然后,本文所提出的算法采用了一個漸進(jìn)式框架,用一種擦除的方式來精修具有鑒別性的感染區(qū)域,實現(xiàn)了更為精細(xì)的標(biāo)注[19-20]。參考文獻(xiàn)[6]中的結(jié)構(gòu),網(wǎng)絡(luò)擦除從高層旁側(cè)輸出的預(yù)測感染區(qū)域,依次挖掘補(bǔ)充的區(qū)域和細(xì)節(jié),同時由更深的網(wǎng)絡(luò)層信息上采樣得到當(dāng)前的預(yù)測結(jié)果。通過使用RA中的擦除策略可以最終將粗糙、不準(zhǔn)確的預(yù)測區(qū)域細(xì)化為完整且準(zhǔn)確的預(yù)測圖。
圖4 反轉(zhuǎn)注意力模塊Figure 4. Reverse attention module
通過將高層輸出特征{fi,i=3,4,5}與具有RA權(quán)重Ai的邊緣注意力特征eatt=f2相乘可獲得輸出的RA特征,如圖4所示。與文獻(xiàn)[6]中直接對兩部分特征進(jìn)行拼接操作來強(qiáng)調(diào)邊緣信息不同的是,為了更好地在模塊中強(qiáng)調(diào)邊緣信息的特征,本文采用了注意力門模塊[7]替換拼接操作,更加有效地利用了f2中的邊緣特征。注意力門模塊的具體細(xì)節(jié)如圖5所示。
圖5 注意力門模塊Figure 5. Attention gate module
反轉(zhuǎn)注意力模塊的具體過程為
Ri=AG(fi⊙Ai,Dow(eatt))
(2)
式中,Dow(?)表示下采樣操作;AG(?)表示注意力門操作,之后接有兩層具有64個濾波器的二維卷積層。
RA權(quán)重Ai被定義為
Ai=ε(⊙(σ(Up(Si+1))))
(3)
式中,Up(?)代表上采樣操作;σ(?)為Sigmoid激活函數(shù);-(?)是從全1矩陣中減去輸入的取反操作;符號ε代表將單通道的特征圖拓展為64通道。
在章節(jié)1.2中,本文將損失函數(shù)edge用于邊緣監(jiān)督。同時,損失函數(shù)seg被定義為加權(quán)IoU損失函數(shù)與加權(quán)二值交叉熵(Binary Cross Entropy,BCE)損失函數(shù)的結(jié)合,即
(4)
式中,λ代表權(quán)值,參照文獻(xiàn)[6]的實驗參數(shù)設(shè)置,在本文實驗中其也設(shè)置為1。最后,對3個側(cè)向輸出(即S3,S4和S5)進(jìn)行深監(jiān)督,每個側(cè)向輸出都被上采樣至與對象級分割真值圖Gs相同的大小。因此,總損失函數(shù)為式(5)。
(5)
由于新冠疫情是新爆發(fā)的疾病,因此具有分割標(biāo)注的二維CT圖像十分有限,并且手動分割肺部感染區(qū)域是一項困難且費(fèi)時的工作。為了解決此問題,本文使用半監(jiān)督學(xué)習(xí)策略來利用大量未標(biāo)記的CT圖像有效地擴(kuò)充訓(xùn)練數(shù)據(jù)。圖6展示了半監(jiān)督學(xué)習(xí)框架的概述,該框架主要基于隨機(jī)抽樣策略,用于逐步擴(kuò)張訓(xùn)練數(shù)據(jù)集的未標(biāo)注數(shù)據(jù)。該框架的訓(xùn)練和選擇策略簡單易行,并且可以提供比其他半監(jiān)督學(xué)習(xí)方法更好的性能,能有效防止網(wǎng)絡(luò)發(fā)生過擬合。
圖6 半監(jiān)督mInf-Net框架圖Figure 6. Overview of the semi-supervised mInf-Net framework
本次實驗使用COVID-19 CT分割數(shù)據(jù)集,這是第一個用于分割任務(wù)且公開的COVID-19數(shù)據(jù)集。該數(shù)據(jù)集包括由意大利醫(yī)學(xué)和介入放射學(xué)會收集的來自40名不同COVID-19患者的100張軸向二維CT圖像組成。使用前將數(shù)據(jù)集中的每張圖像的尺寸都統(tǒng)一調(diào)整為352×352。由于數(shù)據(jù)集較小,實驗使用多尺度訓(xùn)練策略來訓(xùn)練網(wǎng)絡(luò),并使用不同的縮放比例{0.75,1,1.25}對訓(xùn)練圖像進(jìn)行重新采樣。然后,使用重新采樣的圖像對本文提出的網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而提高模型的泛化能力。
本實驗基于NVIDIA Tesla K40c GPU,網(wǎng)絡(luò)使用Pytorch框架進(jìn)行搭建,并利用Python進(jìn)行編程。本文使用Adam優(yōu)化器進(jìn)行訓(xùn)練,并將學(xué)習(xí)率設(shè)置為1×10-4,批尺寸為16,執(zhí)行100次迭代。
本文主要采用以下3個被廣泛使用的評價指標(biāo):Dice相似系數(shù)、靈敏度以及特異率。此外,還從目標(biāo)檢測領(lǐng)域引入了3個黃金指標(biāo):結(jié)構(gòu)度量[21]、增強(qiáng)對齊度量[22]以及平均絕對誤差。本文選擇具有Sigmoid函數(shù)的S3作為最終預(yù)測Sp,因此度量最終預(yù)測圖與對象級分割真值G之間的相似與不相似性可被表述為:
(1)結(jié)構(gòu)指標(biāo)Sα。該指標(biāo)用于度量預(yù)測圖與真值圖之間的結(jié)構(gòu)相似度,其與人類視覺系統(tǒng)更為接近
Sα=(1-α)×So(Sp,G)+α×Sr(Sp,G)
(6)
式中,α用于控制對象級別相似度So和區(qū)域級別相似度Sr之間的平衡。參考文獻(xiàn)[6]中的參數(shù)設(shè)置,本實驗也將α設(shè)置為0.5;
(7)
式中,φ代表增強(qiáng)對齊矩陣;w和h代表真值圖G的寬和高;(x,y)表示圖中每個像素的坐標(biāo)。
(3)平均絕對誤差(Mean Absolute Error MAE)。該指標(biāo)度量了Sp和G之間像素級別的誤差,計算式如式(8)所示。
(8)
為了評估本文算法的性能,將其與幾種主流的醫(yī)學(xué)圖像分割方法進(jìn)行比較,結(jié)果如表1所示。通過數(shù)據(jù)分析可知,本文所提出的mInf-Net在COVID-19 CT分割數(shù)據(jù)集上Dice指標(biāo)提高了0.8%,靈敏度提高了4.8%,證明了該算法的有效性。此外,通過將半監(jiān)督學(xué)習(xí)策略引入到本文所提出的算法中,可以進(jìn)一步提高算法的性能。改進(jìn)后算法的Dice指標(biāo)提高了6.1%,靈敏度提高了1.4%,特異率提高了3.1%,在性能表現(xiàn)上優(yōu)于其他算法。
圖7為3張不同CT圖像分割結(jié)果的可視化效果圖。從可視化結(jié)果中也能看出,本文模型可以有效地分割新冠肺炎病灶。
圖7 部分分割結(jié)果可視化Figure 7. Visualization of segmentation results
表1 實驗結(jié)果比較分析
為了驗證本文所加入的通道注意力和注意力門模塊的有效性,進(jìn)行了消融實驗,其結(jié)果如表2所示。將原始的Inf-Net作為Backbone,在加入通道注意力(Channel Attention Module,CAM)模塊后,各算法性能指標(biāo)都有所提升,而加入注意力門模塊(Attention Gates,AG)的算法在性能指標(biāo)上也都有較大幅度提升,證明了本文所提出的改進(jìn)可以有效提升分割效果。然而,當(dāng)兩個模塊組合后,雖然性能指標(biāo)也基本有所提升,但相較于只增加 AG的方法,效果并不十分明顯,甚至在特異率上略低于只增加 AG的方法。這可能是由于通道注意力模塊利用了通道間的相互依賴關(guān)系,降低了算法的特異率,因此在后續(xù)研究中將繼續(xù)針對這個問題進(jìn)行改進(jìn)。
表2 消融實驗結(jié)果
本文在Inf-Net的基礎(chǔ)上,提出了引入注意力機(jī)制模塊的醫(yī)學(xué)圖像分割算法,并將其用于新冠肺炎的圖像分割。該方法引入CAM來提高特征的表達(dá)能力,并同時加入AG來更好地利用低層卷積層所提取到的邊緣信息。此外,本文引入的半監(jiān)督學(xué)習(xí)策略可以有效解決新冠肺炎數(shù)據(jù)集較小的問題,防止網(wǎng)絡(luò)發(fā)生過擬合。在COVID-19 CT分割數(shù)據(jù)集上的實驗結(jié)果表明,本文所提出的方法可有效提升新冠肺炎圖像的分割效果。但本研究方法中也存在一些不足之處,例如算法的特異率略有下降,在后續(xù)工作中也將進(jìn)一步進(jìn)行算法性能的提升。