倪波,柯亨進(jìn),劉志遠(yuǎn)
(湖北理工學(xué)院 計算機(jī)學(xué)院 &黃石市類腦計算與神經(jīng)科學(xué)重點實驗室,黃石 435003)
腦卒中(俗稱腦中風(fēng))作為一種常見心腦血管疾病,致殘率和死亡率高,預(yù)后癥狀包括意識喪失或言語模糊肢體功能障礙及喪失等[1].腦卒中術(shù)前診斷及其術(shù)后評價主要依靠臨床醫(yī)生對患者腦部T1-Weighted MRI 掃描數(shù)據(jù)上的病灶位置、面積大小進(jìn)行準(zhǔn)確的定義.但患者發(fā)病程度不同,病灶區(qū)域在影像中呈現(xiàn)出的位置、大小也不一樣等(如圖1所示),導(dǎo)致許多分割方法對腦卒中病灶的分割效果還無法應(yīng)用于臨床實踐.到目前為止,這項工作主要還是依靠有經(jīng)驗的臨床醫(yī)生在患者腦部T1-Weighted MRI掃描數(shù)據(jù)的每一幀數(shù)據(jù)上手動定義病灶區(qū)域輪廓,該方式即耗時也可能在定義過程中引入主觀誤差.因此,開發(fā)了一種精確的腦卒中MRI的分割方法對于制定腦卒中術(shù)前計劃和術(shù)后康復(fù)方案具有重要臨床價值.
圖1 腦卒中T1-Weighted MRI病灶示例Fig.1 Example of stroke T1-weighted MRI lesion
當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是醫(yī)學(xué)圖像分割領(lǐng)域的主流方法,其中代表性工作有Unet[2],Attention Unet[3],Res-Unet[4],Dense-Unet[5].它們都是一種U形的編碼器-解碼器架構(gòu),其中編碼器通過2D 卷積-池化操作自頂向下提取圖像多尺度的層次化特征,然后使用一種跳躍連接將編碼器提取的各層次特征輸送至解碼器進(jìn)行逐層反卷積操作從而預(yù)測分割結(jié)果.大量實驗證明這類架構(gòu)能夠有效增強(qiáng)圖像在特征提取過程中由于卷積和池化操作所導(dǎo)致的目標(biāo)細(xì)節(jié)的損失問題.文獻(xiàn)[6-9]中運(yùn)用3D 卷積操作對目標(biāo)在CT/MRI 體數(shù)據(jù)中變化信息進(jìn)行建模.此外,一些新的卷積變體,如空洞卷積[10]和變形卷積[11]也相繼被提出用于上獲取目標(biāo)形變的局部特征.這些工作都可看作是提高CNN 獲得更具判別性目標(biāo)特征的一種嘗試,但CNN對目標(biāo)的感受野受限于卷積核大小,卷積核的有限尺度使其在構(gòu)建目標(biāo)與背景的長距離依賴關(guān)系依然具有局限性,而這種目標(biāo)與背景之間的長距離依賴關(guān)系對高級語義理解任務(wù)至關(guān)重要.
Transformer[12]作為一種新型的自注意力機(jī)制被首次提出,該模型在構(gòu)建特征的長距離依賴關(guān)系表現(xiàn)強(qiáng)大能力,并在機(jī)器翻譯領(lǐng)域取得了比傳統(tǒng)CNN模型更好的結(jié)果.此后,大量基于Transformer 的模型被應(yīng)用于計算機(jī)視覺領(lǐng)域[13],例如,目標(biāo)檢測[14],語義分割[15],視頻分析[16]等.Transformer 的優(yōu)勢在于構(gòu)建圖像的全局上下文信息,但Transformer 是在具有固定大小的圖像塊之間進(jìn)行逐像素計算,當(dāng)面對大尺度圖像的密集預(yù)測任務(wù)時整個訓(xùn)練或推理將會帶來較大的計算成本而且具有固定大小的圖像塊對多尺度變化目標(biāo)的上下文關(guān)系建模也會帶來問題.而目標(biāo)的局部信息和全局信息對實現(xiàn)醫(yī)學(xué)圖像精確分割精度具有很重要的意義.如何在全局信息和局部信息之間找到完美的平衡,是提升分割模型性能的重要問題之一.由于大多數(shù)醫(yī)學(xué)圖像數(shù)據(jù)集都很小,使得訓(xùn)練出兼顧兩者的分割模型更具有挑戰(zhàn)性.
當(dāng)前將CNN 和Transformer 相結(jié)合成為一個熱點.例如,MedT[17],Cell-DETR[18],Conformer[19]等.這些模型試圖將基于CNN 的局部特征和基于Transformer的全局特征進(jìn)行融合并用于圖像分割任務(wù).本文針對腦卒中病灶區(qū)域的特點,提出了一個新的結(jié)合Transformer 和CNN 的U 型網(wǎng)絡(luò).如圖2 所示,本網(wǎng)絡(luò)延續(xù)著基于編碼器-解碼器的U 型架構(gòu)風(fēng)格,其中編碼器是基于Swin Transformer和CNN的雙分支網(wǎng)絡(luò),該雙分支網(wǎng)絡(luò)分別提取輸入圖像的全局和局部特征.為了使這兩個分支網(wǎng)絡(luò)增強(qiáng)彼此的特征學(xué)習(xí)能力,每個分支將提取的特征表示輸入另一個分支用于學(xué)習(xí).此外,還設(shè)計了一種融合模塊(Fusion Block)用于對編碼器提取的全局特征和局部特征進(jìn)行融合,以緩解隨著網(wǎng)絡(luò)的加深小目標(biāo)、弱邊緣等特征在層次化特征編碼過程中被弱化的問題.融合后的特征表達(dá)被逐層反饋給一系列上采樣器進(jìn)行逐層解碼,直至輸出分割的預(yù)測結(jié)果.此外為了提高網(wǎng)絡(luò)的收斂速度,我們提出了一個新的損失函數(shù),它結(jié)合了Dice函數(shù)和Focal[20]損失函數(shù)的優(yōu)點.這種新方法比使用傳統(tǒng)的Dice 函數(shù)收斂得更快,并表現(xiàn)出更平滑的收斂曲線.總的來說,本文的主要工作可總結(jié)如下:
圖2 本文網(wǎng)絡(luò)的架構(gòu)示意圖Fig.2 Diagram of the proposed network
(1)提出了一種新型的結(jié)合全局特征和局部特征的U 型分割網(wǎng)絡(luò).該網(wǎng)絡(luò)編碼器是一個包含Swin Transformer 和一個CNN 的雙分支網(wǎng)路.該雙分支網(wǎng)絡(luò)相互學(xué)習(xí)對方風(fēng)格的特征表達(dá),從而提取目標(biāo)更具判別性特征信息.
(2)為了緩解特征提取過程中小目標(biāo)以及弱邊緣特征被弱化的現(xiàn)象,設(shè)計了一種融合模塊對在編碼器的每個階段將局部特征與全局特征進(jìn)行融合,然后將融合后的特征表達(dá)轉(zhuǎn)發(fā)到一個級聯(lián)的上采樣器用于增強(qiáng)對病灶區(qū)域的預(yù)測能力.
(3)本文方法與相關(guān)醫(yī)學(xué)圖像分割方法在開源腦卒中數(shù)據(jù)集(ATLAS)[21]上開展了實驗對比.結(jié)果顯示,本文方法不僅在測試集上提供了最優(yōu)的分割效果,而且針對小目標(biāo)分割上也能夠最大程度保留病灶區(qū)域的形狀和邊緣形象.
自Unet[2]在分割領(lǐng)域取得成功以來,大量基于U型架構(gòu)的模型被學(xué)者所提出,例如,Attention Unet[3],Res-Unet[4],Dense-Unet[5],X-net[8].這些方法主要是在網(wǎng)絡(luò)中嵌入殘差連接和密度連接使其網(wǎng)絡(luò)在特征提取階段能夠更加關(guān)注待分割的目標(biāo)以及在訓(xùn)練階段緩解梯度消失的問題.Unet++[22]和Unet3++[23]則分別是在Res-Unet[4]和Dense-Unet[5]的基礎(chǔ)上對跳躍連接的方式進(jìn)行了優(yōu)化從而緩解模型過擬合現(xiàn)象.文獻(xiàn)[24]提出了一種卷積核注意力機(jī)制的模型用于提取多尺度特征的提取和通道融合,從而提高分割精度.文獻(xiàn)[6,25-26]將3D 卷積操作應(yīng)用于CT/MRI 體數(shù)據(jù)使得在獲取二維目標(biāo)特征的同時,也能夠提取目標(biāo)在三維空間中的變化信息,但3D卷積操作也會帶來計算復(fù)雜性和過多的參數(shù)的問題,從而影響模型的訓(xùn)練和推理效率.Double-Unet[9]則是采取了2D卷積和3D卷積相結(jié)合的方式試圖在獲取更多目標(biāo)特征和降低計算效率上尋求一種高效的平衡.總的來說,基于U 形架構(gòu)的CNN 在醫(yī)學(xué)圖像上任然顯示出一定發(fā)展?jié)摿?
Transformer[12]作為一種新的自注意力模型,首次被提出并應(yīng)用于機(jī)器翻譯領(lǐng)域.ViT[27]是首個利用Transformer 應(yīng)用于圖像分類任務(wù)的工作,并且在多個數(shù)據(jù)集上的表現(xiàn)都不輸最先進(jìn)CNN 模型.隨后,ROBIN 等[28]提出了Segmenter 模型,該模型是一種只使用Transformer 的語義分割方法.如ViT[27]一樣,Segmenter 將圖像被編碼為一系列小的圖像塊.Trans Unet[29]將Transformer 作為與Unet 模型的編碼器提取具有具有上下文關(guān)系的特征圖,然后借助解碼器對編碼器輸出特征進(jìn)行上采樣并與高分辨率的CNN 特征組合實現(xiàn)對分割目標(biāo)的預(yù)測.實驗證明以Transformer 模型在構(gòu)建目標(biāo)的全局特征方面能夠提供比CNN 更好性能,但Transformer 的全局自注意力是基于逐像素計算,當(dāng)面對高分辨率圖像的語義分割任務(wù)時就會帶來較高的計算代價.Swin Transformer[30]在此基礎(chǔ)上的改進(jìn)主要是將固定大小的圖像塊劃分為幾個同樣大小的區(qū)域,然后只針對該區(qū)域的圖像塊實施自注意力機(jī)制,然后運(yùn)用一種滑動窗口(Shift-Windows)的方式將自注意力計算限制在不重疊的局部窗口,同時還通過不同窗口的連接來獲取圖像的多層次特征表達(dá).該方法在多個數(shù)據(jù)集上的實驗證明表明,Swin Transformer 在構(gòu)建多尺度的圖像特征的同時也具有良好的計算效率,可以作為多類型視覺任務(wù)的骨干網(wǎng)絡(luò).隨后,Swin-Unet[30]將Swin Transformer 引入U 型架構(gòu)用于醫(yī)學(xué)圖像分割.
近來,將CNN和Transformer相結(jié)合成為醫(yī)學(xué)圖像分割領(lǐng)域的一個熱點.例如,MedT[17]在Transformer[12]的基礎(chǔ)上提出了一種軸向門控注意力模型,從而促使Transformer 能夠在小數(shù)據(jù)集上獲得更好的性能.Cell-DETR[18]則是在CNN 骨干模型上增加自注意力從而實現(xiàn)對細(xì)胞的實例分割.Conformer[19]中,學(xué)者構(gòu)建了一個由CNN 和Transformer 組成的雙分支網(wǎng)絡(luò),并提出了一種特征耦合單元用于融合基于CNN的局部特征和基于Transformer 的全局特征.還有一些基于Transformer[32-33]模型被提出用于腹腔器官的分割這些模型進(jìn)一步顯示了基于Transformer 自注意力在構(gòu)建長距離依賴關(guān)系方面的能力,但也由于自注意力需要圖像塊中每個像素進(jìn)行計算,從而導(dǎo)致計算量大的問題依然存在.
從圖2 可看出,本網(wǎng)絡(luò)與傳統(tǒng)U-net架構(gòu)不同的是編碼器是一個雙分支網(wǎng)絡(luò),其中一個分支是基于Swin Transformer 網(wǎng)絡(luò),另一個則是基于CNN 的網(wǎng)絡(luò).這兩個分支網(wǎng)絡(luò)分別負(fù)責(zé)提取輸入圖像的層次化全局特征和局部特征.與文獻(xiàn)[30]類似,本文的Swin Transformer 分支網(wǎng)絡(luò)也包含四個處理單元,每個單元都包含基于Swin Transformer 的自注意力模塊(STrans Block)負(fù)責(zé)對輸入數(shù)據(jù)實施基于Shift Window 的自制力機(jī)制(細(xì)節(jié)見第2.2 節(jié)).對于第1個處理單元,輸入圖像X ∈RH×W×3首先會被“Patch&Linear Embedding”層劃分為一系列不重疊的圖像塊Patch={xi∈RP2·C,i=1,…,N},每個xi的分辨率是P×P,其像素值就是該圖像塊的特征.隨后被轉(zhuǎn)換到適合STrans Block 的輸入維度C.STrans Block負(fù)責(zé)對這些計算Patch 之間的全局特征.為了構(gòu)建與CNN 分支網(wǎng)絡(luò)相匹配的層次化特征,后面處理單元中的圖像塊合并層(Patch Merging Layer)以2×2間隔對STrans Block 輸出的特征圖進(jìn)行采樣,輸出維度被設(shè)置為2C.因此當(dāng)輸入圖像通過第1、2、3、4個處理單元時,特征圖的輸出分辨率分別為
CNN 分支網(wǎng)絡(luò)由一系列的卷積模塊(Conv Block)組成,負(fù)責(zé)提取輸入圖像的層次化局部特征.該分支網(wǎng)絡(luò)中的每個Conv Block 都采用了特征金字塔結(jié)構(gòu),特征圖的分辨率隨著CNN 網(wǎng)絡(luò)深度的增加而降低,而通道數(shù)則增加.每個Conv Block 由兩個BN-ReLu-Conv 層組成(Kernel Size=3,Stride=1,Padding=1).在每個BN-ReLu-Conv 層之后,實施了一個Dropout 為0.3 的操作,以克服潛在的過擬合問題.需要說明的是,CNN 分支網(wǎng)絡(luò)的第一個單元有兩個Conv Block 主要是為了使該分支在該單元輸出的特征大小與Swin Transformer 分支中第一個單元輸出的特征圖的大小相匹配.
隨編碼器加深,Swin Transformer 分支網(wǎng)絡(luò)中合并層以及CNN 分支網(wǎng)絡(luò)中的池化操作會使得圖像中的小目標(biāo)和模糊邊緣特征會逐漸被弱化的現(xiàn)象,本文設(shè)計了一種融合模塊(Fusion Block)對每個處理單元輸出的局部特征和全局特征進(jìn)行融合,并將融合后的特征圖輸送由一組級聯(lián)的升采樣器(Upsampler)組成的解碼器,用于逐級恢復(fù)來自不同融合模塊的特征圖.如圖3(c)所示,每個解碼器塊由多個上采樣層組成,對來自Fusion Block的特征表示進(jìn)行解碼,以輸出最終的分割掩碼.具體來說,底部Upsampler 負(fù)責(zé)接收由編碼器的第4 個Fusion Block 獲得的融合特征圖,它首先對特征圖進(jìn)行2×2的雙線性上采樣,使輸入特征圖的維度加倍.至于其余的解碼器區(qū)塊,我們首先將前一個上采樣區(qū)塊的特征圖與相應(yīng)的合并區(qū)塊的輸出連接起來.然后,對合并后的特征圖進(jìn)行同樣的操作,如上采樣、卷積和批量歸一化與ReLU激活.
圖3 部分模塊的詳細(xì)情況Fig.3 Details of some modules in the proposed network.
圖3(a)顯示了STrans Block 的結(jié)構(gòu),每個模塊由一個基于窗口多頭注意力模塊(Window Multi-Head Self Attention,W_MHSA),一個基于移位窗口的多頭自我注意模塊(Shift Window Multi-Head Self Attention,SW_MHSA)、一個具有GELU 非線性的2層多層感知機(jī)(Multi-Layer Perception,MLP)和2 個Layer Norm Layer 組成.W_MHSA 和SW_MHSA 中的Shift Windows機(jī)制主要是為了對不同位置的圖像塊之間實施自注意力機(jī)制,從而構(gòu)建圖像塊之間的多尺度自注意力特征.圖4 說明了W_MHSA 和SW_MHSA 的工作機(jī)制,其中W_MHSA 表示從將STrans Block輸出的第l個特征圖從左上角開始劃分為M×M 個不重疊的窗口區(qū)域(M=2),然后基于多頭自注意力被應(yīng)用在每個窗口區(qū)域.這樣做的好處是自注意力的計算被限制在一個固定的窗口區(qū)域,提高了計算效率.在第l+1 層特征圖中,窗口平移個位置,從而讓不同窗口中的圖像塊相互計算.在STrans Block輸出的第l和l+1層特征圖的輸出可以表示為:
圖4 Swin Transformer中滑動窗口機(jī)制示意圖Fig.4 Illustration of the Shift Window mechanism in Swin Transformer
其中Q,K,V∈RM2×d分別表示Query、Key 和Value三個矩陣,M2和d分別表示圖像塊的數(shù)量以及Query和Key 矩陣的維度.矩陣B中的值來自于偏置矩陣
Fusion Block 主要負(fù)責(zé)對每個處理單元輸出的局部特征圖和全局特征圖進(jìn)行融合,從而彌合兩種風(fēng)格的特征圖之間存在的語義鴻溝.圖3(b)說明了每個Fusion 模塊的結(jié)構(gòu)首先通過一個Concatenation層對兩個風(fēng)格的特征圖進(jìn)行拼接,然后通過兩個連續(xù)的BN-ReLu-Conv(3×3)層將它們?nèi)诤?
常見的語義分割損失函數(shù)是Dice 函數(shù)和二值交叉熵函數(shù)(Binary cross entropy,BCE).但在本文任務(wù)中,對一些小出血點,病灶面積占背景比例較小,會導(dǎo)致傳統(tǒng)損失函數(shù)在訓(xùn)練過程容易陷入局部最優(yōu).為提供更加精確的分割效果,我們結(jié)合Dice函數(shù)和Focal 函數(shù)[22]構(gòu)建了一個新的損失函數(shù)來緩解前景-背景不平衡的問題,并將該損失函數(shù)表述為:
其中g(shù)∈0,1 分別表示圖像中病灶區(qū)域和背景區(qū)域的標(biāo)注,p∈[0,1]則表示分割算法計算的分割區(qū)域像素的概率值,其中“0”表示圖像的背景值,“1”表示病灶區(qū)域的前景值.LFocal和LDice分別表示Focal Loss 函數(shù)和Dice 函數(shù),LFocal是在二值交叉熵?fù)p失函數(shù)的基礎(chǔ)上的改進(jìn),從而讓損失值聚焦在分割區(qū)域,其表達(dá)式為:
其中Nf和Nb分別表示前景和背景的像素數(shù)量,α∈(0,1]和γ∈[0,5]分別是調(diào)節(jié)LFocal權(quán)重的系數(shù).LDice方程表示是:
其中δ∈[0,1]是一個調(diào)節(jié)參數(shù)用于防止被零誤除,并讓負(fù)樣本也有梯度傳播.
選擇一個ATLAS[21]作為驗證本文方法性能的數(shù)據(jù)集.ATLAS[21]是一個有關(guān)腦卒中T1-Weighted MRI 開源數(shù)據(jù)集,包括955 個T1-Weighted MRI 腦部掃描數(shù)據(jù)和對應(yīng)的病灶區(qū)域的Mask圖,每個腦部掃描數(shù)據(jù)大小為233×197×189,其中233×197 是MRI 二維斷層切片的大小,189 是每個腦部掃描的切片數(shù)量,物理像素大小為0.9×0.9×3.0 mm3.ATLAS 被劃分為一個訓(xùn)練集(n=655)和驗證集(n=300).還選擇了準(zhǔn)確率(Precision)、F1 值、召回率(Recall)、交集度(IoU)這四個指標(biāo)對相關(guān)方法的性能進(jìn)行定量評估,等式(9)~等式(12)分別定義了這四個指標(biāo).
其中,TP 表示模型正確預(yù)測像素的數(shù)量,F(xiàn)P 表示該模型將陰性分類為陽性的像素數(shù)量,F(xiàn)N表示被錯誤分類為的正像素模型是負(fù)的像素數(shù)量.
采用Pytorch 實現(xiàn)本文方法,模型的訓(xùn)練和推理均在一張NVIDIA GeForce GTX 2080Ti GPU 上開展,訓(xùn)練Batch 大小為12,優(yōu)化函數(shù)是SGD,優(yōu)化步長設(shè)置為0.9,權(quán)重衰減值lr=1e-4.此外,為提高模型的泛化性,防止模型過擬合,還對數(shù)據(jù)集進(jìn)行了水平翻轉(zhuǎn)、隨機(jī)剪裁、旋轉(zhuǎn)、對比度調(diào)整和添加隨機(jī)噪聲等數(shù)據(jù)增強(qiáng)操作.公式(6)中的參數(shù)α、γ、δ分別設(shè)為1.3、0.42、1.其他比較方法的相關(guān)參數(shù)按照原文模型的最佳性能被設(shè)定.
實驗輸入圖像是MRI 的橫向斷層切片圖像,每個斷層切片圖像的分辨率為224×224×3.在Swin Transformer 分支網(wǎng)絡(luò)中,圖像塊大小被設(shè)置為4 個像素,Window 的大小為6,每次位移量為2.在該分支網(wǎng)絡(luò)中,STrans Block 中的W-MHSA 和SW-MHSA的數(shù)量分別被設(shè)置為4,8,16,32.
在基于CNN 分支網(wǎng)絡(luò)中每個Conv Block 中的卷積核大小統(tǒng)一設(shè)置為3×3,以及每個Conv Block中的卷積核數(shù)量分別設(shè)置為32、64、128、256、512.在每個卷積操作后,一個2×2池化操作也是應(yīng)用于特征映射.在解碼器塊中,上采樣層用于增加分辨率特征映射為2 倍,然后輸出為與前一階段的輸出連接.最后一個輸出通過使用1×1 卷積運(yùn)算計算以及一個sigmoid 激活函數(shù)預(yù)測病灶區(qū)域概率和輸出掩碼圖.
本文選擇了具有幾個代表性分割網(wǎng)絡(luò)(Unet[2],Attention Unet[3],Trans Unet[29],Swin Unet[30],MedSegDiff[34],SegNext[35])與本文模型進(jìn)行比較.前面四種方法都采用了醫(yī)學(xué)圖像分割中常用的Encoder-Decoder 的U 形架構(gòu),其中Unet[2]是采用純卷積方式提取輸入圖像的層次化表征,Attention Unet[5]在卷積操作的基礎(chǔ)上加入了注意力機(jī)制.Trans Unet[29]是在Encoder-Decoder 分割模型基礎(chǔ)上使用Transformer 構(gòu)建輸入圖像的長距離依賴關(guān)系,Swin Unet[30]則是Trans Unet[29]基礎(chǔ)上運(yùn)用Swin Transformer從而讓Transformer中的多頭注意力模塊能適應(yīng)不同尺度的目標(biāo)對象.MedSegDiff[34]是近年來流行的擴(kuò)散概率模型在醫(yī)學(xué)圖像分割領(lǐng)域一次應(yīng)用,該方法將分割目標(biāo)看作是擴(kuò)散概率模型要生成的對象,并在此過程中提出了特征頻率分析器(FF-Parser)消除高頻噪聲對目標(biāo)的影響.這些模型的參數(shù)是按照原始文章進(jìn)行配置.SegNext[35]是在Encoder-Decoder架構(gòu)中,采用了一種大核注意力機(jī)制(Large-Kernel Attention)獲取目標(biāo)的多尺度特征,并結(jié)合多層感知機(jī)(Multiple-Layer Perception Machine)對圖像進(jìn)行語義分割,相較于Transformer 模型有較好的推理效率.
為了驗證不同方法在該數(shù)據(jù)集上的性能,請有經(jīng)驗的放射科醫(yī)生將驗證集按照病灶面積占圖像背景的比值進(jìn)行分級(見表1),表2顯示了不同方法在不同層次驗證集上分割結(jié)果的均值統(tǒng)計結(jié)果.總體上,采用 Encoder-Decoder 架構(gòu)模型比MedSegDiff[34]效果更好,這說明該類架構(gòu)對腦卒中病灶這類具有形狀和尺度多變,前景與背景數(shù)據(jù)不平衡的情況依然具有優(yōu)勢.在Medium 組和Small組,本文方法相較于其他方法在各項指標(biāo)中取得更好的效果.我們還觀察到相較于純卷積模型(Unet[2],Attention Unet[3],SegNext[35]),基于自注意力機(jī)制的模型(Trans Unet[29]、Swin Unet[30])在相關(guān)指標(biāo)值更差.這說明針對該數(shù)據(jù)集,較基于純卷積的分割模型,基于Transformer 的分割模型在構(gòu)建全局特征時更容易將背景信息引入病灶的真實區(qū)域,從而造成Transformer模型容易分割錯誤區(qū)域.
表1 驗證集按照病灶面積占圖像背景的比值分級Tab.1 The number of images at different levels for the four compared methods
表2 不同方法在不同層次驗證集上分割結(jié)果的均值統(tǒng)計結(jié)果Tab.2 Quantitative comparison of the compared methods for the four metrics
圖5 顯示了不同方法的部分分割示例,第1 列是數(shù)據(jù)集中腦部T1-Weighted MRI 掃描數(shù)據(jù)中一份原始斷層切片,第2列是手動標(biāo)注病變區(qū)域的結(jié)果,其余各列則分別顯示了不同方法在相應(yīng)原始切片上的分割結(jié)果,這些分割結(jié)果按照病變區(qū)域的大小降序排列.從圖5 顯示可觀察到前4 行所有方法都能較為正確的預(yù)測到病灶的正確位置.但與其他方法相比,本文方法的分割結(jié)果更接近在病灶邊緣,從前4 行的最后1 列可看出,Swin Unet[30]的分割結(jié)果不夠光滑,不能很好地保持病灶區(qū)域的形狀.此外,當(dāng)病灶區(qū)域面積較小時,本文方法依然能夠預(yù)測病灶區(qū)域,尤其是最后兩行待分割病灶的區(qū)域很小且形狀難以辨認(rèn),這種情況對分割模型甚至人來說是非常困難的.即使如此,本文方法仍然正確地預(yù)測出了病變區(qū)域并較好的保持病灶區(qū)域形狀,這進(jìn)一步證明了本文網(wǎng)絡(luò)分割難樣本的能力.圖6 顯示了在相同處理過程中一些圖像的特征映射CNN分支機(jī)構(gòu)和Swin Transformer 分支機(jī)構(gòu).我們可以看到,基于卷積的局部特征和基于自注意力的全局特征是互補(bǔ)的.
圖5 相關(guān)方法分割示例Fig.5 Segmentation example of the compared methods
圖6 不同方法平均分割時間比較Fig.6 Comparison of average test time of different methods
本文對本模型中的Fusion Block 進(jìn)行了消融實驗,以分析該模塊在本模型中的作用.具體方式是自頂向下逐漸減少Fusion Block 的數(shù)量,將STrans Block 和Conv Block 的輸出特征圖拼接之后直接輸送至不同層次的Upsampler中進(jìn)行解碼.表3顯示的結(jié)果可看出在同一驗證集上,簡化后的模型隨著Fusion Block 數(shù)量的減少,其分割性能也逐漸下降.這表明在解碼階段對來自不同層次的局部特征和全局特征進(jìn)行融合有助于提高解碼器對病變區(qū)域的分割性能.
表3 融合模塊對分割性能的影響Tab.3 Effect of the number of fusion blocks
本模型實驗?zāi)J(rèn)編碼器有4 個處理單元.我們通過增加處理單元的數(shù)量,以驗證網(wǎng)絡(luò)的深度對分割性能的影響.表4 的結(jié)果顯示當(dāng)處理階段的數(shù)量增加時,網(wǎng)絡(luò)的分割指示會更好.但為了平衡模型的性能和訓(xùn)練效率,文中所有的實驗都是采用4 個處理單元來驗證本網(wǎng)絡(luò)的性能.
表4 模型深度對分割性能的影響Tab.4 Effect of the network depth on segmentation performance
圖像塊大小可改變Swin Transformer 分支網(wǎng)絡(luò)的輸入序列的長度.本文圖像塊Patch 的缺省值4×4,本文改變Patch 的大小對Transformer 分支網(wǎng)絡(luò)性能的影響進(jìn)行分析.表5 說明了本網(wǎng)絡(luò)對不同大小的Patch 對最終分割性能的影響.由于圖像塊大小的平方與由輸入序列的長度成正比,我們可觀察到較小的圖像塊會帶來較高的分割性能.可見較長的輸入序列可使Transformer 能夠在每個元素之間構(gòu)建了更復(fù)雜的依賴關(guān)系,但同時也會增加模型訓(xùn)練的難度.
表5 圖像塊與輸入序列的消融實驗Tab.5 Ablation study on the patch size and the sequence length
圖6給出了不同方法在同一測試集中對每張圖像分割的平均時間比較.從該圖可看出,MedSegDiff[34]平均耗時最高,基于純卷積的方法(Unet[4]、Attention Unet[5]、SegNeXt[35])的效率優(yōu)于本文所提方法.表6 顯示了不同方法針對同一訓(xùn)練集訓(xùn)練后的參數(shù)(Params)大小以及浮點運(yùn)算(GFLOPs)的比較.從該表可看出除了SegNeXt[35]和Swin Unet[30],本文所提方法具有相對較少的可訓(xùn)練參數(shù)量和浮點計算量,總體上可以更好地滿足臨床對快速圖像分析的要求.
表6 不同方法的參數(shù)量和浮點運(yùn)算量比較Tab.6 Comparison of Parameters and GFLOPs on the different methods
我們使用本文的Loss函數(shù)(公式(8))分別對模型訓(xùn)練收斂性以及分割性能影響進(jìn)行了分析.圖7(a)顯示了公式(8)作為Loss 函數(shù)在訓(xùn)練初期(約40 個Epoch),Loss 值下降較快,大約經(jīng)過120 個Epoch,Loss 曲線變得較為平緩,模型逐漸收斂.此外,我們還使用F1值來衡量公式(8)與不同Loss函數(shù)對模型性能進(jìn)行分析,從公式(11)可知F1值越大說明模型的穩(wěn)定性和泛化性越好.如圖7(b)所示,隨著Epoch值增加,不同Loss 函數(shù)的F1 值也在上升,但本文的Loss 函數(shù)曲線所對應(yīng)的F1 值始終是超過其他Loss函數(shù),說明本文所使用的Loss 函數(shù)能夠給模型帶來更好的性能穩(wěn)定性.
圖7 Loss函數(shù)對模型性能的影響Fig.7 Impact of Loss function on performance of the proposed network.
為了充分利用全局特征和局部特征的優(yōu)勢,本文提出了一種結(jié)合Swin Transformer和CNN的新型U型分割網(wǎng)絡(luò)用于分割MRI 數(shù)據(jù)上腦卒中病灶區(qū)域.通過大量的實驗結(jié)果與分析,可得出以下結(jié)論:
(1)CNN 在圖像分割領(lǐng)域仍有發(fā)揮其特點,尤其是合適的卷積運(yùn)算在醫(yī)學(xué)圖像中小目標(biāo)的特征提取方面具有優(yōu)勢.Transformer 的優(yōu)點是在特征提取過程中可以在較長的范圍內(nèi)關(guān)注特征之間的關(guān)系,但當(dāng)分割的前景占據(jù)較小的背景區(qū)域時,基于Transformer的自關(guān)注機(jī)制可能會干擾小的分割區(qū)域.
(2)與Transformer 或純粹的基于CNN 的網(wǎng)絡(luò)相比,Swin Transformer 和CNN 的巧妙結(jié)合可以彌補(bǔ)彼此的不足,實現(xiàn)互補(bǔ).特別是,在交叉特征提取階段,局部特征表示和全局特征表示可以得到加強(qiáng).
(3)本網(wǎng)絡(luò)中的Fusion 模塊有助于融合局部特征和全局表征,能夠提高網(wǎng)絡(luò)的分割性能.但使用CNN 和Transformer 的組合會導(dǎo)致網(wǎng)絡(luò)參數(shù)的增加,這可能會限制這種方法在實時任務(wù)中的應(yīng)用.
今后將使用多模態(tài)醫(yī)療數(shù)據(jù)來協(xié)助分割醫(yī)學(xué)圖像中的復(fù)雜目標(biāo)區(qū)域,如病人的電子醫(yī)療記錄,以及融合MRI和PET等.
中南民族大學(xué)學(xué)報(自然科學(xué)版)2023年6期