康文瀚 范 勇 高 琳 蔣 勇 高毓曼
(1.西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 四川綿陽(yáng) 621010;2.成都信息工程大學(xué)區(qū)塊鏈產(chǎn)業(yè)學(xué)院 成都 610225)
深度學(xué)習(xí)方法在醫(yī)學(xué)領(lǐng)域涉及CT圖像分割、MRI圖像分割、計(jì)算機(jī)輔助診斷等等。完全卷積神經(jīng)網(wǎng)絡(luò)[1]或編碼器-解碼器結(jié)構(gòu)[2]在醫(yī)學(xué)圖像分割領(lǐng)域中較為常見(jiàn)。2015年MICCAI會(huì)議上提出的U-Net[3]分割模型采用對(duì)稱(chēng)路徑融合多層信息獲得多尺度特征。一方面,U-Net網(wǎng)絡(luò)在Encoder階段獲取圖像中的上下文信息,在Decoder階段采用上采樣方法將圖像恢復(fù)到輸入圖像分辨率。另一方面,U-Net網(wǎng)絡(luò)通過(guò)長(zhǎng)連接(Long-concatenate)將圖像的全局信息和局部信息進(jìn)行融合,提高了網(wǎng)絡(luò)對(duì)特征信息的學(xué)習(xí)敏感度。文獻(xiàn)[4]基于U-Net結(jié)構(gòu)提出了以三維數(shù)據(jù)作為輸入進(jìn)行訓(xùn)練的3DU-Net模型,3DU-Net網(wǎng)絡(luò)解決了由于二維切片造成的上下文信息丟失的問(wèn)題。文獻(xiàn)[5]提出U-Net++網(wǎng)絡(luò)模型。U-Net++在Unet基礎(chǔ)上采用密集跳躍連接彌補(bǔ)缺失的語(yǔ)義信息。文獻(xiàn)[6]提出的Res-UNet模型是在U-Net基礎(chǔ)上通過(guò)使用加權(quán)注意力機(jī)制和跳躍連接使模型可以學(xué)到更多的鑒別特征。文獻(xiàn)[7]結(jié)合可變形卷積和U-Net網(wǎng)絡(luò)提出DU-Net網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)大量的上采樣提取上下文信息獲得更高的輸出分辨率。文獻(xiàn)[8]引入密集連接模塊到U-Net結(jié)構(gòu)中,使模型達(dá)到去除偽影的效果。文獻(xiàn)[9]采用兩個(gè)Vnet-S網(wǎng)絡(luò)級(jí)聯(lián)的方式分別對(duì)CT影像進(jìn)行粗分割和細(xì)分割。MultiResUNet[10]利用Multiblock擴(kuò)展U-Net模型,使網(wǎng)絡(luò)能夠從多分辨率進(jìn)行分析訓(xùn)練。文獻(xiàn)[11]利用全尺度跳躍連接代替U-Net模型的長(zhǎng)連接,使得高級(jí)語(yǔ)義信息與低級(jí)語(yǔ)義信息進(jìn)行結(jié)合,獲得更高的分割精度。文獻(xiàn)[12]引入DenseNet模塊應(yīng)用于卷積層中,用于提升對(duì)小區(qū)域中特征提取能力和避免梯度消失問(wèn)題。文獻(xiàn)[13]提出的CRF 3DU-Net網(wǎng)絡(luò)分別利用3DU-Net和全連接條件隨機(jī)場(chǎng)對(duì)圖像進(jìn)行粗分割和細(xì)分割,可以使網(wǎng)絡(luò)提高像素間的關(guān)聯(lián)性。文獻(xiàn)[14]將最優(yōu)密集預(yù)測(cè)單元引入Deeplabv3+ 網(wǎng)絡(luò)中減少分割過(guò)程中出現(xiàn)的不完全分割情況。雖然上述網(wǎng)絡(luò)對(duì)U-Net模型的改進(jìn)在分割中具有積極作用,但都忽略了圖像中遠(yuǎn)距離特征之間的關(guān)聯(lián)關(guān)系。
針對(duì)神經(jīng)網(wǎng)絡(luò)中忽略圖像中遠(yuǎn)距離特征之間的關(guān)聯(lián)關(guān)系造成的過(guò)分割問(wèn)題,本文在編碼器階段與解碼器階段之間采用雙路徑長(zhǎng)連接的方式使模型在每個(gè)特征之間建立關(guān)聯(lián)關(guān)系,豐富圖像的有效特征且有利于解決梯度消失問(wèn)題。雙路徑的長(zhǎng)連接方式分別由建立特征之間關(guān)聯(lián)關(guān)系的注意力路徑和豐富特征的殘差路徑組成,有利于減少醫(yī)學(xué)圖像中器官的過(guò)分割問(wèn)題,獲得更好的分割效果。在卷積層采用改進(jìn)的瓶頸結(jié)構(gòu)替換傳統(tǒng)卷積層,利用上采樣與下采樣后的特征彌補(bǔ)丟失的淺層特征。在MSDSpleen數(shù)據(jù)集[15]上驗(yàn)證了模型的有效性。
本文提出一種基于U型結(jié)構(gòu)的具有雙路徑長(zhǎng)連接方式的醫(yī)學(xué)分割模型AR-UNet(Attention-Residual U Network),模型總體結(jié)構(gòu)如圖1所示。
圖1 AR-UNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram of AR-UNet
圖1中注意力路徑代表雙路徑長(zhǎng)連接方式中的建立特征之間關(guān)聯(lián)關(guān)系的注意力路徑,殘差路徑代表雙路徑長(zhǎng)連接方式中的由N個(gè)殘差塊組成的提取特征的殘差路徑。在Encoder階段和Decoder階段,每一層由改進(jìn)的瓶頸結(jié)構(gòu)組成。Encoder階段與Decoder階段之間通過(guò)雙路徑的方式進(jìn)行長(zhǎng)連接。
AR-UNet與U-Net不同,受文獻(xiàn)[16]影響 AR-UNet在U-Net基礎(chǔ)上利用改進(jìn)的瓶頸結(jié)構(gòu)替換傳統(tǒng)的卷積層,使模型利用上采樣和下采樣后的特征彌補(bǔ)卷積過(guò)程中所造成的淺層特征信息丟失。借鑒文獻(xiàn)[17]在上采樣和下采樣過(guò)程中使用卷積替換池化層有助于增加相鄰特征間的依賴(lài)性。AR-UNet利用雙路徑長(zhǎng)連接的方式替換U-Net中的長(zhǎng)連接方式,可以使模型在每個(gè)特征之間建立關(guān)聯(lián)關(guān)系,同時(shí)提取更豐富的多尺度特征。
采用邊界投影獲取器官邊界的預(yù)處理方式與對(duì)像素的預(yù)處理方式不同。該預(yù)處理方式利用球坐標(biāo)系將前景體素與背景體素之間的連續(xù)坐標(biāo)投影到矩形框,從而獲取用于AR-UNet網(wǎng)絡(luò)模型訓(xùn)練的器官邊界部分。預(yù)處理具體步驟如下:
步驟1:定義一個(gè)帶符號(hào)的矩陣C(x,y,z),C(x,y,z) 包含每個(gè)整數(shù)坐標(biāo)(x,y,z)與邊界β之間帶符號(hào)的歐式距離,用于判斷坐標(biāo)體素與邊界之間的距離偏差。
(1)
其中:V表示真值標(biāo)簽的坐標(biāo)集合;當(dāng)C(x,y,z)為正時(shí),表示坐標(biāo)體素位于邊界內(nèi)部;當(dāng)C(x,y,z)為負(fù)時(shí),表示坐標(biāo)體素位于邊界外部;當(dāng)C(x,y,z)為 0時(shí),表示坐標(biāo)體素位于邊界。
(2)
(3)
近年來(lái)基于編碼器和解碼器的思想廣泛應(yīng)用到深度學(xué)習(xí)。在編碼器階段由于下采樣造成的邊緣信息的丟失,在解碼器階段通過(guò)反卷積所彌補(bǔ)的僅僅是丟失的部分邊緣信息,因此長(zhǎng)連接成為編碼器與解碼器之間彌補(bǔ)信息丟失的重要方式。
在器官圖像分割任務(wù)中,本文在經(jīng)過(guò)彈性邊界投影(Elastic boundary projection ,EBP)[18]預(yù)處理后的邊界圖像中引入由注意力路徑和殘差路徑組成的雙路徑長(zhǎng)連接方式,該方式不僅在圖像中每個(gè)空間位置上的特征之間建立關(guān)聯(lián)關(guān)系,而且豐富了在長(zhǎng)連接過(guò)程中對(duì)不同尺度特征的信息提取。雙路徑長(zhǎng)連接方式如圖2所示。圖2中路徑1為注意力機(jī)制路徑,該路徑使網(wǎng)絡(luò)能夠在不同尺度的特征圖中建立特征之間的關(guān)聯(lián)關(guān)系,這樣可以脫離空間距離的限制,使圖像中相似的特征之間具有長(zhǎng)依賴(lài)關(guān)系,從而通過(guò)聚合每個(gè)空間位置上的特征豐富局部特征的上下文信息,提高局部特征的表達(dá)能力,達(dá)到減少器官過(guò)分割的目的。路徑1將每個(gè)尺度在Encoder階段的輸出特征圖L輸入空間注意力機(jī)制,對(duì)圖像的每個(gè)特征之間建立關(guān)聯(lián)關(guān)系。路徑2為殘差路徑,該路徑對(duì)編碼器階段不同尺度的特征進(jìn)行提取,這樣可以豐富編碼器和解碼器之間的特征信息。路徑2將每個(gè)尺度在Encoder階段的輸出特征圖L輸入由N個(gè)殘差塊組成的殘差路徑,在提取豐富的特征信息的同時(shí)解決梯度消失問(wèn)題。
圖2 雙路徑長(zhǎng)連接結(jié)構(gòu)圖Fig.2 Structure diagram of dual-path long connection
雙路徑長(zhǎng)連接方式過(guò)程可用式(4)描述:
Fo=f1×1(Att(L)+Res(L))
(4)
其中:輸入特征圖為L(zhǎng)∈Rc×w×h;c,w,h分別代表通道數(shù)、寬和高;Att表示注意力路徑;Res表示殘差路徑操作;fN×N表示包括卷積核為N×N的卷積計(jì)算。
注意力路徑Att 操作過(guò)程如下:當(dāng)L輸入注意力路徑時(shí)會(huì)進(jìn)行 4 個(gè)分支操作,其中reshape,transpose分別表示矩陣變維操作和矩陣轉(zhuǎn)置操作。
分支1用于獲取特征圖的空間位置信息。分支1過(guò)程如下:
L1=f1×1(f1×1(L)+f3×3(L))
(5)
(6)
分支2生成由每個(gè)空間位置上的特征與所有空間位置上的特征之間關(guān)聯(lián)起來(lái)的關(guān)系圖S,用于捕獲每個(gè)空間位置上的特征之間的關(guān)聯(lián)關(guān)系。分支2整體過(guò)程如式(7):
(7)
分支3利用關(guān)系圖S與輸入特征圖生成由所有特征相互關(guān)聯(lián)后的特征圖。分支3過(guò)程如下:
L3=f1×1(f1×1(L)+f3×3(L))
(8)
M=reshape(reshape(L3)?reshape(S))
(9)
其中:L3∈Rc×w×h;M∈Rc×w×h。
分支4如式(10)、式(11):
FA=εM+(f1×1(L)+f3×3(L))
(10)
LA=f1×1(FA)+f3×3(FA)
(11)
其中,F(xiàn)A∈Rc×w×h;LA∈Rc×w×h;ε為尺度系數(shù)。ε初始化為0,在網(wǎng)絡(luò)模型中逐漸學(xué)習(xí)尺度系數(shù)ε,通過(guò)所有相互關(guān)聯(lián)的特征與原始特征的加權(quán)和的方法聚集每個(gè)空間位置中的特征,從而豐富局部特征的上下文信息,達(dá)到減少器官過(guò)分割的目的。
殘差路徑Res操作的過(guò)程如下:
resi=f1×1(Fi)+f3×3(Fi)
(12)
Fi=resi-1
(13)
Res(L)=resN
(14)
其中:resi表示第i+1個(gè)殘差塊;Fi表示經(jīng)過(guò)第i個(gè)殘差塊后的特征圖;i表示殘差路徑中存在的殘差塊數(shù)量,i=0,1,2,3,…N。當(dāng)i=0時(shí)表示輸入特征圖L。
本文使用改進(jìn)的瓶頸結(jié)構(gòu)替代傳統(tǒng)的卷積層,能夠利用下采樣與上采樣后的特征彌補(bǔ)卷積過(guò)程中造成的淺層特征丟失。
文獻(xiàn)[19]指出傳統(tǒng)的卷積層和池化層中進(jìn)行特征提取時(shí)普遍存在特征丟失等問(wèn)題,并且隨著網(wǎng)絡(luò)模型逐漸龐大和網(wǎng)絡(luò)層次逐漸加深,梯度消失也隨之出現(xiàn)。為克服上述問(wèn)題,借鑒文獻(xiàn)[16],本文引入改進(jìn)的瓶頸結(jié)構(gòu)替換傳統(tǒng)的卷積層。傳統(tǒng)的殘差結(jié)構(gòu)和本文中所采用的改進(jìn)的瓶頸結(jié)構(gòu)分別如圖3所示。圖中Conv3×3表示卷積核為3×3的卷積操作,BN表示歸一化操作,ELU[20]表示激活函數(shù)。改進(jìn)的瓶頸結(jié)構(gòu)利用特征融合彌補(bǔ)了卷積操作中造成的淺層特征丟失的問(wèn)題。改進(jìn)的瓶頸結(jié)構(gòu)具體步驟如下:
圖3 傳統(tǒng)的殘差結(jié)構(gòu)與改進(jìn)的瓶頸結(jié)構(gòu)示意圖Fig.3 Schematic diagrams of traditional residual structure and improved bottleneck structure
步驟1:對(duì)于輸入改進(jìn)的瓶頸結(jié)構(gòu)的特征圖Fin,經(jīng)過(guò)一次ConvBlock1操作產(chǎn)生的特征圖F1與下一次ConvBlock2操作產(chǎn)生的特征圖F2進(jìn)行融合,獲得新的特征圖F12。對(duì)特征圖F1中的特征充分利用,彌補(bǔ)了在ConvBlock2操作中造成的特征丟失。
步驟2:F12經(jīng)過(guò)ConvBlock3操作后產(chǎn)生特征圖F3。
步驟3:與輸入改進(jìn)的瓶頸結(jié)構(gòu)的特征圖Fin再次進(jìn)行特征融合獲得單個(gè)尺度的輸出特征圖Fout。對(duì)Fin中的特征充分利用,彌補(bǔ)由于ConvBlock1,ConvBlock2,ConvBlock3操作造成的特征丟失。
使用醫(yī)學(xué)分割中的公共數(shù)據(jù)集用于評(píng)估本文方法的有效性。MSDSpleen數(shù)據(jù)集,數(shù)據(jù)來(lái)自Memorial Sloan Kettering Cancer Center的捐贈(zèng)者。MSDSpleen數(shù)據(jù)集中包括41張高分辨率CT圖像,從中隨機(jī)選擇21張作為訓(xùn)練集,20張作為驗(yàn)證集和測(cè)試集,其中圖像的寬和高都為512像素,沿著軸向的長(zhǎng)度范圍在31像素到168像素之間。
實(shí)驗(yàn)的PC環(huán)境為Ubuntu 20.04.2系統(tǒng),Intel(R) Xeon(R) CPU,GPU為NVIDIA GeForce 1080Ti,12 GB內(nèi)存。在Pytorch深度學(xué)習(xí)框架中進(jìn)行訓(xùn)練與測(cè)試。
在實(shí)驗(yàn)過(guò)程中首先使用彈性邊界投影(Elastic boundary projection,EBP)[18]預(yù)處理方式將高分辨率的CT圖像處理為尺寸為120×120像素的2D圖像。其次將預(yù)處理后的2D圖像輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到模型的最優(yōu)參數(shù)。最后將測(cè)試集中的圖像輸入具有最優(yōu)參數(shù)的模型中得到分割結(jié)果的CT圖像。訓(xùn)練過(guò)程中采用小批量樣本的方式訓(xùn)練模型,小批量樣本大小設(shè)置為16個(gè),損失函數(shù)采用MSEloss,采用初始學(xué)習(xí)率為0.001和權(quán)重衰減系數(shù)為0.000 1的Adam優(yōu)化器,并且每經(jīng)過(guò)1個(gè)epoch學(xué)習(xí)率變?yōu)樵瓉?lái)的1/2,雙路徑長(zhǎng)連接方式中選用殘差塊數(shù)量N=3。
本文實(shí)驗(yàn)以DSC度量(Dice similarity coefficient)、Jaccard相似系數(shù)(Jaccard similarity coefficient)、精確率(Precision)、過(guò)分割率(FPR ,F(xiàn)alse positive rate)為評(píng)價(jià)指標(biāo)。
(15)
(16)
(17)
(18)
其中:TP表示真陽(yáng)性;FP表示假陽(yáng)性;TN表示真陰性;FN表示假陰性。DSC度量的取值范圍[0,1],DSC值越大表示預(yù)測(cè)的分割結(jié)果與真值標(biāo)簽重合區(qū)域占比越大,即預(yù)測(cè)的分割結(jié)果越好。Jaccard相似系數(shù)用于衡量分割預(yù)測(cè)的分割結(jié)果和真值標(biāo)簽之間的相似度,Jaccard值越大表示兩者之間的相似度越高,即預(yù)測(cè)的分割結(jié)果越接近真值標(biāo)簽。精確率表示在預(yù)測(cè)的分割結(jié)果中判斷為陽(yáng)性的樣本中真陽(yáng)性的比例,精確率值越大表示分割結(jié)果越好。過(guò)分割率表示在預(yù)測(cè)的分割結(jié)果中將真值標(biāo)簽以外的部分分割出來(lái)的比率。過(guò)分割率越低表示在分割結(jié)果中出現(xiàn)假陽(yáng)性的占比越小。
為了驗(yàn)證雙路徑長(zhǎng)連接方式和改進(jìn)的瓶頸結(jié)構(gòu)的有效性,本文在MSDSpleen數(shù)據(jù)集上分別做了EBP+殘差路徑(EBP+Res),EBP+注意力路徑(EBP+Att),EBP+雙路徑長(zhǎng)連接(EBP+DoubleCat),EBP+改進(jìn)的瓶頸結(jié)構(gòu)(EBP+Bot)和EBP+雙路徑長(zhǎng)連接+改進(jìn)的瓶頸結(jié)構(gòu)(EBP+DoubleCat+Bot)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示。
表1 模型有效性驗(yàn)證Table 1 Verification of model effetiveness
從表1可知,EBP和EBP+Res,EBP+Att,EBP+DoubleCat相比較,雙路徑長(zhǎng)連接方式能夠有效利用圖像中的特征信息,同時(shí)提取更多有效特征,它通過(guò)注意力路徑使模型建立特征之間的關(guān)聯(lián)關(guān)系,通過(guò)殘差路徑使模型在長(zhǎng)連接中提取豐富的特征信息,從而提升算法精度。EBP和EBP+Bot比較表明,改進(jìn)的瓶頸結(jié)構(gòu)對(duì)算法的提升有促進(jìn)作用,改進(jìn)的瓶頸結(jié)構(gòu)能夠?qū)⑸喜蓸优c下采樣后的特征用于彌補(bǔ)卷積造成的淺層特征信息丟失的問(wèn)題,可以使網(wǎng)絡(luò)模型保留更完整的特征信息。由EBP+DoubleCat和EBP+Bot的評(píng)價(jià)指標(biāo)可知,雙路徑長(zhǎng)連接方式和改進(jìn)的瓶頸結(jié)構(gòu)均能提高分割精度,雙路徑長(zhǎng)連接方式能直接根據(jù)編碼器階段的特征圖學(xué)習(xí)圖像中的重要特征信息從而提升算法效果,而改進(jìn)的瓶頸結(jié)構(gòu)依托彌補(bǔ)丟失的淺層特征信息提升性能。在改進(jìn)的瓶頸結(jié)構(gòu)的基礎(chǔ)上添加雙路徑長(zhǎng)連接方式不僅能豐富特征信息,還能通過(guò)建立每個(gè)特征間的關(guān)聯(lián)關(guān)系充分利用這些特征,提升算法的分割效果。
為驗(yàn)證AR-UNet模型的優(yōu)越性,與5個(gè)算法(U-Net[3],EBP[18],Deeplabv3+[21],CCNet[22],ResUNet[23])進(jìn)行對(duì)比,其中包括了用于分割任務(wù)的先進(jìn)模型。U-Net是醫(yī)學(xué)圖像中用于分割的2D模型,為了有效對(duì)比分割精度,統(tǒng)一采用彈性邊界投影的圖像預(yù)處理應(yīng)用于所有對(duì)比算法中。EBP采用的模型為2D的VNet[24]模型。Deeplabv3+模型是一個(gè)2D模型,它采用金字塔結(jié)構(gòu)和編解碼器結(jié)構(gòu)結(jié)合的方法提高圖像分割精度。CCNet利用十字交叉注意力模塊捕獲每個(gè)像素間的長(zhǎng)依賴(lài)關(guān)系獲得更多的有用上下文信息。ResUNet將殘差結(jié)構(gòu)與U-Net結(jié)構(gòu)相結(jié)合提高醫(yī)學(xué)圖像分割領(lǐng)域中的精度。本文算法及其他5個(gè)算法在MSDSpleen數(shù)據(jù)集上的DSC度量、Jaccard相似系數(shù)、精確率、過(guò)分割率如表2所示。
從表2可知,本文算法在DSC度量、Jaccard相似系數(shù)、精確率、過(guò)分割率上均比其他算法表現(xiàn)優(yōu)異。在MSDSpleen數(shù)據(jù)集上DSC度量達(dá)到了93.60%,超越了其他5種算法。圖4展示了所有模型在MSDSpleen數(shù)據(jù)集上定性結(jié)果比較。從定性和定量比較的結(jié)果可以看出,雙路徑長(zhǎng)連接方式與改進(jìn)的瓶頸結(jié)構(gòu)能夠明顯提升分割效果,有雙路徑長(zhǎng)連接方式的網(wǎng)絡(luò)能夠使圖像中相似的特征之間建立長(zhǎng)依賴(lài)關(guān)系并提取更多特征,所以器官圖像更容易被分割。此外,改進(jìn)的瓶頸結(jié)構(gòu)可彌補(bǔ)卷積過(guò)程中造成的部分信息丟失,能夠減小特征信息丟失帶來(lái)的圖像分割不佳的影響。
表2 不同算法在MSDSpleen數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different algorithms on MSDSpleen dataset
圖4 模型定性結(jié)果比較Fig.4 Comparison of qualitative results of models
本文提出了一個(gè)提取豐富的特征信息并將圖像中的特征信息相互關(guān)聯(lián)的用于CT圖像器官分割的模型AR-UNet。AR-UNet網(wǎng)絡(luò)中采用了雙路徑長(zhǎng)連接方式,它們代替編碼器和解碼器之間的長(zhǎng)連接方式使模型在每個(gè)特征之間建立關(guān)聯(lián)關(guān)系進(jìn)而增加相似的特征之間的長(zhǎng)依賴(lài)關(guān)系,同時(shí)提取豐富的有效信息。該網(wǎng)絡(luò)通過(guò)使用改進(jìn)的瓶頸結(jié)構(gòu)替換傳統(tǒng)的卷積層彌補(bǔ)丟失的淺層特征。實(shí)驗(yàn)結(jié)果表明,在醫(yī)學(xué)圖像分割的公共數(shù)據(jù)集MSDSpleen中,AR-UNet能夠有效提高器官圖像分割的精度,同時(shí)也說(shuō)明,醫(yī)學(xué)圖像分割中不僅相鄰的特征信息之間可以提供有效的上下文信息,遠(yuǎn)距離的相似特征之間也會(huì)提供有效信息。