国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RT-Unet的醫(yī)學(xué)圖像分割算法

2023-03-07 01:25趙佳美吳迪康王志芳
無(wú)線電工程 2023年2期
關(guān)鍵詞:尺度卷積編碼

趙佳美,吳迪康,王志芳

(黑龍江大學(xué) 電子工程學(xué)院,黑龍江 哈爾濱 150080)

0 引言

隨著計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展,深度學(xué)習(xí)在自然語(yǔ)言處理、機(jī)器視覺(jué)任務(wù)和多模態(tài)分析等各個(gè)方面都取得了突破性的進(jìn)展[1-3]。深度學(xué)習(xí)能夠自動(dòng)且準(zhǔn)確地提取特征并具有強(qiáng)大的建模能力,相較于傳統(tǒng)算法在醫(yī)學(xué)圖像分割中得到了更廣泛的應(yīng)用。但由于不同患者間器官的結(jié)構(gòu)、紋理和大小等方面存在差異,醫(yī)學(xué)圖像分割精度高度依賴(lài)于成像設(shè)備與醫(yī)生的專(zhuān)業(yè)知識(shí),快速且準(zhǔn)確地完成分割任務(wù)仍然具有挑戰(zhàn)性[4]。

目前,U-Net[5]是基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割算法的主流方法,由編碼器與解碼器構(gòu)成的U型對(duì)稱(chēng)結(jié)構(gòu),通過(guò)跳過(guò)連接使用簡(jiǎn)單的拼接操作完成多尺度特征的融合,達(dá)到減少空間信息丟失的目的。這種U型結(jié)構(gòu)使得U-Net在各種醫(yī)學(xué)影像處理方面都取得了巨大的成功,許多算法都是在此基礎(chǔ)上進(jìn)行的改進(jìn),諸如U-Net++[6],3D U-Net[7]和Res-UNet[8]等。但是由于卷積運(yùn)算固有的局限性,圖像上的對(duì)角信息很難直接進(jìn)行卷積運(yùn)算,無(wú)法有效地提取全局信息,使U-Net在遠(yuǎn)程關(guān)系建模方面存在一定限制。為了解決這個(gè)問(wèn)題,此前方法大多是引入圖像金字塔[9]、深度卷積層[10]或注意力機(jī)制[11]等,但會(huì)造成算法計(jì)算量的直線上升。

近兩年,許多研究者將自然語(yǔ)言處理領(lǐng)域的Transformer引入到機(jī)器視覺(jué)領(lǐng)域[12]。2020年Dosovitskiy等[13]首次提出基于Transformer的ViT算法完成圖像識(shí)別任務(wù),取得了與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)相當(dāng)?shù)男阅?,但是卻需要較大的數(shù)據(jù)集來(lái)完成模型的訓(xùn)練。隨著研究的深入,CNN與Transformer二者結(jié)合在圖像處理領(lǐng)域上取得了較大的突破。2021年Chen等[14]開(kāi)創(chuàng)性地提出了TransUNet,利用CNN提取細(xì)節(jié)信息,將其送入到Transformer中提取全局信息,通過(guò)跳過(guò)連接融合不同分辨率的多尺度特征。該算法在腹部多器官分割、心臟分割數(shù)據(jù)集中取得了優(yōu)異的成績(jī),充分證明了CNN與Transformer組合的有效性,但卻忽略了跨尺度特征之間的依賴(lài)性。2021年Cao等[15]提出了基于Transformer的Swin-Unet算法應(yīng)用于醫(yī)學(xué)圖像分割任務(wù),極大地減少了算法的計(jì)算量并取得了較高的分割準(zhǔn)確率。但Swin-Unet在訓(xùn)練過(guò)程中只能學(xué)習(xí)單尺度的上下文特征,缺乏處理局部信息與多尺度信息的內(nèi)在歸納偏置[16]。針對(duì)上述問(wèn)題,本文在Swin-Unet的基礎(chǔ)上提出了RT-Unet算法,可以充分地學(xué)習(xí)多尺度特征信息,提高算法的訓(xùn)練精度與分割準(zhǔn)確率。

1 研究方法

1.1 整體結(jié)構(gòu)

RT-Unet是一種由編碼器、解碼器和跳過(guò)連接組成的U型對(duì)稱(chēng)拓?fù)浣Y(jié)構(gòu),在殘差連接的過(guò)程中加入局部歸納偏置模塊構(gòu)建RESwin Transformer模塊,協(xié)助完成特征信息的學(xué)習(xí),通過(guò)疊加聚合不同感受野的卷積層來(lái)提取各個(gè)層間或?qū)觾?nèi)的多尺度特征。然后,在位置嵌入與編碼模塊使用4層連續(xù)卷積層,并選擇GELU作為激活函數(shù)。RT-Unet不但可以有效地學(xué)習(xí)局部與遠(yuǎn)程信息,而且可以獲得更豐富的多尺度特征,增強(qiáng)網(wǎng)絡(luò)的泛化能力,RT-Unet的總體結(jié)構(gòu)如圖1所示。

圖1 RT-Unet的結(jié)構(gòu)Fig.1 Structure of RT-Unet

首先,編碼部分將醫(yī)學(xué)影像數(shù)據(jù)輸入圖像分塊處理層(Patch Partition)中,將其切分成大小相等的非重疊圖像塊,并對(duì)圖像塊進(jìn)行位置嵌入與編碼(Linear Embedding),完成轉(zhuǎn)換特征維度等操作;然后,將轉(zhuǎn)換后的圖像塊輸入RESwin Transformer模塊進(jìn)行特征學(xué)習(xí),通過(guò)圖像塊合并層(Patch Merging)實(shí)現(xiàn)下采樣功能。與之對(duì)稱(chēng)的解碼部分,采用圖像塊擴(kuò)展層(Patch Expanding)完成上采樣操作,逐步恢復(fù)圖像的大小。同時(shí),為了減少空間信息的丟失,編-解碼部分利用跳過(guò)連接完成多尺度上下文的特征融合;最后,將得到的特征信息應(yīng)用線性投影層完成最終的分割預(yù)測(cè)。

1.2 RESwin Transformer 模塊

圖2 RESwin Transformer模塊的結(jié)構(gòu)Fig.2 Structure of RESwin Transformer block

RESwin Transformer模塊加入LIB模塊后,一方面可以在尺度不變的情況下,通過(guò)疊加聚合具有不同感受野的卷積層獲取豐富的多尺度上下文特征。另一方面,RESwin Transformer模塊自身的注意力機(jī)制在遠(yuǎn)程關(guān)系建模上具有一定優(yōu)勢(shì),又通過(guò)模塊中的卷積計(jì)算相鄰像素的相關(guān)性獲得邊緣與角落的局部細(xì)節(jié)信息。因此,RESwin Transformer模塊可以更有效地建模局部和遠(yuǎn)程依賴(lài)關(guān)系,較好地提升網(wǎng)絡(luò)的魯棒性與分割準(zhǔn)確率。RESwin Transformer模塊的計(jì)算過(guò)程總結(jié)如下:

(1)

(2)

(3)

(4)

LIB模塊嵌入到RESwin Transformer模塊的殘差連接過(guò)程中,具體結(jié)構(gòu)如圖3所示。首先,Seq2Img層完成簡(jiǎn)單的重塑作用,將輸入的一維序列轉(zhuǎn)換為二維特征圖像塊。然后,依次將圖像塊輸入感受野為1×1,3×3,1×1組成的3個(gè)卷積層(Conv)中提取局部多尺度特征。隨后,每層再進(jìn)行批量歸一化(BN)和ReLU激活函數(shù)處理。最后,由Img2Seq層將具有多尺度特征的二維圖像塊轉(zhuǎn)換回一維序列并入到MLP中,協(xié)助RESwin Transformer模塊學(xué)習(xí)局部特征與遠(yuǎn)程依賴(lài)關(guān)系。

圖3 LIB模塊的結(jié)構(gòu)Fig.3 Structure of the LIB block

1.3 位置嵌入與編碼模塊

位置嵌入與編碼模塊的主要作用是將圖片轉(zhuǎn)換為RESwin Transformer模塊可以處理的一維序列,并對(duì)序列進(jìn)行相對(duì)位置編碼。與自然語(yǔ)言處理領(lǐng)域中的詞匯不同,圖像與圖像之間是沒(méi)有位置順序的。因此,RT-Unet首先將一張醫(yī)學(xué)影像劃分為若干個(gè)不重疊的圖像塊,每個(gè)圖像塊充當(dāng)一個(gè)詞匯。然后,通過(guò)位置嵌入與編碼模塊將得到的圖像塊展平,再利用線性映射將二維圖像轉(zhuǎn)換為一維向量并對(duì)其逐一進(jìn)行編碼,使圖像塊可以嵌入位置信息。

位置嵌入與編碼模塊由4個(gè)連續(xù)的卷積層完成像素級(jí)空間信息的編碼,每個(gè)卷積層后跟隨一個(gè)GELU激活函數(shù)和歸一化層,結(jié)構(gòu)如圖4所示。

圖4 位置嵌入與編碼模塊的結(jié)構(gòu)Fig.4 Structure of position embedding and encoding block

激活函數(shù)對(duì)網(wǎng)絡(luò)上一層輸出的神經(jīng)元進(jìn)行處理,將結(jié)果傳遞到下一神經(jīng)元中,給神經(jīng)元引入非線性因素,使網(wǎng)絡(luò)可以應(yīng)用到眾多的非線性模型中。激活函數(shù)ReLU輸入值為正時(shí),網(wǎng)絡(luò)可以正常收斂;但為負(fù)時(shí),ReLU的輸出值將始終為0,導(dǎo)致網(wǎng)絡(luò)參數(shù)的更新出現(xiàn)停滯,進(jìn)而出現(xiàn)梯度消失問(wèn)題。而GELU激活函數(shù)在ReLU的基礎(chǔ)上加入統(tǒng)計(jì)特性完成對(duì)輸入神經(jīng)元的概率描述。它是一種符合預(yù)期的隨機(jī)正則變換方式,能夠有效地避免梯度消失問(wèn)題,增加算法的非線性。GELU激活函數(shù)的實(shí)驗(yàn)效果要優(yōu)于ReLU,尤其是在Transformer模型中表現(xiàn)最好[17]。本文采用GELU激活函數(shù),計(jì)算公式如下:

GELU(x)=xP(X≤x)=xφ(x),

(5)

式中,φ(x)為正態(tài)分布的概率函數(shù),當(dāng)為標(biāo)準(zhǔn)正態(tài)分布時(shí):

(6)

2 實(shí)驗(yàn)結(jié)果分析

2.1 評(píng)價(jià)指標(biāo)與Synapse數(shù)據(jù)集

本文采用2個(gè)評(píng)價(jià)指標(biāo):平均Dice系數(shù)(DSC)和Hausdorff距離(HD)[18]。二者都是描述2個(gè)樣本集合間的相似性度量,但DSC更加側(cè)重于內(nèi)部填充部分的分割準(zhǔn)確性,而HD則對(duì)分割的邊界更為敏感。它們的定義如下:

(7)

HD(A,B)=max(h(A,B),h(B,A)),

(8)

(9)

(10)

式中,A代表醫(yī)學(xué)影像的標(biāo)簽圖;B代表算法分割的預(yù)測(cè)圖。式(10)為雙向HD,式(11)和式(12)分別為從A到B和從B到A的單向HD。

本文在Synapse腹部多器官分割數(shù)據(jù)集上驗(yàn)證RT-Unet的分割效果。Synapse數(shù)據(jù)集共包含30張腹部掃描CT,每張CT里含有8個(gè)器官:主動(dòng)脈、膽囊、脾臟、左腎、右腎、肝臟、胰腺和胃。為了避免由于數(shù)據(jù)集較小而導(dǎo)致過(guò)擬合現(xiàn)象的發(fā)生,將3D醫(yī)學(xué)影像轉(zhuǎn)換成大小為224 pixel×224 pixel的2D切片,共獲得3 779張2D切片,其中2 212張用于算法的訓(xùn)練,剩余的完成算法的測(cè)試。

2.2 實(shí)驗(yàn)結(jié)果分析

RT-Unet在Python3.6,Pytorch1.5.0和NVIDIA 2080Ti GPU的基礎(chǔ)上完成。損失函數(shù)為交叉熵?fù)p失函數(shù),優(yōu)化器選擇隨機(jī)梯度下降(SGD)。在相同的實(shí)驗(yàn)條件下,將RT-Unet在Synapse數(shù)據(jù)集上分割8個(gè)腹部器官得到的DSC,HD參數(shù)與經(jīng)典的分割網(wǎng)絡(luò)ViT,V-Net,U-Net,Swin-Unet,TU-Net進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同方法在Synapse數(shù)據(jù)集上的分割結(jié)果Tab.1 Segmentation results of different algorithms on Synapse dataset

由表1可以看出,與基礎(chǔ)的ViT,V-Net相比,RT-Unet的DSC與HD參數(shù)都得到了較大的提升,證明CNN與Transformer組合的有效性。其次,與經(jīng)典的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)U-Net相比,RT-Unet 的DSC,HD參數(shù)分別提升了2.23%與16.27 mm,說(shuō)明RT-Unet對(duì)于較小器官與分割邊界更為敏感。由于實(shí)驗(yàn)設(shè)備與參數(shù)設(shè)定等諸多因素,Swin-Unet與TU-Net的DSC,HD參數(shù)分別為:77.28%,77.95%和26.93,23.43 mm。RT-Unet較二者分別提升了1.8%,1.13%和3.5,1.27 mm,取得了DSC為79.08%,HD為23.43 mm較為準(zhǔn)確的分割結(jié)果,表明RT-Unet同時(shí)注重了局部細(xì)節(jié)信息與遠(yuǎn)程依賴(lài)關(guān)系,又促進(jìn)了多尺度上下文信息的提取,有效地提升了算法的分割精度。

本文主要對(duì)Swin-Unet,TU-Net,RT-Unet算法的分割結(jié)果進(jìn)行可視化對(duì)比分析,結(jié)果如圖5所示。由圖5的第1行可以看出,RT-Unet分割的邊界相較于其他算法更為清晰光滑;從第2行可以看出,Swin-Unet和TU-Net對(duì)于肝臟都存在漏分割的現(xiàn)象,并且TU-Net也并未分割出胰腺,相比之下RT-Unet更加注重細(xì)節(jié)信息的提取,對(duì)器官的分割也更為精準(zhǔn);從第3行可以看出Swin-Unet和TU-Net對(duì)于胃部都出現(xiàn)了過(guò)分割的現(xiàn)象,RT-Unet綜合豐富的多尺度上下文特征,此類(lèi)現(xiàn)象出現(xiàn)的概率較小。

圖5 不同算法的分割結(jié)果Fig.5 Segmentation results of different algorithms

2.3 消融實(shí)驗(yàn)

通過(guò)分別移除算法中的局部歸納偏置模塊或替換為原有的位置嵌入與編碼模塊來(lái)驗(yàn)證它們的有效性,并在Synapse數(shù)據(jù)集上完成了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。從表2可以看出,當(dāng)算法中僅有位置嵌入與編碼模塊作用時(shí),取得了DSC為77.70%的效果,在不影響整個(gè)算法復(fù)雜度的情況下,較小地提升了分割的準(zhǔn)確性。當(dāng)算法中僅有局部歸納偏置模塊作用時(shí),取得了DSC為78.44%,提升了近1.2%,有效地促進(jìn)了不同分辨率信息的融合。由此可證,二者對(duì)于算法性能的提升是不可缺少的,刪除其中任何一個(gè)都可能導(dǎo)致性能的損失。

表2 基于位置嵌入與編碼模塊和LIB模塊的消融實(shí)驗(yàn)Tab.2 Ablation studies on linear embedding block and LIB block

3 結(jié)束語(yǔ)

本文提出了一種基于RESwin Transformer的U型對(duì)稱(chēng)結(jié)構(gòu)算法——RT-Unet。該算法在RESwin Transformer模塊中引入了內(nèi)在的LIB,由具有不同感受野的卷積層獲取豐富的多尺度信息。卷積與Transformer二者組合,既可以關(guān)注局部細(xì)節(jié)信息,又可以有效地建模遠(yuǎn)程依賴(lài)關(guān)系。相較于其他算法,RT-Unet更加注重器官邊界與小器官分割的準(zhǔn)確性,較少會(huì)出現(xiàn)過(guò)分割與欠分割現(xiàn)象。而且,本文在位置嵌入與編碼模塊中,選擇GELU激活函數(shù)增強(qiáng)算法的泛化能力,極大地避免了梯度消失問(wèn)題的出現(xiàn)。在Synapse腹部多器官分割實(shí)驗(yàn)中,RT-Unet取得了DSC為79.08%,HD為23.43 mm的分割結(jié)果,證明了其有效性。

猜你喜歡
尺度卷積編碼
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
《全元詩(shī)》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應(yīng)用
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
Genome and healthcare
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度