国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的醫(yī)學圖像分割方法研究進展

2024-01-09 09:01李增輝
電子科技 2024年1期
關鍵詞:殘差卷積醫(yī)學

李增輝,王 偉

(1.上海理工大學 健康科學與工程學院,上海 200093;2.海軍特色醫(yī)學中心,上海 200433)

醫(yī)學圖像分割是根據(jù)醫(yī)學圖像的某種相似特征(例如紋理、形狀、位置或頻譜特征等)將醫(yī)學圖像劃分為若干個互不相交的“連通”區(qū)域的過程。相關特征在同一區(qū)域表現(xiàn)出一致性或相似性,在不同區(qū)域表現(xiàn)明顯不同。圖像分割技術在臨床的應用具有重大意義,由于醫(yī)學圖像能夠較大限度地向醫(yī)生提供病人信息[1],對病變部位圖像的準確分割可以提高醫(yī)生診斷能力,及時對病人治療,降低病人傷亡。傳統(tǒng)的分割方法包括基于閾值的分割方法[2]、基于邊緣的分割方法(串行邊緣檢測法和并行邊緣檢測法[3])、基于區(qū)域的分割方法(區(qū)域生長法、分裂合并法[4])和基于聚類或圖論的分割方法等,其主要的缺點為在分割的過程中引入噪聲,且易產(chǎn)生欠分割或過分割的結果。

隨著計算機技術的發(fā)展,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[5-7]在醫(yī)學圖像分割領域中得到了廣泛應用,表現(xiàn)出較佳的效果。圖像分割方法可被分為3大類:1)使用語義標簽對像素進行分類(語義分割[8]);2)對單個對象進行分區(qū)(實例分割);3)結合語義分割和實例分割的分割技術(全景分割)。傳統(tǒng)方法和基于深度學習的分割方法對肺部CT(Computed Tomography)圖像的肺器官分割實例如圖1所示。

(a) (b) (c)圖1 肺部分割結果對比(a)肺部CT圖片 (b)傳統(tǒng)方法 (c)基于深度學習的方法Figure 1. Comparison of lung segmentation results(a)Lung CT image (b)Traditional method (c)Deep learning-based method

1 基于深度學習的醫(yī)學圖像分割算法

傳統(tǒng)圖像分割方法通過分析待分割圖像前景與背景之間的差異,從圖像的灰度、對比度和紋理等信息中設計特征來進行手工分割操作,丟失了大量細節(jié)信息。隨著機器學習的興起,純手工提取特征的分割方法成為當時的主流方法,但設計和提取特征的復雜性等局限性限制了機器學習技術在分割領域的進一步發(fā)展。深度學習是機器學習的子領域,能充分利用圖像豐富的內在信息,逐漸成為分割領域的首選技術。按照基于深度學習的醫(yī)學圖像分割算法的發(fā)展歷程以及采用的網(wǎng)絡架構,將其劃分為基于全卷積網(wǎng)絡(Fully Convolutional Networks,FCN)、基于U-Net及其變體網(wǎng)絡等分割方法。

1.1 全卷積神經(jīng)網(wǎng)絡

文獻[8]提出了全卷積神經(jīng)網(wǎng)絡(FCN),其基本架構為輸入、卷積、池化和輸出。FCN利用卷積層替代了經(jīng)典卷積神經(jīng)網(wǎng)絡CNN末尾的全連接層,整個網(wǎng)絡主要包括卷積層和池化層。FCN輸入圖像的尺寸是任意大小,得到的輸出圖像跟原圖像大小保持一致。網(wǎng)絡中的跳躍連接結構有助于恢復網(wǎng)絡輸出的全空間分辨率,將來自較深、較粗層的語義信息與來自較淺、較細層的外觀信息結合起來達到產(chǎn)生詳細、準確分割的目的,如圖2所示。

與CNN網(wǎng)絡相比,FCN可以輸入任意尺寸的圖像,避免了由使用像素塊帶來的重復存儲和計算卷積問題。但該方法的缺點是:1)網(wǎng)絡的訓練比較麻煩且得到的分割結果精度不夠,對圖像的內在細節(jié)不夠敏感;2)未考慮全局上下文信息,忽視了各像素之間的關系,缺乏空間一致性。

1.2 DeepLab系列

文獻[9]提出DeepLab-V1網(wǎng)絡,將FCN與條件隨機場(Conditional Random Field,CRF)相結合,通過在FCN之后串聯(lián)一個完全連接的CRF模型,解決了FCN分割精度不準確的缺點。CRF對來自FCN的粗分割結果圖進行處理,通過在圖中的每個像素點均構建一個CRF模型來得到更為精準的圖像分割結果。

同時,通過在DeepLab-V1中加入帶孔算法來擴大感受野,由感受野的增大來獲取圖像的更多上下文信息,同時也可以避免FCN在卷積和池化過程中造成的特征圖分辨率下降的問題。另外,因DeepLab-V1中添加了空洞卷積,運行速度得到較大提高。DeepLab-V1的分割流程如圖3示。

與DeepLab-V1的網(wǎng)絡結構類似,DeepLab-V2同樣使用了CRF模型和帶孔算法。同時,DeepLab-V2使用了空洞空間卷積池化金字塔模塊(Atrous Spatial Pyramid Pooling,ASPP),通過采用不同采樣率的空洞卷積對特征圖進行并行采樣,并對輸出結果進行融合,以此獲得更多的空間信息。DeepLab-V2通過將傳統(tǒng)網(wǎng)絡的VGG-16(Visual Geometry Group-16)替換為ResNet(Residual Network)模塊,進一步提升了分割效果。

DeepLab-V3[10]重點改進了模型中空洞卷積的使用方式,提出將級聯(lián)模塊采樣率逐步翻倍,擴充DeepLab-V2模型中的ASPP模塊,提升了模型的性能。該模型在PASCAL VOC 2012數(shù)據(jù)集上獲得的分割結果優(yōu)于之前的DeepLab模型。

1.3 基于U-Net及其變體的算法

1.3.1 U-Net

U-Net網(wǎng)絡[11]是FCN網(wǎng)絡的改進網(wǎng)絡。與FCN相同,U-Net沒有全連接層,主要結構為全連接層和池化層,其網(wǎng)絡結構由編碼器和解碼器組成。網(wǎng)絡結構如圖4所示,網(wǎng)絡主要由左邊編碼器部分的下采樣、右邊的上采樣和中間的跳躍連接組成。編碼器負責對輸入圖像進行逐層提取特征,解碼器負責逐層恢復圖像信息。中間的跳躍連接融合了編碼器結構中的底層信息與解碼器結構中的高層信息,以達到提高分割精度的目的。

圖4 U-Net結構Figure 4.The structure of U-Net

1.3.2 U-Net++

文獻[12]在U-Net的基礎上做了一些改進,提出了U-Net++。改進之處為在U-Net網(wǎng)絡結構中間的跳躍連接部分引入了深度監(jiān)督的思想,即將各層網(wǎng)絡的輸出進行連接并作為最終輸出。改進之后的網(wǎng)絡結構如圖5所示。

圖5 U-Net++結構Figure 5.The structure of U-Net++

圖5中“×”為卷積操作。U-Net網(wǎng)絡中的跳躍連接采用直接串聯(lián)方式,直接把編碼器的底層信息與解碼器的高層信息進行結合,該方式未充分利用全局上下文信息,造成分割精度的損失。U-Net++使用一種密集連接的跳躍連接方式,網(wǎng)絡可以對來自不同層的特征進行疊加,轉換了編碼器和解碼器子網(wǎng)的連通性,故可減少編碼器和解碼器子網(wǎng)絡特征映射之間的語義差異。

1.3.3 U-Net3+

由于U-Net++未從全尺度中提取出足夠的信息,具有較大改進空間。文獻[13]提出了U-Net3+,網(wǎng)絡結構如圖6所示。U-Net3+使用全尺度跳躍連接和深度監(jiān)督來改善這些問題。全尺度跳躍連接將來自不同尺度特征的低級細節(jié)與高級語義結合起來,深度監(jiān)督從全面聚合的特征映射中學習特征表示。文獻[13]還提出了一種混合損失函數(shù),設計了一個分類引導模塊,用來增強器官邊界,減少非器官圖像的過分割,獲得更準確的分割結果。U-Net3+在不同規(guī)模的器官分割中不僅減少了網(wǎng)絡參數(shù),提高了計算效率,分割性能也得到了較大提升。

圖6 U-Net3+結構Figure 6. The structure of U-Net3+

1.3.4 融合殘差思想的U-Net網(wǎng)絡

隨著網(wǎng)絡的深度和寬度的提高,網(wǎng)絡性能得到了一定提升,但出現(xiàn)梯度消失或梯度爆炸問題仍會導致網(wǎng)絡性能下降。為解決此問題,文獻[5]提出了殘差網(wǎng)絡(ResNet),殘差塊的結構如圖7所示。x是殘差塊的輸入,F(x)是經(jīng)過第1層線性變化并且激活后的輸出,稱作殘差。第2層進行線性變化之后激活之前,在F(x)加入這一層的輸入值x,然后進行激活后輸出。由殘差塊堆疊的網(wǎng)絡易優(yōu)化,獲得的結果精度得到明顯提升,且優(yōu)于之前的網(wǎng)絡,但隨著深度增加會導致訓練誤差增大。

圖7 ResNet塊結構Figure 7. The structure of ResNet block

MultiResUNet網(wǎng)絡[14]借鑒inception[15]塊,把inception塊中的5×5和7×7卷積層進行分解,使用一系列更小、更輕量級的3×3卷積塊。如圖8(a)所示,第2個和第3個卷積塊的輸出分別有效逼近了5×5和7×7卷積運算,把3個卷積塊的輸出使用殘差連接拼接在一起,提取不同尺度的空間特征,卷積塊的輸入經(jīng)過1×1卷積核后通過殘差路徑與卷積后的輸入疊加。為降低編碼器和解碼器之間的差異,在shortcut連接中加入了帶有殘差連接的卷積層,使學習過程更簡單,該結構稱為Res Path,如圖8(b)所示。

(a)

文獻[16]把ResNet與U-Net結合,提出了ResUNet網(wǎng)絡,利用ResNet網(wǎng)絡從航空圖像中提取道路區(qū)域,該網(wǎng)絡由殘差單元堆疊而成,結構與U-Net相似。文獻[17]利用Res-Unet從肺部CT圖像中提取病變部分,使用預訓練的Res-Unet方法從不同平面以及軸向、冠狀、矢狀方向的二維圖像中提取病變區(qū)域。文獻[18]提出一種改進的Res-Unet肺動脈分割方法,該模型能準確分割出肺部CT圖像中的肺動脈,便于后續(xù)肺動脈的三維重建、肺栓塞體積的計算和專家評估肺栓塞的嚴重程度。

1.3.5 3D U-Net

3D U-Net[19]是對經(jīng)典U-Net框架的擴充,該框架可實現(xiàn)3D體積分割。所有的2D操作都被替換為相應的3D操作,即3D卷積、3D Max Pooling等,從而得到一個三維的分割圖像。因為3D圖像具有較多重復的結構和形狀,因此即使在幾乎未注釋數(shù)據(jù)的情況下,訓練過程也更快。3D U-Net已被廣泛應用于CT和MR(Magnetic Resonance)圖像分割中,包括心臟結構[20-22]、骨結構[23]、脊柱[24]、腦腫瘤[25]、肝腫瘤[26]、肺結節(jié)[27]、鼻咽癌[28]、多器官分割[29]、頭頸部器官危險評估[30]和白質束分割[31]等。

1.3.6 多階段級聯(lián)U-Net

除上述網(wǎng)絡外,還有其他U型的網(wǎng)絡架構。例如級聯(lián)兩個及以上U-Net,第1個U-Net用來執(zhí)行高級分割,后續(xù)U-Net對更小的對象進行分割。文獻[32]設計了一種兩級聯(lián)U-Net模型,第1個U-Net將肝臟與其他器官隔開,第2個U-Net將肝臟內的腫瘤隔開。文獻[33]設計了一種用于肝臟分割的兩級U-Net,在兩個U-Net之間設計了一個中間處理模塊。文獻[22]和文獻[34]設計了兩級U-Net,第1級為二維U-Net,第2級為三維U-Net。

經(jīng)過調查發(fā)現(xiàn)級聯(lián)級數(shù)可變[35]。上述文獻級聯(lián)U-Net網(wǎng)絡的性能都優(yōu)于單一的U型網(wǎng)絡,同時存在另外一種形式的U-Net網(wǎng)絡的布局。例如文獻[36]設計了兩個平行的U-Net網(wǎng)絡,并把結果聚合以提高分割的精度。文獻[37]實現(xiàn)了4個平行的U-Net網(wǎng)絡,每個U-Net網(wǎng)絡分割不同的CT映射,然后合并結果。并行的編碼器可以實現(xiàn)一個中間點,從而可以更好地提取特征[38]。

1.3.7 Dense U-Net

ResNet模型并不能完全解決由網(wǎng)絡加深帶來的梯度消失問題。為解決該問題,文獻[39]在ResNet的基礎上提出了Dense U-Net,使用DenseNet來代替常規(guī)層。與ResNet相比,DenseNet有兩個關鍵的改變:1)DenseNet塊中的每一層都接收來自前面所有層的特征或恒等映射;2)恒等映射通過將通道級聯(lián)到tensor進行組合。該結構可保留來自先前層的恒等映射,并顯著地促進梯度傳播。

1.3.8 融合Transformer的U-Net

U-Net模型在醫(yī)學圖像分割領域應用較為廣泛,然而由于卷積操作固有的局部性,其不能較好地學習全局和長期的語義信息交互。Transformer用來進行序列到序列的預測,已成為具有固有的全局自我注意機制的替代架構,但是由于底層細節(jié)不足,導致定位能力有限。

文獻[40]將Transformer和U-Net相融合進而提出了TransUNet。Transformer將CNN特征圖中的標記化圖像補丁進行編碼,作為提取全局上下文的輸入序列。解碼器對編碼器的特征進行上采樣,然后將其與高分辨率的特征圖相結合,以實現(xiàn)精確定位。文獻[41]提出了帶有移位窗口的分層Swin Transformer作為編碼器來提取上下文特征,由設計的一種基于對稱Swin Transformer的帶補丁擴展層的譯碼器Swin U-Net對特征圖進行上采樣操作,恢復其空間分辨率。文獻[42]結合Transformer和U-Net提出了TF-Unet來執(zhí)行醫(yī)學圖像分割,利用卷積神經(jīng)網(wǎng)絡對輸入進行特征提取和空間編碼,充分發(fā)揮了卷積在細節(jié)抓取方面的優(yōu)勢。

1.4 圖像分割算法性能比較

基于深度學習的醫(yī)學圖像分割算法的特點和優(yōu)缺點如表1所示。

表1 醫(yī)學圖像分割算法比較

續(xù)表1

2 腦腫瘤、肺和腎臟等輔助診斷應用

2.1 基于FCN

分割腦腫瘤對放射治療計劃的制定和效果評估具有重大意義,但由于不同患者的病理癥狀差異大,導致手工分割難度高。文獻[43]將全卷積神經(jīng)網(wǎng)絡(FCN)與條件隨機場(CRF)集成在一個統(tǒng)一的框架中,開發(fā)了一種新穎的腦腫瘤分割方法,其獲得的分割結果具有外觀和空間的一致性。文獻[44]提出了一種迭代實例分割方法。該方法使用FCN分割和標記椎骨。

為了克服當前臨床實踐中對多器官分割使用手工繪制輪廓繁瑣和耗時的困難,文獻[45]開發(fā)了一種新穎的自動頭頸風險器官分割方法,該方法將全卷積網(wǎng)絡和形狀表示模型(Shape Representation Model,SRM)相結合,通過使用SRM結合形狀先驗,進一步提高了分割的準確性和魯棒性。文獻[46]針對3D多器官圖像的分割問題提出了一種3D FCN模型,并將該模型應用于腹部CT圖像的多器官分割任務中,達到了良好的效果。

2.2 基于U-Net

文獻[47]提出了一種3D混合殘差注意力感知分割方法來精確地提取肝臟區(qū)域并從其中分割腫瘤。網(wǎng)絡以U-Net作為基本結構,集成了注意力殘差模塊,使注意力感知特征自適應地變化,能解決由網(wǎng)絡深度增加而導致的梯度爆炸問題,是第1個使用注意力殘差機制從3D醫(yī)學圖像中分割腫瘤的網(wǎng)絡。乳腺癌是常見的癌癥,目前乳腺鉬靶X線攝影檢查是臨床上被公認的較可靠與有效的診斷方法之一,但是依靠人工方法閱片耗時耗力,且受主觀因素影響,文獻[48]將雙通道的CNN與Res-Path結合起來可以提取到更有效的特征,網(wǎng)絡參數(shù)少,在分割乳腺圖像上獲得了較好的分割結果。文獻[49]提出了將LeViT Transformer模塊集成到U-Net架構中的LeViT-Unet,用于快速準確分割血管圖像。

為了實現(xiàn)視網(wǎng)膜血管的精確分割,文獻[50]提出了一個輕量級的網(wǎng)絡,即空間注意力U-Net。引入的空間注意模塊可沿空間維度推導出注意力圖,并將注意力圖乘以輸入特征圖,實現(xiàn)自適應特征細化。網(wǎng)絡采用結構化的Dropout卷積塊代替U-Net原有的卷積塊,防止網(wǎng)絡過擬合。在DRIVE和CHASE_DB1這兩個視網(wǎng)膜數(shù)據(jù)集上的評估結果表明所提方法性能更佳。為解決使用多尺度方法導致信息冗余使用的問題,文獻[51]提出了一種多尺度引導自注意模型。該模型通過使用引導自注意機制來捕獲更豐富的上下文信息,不同模塊之間的額外損失引導注意機制忽略不相關的信息,通過強調相關特征關聯(lián)度將注意力集中在圖像中更具區(qū)別性的區(qū)域。

2.3 其他

文獻[52]采用一種雙通道結構來合并局部信息和全局信息,該結構能同時在多個尺度上處理輸入圖像,提高了圖像分割的精度。

3 常用數(shù)據(jù)集和評價指標

3.1 常用醫(yī)學圖像數(shù)據(jù)集

醫(yī)學圖像數(shù)據(jù)集可以分為3個不同的類別:2D圖像、2.5D圖像和3D圖像[53]。在二維醫(yī)學圖像中,圖像中的每個信息元素稱為像素。在3D醫(yī)學圖像中,每個元素都稱為體素,2.5D指RGB圖像。CT、MR、PET和超聲像素代表3D體素,圖像的格式有JPEG、PNG或DICOM。

目前有多種醫(yī)學成像方式,例如CT掃描、超聲、MRI(Magnetic Resonance Imaging)、乳房X線照片和正電子發(fā)射斷層掃描等。MRI可通過采用不同脈沖序列來實現(xiàn)可變對比度圖像,并且可以得到胸部、肝臟、大腦和腹部等內部結構。CT成像使用X射線來獲取有關身體部位結構和功能的信息,用于診斷大腦、腹部、肝臟、骨盆、胸部、脊柱和基于CT的血管造影中的疾病。圖9顯示了大腦MRI和CT圖像。常用的公開醫(yī)學圖像數(shù)據(jù)集如表2所示。

表2 常用醫(yī)學圖像分割數(shù)據(jù)集

3.2 損失函數(shù)

除了網(wǎng)絡結構,深度學習模型的本質特征之一是損失函數(shù)。

交叉熵損失函數(shù)(Cross-Entropy)是醫(yī)學圖像分割中常用的一種損失函數(shù)。其中,ti表示基礎真值,pi表示第i類的概率,n表示類的數(shù)量。交叉熵損失的一種變體是加權交叉熵損失(Weighted Cross-Entropy Loss),此損失函數(shù)根據(jù)類的不平衡性給類賦予一定的權重。另一種交叉熵損失的變體是焦點損失(Focal Loss)。

(1)

除了交叉熵,圖像分割中的另一個標準損失函數(shù)是Dice損失,由S?rensen-Dice系數(shù)得到。GT(Ground Truth)為標準值,SR(Segmentation Result)為分割結果。

(2)

交集/并集(Intersection over Union,IoU)損失由Jaccard指數(shù)衍生,用來衡量樣本的交集與并集的比值。

(3)

Tversky Loss是對Dice Loss的一種改進損失函數(shù),對假陽性和假陰性結果賦予不同的權重,其在訓練帶有不平衡類的數(shù)據(jù)集時更有效。

(4)

3.3 評價指標

常用于評估分割算法有效性的流行指標如下所示:真陽性(Ture Positive,TP)表示實際數(shù)據(jù)類和預測數(shù)據(jù)類都為真;真陰性(Ture Negative,TN)表示實際數(shù)據(jù)類和預測數(shù)據(jù)類都為假;假陽性(False Positive,FP)表示實際數(shù)據(jù)類別為假,預測數(shù)據(jù)類別為真;假陰性(False Negative,FN)表示實際數(shù)據(jù)類別為真,預測數(shù)據(jù)類別為假。

準確度(Accuracy)用于度量正確預測樣本的數(shù)量相對于樣本總數(shù)的數(shù)量。

(5)

精度(Precision)用于衡量正確預測的陽性樣本與所有陽性預測的數(shù)量。

(6)

與精度類似,特異性(Specificity)用于衡量所有負樣本中正確預測負樣本的數(shù)量。在評估圖像中假陽性像素的數(shù)量時,準確性和特異性均發(fā)揮重要作用。

(7)

召回率(Recall)或靈敏度(Sensitivity)衡量被正確識別為陽性的陽性樣本比例。召回率/靈敏度用來測量圖像中假陰性像素的數(shù)量。

(8)

F-score (F-measure)是精度和召回率的調和平均值,常用于結合精度和召回率來衡量模型的整體表現(xiàn)。

(9)

4 結束語

本文總結了用于醫(yī)學圖像分割的基于深度學習的模型及其優(yōu)缺點,概述了用于疾病分割的不同醫(yī)學圖像數(shù)據(jù)集以及用于評估圖像分割算法性能的各種性能指標??傮w而言,基于深度學習的醫(yī)學圖像分割方法已成為目前分割的主流方法,但深度神經(jīng)網(wǎng)絡在醫(yī)學圖像分割領域還存在較大挑戰(zhàn)。本文討論了深度網(wǎng)絡在分割醫(yī)學圖像中所面臨的挑戰(zhàn),并討論了相應的解決方案。

深度學習網(wǎng)絡模型的訓練需要大量標注好的數(shù)據(jù)。在醫(yī)學圖像處理中,收集大量帶注釋的醫(yī)學圖像較困難,需要專業(yè)的醫(yī)生對圖像進行標注耗時耗力??赏ㄟ^使用數(shù)據(jù)增強來增加帶標簽樣本的數(shù)量。

在公開的醫(yī)學圖像數(shù)據(jù)集中,都存在類別不平衡的問題。高度不平衡的數(shù)據(jù)不利于模型的訓練。解決方案如下:1)對數(shù)據(jù)進行過采樣;2)通過改變評估或性能指標;3)應用數(shù)據(jù)增強技術來創(chuàng)建新的數(shù)據(jù)樣本;4)結合少數(shù)類。

圖像分割技術已經(jīng)從手動圖像分割發(fā)展到使用機器學習和深度學習方法的自動分割。基于深度學習的方法可以在大量圖像上生成分割,有助于識別圖像中的病灶和診斷疾病。未來工作可針對本文討論的不同現(xiàn)有深度學習模型對公開數(shù)據(jù)集進行展開。同時,可以嘗試網(wǎng)絡層和分類器的不同組合以提高圖像分割模型的準確性。

猜你喜歡
殘差卷積醫(yī)學
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
醫(yī)學的進步
基于殘差學習的自適應無人機目標跟蹤算法
預防新型冠狀病毒, 你必須知道的事
基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
醫(yī)學
平穩(wěn)自相關過程的殘差累積和控制圖