彭 璟,羅浩宇,趙淦森,林成創(chuàng),易序晟,陳少潔
1.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州510663
2.廣州市云計(jì)算安全與測(cè)評(píng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州510663
圖像分割與圖像分類、目標(biāo)檢測(cè)同為圖像處理技術(shù)在計(jì)算機(jī)視覺應(yīng)用下的重要研究分支。圖像分割,具體可分為語義分割與非語義分割兩大類。語義分割,也稱像素級(jí)分類,是將屬于同一對(duì)象類的圖像部分聚集在一起的任務(wù)。相反,非語義分割僅基于單個(gè)對(duì)象類的一般特征將像素聚集在一起[1]。圖像分割技術(shù)通常用于定位圖像中目標(biāo)和邊界的位置,為圖像內(nèi)容的進(jìn)一步理解打下良好的基礎(chǔ)。
傳統(tǒng)的圖像分割技術(shù)包括基于閾值的方法、基于邊緣的方法、基于區(qū)域的方法、基于特定理論的方法等[2]。受限于計(jì)算機(jī)的硬件設(shè)備限制,傳統(tǒng)的圖像分割技術(shù)僅能對(duì)灰度圖像進(jìn)行處理,后期才逐漸發(fā)展到可以對(duì)RGB 圖像進(jìn)行處理的階段,但在分割的精度和效率上仍難以達(dá)到實(shí)際應(yīng)用的要求。
近些年來,隨著集成電路上可容納的電子元器件數(shù)目不斷翻倍,GPU的運(yùn)算性能越來越強(qiáng),受益于此的深度學(xué)習(xí)技術(shù)也因此迅猛發(fā)展,結(jié)合深度學(xué)習(xí)技術(shù)的圖像分割算法逐漸成為該領(lǐng)域的主流算法,被廣泛應(yīng)用于移動(dòng)機(jī)器人、自動(dòng)駕駛、無人機(jī)、醫(yī)學(xué)診斷等實(shí)際場(chǎng)景中。目前有部分綜述研究對(duì)基于深度學(xué)習(xí)的圖像分割技術(shù)進(jìn)行了總結(jié)。例如文獻(xiàn)[3-4],對(duì)現(xiàn)有的基于深度學(xué)習(xí)的圖像分割方法做出了綜述,為后來的研究者提供了很好的幫助,但是文獻(xiàn)[3-4]主要集中于圖像分割整個(gè)領(lǐng)域,缺乏對(duì)某個(gè)實(shí)際應(yīng)用場(chǎng)景的單獨(dú)綜述性講解。文獻(xiàn)[5]概述了基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割算法及其網(wǎng)絡(luò)架構(gòu)、訓(xùn)練技巧和難點(diǎn),但對(duì)深度學(xué)習(xí)技術(shù)應(yīng)用于其中的最新研究成果有失詳盡。
因此,針對(duì)計(jì)算機(jī)視覺結(jié)合深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)影像分割領(lǐng)域的應(yīng)用,還缺乏全面的綜述性研究,本文撰寫的主要目的是嘗試對(duì)當(dāng)前深度學(xué)習(xí)下的醫(yī)學(xué)影像分割算法進(jìn)行綜述,為相關(guān)研究提供參考。本文首先敘述了計(jì)算機(jī)視覺下醫(yī)學(xué)影像分割研究的任務(wù)和難點(diǎn),隨后根據(jù)深度學(xué)習(xí)下醫(yī)學(xué)影像分割算法的發(fā)展歷程和所采用的骨干網(wǎng)絡(luò),從基于全卷積神經(jīng)網(wǎng)絡(luò)的方法、基于U-Net網(wǎng)絡(luò)及其變體的方法和基于特定設(shè)計(jì)思想的方法三個(gè)分類進(jìn)行了歸納和總結(jié),重點(diǎn)闡述了每種算法的網(wǎng)絡(luò)架構(gòu)并分析了存在的不足。其次,介紹了醫(yī)學(xué)影像分割算法常用的評(píng)價(jià)指標(biāo)和數(shù)據(jù)集。最后,指出了醫(yī)學(xué)影像分割領(lǐng)域未來的研究方向。
醫(yī)學(xué)影像分割是醫(yī)學(xué)影像分析中的重要領(lǐng)域,也是計(jì)算機(jī)輔助診斷、監(jiān)視、干預(yù)和治療所必需的一環(huán),其關(guān)鍵任務(wù)是對(duì)醫(yī)學(xué)影像中感興趣的對(duì)象(例如器官或病變)進(jìn)行分割,可以為疾病的精準(zhǔn)識(shí)別、詳細(xì)分析、合理診斷、預(yù)測(cè)與預(yù)防等方面提供非常重要的意義和價(jià)值。受深度學(xué)習(xí)技術(shù)在多個(gè)領(lǐng)域成功應(yīng)用的推動(dòng),醫(yī)學(xué)影像分割的研究人員將基于深度學(xué)習(xí)的方法應(yīng)用于大腦[6-8]、肝臟[9]、胰腺[10]、前列腺[11]和多器官[12]分割等方面。相比傳統(tǒng)方法,這些基于深度學(xué)習(xí)的方法,在醫(yī)學(xué)影像分割任務(wù)中取得了卓越的性能。
與自然圖像相比,醫(yī)學(xué)影像除了具有分辨率低、對(duì)比度低、目標(biāo)分散等自身特性外,對(duì)分割算法結(jié)果的準(zhǔn)確性和穩(wěn)定性也有著更高的要求。自然圖像分割更重視像素點(diǎn)的多分類信息,往往對(duì)多個(gè)類別進(jìn)行分割,對(duì)分割細(xì)節(jié)要求不高。而對(duì)于醫(yī)學(xué)影像分割而言,一般不需要進(jìn)行多分類,只需要進(jìn)行病灶或器官的區(qū)分即可,但醫(yī)學(xué)影像的分割細(xì)致程度要求較高,不正確或是不穩(wěn)定的分割將會(huì)直接影響病人后續(xù)的診斷和治療,從而失去了對(duì)醫(yī)學(xué)影像分割的本來意義。在醫(yī)學(xué)影像分割任務(wù)中,目前主要存在以下幾個(gè)難點(diǎn):
(1)標(biāo)注數(shù)據(jù)少[13]。造成該問題的一個(gè)重要的原因是收集標(biāo)注困難,手工標(biāo)注醫(yī)學(xué)影像是一個(gè)費(fèi)時(shí)費(fèi)力的過程,標(biāo)注質(zhì)量的好壞很大程度上取決于專家的臨床經(jīng)驗(yàn)和耐心程度,而這個(gè)標(biāo)注過程在實(shí)際的臨床實(shí)踐中可能并不需要。
(2)傳感器噪聲或偽影[14]?,F(xiàn)代醫(yī)學(xué)影像最基本的成像模態(tài)有XR(X光)、US(超聲)、CT(電子計(jì)算機(jī)斷層掃描)和MRI(磁共振成像)等,用于成像的醫(yī)學(xué)設(shè)備會(huì)存在物理噪聲和圖像重建誤差,而醫(yī)學(xué)影像模態(tài)和成像參數(shù)設(shè)定的差別則會(huì)造成不同大小的偽影。在此基礎(chǔ)上,dicom(醫(yī)學(xué)數(shù)字成像和通信)的歷史標(biāo)準(zhǔn)不統(tǒng)一、醫(yī)學(xué)設(shè)備性能不一致等問題,給醫(yī)學(xué)影像分割任務(wù)帶來了更大的挑戰(zhàn)。
(3)分割目標(biāo)形態(tài)差異大[15]?;颊咧g存在胖或瘦、高或矮、成年人或小孩等體型差異,且病變的大小、形狀和位置可能存在巨大差異,因此解剖結(jié)構(gòu)上會(huì)有差異。不同的分割部位也存在差異,以血管和腫瘤的分割為例,目標(biāo)都非常小,而且極其不規(guī)則,因此不同模態(tài)、不同分割部位往往需要不同的算法,有時(shí)還需要考慮到先驗(yàn)知識(shí)的加入。
(4)組織邊界信息弱[16]。人體內(nèi)部的一些器官都是具有相似特征的軟組織,它們相互接觸且邊界信息非常弱,而胰腺腫瘤、肝腫瘤、腎臟腫瘤等邊界不清楚的腫瘤往往還非常小,導(dǎo)致很難被識(shí)別到。
(5)維度信息豐富[17]。自然圖像是二維的,醫(yī)學(xué)影像絕大多數(shù)都是三維的,直接將自然圖像分割算法遷移到醫(yī)學(xué)影像分割中無法充分的利用維度信息,雖然有不少系統(tǒng)性的工作,但三維的圖像分割技術(shù)遠(yuǎn)遠(yuǎn)沒有二維那么趨于成熟。
早期的圖像分割算法建立在傳統(tǒng)方法上,例如邊緣檢測(cè)濾波器等數(shù)學(xué)方法。然后,依靠手工提取特征的機(jī)器學(xué)習(xí)方法在很長一段時(shí)間內(nèi)成為了一種占據(jù)主導(dǎo)地位的技術(shù),設(shè)計(jì)和提取特征的復(fù)雜性制約了此種技術(shù)的發(fā)展。與人工規(guī)則構(gòu)造特征的方法相比,基于深度學(xué)習(xí)的方法能夠刻畫出數(shù)據(jù)更豐富的內(nèi)在信息,從而逐漸成為了圖像分割領(lǐng)域的首選方法。本章按照深度學(xué)習(xí)下的醫(yī)學(xué)影像分割算法的發(fā)展歷程和所采用的骨干網(wǎng)絡(luò),將其劃分為基于全卷積神經(jīng)網(wǎng)絡(luò)、基于U-Net網(wǎng)絡(luò)及其變體和基于特定設(shè)計(jì)思想3類醫(yī)學(xué)影像分割算法,分別介紹了3類分割方法的基本思想、代表性網(wǎng)絡(luò)架構(gòu)以及優(yōu)缺點(diǎn)等。
在CNN 卷積神經(jīng)網(wǎng)絡(luò)模型用于圖像分類時(shí),末尾的全連接層會(huì)將原始圖像中的二維矩陣信息壓縮,導(dǎo)致圖像的空間信息丟失,這對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型用于圖像分割會(huì)產(chǎn)生很大影響。全卷積神經(jīng)網(wǎng)絡(luò)[18]的問世開創(chuàng)了卷積神經(jīng)網(wǎng)絡(luò)用于圖像分割的先河,其網(wǎng)絡(luò)架構(gòu)如圖1所示。它的基本思想是將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型中的全連接層替換成卷積層,接著使用反卷積操作在最后輸出的特征圖上進(jìn)行上采樣,并引入跳躍連接改善上采樣粗糙的像素定位,將AlexNet[19]、VGG16[20]、GoogLeNet[21]等用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò),改造成了可以實(shí)現(xiàn)圖像分割的密集預(yù)測(cè)網(wǎng)絡(luò),且在PASCAL VOC 等圖像分割數(shù)據(jù)集上獲得了顯著的分割精度提升。
圖1 FCN網(wǎng)絡(luò)架構(gòu)
Ben-Cohen 等人[22]首次探索了使用FCN 來完成CT影像中肝臟和腫瘤的分割任務(wù),與基于固定尺寸輸入的CNN 卷積神經(jīng)網(wǎng)絡(luò)模型相比,F(xiàn)CN 可以接受任意大小的輸入,并通過有效地推理和學(xué)習(xí)產(chǎn)生相應(yīng)大小的輸出,因此可以消除網(wǎng)絡(luò)的冗余計(jì)算并取得接近于人工分割的結(jié)果。Yuan等人[23]利用19層深度的FCN訓(xùn)練了一種端到端的皮膚黑色素瘤分割方法,為了解決皮膚鏡圖像中的類別不平衡問題,作者還設(shè)計(jì)了新的基于Jaccard距離的損失函數(shù),在ISBI 2016 數(shù)據(jù)集上獲得了當(dāng)時(shí)最佳的分割效果。Dasgupta 等人[24]首次將FCN 引入到視網(wǎng)膜圖像的血管分割問題,并結(jié)合結(jié)構(gòu)化的預(yù)測(cè)方法,在DRIVE數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明了FCN網(wǎng)絡(luò)的卓越性能。
雖然FCN 的輸入可為任意尺寸大小的圖像,且可以輸出和輸入大小一致的分割圖,但通過簡單的上采樣操作而得到的結(jié)果還是不夠精細(xì),分割的輸出圖仍比較模糊和平滑,對(duì)圖像中的細(xì)節(jié)不敏感[25],因此目前主要應(yīng)用在雷達(dá)圖像分割[26-28]等工業(yè)實(shí)踐中。
FCN 網(wǎng)絡(luò)結(jié)構(gòu)為圖像分割技術(shù)提供了能夠達(dá)到像素級(jí)分割的基礎(chǔ),更為后來的研究人員提供了一種全新的思路和探索方向。研究人員以全卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)提出了SegNet[29]、Deeplab[30]、RefineNet[31]、DANet[32]等一系列用于圖像分割的神經(jīng)網(wǎng)絡(luò)模型,在分割的精度和效率上不斷提升,但由于自然圖像和醫(yī)學(xué)影像的差異性,在目前的醫(yī)學(xué)影像分割領(lǐng)域中,基于U-Net 網(wǎng)絡(luò)及變體的網(wǎng)絡(luò)架構(gòu)被廣泛使用,本節(jié)闡述了這些用于醫(yī)學(xué)影像分割的代表性算法。
2.2.1 U-Net
U-Net 是醫(yī)學(xué)影像分割領(lǐng)域最著名的一個(gè)網(wǎng)絡(luò)架構(gòu),在2015年由Ronneberger等人[33]參加ISBI Challenge提出的一種基于FCN的分割網(wǎng)絡(luò)。經(jīng)過修改和擴(kuò)展后的U-Net能夠適應(yīng)很小的訓(xùn)練集,并且輸出更加精確的分割結(jié)果。如圖2所示,U-Net的上采樣過程中依然有大量通道,這使得網(wǎng)絡(luò)將上下文信息向更高分辨率傳播,且其擴(kuò)展路徑與收縮路徑對(duì)稱,形成了一個(gè)U型的形狀段,并通過跳躍連接的方式融合來自不同階段的特征圖。
圖2 U-Net網(wǎng)絡(luò)架構(gòu)
U-Net 網(wǎng)絡(luò)架構(gòu)一經(jīng)提出,就在醫(yī)學(xué)影像分割領(lǐng)域吸引了很多研究者的注意,如Gordienko 等人[34]使用U-Net 網(wǎng)絡(luò)進(jìn)行胸部X 光影像的肺分割實(shí)驗(yàn),獲得的結(jié)果表明U-Net 網(wǎng)絡(luò)能進(jìn)行快速且精準(zhǔn)的醫(yī)學(xué)影像分割。當(dāng)面對(duì)醫(yī)學(xué)影像分割任務(wù)時(shí),U-Net這種擴(kuò)展路徑和收縮路徑所組成的編碼-解碼的網(wǎng)絡(luò)架構(gòu)成為了首選,同時(shí)在新技術(shù)的推動(dòng)下研究人員基于U-Net網(wǎng)絡(luò)開發(fā)了很多變體。
2.2.2 加入密集連接的U-Net算法
密集連接的思想來自于DenseNet[35],在DenseNet出現(xiàn)之前,卷積神經(jīng)網(wǎng)絡(luò)的進(jìn)化一般通過層數(shù)的加深或者加寬進(jìn)行,DenseNet通過對(duì)特征的復(fù)用提出了一種新的結(jié)構(gòu),不但減緩了梯度消失的現(xiàn)象同時(shí)模型的參數(shù)量也更少。
U-Net++網(wǎng)絡(luò)架構(gòu)在2018年被Zhou等人[36]提出,創(chuàng)新點(diǎn)在于將密集連接加入U(xiǎn)-Net網(wǎng)絡(luò),從而引入深度監(jiān)督[37]的思想,并通過重新設(shè)計(jì)的跳躍連接路徑把不同尺寸的U-Net 結(jié)構(gòu)融入到了一個(gè)網(wǎng)絡(luò)里。如圖3 所示,在原始的U-Net網(wǎng)絡(luò)架構(gòu)上,UNet++加入了更多的跳躍連接路徑和上采樣卷積塊,用于彌補(bǔ)編碼器和解碼器之間的語義鴻溝。中間隱藏層使用的深度監(jiān)督一方面可以解決U-Net++網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失問題,另一方面允許網(wǎng)絡(luò)在測(cè)試的階段進(jìn)行剪枝,減少模型的推斷時(shí)間。
圖3 U-Net++網(wǎng)絡(luò)架構(gòu)
Huang 等人于2020 年提出U-Net3+[38],它的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。針對(duì)U-Net++沒有從多尺度中提取足夠的信息這一不足之處,U-Net3+利用全尺度的跳躍連接和深度監(jiān)督來改善該問題。全尺度的跳躍連接把來自不同尺度特征圖中的高級(jí)語義與低級(jí)語義結(jié)合,而深度監(jiān)督則從多尺度聚合的特征圖中學(xué)習(xí)層次表示。此外,U-Net3+還進(jìn)一步提出了一種混合損失函數(shù),并設(shè)計(jì)了一個(gè)分類引導(dǎo)模塊來增強(qiáng)器官邊界和減少非器官圖像的過度分割,從而獲得更準(zhǔn)確的分割結(jié)果。
圖4 U-Net3+網(wǎng)絡(luò)架構(gòu)
U-Net++和U-Net3+網(wǎng)絡(luò)架構(gòu)的第一個(gè)優(yōu)勢(shì)就是精度的提升,這個(gè)是它整合了不同層次的特征所帶來的,第二個(gè)是靈活的網(wǎng)絡(luò)結(jié)構(gòu)配合深度監(jiān)督,讓參數(shù)量巨大的深度神經(jīng)網(wǎng)絡(luò)在可接受的精度范圍內(nèi)大幅度地縮減參數(shù)量。但是因?yàn)槎啻翁S連接操作,同樣的數(shù)據(jù)在網(wǎng)絡(luò)中會(huì)存在多個(gè)復(fù)制,模型訓(xùn)練時(shí)的顯存占用相對(duì)較高,需要采用一些顯存優(yōu)化技術(shù)來更好地訓(xùn)練模型。
2.2.3 融合殘差思想的U-Net算法
神經(jīng)網(wǎng)絡(luò)因?yàn)閷挾群蜕疃鹊脑黾?,就?huì)面臨梯度消失或梯度爆炸引起的網(wǎng)絡(luò)退化問題,為此He 等人[39]提出了殘差網(wǎng)絡(luò)(ResNet)。如圖5所示,殘差塊的輸入通過殘差路徑直接疊加到殘差塊的輸出之中,殘差塊會(huì)嘗試去學(xué)習(xí)并擬合殘差以保證增加的網(wǎng)絡(luò)層數(shù)不會(huì)削弱網(wǎng)絡(luò)的表達(dá)性能。
圖5 ResNet殘差學(xué)習(xí)塊
2019 年Ibtehaz 等人[40]借鑒了ResNet 提出了Multi-ResUNet網(wǎng)絡(luò),MultiResUNet運(yùn)用殘差思想改造了U-Net中的卷積塊和跳躍連接。如圖6(a)所示,MultiResNet使用一系列3×3卷積核來模擬5×5卷積核和7×7卷積核的感受野,卷積塊的輸入經(jīng)過1×1 卷積核后經(jīng)由殘差路徑直接與卷積后的輸入疊加,作者稱之為MultiRes block,在減少網(wǎng)絡(luò)計(jì)算量的同時(shí)可以提取不同尺度的空間特征。作者同時(shí)提出了Res Path 來減少跳躍連接過程中所丟失的空間信息,如圖6(b)所示,Res Path 由一系列的3×3卷積、1×1卷積和殘差路徑組成,編碼器的輸入特征圖經(jīng)過Res Path與解碼器特征圖連接,一方面減少了語義鴻溝,另一方面增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力。
圖6 MultiResUNet的MultiRes block和Res Path
ResUNet 由Zhang 等人[41]提出,該模型在U-Net 網(wǎng)絡(luò)中融合了殘差思想,被設(shè)計(jì)用于航拍圖像的道路檢測(cè),2019 年Jha 等人[42]在其基礎(chǔ)上增加了SE(Squeezeand-Excitation)模塊[43]和空洞空間金字塔池化(ASPP)模塊[44],提出了用于結(jié)腸息肉分割的ResUNet++網(wǎng)絡(luò)。SE模塊通過全局平均池化操作將圖像每個(gè)通道的特征壓縮為1個(gè)值,再由全連接層將通道的激勵(lì)映射到[0,1]范圍,最后將其與輸入圖像的每個(gè)通道相乘,能有效地建模通道間的相關(guān)性。ASPP 模塊的設(shè)計(jì)來自于He 等人提出的空間金字塔池化網(wǎng)絡(luò),該模塊將不同大小的空洞卷積核堆疊,可以有效地提取同一特征圖上的不同尺度信息。雖然ResNet殘差學(xué)習(xí)塊結(jié)構(gòu)確實(shí)有助于網(wǎng)絡(luò)精度的提升,但同時(shí)也增加了網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
2.2.4 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的U-Net算法
2018 年Alom 等人[45]提出了R2U-Net 網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)架構(gòu)整合了U-Net、ResNet、RCNN[46]的結(jié)構(gòu),在血管、肺部、視網(wǎng)膜等多個(gè)醫(yī)學(xué)影像分割任務(wù)上都獲得了很好的實(shí)驗(yàn)結(jié)果。RCNN 將卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,能讓神經(jīng)網(wǎng)絡(luò)記憶序列化的輸入信息,在隱式地增加了原始CNN 深度的同時(shí),增強(qiáng)了模型捕獲特征長期依賴的能力。R2U-Net 中的循環(huán)殘差卷積單元(RRCU)如圖7 所示,通過將原始U-Net 網(wǎng)絡(luò)架構(gòu)中的每個(gè)卷積單元替換成RRCU,融合了編碼-解碼、殘差連接、循環(huán)卷積的設(shè)計(jì)思想,使得R2U-Net 網(wǎng)絡(luò)能夠提取到更好的特征,在擁有相同模型參數(shù)量的情況下可以獲得更好的表現(xiàn)。
圖7 R2U-Net循環(huán)殘差卷積單元
BCDU-Net由Azad等人[47]于2019年提出,是在U-Net網(wǎng)絡(luò)中應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)的另一種策略。LSTM[48]是一種特殊的RNN,主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。ConvLSTM[49]是CNN和LSTM的結(jié)合體,BCDU-Net通過在跳躍連接路徑中加入雙向的ConvLSTM,以非線性方式合并編碼和解碼階段對(duì)應(yīng)的特征圖,以產(chǎn)生更精細(xì)的分割結(jié)果。作者還在U-Net最后一個(gè)編碼階段加入了密集連接,以產(chǎn)生更多樣化的特征來增強(qiáng)模型的表達(dá)能力。
盡管循環(huán)神經(jīng)網(wǎng)絡(luò)能更好地捕捉到序列數(shù)據(jù)中的語義信息,但因其狀態(tài)計(jì)算固有的特性難以并行化拓展,并且基于RNN 的醫(yī)學(xué)影像算法更適合于分割跨越多個(gè)切片的病變或器官,對(duì)于單一切片的分割任務(wù)相比其他算法可能并不具有優(yōu)勢(shì)。
2.2.5 集成注意力機(jī)制的U-Net算法
2018 年Oktay 等 人[50]提出了Attention U-Net 網(wǎng)絡(luò)架構(gòu)。注意力機(jī)制借鑒了人類的注意力思維方式,最初被應(yīng)用于基于RNN 循環(huán)神經(jīng)網(wǎng)絡(luò)模型的圖像分類[51]、自然語言處理[52]、圖像說明[53]等深度學(xué)習(xí)任務(wù)中并取得了顯著成果,隨后Yin等人[54]對(duì)于在CNN卷積神經(jīng)網(wǎng)絡(luò)模型中使用注意力機(jī)制做了探索性工作,如何在CNN中使用注意力機(jī)制也成為了研究的熱點(diǎn)。
如圖8 所示,Attention U-Net 在對(duì)擴(kuò)展路徑每個(gè)階段上的特征圖與收縮路徑中對(duì)應(yīng)特征圖進(jìn)行拼接之前,使用了一個(gè)注意力門抑制無關(guān)區(qū)域中的特征激活來提高模型的分割準(zhǔn)確性,在達(dá)到高分割精度的同時(shí)而無需額外的定位模塊。與U-Net 和相比,Attention U-Net 在胰腺和腹部多器官分割數(shù)據(jù)集上,提升了分割的精度同時(shí)減少了模型訓(xùn)練和推理的時(shí)間。
圖8 Attention U-Net網(wǎng)絡(luò)架構(gòu)
2020 年Li 等人[55]通過在U-Net++網(wǎng)絡(luò)的跳躍連接中嵌入注意力門提出了ANU-Net 網(wǎng)絡(luò)架構(gòu)。如圖9 所示,ANU-Net網(wǎng)絡(luò)中的注意力門的兩個(gè)輸入分別為上采樣信號(hào)g和編碼器特征f,g作為門控信號(hào)可以從f中進(jìn)行選擇,經(jīng)過卷積、批規(guī)范化和激活等運(yùn)算后將得到的注意力圖α與f相乘從而產(chǎn)生注意力門的輸出,再與解碼器對(duì)應(yīng)階段的特征進(jìn)行拼接。同時(shí),為了充分利用U-Net++網(wǎng)絡(luò)中的全分辨率特征信息,ANU-Net參考Dice loss、Focal loss[56]和二進(jìn)制交叉熵?fù)p失,設(shè)計(jì)了一個(gè)新穎的混合損失函數(shù),以緩解數(shù)據(jù)不平衡問題并使模型將注意力傾向于相對(duì)更難分割的樣本。
圖9 ANU-Net網(wǎng)絡(luò)中的注意力門
由于注意力門為特征圖的每一個(gè)元素都重新賦予了一個(gè)權(quán)重,因此可以靈活地捕捉全局特征和局部特征的聯(lián)系,同時(shí)增加了模型的可解釋性,但潛在的問題是有可能破壞網(wǎng)絡(luò)深層的特征信息,影響模型的學(xué)習(xí)能力。
2.2.6 面向3D影像的U-Net算法
3D U-Net[57]網(wǎng)絡(luò)架構(gòu)是原始U-Net 網(wǎng)絡(luò)架構(gòu)的一個(gè)簡單擴(kuò)展,由U-Net的研究團(tuán)隊(duì)在2016年提出并應(yīng)用于三維圖像分割。因?yàn)殡娔X屏幕上只能展示二維的切片,所以直接在三維層面上標(biāo)注分割標(biāo)簽比較困難。與此同時(shí),相鄰的二維切片往往包含了近似的圖片信息?;谏鲜鰞蓚€(gè)事實(shí),作者提出了只需要稀疏標(biāo)注的二維圖像進(jìn)行訓(xùn)練的3D U-Net 網(wǎng)絡(luò)架構(gòu)。3D U-Net 通過將U-Net原來的2D卷積、池化、上采樣操作替換成對(duì)應(yīng)的3D操作,并加入Batch normalization層[58]實(shí)現(xiàn)了對(duì)三維醫(yī)學(xué)影像的直接分割。
如圖10所示,應(yīng)用3D U-Net網(wǎng)絡(luò)架構(gòu)進(jìn)行醫(yī)學(xué)影像分割有兩種方式。圖10(a)的輸入是三維醫(yī)學(xué)影像的稀疏標(biāo)注,只標(biāo)注了其中的一部分二維切片,3D U-Net經(jīng)過訓(xùn)練可以輸出三維醫(yī)學(xué)影像的密集分割結(jié)果。圖10(b)假定需要分割的三維醫(yī)學(xué)影像有類似的代表性訓(xùn)練集,經(jīng)過訓(xùn)練的3D U-Net 在不帶標(biāo)注的三維醫(yī)學(xué)影像上計(jì)算并輸出分割圖。
圖10 3D U-Net應(yīng)用場(chǎng)景
2016 年Milletari 等人[59]提出了V-Net 網(wǎng)絡(luò)架構(gòu),是原始U-Net 網(wǎng)絡(luò)架構(gòu)的另一種3D 實(shí)現(xiàn)。V-Net 相比3D U-Net最大的亮點(diǎn)在于吸收了ResNet的思想,在網(wǎng)絡(luò)拓展路徑和收縮路徑的每個(gè)階段中都引入殘差學(xué)習(xí)的機(jī)制。同時(shí),受Springenberg 等人[60]研究的啟發(fā),V-Net 以步長為2的2×2×2卷積核取代拓展路徑里的池化操作來降低特征圖的分辨率。為了解決醫(yī)學(xué)影像中分割目標(biāo)和背景的類別不平衡問題,V-Net還設(shè)計(jì)了新的Dice目標(biāo)函數(shù)。
V-Net 和3D U-Net 都是針對(duì)三維醫(yī)學(xué)影像所直接構(gòu)建的端到端的深度卷積神經(jīng)網(wǎng)絡(luò),目的是運(yùn)用3D 卷積從三維進(jìn)行編碼,以良好的分割某些在二維沒有明顯表征的病理。3D分割算法在利用醫(yī)學(xué)影像的三維組織連通性方面具有優(yōu)勢(shì),但相較2D 分割算法其參數(shù)量更多,訓(xùn)練和推理過程對(duì)設(shè)備的算力要求更高。
2.2.7 自適應(yīng)數(shù)據(jù)集的U-Net算法
醫(yī)學(xué)影像分割領(lǐng)域每年有大量的新方法被提出,但在某個(gè)器官或病理分割任務(wù)中表現(xiàn)優(yōu)秀的網(wǎng)絡(luò),往往無法良好地應(yīng)用在其他器官或病理的分割任務(wù)上,一個(gè)重要的原因是由于醫(yī)學(xué)數(shù)據(jù)集之間的數(shù)據(jù)規(guī)模、圖像大小和灰度表示等方面差別很大,導(dǎo)致了模型推廣的失敗。
nnU-Net 是Isensee 等人[61]于2018 年提出的一個(gè)基于U-Net和3D U-Net的醫(yī)學(xué)影像分割算法框架。nnUNet沒有設(shè)計(jì)新的網(wǎng)絡(luò)架構(gòu),僅對(duì)U-Net和3D U-Net在網(wǎng)絡(luò)的細(xì)節(jié)上進(jìn)行了修改,著重于網(wǎng)絡(luò)訓(xùn)練技巧的優(yōu)化。nnU-Net對(duì)模型的輸入數(shù)據(jù)進(jìn)行裁剪、重采樣、標(biāo)準(zhǔn)化預(yù)處理和數(shù)據(jù)增強(qiáng)后,基于數(shù)據(jù)集的屬性自動(dòng)設(shè)置batch size、patch size等超參數(shù),分別在U-Net、3D U-Net和兩個(gè)3D U-Net級(jí)聯(lián)模型中彼此獨(dú)立地進(jìn)行五折交叉驗(yàn)證訓(xùn)練,得到的5個(gè)網(wǎng)絡(luò)則被用于在模型測(cè)試時(shí)進(jìn)行集成推理。
Perslev 等人[62]于2019 年提出了一種基于多視圖數(shù)據(jù)增強(qiáng)的MPUNet分割模型,訓(xùn)練完成后無需進(jìn)行超參數(shù)調(diào)整即可準(zhǔn)確地完成13個(gè)醫(yī)學(xué)影像分割任務(wù)。如圖11 所示,通過從醫(yī)學(xué)3D 影像的多個(gè)視圖進(jìn)行各向同性采樣,獲取到大量與訓(xùn)練相關(guān)的解剖學(xué)圖像,進(jìn)行數(shù)據(jù)增強(qiáng)后輸入到6 個(gè)2D U-Net 網(wǎng)絡(luò)中進(jìn)行分割訓(xùn)練,最后對(duì)6 個(gè)網(wǎng)絡(luò)的分割結(jié)果進(jìn)行交叉驗(yàn)證以完成模型的融合。MPUNet 既考慮了醫(yī)學(xué)影像的3D 性質(zhì),又保持了2D 模型的分割效率,且只進(jìn)行了很少的預(yù)處理和后處理,就能很好地適應(yīng)不同大小、形狀和空間分布的目標(biāo)分割任務(wù)。
圖11 MPUNet模型概述
nnU-Net 和MPUNet 通過簡單地使用U-Net 與3D U-Net網(wǎng)絡(luò)架構(gòu),可以動(dòng)態(tài)地適應(yīng)不同的醫(yī)學(xué)影像數(shù)據(jù)集,在大部分醫(yī)學(xué)影像分割任務(wù)中取得了非常好的成績,證實(shí)了該類算法框架的魯棒性,但目前來說該類網(wǎng)絡(luò)的訓(xùn)練時(shí)間過長,離最終的臨床應(yīng)用目標(biāo)有所偏離。
2.2.8 基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的U-Net算法
深度神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用在計(jì)算機(jī)視覺任務(wù)中并取得了很大成功,然而神經(jīng)網(wǎng)絡(luò)架構(gòu)的輕量化仍然是一個(gè)巨大的挑戰(zhàn)。針對(duì)這一問題,模型壓縮技術(shù)引起了研究人員的廣泛關(guān)注,相關(guān)的研究包括手工設(shè)計(jì)輕量化網(wǎng)絡(luò)模型[63-64]、知識(shí)蒸餾[65]、深度壓縮[66]和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索[67](NAS)等。其中由于NAS 可模塊化應(yīng)用的特點(diǎn),被較多地運(yùn)用在U-Net算法的改進(jìn)上。NAS是一種自動(dòng)化機(jī)器學(xué)習(xí)技術(shù),通過定義搜索空間、搜索策略和性能評(píng)估策略,旨在讓網(wǎng)絡(luò)自動(dòng)發(fā)現(xiàn)運(yùn)行效率更高的輕量化架構(gòu)。早期的NAS 研究,搜索空間為整個(gè)網(wǎng)絡(luò)架構(gòu),搜索策略包括強(qiáng)化學(xué)習(xí)、進(jìn)化算法和貝葉斯優(yōu)化等方式,因此需要非常高的算力支撐。隨后的NAS 研究主要集中于對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)塊Cell[68],用權(quán)重共享、梯度下降等方式進(jìn)行搜索來加速NAS的過程。
2019年Weng等人[69]首次將NAS應(yīng)用于醫(yī)學(xué)影像分割,通過用NAS搜索到的Cell替換U-Net網(wǎng)絡(luò)中的對(duì)應(yīng)模塊,得到了NAS-UNet 網(wǎng)絡(luò)架構(gòu)。如圖12 所示,Cell的內(nèi)部結(jié)構(gòu)為一個(gè)有向無環(huán)圖,每一個(gè)Cell的輸入為前兩個(gè)Cell 的輸出,圖的邊代表了搜索空間,分別為下采樣操作集、上采樣操作集與普通卷積操作集。NAS的搜索過程轉(zhuǎn)化成了一個(gè)有向無環(huán)圖里面選擇子圖的過程,而子圖權(quán)重共享的方式能有效地加速NAS,完成搜索后將各個(gè)中間節(jié)點(diǎn)的輸出疊加作為Cell 的輸出。以Cell堆疊構(gòu)成的NAS-UNet 網(wǎng)絡(luò),參數(shù)量僅為U-Net 網(wǎng)絡(luò)的6%,卻在多個(gè)醫(yī)學(xué)影像數(shù)據(jù)集上取得了更高的分割精度。
圖12 NAS-UNet中Cell的結(jié)構(gòu)圖
Zhu等人[70]于2019年提出的V-NAS網(wǎng)絡(luò)架構(gòu),進(jìn)一步將NAS的搜索空間限定于預(yù)先定義的3種卷積操作,分別為2D、3D 和偽3D 卷積,對(duì)應(yīng)了3 種不同的卷積內(nèi)核。作者利用NAS 對(duì)V-Net 中所有的卷積操作以梯度下降的方式進(jìn)行搜索,讓模型自動(dòng)找到最佳的卷積操作組合,相比V-Net或是其他單一卷積操作的網(wǎng)絡(luò),更好地平衡了模型參數(shù)量和實(shí)際分割表現(xiàn)。
雖然基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的U-Net 算法在一些分割任務(wù)上性能表現(xiàn)突出,但目前NAS 搜索的Cell 大多是相對(duì)簡單的網(wǎng)絡(luò)操作與激活函數(shù)的排列組合,且無法解釋特定網(wǎng)絡(luò)架構(gòu)表現(xiàn)良好的原因。
U-Net 網(wǎng)絡(luò)架構(gòu)自發(fā)表以來,成為了大多數(shù)醫(yī)學(xué)影像分割算法的基線模型,啟發(fā)了大量研究者去思考U型分割網(wǎng)絡(luò),與此同時(shí)也有部分研究者針對(duì)醫(yī)學(xué)影像分割中的實(shí)際難點(diǎn),在融合了特定設(shè)計(jì)思想的基礎(chǔ)上,探索并提出了一些不同于U-Net的新型網(wǎng)絡(luò)架構(gòu),本節(jié)從相關(guān)醫(yī)學(xué)影像分割算法的設(shè)計(jì)思想出發(fā),對(duì)其中的研究工作做了介紹,旨在為研究者拓寬思路。
2.3.1 基于多任務(wù)學(xué)習(xí)的算法
當(dāng)前大多數(shù)機(jī)器學(xué)習(xí)任務(wù)都是單任務(wù)學(xué)習(xí),對(duì)于復(fù)雜的學(xué)習(xí)問題一般分解為簡單且相互獨(dú)立的子問題來求解,然后再合并結(jié)果得到最初復(fù)雜問題的結(jié)果,這樣做忽略了問題之間的關(guān)聯(lián)信息,削弱了模型的泛化效果。多任務(wù)學(xué)習(xí)是一種推導(dǎo)遷移學(xué)習(xí)方法,主任務(wù)使用相關(guān)任務(wù)的訓(xùn)練信號(hào)來提升主任務(wù)的泛化效果[71],針對(duì)醫(yī)學(xué)影像分割任務(wù)而言能幫助緩解數(shù)據(jù)標(biāo)注稀疏而引發(fā)的模型過擬合問題。
2018年Mehta等人[72]提出了Y-Net網(wǎng)絡(luò)架構(gòu),在乳腺活檢圖像的分割任務(wù)中,加入乳腺癌圖片的分類任務(wù)。如圖13所示,Y-Net在U-Net的基礎(chǔ)上,引入了殘差網(wǎng)絡(luò)的殘差連接以幫助改善分割效果,同時(shí)添加了第二個(gè)分支用于乳腺癌圖片的分類。首先以分割為目標(biāo)對(duì)Y-Net網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后附加第二條分支共同訓(xùn)練分割和分類任務(wù)。
圖13 Y-Net網(wǎng)絡(luò)架構(gòu)
Murugesan 等人[73]提出了一個(gè)適用于醫(yī)學(xué)影像分割的多任務(wù)學(xué)習(xí)模塊Conv-MCD,該模塊很容易集成到現(xiàn)有的基于深度學(xué)習(xí)的分割網(wǎng)絡(luò)模型中。Conv-MCD 模塊的三個(gè)并行學(xué)習(xí)分支,分別負(fù)責(zé)分割預(yù)測(cè)、輪廓提取和距離圖估計(jì),分割預(yù)測(cè)和輪廓提取屬于分類任務(wù),而距離圖估計(jì)屬于回歸任務(wù)。Conv-MCD 利用多任務(wù)學(xué)習(xí)能有效地處理醫(yī)學(xué)影像的類平衡問題并減輕結(jié)構(gòu)信息的丟失,并且沒有引入額外的標(biāo)注成本。
一般情況下,多任務(wù)學(xué)習(xí)能作為一種正則化方式約束模型從而緩解過擬合問題,但是不合理的任務(wù)設(shè)計(jì)可能導(dǎo)致模型的訓(xùn)練被某些任務(wù)主導(dǎo),異常任務(wù)帶來的負(fù)面影響則會(huì)降低模型的性能。
2.3.2 基于多模態(tài)融合的算法
在醫(yī)學(xué)影像學(xué)研究中,通常會(huì)結(jié)合使用不同的核磁共振成像模式來克服單一成像技術(shù)的局限性。以大腦的分割研究為例,T1 加權(quán)的影像能使灰質(zhì)組織和白質(zhì)組織產(chǎn)生良好的對(duì)比度,而T2 加權(quán)的影像能有助于組織異常病變的可視化,因此考慮多種核磁共振成像方式對(duì)于獲得準(zhǔn)確的診斷結(jié)果至關(guān)重要。
2019 年Dolz 等人[74]在前人的工作基礎(chǔ)上,提出了HyperDenseNet 網(wǎng)絡(luò)架構(gòu),通過融合多模態(tài)圖像進(jìn)行醫(yī)學(xué)影像分割。如圖14所示,HyperDenseNet將密集連接的概念拓展到多模態(tài),網(wǎng)絡(luò)的輸入為T1加權(quán)和T2加權(quán)的三維核磁共振影像,每個(gè)成像模態(tài)都有一條路徑,密集連接不僅存在于同一路徑的各層之間,而且可以跨越不同路徑,以前饋方式將前一層直接連接到后續(xù)所有層,減少模型過擬合的風(fēng)險(xiǎn)。
圖14 HyperDenseNet網(wǎng)絡(luò)架構(gòu)
Kumar 等人[75]在2019 年為融合來自多模態(tài)圖像的互補(bǔ)信息,提出了一個(gè)用于肺癌PET 和CT 圖像分割的多模態(tài)融合網(wǎng)絡(luò)。通過兩條不同的編碼路徑,得到CT圖和PET 圖2D 切片的相關(guān)圖像特征,然后經(jīng)過共同學(xué)習(xí)中間層導(dǎo)出多模態(tài)融合圖PET-CT,以加權(quán)不同位置特定于模態(tài)的特征,最后由重建組件集成來自編碼器不同尺寸的特征圖從而轉(zhuǎn)化為分割圖。
HyperDenseNet等基于多模態(tài)的醫(yī)學(xué)影像分割算法考慮了不同模態(tài)數(shù)據(jù)之間的互補(bǔ)信息,從而有助于網(wǎng)絡(luò)更好地實(shí)現(xiàn)病變或器官的分割,但多模態(tài)的融合效果和分割的精度仍然有待提升。
2.3.3 基于多階段級(jí)聯(lián)的算法
現(xiàn)有的醫(yī)學(xué)影像分割算法大多數(shù)都是單階段算法,通過訓(xùn)練最小化損失函數(shù)來直接將器官或病變等目標(biāo)從圖像中分割出來,而由于醫(yī)學(xué)影像目標(biāo)形態(tài)差異大、組織邊界信息弱等特點(diǎn),會(huì)導(dǎo)致相對(duì)較小的目標(biāo)在其邊界附近出現(xiàn)不準(zhǔn)確的分割。
2018 年Roth 等人[76]提出了一種多階段級(jí)聯(lián)的3D U-Net,使模型更多地關(guān)注分割目標(biāo)的邊界區(qū)域,輸出更精細(xì)的分割圖。如圖15所示,作者采用了3D U-Net作為模型的骨干網(wǎng)絡(luò),第一階段3D U-Net 使用基于形態(tài)學(xué)方法分割出的候選區(qū)域C1 進(jìn)行訓(xùn)練,以輸出粗粒度分割圖,粗粒度分割圖經(jīng)過前景擴(kuò)張后生成候選區(qū)域C2,用于第二階段3D U-Net 的訓(xùn)練從而輸出最終的精細(xì)分割圖。
圖15 多階段級(jí)聯(lián)的3D U-Net訓(xùn)練流圖
Wang 等人[77]提出的級(jí)聯(lián)各向異性卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)腦腫瘤的多階段分割。如圖16 所示,該分割框架由三個(gè)級(jí)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)組成,作者稱之為W-Net、T-Net和E-Net。W-Net從患者的3D影像中提取出整個(gè)腫瘤的邊界框,基于邊界框?qū)斎雸D像進(jìn)行裁剪后作為T-Net的輸入,以得到腫瘤核心區(qū)域的邊界框,進(jìn)而輸入到E-Net 分割出腫瘤的核心區(qū)域。網(wǎng)絡(luò)通過將3×3×3的卷積核分解為3×3×1和1×1×3的切片內(nèi)核,利用了各向異性卷積結(jié)合多視圖融合的方法,以解決腫瘤的過度分割問題。
圖16 多階段級(jí)聯(lián)的腦腫瘤分割框架
這類由粗到細(xì)的多階段級(jí)聯(lián)網(wǎng)絡(luò),相比單階段算法雖然在檢測(cè)小目標(biāo)方面更具優(yōu)勢(shì),但增加了額外的計(jì)算成本,在檢測(cè)的實(shí)時(shí)性上需要改善。
2.3.4 基于特征增強(qiáng)的算法
U-Net 編碼-解碼的體系結(jié)構(gòu)推動(dòng)了醫(yī)學(xué)影像分割的發(fā)展,但相似的低級(jí)特征在多個(gè)尺度上被多次提取,導(dǎo)致了特征的冗余使用。其次,無法有效地將最佳的特征表示與每個(gè)分割類別相關(guān)聯(lián)。
2020 年Sinha 等人[78]提出的MS-Dual-Guided 網(wǎng)絡(luò),自適應(yīng)地集成了局部特征和全局依賴以進(jìn)行特征增強(qiáng)。如圖17 所示,MS-Dual-Guided 中的位置注意力模塊(PAM)和通道注意力模塊(CAM)分別模擬空間和通道維度中的語義依賴性。位置注意力模塊中的前兩個(gè)分支計(jì)算位置間的相關(guān)性矩陣,再與第三條分支相乘得到空間注意力圖來指導(dǎo)輸入。通道注意力模塊與位置注意力模塊類似,但其輸入不經(jīng)過卷積層,以保持通道間的相對(duì)特征,最后將兩個(gè)注意力模塊的輸出匯總,以獲得更好的像素級(jí)預(yù)測(cè)結(jié)果。
圖17 MS-Dual-Guided中的注意力模塊
針對(duì)卷積和池化操作可能導(dǎo)致的空間特征丟失問題,2019 年Gu 等人[79]提出了一種上下文編碼網(wǎng)絡(luò)CENet,來保留特征的空間信息并捕獲更多高級(jí)特征。如圖18 所示,CE-Net 主要包含三個(gè)組件:特征編碼器模塊、上下文提取模塊和特征解碼器模塊。特征編碼器模塊由預(yù)訓(xùn)練的ResNet 組成,上下文提取模塊由密集空洞卷積塊(DAC)和殘差多核池化塊(RMP)組成??斩淳矸e塊能夠提取各個(gè)尺寸的目標(biāo)特征,殘差多核池化塊使用四個(gè)不同大小的池化核并聯(lián)以檢測(cè)不同大小的目標(biāo)。特征解碼器模塊用于恢復(fù)特征編碼器中的高分辨率特征,輸出與輸入圖像大小相同的分割圖。
圖18 CE-Net網(wǎng)絡(luò)架構(gòu)
基于特征增強(qiáng)的醫(yī)學(xué)影像分割算法較好地保留了輸入圖片的原始特征,并且通過特定的網(wǎng)絡(luò)設(shè)計(jì)最大化提取了特征信息,存在的缺點(diǎn)是人工痕跡太明顯,且無法良好地泛化到不同類型的分割任務(wù)中。
從網(wǎng)絡(luò)架構(gòu)的主要思想、關(guān)鍵技術(shù)、優(yōu)缺點(diǎn)及其主要功能對(duì)上述算法框架的綜合總結(jié)如表1所示。
表1 醫(yī)學(xué)影像分割領(lǐng)域的代表性算法
在醫(yī)學(xué)影像分割領(lǐng)域的實(shí)踐中,大部分情況下一個(gè)網(wǎng)絡(luò)模型的訓(xùn)練需要許多已標(biāo)注數(shù)據(jù)的輸入,而不同的算法框架也需要一個(gè)共同的數(shù)據(jù)集來判斷性能的優(yōu)劣?,F(xiàn)實(shí)中,個(gè)人收集一個(gè)較大且有標(biāo)注的醫(yī)學(xué)影像數(shù)據(jù)集難度很大,一方面需要大量的時(shí)間和專業(yè)領(lǐng)域的知識(shí),另一方面醫(yī)療機(jī)構(gòu)出于隱私保護(hù)等問題很少會(huì)開放相關(guān)醫(yī)學(xué)影像數(shù)據(jù),因此可供研究人員利用的數(shù)據(jù)集大部分是知名研究團(tuán)隊(duì)聯(lián)合有關(guān)醫(yī)療機(jī)構(gòu)開源發(fā)布的。表2 從數(shù)據(jù)集的所屬器官部位、開放年份、具體內(nèi)容和成像模態(tài)等方面,對(duì)醫(yī)學(xué)影像分割領(lǐng)域常用的數(shù)據(jù)集進(jìn)行了劃分整理。
從成像模態(tài)的角度,相機(jī)成像一般只適用于可以非創(chuàng)傷直接觀察的器官部位,是深度學(xué)習(xí)早期應(yīng)用于醫(yī)學(xué)影像分割任務(wù)的主要成像方式。X光和CT對(duì)以骨質(zhì)及肺臟等空腔臟器的成像效果很好,同時(shí)成像速度快,器官部位的運(yùn)動(dòng)偽影較小。MRI 與CT 比較,其主要優(yōu)點(diǎn)是對(duì)軟組織的分辨更加清晰,更容易明確腫瘤等一類小的病灶,但成像速度慢,所以對(duì)于大腦、前列腺等相對(duì)靜止的器官部位應(yīng)用更多。
從器官部位的角度,視網(wǎng)膜血管和皮膚黑色素瘤的分割目標(biāo)相對(duì)分散,但由于其成像比較準(zhǔn)確直觀,因此其分割難度相對(duì)較低,基于編碼解碼的FCN和U-Net算法就可以較為理想地分割出目標(biāo)。前列腺和心臟的分割任務(wù)為對(duì)器官部位的提取,目標(biāo)相對(duì)較大,其中前列腺的成像邊界相對(duì)模糊、強(qiáng)度分布不均勻,而心臟是一個(gè)不停運(yùn)作的器官,其內(nèi)部解剖結(jié)構(gòu)復(fù)雜且相位會(huì)產(chǎn)生變化,因而考慮到注意力機(jī)制和特征增強(qiáng)的算法會(huì)取得更好的分割效果。乳腺、肺、肝臟、脾臟、腎臟和大腦等器官部位主要是對(duì)腫物或病灶的分割,分割目標(biāo)相對(duì)病變的器官部位來說占比較小,往往形狀不規(guī)則、形變較大且會(huì)跨越多個(gè)切片,因此應(yīng)用多階段分割、多模態(tài)融合、RNN 和3D 分割的算法能夠更精細(xì)地分割出目標(biāo),模型也會(huì)更加復(fù)雜。胰腺和多器官的分割是目前更具挑戰(zhàn)性的問題,盡管胰腺附近的腹部器官已經(jīng)可以被分割得較好,但由于胰腺?zèng)]有包膜所以邊界很不清楚,多器官分割的難點(diǎn)則在于需要分割的目標(biāo)尺寸不一致、相鄰器官的空間界限難以確認(rèn)以及不同器官分割訓(xùn)練時(shí)存在的對(duì)抗性,考慮到多視圖信息、模型融合的數(shù)據(jù)集自適應(yīng)算法是目前解決這類問題的主流算法。
表2 醫(yī)學(xué)影像分割領(lǐng)域常用數(shù)據(jù)集
為了公平地比較圖像分割領(lǐng)域中的不同算法,必須有標(biāo)準(zhǔn)的、被廣泛認(rèn)可的指標(biāo)用于評(píng)估。常用的醫(yī)學(xué)影像分割算法評(píng)估標(biāo)準(zhǔn)有精確率(accuracy)、召回率(recall)、特異率(specificity)、Dice系數(shù)(Dice coefficient)和Jaccard指數(shù)(Jaccard index)。
以圖19 為例進(jìn)行說明,A 為一張醫(yī)學(xué)影像的真實(shí)標(biāo)注,B 為分割模型的預(yù)測(cè)結(jié)果,則準(zhǔn)確率AC、召回率SE、特異率SP、Dice 系數(shù)DSC 和Jaccard 指數(shù)JAC 分別表示為:
圖19 醫(yī)學(xué)影像分割結(jié)果示例
準(zhǔn)確率是預(yù)測(cè)正確的像素占總像素的百分比,在類別不平衡的情況下,并不能作為很好的指標(biāo)來衡量分割結(jié)果。召回率又稱敏感率(sensitivity),只關(guān)注真實(shí)標(biāo)注被正確預(yù)測(cè)的比例,而特異率的關(guān)注則剛好相反,這兩種指標(biāo)對(duì)分割目標(biāo)的大小比較敏感。Dice 系數(shù)是醫(yī)學(xué)影像分割任務(wù)中最常用的評(píng)價(jià)指標(biāo),能較好地規(guī)避醫(yī)學(xué)影像領(lǐng)域中普遍存在的類別不平衡問題。Jaccard 指數(shù)又稱交并比(IoU),它與Dice系數(shù)的關(guān)系為:
實(shí)際應(yīng)用中,往往會(huì)根據(jù)需求對(duì)上述評(píng)價(jià)指標(biāo)進(jìn)行取舍,從多個(gè)維度證明分割算法的準(zhǔn)確性和穩(wěn)定性。
本文闡述了醫(yī)學(xué)影像分割的任務(wù)及其難點(diǎn),對(duì)于深度學(xué)習(xí)下的醫(yī)學(xué)影像分割算法進(jìn)行了綜述,介紹了醫(yī)學(xué)影像分割領(lǐng)域的研究現(xiàn)狀、相關(guān)評(píng)價(jià)指標(biāo)和數(shù)據(jù)集??偟膩碚f,基于深度學(xué)習(xí)的醫(yī)學(xué)影像分割在未來將發(fā)揮實(shí)質(zhì)性的作用,但該技術(shù)的落地還存在以下亟待研究的問題:
(1)分割網(wǎng)絡(luò)架構(gòu)的輕量化。對(duì)于現(xiàn)階段的醫(yī)學(xué)影像分割網(wǎng)絡(luò)架構(gòu)來說,進(jìn)行模型壓縮以減少對(duì)硬件設(shè)備的算力需求是需要考慮的實(shí)際問題。模型壓縮現(xiàn)有的研究方向包括手工設(shè)計(jì)、知識(shí)蒸餾、深度壓縮和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索等,醫(yī)學(xué)影像分割領(lǐng)域也有針對(duì)模型壓縮的部分研究工作,如使用3D 空洞卷積的多尺度腦腫瘤分割[80]、基于知識(shí)蒸餾的腦腫瘤分割[81]、基于權(quán)重量化的腺體細(xì)胞分割[82]和基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的頭頸腫瘤分割[83]等,但這些研究尚處于起步階段,神經(jīng)網(wǎng)絡(luò)模型在嵌入式設(shè)備上的存儲(chǔ)與計(jì)算仍然是一個(gè)未解決的難點(diǎn)。在保證準(zhǔn)確率和穩(wěn)定性的同時(shí)壓縮模型,實(shí)現(xiàn)醫(yī)學(xué)影像的實(shí)時(shí)分割將會(huì)是未來研究的重點(diǎn)。
(2)分割結(jié)果的不確定性分析。不確定性分析目的是讓模型給出分割結(jié)果的同時(shí),指出哪些是不確定的分割,需要人工介入修正。雖然有少數(shù)研究工作[84]探索了不確定性分析在醫(yī)學(xué)影像分割中的作用,但現(xiàn)階段的大多數(shù)醫(yī)學(xué)影像分割算法只輸出確定性的分割圖。允許醫(yī)生能夠根據(jù)模型預(yù)測(cè)的不確定性分割結(jié)果進(jìn)行修改,提升分割的結(jié)果和質(zhì)量,這是理論與實(shí)際場(chǎng)景結(jié)合的重要環(huán)節(jié),也是醫(yī)學(xué)影像分割算法值得進(jìn)一步研究的問題。
(3)稀疏標(biāo)注下的弱監(jiān)督學(xué)習(xí)。盡管深度學(xué)習(xí)下的醫(yī)學(xué)影像分割算法不斷達(dá)到更高的分割精度,但仍然離不開大規(guī)模的高質(zhì)量標(biāo)注數(shù)據(jù)集支持,因此有不少研究人員嘗試?yán)梦礃?biāo)注和稀疏標(biāo)注的數(shù)據(jù)進(jìn)行弱監(jiān)督學(xué)習(xí),如基于著色還原的皮膚分割[85]、基于點(diǎn)注釋的細(xì)胞核分割[86]等,但完成的分割任務(wù)相對(duì)簡單且算法無法擴(kuò)展到其他分割任務(wù)。如何實(shí)現(xiàn)大量標(biāo)注不完善的數(shù)據(jù)集的弱監(jiān)督學(xué)習(xí),在自然圖像和醫(yī)學(xué)影像未來的研究中都尤為重要。
(4)小數(shù)據(jù)集下的數(shù)據(jù)增強(qiáng)。克服醫(yī)學(xué)影像標(biāo)注稀缺的另一種手段就是數(shù)據(jù)增強(qiáng),為深度模型擴(kuò)充訓(xùn)練集。傳統(tǒng)的方法包括幾何變換、顏色變換、仿射變換和高斯噪聲等,這類方法取得的效果相對(duì)有限?;谏疃葘W(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò)[87]在自然圖像的生成任務(wù)中表現(xiàn)突出,也有部分研究工作[88]將其應(yīng)用于醫(yī)學(xué)影像分割模型的數(shù)據(jù)增強(qiáng)中,其他方法還有基于超像素的數(shù)據(jù)增強(qiáng)[89]、基于無監(jiān)督的數(shù)據(jù)增強(qiáng)[90]等,但該類方法都存在生成的數(shù)據(jù)分布差、算法適用范圍有限等缺點(diǎn)。因此,設(shè)計(jì)合理且泛化效果好的醫(yī)學(xué)影像數(shù)據(jù)增強(qiáng)算法,將會(huì)是未來發(fā)展的趨勢(shì)。
(5)融合先驗(yàn)知識(shí)的分割算法設(shè)計(jì)。醫(yī)學(xué)影像分割不同于自然圖像分割,即使是同一張醫(yī)療影像,不同經(jīng)驗(yàn)的專家也可能給出不同的診斷,有經(jīng)驗(yàn)的專家更能快速地找出器官和病變,這表明先驗(yàn)知識(shí)在醫(yī)學(xué)診斷中占了很大比重。針對(duì)這個(gè)現(xiàn)象,根據(jù)醫(yī)學(xué)影像中不同對(duì)象的灰度分布情況、解剖知識(shí)和空間幾何關(guān)系以及不同成像設(shè)備的特點(diǎn),融合先驗(yàn)知識(shí)指導(dǎo)模型結(jié)構(gòu)和損失函數(shù)設(shè)計(jì),應(yīng)當(dāng)是未來的研究方向。