曹路洋,李建微
(福州大學(xué) 物理與信息工程學(xué)院,福州 350116)
胰腺癌是一種具有高惡性程度的消化系統(tǒng)腫瘤,早期診斷異常困難,且侵襲速度極快,其中約90%起源于導(dǎo)管腺癌[1,2].據(jù)美國癌癥中心最新統(tǒng)計數(shù)據(jù)顯示,近5年胰腺癌生存率僅為10%[3].臨床手術(shù)切除是較為有效的治愈方案,術(shù)前醫(yī)生需要對病人的CT、MRI等醫(yī)學(xué)影像進(jìn)行逐層描繪,將二維切片在人腦中逐層轉(zhuǎn)化為三維立體影像,從而獲得病理組織與其周圍器官組織的空間關(guān)系,這需要醫(yī)生具有豐富的讀片經(jīng)驗以及較強的三維空間想象能力,且需要投入大量的時間和精力[4].影像中的偽影、氣影等也會產(chǎn)生一定的噪聲干擾,影響醫(yī)生的判斷[5],并且不同醫(yī)生之間的診斷結(jié)果不具有客觀一致性,容易因疲勞或經(jīng)驗不足造成誤判[4,6].
因此,為實現(xiàn)醫(yī)學(xué)影像中目標(biāo)器官的快速有效分割,研究者提出了基于閾值的圖像分割方法[7],基于區(qū)域的圖像分割方法[8-10]以及基于邊緣的圖像分割方法[11,12],但傳統(tǒng)方案在胰腺醫(yī)學(xué)圖像分割實驗中出現(xiàn)了較大的弊端.由于胰腺在影像序列中占比較小、形態(tài)個體特異性強且組織邊緣灰度像素不均[13-17],而傳統(tǒng)分割方案需要過多的人工介入完成目標(biāo)提取,自我學(xué)習(xí)能力較弱,不具備抵抗偽影、氣影等噪聲干擾的能力,導(dǎo)致胰腺的語義分割結(jié)果較差.
針對傳統(tǒng)方法遇到的問題,研究者開始將深度學(xué)習(xí)引入醫(yī)學(xué)圖像分割領(lǐng)域.相比于依賴數(shù)學(xué)模型的表層學(xué)習(xí),深度學(xué)習(xí)減少了人為干擾,能夠?qū)W習(xí)到更抽象、更高維的特征,具有優(yōu)異的特征學(xué)習(xí)能力,快速高效的實現(xiàn)病灶區(qū)域檢測、病灶分割和分類.目前,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割方案已經(jīng)應(yīng)用到各個腹部器官,如肝臟、腎臟、脾臟等,其分割結(jié)果的DSC系數(shù)已經(jīng)達(dá)到95%以上[18]但在胰腺這類小器官的語義分割上,平均DSC系數(shù)仍然不能突破90%[19,20].截止2021年8月25日,本文在Web of Science上通過“胰腺”與“分割”兩個關(guān)鍵詞進(jìn)行初篩,排除眼科、血液學(xué)、社會學(xué)等不相關(guān)領(lǐng)域,共獲得文獻(xiàn)278篇,其中綜述性文章10篇,與深度學(xué)習(xí)相關(guān)綜述類文獻(xiàn)3篇.Yao等人[21]綜述了2019年之前的胰腺分割方法,分為基于圖譜、區(qū)域、邊緣、神經(jīng)網(wǎng)絡(luò)以及其他五大類別,涵蓋面較廣,但對基于神經(jīng)網(wǎng)絡(luò)的分割方案評述較少,無法構(gòu)建神經(jīng)網(wǎng)絡(luò)在胰腺醫(yī)學(xué)圖像分割領(lǐng)域的系統(tǒng)性認(rèn)知體系.Kumar等人[22]將檢索到的胰腺自動分割相關(guān)文獻(xiàn)基于不同的算法進(jìn)行四元分類,對每類文獻(xiàn)的DSC以及Jaccard系數(shù)加權(quán)平均后進(jìn)行多維度比較,但相關(guān)文獻(xiàn)年限截止到2019年,缺乏近幾年的文獻(xiàn)評述,并且同樣缺少基于深度學(xué)習(xí)的胰腺醫(yī)學(xué)圖像分割方案的系統(tǒng)化總結(jié).Rehman等人[23]對基于深度學(xué)習(xí)的腹部器官分割方法進(jìn)行了系統(tǒng)性綜述,包括肝臟、腎臟、胰腺和胃,胰腺部分只粗略介紹了6篇具有代表性的分割方案,無法獲得更多相關(guān)信息.目前尚未檢索到中文的基于深度學(xué)習(xí)的胰腺分割綜述,因此現(xiàn)有文獻(xiàn)情況表明基于深度學(xué)習(xí)的胰腺分割領(lǐng)域探索性研究文章較少且缺乏系統(tǒng)性的總結(jié)性的文獻(xiàn).為解決上述問題,本文總結(jié)了近五年來基于深度學(xué)習(xí)的胰腺分割方案,內(nèi)容分5個章節(jié)展開,梳理了常用的胰腺分割數(shù)據(jù)集,并對胰腺的深度學(xué)習(xí)分割方法進(jìn)行了較為詳盡的分類與總結(jié),重點介紹了每種分割網(wǎng)絡(luò)的原理、基本思想、網(wǎng)絡(luò)架構(gòu),評述了方案的優(yōu)缺點,并在統(tǒng)一評價指標(biāo)上進(jìn)行分割精度的比較.最后本文提出了現(xiàn)有的基于深度學(xué)習(xí)的胰腺分割方法存在的問題,并對未來的研究趨勢進(jìn)行了展望.
深度學(xué)習(xí)的模型構(gòu)建依賴于大量的標(biāo)記數(shù)據(jù)集,但在醫(yī)學(xué)圖像分割領(lǐng)域,數(shù)據(jù)稀缺問題非常嚴(yán)重.計算機科學(xué)家由于沒有專業(yè)的醫(yī)學(xué)知識,醫(yī)療設(shè)備及患者來源的支撐,不能完成批量性質(zhì)的醫(yī)學(xué)數(shù)據(jù)采集,而滿足數(shù)據(jù)采集條件的醫(yī)學(xué)研究者由于數(shù)據(jù)的隱私性以及道德問題不能將采集到的醫(yī)學(xué)影像數(shù)據(jù)進(jìn)行公開發(fā)布,且醫(yī)學(xué)影像人工標(biāo)注的時間成本以及圖像解析成本較為昂貴,限制了短時間內(nèi)大批量生產(chǎn)公開性醫(yī)學(xué)影像數(shù)據(jù)的可能.
為解決這一問題,MICCAI等機構(gòu)收集了大量的醫(yī)學(xué)影像數(shù)據(jù),并在官網(wǎng)上公開發(fā)布,為醫(yī)學(xué)圖像分割提供了強有力的數(shù)據(jù)支持,但即便如此,相較于肝臟、肺等常見的腹部器官,可公開的帶有標(biāo)注的胰腺數(shù)據(jù)集仍然稀缺,目前只有NIH胰腺分割數(shù)據(jù)集以及醫(yī)學(xué)影像十項全能數(shù)據(jù)集為可公開使用的胰腺醫(yī)學(xué)影像數(shù)據(jù),如表1所示.
表1 胰腺分割數(shù)據(jù)庫
NIH胰腺分割數(shù)據(jù)集[24](NIH-82)包含來自80名受試者的82次腹部增強三維CT掃描(門靜脈造影劑注射后70秒),其中男性53名、女性27名.65名受試者沒有大范圍的胰腺器官病變或腹腔器官病變,17名受試者接受了腎臟切除手術(shù)的術(shù)前掃秒,為健康的器官捐贈者.CT體積大小為512×512×D,其中D∈[181,466],表示沿人體長軸方向的切片樣本數(shù)量,厚度從0.5毫米到1.0毫米不等,一名醫(yī)學(xué)生逐層對胰腺切片進(jìn)行了人工手動標(biāo)記,并由經(jīng)驗豐富的放射科醫(yī)生進(jìn)行檢驗和修正.該數(shù)據(jù)集是公開可用的,并且廣泛用于對胰腺CT分割框架進(jìn)行性能評估.
醫(yī)學(xué)影像十項全能公開數(shù)據(jù)集[25]包含10類腹部器官,其中Task07_Pancreas公開數(shù)據(jù)集由接受胰腺腫塊(導(dǎo)管內(nèi)粘液瘤、胰腺神經(jīng)內(nèi)分泌腫瘤或胰腺導(dǎo)管腺癌)切除術(shù)的患者組成,共有420個3D CT掃描序列,其中含有真實標(biāo)記的樣例數(shù)量為281例、測試樣例數(shù)量為139例.空間分辨率等于512×512像素,胰腺和胰腺腫塊(囊腫或腫瘤)由腹部放射學(xué)專家使用Scout應(yīng)用程序?qū)γ繌堃认貱T切片進(jìn)行手動注釋.
除了以上兩種帶有標(biāo)記的公開數(shù)據(jù)集外,其他胰腺數(shù)據(jù)集基本為私有數(shù)據(jù)集,由研究者自行采集與標(biāo)記.此外,由于CT影像數(shù)據(jù)成像便捷且成本較低,相較于MRI影像數(shù)據(jù),胰腺的CT影像數(shù)據(jù)使用頻次更多.
胰腺的醫(yī)學(xué)影像既可呈現(xiàn)為三維體數(shù)據(jù)也可延固定軸向切分為多個二維圖像片層展現(xiàn),因此卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入維度具有高度的靈活性,這也使網(wǎng)絡(luò)的卷積形式產(chǎn)生多樣性.受計算機設(shè)備限制,目前應(yīng)用最多的為二維卷積,二維卷積運算量較小,網(wǎng)絡(luò)更容易實現(xiàn)輕量化與高效化,但由于二維卷積容易忽視片間特征關(guān)系,需要通過輔助手段對片間關(guān)系進(jìn)行學(xué)習(xí).三維卷積克服了建模片間關(guān)系的難題,但由于增加了一個維度,計算量也呈指數(shù)型增長.因此三維卷積特征提取能力雖然優(yōu)于二維卷積,但要求顯卡有較大的內(nèi)存量.偽三維卷積能在減少計算量的同時實現(xiàn)三維卷積片間建模功能.但采用該種卷積方式的模型泛化能力較差,尤其在標(biāo)記數(shù)據(jù)量稀缺的胰腺分割場景中,偽三維卷積不能呈現(xiàn)明顯的優(yōu)勢.3.1節(jié)-3.3節(jié)將對此展開詳細(xì)介紹.
近年來基于二維數(shù)據(jù)的深度學(xué)習(xí)胰腺分割方法較為普遍[32,33],將CT圖像的三維體積數(shù)據(jù)沿不同軸向分解為二維CT切片,單張切片在神經(jīng)網(wǎng)絡(luò)中進(jìn)行逐像素分類,進(jìn)而得到單層切片的分割結(jié)果,隨后集成冠狀面,矢狀面以及橫斷面的全局切片分割結(jié)果即可構(gòu)建胰腺的三維模型.但二維切片分割方案普遍通過提高單張切片的分割精度來提高胰腺三維數(shù)據(jù)的分割精度.由于胰腺切片間具有序列關(guān)系,僅依靠單張切片的片內(nèi)關(guān)系建模并不能獲取胰腺片間數(shù)據(jù)的非線性關(guān)系,因此二維分割方案往往不能涵蓋胰腺醫(yī)學(xué)圖像序列的全局特征,忽略了胰腺的片間空間連續(xù)性.
Zhou等人[34]將胰腺的三維體數(shù)據(jù)沿冠狀、矢狀和橫斷3個不同軸向拆分為二維片層數(shù)據(jù),為減少胰腺類不平衡問題的影響,首先通過二維卷積網(wǎng)絡(luò)獲取胰腺三維體素的邊界框進(jìn)行ROI剪裁,剪裁過后的切片輸入細(xì)分割網(wǎng)絡(luò)獲得不同軸向單層切片的最終分割,最后獲得胰腺三維立體分割數(shù)據(jù).其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,雖然這種方法大量減少了背景像素干擾,但片間特征交流較少,忽略了胰腺的片間空間連續(xù)性,這也是二維卷積本身的缺陷所在.
圖1 Zhou等人的網(wǎng)絡(luò)結(jié)構(gòu)[34]
Fu等[35]同樣采用二維卷積對胰腺切片進(jìn)行處理,但與Zhou等人不同的是,F(xiàn)u等將不同卷積層的胰腺特征圖進(jìn)行融合,并通過多層上采樣結(jié)構(gòu)還原胰腺的多尺度信息來提高網(wǎng)絡(luò)對胰腺單層片層特征的學(xué)習(xí)能力.這種方法雖然增強了不同特征圖間的交流,能夠獲取單張切片分割過程中的上下文信息,但同樣沒有關(guān)注胰腺CT序列本身的三維時序信息.
綜上所述,雖然在二維片層胰腺分割中可以通過不同的方法增強胰腺數(shù)據(jù)片內(nèi)特征的學(xué)習(xí),但處理單張切片的2D網(wǎng)絡(luò)會忽略相鄰切片之間的胰腺三維空間特征關(guān)系[4].這阻礙了胰腺片層間時序特征的提取,限制了網(wǎng)絡(luò)分割性能.因此,若采用二維卷積作為網(wǎng)絡(luò)主卷積方式,可設(shè)計時序特征學(xué)習(xí)結(jié)構(gòu)建模胰腺片間關(guān)系,如采用LSTM結(jié)構(gòu)對胰腺序列進(jìn)行卷積處理,或使用少量的三維卷積來增加網(wǎng)絡(luò)對于時序特征的關(guān)注度,進(jìn)而提高網(wǎng)絡(luò)的分割性能.
為使神經(jīng)網(wǎng)絡(luò)能夠捕獲胰腺時序信息,進(jìn)一步學(xué)習(xí)胰腺影像切片間的特征關(guān)系,研究者提出了3D網(wǎng)絡(luò)[36-39],3D網(wǎng)絡(luò)的輸入圖像從單層切片擴展為多層時序切片,卷積維度也從二維擴展為三維,具有時序維度的三維卷積可以對每個影像體塊進(jìn)行卷積操作,從而學(xué)習(xí)胰腺的片間關(guān)系.然而,由于維度的增加,3D網(wǎng)絡(luò)需要占用大量的計算和內(nèi)存資源,因此對設(shè)備要求較高[4].并且現(xiàn)有的3D網(wǎng)絡(luò)深度較淺,不能通過構(gòu)造深層網(wǎng)絡(luò)來提取胰腺醫(yī)學(xué)影像的深層語義信息,典型的3D網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
圖2 3D網(wǎng)絡(luò)結(jié)構(gòu)[40]
Oktay[38]采用的是典型的3D UNet架構(gòu),雖然其提出的注意力機制使網(wǎng)絡(luò)分割精度有所提高,但由于3D卷積的介入,盡管基線網(wǎng)絡(luò)深度較淺,模型的計算成本仍然偏高.
為減少三維網(wǎng)絡(luò)的計算量,研究者在使用三維網(wǎng)絡(luò)分割前會采用不同的方案對胰腺位置進(jìn)行定位剪裁,該處理方法能夠在減少網(wǎng)絡(luò)計算量的同時減少胰腺類不平衡問題帶來的影響.Oda等人[41]為保留3D卷積的優(yōu)勢,同時降低設(shè)備內(nèi)存消耗,使用三維FCN提取胰腺的全局特征信息,之后通過回歸森林估計胰腺的邊界框,根據(jù)邊界框內(nèi)的胰腺概率圖集進(jìn)行精細(xì)的胰腺分割,相較于Attention Unet[38],降低了單張切片的學(xué)習(xí)成本,且減少了復(fù)雜多變的背景像素的干擾.Roth等[40]舍棄了傳統(tǒng)的矩形ROI剪裁方案,采用訓(xùn)練的粗分割階段網(wǎng)絡(luò)沿腹部器官邊界框定候選分割區(qū)域,該方案相較于矩形框選方案能大大減少背景像素的干擾,從而為下一個3D訓(xùn)練網(wǎng)絡(luò)減少不必要的學(xué)習(xí)任務(wù),進(jìn)而減少3D網(wǎng)絡(luò)的訓(xùn)練內(nèi)存占用量.然而,Roth等人在輸入前繼續(xù)將候選區(qū)域隨機采樣為多個子體塊,由于每個體塊邊界分割結(jié)果不一致[42],拼接時體塊銜接處不能達(dá)到完全重合,這對于胰腺這類小器官的分割十分不利,因此相較于實驗中的肝臟與脾臟,胰腺DSC結(jié)果最低.He等人[43]為減少三維網(wǎng)絡(luò)的計算量提出了一種引導(dǎo)分割方案,采用馬爾可夫鏈蒙特卡羅(MCMC)來引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)對胰腺的三維圖像進(jìn)行分割,MCMC負(fù)責(zé)在胰腺的先驗空間中選擇胰腺三維體塊,使卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)區(qū)域能夠自適應(yīng)的集中在目標(biāo)像素區(qū)域,訓(xùn)練好的3D-UNet負(fù)責(zé)對預(yù)選體塊進(jìn)行精細(xì)分割,之后逐塊融合獲得胰腺的整體預(yù)測分割結(jié)構(gòu).此引導(dǎo)分割方案雖然優(yōu)于文獻(xiàn)[40,41]的ROI剪裁與邊界剪裁,大大減少了第2階段3D網(wǎng)絡(luò)的計算量,但其依賴于先驗空間預(yù)測的準(zhǔn)確性和MCMC的初始目標(biāo)體塊選擇準(zhǔn)確性,因此仍具有局限.Wang等人[44]設(shè)計了三維胰腺區(qū)域回歸網(wǎng)絡(luò)(PancreasNet)用于檢測胰腺位置,之后在檢測到的目標(biāo)區(qū)域內(nèi)通過兩種尺度的SEVoxNet進(jìn)行注意力機制特征提取以及精細(xì)分割.在經(jīng)過了PancreasNet的胰腺區(qū)域定位后,SEVoxNet的處理速度明顯優(yōu)于文獻(xiàn)[15,39,60]中提出的網(wǎng)絡(luò),以上方案表明三維卷積與定位剪裁相結(jié)合在胰腺語義分割領(lǐng)域具有一定的優(yōu)勢.
Fang等人[16]提出了漸進(jìn)融合網(wǎng)絡(luò),如圖3所示,該網(wǎng)絡(luò)在編碼部分通過三維卷積提取胰腺的三維信息,解碼部分采用二維卷積完成胰腺的單張切片概率預(yù)測,并通過全局引導(dǎo)分支獲取胰腺的全局特征,這種將三維卷積與二維卷積分別用于編碼器與解碼器的分割方式,有效解決了網(wǎng)絡(luò)計算量過大以及單純的二維卷積無法獲取三維時序信息的問題,也為后續(xù)偽三維卷積的應(yīng)用奠定了基礎(chǔ).
圖3 Fang等人網(wǎng)絡(luò)結(jié)構(gòu)[16]
雖然三維卷積網(wǎng)絡(luò)在胰腺的分割上展現(xiàn)了良好的分割性能,但根據(jù)Lai 等人[45]的研究,三維卷積顯著增加了計算成本(2D:51.56分鐘,3D:173.73分鐘),對計算機內(nèi)存消耗量巨大,因此也限制了網(wǎng)絡(luò)深度的增加以及感受野的擴張,無法獲取更深層次的胰腺三維特征.若想采用三維卷積進(jìn)行分割可事先對胰腺醫(yī)學(xué)圖像進(jìn)行ROI剪裁,減少矩陣計算量,也可采用Fang等人[16]的編解碼方式,在三維卷積中加入二維卷積,通過減少卷積維度的方式使網(wǎng)絡(luò)整體的計算量得到降低.
2D卷積忽略了切片間的時序信息,而三維卷積涉及的高維矩陣運算計算成本過高,部分胰腺分割網(wǎng)絡(luò)的感受野與網(wǎng)絡(luò)深度受限.為解決這些問題Giddwani[46]等人引入2P1D卷積,如圖4所示,該卷積用2D卷積與1D卷積的組合卷積形式代替3D卷積,在減少計算量同時增強了模型對時序信息的捕捉能力以及對全局特征的優(yōu)化能力.
圖4 2P1D卷積的可視化視圖[46]
與Giddwani等人[46]不同的是Liu等人[47]通過改變輸入數(shù)據(jù)實現(xiàn)偽三維卷積,通過超像素聚類相似像素區(qū)域,對每個聚類區(qū)域進(jìn)行分類判定獲得胰腺候選區(qū)域.隨后將連續(xù)切片中提取的胰腺候選區(qū)域作為2.5D切片輸入到5個具有不同損失函數(shù)的模糊神經(jīng)網(wǎng)絡(luò),輸出中間切片的胰腺標(biāo)記數(shù)據(jù).該2.5D切片可充分利用相鄰切片信息,同時避免了3D卷積帶來的巨大內(nèi)存消耗.Zhou等人[48]也采用了2.5D切片作為網(wǎng)絡(luò)的輸入數(shù)據(jù),但其獲取方法與Liu等人[47]略微不同,Zhou將中間層的原始圖像與相鄰切片二值化分割結(jié)果結(jié)合從而獲得2.5D切片,該種切片能對中間層的細(xì)分割概率圖進(jìn)行時序維度的分割約束,將該概率圖與對應(yīng)的粗分割概率圖融合卷積后可得到更加精確的的胰腺語義分割.Zhu等人[49]將偽三維卷積與可微分的神經(jīng)網(wǎng)絡(luò)架構(gòu)自動搜素方案結(jié)合,該架構(gòu)可根據(jù)不同的三維胰腺CT體素情況自動搜索合適的卷積核(2D、3D或偽3D)以及網(wǎng)絡(luò)結(jié)構(gòu),能夠在多種模塊中選擇出最優(yōu)的組合方案,該方案也證明了偽三維卷積減少了卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)存消耗,并且保留了更多的胰腺切片間信息以及相較于純2D卷積與3D卷積的有效性.
偽三維卷積可通過改變卷積形式或輸入數(shù)據(jù)形式來實現(xiàn),偽三維卷積的使用可使網(wǎng)絡(luò)具有三維卷積的時序特征提取能力,同時也可減少網(wǎng)絡(luò)的計算量,這不失為一種調(diào)和二維卷積與三維卷積缺陷的方式,但偽三維卷積由于其組合的特殊性,現(xiàn)有的偽三維卷積的應(yīng)用均具有一定的條件限制,如輸入數(shù)據(jù)的限制以及二維三維卷積組合方式的限制等,因此在泛化能力上有待提高.
如表2所示,在卷積方式的改進(jìn)方面,二維卷積雖然參數(shù)量少,但沒有考慮切片間序列特征;三維卷積雖然能使網(wǎng)絡(luò)學(xué)習(xí)基于體積的醫(yī)學(xué)圖像特征,但帶來的巨大計算量會使三維卷積的性價比較低;偽三維卷積雖然在二維卷積與三維卷積中達(dá)到了微妙的平衡,使網(wǎng)絡(luò)能夠在參數(shù)量較少的情況下獲取片間信息,但現(xiàn)有文獻(xiàn)提出的方案均針對特殊的應(yīng)用場景,其泛化能力還有待提升.在胰腺分割的實驗過程中,二維卷積可通過不斷增加網(wǎng)絡(luò)的深度與廣度提升模型單張切片的分割精度,也可通過設(shè)計時序特征提取模塊使網(wǎng)絡(luò)注意到切片間的序列特征;三維卷積可結(jié)合粗細(xì)分割框架提取胰腺位置減少背景信息的干擾,從而減少精細(xì)網(wǎng)絡(luò)分割過程計算量,也可在一定程度上削弱胰腺分割類不平衡問題帶來的影響,但卷積維度的選取同樣需綜合考慮實驗設(shè)備性能,網(wǎng)絡(luò)復(fù)雜程度,胰腺醫(yī)學(xué)圖像數(shù)據(jù)特點等多方因素,才能達(dá)到較為理想的分割結(jié)果.
表2 基于卷積維度的改進(jìn)方案
當(dāng)前胰腺分割算法在網(wǎng)絡(luò)結(jié)構(gòu)上可分為基于UNet網(wǎng)絡(luò)的改進(jìn),基于長短時記憶網(wǎng)絡(luò)的改進(jìn)以及基于生成對抗網(wǎng)絡(luò)的改進(jìn).不同的網(wǎng)絡(luò)框架作用于胰腺醫(yī)學(xué)圖像具有不同的分割效果,UNet框架具有良好的分割穩(wěn)定性,長短時記憶網(wǎng)絡(luò)框架能關(guān)注到胰腺醫(yī)學(xué)影像的各層切片關(guān)系,生成對抗網(wǎng)絡(luò)能有效解決胰腺真實標(biāo)記數(shù)量較少的問題,此外基于以上優(yōu)點研究者也針對胰腺的成像特點以及生理特點制定了不同改進(jìn)方案,4.1節(jié)-4.3節(jié)中將展開詳細(xì)介紹.
UNet網(wǎng)絡(luò)由Ronneberger等[50]在2015年MICCAI會議上提出,主要解決醫(yī)學(xué)圖像中像素級別的分類問題.相對于自然圖像數(shù)據(jù)集,醫(yī)學(xué)影像數(shù)據(jù)集的標(biāo)簽需醫(yī)學(xué)專家進(jìn)行標(biāo)注,具有臨床意義的標(biāo)簽數(shù)據(jù)集較少,涵蓋的病例類別也不夠多,因此過擬合問題在是醫(yī)學(xué)影像分割的常見問題.UNet網(wǎng)絡(luò)可以動態(tài)調(diào)節(jié)每層的channel數(shù)量以及模型深度來減少參數(shù)量,可通過更為輕量級的網(wǎng)絡(luò)完成圖像識別與像素分類,盡量避免訓(xùn)練過程中出現(xiàn)過擬合問題.對醫(yī)學(xué)圖像分割來說,病灶本身的形態(tài)特征與其周圍器官組織的空間位置特征對目標(biāo)分割均有很大的幫助,因此每個尺度的圖像信息都很重要.UNet的跳躍鏈接可解決上采樣過程中高分辨率特征丟失的問題,增大局部特征表達(dá)與全局特征表達(dá),所以UNet網(wǎng)絡(luò)呈現(xiàn)了優(yōu)良的分割性能.基于以上優(yōu)點,Unet網(wǎng)絡(luò)結(jié)構(gòu)經(jīng)常作為胰腺分割網(wǎng)絡(luò)的基本架構(gòu),研究者在此基礎(chǔ)上結(jié)合胰腺特征對Unet網(wǎng)絡(luò)提出了多種改進(jìn)方案.
Oktay等人[38]將注意力門集成到了UNet[50]模型中,提出了Attention UNet,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.注意力門可抑制模型與任務(wù)無關(guān)的部分,同時加強學(xué)習(xí)與任務(wù)有關(guān)的特征.該方案舍棄了在胰腺分割中表現(xiàn)良好的粗細(xì)分割框架,消除了級聯(lián)網(wǎng)絡(luò)對器官進(jìn)行粗分割定位的需要,注意力門具有較高的靈活性與復(fù)用性,可高度集成化至不同的神經(jīng)網(wǎng)絡(luò),因此該方案在不同的數(shù)據(jù)集上均具有良好的表現(xiàn).
圖5 Oktay等人網(wǎng)絡(luò)結(jié)構(gòu)[38]
Lu等人[51]同樣提出了注意力模塊的改進(jìn),與Oktay等人[38]不同的是,CBAM注意力模塊是對通道特征以及空間特征分別進(jìn)行注意力加權(quán),將下采樣過程中提取的特征通過CBAM注意力模塊進(jìn)行過濾后融合至上采樣,保證胰腺高分辨率的細(xì)節(jié)特征不會丟失.此外該方案也改進(jìn)了Unet的卷積模塊,將普通的UNet卷積模塊替換為環(huán)形殘差模塊,有效地利用上下文的空間信息,進(jìn)一步解決網(wǎng)絡(luò)退化問題,確保隨著網(wǎng)絡(luò)深度的加深,提取的胰腺特征圖像仍然可以保留更多的細(xì)節(jié)信息,用于減少胰腺器官邊界模糊帶來的影響.Li等人[52]將仍然將Unet結(jié)構(gòu)作為基線結(jié)構(gòu),但改進(jìn)了網(wǎng)絡(luò)的特征圖輸入方式,將傳統(tǒng)的胰腺三維體數(shù)據(jù)劃分為多個堆棧數(shù)據(jù),代替?zhèn)鹘y(tǒng)的體數(shù)據(jù)輸入到基于堆棧結(jié)構(gòu)的UNet網(wǎng)絡(luò),該結(jié)構(gòu)對每個胰腺堆棧數(shù)據(jù)進(jìn)行建模,獲得胰腺空間維度的局部上下文信息,并通過堆棧結(jié)構(gòu)對胰腺分割結(jié)果進(jìn)行集成,為保證單張胰腺切片的分割精度,使用模型驅(qū)動的正則化策略約束胰腺切片間關(guān)系,并使用滑動窗口算法提高相鄰胰腺切片的分割連續(xù)性,使堆棧數(shù)據(jù)在融合過程中得到更加連續(xù)平滑的分割邊界.
綜上所述,UNet網(wǎng)絡(luò)架構(gòu)由于其穩(wěn)定的分割性能被多種胰腺醫(yī)學(xué)圖像分割方案所采用,但面對胰腺分割這類目標(biāo)區(qū)域較小,器官特征不明顯的醫(yī)學(xué)圖像,仍然會存在過分割與漏分割的缺陷.在實驗過程中可通過以下方案對Unet架構(gòu)進(jìn)行改進(jìn):1)增加Unet的深度與廣度來提升網(wǎng)絡(luò)的分割精度;2)增加注意力機制,如空間注意力、通道注意力等,提升網(wǎng)絡(luò)對于目標(biāo)區(qū)域的關(guān)注度;3)改進(jìn)Unet傳統(tǒng)的卷積方式,例如將傳統(tǒng)卷積替換為殘差卷積、膨脹卷積、深度可分離卷積等來增加網(wǎng)絡(luò)的深度;4)通過級聯(lián)網(wǎng)絡(luò)等優(yōu)化方案對不同的區(qū)域進(jìn)行多尺度建模,進(jìn)行全局聯(lián)合優(yōu)化,使網(wǎng)絡(luò)提取到更多的有用信息,提升UNet的網(wǎng)絡(luò)性能.
長短時記憶(LSTM)網(wǎng)絡(luò)在序列數(shù)據(jù)上有優(yōu)秀的建模能力,擁有長跨度記憶功能,可以有效捕獲序列信息.在基礎(chǔ)的LSTM結(jié)構(gòu)中,元胞狀態(tài)保存了鏈?zhǔn)骄W(wǎng)絡(luò)中的長期狀態(tài)信息,使其相對于傳統(tǒng)RNN展現(xiàn)了更加優(yōu)秀的長期記憶能力.胰腺本身的醫(yī)學(xué)影像具有時序特征,切片間具有一定的非線性關(guān)系,因此不少研究者將LSTM模塊融入到胰腺的分割方案中,用于提取胰腺的時序特征,但由于LSTM需要占用大量的計算資源,因此在網(wǎng)絡(luò)精度提升的同時,網(wǎng)絡(luò)的訓(xùn)練也較為困難,并且它并沒有完全解決RNN的梯度問題,因此在一些研究中[28,53,54],研究者僅將LSTM特性作為單個模塊嵌入網(wǎng)絡(luò)模型內(nèi)提取胰腺序列特征,而不是大范圍采用LSTM作為網(wǎng)絡(luò)的主結(jié)構(gòu).
Cai等人[28]通過CLSTM模塊來解決胰腺CT切片時序特征學(xué)習(xí)的問題,該模塊能夠集成連續(xù)相鄰的切片,對單張切片的標(biāo)記預(yù)測實施空間一致性約束分割.端到端的分割方式可針對上下文特征對CNN的分割結(jié)果進(jìn)行進(jìn)一步優(yōu)化,相鄰切片間的分割結(jié)果將具有空間一致性.在2018年,Cai等人[55]對CLSTM模塊進(jìn)行了進(jìn)一步的優(yōu)化,實驗采用的Bi-direction CLSTM模塊如圖6所示,該結(jié)構(gòu)能夠使分割結(jié)果受到前向切片與后向切片的綜合性約束,進(jìn)一步優(yōu)化胰腺的軸向切片時序特征.受Cai等人的啟發(fā),Jiang等人[31]將Bi-direction CLSTM模塊加入UNet網(wǎng)絡(luò)的跳躍鏈接中,用于提取特征圖不同的時間特征與空間特征,進(jìn)而獲得具有時空相關(guān)性的胰腺多尺度混合特征圖.此外網(wǎng)絡(luò)通過可變形卷積來增強對胰腺復(fù)雜多變的幾何形態(tài)的建模能力,并增加了密集連接模塊,提高特征圖的重復(fù)利用率,訓(xùn)練參數(shù)量大大降低,且緩解了梯度消失問題.
圖6 Bi-direction CLSTM模塊[55]
綜上,基于LSTM的分割框架中,LSTM模塊通常作為主分割網(wǎng)絡(luò)之后的單一優(yōu)化細(xì)分模塊[53].因此在胰腺分割的任務(wù)場景下,LSTM可以作為時序注意力機制集成在基礎(chǔ)網(wǎng)絡(luò)中,利用時序特征對單層切片的分割結(jié)果做空間約束,也可集成在分割網(wǎng)絡(luò)后方,對預(yù)測后的二維切片進(jìn)一步做時序維度的空間平滑處理.事實上,使用LSTM框架分割胰腺醫(yī)學(xué)圖像雖然使網(wǎng)絡(luò)分割性能有所提升,但其計算資源需求量巨大,往往與其提升的精度不成正比.因此當(dāng)胰腺分割網(wǎng)絡(luò)的輕量化重要性大于分割精度重要性時,最好仍選擇傳統(tǒng)的二維卷積,以此降低網(wǎng)絡(luò)對設(shè)備的內(nèi)存需求.
Goodfellow 等人[56]基于博弈論思想提出了一種由判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò)所構(gòu)成的深度學(xué)習(xí)模型——GAN(Generative Adversarial Networks).生成網(wǎng)絡(luò)用來生成接近真實標(biāo)記數(shù)據(jù)的預(yù)測分割數(shù)據(jù),判別網(wǎng)絡(luò)用于判斷輸入數(shù)據(jù)為真實標(biāo)記數(shù)據(jù)或預(yù)測分割數(shù)據(jù),兩種網(wǎng)絡(luò)相互對抗,相互博弈,共同達(dá)到最理想的預(yù)測狀態(tài).目前,胰腺公共數(shù)據(jù)集稀缺問題嚴(yán)重,現(xiàn)有的數(shù)據(jù)集并不能夠提供足量的訓(xùn)練數(shù)據(jù),在訓(xùn)練過程中很容易出現(xiàn)過擬合問題.因此近年來生成對抗網(wǎng)絡(luò)也用在胰腺的醫(yī)學(xué)圖像分割上,解決胰腺醫(yī)學(xué)圖像數(shù)據(jù)量較少的問題.生成對抗網(wǎng)絡(luò)訓(xùn)練過程中可以生成大批的預(yù)測分割數(shù)據(jù),使分割網(wǎng)絡(luò)在較少的源數(shù)據(jù)支持下仍能獲得較為精確的分割結(jié)果.
Ning等人[57]使用生成對抗網(wǎng)絡(luò)的分割框架如圖7所示,其中生成模塊由膨脹卷積自動編碼器模塊(DCAE)與局部長短時記憶模塊(Local-LSTM)組成,DCAE網(wǎng)絡(luò)使用膨脹卷積在不增加計算量的情況下擴大卷積核的感受野,局部長短時記憶模塊(Local-LSTM)根據(jù)片間時空相關(guān)性進(jìn)一步約束胰腺的邊界分割;對抗模塊則基于全局分布來進(jìn)一步指導(dǎo)分割網(wǎng)絡(luò)獲得更加精確的分割結(jié)果.
圖7 Ning等人生成對抗網(wǎng)絡(luò)框架[57]
Khosravan等人(2019)[58]的對抗訓(xùn)練框架由3個網(wǎng)絡(luò)組成,其中生成網(wǎng)絡(luò)為基礎(chǔ)的全卷積網(wǎng)絡(luò),也是胰腺分割的主體網(wǎng)絡(luò).空間語義網(wǎng)絡(luò)為第1個對抗網(wǎng)絡(luò),用于調(diào)節(jié)主分割網(wǎng)絡(luò)在空間維度上的分割性能,而第2個對抗網(wǎng)絡(luò)通過2D投影獲得3D語義信息,在不增加輸入維度以及網(wǎng)絡(luò)卷積復(fù)雜度的情況下,使分割網(wǎng)絡(luò)的分割結(jié)果更接近于胰腺的三維幾何形態(tài).
綜上,采用GAN作為網(wǎng)絡(luò)分割框架具有較高的靈活性,生成網(wǎng)絡(luò)與對抗網(wǎng)絡(luò)均可構(gòu)造不同的網(wǎng)絡(luò)結(jié)構(gòu),且可以采用多個對抗網(wǎng)絡(luò)對生成網(wǎng)絡(luò)的數(shù)據(jù)進(jìn)行調(diào)節(jié)與改進(jìn).如表3所示,雖然生成對抗網(wǎng)絡(luò)分割方案能生成更接近真實標(biāo)記數(shù)據(jù)的胰腺醫(yī)學(xué)圖像,在一定程度上解決了醫(yī)學(xué)圖像數(shù)據(jù)集較少的問題,但胰腺本身就是較難精確分割的器官,生成網(wǎng)絡(luò)與對抗網(wǎng)絡(luò)難以同時達(dá)到最優(yōu)解,因此基于生成對抗網(wǎng)絡(luò)的胰腺分割方案在改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的同時需要對網(wǎng)絡(luò)的損失函數(shù)加以改進(jìn),盡量設(shè)計聯(lián)合優(yōu)化函數(shù)使生成網(wǎng)絡(luò)與對抗網(wǎng)絡(luò)能在訓(xùn)練過程中同時達(dá)到最優(yōu),進(jìn)而使分割網(wǎng)絡(luò)達(dá)到較高的分割精度.
表3 基于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)方案評估結(jié)果
胰腺生理特征使其在影像學(xué)上的表達(dá)具有幾何形態(tài)較小、形狀易變以及邊緣像素模糊等特點,神經(jīng)網(wǎng)絡(luò)在分割過程中將面臨嚴(yán)重的類不平衡、幾何形態(tài)難以學(xué)習(xí)以及邊界像素分割溢出等問題,因此提升胰腺在醫(yī)學(xué)圖像上的特征表達(dá),使胰腺分割網(wǎng)絡(luò)捕捉到關(guān)鍵特征尤為重要.目前的主流分割方案大多采用粗細(xì)分割框架提取目標(biāo)區(qū)域,粗分割階段會對胰腺進(jìn)行粗略的定位或分割,生成胰腺目標(biāo)的候選區(qū)域,該候選區(qū)域提升了胰腺目標(biāo)區(qū)域的整體占比,減少背景像素的干擾.除了粗細(xì)分割方案外,研究者也會通過注意力機制提升胰腺的特征表達(dá)能力,比如空間注意力可提升片內(nèi)特征表達(dá),通道注意力可提升片間特征表達(dá),LSTM模塊可以提升胰腺序列特征的表達(dá)等.5.1節(jié)和5.2節(jié)中將展開詳細(xì)介紹.
由于胰腺在腹腔CT序列中占比較小(<0.5%)[34]在嚴(yán)重的類不平衡的影響下,網(wǎng)絡(luò)容易學(xué)習(xí)到大量無關(guān)的背景像素特征,因此為減少冗余信息對特征學(xué)習(xí)的干擾,研究者們提出了從粗到細(xì)的兩階段胰腺分割框架,以克服單個網(wǎng)絡(luò)的學(xué)習(xí)模式對背景像素的敏感性[34,39-41].該框架下胰腺分割被劃分為兩個階段:第1階段為粗分割,在該階段需完成胰腺區(qū)域定位,獲得目標(biāo)區(qū)域;第2階段為細(xì)分割,在該階段粗分割獲得的目標(biāo)區(qū)域?qū)⒆鳛檩斎霐?shù)據(jù)進(jìn)入細(xì)分割網(wǎng)絡(luò),并在該區(qū)域下執(zhí)行進(jìn)一步的精細(xì)分割.
Roth等人[24]在粗分割階段選用超像素方法生成胰腺的候選區(qū)域,之后將候選區(qū)域?qū)敕指罹W(wǎng)絡(luò)進(jìn)行局部的剪枝細(xì)化,超像素區(qū)域由于其不規(guī)則性,進(jìn)入細(xì)分割網(wǎng)絡(luò)時需要對每個候選區(qū)域進(jìn)行變形處理,由于圖像在一定程度上失真,胰腺的統(tǒng)一特征更加難以學(xué)習(xí),為細(xì)分割造成了干擾,且該方案中超像素候選區(qū)域召回率仍舊存在3%的誤差,變形干擾與召回率誤差限制了該方法的分割性能.Zhou,Zhu等[34,39]利用三維胰腺醫(yī)學(xué)影像訓(xùn)練粗分割網(wǎng)絡(luò)尋找胰腺目標(biāo)邊界框.兩者不同之處在于Zhou等人[34]對冠狀面,矢狀面,橫斷面均進(jìn)行了特征建模,但采用FCN-8s初始化網(wǎng)絡(luò),相較于Zhu等人[39]提出的ResDSN模型,F(xiàn)CN卷積過程中會丟失大部分語義信息,網(wǎng)絡(luò)分割性能較差.與傳統(tǒng)的單細(xì)分網(wǎng)絡(luò)不同,Zhao等[59]采用兩個細(xì)分割網(wǎng)絡(luò)對胰腺分割進(jìn)行細(xì)化.可分割極小目標(biāo)以及可變形度高的器官.在獲得粗分割結(jié)果后,胰腺的候選區(qū)域?qū)⑤斎氲絻蓚€并行的細(xì)分割網(wǎng)絡(luò)從而獲得不同的胰腺預(yù)測結(jié)果,該結(jié)果經(jīng)過邊際投票后與上采樣的粗分割結(jié)果進(jìn)行組合.由于其在訓(xùn)練階段使用標(biāo)簽數(shù)據(jù)獲取胰腺邊界框,與測試階段獲取方式不同,邊界框定位準(zhǔn)確性不能通過網(wǎng)絡(luò)訓(xùn)練階段加以提升,導(dǎo)致分割結(jié)果有一定的局限性.
由于粗細(xì)分割網(wǎng)絡(luò)缺乏全局能量函數(shù)優(yōu)化,且缺少上下文信息,在分割胰腺時兩個階段的分割網(wǎng)絡(luò)無法達(dá)到全局最優(yōu).Yu等人[60]就這類問題提出了一個遞歸顯著性變換網(wǎng)絡(luò),粗分割網(wǎng)絡(luò)用于獲取胰腺的相關(guān)概率圖譜,與原始影像結(jié)合后進(jìn)行區(qū)域剪裁,送入細(xì)分割網(wǎng)絡(luò)對候選區(qū)域進(jìn)行細(xì)分與優(yōu)化,經(jīng)過多次遞歸后,兩個網(wǎng)絡(luò)的經(jīng)過聯(lián)合優(yōu)化達(dá)到全局最優(yōu),獲得更加精確的胰腺分割網(wǎng)絡(luò).與Yu等人解決方法不同的是,Xie等人[61]提出了一種遞歸顯著性變換網(wǎng)絡(luò)(RSTN),顯著性變換模塊將粗分割網(wǎng)絡(luò)的概率圖譜轉(zhuǎn)化為像素權(quán)重,其與輸入圖像合并后由該模塊進(jìn)入細(xì)分割網(wǎng)絡(luò),因此粗細(xì)分割網(wǎng)絡(luò)通過顯著性變換模塊得以連接.由于顯著性變換模塊的可微性,梯度可以反向傳播到整個網(wǎng)絡(luò),使得粗細(xì)分割網(wǎng)絡(luò)可以被聯(lián)合優(yōu)化,迭代的執(zhí)行該分割流程也提高了網(wǎng)絡(luò)的分割精度.Hu[33]等人也加入了顯著性感知模塊,與Xie等人[61]不同的是,該模塊以測地線距離生成胰腺的顯著信息,并通過顯著信息來幫助細(xì)尺度模型意識到胰腺與周圍背景的顯著性區(qū)別,能夠更好的處理胰腺高度可變形外觀,得到更精確的分割結(jié)果.
Man等人[17]提出了一種基于DQN引導(dǎo)的胰腺分割方案,以解決類不平衡以及胰腺分割的非剛性幾何特征難以學(xué)習(xí)的問題.該方案基于切片的上下文自適應(yīng)定位胰腺所在區(qū)域,產(chǎn)生精確且與冗余度低的胰腺定位邊界框,使用可變形卷積來學(xué)習(xí)胰腺的非剛性幾何特征,提高了網(wǎng)絡(luò)對胰腺特征的提取能力.Xue等人[32]提出了級聯(lián)的多任務(wù)引導(dǎo)的3DFCN分割方案,如圖8所示,在粗略分割快速定位后,細(xì)分割網(wǎng)絡(luò)用來進(jìn)行體素分割以及提取胰腺骨架,該骨架包含豐富的胰腺候選區(qū)域信息,經(jīng)過級聯(lián)后胰腺骨架得到多次優(yōu)化,用來引導(dǎo)后續(xù)網(wǎng)絡(luò)進(jìn)行胰腺的精細(xì)分割,骨架引導(dǎo)的分割方法豐富了胰腺CT切片信息,使網(wǎng)更多的專注于胰腺特征學(xué)習(xí).
圖8 Xue等人網(wǎng)絡(luò)結(jié)構(gòu)[32]
與傳統(tǒng)的矩形ROI區(qū)域分割不同,Peng等人[62]采用粗分割網(wǎng)絡(luò)獲取胰腺的輪廓ROI,之后細(xì)分割網(wǎng)絡(luò)只對靠近該區(qū)域的樣本進(jìn)行像素級分類,從而減少網(wǎng)絡(luò)的學(xué)習(xí)參數(shù),減少類不平衡問題帶來的影響.Wang等人[63]對雙階段粗細(xì)分割進(jìn)行了改進(jìn),提出了三階段的胰腺粗細(xì)分割方案,首先通過解剖先驗定位粗略剔除背景區(qū)域;第2階段使用DASUNet進(jìn)行粗略分割,該網(wǎng)絡(luò)可聚合胰腺的跨層次深度特征和并利用Ground Truth進(jìn)行深度監(jiān)督,隨后利用雙向卷積長短時記憶網(wǎng)絡(luò)[64]提取切片上下文信息優(yōu)化分割結(jié)果,并進(jìn)一步利用優(yōu)化結(jié)果進(jìn)行二次背景剔除,進(jìn)一步縮小單張胰腺CT切片的分割區(qū)域,最后利用DASUNet完成胰腺的精細(xì)分割.該網(wǎng)絡(luò)的3種不同的分割階段分別解決了胰腺的類不平衡問題,跨層次特征圖信息提取與信息交流問題以及胰腺影像序列特征學(xué)習(xí)問題,實驗證實每個階段的改進(jìn)均對胰腺分割準(zhǔn)確度的提升有所幫助.
綜上,粗細(xì)分割框架能有效剔除胰腺影像存在的部分冗余信息,削弱類不平衡問題的影響,提升網(wǎng)絡(luò)的訓(xùn)練速度與分割精度.且該分割框架具有較高的靈活性,粗分割與細(xì)分割網(wǎng)絡(luò)可以采用不同的分割方案,包括但不限于超像素,神經(jīng)網(wǎng)絡(luò)等,并且粗細(xì)分割網(wǎng)絡(luò)的組合方式可以采用一對一,一對多,多對多等.相對的,多網(wǎng)絡(luò)分割也是該框架的弊端,通常兩種或兩種以上的網(wǎng)絡(luò)分割方案不能達(dá)到端到端的聯(lián)合優(yōu)化,需要過多的人工干預(yù),且部分方案無法使分割網(wǎng)絡(luò)同時達(dá)到全局最優(yōu),因此具有一定的局限性.
受實驗設(shè)備的限制,當(dāng)網(wǎng)絡(luò)計算量達(dá)到顯卡內(nèi)存承載量時,研究者不能繼續(xù)通過增加網(wǎng)絡(luò)的深度與廣度提高網(wǎng)絡(luò)的分割精度,由于基礎(chǔ)網(wǎng)絡(luò)不能提取更深入的特征和豐富的語義信息,且隨著卷積的增多,層與層之間無法實現(xiàn)更多的特征交流,很容易遺失重要的語義特征.針對該問題部分研究者提出了信息融合策略,通過融合多尺度特征信息,使網(wǎng)絡(luò)能夠捕捉到胰腺的深層特征并突出更多的胰腺顯著性特征.
Li等人[19]將3種跨領(lǐng)域信息融合策略融入到自己的分割網(wǎng)絡(luò)中.第1種策略為UNet的跳躍鏈接,通過跳躍連接向解碼網(wǎng)絡(luò)傳遞編碼網(wǎng)絡(luò)的高分辨率語義信息,有效地抑制過分割與漏分割.第2種策略是殘差網(wǎng)絡(luò),主要是通過小范圍的跨域連接來解決卷積過程的信息丟失問題.第3種為多尺度殘差網(wǎng)絡(luò),在殘差網(wǎng)絡(luò)的基礎(chǔ)上增加了多尺度卷積操作,能夠更準(zhǔn)確地學(xué)習(xí)胰腺形狀,結(jié)合不同的感受野特征圖抑制過分割和欠分割.與Li等人[19]的多尺度策略不同,Giddwani等人[65]通過改變卷積擴張率獲取不同感受野的特征圖,這種集成多擴張率的深度擴張網(wǎng)絡(luò)模塊結(jié)構(gòu)如圖9所示,不同的卷積核擴張率捕獲不同感受野的空間信息,集成不同感受野的信息來實現(xiàn)信息融合,提取每個胰腺CT序列的空間上下文信息.該模塊具有較高的靈活性,能夠集成到網(wǎng)絡(luò)的任意階段.
圖9 深度擴張網(wǎng)絡(luò)模塊[65]
Zhang等人[66]的策略與Giddwani等人[65]不同,他們將信息提取過程由全局空間卷積分割為空間卷積與通道卷積兩個階段,多尺度混合注意力機制如圖10所示,有效捕捉胰腺CT序列的空間信息與通道信息,從而提高網(wǎng)絡(luò)的分割精度.
圖10 多尺度混合注意力機制[66]
Li等人[20]提出了一種概率圖引導(dǎo)的雙向遞歸UNet(PBR-UNet)架構(gòu),該架構(gòu)通過2D UNet提取像素級概率圖,將輸入圖像與相鄰切片的概率圖組合成多通道混合數(shù)據(jù),如圖11所示.該架構(gòu)的亮點為雙向遞歸模塊,如圖12所示,中心切片的預(yù)測結(jié)果受前向切片與后向切片預(yù)測概率圖譜的雙重影響,循環(huán)更新機制有效的利用了前后片間序列信息,實現(xiàn)了多跨度,多時空維度的跨域信息交流.此方案能夠避免中心切片丟失上下文信息,進(jìn)而保留胰腺更多的細(xì)節(jié)特征,提升分割精度.
圖11 構(gòu)建局部3D混合信息多通道數(shù)據(jù)[20]
圖12 雙向遞歸模塊[20]
Yu等人[67]的多尺度信息融合策略為構(gòu)建密集鏈接,為提高特征的重復(fù)利用率,下采樣層的高分辨率信息通過密集鏈接傳遞到每一個上采樣層,使卷積過程中的低、中、高語義信息得到充分融合.該方案中RRFM對特征圖進(jìn)行重組和再校準(zhǔn),并通過注意力機制對原始特征圖進(jìn)行加權(quán),激發(fā)更具辨識度的胰腺特征,提升胰腺的特征表達(dá).Yang等人[68]對片內(nèi)信息與片間信息采用了不同的特征表達(dá)策略,通過多網(wǎng)絡(luò)并聯(lián)的方式對不同的切片提取片內(nèi)上下文信息,增強胰腺的片內(nèi)特征融合與特征表達(dá).Bi-Directional Convolutional GRU(BDC-GRU)用于提取片間信息,值得注意的是該模塊能夠同時獲取正向與反向的上下文信息,雙向上下文信息提取方式使切片預(yù)測受到正向反向序列特征的約束,同時也能夠保存正向序列與反向序列的聯(lián)合序列特征,能夠使網(wǎng)絡(luò)捕捉到更多的片間特征關(guān)系,增強胰腺的特征表達(dá).
如表4所示,網(wǎng)絡(luò)在分割過程中融合多尺度信息能夠使胰腺更多的隱含特征得到表達(dá),從而提高網(wǎng)絡(luò)的分割精度.多尺度信息融合策略有多種改進(jìn)方案:1)從特征的時間特性與空間特性進(jìn)行改進(jìn),在時空維度上增加注意力機制,之后進(jìn)行時空維度的特征融合,使網(wǎng)絡(luò)更多的關(guān)注于胰腺的時空特征;2)從胰腺的序列特征進(jìn)行改進(jìn),如雙向LSTM模塊,能夠獲取雙向序列特征,增強網(wǎng)絡(luò)對于切片間特征的建模能力;3)從感受野方向進(jìn)行改進(jìn),通過融合多尺度感受野信息,增強網(wǎng)絡(luò)對于細(xì)節(jié)特征與全局特征的整體把握,從而使更多的胰腺特征得到充分的表達(dá);4)從網(wǎng)絡(luò)結(jié)構(gòu)方向進(jìn)行改進(jìn),增加更多的跳躍鏈接與密集鏈接模塊,使不同階段的特征圖完成特征重用與信息融合,進(jìn)而減弱網(wǎng)絡(luò)丟失更多細(xì)節(jié)特征的可能性.
表4 增強特征表達(dá)的改進(jìn)方案評估結(jié)果
研究者通常通過增加網(wǎng)絡(luò)的深度與廣度提高胰腺的特征獲取能力,同時三維卷積與LSTM模塊的引入也使網(wǎng)絡(luò)分割精度得到提高,但卷積神經(jīng)網(wǎng)絡(luò)本身的浮點矩陣乘法將帶來巨大的計算量,設(shè)備內(nèi)存消耗也隨矩陣維度以及LSTM模塊的時序維度成指數(shù)型增長.由于在提高分割精度的同時分割網(wǎng)絡(luò)在訓(xùn)練過程中需要涉及到大量的計算,網(wǎng)絡(luò)訓(xùn)練難度增加,模型參數(shù)量過大,這不利于網(wǎng)絡(luò)朝輕量化方向發(fā)展.現(xiàn)如今,胰腺醫(yī)學(xué)圖像分割也在向臨床應(yīng)用方向邁進(jìn),因此需要創(chuàng)造更加輕量型的網(wǎng)絡(luò)完成移動端的移植.如表5所示,為減少深度神經(jīng)網(wǎng)絡(luò)對計算量的依賴性,使網(wǎng)絡(luò)能夠更容易投入到臨床移動設(shè)備的應(yīng)用中,Heinrich等人[69]提出了三值網(wǎng)絡(luò),其計算原理如圖13所示,使用三元權(quán)重以及三元激活近似神經(jīng)網(wǎng)絡(luò)中的可訓(xùn)練權(quán)重以及神經(jīng)激活.該方案消除了卷積神經(jīng)網(wǎng)絡(luò)中浮點矩陣乘法所需的巨大內(nèi)存消耗和計算量,并采用保留能量和時間的二元算子和種群計數(shù)來替代.該方法在NIH數(shù)據(jù)集上雖然只獲得了71%的DSC,但內(nèi)存需求減少了15倍,速度提高了10倍,有助于推動基于深度學(xué)習(xí)的胰腺分割方法用于移動設(shè)備的醫(yī)療診斷等應(yīng)用.
表5 網(wǎng)絡(luò)輕量化改進(jìn)方案評估結(jié)果
圖13 Heinrich等人方法示意圖[69]
Askari等人[70]提出了一種UNet體系結(jié)構(gòu)的量化方法.以降低量化精度為代價,盡可能的減少存儲模型參數(shù)以及實現(xiàn)浮點型矩陣運算所需的巨大內(nèi)存消耗.在用于腹部CT掃描中胰腺分割的公共NIH數(shù)據(jù)集上它們的定點量化方案將網(wǎng)絡(luò)內(nèi)存需求減少了8倍,其中權(quán)重使用4位,激活使用6位,在該條件下胰腺分割的DICE僅損失2.09%.
Gibson等人[18]提出了DenseVNet分割網(wǎng)絡(luò),通過密集連接實現(xiàn)特征重用,3種不同分辨率特征圖通過上采樣實現(xiàn)多尺度信息融合,減少了卷積過程的計算消耗.此外批式空間丟失方案也大大降低了計算成本,減少網(wǎng)絡(luò)學(xué)習(xí)到的冗余特征,從而以較少的模型參數(shù)量獲得高分辨率分割圖像.但由于胰腺器官較小,在同時進(jìn)行多器官分割時很容易被誤分類為背景像素,因此相對于脾、胃的分割結(jié)果(脾:平均DSC95%,胃:平均DSC87%),胰腺分割僅達(dá)到75%的平均DSC.
綜上,網(wǎng)絡(luò)的輕量化改進(jìn)可以從以下幾個方面入手:1)改進(jìn)卷積計算方式代替?zhèn)鹘y(tǒng)的卷積計算,如采用膨脹卷積,深度可分離卷積等,也可設(shè)計獨特的計算方式,如Heinrich等人[69]的三值網(wǎng)絡(luò)使特征提取能夠在較少的計算量內(nèi)完成;2)改進(jìn)量化方案,將浮點運算改為整數(shù)運算,或限制參與訓(xùn)練的權(quán)重位數(shù)和激活位數(shù),減少內(nèi)存占用量;3)批式參數(shù)丟失,可有選擇的丟失部分權(quán)重,或卷積過程中按批舍棄部分模型參數(shù),減少分割過程中學(xué)習(xí)的冗余特征.以上輕量化方案往往是以降低網(wǎng)絡(luò)的分割精度為代價,因此,在輕量化的同時需要尋找合適的平衡點,使網(wǎng)絡(luò)得到最優(yōu)的性價比.
除上述改進(jìn)方案外,不少研究者也提出了較為獨特的分割方案,如表6所示.Zheng等人[30]提出了基于陰影集理論的胰腺分割方法,該方法為胰腺CT切片提供像素級意義描述,通過增加不確定區(qū)域的權(quán)重使網(wǎng)絡(luò)在迭代訓(xùn)練中更加關(guān)注不確定區(qū)域,從而進(jìn)一步修正權(quán)重矩陣,獲得更加精確穩(wěn)定的分割結(jié)果.Roth等人[13]提出了一種基于概率方法的胰腺分割模型.將胰腺CT切片生成超像素,隨后采用級聯(lián)隨機森林以及深度神經(jīng)網(wǎng)絡(luò)生成概率圖譜,將兩種概率圖譜結(jié)合對超像素進(jìn)行胰腺與非胰腺分類,最后使用基于空間連通性方法進(jìn)行后處理.Cai等[29]提出了一種結(jié)合基于圖的決策融合過程的深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN).將胰腺的組織分割結(jié)果與邊界檢測結(jié)果作為基于圖的決策融合模型中每個節(jié)點的特征向量.Zhang等人[71]首先使用2D CNN分割的肝臟位置來計算用于確定其邊界框的胰腺質(zhì)心.提出了胰腺和肝臟的質(zhì)心之間的線性關(guān)系.然后,采用一個以胰腺邊界框為輸入的三維神經(jīng)網(wǎng)絡(luò)進(jìn)行最終分割.由于胰腺的數(shù)據(jù)集標(biāo)簽需要放射科醫(yī)師通過人工先驗判斷進(jìn)行像素級分類標(biāo)記,因此不能夠在短時間內(nèi)獲得大量的數(shù)據(jù)集標(biāo)簽.Zeng等人[72]提出了一種弱監(jiān)督方法,通過單張切片的圖像級標(biāo)注獲得像素級語義分割標(biāo)簽結(jié)果.通過遞歸殘差卷積單元獲得空間級與通道級的上下文語義信息,引入空間池化集合局部特征信息,并采用條件隨機場進(jìn)行胰腺的空間預(yù)測,從而獲得體素級標(biāo)簽,解決了胰腺數(shù)據(jù)集較少的問題.綜上,針對胰腺的生理特點與數(shù)據(jù)集特點可以設(shè)計多種不同的改進(jìn)方案,這需要研究者進(jìn)一步結(jié)合胰腺的關(guān)鍵特征構(gòu)造更適用于胰腺分割的網(wǎng)絡(luò).
表6 其他改進(jìn)方案評估結(jié)果
本文研究回顧了近五年基于深度學(xué)習(xí)的胰腺分割領(lǐng)域的相關(guān)文獻(xiàn),梳理了常用的胰腺分割數(shù)據(jù)集,并對胰腺的深度學(xué)習(xí)分割方法進(jìn)行了較為詳盡的分類與總結(jié).重點介紹了每種分割網(wǎng)絡(luò)的原理、基本思想、網(wǎng)絡(luò)架構(gòu),評述了方案的優(yōu)缺點,并在統(tǒng)一評價指標(biāo)上進(jìn)行分割精度的比較.以此為入門者提供擴展性知識,并為該領(lǐng)域研究者開拓新的研究思路及方向.現(xiàn)將基于深度學(xué)習(xí)的胰腺醫(yī)學(xué)圖像分割發(fā)展方向總結(jié)為以下幾點:
1)增加可用的胰腺公共數(shù)據(jù)集:深度學(xué)習(xí)算法的訓(xùn)練需要依賴大量的數(shù)據(jù)集,而醫(yī)學(xué)圖像數(shù)據(jù)集制作過程較為枯燥繁瑣,且依賴專家解剖經(jīng)驗知識,需要具有豐富經(jīng)驗的醫(yī)師人工進(jìn)行手動標(biāo)注,因此為推動后續(xù)深度學(xué)習(xí)胰腺分割方法的研究,需要更多的醫(yī)療工作者給予數(shù)據(jù)支持.
2)多模態(tài)數(shù)據(jù):在臨床應(yīng)用中,不同模態(tài)的圖像能夠突出不同的特征信息,醫(yī)生通常會結(jié)合多個模態(tài)或單個模態(tài)的多次成像來進(jìn)行病灶診斷,多模態(tài)融合方案可將不同模態(tài)特征進(jìn)行深度融合,實現(xiàn)感興趣區(qū)域的特征互補,結(jié)合不同層次不同深度神經(jīng)網(wǎng)絡(luò)的混合特征來提取圖像更深層次的信息,提高分割的精度.
3)開拓弱監(jiān)督或無監(jiān)督領(lǐng)域:目前,大量胰腺分割算法均采用有監(jiān)督學(xué)習(xí)模式,然而胰腺公共數(shù)據(jù)集稀缺,依賴于大量標(biāo)記數(shù)據(jù)的有監(jiān)督學(xué)習(xí)無法發(fā)揮更好的性能,因此可開拓弱監(jiān)督或無監(jiān)督領(lǐng)域,解決胰腺公共數(shù)據(jù)集匱乏的問題.
4)探索網(wǎng)絡(luò)的可解釋性:深度學(xué)習(xí)的胰腺分割方法目前仍然面臨著可解釋性低的問題,盡管UNet 架構(gòu)目前在胰腺醫(yī)學(xué)影像數(shù)據(jù)集上表現(xiàn)良好,但臨床醫(yī)生無法直接理解其運行機制,從而不能結(jié)合更深層次的臨床醫(yī)學(xué)病灶判斷方案,創(chuàng)造更有價值的臨床胰腺醫(yī)學(xué)圖像分割網(wǎng)絡(luò),這導(dǎo)致深度學(xué)習(xí)仍然無法實現(xiàn)在臨床上的應(yīng)用.
5)分割網(wǎng)絡(luò)架構(gòu)的輕量化.對于現(xiàn)階段的胰腺醫(yī)學(xué)影像分割網(wǎng)絡(luò)架構(gòu),訓(xùn)練完成的胰腺分割模型存在大量的浮點型矩陣運算,大量的模型參數(shù)導(dǎo)致模型對硬件設(shè)備的計算能力以及內(nèi)存量要求較高.為盡快促進(jìn)深度學(xué)習(xí)在胰腺醫(yī)學(xué)圖像分割中的臨床應(yīng)用,今后可在保證分割準(zhǔn)確率和網(wǎng)絡(luò)穩(wěn)定性的同時壓縮胰腺分割模型參數(shù)量,實現(xiàn)胰腺醫(yī)學(xué)影像分割的臨床落地將會是未來研究的重點.
6)統(tǒng)一的評價標(biāo)準(zhǔn):目前發(fā)布的基于深度神經(jīng)網(wǎng)絡(luò)的胰腺分割方法中,不同的作者采用了不同的測試策略,如交叉驗證,消融實驗以及通過不同的數(shù)據(jù)集驗證模型的泛化能力等.因此在網(wǎng)絡(luò)的測試方法上,并沒有統(tǒng)一的標(biāo)準(zhǔn),很多網(wǎng)絡(luò)的分割性能并不能進(jìn)行統(tǒng)一比較.后續(xù)可以開發(fā)一套統(tǒng)一的模型性能驗證方案,以便在未來的研究中得到較為一致的評價結(jié)果.