桂林斌
(云南能源職業(yè)技術(shù)學(xué)院 云南省曲靖市 655001)
深度學(xué)習(xí)對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生了重大的影響,尤其是基于卷積神經(jīng)網(wǎng)絡(luò)的方法用于圖像分割。Long等人提出了全卷積網(wǎng)絡(luò),這種網(wǎng)絡(luò)可以采用任何尺寸的圖像作為輸入并產(chǎn)生相應(yīng)大小的輸出圖像。 Romera等人采用分解卷積和殘差連接的方式來(lái)提高圖像分割的準(zhǔn)確性。這些為自然圖像分割開(kāi)發(fā)的分割方法通過(guò)修改后也適用于醫(yī)學(xué)圖像的分割。同時(shí),許多基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割算法用于顯微圖像中的細(xì)胞分割、核磁共振圖像中頸部動(dòng)脈的分割以及CT 圖像中的肺結(jié)節(jié)分割。在這些模型中,基于編碼器-解碼器的模型是采用最多的一種架構(gòu)。例如,U-Net就是一種應(yīng)用最廣泛的基于編碼器-解碼器的醫(yī)學(xué)圖像分割模型。它采用一個(gè)壓縮通道用于圖像信息的捕捉,并用對(duì)稱的擴(kuò)展通道用于分割部分精確的定位。在U-Net 網(wǎng)絡(luò)的基礎(chǔ)上,Zhou提出了一種采用密集連接來(lái)捕獲更多細(xì)節(jié)的U-Net++網(wǎng)絡(luò)。Mehta提出了一種基于多輸入多輸出加權(quán)交叉熵的M-Net 網(wǎng)絡(luò),該網(wǎng)絡(luò)主要用于核磁共振圖像中腦結(jié)構(gòu)的分割。然而,上述這些算法模型通常不能達(dá)到超聲圖像分割所需的準(zhǔn)確性。
在多種醫(yī)學(xué)圖像(核磁共振圖像、計(jì)算機(jī)斷層掃描)中,超聲圖像所具有的非電離輻射及成本低的特點(diǎn)使得它技術(shù)廣泛的應(yīng)用于臨床醫(yī)學(xué)的診斷。在醫(yī)學(xué)臨床的應(yīng)用中,對(duì)臂叢神經(jīng)進(jìn)行阻斷可以減去上肢手術(shù)的疼痛。但是,由于超聲圖像的對(duì)比度低和信噪比低等問(wèn)題導(dǎo)致超聲圖像的分割是一個(gè)比較困難的任務(wù)。 近年來(lái),許多專家學(xué)者結(jié)合臨床需求,嘗試著將深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于醫(yī)學(xué)圖像的處理,但目前的應(yīng)用主要集中在前列腺、腹部、心臟以及頸動(dòng)脈的分割,原因是這類超聲圖像所需分割的目標(biāo)輪廓較清晰,而對(duì)于分割目標(biāo)輪廓不明顯的超聲圖像,這些方法不能實(shí)現(xiàn)較高的分割精度。Kong等人使用EfficientNetB3 代替?zhèn)鹘y(tǒng)U-Net 的骨干網(wǎng)構(gòu)造了一個(gè)新的語(yǔ)義分割模型,并在跳躍連接上設(shè)計(jì)使用空洞卷積來(lái)提取特征,Long等人基于U-Net模型,構(gòu)建了一個(gè)適用于臂叢神經(jīng)分割的卷積神經(jīng)網(wǎng)絡(luò)模型QU-Net 均取得了較好的分割效果。
為進(jìn)一步提高分割目標(biāo)輪廓不明顯的超聲圖像分割精度,本文提出了一種基于空洞卷積的網(wǎng)絡(luò)模型(簡(jiǎn)稱:A-Net)用于該類圖像的分割。該種方法主要有以下兩個(gè)優(yōu)點(diǎn):
(1)采用空洞卷積可以提取多尺度的信息特征。
(2)采用多任務(wù)的訓(xùn)練方式提高訓(xùn)練速度和提高分割精度。
本文的其余部分結(jié)構(gòu)如下:第二部分描述了方法和實(shí)現(xiàn)細(xì)節(jié),第三部分給出了實(shí)驗(yàn)結(jié)果,第四部分是全文的總結(jié)。
本文提出的方法由編碼器模塊、空洞卷積模塊、解碼器模塊3 個(gè)模塊組成。編碼器模塊采用上采樣的方式來(lái)提取輸入圖像的信息,空洞卷積模塊主要用于多尺度的信息提取,編碼器模塊的結(jié)構(gòu)由連續(xù)的3×3 卷積層和下采樣層組成,解碼器模塊的結(jié)構(gòu)由連續(xù)的3×3 卷積層和上采樣層組成。具體的網(wǎng)絡(luò)架構(gòu)如圖1 所示,圖中L和L分別為交叉熵以及Dice 損失函數(shù)。
圖1: A_Net 架構(gòu)圖
基于編碼器-解碼器的網(wǎng)絡(luò)已成功地應(yīng)用于圖像分割。編碼器模塊的功能是逐步將圖像的空間維數(shù)減小,提取高級(jí)特征圖譜信息。而解碼器模塊的功能是將經(jīng)過(guò)編碼器處理的輸入所得到的特征進(jìn)一步優(yōu)化和任務(wù)處理,逐步恢復(fù)分割目標(biāo)的輪廓信息。傳統(tǒng)的編碼器-解碼器結(jié)構(gòu)中的連續(xù)下采樣操作會(huì)導(dǎo)致圖像特征信息的丟失,因此本文所提出的A-Net在U-Net 的結(jié)構(gòu)上增加空洞卷積模塊來(lái)提取多尺度的體征信息。空洞卷積模塊的原理是通過(guò)調(diào)整濾鏡的視場(chǎng)來(lái)捕捉特征信息。輸出y[i]是輸入信號(hào)x[i]與濾波器w[k]的卷積,計(jì)算如下:
其中k 為濾波器的長(zhǎng)度,r 為采樣步長(zhǎng)。它相當(dāng)于將輸入x 與沿每個(gè)空間維度的兩個(gè)連續(xù)濾波器值之間插入r-1 個(gè)0 所產(chǎn)生的上采樣濾波器進(jìn)行卷積??斩淳矸e可以通過(guò)選擇不同的r 值來(lái)來(lái)調(diào)整濾波器的大小。
空洞卷積模塊的結(jié)構(gòu)如圖2 所示。它由3 個(gè)分支組成:步長(zhǎng)為1 的空洞卷積,步長(zhǎng)為3 的空洞卷積,1×1 卷積。3個(gè)分支通過(guò)合并操作后作為解碼器的輸入。該模塊通過(guò)不同步長(zhǎng)的空洞卷積可以提取不同的特征信息,彌補(bǔ)編碼器中所損失的圖像特征信息。
圖2: 空洞卷積結(jié)構(gòu)圖
圖像分割是計(jì)算機(jī)視覺(jué)的基礎(chǔ),是一個(gè)像素級(jí)的分類問(wèn)題。主要工作是根據(jù)圖像的灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分成若干個(gè)互不相交的區(qū)域,使得這些特征在同一區(qū)域內(nèi)表現(xiàn)出一致性或相似性,而在不同區(qū)域間表現(xiàn)出明顯的不同。設(shè)計(jì)的分割算法用來(lái)預(yù)測(cè)一個(gè)像素是屬于背景還是前景。目前,交叉熵是分類中最常用的損失函數(shù),用來(lái)單獨(dú)評(píng)估每個(gè)像素矢量的類預(yù)測(cè),然后對(duì)所有像素求平均值,我們可以認(rèn)為圖像中的像素被平等的學(xué)習(xí)了。但是,醫(yī)學(xué)圖像中分割目標(biāo)的大小在不同的超聲圖像中有所不同,經(jīng)常出現(xiàn)類別不均衡分布的問(wèn)題,由此導(dǎo)致訓(xùn)練會(huì)被像素較多的類主導(dǎo),對(duì)于較小的物體很難學(xué)習(xí)到其特征,從而降低網(wǎng)絡(luò)的有效性,故而交叉熵在超聲圖像分割中并不有效。
本文中我們使用Dice 系數(shù)作為分割精度的度量,Dice 系數(shù)源于二分類,本質(zhì)上是衡量?jī)蓚€(gè)樣本的重疊部分,Dice 值代表預(yù)測(cè)與真值的重疊區(qū)域,該指標(biāo)范圍從0 到1,其中“1”表示完整的重疊。Dice 函數(shù)如式(2)所示:
2.3.1 數(shù)據(jù)增強(qiáng)以及前處理
本文采用臂叢神經(jīng)超聲圖像作為實(shí)驗(yàn)的數(shù)據(jù)集。由于訓(xùn)練集數(shù)據(jù)量有限,本文采用數(shù)據(jù)增強(qiáng)的方式來(lái)增加數(shù)據(jù)集的數(shù)量。第一種方法對(duì)圖像采用水平翻轉(zhuǎn)和垂直翻轉(zhuǎn)。第二個(gè)方法采用(-10%至 +10%)隨機(jī)縮放以及(0 至10 度)的隨機(jī)旋轉(zhuǎn)方式。
2.3.2 評(píng)估指標(biāo)
本實(shí)驗(yàn)采用Dice 值、豪斯多夫距離(HD)以及均方根對(duì)稱表面距離(RMSD) 三個(gè)指標(biāo)來(lái)對(duì)分割性能進(jìn)行評(píng)估。HD用于評(píng)估兩個(gè)物體的輪廓差異,對(duì)應(yīng)于最大歐幾里得距離。設(shè)S(A)和S(B)分別表示A 和B 的點(diǎn)集,任意點(diǎn)v 到S(A)的最短距離為:
2.3.3 實(shí)驗(yàn)細(xì)節(jié)
本實(shí)驗(yàn)中的A-Net 采用Keras(2.4.0 版本)和TensorFlow(1.15.0版本)作為框架。該框架采用動(dòng)量為0.9,衰減為0.0005的小批量隨機(jī)梯度下降(SGD)進(jìn)行訓(xùn)練。初始學(xué)習(xí)率設(shè)為0.001,每10 個(gè)循環(huán)后下降一次,批量大小值為4。為了防止過(guò)擬合,對(duì)驗(yàn)證數(shù)據(jù)集上的損失進(jìn)行了提前停止策略。
(1)在Keras 中使用Earlystopping 代碼示例
為了評(píng)估和驗(yàn)證網(wǎng)絡(luò)的分割性能,本文提出的A-Net 與U-Net、U-Net++方法進(jìn)行了比對(duì)。使用了3 個(gè)性能指標(biāo),即Dice、HD、RMSD,分別用均值、標(biāo)準(zhǔn)差、95%置信區(qū)間值進(jìn)行表示。最后采用SPSS 統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析。
超聲圖像數(shù)據(jù)集選用2016 年Kaggle 比賽的臂叢神經(jīng)。數(shù)據(jù)集被隨機(jī)分為1558 幅圖像進(jìn)行訓(xùn)練和600 幅圖像進(jìn)行測(cè)試。具體實(shí)驗(yàn)結(jié)果,如表1 所示。對(duì)于Dice 值,與其它兩種網(wǎng)絡(luò)對(duì)比,本文提出的方法平均有2.14%的提高。因此,本文提出的方法顯著提高了臂叢神經(jīng)分割的精度。圖3 所示為三種網(wǎng)絡(luò)的分割結(jié)果,其中方括號(hào)里的值為95%的置信區(qū)間。
表1: 臂叢神經(jīng)的分割結(jié)果
圖3: 三種模型的分割實(shí)例
為了驗(yàn)證我們提出的方法的優(yōu)越性,有必要進(jìn)行統(tǒng)計(jì)分析。由于Dice 值屬于高斯分布,本文采用弗里德曼檢驗(yàn)來(lái)評(píng)估所有算法的性能。表2 給出了所有算法的平均秩和p 值。p<0.05 認(rèn)為有顯著差異。平均秩表示不同方法的性能。與其它模型相比,A-Net 有了明顯的改進(jìn)。
表2: Dice 值的弗里德曼檢驗(yàn)
在本文中提出了一種端到端的空洞卷積網(wǎng)絡(luò)用于超聲圖像的分割。該網(wǎng)絡(luò)由編碼器-解碼器模塊以及空洞卷積模塊組成。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,我們采用多任務(wù)的方式來(lái)提高分割性能。通過(guò)和U-Net 以及U-Net++在臂叢神經(jīng)數(shù)據(jù)集上進(jìn)行比對(duì),驗(yàn)證結(jié)果顯示,本文給出的方法實(shí)現(xiàn)了超聲圖像更好的分割性能,為超聲圖像的醫(yī)學(xué)診斷提供了一個(gè)有用的參考工具。