徐常鵬,趙 宇,丁德銳
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
在口腔種植領(lǐng)域,新骨體積量是判斷能否進(jìn)行分期種植的主要依據(jù)。 近年來,由于低劑量、成像質(zhì)量高、價(jià)格低廉等優(yōu)點(diǎn),錐束計(jì)算機(jī)斷層掃描(Convolutional Block Attention Module,CBCT)幾乎占據(jù)牙科領(lǐng)域的市場[1-2]。 在口腔醫(yī)學(xué)圖像分割中,移植骨區(qū)域的體積分割面臨較大考驗(yàn)[3]。 究其原因是臨床使用的骨移植材料有個(gè)體差異,同時(shí)在新骨生成改建過程中伴隨有移植材料的吸收,使得CBCT 圖像中移植骨區(qū)邊緣與周圍組織很難清晰辨識(shí)[4-5],從而影響醫(yī)生對移植骨區(qū)域準(zhǔn)確性的判斷。對口腔移植區(qū)的勾畫通常要求臨床醫(yī)生手工勾勒靶區(qū)的輪廓邊界。 一個(gè)標(biāo)準(zhǔn)的CBCT 圖像通常包含幾百張切片,傳統(tǒng)的手動(dòng)勾勒需要耗費(fèi)大量的時(shí)間和人力。 不同醫(yī)生對同一植體區(qū)域的勾畫也有可能存在一定的差異,這些差異會(huì)影響治療計(jì)劃的質(zhì)量與優(yōu)化。 另一方面,CBCT 圖像的質(zhì)量也會(huì)受到多種因素影響[6],如CBCT 成像對移植體區(qū)域的圖像分辨率不高、圖像對比度低等。 因此,要想獲得比較精確的分割結(jié)果,仍然面對巨大的挑戰(zhàn)。
基于深度學(xué)習(xí)技術(shù)的圖像分割方法具有操作方便、準(zhǔn)確性高等諸多優(yōu)勢,在口腔醫(yī)學(xué)領(lǐng)域有著廣泛的應(yīng)用前景和很高的經(jīng)濟(jì)價(jià)值[7-8]。 目前,卷積神經(jīng)網(wǎng)絡(luò)被廣泛用于醫(yī)學(xué)圖像分割任務(wù)中。 例如,Long 等學(xué)者[9]提出全卷積(Fully Convolutional Networks,F(xiàn)CN)網(wǎng)絡(luò)結(jié)構(gòu)。 FCN 采用反卷積層對特征圖上采樣,使其恢復(fù)到輸入圖像相同的尺寸,實(shí)現(xiàn)了像素級(jí)的分類。 Ronneberger 等學(xué)者[10]提出了U-Net 網(wǎng)絡(luò)結(jié)構(gòu)。 該網(wǎng)絡(luò)采用U 型編碼解碼結(jié)構(gòu),通過跳躍連接實(shí)現(xiàn)不同尺度特征圖低級(jí)細(xì)節(jié)與高級(jí)語義的結(jié)合,成為了醫(yī)學(xué)圖像分割的基準(zhǔn)網(wǎng)絡(luò)。Oktay 等學(xué)者[11]提出Attention U-Net。 該模型以U-Net 為基礎(chǔ),在解碼器部分通過注意力門(Attention Gates)控制特征的重要性,抑制不相關(guān)背景區(qū)域的影響。 Zhou 等學(xué)者[12]提出U-Net ++網(wǎng)絡(luò),通過不同深度的U-Net 的有效集成來緩解未知的網(wǎng)絡(luò)深度,通過深度監(jiān)督進(jìn)行共同學(xué)習(xí)。 Alexey等學(xué)者[13]提出Vision Transformer (ViT)網(wǎng)絡(luò)。 這是首次將自然語言處理中的Transformer 模型用于計(jì)算機(jī)視覺中,并且在大規(guī)模數(shù)據(jù)集中取得較好效果。Chen 等學(xué)者[14]提出TransUnet,通過Transformer 的全局注意力彌補(bǔ)了U-Net 遠(yuǎn)程建模依賴關(guān)系的局限性。
針對口腔CBCT 圖像,尤其是對于口腔骨移植區(qū)分割任務(wù)[15],傳統(tǒng)的實(shí)施方案主要依賴于醫(yī)生手動(dòng)的線性勾勒,目前并無成熟的口腔移植骨分割網(wǎng)絡(luò)模型。 同時(shí),移植區(qū)位于牙槽骨內(nèi)部或表面,體積相對較小,因此口腔移植骨圖像具有樣本不均衡,邊緣模糊等特點(diǎn)。 雖然U-Net 網(wǎng)絡(luò)通過多尺度特征提取和跳躍連接層保留低層信息的特性,在網(wǎng)絡(luò)醫(yī)學(xué)圖像中有許多成功的應(yīng)用,但由于低級(jí)特征層和高級(jí)特征層的語義差距較大,U-Net 應(yīng)用跳躍連接來合并低級(jí)別和高級(jí)別的特征層,不僅容易導(dǎo)致特征映射模糊,而且還易導(dǎo)致過度和欠分割的目標(biāo)區(qū)域。 此外,由于口腔移植骨CBCT 圖像數(shù)據(jù)集具有標(biāo)記的數(shù)據(jù)量較少,加之樣本不均衡、邊界模糊等問題,U-Net 網(wǎng)絡(luò)分割方法會(huì)出現(xiàn)模型特征提取能力較差、邊界分割效果差等問題,導(dǎo)致網(wǎng)絡(luò)分割結(jié)果精度有限。
針對上述難點(diǎn),本文提出一種基于U-Net 和注意力機(jī)制的新型網(wǎng)絡(luò)(SA-Unet),以提高口腔移植骨分割的準(zhǔn)確率。 具體地,使用U-Net 網(wǎng)絡(luò)作為主體框架,將跳躍連接層簡單地復(fù)制操作改進(jìn)為Depthwise 卷積,以銳化低級(jí)特征層并減輕特征拼接引起的語義差距。 其次,通過在解碼器部分特征拼接之后嵌入CBAM[16]模塊,增強(qiáng)模型對于特征的提取能力,使得模型更加關(guān)注目標(biāo)區(qū)域的細(xì)節(jié)信息(如邊緣、紋理等),并抑制其它無用信息。 最后為解決數(shù)據(jù)正負(fù)樣本不均衡以及簡單困難樣本不均衡的問題,論文設(shè)計(jì)了新型的聯(lián)合損失函數(shù)。
本文主要貢獻(xiàn)如下:
(1)提出基于U-Net 和注意力機(jī)制的編碼解碼網(wǎng)絡(luò)(SA-UNet),以實(shí)現(xiàn)口腔移植骨的精準(zhǔn)分割。在跳躍連接層設(shè)計(jì)的銳化操作不會(huì)引入任何額外的可學(xué)習(xí)參數(shù)。
(2)設(shè)計(jì)一種輕量級(jí)的Sharp-Attention 模塊。通過引入帶銳化卷積核的Depthwise 卷積和CBAM模塊,增強(qiáng)了圖像的細(xì)節(jié)信息,平衡了不同層間語義差距。 本模塊也適用于其他語義簡單的醫(yī)學(xué)圖像,也可集成到其他U 型網(wǎng)絡(luò)結(jié)構(gòu)中用以提升模型性能。
(3)采用新型聯(lián)合損失函數(shù),緩解正負(fù)樣本比例失衡帶來的影響。 在制作的口腔CBCT 圖像數(shù)據(jù)集上驗(yàn)證本文提出模型的有效性。
實(shí)驗(yàn)結(jié)果表明,相比其他方法,本方法在IoU、Dice系數(shù)、HD距離三個(gè)指標(biāo)上均取得了最佳評分。
由于U-Net 網(wǎng)絡(luò)結(jié)構(gòu)在生物醫(yī)學(xué)圖像分割中的良好表現(xiàn),通常被作為醫(yī)學(xué)圖像分割的基準(zhǔn)網(wǎng)絡(luò),并且陸續(xù)推出了基于U-Net 改進(jìn)的系列成果。 受到殘差連接的啟發(fā),Xiao 等學(xué)者[17]提出了Res-UNet 用于視網(wǎng)膜圖像的分割。 Guan 等學(xué)者[18]提出了Dense-UNet,將UNet 的每一個(gè)子模塊分別替換為密集連接的形式,并設(shè)計(jì)Fully Dense UNet 模型用于去除圖像中的偽影。 Alom 等學(xué)者[19]提出了循環(huán)卷積網(wǎng)絡(luò)(RU-Net)和循環(huán)殘差卷積網(wǎng)絡(luò)(R2UNet)。 這2 種網(wǎng)絡(luò)分別用循環(huán)卷積層(RCLs)和帶有殘差的循環(huán)卷積層(RCLs)代替正向卷積層。?i?ek 等學(xué)者[20]基于U-Net 提出了3DU-Net,實(shí)現(xiàn)了對于3D 圖像的醫(yī)學(xué)分割。 Milletari 等學(xué)者[21]在3DU-Net 的基礎(chǔ)上提出了V-Net,用卷積代替池化,通過轉(zhuǎn)置卷積上采樣,實(shí)現(xiàn)了基于體積的分割方法。
注意力機(jī)制的基本方式是通過啟發(fā)式搜索對卷積特征進(jìn)行選擇,即通過學(xué)習(xí)要強(qiáng)調(diào)或抑制的特征來有效幫助信息在網(wǎng)絡(luò)內(nèi)的流動(dòng)。 Jaderberg 等學(xué)者[22]提出了Spatial Transformer Network,空間注意力主要關(guān)注圖像的空間位置信息,生成空間特征圖保存關(guān)鍵信息。 Hu 等學(xué)者[23]提出了SENet,通道注意力可以有選擇性地關(guān)注具有更多信息的特征通道,并對無用特征進(jìn)行抑制。 Zhao 等學(xué)者[24]提出了PSANet。 該方法只計(jì)算每個(gè)像素與其同行同列、即十字上的像素的相似性,通過進(jìn)行循環(huán)間接計(jì)算得到各像素間的相似性,有效降低計(jì)算復(fù)雜度。 Wang等學(xué)者[25]提出一種可堆疊的殘差注意力網(wǎng)絡(luò)(Residual Attention Network)。 Vaswani 等學(xué)者[26]提出自注意力(Self-Attention)機(jī)制,不使用RNN 或CNN 等復(fù)雜的模型,僅僅依賴于Attention 模型就可以實(shí)現(xiàn)訓(xùn)練并行化且擁有全局信息。 Woo 等學(xué)者[16]提出了輕量級(jí)的卷積注意力機(jī)制模塊(CBAM),CBAM 模塊會(huì)依次沿著通道和空間維度推斷注意力圖,而后將注意力圖與輸入特征圖相乘以進(jìn)行自適應(yīng)特征優(yōu)化。
本文以U-Net 為基準(zhǔn)網(wǎng)絡(luò),通過設(shè)計(jì)一種Sharp-Attention 機(jī)制,同時(shí)融入CBAM(Convolutional Block Attention Module)注意力模塊,提出了一種改進(jìn)的SA-UNet 模型。 該模型是一種多尺度的對稱U 型結(jié)構(gòu)網(wǎng)絡(luò),如圖1 所示。
圖1 SA-UNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 The structure of SA-UNet
設(shè)計(jì)的SA-UNet 網(wǎng)絡(luò)由編碼器、跳躍連接層、解碼器三個(gè)部分組成。 具體地,編碼器部分包含了卷積、池化、下采樣等模塊;跳越連接層部分在淺層引入了Sharp 模塊[27];解碼器部分包含雙線性上采樣、CBAM 模塊、卷積和池化模塊。 此外,針對口腔移植骨圖像邊界模糊、樣本不均衡的特點(diǎn),網(wǎng)絡(luò)的訓(xùn)練采用了一個(gè)新設(shè)計(jì)的聯(lián)合損失函數(shù),用以提升圖像分割質(zhì)量。
在細(xì)節(jié)上,編碼器部分與傳統(tǒng)的U-Net 類似,由5 個(gè)模塊組成,每個(gè)模塊包含2 個(gè)3×3 卷積層和一個(gè)ReLU 激活層,隨后連接一個(gè)2×2 的最大池化層,且第5 個(gè)模塊不包含池化層。 分別使用32、64、128、128、256 和512 個(gè)卷積核,即在每個(gè)模塊之后,特征圖通道的數(shù)量都增加了一倍。
在U-Net 型網(wǎng)絡(luò)結(jié)構(gòu)中,編解碼器網(wǎng)絡(luò)中的跳躍連接層對于恢復(fù)預(yù)測的細(xì)粒度細(xì)節(jié)方面起著至關(guān)重要的作用。 傳統(tǒng)的對淺層信息直接復(fù)制的跳躍連接方式在融合低層和高層不同的語義特征時(shí),由于較大的語義差異容易導(dǎo)致模糊的特征映射,從而降低了分割精度。 為此,本文改進(jìn)了這一連接方式,在前2 個(gè)模塊的跳躍連接層中引入了Sharp 模塊,使用帶銳化卷積核的Depthwise 卷積,從而在每個(gè)特征通道上對特征圖進(jìn)行沿通道的卷積操作。Depthwise 卷積操作銳化了淺層特征以加強(qiáng)特征細(xì)節(jié),使得在特征拼接時(shí)平衡了不同層間語義差距,同時(shí)也有助于減少早期階段在整個(gè)網(wǎng)絡(luò)層中傳播的高頻噪聲成分。 值得一提的是,Sharp 模塊不會(huì)引入任何額外的可學(xué)習(xí)參數(shù)。
解碼器部分通過嵌入CBAM 模塊,結(jié)合空間和通道的注意力機(jī)制,提高了模型對于感興趣區(qū)域的關(guān)注程度。 解碼器部分同樣由5 個(gè)模塊組成,每個(gè)模塊包含一個(gè)2×2 的反卷積(即對特征進(jìn)行上采樣)、特征拼接、CBAM 模塊,然后是2 個(gè)帶有ReLU激活的3×3 卷積層,且第5 個(gè)模塊有一個(gè)額外的1×1 卷積層實(shí)現(xiàn)特征降維。 解碼器模塊的卷積層分別用256、128、64 和32 個(gè)卷積核,即每個(gè)模塊之后特征通道數(shù)減半,最后輸出與輸入圖像同等分辨率的輸出圖像。 輸出是對于每個(gè)像素類別的預(yù)測。 接下來將進(jìn)一步闡述所設(shè)計(jì)網(wǎng)絡(luò)核心模塊。
如前所述,本文的創(chuàng)新性工作之一是將Sharp模塊與CBAM 模塊結(jié)合,提出了Sharp-Attention 模塊,并應(yīng)用于U-Net 網(wǎng)絡(luò)跳躍連接與解碼器部分。該模塊主要由2 個(gè)部分組成,如圖2 所示。 一部分是Sharp 模塊,通過帶銳化卷積核的Depthwise 卷積操作,對不同尺度的特征圖實(shí)現(xiàn)銳化操作;另一部分是CBAM 模塊,該模塊包含一個(gè)通道注意力單元和空間注意力單元,用來對不同特征圖賦予不同的關(guān)注程度。 對此擬做闡釋分述如下。
圖2 Sharp-Attention 模塊圖Fig. 2 Sharp-Attention block
(1)Sharp 模塊。 模塊中的Depthwise 卷積操作是在特征融合之前使用銳化卷積核對每個(gè)通道的特征圖獨(dú)立地進(jìn)行卷積。 銳化卷積核是圖像拉普拉斯算子[28]的近似,是一個(gè)二階導(dǎo)數(shù)算子,能夠在任何方向上響應(yīng)強(qiáng)度躍遷。 例如,帶有如下卷積核的一個(gè)拉普拉斯高通濾波器,考慮了輸入圖像中參考像素的所有8 個(gè)臨近值,如式(1)所示:
顯而易見,該卷積核的功能是增加了中心像素相對于相鄰像素的強(qiáng)度。 進(jìn)而,設(shè)I是輸入圖像,則銳化圖像S為:
其中,“?”表示卷積。
由于編碼器的特征層是多維的,一般大小為W × H × C,其中W、H和C分別表示編碼器特征映射的寬度、高度和通道數(shù)。 因此,本文使用基于拉普拉斯濾波器核K的銳化空間核沿通道對每一個(gè)特征層進(jìn)行卷積,即Depthwise 卷積操作。 具體地,使用C個(gè)濾波器,輸入特征圖的每個(gè)通道分別與核K進(jìn)行卷積,步幅為1。 每一個(gè)卷積操作都產(chǎn)生一個(gè)大小為W × H ×1 的特征圖。 為了保持輸出維度與輸入的維度相同,在特征拼接的過程中執(zhí)行填充操作。 稍后,將這些特征圖堆疊在一起獲得了尺寸為W × H × C的輸出。 由于銳化卷積核K沒有可調(diào)參數(shù),因此在模型優(yōu)化過程中沒有參數(shù)更新,不會(huì)產(chǎn)生額外的計(jì)算成本。
(2)卷積注意力模塊(CBAM)。 是一種簡單而有效的注意力模塊,如圖3 所示。
圖3 CBAM 模塊圖Fig. 3 CBAM block
在解碼器部分,把拼接之后的特征圖輸入到CBAM 模塊,此后沿著通道和空間維度依次推斷注意力圖,然后將注意力圖與特征圖相乘后的結(jié)果進(jìn)行自適應(yīng)優(yōu)化。 給定大小為W × H × C的特征圖,CBAM 依次推斷出大小為1×1×C的一維通道注意圖Mc和大小為H × W ×1 的空間注意圖Ms。 具體地,通道注意力將輸入的特征圖Finput分別經(jīng)過基于高度和寬度的全局池化和平均池化,而后再分別經(jīng)過多層感知器、element-wise 加和操作、Sigmoid激活,最終生成通道注意力特征圖Mc。 通道注意力特征圖與輸入特征圖做元素相乘生成空間注意力模塊所需的輸入Fout1,數(shù)學(xué)定義如下:
空間注意力模塊包括全局池化和平均池化、拼接、卷積操作、降維以及Sigmoid激活而生成空間注意力特征圖Ms。 同樣地,與輸入特征圖Fout1相乘得到CBAM 模塊的輸出特征圖Fout2,其數(shù)學(xué)表達(dá)式為:
其中,“ ?”為對應(yīng)像素值相乘。
對于一個(gè)特征圖來說,通道注意力模塊壓縮了輸入特征圖的空間維數(shù),用于聚集空間信息。 空間注意力模塊是利用特征的空間關(guān)系來生成一個(gè)空間注意圖。 空間特征更多關(guān)注目標(biāo)的位置信息,與通道注意力互為補(bǔ)充。 本文認(rèn)為Sharp 模塊對編碼器特征的每個(gè)通道獨(dú)立地進(jìn)行卷積操作,能夠增強(qiáng)淺層特征圖的細(xì)節(jié)信息,同時(shí)有助于減少早期階段整個(gè)網(wǎng)絡(luò)層中傳播的高頻噪聲成分。 進(jìn)而,在解碼器部分高層與低層特征圖拼接之后嵌入的CBAM 模塊,使得通道注意力模塊能夠更加有效地關(guān)注經(jīng)過Sharp 模塊增強(qiáng)的淺層特征通道的信息,從而加強(qiáng)對于淺層信息的提取,更好地平衡高層和淺層的語義差距。
加權(quán)交叉熵常用來解決醫(yī)學(xué)圖像中的類別不平衡問題。 通過對每個(gè)類別加上適當(dāng)?shù)臋?quán)重,從而抵消了數(shù)據(jù)集中存在的類不平衡。 進(jìn)而,為了降低易分樣本對損失函數(shù)的貢獻(xiàn),Lin 等學(xué)者[29]通過引入難易區(qū)分權(quán)重,使模型更加專注難分樣本的區(qū)分,得到了Focal Loss(FL):
其中,β表示類別平衡因子,γ是難易樣本平衡因子。 通過對β參數(shù)的調(diào)整,可解決正負(fù)樣本不均衡的問題;通過(1- pi)γ參數(shù)的調(diào)整,可改善難易樣本不均衡問題。
Hausdorff Distance(HD) Loss 可用于優(yōu)化分割的最大距離誤差[30]:
其中,Ω表示圖像定義的網(wǎng)格;q,p分別表示預(yù)測圖與groud-truth;dq,dp分別表示預(yù)測圖與ground-truth 的距離變換圖; “?” 表示對應(yīng)元素相乘。HDLoss 不是只關(guān)注最大的分割誤差,而是使用α作為懲罰因子,平穩(wěn)地對于較大的分割誤差給予懲罰。
在醫(yī)學(xué)圖像分割任務(wù)中,類別不均衡問題很常見,即正負(fù)樣本比例失衡。 口腔移植骨圖像也是如此,背景像素約占95%以上,數(shù)據(jù)集具有顯著的正負(fù)樣本比例不平衡特征。 同時(shí),由于二維圖像中移植骨區(qū)域較小,對于較小的樣本容易產(chǎn)生誤判。 考慮到基于邊界的損失函數(shù)能夠通過對最大距離的約束有效地減小誤判的產(chǎn)生,本文設(shè)計(jì)一種聯(lián)合FL與HDLoss 的損失函數(shù),其定義如下:
這里,參數(shù)λ平衡了HDLoss 在訓(xùn)練中的權(quán)重,以實(shí)現(xiàn)更好的分割性能。 經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),γ參數(shù)設(shè)置為2,β設(shè)置為0.8,α值在1.0 和3.0 之間實(shí)驗(yàn)結(jié)果較好。 本文的實(shí)驗(yàn)中,α設(shè)置為1.5,λ設(shè)置為0.2。
本文實(shí)驗(yàn)使用Python 編程語言,Pytorch 框架,硬件配置如下:處理器為Inter(R)Core(TM)i9 -10900X CPU @3.7 GHz,內(nèi)存(RAM)為64.0 GB,GPU 為NVIDIA GeForce RTX 3090 24 GB 顯存,計(jì)算機(jī)系統(tǒng)為Linux 操作系統(tǒng)Ubuntu 18.04。
在訓(xùn)練過程中,采用自適應(yīng)動(dòng)量估計(jì)( adaptive moment estimation,Adam) 優(yōu)化器和反向傳播算法對網(wǎng)絡(luò)進(jìn)行優(yōu)化與梯度更新。訓(xùn)練批次(batchsize) 設(shè)為16,初始學(xué)習(xí)率( learning rate) 設(shè)為0. 001,每100 個(gè)周期學(xué)習(xí)率下降0.2 倍,動(dòng)量值設(shè)為0. 9,訓(xùn)練次數(shù)設(shè)置為500。
本實(shí)驗(yàn)的CBCT 數(shù)據(jù)集來自上海交通大學(xué)醫(yī)學(xué)院附屬第九人民醫(yī)院,由不同年齡階段的10 例健康患者在術(shù)后經(jīng)同一臺(tái)CBCT 掃描儀掃描得到(倫理批號(hào):SH9H-2022-TK53-1),剔除無關(guān)部位的掃描切片后,共計(jì)505 張圖片。 掃描時(shí)的參數(shù)設(shè)置:電壓120 kV、電流5 mA、掃描時(shí)間16 ~20 s、voxel size:0.25 mm;FOV: 25 cm(D)×17 cm(H) 分辨率,圖像矩陣為651×651×651 體素。 考慮到人工標(biāo)注的骨移植區(qū)域作為標(biāo)注金標(biāo)準(zhǔn)的可信度和深度學(xué)習(xí)的可解釋性,對于每張?jiān)糃BCT 圖像,口腔移植骨區(qū)域由經(jīng)驗(yàn)豐富的口腔??漆t(yī)生手工標(biāo)注,并將最終標(biāo)注結(jié)果以NIFTI 格式進(jìn)行存儲(chǔ)。 為了提升模型泛化能力,采取旋轉(zhuǎn)、偏移、裁剪、水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)等操作進(jìn)行數(shù)據(jù)集擴(kuò)充,最終得到尺寸為224×224的圖片1 830張。 進(jìn)而可得,訓(xùn)練數(shù)據(jù)集為1 464張圖片,測試數(shù)據(jù)集為366 張圖片。
為了定量評估分割效果,本文使用Jaccard 指數(shù)(Intersection-over-Union,IoU)、 Dice 相似系數(shù)(Dice Similarity Coefficient,DSC)、 Hausdorff 距離(Hausdorff Distance,HD)、召回率(Recall)、精確率(Precision) 作為評估指標(biāo)。 對于各評估指標(biāo)的數(shù)學(xué)定義及表述詳見如下。
(1)IoU。 給定2 個(gè)集合G和P,對應(yīng)表示真實(shí)標(biāo)簽和預(yù)測標(biāo)簽,IoU定義為:
其中,G∩P為真實(shí)標(biāo)注區(qū)域與預(yù)測輸出區(qū)域的交集,G∪P為真實(shí)標(biāo)注區(qū)域與預(yù)測輸出區(qū)域并集。 Jaccard 系數(shù)的范圍從0 到1,這里1 表示真實(shí)標(biāo)簽和預(yù)測標(biāo)簽之間的完全匹配,而0 表示真空標(biāo)簽和預(yù)測標(biāo)簽之間的完全不匹配。
(2)DSC。 定義為:
同樣地,DSC的值在[0,1]范圍內(nèi)。 其值越大表示網(wǎng)絡(luò)的預(yù)測輸出與真實(shí)標(biāo)注之間的重合率越高。
(3)召回率(Recall)。 定義為所有預(yù)測輸出像素中被正確預(yù)測出來的比例。 數(shù)學(xué)定義公式為:
其中,TP +FN表示數(shù)據(jù)集中的所有正例。
(4)精確率(Precision)。 表示在所預(yù)測的正樣本中,預(yù)測正確的正樣本所占的比例,其計(jì)算公式為:
(5)Hausdorff 距離。 是用來度量2 組點(diǎn)集的相似程度。 假設(shè)有2 組集合A ={a1,…,ap} 和B ={b1,…,bp},則這2 個(gè)點(diǎn)集合之間的HD為:
其中,
其中,‖·‖表示點(diǎn)集A和點(diǎn)集B間的距離范式。HD值越小,表示A、B之間的重疊度越高,分割性能越好。
為了評估的SA-UNet 模型中不同模塊(即Sharp 模塊和CBAM 模塊)和不同損失函數(shù)(即LossFL和LossHD,記作FL和HD) 在口腔移植骨分割任務(wù)中的性能,本節(jié)設(shè)計(jì)了7 組不同實(shí)驗(yàn)來進(jìn)行對比。 表1 給出了在不同模塊組合下的不同模型對移植骨的平均分割性能。 從表1 不難看出,不同模塊的組合都能在一定程度上提升網(wǎng)絡(luò)模型的性能,且SA-UNet 網(wǎng)絡(luò)在性能上達(dá)到了最佳,DSC值達(dá)到0. 923 6,Hausdorff 距離為0.566 3。當(dāng)同時(shí)考慮提出的聯(lián)合損失函數(shù)時(shí),DSC值達(dá)到0.926 2,Hausdorff距離為0.509 2,在性能上進(jìn)一步提升了0.28%和10.08%。
表1 不同改進(jìn)方案下的網(wǎng)絡(luò)性能Tab. 1 The performance of network with different improved strategies
本節(jié)將通過與U-Net、UNet ++、DeepLabV3、Attention U-Net、ResUNet 等當(dāng)前主流分割模型進(jìn)行對比分析,進(jìn)一步驗(yàn)證提出模型的準(zhǔn)確性和有效性。表2 給出了不同網(wǎng)絡(luò)模型在測試集上指標(biāo)IoU、DSC、Recall、Precision與Hausdorff 的得分情況。
表2 不同網(wǎng)絡(luò)模型對比Tab. 2 Performance comparison of different network modules
根據(jù)表2 不難看出,本文提出的SA-UNet 在IoU、DSC、 Hausdorff 距離三個(gè)性能指標(biāo)皆達(dá)到最優(yōu),其值分別為0.866 5、0.926 2、0.509 2。分別領(lǐng)先位于其后的Attention U-Net 網(wǎng)絡(luò)0.41%、0.22%和8.0%。ResNet 網(wǎng)絡(luò)的Recall指標(biāo)最優(yōu)為0.962 2,Attention U-Net 網(wǎng)絡(luò)的Precision指標(biāo)在所有模型結(jié)果中最優(yōu)為0.897 0。 本文的SA-UNet 性能皆位居第二,略低0.08%和0.19%。 DeepLabv3 模型由于網(wǎng)絡(luò)層數(shù)較深,模型參數(shù)量較大,難以有效關(guān)注到圖像低層的細(xì)節(jié)信息,導(dǎo)致分割效果較差,從而反映了U型網(wǎng)絡(luò)中跳躍連接的重要性,側(cè)面驗(yàn)證本文通過跳越連接層的改進(jìn)與注意力機(jī)制的結(jié)合,加強(qiáng)圖像細(xì)節(jié)信息而提高分割結(jié)果的合理性和優(yōu)越性。
為了進(jìn)一步檢驗(yàn)?zāi)P偷膹?fù)雜度,本節(jié)將SAUNet 與 U - Net、 U - Net ++、 Attention U - Net、DeepLabv3[31]、ResUNet 等5 種經(jīng)典分割網(wǎng)絡(luò)模型的參數(shù)量和浮點(diǎn)運(yùn)算量進(jìn)行了分析,結(jié)果見表3。 結(jié)合表2 可以看出,與基準(zhǔn)網(wǎng)絡(luò)U-Net 相比,本文提出的SA-UNet 參數(shù)量只增加了0.03 M,計(jì)算量只增加了0.4 G,而IoU指標(biāo)提升了4.27%,DSC指標(biāo)提升了2.27%。 也就是說,在幾乎沒有增加開銷的情況下,圖像分割精度得到了有效的提升。 進(jìn)而,相比于Attention U-Net,本文研究的模型參數(shù)量減少了0.06 M,計(jì)算量降低了1.53 G,而IoU指標(biāo)提升了0.41%,DSC指標(biāo)提升了0.22%,網(wǎng)絡(luò)的分割精度和計(jì)算效率也得到了有效的改善。 這進(jìn)一步驗(yàn)證了Sharp 模塊沒有額外可學(xué)習(xí)參數(shù),CBAM 模塊只有極少數(shù)的額外參數(shù)。 因此,SA-UNet 作為輕量級(jí)的模型在小樣本醫(yī)學(xué)圖像數(shù)據(jù)集中更加適用。
表3 模型參數(shù)Tab. 3 Model parameters
本節(jié)將給出不同網(wǎng)絡(luò)模型對口腔CBCT 圖像移植骨分割的可視化結(jié)果,如圖4 所示。 圖4(a)中第1~5 列分別表示來自5 位不同病人的口腔CBCT 圖像,(b)為移植骨的真實(shí)標(biāo)簽,(c) ~(h)分別為U-Net、U -Net ++、DeepLabv3、Attention U - Net、ResUNet、SA-UNet 的分割結(jié)果。
圖4 不同患者口腔CBCT 圖像的分割結(jié)果Fig. 4 Segmentation results of CBCT images from different patients
U-Net 和U-Net++網(wǎng)絡(luò)能夠基本實(shí)現(xiàn)對移植骨的分割。 但是U-Net 只是通過跳躍連接實(shí)現(xiàn)低層特征信息和高層特征信息的拼接,忽略了二者較大的語義差距帶來特征信息的丟失;U-Net++網(wǎng)絡(luò)通過大量的短連接實(shí)現(xiàn)多尺度特征信息的整合,但并沒有加強(qiáng)低層特征的重要性。 由圖4(c)、(d)可以發(fā)現(xiàn),在U-Net 與U-Net++網(wǎng)絡(luò)模型的分割結(jié)果中,容易發(fā)生欠分割,并且對于移植骨凸出的邊緣分割效果不佳。 DeepLabv3 模型由于網(wǎng)絡(luò)層數(shù)較深,且在解碼部分使用多次的雙線性采樣。 由圖4(e)可以看出,該模型難以捕捉到移植骨圖像的細(xì)節(jié)信息(如圖像的邊緣,紋理信息),分割邊緣過于平滑,整體分割效果較差。 ResUNet 通過殘差連接的方式保留低層特征信息,Attention U-Net 通過注意力門的方式抑制不相關(guān)的區(qū)域,但仍然有特征學(xué)習(xí)不充分,在分割區(qū)域內(nèi)有少量噪聲產(chǎn)生。 由圖4(f)、(g)可知,2 個(gè)網(wǎng)絡(luò)對于移植骨的整體輪廓分割效果較好,但依然有噪聲的殘留(見第三列),并且對于移植骨凸出部分分割不夠平滑,過于尖銳(見第五列)。 與這些網(wǎng)絡(luò)模型相比,本文提出的SA-UNet可以獲得更優(yōu)的分割性能,在分割中能夠更準(zhǔn)確地捕捉邊界信息過濾分割區(qū)域中的細(xì)小噪聲(見圖4(h)中的第二列、第三列);此外,本文網(wǎng)絡(luò)還能夠平滑地處理模糊邊界的情況,獲得更為精細(xì)的分割結(jié)果(見圖4(h)中的第四列、第五列)。
本文提出了一種基于U-Net 和注意力機(jī)制的新型編碼解碼網(wǎng)絡(luò)模型,該模型通過構(gòu)建Sharp 模塊改進(jìn)跳躍連接簡單的復(fù)制操作,增強(qiáng)低層圖像細(xì)節(jié)信息,平衡拼接操作產(chǎn)生的語義差距,通過在解碼器部分的每一層嵌入CBAM 模塊,通過注意力機(jī)制分配不同權(quán)重使得模型更加關(guān)注重要信息,抑制無用信息。 通過實(shí)驗(yàn)表明,本文提出的SA-UNet 網(wǎng)絡(luò)結(jié)構(gòu)能夠通過Sharp 模塊的銳化操作增強(qiáng)低層特征,并通過注意力機(jī)制提高對于圖像細(xì)節(jié)信息的關(guān)注度,同時(shí)設(shè)計(jì)了聯(lián)合損失函數(shù)對不平衡數(shù)據(jù)集進(jìn)行優(yōu)化,在移植骨圖像分割結(jié)果中有較好的性能。在模型復(fù)雜度方面,與U-Net 相比,幾乎沒有增加計(jì)算開銷,并且參數(shù)量遠(yuǎn)小于其他醫(yī)學(xué)模型,同時(shí)分割精度與U-Net 相比在IoU,Dice系數(shù)兩個(gè)指標(biāo)上分別提高了0.035 5,0.020 6;在分割精度方面,與現(xiàn)有的主流分割模型對比,在IoU、Dice系數(shù)、Hausdorff 距離三個(gè)評價(jià)指標(biāo)上的表現(xiàn)最佳,得分達(dá)到了0.866 5、0.926 2、0.509 2。 由于本模型能夠有效提升圖像細(xì)節(jié)信息的特征提取能力,且模型參數(shù)相對較少,因此同樣適用于語義簡單、結(jié)構(gòu)固定的其他小樣本醫(yī)學(xué)圖像數(shù)據(jù)集的分割以及輔助診斷應(yīng)用。