摘 要:由于肺部CT圖像的特征信息復(fù)雜度較高,經(jīng)典3D U-Net網(wǎng)絡(luò)在肺結(jié)節(jié)分割方面準(zhǔn)確率較低,存在誤分割等問題。基于此,提出一種基于改進3D U-Net的網(wǎng)絡(luò)模型。通過將加入了密集塊的3D U-Net網(wǎng)絡(luò)和雙向特征網(wǎng)絡(luò)(Bi-FPN)融合,提高了模型分割精度。同時采用深度監(jiān)督訓(xùn)練機制,進一步提高了網(wǎng)絡(luò)性能。在公開數(shù)據(jù)集LUNA-16上對模型進行比較實驗和評估,結(jié)果顯示,改進后的3D U-Net網(wǎng)絡(luò),Dice相似系數(shù)較原模型提高4%,分割精度為93.9%,敏感度為94.3%,證明該模型在肺結(jié)節(jié)分割精度及準(zhǔn)確率方面具有一定的應(yīng)用價值。
關(guān)鍵詞:肺結(jié)節(jié)分割;CT;3D U-Net;雙向特征網(wǎng)絡(luò);深度監(jiān)督
中圖分類號:TP391;TP183 文獻標(biāo)識碼:A 文章編號:2096-4706(2024)13-0052-05
Research on Lung Nodule Segmentation Method Based on Improved 3D U-Net Model
SHI Zhengjin, LI Wenhui, GAO Tian
(Shenyang Ligong University, Shenyang 110159, China)
Abstract: Due to the high complexity of feature information in lung CT images, the classic 3D U-Net network exhibits low accuracy in lung nodule segmentation, leading to issues such as miss segmentation. To address this, a network model based on improved 3D U-Net is proposed. This model integrates 3D U-Net network with dense blocks with the Bidirectional Feature Pyramid Network (Bi-FPN) to improve the model's segmentation accuracy. The adoption of deep supervision training mechanism further enhances network performance. Comparative experiments and evaluations are conducted on the public dataset LUNA-16, and the results show that the improved 3D U-Net network has a 4% increase in Dice similarity coefficient, a segmentation accuracy of 93.9%, and a sensitivity of 94.3% compared to the original model. This proves that the model has certain application value in the accuracy and precision of lung nodule segmentation.
Keywords: lung nodule segmentation; CT; 3D U-Net; bi-directional feature network; Deep Supervision
0 引 言
目前,肺癌已經(jīng)成為當(dāng)今世界死亡率最高的癌癥之一[1],給人類的健康及生活帶來了嚴(yán)重影響。肺癌早期通常以極少數(shù)良性結(jié)節(jié)的形式存在,由于此時結(jié)節(jié)的形狀不規(guī)則、位置不規(guī)律,會影響醫(yī)生的主觀判斷。近年來,隨著醫(yī)學(xué)圖像數(shù)據(jù)集的增加和計算機GPU計算能力的提升,深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域取得了巨大進展,尤其在醫(yī)學(xué)圖像領(lǐng)域表現(xiàn)突出。借助深度學(xué)習(xí)方法輔助醫(yī)生進行診斷,有效解決了漏診、誤診等問題。
傳統(tǒng)肺結(jié)節(jié)檢測方法是基于人工手動提取肺結(jié)節(jié)[2],極其依賴醫(yī)生個人經(jīng)驗,受人的主觀影響較大,而基于深度學(xué)習(xí)的方法可以自動提取病灶特征[3],不需要人工參與,可以更加高效準(zhǔn)確的完成分割任務(wù)。?i?ek等[4]提出了一種3D U-Net網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)在原U-Net架構(gòu)基礎(chǔ)上引入了密集體積分割模塊,以增強特征信息的復(fù)用;并通過半監(jiān)督訓(xùn)練機制提高了模型整體性能,但由于半監(jiān)督訓(xùn)練對數(shù)據(jù)的依賴性較強,從而限制了模型的分割性能。Milletari等[5]提出了V-Net模型,一種基于U-Net的三維圖像分割網(wǎng)絡(luò),加入了殘差連接模塊,但其分割精度仍有待提高。Lin等[6]提出了一種基于3D U-Net改進的圖像分割方法,該網(wǎng)絡(luò)加入了Dense blocks模塊,并通過深度監(jiān)督結(jié)構(gòu)進一步提升性能,但對不同尺度和層次信息的感知能力還有些許不足。
針對以上問題,本文提出了一種基于改進的3D U-Net密集連接雙向特征網(wǎng)絡(luò),并通過加入深度監(jiān)督結(jié)構(gòu),有效提高了模型的性能及對不同尺寸結(jié)節(jié)的感知能力,進一步提高分割精度,使其適用于多類型肺結(jié)節(jié)的高效分割。
1 網(wǎng)絡(luò)結(jié)構(gòu)
1.1 整體網(wǎng)絡(luò)結(jié)構(gòu)
由于肺結(jié)節(jié)類型多,在肺部CT圖像中占比較小,形狀復(fù)雜,給肺結(jié)節(jié)的早期發(fā)現(xiàn)及治療帶來很大困難?;谶@些問題,本研究提出了一種改進的3D U-Net分割模型,通過端到端深度學(xué)習(xí)方法,在編碼器與解碼器之間引入雙向特征網(wǎng)絡(luò),進行多層次的特征融合。并在骨干網(wǎng)絡(luò)部分采用密集連接網(wǎng)絡(luò)[7](DenseNet)和深度監(jiān)督模塊,實現(xiàn)特征的重復(fù)使用并提高網(wǎng)絡(luò)性能。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
分割網(wǎng)絡(luò)由加入了密集塊的3D U-Net和Bi-FPN融合網(wǎng)絡(luò)以及深度監(jiān)督模塊構(gòu)成,在這個架構(gòu)中,收縮路徑具有卷積網(wǎng)絡(luò)的典型結(jié)構(gòu),由兩個3×3×3的卷積組成,每個卷積后跟一個非線性的Mish激活函數(shù)和一個2×2×2的步幅為2的最大池化,用于對輸入圖像特征進行降采樣,收縮路徑的深度為5。此外,為了對模型進行正則化,在深度為4的第二個3×3×3卷積塊之后使用了一個因子為0.5的Dropout層。在模型的每一層發(fā)生的卷積過程計算式為:
式中i和k分別表示輸入圖像和核,A[l]、W [l]、b[l]、f [l]分別表示第1層的激活度、權(quán)值、偏置、激活函數(shù)。在5個深度處得到的特征被輸入到Bi-FPN,輸出的特征向量被輸入到擴展部分。擴展路徑中的每一步都包括對特征圖進行上采樣,然后進行2×2×2的卷積。在上采樣后獲得的特征向量與特征網(wǎng)絡(luò)中相應(yīng)的特征向量進行串聯(lián)。串聯(lián)操作后緊跟兩個3×3×3的卷積。在骨干網(wǎng)絡(luò)的最后一層,經(jīng)歷兩個3×3×3的卷積。接著是Mish激活函數(shù)和一個最終的1×1×1卷積塊,在網(wǎng)絡(luò)的最后,通過一個大小為1×1×1步幅為1的卷積層構(gòu)成一個輸出模塊,經(jīng)由Sigmoid激活函數(shù)輸出CT圖像的掩膜,Mish和Sigmoid函數(shù)定義如下:
其中,Softplus函數(shù)定義為:
1.2 Bi-FPN
Bi-FPN [8](Bidirectional Feature Pyramid Network)是特征金字塔網(wǎng)絡(luò)的一種改進版本,其目標(biāo)是通過引入雙向跨尺度連接和權(quán)重特征融合,提高網(wǎng)絡(luò)的特征提取效率,并豐富特征向量,實現(xiàn)對低級精細特征和高級語義特征的融合。Bi-FPN的輸入是骨干架構(gòu)收縮路徑相應(yīng)5個深度的特征圖,Bi-FPN的輸出饋送到骨干網(wǎng)絡(luò)的擴展路徑,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
Bi-FPN在特征融合過程中引入了每個輸入的附加權(quán)重,使得網(wǎng)絡(luò)能夠?qū)W習(xí)特定輸入特征的重要性。為了實現(xiàn)動態(tài)學(xué)習(xí)行為和準(zhǔn)確性,實施了快速標(biāo)準(zhǔn)化融合。此外,為了提高效率,采用了深度可分離卷積,隨后進行批歸一化和非線性激活函數(shù)ReLU。通過雙向跨尺度連接,Bi-FPN豐富了網(wǎng)絡(luò)每個深度的特征圖,并在3D U-Net骨干架構(gòu)的編碼器部分各個深度之間提供了高效的特征融合。Bi-FPN的整體結(jié)構(gòu)如下:
式中p1表示自上而下路徑,p2表示自下而上路徑的特征圖;U表示上采樣操作,D表示下采樣操作;W表示帶有權(quán)重的特征融合。
1.3 深度監(jiān)督模塊
深度監(jiān)督[9]是在深度神經(jīng)網(wǎng)絡(luò)的一些中間隱藏層添加一個輔助分類器作為網(wǎng)絡(luò)分支,用于監(jiān)督骨干網(wǎng)絡(luò),以解決深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失和收斂緩慢的問題。其結(jié)構(gòu)圖如圖3所示。
一般而言,增加神經(jīng)網(wǎng)絡(luò)的深度能夠在一定程度上提高網(wǎng)絡(luò)的表征能力,但隨著深度的增加,神經(jīng)網(wǎng)絡(luò)會逐漸變得難以訓(xùn)練,包括梯度消失和梯度爆炸等現(xiàn)象。為了更好地訓(xùn)練深層網(wǎng)絡(luò),我們嘗試在神經(jīng)網(wǎng)絡(luò)的某些層添加一些輔助分支分類器來解決這個問題。這個輔助分支分類器可以在評估隱藏層的特征圖質(zhì)量方面發(fā)揮作用。
1.4 損失函數(shù)
網(wǎng)絡(luò)訓(xùn)練的目標(biāo)是提高每個掩膜中每個體素正確類別的概率。為了實現(xiàn)這一目標(biāo),本文采用了加權(quán)二元交叉熵?fù)p失(Weighted Binary Cross-Entropy Loss)作為損失函數(shù)。在實施加權(quán)二進制交叉熵時,通過對訓(xùn)練集中的負(fù)體素與正體素的比例進行加權(quán),對每個樣本進行了權(quán)重設(shè)置。由于肺結(jié)節(jié)掩膜中正類的大小相對較小,而負(fù)類的大小較大,訓(xùn)練集的類別權(quán)重被設(shè)定為正值,從而增加了對錯誤輸出正值的懲罰。因此,網(wǎng)絡(luò)將學(xué)習(xí)減少對輸出負(fù)體素的偏好,以應(yīng)對掩膜中的類別不平衡。加權(quán)二元交叉熵?fù)p失表達式為:
式中,N表示樣本數(shù),ωp表示正預(yù)測權(quán)值, 表示為模型的預(yù)測值。
2 數(shù)據(jù)處理
2.1 實驗數(shù)據(jù)集
本實驗所使用的數(shù)據(jù)來自LUNA16數(shù)據(jù)集,該數(shù)據(jù)集源于規(guī)模更大的LIDC-IDRI [10]。在LIDC-IDRI數(shù)據(jù)集的1 018個CT掃描病例中,選擇厚度大于2.5 mm的888個CT圖像用于模型的訓(xùn)練、驗證及測試。在這些圖像中,共包含1 186個肺結(jié)節(jié)[11],并且每張圖像都被4名經(jīng)驗豐富的放射科專家進行了標(biāo)注。
2.2 圖像預(yù)處理
由于CT原始圖片是整個肺部的切片,冗余信息過多,因此需要先提取出肺實質(zhì)再進行后續(xù)結(jié)節(jié)的分割工作。為了提高圖像的對比度,首先對圖像進行直方圖均衡化處理和二值化處理,粗略分割出肺實質(zhì)。接著,采用膨脹和腐蝕兩種數(shù)學(xué)形態(tài)學(xué)方法消除肺實質(zhì)噪聲,使肺實質(zhì)邊緣更加平滑。最后,通過掩膜提取ROI區(qū)域,各階段圖像如圖4所示。
由于深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)高度依賴,數(shù)據(jù)量較少可能導(dǎo)致模型過度擬合。為了緩解這一問題,對數(shù)據(jù)進行不同角度的旋轉(zhuǎn)和翻轉(zhuǎn),生成更多的新訓(xùn)練樣本,以防止過度擬合并提高分割網(wǎng)絡(luò)的通用性。最后,將整個數(shù)據(jù)集分成10份,其中8份用于訓(xùn)練,剩下的2份分別用于驗證和測試模型。
3 實驗結(jié)果與分析
3.1 模型訓(xùn)練
本文模型采用學(xué)習(xí)率為0.001的Adam優(yōu)化器進行訓(xùn)練,每迭代3次衰減為原來的0.1倍,采用的訓(xùn)練迭代次數(shù)Epoch為100。圖5是模型在訓(xùn)練過程中的準(zhǔn)確率曲線,經(jīng)過80個Epoch后,模型整體準(zhǔn)確率趨于穩(wěn)定。所用模型在GPU上使用TensorFlow深度學(xué)習(xí)庫實現(xiàn),編碼使用的是Python 3.6。
3.2 對比試驗
為了評估本文模型在肺結(jié)節(jié)分割方面的性能,我們將改進后的網(wǎng)絡(luò)與3D U-Net和V-Net進行了對比實驗。圖6展示了這3種網(wǎng)絡(luò)對5種不同尺寸肺結(jié)節(jié)圖像的三維分割剖面圖。
通過觀察不同網(wǎng)絡(luò)分割結(jié)果圖,可以清晰看出改進后的3D U-Net在結(jié)節(jié)分割方面更為準(zhǔn)確,其分割結(jié)果更接近于標(biāo)簽標(biāo)注的結(jié)節(jié)邊緣信息。為了全面評估模型性能,我們將提出的模型與其他兩種網(wǎng)絡(luò)在LUNA16數(shù)據(jù)集下進行了分割性能的評估和比較,主要考察了3個關(guān)鍵指標(biāo):Dice系數(shù)(DSC)、靈敏度(Sensitivity)和準(zhǔn)確率(Precision)。其中準(zhǔn)確率(A)和靈敏度(S)的計算公式如下:
式中,TP表示真正類;TN表示真負(fù)類;FN表示假負(fù)類;FP表示假正類。
比較不同網(wǎng)絡(luò)結(jié)構(gòu)在肺結(jié)節(jié)分割性能上的表現(xiàn),表1清晰地展示了本文改進后的3D U-Net網(wǎng)絡(luò)在該領(lǐng)域取得的結(jié)果最佳。具體而言,Dice相似系數(shù)達到了79.6%,靈敏度為94.3%,精確度為93.9%。與此相反,3D U-Net和VNet兩種網(wǎng)絡(luò)結(jié)構(gòu)在感知不同尺寸肺結(jié)節(jié)方面表現(xiàn)較差,難以取得準(zhǔn)確的分割結(jié)果。相對而言,本文提出的改進的3D U-Net網(wǎng)絡(luò)通過引入Bi-FPN,將底層特征與頂層特征圖進行連接,從而增強了模型對不同尺寸結(jié)節(jié)的感知能力。同時,結(jié)合深度監(jiān)督訓(xùn)練機制,進一步提升了3D U-Net的網(wǎng)絡(luò)性能,最終實現(xiàn)了卓越的肺結(jié)節(jié)分割效果。
4 結(jié) 論
本研究提出了一種基于改進的3D U-Net肺癌CT圖像分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過在編碼器和解碼器之間引入雙向特征網(wǎng)絡(luò),促使特征在不同深度之間雙向傳播,從而增強模型的適應(yīng)性和感知能力,顯著提高了模型分割準(zhǔn)確性。同時采用深度監(jiān)督機制,提高了網(wǎng)絡(luò)的性能和泛化能力。
然而,雖然該算法取得了一定的成果,但仍存在一些局限性,需要在未來的研究中進行改進。肺結(jié)節(jié)種類繁多且判斷標(biāo)準(zhǔn)復(fù)雜,目前的數(shù)據(jù)集并未充分涵蓋肺結(jié)節(jié)的多樣性,因此該算法尚未完全應(yīng)用于臨床實踐。隨著技術(shù)的不斷進步,計算機輔助診斷系統(tǒng)有望在肺結(jié)節(jié)檢測領(lǐng)域發(fā)揮更為重要的作用。未來的研究可以側(cè)重于擴充數(shù)據(jù)集、改進算法以適應(yīng)更多肺結(jié)節(jié)的多樣性,并不斷優(yōu)化系統(tǒng),以提高在臨床環(huán)境中的實用性和準(zhǔn)確性。
參考文獻:
[1] 周清華,范亞光,王穎,等.中國肺部結(jié)節(jié)分類、診斷與治療指南:2016年版 [J].中國肺癌雜志,2016,19(12):793-798.
[2] ARMATO S G,GIGER M L,MORAN C J,et alQb3h9HaYQJKehJHD0vH8RA==. Computerized detection of Pulmonary Nodules on CT Scans [J].Radiographics,1999,19(5):1303-1311.
[3] LONG J,SHELHAMER E,DARRELL T. Fully Convolutional Networks for Semantic Segmentation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:3431-3440.
[4] ?I?EK ?,ABDULKADIR A,LIENKAMP S S,et al. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation [C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI 2016.Athens:Springer,2016:424-432.
[5] MILLETARI F,NAVAB N,AHMADI S,et al. V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation [C]//2016 Fourth International Conference on 3D Vision (3DV).Stanford:IEEE,2016:565-571.
[6] LIN H B,XIA L Z,ZHANG Y H,et al. Research of Lung Nodule Segmentation Algorithm Based on 3D U-Net Network [C]//2022 IEEE 10th Joint International Information Technology and Artificial Intelligence Conference (ITAIC).Chongqing:IEEE,2022:1795-1799.
[7] HUANG G,LIU Z,MAATEN L V D,et al. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:2261-2269.
[8] LIN T Y,DOLLáR P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:936-944.
[9] YANG J Z,WU B,LI L T,et al. MSDS-UNet: A multi-Scale Deeply Supervised 3D U-Net for Automatic Segmentation of Lung Tumor in CT [J/OL].Computerized Medical Imaging and Graphics,2021,92:101957[2023-12-03].https://pubmed.ncbi.nlm.nih.gov/34325225/.
[10] ARMATO S G,MCLENNAN G,BIDAUT L,et al. The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): a completed reference database of lung nodules on CT scans [J].Medical physics,2011,38(2):915-931.
[11] HARITH M Z M Z,NOOR N M,IDRIS M Y I,et al. Intersection and Complement Set (IACS) Method to Reduce Redundant Node in Mobile WSN Localization [J/OL].Sensors,2018,18(7):2344[2023-12-03].https://pubmed.ncbi.nlm.nih.gov/30029508/.
作者簡介:石征錦(1963—),男,漢族,遼寧錦州人,教授,碩士,主要研究方向:先進控制理論及應(yīng)用、現(xiàn)代檢測與自動化裝置;李文慧(1997—),女,漢族,遼寧鞍山人,碩士研究生在讀,主要研究方向:復(fù)雜系統(tǒng)綜合自動化技術(shù);高天(1998—),男,漢族,遼寧朝陽人,碩士研究生在讀,主要研究方向:復(fù)雜系統(tǒng)綜合自動化技術(shù)。