馬金林,魏 萌,馬自萍
(北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021)
(*通信作者電子郵箱624160@163.com)
肺癌是全世界發(fā)病率和死亡率最高的惡性腫瘤之一,但是肺癌的篩查和預(yù)防仍然存在很大的挑戰(zhàn)。在進(jìn)行肺癌診斷時,需要精確的肺結(jié)節(jié)數(shù)據(jù)來進(jìn)行判斷,影像科醫(yī)生需要反復(fù)逐層地檢查三維計(jì)算機(jī)斷層掃描(Computed Tomography,CT)圖像,來尋找肺結(jié)節(jié)區(qū)域,然后再對肺結(jié)節(jié)進(jìn)行良惡性的診斷,因此CT圖像中肺結(jié)節(jié)的分割是對肺癌進(jìn)一步定量分析的關(guān)鍵。但是肺結(jié)節(jié)在CT 圖像上表現(xiàn)為一種體積小、密度高,直徑只有3~30 mm的陰影,給肺結(jié)節(jié)圖像分割造成很大困難。
近年來,肺結(jié)節(jié)的分割方法有很多。常見的分割方法分為兩類:基于傳統(tǒng)的無監(jiān)督分割方法[1]和基于機(jī)器學(xué)習(xí)的分割方法[2]?;趥鹘y(tǒng)的無監(jiān)督分割方法中常用方法包括形態(tài)學(xué)方法、閾值分割法、聚類法等。盡管這些方法既快速又簡單,但是仍然存在諸如分割不足或者過度分割的問題。形態(tài)學(xué)方法[1]可以去除肺結(jié)節(jié)的邊緣毛刺,但操作中涉及的參數(shù)不容易被控制。閾值分割法[2]在進(jìn)行血管粘連性肺結(jié)節(jié)分割時效果并不理想。孫申申等[3]使用最大期望(Expectation-Maximization,EM)算法和均值漂移法提取肺結(jié)節(jié),獲得了較好效果,但是,對于附著結(jié)節(jié)的數(shù)量大于或等于2 的情況,該方法的分割效果并不理想。除此之外,其他的傳統(tǒng)方法也有不足,如Armato等[4]提出的灰度閾值方法,雖然提高了分割精度,但是這種方法費(fèi)時,受限并且使用不便;Kanazawa 等[5]使用模糊聚類算法提取肺和肺血管區(qū)域,但是丟失了3D空間特征信息;Miwa 等[6]提出一種稱為變量N-Quoit 濾波器的算法,用于病理陰影候選者的自動識別,這種方法要求過多的手動操作,自動化程度低。
與傳統(tǒng)的分割方法相比,基于機(jī)器學(xué)習(xí)的方法很明顯地提高了分割性能,有效解決了肺結(jié)節(jié)輔助診斷的問題。但是,機(jī)器學(xué)習(xí)的方法需要人為確定代表性特征,這相當(dāng)浪費(fèi)時間和精力。另外,大多數(shù)基于機(jī)器學(xué)習(xí)的方法需要人工干預(yù),這在很大程度上破壞了計(jì)算機(jī)輔助診斷(Computer Aided Diagnosis,CAD)系統(tǒng)的目的,并且為了獲得最佳性能,大多數(shù)技術(shù)都需要大量的迭代和參數(shù)調(diào)整,這也減慢了整個計(jì)算過程。如Messay 等[7]提出了選擇性回歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的輔助診斷方法,具有全自動和半自動化選項(xiàng)。使用該方法進(jìn)行的特征學(xué)習(xí)過程可以根據(jù)學(xué)習(xí)到的特征自動為每個結(jié)節(jié)設(shè)置參數(shù)。但這樣的方法僅在特定類型的肺結(jié)節(jié)上(例如孤立性肺結(jié)節(jié))或相對較小的數(shù)據(jù)集上表現(xiàn)良好,不能滿足肺結(jié)節(jié)的多樣性和復(fù)雜性。
近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺方面取得了長足的進(jìn)步,這使得一些研究者嘗試使用深度學(xué)習(xí)來解決肺結(jié)節(jié)檢測的問題[8-9]。深度學(xué)習(xí)可以從訓(xùn)練數(shù)據(jù)中自動提取特征,與傳統(tǒng)的精細(xì)分割方法相比,深度學(xué)習(xí)可以產(chǎn)生更少的錯誤判斷。在深度學(xué)習(xí)領(lǐng)域,最開始的卷積網(wǎng)絡(luò)末端都使用全連接層(Fully Connected layers,F(xiàn)C),因此最流行的分割方法就是補(bǔ)丁式方法,即逐像素地抽取周圍像素對中心像素進(jìn)行分類。隨后卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像處理上得到了很大的應(yīng)用,但是在卷積和池化的過程中會丟失部分圖像細(xì)節(jié),并且最后只得到了一個一維的概率向量,尤其是在病灶的具體輪廓方面,深度卷積神經(jīng)網(wǎng)絡(luò)的效果不夠理想,導(dǎo)致早期惡性結(jié)節(jié)診斷錯誤,不能及時地干預(yù)治療,使得患者病情惡化加快。2014年,Long 等[10]提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),實(shí)現(xiàn)了端到端的像素級預(yù)測,成為了生物醫(yī)學(xué)圖像分割的另一趨勢。研究者們也快速地將全卷積網(wǎng)絡(luò)應(yīng)用到醫(yī)學(xué)影像領(lǐng)域[11-13],全卷積網(wǎng)絡(luò)在一些高強(qiáng)度的病變分割中均表現(xiàn)出了良好的性能。Ronneberger 等[13]在FCN 的基礎(chǔ)上提出了針對醫(yī)學(xué)圖像分割的U-Net 網(wǎng)絡(luò)。該網(wǎng)絡(luò)更適用于小數(shù)據(jù)量生物醫(yī)學(xué)圖像數(shù)據(jù)處理,能夠得到較好的分割結(jié)果。鑒于U-Net 在生物醫(yī)學(xué)圖像分割任務(wù)上的良好表現(xiàn),在隨后的幾年內(nèi),U-Net 網(wǎng)絡(luò)得到超過幾千次的引用,并被廣泛應(yīng)用和改進(jìn)[14-16]。Tong 等[14]將殘差網(wǎng)絡(luò)的思想引入U-Net 網(wǎng)絡(luò),提高肺結(jié)節(jié)的分割精度。Liu等[15]提出一種級聯(lián)雙路徑殘差網(wǎng)絡(luò)的肺結(jié)節(jié)分割方法,分割精度略勝人類專家。張聲超[16]提出基于U-Net 網(wǎng)絡(luò)與全連接條件隨機(jī)場的疑似肺結(jié)節(jié)檢測算法,提高了肺結(jié)節(jié)的識別準(zhǔn)確率。
深度學(xué)習(xí)描述了由多個處理層組成的計(jì)算模型,這些層主要學(xué)習(xí)不同級別數(shù)據(jù)的抽象表示。借助深度學(xué)習(xí)強(qiáng)大的特征提取功能,逐步替換基于機(jī)器學(xué)習(xí)方法人工定義的特征??傮w來說,深度學(xué)習(xí)的方法在醫(yī)學(xué)領(lǐng)域中表現(xiàn)出了巨大的潛力,這也加速了醫(yī)學(xué)圖像分析與輔助診斷領(lǐng)域的發(fā)展。
目前,深度學(xué)習(xí)在醫(yī)學(xué)圖像處理領(lǐng)域還沒有得到廣泛應(yīng)用,國內(nèi)外專家在對肺結(jié)節(jié)早期定性診斷和治療時,大多還是基于放射科醫(yī)生逐層進(jìn)行閱讀,查看大量的CT圖像容易使得醫(yī)生疲勞,準(zhǔn)確性也受限于醫(yī)生的經(jīng)驗(yàn)和職業(yè)能力等。因此及時有效地分割出肺結(jié)節(jié),并進(jìn)行診斷,是精準(zhǔn)治療肺癌的關(guān)鍵。然而由于醫(yī)學(xué)訓(xùn)練數(shù)據(jù)的缺乏,神經(jīng)網(wǎng)絡(luò)仍然面臨訓(xùn)練困難、容易擬合等問題;并且醫(yī)學(xué)影像數(shù)據(jù)的標(biāo)注需要專業(yè)知識并且成本昂貴,獲得大規(guī)模標(biāo)注的醫(yī)學(xué)圖像數(shù)據(jù)十分困難。因此神經(jīng)網(wǎng)絡(luò)有效地利用非常有限的醫(yī)學(xué)數(shù)據(jù),提高病灶分割結(jié)果,可以說是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
全卷積神經(jīng)網(wǎng)絡(luò)(FCN),將末端的全連接層刪除,實(shí)現(xiàn)了端到端的像素級預(yù)測,能夠得到更加具體的分割邊緣,減少了網(wǎng)絡(luò)的學(xué)習(xí)時間。在此基礎(chǔ)上,U-Net網(wǎng)絡(luò)最早用作生物圖像的分割。如圖1 所示,為U-Net 網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)主要是由卷積層、最大池化層、反卷積層以及ReLU 非線性激活函數(shù)組成。與FCN 相似,網(wǎng)絡(luò)結(jié)構(gòu)由收縮路徑和擴(kuò)張路徑兩部分組成,收縮路徑用來獲取上下文信息,擴(kuò)張路徑用來精確定位。與FCN 不同的是,U-Net 的編碼部分與解碼部分采用對稱結(jié)構(gòu),并且使用skip-connection(跳躍連接)將編碼與解碼的特征圖進(jìn)行通道合并,這種操作將編碼部分的特征圖直接傳遞到解碼部分,使得U-Net 在像素定位上更加準(zhǔn)確,分割結(jié)果比FCN 更加精確,并且U-Net 網(wǎng)絡(luò)更適用于小數(shù)據(jù)量的生物醫(yī)學(xué)圖像數(shù)據(jù)處理,能得到較好的分割結(jié)果,被研究者們大量應(yīng)用。
圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of U-Net network
遷移學(xué)習(xí)[17]是將源域?qū)W習(xí)到的成熟知識應(yīng)用到其他場景。用神經(jīng)網(wǎng)絡(luò)的詞語來表示,就是神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)權(quán)重從一個已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)遷移到一個全新的網(wǎng)絡(luò),而不是為每個特定任務(wù)從頭開始訓(xùn)練一個全新的神經(jīng)網(wǎng)絡(luò)。遷移學(xué)習(xí)可以較好地利用資源并且訓(xùn)練成本也相對較低,可以有效解決醫(yī)學(xué)圖像數(shù)據(jù)較少的問題。遷移學(xué)習(xí)可以具體定義為:給定源域Ds和目標(biāo)域Dt以及它們各自對應(yīng)的學(xué)習(xí)任務(wù)Ts和Tt,在實(shí)際任務(wù)中,一般會要求源域的規(guī)模大于目標(biāo)域的規(guī)模,遷移學(xué)習(xí)的目標(biāo)是利用Ds和目標(biāo)域Dt的知識幫助提高在目標(biāo)域Dt的預(yù)測函數(shù)ft(x)的學(xué)習(xí)效果,其中Ds≠Dt或者Ts≠Tt。Ds≠Dt代表源域與目標(biāo)域的特征空間不同或者是特征的邊緣概率分布不同;Ts≠Tt意味著樣本標(biāo)簽空間不同或者是樣本標(biāo)簽的條件分布不同,P(YS|XS) ≠P(YT|XT)。
根據(jù)遷移的對象和方法不同,將已有的遷移學(xué)習(xí)算法分為四種類型:實(shí)例遷移、特征遷移、模型遷移和對抗遷移。越來越多的研究者將遷移學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合,并運(yùn)用到各個領(lǐng)域。Oquab 等[18]反復(fù)使用卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上訓(xùn)練的前幾層來提取其他數(shù)據(jù)集圖像的中間圖像表征,卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖像表征可以有效遷移到其他訓(xùn)練數(shù)據(jù)量受限的視覺識別任務(wù);楊涵方等[19]在跨領(lǐng)域圖像分類中采用深度稀疏辨別遷移模型實(shí)現(xiàn)良好的分類性能;李浩波等[20]重新搭建了網(wǎng)絡(luò),但是進(jìn)行微調(diào)以優(yōu)化網(wǎng)絡(luò),選擇最后的卷積塊進(jìn)行微調(diào),而不是整個網(wǎng)絡(luò);李淼等[21]將深度學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合進(jìn)行農(nóng)作物病害識別方法研究,將預(yù)訓(xùn)練模型的低層網(wǎng)絡(luò)參數(shù)進(jìn)行凍結(jié),只對全連接層的參數(shù)重新進(jìn)行訓(xùn)練和更新;徐勝舟等[22]將全卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)結(jié)合進(jìn)行乳腺腫塊圖像分割,分割效果明顯優(yōu)于傳統(tǒng)的分割算法??傮w而言,遷移學(xué)習(xí)在深度學(xué)習(xí)中具有巨大的潛力。
在近幾年,基于遷移學(xué)習(xí)策略的醫(yī)學(xué)圖像處理主要是兩類[23]:第一類是將預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)作為特征生成器,如褚晶輝等[24]利用遷移學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行乳腺腫瘤診斷,則是利用MRI(Magnetic Resonance Imaging)數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行微調(diào);第二類是將目標(biāo)域數(shù)據(jù)集用來微調(diào)整個網(wǎng)絡(luò),如Shin等[25]將遷移學(xué)習(xí)微調(diào)網(wǎng)絡(luò)應(yīng)用于兩個特定的CAD 分類任務(wù),并在腹腔淋巴結(jié)(Lymph Node,LN)中取得了當(dāng)前一流的診斷結(jié)果,表明遷移學(xué)習(xí)微調(diào)可用于醫(yī)學(xué)影像任務(wù)高性能CAD 系統(tǒng)的設(shè)計(jì)。Tajbakhshn 等[23]也充分證明了從自然圖像到醫(yī)學(xué)圖像的遷移是可行的,盡管源域和目標(biāo)域之間存在相對較大的差異,并且在醫(yī)學(xué)圖像小樣本的情況下,結(jié)合遷移學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)要比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更好的泛化性和魯棒性。
肺結(jié)節(jié)分割有助于肺癌篩查與治療,但是遷移學(xué)習(xí)在肺結(jié)節(jié)分割上沒有針對性的實(shí)例,并且對于肺結(jié)節(jié)這種特定的應(yīng)用,無論是“淺層微調(diào)”還是“深層微調(diào)”都不一定是最佳選擇。因此本文將U-Net 網(wǎng)絡(luò)和遷移學(xué)習(xí)相結(jié)合,進(jìn)行小數(shù)據(jù)集的肺結(jié)節(jié)分割,為了進(jìn)一步提高分割精度、改進(jìn)經(jīng)典U-Net網(wǎng)絡(luò)對小目標(biāo)的分割效果,本文提出一種分塊式疊加微調(diào)(Block Superimposed Fine-Tuning,BSFT)策略進(jìn)行輔助診斷,并主要討論肺結(jié)節(jié)小數(shù)據(jù)在遷移學(xué)習(xí)策略中如何微調(diào),通過對VGG-16 網(wǎng)絡(luò)(Visual Geometry Group Network)[26]、ResNet34網(wǎng)絡(luò)(Residual Network)[27]、InceptionV3[28]和Densenet[29]四個神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí),在敏感性、特異性和Dice 值等方面取得了很好的效果。
針對小數(shù)據(jù)集醫(yī)學(xué)圖像存在的分割困難問題,本文利用遷移學(xué)習(xí)的方法,用VGG-16 在大數(shù)據(jù)量、粗粒度的自然圖像上學(xué)習(xí)特征知識、擬合網(wǎng)絡(luò)參數(shù),然后將特征信息遷移至小標(biāo)簽樣本、細(xì)粒度的肺結(jié)節(jié)圖像分割任務(wù)上。具體方法為:從源域大數(shù)據(jù)集中學(xué)習(xí)特征知識進(jìn)而轉(zhuǎn)換為權(quán)重參數(shù),然后在目標(biāo)域的學(xué)習(xí)任務(wù)中共享模型結(jié)構(gòu)和先驗(yàn)參數(shù),即預(yù)訓(xùn)練網(wǎng)絡(luò)。在網(wǎng)絡(luò)搭建完成后,將預(yù)訓(xùn)練的權(quán)重遷移到新的網(wǎng)絡(luò)結(jié)構(gòu)的對應(yīng)部分,通過在肺結(jié)節(jié)數(shù)據(jù)集上預(yù)訓(xùn)練新網(wǎng)絡(luò)的權(quán)重,訓(xùn)練性能達(dá)到最佳時停止訓(xùn)練。
本文采用U-Net 網(wǎng)絡(luò)進(jìn)行分割,它由進(jìn)行下采樣的編碼器和上采樣的解碼器組成,選用VGG-16 作為U-Net 網(wǎng)絡(luò)的編碼器進(jìn)行下采樣,由于VGG-16 的全連接層與具體數(shù)據(jù)集密切相關(guān),每一個輸出節(jié)點(diǎn)都對應(yīng)一個特定任務(wù),為了符合本文網(wǎng)絡(luò)結(jié)構(gòu)要求,需要刪除VGG-16 的全連接層,使用兩倍于特征圖大小的轉(zhuǎn)置卷積,并減少一半通道數(shù)量,將卷積輸出疊加到編碼器的輸出部分形成新的網(wǎng)絡(luò)結(jié)構(gòu)。將VGG-16 在ImageNet自然圖像上學(xué)習(xí)的特征轉(zhuǎn)換為權(quán)重參數(shù)作為本文模型的先驗(yàn)參數(shù)。圖2 顯示了本文的網(wǎng)絡(luò)結(jié)構(gòu),圖中上半部分是VGG-16 預(yù)訓(xùn)練網(wǎng)絡(luò),經(jīng)過參數(shù)遷移后,得到下半部分網(wǎng)絡(luò)結(jié)構(gòu)。
圖2 肺結(jié)節(jié)分割遷移學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Transfer learning network structure for pulmonary nodule segmentation
大規(guī)模準(zhǔn)確的標(biāo)注數(shù)據(jù)集對神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到準(zhǔn)確、可泛化的特征至關(guān)重要,ImageNet 包含了1 000 類,1 000 萬張自然圖片,為深度神經(jīng)網(wǎng)絡(luò)在自然圖像上的發(fā)展提供了強(qiáng)有力的支持。而本文所研究的肺結(jié)節(jié)數(shù)據(jù)集大小只有1 000張左右,不足ImageNet 萬分之一,難以滿足從零開始訓(xùn)練網(wǎng)絡(luò)。這就造成利用遷移學(xué)習(xí)在醫(yī)學(xué)小數(shù)據(jù)上出現(xiàn)訓(xùn)練困難、容易過擬合等問題,無法達(dá)到高要求的醫(yī)學(xué)精準(zhǔn)診斷的要求,遷移學(xué)習(xí)的效果也很差。本文將ImageNet自然圖像數(shù)據(jù)集上學(xué)習(xí)的特征作為先驗(yàn)知識,遷移到較小的肺結(jié)節(jié)數(shù)據(jù)集上,提升其分割任務(wù)的性能。但是在ImageNet數(shù)據(jù)集中圖像均為二維彩色圖像,與醫(yī)學(xué)圖像(二維、三維和非彩色)相差很大,網(wǎng)絡(luò)難以通過先驗(yàn)知識準(zhǔn)確學(xué)習(xí)醫(yī)學(xué)圖像的特征,導(dǎo)致圖像分割準(zhǔn)確率下降。因此需要將網(wǎng)絡(luò)在肺結(jié)節(jié)數(shù)據(jù)集上再次進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)能夠根據(jù)樣本自適應(yīng)地調(diào)整網(wǎng)絡(luò)參數(shù),提高醫(yī)學(xué)圖像對病理的語義概括能力,這個過程稱之為網(wǎng)絡(luò)微調(diào)。
傳統(tǒng)的遷移學(xué)習(xí)微調(diào)策略存在兩個重要的因素:目標(biāo)域數(shù)據(jù)集的大小以及源域與目標(biāo)域之間的相似性,微調(diào)策略遵循四個原則:1)目標(biāo)域小且和源域相似,不進(jìn)行微調(diào),以防進(jìn)行過擬合;2)目標(biāo)域較大并與源域相似時,對整個網(wǎng)絡(luò)進(jìn)行微調(diào);3)目標(biāo)域較小且不相似時,對低層進(jìn)行微調(diào);4)目標(biāo)域較大且和源域不相似時,隨意訓(xùn)練。原則3)適用于本文的小數(shù)據(jù)集醫(yī)學(xué)圖像。但是這樣的微調(diào)原則,使得傳統(tǒng)的遷移學(xué)習(xí)很難在訓(xùn)練層和凍結(jié)層之間達(dá)到很好的平衡,沒有進(jìn)一步研究當(dāng)目標(biāo)域較小或是目標(biāo)域和源域之間相似度很低時提取到的特征會如何變化,即網(wǎng)絡(luò)微調(diào)的有效深度。本文肺結(jié)節(jié)的數(shù)據(jù)規(guī)模較小,一般不能微調(diào)太多網(wǎng)絡(luò)層,可能會導(dǎo)致梯度消失或者過擬合;并且ImageNet 自然圖像與肺結(jié)節(jié)的數(shù)據(jù)集相似度很低,如果僅停留在模型表面,即在低層進(jìn)行微調(diào)可能使網(wǎng)絡(luò)無法提取肺結(jié)節(jié)特征,不能學(xué)習(xí)到有用的特征信息,表達(dá)性能也很差,導(dǎo)致分割效果下降。利用傳統(tǒng)的遷移學(xué)習(xí)策略很難得到一個最佳的網(wǎng)絡(luò),也就是網(wǎng)絡(luò)微調(diào)的有效深度。
因此本文基于傳統(tǒng)遷移學(xué)習(xí)微調(diào)策略存在的問題以及網(wǎng)絡(luò)低層次特征知識具有普遍性的特點(diǎn),在遷移學(xué)習(xí)的基礎(chǔ)上提出一種分塊式疊加微調(diào)策略。如表1 所示,VGG-16中有5個下采樣層,為了搭建對應(yīng)的U-Net 網(wǎng)絡(luò),解碼器中也應(yīng)有5個上采樣層與之匹配,即需要進(jìn)行5 次分塊式疊加策略。作為編碼器的VGG-16 網(wǎng)絡(luò)結(jié)構(gòu)中:多次使用相同大小的卷積核來提取更加復(fù)雜和更具有表達(dá)性的特征,這樣也加強(qiáng)了網(wǎng)絡(luò)的特征學(xué)習(xí)能力,減少了參數(shù)量。因此本文算法中,將得到相同大小特征圖的卷積層歸為同一個塊,如在VGG-16 網(wǎng)絡(luò)中,在進(jìn)行了兩次3×3卷積和一次最大池化以后,得到的特征圖大小為256×256,所以將池化層前面的這兩層卷積分成一塊。表1中,Maxpool5 之前的所有網(wǎng)絡(luò)層即為VGG-16 在ImageNet上進(jìn)行預(yù)訓(xùn)練的權(quán)重遷移到新網(wǎng)絡(luò)的部分。
遷移學(xué)習(xí)后,需要在肺結(jié)節(jié)數(shù)據(jù)集上采用分塊式疊加微調(diào)策略,對網(wǎng)絡(luò)進(jìn)行自適應(yīng)參數(shù)調(diào)整,以提高網(wǎng)絡(luò)的語義概括能力。如圖3 所示,為本文的訓(xùn)練過程,首先隨機(jī)初始化新網(wǎng)絡(luò),在網(wǎng)絡(luò)具有良好的分割能力上,逐塊釋放卷積層并微調(diào)可訓(xùn)練層,本文采用A-E方式進(jìn)行5次網(wǎng)絡(luò)微調(diào),其中,方式A表示新網(wǎng)絡(luò)的所有層初始化之后,釋放Block5 塊,凍結(jié)Block1~Block4(參數(shù)固定不變),訓(xùn)練網(wǎng)絡(luò)參數(shù);方式B-E,也以相同的方式,進(jìn)行卷積塊釋放和凍結(jié),參數(shù)訓(xùn)練,微調(diào)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。微調(diào)過程中,定量分析各卷積塊Dice 值的變化,來確定微調(diào)的有效塊(網(wǎng)絡(luò)的有效層數(shù)),訓(xùn)練性能達(dá)到最佳時,停止訓(xùn)練,保存網(wǎng)絡(luò)結(jié)構(gòu),選取最佳診斷網(wǎng)絡(luò)。
圖3 微調(diào)策略流程Fig.3 Flowchart of fine-tuning strategy
圖4 分塊疊加式微調(diào)策略網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of block superimposed fine-tuning strategy
表1 VGG-16網(wǎng)絡(luò)以及對應(yīng)本文的分塊參數(shù)Tab.1 VGG-16 networks and corresponding block parameters in this paper
網(wǎng)絡(luò)訓(xùn)練的源域?yàn)镮mageNet,訓(xùn)練采用適應(yīng)性矩估計(jì)(Adaptive moment estimation,Adam)[30]為優(yōu)化函數(shù),其默認(rèn)參數(shù)遵循原論文中提供的值。本文中將不進(jìn)行訓(xùn)練的參數(shù)稱為凍結(jié),即學(xué)習(xí)率為0,而釋放即是網(wǎng)絡(luò)中的參數(shù)從不可訓(xùn)練轉(zhuǎn)換成可以訓(xùn)練。
Adam 解決非凸優(yōu)化問題,能夠基于訓(xùn)練數(shù)據(jù)調(diào)整更新神經(jīng)網(wǎng)絡(luò)的權(quán)重。Adam 方法利用梯度的一階矩估計(jì)和二階矩估計(jì)動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率,適用于解決含有噪聲或梯度稀疏的非穩(wěn)態(tài)問題。
本文選用LUNA16作為數(shù)據(jù)集,該數(shù)據(jù)集由888幅含多個512×512 切片的三維肺部圖像組成,共有1 186 個結(jié)節(jié),結(jié)節(jié)多為平均直徑8.31 mm 的小結(jié)節(jié)。由于醫(yī)學(xué)圖像中CT 值與一般圖像的像素是不同的,為了對數(shù)據(jù)集進(jìn)行可視化,需要對一個二維的CT 矩陣進(jìn)行預(yù)處理與歸一化,即將CT 值過大或者過小的數(shù)值設(shè)置為0,并歸一化得到圖像矩陣。圖5 將LUNA16的數(shù)據(jù)集進(jìn)行可視化,并標(biāo)出肺結(jié)節(jié)位置。
LUNA16 數(shù)據(jù)集提供了掩膜,用來剔除與肺部無關(guān)的區(qū)域,獲得肺實(shí)質(zhì)區(qū)域,如圖6所示。
CT 圖像為mhd 格式,用csv 文件標(biāo)記肺結(jié)節(jié)的大小和位置。如表2 所示,seriesuid 是患者的標(biāo)簽,CoordX,CoordY 和CoordZ 為肺結(jié)節(jié)中心的坐標(biāo)信息,diameter_mm 是肺結(jié)節(jié)半徑,單位為mm。通過肺結(jié)節(jié)中心確定肺結(jié)節(jié)標(biāo)簽,如圖7 所示,(a)和(b)分別為輸入圖像和標(biāo)簽,白色方框區(qū)域?yàn)榉谓Y(jié)節(jié)位置。
在888 例患者中,標(biāo)記了1 186 個肺結(jié)節(jié)。本文將數(shù)據(jù)集按8∶1∶1 的比例隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測試集,大小分別為949,110和127。
圖5 LUNA16數(shù)據(jù)集圖像示例Fig.5 LUNA16 dataset image examples
圖6 肺實(shí)質(zhì)提取示意圖Fig.6 Schematic diagrams of lung parenchyma extraction
表2 肺結(jié)節(jié)標(biāo)識信息Tab.2 Identification information of pulmonary nodules
圖7 網(wǎng)絡(luò)輸入圖像示例Fig.7 Network input image examples
本文使用Keras 與Tensorflow 實(shí)現(xiàn),訓(xùn)練循環(huán)次數(shù)epoch為200,batch size 為2,卷積層的激活函數(shù)選擇ReLU,學(xué)習(xí)率設(shè)置為1E-4。為了更客觀、全面地評估算法的診斷性能,本文使用敏感度(Sensitivity)、特異性(Specificity)、Dice 相似度系數(shù)(Dice similarity coefficient,DSC)3 個度量指標(biāo)對網(wǎng)絡(luò)性能進(jìn)行評價,并將Dice 相似度系數(shù)作為與其他肺結(jié)節(jié)分割方法的主要評價指標(biāo),其值越大,兩幅圖像越相似,分割效果越準(zhǔn)確。本文中的肺部圖像分割主要是對結(jié)節(jié)區(qū)域的關(guān)注,所以衡量算法性能時,僅計(jì)算病灶區(qū)域的Dice 系數(shù)。敏感度、特異性和Dice值如下:
其中:TN(True Negative)、TP(True Positive)、FN(False Positive)、FP(False Negative)分別代表真陽性、真陰性、假陽性、假陰性數(shù)量;X為分割結(jié)果,Y為實(shí)際數(shù)據(jù)集標(biāo)簽。
3.3.1 分塊疊加策略性能
表3 顯示了分塊疊加微調(diào)策略下,各個Block 的敏感度、特異性和Dice值。
表3 分塊策略性能比較Tab.3 Performance comparison of block strategies
由表3 可見,當(dāng)分塊疊加微調(diào)到Block2時網(wǎng)絡(luò)最佳,即在凍結(jié)Block1 的基礎(chǔ)上,使得網(wǎng)絡(luò)(Block2~Block5)高層次特征知識針對肺結(jié)節(jié)病例特征自適應(yīng)調(diào)整:一方面能夠有效緩解肺結(jié)節(jié)小數(shù)據(jù)集帶來的過擬合;另一方面可以避免因?yàn)檫w移學(xué)習(xí)再次訓(xùn)練所造成的特征表達(dá)性差的問題。因此Block2~Block5 為網(wǎng)絡(luò)有效微調(diào)塊,即(卷積層Conv4~Conv13),后繼續(xù)訓(xùn)練Block1,會使其學(xué)習(xí)的普遍性特殊化,又難以從小數(shù)據(jù)集中學(xué)習(xí)到準(zhǔn)確、可泛化的新特征,過度擬合導(dǎo)致網(wǎng)絡(luò)診斷性能下降。
如圖8 所示,采用本文所提出的分塊式微調(diào)策略,但在網(wǎng)絡(luò)進(jìn)行初始化以后,從模型的第一個塊開始進(jìn)行微調(diào),即凍結(jié)Block2~Block5,微調(diào)Block1。其余四個塊也是相同的操作進(jìn)行凍結(jié)和微調(diào),直至微調(diào)完整個網(wǎng)絡(luò)。與圖4 相似,只是調(diào)整了微調(diào)順序,因此整個網(wǎng)絡(luò)結(jié)構(gòu)圖在此省略,僅給出微調(diào)Block1塊的網(wǎng)絡(luò)結(jié)構(gòu)。
圖8 微調(diào)Block1塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Network structure of fine-tuned Block1
從第一個Block 塊開始分塊式微調(diào)過程中的Dice 值如圖9 所示,在圖中可以看到網(wǎng)絡(luò)性能也是提升的,微調(diào)到Block5時,網(wǎng)絡(luò)最佳,即需要微調(diào)整個網(wǎng)絡(luò);但從每個對應(yīng)的Dice 值來看,普遍低于逐塊釋放微調(diào)策略的值,這是因?yàn)樵S多自然圖像在進(jìn)行訓(xùn)練時,低層卷積提取的特征具有普遍性,基本上是顏色、邊緣等信息,不能學(xué)習(xí)到有用的特征信息,造成表達(dá)性能很差。卷積神經(jīng)網(wǎng)絡(luò)對圖像的特征提取過程存在一個特征特殊化的過渡,一般到達(dá)高層才能學(xué)習(xí)到有用的信息。因此在實(shí)驗(yàn)中,不選擇從低層開始微調(diào)的學(xué)習(xí)策略。
為了更好證明本文分塊式微調(diào)策略的優(yōu)越性,采用分層式疊加微調(diào)策略,主要分析Dice值,如表4所示。
表4 分塊式微調(diào)策略和分層式微調(diào)策略性能比較Tab.4 Performance comparison between block fine-tuning strategy and layered fine-tuning strategy
表4 顯示了按照分層式微調(diào)策略的Dice 值,盡管在分層過程中性能也得到了提升,但是從表中可以看到,卷積層Conv2、Conv4、Conv7、Conv10 和Conv13 層為Dice 的幾個較高的值,對應(yīng)分塊結(jié)構(gòu)每一塊中的最后一層卷積,當(dāng)網(wǎng)絡(luò)微調(diào)到Conv4 層時網(wǎng)絡(luò)性能最佳,對應(yīng)本文中最佳微調(diào)塊Block2 的最后一層;并且在后續(xù)實(shí)驗(yàn)中,網(wǎng)絡(luò)ResNet34、InceptionV3 和Densenet 層數(shù)較深,甚至達(dá)到上百層,若采用分層式微調(diào)策略,費(fèi)時費(fèi)力,并且每微調(diào)一層需要重新和與之對應(yīng)的上采樣特征進(jìn)行拼接,再繼續(xù)進(jìn)行上采樣和卷積,這樣降低了運(yùn)算速度。因此為了算法更加準(zhǔn)確高效,也是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)因地制宜,本文提出的分塊式疊加微調(diào)策略,可以更好地訓(xùn)練網(wǎng)絡(luò),得到網(wǎng)絡(luò)的最佳的深度;并且分塊式疊加策略不僅緩解了肺結(jié)節(jié)數(shù)據(jù)集過小造成的過擬合問題,并且也不會出現(xiàn)在遷移學(xué)習(xí)進(jìn)行訓(xùn)練時由于訓(xùn)練的層數(shù)過少,而導(dǎo)致無法精確學(xué)習(xí)肺結(jié)節(jié)的病理特征。
圖9 分塊式微調(diào)Dice圖Fig.9 Dice diagram of block fine-tuning strategy
3.3.2 遷移策略對比
表5 顯示了不同遷移學(xué)習(xí)策略下的性能指標(biāo),可見,相較于其他遷移學(xué)習(xí)策略的網(wǎng)絡(luò),分塊式微調(diào)策略取得了較好的性能,有助于網(wǎng)絡(luò)在肺結(jié)節(jié)小數(shù)據(jù)集中實(shí)現(xiàn)精準(zhǔn)分割。
表5 不同學(xué)習(xí)策略性能比較Tab.5 Performance comparison of different learning strategies
在訓(xùn)練模型時,采用1-DSC作為Dice損失對模型參數(shù)進(jìn)行微調(diào)訓(xùn)練。為了驗(yàn)證本文遷移學(xué)習(xí)策略優(yōu)越性以及不同分塊策略網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,分析了微調(diào)策略變化下的Loss值,依次繪制了微調(diào)Block1~Block5塊下的Loss變化趨勢,并且對比了未引入遷移學(xué)習(xí)和經(jīng)典U-Net網(wǎng)絡(luò)的Loss變化,如圖10所示。
圖10 本文分割方法與傳統(tǒng)分割方法訓(xùn)練Loss對比Fig.10 Training Loss comparison between the proposed methods with traditional segmentation method
從圖10 可以觀察到,未進(jìn)行遷移學(xué)習(xí)預(yù)訓(xùn)練的網(wǎng)絡(luò),即從頭訓(xùn)練網(wǎng)絡(luò),有較大的Loss 值震動,模型的穩(wěn)定性較差,分割精度低,如圖(a)所示;在進(jìn)行遷移學(xué)習(xí)后,網(wǎng)絡(luò)性能明顯更穩(wěn)定、更優(yōu),如圖(c)所示,并且網(wǎng)絡(luò)性能要比經(jīng)典的U-Net 網(wǎng)絡(luò)(b)效果更好。雖然引入遷移學(xué)習(xí),但是比起傳統(tǒng)的凍結(jié)全部網(wǎng)絡(luò)層進(jìn)行微調(diào)策略,本文的方法更好地緩解了由于遷移學(xué)習(xí)的二次應(yīng)用造成的特征表現(xiàn)能力差的問題,圖(d)~(h)所示為本文提出的分塊式微調(diào)策略的損失圖,可以看出在凍結(jié)Block1,微調(diào)其余塊時,網(wǎng)絡(luò)性能達(dá)到最優(yōu),并且損失也到達(dá)最小,即圖(g)所示,得到最有效的微調(diào)塊,也有效提高了評估參數(shù)Dice的值。
3.3.3 肺結(jié)節(jié)分割方法對比
為進(jìn)一步檢測肺結(jié)節(jié)分割診斷方面的性能,利用分塊式疊加微調(diào)策略對 VGG-16、ResNet34、InceptionV3 和Densenet121 網(wǎng)絡(luò)模型實(shí)施微調(diào),然后選取最佳分割網(wǎng)絡(luò)。之后與其他基于深度學(xué)習(xí)算法的肺結(jié)節(jié)分割方法進(jìn)行比較,同樣以敏感度、特異性、Dice 值作為評估標(biāo)準(zhǔn)。表6 給出了不同方法的肺結(jié)節(jié)分割結(jié)果,由表可見,本文算法具有較強(qiáng)的特征提取能力,可以對網(wǎng)絡(luò)進(jìn)行有效微調(diào)。如表所示,Densenet121 的分割性能優(yōu)于VGG-16、InceptionV3 和ResNet34,取得了89.00%的敏感度、94.89%的特異性和91.79%的Dice 值,較其他方法有較大的性能提升。由表6 可知,越深的網(wǎng)絡(luò)模型取得越好的性能,這是因?yàn)樯顚泳W(wǎng)絡(luò)可以提取肺結(jié)節(jié)的深層語義信息,泛化能力增強(qiáng)。
表6 不同肺結(jié)節(jié)分割方法性能比較Tab.6 Performance comparison of different segmentation methods for pulmonary nodules
圖11 顯示了利用分塊策略的肺結(jié)節(jié)分割結(jié)果,(a)是原圖像,圖(b)~圖(f)分別對應(yīng)Block1~Block5 的分割結(jié)果,圖(g)為手動分割結(jié)果。分塊結(jié)果表明,深層網(wǎng)絡(luò)可以提取更高的語義信息,有更強(qiáng)的局部抽象性,淺層網(wǎng)絡(luò)的語義特征較低,所以本文也基于不改變低層次(Block1)的語義特征對深層次(Block2-Block5)的特征進(jìn)行調(diào)整,得到最佳的微調(diào)網(wǎng)絡(luò)塊,更好地進(jìn)行肺結(jié)節(jié)分割。
圖12 顯示了分別基于分塊微調(diào)策略的Densenet121 網(wǎng)絡(luò)和U-Net 網(wǎng)絡(luò)進(jìn)行肺結(jié)節(jié)分割的可視化結(jié)果。圖(a)為原圖像;圖(b)為Densenet121(BSFT)方法分割結(jié)果;圖(c)為利用ITK-SNAP軟件將本文分割出的結(jié)果在原圖像進(jìn)行標(biāo)記,以加深對預(yù)測結(jié)果的信任和理解;圖(d)為U-Net 網(wǎng)絡(luò)的分割結(jié)果。如第一、第三列所示,其肺結(jié)節(jié)的體積非常小,本文算法對于這種極小的肺結(jié)節(jié)進(jìn)行了精準(zhǔn)分割;而U-Net 網(wǎng)絡(luò)的分割結(jié)果不夠準(zhǔn)確,在肺結(jié)節(jié)極小的情況下,U-Net 網(wǎng)絡(luò)出現(xiàn)錯誤分割。
圖11 分塊微調(diào)策略分割結(jié)果對比Fig.11 Comparison of segmentation results of block fine-tuning strategies
圖12 本文方法分割結(jié)果與U-Net網(wǎng)絡(luò)分割結(jié)果對比Fig.12 Comparison of segmentation results by the proposed method and U-Net network
針對深度網(wǎng)絡(luò)在肺結(jié)節(jié)小數(shù)據(jù)集上分割精度低的問題,本文提出一種基于遷移學(xué)習(xí)的肺結(jié)節(jié)分割方法,首先改進(jìn)了傳統(tǒng)遷移學(xué)習(xí)微調(diào)整個網(wǎng)絡(luò)導(dǎo)致分割結(jié)果不理想的問題,提出分塊疊加微調(diào)策略(BSFT),該策略首先利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)ImageNet自然圖像的特征信息,重新構(gòu)建網(wǎng)絡(luò),將所學(xué)特征遷移到小數(shù)據(jù)集的肺結(jié)節(jié)圖像上,接著逐塊釋放網(wǎng)絡(luò)進(jìn)行微調(diào),直到網(wǎng)絡(luò)完成最后一層疊加;最后通過定量分析,確定最佳分割網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果和對比實(shí)驗(yàn)表明,該方法在肺結(jié)節(jié)小數(shù)據(jù)集分割上,分割精度獲得較大的提升。在以后的工作中,會對分割出的肺結(jié)節(jié)良惡性進(jìn)一步判斷,為醫(yī)生提供更佳準(zhǔn)確的輔助診斷。