基于3D CNN的肺結節(jié)假陽性篩查模型

2022-03-16 03:36:54楊靖祎周曉葉陳隆鑫

計算機技術與發(fā)展 2022年2期

楊靖祎，謝洋，周曉葉，陳隆鑫，底濤

(1.河北醫(yī)科大學第二醫(yī)院信息中心，河北石家莊 050051;2.河北醫(yī)科大學第二醫(yī)院數(shù)據(jù)中心，河北石家莊 050051)

0 引言

世界衛(wèi)生組織/國家癌癥研究署(WHO/IARC)于2020年發(fā)布了最新版的全球腫瘤報告《2020全球癌癥報告》，報告顯示肺癌是中國乃至全球發(fā)病率和死亡率最高的惡性腫瘤之一。肺癌的早期臨床表現(xiàn)主要為孤立性肺結節(jié)，而結節(jié)的早發(fā)現(xiàn)、早診斷、早治療可提高肺癌患者的生存質量，延長患者的生存期。肺結節(jié)的傳統(tǒng)檢測方法主要是通過影像科醫(yī)生閱讀CT圖像，尋找可疑的結節(jié)病灶。但是一組CT圖像有上百張切片，這種人工的檢測方法不僅工作量巨大，而且嚴重依賴于醫(yī)生水平。因此眾多計算機科學家設計了計算機輔助檢測系統(tǒng)(computer aided diagnosis, CAD)，用于幫助影像科醫(yī)生尋找可疑肺結節(jié)。

傳統(tǒng)的CAD系統(tǒng)普遍遵循兩階段：候選結節(jié)檢測和假陽性篩查。假陽性篩查是結節(jié)檢測的關鍵部分。早期的學者通過外觀和形態(tài)學特征檢測候選結節(jié)，性能并不理想。隨后的研究中增加了梯度和紋理等特征以提高性能。Torres使用前饋神經(jīng)網(wǎng)絡對候選結節(jié)進行檢測，平均每個掃描假陽性個數(shù)為8.0，敏感性為80.0%。Pulagam從候選結節(jié)中提取二維和三維特征并利用SVM算法進行假陽性篩查，該算法在測試集上敏感度為94.3%，每次掃描假陽性個數(shù)僅為2.6。但是，這些以先驗知識為基礎，對圖像特征進行分析的CAD系統(tǒng)，整體算法流程繁瑣，有一定的局限性。

近些年，隨著計算機運算能力的顯著提升以及深度學習技術的迅速發(fā)展，卷積神經(jīng)網(wǎng)絡在醫(yī)學圖像識別領域取得了極大的成功。卷積神經(jīng)網(wǎng)絡以圖像特征的識別和分類訓練模型，并利用準確率等評價標準來反向指導特征的提取，從而實現(xiàn)端到端的映射學習。Liu等通過提取肺實質區(qū)域、獲取候選結節(jié)、特征的提取和訓練以及結節(jié)分類作為基本流程進行結節(jié)檢測。Dobrenkii等以殘差網(wǎng)絡為基礎設計了一種三維卷積神經(jīng)網(wǎng)絡，直接對3維候選結節(jié)樣本進行檢測。高慧明等提出一種基于多尺度卷積神經(jīng)網(wǎng)絡的肺結節(jié)假陽性篩查方法，將每個候選結節(jié)輸入到不同尺度的網(wǎng)絡模型進行訓練，融合三個模型的輸出結果獲取最終的分類。尤堃等提出了一種基于殘差網(wǎng)絡的肺結節(jié)假陽性篩查模型，通過使用單連接路徑重復利用特征并重組特征的方法進行假陽性篩查。劉一鳴等設計了一個161層的深度神經(jīng)網(wǎng)絡，對經(jīng)過精細預處理的2D結節(jié)圖像進行訓練，取得了92.3%的準確率。上述方法利用卷積神經(jīng)網(wǎng)絡進行肺結節(jié)檢測識別，其模型性能遠強于傳統(tǒng)的檢測方法。

但是，CT本質上是三維體積，并且是各向異性的。而基于2D的結節(jié)檢測模型需要對原始數(shù)據(jù)進行切片采樣，未能考慮到結節(jié)的三維空間特征，導致假陽性率依舊很高，性能提升較為困難。盡管三維醫(yī)學圖像在臨床實踐中已經(jīng)相當普遍，但是三維卷積神經(jīng)網(wǎng)絡參數(shù)量極大，并受顯存大小的制約，導致3D CNN在肺結節(jié)檢測的應用研究依舊處于初級階段，研究成果較少。針對上述情況，該文以密集神經(jīng)網(wǎng)絡為基礎設計了TDN-CNN網(wǎng)絡模型，在以結節(jié)為中心的64*64*64的3D區(qū)域上訓練網(wǎng)絡。與2D模型相比，該模型雖然參數(shù)量顯著增加，但是充分利用了結節(jié)的三維空間特征，提升了特征的表達能力。

1 相關工作

1.1 三維卷積神經(jīng)網(wǎng)絡

傳統(tǒng)的2D/2維卷積神經(jīng)網(wǎng)絡主要應用于2維自然圖像的處理，網(wǎng)絡中交替地疊加卷積層和池化層，最后利用全連接層輸出預測概率。2維圖像，尺寸為

，

代表圖像的顏色通道數(shù)，RGB圖像的通道數(shù)

為3，單通道圖像

為1。卷積層在2維圖像上進行卷積，卷積核的大小為

，輸出的特征圖也是二維的。CNN的強大之處在于它的多層網(wǎng)絡結構可以自動學習圖像特征。但是，2D CNN沒有考慮到圖像之間時間維度上物體的運動信息，未能充分利用三維立體數(shù)據(jù)的空間信息。CT圖像的切片是身體部位的橫截面圖像，通常為單通道圖像。有些學者將CT的切片在Z維度上進行拼接組合代替顏色通道，以適應立體數(shù)據(jù)作為2D網(wǎng)絡的輸入。例如，周芳芳設計了基于2.5D級聯(lián)卷積神經(jīng)網(wǎng)絡模型用于CT圖像的臟器分割。但是，這種基于2D CNN的解決方案仍無法充分利用圖像的三維空間信息，尤其是對于CT圖像，忽視了人體器官的空間結構。而如果使用3D卷積神經(jīng)網(wǎng)絡進行特征提取，該問題便迎刃而解。3D卷積神經(jīng)網(wǎng)絡中，輸入的立體圖像為

，卷積核大小為

，即卷積核在輸入圖像的三維空間維度上進行滑窗操作。其中，

為輸入圖像的個數(shù)或視頻的幀數(shù)，即為卷積核的第三維度，因此輸出依然是三維圖像，如圖1所示。

圖1 3D CNN

1.2 密集神經(jīng)網(wǎng)絡

通常隨著神經(jīng)網(wǎng)絡深度的增加，其性能亦隨之提高。但是單純增加網(wǎng)絡深度，會導致梯度消失或者梯度爆炸，網(wǎng)絡收斂困難。何凱明等提出了殘差網(wǎng)絡，在CNN中創(chuàng)新性地加入了殘差單元，通過跳躍連接(skip connection)將上一層的特征信息轉發(fā)到下一層，有效地解決了深度神經(jīng)網(wǎng)絡中的梯度消失問題，提高了優(yōu)化率和訓練速度。在2017年的CVPR上，Huang等提出了一種密集連接的網(wǎng)絡模型-密集神經(jīng)網(wǎng)絡(DenseNet)，在網(wǎng)絡中引入了稠密塊(dense block)和傳遞層(transition layer)的概念。稠密塊重新定義了輸入和輸出的連接方式，在其內部通過密集連接將網(wǎng)絡的每一層與后面的所有層進行連接，使得每層學習到的特征都可以被后面任一層利用。以第

層為例，其公式如式(1)所示。

為第

層的輸出特征圖，函數(shù)

由Batch Norm、ReLU和3*3卷積組成。第

層的輸入[

,…,

-1]由第0層至第

-1層網(wǎng)絡的輸出在通道維度上進行拼接組成，如果

為輸入層的維度，則第

層的維度為

-1)，其中

為超參數(shù)-增長率。稠密塊強化了特征的傳遞，但是由于其在通道維度上進行拼接，導致每個稠密塊輸出特征圖的channel顯著增大，網(wǎng)絡參數(shù)冗余。因此，在每個稠密塊之間添加1*1的卷積作為傳遞層，旨在控制特征圖數(shù)量、降低參數(shù)冗余。

([

,…,

-1])

(1)

2 論文方法

2.1 TDN-CNN網(wǎng)絡模型

該文提出的TDN-CNN模型由卷積層、池化層、稠密塊、傳遞層和全連接層組成，網(wǎng)絡結構如圖2所示。卷積層使用7*7*7的3D卷積核，步長為2。模型的增長率為

，卷積層產生2

個特征映射，其余所有層產生4

個特征映射。池化層采用3*3*3的最大池化操作(Max Pooling 3*3*3)，步長為2。經(jīng)過預處理的3D結節(jié)樣本經(jīng)過卷積層和池化層后，得到16*16*16的特征圖，再依次通過稠密塊和傳遞層，最后利用全連接層輸出結節(jié)的預測概率值。稠密塊由若干個包含Batch Norm、ReLU激活函數(shù)、1*1*1卷積、Batch Norm、ReLU、3*3*3卷積和dropout的組合操作組成，其中稠密塊DB_1如圖3所示。每兩個稠密塊中間是傳遞層，由Batch Norm、ReLU、1*1*1卷積和2*2*2的平均池化組成。模型的全連接層使用sigmoid激活函數(shù)，參數(shù)設置細節(jié)如表1所示。

圖2 網(wǎng)絡結構

圖3 稠密塊DB_1結構

表1 模型參數(shù)設置

2.2 算法流程

根據(jù)胸部CT影像的特點，以3D密集神經(jīng)網(wǎng)絡為基礎，構建了肺結節(jié)假陽性篩查模型：TDN-CNN，算法整體流程如圖4所示。

圖4 算法流程

算法主要包括4個步驟：

(1)提取肺實質。對LIDC數(shù)據(jù)集，選取候選數(shù)據(jù)，使用U-net模型提取肺實質并進行圖像的重采樣與數(shù)據(jù)的歸一化；

(2)提取3D肺結節(jié)VOI(volume of interest)樣本。以結節(jié)區(qū)域為中心，截取64*64*64的三維肺結節(jié)圖像作為正樣本數(shù)據(jù)，劃分數(shù)據(jù)集，并對正樣本進行數(shù)據(jù)增廣；

(3)構建網(wǎng)絡模型，進行模型訓練、參數(shù)的調整；

(4)對訓練好的模型在測試集上進行測試，并根據(jù)評價指標對模型進行評估。

3 實驗及結果分析

該文使用公開的數(shù)據(jù)集LIDC，選取層厚小于等于2.5 mm的共888組CT圖像；選取3位及以上專家共同標注的直徑大于等于3 mm的結節(jié)共計1 186個。

3.1 數(shù)據(jù)預處理

肺結節(jié)只存在于肺實質中，其特征復雜，與周圍的血管和胸腔等組織關聯(lián)緊密。模型訓練前需要對圖像進行預處理，旨在縮小算法的問題空間，減少無關信息對模型的干擾。傳統(tǒng)的閾值法提取肺實質，流程復雜繁瑣，需要結合形態(tài)學方法修補邊界凹陷。2015年提出的U-net網(wǎng)絡，已被成功應用于醫(yī)學圖像分割領域，即使在很少的訓練樣本量中也能夠進行精確的分割。因此，該文使用U-net網(wǎng)絡對CT圖像進行肺區(qū)的分割，提取肺實質。

U-net網(wǎng)絡是一個全卷積神經(jīng)網(wǎng)絡，網(wǎng)絡由下采樣和上采樣兩個部分組成。下采樣部分利用卷積和池化對輸入數(shù)據(jù)進行降維和特征提取，上采樣部分對淺層特征進行升維和特征放大。上采樣得到的特征圖通過concat與下采樣部分對應層進行特征融合。數(shù)據(jù)集一張CT切片大小為512*512，一組CT有上百張切片。而且，在CT切片中，肺實質占整體圖像的面積將近50%。因此，該文將2D U-net網(wǎng)絡簡化為3次下采樣、3次上采樣，對每張CT切片進行肺實質提取，模型如圖5所示。

圖5 2D U-net網(wǎng)絡：肺實質提取模型

由于不同醫(yī)療機構使用的CT設備，導致不同醫(yī)療機構的CT影像采樣間距存在不同的情況。LIDC數(shù)據(jù)集的圖像來自不同醫(yī)療機構，其采樣間距在0.6 mm到5.0 mm之間。CT影像反映的是人體組織在三維空間的信息，而三維模型的訓練會受到空間信息特征的影響，所以三個方向的采樣間距需要統(tǒng)一，以消除空間信息的不一致對模型性能的制約。該文對經(jīng)過U-net分割后的肺實質圖像在

、

和

三個方向進行重采樣。不同CT設備的采樣間距不同、像素間隔不同，這些信息可以從DICOM文件中獲取。像素間隔是一個向量，可以用[

]分別表示

、

三個方向的像素間隔，通常情況下

和

方向的像素間隔相同，

方向與

和

方向的像素間隔可能不同。假設原始圖像的大小為[deep，height，width]，重采樣為[1,1,1] mm的像素間隔，則重采樣后圖像的大小就為[deep*

/1，height*

/1，width*

/1]。由此可見，圖像的重采樣就是將原始圖像按照[

]的比例進行各個方向的縮放，得到大小為[deep*

/1，height*

/1，width*

/1]的圖像的過程。

不同的CT設備的容度不同，導致不同設備采集的CT圖像的最大值和最小值有較大差距。CT值的大小取決于物質的密度。骨骼密度最高，它的CT值為+1 000 HU；空氣的密度最低，它的CT值為-1 000 HU。即人體的CT值范圍在-1 000 ～ +1 000 HU之間，而肺結節(jié)的CT值范圍是(-1 000，400)。因此，將閾值設置為-1 000和400，對重采樣后的肺實質圖像歸一化到(0，1)，以便于神經(jīng)網(wǎng)絡從中抽取有效的圖像特征。

3.2 數(shù)據(jù)增廣

深度神經(jīng)網(wǎng)絡的訓練往往需要大量的數(shù)據(jù)，研究學者提出了多種數(shù)據(jù)增廣方法，如平移、旋轉、添加噪聲和翻轉等。因此，該文對訓練集中的每個3D結節(jié)樣本，在上、下、左、右四個方向，以1為步長、[1, 5]為像素范圍進行平移。再對每個樣本，從三個正交維度(冠狀、矢狀和軸位置)進行翻轉。驗證集和測試集不做數(shù)據(jù)增廣，隨機截取等量的無肺結節(jié)的樣本作為負樣本集，分別放入訓練集、驗證集和測試集中。

3.3 實驗設置

(2)

3.4 實驗結果

該文使用FROC(free-response ROC，F(xiàn)ROC)曲線評估模型性能。該曲線的橫坐標為平均每個CT中的假陽性樣本數(shù)量(false positive per scan，F(xiàn)PPS)，縱坐標為敏感性。競爭性指標(competition performance metric，CPM)為FROC中FPPS在[0.125, 0.25, 0.5, 1, 2, 4和8]下的平均敏感度，其反映模型的綜合查全能力，值越高模型性能越優(yōu)。

深度學習中，參數(shù)的設置直接決定了模型的性能表現(xiàn)。該文使用網(wǎng)格搜索調整模型的增長率

和隨機失活dropout，以探究不同超參數(shù)設置下對模型性能的影響。不同參數(shù)下，模型性能表現(xiàn)如表2所示。當模型的增長率

為12，dropout為0.2時，性能達到最優(yōu)，其訓練過程如圖6所示。訓練集上，F(xiàn)PPS=2時敏感度達到88.9%，模型的CPM為0.84，F(xiàn)ROC曲線如圖7所示。

表2 不同參數(shù)的模型性能對比

圖6 模型訓練損失

圖7 FROC曲線

3.5 模型對比與分析

該文亦設計了具有相同結構的2D模型作為對比實驗，并與文獻[8-10]中的方法進行了比較，如表3所示，所有模型均使用LIDC數(shù)據(jù)集。

表3 不同模型肺結節(jié)假陽性篩查CPM指標對比

Dobrenkii等設計了三維ResNet模型，將CT圖像的體素間距重采樣為(0.9，0.7，0.7) mm后截取結節(jié)的VOI。文中方法將CT圖像的體素間距重采樣為(1.0, 1.0, 1.0) mm，在FROC中的7個代表性點的敏感度均高于Dobrenkii設計的模型。尤堃等設計了單連接路徑 3D CNN模型，并融合了密集連接的思想，CPM值為0.747。雖然顯著低于文中模型，但該模型的參數(shù)量為199 661，與文中模型參數(shù)量相比在計算量上有其自身優(yōu)勢。高慧明等設計了3個尺度不同的3D CNN模型，每個模型的CPM介于0.730到0.773之間。但是，采用AdaBoost加權投票機制融合3個模型的輸出結果，其CPM達到0.827。雖然該方法的CPM得分接近文中模型，但是數(shù)據(jù)預處理繁瑣，需對同一個結節(jié)樣本提取3種不同尺度，模型訓練復雜。并且，已有學者證明，對于多尺度網(wǎng)絡模型將全局池化層的輸出在通道維度上進行拼接再連接至分類層性能表現(xiàn)優(yōu)于加權投票機制。2D模型雖然與3D模型具有相同的網(wǎng)絡結構，但是其忽略了結節(jié)的3維空間特征，CPM得分顯著低于3D模型。

4 結束語

該文提出了一種基于3D密集神經(jīng)網(wǎng)絡的降低肺結節(jié)假陽性率的方法，用于從大量候選結節(jié)中篩查真實結節(jié)。實驗結果表明，該方法能夠有效解決肺結節(jié)檢測系統(tǒng)中候選結節(jié)篩查階段假陽性率較高的問題。與2D模型相比，該方法雖然增加了參數(shù)量，但是模型充分利用了結節(jié)的三維空間特征，提升了模型特征的表達能力。自Transformer架構問世以來，其不僅成為自然語言處理領域的主流模型，也為計算機視覺領域帶來了巨大的革新，在圖像的分類、檢測和分割上都取得了不錯的效果。因此，在未來的研究工作中，將考慮引用Transformer進行結節(jié)的檢測工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡