夏景明 邢露萍 談玲 宣大偉
腦腫瘤類型有120多種,最常見的類型是腦膜瘤(占腦腫瘤患病率的35%)、膠質(zhì)瘤(占腦腫瘤患病率的16%)和垂體瘤(占腦腫瘤患病率的14%)[1].早期發(fā)現(xiàn)腫瘤有助于專家在腦腫瘤生長的初期階段制定出準(zhǔn)確的治療計(jì)劃.在臨床診斷中,磁共振成像(Magnetic Resonance Imaging,MRI)因具有高分辨率、多參數(shù)成像等特點(diǎn)成為了最常用的腦腫瘤診斷技術(shù)[2].醫(yī)生對海量MRI圖像進(jìn)行手工診斷并發(fā)現(xiàn)早期腦腫瘤是一項(xiàng)非常耗時(shí)的工作,而計(jì)算機(jī)輔助診斷技術(shù)可以幫助解決這一難題.
近年來,深度學(xué)習(xí)因其高精度的性能在計(jì)算機(jī)視覺[3-5]、圖像處理[6-7]、認(rèn)證系統(tǒng)[8]和語音識(shí)別[9-10]等研究領(lǐng)域迅速發(fā)展.深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)被認(rèn)為是目前最成功的圖像處理方法[11].AlexNet[12]、VGG[13]等CNN的發(fā)展表明增加網(wǎng)絡(luò)深度能夠在一定程度上提高網(wǎng)絡(luò)性能.但若只通過簡單的網(wǎng)絡(luò)層堆疊來增加深度就會(huì)導(dǎo)致網(wǎng)絡(luò)出現(xiàn)梯度消失的情況[14].本文通過研究多種殘差網(wǎng)絡(luò)(ResNet)[15],提出了一種基于MDM-ResNet網(wǎng)絡(luò)的腦腫瘤多分類方法,具體貢獻(xiàn)如下:
1)傳統(tǒng)CNN結(jié)構(gòu)中單通路的卷積層對局部上下文信息的接受度是有限的,然而利用不同大小的卷積核可以提取到更全面的特征信息.因此,本文提出了多尺寸卷積核模塊.
2)考慮到將最大值池化和平均池化相結(jié)合可以使兩者提取到的高維信息進(jìn)行互補(bǔ),本文提出了雙通道池化層.
3)通過對多種ResNet中殘差塊的研究,本文提出了一種多深度融合殘差塊,該殘差塊將不同ResNet中“跳躍連接”跳過的卷積單元相結(jié)合,同時(shí)保留“跳躍連接”,在結(jié)合多種卷積方式的同時(shí)也增加了殘差塊的寬度.
將以上三種結(jié)構(gòu)融合組成了本文的分類網(wǎng)絡(luò),即MDM-ResNet.
腦腫瘤的分類已經(jīng)得到了廣泛的關(guān)注,在過去的幾年中研究者們提出了多種分類方法.Cheng等[16]提出了一種基于DNN的方法對大腦正常和異常的CT圖像進(jìn)行分類,并采用灰度共生矩陣(GLCM)進(jìn)行特征提取,該方法的平均分類準(zhǔn)確性為83%;Abd-Ellah等[17]研究了一種兩相多模型腦腫瘤自動(dòng)診斷系統(tǒng),其中分類階段的模型由三部分組成,分別是預(yù)處理、CNN特征提取和糾錯(cuò)輸出碼-支持向量機(jī)(ECOC-SVM),該模型對腦腫瘤良惡性分類獲得的最高平均準(zhǔn)確性為99.55%.
但以上研究都只是對腦腫瘤進(jìn)行二分類.2018年,Abiwinanda等[18]提出了一種CNN結(jié)構(gòu),該結(jié)構(gòu)中每一個(gè)卷積層、最大值池化層和flatten層后面都跟有一個(gè)隱藏的全連接層,此方法對腦膜瘤、膠質(zhì)瘤和垂體瘤的平均分類準(zhǔn)確性為84.19%.2019年,Ghassemi等[19]提出了一種新的深度學(xué)習(xí)方法用于腦腫瘤的MRI圖像分類,該方法首先在不同數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)DNN作為生成對抗網(wǎng)絡(luò)(GAN)的鑒別器,以提取MRI圖像的魯棒性特征并學(xué)習(xí)MRI圖像在其卷積層中的結(jié)構(gòu),然后用softmax層替代網(wǎng)絡(luò)的全連接層,將整個(gè)深度網(wǎng)絡(luò)訓(xùn)練成分類器,該方法對腦膜瘤、膠質(zhì)瘤和垂體瘤的平均分類準(zhǔn)確性為93.01%.
上述方法[16-19]都基于深度網(wǎng)絡(luò),然而,隨著層數(shù)的增加網(wǎng)絡(luò)通常會(huì)出現(xiàn)梯度消失的情況.2021年,Kumar等[1]提出了一種將ResNet50和平均池化結(jié)合的模型來克服深度網(wǎng)絡(luò)中梯度消失和過擬合的問題,最終實(shí)驗(yàn)證明該方法對腦膜瘤、膠質(zhì)瘤和垂體瘤的分類具有高準(zhǔn)確性.
ResNet由殘差塊搭建而成,這類模塊使得網(wǎng)絡(luò)不僅沒有出現(xiàn)退化問題,還大大降低了錯(cuò)誤率.在許多具有挑戰(zhàn)性的圖像識(shí)別任務(wù)中,ResNet已經(jīng)表現(xiàn)出了優(yōu)異的性能[20].本文通過研究ResNet18、ResNet34和ResNet50等網(wǎng)絡(luò),提出了一種MDM-ResNet網(wǎng)絡(luò)用于腦腫瘤分類,該網(wǎng)絡(luò)由多尺寸卷積核模塊、雙通道池化層和多深度融合殘差塊組成,其結(jié)構(gòu)如圖1所示.
圖1 MDM-ResNet結(jié)構(gòu)Fig.1 Structure of the proposed MDM-ResNet
文獻(xiàn)[21]中提出了一種Inception v1結(jié)構(gòu),該結(jié)構(gòu)將CNN中常用的卷積(1×1,3×3,5×5)和池化操作(3×3)堆疊在一起,最后通過concat函數(shù)對四條路徑的運(yùn)算結(jié)果進(jìn)行通道上的合并.其中5×5大小的卷積核能夠覆蓋大部分接受層的輸入,且該結(jié)構(gòu)在卷積的同時(shí)再進(jìn)行一個(gè)池化操作,有利于減少網(wǎng)絡(luò)空間大小,降低過度擬合.此結(jié)構(gòu)不僅增加了網(wǎng)絡(luò)的寬度,還增加了網(wǎng)絡(luò)對尺度的適應(yīng)性.受到Inception v1的啟發(fā),本文提出了一種類似于它的多尺寸卷積核模塊,該模塊的結(jié)構(gòu)如圖2所示.多尺寸卷積核模塊與Inception v1的區(qū)別在于:不使用concat函數(shù)連接各個(gè)分支,而采用的是add函數(shù).concat函數(shù)用于通道數(shù)的合并,即只是增加了描述圖像本身的維度(通道數(shù)),每一維度下的特征信息并沒有增加;而add函數(shù)的作用是沒有增加描述圖像本身特征的維度,但每一維度下的特征信息量在增加,這對最終圖像的分類是有益的.
圖2 多尺寸卷積核模塊結(jié)構(gòu)Fig.2 Structure of multi-size convolution kernel module
ResNet只在殘差塊前后有池化層,分別是最大值池化和平均池化.最大值池化的目的是將感受野區(qū)域中激活的最大值作為最終的池化輸出,它側(cè)重于紋理信息,能夠平衡卷積參數(shù)誤差引起的估計(jì)均值的偏移[22].平均池化的目的是將感受野區(qū)域中激活的平均值作為最終的池化輸出,它更側(cè)重于背景信息,可以減小由于鄰域大小限制而導(dǎo)致估計(jì)方差增大帶來的誤差.因此本文把兩種池化方式結(jié)合提出了一種雙通道池化層結(jié)構(gòu):上一步輸出的特征分兩條路徑同時(shí)經(jīng)過最大值池化和平均池化,然后通過add函數(shù)將兩條路徑的輸出結(jié)果合并起來共同進(jìn)入下一步的運(yùn)算.雙通道池化層的結(jié)構(gòu)如圖3所示.
圖3 雙通道池化層結(jié)構(gòu)Fig.3 Structure of dual-channel pooling layer
ResNet50中的基礎(chǔ)殘差塊可以使得網(wǎng)絡(luò)在增加深度的同時(shí),還能降低計(jì)算復(fù)雜度并解決梯度消失的問題.但它的缺點(diǎn)是網(wǎng)絡(luò)在進(jìn)行反向傳播時(shí)并不能保證可以流經(jīng)每一個(gè)殘差塊的weights,因此在整個(gè)訓(xùn)練過程中,只有極少數(shù)的殘差塊能夠?qū)W習(xí)到有用的特征表達(dá),而絕大多數(shù)的殘差塊起到的作用并不大[23].卷積的目的是將輸入圖像與卷積核進(jìn)行互相關(guān)運(yùn)算,由此抽取圖像的特征,而多層卷積在每次卷積過程中,感受到的信息及抽取的特征都不相同[24].因此,本文提出了多深度融合殘差塊,它的結(jié)構(gòu)如圖4所示.
圖4 多深度融合殘差塊Fig.4 Multi-depth fusion residual block
圖4a和圖4b中,中間路徑“1×1—3×3—1×1”和右邊路徑中的“3×3—3×3”卷積模式是ResNet50、ResNet34等在“跳躍連接”中跳過的卷積單元.一般來說,深度更深的ResNet效果稍好,其殘差塊形態(tài)類似卷積模式“1×3—3×3—1×1”;但ResNet18和ResNet34訓(xùn)練時(shí)間短,也能夠取得良好的效果,其殘差塊形態(tài)類似卷積模式“3×3—3×3”.本文的多深度融合殘差塊將兩類ResNet中“跳躍連接”跳過的卷積單元相結(jié)合,同時(shí)保留“跳躍連接”,并在“3×3—3×3”卷積模式后添加1*1卷積用于控制通道數(shù)量,最終聯(lián)合輸出后可獲得不同維度的特征.另外,多深度融合殘差塊相對基礎(chǔ)殘差塊而言增加了寬度,從而網(wǎng)絡(luò)在進(jìn)行反向傳播時(shí)能夠保證更多的weights參與到學(xué)習(xí)訓(xùn)練中.其中,3×3卷積層由多個(gè)網(wǎng)絡(luò)層組成,包括3×3卷積層、激活函數(shù)、批量歸一化和dropout層.
ResNet18在通道數(shù)量為 64、128、256、512 時(shí)各有2個(gè)殘差塊,而ResNet34和ResNet50在每種通道上分別有3、4、6、3個(gè)殘差塊.為降低網(wǎng)絡(luò)復(fù)雜度,本文的分類網(wǎng)絡(luò)設(shè)定每一種通道數(shù)對應(yīng)2個(gè)多深度融合殘差塊,分別是圖4中的多深度融合殘差塊(a)和多深度融合殘差塊(b),整個(gè)網(wǎng)絡(luò)共計(jì) 8個(gè)殘差塊.
本文使用的腦腫瘤數(shù)據(jù)集來自https:∥figshare.com.該數(shù)據(jù)集由233名患者的腦腫瘤MRI圖像組成,其中包含708張腦膜瘤切片、1 426張膠質(zhì)瘤切片和930張垂體瘤切片,共計(jì)3 064張圖像.
豐富的數(shù)據(jù)是有效搭建深度學(xué)習(xí)模型的關(guān)鍵[25].本文使用數(shù)據(jù)增強(qiáng)方法來擴(kuò)大數(shù)據(jù)集,其中最常用的方式是對圖像添加噪聲或應(yīng)用幾何變換,這有助于防止網(wǎng)絡(luò)模型出現(xiàn)過度擬合.因此,本文對數(shù)據(jù)集中的圖像進(jìn)行了一系列擴(kuò)展:首先將所有圖片大小統(tǒng)一為224×224;然后將數(shù)據(jù)集按照8∶2的比例分成訓(xùn)練集和驗(yàn)證集;最后對訓(xùn)練集圖像使用旋轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和添加椒鹽噪聲的數(shù)據(jù)增強(qiáng)方法,驗(yàn)證集不做數(shù)據(jù)增強(qiáng).
為了全面的評價(jià)MDM-ResNet的性能,本文將利用以下指標(biāo)作為實(shí)驗(yàn)結(jié)果的評判標(biāo)準(zhǔn),它們的具體描述如下:
1)準(zhǔn)確性(Accuracy,A):表示樣本中預(yù)測正確的數(shù)目與樣本總數(shù)的比值,計(jì)算公式如下:
(1)
2)精度(Precision,P):表示正確預(yù)測為正的樣本與全部預(yù)測為正的樣本比值,計(jì)算公式如下:
(2)
3)召回率(Recall,R):又稱查全率,表示正確預(yù)測為正的樣本與所有正樣本的比值,計(jì)算公式如下:
(3)
4)F1 Score(F1):該指標(biāo)同時(shí)兼顧了分類模型的精度和召回率,可看作是模型精度和召回率的一種加權(quán)平均,它的計(jì)算公式如下:
(4)
上述公式中的TP、FP、TN、FN分別表示:預(yù)測為正、實(shí)際為正;預(yù)測為正、實(shí)際為負(fù);預(yù)測為負(fù)、實(shí)際為負(fù);預(yù)測為負(fù)、實(shí)際為正.
本文提出的MDM-ResNet網(wǎng)絡(luò)模型由python3.6版本中的Keras庫搭建而成,采用隨機(jī)梯度下降法(SGD)訓(xùn)練網(wǎng)絡(luò),訓(xùn)練批次大小設(shè)置為20,訓(xùn)練輪次設(shè)置為100,初始學(xué)習(xí)率設(shè)置為0.002,動(dòng)量(momentum)設(shè)置為0.9,權(quán)值衰減(weight decay)設(shè)置為0.000 2.在實(shí)驗(yàn)中本文采用5倍交叉驗(yàn)證方法來分析網(wǎng)絡(luò)性能[26].5倍交叉驗(yàn)證的訓(xùn)練集與驗(yàn)證集實(shí)施方案如圖5所示.本文所有實(shí)驗(yàn)在NVIDIA GeForce RTX 2080 Ti GPU上進(jìn)行.
圖5 5倍交叉驗(yàn)證的訓(xùn)練集與驗(yàn)證集實(shí)施方案Fig.5 Implementation scheme of training set and validation set for five-fold cross validation
為了確定多尺寸卷積核模塊對MDM-ResNet網(wǎng)絡(luò)分類準(zhǔn)確性的影響,本文分別在該網(wǎng)絡(luò)的殘差單元前面使用7×7卷積層和多尺寸卷積核模塊進(jìn)行了2次實(shí)驗(yàn),實(shí)驗(yàn)在交叉驗(yàn)證方案a上展開,具體實(shí)驗(yàn)結(jié)果如表1所示.
表1 在殘差單元前面使用不同卷積方式的準(zhǔn)確性對比
表1顯示,實(shí)驗(yàn)B的準(zhǔn)確性高于實(shí)驗(yàn)A,這表明不同大小的卷積核能夠提取到輸入圖像中不同大小的特征,而在進(jìn)入殘差塊前擁有更豐富的信息有利于提高最終的分類準(zhǔn)確性.
為了確定MDM-ResNet中改進(jìn)池化層的最優(yōu)方法,本文在把MDM-ResNet殘差塊前面的卷積方式確定為多尺寸卷積核模塊的情況下進(jìn)行了以下實(shí)驗(yàn),該實(shí)驗(yàn)在交叉驗(yàn)證方案a上展開.具體實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同位置改進(jìn)池化層的準(zhǔn)確性對比
表2顯示,將殘差塊前面的最大值池化層變?yōu)殡p通道池化層比將殘差塊之后的平均池化層變?yōu)殡p通道池化層分類效果好,這表明平均池化相比最大值池化而言在腦腫瘤分類中扮演著更重要的角色,揭示了復(fù)雜醫(yī)學(xué)圖像中全局信息的不可替代性.而實(shí)驗(yàn)3將ResNet中的兩個(gè)單一池化層都變?yōu)殡p通道池化層,平均分類準(zhǔn)確性達(dá)到93.68%,這表明雙通道池化層最大限度地利用了最大值池化和平均池化的優(yōu)點(diǎn),使兩者提取到的高維特征信息相互補(bǔ)充,彌補(bǔ)了各自的缺點(diǎn).
ResNet50[19]利用殘差塊解決了增加網(wǎng)絡(luò)深度帶來的梯度消失問題,在不增加額外參數(shù)的情況下,可以單純通過增加網(wǎng)絡(luò)深度來加快收斂速度和提高準(zhǔn)確性.為了體現(xiàn)多深度融合殘差塊的效果,本文在把 ResNet50中7×7卷積層和單一池化層分別改進(jìn)為多尺寸卷積核模塊和雙通道池化層的情況下與MDM-ResNet進(jìn)行了實(shí)驗(yàn)對比,該實(shí)驗(yàn)在交叉驗(yàn)證方案a上展開,結(jié)果如表3所示.
表3 改進(jìn)的ResNet50和MDM-ResNet的準(zhǔn)確性對比
圖6 MDM-ResNet網(wǎng)絡(luò)分類準(zhǔn)確性訓(xùn)練與驗(yàn)證的可視化過程Fig.6 Visualization process of training and validation of MDM-ResNet network classification accuracy on five validation schemes
根據(jù)表3可知,MDM-ResNet對于腦膜瘤、膠質(zhì)瘤和垂體瘤的平均分類準(zhǔn)確性為93.68%,相比于改進(jìn)的ResNet50,準(zhǔn)確性小幅度地提高了0.19個(gè)百分點(diǎn).這表明本文提出的多深度融合殘差塊對網(wǎng)絡(luò)最終的分類效果是有益的.多深度融合殘差塊將不同殘差網(wǎng)絡(luò)中殘差塊內(nèi)的卷積單元結(jié)合,能夠在卷積過程中抽取不同的信息和特征,且MDM-ResNet在不同的通道數(shù)量上只設(shè)有2個(gè)多深度融合殘差塊,這使得所有的殘差模塊都能夠?qū)W習(xí)到有用的特征表達(dá),從而有利于提高最終的準(zhǔn)確性.
MDM-ResNet網(wǎng)絡(luò)5次交叉驗(yàn)證中平均分類準(zhǔn)確性訓(xùn)練和驗(yàn)證的可視化過程如圖6所示.其中縱坐標(biāo)為準(zhǔn)確性,橫坐標(biāo)為訓(xùn)練輪次,藍(lán)線和紅線分別表示訓(xùn)練和驗(yàn)證過程.
由圖6可以看到MDM-ResNet最初的準(zhǔn)確性較低,通過100次的迭代訓(xùn)練,驗(yàn)證集上的準(zhǔn)確性在40個(gè)批次后逐漸穩(wěn)定.每次驗(yàn)證之間的準(zhǔn)確性誤差為0.092%左右,5次交叉驗(yàn)證的平均分類準(zhǔn)確性為93.51%.
MDM-ResNet網(wǎng)絡(luò)的預(yù)測分類效果可以由混淆矩陣展現(xiàn),圖7提供了5次驗(yàn)證下的混淆矩陣,其中行表示實(shí)際類別,列表示預(yù)測類別.
圖7 5次驗(yàn)證中的混淆矩陣Fig.7 Confusion matrix of five validation schemes
從圖7可知,由于數(shù)據(jù)集中膠質(zhì)瘤的圖片數(shù)量最多,5次驗(yàn)證下的所有分類情況中膠質(zhì)瘤被正確分類的概率最高.同時(shí)可以發(fā)現(xiàn),每次驗(yàn)證中膠質(zhì)瘤被分類成垂體瘤的概率最小,這是因?yàn)槟z質(zhì)瘤屬于惡性腫瘤,而垂體瘤生長在垂體附近,屬于良性腫瘤.
為了更詳細(xì)地展現(xiàn)MDM-ResNet的分類效果,本文在平均分類準(zhǔn)確性最高的驗(yàn)證方案a上,取腦膜瘤、膠質(zhì)瘤和垂體瘤在Accuracy、Precision、Recall和F1 Score 4項(xiàng)評價(jià)指標(biāo)上的表現(xiàn)做詳細(xì)分析,各項(xiàng)指標(biāo)數(shù)據(jù)如表4所示.
表4 驗(yàn)證方案a上MDM-ResNet的評價(jià)指標(biāo)值
由表4可知,MDM-ResNet對腦膜瘤、膠質(zhì)瘤和垂體瘤的分類準(zhǔn)確性分別為93.14%、93.14%和94.77%,平均分類準(zhǔn)確性為93.68%.MDM-ResNet在Precision、Recall和F1 Score上的平均值也分別達(dá)到了89.36%、89.62%和89.45%.
本文將MDM-ResNet與其他文獻(xiàn)中使用相同數(shù)據(jù)集的方法進(jìn)行了對比,對比結(jié)果如表5所示.
表5 不同方法的平均分類準(zhǔn)確性對比
Cheng等[27]將圖像放大后的增強(qiáng)腫瘤區(qū)域作為感興趣區(qū)域(ROI),然后再將ROI分割成更細(xì)致的環(huán)狀區(qū).他們使用強(qiáng)度直方圖、GLCM和字袋模型(BoW)3種特征提取方式來分別對提出的模型進(jìn)行驗(yàn)證,該方法使用環(huán)形區(qū)作為輸入獲得的最高平均分類準(zhǔn)確性為91.28%.但是該方法是利用傳統(tǒng)的機(jī)器學(xué)習(xí)方式對腫瘤進(jìn)行分類,且通過手工方法提取特征,非常損耗時(shí)間.Ghassemi等[19]提出了一種新的多類腦腫瘤分類模型,該方法首先在不同數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)DNN作為GAN的鑒別器,然后用softmax層替代網(wǎng)絡(luò)的全連接層,將整個(gè)網(wǎng)絡(luò)訓(xùn)練成分類器,該方法獲得了93.01%的平均分類準(zhǔn)確性,不過由于GAN的限制,輸入圖像的大小必須是64×64.本文MDM-ResNet獲得的平均分類準(zhǔn)確性為93.51%.實(shí)驗(yàn)結(jié)果表明MDM-ResNet中的多尺寸卷積核模塊和多深度融合殘差塊能夠提取豐富的特征,且該網(wǎng)絡(luò)有效地結(jié)合了最大值池化和平均池化的優(yōu)點(diǎn),使兩者提取到的信息得以相互補(bǔ)充,因此本文網(wǎng)絡(luò)在分類準(zhǔn)確性上表現(xiàn)較好.
針對腦膜瘤、膠質(zhì)瘤和垂體瘤的分類問題,本文提出了一種MDM-ResNet網(wǎng)絡(luò),該網(wǎng)絡(luò)由多尺寸卷積核模塊、雙通道池化層和多深度融合殘差塊組成.其中多尺寸卷積核模塊由包含不同大小卷積核的卷積分支構(gòu)成,從而能夠提取到輸入圖像中豐富的特征信息;雙通道池化層結(jié)合了最大值池化和平均池化的優(yōu)點(diǎn),使兩者提取到的細(xì)節(jié)信息和背景信息可以相互補(bǔ)充;多深度融合殘差塊通過將不同ResNet中殘差塊內(nèi)的卷積單元結(jié)合,在利用多種卷積模式提取信息的同時(shí)也增加了殘差塊的寬度,使得網(wǎng)絡(luò)在進(jìn)行反向傳播時(shí)能夠保證更多的weights參與到學(xué)習(xí)訓(xùn)練中.本文實(shí)驗(yàn)在Figshare數(shù)據(jù)集上展開,使用Accuracy、Precision、Recall和F1 Score作為網(wǎng)絡(luò)性能的評價(jià)指標(biāo)并采用5倍交叉驗(yàn)證方法來分析網(wǎng)絡(luò)的分類效果,最終MDM-ResNet對腦膜瘤、膠質(zhì)瘤和垂體瘤的平均分類準(zhǔn)確性為93.51%.