黃 莉,何美玲*
(1.武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.湖北省智能信息處理與實時工業(yè)系統(tǒng)重點實驗室,湖北 武漢 430065)
腦膠質(zhì)瘤是最為多見的原發(fā)性腦腫瘤,絕大多數(shù)屬惡性,具有很高的致死率,早發(fā)現(xiàn)與早治療往往能夠延長患者的平均壽命。在臨床中,核磁共振成像(Magnetic Resonance Imaging,MRI)技術(shù)是最常用的腦腫瘤診斷技術(shù),可以準(zhǔn)確描繪腫瘤區(qū)域。但是由于病人MRI圖像數(shù)量巨大,醫(yī)生手動標(biāo)注腦腫瘤區(qū)域耗時且效率低下,因此基于深度學(xué)習(xí)的自動腦腫瘤分割方法在輔助醫(yī)生診斷及確定治療手段等方面具有重要意義。
醫(yī)學(xué)圖像分割[1-4]作為圖像分割的一類,是計算機視覺領(lǐng)域的一個重要研究方向。其主要研究內(nèi)容是通過計算機把圖像分成若干個特定的、具有獨特性質(zhì)的區(qū)域[5-7]。傳統(tǒng)的圖像分割算法主要包括圖像預(yù)處理、圖像特征提取和目標(biāo)區(qū)域分割三個步驟,其中圖像特征提取是圖像分割算法中最核心的部分,該部分所提取的特征的優(yōu)劣直接影響到圖像分割的性能。傳統(tǒng)的圖像分割算法在特征提取模塊提取的特征對目標(biāo)邊界區(qū)域具有較大的冗余性和不精確性,從而會導(dǎo)致分割不精準(zhǔn),并且也不具有很好的泛化能力,因此研究者們提出了許多神經(jīng)網(wǎng)絡(luò)模型來解決上述問題。
一種方法是引入自注意力機制,通過在特征圖提取階段引入自注意力,網(wǎng)絡(luò)能夠更好地關(guān)注與圖像類別相關(guān)的區(qū)域,捕獲目標(biāo)的邊界空間信息。但是僅依靠自注意力機制,網(wǎng)絡(luò)缺乏對于邊界細節(jié)信息的學(xué)習(xí)。另一種是引入多尺度策略,由于圖像經(jīng)過多層卷積和池化操作,丟失了大量的細節(jié)信息,從而導(dǎo)致卷積網(wǎng)絡(luò)及其改進模型所提取的特征往往表征能力不足。因此引入多尺度策略,用來最大程度地保留細節(jié)信息。但是僅依靠多尺度策略,網(wǎng)絡(luò)缺乏對于目標(biāo)邊界空間信息的學(xué)習(xí)。
因此,該文提出了一種基于自注意力機制和多尺度策略的U-Net來解決上述問題。該方法將編碼器模塊每層卷積得到的特征圖保留,對其計算通道注意力來獲得自注意力圖,然后將得到的自注意力圖通過設(shè)計的尺度融合模塊組成多尺度特征圖,替代網(wǎng)絡(luò)原本的特征圖,提高神經(jīng)網(wǎng)絡(luò)模型的特征提取能力,從而提高分割性能。在BRATS2017數(shù)據(jù)集上的實驗證明了該模型的有效性。
人類會選擇性地使用數(shù)據(jù)中的重要部分來做出決策,類似地,人類在查看一張圖像時,往往只會關(guān)注其中最重要的部分,而不是關(guān)注圖像整體,此過程稱之為注意力機制。自注意力機制是注意力機制的改進,其減少了對外部信息的依賴,更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,現(xiàn)階段被廣泛應(yīng)用于大量計算機視覺任務(wù)中[8-11]。文獻[12]提出了DANET,將自注意力機制用于場景分割,在特征的空間維度和通道維度分別抓取特征之間的全局依賴關(guān)系,增強特征的表達能力,然而它由兩個并列的注意力模塊組成,因此計算量較大。文獻[13]針對自注意力占用GPU內(nèi)存大和計算量大的問題提出了CCNET,它只關(guān)注每個像素點所在的行與列的權(quán)重,循環(huán)兩次后便能達到與自注意力機制一樣的效果,進而能減少計算量,但因為只關(guān)注了所在行與列從而忽略了部分空間信息。除此之外,文獻[14]提出的ISSA采用交錯機制與自注意力機制結(jié)合的方式來獲得任意兩個位置的依賴關(guān)系,其主要思想是將密集相似矩陣分解為兩個稀疏相似矩陣的乘積。文獻[15-17]采用通道注意力機制,通過建模各個特征通道的重要程度,然后針對不同任務(wù)來增強或抑制不同的通道。在計算量與模型復(fù)雜度一樣的情況下,使用通道級注意力的方法在所有注意力的方法中達到了最好效果,因而文獻[18]采用通道級的注意力獲得自注意力圖來增強邊界空間信息進而提升目標(biāo)定位精度。
目前大多數(shù)語義分割網(wǎng)絡(luò)都采用的是編碼器-解碼器結(jié)構(gòu),傳統(tǒng)的U-Net[19]將圖像輸入到編碼器,獲取編碼器中最后一層的特征圖后,輸入到解碼器中進行解碼。雖然最后一層的特征圖含有最豐富的語義信息,但其缺少相應(yīng)的細節(jié)信息,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)不充分,進而出現(xiàn)過分割和欠分割的問題。為了解決這一問題,Relay-NET[20]通過引入跳連接機制來保證關(guān)鍵位置信息的保存,進而提升分割性能,但對于目標(biāo)邊界信息仍會有丟失。為了解決目標(biāo)邊界信息會丟失的問題,文獻[21-23]通過在傳統(tǒng)網(wǎng)絡(luò)中引入多尺度策略來增強目標(biāo)邊界信息的特征提取,進而提升任務(wù)精度。全監(jiān)督方法[24]證明通過引入較低級別的特征可以進一步加強細節(jié)特征與邊界特征的獲取。隨著多尺度的進一步研究,多尺度特征融合策略引入了上下文相關(guān)的組合,以共同探索高級特征和低級特征的優(yōu)勢。文獻[25]合并了多尺度特征進行語義分割,獲得了更準(zhǔn)確的結(jié)果。文獻[26]將多尺度策略成功應(yīng)用到類激活圖中,在編碼部分采用多尺度策略來獲得精確的顯著性圖。
由此,該文將自注意力機制和多尺度策略相結(jié)合,提出了一種新的U-Net,借助自注意力機制獲取目標(biāo)邊界空間信息,在編碼器部分采用多尺度策略使輸入到解碼器的特征圖包含邊界細節(jié)信息,從而提高圖像分割的性能。
提出的U-Net-AMS(U-Net with Attention and Multiple Scale)模型是基于U-Net[19]的改進模型。主要改進是使用自注意力機制處理每層編碼器得到的特征圖,然后將特征圖通過多尺度融合模塊進行融合作為解碼器輸入,增強編碼器對分割目標(biāo)邊界信息的特征表達能力,提高分割準(zhǔn)確度。
U-Net-AMS模型整體呈U型結(jié)構(gòu),如圖1所示。主要分為三步:多尺度特征圖的獲取、特征圖信息加強、特征圖的融合。多尺度特征圖的獲取是通過保留編碼器的所有特征圖實現(xiàn)的,來最大程度地捕獲分割目標(biāo)的邊界細節(jié)信息;特征圖信息加強是采用自注意力模塊SAM(Self Attention Module)實現(xiàn)的,SAM模塊采用通道注意力機制計算特征圖的自注意力圖,使用sigmoid激活函數(shù)來加強分割目標(biāo)邊界的空間信息。特征圖融合模塊是通過尺度融合模塊SDS(Scaling and Downsampling)實現(xiàn)的,對特征圖的尺度和通道進行歸一化,基于通道進行融合。
從上述過程可知,U-Net-AMS使用自注意力機制和特征圖融合獲取了包含豐富細節(jié)和語義信息的特征圖,最終將融合特征圖作為解碼器的輸入來提升目標(biāo)分割精度。
(1)
其中,i表示縱向的位置,j表示橫向的位置,Hn×Wn表示Fn中每個通道特征圖的所有像素數(shù)量,un表示第n張?zhí)卣鲌D的像素集合。
(2)
(3)
其中,?表示逐元素相乘,經(jīng)過上述過程,特征圖邊緣區(qū)域的差別更加明顯,可以更好地提取空間信息特征,從而提高邊緣區(qū)域的分割效果。
文中方法是通過將編碼器的所有特征圖保留,采用自注意力模塊處理,來加強對邊界信息的提取能力,進而使用SDS模塊歸一化特征圖的尺度與通道數(shù),最后將處理后的特征圖基于通道進行融合,最大程度保留分割目標(biāo)的邊界信息。設(shè)計的整個流程可以看作是特征融合的操作,其目的是使輸入到解碼器中的特征圖包含豐富的分割目標(biāo)邊界信息。
實驗在一個高性能服務(wù)器集群上運行,管理平臺為kubesphere工作站,核心服務(wù)器配置為linux,操作系統(tǒng)為centos,工作站配備Intel(R) Xeon(R) CPU E5-2660 v4處理器,主頻2.00 GHz,內(nèi)存32G。實驗使用Pytorch深度學(xué)習(xí)框架,使用的IDE為JetBrains公司的Pycharm,編程語言為Python。Pytorch是由Facebook公司開發(fā)的一個開源的Python深度學(xué)習(xí)庫,通過使用Pytorch搭建平臺,用戶可以調(diào)用相關(guān)的第三方開源函數(shù)工具包。
該文采用BRATS2017腦腫瘤分割數(shù)據(jù)集[27],該數(shù)據(jù)集提供了帶注釋的低等級神經(jīng)膠質(zhì)瘤(Low Grade Gliomas,LGG)和高等級神經(jīng)膠質(zhì)瘤(High Grade Glioblastomas,HGG)。BRATS2017由210個HGG和75個LGG病例組成,圖像尺寸為256×256。BRATS2017數(shù)據(jù)集采用的MRI圖像來自19家研究機構(gòu),并通過不同的磁場強度和MRI掃描儀獲得,由四位專家進行手動標(biāo)注。
3.1.1 預(yù)處理
為了改善圖像的質(zhì)量,避免對網(wǎng)絡(luò)性能造成影響,使用中值濾波(median filter)去噪算法進行預(yù)處理。通過把圖像中的某一點用它鄰域中各點值的中值進行替換,讓該點周圍的像素值盡可能地接近真實值,從而去除多余的噪聲點,最大程度地減少噪聲對圖像的干擾。圖4中顯示了預(yù)處理前后的腦腫瘤圖像。
3.1.2 數(shù)據(jù)增強
為了使網(wǎng)絡(luò)更好地學(xué)習(xí)目標(biāo)的所有特征,并同時增強網(wǎng)絡(luò)的魯棒性,引入數(shù)據(jù)增強到網(wǎng)絡(luò)的訓(xùn)練中。該文采用隨機水平翻移和隨機旋轉(zhuǎn)兩種圖像增強方法處理訓(xùn)練集中的圖像和圖像掩碼。訓(xùn)練集包含665張原始圖像和圖像掩碼;測試集包含332張原始圖像和圖像掩碼;所有圖像大小統(tǒng)一為256×256,并且都經(jīng)過相同的數(shù)據(jù)預(yù)處理。
在腦腫瘤的分割中,若模型分割的結(jié)果(A)與專家標(biāo)注的圖像區(qū)域(B)相同則該像素點為真陽性(TP),反之為假陽性(FP);對于圖像背景區(qū)域,若分割結(jié)果的像素點與標(biāo)注圖像相同則該像素點為真陰性(TN),反之為假陰性(FN)。
為了定量分析網(wǎng)絡(luò)模型的分割結(jié)果并且更好地與其他方法進行對比,該文采用Dice、靈敏度(SE)和特異性(SP)這三個通用指標(biāo)來客觀評價模型對腦腫瘤的分割效果。以上指標(biāo)計算公式如下:
(4)
(5)
(6)
優(yōu)化方法采用隨機梯度下降(Stochastic Gradient Descent,SGD),訓(xùn)練批次設(shè)定為200,測試批次設(shè)定為50,學(xué)習(xí)率初始化0.002,編碼器卷積層數(shù)N設(shè)置為4,采用Dice損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。
3.4.1 消融實驗
為了證明多尺度策略和自注意力機制的有效性和必要性,進行了消融實驗,結(jié)果如表1所示,表明提出的模型的分割能力和自注意力機制以及多尺度策略相關(guān)。
表1 是否添加SAM模塊和SDS模塊的消融實驗
3.4.2 不同分割方法的分析
為了驗證提出的 U-Net-AMS模型的有效性,與RelayNet[20]、U-Net[19]、ResUNet[28]和SGNet[29]四種分割網(wǎng)絡(luò)進行對比實驗。采用相同的網(wǎng)絡(luò)訓(xùn)練參數(shù),利用驗證集對訓(xùn)練好的模型性能進行測試。采用Dice系數(shù)進行分割效果評估,列出了三種病變Dice值以及平均Dice值,實驗結(jié)果如表2所示。
表2 U-Net-AMS與其他網(wǎng)絡(luò)分割性能的對比 (Dice)
其中,Lesion1表示水腫區(qū)域,Lesion2表示增強腫瘤區(qū)域,Lesion3表示壞死腫瘤區(qū)域。所提方法在三種病變組織的Dice上均有提升,并且在平均Dice上取得了最高值。實驗表明,文中模型通過引入自注意力機制和多尺度策略,能最大程度地保留分割目標(biāo)的邊界信息,有效提升網(wǎng)絡(luò)對輸入圖像特征的提取能力,進而提高分割精準(zhǔn)度。
圖5選擇5個不同的腦腫瘤圖像分割結(jié)果進行展示,從左到右依次是原始圖像、專家標(biāo)注、U-Net-AMS、RelayNet、ResUNet、SGNet和U-Net的分割結(jié)果圖像??梢钥闯?,對比第二列的專家標(biāo)注,文中方法的分割結(jié)果與其更加接近。這表明通過引入自注意力機制和多尺度策略能夠有效提升網(wǎng)絡(luò)對目標(biāo)的分割精度。
針對醫(yī)學(xué)影像分割特點和腦腫瘤分割不精準(zhǔn)的問題,提出了一種融合自注意力機制和多尺度策略的方法,確保分割目標(biāo)的邊界信息最大程度地保留。在BRATS2017數(shù)據(jù)集上通過實驗證實,該方法可以更大程度地提高神經(jīng)網(wǎng)絡(luò)模型對目標(biāo)的分割精度。在今后的工作中,進一步提高網(wǎng)絡(luò)分割性能,同時減少網(wǎng)絡(luò)模型對計算資源的需求還有待研究。