周 迪,張自力*,陳 佳,胡新榮,何儒漢,張 俊
(1.武漢紡織大學 計算機與人工智能學院,武漢 430200;2.武漢紡織大學 湖北省服裝信息化工程技術(shù)研究中心,武漢 430200;3.武漢紡織大學 紡織服裝智能化湖北省工程研究中心,武漢 430200;4.武漢工程大學 計算機科學與工程學院,武漢 430205)
癌癥是困擾全世界的疾病之一,根據(jù)世界衛(wèi)生組織在2019 年的調(diào)查統(tǒng)計[1],胃癌的發(fā)病率和死亡率都比較高,僅在2020 年里,就增加了100 多萬新病例和76.9 萬的死亡病例,相當于每13 個死亡病例里就有1 例死于胃癌。目前推測慢性幽門桿菌傳染是造成患病的主要原因,該細菌的傳染性極強,傳染了全世界近50%的人口[2]。
病理作為醫(yī)療領(lǐng)域的“金標準”,在臨床診斷中有著其他診斷所無法替代的重要作用。然而,病理診斷行業(yè)存在諸多問題[3]:職業(yè)風險大、培養(yǎng)周期長以及職業(yè)收入低?;谝陨显颍鲃幼霾±磲t(yī)生的人數(shù)少。
近年來,隨著全切片掃描技術(shù)的發(fā)展,不但使病理切片的獲取更方便,更重要的是改變了傳統(tǒng)的閱片方式,使得將計算機視覺技術(shù)和病理圖像診斷結(jié)合成為可能。利用計算機技術(shù)對病理圖像進行分割,讓醫(yī)生更直觀地發(fā)現(xiàn)圖像中的病變區(qū)域,對于幫助病理醫(yī)生更進一步地判斷胃癌的分期、分型具有重要意義。
神經(jīng)網(wǎng)絡(luò)在短短幾年內(nèi)迅速發(fā)展,如今已應(yīng)用到語音識別、圖像識別、自然語言處理等諸多領(lǐng)域。隨著人工智能的迅速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)越來越強大,在圖像分割領(lǐng)域出現(xiàn)了許多優(yōu)秀的網(wǎng)絡(luò)框架,如全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[4],它被認為是深度學習用于語義分割的開山之作,將傳統(tǒng)CNN中最后的全連接層換成了卷積層,這樣的設(shè)計可以使網(wǎng)絡(luò)適用于任意尺寸的輸入,實現(xiàn)了端到端的訓練。但是,它的缺點也很明顯,上采樣過程過于粗糙,只用了簡單的反卷積,使得最后分割結(jié)果不夠精細。后續(xù)也有許多研究者采用馬爾可夫隨機場[5]和條件隨機場[6]優(yōu)化分割結(jié)果。比如DeepLab[7-10]系列讓深度學習在分割領(lǐng)域前進了一大步,通過引入空洞卷積來解決卷積越多,丟失信息越多的問題,在沒有加入?yún)?shù)和多余計算的情況下,擴大了感受野;同時,引入了空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)結(jié)構(gòu),在不改變特征圖大小的前提下,增大網(wǎng)絡(luò)的感受野,使網(wǎng)絡(luò)能提取多尺度信息。采用以上優(yōu)秀的成果使利用計算機視覺技術(shù)分割病理圖像成為可能。
目前深度學習在胃癌病理領(lǐng)域的應(yīng)用較少,不過在整個醫(yī)學領(lǐng)域中已經(jīng)有了較多的研究成果。Ronneberger 等[11]提出的U-Net 模型是醫(yī)學分割中最經(jīng)典的網(wǎng)絡(luò)模型之一,該模型及其改進方法仍然被應(yīng)用在各種醫(yī)學分割任務(wù)中,并且取得了不錯的分割結(jié)果。U-Net 基于FCN 結(jié)構(gòu),將上采樣模塊設(shè)計成和下采樣類似的模塊;同時,通過跳躍連接防止細節(jié)丟失,結(jié)構(gòu)簡單、效果好,在當時ISBI(International Symposium on Biomedical Imaging)比賽的神經(jīng)元等多項任務(wù)中獲得冠軍,但是缺點也十分明顯,該模型的特征提取網(wǎng)絡(luò)太淺,導(dǎo)致提取的特征具有局限性。Milletari 等[12]針對臨床圖像是3D 圖像的問題,提出了V-Net 模型,將3D 卷積與UNet 進行結(jié)合來分割3D 圖像;同時,提出Dice 系數(shù)損失函數(shù)來解決數(shù)據(jù)集正負樣本不平衡的問題,在前列腺核磁共振(Magnetic Resonance Imaging,MRI)數(shù)據(jù)集中分割的Dice 評分達到了86.9%。Alom 等[13]基于傳統(tǒng)U-Net 提出一個全新的R2U-Net(Recurrent Residual Convolutional Neural Network based on U-Net)模型,將循環(huán)殘余卷積與U-Net 結(jié)合,有利于深層網(wǎng)絡(luò)的訓練,在相同參數(shù)的情況下,該模型在視網(wǎng)膜血管等分割任務(wù)中取得了更好的結(jié)果。Zhou 等[14]針對U-Net最佳深度未知的問題,提出了U-Net++模型,在編碼器和解碼器之間加入大量跳躍連接來提高網(wǎng)絡(luò)特征提取能力,該模型在六種常見數(shù)據(jù)集中皆取得了優(yōu)于當時其他網(wǎng)絡(luò)模型的成績。Oktay 等[15]在U-Net 上采樣過程中添加注意力機制,讓網(wǎng)絡(luò)學會抑制不相關(guān)區(qū)域,注重有用的特征,提出了Att UNet(Attention U-Net),在電子計算機斷層掃描(Computed Tomography,CT)數(shù)據(jù)集的胰腺任務(wù)中Dice 系數(shù)達到84%。張澤中等[16]基于多尺度輸入提出了多輸入融合網(wǎng)絡(luò)(Multi-Input-Fusion Net,MIFNet),同時將不同尺寸的圖片作為網(wǎng)絡(luò)的輸入,提高網(wǎng)絡(luò)提取不同尺度特征的準確度,在病理切片識別AI 挑戰(zhàn)賽數(shù)據(jù)集上的Dice 評分達到81.87%。
一般來說,超聲、CT 和MRI 等醫(yī)學造影圖像中的數(shù)據(jù)特征相對較少,器官位置等信息相對固定,往往能花費較低的計算資源就獲得令人滿意的效果,但在具有復(fù)雜特征的病理學等數(shù)據(jù)中,獲得的結(jié)果往往不盡如人意。所以,想要提高網(wǎng)絡(luò)預(yù)測結(jié)果準確度,需要解決以下3 個問題:1)針對胃癌病變區(qū)域和形狀不固定的問題,如何提取更好的病變特征圖?2)針對胃癌病變區(qū)域邊緣復(fù)雜的問題,如何讓網(wǎng)絡(luò)上采樣過程中保留更多細節(jié)?3)如何解決數(shù)據(jù)集偏小,容易出現(xiàn)過擬合的問題?
針對上述問題,本文改進U-Net 并結(jié)合EfficientNetV2 和物體上下文表示(Object-Contextual Representation,OCR)的優(yōu)點,提出一種基于改進U-Net 的自動分割胃癌病理圖像模型EOU-Net。本文使用公開的2021“SEED”第二屆江蘇大數(shù)據(jù)開發(fā)與應(yīng)用大賽(華錄杯)醫(yī)療衛(wèi)生賽道提供的胃癌病理切片圖像數(shù)據(jù)集(后文簡寫為SEED 數(shù)據(jù)集)(https://www.marsbigdata.com/competition/details?id=21078355578880)、2017 中國大數(shù)據(jù)人工智能創(chuàng)新創(chuàng)業(yè)大賽系列之“病理切片識別AI 挑戰(zhàn)賽”提供的胃癌病理切片數(shù)據(jù)集(后文簡寫為BOT 數(shù)據(jù)集)(http://www.datadreams.org/#/newraceintro_detail?id=225)和經(jīng)典分割數(shù)據(jù)集PASCAL VOC 2012(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/)進行實驗。
針對引言提出的3 個問題,本文對傳統(tǒng)U-Net 作出了3點修改:首先,為了讓網(wǎng)絡(luò)能應(yīng)對病理圖像復(fù)雜特征,引入優(yōu)秀的分類網(wǎng)絡(luò)EfficientNetV2[17]作為U-Net 的編碼器(Encoder)來提高網(wǎng)絡(luò)的特征提取能力;然后,為防止網(wǎng)絡(luò)在上采樣階段丟失病理圖片復(fù)雜的邊緣信息,加入了本文改進的OCR 模塊,通過細胞上下文特征信息判斷某個像素是否與周圍像素屬于同一類,從而提高網(wǎng)絡(luò)分割的邊緣精度;最后,為了應(yīng)對醫(yī)學數(shù)據(jù)集普遍偏小,訓練過程容易出現(xiàn)過擬合的問題,加入了驗證階段增強(Test Time Augmentation,TTA)后處理模塊,對同一張圖片進行多次變化,分別預(yù)測,并將不同預(yù)測結(jié)果通過特征融合的方式得到網(wǎng)絡(luò)最后的分割結(jié)果。具體網(wǎng)絡(luò)模型如圖1 所示,主要分為三個部分:1)由MBConv 和Fused-MBConv 組成的編碼器,用于提取圖像中不同感受野的胃癌區(qū)域特征;2)加入了改進后的OCR 解碼器模塊(Decoder),將不同感受野提取的特征圖進行融合,然后上采樣恢復(fù)到原圖大小,并通過探索圖像中像素間關(guān)系來解決上采樣帶來的細節(jié)丟失問題,優(yōu)化模型輸出的邊緣細節(jié);3)TTA 后處理模塊,通過對輸入圖片進行多次變換,并融合多次變換的預(yù)測結(jié)果,得到最終的網(wǎng)絡(luò)輸出結(jié)果。
圖1 EOU-Net網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Network model structure of EOU-Net
在數(shù)據(jù)處理階段,本文首先對胃癌數(shù)據(jù)集進行預(yù)處理,將圖像統(tǒng)一縮放到512×512,在編碼階段通過EfficientNetV2主干網(wǎng)絡(luò)提取特征,得到5 個感受野不同的特征圖:F1、F2、F3、F4和F5,其中:K為卷積核大?。籗為卷積步距,R表示SE(Squeeze-and-Excitation)注意力模塊節(jié)點舍棄的比例,MBConvM×N表示中間層通道數(shù)擴大M倍,該模塊重復(fù)N次。特征提取后,依次對特征圖進行上采樣,接著將Up2-1上采樣之后的結(jié)果,通過改進后的OCR 模塊,這樣就完成了一次預(yù)測。接著,通過TTA 后處理模塊對輸入圖像多次預(yù)測,就能得到網(wǎng)絡(luò)最后的預(yù)測結(jié)果。
傳統(tǒng)U-Net 的特征提取網(wǎng)絡(luò)有一個致命的局限性,即模塊細節(jié)是人為決定,那么很容易讓人產(chǎn)生懷疑:如果網(wǎng)絡(luò)更深、更寬,輸入圖像更大,那么網(wǎng)絡(luò)的特征提取能力是否會更好。然而,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,已經(jīng)出現(xiàn)了許多更優(yōu)秀的卷積、激活函數(shù)、注意力等模塊,這些模塊的搭配方案非常多,想要人為窮舉找出最好的特征提取網(wǎng)絡(luò)并不現(xiàn)實。所以,如果能借助某種方法找出這些優(yōu)秀模塊的最佳組合方案,能有效提高特征提取網(wǎng)絡(luò)的特征提取能力。
目前,主要從網(wǎng)絡(luò)的深度、寬度和圖像分辨率來提升CNN 的特征提取能力。然而,這三個參數(shù)并不是增加得越多,網(wǎng)絡(luò)的特征提取能力越好,隨意修改參數(shù),往往會出現(xiàn)反效果;同時,參數(shù)選擇過多,人工調(diào)參優(yōu)化工作也會過于繁重。Tan 等[18]研究這三個參數(shù)的最佳搭配關(guān)系,并提出了EfficientNet,通過NAS(Neural Architecture Search)技術(shù)[19]以準確度和運算量為優(yōu)化目標來平衡網(wǎng)絡(luò)深度、寬度和圖像分辨率,最后得到EfficientNet-B0,在ImageNet 分類任務(wù)上有84.3%的準確度,需要的參數(shù)也遠少于其他網(wǎng)絡(luò)。
EfficientNetV2[17]是繼EfficientNet 之后提出的全新網(wǎng)絡(luò)。針對EfficientNet 訓練圖像過大時,有可能出現(xiàn)內(nèi)存不夠以及在淺層網(wǎng)絡(luò)使用DW(DepthWise)[20]卷積訓練速度過慢的問題,提出了Fused-MBConv 模塊,并且使用NAS 技術(shù)探索Fused-MBConv 和MBConv 模塊的最佳組合方式,最后提出了全新的EfficientNetV2,在ImageNet 分類數(shù)據(jù)集上,不僅有87.3%的準確度,訓練速度也更快。本文將EfficientNetV2 引入圖像分割領(lǐng)域,提出一種使用EfficientNetV2 提取特征的方法,使U-Net 的編碼器有更優(yōu)秀的特征提取能力,EfficientNetV2 的基本模塊如表1 所示。其中:MBConvM的M表示中間層通道數(shù)擴大倍率;k 表示卷積核大?。籗E 表示注意力模塊節(jié)點舍棄比例。本文的輸入圖像大小統(tǒng)一縮放為512×512。首先,通過Stage0 的stem 模塊得到256×256 的特征圖F1;其次,通過Stage1、Stage2 的Fused-MBConv 模塊得到128×128 的特征圖F2;然后,通過Stage3 的Fused-MBConv模塊得到64×64 的特征圖F3;接著,通過Stage4 的MBConv 模塊得到32×32 的特征圖F4;最后,通過Stage5、Stage6 的MBConv 模塊得到16×16 的特征圖F5。至此,得到5 個不同感受野的特征圖,將用于后續(xù)的上采樣和特征融合。
表1 EfficientNetV2基本模塊Tab.1 Basic modules of EfficientNetV2
感受野對于語義分割任務(wù)來說非常重要,能直接影響網(wǎng)絡(luò)分割物體的大小。而CNN 使用的卷積不論是3 × 3 還是7 × 7,始終有大小限制。所以,CNN 通過堆疊卷積獲取的感受野也必然有局限性。早些年,為了擴大網(wǎng)絡(luò)的感受野往往會采用金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)[21],或者ASPP[8]結(jié)構(gòu)。隨著Non-local[22]提出后,許多研究[23-25]嘗試從self-attention 的角度解決該問題。受到OCRNet[26]的啟發(fā),本文對OCR 模塊作出了兩點改進:1)沒有將像素特征(Pixel Representations)與細目標區(qū)域(Fine Object Regions)進行拼接;2)將Fine Object Regions 和軟目標區(qū)域(Soft Object Regions)按照相加的方式進行特征融合,因為考慮到人工設(shè)置權(quán)重往往很難找到最合適的值,不如直接交給卷積去完成這個任務(wù),這樣就能在保證效果的同時,減少模塊的參數(shù)和計算量,具體結(jié)構(gòu)如圖2 所示。
圖2 改進后的OCR模塊結(jié)構(gòu)Fig.2 Structure of improved OCR module
在解碼階段,本文使用線性插值的上采樣方法,該方法相較于轉(zhuǎn)置卷積需要的計算量更小,其實際效果與轉(zhuǎn)置卷積效果相差不大,而且轉(zhuǎn)置卷積如果參數(shù)選擇得不合適很容易出現(xiàn)棋盤效應(yīng)[27]?;谝陨显颍疚倪x擇線性插值方法,實際結(jié)構(gòu)如圖3 所示。
圖3 上采樣的結(jié)構(gòu)Fig.3 Structure of upsampling
首先,將上一層上采樣得到的特征圖通過線性差值的方式放大一倍;然后,將它與骨干特征提取網(wǎng)絡(luò)得到的同一大小特征圖按相加的方式進行特征融合;最后,通過兩個3 × 3的卷積便能得到這一層上采樣輸出,重復(fù)這個過程直至上采樣到原圖大小1/2 時,為了避免感受野帶來的局限性,通過改進后的OCR 模塊來探索像素與像素之間的關(guān)系。OCR 本質(zhì)就是一種由粗到細的分割,設(shè)輸入圖片為I∈RH×W×C,對應(yīng)的輸出結(jié)果為Y∈RH×W。其中,H、W、C表示輸入圖片的行、列和通道數(shù)。在本文中,H=W=512,C=3。首先,通過骨干特征網(wǎng)絡(luò)以及上采樣操作得到輸入特征圖;然后,再依次通過變換函數(shù)得到每個像素特征(Pixel Representations)和2 個軟目標區(qū)域(Soft Object Regions)分別對應(yīng)病變區(qū)域和健康區(qū)域,如式(1)~(3)所示:
其中:θ(·)表示做4 次圖3 所示操作,得到原圖大小1/2 的特征圖fB,將它作為改進后OCR 模塊的輸入;?1(·)和?2(·)是變換函數(shù),由3×3 卷積、批歸一化(Batch Normalization,BN)、線性整流函數(shù)(Rectified Linear Unit,ReLU)實現(xiàn);fS代表軟目標區(qū)域,通道數(shù)為2,將它作為粗分割,用于最后的特征融合;fP代表每個像素的語義信息和特征,通道數(shù)為256。
根據(jù)每個像素的語義信息和特征得到每個類別區(qū)域特征(Object Region Representations):
其中:Xi表示第i個像素的特征向量;Mki表示第i個像素是k類的概率,本文分為病變區(qū)域和健康區(qū)域兩類,所以,k=2。隨后,使用self-attention 計算每個像素與各個區(qū)域的關(guān)系,具體見式(5)~(6):
其中:κ(·)、γ(·)、δ(·)均為變換函數(shù),由1×1 卷積、BN、ReLU 激活函數(shù)實現(xiàn);Q、K、V為3 個向量;dK是K的維度,fR是像素與各個區(qū)域的關(guān)系。然后計算物體上下文特征fO:
最后,通過卷積將上下文特征通道數(shù)轉(zhuǎn)換到分割類別數(shù),然后和粗分割采用相加的方式進行特征融合,就能得到最終改進后OCR 模塊的輸出,具體見式(8):
其中:Y為改進后OCR 模塊的最終輸出;ρ(·)和σ(·)為3×3卷積。OCR 模塊能很好地優(yōu)化胃癌病理圖像的病變細胞和正常細胞的復(fù)雜的邊緣區(qū)域,使預(yù)測圖更接近實際情況。
通過1.3 節(jié)的方法能得到預(yù)測圖,但該預(yù)測圖很可能存在因網(wǎng)絡(luò)過擬合而導(dǎo)致分割錯誤的地方,所以需要后處理方法來解決這個問題。圖像增強技術(shù)目前被廣泛應(yīng)用在訓練階段,常常通過對原數(shù)據(jù)集進行一系列變換來達到擴充數(shù)據(jù)集的目的,從而增加數(shù)據(jù)集的多樣性,常見的變換有翻轉(zhuǎn)、裁剪、旋轉(zhuǎn)和縮放等。許多研究表明,通過后處理方式能進一步提高網(wǎng)絡(luò)的精確度,DeepLabV2[8]使用稠密條件隨機場(Dense Conditional Random Field,DenseCRF)優(yōu)化分割的邊緣細節(jié),從而提高網(wǎng)絡(luò)分割結(jié)果;然而,該算法要求分割區(qū)域與其他區(qū)域存在一定差異才會有比較好的效果,具有一定局限性。Wachinger 等[28]使用3D DenseCRF 提高國際醫(yī)學圖像計算和計算機輔助干預(yù)協(xié)會(Medical Image Computing and Computer Assisted Intervention society,MICCAI)數(shù)據(jù)集的邊緣分割效果;石志良等[29]利用腐蝕圖替代人工輸入初始化圖割模型,實現(xiàn)相鄰骨組織的自動分離。TTA 也是其中一種后處理方法,在驗證階段對輸入圖片進行增強。本文使用TTA后處理進一步提高預(yù)測精確度,常見的流程是在驗證階段將輸入圖像進行多次旋轉(zhuǎn)、縮放、翻轉(zhuǎn),然后依次預(yù)測,最后將預(yù)測結(jié)果進行特征融合得到最終的預(yù)測結(jié)果。對于比較小的醫(yī)學數(shù)據(jù)集,該方法很有效。本文對增強方法選擇翻轉(zhuǎn)加旋轉(zhuǎn),因為胃癌病理圖像具有位置、形狀不固定的特點,通過翻轉(zhuǎn)和旋轉(zhuǎn)能大幅增加數(shù)據(jù)集的多樣性,解決容易過擬合的問題。特征融合方式選擇取平均。具體操作如圖4 所示。
圖4 TTA后處理過程Fig.4 Procedure of TTA post-processing
本文實驗的硬件環(huán)境:CPU 為Intel Xeon Gold 5218 CPU@ 2.30 GHz,GPU 為NVIDIA Tesla V100。實驗使用的PyTorch 版本為1.8.1,CUDA 版本為10.1。
SEED 數(shù)據(jù)集包含正常、管狀腺癌、黏液腺癌3 種類型共1 770 張樣本;BOT 數(shù)據(jù)集包含正常和病變兩種類型共700 張樣本。每一張圖像都有對應(yīng)的分割蒙版,其中:0 代表正常區(qū)域;255 代表病變區(qū)域。PASCAL VOC 2012 有2 913 張語義分割圖片,訓練集和驗證集分別有1 464、1 449 張圖片,共有背景、人、飛機等21 類。
胃癌病理細胞一般具備以下特征:1)癌細胞的細胞核體積比較大,通常是正常細胞的5~10 倍;2)癌細胞的外形一般不規(guī)則;3)癌細胞細胞質(zhì)減小,細胞核與細胞質(zhì)面積之比增大。它們是判斷胃癌病理圖像中有無病變區(qū)域的重要因素。
數(shù)據(jù)集中有的圖像分辨率非常大,對比Patch 預(yù)測的結(jié)果與直接縮放到統(tǒng)一大小預(yù)測之后的結(jié)果,發(fā)現(xiàn)直接縮放的效果會好很多,所以在實驗過程中會將所有圖像統(tǒng)一縮放到512×512 大小。同時,因為CNN 對環(huán)境因素非常敏感,數(shù)據(jù)采集設(shè)備、光照、標注質(zhì)量等都會影響最后的分割結(jié)果。為避免網(wǎng)絡(luò)模型出現(xiàn)訓練過擬合問題,在訓練前對數(shù)據(jù)進行增強,提高訓練集多樣性,從而提高網(wǎng)絡(luò)的魯棒性。在獲取圖像數(shù)據(jù)前,使用albumentations 庫對圖像進行隨機翻轉(zhuǎn)、隨機改變亮度、隨機改變對比度、隨機改變飽和度等操作,實際效果如圖5 所示。圖5(a)分別為原始圖與它對應(yīng)的分割蒙版;圖5(b)分別為進行縮放和圖像增強后的訓練數(shù)據(jù)與它對應(yīng)的分割蒙版,這樣訓練數(shù)據(jù)的多樣性將會大大增加,可以有效防止數(shù)據(jù)過少或者單一導(dǎo)致的過擬合問題。
圖5 增強處理前后的對比Fig.5 Comparison before and after enhancement processing
平均交并比(Mean Intersection over Union,MIoU)是真實值和預(yù)測值兩個集合的交并比,能客觀地反映網(wǎng)絡(luò)分割結(jié)果的好壞。MIoU 的計算公式見式(9):
其中:pij表示真實值為i,被預(yù)測為j的像素數(shù)量;k是類別個數(shù);pii是預(yù)測正確的數(shù)量。MIoU 一般都根據(jù)類來計算,將每一類的交并比(Intersection over Union,IoU)計算出來后累加,最后再除以類別數(shù),就能得到全局的預(yù)測評價。MIoU 越高,分割圖像與分割蒙版重疊性越高,即分割效果越好。
本文首先通過消融實驗驗證每個模塊的有效性,接著使用DeepLabV3+[8]、U-Net[11]、U-Net++[14]等經(jīng)典醫(yī)學分割模型與本文提出的EOU-Net 進行比較。
將數(shù)據(jù)集按8∶2 劃分為訓練集和驗證集,設(shè)定隨機種子為0 來保證數(shù)據(jù)集的一致性。在訓練過程中,訓練集的batch size 為12,驗證集的batch size 為1,損失函數(shù)為二值交叉熵損失函數(shù),優(yōu)化器為Adam 優(yōu)化器,初始學習率為10-4,學習率的調(diào)整策略為每30 個epoch 之后將學習率減半,總共訓練250 個epoch,因為網(wǎng)絡(luò)使用EfficientNetV2 的ImageNet21k 的訓練權(quán)重進行遷移學習,所以初始學習率比較小,只需要根據(jù)新數(shù)據(jù)集進行微調(diào)便能達到很好的效果。訓練集和驗證集的MIoU 變化如圖6 所示。
圖6 訓練集和驗證集的MIoU曲線Fig.6 MIoU curves for training and validation sets
2.3.1 消融實驗
為了驗證EOU-Net 各模塊的有效性,分別對各模塊進行消融實驗,具體結(jié)果如表2 所示?;€模型為使用了ImageNet 預(yù)訓練權(quán)重的EfficientNet 作為編碼器的U-Net。首先,將編碼器替換為使用了ImageNet 預(yù)訓練權(quán)重的EfficientNetV2 之后,MIoU 比U-Net 提高了0.50%;在解碼器上添加改進后的OCR 模塊后,MIoU 比U-Net 提高了0.87%;使用TTA 后處理,MIoU 比U-Net 提高了1.62%。由此可見,本文提出的模塊均能有效提升分割精度。
表2 EOU-Net消融實驗結(jié)果 單位:%Tab.2 Ablation experimental results of EOU-Net unit:%
為了更直觀地觀察各模塊的提升效果,隨機從驗證集中選出1 張圖片,并依次使用不同的網(wǎng)絡(luò)模型分割,具體結(jié)果如圖7 所示,Label 為人工標注結(jié)果。從圖7 中能更直觀地看出各模塊的有效性,將骨干特征提取網(wǎng)絡(luò)換成EfficientNetV2后,找到的病變區(qū)域更準確,說明網(wǎng)絡(luò)的特征提取能力確實有所提高;再加入改進后的OCR 模塊之后,也能明顯觀察到分割邊緣細節(jié)得到了優(yōu)化;最后,TTA 后處理也能讓EOUNet 在面對不同的環(huán)境因素時,表現(xiàn)差異不會過大。
圖7 消融實驗可視化Fig.7 Visualization of ablation experiment
2.3.2 后處理方法對比實驗
本文以未添加TTA 后處理的EOU-Net 作為基礎(chǔ)模型,通過比較不同圖像增強和特征融合的TTA 模塊來找到最好的圖像增強方式和特征融合方式。圖像增強方法包括:水平垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)以及水平垂直翻轉(zhuǎn)加旋轉(zhuǎn)。特征融合方式包括:平均、相加和幾何平均。同時,為了驗證本文的后處理方法在胃癌數(shù)據(jù)集中的有效性,將它與經(jīng)典的DenseCRF-n(n代表算法迭代的次數(shù))后處理方法進行比較,具體結(jié)果見表3。
由表3 可以看出,選擇水平垂直翻轉(zhuǎn)加旋轉(zhuǎn)的圖像增強方式效果最好;同時,平均和相加的特征融合方式效果相當,MIoU 基本沒有差別。實驗中效果最好的TTA 模塊與DeepLab 中的DenseCRF 后處理相比,MIoU 提升了1.10%。因為DenseCRF 算法要求分割區(qū)域的邊緣與周圍像素具有一定差異,所以并不適合特征復(fù)雜的醫(yī)學圖像,由此可見,本文的TTA 后處理優(yōu)于經(jīng)典后處理方法。
2.3.3 不同方法對比實驗
1)SEED 數(shù)據(jù)集對比實驗。
在SEED 數(shù)據(jù)集上將EOU-Net 與Att U-Net[15]、U-Net[11]、U-Net++[14]等經(jīng)典網(wǎng)絡(luò)進行了比較,具體結(jié)果如表4 所示。Att R2U-Net[13]和Att U-Net 沒有使用ImageNet 預(yù)訓練的權(quán)重,因此,將未使用ImageNet 預(yù)訓練權(quán)重的EOU-Net 與這兩個模型進行比較??梢钥闯?,OCRNet 的表現(xiàn)一般,MIoU 比EOU-Net 小1.8 個百分點,說明對于醫(yī)學分割還是U 型結(jié)構(gòu)更通用。通過MIoU 和不同種類的IoU 結(jié)果可以發(fā)現(xiàn),EOUNet 無論是正常區(qū)域還是病變區(qū)域分割結(jié)果都優(yōu)于目前經(jīng)典網(wǎng)絡(luò)模型。
表4 SEED和BOT數(shù)據(jù)集上的對比實驗結(jié)果 單位:%Tab.4 Comparison experimental results on SEED and BOT datasets unit:%
2)BOT 數(shù)據(jù)集對比實驗。
為進一步驗證EOU-Net 的有效性,在BOT 數(shù)據(jù)集上進行實驗,結(jié)果見表4。實驗設(shè)置和SEED 數(shù)據(jù)集一致,因為BOT數(shù)據(jù)集的較多樣本病變區(qū)域占整張圖像比例較小,所以病變區(qū)域的IoU 普遍不高。但是,從MIoU 和不同種類的IoU 結(jié)果可以看出,EOU-Net 能有效提高胃癌病理圖片的分割結(jié)果,MIoU 比OCRNet 提高了0.6 個百分點。
為了更直觀地比較預(yù)測結(jié)果,隨機從驗證集中挑出4 張病理圖像,采用不同算法進行處理并顯示分割效果,如圖8所示??梢灾庇^地發(fā)現(xiàn),面對特征比較復(fù)雜的胃癌病理圖像,EOU-Net 確實能更好地提取圖片中的病變區(qū)域以及處理邊緣信息,從而達到更好的分割結(jié)果。
圖8 對比實驗可視化Fig.8 Visualization of comparison experiments
3)PASCAL VOC 2012 數(shù)據(jù)集對比實驗。
在PASCAL VOC 2012 數(shù)據(jù)集上驗證EOU-Net 在其他類型數(shù)據(jù)集上的表現(xiàn),實驗結(jié)果見表5。可以看出,EOU-Net 在非醫(yī)學的數(shù)據(jù)集中的性能相較于經(jīng)典網(wǎng)絡(luò)也有所提高。當種類數(shù)變多時,U-Net 的MIoU 很低;而EOU-Net 不僅沒有受太大影響,同時相較于OCRNet 有所提升,MIoU 提高了4.5個百分點。
表5 PASCAL VOC 2012數(shù)據(jù)集上的對比結(jié)果 單位:%Tab.5 Comparison results on PASCAL VOC 2012 dataset unit:%
將EOU-Net、OCRNet 和DeepLabV3+進行可視化分割結(jié)果比較,如圖9 所示。從圖9 中也能更直觀地發(fā)現(xiàn)EOU-Net確實能通過提高邊緣分割精度從而提升網(wǎng)絡(luò)分割準確度。
本文針對胃癌病理圖像特點,改進U-Net 模型的基本結(jié)構(gòu),提出了一種新的EOU-Net 模型。利用EfficientNetV2 的特征提取能力,使編碼器部分能更好地提取胃癌病理圖像復(fù)雜的病變特征;接著,通過改進后的OCR 模塊,讓網(wǎng)絡(luò)在上采樣階段基于物體上下文特征探索像素間的關(guān)系,從而得到更好的邊緣分割結(jié)果;最后,使用TTA 后處理方法,從多個旋轉(zhuǎn)角度分別對輸入圖像進行分割,解決了醫(yī)學圖像數(shù)據(jù)集普遍偏小、容易出現(xiàn)過擬合的問題。在SEED 病理圖像數(shù)據(jù)集、BOT 病理圖像數(shù)據(jù)集以及PASCAL VOC 2012 數(shù)據(jù)集上的結(jié)果表明,本文的EOU-Net 能夠有效提高網(wǎng)絡(luò)分割效果,MIoU分別達到了81.4%、75.4%和76.8%,能為醫(yī)生診斷提供輔助。然而,病理圖像之間分辨率的差距非常大,本文在訓練過程中將圖像尺寸統(tǒng)一縮放到512×512,導(dǎo)致很多特征沒有被充分利用,所以,未來準備在如何充分利用這些特征上作進一步研究。