摘 要:傳統(tǒng)的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)參數(shù)量大、運(yùn)算速度緩慢,不能有效應(yīng)用于即時(shí)檢測(cè)技術(shù)。為解決該問題,提出了一種輕量化的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)SPTFormer。該網(wǎng)絡(luò)構(gòu)建了自分塊Transformer模塊,其通過自適應(yīng)的分塊策略重塑特征圖,利用并行化計(jì)算在提高Attention運(yùn)算速度的同時(shí)關(guān)注局部細(xì)節(jié)特征;還構(gòu)建了SR-CNN模塊,使用平移加復(fù)位操作提升對(duì)局部空間信息的捕獲能力。在ISIC 2018、BUSI、CVC-ClinicDB和2018 data science bowl四個(gè)模態(tài)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與基于Transformer的TransUNet網(wǎng)絡(luò)相比,所提網(wǎng)絡(luò)SPTFormer精度分別提高了4.28%、3.74%、6.50%和1.16%,GPU計(jì)算耗時(shí)降低58%。該網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割應(yīng)用中具有更優(yōu)的性能,可以良好地兼顧網(wǎng)絡(luò)精度和復(fù)雜度,為計(jì)算機(jī)即時(shí)輔助診斷提供了新方案。
關(guān)鍵詞:醫(yī)學(xué)圖像分割; 輕量化網(wǎng)絡(luò); Transformer
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)11-044-3502-07
doi:10.19734/j.issn.1001-3695.2023.11.0634
Medical image segmentation network based on self-partitioning lightweight Transformer
Zhang Wenjiea,b, Song Yantaoa,b?, Wang Keqia,b, Zhang Yueb
(a.Institute of Big Data Science amp; Industry, b.School of Computer amp; Information Technology, Shanxi University, Taiyuan 030006, China)
Abstract:The traditional medical image segmentation network has a large number of parameters and slow computing speed, and cannot applies effectively to the real-time detection technology. To address this issue, this paper proposed a lightweight medical image segmentation network called SPTFormer. Firstly, this network constructed a self-blocking Transformer module, which reshaped the feature map through an adaptive blocking strategy and utilized parallel computing to improve the attention operation speed while paying attention to local detail features. Secondly, this network constructed an SR-CNN module, which used the shift-restored operation to improve the ability to capture local spatial information. By experimenting on ISIC 2018, BUSI, CVC-ClinicDB and 2018 data science bowl, compared with the TransUNet model based on Transformer, the accuracy of the proposed network improves by 4.28%, 3.74%, 6.50%, and 1.16%, respectively, the GPU computation time reduces by 58%. The proposed network has better performance in medical image segmentation applications, which can well balance the network accuracy and complexity, and provides a new solution for real-time computer-aided diagnosis.
Key words:medical image segmentation; lightweight network; Transformer
0 引言
醫(yī)療成像解決方案在疾病診斷和治療中發(fā)揮著關(guān)鍵作用。醫(yī)學(xué)圖像分割是醫(yī)學(xué)成像應(yīng)用中的一個(gè)重要任務(wù),通過自動(dòng)檢測(cè)、提取重要信息和準(zhǔn)確分割病變區(qū)域,為醫(yī)學(xué)診斷提供可靠支持[1],至今已有多種分割網(wǎng)絡(luò)涌現(xiàn)。以U-Net為代表的CNN架構(gòu)網(wǎng)絡(luò)和以ViT(vision Transformer)為代表的Transformer網(wǎng)絡(luò)都致力于通過引入更多的參數(shù)和復(fù)雜操作來提高分割精度。
近年來隨著即時(shí)檢測(cè)(point-of-care-testing,POCT)[2]技術(shù)的不斷完善,對(duì)計(jì)算機(jī)輔助診斷的響應(yīng)時(shí)間提出了較高要求,基于手機(jī)攝像頭的圖像也被用于皮膚狀況的檢測(cè)和診斷[3]。例如,Google Lens推出了實(shí)時(shí)圖像的皮膚健康檢測(cè)功能[4],如圖1(a)所示用戶只需要通過智能手機(jī)拍攝照片來識(shí)別皮膚上的痣或皮疹,而無須提供文本描述。此外,即時(shí)超聲(point-of-care ultrasound,POCUS)[5]作為一種床邊診斷設(shè)備已成為急性醫(yī)學(xué)的有力工具。例如,飛利浦公司推出了便攜式超聲設(shè)備Lumify[6],如圖1(b)所示用戶只需下載App并連接探頭,即可在需要的地點(diǎn)和時(shí)刻進(jìn)行快速超聲掃查診斷。因此,醫(yī)學(xué)輔助診斷設(shè)備正朝著小型化、輕量級(jí)、多場(chǎng)景應(yīng)用的即時(shí)診斷方向發(fā)展。然而大部分網(wǎng)絡(luò)需要幾秒鐘的時(shí)間才能在Tesla P100-PCIE顯卡上處理一張普通圖像,POCUS和手機(jī)等設(shè)備沒有足夠的硬件資源部署如此巨大的算法模型,這嚴(yán)重阻礙著即時(shí)檢測(cè)技術(shù)的進(jìn)步。
為此,業(yè)界涌現(xiàn)出許多輕量化的網(wǎng)絡(luò),這些網(wǎng)絡(luò)大多采用深度可分離卷積(depthwise separable convolution,DSC)[7]和基于MLP(multilayer perceptron)等技術(shù),以減少網(wǎng)絡(luò)復(fù)雜度與參數(shù)量。盡管這些方法已經(jīng)取得了一定的成功,但依舊不能良好地平衡網(wǎng)絡(luò)的性能和參數(shù)量。為提升網(wǎng)絡(luò)精度和降低復(fù)雜度,充分利用CNN的局部性和Transformer的全局性,本文提出了一種基于CNN+Transformer架構(gòu)的輕量化網(wǎng)絡(luò)(self-partitioning Transformer,SPTFormer)。該網(wǎng)絡(luò)在模型復(fù)雜度、參數(shù)量和運(yùn)算速度等方面比基于CNN和Transformer的網(wǎng)絡(luò)更輕量,良好地兼顧了網(wǎng)絡(luò)精度和復(fù)雜度,為計(jì)算機(jī)即時(shí)輔助診斷提供了新方案。
1 相關(guān)工作
自2012年AlexNet[8]憑借CNN(convolutional neural network)贏得ImageNet競(jìng)賽以來,CNN已成為計(jì)算機(jī)視覺領(lǐng)域的主流方法,在醫(yī)學(xué)圖像分析中也取得了顯著成就。其中,U-Net[9]采用對(duì)稱編碼器-解碼器架構(gòu),通過卷積層進(jìn)行特征提取和上采樣,并借助跳躍連接來提高分割精度,被廣泛應(yīng)用于醫(yī)學(xué)圖像分割中,其擴(kuò)展網(wǎng)絡(luò)如U-Net++[10]、RCAR-UNet[11]、FANet[12]以及DCSAU-Net[13]等被相繼提出。其中,U-Net++[10]通過抓取不同層次的特征進(jìn)行整合配合深監(jiān)督在醫(yī)學(xué)圖像分割任務(wù)中取得較好結(jié)果。RCAR-UNet[11]將粗糙通道注意力和殘差UNet相結(jié)合,在眼底視網(wǎng)膜分割中取得較好結(jié)果。FANet[12]利用不同訓(xùn)練階段的信息來改善卷積網(wǎng)絡(luò)的分割性能,在多個(gè)醫(yī)學(xué)圖像分割任務(wù)中取得較好結(jié)果。DCSAU-Net[13]則通過多尺度和深度卷積提取有用特征,在皮膚病等多個(gè)醫(yī)學(xué)圖像數(shù)據(jù)集上獲得了較好的分割性能。雖然CNN已經(jīng)取得了巨大成功,但受限于局部感知的特性,往往需要犧牲模型復(fù)雜度來捕獲更大的感受野和長距離依賴,這嚴(yán)重限制了其在醫(yī)學(xué)圖像分割問題中的臨床應(yīng)用。
近期,受到Transformer在自然語言處理領(lǐng)域成功的啟發(fā)[14],谷歌團(tuán)隊(duì)將Transformer引入計(jì)算機(jī)視覺任務(wù)中提出了ViT網(wǎng)絡(luò)[15],其彌補(bǔ)了CNN在全局感受野和長距離依賴性上的局限性。隨后,Chen等人[16]率先將Transformer應(yīng)用于醫(yī)學(xué)分割任務(wù),發(fā)現(xiàn)Transformer擅長對(duì)全局上下文進(jìn)行建模,但它在捕獲細(xì)粒度細(xì)節(jié)方面顯示出局限性,因此采用CNN+Transformer架構(gòu)來彌補(bǔ)細(xì)節(jié)信息,并在多器官和心臟數(shù)據(jù)集上取得了良好的分割結(jié)果。TransBTS網(wǎng)絡(luò)[17]將Transformer與3D CNN有效結(jié)合實(shí)現(xiàn)了3D腦腫瘤三維分割。DermoSegDiff網(wǎng)絡(luò)[18]提出了一種結(jié)合邊界信息的CNN+Transformer架構(gòu),并將其應(yīng)用在皮膚病檢測(cè)領(lǐng)域,取得了較好的效果。MT-UNet[19]提出一種混合Transformer模塊,通過學(xué)習(xí)樣本內(nèi)和樣本間的關(guān)系,在多器官分割中取得較好性能。Li等人[20]率先將Transformer應(yīng)用在上采樣中,通過關(guān)注淺層網(wǎng)絡(luò)中的局部細(xì)節(jié),在大腦和心臟數(shù)據(jù)集中取得了比較好的結(jié)果。然而,目前基于Transformer的網(wǎng)絡(luò)仍存在計(jì)算量大、position embedding質(zhì)量低、容易忽略局部信息的缺點(diǎn),另一方面,醫(yī)學(xué)圖像由于其自身的成像原理、使得圖像表現(xiàn)出一定的模糊性,且各組織之間邊界不明確,因此使用基于Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)往往由于其對(duì)邊緣信息的忽略導(dǎo)致未能有效提取病灶區(qū)域特征,制約了分割精度。
為了降低模型復(fù)雜度,谷歌團(tuán)隊(duì)提出的MobileNet[7]使用深度可分離卷積來構(gòu)建輕量化深度神經(jīng)網(wǎng)絡(luò),已成為輕量化卷積的經(jīng)典方法。李朝林等人[21]提出的多尺度注意力輕量網(wǎng)絡(luò)模型在眼底圖像多分類任務(wù)中取得了優(yōu)異結(jié)果。Yang等人[22]通過引入兩個(gè)增強(qiáng)的注意力機(jī)制提出了LVT輕量化變壓器網(wǎng)絡(luò),以提升Transformer的運(yùn)算速度。MLP Mixer網(wǎng)絡(luò)[23]使用MLP代替?zhèn)鹘y(tǒng)CNN中的卷積操作和Transformer中的自注意力機(jī)制(self-attention),將卷積和自注意力機(jī)制相融合,取得了與ViT相當(dāng)?shù)男阅?。隨后,AS-MLP[24]對(duì)特征圖的軸向移動(dòng)幫助MLP獲得CNN的局部感受野,在圖像分割任務(wù)中使用更少的參數(shù)達(dá)到了同Transformer相似的性能。S2-MLP網(wǎng)絡(luò)[25]提出一種無參數(shù)的空間位移來實(shí)現(xiàn)特征融合,進(jìn)一步提高了圖像任務(wù)的計(jì)算效率。UNeXt網(wǎng)絡(luò)[26]成功將MLP架構(gòu)應(yīng)用于醫(yī)學(xué)分割領(lǐng)域,用較少的參數(shù)在皮膚病和乳腺超聲數(shù)據(jù)集上取得較好性能,為計(jì)算機(jī)即時(shí)輔助診斷提供了可行性。PHNet[27]提出了一種高效的多層置換感知器模塊,通過保留位置信息來增強(qiáng)原始的MLP,并借助CNN提取局部信息的能力,在多器官和肺炎數(shù)據(jù)集中取得了較好性能。盡管這些方法在降低模型復(fù)雜性方面已經(jīng)取得了一定的成功,但由于其結(jié)構(gòu)簡(jiǎn)單在捕捉局部特征和長距離特征方面存在局限性,導(dǎo)致大多數(shù)方法不能良好平衡網(wǎng)絡(luò)的性能和復(fù)雜度。例如,文獻(xiàn)[13]提出了深度可分離卷積的DCSAU-Net網(wǎng)絡(luò),并進(jìn)行了一定優(yōu)化與改進(jìn),其參數(shù)量?jī)H為2.6 M,但處理一張圖片卻需要934 ms;基于MLP架構(gòu)的UNeXt[26]參數(shù)量?jī)H為1.47 M,處理速度僅8 ms,但其在精度方面表現(xiàn)效果不佳。
綜上,當(dāng)前流行的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)雖然取得了較大進(jìn)展,但不能良好地平衡網(wǎng)絡(luò)復(fù)雜度和分割精度,限制了即時(shí)檢測(cè)技術(shù)在臨床的應(yīng)用。因此,本文提出了一種輕量的基于自分塊Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)SPTFormer,并在四種不同模態(tài)的醫(yī)學(xué)圖像分割領(lǐng)域驗(yàn)證了該網(wǎng)絡(luò)模型的優(yōu)越性和魯棒性。首先,提出了一種自分塊Transformer結(jié)構(gòu),根據(jù)輸入特征圖的尺寸自適應(yīng)沿空間維度進(jìn)行分組,通過矩陣變換的方式將空間與通道維度降維到新的特征圖中,從而實(shí)現(xiàn)運(yùn)算加速。其次,使用線性平移CNN(shift-restored CNN,SR-CNN)模塊代替?zhèn)鹘y(tǒng)CNN模塊進(jìn)行特征提取,使其在深度卷積和點(diǎn)卷積的混合結(jié)構(gòu)上進(jìn)一步增大感受野,并引入一種平移+回滾的操作提升模塊對(duì)局部結(jié)構(gòu)信息的捕獲能力。實(shí)驗(yàn)結(jié)果表明,SPTFormer在準(zhǔn)確度、平均交并比、精度和召回率四個(gè)關(guān)鍵指標(biāo)上均優(yōu)于對(duì)比網(wǎng)絡(luò)。
2 本文網(wǎng)絡(luò)
圖2為本文網(wǎng)絡(luò)的整體架構(gòu),該網(wǎng)絡(luò)采用編碼器-解碼器的網(wǎng)絡(luò)結(jié)構(gòu),在采樣過程中構(gòu)造了SR-CNN模塊和自分塊Transformer模塊,此外還采用通道注意力模塊(squeeze and excitation block,SE-Block)增強(qiáng)特征的表示能力。具體來說,整個(gè)網(wǎng)絡(luò)包含4個(gè)編碼器,每個(gè)編碼器模塊將特征分辨率降低一半。第一個(gè)編碼器模塊后插入SE-block模塊,通過對(duì)特征的通道維度進(jìn)行加權(quán)增強(qiáng)特征的判別性。在其他的編碼器后插入SR-CNN模塊,通過引入一種平移+回滾的操作提升模塊對(duì)特征信息的捕獲能力。為了增強(qiáng)網(wǎng)絡(luò)對(duì)特征全局關(guān)系的建模能力,在第三和四個(gè)編碼器之后插入了自分塊Transformer模塊。其中,自分塊Transformer和SR-CNN模塊將分別在2.1節(jié)和2.2節(jié)進(jìn)行詳細(xì)介紹。解碼器部分,使用與編碼器數(shù)量對(duì)應(yīng)的解碼器,每個(gè)解碼器將特征分辨率提高1倍。第一個(gè)解碼器后插入了SR-CNN模塊和自分塊Transformer模塊,使之形成類似金字塔的結(jié)構(gòu)。
2.1 自分塊Transformer
對(duì)于以ViT為代表的網(wǎng)絡(luò)來說,首先將輸入圖像X∈?H×W×C重塑為Xp∈?N×(P2C)的patch塊,其中,H、W表示原始圖像的分辨率,C表示通道數(shù)量,P為每個(gè)patch塊內(nèi)的分辨率,N為patch塊的數(shù)量。然后使用Transformer模塊學(xué)習(xí)patch間的關(guān)系。其直接作用于整張圖像,能夠較好地捕獲長距離依賴關(guān)系,因此在需要大感受野的檢測(cè)、分割等視覺任務(wù)中表現(xiàn)出色。但此類網(wǎng)絡(luò)忽略了空間局部性,在醫(yī)學(xué)圖像任務(wù)中容易丟失特有的微小病灶信息,且將輸入圖像patch化的過程中,圖像內(nèi)部結(jié)構(gòu)信息容易被破壞。同時(shí)Transformer中的self-attention計(jì)算量大,復(fù)雜度高,因此基于Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)往往需要消耗巨大硬件資源與更多的數(shù)據(jù)集才能達(dá)到較好的效果。
為了克服以上問題,本文提出了一種自分塊Transformer結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先對(duì)輸入圖像在attention操作之前引入分塊策略,沿著空間,即“寬高”維度進(jìn)行分塊,具體如圖4所示。其中圖4(a)為輸入的特征圖,圖4(b)為本文網(wǎng)絡(luò)的分組特征圖,數(shù)字表示所標(biāo)記特征圖的序號(hào)。其分塊公式計(jì)算如下:
g=2「log2(max(log2(H×WC),1))?(1)
其中:g是針對(duì)原始圖像分辨率維度的分塊數(shù)量,此時(shí)輸入圖像X∈?H×W×C依據(jù)尺寸動(dòng)態(tài)重塑為Xg∈?G×HWG×C。其目的是對(duì)輸入圖像在空間維度上進(jìn)行分塊和降維,盡可能使得“寬高”維度與通道維度相接近,即將一個(gè)大的輸入特征拆分成多個(gè)“正方形”特征進(jìn)而有效減少attention中乘法運(yùn)算的矩陣尺寸,從而加速運(yùn)算。而且,通過分塊能阻隔塊間的特征計(jì)算,從而幫助自分塊Transformer關(guān)注局部信息。此外,這種分塊和降維的策略還能夠限制每個(gè)塊內(nèi)的特征數(shù)量,因而無須對(duì)圖像patch化,可以避免信息的丟失。
當(dāng)“寬高”維度小于等于通道維時(shí),自分塊Transformer結(jié)構(gòu)將不再對(duì)“寬高”維度進(jìn)行分塊,轉(zhuǎn)而對(duì)通道維度進(jìn)行分塊,即類似于multi-head attention策略,但是會(huì)動(dòng)態(tài)地對(duì)頭數(shù)heads進(jìn)行調(diào)整,在保留傳統(tǒng)Transformer捕獲全局依賴特性的同時(shí)提高運(yùn)算速度。動(dòng)態(tài)頭數(shù)heads的計(jì)算公式如下:
h=max(CH×W,1)(2)
其中:h表示動(dòng)態(tài)頭數(shù)。隨后,將分塊后的特征圖輸入到self-attention中,如式(3)所示。
self-attention(Q,K,V)=softmax(QKTdk)V(3)
接下來,使用兩個(gè)全連接層將特征放大3倍后還原,以豐富特征表示。此外,本文還在每個(gè)自分塊Transformer的末尾插入了SE-block模塊,如圖2所示。SE-block[28]是一種用于CNN中的注意力機(jī)制模塊,該模塊通過特征的通道維度進(jìn)行加權(quán),進(jìn)一步增強(qiáng)特征的判別性,有助于提高SPTFormer的表現(xiàn)力和泛化性能。該網(wǎng)絡(luò)中的自分塊Transformer模塊會(huì)在空間維度進(jìn)行分組,在通道維度進(jìn)行計(jì)算,因此在模塊末尾加入通道注意力比空間注意力更有意義,而且SE-block十分輕量,幾乎不會(huì)為網(wǎng)絡(luò)增加額外的計(jì)算成本。綜上,自分塊Transformer的計(jì)算流程如算法1所示。
算法1 自分塊Transformer
輸入:特征圖(F)(batch_size,channel,height,width)。
輸出:特征圖(F′) (batch_size,channel,height, width)。
a) 根據(jù)式(1)計(jì)算分塊數(shù)量g
b) 根據(jù)式(2)計(jì)算頭數(shù)h
c) if 寬高維度 gt;= 通道維度
d)F更新為(batch_size, (G_h G_w), (height weight), channel)
e) else if寬高維度 lt; 通道維度:
f)F更新為(batch_size, heads, (height weight), channel)
g) for 每個(gè)組 do
h)計(jì)算Q,K,V
i)根據(jù)式(3)計(jì)算self-attention(Q,K,V)
j)通過feed forward進(jìn)行兩次線性變換
k)F更新為(batch_size, channel, height, width)
l)計(jì)算通道注意力SE-block,并與特征圖殘差連接
m)return F'
得益于這種動(dòng)態(tài)的分塊策略,本文提出的分塊Transformer可以輕易地嵌入任何一層。經(jīng)過多次實(shí)驗(yàn),本文將自分塊Transformer模塊嵌入到網(wǎng)絡(luò)模型第三和四層中。第三層中的自分塊Transformer通過式(1)捕獲塊內(nèi)全局特征,第四層中的自分塊Transformer通過式(2)捕獲圖像的全局特征。
為了進(jìn)一步分析網(wǎng)絡(luò)模型的有效性,對(duì)比了自分塊后self-attention與傳統(tǒng)方法中Q、K、V計(jì)算的復(fù)雜度,假設(shè)輸入特征圖Xf∈?H×W×C,其復(fù)雜度對(duì)比情況如表1所示。
通過表1得知,當(dāng)輸入圖像的尺寸H、W與通道數(shù)C之間的差異越大時(shí),自分塊Transformer降低模型復(fù)雜度的效果就越顯著。醫(yī)學(xué)圖像通常具有高分辨率且分割目標(biāo)較少的特點(diǎn),自分塊Transformer的應(yīng)用有助于網(wǎng)絡(luò)在有限的特征中獲取高質(zhì)量的信息。此外,降低通道數(shù)量是降低模型復(fù)雜度的關(guān)鍵因素。因此,自分塊Transformer更適用于設(shè)計(jì)輕量高效的醫(yī)學(xué)分割網(wǎng)絡(luò),尤其在需要即時(shí)檢測(cè)技術(shù)的場(chǎng)景中能充分發(fā)揮其優(yōu)勢(shì)。
2.2 SR-CNN
CNN固有的歸納偏置平移不變性和局部相關(guān)性是視覺Transformer結(jié)構(gòu)所缺少的特性,這導(dǎo)致了Transformer通常需要更大的數(shù)據(jù)量才能超越CNN,基于此,SPTFormer使用CNN作為基礎(chǔ)的特征提取器。受Google提出的深度可分離卷積[7]的啟發(fā),本文提出了基于深度可分離卷積結(jié)構(gòu)SR-CNN,使用DSC代替?zhèn)鹘y(tǒng)卷積,并通過滑動(dòng)窗口兩次平移操作捕獲位置和局部結(jié)構(gòu)信息,最后引入h-swish激活函數(shù)。SR-CNN作為網(wǎng)絡(luò)的基礎(chǔ)模塊更側(cè)重于捕獲局部特征,這些局部特征將在后續(xù)的自分塊Transformer模塊中被全局分析,具體結(jié)構(gòu)如圖5所示。
與DSC類似,SR-CNN同樣采用了深度可分離卷積結(jié)構(gòu),將逐通道卷積(depthwise convolution,DW)提取的高層級(jí)特征與逐點(diǎn)卷積(pointwise convolution,PW)提取的低層級(jí)特征相結(jié)合,相比于普通卷積具有較高的計(jì)算效率。此外,為了捕獲位置信息,SR-CNN模塊在兩次DW卷積操作之前,增加了兩個(gè)線性平移操作,即沿著空間維度對(duì)特征圖進(jìn)行平移。a)第一次平移是錯(cuò)位平移:將特征圖分成5組,向不同方向平移,新的特征圖為后續(xù)的DW卷積提供了位置信息和相鄰的特征信息,這有助于網(wǎng)絡(luò)識(shí)別病灶邊緣,對(duì)醫(yī)學(xué)圖像分割任務(wù)十分重要;b)第二次平移是復(fù)位平移,這次平移可以保證卷積模塊的平移不變性不被破壞。特別說明的是,移動(dòng)會(huì)對(duì)特征圖造成一定程度的位置擾動(dòng),其擾動(dòng)程度取決于平移量和所在網(wǎng)絡(luò)層級(jí)。在深層網(wǎng)絡(luò)中,經(jīng)過多輪的下采樣,即使平移量設(shè)置為1或2,對(duì)特征圖的影響也可能是巨大的,因此在本文網(wǎng)絡(luò)中,為了泛化不同數(shù)據(jù)集的性能,將平移量設(shè)計(jì)為超參數(shù)。同時(shí),大尺寸DW卷積核可以保證CNN的局部相關(guān)性得到更充分的發(fā)揮,并且對(duì)網(wǎng)絡(luò)運(yùn)算速度影響較小。為此本文網(wǎng)絡(luò)在DW卷積中使用了較大的7×7卷積核,并使用h-swish激活函數(shù)代替ReLU。其中,h-swish是swish的一種計(jì)算高效的近似方法,但比ReLU具有更好的性能。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集描述
為了驗(yàn)證本文網(wǎng)絡(luò)的有效性,在四種不同模態(tài)的公開醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),皮膚?。↖SIC 2018)[29]、乳房超聲圖像(BUSI)[30]、息肉(CVC-ClinicDB)[31]和細(xì)胞核(2018 data science bowl)[32]數(shù)據(jù)集。ISIC 2018由2 594個(gè)皮膚癌樣本組成,每個(gè)樣本包含皮膚病學(xué)圖像和相應(yīng)的皮膚病變區(qū)域分割圖。BUSI由正常、良性和惡性乳腺癌癥病例的超聲圖像以及相應(yīng)的分割圖組成,本文使用了其中良性和惡性的圖像共647例。CVC-ClinicDB包含612個(gè)來自29個(gè)不同的內(nèi)窺鏡視頻片段中的息肉圖像,結(jié)腸直腸息肉是結(jié)腸和直腸中的癌癥前兆之一,它大大增加了通過早期檢測(cè)避免致命癌癥的機(jī)會(huì)。2018 data science bowl包含670個(gè)自動(dòng)化細(xì)胞核圖像,該數(shù)據(jù)集有利于發(fā)現(xiàn)細(xì)胞對(duì)各種治療方法的反映,了解潛在生物學(xué)過程。在實(shí)驗(yàn)中首先將圖像分辨率調(diào)整為256×256。隨后,將數(shù)據(jù)集按8∶1∶1的比例隨機(jī)拆分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。最后,根據(jù)樣本數(shù)量不同,從隨機(jī)亮度、對(duì)比度、高斯噪聲、銳化、平移、旋轉(zhuǎn)和縮放等數(shù)據(jù)增強(qiáng)中隨機(jī)選取幾種對(duì)訓(xùn)練集進(jìn)行增廣。具體如表2所示。
3.2 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)標(biāo)準(zhǔn)
本文實(shí)驗(yàn)基于PyTorch框架實(shí)現(xiàn),開發(fā)環(huán)境為Ubuntu并配備1張Tesla P100-PCIE顯卡。設(shè)置batch size為30,從頭開始訓(xùn)練300個(gè)epoch。所有網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.005,本文采用AdamW優(yōu)化器來訓(xùn)練網(wǎng)絡(luò),每次迭代的衰減為0.000 1。將數(shù)據(jù)集中的給定分割圖作為標(biāo)準(zhǔn)分割結(jié)果,使用dice和交叉熵的混合損失,損失函數(shù)L定義為
L=0.5BCE(,y)+dice(,y)(4)
其中:y是標(biāo)準(zhǔn)值;是預(yù)測(cè)值。
采用dice系數(shù)(dice coefficient)、IoU(intersection over union)、精度(precision)和召回率(recall)作為網(wǎng)絡(luò)性能的評(píng)價(jià)依據(jù)。各指標(biāo)計(jì)算公式具體如下:
dice=2TP2TP+FP+FN(5)
IoU=TPTP+FP+FN(6)
precision=TPTP+FP(7)
Recall=TP/TP+FN(8)
其中:TP(true positive)為預(yù)測(cè)正確的正樣本;TN(true negative)為預(yù)測(cè)正確的負(fù)樣本;FP(1 positive)為預(yù)測(cè)錯(cuò)誤的正樣本;FN(1 negative)為預(yù)測(cè)錯(cuò)誤的負(fù)樣本。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 網(wǎng)絡(luò)精度對(duì)比
首先,選擇在即時(shí)檢測(cè)設(shè)備上得到廣泛應(yīng)用的ISIC 2018和BUSI數(shù)據(jù)集上與不同架構(gòu)的骨干網(wǎng)絡(luò)進(jìn)行比較。分別選用了基于CNN骨干網(wǎng)絡(luò)的U-Net[9]、FANet[12]、DCSAU-Net[13]、MSRF-Net[33],基于Transformer和MLP的骨干網(wǎng)絡(luò)分別選擇了前沿的TransUNet[16]、DermoSegDiff[18]和UNeXt[26]。其中,F(xiàn)ANet、DCSAU-Net、DermoSegDiff是專門針對(duì)ISIC 2018數(shù)據(jù)集開發(fā)的最新網(wǎng)絡(luò)。
在ISIC 2018數(shù)據(jù)集上的對(duì)比結(jié)果如表3所示。其中,黑色加粗字體表示最優(yōu)結(jié)果,下畫線字體表示次優(yōu)結(jié)果。從表3中可以看出,SPTFormer在分割性能方面優(yōu)于所有基線網(wǎng)絡(luò),在dice、IoU、precision和recall得分方面分別優(yōu)于第二名1.15、1.10、1.66、0.61百分點(diǎn)。
上述網(wǎng)絡(luò)在ISIC 2018上的分割結(jié)果如圖6所示。其中,第一列是輸入圖像,第二列是真實(shí)分割結(jié)果,最后一列為本文網(wǎng)絡(luò)分割結(jié)果,中間其余列則展示了不同網(wǎng)絡(luò)的分割結(jié)果。本文通過紅色線條勾勒了真實(shí)分割結(jié)果的輪廓,通過綠色線條描繪了網(wǎng)絡(luò)預(yù)測(cè)的分割結(jié)果輪廓(參見電子版)。當(dāng)真實(shí)輪廓和預(yù)測(cè)輪廓重疊時(shí),使用較亮的灰白色來填充分割背景。由圖6可以看出,在第一和二行皮膚病變圖像中,即使病變區(qū)域的邊緣輪廓模糊不清,本文所提出的網(wǎng)絡(luò)依舊展現(xiàn)出了較高的水準(zhǔn),分割結(jié)果與標(biāo)準(zhǔn)分割結(jié)果更為接近。
由于FANet和DCSAU-Net是專門為ISIC 2018設(shè)計(jì)的網(wǎng)絡(luò),所以在BUSI數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)中,將其替換為新的基線網(wǎng)絡(luò)U-Net++[10]和專門為BUSI數(shù)據(jù)集設(shè)計(jì)的CMU-Net[34]。結(jié)果如表4所示,與表3類似采用黑色加粗字體表示最優(yōu)結(jié)果,下畫線字體表示次優(yōu)結(jié)果。從表4可以看出,SPTFormer在細(xì)分性能方面同樣優(yōu)于所有基線網(wǎng)絡(luò)。在dice、IoU、precision和recall得分方面,與第二名相比,SPTFormer分別提高了3.74、3.52、3.77和4.89百分點(diǎn)。
表4中各網(wǎng)絡(luò)在BUSI數(shù)據(jù)集上的分割結(jié)果如圖7所示。其中,第一行乳腺病變圖像中,基于CNN的網(wǎng)絡(luò)架構(gòu)容易受到感受野的限制,從而無法充分考慮病變區(qū)域,相比之下,本文網(wǎng)絡(luò)可以充分考慮全局信息,從而較好地分割出病變區(qū)域。在第二行圖像中,基于Transformer的TransUNet由于過度關(guān)注全局信息,導(dǎo)致誤判的可能性增加。而SPTFormer不僅可以通過增大卷積核來彌補(bǔ)CNN模塊感受野不足的問題,還通過動(dòng)態(tài)限制Transformer模塊的感受野來解決局部信息不足的挑戰(zhàn),這使得網(wǎng)絡(luò)能夠更完整地分割出病變區(qū)域。
為進(jìn)一步驗(yàn)證網(wǎng)絡(luò)的泛化性能,本文在CVC-ClinicDB和2018 data science bowl兩種不同模態(tài)的數(shù)據(jù)集上進(jìn)行了進(jìn)一步的對(duì)比實(shí)驗(yàn),結(jié)果如表5所示。需要特別指出的是,UACANet[35]是一種專門針對(duì)息肉設(shè)計(jì)的分割網(wǎng)絡(luò)。
從表5可以看出,SPTFormer在新的數(shù)據(jù)集中依舊表現(xiàn)出較高水平。在CVC-ClinicD數(shù)據(jù)集上,本文網(wǎng)絡(luò)在dice和IoU指標(biāo)上分別優(yōu)于第二名專門針對(duì)該數(shù)據(jù)集的網(wǎng)絡(luò)UACANet 2.31和1.99百分點(diǎn),驗(yàn)證了本文網(wǎng)絡(luò)在該數(shù)據(jù)集上的有效性。在2018 data science bowl數(shù)據(jù)集上,本文網(wǎng)絡(luò)同樣取得了較好的分割結(jié)果,在dice、IoU和recall指標(biāo)上分別領(lǐng)先第二名0.34、0.25和0.46百分點(diǎn),進(jìn)一步驗(yàn)證了本文網(wǎng)絡(luò)的泛化性和魯棒性。
3.3.2 網(wǎng)絡(luò)復(fù)雜性分析
為了驗(yàn)證SPTFormer在模型復(fù)雜度方面的優(yōu)勢(shì),對(duì)網(wǎng)絡(luò)的參數(shù)量、復(fù)雜度和GPU運(yùn)算速度進(jìn)行了實(shí)驗(yàn),結(jié)果如表6所示。
運(yùn)算速度(time)是通過向網(wǎng)絡(luò)輸入100組256×256的三通道隨機(jī)矩陣,統(tǒng)計(jì)在GPU下的平均運(yùn)算速度。由表6可知,在模型復(fù)雜度方面,本文網(wǎng)絡(luò)僅次于基于MLP架構(gòu)的UNeXt,但是遠(yuǎn)高于基于CNN和Transformer的網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò),對(duì)比同架構(gòu)的TransUNet,本文網(wǎng)絡(luò)的參數(shù)量下降了97%,計(jì)算耗時(shí)降低58%。這是由于MLP架構(gòu)省去了Q、K、V的計(jì)算,所以在復(fù)雜度方面表現(xiàn)更好,但由于缺乏長距離依賴,導(dǎo)致其性能表現(xiàn)不佳。綜合考慮可知,SPTFormer在模型復(fù)雜度方面與MLP架構(gòu)相當(dāng),在分割精度方面遠(yuǎn)高于MLP架構(gòu)的網(wǎng)絡(luò),能夠更好地平衡算法的性能與復(fù)雜性。
4 結(jié)束語
針對(duì)CNN和Transformer在醫(yī)學(xué)圖像中分割精度低且算法復(fù)雜度高的問題,本文將CNN和Transformer相結(jié)合,提出了一種基于自分塊Transformer的輕量化醫(yī)學(xué)圖像分割網(wǎng)絡(luò)SPTFormer。在自分塊Transformer中,通過分塊并行計(jì)算的方式,在加速運(yùn)算的同時(shí)幫助Transformer捕獲局部信息;在SR-CNN中,通過平移加復(fù)位的滑動(dòng)窗口操作,進(jìn)一步提升網(wǎng)絡(luò)對(duì)局部空間信息的捕獲能力。對(duì)比實(shí)驗(yàn)結(jié)果表明,本文SPTFormer在捕獲全局信息和局部病灶方面具有優(yōu)勢(shì),在多種模態(tài)的醫(yī)學(xué)圖像數(shù)據(jù)集上均展現(xiàn)了較高的分割精度,驗(yàn)證了本文網(wǎng)絡(luò)的泛化性。通過實(shí)驗(yàn)證明了SPTFormer具有與MLP相當(dāng)?shù)倪\(yùn)算速度,考慮到即時(shí)超聲和手機(jī)攝像頭等多種即時(shí)輔助診斷設(shè)備,如何有效整合不同設(shè)備獲得的信息,提高網(wǎng)絡(luò)在多場(chǎng)景應(yīng)用中的性能,探索多模態(tài)信息的融合,是未來工作的重要研究?jī)?nèi)容。
參考文獻(xiàn):
[1]Deheyab A O A, Alwan M H, Rezzaqe I A, et al. An overview of challenges in medical image processing[C]//Proc of the 6th International Conference on Future Networks amp; Distributed Systems. New York: ACM Press, 2022: 511-516.
[2]張利偉, 朱立紅, 樊綺詩. POCT的發(fā)展及臨床應(yīng)用[J]. 診斷學(xué)理論與實(shí)踐, 2004(4): 89-90. (Zhang Liwei, Zhu Lihong, Fan Qishi. Development and clinical application of POCT[J]. Diagnostics Theory and Practice, 2004(4): 89-90.)
[3]熊月玲, 葉明全, 姚傳文, 等. 基于移動(dòng)醫(yī)療的皮膚病輔助診斷系統(tǒng)[J]. 中國數(shù)字醫(yī)學(xué), 2019, 14(11): 21-23. (Xiong Yue-ling, Ye Mingquan, Yao Chuanwen, et al. Dermatology auxiliary diagnosis system based on mobile medicine[J]. Digital Medicine in China, 2019, 14(11): 21-23.)
[4]Peggy B M, Liu Yuan. Google lens[EB/OL]. (2021-05-18). https://blog.google/technology/health/ai-dermatology-preview-io-2021/.
[5]徐崢嶸, 張娜雯, 張耀. 肺部超聲POCUS方案監(jiān)測(cè)肺水腫的可行性評(píng)價(jià)[J]. 中國循證心血管醫(yī)學(xué)雜志, 2018, 10(6): 702-705. (Xu Zhengrong, Zhang Nawen, Zhang Yao. Evaluation of the feasibility of the pulmonary ultrasound POCUS protocol for monitoring pulmonary edema[J].Chinese Journal of Evidence-based Cardio-vascular Medicine, 2018, 10(6): 702-705.)
[6]Butterfly Network Inc.. Connected medicine[EB/OL]. [2024-01-09]. https://www.butterflynetwork.com/iq.
[7]Howard A G, Zhu Menglong, Chen Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17). https://arxiv.org/abs/1704.04861.
[8]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[9]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.
[10]Zhou Zongwei, Siddiquee M M R, Tajbakhsh N, et al. UNet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Trans on Medical Imaging, 2020, 39(6): 1856-1867.
[11]孫穎, 丁衛(wèi)平, 黃嘉爽, 等. RCAR-UNet: 基于粗糙通道注意力機(jī)制的視網(wǎng)膜血管分割網(wǎng)絡(luò)[J]. 計(jì)算機(jī)研究與發(fā)展, 2023, 60(4): 947-961. (Sun Ying, Ding Weiping, Huang Jiashuang, et al. RCAR-UNet: retinal vascular segmentation network based on coarse channel attention mechanism[J]. Computer Research and Deve-lopment, 2023, 60(4): 947-961.)
[12]Tomar N K, Jha D, Riegler M A, et al. FANet: a feedback attention network for improved biomedical image segmentation[J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34(11): 9375-9388.
[13]Xu Qing, Ma Zhicheng, He Na, et al. DCSAU-Net: a deeper and more compact split-attention U-Net for medical image segmentation[J]. Computers in Biology and Medicine, 2023, 154: article ID 106626.
[14]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[15]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2020-10-22). https://arxiv.org/abs/2010.11929.
[16]Chen Jieneng, Lu Yongyi, Yu Qihang, et al. TransUNet: transfor-mers make strong encoders for medical image segmentation[EB/OL]. (2021-02-08). https://arxiv.org/abs/2102.04306.
[17]Wang Wenxuan, Chen Chen, Ding Meng, et al. TransBTS: multimodal brain tumor segmentation using Transformer[C]//Proc of Medical Image Computing and Computer Assisted Intervention. Berlin: Springer, 2021: 109-119.
[18]Bozorgpour A, Sadegheih Y, Kazerouni A, et al. DermoSegDiff: a boundary-aware segmentation diffusion model for skin lesion delineation[C]//Proc of International Workshop on Predictive Intelligence In Medicine. Cham: Springer, 2023: 146-158.
[19]Wang Hongyi, Xie Shiao, Lin Lanfen, et al. Mixed Transformer U-Net for medical image segmentation[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE Press, 2022: 2390-2394.
[20]Li Yijiang, Cai Wentian, Gao Ying, et al. More than encoder: introducing Transformer decoder to upsample[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Piscataway, NJ: IEEE Press, 2022: 1597-1602.
[21]李朝林, 張榮芬, 劉宇紅. 融入多尺度雙線性注意力的輕量化眼底疾病多分類網(wǎng)絡(luò)[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(7): 2183-2189,2195. (Li Chaolin, Zhang Rongfen, Liu Yuhong. Lightweight fundus disease multi-classification network with multi-scale bilinear attention[J]. Application Research of Computers, 2022, 39(7): 2183-2189,2195.)
[22]Yang Chenglin, Wang Yilin, Zhang Jianming, et al. Lite vision Transformer with enhanced self-attention[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11998-12008.
[23]Tolstikhin I O, Houlsby N, Kolesnikov A, et al. MLP-Mixer: an all-MLP architecture for vision[J]. Advances in Neural Information Processing Systems, 2021, 34: 24261-24272.
[24]Lian Dongze, Yu Zehao, Sun Xing, et al. AS-MLP: an axial shifted MLP architecture for vision[EB/OL]. (2021-07-15). https://arxiv.org/abs/2107.08391.
[25]Yu Tan, Li Xu, Cai Yunfeng, et al. S2-MLP: spatial-shift MLP architecture for vision[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2022: 297-306.
[26]Valanarasu J M J, Patel V M. UNeXt: MLP-based rapid medical image segmentation network[C]//Proc of Medical Image Computing and Computer Assisted Intervention. Cham: Springer, 2022: 23-33.
[27]Lin Yi, Fang Xiao, Zhang Dong, et al. Boosting convolution with efficient MLP-Permutation for volumetric medical image segmentation [EB/OL]. (2023-05-23). https://arxiv.org/abs/2303.13111.
[28]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 7132-7141.
[29]Codella N C F, Gutman D, Celebi M E, et al. Skin lesion analysis toward melanoma detection: a challenge at the 2017 international symposium on biomedical imaging(ISBI), hosted by the international skin imaging collaboration(ISIC)[C]//Proc of the 15th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE Press, 2018: 168-172.
[30]Al-Dhabyani W, Gomaa M, Khaled H, et al. Dataset of breast ultrasound images[J]. Data in Brief, 2020, 28: article ID 104863.
[31]Bernal J, Sánchez F J, Fernández-Esparrach G, et al. WM-DOVA maps for accurate polyp highlighting in colonoscopy: validation vs. saliency maps from physicians[J]. Computerized Medical Imaging and Graphics, 2015, 43: 99-111.
[32]Caicedo J C, Goodman A, Karhohs K W, et al. Nucleus segmentation across imaging experiments: the 2018 data science bowl[J]. Nature Methods, 2019, 16(12): 1247-1253.
[33]Srivastava A, Jha D, Chanda S, et al. MSRF-Net: a multi-scale residual fusion network for biomedical image segmentation[J]. IEEE Journal of Biomedical and Health Informatics, 2021, 26(5): 2252-2263.
[34]Tang Fenghe, Wang Lingtao, Ning Chunping, et al. CMU-Net: a strong convmixer-based medical ultrasound image segmentation network[C]//Proc of the 20th International Symposium on Biomedical Imaging. Piscataway, NJ: IEEE Press, 2023: 1-5.
[35]Kim T, Lee H, Kim D. UACANet: uncertainty augmented context attention for polyp segmentation[C]//Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press, 2021: 2167-2175.