摘 要:針對TransUNet中Transformer自注意力機(jī)制計(jì)算復(fù)雜度高、捕獲位置信息能力不足的問題,提出一種基于軸向注意力機(jī)制的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)Axial-TransUNet。該網(wǎng)絡(luò)在保留TransUNet網(wǎng)絡(luò)編碼器、解碼器以及跳躍連接的基礎(chǔ)上,使用基于軸向注意力機(jī)制的殘差軸向注意力塊代替TransUNet的Transformer層。實(shí)驗(yàn)結(jié)果表明,在多個醫(yī)學(xué)數(shù)據(jù)集上,相較于TransUNet等其他醫(yī)學(xué)圖像分割網(wǎng)絡(luò),Axial-TransUNet的Dice系數(shù)、交并比IoU有更好的表現(xiàn)。與TransUNet相比,Axial-TransUNet網(wǎng)絡(luò)的參數(shù)量與浮點(diǎn)運(yùn)算數(shù)(FLOPs)分別降低14.9%和30.5%。可見,Axial-TransUNet有效降低了模型復(fù)雜度,并增強(qiáng)了模型捕獲位置信息的能力。
關(guān)鍵詞:醫(yī)學(xué)圖像分割;卷積神經(jīng)網(wǎng)絡(luò);位置信息;計(jì)算復(fù)雜度;軸向注意力機(jī)制
中圖分類號:TP183;TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)16-0028-06
Axial-TransUNet of Medical Image Segmentation Model Based on Axis-Transformer
Abstract: A medical image segmentation network Axial-TransUNet based on Axial Attention Mechanism is proposed to address the issues of high computational complexity and insufficient ability to capture positional information in the Transformer Self-Attention Mechanism in TransUNet. On the basis of retaining the TransUNet network encoder, decoder, and skip connections, this network uses residual axial attention blocks based on Axial Attention Mechanism to replace the Transformer layer of TransUNet. The experimental results show that compared to other medical image segmentation networks such as TransUNet, Axial TransUNet performs better in Dice coefficient and intersection union ratio on multiple medical datasets. Compared with TransUNet, the parameter count and FLOPs of the Axial TransUNet network are reduced by 14.9% and 30.5%, respectively. It can be seen that Axial TransUNet effectively reduces model complexity and enhances the model's ability to capture positional information.
Keywords: medical image segmentation; Convolutional Neural Networks; positional information; computational complexity; Axial Attention Mechanism
0 引 言
傳統(tǒng)的人工醫(yī)學(xué)圖像識別通常依賴于專業(yè)醫(yī)生的經(jīng)驗(yàn)和主觀判斷,且難適應(yīng)大規(guī)模數(shù)據(jù)集和復(fù)雜的疾病模式。因此,深度學(xué)習(xí)在醫(yī)學(xué)圖像分析方面的應(yīng)用具有重要意義。
在醫(yī)學(xué)圖像分割任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks, CNNs)特別是全卷積網(wǎng)絡(luò)(FullyConvolutionalNetworks, FCNs)[1],憑借其優(yōu)異的分割性能占據(jù)了主導(dǎo)地位。以U-Net [2]為代表的經(jīng)典U型結(jié)構(gòu)是最為流行和廣泛使用的結(jié)構(gòu)之一。U-Net主要由對稱的編碼器和解碼器組成,結(jié)合跳躍連接避免下采樣過程中的信息丟失。U-Net的變體主要有UNet++ [3]、UNet 3+ [4]、Res-UNet [5]、ResUNet++ [6]、3D U-Net [7]、Attention U-Net [8]等,這些模型均在不同的醫(yī)學(xué)圖像分割任務(wù)上展示了優(yōu)異的性能。
然而,由于卷積運(yùn)算的內(nèi)在局部性,它們捕獲長距離依賴的能力不足,無法很好地利用全局信息。為了克服這一局限性,Wang [9]等人提出建立基于CNN特征的自我注意力機(jī)制,通過非局部操作捕獲長期依賴,增大模型感受野。此外,為序列建模而設(shè)計(jì)的Transformer在自然語言處理領(lǐng)域(NLP)取得良好成效。受此啟發(fā),研究人員將其應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域。為使Transformer適用于計(jì)算機(jī)視覺任務(wù),研究人員對其進(jìn)行了一些修改。例如,Parmar等人[10]在每個查詢像素的局部鄰域中應(yīng)用自關(guān)注;Child等人[11]提出稀疏變換器,采用全局自關(guān)注的可擴(kuò)展近似;Dosovitski等人[12]提出的Vision Transformer將圖像塊的線性嵌入式序列作為Transformer的輸入,使具有全局自關(guān)注的注意力機(jī)制直接應(yīng)用于全尺寸圖像,是當(dāng)時(shí)ImageNet分類的最先進(jìn)技術(shù)。然而,純Transformer方法會帶來特征損失等問題,所以建立基于CNN和Transformer相結(jié)合的網(wǎng)絡(luò)架構(gòu)受到了廣泛的關(guān)注。例如,Yao等人[13]所提出的Transclaw U-Net在編碼器部分將卷積和Transformer結(jié)合,分別用于提取淺層特征和全局信息;Xu等人[14]提出的LeViT-UNet結(jié)合了LeViT的全局感知能力和UNet的分割能力,生成精確的分割結(jié)果。其中,Chen [15]等人提出的TransUNet使用CNN和Transformer的混合編碼器結(jié)構(gòu),結(jié)合CNN對局部細(xì)節(jié)信息以及Transformer對全局信息的提取優(yōu)勢來提升分割精度,取得了優(yōu)異表現(xiàn)。TransUNet [15]編碼器部分的Transformer建立在VisionTransformer(ViT)之上,Vision Transformer基于全局自注意力機(jī)制提取注意力,其計(jì)算的注意力矩陣大小與輸入序列長度成平方關(guān)系,需要消耗大量的內(nèi)存與計(jì)算資源,所以TransUNet在處理較大數(shù)據(jù)時(shí)存在一定的局限性。同時(shí),ViT所采用的自注意力機(jī)制會將輸入序列中的所有位置進(jìn)行交互和整合,而不考慮位置之間的差異,這可能導(dǎo)致一些細(xì)節(jié)信息在編碼過程中被模糊化或丟失。為解決上述問題,Wang [16]等人提出軸向注意力機(jī)制,在保持全局感受野的前提下,將2D注意力按高度軸和寬度軸順序分解為兩個1D注意力,有效降低了參數(shù)量,彌補(bǔ)了自注意力機(jī)制的不足。同時(shí),軸向注意力機(jī)制引入更加精確的位置編碼,使注意模型對位置更加敏感并具有邊際成本。此外,研究人員還將軸向注意力模塊引入殘差結(jié)構(gòu)中形成殘差軸向注意力塊,進(jìn)一步提升分割精度。
為解決TransUNet參數(shù)量大、計(jì)算復(fù)雜度高以及對位置信息交互能力差的問題,本文提出Axial-TransUNet解決了這些問題帶來的局限性。Axial-TransUNet將基于軸向注意力機(jī)制的殘差軸向注意力塊應(yīng)用于軸-Transformer部分,建立CNN和軸-Transformer混合編碼器架構(gòu),在保證較大感受野的前提下實(shí)現(xiàn)復(fù)雜度的降低,同時(shí)增強(qiáng)模型捕獲位置信息的能力。在多個醫(yī)學(xué)圖像數(shù)據(jù)集上與有代表性的算法進(jìn)行評估,Axial-TransUNet表現(xiàn)出了不錯的性能。
1 相關(guān)工作
1.1 CNN與Transformer結(jié)合
以U-Net為代表的卷積神經(jīng)網(wǎng)絡(luò)存在感受野較小、捕捉長距離依賴不足的問題。受NLP中Transformer的啟發(fā),Dosovitski等人[12]提出的Vision Transformer將圖像拆分為塊,并提供這些塊的線性嵌入序列作為Transformer的輸入,利用其捕獲長距離依賴的優(yōu)勢克服了這一局限性。然而,純Transformer仍存在特征損失的問題。為解決上述問題,Chen等人[15]提出的TransUNet采用CNN與Transformer相結(jié)合的U型結(jié)構(gòu),將兩者的優(yōu)勢結(jié)合起來并取得優(yōu)異的性能。其中,編碼器部分的Transformer建立在Vision Transformer之上,將來自CNN特征映射的標(biāo)記化圖像塊編碼處理成用于提取全局上下文的輸入序列。然而,由于Vision Transformer中自注意力機(jī)制是全局的,注意力矩陣大小與輸入序列長度成平方關(guān)系,所以TransUNet的計(jì)算復(fù)雜度較高。同時(shí),自注意力機(jī)制在計(jì)算注意力權(quán)重時(shí),只考慮了特征本身的相似性,而忽略了位置信息。這可能導(dǎo)致在某些任務(wù)中,模型無法準(zhǔn)確地捕捉到物體的準(zhǔn)確位置。
1.2 軸向注意力機(jī)制
Wang等人[16]提出的軸向注意力機(jī)制是一種具有全局感受野的獨(dú)立自注意力機(jī)制,其核心思想是將2D注意力分解為兩個1D注意力模塊,第一個模塊在特征圖高度軸上進(jìn)行自我關(guān)注,第二個模塊在寬度軸上進(jìn)行操作,有效地模擬了原始的自注意機(jī)制,具有更好的計(jì)算效率。同時(shí),軸向注意力機(jī)制通過在計(jì)算軸向注意力權(quán)重時(shí)考慮位置信息,可以更好地保留物體的空間結(jié)構(gòu)和位置關(guān)系,提高模型在位置感知任務(wù)中的性能。
2 方法介紹
Axial-TransUNet的整體結(jié)構(gòu)如圖1所示。輸入圖像首先被送入混合編碼器模塊,由CNN進(jìn)行逐級特征提取,然后送入軸-Transformer層進(jìn)行全局上下文信息提取。解碼器模塊將編碼特征進(jìn)行上采樣并將其與高分辨率CNN特征圖相結(jié)合,實(shí)現(xiàn)特征聚合。其中,軸-Transformer部分通過采用基于軸向注意力機(jī)制的殘差軸向注意力塊。從分割結(jié)果及參數(shù)量對比結(jié)果可以看出,Axial-TransUNet實(shí)現(xiàn)了更好的分割精度,且參數(shù)量相較TransUNet [15]有明顯降低。
2.1 融合軸向注意力機(jī)制的編碼器模塊
在Axial-TransUNet中,編碼器模塊包括殘差特征提取部分和軸-Transformer部分。
2.1.1 殘差特征提取器
殘差特征提取器負(fù)責(zé)對輸入圖像進(jìn)行逐級特征提取,并將不同層次的高分辨率特征圖輸出至跳躍連接路徑中。首先將輸入圖像Ho×Wo×Co通過卷積變換到指定大小H×W×C,其中H、W、C分別表示圖像的高度、寬度和通道數(shù),然后通過四級殘差特征提取塊進(jìn)行特征提取。每一級殘差特征提取塊將圖像通道數(shù)變?yōu)樵瓉淼?倍,將圖像的分辨率降低為原來的1/2。其中,每個殘差特征提取塊基于3個堆疊的殘差單元進(jìn)行特征提取。每個殘差單元包含3個卷積層,每個卷積層結(jié)構(gòu)如圖2所示。
每個殘差單元可以用下面的通用形式表示:
其中,Xl和Xl+1為第l個單元的輸入和輸出,Wl為可學(xué)習(xí)的權(quán)重矩陣,F(xiàn)為殘差函數(shù),f為激活函數(shù),h為恒等映射函數(shù),通常取h(Xl) = Xl。
2.1.2 軸-Transformer
軸-Transformer由若干殘差軸向注意力塊堆疊而成,殘差軸向注意力塊基于軸向注意力機(jī)制分別在高度軸及寬度軸上計(jì)算注意力,并采用殘差結(jié)構(gòu)提取特征。
1)軸向注意力機(jī)制。一個軸向注意力層沿著一個特定的軸傳播信息。如圖3所示,輸入圖像X分別與可學(xué)習(xí)的權(quán)重矩陣WQ、Wk、WV相乘得到查詢q、鍵k、值v,查詢q與鍵v相乘得到注意力矩陣,同時(shí),為q、k添加可學(xué)習(xí)的位置矩陣,二者的輸出與注意力矩陣拼接并進(jìn)行Softmax操作后得到最終的注意力矩陣。注意力矩陣與添加位置編碼信息的值v進(jìn)行矩陣乘法操作得到最終的輸出Y。對于一張H×W×C的輸入圖像,軸向注意力機(jī)制將圖像寬度軸上的軸向注意力層定義為簡單的1D位置敏感的自我注意力,并對高度軸使用類似定義。沿寬度軸的軸向注意層定義如下:
其中,m為區(qū)域大小,查詢q = WQ X,鍵k = Wk X,值v = WV X,WQ、Wk、WV均為可學(xué)習(xí)的權(quán)重矩陣,rq、rk、rv分別為q、k、v的可學(xué)習(xí)的位置編碼。
2)殘差軸向注意力塊。如圖4所示,將ResNet中殘差瓶頸塊的3×3卷積替換為兩個軸向?qū)樱渲幸粋€用于高度軸,另一個用于寬度軸,形成殘差軸向注意力塊。
2.2 解碼器模塊
解碼器部分主要通過多層解碼模塊對圖像信息進(jìn)行恢復(fù)。首先通過上采樣操作將低分辨率圖像轉(zhuǎn)換成高分辨圖像。然后將上采樣后的特征圖與對應(yīng)的編碼器層的特征圖進(jìn)行跳躍連接,通過逐層特征融合和特征提取,逐漸將特征圖恢復(fù)到與原始輸入圖像相同的分辨率。最后,解碼器模塊使用一個卷積層將恢復(fù)到原始分辨率的特征圖映射到與輸出圖像大小相同的特征空間中,并使用激活函數(shù)將其映射到0~1之間的數(shù)值范圍內(nèi),得到預(yù)測結(jié)果[17]。
2.3 評價(jià)指標(biāo)
對于醫(yī)學(xué)圖像分割任務(wù),采用交并比IoU(Intersection
over Union)和相似系數(shù)Dice(Dice Similarity Coefficient)來評估模型的分割性能[18]。
2.3.1 Dice系數(shù)
Dice系數(shù)是一種集合相似度度量函數(shù),通常用于計(jì)算兩個樣本的相似度,取值范圍在[0,1],值越大,分割效果越好。其計(jì)算式如下:
其中,X和Y分別表示真實(shí)標(biāo)簽和預(yù)測結(jié)果。
2.3.2 交并比IoU
IoU是預(yù)測結(jié)果和真實(shí)標(biāo)簽之間的重疊區(qū)域除以兩者之間的聯(lián)合區(qū)域,取值范圍為[0,1],值越大,分割效果越好。其計(jì)算式如下:
其中,X和Y分別為真實(shí)標(biāo)簽和預(yù)測結(jié)果。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用6個公開的醫(yī)學(xué)圖像分割數(shù)據(jù)集,如表1所示,包括5個息肉數(shù)據(jù)集Kvasir-SEG、Kvasir-Sessile、CVC-ClinicDB、CVC-ColonDB和ETIS-LaribPolypDB以及1個細(xì)胞核數(shù)據(jù)集Cell-Nuclei。每個數(shù)據(jù)集均以8:2的比例劃分為訓(xùn)練集和測試集。
3.2 實(shí)驗(yàn)細(xì)節(jié)及環(huán)境
實(shí)驗(yàn)是在單個11 GB的RTX 2080 GPU上運(yùn)行的,實(shí)驗(yàn)環(huán)境為Python 3.8和PyTorch 1.11.0。數(shù)據(jù)的預(yù)處理主要包括歸一化、隨機(jī)旋轉(zhuǎn)、隨機(jī)翻轉(zhuǎn)、色調(diào)飽和度、亮度及對比度調(diào)節(jié)等。對于5個息肉數(shù)據(jù)集Kvasir-SEG、Kvasir-Sessile、CVC-ClinicDB、CVC-ColonDB和ETIS-LaribPolypDB,其輸入圖像大小為256×256,細(xì)胞核數(shù)據(jù)集Cell-Nuclei的輸入圖像大小為96×96。殘差軸向注意力塊默認(rèn)堆疊1層,batch_size為8,使用BCEDiceLoss作為損失函數(shù),學(xué)習(xí)率為0.01,動量為0.9,權(quán)重衰減為1×10-3的SGD作為優(yōu)化器,迭代次數(shù)為100。對于模型,使用二分類交叉熵?fù)p失(BCELoss)和Dice損失(DiceLoss)的組合來訓(xùn)練Axial-TransUNet,如下式所示:
3.3 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)在6個醫(yī)學(xué)圖像分割數(shù)據(jù)集上對Axial-TransUNet進(jìn)行訓(xùn)練,并與模型U-Net [2]、UNet++ [3]、
Attention U-Net [8]、Res-UNet [5]、ResUNNet++ [6]、TransUNet [15]進(jìn)行分割精度以及參數(shù)量的對比。由實(shí)驗(yàn)結(jié)果可知,Axial-TransUNet的分割精度優(yōu)于TransUNet [15],并在CVC-ClinicDB、CVC-ColonDB、ETIS-LaribPolypDB三個數(shù)據(jù)集上達(dá)到最佳分割性能。除此之外,Axial-TransUNet的參數(shù)量相對TransUNet [15]也有顯著降低。
3.3.1 模型定量分析
Axial-TransUNet與U-Net [2]、UNet++ [3]、Res-UNet [5]、ResUNet++ [6]、Attention UNet [8]、TransUNet [15]
在6個公開醫(yī)學(xué)圖像分割數(shù)據(jù)集上的定量分析結(jié)果如表2所示。由表2可知,Axial-TransUNet的分割精度相較TransUNet [15]均有不同程度的提升。在CVC-ClinicDB、CVC-ColonDB、ETIS-LaribPolypDB上,Axial-TransUNet獲得了最好的分割效果。其中,在Kavsir-SEG數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約5.5%,在IoU上提升了約8.8%。在CVC-ClinicDB數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約10.1%,在IoU上提升了約16.0%。在CVC-ColonDB數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約27.9%,在IoU上提升了約45.6%。在Kvasir-sessile數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約10.9%,在IoU上提升了約11.9%。在ETIS-LaribPolypDB數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約63.4%,在IoU上提升了約92.2%。在Cellnuclei數(shù)據(jù)集上,Axial-TransUNet相對TransUNet在Dice上提升了約1.3%,在IoU上提升了約1.8%。
3.3.2 模型參數(shù)量對比
如表3所示,與其他兩種引入注意力機(jī)制的網(wǎng)絡(luò)Attention UNet [8]、TransUNet [15]相比,Axial-TransUNet參數(shù)量更少,計(jì)算復(fù)雜度更低。其中,相比于TransUNet,Axial-TransUNet參數(shù)量降低了約14.9%,計(jì)算復(fù)雜度降低約30.5%。
3.3.3 模型可視化結(jié)果
不同模型在不同數(shù)據(jù)集上的分割結(jié)果如圖5所示。從圖中可以看出,相較于純CNN的方法,Axial-TransUNet對邊界信息分割更為精準(zhǔn)。例如,第一行中,UNet [2]、UNet++ [3]等對圖像的邊界信息不夠敏感,出現(xiàn)了特征丟失的問題,而Axial-TranUNet保留了很好的邊界信息。
相較于TransUNet [15],Axial-TransUNet能夠較好地避免特征損失、過度分割的問題。例如,第三行中,TransUNet對白色區(qū)域左半部分進(jìn)行分割時(shí)出現(xiàn)了特征損失的問題,而Axial-TransUNet則較好地保留了圖像的特征。同樣,Axial-TransUNet也實(shí)現(xiàn)了更好的邊緣預(yù)測。
4 結(jié) 論
TransUNet模型的Transformer基于自注意力機(jī)制進(jìn)行注意力計(jì)算。由于自注意力機(jī)制在計(jì)算注意力權(quán)重時(shí)需要考慮所有位置之間的關(guān)系,注意力矩陣大小與輸入序列長度成平方關(guān)系,所以Transformer的計(jì)算復(fù)雜度較高。同時(shí),由于自注意力機(jī)制僅對查詢向量采用位置編碼,所以Transformer在捕獲位置信息方面能力較低。針對上述問題,本文提出Axial-TransUNet網(wǎng)絡(luò)。Axial-TransUNet將軸向注意力機(jī)制融入Transformer中,軸向注意力機(jī)制僅考慮處于同一軸向位置之間的關(guān)系,因此可以通過降低注意力權(quán)重計(jì)算的復(fù)雜度來減少模型參數(shù)量,并且可以更好地捕捉輸入數(shù)據(jù)中不同方向上的特征和關(guān)系。這種方向性信息的建模有助于提升模型的表示能力和泛化性能。此外,軸向注意力機(jī)制引入的更豐富的可學(xué)習(xí)的位置矩陣,使模型可以根據(jù)不同位置的需要自適應(yīng)地調(diào)整注意力權(quán)重,從而更好地利用位置信息進(jìn)行建模和預(yù)測?;谳S向注意力機(jī)制的Axial-TransUNet有效降低了TransUNet的計(jì)算復(fù)雜度,同時(shí)有效彌補(bǔ)了TransUNet捕捉位置信息能力的不足,提高了分割精度。如表2所示,Axial-TransUNet網(wǎng)絡(luò)在6個醫(yī)學(xué)圖像數(shù)據(jù)集上表現(xiàn)出比TransUNet更優(yōu)的分割性能,在CVC-ClinicDB、CVC-ColonDB、ETIS-LaribPolypDB這3個數(shù)據(jù)集其分割性能上達(dá)到最佳。如表3所示,與其他兩種引入注意力機(jī)制的網(wǎng)絡(luò)AttentionUNet、TransUNet相比,Axial-TransUNet參數(shù)量與計(jì)算復(fù)雜度均較低。這也表明,軸Transformer在未來仍有很高的研究價(jià)值。
然而,軸向注意力機(jī)制并不是對自注意力機(jī)制的全面替代,而是在特定任務(wù)或場景下的一種改進(jìn)選擇。在某些情況下,自注意力機(jī)制可能仍然是更合適的選擇,特別是當(dāng)全局信息之間的關(guān)系對任務(wù)至關(guān)重要時(shí)。
參考文獻(xiàn):
[1] LONG J,SHELHAMER E,DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:3431-3440.
[2] RONNEBERGER O,F(xiàn)ISCHER P,BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation [C]//Proceedings of the Lecture Notes in Computer Science.Munich:Springer,2015:234-241.
[3] ZHOU Z W,SIDDIQUEE M M R,TAJBAKHSH N,et al. UNet++: A Nested U-Net Architecture for Medical Image Segmentation [C]//Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015.Granada:Springer,2018:3-11.
[4] HUANG H M,LIN L F,TONG R F,et al. UNet 3+: A Full-Scale Connected UNet for Medical Image Segmentation [C]//ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:1055-1059.
[5] XIAO X,LIAN S,LUO Z M,et al. Weighted Res-UNet for High-Quality Retina Vessel Segmentation [C]//2018 9th International Conference on Information Technology in Medicine and Education (ITME).Hangzhou:IEEE,2018:327-331.
[6] JHA D,SMEDSRUD P H,RIEGLER M A,et al. ResUNet++: An Advanced Architecture for Medical Image Segmentation [C]//2019 IEEE International Symposium on Multimedia (ISM).San Diego:IEEE,2019:225-230.
[7] ?I?EK ?,ABDULKADIR A,LIENKAMP S S,et al. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation [C]//Medical Image Computing and Computer-Assisted Intervention - MICCAI 2016.Athens:Springer, 2016:424-432.
[8] OKTAY O,SCHLEMPER J,F(xiàn)OLGOC L L,et al. Attention U-Net: Learning Where to Look for the Pancreas [J/OL].arXiv:1804.03999 [cs.CV].[2023-11-15].https://arxiv.org/abs/1804.03999.
[9] WANG X L,GIRSHICK R,GUPTA A,et al. Non-local Neural Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7794-7803.
[10] PARMAR N,VASWANI A,USZKOREIT J,et al. Image Transformer [J/OL].arXiv:1802.05751 [cs.CV].[2023-10-22].https://arxiv.org/abs/1802.05751v3.
[11] CHILD R,GRAY S,RADFORD A,et al. Generating Long Sequences with Sparse Transformers [J/OL].arXiv:1904.10509 [cs.LG].[2023-10-20].https://arxiv.org/abs/1904.10509.
[12] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale [J/OL].arXiv:2010.11929 [cs.CV].[2023-10-20].https://arxiv.org/abs/2010.11929.
[13] YAO C,HU M H,LI Q L,et al. Transclaw U-Net: Claw U-Net With Transformers for Medical Image Segmentation [C]//2022 5th International Conference on Information Communication and Signal Processing (ICICSP).Shenzhen:IEEE,2022:280-284.
[14] XU G P,ZHANG X,F(xiàn)ANG Y,et al. LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation [J/OL].arXiv:2107.08623 [cs.CV].[2023-09-19].https://arxiv.org/abs/2107.08623.
[15] CHEN J N,LU Y Q,YU Q H,et al. TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation [J/OL].arXiv:2102.04306 [cs.CV].[2023-09-19].https://arxiv.org/abs/2102.04306.
[16] WANG H Y,ZHU Y K,GREEN B,et al. Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation [C]//Computer Vision - ECCV 2020.Glasgow:Springer,2020:108-126.
[17] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[18] 丘文峰.基于Python的醫(yī)學(xué)圖像處理框架及其應(yīng)用 [D].廣州:華南師范大學(xué),2010.