摘 要:隨著醫(yī)療需求的持續(xù)增長(zhǎng),深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像自動(dòng)分割領(lǐng)域展現(xiàn)出巨大的潛力。空間數(shù)據(jù)智能的發(fā)展為醫(yī)學(xué)圖像的精確分割提供了新的解決思路。UNet 作為醫(yī)學(xué)圖像分割領(lǐng)域最具影響力的網(wǎng)絡(luò)架構(gòu),自2015 年提出以來在各類醫(yī)學(xué)影像任務(wù)中得到了廣泛應(yīng)用,其獨(dú)特的編碼器-解碼器結(jié)構(gòu)設(shè)計(jì)不僅為后續(xù)研究奠定了基礎(chǔ)范式,更催生了大量改進(jìn)網(wǎng)絡(luò)。系統(tǒng)梳理了UNet 架構(gòu)的重要發(fā)展里程碑:ResUNet 通過殘差連接解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題,AttentionUNet 引入自適應(yīng)注意力機(jī)制提升了在跳躍連接中的特征選擇精確度,而TransUNet 和SwinUNet 則代表了將現(xiàn)代Transformer引入醫(yī)學(xué)圖像分割的2 個(gè)關(guān)鍵階段,展現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 與Transformer 融合的巨大潛力。通過分析這些代表性網(wǎng)絡(luò)的架構(gòu)創(chuàng)新和性能突破,揭示了醫(yī)學(xué)圖像分割技術(shù)從純CNN 架構(gòu)向CNNTransformer 混合架構(gòu)演進(jìn)的發(fā)展趨勢(shì)。此外,探討了現(xiàn)有技術(shù)面臨的挑戰(zhàn),對(duì)未來空間數(shù)據(jù)智能的發(fā)展方向提供了見解,為該領(lǐng)域的進(jìn)一步研究提供了參考。
關(guān)鍵詞:深度學(xué)習(xí);UNet;醫(yī)學(xué)圖像分割;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
中圖分類號(hào):TN929. 5 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1003-3106(2024)12-2765-15
0 引言
近年來,國(guó)家高度重視人工智能技術(shù)的應(yīng)用與發(fā)展,積極推動(dòng)人工智能、大數(shù)據(jù)、互聯(lián)網(wǎng)、5G、區(qū)塊鏈、物聯(lián)網(wǎng)等新一代信息技術(shù)在醫(yī)療健康領(lǐng)域的深度融合。這一政策導(dǎo)向有效促進(jìn)了醫(yī)學(xué)人工智能的快速發(fā)展,并在我國(guó)逐步落地應(yīng)用[1]。當(dāng)前,隨著人口老齡化程度加劇以及高血壓、糖尿病等慢性病發(fā)病率逐年上升,醫(yī)療衛(wèi)生資源的總量相對(duì)不足且分布不均衡成為亟待解決的問題。在政策支持下,醫(yī)學(xué)人工智能的發(fā)展為解決這些問題提供了新的技術(shù)途徑,正在逐步改變傳統(tǒng)的疾病預(yù)防、檢測(cè)和治療模式,推動(dòng)衛(wèi)生健康領(lǐng)域的創(chuàng)新與進(jìn)步。
在醫(yī)療健康領(lǐng)域,醫(yī)學(xué)圖像的分析是臨床診斷和治療的核心環(huán)節(jié)之一。隨著影像技術(shù)的發(fā)展,CT、MRI 以及超聲等醫(yī)療影像數(shù)據(jù)量迅速增加,如何高效、準(zhǔn)確地從海量醫(yī)學(xué)圖像中提取關(guān)鍵信息,成為當(dāng)前醫(yī)療實(shí)踐中的一大挑戰(zhàn)[2]。醫(yī)學(xué)圖像分割作為影像分析的重要步驟,自動(dòng)或半自動(dòng)地將目標(biāo)區(qū)域從背景中精確分割出來,能夠?yàn)榕R床醫(yī)生提供重要的定量分析信息,顯著提升診斷效率和精度。在這一技術(shù)發(fā)展進(jìn)程中,空間數(shù)據(jù)智能的崛起為醫(yī)學(xué)圖像分析帶來了新的突破??臻g數(shù)據(jù)智能通過整合空間信息處理、深度學(xué)習(xí)和知識(shí)推理等技術(shù),能夠更好地理解和利用醫(yī)學(xué)圖像中的空間特征和上下文關(guān)系。這種智能化的空間數(shù)據(jù)處理方法不僅提升了醫(yī)學(xué)圖像分割的準(zhǔn)確性,還為復(fù)雜自動(dòng)醫(yī)療結(jié)構(gòu)的精確識(shí)別提供了新的解決方案。特別是在處理器官之間的復(fù)雜空間關(guān)系和病變區(qū)域的精確定位方面,空間數(shù)據(jù)智能展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。
自2012 年深度學(xué)習(xí)技術(shù)取得突破以來,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不斷推陳出新,各類網(wǎng)絡(luò)在不同領(lǐng)域得到了廣泛應(yīng)用。在醫(yī)學(xué)圖像分割領(lǐng)域,2015 年提出的UNet[3]是不可忽視的代表性網(wǎng)絡(luò)。
UNet 的設(shè)計(jì)受到全卷積網(wǎng)絡(luò)(FullyConvolutional Network,FCN)的啟發(fā)[4],其基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),使用創(chuàng)新性的網(wǎng)絡(luò)設(shè)計(jì),實(shí)現(xiàn)了當(dāng)時(shí)較好的醫(yī)學(xué)圖像分割效果。其將對(duì)稱的“U”型編碼器-解碼器結(jié)構(gòu)與跳躍連接相結(jié)合,使得高分辨率的局部信息和低分辨率的全局語義信息能夠有效融合,極大地提升了分割任務(wù)的精度與效率。此后,基于UNet 架構(gòu),許多研究人員相繼提出了改進(jìn)的變體網(wǎng)絡(luò),如UNet++[5]、ResUNet[6]等,這些變體在不同場(chǎng)景中進(jìn)一步優(yōu)化了分割性能,推動(dòng)了醫(yī)學(xué)圖像分割技術(shù)的持續(xù)發(fā)展。
2017 年,Transformer 結(jié)構(gòu)被提出,最初主要用于解決自然語言處理(Natural Language Processing,NLP)中的問題,并在該領(lǐng)域取得了顯著成效[7]。隨著Transformer 在NLP 領(lǐng)域的成功,研究者們逐漸將這一架構(gòu)引入到視覺任務(wù)中,催生了Vision Transformer(ViT)模型[8]。在此基礎(chǔ)上,許多研究開始探索CNN 與Transformer 的結(jié)合,產(chǎn)生了大量新的網(wǎng)絡(luò)架構(gòu)。這種結(jié)合的趨勢(shì)也影響到了醫(yī)學(xué)圖像分割領(lǐng)域,UNet 與Transformer 的融合網(wǎng)絡(luò)應(yīng)運(yùn)而生。這種結(jié)合進(jìn)一步提升了模型對(duì)全局和局部特征的捕捉能力,為復(fù)雜的醫(yī)學(xué)影像處理提供了更為強(qiáng)大的工具[9]。
基于以上背景,本文主要討論UNet 及其網(wǎng)絡(luò)變體設(shè)計(jì),梳理UNet 的網(wǎng)絡(luò)發(fā)展脈絡(luò),把握未來網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展趨勢(shì)大多基于CNN 與Transformer 或其他網(wǎng)絡(luò)比如mamba[10]等的有機(jī)結(jié)合,為推動(dòng)醫(yī)療智能化發(fā)展提供理論參考和實(shí)踐指導(dǎo)。
1 經(jīng)典UNet 結(jié)構(gòu)
在醫(yī)學(xué)圖像分割領(lǐng)域,UNet 憑借其簡(jiǎn)潔而高效的網(wǎng)絡(luò)架構(gòu)取得了廣泛的應(yīng)用,圖1 為自提出以來各類網(wǎng)絡(luò)的研究文獻(xiàn)數(shù)量餅狀圖,可以看出,UNet 占比75. 6% ,FCN 占比9. 2% ,SegNet 網(wǎng)絡(luò)占比2. 5% ,DeepLab 網(wǎng)絡(luò)占比1. 7% ,UNet+ +與DeepLabv3 網(wǎng)絡(luò)有著相同的占比,為1. 6% ,最后是其他網(wǎng)絡(luò)占比7. 8% 。
UNet 的設(shè)計(jì)采用了對(duì)稱的編碼器-解碼器結(jié)構(gòu),通過逐層卷積提取特征,同時(shí)結(jié)合跳躍連接將高分辨率的細(xì)節(jié)信息從編碼器傳遞到解碼器部分,以確??臻g信息的保留與重建。這樣的結(jié)構(gòu)使得UNet 在處理小樣本醫(yī)學(xué)圖像時(shí),仍能夠取得良好的分割效果。