呂朋舉,王澄,朱建軍, ,陸建,朱海東,滕皋軍*
(1.珠海橫樂醫(yī)療科技有限公司,廣東 橫琴 519000;2.東南大學附屬中大醫(yī)院介入與血管外科,江蘇 南京 210009)
醫(yī)學圖像中對多個組織和臟器的精確分割是計算機輔助診斷、放射治療計劃、藥物治療以及圖像引導(dǎo)手術(shù)等臨床應(yīng)用的基礎(chǔ)與關(guān)鍵。目標器官的準確勾畫可以幫助醫(yī)生定量評估疾病狀態(tài),定位目標治療區(qū)域,以及為機器人導(dǎo)航構(gòu)建精確的結(jié)構(gòu)映射。然而,醫(yī)學圖像手工分割費時費力,易出錯,且難以應(yīng)對大量數(shù)據(jù)。傳統(tǒng)的圖像處理和機器學習方法多依賴于專業(yè)醫(yī)生輔助,難以捕捉組織的紋理和形態(tài)復(fù)雜性。這些局限性促使了通過人工智能(AI)驅(qū)動的自動分割技術(shù)的開發(fā)和采用。近年來,AI 已經(jīng)在革新醫(yī)學圖像分析的領(lǐng)域中展示出前所未有的潛力,為多器官分割提供了先進的解決方案。深度學習作為AI 的一個子領(lǐng)域,已經(jīng)在該領(lǐng)域嶄露頭角,能夠從醫(yī)學圖像中學習復(fù)雜的模式和層次特征。尤其是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]和Transformer[2]的U-Net 及其變種結(jié)構(gòu),通過端到端學習強大的特征表達能力,能夠?qū)︶t(yī)學圖像實現(xiàn)精準的語義理解和分割。在人工智能賦能器官自動分割的通用流程中主要包含以下4 個模塊(見圖1):醫(yī)學成像、人工智能分割網(wǎng)絡(luò)、分割結(jié)果輸出、臨床應(yīng)用。醫(yī)學成像模塊旨在通過對電子計算機斷層掃描(CT)、超聲(US)等醫(yī)學圖像數(shù)據(jù)進行預(yù)處理步驟,以便將數(shù)據(jù)轉(zhuǎn)化成深度學習中的常見格式;人工智能分割網(wǎng)絡(luò)是指基于多樣學習范式對當前輸入數(shù)據(jù)尋找匹配度最高的模型架構(gòu);對于模型分割結(jié)果,分割輸出結(jié)果模塊通過結(jié)合灰度、拓撲結(jié)構(gòu)等相關(guān)先驗信息,進一步優(yōu)化分割結(jié)果,以達到臨床應(yīng)用的標準;臨床應(yīng)用模塊能夠基于優(yōu)化后的分割結(jié)果協(xié)助醫(yī)生執(zhí)行某項特定操作,如腫瘤增長檢測、術(shù)前治療計劃確定等。
圖1 醫(yī)學圖像中多器官分割的流程Figure 1 Workflow of multi-organ segmentation in medical images
深度網(wǎng)絡(luò)U-Net 可以在臨床應(yīng)用中自動定位目標器官以減輕醫(yī)生的負擔。本文回顧了當前基于深度學習的醫(yī)學多臟器分割算法,重點圍繞基于CNN、Transformer 的U-Net 架構(gòu)在器官分割中的研究進展及其在醫(yī)藥發(fā)展領(lǐng)域的應(yīng)用。
目前,基于卷積神經(jīng)網(wǎng)絡(luò)的U-Net 及其變體算法在醫(yī)學圖像分割任務(wù)中居于主導(dǎo)地位。Ronneberger 等[3]提出了經(jīng)典的U-Net 架構(gòu),其采用編碼-解碼結(jié)構(gòu),并通過跳躍連接將不同層級進行特征融合,以實現(xiàn)多尺度特征的高效提取和信息傳遞(見圖1 中人工智能分割網(wǎng)絡(luò)模塊)。目前,U-Net已被廣泛用于頭頸部、腹部等多個區(qū)域的多器官分割任務(wù),并發(fā)展出各種改進版本的U-Net。Attention U-Net[4]引入了注意力門到跳躍連接中,以隱式學習抑制輸入圖像中的不相關(guān)區(qū)域,同時突出顯示感興趣的分割任務(wù)區(qū)域(ROI)。通過在跳躍連接中添加注意力門,可以在不需要外部器官定位模型的情況下保持高預(yù)測準確性;U-Net++[5]引入了Dense 跳躍連接,提高了不同尺度特征圖的語義相似性,以降低模型學習多尺度特征信息的難度。Dense 跳躍連接的特點在于通過特征逐步疊加的方式捕捉易在編碼過程中損耗的信息,以此優(yōu)化多尺度特征融合機制;相較于U-Net,U-Net++在肝臟、腦腫瘤數(shù)據(jù)集上分別實現(xiàn)了2.7%和2%的IoU 分割精度增長。Milletari 等[6]提出了一種基于體積的三維(3D)圖像分割方法V-Net,引入了殘差連接并使用卷積層代替池化層,直接處理3D 醫(yī)學數(shù)據(jù),為多器官分割提供了更多的可能性。nnU-Net[7]是一個基于U-Net的新框架,通過引入自適應(yīng)預(yù)處理、數(shù)據(jù)增強和后處理技術(shù),在各種生物醫(yī)學分割挑戰(zhàn)中取得了領(lǐng)先的性能。
CNN 的卷積操作能夠很好地提取圖像局部特征,但卷積層的固有的歸納偏置導(dǎo)致CNN 無法建模全局關(guān)系,從而影響模型的性能,而Transformer的自注意力機制可以很好地解決長距離依賴性問題。在Vision Transformer[2](ViT)中,每個圖像被分割成固定數(shù)量的圖塊(Token):這些Token 通過自注意力機制進行處理,輸入特征首先通過線性變換得到Query(Q)和Key(K)之間的相似度,通過Q和K 矩陣相乘確定了每個Token 與其他Token 的關(guān)聯(lián)程度;然后這些關(guān)聯(lián)程度Softmax 歸一化后被用來加權(quán)Values(V),從而生成每個Token 的輸出(見圖2)。這種操作允許模型在處理圖像時關(guān)注不同區(qū)域之間的關(guān)系,將每個子空間的注意力輸出進行拼接,再次經(jīng)過一個線性映射層,產(chǎn)生最終的多頭注意力輸出。每個Token 能夠使得模型同時關(guān)注輸入的不同方面,從而更好地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系和模式。每個注意力頭可以專注于輸入的不同部分,這種并行處理有助于提高模型的表達能力。
圖2 Transformer 和自注意力機制結(jié)構(gòu)Figure 2 Transformer and self-attention structure
Chen 等[8]提出了一種新的網(wǎng)絡(luò)架構(gòu)TransUNet, 該 方 法 使 用Transformer 進 一 步 優(yōu)化CNN 編碼器,構(gòu)建出了更強大的編碼器。TransUNet 在特征提取的過程中應(yīng)用了自注意力機制來增強每個Token 的全局關(guān)聯(lián)性,同時在U-Net架構(gòu)的基礎(chǔ)上通過跳躍連接實現(xiàn)多尺度特征提取,以此減少自注意力機制所帶來的信息損失。Hatamizadeh 等[9]提出了UNETR,該方法能夠基于體積的3D 醫(yī)學數(shù)據(jù)通過采用Transformer 對編碼過程進行優(yōu)化。與TransUNet 的編碼過程不同,UNETR 通過優(yōu)化特征提取的編碼結(jié)構(gòu),直接基于Transformer 輸出的特征進行跳躍連接,能夠捕捉更加深層的語義信息,從而提高分割精度。CoTr[10]同樣能夠基于體積的3D 醫(yī)學圖像數(shù)據(jù)進行分割,通過將CNN 編碼器與可變形Transformer(DeTrans)編碼器銜接在一起作為一個編碼器來進行特征提??;為了保留多層級的語義信息,CoTr 將不同層級的CNN 特征輸出到DeTrans 中,通過對關(guān)鍵點采樣將位置信息編碼到特征輸出中,從而在兼顧全局關(guān)聯(lián)性和算力需求的基礎(chǔ)上,實現(xiàn)高精度器官分割;CoTr 在腹部多臟器數(shù)據(jù)集(BTCV)上取得了較好的分割結(jié)果,其中腹部各器官的平均Dice 系數(shù)達到了85.0%。
在實際應(yīng)用中,部分器官在醫(yī)學圖像中通常只占據(jù)較小的體積,導(dǎo)致分割模型在分割過程中易受到無關(guān)體素數(shù)據(jù)的影響,從而導(dǎo)致模型在小目標區(qū)域產(chǎn)生分割精度效果不佳的情況。此外,分割模型在處理高分辨率的3D 醫(yī)學圖像上,所需要的算力和時間成本過大。鑒于上述原因,分割模型通常以級聯(lián)網(wǎng)絡(luò)的形式出現(xiàn),以此實現(xiàn)腹部多器官的高精度分割和減少模型訓練成本。級聯(lián)網(wǎng)絡(luò)可以大致分為2 個類型,取決于主要網(wǎng)絡(luò)向次級網(wǎng)絡(luò)所提供的信息[11]。第1 類級聯(lián)網(wǎng)絡(luò)稱為由粗到細的分割方法,該方法首先對目標器官實現(xiàn)從粗到細的漸進分割,通過粗分割對目標區(qū)域進行提取,隨后再通過細分割對提取的目標區(qū)域進行精細化分割,從而提高分割精度。Zhang 等[12]提出了塊級跳越連接,使第2 階段網(wǎng)絡(luò)能夠捕獲第1階段網(wǎng)絡(luò)中每個塊學到的特征,從而提高第2 階段網(wǎng)絡(luò)模型的分割精度。第2 類稱為基于定位和分割的多器官分割方法,該方法首先使用配準方法或定位網(wǎng)絡(luò)識別每個器官位置的候選框,然后基于各個器官的位置信息對各目標區(qū)域進行提取,最后輸入到第2 階段網(wǎng)絡(luò)模型中進行精細化分割。Wang 等[13]通過級聯(lián)2 個3D U-Net 模型來實現(xiàn)頭頸部CT 圖像的各器官組織分割,其中第1 個3D U-Net 用以定位器官組織或病灶區(qū)域,第2 個3D U-Net 根據(jù)定位信息對裁切無關(guān)體素數(shù)據(jù)后的目標區(qū)域進行分割。Lei 等[14]通過Faster RCNN 對輸入的醫(yī)學圖像中各器官組織進行定位和分類,在第2 階段通過Attention U-Net 對特定器官進行分割。
人工智能賦能下的圖像分割是將醫(yī)學影像中的器官或組織進行快速、準確、自動地劃分;通過深度學習算法,可有效處理大規(guī)模數(shù)據(jù)。與傳統(tǒng)方法相比,人工智能賦能的多器官分割減少了人為因素引入的個人偏見,提高了決策的客觀性和準確性[15],這對于疾病診斷、手術(shù)規(guī)劃、預(yù)后分析、藥物研發(fā)等臨床應(yīng)用環(huán)節(jié)至關(guān)重要。
醫(yī)療圖像分割可以幫助醫(yī)生準確定位病變部位,比如腫瘤、囊腫等。通過分割,醫(yī)生可以更清晰地看到病變的形狀、大小和位置,有助于早期疾病診斷和治療規(guī)劃[16]。Hollon 等[17]實施了腦腫瘤分割,以確定受激拉曼組織學圖像(SRH)中受腫瘤侵蝕的診斷區(qū)域,并采用CNN 學習了一系列可識別SRH 圖像中的特征表征信息,以對腦腫瘤的主要組織病理學類別進行分類(13 類);該方法實現(xiàn)了在術(shù)中對腦腫瘤以幾乎實時(不到150 s)的自動診斷,并且診斷精度與基于傳統(tǒng)病理學解釋方法的診斷精度相比,提升了0.7%的診斷精度,實現(xiàn)了準確率高達94.6%的高精度診斷。Khened 等[18]在對全切片圖像(WSI)分割的基礎(chǔ)上,采用多個隨機森林分類器的集成方法,對淋巴結(jié)轉(zhuǎn)移進行自動分類;結(jié)合訓練數(shù)據(jù)基于腫瘤分割概率圖提取的特征,該方法提出將整個環(huán)肝臟腫瘤區(qū)域近似為圍繞活性腫瘤區(qū)域的凸包,對活性腫瘤負荷進行估算,實驗效果良好且計算成本低。
在手術(shù)前,醫(yī)療圖像分割可以提供3D 模型,幫助醫(yī)生規(guī)劃手術(shù)路徑、選擇最佳介入路徑,并預(yù)測手術(shù)風險。在手術(shù)中,分割技術(shù)可以用于實時導(dǎo)航,確保手術(shù)操作的精準性和安全性。腫瘤的臨床治療方式包括手術(shù)切除、放射治療、藥物治療及靶向治療等(見圖3)。Zhu 等[19]提出了一種用于肝臟惡性腫瘤的低劑量永久性粒子植入治療計劃,治療計劃的整體結(jié)構(gòu)分為多臟器分割模塊、插針路徑選擇模塊和劑量計算模塊3 個部分:其中多臟器分割模塊能夠高效地分割圖像中的各器官組織;而插針路徑選擇能夠基于各器官組織的位置信息、肝臟和肝腫瘤的先驗結(jié)構(gòu)信息對粒子距離進行限制;最后通過劑量計算模塊實現(xiàn)粒子分布初始化,確定最優(yōu)劑量分配并實施插針計劃。該治療計劃基于腹部多臟器的分割結(jié)果確定最為匹配的治療方案,不僅提高了規(guī)劃算法的效率,還盡可能規(guī)避了腫瘤臨床治療中的潛在風險。孔繁圖等[20]綜合考慮了射線角度、器官體積和器官間空間位置等多種影響因素后,通過將前列腺圖像中各器官組織的幾何解剖結(jié)構(gòu)和3D 計量分布關(guān)聯(lián)起來,利用神經(jīng)網(wǎng)絡(luò)構(gòu)建劑量預(yù)測模型:在5 例驗證集上,劑量差異僅為(0.1634±10.5246)Gy,且百分劑量差異在2.5%以內(nèi),DVH 差異不超過1.7%。
圖3 多器官分割用于肝臟介入手術(shù)中粒子劑量計算Figure 3 Multi-organ segmentation lays the foundation for particle dose calculation in liver intervention surgery
綜上所述,基于人工智能的多器官分割結(jié)果可以為手術(shù)計劃提供質(zhì)量標準,還為實現(xiàn)自動劑量控制和醫(yī)療計劃設(shè)計奠定基礎(chǔ)。
預(yù)后分析中,醫(yī)學圖像分割可以提供更詳細的數(shù)據(jù),幫助醫(yī)生評估病變的嚴重程度、預(yù)測病情發(fā)展趨勢,為患者的預(yù)后提供重要參考[21]。相比于特征較為單一的臨床特征如年齡、Karnofsky 績效評分和切除程度等,醫(yī)學圖像分割能夠提供更多特定器官組織的解剖信息用以評估治療結(jié)果、檢測疾病進展。Macyszyn 等[22]改進了膠質(zhì)母細胞瘤預(yù)后成像研究的方法,采用AI 分割技術(shù)在大型數(shù)據(jù)集上得到多個膠質(zhì)母細胞瘤成像和臨床特征。該方法為腫瘤生存率的預(yù)測提供了更可靠和細致的方法。Bera 等[23]量化分析目標器官中腫瘤的紋理異質(zhì)性特征以及周圍器官的先驗形狀,來進一步了解腫瘤與其周圍環(huán)境之間的變化,并且能夠基于腫瘤的解剖結(jié)構(gòu)和形狀變化進行更加復(fù)雜的病理分析。很大程度上,基于醫(yī)學分割的預(yù)后分析能夠幫助醫(yī)生根據(jù)患者個體臨床特征來實現(xiàn)一對一的個性化治療。
在藥物研發(fā)中,醫(yī)療圖像分割可以用于評估新藥的療效和安全性[24-25]。在臨床試驗中,分割技術(shù)可以幫助研究人員分析藥物對病變區(qū)域的影響,為藥物的注冊和上市提供可靠的數(shù)據(jù)支持。Nawabi等[26]基于ResNet-50 提出線粒體細胞圖像分割的DNDIS 級聯(lián)算法,其能夠在無監(jiān)督的情況下快速分割線粒體細胞圖像,并進一步識別分割結(jié)果中的正常線粒體細胞、經(jīng)過藥物處理過后的線粒體細胞和患病的線粒體細胞;DNDIS 級聯(lián)算法在藥物處理數(shù)據(jù)集上取得了出色的成果,對正常、藥物處理和患病3 種類型的線粒體細胞的識別準確率分別達到90%、92%和94%。醫(yī)藥公司能夠通過對比上述3種類型細胞的形狀、灰度等先驗信息來判斷測試藥物的效果。DNDIS 級聯(lián)算法已經(jīng)有效應(yīng)用于醫(yī)學測試(新開發(fā)藥物)、臨床醫(yī)學(癌癥和臨床病理學)等領(lǐng)域。Berker 等[27]基于圖像分割結(jié)果對藥物反應(yīng)進行量化分析,即通過病灶區(qū)域的幾何特性和藥物處理過后的病灶幾何特性之間的差異性;該方法在已知藥物敏感性的6 個細胞上得到驗證,其中在球體瘤細胞藥物反應(yīng)實驗中發(fā)現(xiàn)藥物濃度與代謝效果有強相關(guān)性。
綜上所述,圖像分割在醫(yī)藥發(fā)展中扮演重要角色,與組織學方法相比,基于深度學習的醫(yī)學圖像分割可以更精確和可重復(fù)地進行組織結(jié)構(gòu)和病變的體積測量,有助于更好地了解病灶區(qū)域和其余器官的藥物反應(yīng),如新陳代謝和炎癥,這可以幫助研究人員更準確地評估藥物對器官功能的影響。醫(yī)療圖像分割在臨床決策和療效評估中的應(yīng)用不僅提高了醫(yī)學診斷和治療的精度,還推動了醫(yī)學科技的發(fā)展,為患者提供了更好的醫(yī)療服務(wù)[21,28]。
準確的多器官醫(yī)學圖像分割對醫(yī)藥發(fā)展和應(yīng)用意義重大。人工智能技術(shù)展現(xiàn)出在自動化醫(yī)學圖像分析方面的巨大潛力。特別是U-Net 系列網(wǎng)絡(luò),通過分層特征提取和多尺度特征融合,實現(xiàn)了對不同模態(tài)醫(yī)學圖像的精確語義分割。
醫(yī)學圖像多器官分割技術(shù)不僅能夠獲取各個器官組織的解剖幾何結(jié)構(gòu),還能為后續(xù)藥物測試提供更加精細的數(shù)據(jù)分析,同時也為藥物研發(fā)提供有力支持,進一步推動精準醫(yī)療的發(fā)展。具體而言,腹部CT 圖像分割技術(shù)能夠為個體患者提供量身定制的治療方案,通過了解各個器官組織的狀態(tài),針對性地選擇更為適合的治療方案和藥物,從而提高治療效果,減少藥物副作用。此外,在藥物研發(fā)過程中,需要對藥物的效力以及各個器官對藥物的反應(yīng)進行評估,醫(yī)學圖像多器官分割技術(shù)能夠用于評估多個器官對藥物的敏感程度,幫助篩選出最適合的藥物候選。
盡管深度學習算法在臨床應(yīng)用中仍面臨解釋性和魯棒性問題。相信隨著未來跨學科深入合作與持續(xù)創(chuàng)新,將大力推動這一新興領(lǐng)域的技術(shù)發(fā)展,使自動化多臟器分割系統(tǒng)在提高臨床診療水平方面發(fā)揮重要作用。