徐少偉,秦品樂,曾建朝*,趙致楷,高 媛
(1.山西省醫(yī)學(xué)影像人工智能工程技術(shù)研究中心(中北大學(xué)),太原 030051;2.中北大學(xué)大數(shù)據(jù)學(xué)院,太原 030051;3.山西醫(yī)科大學(xué)第一醫(yī)院,太原 030001)
(*通信作者電子郵箱zjc@nuc.edu.cn)
縱膈是左右縱膈胸膜及其間所夾的器官和組織的總稱,其中遍布縱膈淋巴結(jié),而淋巴結(jié)轉(zhuǎn)移是肺癌由原發(fā)灶向遠(yuǎn)處轉(zhuǎn)移的重要轉(zhuǎn)移途徑。肺癌淋巴結(jié)的轉(zhuǎn)移規(guī)律一般遵循肺內(nèi)淋巴結(jié)、肺門淋巴結(jié)、縱膈淋巴結(jié)的順序[1],因此縱膈區(qū)的淋巴結(jié)狀況對(duì)于肺癌患者精確的臨床分期、治療選擇和改善預(yù)后有著重要的參考和影響作用。國際肺癌協(xié)會(huì)(International Association for the Study of Lung Cancer,IASLC)根據(jù)縱膈解剖學(xué)結(jié)構(gòu)將縱膈分為14 個(gè)區(qū)域[2],在肺癌檢查中對(duì)每一個(gè)分區(qū)都應(yīng)進(jìn)行淋巴結(jié)采集,其中兩側(cè)肺癌主要對(duì)2、4至9等分區(qū)進(jìn)行采樣。因此準(zhǔn)確檢測(cè)縱膈區(qū)淋巴結(jié)并標(biāo)注其對(duì)應(yīng)分區(qū)對(duì)于醫(yī)生診斷具有重要意義[3-4]。
計(jì)算機(jī)斷層掃描(Computed Tomography,CT)影像具有密度分辨力高、橫斷層影像較清晰、敏感性高等特點(diǎn),對(duì)縱膈淋巴結(jié)檢查具有重要價(jià)值。根據(jù)醫(yī)學(xué)先驗(yàn),縱膈淋巴結(jié)主要存在于器官間隙,一般認(rèn)為正常淋巴結(jié)直徑在1 cm 以內(nèi),而直徑大于1.5 cm 的淋巴結(jié)具有臨床價(jià)值。在CT 斷層中,縱膈淋巴結(jié)因形態(tài)為橢圓形,易與血管斷面、左肺動(dòng)脈層面主升動(dòng)脈心包上隱窩、左右心耳、胸腺、胸內(nèi)甲狀腺等混淆;而且腫大縱膈淋巴結(jié)間尺寸差異大,小淋巴結(jié)識(shí)別困難。因此醫(yī)生要辨別淋巴結(jié)及定位其所在分區(qū)非常困難,并且截至目前,CT圖像縱膈淋巴結(jié)分割算法中評(píng)價(jià)指標(biāo)Dice score 最高僅為52.3%[5]。目前醫(yī)學(xué)CT分割算法主要是基于全卷積網(wǎng)絡(luò)及其改進(jìn)網(wǎng)絡(luò)U-Net的,但是對(duì)于像CT序列這樣的三維圖像來說,使用三維卷積的U-Net(3D U Network,3D U-Net)分割精度會(huì)更高。深度學(xué)習(xí)分割縱膈淋巴結(jié)目前主要有兩種方式:一種是集成不同二維分割網(wǎng)絡(luò)分割[6]結(jié)果;另一種是加入縱膈器官信息的單階段三維分割[5]。
醫(yī)學(xué)圖像淋巴結(jié)、結(jié)節(jié)等小目標(biāo)以及淋巴結(jié)與周圍軟組織差異小對(duì)最終分割精度影響大,針對(duì)以上問題有以下幾種解決方案:第一種思路是文獻(xiàn)[6]提出的集成兩種不同的分割網(wǎng)絡(luò)如二維U 形網(wǎng)絡(luò)(2D U Network,2D UNet)[7]和Mask-RCNN(Mask Region Convolutional Neural Network)[8]的結(jié)果。但由于僅集成了兩種網(wǎng)絡(luò)結(jié)果,并未針對(duì)不同尺度淋巴結(jié)進(jìn)行處理,導(dǎo)致小淋巴分割精度低;而且該方法僅利用了序列圖像的二維特征,所以最終分割精度和效率都不高。第二種思路是秦品樂等[9]提出的采用多階段二維三維結(jié)合的思路,即對(duì)二維單張圖像提取間隙后再分割來獲得疑似淋巴結(jié),并將疑似淋巴結(jié)層間合并為體積塊后再輸入三維卷積分類網(wǎng)絡(luò)。該方法由于共采用了兩次二維單張圖像分割,血管、淋巴結(jié)單張圖像差別小,假陽性高,易引入累計(jì)誤差,之后再加入三維分類網(wǎng)絡(luò)導(dǎo)致整體耗時(shí)長(zhǎng)、效率低。第三種思路是文獻(xiàn)[5]提出的通過非深度學(xué)習(xí)方法分割部分縱膈器官后,將分割淋巴結(jié)擴(kuò)展為多分類任務(wù),再向3D U-Net[10]中輸入縱膈器官和淋巴結(jié)標(biāo)注,能在一定程度上減少負(fù)樣本,提高小淋巴結(jié)分割精度。第四種思路如文獻(xiàn)[11]中通過第一步粗分割得到目標(biāo)感興趣區(qū)域塊后輸入細(xì)分割網(wǎng)絡(luò),粗分割和細(xì)分割網(wǎng)絡(luò)都以3D U-Net為骨架,其中細(xì)分割網(wǎng)絡(luò)加入多種二維編碼器對(duì)特征進(jìn)行集成。相較其他三種思路,第四種思路精度更高,基于三維卷積更適合于序列圖像任務(wù),因此本文也采用這種思路。通過分析和醫(yī)學(xué)先驗(yàn)發(fā)現(xiàn),感興趣區(qū)域可以通過以縱膈器官為掩碼獲得,能有效減少背景干擾,提升小淋巴結(jié)識(shí)別效率,增加縱膈淋巴結(jié)與周圍組織差異,加速網(wǎng)絡(luò)訓(xùn)練過程。因此,本文將第四種思路與第二種思路結(jié)合:在第一階段分割縱膈器官、縱膈淋巴結(jié),在保留淋巴結(jié)的基礎(chǔ)上以縱膈器官為掩膜去除縱膈內(nèi)外干擾器官組織,能有效改善縱膈淋巴結(jié)分割效果。
在第一階段的基礎(chǔ)上,由于去掉器官后仍留有部分縱膈組織和肺部腫瘤,兩者都和淋巴結(jié)特征相似,因此如何只關(guān)注縱膈淋巴結(jié),忽略周圍軟組織、肺腫瘤的干擾是另一個(gè)關(guān)鍵問題。目前很多算法都引入了自注意力機(jī)制,通過計(jì)算特征圖、通道間信息來獲取對(duì)應(yīng)權(quán)值以引導(dǎo)神經(jīng)網(wǎng)絡(luò)關(guān)注目標(biāo)區(qū)域,獲取整體位置依賴。Hu 等[12]發(fā)現(xiàn)不同特征圖對(duì)關(guān)鍵信息的貢獻(xiàn)不同,因此可以通過學(xué)習(xí)的方式來自動(dòng)獲取到每個(gè)特征通道的重要程度,然后依據(jù)重要程度去提升有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征,類似于通道注意力[13]。Jaderberg等[14]發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)池化下采樣操作直接將信息合并會(huì)導(dǎo)致關(guān)鍵信息無法識(shí)別,提出了空間轉(zhuǎn)換模塊結(jié)構(gòu),用于指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的空間特性,類似于空間注意力機(jī)制。Wang等[15]引入一種Non-Local塊,輸出層的每個(gè)位置與整個(gè)特征圖的依賴都計(jì)算一遍,獲取全局信息,增強(qiáng)相似特征,是一種自注意力機(jī)制。由此,注意力機(jī)制已經(jīng)證明可以很好地提取關(guān)鍵特征。本文引入全局聚合模塊和混合位置、通道注意力模塊并擴(kuò)展到三維后,計(jì)算任意兩個(gè)位置、深度、通道之間的依賴。本文算法在縱隔淋巴結(jié)數(shù)據(jù)集中的Dice score 達(dá)到了0.701 1,優(yōu)于文獻(xiàn)[6]中加入縱膈器官標(biāo)簽的單階段分割算法和文獻(xiàn)[5]中加入縱膈器官標(biāo)簽的并行二維分割算法。
針對(duì)縱膈淋巴結(jié)分割中縱膈淋巴結(jié)尺寸差異大、正負(fù)樣本不平衡、與周圍軟組織及肺腫瘤特征差異不明顯的問題,通過醫(yī)學(xué)先驗(yàn)和深度學(xué)習(xí)結(jié)合,根據(jù)淋巴結(jié)只存在于組織間隙的特點(diǎn),本文設(shè)計(jì)了兩階段算法模型,并引入注意力機(jī)制增強(qiáng)淋巴結(jié)特征,減少軟組織、肺腫瘤干擾。
本文主要工作如下:
1)設(shè)計(jì)了一種新穎的多階段分割結(jié)構(gòu),通過醫(yī)學(xué)先驗(yàn)去掉干擾器官等負(fù)樣本,增強(qiáng)淋巴結(jié)信息,能有效提升訓(xùn)練精度同時(shí)減少訓(xùn)練時(shí)間,最后可以根據(jù)縱膈器官和縱膈淋巴結(jié)定位所在分區(qū);
2)改造原始3D 分割網(wǎng)絡(luò),針對(duì)縱膈淋巴結(jié)可能與軟組織、肺腫瘤混淆的問題,引入了全局聚合模塊,獲取全局、局部以及深度特征;
3)針對(duì)縱膈淋巴結(jié)尺寸差異大、軟組織和肺腫瘤干擾分割等問題,改造原始編解碼塊短接,加入雙注意力模塊,將通道注意力替換為自適應(yīng)感受野模塊并擴(kuò)展注意力機(jī)制到三維,增強(qiáng)縱膈淋巴結(jié)空間形態(tài)特征,大大增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)的分割能力。
目前基于深度學(xué)習(xí)的三維醫(yī)學(xué)影像分割算法按階段分為單階段和多階段兩類,按維度分為二維與三維兩類。單階段例如U-Net、3D U-Net、U-Net++[16]、Non Local U-Net[17],這類方法一般修改現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu),加入注意力機(jī)制[18-19]或殘差塊[20]提升網(wǎng)絡(luò)結(jié)果;第二類是多階段方法,主要有Mask-RCNN、文獻(xiàn)[11]中的級(jí)聯(lián)算法和文獻(xiàn)[9]中的級(jí)聯(lián)算法等。
多階段分割網(wǎng)絡(luò)通過對(duì)目標(biāo)的候選區(qū)域進(jìn)行粗分割、篩選,然后再進(jìn)行精細(xì)分割。多階段中粗分割可能會(huì)引入累計(jì)誤差,通常采用修改損失函數(shù)、增大候選區(qū)域等方法以獲得更高召回率,降低累計(jì)誤差。
深度學(xué)習(xí)視覺任務(wù)中注意力模擬大腦只關(guān)注感興趣區(qū)域并忽略其他背景干擾,與多階段算法人為干預(yù)提取感興趣區(qū)域是類似的想法。注意力機(jī)制將可用計(jì)算資源偏向更有用的特征信息[13]。
綜上所述,本文方法結(jié)合了目前深度學(xué)習(xí)中縱膈淋巴結(jié)分割任務(wù)中文獻(xiàn)[5-6]單階段加入器官標(biāo)簽和多階段分割任務(wù)中文獻(xiàn)[9]和文獻(xiàn)[11]的思想,設(shè)計(jì)了雙階段分割算法。針對(duì)縱膈淋巴結(jié)正負(fù)樣本不平衡和尺寸差異問題,本文與文獻(xiàn)[5-6]中方法相同,在階段一中加入器官標(biāo)簽,同時(shí)分割淋巴結(jié)和器官;得到分割結(jié)果后經(jīng)過數(shù)字圖像處理,根據(jù)醫(yī)學(xué)先驗(yàn)去掉原圖的器官等干擾因素來提高階段二網(wǎng)絡(luò)分割精度并降低訓(xùn)練難度。針對(duì)縱膈淋巴結(jié)尺寸差異、軟組織和肺腫瘤特征相似等問題,階段二與文獻(xiàn)[5-6,9,11]中方法的不同在于,針對(duì)縱膈淋巴結(jié)尺寸差異、軟組織和肺腫瘤特征相似等問題,階段二提出基于注意力機(jī)制的分割網(wǎng)絡(luò),引入并修改了全局聚合模塊和雙注意力模塊來解決以上問題,進(jìn)一步提升了最終分割精度。
本文算法總體框架如圖1 所示:第一個(gè)階段采用3D U-Net 分割縱膈器官、淋巴結(jié);第二個(gè)階段將原圖去掉縱膈器官后輸入到注意力分割網(wǎng)絡(luò)中進(jìn)行精細(xì)分割。
圖1 本文算法總體框架Fig.1 Overall framework of the proposed algorithm
根據(jù)醫(yī)學(xué)先驗(yàn),縱膈淋巴結(jié)存在于縱膈器官間隙間軟組織中,縱膈處器官分別為食管、肺干、主動(dòng)脈弓、升動(dòng)脈弓、降動(dòng)脈弓、奇靜脈、心臟、靜脈腔、頭壁靜脈、脊柱、肺靜脈、鎖骨下和頸動(dòng)脈、肺、氣道。其中心臟、肺部、脊柱、降動(dòng)脈等器官尺寸較大或位置固定,特征明顯,分割精度高。階段一中,分割以上器官加縱膈淋巴結(jié),其中器官分割平均Dice score 為0.869 0。得到分割結(jié)果后對(duì)整體器官做閉操作、填補(bǔ)空洞,得到整體胸腔內(nèi)部,排除胸腔外軟組織干擾,并且同時(shí)將脊柱排除,如圖2(b)所示。之后在原圖基礎(chǔ)上保留淋巴結(jié)粗分割,以各器官為掩膜,去除器官后進(jìn)行開操作以去掉毛細(xì)血管、過小結(jié)節(jié)等,如圖2(d)所示。第一階段處理后理想情況應(yīng)包含全部淋巴結(jié),但實(shí)際情況下經(jīng)過第一個(gè)階段處理后總體召回率為0.910 2,其中部分病例數(shù)據(jù)Dice score 和準(zhǔn)確率可達(dá)0.50 以上,因此權(quán)衡引入的累計(jì)誤差和階段二中分割性能提升,認(rèn)為可以接受第一階段處理導(dǎo)致的累計(jì)誤差。
在階段一獲取到縱膈組織間隙,原圖包含縱膈淋巴結(jié)、血管、肺泡、其他結(jié)節(jié)和軟組織。縱膈淋巴結(jié)單張圖像與血管差別較小,采用三維卷積獲取層間上下文信息可以在序列圖中將兩者區(qū)分開。縱膈淋巴結(jié)尺寸差異大,通過去除縱膈器官加滑動(dòng)窗口的形式減少反例、背景,縮小輸入尺寸。經(jīng)過以上處理后輸入引入注意力機(jī)制的分割網(wǎng)絡(luò)中。
圖2 縱膈間隙提取過程Fig.2 Extraction process of mediastinal space extraction
本文提出的基于注意力的分割網(wǎng)絡(luò)模型整體結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)結(jié)構(gòu)和3D U-Net 相同,采用編碼器、解碼器結(jié)構(gòu)。主干網(wǎng)絡(luò)采用標(biāo)準(zhǔn)3D U-Net 編、解碼塊,只在編碼、解碼塊中下、上采樣階段加入全局聚合模塊,在編、解碼短接中加入雙注意力模塊。模型在第二到第四個(gè)編解碼塊中加入全局聚合(下、上采樣)模塊,特征塊同時(shí)進(jìn)入編碼塊和全局聚合模塊中,最后通過元素求和的方式累加,解碼塊同理。模型在第三到第五個(gè)特征圖concate 操作前通過雙注意力模塊?;谧⒁饬Φ姆指罹W(wǎng)絡(luò)主要包含兩部分結(jié)構(gòu):全局聚合模塊(Global Aggregation Block,GAB)和雙注意力模塊(Dual Attention Block,DAB),其中雙注意力模塊包含位置注意力模塊(Position Attention Module,PAM)、通道注意力模塊(Channel Attention Module,CAM)。與普通卷積局部操作不同,GAB 主要通過計(jì)算全局位置間依賴,增強(qiáng)相似特征,增大感受野,減少在下、上采樣中最大池化、反卷積丟失的信息。混合模塊主要通過自注意力來捕獲特征圖的任意兩個(gè)位置的空間依賴性(這一點(diǎn)與GAB 相似),然后通過不同卷積層得到不同感受野下目標(biāo)特征后獲取通道信息,經(jīng)過瓶頸層后對(duì)相應(yīng)特征塊進(jìn)行通道增強(qiáng)。
圖3 網(wǎng)絡(luò)模型總體結(jié)構(gòu)Fig.3 Overall structure of network model
由于醫(yī)學(xué)圖像成像質(zhì)量差,縱膈結(jié)構(gòu)復(fù)雜,容易導(dǎo)致縱膈淋巴結(jié)與淋巴結(jié)周圍軟組織特征相似度高,影響網(wǎng)絡(luò)判斷,因此需要設(shè)計(jì)模型能夠較好地獲取區(qū)分淋巴結(jié)與軟組織。卷積操作只能獲得淋巴結(jié)局部特征,縱膈淋巴結(jié)的三維特征明顯,因此希望能夠獲得全局包括深度特征、增加縱膈淋巴結(jié)和周圍軟組織間特征差別。Wang 等[17]提出的非局部注意力模塊Non Local能夠很好地解決這個(gè)問題,本文也引入Non Local后擴(kuò)展到三維,以獲取全局以及深度間依賴關(guān)系。如圖4 所示全局聚合模塊主要分為三個(gè)部分:query(Q)、key(K)、value(V),即Q(B×DQ×HQ×WQ×CK),K(B×D×H×W×CK),V(B×D×W×N×CV),其中:
式中:Unfold(?)為將D×H×W×C中深度、長(zhǎng)寬拉為一維,變成(D×H×W) ×C;QueryTransformsCk(?)為可以改變輸入特征圖深度、長(zhǎng)寬的任意操作,如降采樣則一般采用卷積核為3× 3× 3、步幅為2 的3D 卷積;Conv_1Cx為采用1× 1× 1 卷積核將通道變?yōu)镃x的3D卷積。
圖4 全局聚合模塊Fig.4 Global aggregation block
在得到Q、K、V三個(gè)向量后,再進(jìn)行如下計(jì)算:
其中:A為空間依賴權(quán)重,A與特征塊V進(jìn)行矩陣相乘得到O。O為增強(qiáng)后的特征,維度為(DQ×HQ×WQ)×CV,經(jīng) 過dropout、Fold(?)還原后,使用卷積核為1× 1× 1改變O通道維度。最終編解碼塊特征圖與O逐像素相加。
全局聚合模塊可以減少最大池化造成的信息丟失,并且可以通過計(jì)算三維特征塊每個(gè)位置間依賴關(guān)系,增強(qiáng)縱膈淋巴結(jié)三維特征,較原有網(wǎng)絡(luò)能大幅提升縱膈淋巴結(jié)分割精度。
縱膈淋巴結(jié)分散在縱膈器官間隙間的14 個(gè)分區(qū)中,為了將縱膈淋巴結(jié)分割和解析到與語義類別相關(guān)的不同圖像區(qū)域,以及進(jìn)一步區(qū)分軟組織、淋巴結(jié)特征,引入自然圖像處理中用于場(chǎng)景分割的位置、通道注意力模塊。與場(chǎng)景分割問題相似,同樣需要區(qū)分一些易混淆的類別,例如自然圖像中“田地”和“草地”的區(qū)域通常難以劃分。本文將雙注意力分割網(wǎng)絡(luò)(Dual Attention Network,DANet)[21]中兩種注意力模塊卷積、變換擴(kuò)展為三維,將通道注意力改為自適應(yīng)感受野后嵌入到編解碼器同層連接中,在同層連接中,需要捕獲任意兩個(gè)位置間的空間依賴性,這樣具有相似特征的兩個(gè)位置都可以貢獻(xiàn)出改進(jìn)。與GAB 相比,同層連接中不需要對(duì)特征圖尺寸進(jìn)行變化,沒有上下采樣操作導(dǎo)致信息丟失,采用位置注意力模塊與通道注意力模塊更優(yōu)。
其中,位置注意力模塊實(shí)現(xiàn)原理類似全局聚合模塊,局部特征A(B×D×H×W×C)經(jīng)過三個(gè)卷積層,得到特征圖A1(B×D×H×W×C)、A2(B×D×H×W×C) 和A3(B×D×H×W×C)。如圖5(a)所示,分別經(jīng)過Unfold(?)函數(shù)后,有
得到空間注意力權(quán)重S(D×H×W)2,它表示三維特征塊中任意兩個(gè)位置之間的依賴,兩個(gè)位置越相似,相關(guān)性就越高。擴(kuò)展到三維,可以加入深度的依賴信息,加強(qiáng)縱隔淋巴結(jié)蠶豆?fàn)钐卣鳌?/p>
最后計(jì)算得到最終結(jié)果E1:
其中超參數(shù)α初始為0,并在之后學(xué)習(xí)分配更多權(quán)重。位置注意力模塊計(jì)算了所有位置間依賴權(quán)重,依賴權(quán)重與原始特征之間加權(quán)和可以得到增強(qiáng)特征。
圖5 三維雙注意力機(jī)制示意圖Fig.5 Schematic diagram of 3D dual attention mechanism
文獻(xiàn)[21]中通道注意力簡(jiǎn)單地將原始圖像變?yōu)橐痪S,忽略了縱膈淋巴結(jié)尺寸差異。本文為了能夠得到不同尺度目標(biāo)特征,修改文獻(xiàn)[21]中通道注意力為自適應(yīng)感受野[22],并擴(kuò)展到三維,為了減少計(jì)算和顯存,調(diào)整原結(jié)構(gòu)中固定5× 5× 5卷積為級(jí)聯(lián)3× 3× 3卷積和空洞卷積。由于文獻(xiàn)[23]認(rèn)為在淺層中級(jí)聯(lián)卷積效果不佳,因此在淺層中替換為空洞卷積。由于空洞卷積容易引起網(wǎng)格效應(yīng),首先利用空洞率為2 的空洞卷積操作增大感受野,再級(jí)聯(lián)空洞率為1 的標(biāo)準(zhǔn)卷積消除網(wǎng)格效應(yīng)[13]。如圖5(b)所示,自適應(yīng)感受野模塊計(jì)算分為分支、融合、選擇三個(gè)階段。
1)分支階段:修改原有感受野的卷積,對(duì)于給定的特征圖X采用3× 3× 3 卷積和級(jí)聯(lián)3× 3× 3 卷積或空洞卷積兩種不同感受野的卷積核構(gòu)建兩條不同感受野下的特征塊和
2)融合、選擇階段:與文獻(xiàn)[22]中方法相似,融合階段首先通過逐元素求和操作獲得融合特征U,通過全局自適應(yīng)池化獲得道信息S。引入文獻(xiàn)[12]中的思想構(gòu)建瓶頸層,對(duì)全局通道信息S進(jìn)行降維操作,得到緊湊特征Z(d)。對(duì)緊湊特征Z進(jìn)行升維操作、分離,得到a(c)、b(c)。緊湊特征Z的通道d由輸入特征的通道數(shù)C、降維比例r及下界L決定,r、L默認(rèn)為4,d=C/r且最小不低于L。
3)選擇階段:通過通道注意力權(quán)重a(c)、b(c)分別對(duì)兩種不同感受野特征進(jìn)行通道加權(quán)后逐元素求和,得到最終的融合特征E2。
通過加入自適應(yīng)感受野模塊,全自適應(yīng)感受野網(wǎng)絡(luò)比原分割網(wǎng)絡(luò)擁有更豐富的不同尺度目標(biāo)的語義特征,極大地提升了提取縱膈間隙、分割淋巴結(jié)的精度。
最后將通道注意力和位置注意力做逐像素加得到最終雙注意力O=E1+E2,最后與解碼器模塊特征圖進(jìn)行concate。
縱膈淋巴結(jié)分割任務(wù)為像素級(jí)進(jìn)行分類任務(wù),針對(duì)小目標(biāo)前背景不平衡和醫(yī)學(xué)分割等問題,本文損失函數(shù)定義為交叉熵?fù)p失、Dice 損失、Focal 損失[24]總和??倱p失函數(shù)Ltotal定義為:
其中:LCE為交叉熵?fù)p失函數(shù);LDice為Dice 損失;LFocal為Focal損失。
交叉熵?fù)p失定義為:
Dice損失函數(shù)定義為:
其中:p∈[0,1]n表示具有n個(gè)網(wǎng)絡(luò)輸出的預(yù)測(cè)值組成的一維向量,n為預(yù)測(cè)的像素?cái)?shù)量;y∈{0,1}n表示二值真值標(biāo)簽向量,正類為1,負(fù)類為0。這里Dice不取正數(shù),按原Dice計(jì)算。
Focal損失函數(shù)定義為:
實(shí)驗(yàn)數(shù)據(jù)集來源于公開縱膈數(shù)據(jù)集[7]與山西省腫瘤醫(yī)院CT 放射科提供的縱膈區(qū)域CT 序列圖像,圖像分辨率為512×512像素,山西省腫瘤醫(yī)院提供的數(shù)據(jù)集層厚為0.625 mm,由山西省腫瘤醫(yī)院4 位經(jīng)驗(yàn)豐富專家進(jìn)行手工標(biāo)注。放射科醫(yī)師對(duì)照公開數(shù)據(jù)集標(biāo)注的縱膈組織器官、淋巴結(jié)尺寸進(jìn)行標(biāo)注并多次校對(duì)。最終提取可用公開數(shù)據(jù)集和多位專家共同標(biāo)注的淋巴結(jié),獲得60 例,共計(jì)2 800 張圖像,其中包含1 310 張縱膈淋巴結(jié)圖像。
實(shí)驗(yàn)數(shù)據(jù)隨機(jī)抽取80%用于模型訓(xùn)練,剩余20%作為測(cè)試數(shù)據(jù)。數(shù)據(jù)預(yù)處理階段采集訓(xùn)練集中標(biāo)注的前景體素,基于值的0.5%~99.5%進(jìn)行強(qiáng)度值裁切,收集訓(xùn)練數(shù)據(jù)間距,對(duì)訓(xùn)練數(shù)據(jù)采用三階樣條插值重采樣。第二階段滑動(dòng)窗口大小設(shè)置為80 × 160 × 160,數(shù)據(jù)增強(qiáng)采用Batch Generators框架針對(duì)三維塊進(jìn)行隨機(jī)鏡像翻轉(zhuǎn)、隨機(jī)角度旋轉(zhuǎn)、隨機(jī)裁剪、彈性形變、隨機(jī)縮放、伽馬增強(qiáng)等方式增廣。
本文模型采用Adam 作為隨機(jī)梯度下降優(yōu)化器,初始學(xué)習(xí)率為3× 10-4,學(xué)習(xí)率衰減為3× 10-5,每當(dāng)訓(xùn)練損失的移動(dòng)平均值在20個(gè)epoch內(nèi)沒有改善時(shí),學(xué)習(xí)率降低0.2。訓(xùn)練使用一臺(tái)NVIDIA P100 GPU 服務(wù)器,每個(gè)epoch 訓(xùn)練時(shí)間為637.78s,總計(jì)約70個(gè)epoch。
訓(xùn)練完成后本文選用查準(zhǔn)率P(Precision),查全率R(Recall)和Dice score 共同評(píng)估本文模型和其他模型的性能。同時(shí)針對(duì)不同提取感興趣區(qū)域方法、引入的注意力模塊以及修改后的注意力模塊結(jié)構(gòu)進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證本文方法合理性。其中Dice score計(jì)算公式如下:
其中:X表示為標(biāo)簽值;Y表示為預(yù)測(cè)的分割結(jié)果。
首先,將本文提出的算法和其他常用的醫(yī)學(xué)影像分割算法、縱膈淋巴結(jié)分割算法進(jìn)行性能對(duì)比實(shí)驗(yàn)。數(shù)據(jù)集統(tǒng)一采用縱膈淋巴結(jié)數(shù)據(jù)集,基線方法采用標(biāo)準(zhǔn)3D U-Net方法,損失函數(shù)全部采用本文定義的損失,不同方法對(duì)比結(jié)果如表1 所示。相較其他算法,本文算法在各個(gè)評(píng)估指標(biāo)上均有明顯提升,并且各個(gè)性能指標(biāo)均高于0.7,在縱膈淋巴結(jié)分割領(lǐng)域,本文算法達(dá)到了最高水平。不同檢測(cè)算法的損失對(duì)比如圖6所示。
表1 不同方法實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Comparison of experimental results of different methods
圖6 不同檢測(cè)算法的損失對(duì)比Fig.6 Comparison of loss in different detection algorithms
為了驗(yàn)證注意力模塊結(jié)構(gòu)設(shè)計(jì)的合理性,本文設(shè)計(jì)了六種不同結(jié)構(gòu):第一種是直接使用3D U-Net,不加取間隙、無注意力模塊;第二種取間隙后采用無注意力模塊的3D U-Net;第三種只在編碼、解碼器上下采樣塊中加入全局聚合模塊,去掉雙注意力模塊;第四種是僅在編解碼短接中加入文獻(xiàn)[21]中的位置、通道注意力模塊;第五種是僅在編解碼器短接中加入本文提出的雙注意力模塊;第六種為本文方法,加入全局聚合模塊和本文提出的位置、通道注意力混合模塊。根據(jù)表2 所示的結(jié)果可以看出,本文設(shè)計(jì)的基于注意力機(jī)制的分割網(wǎng)絡(luò)可以更好地提升網(wǎng)絡(luò)的性能。
表2 注意力模塊實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Comparison of experimental results of attention modules
不同方法分割結(jié)果的可視化如圖7 所示,比較的方法分別為標(biāo)簽、基線方法、2D U-Net+Mask RCNN[5]方法、3D U-Net 加入組織標(biāo)簽(Structures)[6]方法和本文方法。其中第一行為不同方法對(duì)小目標(biāo)和肺腫瘤等區(qū)分能力比較;第二行為不同方法對(duì)較大目標(biāo)分割能力比較;第三行為不同方法對(duì)中等偏小較易分割淋巴結(jié)的分割能力比較。綜上基本涵蓋了縱膈淋巴結(jié)分割中的不同情況,可以看出本文方法分割效果更好,并且有效地解決了縱膈淋巴結(jié)與軟組織、肺腫瘤難以區(qū)分的問題。
圖7 分割結(jié)果對(duì)比Fig.7 Comparison of segmentation results
本文針對(duì)目前深度學(xué)習(xí)分割縱膈淋巴結(jié)精度差、縱膈淋巴結(jié)分割難等問題提出了一個(gè)三維雙階段淋巴結(jié)分割算法,并設(shè)計(jì)了基于注意力機(jī)制的分割網(wǎng)絡(luò),主要用于縱膈淋巴結(jié)分割,并根據(jù)縱膈器官和淋巴結(jié)進(jìn)行分區(qū)定位。首先,進(jìn)行縱膈淋巴結(jié)粗分割與干擾器官去除操作,用于解決正負(fù)樣本不均衡、縱膈淋巴結(jié)尺寸差異大問題;然后,引入了全局聚合模塊、雙注意力模塊計(jì)算三維塊整體信息和不同感受野下的特征信息,增強(qiáng)淋巴結(jié)特征,減少軟組織、肺腫瘤干擾;最后,可以進(jìn)一步結(jié)合縱膈器官、淋巴結(jié)來得到縱膈淋巴結(jié)分區(qū)。本文算法在縱膈淋巴結(jié)數(shù)據(jù)集分割上實(shí)現(xiàn)了0.726 9 的召回率和0.701 1 的Dice score,并且本文算法靈活簡(jiǎn)單,同樣適用于其他淋巴結(jié)分割任務(wù)中。目前只使用了標(biāo)準(zhǔn)3D U-Net作為骨架,使用V-Net 等性能更優(yōu)的分割網(wǎng)絡(luò)作為主干將會(huì)更好地提升模型性能。因?yàn)槭艿斤@存限制,無法將全局聚合模塊和雙注意力模塊用于第一、二層特征圖,之后將針對(duì)兩個(gè)模塊作進(jìn)一步改進(jìn),嘗試加入搜索窗。