周 濤, 張祥祥*, 陸惠玲, 李 琦, 程倩茹
(1. 北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 寧夏 銀川 750021;2. 北方民族大學(xué)圖像圖形智能處理國(guó)家民委重點(diǎn)實(shí)驗(yàn)室, 寧夏 銀川 750021;3. 寧夏醫(yī)科大學(xué) 醫(yī)學(xué)信息工程學(xué)院, 寧夏 銀川 750004)
醫(yī)學(xué)圖像融合是指將來(lái)自不同技術(shù)的圖像融合成一幅融合圖像,從而最大限度地利用有用信息,減少冗余,與單一模態(tài)的醫(yī)學(xué)圖像相比,融合圖像所包含的紋理結(jié)構(gòu)信息更加豐富,病灶更加明顯,減少圖像的不確定性和冗余信息,提高臨床適用性[1],從而能夠幫助醫(yī)生在許多臨床應(yīng)用中進(jìn)行綜合診斷、術(shù)前規(guī)劃、術(shù)中指導(dǎo)和介入治療[2]。由于成像方式不同,不同模態(tài)醫(yī)學(xué)圖像反應(yīng)的器官結(jié)構(gòu)信息也不同,如CT 成像利用X射線檢測(cè)骨骼和致密結(jié)構(gòu)的信息,對(duì)骨骼的顯示很清晰[3],對(duì)病變的定位良好,但對(duì)病變本身的顯示相對(duì)較差,軟組織對(duì)比度有限。PET 圖像對(duì)軟組織、器官、血管等顯示清晰,有利于確定病灶范圍,但空間分辨率不如CT,對(duì)剛性的骨組織顯示差,并有一定的幾何失真[4]。多模態(tài)醫(yī)學(xué)圖像融合技術(shù)通過(guò)綜合不同模態(tài)醫(yī)學(xué)圖像之間的互補(bǔ)與冗余信息,為臨床疾病診斷與科學(xué)研究提供豐富的信息,可以有效輔助醫(yī)生對(duì)病灶進(jìn)行診斷。
現(xiàn)有的圖像融合方法可分為傳統(tǒng)的融合方法和基于深度學(xué)習(xí)的融合方法,其中傳統(tǒng)融合方法大致可以分為:基于多尺度變換的方法[5]、基于稀疏表示(Sparse Representation,SR)的方法[6]、混合方法[7]和其他方法[8],這些方法通常需要手動(dòng)設(shè)計(jì)特征提取機(jī)制和融合策略,如Li 等人[9]提出潛在低秩表示(Latent Low-Rank Representation,LatLRR)圖像融合方法,將源圖像分為低秩部分和顯著部分,有效保留邊緣輪廓信息。Li 等人[10]提出拉普拉斯再分解(Laplacian Redecomposition,LRD)醫(yī)學(xué)圖像融合方法,有效解決顏色失真、模糊和噪聲問(wèn)題。這些方法仍然存在魯棒性不足、泛化能力弱、優(yōu)化困難、需要更多計(jì)算資源和細(xì)節(jié)丟失等缺點(diǎn)。
基于深度學(xué)習(xí)的融合方法可進(jìn)一步劃分為卷積神經(jīng)網(wǎng)絡(luò)、編解碼網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)的圖像融合方法:基于卷積神經(jīng)網(wǎng)絡(luò)的圖像融合方法通過(guò)利用卷積運(yùn)算強(qiáng)大的特征提取和重建能力來(lái)獲得更好的融合性能。Liu 等人[11]提出了一種用于醫(yī)學(xué)圖像融合的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),使用連體卷積網(wǎng)絡(luò)生成權(quán)重圖,對(duì)源圖像的像素活動(dòng)信息進(jìn)行整合,并通過(guò)圖像金字塔以多尺度方式進(jìn)行融合。Tang 等人[12]提出基于殘差編解碼細(xì)節(jié)保留交叉網(wǎng)絡(luò)(Detail Preserving Cross Network,DPCN),該網(wǎng)絡(luò)采用結(jié)構(gòu)引導(dǎo)的功能特征提取分支、功能引導(dǎo)的結(jié)構(gòu)特征提取分支,雙分支提取架構(gòu)提取源圖像的功能信息和結(jié)構(gòu)信息。但由于只有最后一層的結(jié)果被用作圖像特征,因此容易丟失中間層信息?;诰幗獯a網(wǎng)絡(luò)的圖像融合方法通過(guò)設(shè)計(jì)和訓(xùn)練由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的編碼器和解碼器得到融合圖像,有效地避免神經(jīng)網(wǎng)絡(luò)深度對(duì)性能的影響,如DenseFuse[13],在編碼器中引入密集連接機(jī)制有效解決中間層信息丟失問(wèn)題,Res2Net[14]將Resnet 模塊用于編碼器中,提高網(wǎng)絡(luò)的多尺度特征提取能力。DIFNet(Deep Image Fusion Net)[15]采用雙編碼器生成與高維輸入圖像具有相同對(duì)比度的輸出圖像。
EMFusion(Enhanced Medical Image Fusion Network)[16]通過(guò)表層和深層約束以增強(qiáng)信息保存,其中表層水平約束基于顯著性和豐富測(cè)量,深層約束是通過(guò)訓(xùn)練編碼器定義的,有效解決了信息失真的問(wèn)題。這些方法有效解決中間層信息丟失問(wèn)題,但訓(xùn)練過(guò)程中專注于圖像重建任務(wù),無(wú)法正確的提取出融合所需要的顯著特征,忽略全局特征的提取?;谏蓪?duì)抗網(wǎng)絡(luò)的圖像融合方法在生成器和鑒別器之間建立對(duì)抗博弈,可以無(wú)監(jiān)督地估計(jì)目標(biāo)的概率分布,從而以隱式方式實(shí)現(xiàn)特征提取、特征融合和圖像重建[17]。Ma 等人將GAN(Generative Adversarial Network)[18]引入圖像融合領(lǐng)域,提出一種名為FusionGAN 的融合方法。DDcGAN(Dual-Discriminator Conditional Generative Adversarial Network)[19]包含兩個(gè)鑒別器來(lái)驅(qū)動(dòng)生成器融合源圖像特征信息,以保持與兩個(gè)輸入圖像之間的最大相似性。Zhang等人[20]提出了一種具有全尺度跳躍連接和雙馬爾可夫鑒別器(GAN with Full-scale skip connection and dual Markovian discriminators, GANFM)的生成對(duì)抗融合網(wǎng)絡(luò),以充分保留源圖像中的有效信息,保留顯著對(duì)比度和豐富紋理。然而這些方法模型復(fù)雜,使得訓(xùn)練過(guò)程不穩(wěn)定,生成器和鑒別器之間的對(duì)抗不充分導(dǎo)致融合圖像失真。
基于深度學(xué)習(xí)網(wǎng)絡(luò)的醫(yī)學(xué)圖像融合是近幾年的研究熱點(diǎn)。但是根據(jù)上述文獻(xiàn)報(bào)道以及醫(yī)學(xué)圖像的特點(diǎn),現(xiàn)有融合模型還存在一些不足,從問(wèn)題的角度來(lái)看,由于成像機(jī)制的不同,不同模態(tài)的醫(yī)學(xué)圖像側(cè)重于不同類別的器官或組織信息,存在周圍組織與病灶區(qū)域之間的模式復(fù)雜性和強(qiáng)度相似性問(wèn)題;從方法的角度來(lái)看,由于卷積神經(jīng)網(wǎng)絡(luò)有限的感受野,特征提取過(guò)程中主要關(guān)注圖像的局部信息,難以捕獲全局上下文語(yǔ)義信息,忽略全局特征與局部特征的交互。為此本文從問(wèn)題角度出發(fā),充分考慮CNN 網(wǎng)絡(luò)的特點(diǎn),加強(qiáng)全局特征與局部特征的交互,提出一種用于PET 和CT 圖像的醫(yī)學(xué)圖像融合方法LLGG-LG Net,其主要貢獻(xiàn)是:(1)構(gòu)造了用于提取局部-全局信息的三分支融合網(wǎng)絡(luò),有效提取源圖像的局部信息和全局信息,增強(qiáng)局部-全局的信息交互能力;(2)設(shè)計(jì)了局部-局部融合模塊(Local-Local Fusion Module,LL Module),通過(guò)兩次空間注意力獲取PET/CT 的局部融合信息,生成局部融合圖像;(3)提出了全局-全局融合模塊(Global-Global Fusion Module,GG Module),通過(guò)在Swin Transformer 中添加殘差連接機(jī)制以提高全局信息的融合性能,生成全局融合圖像;(4)為了提高局部-全局信息的交互能力,進(jìn)一步增強(qiáng)融合圖像質(zhì)量,提出局部-全局融合模塊(Local-Global Fusion Module,LG Module),聚合局部融合圖像特征和全局融合圖像特征,使融合圖像病變區(qū)域顯著、細(xì)節(jié)豐富且魯棒性高。
本文提出用于PET 和CT 醫(yī)學(xué)圖像融合的LL-GG-LG Net 融合方法,該方法框架由局部-局部融合模塊(Local-Local Fusion Module,LL Module)、全局-全局融合模塊(Global-Global Fusion Module,GG Module)和局部-全局融合模塊(Local-Global Fusion Module,LG Module)三部分組成,首先將配準(zhǔn)好的醫(yī)學(xué)圖像IPET,ICT分別經(jīng)過(guò)LL Module 和GG Module,得到局部融合圖像FL和全局融合圖像FG,然后將FL和FG輸入到LG Module 中重建得到最終融合圖像FM。該方法有效解決背景和病灶區(qū)域相似度高,提取全局信息特征能力有限,局部-全局信息交互能力弱,難以有效保留病變區(qū)域復(fù)雜信息的問(wèn)題。
LL-GG-LG Net 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,首先將源圖像轉(zhuǎn)換為卷積層的特征表示,并輸入LLGG-LG Net 網(wǎng)絡(luò)的局部-局部融合模塊分支中,通過(guò)空間注意力機(jī)制提取源圖像邊緣紋理信息,生成注意力圖,并將源圖像和生成的權(quán)重圖進(jìn)行相乘操作,最后進(jìn)行累加生成局部融合圖像;然后通過(guò)1×1 卷積將源圖像進(jìn)行位置編碼,生成序列向量,并將其輸入到全局-全局融合模塊中,提取全局特征,采用L1-norm 融合規(guī)則生成全局融合圖像;最后,將雙分支融合網(wǎng)絡(luò)所生成的局部融合圖像和全局融合圖像采用局部-全局融合模塊進(jìn)行圖像重構(gòu),提高局部-全局信息的交互,增強(qiáng)融合圖像質(zhì)量。
圖1 LL-GG-LG Net 醫(yī)學(xué)圖像融合網(wǎng)絡(luò)Fig.1 LL-GG-LG Net Medical Image Fusion Network
注意力機(jī)制通常根據(jù)源有特征圖設(shè)計(jì)一個(gè)權(quán)重分布,通過(guò)其權(quán)重分布區(qū)分每個(gè)區(qū)域的重要性,再將該權(quán)重分布施加到源特征圖上,抑制背景中的不同干擾,使得不同特征擁有不同權(quán)值,其中權(quán)值大的特征更加容易被注意到,因此在計(jì)算機(jī)視覺(jué)領(lǐng)域得到廣泛應(yīng)用[21]??臻g注意力機(jī)制[22]通過(guò)平均池化和最大池化獲得全局信息,但由于不同的信息表征,層次化特征的注意焦點(diǎn)有很大的不同,因此為了有效提取源圖像局部特征,本文設(shè)計(jì)了雙層注意力模塊提取局部細(xì)節(jié)信息,該模塊通過(guò)兩次平均池化和最大池化提取源圖像的邊緣和背景信息,用來(lái)凸顯像素層次上的重要空間位置特征,使得病變區(qū)域和骨骼紋理的邊界特征明顯。
雙層注意力模塊結(jié)構(gòu)如圖2 所示。首先將源圖像轉(zhuǎn)換為卷積層的特征表示,并輸入空間注意力模塊中,空間注意力模塊首先通過(guò)平均池化層和最大池化層分別對(duì)輸入特征通道域上進(jìn)行池化操作后再拼接在一起,得到2 倍通道特征圖,接著通過(guò)1×1 卷積將其壓縮為原通道,并再次通過(guò)平均池化層和最大池化層分別對(duì)輸入特征通道域上進(jìn)行池化操作后再拼接在一起,得到深層特征圖,并通過(guò)3×3 卷積壓縮其通道,此外,為了補(bǔ)償在最后卷積層中的上采樣操作期間丟失的特征,本文使用卷積層的一個(gè)跳躍連接,在下/上采樣操作后,局部-局部融合模塊可以完全包含源圖像局部特征信息,最后通過(guò)sigmoid 激活函數(shù)歸一化空間權(quán)重信息,得到空間注意力權(quán)重圖M2i,最后將輸入特征圖Ii和權(quán)重圖M2i對(duì)應(yīng)元素相乘,得到最終的局部融合圖像;局部-局部融合模塊公式如式(1)所示:
圖2 雙層注意力模塊Fig.2 Two-layer attention module
第一層局部特征信息表示:
其中:M1i表示第一層局部特征信息,Ii表示源圖像,i∈1,2,源圖像PET 圖像記為I1,源圖像CT記為I2,C1×1表示1×1 大小卷積核的卷積層。
最終權(quán)重圖表示公式如下:
其中:δ(·)表示Sigmoid 激活函數(shù),C3×3表示3×3 大小卷積核的卷積層,生成最終的局部融合圖,公式表達(dá)為:
其中:IA表示最終生成的局部融合圖像,⊙表示點(diǎn)乘操作。
CNN 通過(guò)利用卷積運(yùn)算強(qiáng)大的特征提取和重建能力來(lái)獲取圖像特征并重建融合圖像,然而根據(jù)局部處理的原理,CNN 對(duì)遠(yuǎn)程依賴建模的能力有限。Transformer[23]模型通過(guò)自注意力機(jī)制來(lái)捕獲上下文之間的全局交互信息,突出病變組織結(jié)構(gòu)特征,但忽略了局部相關(guān)性對(duì)于病灶特征融合的重要性。因此,為了有效提高網(wǎng)絡(luò)全局感知能力,保留病變區(qū)域的有效特征,本文使用全局-全局融合模塊,該模塊在Swin Transformer中添加殘差連接機(jī)制(Residual-Swin Transformer Module,RSTM)有效聚合不同層次的特征,彌補(bǔ)了Transformer 對(duì)病變區(qū)域特征提取弱的問(wèn)題,提高Transformer 在全局特征提取過(guò)程中關(guān)注病變局部特征的相關(guān)性,并采用L1-norm融合規(guī)則生成全局融合圖像。
全局-全局融合模塊內(nèi)部結(jié)構(gòu)如圖1(a)所示,本文首先將輸入圖像Ii∈RH×W×3(其中H、W和3 分別表示其高度、寬度和通道大小,i=1 表示源圖像PET 圖像,i=2 表示源圖像CT 圖像),首先采用1×1 卷積操作對(duì)源圖像進(jìn)行位置編碼,并將特征維度映射到維度C,C設(shè)置成96,生成序列向量=1 表示源圖像PET圖像,i=2 表示源圖像CT 圖像),然后應(yīng)用三個(gè)R-Swin Transformer 塊提取全局特征,其表達(dá)公式如下:
其中:RSTBm表示第m個(gè)R-Swin Transformer塊,通過(guò)以上操作,提取PET 和CT 圖像的全局特征,然后,采用基于行向量維數(shù)和列向量維數(shù)的L1-norm 融合規(guī)則進(jìn)行特征融合,得到融合的全局特征FG,其公式表示為:
其中:HNorm表示L1-norm 融合操作,最后使用卷積層重構(gòu)融合圖像IF,其公式為:
其中:HConv表示特征重構(gòu)卷積操作,該卷積為1×1 卷積,padding 設(shè)置為0。
2.3.1 R-Swin Transformer 模塊
圖3(a)展示了R-Swin Transformer 模塊(Residual-Swin Transformer Module,RSTM)的體系結(jié)構(gòu),它包括一系列STL 以及殘差連接,給定輸入序列向量,本文應(yīng)用n個(gè)STL 來(lái)提取中間全局特征(i=1 表示源圖像PET 圖像,i=2 表示源圖像CT 圖像),RSTM 的最終輸出由式(7)計(jì)算:
圖3 R-Swin Transformer 模塊結(jié)構(gòu)Fig.3 R-Swin Transformer module structure
其中:HRSTBn表示第n個(gè)STL。類似于CNN 的架構(gòu),多層Swin Transformer 可以有效地對(duì)全局特征進(jìn)行建模,殘差連接可以對(duì)不同層次的特征進(jìn)行聚合。
如圖3(b)所示,STL 由多頭自注意(Multiheaded Self-attention,MSA)和多層感知器(Multiple perceptron,MLP)組成。此外在每個(gè)MSA 模塊和每個(gè)MLP 之前都會(huì)應(yīng)用LN(LayerNorm)層,并且在每個(gè)模塊之后采用殘差連接,因此可以將Swin Transformer 中的第l層的輸出表示為:
由于W-MSA 的窗口之間相互作用較弱,為了在不增加計(jì)算量的情況下引入跨窗口交互,Swin Transformer 則在W-MSA 結(jié)構(gòu)之后添加了SW-MSA 模塊,該模塊的窗口配置與W-MSA 不同,其通過(guò)向左上方向循環(huán)移動(dòng)來(lái)開(kāi)發(fā)高效的批處理方法,在此移動(dòng)之后,批處理窗口可以由特征圖中的多個(gè)不相鄰窗口組成,同時(shí)在W-MAS中保持相同數(shù)量的批處理窗口作為規(guī)則劃分。W-MSA 和SW-MAS 中保持相同數(shù)量的批處理窗口作為規(guī)則劃分。W-MSA 和SW-MSA 在局部窗口內(nèi)進(jìn)行自注意計(jì)算時(shí),在計(jì)算相似度時(shí)都考慮了相對(duì)位置偏差。
利用這種移位窗口劃分機(jī)制,SW-MSA 和MLP 模塊的輸出可以寫為:
其中:WQ,WK和WV∈RD×d是跨不同窗口共享的三個(gè)線性投影層的可學(xué)習(xí)參數(shù),Q,K.V∈RL×d為查詢矩陣、鍵矩陣、值矩陣,d表示查詢或的維度,B∈RL×L表示相對(duì)位置偏差。
2.3.2L1-norm 融合規(guī)則
基于L1-norm 的PET 和CT 圖像序列矩陣的融合策略,并測(cè)量了它們的行和列向量維的活躍度。本文將PET 和CT 的全局特征分別定義為(i,j)和(i,j),首先使用L1-norm 計(jì)算它們的行向量權(quán)重,通過(guò)Softmax 函數(shù)獲得它們的活躍度,即HPETr(i)和HCTr(i),它們由以下方程表示:
同理,從列向量維測(cè)量其活躍度,并將PET和CT 圖像的列向量活躍度分別記為HPETl(j)和,它們由以下公式表示:
然后,得到列向量維的融合全局特征,并將其稱為Fcol(i,j),它由以下方程表示:
對(duì)融合后的全局特征在行向量維和列向量維度上進(jìn)行逐元加法運(yùn)算,得到最終的融合全局特征,其計(jì)算公式如下:
最后利用融合后的全局特征通過(guò)卷積層重建全局融合圖像。
由于不同病變區(qū)域的形狀和大小均不同,導(dǎo)致網(wǎng)絡(luò)在提取邊緣和紋理信息的同時(shí),難以保留病變特征,使得模型在關(guān)注局部病變特征的同時(shí)難以進(jìn)行病灶空間定位,因此本文通過(guò)添加局部-全局融合模塊進(jìn)行全局信息和局部信息的交互融合。根據(jù)密集網(wǎng)[24]的特性,即每一層的輸出將級(jí)聯(lián)到下一個(gè)輸入,使得網(wǎng)絡(luò)能夠更好地保留每一層提取的特征,增強(qiáng)了特征提取能力,有效保留局部信息特征和全局信息,本文引入密集網(wǎng)絡(luò)進(jìn)行最后一步融合。此外受神經(jīng)網(wǎng)絡(luò)架構(gòu)[25]的啟發(fā),考慮到輸入圖像特征不同,所需提取的信息也有所差異,相同的特征提取操作,難以兼顧不同源圖像的特征,因此本文設(shè)計(jì)基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索策略訓(xùn)練的密集網(wǎng)進(jìn)行局部-全局信息融合,為了降低計(jì)算成本,提高網(wǎng)絡(luò)的性能和效率,本文采用可微分神經(jīng)網(wǎng)絡(luò)架構(gòu)[26]自適應(yīng)的構(gòu)建和搜索以學(xué)習(xí)最佳密集網(wǎng)絡(luò)架構(gòu)(Darts:Differentiable Architecture Search,DDAS),保留局部融合圖像和全局融合圖像的差異信息,解決融合圖像噪聲和背景與病灶區(qū)域相似度高問(wèn)題。
DDAS 模塊結(jié)構(gòu)如圖4 所示。首先,采用搜索策略模塊訓(xùn)練密集網(wǎng)絡(luò),預(yù)定義了三個(gè)相同的密集連接網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)都包含五個(gè)節(jié)點(diǎn)的非循環(huán)圖,即0,1,2,3,4,其中每個(gè)節(jié)點(diǎn)表示一組特征圖,第一個(gè)節(jié)點(diǎn)由先前3×3 卷積操作得到的特征圖作為輸入節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的輸出都級(jí)聯(lián)到后續(xù)所有節(jié)點(diǎn)的輸入,本文將局部融合圖像和全局融合圖像分別輸入到密集網(wǎng)中,根據(jù)融合策略自適應(yīng)的訓(xùn)練網(wǎng)絡(luò),經(jīng)過(guò)訓(xùn)練選出最終的融合網(wǎng)絡(luò)架構(gòu),如圖4 所示,將局部融合圖像和全局融合圖像分別輸入到已經(jīng)訓(xùn)練好的密集網(wǎng)中,進(jìn)行特征提取和重構(gòu)操作,生成最終的融合圖像,實(shí)驗(yàn)表明該方法有效解決噪聲問(wèn)題以及背景和病灶區(qū)域相似度高問(wèn)題。
圖4 DDAS 模塊結(jié)構(gòu)Fig.4 DDAS module structure
2.4.1 搜索空間
本文搜索空間0 選擇如圖5 所示(彩圖見(jiàn)期刊電子版),其中運(yùn)算集合0(·)主要包括1×1 卷積、3×3 卷積、5×5 卷積、7×7 卷積、3×3 擴(kuò)張卷積、5×5 卷積、7×7 擴(kuò)張卷積、1×1 殘差卷積、3×3 殘差卷積、5×5 殘差卷積、7×7 殘差卷積、3×3 擴(kuò)張卷積、5×5 殘差擴(kuò)張卷積、7×7 殘差擴(kuò)張卷積等14 種操作,并以不同顏色箭頭進(jìn)行標(biāo)注。
圖5 搜索空間模塊結(jié)構(gòu)Fig.5 Search space module structure
2.4.2 搜索策略
本文采用的可微搜索策略,具體結(jié)構(gòu)如圖4所示,首先預(yù)定義了三個(gè)相同的單元組成網(wǎng)絡(luò),每個(gè)單元包含五個(gè)節(jié)點(diǎn)的非循環(huán)圖,即0,1,2,3,4,其中每個(gè)節(jié)點(diǎn)表示一組特征圖,第一個(gè)節(jié)點(diǎn)由先前3×3 卷積操作得到的特征圖作為輸入節(jié)點(diǎn),中間節(jié)點(diǎn)j與前身節(jié)點(diǎn)i之間的信息流由邊E(i,j)連接,中間節(jié)點(diǎn)是其先前邊的輸出總和,其表示為Nj,公式表達(dá)如下:
中間節(jié)點(diǎn)是其先前邊輸出的總和,而輸出節(jié)點(diǎn)則是通道維度中所有節(jié)點(diǎn)的串聯(lián),其表示為:
其中:搜索空間0 表示候選運(yùn)算O(·)集合,表示歸一化結(jié)構(gòu)參數(shù),Xi表示第i個(gè)節(jié)點(diǎn),體系結(jié)構(gòu)搜索的任務(wù)歸結(jié)為學(xué)習(xí)變量,在搜索結(jié)束時(shí),可以通過(guò)用最有可能的操作替換每個(gè)混合操作,進(jìn)而獲得離散結(jié)構(gòu),即(在集合0 中選取一個(gè)子操作使得最大)。
在搜索階段,本文需要解決一個(gè)雙層優(yōu)化問(wèn)題,本文使用LTrain和LVal分別表示訓(xùn)練和驗(yàn)證損失,這兩個(gè)損失由α和w確定(α表示三個(gè)單元的體系結(jié)構(gòu),w表示網(wǎng)絡(luò)的權(quán)重,*表示最優(yōu)權(quán)重),其中體系結(jié)構(gòu)的目標(biāo)是找到α*,使得LVal(w,α*)損失最小化;找出w*使得LTrain訓(xùn)練的損失最小,即w*=argminw LTrain(w,w*)。
為了簡(jiǎn)化訓(xùn)練搜索任務(wù),添加了特殊的空操作,及兩個(gè)節(jié)點(diǎn)之間缺少連接;經(jīng)訓(xùn)練選出一組最合適的融合架構(gòu),具體結(jié)構(gòu)如圖5 所示,其中0,1,2,3,4 五個(gè)節(jié)點(diǎn)之間的操作均采用不同顏色,其顏色與搜索空間顏色相對(duì)應(yīng),并對(duì)應(yīng)其具體操作。
數(shù)據(jù)集選用2018年1 月至2020年6 月在寧夏某三甲醫(yī)院核醫(yī)學(xué)進(jìn)行PET/CT 全身檢查的肺部腫瘤臨床患者,以圖像質(zhì)量符合分析要求(圖像質(zhì)量清晰、無(wú)偽影、病灶可見(jiàn)),患者未接收射頻消融,肺切除治療,且病理報(bào)告完整詳細(xì)為實(shí)驗(yàn)納入標(biāo)準(zhǔn),有95 名符合實(shí)驗(yàn)入選條件的患者納入實(shí)驗(yàn),身高不限,其中包括女性46 例(占48%),年齡30~80 歲,平均年齡(54.32±4.21)歲。男性49 例(占52%),年齡27~74 歲,平均年齡(50±5.11)歲。患者禁食6 h,控制血糖10 以下,顯像前排尿,去除金屬飾物。靜脈注射氟[18F]脫氧葡萄糖注射液(18F-FDG)3.7 mbq/kg,注射完顯像劑一小時(shí)后在安靜、避光的房間平臥45~60 min 進(jìn)行肺部及軀干部PET-CT 圖像采集,掃描完成取橫斷面、矢狀面與冠狀面圖像。數(shù)據(jù)集圖像標(biāo)準(zhǔn)化攝取值≥2.5 為陽(yáng)性,采用GE公司Discovery MI 型PET/CT 機(jī)進(jìn)行掃描檢查。所有CT 掃描均固定電壓在120 kV、電流在90~200 mA 進(jìn)行曝光,Thick 為3.75 mm,Iterval 為3 270,SFOV 為L(zhǎng)arge,DFOV 為50 cm,Recon-Type 為std,操作者均為多年從事CT 及核醫(yī)學(xué)工作的資深技術(shù)人員,為確保對(duì)病變進(jìn)行正確標(biāo)注,為確保數(shù)據(jù)準(zhǔn)確性,本次數(shù)據(jù)由三位專家醫(yī)生結(jié)合臨床綜合診斷,進(jìn)行評(píng)估,結(jié)果以多數(shù)人意見(jiàn)為準(zhǔn),三位專家醫(yī)生包括一位具有8年臨床經(jīng)驗(yàn)的胸外科醫(yī)生,一位具有5年臨床經(jīng)驗(yàn)的呼吸內(nèi)科醫(yī)生,一位影像科專業(yè)醫(yī)生。數(shù)據(jù)集經(jīng)旋轉(zhuǎn)、鏡像的數(shù)據(jù)增強(qiáng)與數(shù)據(jù)增廣處理,三種模態(tài)圖像數(shù)據(jù)集的最終樣本數(shù)分別為2 430 張,其中選取1 000 張CT 與PET 圖像作為訓(xùn)練集,200 張作為驗(yàn)證集,200 張作為測(cè)試集,圖像標(biāo)簽由兩位臨床醫(yī)師手動(dòng)繪制。原始圖像格式為DICOM 格式,掃描層厚為7 mm,由于融合結(jié)果的效果還受到灰度不均勻性、偽影等因素的影響,且原圖像直接輸入網(wǎng)絡(luò)會(huì)造成訓(xùn)練困難,因此有必要對(duì)圖像進(jìn)行預(yù)處理使網(wǎng)絡(luò)實(shí)現(xiàn)更好的融合效果。本文用算法將數(shù)據(jù)讀取之后轉(zhuǎn)換為JPG 格式,并進(jìn)行Resize 操作,將其變?yōu)?56 pixel×356 pixel。
實(shí)驗(yàn)室硬件環(huán)境服務(wù)器Intel(R) Xeon(R)Gold6154 CPU,內(nèi)存256 GB,顯卡NVIDIA TITANV, 實(shí)驗(yàn)環(huán)境框架采用pytorch,python 版本為3.7.0,CUDA 版本為11.1.106。 訓(xùn)練時(shí)Batchsize 被設(shè)置為4,訓(xùn)練150 個(gè)epoch,選擇學(xué)習(xí)速率為1e-4 的Amda 優(yōu)化器。
為了驗(yàn)證LL-GG-LG Net 的有效性,選取兩種基于分解變換的融合方法,五種基于深度學(xué)習(xí)的圖像融合網(wǎng)絡(luò),對(duì)CT 圖像和PET 圖像的融合結(jié)果進(jìn)行比較。方法一:LATLRR 變換[9]。方法二:LRD[10]。 方法三:DPCN[12]。 方法四:Res2Net[14]。方法五:DIFNet[15]。方法六:EMFusion[16]。方法七:DDcGAN[19]。以上五種基于深度學(xué)習(xí)的圖像融合網(wǎng)絡(luò)的參數(shù)值設(shè)置為其作者指定的默認(rèn)值。本文從定性與定量?jī)蓚€(gè)方面評(píng)價(jià)本文方法的有效性。
3.2.1 定性比較
圖6 展示了本文提出的方法與上述七種比較方法的融合結(jié)果圖,針對(duì)CT 縱膈窗和PET 圖像融合進(jìn)行了主觀對(duì)比實(shí)驗(yàn),可以看出LATLRR結(jié)果展示圖中融合結(jié)果比較模糊,病灶部位輪廓顯示不清;LRD 方法融合的圖像中細(xì)節(jié)丟失嚴(yán)重,影響醫(yī)生對(duì)疾病信息的識(shí)別;Res2Net 增強(qiáng)了邊緣信息,但融合圖像未能保持適當(dāng)?shù)牧炼龋≡罟趋佬畔⒛:?;DIFNet 融合方法雖然增強(qiáng)了對(duì)比度,但圖像亮度過(guò)高影響視覺(jué)效果,且具有一定的噪聲;DPCN,DDcGAN 和EMFusion 方法可以突出病變區(qū)域信息,但融合后的圖像對(duì)比度較低,邊緣信息模糊。相比之下,本文方法能夠有效保留源圖像的邊緣細(xì)節(jié)及輪廓特征,病變區(qū)域的信息也更加豐富完整,有效解決背景與病灶區(qū)域之間的模式復(fù)雜性和強(qiáng)度相似性問(wèn)題,方便醫(yī)生的觀察。
圖6 不同方法主觀對(duì)比融合圖像Fig.6 Subjective comparison of fused images by different methods
3.2.2 定量比較
為了客觀且全面的評(píng)價(jià)模型的融合性能,同時(shí)便于與其他算法進(jìn)行比較,本文從融合圖像細(xì)節(jié)信息豐富度,清晰度、邊緣保留程度、邊緣信息量、紋理信息多個(gè)角度評(píng)估融合性能,選取以下六種常見(jiàn)評(píng)價(jià)指標(biāo)進(jìn)行比較:平均梯度AG、邊緣強(qiáng)度EI、邊緣信息傳遞因子QAB/F、空間頻率SF、標(biāo)準(zhǔn)差SD、信息熵IE。以上指標(biāo)值越大,性能越好。
(1)平均梯度。
平均梯度(Average Gradient, AG)反映了融合圖像的細(xì)節(jié)和紋理信息。該數(shù)值越大,融合圖像信息越豐富,融合性能越好。公式如下:
其中:M和N分別代表融合圖像的高度和寬度,F(xiàn)(i,j)表示圖像的第i行第j列像素值。
(2)邊緣強(qiáng)度。
邊緣強(qiáng)度(Edge Intensity,EI),邊緣強(qiáng)度越大,融合圖像質(zhì)量越高。公式如下:
其中:M,N為圖像的寬高;hx,hy為x和y方向的Sobel 算子;Sx和Sy為Sobel 算子卷積后的結(jié)果。
(3)基于邊緣的相似性度量QAB/F。
QAB/F衡量融合圖像保留源圖像的邊緣信息數(shù)量,計(jì)算得到的QAB/F的取值范圍為[0,1],其值越接近0,表示損失的邊緣信息越多;該值越大,表示融合性能越好。設(shè)圖像A,B,大小為n×m,融合圖像為F,邊緣信息保持度QAF(i,j)和QBF(i,j),分別用WA(i,j)和WB(i,j)進(jìn)行加權(quán),得到融合圖像F相對(duì)于圖像A 和圖像B 的邊緣保持度。公式如下:
其中:W是固定大小的滑動(dòng)窗口,0 ≤QAB/F(i,j)≤1。QAB/F的值越高,融合圖像保留源圖像的邊緣信息越豐富。
(4)空間頻率。
空間頻率(Spatial Frequency, SF)反映圖像的整體清晰度,空間頻率越大,融合圖像包含的邊緣和紋理信息越豐富,融合性能也就越好。公式如下:
其中:RF,CF分別表示空間行頻率和空間列頻率,M和N分別表示融合圖像的高度和寬度,I(i,j)表示圖像的第i行第j列像素值。
(5)標(biāo)準(zhǔn)差。
標(biāo)準(zhǔn)差(Standard Deviation, SD)衡量信息的豐富程度,標(biāo)準(zhǔn)差越大,圖像的灰度級(jí)分布越分散,圖像的信息量越多。公式如下:
其中,μ表示均值,反映亮度信息。
(6)信息熵。
信息熵(Information Entropy, IE)衡量圖像中所包含的信息數(shù)量。公式如下:
其中:l表示圖像的灰度等級(jí),Pl表示融合圖像中相應(yīng)灰度級(jí)的歸一化直方圖。
本實(shí)驗(yàn)采用測(cè)試數(shù)據(jù)集的200 對(duì)CT 和PET圖像分五組,根據(jù)對(duì)比的七種融合方法以及本文方法生成融合圖像,表1 展示了在不同指標(biāo)上每組圖像不同融合方法融合結(jié)果的平均值。
表1 客觀評(píng)價(jià)指標(biāo)均值Tab.1 Mean value of objective evaluation metrics.
在表1 和圖7 中可以看出,本文方法的空間頻率(SF)和標(biāo)準(zhǔn)差(SD)明顯高于其他七種方法,說(shuō)明本文方法融合清晰度高,凸顯了PET 圖像的病灶區(qū)域特征,AG,EI,QAB/F、IE 評(píng)價(jià)指標(biāo)上,本文方法與其他七種方法相比有很大提升,說(shuō)明本文方法保留邊緣細(xì)節(jié)信息能力較好,融合圖像病變區(qū)域信息豐富。
為了驗(yàn)證LL-GG-LG Net 模型中局部-局部融合模塊(LL Module)、LL Module 中兩層空間注意力模塊、全局-全局融合模塊(GG Module)、GG Module 中Swin Transformer 添加的殘差連接和局部-全局融合模塊(LG Module)的有效性,本文設(shè)計(jì)了六組消融實(shí)驗(yàn)來(lái)進(jìn)行對(duì)比,實(shí)驗(yàn)1 是僅保留一層注意力機(jī)制的LL Module,用來(lái)驗(yàn)證雙層注意力機(jī)制對(duì)局部特征提取能力的影響。實(shí)驗(yàn)2 在整體網(wǎng)絡(luò)中去除GG Module 和LG Module,僅采用LL Module,用來(lái)驗(yàn)證LL Module 對(duì)圖像融合中的影響。實(shí)驗(yàn)3 是僅保留Swin Transformer 中去除殘差連接機(jī)制的LL Module,用來(lái)驗(yàn)證殘差連接機(jī)制對(duì)病變區(qū)域特征提取的影響。實(shí)驗(yàn)4 在整體網(wǎng)絡(luò)中去除LL Module 和LG Module,僅使用GG Module,用來(lái)驗(yàn)證其對(duì)融合圖像全局特征保留的影響。實(shí)驗(yàn)5 在整體網(wǎng)絡(luò)中去除LG Mode,將LL Module 生成的局部融合圖像和GG Module 生成的全局融合圖像采用像素加權(quán)平均的方法進(jìn)行融合,用來(lái)驗(yàn)證LG Mode 對(duì)圖像融合中細(xì)節(jié)保留以及對(duì)比度的影響。實(shí)驗(yàn)6 是本文融合方法。具體如表2 所示。表中√表示實(shí)驗(yàn)中添加此創(chuàng)新模塊,×表示沒(méi)有添加此創(chuàng)新模塊。
表2 消融實(shí)驗(yàn)客觀評(píng)價(jià)指標(biāo)均值Tab.2 Mean value of objective evaluation metrics for ablation experiments
圖8 展示了消融實(shí)驗(yàn)與本文方法在五組PET 和CT 醫(yī)學(xué)圖像融合后的定性對(duì)比效果,表2 為六組圖像在不同客觀評(píng)價(jià)指標(biāo)上的平均值,實(shí)驗(yàn)1 的融合效果病灶明顯且對(duì)比度高,但整體對(duì)比度較差,輪廓信息不明顯,丟失了一定的邊緣信息。實(shí)驗(yàn)2 相比實(shí)驗(yàn)1,AG 增加了15%,SF提升了13%,融合得到的圖像整體對(duì)比度較好,證明兩層注意力網(wǎng)絡(luò)能夠有效保留細(xì)節(jié)信息和邊緣信息。實(shí)驗(yàn)3 的融合圖像相比較實(shí)驗(yàn)2,病灶信息更加清晰,但是忽略了邊緣輪廓信息。評(píng)價(jià)指標(biāo)SD 增加了10%,整體對(duì)比度明顯提高,但從AG,EI,SF 和SD 指標(biāo)值來(lái)看,實(shí)驗(yàn)4 與實(shí)驗(yàn)3相比,評(píng)價(jià)指標(biāo)AG 提高了21%,IE 提高了16%,說(shuō)明R-Swin Transformer 有效保留了源圖像細(xì)節(jié)內(nèi)容。實(shí)驗(yàn)5 在視覺(jué)上突出了病灶區(qū)域信息,且邊緣信息豐富,但在評(píng)價(jià)指標(biāo)上略低。本文方法相比實(shí)驗(yàn)2 在評(píng)價(jià)指標(biāo)AG 上增加了17%、EI提上了11%、IE 提升了10%、SD 增加了14%、相比實(shí)驗(yàn)5 在QAB/F提升了4%,說(shuō)明LG Module 能夠充分保留圖像的邊緣和紋理信息,保留豐富細(xì)節(jié)信息,并對(duì)圖像的降噪以及區(qū)分背景和病灶區(qū)域相似度發(fā)揮了良好的作用。
圖8 消融實(shí)驗(yàn)定性比較Fig.8 Qualitative comparison of ablation experiments
表2、圖8 和圖9,更能堅(jiān)信本文所提出的局部-局部融合模塊(LL Module),全局-全局融合模塊(GG Module)和局部-全局融合模塊(LG Module)相結(jié)合方法有效的結(jié)合了全局特征和局部特征,從各項(xiàng)數(shù)據(jù)的結(jié)果中更加體現(xiàn)了對(duì)源圖像分別提取局部特征和全局特征并進(jìn)行局部-全局信息交互融合的方法在多模態(tài)醫(yī)學(xué)圖像融合的優(yōu)勢(shì)。
圖9 消融實(shí)驗(yàn)雷達(dá)圖Fig.9 Radar map of ablation experiments
針對(duì)多模態(tài)醫(yī)學(xué)圖像融合捕獲全局特征能力有限,忽略了全局和局部特征關(guān)聯(lián)性,周圍組織與病變區(qū)域之間的模式復(fù)雜性和強(qiáng)度相似性的問(wèn)題,本文提出面向PET 和CT 醫(yī)學(xué)圖像融合的LL-GG-LG Net 模型。首先為了有效保留邊緣和紋理等特征,局部-局部融合模塊進(jìn)行局部特征的提取融合。此外,設(shè)計(jì)了R-Swin Transformer 模塊保留病灶部位復(fù)雜信息。最后,采用局部-全局融合模塊聚合全局特征和局部特征,有效保留紋理邊緣等全局信息與局部病變區(qū)域。使用臨床數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明LL-GG-LG Net 在AG,EI,QAB/F,SF,SD,IE 6 種評(píng)價(jià)指標(biāo)上分別平均提高了21.5%,11%,4%,13%,9%,3%。7 組對(duì)比實(shí)驗(yàn)表明本文所提出的模型能夠計(jì)算圖像全局關(guān)系的同時(shí)關(guān)注病變區(qū)域局部特征,二者互為補(bǔ)充相互融合,使得融合圖像能夠突出病變區(qū)域信息,結(jié)構(gòu)清晰且紋理細(xì)節(jié)豐富,為醫(yī)生的輔助診斷,提高術(shù)前準(zhǔn)備工作效率提供了有效幫助。