文章編號(hào):1005-5630(2024)05-0051-07 DOI:10.3969/j.issn.1005-5630.202303300078
摘要:圖像重建是光學(xué)計(jì)算成像的關(guān)鍵環(huán)節(jié)之一。目前基于深度學(xué)習(xí)的圖像重建主要使用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或生成對(duì)抗網(wǎng)絡(luò)等模型。大多數(shù)研究?jī)H通過(guò)單一模態(tài)的數(shù)據(jù)訓(xùn)練模型,難以在保證成像質(zhì)量的同時(shí)又具備不同場(chǎng)景的泛化能力。為解決這一問(wèn)題,提出了一種基于Transformer模塊的多模態(tài)圖像重建模型(multi-modal image reconstruction model based on the Transformer,Trans-MIR)。實(shí)驗(yàn)結(jié)果表明,Trans-MIR能夠從多模態(tài)數(shù)據(jù)中提取圖像特征,實(shí)現(xiàn)高質(zhì)量的圖像重建,對(duì)二維通用人臉散斑圖像進(jìn)行圖像重建的結(jié)構(gòu)相似度高達(dá)0.93,對(duì)三維微管結(jié)構(gòu)圖像的超分辨重建的均方誤差低至10?4量級(jí)。Trans-MIR對(duì)研究多模態(tài)圖像重建具有一定的啟發(fā)作用。
關(guān)鍵詞:圖像重建;光學(xué)計(jì)算成像;多模態(tài);Transformer模塊
中圖分類號(hào):TP 391文獻(xiàn)標(biāo)志碼:A
Multi-modal image reconstruction method based on Trans-MIR model
LI Yiming1,WANG Hao2,LI Ran2,CHEN Quan2,LU Haijun3,YANG Hui1,2
(1.School of Medical Instruments,Shanghai University of Medicine and Health Sciences,Shanghai 201318,China;
2.School of Optical-Electrical and Computer Engineering,University ofShanghai for Science and Technology,Shanghai 200093,China;
3.Nokia Shanghai Bell Co.,LTD.,Shanghai 201206,China)
Abstract:Image reconstruction is one of the key steps in the optical computational imaging.At present,image reconstruction based on deep learning mainly uses convolutional neural network,cyclic neural network and generative adversarial network.Most models are only trained through the data of a single mode,which is difficult to ensure the quality of imaging while possessing the generalization ability of different scenes.To solve this problem,a multi-modal image reconstruction model based on the Transformer(Trans-MIR)is proposed in this paper.Experimental results show that Trans-MIR can extract image features from multi-modal data toachieve high-quality image reconstruction.The structural similarity of 2D universal face speckle reconstruction was as high as 0.93 and the mean square error of 3D microtubule reconstruction was as low as 10?4.It provides inspiration for the study of multimodal image reconstruction.
Keywords:image reconstruction;optical computational imaging;multi-modal;Transformer module
引言
隨著深度學(xué)習(xí)與計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,光學(xué)計(jì)算成像技術(shù)受到了越來(lái)越多的關(guān)注。光學(xué)計(jì)算成像使用計(jì)算機(jī)技術(shù)對(duì)成像過(guò)程中的光學(xué)系統(tǒng)、傳輸介質(zhì)、探測(cè)器等關(guān)鍵部分進(jìn)行建模和優(yōu)化,突破了傳統(tǒng)光學(xué)成像技術(shù)的限制。計(jì)算成像具有分辨率高,探測(cè)距離遠(yuǎn),視場(chǎng)大,成本低和靈活性好等特點(diǎn),已經(jīng)廣泛應(yīng)用在醫(yī)療影像、工業(yè)檢測(cè)、航空航天、智能交通等領(lǐng)域[1-2]。圖像重建是光學(xué)計(jì)算成像的核心應(yīng)用,能夠從接收到的失真信號(hào)中恢復(fù)出原始目標(biāo)物的圖像。對(duì)圖像重建技術(shù)的研究已經(jīng)成為當(dāng)前計(jì)算成像重要的一環(huán),對(duì)醫(yī)療民生和國(guó)家戰(zhàn)略等方面具有重要意義。
當(dāng)前,圖像重建已經(jīng)形成了一些比較成熟的技術(shù)路線和算法,如壓縮感知、小波變換、全變分正則化、支持向量回歸和深度學(xué)習(xí)等方法。基于深度學(xué)習(xí)的圖像重建方法主要使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)等技術(shù),可以直接從數(shù)據(jù)中學(xué)習(xí)特征和模式,實(shí)現(xiàn)高質(zhì)量的圖像重建,在散射介質(zhì)成像、超分辨成像、低光子成像和無(wú)透鏡成像等多個(gè)場(chǎng)景都取得了令人矚目的成果[3]。例如,Li等[4]提出了一種可以學(xué)習(xí)散射介質(zhì)宏觀結(jié)構(gòu)統(tǒng)計(jì)特性的CNN模型,實(shí)現(xiàn)了稀疏目標(biāo)散斑圖像的散射成像;Dong等[5]提出了端到端的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(super-resolution convolutional neural network,SRCNN)可以實(shí)時(shí)的將低分辨率圖像轉(zhuǎn)換為高分辨率圖像;Qiao等[6]提出了基于頻域注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)(deep Fourier channel attention network,DFCAN),實(shí)現(xiàn)了低光子條件下的顯微成像;Yang等[7]提出了一種能實(shí)時(shí)校正點(diǎn)擴(kuò)散函數(shù)測(cè)量中的系統(tǒng)誤差的RNN模型,實(shí)現(xiàn)了高質(zhì)量的無(wú)透鏡成像。但是,這些方法都僅使用單一模態(tài)的數(shù)據(jù)訓(xùn)練模型,通常泛化能力較差,一旦切換應(yīng)用場(chǎng)景就必須對(duì)模型進(jìn)行微調(diào),操作較為復(fù)雜,并且準(zhǔn)確性也會(huì)受到限制[8-11]。
因此,本文提出一種新型的基于Transformer模塊[12]的多模態(tài)圖像重建模型(multi-modal image reconstruction model based on the Transformer,Trans-MIR)。Trans-MIR使用多個(gè)數(shù)據(jù)源的信息來(lái)增強(qiáng)泛化性,擴(kuò)展應(yīng)用范圍,提高圖像重建的質(zhì)量和效果,并且采用輕量化設(shè)計(jì),參數(shù)量?jī)H有2 M。在對(duì)二維通用人臉散斑圖像和STORM采集的三維微管結(jié)構(gòu)超分辨圖像進(jìn)行圖像重建的實(shí)驗(yàn)中,Trans-MIR表現(xiàn)出高質(zhì)量圖像重建能力和良好的泛化性能。其中,不同景深和散射程度的二維通用人臉散斑圖像重建結(jié)果的結(jié)構(gòu)相似度(structural similarity,SSIM)指數(shù)均高達(dá)0.93,三維微管結(jié)構(gòu)超分辨圖像重建結(jié)果的均方誤差(mean squared error,MSE)低至10?4量級(jí)。該方法具有進(jìn)一步擴(kuò)展至低光子成像、無(wú)透鏡成像的潛力。
1圖像重建方法
1.1模型架構(gòu)
本文提出的Trans-MIR的模型架構(gòu)如圖1所示。該模型采用了編解碼器結(jié)構(gòu),整體呈現(xiàn)U型。模型的前半部分為編碼器,可以接受不同模態(tài)的數(shù);后半部分為解碼器,解碼器的最后一層是模型的輸出結(jié)果?;疑^的方向代表數(shù)據(jù)流動(dòng)的方向,其中D,H,W和C分別代表數(shù)據(jù)的維度數(shù)、高、寬和通道數(shù)。在模型的前向過(guò)程中,圖像嵌入模塊負(fù)責(zé)將不同維度數(shù)的輸入圖像轉(zhuǎn)換為包含64個(gè)通道的特征圖,從而將輸入數(shù)據(jù)嵌入到模型之中;Transformer模塊能夠自適應(yīng)地調(diào)整對(duì)特征圖中不同信息的關(guān)注度,從而高效地提取特征圖中所蘊(yùn)含的全局信息;卷積采樣模塊使用了殘差連接和瓶頸結(jié)構(gòu),能夠?qū)崿F(xiàn)高性能地特征圖采樣;隱編碼模塊對(duì)深層特征進(jìn)行了線性變換,能夠強(qiáng)化模型的表征能力;特征壓縮模塊將64個(gè)通道的特征圖變換為僅具有前后景2個(gè)通道的特征圖;最后通過(guò)Softmax模塊的非線性函數(shù)激活得到輸出結(jié)果。
1.2 Transformer模塊
Trans-MIR中最核心的Transformer模塊如圖2所示。該模塊由批歸一化(batch normalization,BN)層、位置編碼(positional encoding,PE)層、多頭稀疏注意力(multi-head sparse attention,MHSA)機(jī)制、線性層和丟棄層等通過(guò)級(jí)聯(lián)和殘差方式組成。
BN是一種正則化技術(shù),可以增強(qiáng)模型的非線性建模能力和表示能力。使用BN可以有效地改善梯度消失和爆炸問(wèn)題,提高模型的訓(xùn)練速度和穩(wěn)定性,同時(shí)降低模型對(duì)超參數(shù)設(shè)置的敏感性。以輸入數(shù)據(jù)中第i個(gè)批次的第k個(gè)特征xik為例
BN(xik)=γk xiσk(k一)μk+βk(1)
式中:μk和σk分別代表第k個(gè)特征在輸入數(shù)據(jù)的全部m個(gè)批次中的均值和標(biāo)準(zhǔn)差;γk和βk是相應(yīng)的可學(xué)習(xí)的參數(shù),用于調(diào)整輸出值的范圍和均值,實(shí)現(xiàn)重構(gòu)的操作。
PE是一種為數(shù)據(jù)增加位置編碼的技術(shù)。為Transformer模塊引入PE可以提供數(shù)據(jù)中各個(gè)位置之間的相對(duì)距離信息,以便更好地進(jìn)行注意力計(jì)算和建模。位置編碼的數(shù)學(xué)表達(dá)式為
PE(pos;2i)=sin(2)
PE(pos;2i+1)=cos(3)
式中:PE(pos;2i)和PE(pos;2i+1)分別表示輸入數(shù)據(jù)中位置pos的偶數(shù)和奇數(shù)維度的位置編碼向量;dm是模型的通道數(shù)。
MHSA是一種基于注意力機(jī)制的算法,可以提高模型對(duì)于不同特征的抽取能力。針對(duì)多模態(tài)數(shù)據(jù)的特點(diǎn),多頭稀疏注意力機(jī)制引入了多個(gè)頭(head),每個(gè)頭可關(guān)注輸入數(shù)據(jù)的不同部分,計(jì)算不同的稀疏注意力(sparse attention,SA)分布,并將它們?cè)谕ǖ谰S度組合(concat)起來(lái)以獲得更加準(zhǔn)確和全面的特征表示。計(jì)算公式為
式中:X代表輸入的特征數(shù)據(jù);head i代表多頭稀疏注意力機(jī)制第i個(gè)頭,WiQ、Wi(K)、WiV分別是第i個(gè)頭中的三次線性映射,d是一個(gè)縮放因子,一般設(shè)置為512,Softmax函數(shù)將輸入映射到(0,1)區(qū)間內(nèi),且所有輸出的和為1,對(duì)于給定的n個(gè)輸入x1;x2;···;xn計(jì)算式為
Softmax(xi)=Σ1(i)ex i;i=1;2;···;n(7)
1.3數(shù)據(jù)設(shè)置
圖3為獲取二維通用人臉散斑圖像的散射成像系統(tǒng)。激光器(Thorlabs HNL210L,波長(zhǎng)為632.8 nm)發(fā)出的激光照射到加載了Face-LWF通用人臉圖像數(shù)據(jù)集[13]的相位型空間光調(diào)制器(Thorlabs EXULUS-HD2,像素尺寸為8μm,1 920 x 1 200)上進(jìn)行調(diào)制。通過(guò)CMOS相機(jī)(Thorlabs DCC645C,像素尺寸為3.6μm,1 280 x 1 024)依次采集透過(guò)4種不同粒度的毛玻璃散射介質(zhì)(Thorlabs,DG10-120-MD,125μm;DG10-220-MD,70μm;DG10-600-MD,25μm;DG10-1500-MD,10μm)的人臉散斑圖像。
如圖3(b)所示,從Face-LWF通用人臉圖像數(shù)據(jù)集中隨機(jī)選取1 500張不同的人臉圖像,在空間光調(diào)制器上進(jìn)行調(diào)制,并通過(guò)組合4種不同粒度(125μm,70μm,25μm,10μm)的毛玻璃散射介質(zhì)與3種不同的CMOS相機(jī)位置(離焦面0,20和40 mm)采集了18 000組散斑圖像,選取CMOS相機(jī)中心區(qū)域的800 x 800像素作為有效數(shù)據(jù),并按照6∶2∶2劃分訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集。
為了獲取三維微管結(jié)構(gòu)圖像,本文使用SMLM挑戰(zhàn)賽2016數(shù)據(jù)集[14]。將微管寬場(chǎng)圖像與STORM超分辨圖像組成的三維超分辨數(shù)據(jù)對(duì)進(jìn)行縮放對(duì)齊、隨機(jī)裁剪、旋轉(zhuǎn)變換,共得到1 400組尺寸為4 x 64 x 64的有效數(shù)據(jù),并按照6∶2∶2劃分訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)集。
1.4訓(xùn)練細(xì)節(jié)
為了高效地訓(xùn)練Trans-MIR,并使其收斂到最優(yōu),本文使用雙線性插值算法將二維通用人臉散斑圖像采樣為200 x 200,除以圖像最大灰度值255,將其歸一化到0~1,并將三維微管結(jié)構(gòu)圖像4個(gè)平面的灰度值分別映射到原本灰度值的1%~99%。使用自適應(yīng)動(dòng)量估算(adaptive moment estimation,Adam)作為訓(xùn)練優(yōu)化器,使用交叉熵函數(shù)(cross-entropy,CE)作為訓(xùn)練損失函數(shù)。模型在NVIDIA GeForce RTX 3 090圖形計(jì)算卡上訓(xùn)練了100個(gè)周期,每個(gè)周期輸入2個(gè)批次的圖像數(shù)據(jù),前50個(gè)周期的學(xué)習(xí)率固定為10-5,后50個(gè)周期的學(xué)習(xí)率通過(guò)余弦退火算法下降為10-6。
1.5評(píng)估指標(biāo)
本文使用SSIM和MSE來(lái)評(píng)估Trans-MIR的性能。SSIM通過(guò)計(jì)算2個(gè)圖像x和y的亮度、對(duì)比度、結(jié)構(gòu)的差異來(lái)表示相似度,計(jì)算式
SSIM(x;y)=l(x;y)ac(x;y)bs(x;y)c(8)
式中:a,b,c為常數(shù);根據(jù)實(shí)際應(yīng)用場(chǎng)景確定l(x;y),c(x;y)和s(x;y)分別表示亮度相似度、對(duì)比度相似度和結(jié)構(gòu)相似度。
MSE通過(guò)計(jì)算2個(gè)圖像x和y的強(qiáng)度誤差來(lái)表示相似度,計(jì)算式為
MSE(x;y)=Σi(m)Σj(n)[x(i;j)-y(i;j)]2(9)
式中:x和y分別表示2個(gè)圖像;m和n分別表示圖像的高和寬;x(i;j)和x(i;j)分別表示兩個(gè)圖像在位置(i;j)處的像素值。
2實(shí)驗(yàn)結(jié)果與分析
為了客觀評(píng)價(jià)Trans-MIR的真實(shí)表現(xiàn),本文將2種模態(tài)的測(cè)試集數(shù)據(jù)分別輸入到訓(xùn)練好的模型中進(jìn)行圖像重建。圖4展示了CMOS相機(jī)在離焦面40 mm處采集的二維通用人臉散斑圖像的重建結(jié)果,圖像重建結(jié)果中白色代表陽(yáng)性,黑色代表陰性,綠色代表假陽(yáng)性,紅色代表假陰性。
可以看出,Trans-MIR對(duì)不同散射程度的通用人臉圖像都能實(shí)現(xiàn)高質(zhì)量的圖像重建,重建圖像和前景、背景都相當(dāng)干凈,僅在一些復(fù)雜紋理的邊緣細(xì)節(jié)上出現(xiàn)微小的誤差。從整體上看,重建圖像與真實(shí)圖像的眼睛、鼻子、嘴巴、耳朵和頭發(fā)等圖像細(xì)節(jié)和紋理幾乎一致。這充分說(shuō)明了Trans-MIR具有不錯(cuò)的圖像重建能力和泛化能力。
表1給出了人臉圖像在COMS相機(jī)距離焦平面不同位置的重建結(jié)果。分析表1中的數(shù)據(jù)可知,對(duì)于CMOS相機(jī)在離焦面0 mm處采集的二維通用人臉圖像,Trans-MIR重建結(jié)果的SSIM達(dá)到0.942,遠(yuǎn)好于Guo等[15]在相似任務(wù)上約0.8的重建結(jié)果。并且可以發(fā)現(xiàn),該模型對(duì)于CMOS相機(jī)在不同位置下采集的二維通用人臉圖像都能高質(zhì)量的重建,SSIM均高于0.93,進(jìn)一步說(shuō)明了Trans-MIR具有很好的圖像重建能力和泛化能力。
Trans-MIR對(duì)三維微管結(jié)構(gòu)超分辨圖像的重建結(jié)果準(zhǔn)確度同樣很高,在測(cè)試數(shù)據(jù)集的280組圖像上的平均MSE為5.8×10?4,達(dá)到了10?4量級(jí),在相似的任務(wù)上DFGAN的表現(xiàn)僅為10?3量級(jí)。圖5為一組三維微管結(jié)構(gòu)超分辨圖像的重建結(jié)果,其中D1,D2,D3,D4分別代表三維數(shù)據(jù)在不同平面的二維切片。
通過(guò)觀察可以發(fā)現(xiàn),Trans-MIR對(duì)三維微管結(jié)構(gòu)圖像的各個(gè)平面的重建結(jié)果都很好,相較于原始模糊的輸入圖像,重建結(jié)果的清晰度得到大幅提高,已經(jīng)可以準(zhǔn)確地分辨微管結(jié)構(gòu),并且得益于多模態(tài)模型,重建結(jié)果抑制了部分在真實(shí)圖像中微管結(jié)構(gòu)末尾處的噪聲信號(hào)。實(shí)驗(yàn)結(jié)果充分表明,Trans-MIR同樣可以實(shí)現(xiàn)三維微管結(jié)構(gòu)圖像的高質(zhì)量重建。
3結(jié)論
在計(jì)算成像領(lǐng)域,當(dāng)前大多數(shù)的圖像重建方法都集中在針對(duì)單一模態(tài)的數(shù)據(jù)上,而對(duì)于多模態(tài)圖像重建方向的研究則相對(duì)較少。本文提出一種基于Transformer模塊的多模態(tài)的圖像重建模型Trans-MIR。Trans-MIR使用二維通用人臉散斑圖像和三維微管結(jié)構(gòu)超分辨圖像2種模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練好的Trans-MIR實(shí)現(xiàn)了對(duì)多模態(tài)的圖像數(shù)據(jù)的高質(zhì)量圖像重建。Trans-MIR在模型架構(gòu)上做出了一定的改進(jìn),使用輕量化設(shè)計(jì)的Transformer模塊匹配多模態(tài)圖像重建任務(wù),對(duì)于研究多模態(tài)圖像重建有一定的啟發(fā)作用。Trans-MIR可以進(jìn)一步擴(kuò)展至低光子成像、無(wú)透鏡成像場(chǎng)景。
參考文獻(xiàn):
[1]左超,陳錢.計(jì)算光學(xué)成像:何來(lái),何處,何去,何從?[J].紅外與激光工程,2022,51(2):20220110.
[2]邵曉鵬,劉飛,李偉,等.計(jì)算成像技術(shù)及應(yīng)用最新進(jìn)展[J].激光與光電子學(xué)進(jìn)展,2020,57(2):020001.
[3]BARBASTATHIS G,OZCAN A,SITU G.On the use of deep learning for computational imaging[J].Optica,2019,6(8):921–943.
[4]LI S,DENG M,LEE J,et al.Imaging through glass diffusers using densely connected convolutional networks[J].Optica,2018,5(7):803–813.
[5]DONG C,LOY C C,TANG X O.Accelerating the super-resolution convolutional neural network[C]//Proceedings of the 14th European Conference on Computer Vision.Amsterdam,The Netherlands:Springer,2016:391–407.
[6]QIAO C,LI D,GUO Y T,et al.Evaluation and development of deep neural networks for image super-resolution in optical microscopy[J].Nature Methods,2021,18(2):194–202.
[7]YANG J Y,YIN X J,ZHANG M X,et al.Learning image formation and regularization in unrolling AMP for lensless image reconstruction[J].IEEE Transactions on Computational Imaging,2022,8:479–489.
[8]KNOLL F,HOLLER M,KOESTERS T,et al.Joint MR-PET reconstruction using a multi-channel image regularizer[J].IEEE Transactions on Medical Imaging,2017,36(1):1–16.
[9]BOUSSE A,BERTOLLI O,ATKINSON D,et al.Maximum-likelihood joint image reconstruction/motion estimation in attenuation-corrected respiratory gated PET/CT using a single attenuation map[J].IEEE Transactions on Medical Imaging,2016,35(1):217–228.
[10]ZANFIR A,ZANFIR M,GORBAN A,et al.HUM3DIL:semi-supervised multi-modal 3D HumanPose estimation for autonomous driving[C]//Proceedings of the 6th Conference on Robot Learning.Auckland:PMLR,2023:1114–1124.
[11]AN S Z,LI Y,OGRAS U.mRI:multi-modal 3D human pose estimation dataset using mmWave,RGB-D,and inertial sensors[EB/OL].[2023–03–01].https://openreview.net/pdf?id=Oa2-cdfBxun.
[12]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Proceedings of the 31st International Conference on Neural InformationProcessing Systems.Long Beach:Curran AssociatesInc.,2017:6000–6010.
[13]HUANG G B,MATTAR M,BERG T,et al.Labeled faces in the wild:a database forstudying face recognition in unconstrained environments[C]//Proceedings of the Workshop on Faces in'Real-Life'Images:Detection,Alignment,and Recognition.Marseille:Erik Learned-Miller and Andras Ferencz and Frédéric,2008.
[14]SPEISER A,MüLLER L R,HOESS P,et al.Deep learning enables fast and dense single-molecule localization with high accuracy[J].Nature Methods,2021,18(9):1082–1090.
[15]GUO E L,ZHU S,SUN Y,et al.Learning-based method to reconstruct complex targets through scattering medium beyond the memory effect[J].Optics Express,2020,28(2):2433–2446.
(編輯:李曉莉)