李宇杰, 程偉哲, 余 樂, 王華英, 王 丹, 李學(xué)燕,李伯仕
1. 河北工程大學(xué)數(shù)理科學(xué)與工程學(xué)院, 河北 邯鄲 056038; 2. 北京理工大學(xué)深圳研究院, 廣東 深圳 518057
粒子場主要由各種微小的物體構(gòu)成,如細(xì)胞、環(huán)境中的微顆粒等,在醫(yī)學(xué)和環(huán)保領(lǐng)域有重要應(yīng)用。近年來,越來越多的人將三維成像用來檢測粒子的形態(tài)、運(yùn)動狀態(tài)、空間位置等。例如,根據(jù)紅細(xì)胞的數(shù)量來判斷患者的健康狀況,進(jìn)而在臨床醫(yī)學(xué)假設(shè)病理過程,紅細(xì)胞濃度可作為判斷分子生物學(xué)化學(xué)用量的指標(biāo)[1]。另外,燃燒后產(chǎn)生的顆粒物可以判斷不同燃料的燃燒效率,顆粒越小表明燃燒得越充分[2]。在許多產(chǎn)業(yè)使用光散射分析顆粒大小用來把控產(chǎn)品的質(zhì)量,例如制藥業(yè)、美容化妝品行業(yè)、聚合物生產(chǎn)和食品業(yè)等[3]。數(shù)字全息術(shù)通過物光波和參考光波的干涉生成一張包含物體三維信息的全息圖,且只需要一張全息圖就可以重建物體的三維信息的特點,使數(shù)字全息術(shù)成為熱門的三維成像方法。而數(shù)字全息關(guān)鍵點就是重建,傳統(tǒng)全息重建算法對噪聲敏感且計算復(fù)雜度高使得它們在實時或大規(guī)模應(yīng)用方面表現(xiàn)不佳。隨著深度學(xué)習(xí)的出現(xiàn),發(fā)現(xiàn)可以有效解決傳統(tǒng)算法遇到的問題,且各種網(wǎng)絡(luò)架構(gòu)已經(jīng)證明可以有效處理圖片方面的任務(wù),例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[5]以及生成對抗網(wǎng)絡(luò)(GAN)[6],其出色的擬合能力,有效地解決線性或非線性映射任務(wù)。而且深度學(xué)習(xí)在數(shù)字全息方面已經(jīng)有很多應(yīng)用,例如,Rivenson等[7]使用CNN對全息圖重建和相位恢復(fù),同時對雙像和空間偽影有很好的抑制效果。通過Y-Net網(wǎng)絡(luò)可以大幅縮短全息重建時間[8]。O’Connor等[9]提出一種多尺度卷積網(wǎng)絡(luò)有效去除全息重構(gòu)過程中的負(fù)一級像與零級像。傳統(tǒng)數(shù)字全息粒子場恢復(fù)方法需要通過圖像處理以及各種算法才能獲得粒子三維坐標(biāo)、半徑。而深度學(xué)習(xí)通過其強(qiáng)大的特征提取能力,可以有效地根據(jù)特定參數(shù)來表征顆粒,只需通過全息圖就可以獲取粒子的信息,不需要額外圖像處理,進(jìn)而加快數(shù)據(jù)處理效率。2021年,Shimobaba等[10]使用U-net網(wǎng)絡(luò)對全息顆粒表征,并在三維粒子場中重建顆粒坐標(biāo)和半徑,實現(xiàn)了比理論值更高的定位準(zhǔn)確性。此外,在2021年,吳羽峰等使用Dense_U_net網(wǎng)絡(luò)對全息顆粒表征,有效提取粒子坐標(biāo)、半徑以及深度信息[11],雖然實現(xiàn)了很好的定位,但在重建質(zhì)量上以及在大密度粒子群提取粒子時仍有不足,并且真實的粒子群往往是以大數(shù)量高密度出現(xiàn)。鑒于此,本文基于傅里葉成像網(wǎng)絡(luò)(Fourier imager network,FIN)[12],提出一種融合注意力機(jī)制的傅里葉成像網(wǎng)絡(luò)(squeeze and excitation Fourier imager network,seFIN)用來對全息粒子場定位。在CNN網(wǎng)絡(luò)中卷積層的感受野大小的限制,對于一些尺寸較大的全息圖會導(dǎo)致重建精度不足。而傅里葉成像網(wǎng)絡(luò)利用經(jīng)過訓(xùn)練的空間傅里葉變換(spatial Fourier transform,SPAF)模塊[13]替代CNN網(wǎng)絡(luò)中的卷積操作來處理全局空間頻率信息。而加入的通道注意力機(jī)制(squeeze and excitation,se)模塊可以實現(xiàn)不同通道間權(quán)重分配不同的優(yōu)先級,抑制作用不大的通道,提高網(wǎng)絡(luò)對圖像細(xì)節(jié)的提取,從而實現(xiàn)高精度的顆粒表征。首先使用模擬生成三維粒子全息圖,并將其作為網(wǎng)絡(luò)的輸入數(shù)據(jù),使用表征法對全息圖表征,作為網(wǎng)絡(luò)的真實值。同時我們對seFIN網(wǎng)絡(luò)的輸出結(jié)果與Dense_U_net網(wǎng)絡(luò)的結(jié)果質(zhì)量進(jìn)行比較,使用結(jié)構(gòu)相似性(structural similarity index,SSIM)和峰值信噪比(peak signal to noise ratio,PSNR)作為網(wǎng)絡(luò)輸出圖像的質(zhì)量評判。最后,通過實驗采集同軸全息圖驗證了傅里葉網(wǎng)絡(luò)的可行性和有效性。
數(shù)字全息經(jīng)過物光和參考光干涉,生成包含物體振幅和相位信息的圖像,投射到CMOS傳感器在計算機(jī)上生成相應(yīng)的全息圖。記錄過程表示為
(1)
(2)
λ為波長,k為波失,z表示物體到傳感器距離。
在數(shù)字全息中,使用角譜法來進(jìn)行數(shù)值重建。在角譜法中,全息圖在頻域內(nèi)進(jìn)行傅里葉變換和逆傅里葉變換,以還原物體的三維信息,包括振幅和相位:
E(x,y,z)=F-1{F{Iz(x,y)}×G(fx,fy;z)}
(3)
其中F和F-1為傅里葉變換及其逆變換,fx和fy表示頻域坐標(biāo),z表示傳播距離,G為傳遞函數(shù):
(4)
同樣地,基于角譜法的思想,我們將光場信息根據(jù)其深度距離z進(jìn)行分層劃分。每一層都代表了光場在不同深度的信息。這種分層方法允許我們分別處理每個深度層的光場信息,形成了一種適用于層次性光場處理的角譜法的變體[14]。
EHi(x,y,z)=F-1{F{Izi(x,y)}×G(fx,fy;zi)}
(5)
(6)
其中EHi(x,y,z)為每一層全息圖的復(fù)振幅,zi表示每一層全息圖的傳播距離,通過累加所有層后可以獲得一個完整的全息粒子場。
在通常情況下,空氣中的微粒子表現(xiàn)出布朗運(yùn)動,這是由于它們不斷受到氣體分子的碰撞和熱運(yùn)動的影響。在不考慮重力或磁場等額外力的情況下,這些微粒子的運(yùn)動是隨機(jī)的、無規(guī)律的,它們在空氣中無法被精確預(yù)測。為了體現(xiàn)粒子運(yùn)動的無規(guī)律性,本文通過圖1所示生成邊長為5.12 mm的立方體區(qū)域在其中隨機(jī)生成1~300個粒子,粒子大小在5~10 μm之間,每個粒子隨機(jī)分布在距離傳感器1~2.048 mm之間。然后通過將三維粒子場分層,并對每層粒子通過層結(jié)構(gòu)角譜法得到子全息圖,將子全息圖在干涉面疊加,生成包含整個粒子場的全息圖。最后根據(jù)模擬粒子場得到對應(yīng)的粒子表征圖,粒子表征使用(x,y,z,R)的形式來描述,(x,y)表示粒子的質(zhì)心位置,(z)表示粒子縱深,(R)表示粒子的直徑,通過粒子表征方法,將每個粒子的(x,y,z,R)坐標(biāo)編碼成一個512×512px的灰度圖像。為了描述粒子特征,采用二維矩形而非二維圓形主要考慮到操作上的便利性。矩形在圖像處理中易于檢測和識別,同時測量其尺寸和計算灰度平均值的過程也更加直接和簡單。使用矩形中心坐標(biāo)表示粒子中心的位置(x,y)。用矩形邊長代替粒子半徑(R),矩形的灰度值作為粒子在z軸的縱深。其中灰度值與粒子深度位置(z)關(guān)系:
圖1 粒子的模擬生成及表征
(7)
其中,2.048表示3D粒子場的深度范圍(單位為mm)。
近年來,隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,它在光學(xué)成像領(lǐng)域的應(yīng)用不斷增加。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在成像任務(wù)中表現(xiàn)出卓越的能力,但它們?nèi)匀皇芟抻诟惺芤暗拇笮?。本文?介紹了一種名為seFIN的網(wǎng)絡(luò),它使用傅里葉變換來將對象轉(zhuǎn)化到頻域,以有效處理全局空間頻率信息,從而提高網(wǎng)絡(luò)性能。
如圖2所示,seFIN網(wǎng)絡(luò)基于FIN架構(gòu)進(jìn)行了優(yōu)化。其中,se注意力模塊使模型能夠更加專注于關(guān)鍵信息,加快模型收斂速度。該網(wǎng)絡(luò)采用多級殘差連接結(jié)構(gòu),提升了特征抽取效果。為減少深度增加帶來的信息丟失,網(wǎng)絡(luò)結(jié)合了多個SPAF組,每組包含se通道注意力模塊、兩個SPAF模塊和一個卷積核大小為1的卷積層。通過殘差連接,網(wǎng)絡(luò)的容量得到增強(qiáng),同時沒有明顯增加其大小。SPAF模塊通過線性變換W來濾除頻域張量中的高頻信息,并通過窗口大小k截斷高頻信號:
圖2 seFIN架構(gòu)
(8)
其中F∈c,2k+1,2k+1是表示輸入到SPAF模塊經(jīng)過二維離散傅里葉變換后的截斷頻域表示;W∈c,2k+1,2k+1代表可訓(xùn)練權(quán)重;c是通道數(shù),k為窗口大小。完成線性變換后,通過逆二維傅里葉變換將數(shù)據(jù)重新轉(zhuǎn)換到空間域,并在之后使用PReLU作為激活函數(shù):
(9)
a是一個可學(xué)習(xí)參數(shù)。
本實驗使用了遞減的窗口大小k,形成了一個金字塔狀結(jié)構(gòu)。這種結(jié)構(gòu)可以將全息衍射圖案的高頻信息映射到前幾層的低頻區(qū)域,并以較小的窗口大小傳遞這些低頻信息給后續(xù)層,從而更好地利用多個尺度上的特征,同時大幅減小模型大小,可以避免可能存在的泛化和過擬合問題。
其次對于3D粒子場全息實驗,本網(wǎng)絡(luò)所使用的損失函數(shù):
Lloss=αLMAE+βLcomplex+γLpercep
(10)
(11)
(12)
網(wǎng)絡(luò)的數(shù)據(jù)集分為訓(xùn)練集和驗證集,通過模擬的手段生成數(shù)據(jù)集,包括8000張訓(xùn)練集和2000張驗證集,以及使用(x,y,z,R)表征粒子對應(yīng)標(biāo)簽圖。seFIN網(wǎng)絡(luò)訓(xùn)練了100個epoch,每個batch_size包含8000張圖片。我們?yōu)檫@個網(wǎng)絡(luò)設(shè)置了0.0001的學(xué)習(xí)率,因為在之前的實驗中,這個值為我們的模型提供了最佳的驗證性能。在我們的網(wǎng)絡(luò)中,“殘差深度”指的是網(wǎng)絡(luò)中包含的殘差塊的數(shù)量,我們選擇了22作為這個值,因為它為我們的特定任務(wù)提供了良好的性能。對于Dense_U_net,我們使用了一個batch_size包含8000張圖片,并訓(xùn)練了800個epoch,學(xué)習(xí)率設(shè)置為0.001。
如圖3所示,我們對比了兩種網(wǎng)絡(luò)在不同顆粒子數(shù)量下(分別為75、150和300顆粒子)的預(yù)測結(jié)果。為了細(xì)致地對比,我們將預(yù)測結(jié)果進(jìn)行了局部放大。在75和150顆粒子的場景下,兩種網(wǎng)絡(luò)的預(yù)測結(jié)果看起來非常接近。但在圖3中,特定的黃色圓形區(qū)域標(biāo)注出了一個被放大6倍的單一粒子。在這里,seFIN展示出了清晰的邊緣,而Dense_U_net與真實值之間存在明顯的差異,特別是粒子邊緣的像素塊顯得模糊不清。然而,當(dāng)粒子數(shù)量增加到300顆時,Dense_U_net的預(yù)測開始出現(xiàn)明顯錯誤。相比之下,無論是在75、150顆粒子還是300顆粒子的場景中,seFIN都展現(xiàn)出了穩(wěn)定而準(zhǔn)確的預(yù)測,不論是圖像的細(xì)節(jié)還是深度信息都與原圖高度一致。
圖3 seFIN和Dense_U_net網(wǎng)絡(luò)的預(yù)測結(jié)果
為了更直觀地體現(xiàn)兩種網(wǎng)絡(luò)的差異通過使用評估圖像質(zhì)量的兩種算法來評估網(wǎng)絡(luò)預(yù)測的圖像與原始圖像之間的差異。表1是兩種網(wǎng)絡(luò)在不同粒子數(shù)量下的兩種指標(biāo)的結(jié)果??梢钥闯?在隨著粒子數(shù)量的增加,Dense_U_net網(wǎng)絡(luò)的SSIM指數(shù)逐漸下降,尤其到300顆粒子時明顯下降,但是seFIN網(wǎng)絡(luò)卻保持在0.99內(nèi)的一個穩(wěn)定的數(shù)值,同樣的seFIN網(wǎng)絡(luò)的PSNR值無論哪種數(shù)量級的粒子始終高于Dense_U_net網(wǎng)絡(luò),從而可以得出seFIN網(wǎng)絡(luò)在預(yù)測粒子方面性能始終優(yōu)于Dense_U_net。
表1 seFIN與Dense_U_net預(yù)測圖的SSIM和PSNR
最后根據(jù)網(wǎng)絡(luò)預(yù)測粒子信息重建粒子場,如圖4所示,在粒子數(shù)量為75和150顆粒子時,兩種網(wǎng)絡(luò)的預(yù)測結(jié)果的準(zhǔn)確率在95%以上,但是提升到300顆粒子,Dense_U_net只可以預(yù)測到位置(x,y)的信息,對于縱深z軸已經(jīng)失去預(yù)測能力,反觀seFIN網(wǎng)絡(luò)依然可以準(zhǔn)確地預(yù)測,且預(yù)測準(zhǔn)確率依然在95%左右。
圖4 seFIN和Dense_U_net根據(jù)預(yù)測信息重建粒子場后與真實粒子場對比
通過計算平均絕對差,我們比較了兩種網(wǎng)絡(luò)在預(yù)測粒子的橫向和軸向位置以及大小的誤差。具體的計算方法是:對每個粒子,取其原始值A(chǔ)j和預(yù)測值Bj之間的差的絕對值,然后計算這些差的平均值。公式為
(13)
其中Aj和Bj是第j個粒子的原始值和預(yù)測值,P表示粒子的總個數(shù)。根據(jù)表2的數(shù)據(jù),seFIN網(wǎng)絡(luò)在75和150顆粒子的數(shù)據(jù)集上,無論是橫向位置還是粒子大小,誤差都為0,即完全準(zhǔn)確。盡管在軸向位置的預(yù)測上存在5左右的誤差,但相比Dense_U_net網(wǎng)絡(luò),仍有約55%的性能提升。在300顆粒子的數(shù)據(jù)集上,seFIN網(wǎng)絡(luò)的橫向位置和大小預(yù)測出現(xiàn)了輕微誤差,但都小于0.1,而Dense_U_net在此數(shù)據(jù)集上的預(yù)測能力已經(jīng)完全喪失。這表明在處理較大規(guī)模數(shù)據(jù)集時,seFIN網(wǎng)絡(luò)顯示出更強(qiáng)的魯棒性和準(zhǔn)確性。
表2 seFIN和Dense_U_net的預(yù)測粒子與原始粒子的平均絕對差值對比
通過實驗進(jìn)一步驗證網(wǎng)絡(luò)的性能,圖5展示了實驗光路,其中采用激光的波長為532 nm,使用CMOS(MV-UBS500M,1944×2592,2.2 nm方形像素)捕獲。通過捕獲分布在乙醇溶液中的約200~300個聚苯乙烯顆粒(直徑20 nm),生成同軸全息圖。通過角譜法重建并結(jié)合手動閾值化及強(qiáng)度加權(quán)質(zhì)心計算,我們獲得了真實測量下的粒子位置。這些粒子的位置和大小被編碼為2D矩形。我們的訓(xùn)練數(shù)據(jù)集由從全息圖中隨機(jī)裁剪的400張1024×1024像素的圖片組成,并附帶它們對應(yīng)的粒子位置信息。為了增加樣本多樣性,我們采用了圖像增強(qiáng)技術(shù),如垂直和水平鏡像,從而將訓(xùn)練數(shù)據(jù)集擴(kuò)展到2500個樣本。圖6展示了粒子的三維分布,驗證了該方法在真實復(fù)雜粒子預(yù)測上的有效性。并且如表3所示粒子的平均絕對誤差,橫向誤差和大小誤差均控制在0.3以內(nèi),這顯著證明了橫向位置和大小的高精度預(yù)測能力。盡管軸向誤差最大達(dá)到6.56,但仍在可接受的范圍之內(nèi),指明了未來研究的主要優(yōu)化方向。
表3 預(yù)測粒子與原始粒子的平均絕對差值
圖5 實驗裝置圖
圖6 通過seFIN對實驗全息圖重建結(jié)果
本文介紹了一種通過傅里葉成像網(wǎng)絡(luò)來重建粒子的三維位置的方法。該網(wǎng)絡(luò)采用了空間傅里葉變換模塊,并結(jié)合了可學(xué)習(xí)的濾波器和全局感受野,以快速而準(zhǔn)確地處理全息圖中的空間頻率信息。相比傳統(tǒng)方法,傅里葉成像網(wǎng)絡(luò)不僅提高了數(shù)據(jù)處理的效率,而且具備了更強(qiáng)大的特征提取能力。這使其能夠成功地表征和區(qū)分不同的顆粒特性。與Dense_U_net網(wǎng)絡(luò)的預(yù)測結(jié)果相比,seFIN在不同數(shù)量級的粒子場的重建質(zhì)量和準(zhǔn)確率都表現(xiàn)得更為優(yōu)越。