頓 雄,張 健,馮詩淇,羅 洪,王占山,程鑫彬
(同濟大學物理科學與工程學院精密光學工程技術(shù)研究所,先進微結(jié)構(gòu)材料教育部重點實驗室,上海市數(shù)字光學前沿科學研究基地,上海市全光譜高性能光學薄膜器件與應(yīng)用專業(yè)技術(shù)服務(wù)平臺,上海 200092)
光學成像系統(tǒng)作為人類視覺功能延伸擴展的工具,廣泛應(yīng)用于軍事和民用領(lǐng)域。傳統(tǒng)成像系統(tǒng)是“所見即所得”的成像模式[1],受光學系統(tǒng)設(shè)計、強度成像機理、成像衍射極限等因素制約,在像差矯正、空間分辨、光譜分辨、信息維度與探測靈敏度等方面存在很大局限性。近年來,隨著光學、電子學、信息處理、計算方法和高性能計算機的發(fā)展,計算成像技術(shù)應(yīng)運而生[2-4],它打破了傳統(tǒng)“所見即所得”的模式,采取了更加靈活的非直接成像模式,通過聯(lián)合光學系統(tǒng)和圖像處理來實現(xiàn)最終需要的成像功能。這種靈活的設(shè)計模式可以改變光學成像采集信息的模式,并平衡光學硬件空間和圖像處理算法軟件空間所依賴的資源,從而賦予其諸多傳統(tǒng)成像系統(tǒng)難以獲得的革命性優(yōu)勢,如簡化系統(tǒng)(單鏡片成像[5-7]),獲得額外功能(光譜成像[8]),突破設(shè)備原有分辨率限制(超分辨成像[9])等。但目前的計算成像系統(tǒng)多采取順序設(shè)計模式,即光學系統(tǒng)和圖像處理算法依據(jù)經(jīng)驗規(guī)則獨立設(shè)計,這種人為設(shè)定的經(jīng)驗規(guī)則很多時候并非最優(yōu),特別是從計算成像自身的角度來說,人為制定的規(guī)則可能并不能與后續(xù)圖像處理算法相匹配,而且這種順序設(shè)計模式難以考慮到諸如加工誤差等不確定因素的影響??偟膩碚f,基于順序設(shè)計方法的計算成像系統(tǒng)對整體優(yōu)化空間探索不足,性能和魯棒性都有很大的提升空間。
因此,人們也一直在探索光學系統(tǒng)與圖像處理算法協(xié)同設(shè)計的方法,但由于傳統(tǒng)光學設(shè)計過程是不可自動微分的,傳統(tǒng)優(yōu)化設(shè)計理念下難以建立起它們之間協(xié)同優(yōu)化架構(gòu),進展有限。2018年,在深度學習優(yōu)化模型的啟發(fā)下,我們建立了針對單個光學元件的光學系統(tǒng)與圖像處理算法協(xié)同優(yōu)化框架[5],從而可以真正意義上開展光學系統(tǒng)與圖形處理算法的協(xié)同設(shè)計。一方面,端到端協(xié)同設(shè)計通過突破光學設(shè)計和圖像后處理之間的壁壘,全面探索整個解空間,找到光學和算法部分在硬件成本、加工可行性、體積重量、成像質(zhì)量、算法復雜度以及特殊功能間的最佳折中,從而實現(xiàn)在設(shè)計要求下的最優(yōu)方案,極大地提升成像系統(tǒng)的性能。另一方面,端到端協(xié)同設(shè)計使得研制基于特定任務(wù)的最優(yōu)成像系統(tǒng)成為可能,有望實現(xiàn)成像系統(tǒng)的多樣性和多功能化。自端到端光學聯(lián)合設(shè)計(End-to-end Co-design)策略提出以來,迅速吸引了學界的廣泛關(guān)注,經(jīng)過近幾年的發(fā)展已成為計算光學研究的熱點分支,在消 色 差 成 像[5-6,10]、大 景 深 成 像[5,11-14]、光 譜 成像[8,15-16]、單 相 機 三 維 成 像[17-19]、高 動 態(tài) 范 圍 成像[20-21]、超 分 辨 成 像[5,7,9]等 方 面 都 取 得 了 廣 泛應(yīng)用。
本文主要介紹基于端到端協(xié)同設(shè)計技術(shù)的基本架構(gòu),包括可微分成像模型和計算降維方法。此外,介紹了我們基于這一框架在平面透鏡的寬譜成像、平面透鏡的大視場成像、大景深成像,超分辨成像和快照式光譜成像方面的研究進展,其中有部分內(nèi)容是作者在沙特阿卜杜拉國王科技大學的工作。
光學系統(tǒng)與圖像處理端到端協(xié)同設(shè)計架構(gòu)如圖1所示,其包括成像模塊、重建模塊以及誤差模塊。長期以來,端到端設(shè)計難以實現(xiàn)的根本原因在于缺乏可微分的成像模塊。2018年,我們基于波動光學推導針對單透鏡的可微分成像模塊[5],并于2021年又發(fā)展了基于可微分射線追蹤的成像模型[22]。在重建模塊和誤差模塊上我們也發(fā)展了眾多方法。
如圖1所示,光學成像模塊主要包括光學系統(tǒng)點擴散函數(shù)計算過程foptics,點擴散函數(shù)(Point Spread Function,PSF)與目標圖像卷積,以及探測器積分采樣過程fsensor三部分。PSF計算過程foptics采取波動光學理論推導得到,具體如下:
其 中:pλ為 單 透 鏡 光 學 系 統(tǒng) 的PSF,j為 虛 數(shù) 單位,z′表示待模擬目標場景距鏡頭的距離,n表示透鏡材料的折射率,?(x,y)表示透鏡的面型(含可能的加工誤差),z表示透鏡距探測器的距離,λ表示目標場景的波長,k表示波數(shù)。有了透鏡的點擴散函數(shù)后,完整的探測器輸出計算過程fsensor可以描述為:
其中:Rc表示探測器光譜響應(yīng),Iλ表示目標場景圖像,S[·]表示離散采樣以及探測器噪聲模擬操作。從公式(1)可以看出,點擴散函數(shù)的模擬過程為二維運算,其計算量隨著光學元件口徑以平方關(guān)系增加。比如設(shè)計一個8 mm口徑的單透鏡,采樣間隔為2μm,數(shù)據(jù)量高達16 000 000,這給端到端誤差方向傳播過程中梯度存儲造成了很大的內(nèi)存需求挑戰(zhàn)。我們在2020年提出了基于同心圓環(huán)分解的點擴散函數(shù)計算降維方法[6],如圖2所示??紤]到光學系統(tǒng)一般都是旋轉(zhuǎn)對稱性結(jié)構(gòu),我們將原本的二維面型表述轉(zhuǎn)化成一系列同心圓孔的線性組合,并且利用圓孔的點擴散函數(shù)(已知的一階貝塞爾函數(shù))成功地將原先二維PSF模擬轉(zhuǎn)化為一維線性組合,使得整個原始的內(nèi)存需求降低了1個數(shù)量級,可以進一步設(shè)計更大口徑光學系統(tǒng)。
前述基于波動光學的可微分成像模塊只能夠用來設(shè)計單透鏡,雖然已經(jīng)實現(xiàn)了很多功能,但單個元件的調(diào)控能力難免不足。2021年,我們發(fā)展了針對透鏡組的可微分光線追蹤成像模型[22],如圖3所示??晌⒎稚渚€光線追蹤廣泛應(yīng)用于圖形學中的動畫渲染領(lǐng)域,我們將其引入到鏡頭成像中。具體來說,我們采取了反向追蹤的方法,首先將探測器按照像素大小劃分成對應(yīng)數(shù)量的網(wǎng)格,然后對每個網(wǎng)格發(fā)出一組光線逆向追蹤到目標場景空間,根據(jù)每根光線與目標場景的交點位置計算每個光線對應(yīng)的強度,最后把它們相加作為所對應(yīng)目標像素的圖像信號。為了減小每個像素點所需追蹤的光線數(shù)量,我們采取了多次蒙特卡洛追跡后平均的方法,這使得我們每次僅需追蹤64根光線,10次平均即可得到接近百萬根光線的效果。這種可微分光線追蹤成像模型沒有使用諸如徬軸近似的假設(shè),理論上其可以用于任何復雜光學系統(tǒng)和圖像處理算法的端到端協(xié)同設(shè)計。
圖像重建模塊用于將探測器輸出的原始圖像進行重建,常用的重建方法包括基于物理模型的重建方法、基于深度學習的重建方法以及物理模型結(jié)合深度學習的重建方法?;谖锢砟P偷闹亟ǚ椒ㄗ畹湫偷木褪切拚S納濾波[5],與傳統(tǒng)維納濾波算法不同,為了更便于在設(shè)計初期讓深度學習框架給與光學部分更大的權(quán)重,我們對原始圖像額外進行了加權(quán):
其中:γ為修正系數(shù),屬于可優(yōu)化的變量,隨著優(yōu)化的進行,γ會逐漸減?。籉(pc)為光學傳遞函數(shù);*表示復共軛;Ic為探測器采集的圖像;F(·)和F-1(·)分別表示傅里葉變換和傅里葉逆變換。
基于深度學習的重建方法也稱為數(shù)據(jù)驅(qū)動的重建方法,典型的網(wǎng)絡(luò)包括Unet和Resnet,我們在2020年提出了一種Unet和Resnet的結(jié)合體——Res-Unet[6],見 圖4。它 既 保 留 了Unet對圖像在多個尺度上操作的特點,又可以像Resnet那樣通過不斷擴展網(wǎng)絡(luò)來增加重建網(wǎng)絡(luò)的性能,適合模糊程度一般的圖像。近年來人們也發(fā)展了物理模型結(jié)合深度學習的重建方法。如Monakhova等使用了一個循環(huán)的交替ADMM(Alternating Direction Method of Multipliers)網(wǎng)絡(luò)(Le-ADMM)[23],他們將ADMM循環(huán)中 的每一個超參數(shù)作為優(yōu)化變量,通過網(wǎng)絡(luò)訓練學習;Ethan Tseng等在2021年提出了在深度學習特征空間進行維納濾波的重建方法[10],其分為3個過程,首先是一個多尺度的特征提取網(wǎng)絡(luò),然后是維納濾波層,最后是特征重建網(wǎng)絡(luò),非常適合中等模糊的圖像。Kyrollos Yanny等在2022年提出Multi-WienerNet網(wǎng)絡(luò),采取了維納濾波和Unet級聯(lián)的方案[24],由于維納濾波在最前面,這種方式適合處理非常模糊的圖像。
誤差模塊用于計算重建圖像與目標圖像之間偏差,并反向傳播用來優(yōu)化重建網(wǎng)絡(luò)和光學系統(tǒng)結(jié)構(gòu)參數(shù)。一般多用圖像質(zhì)量評價指標作為誤差函數(shù)。如重建圖像與目標圖像的L2范數(shù)(均方差MSE),或者L1范數(shù)。也可以直接使用結(jié)構(gòu)相似性(Structural Similarity,SSIM)或者峰值估噪比(Peak Signal to Noise Ratio,PSNR)作為誤差函數(shù)。近年來,感知圖像評價指標(Perceptual Loss)也被用來作為誤差函數(shù),其通常是取VGG網(wǎng)絡(luò)中某幾層輸出的特征來計算重建圖像與目標圖像的接近程度。對抗網(wǎng)絡(luò)也常用來評估重建圖像與目標圖像的偏差,例如我們在2021年在復雜鏡頭端到端設(shè)計中就使用了全局和局部對抗網(wǎng)絡(luò)[22],如圖5。通常選擇前述多個的加權(quán)組合做為誤差函數(shù)。
傳統(tǒng)成像鏡頭的景深與收集光的能力相互制約,計算成像可以打破這種制約,通過設(shè)計一個具備隨深度近似不變的PSF的光學系統(tǒng),然后應(yīng)用深度平移不變的反卷積重建全深度清晰的圖像。雖然研究者們對于這個PSF應(yīng)該是什么樣的做了很多研究,但脫離了后端圖像處理算法的任何設(shè)計總是不盡如人意。2018年,我們使用端到端設(shè)計架構(gòu)分別實現(xiàn)了基于單個自由曲面透鏡和衍射光學元件的大景深成像系統(tǒng),在該方法下,不同深度的PSF到底要設(shè)計成什么樣可由圖像處理算法以不同深度的成像質(zhì)量為優(yōu)化目標直接優(yōu)化得到。仿真性能表明使用端到端協(xié)同設(shè)計的光學系統(tǒng)與最經(jīng)典的三次相位板的景深延拓方法提升了6 dB[5]。使用端到端協(xié)同設(shè)計,不僅成功避免了傳統(tǒng)反卷積離面極容易出現(xiàn)的振鈴現(xiàn)象,更顯著提升了噪聲魯棒性。2021年,我們使用新發(fā)展的基于可微分射線追蹤的成像模型框架,在3片透鏡的系統(tǒng)中也實現(xiàn)了類似的效果[22],如圖6。
通常成像系統(tǒng)的分辨率由探測器像元大小和光學系統(tǒng)焦距共同決定。為了提升分辨率,要么增加光學系統(tǒng)焦距,要么更換像素單元更小、像元規(guī)模更高的探測器,但兩種方法都會帶來巨大硬件成本。以當前超快光學里面用的單光子雪崩二極管(SPAD)相機為例,目前其像素規(guī)模只有數(shù)十萬量級,遠低于當前CMOS相機,迫切需要研究提升其分辨率的方式。而且SPAD相機通常填充率很低,這通常會帶來顯著的空間頻率混疊,從而使得該問題比傳統(tǒng)意義上的圖像超分辨更加復雜。2019年,我們采取了端到端設(shè)計理念,將光學系統(tǒng)、欠采樣探測器、超分辨算法作為一個整體進行考慮,通過設(shè)計一個光學相位板對圖像進行濾波,在抑制欠采樣探測器導致混頻的同時盡可能地為后續(xù)超分辨網(wǎng)絡(luò)提供更多的信息,成功地實現(xiàn)了4倍超分辨成像[9]。圖7為端到端設(shè)計的相位板實現(xiàn)SPAD相機4倍超分辨率成像仿真實驗表明,采用端到端設(shè)計的光學相位板提供的濾波器相比于之前通常用的高斯濾波器在空間分辨率上有顯著提升,見圖7(a)中的圖像。而實際成像實驗也驗證了基于端到端優(yōu)化的相位板獲得了明顯的分辨率提升,見圖7(b)。
快照式光譜因為具備快速響應(yīng)的優(yōu)點,是當前光譜成像系統(tǒng)研究的熱點方向,但傳統(tǒng)的快照式光譜成像系統(tǒng)通常需要很多光學元件,如色散光學元件、光強編碼元件、中繼鏡頭和成像鏡頭,導致快照式光譜成像系統(tǒng)體積都很大。衍射光學元件等新型微結(jié)構(gòu)器件可以實現(xiàn)光譜編碼與成像一體化,而且具備輕薄化的特點,可極大的縮減系統(tǒng)體積,但是如何在考慮衍射光學元件實際光譜調(diào)控能力的情況下設(shè)計光譜編碼是難點。我們基于端到端設(shè)計理念,協(xié)同設(shè)計衍射光學元件的光學編碼與后續(xù)深度學習圖像重建算法,實現(xiàn)了單片衍射光學元件的快照式光譜成像系統(tǒng)[8],如圖8。我們將衍射光學元件設(shè)計成可對光譜有各向異性響應(yīng),這樣可以使得在PSF的大小保持不變時,其形狀隨著波長的變化快速旋轉(zhuǎn)。由于沒有了色散元件和光學編碼元件,光譜重建的不確定度也顯著增加,通過使用基于模型的重建算法專門用于反卷積的光譜圖像重建,仿真和實驗均表明這種基于衍射元件的快照式光譜成像可以獲得與多數(shù)快照式光譜成像系統(tǒng)相當?shù)墓庾V分辨率和空間分辨率。
基于人工微結(jié)構(gòu)材料的微納光學器件因其平面化、可調(diào)能力強等優(yōu)勢,有望顛覆傳統(tǒng)復雜光學系統(tǒng),實現(xiàn)輕薄化、小型化成像系統(tǒng),目前已成為現(xiàn)在學術(shù)界和產(chǎn)業(yè)界關(guān)注的熱點方向之一。但是微納光學元件,如衍射光學元件(Diffractive Optical Element,DOE)[26-28]、超 表 面[29-33]等 都 存在極強的內(nèi)在色差,這嚴重制約了其在實際寬譜段如彩色成像中的應(yīng)用。近年來,研究者發(fā)現(xiàn)可以通過逆向設(shè)計實現(xiàn)消色差微納光學元件,其原理是將微納結(jié)構(gòu)的色差轉(zhuǎn)移到波長無關(guān)的殘留像差,然后再通過后續(xù)圖像處理算法對波長無關(guān)的殘留像差進行校正。長期以來,研究者們采取的也都是順序設(shè)計模式,如前面所述,這種模式從計算成像的角度并非最優(yōu)。我們通過應(yīng)用端到端設(shè)計框架來解決這一問題[6]。如圖9所示,采用端到端設(shè)計的方式,其圖像質(zhì)量相比順序設(shè)計模式在峰值信噪比(Peak Signal-to-noise Ratio,PSNR)、結(jié)構(gòu)相似性(Structural Similarity,SSIM)和光譜角制圖(Spectual Angular Mapper,SAM)分別比提升了1.3 dB、0.015和0.01,這表明端到端設(shè)計的消色差平面微納透鏡具有更好的寬譜段成像性能。而且通過端到端設(shè)計,我們研究發(fā)現(xiàn),對于計算成像的消色差成像,其設(shè)計目標是使得所有波長在高頻處的光學傳遞函數(shù)(OTF)都盡可能一致且盡可能高。
對于一個成像系統(tǒng),其核心指標包括F數(shù)、視場、焦距等,從目前的發(fā)展趨勢來看,成像系統(tǒng)的F數(shù)越來越小,視場越來越大。為了實現(xiàn)這一需求,勢必需要增加系統(tǒng)的復雜度和長度。但人們一直在思考是否有方法能夠打破這一限制。結(jié)合計算成像的成像系統(tǒng)設(shè)計為這一方案提供了可能,但受制于設(shè)計理念,以前單鏡片的成像視場通常只有10°到20°。我們針對大視場的需求,參考大景深成像采用的深度不變點擴散函數(shù)設(shè)計目標,設(shè)計了具有視場近似不變的點擴散函數(shù),并針對性的設(shè)計了圖像重構(gòu)網(wǎng)絡(luò),最終實現(xiàn)了視場53°,F(xiàn)數(shù)1.8,焦距43 mm的單鏡片成像系統(tǒng)[7]。2021年,我們針對原始算法在暗區(qū)表現(xiàn)不佳的問題,又發(fā)展了場景相關(guān)的圖像恢復算法,使得全視場的成像質(zhì)量又有所提升[34]。早期我們的端到端設(shè)計模型只用于徬軸近似條件,在2021年我們發(fā)展的基于可微分射線追蹤成像模型打破了徬軸近似的限制,結(jié)合端到端設(shè)計架構(gòu)實現(xiàn)了2個鏡片的大視場成像。該系統(tǒng)與我們前期沒有采用端到端設(shè)計的鏡頭相比,獲得了更好的全視場成像質(zhì)量,特別是在虛假目標抑制方面,大視場成像效果與對比見圖10[22]。
計算成像本質(zhì)上是聯(lián)合光學硬件與圖像處理算法來協(xié)同實現(xiàn)新功能、高性能的成像技術(shù)。光學系統(tǒng)與圖像處理算法端到端協(xié)同設(shè)計為各環(huán)節(jié)深入?yún)f(xié)同提供了基礎(chǔ),它打破了傳統(tǒng)的成像系統(tǒng)中光學、傳感器、圖像后處理算法以及顯示處理等環(huán)節(jié)之間的壁壘,降低每個環(huán)節(jié)對經(jīng)驗的依賴,目標是為諸多場景提供傻瓜化的全新解決方案。目前光學成像系統(tǒng)的發(fā)展趨勢正朝著輕小型化和高成像質(zhì)量方向發(fā)展,例如消費電子和消費光子學要求成像系統(tǒng)的F數(shù)小、視場大,又要求成像系統(tǒng)重量輕、體積小。光學系統(tǒng)與圖像處理算法端到端協(xié)同設(shè)計提高了這類光學系統(tǒng)設(shè)計的可能性,目前在平面透鏡的寬譜成像、平面透鏡的大視場成像、大景深成像,超分辨成像,快照式光譜成像方面取得了不錯的進展。我們正在推進該技術(shù)在紅外光電對抗領(lǐng)域的應(yīng)用。
端到端設(shè)計架構(gòu)在單鏡片以及復雜鏡片設(shè)計中都進行了有益的嘗試并取得了不錯的結(jié)果,如可微復合透鏡光學模型,不僅克服了單一光學表面和單一材料的限制,而且支持優(yōu)化離軸區(qū)域。但這種基于可微分射線追蹤成像目前還是過于復雜,在優(yōu)化復雜鏡頭時難以收斂,如何在保證精度的情況下對其進行降維是未來的研究方向之一,比如是否可以使用深度學習來進行透鏡PSF的模擬,即只要給定結(jié)構(gòu)參數(shù),可快速通過一個網(wǎng)絡(luò)計算出其所對應(yīng)的各視場的點擴散函數(shù)。此外計算成像系統(tǒng)應(yīng)用推進所面臨的的計算資源需求過大問題也亟需解決,如何將前端光學系統(tǒng)、探測器采樣、后端算法甚至后端算法可用硬件資源一起協(xié)同也是重要的研究方向。
另外,未來的光學成像系統(tǒng)要想真正實現(xiàn)輕薄化,不僅需要在設(shè)計方法上有突破,還需要在新材料上有突破,目前超表面這種小于波長的超薄人工結(jié)構(gòu)是最有可能突破現(xiàn)有光學系統(tǒng)設(shè)計瓶頸的材料。雖然超表面有很大潛力,但其內(nèi)在更大的自由度和自身固有的結(jié)構(gòu)色散導致目前的成像質(zhì)量和傳統(tǒng)折射型光學系統(tǒng)還存在一定的差距。美國普林斯頓大學Heide等人使用端到端架構(gòu)設(shè)計超表面實現(xiàn)擁有全色覆蓋、寬視場成像的超表面相機[10]。在未來,端到端架構(gòu)和超表面這種具有強大調(diào)控能力的人工材料相結(jié)合可能會碰撞出新的火花,實現(xiàn)更加強大的光學成像功能。