胡占義
(中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190)
2019年,國(guó)家自然科學(xué)基金委經(jīng)過(guò)反復(fù)論證,將“合成孔徑雷達(dá)微波視覺(jué)三維成像理論與應(yīng)用基礎(chǔ)”設(shè)立為重大研究項(xiàng)目?jī)?nèi)容。該項(xiàng)目的一個(gè)重大原始創(chuàng)新是將“微波視覺(jué)”概念引入到SAR三維成像框架中,以期在減少SAR觀察次數(shù)的情況下,仍能有效處理SAR圖像的疊掩現(xiàn)象和散射體的高程信息復(fù)原能力。筆者覺(jué)得,“微波視覺(jué)”目前仍是一個(gè)框架性概念,“微波視覺(jué)語(yǔ)義”也是一個(gè)“內(nèi)涵”比較廣的概念,需要對(duì)這些內(nèi)容進(jìn)行探討和具體化。筆者長(zhǎng)期從事計(jì)算機(jī)視覺(jué)研究,對(duì)生物視覺(jué)也有一些了解,但對(duì)SAR成像和處理了解非常淺薄。借此??峁┢鯔C(jī),談一點(diǎn)自己對(duì)這些問(wèn)題的粗淺看法,不妥之處敬請(qǐng)批評(píng)指正。另外,本文主要介紹一些筆者的看法,而不是系統(tǒng)介紹相關(guān)內(nèi)容,所以盡量減少了對(duì)相關(guān)文獻(xiàn)的索引。
在探討“微波視覺(jué)”之前,先討論一下什么是“視覺(jué)”。關(guān)于什么是“視覺(jué)”這個(gè)問(wèn)題,從古希臘亞里士多德起,人們的討論就沒(méi)有停止過(guò)。筆者覺(jué)得,“計(jì)算視覺(jué)”(computational vision)的奠基人David Marr[1](馬爾)在其vision一書(shū)中,給出的定義可能是對(duì)“視覺(jué)”最精煉和簡(jiǎn)潔的描述。馬爾認(rèn)為,“視覺(jué)”就是通過(guò)看來(lái)確定什么東西在什么地方(Vision is to know what is where by looking)。盡管很多人覺(jué)得“視覺(jué)”遠(yuǎn)不止馬爾描述的“what”和“where”問(wèn)題,但“什么東西”在“什么地方”至少是視覺(jué)的基本功能。把視覺(jué)功能過(guò)分?jǐn)U大就會(huì)與腦功能混淆,如盲人都具備的能力,似乎不太合適。筆者覺(jué)得,“視覺(jué)”應(yīng)該首先研究“大腦視覺(jué)皮層”的功能,而不宜重點(diǎn)研究涉及多通道融合的腦皮層區(qū)域的功能,否則,“視覺(jué)”與“腦科學(xué)”就沒(méi)有多少區(qū)別了。
為了適應(yīng)白天和黑夜光強(qiáng)的劇烈變化,人類視覺(jué)系統(tǒng)進(jìn)化成了“日視”和“夜視”兩套成像系統(tǒng)。人類約1.2億個(gè)感光細(xì)胞 (photoreceptors)中,約1.1億為桿狀細(xì)胞(rod),600萬(wàn)~700萬(wàn)為錐狀細(xì)胞(cone)。桿狀細(xì)胞主要負(fù)責(zé)夜視,錐狀細(xì)胞大多可以感知顏色,用于“日視”。視網(wǎng)膜(retina)是成像部位,對(duì)圖像進(jìn)過(guò)初級(jí)加工后,如去噪、對(duì)比度增強(qiáng)等,然后將信號(hào)傳到枕葉(occipital lobe:圖1中的綠色區(qū)域)的視覺(jué)初級(jí)加工區(qū)域(V1,V2區(qū)等)進(jìn)行加工處理。
如圖1所示,信號(hào)經(jīng)過(guò)視皮層初級(jí)處理(如邊緣提取、運(yùn)動(dòng)檢測(cè)、視差估計(jì)等)后,主要分成兩個(gè)加工通道,一個(gè)是腹部通道(ventral pathway:綠色到藍(lán)色區(qū)域虛線),主要負(fù)責(zé)物體識(shí)別,稱為“物體視覺(jué)”(object vision)。另一個(gè)是背部通道(dorsal pathway:綠色到紅色區(qū)域虛線),主要負(fù)責(zé)“操作物體”的視覺(jué),由于操作物體必然涉及空間位置和距離等信息,所以稱為“空間視覺(jué)”(spatial vision)。
圖1 視覺(jué)腹部通道和背部通道。腹部通道主要負(fù)責(zé)物體視覺(jué),背部通道主要負(fù)責(zé)空間視覺(jué)Fig.1 Visual ventral pathway and dorsal pathway:Ventral pathway is mainly for object vision,dorsal pathway for spatial vision
由于本文主要關(guān)心“圖像三維視覺(jué)語(yǔ)義”,下面對(duì)單目深度感知和雙目深度感知進(jìn)行一些簡(jiǎn)單介紹。
目前神經(jīng)科學(xué)對(duì)“雙目立體視覺(jué)”(binocular stereo)的機(jī)理相對(duì)比較清楚。單眼信號(hào)首先在視覺(jué)V1區(qū)進(jìn)行融合,并對(duì)絕對(duì)視差(absolute disparity)進(jìn)行加工,然后在后續(xù)皮層進(jìn)一步對(duì)絕對(duì)視差精化和相對(duì)視差計(jì)算。腹部通道和背部通道均涉及視差處理,但到目前為止,人們還沒(méi)有發(fā)現(xiàn)任何一個(gè)腦皮層區(qū)域“專門(mén)用來(lái)處理視差”。雙目視差處理目前主要有2種計(jì)算模型:一種是1990年Ohzawa等人[2]提出的視差能量模型(disparity energy model),一種是Haefner和Cumming[3]于2008年提出的擴(kuò)展的視差能量模型:2SU模型。由于人的雙眼間距很小,外界環(huán)境在雙眼視網(wǎng)膜上的成像基本上相差一個(gè)很小的平移,所以視差能量模型本質(zhì)上是多個(gè)神經(jīng)元對(duì)“圖像相關(guān)”計(jì)算的一種模型。
很顯然,單目也可以進(jìn)行場(chǎng)景深度感知,僅僅是感知的精度要較雙目差一些。目前,就筆者所知,還沒(méi)有任何關(guān)于單目深度感知的相關(guān)神經(jīng)加工機(jī)理的報(bào)道。目前的一些線索大多是“心理學(xué)”的一些實(shí)驗(yàn)結(jié)論[4]。如:相對(duì)尺寸“relative size”(同樣大小的兩個(gè)物體,看上去大的物體在前,小的在后),紋理梯度(Texture Gradient)(梯度大的區(qū)域在前面),線性透視(Linear Perspective)(平行線的投影越到后面變得越窄)等。這些線索還很難上升成“計(jì)算原理”。因?yàn)檫@些都是一些“感覺(jué)”。三維成像是對(duì)現(xiàn)實(shí)的復(fù)原,而三維感覺(jué)卻可以遠(yuǎn)離現(xiàn)實(shí)。目前的很多“虛擬或增強(qiáng)現(xiàn)實(shí)”,事實(shí)上都在給予人們對(duì)“非現(xiàn)實(shí)”的“現(xiàn)實(shí)感”,本質(zhì)上都是一些錯(cuò)覺(jué)。
人類視覺(jué)系統(tǒng)既可以從“無(wú)真實(shí)三維信息的圖像”感覺(jué)到三維信息,也可以從“包含真實(shí)三維信息的圖像”得到錯(cuò)誤感覺(jué)。如圖2的線畫(huà)圖,人們可以產(chǎn)生三維感覺(jué)。圖3的“The Ames room illusion”,兩個(gè)人的真實(shí)身高差不多,但人們都會(huì)有“前面人高,后面人矮”的感覺(jué)。
圖2 從線畫(huà)圖可以產(chǎn)生三維感覺(jué)[1]Fig.2 Human could perceive 3D shape from line drawing[1]
圖3 圖中兩個(gè)人身高感覺(jué)存在明顯差異Fig.3 The Ames room illusion.Two women in the picture have similar heights,but perceived very differently
“視覺(jué)語(yǔ)義”就是對(duì)場(chǎng)景感知信息在“語(yǔ)義層次上”的描述,即在“概念”層次上的一種描述?!板e(cuò)覺(jué)”就會(huì)導(dǎo)致“錯(cuò)誤的視覺(jué)語(yǔ)義”。人們可以對(duì)場(chǎng)景有多種感受,但不是所有感受都可以上升到概念層次。另外,感知得到的視覺(jué)語(yǔ)義并不見(jiàn)得都是對(duì)真實(shí)場(chǎng)景的表述。如人們看到的顏色本質(zhì)上是對(duì)波長(zhǎng)信息的語(yǔ)義表述。如何在SAR三維成像中利用三維視覺(jué)語(yǔ)義信息,以提高三維成像質(zhì)量,仍需要在框架、理論和算法3個(gè)層次上進(jìn)行深度探討。
什么是“微波視覺(jué)語(yǔ)義”?筆者覺(jué)得就是人們從微波圖像“感知”得到的“場(chǎng)景語(yǔ)義信息”。也就是人們從微波圖像“直接看到的”場(chǎng)景語(yǔ)義信息。盡管SAR是距離成像,存在疊掩等光學(xué)成像系統(tǒng)不存在的特有現(xiàn)象,但人們直接從SAR圖像也確實(shí)可以感知到一些場(chǎng)景三維結(jié)構(gòu)信息,如從圖4的SAR圖像中,人們可以感知到的船和橋的一些三維結(jié)構(gòu)信息。
圖4 從圖(a)可以感知到船的一些三維結(jié)構(gòu)信息;圖(b)可以感知到橋的一些三維結(jié)構(gòu)Fig.4 3D ship structural information could be perceived from(a);Bridge 3D shape could be clearly perceived from (b)
本文筆者僅僅討論SAR三維成像中的視覺(jué)語(yǔ)義,還不是更廣泛意義下的微波視覺(jué)語(yǔ)義。由于“視覺(jué)”包含“視覺(jué)感知”和“視覺(jué)認(rèn)知”。計(jì)算機(jī)視覺(jué)傳統(tǒng)意義下主要研究視覺(jué)感知問(wèn)題,而視覺(jué)認(rèn)知覆蓋了更廣泛的概念(如回想視覺(jué)事件、視覺(jué)概念形成、視覺(jué)事件推理等),且筆者覺(jué)得,視覺(jué)認(rèn)知問(wèn)題似乎與其他感覺(jué)通道信息的認(rèn)知機(jī)理也沒(méi)有本質(zhì)區(qū)別(如視覺(jué)事件推理與聽(tīng)覺(jué)事件推理似乎沒(méi)有本質(zhì)區(qū)別)。正像計(jì)算機(jī)視覺(jué)領(lǐng)域一樣,把“計(jì)算機(jī)視覺(jué)”范疇過(guò)度擴(kuò)展,就會(huì)與“圖像理解”,“圖像分析”,“視頻分析”產(chǎn)生混淆,筆者覺(jué)得,“微波視覺(jué)”似乎也應(yīng)該避免類似問(wèn)題,否則也會(huì)存在與微波圖像理解、微波圖像分析混淆的可能。
筆者覺(jué)得,“SAR三維成像中的視覺(jué)語(yǔ)義”,就是指如何利用從SAR圖像中感知的語(yǔ)義信息來(lái)“增強(qiáng)SAR圖像的三維成像能力”。也就是說(shuō),在傳統(tǒng)SAR三維成像中,如何通過(guò)增加“視覺(jué)語(yǔ)義”約束,來(lái)提高SAR三維成像的性能。
正像前面所述,“三維成像”是對(duì)真實(shí)三維場(chǎng)景的復(fù)原,“視覺(jué)語(yǔ)義”是對(duì)真實(shí)場(chǎng)景的“主觀感受”,而主觀感受可能產(chǎn)生錯(cuò)覺(jué)。所以如何在SAR三維成像中融合合適的視覺(jué)語(yǔ)義信息,需要探索一套計(jì)算框架、計(jì)算理論和計(jì)算方法。下面主要圍繞本重大項(xiàng)目的“層析SAR”(TomoSAR)問(wèn)題進(jìn)行一些討論。
TomoSAR 是一種恢復(fù)高程信息的有效技術(shù)途徑[5](這里的高程信息主要指位置信息)。本項(xiàng)目的一個(gè)主要目標(biāo)在于“如何融合視覺(jué)語(yǔ)義信息,以減少TomoSAR的觀測(cè)次數(shù),實(shí)現(xiàn)SAR快速三維成像”,以有效解決傳統(tǒng)TomoSAR周期長(zhǎng)、成本高,不利于時(shí)效性要求較高的應(yīng)用等問(wèn)題。鑒于TomoSAR框架下文獻(xiàn)中對(duì)單個(gè)像元的高程恢復(fù)問(wèn)題已研究了20多年,如以譜分析方法[6]和壓縮感知方法[7]為代表的兩大類方法,筆者認(rèn)為,融合視覺(jué)語(yǔ)義的TomoSAR研究,首先應(yīng)該在處理框架上有別于傳統(tǒng)方法。應(yīng)該從“單像元”處理轉(zhuǎn)變到“圖像區(qū)域”處理,應(yīng)該從“前饋式”處理方式轉(zhuǎn)變到“反饋式”處理方式。關(guān)于圖像區(qū)域處理,文獻(xiàn)中已有一些報(bào)道,如Rambour等人介紹的空間正則途徑[8]。這里的“前饋式”處理是指從SAR圖像一次準(zhǔn)確估計(jì)高程信息的過(guò)程,并不意味著在估計(jì)過(guò)程中沒(méi)有迭代計(jì)算?!胺答伿健碧幚硎侵赴选俺跏脊烙?jì)的粗略高程結(jié)果”再反饋到下次估計(jì),逐次迭代求精的處理方式。
目前文獻(xiàn)中的方法,基本上是增加各種約束,如基于壓縮感知(Compressed Sensing,CS)的稀疏性約束,將“單個(gè)像元內(nèi)所有散射體的高程信息一次準(zhǔn)確恢復(fù)”的過(guò)程。這是一種典型的“前饋處理”方式。任何圖像都不是隨機(jī)分布的,這種以像元為基本處理單元的方式,既沒(méi)有考慮像元鄰域關(guān)系,也沒(méi)有考慮“場(chǎng)景特有的結(jié)構(gòu)先驗(yàn)知識(shí)”。TomoSAR旨在恢復(fù)未知的三維場(chǎng)景結(jié)構(gòu),Tomo-SAR處理中如何利用“待處理場(chǎng)景特有的結(jié)構(gòu)先驗(yàn)”似乎就成了一個(gè)“雞與蛋”的關(guān)系。解決“雞與蛋”關(guān)系,計(jì)算中采用的是“迭代”策略,其核心假定是:當(dāng)沒(méi)有場(chǎng)景結(jié)構(gòu)先驗(yàn)時(shí),TomoSAR初始恢復(fù)的高程不可能非常準(zhǔn)確,但存在“一定程度的可靠性”。這些具有一定可靠性的高程信息,特別是一個(gè)“區(qū)域”對(duì)應(yīng)的粗略高程信息,構(gòu)成了對(duì)場(chǎng)景結(jié)構(gòu)恢復(fù)中下一次迭代的“有效先驗(yàn)”。通過(guò)將這些先驗(yàn)融入到下一次TomoSAR的迭代中,可望有效提升TomoSAR的性能。著名的Adaboost分類方法[9]是這方面的一個(gè)典型代表。每個(gè)弱分類器,只要其分類的正確概率大于0.5,多個(gè)弱分類器的組合,就可以構(gòu)成一個(gè)性能優(yōu)良的強(qiáng)分類器。在這種迭代框架下,隨著迭代的進(jìn)行,場(chǎng)景的高程信息會(huì)恢復(fù)得越來(lái)越準(zhǔn)確。這種迭代式估計(jì)方法,其合理性支撐理論是魯棒統(tǒng)計(jì)理論,如RANSAC方法[10]。圖5給出一種TomoSAR迭代估計(jì)框架。
圖5 TomoSAR迭代處理框架Fig.5 TomoSAR iterative framework
目前這種迭代框架下的求解TomoSAR的方法還不多見(jiàn)。Rambour等人[11]給出的REDRESS算法,利用城鎮(zhèn)場(chǎng)景的特性,通過(guò)graph-cut對(duì)初始CS框架下估計(jì)的高程進(jìn)一步優(yōu)化后,進(jìn)而利用場(chǎng)景信息改變CS中的稀疏性懲罰系數(shù)的方法,本質(zhì)上是一種迭代框架下的TomoSAR方法。
多尺度方法是信息領(lǐng)域一種廣泛使用的方法[12],如圖像的金字塔表示。多尺度理論在特征提取中的假定:真實(shí)的特征在不同尺度下均存在,虛假特征僅僅在某個(gè)尺度下出現(xiàn)。另外,多尺度理論也表明,一個(gè)特征具有其固有的尺度(intrinsic scale),也就是說(shuō),特征在其固有的尺度下更容易可靠提取,如公路不宜在“厘米分辨率”的圖像上提取。TomoSAR也可以在多尺度處理框架下進(jìn)行處理。如利用譜分析方法在低分辨率下先得到一個(gè)粗略高程估計(jì),然后利用該粗略估計(jì)的信息作為先驗(yàn),進(jìn)一步在壓縮感知框架下精化估計(jì)結(jié)果。這種途徑可以將TomoSAR處理的兩大途徑:譜分析方法和壓縮感知方法結(jié)合起來(lái),同時(shí)可以在“反饋式”處理模式下進(jìn)一步優(yōu)化。圖6為一種偽多尺度處理框架。這里“偽”是為了表明這不是一種真正符合“多尺度理論”的方法。
圖6 TomoSAR的偽多尺度處理框架Fig.6 TomoSAR pseudo-multi-scale framework
“迭代框架”、“多尺度框架”一定意味著更長(zhǎng)的處理時(shí)間嗎?計(jì)算機(jī)視覺(jué)領(lǐng)域的大量方法和應(yīng)用表明[13,14],“多尺度”和“迭代”在估計(jì)精度提高的情況下,計(jì)算時(shí)間反而可以降低。TomoSAR處理與其他圖像應(yīng)用相比,在這方面似乎也不應(yīng)該存在本質(zhì)區(qū)別。
TomoSAR融合先驗(yàn)知識(shí),包括視覺(jué)語(yǔ)義知識(shí),目前的基本處理途徑如式(1)所示,即在Tomo-SAR傳統(tǒng)表述方程中增加視覺(jué)語(yǔ)義約束,以提高三維成像的質(zhì)量。
這種途徑在理論上具有融合各種先驗(yàn)知識(shí)的潛力和靈活性。式(1)中f(XM)既可以包含連續(xù)變量約束,也可以包含離散變量約束,既可以表示確定性正則化(deterministic regularization),也可以表示統(tǒng)計(jì)性正則化(statistical regularization),同時(shí)可以表示更一般的語(yǔ)義正則化(semantic regularization)(如XM位于同一空間水平面上)。既可以表示對(duì)單像元的約束,也可以表示空間鄰域像元之間的約束。筆者覺(jué)得,SAR三維成像中的視覺(jué)語(yǔ)義可以在語(yǔ)義正則化框架下進(jìn)行描述和體現(xiàn)。根據(jù)前面對(duì)視覺(jué)語(yǔ)義的討論,SAR三維成像中的視覺(jué)語(yǔ)義應(yīng)該是體現(xiàn)場(chǎng)景結(jié)構(gòu)的語(yǔ)義信息,特別是組成場(chǎng)景的幾何基元信息,如空間線段、面片等基元,其位置和朝向以及物體類別等信息。另外,這些幾何基元信息可以通過(guò)“機(jī)器學(xué)習(xí)的途徑”來(lái)提取。這里需要指出的是,“語(yǔ)義約束”從能量模型的觀點(diǎn)看,一般是一個(gè)“高階能量項(xiàng)”(high-order energy model)。從條件隨機(jī)場(chǎng)(conditional Random Field)能量?jī)?yōu)化理論知道[15],除了很少的一些高階能量模型外,一般的含高階能量項(xiàng)的優(yōu)化問(wèn)題都是一個(gè)NP-Hard問(wèn)題。所以,上述框架下設(shè)計(jì)“約束項(xiàng)”時(shí),一定要考慮對(duì)應(yīng)的求解問(wèn)題。否則,會(huì)出現(xiàn)目前很多“設(shè)計(jì)了一個(gè)復(fù)雜優(yōu)美的能量模型,用簡(jiǎn)化方法進(jìn)行了求解,得到了與所設(shè)計(jì)的能量模型關(guān)系不大的結(jié)果”的怪現(xiàn)象。
深度學(xué)習(xí)的進(jìn)展使得計(jì)算機(jī)視覺(jué)研究發(fā)生了“變革性”進(jìn)展。深度學(xué)習(xí)可以用在TomoSAR中嗎?目前見(jiàn)到的報(bào)道并不多,少有的幾項(xiàng)工作如Costante等人[16]直接從SAR圖像推斷DEM的工作,Budillon等人[17]直接用深度學(xué)習(xí)反演TomoSAR,以及Wu等人[18]在CS粗估計(jì)下進(jìn)一步利用DNN進(jìn)行高程超分辨率的工作。利用深度學(xué)習(xí)方法可以從單幅SAR圖像直接推斷高程信息嗎?從單幅光學(xué)圖像推斷景深的進(jìn)展和結(jié)果看[19],原理上并不存在任何困難。深度學(xué)習(xí)從單幅SAR圖像推斷高程,本質(zhì)上也是建立SAR圖像特征與高程信息的一種映射。由于深度網(wǎng)絡(luò)可以有效逼近任何一種函數(shù)映射關(guān)系,所以,盡管SAR圖像與光學(xué)圖像的成像機(jī)理不同,但從SAR圖像特征到高程信息的映射函數(shù)也可以用深度網(wǎng)絡(luò)近似。從單幅光學(xué)圖像學(xué)習(xí)景深成功的另外兩個(gè)操作:特征的多尺度表示和高程的局部一致性約束,SAR圖像原則上也成立。所以,從單幅SAR圖像在深度學(xué)習(xí)框架下直接推斷高程信息,筆者覺(jué)得核心問(wèn)題是“缺乏大量標(biāo)注數(shù)據(jù)”。盡管“標(biāo)注數(shù)據(jù)匱乏”是任何一個(gè)領(lǐng)域的共性問(wèn)題,但SAR圖像的數(shù)據(jù)匱乏現(xiàn)象較光學(xué)圖像更為嚴(yán)重。
目前計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)對(duì)標(biāo)注數(shù)據(jù)不足的基本策略是:半監(jiān)督學(xué)習(xí)(semi-supervised learning),即利用少量標(biāo)注數(shù)據(jù)迭代擴(kuò)大標(biāo)注數(shù)據(jù)集;弱監(jiān)督學(xué)習(xí)(weakly supervised learning),即利用標(biāo)注質(zhì)量不高(含噪聲)的數(shù)據(jù)進(jìn)行學(xué)習(xí);主動(dòng)學(xué)習(xí)(active learning),即在學(xué)習(xí)的過(guò)程中人工參與標(biāo)注少量困難樣本,以及模擬數(shù)據(jù)。SAR圖像與波長(zhǎng)和成像視角有關(guān),存在相干斑噪聲,比光學(xué)圖像數(shù)據(jù)在數(shù)據(jù)增強(qiáng)方面更加困難,但筆者覺(jué)得,這也許僅僅是一個(gè)時(shí)間問(wèn)題,很快含有高程信息的大量SAR標(biāo)注數(shù)據(jù)集會(huì)問(wèn)世。筆者覺(jué)得,在解決SAR圖像標(biāo)注數(shù)據(jù)匱乏問(wèn)題方面,利用“仿真”和“合成”數(shù)據(jù)將是一條有效的途徑。另外,鑒于目前遙感領(lǐng)域已有大量含有高程信息的光學(xué)影像,如何將這些高程信息從光學(xué)影像遷移到SAR圖像中,也是一條值得探索的途徑。
總之,基于深度學(xué)習(xí)從SAR圖像推斷高程信息,盡管目前仍有不少難度,文獻(xiàn)中相關(guān)報(bào)道也不多,但筆者覺(jué)得是一條值得探索且有巨大潛力和前景的技術(shù)途徑。
本文對(duì)SAR三維成像中的微波視覺(jué)問(wèn)題進(jìn)行了初步探討。由于筆者對(duì)SAR圖像處理了解不深,不妥之處在所難免,歡迎讀者批評(píng)指正。關(guān)于Tomo-SAR中如何利用視覺(jué)語(yǔ)義,筆者的基本觀點(diǎn)為:
(1) 處理框架:有必要探索基于魯棒估計(jì)理論的“反饋式”處理框架。即先快速得到一些關(guān)于場(chǎng)景的粗略高程信息,然后根據(jù)這些粗略信息形成關(guān)于場(chǎng)景的一些粗略三維語(yǔ)義約束并反饋到下一輪高程估計(jì)中。隨著迭代的進(jìn)行,“高程信息”和“三維場(chǎng)景語(yǔ)義”互為依托和促進(jìn),使得高程估計(jì)變得越來(lái)越準(zhǔn)確,同時(shí)“場(chǎng)景語(yǔ)義”也變得越來(lái)越精細(xì)和可靠;
(2) 視覺(jué)語(yǔ)義:場(chǎng)景結(jié)構(gòu)基元,如線段、面片及其位置和姿態(tài)信息,以及物體的類別信息,是最基本和值得優(yōu)先考慮的“視覺(jué)語(yǔ)義”信息。這些場(chǎng)景結(jié)構(gòu)語(yǔ)義信息可以通過(guò)“語(yǔ)義正則化”途徑來(lái)描述和體現(xiàn);
(3) 語(yǔ)義提?。簣?chǎng)景結(jié)構(gòu)基元,包括三維結(jié)構(gòu)基元,可以通過(guò)機(jī)器學(xué)習(xí)的途徑來(lái)提取。鑒于當(dāng)前機(jī)器學(xué)習(xí)缺乏“圖像匹配中的外點(diǎn)剔除機(jī)制”,所以如何從單幅SAR圖像來(lái)提取場(chǎng)景結(jié)構(gòu)基元以及對(duì)場(chǎng)景幾何結(jié)構(gòu)進(jìn)行推斷,是一條值得探索的途徑;
在結(jié)束本文之前,筆者還想談兩點(diǎn)與“SAR三維成像中的視覺(jué)語(yǔ)義”不太關(guān)聯(lián)的看法:
(1) 隨著SAR成像技術(shù)的進(jìn)步,SAR圖像的距離和方位向分辨率會(huì)越來(lái)越高。這樣單個(gè)像元內(nèi)存在較多疊掩的概率也會(huì)隨之減少。當(dāng)疊掩次數(shù)不超過(guò)2時(shí),筆者覺(jué)得TomoSAR的處理技術(shù)似乎也會(huì)發(fā)生大的改變。顯然,當(dāng)一個(gè)像元僅僅包含一個(gè)散射體時(shí),散射體對(duì)應(yīng)的高程相對(duì)比較容易復(fù)原,如理論上可以證明,像元協(xié)方差矩陣最大特征值對(duì)應(yīng)的特征向量是該散射體的投影向量。當(dāng)像元包含兩個(gè)散射體時(shí),文獻(xiàn)[20,21]表明,可以通過(guò)核PCA(kernel PCA)分解對(duì)應(yīng)的兩個(gè)最大特征值對(duì)應(yīng)的特征向量來(lái)確定散射體的投影向量。這種基于PCA的方法以及其他譜分解方法,由于計(jì)算速度快,未來(lái)似乎應(yīng)該給予必要的關(guān)注。當(dāng)然,如何估計(jì)像元的協(xié)方差矩陣本身也是一個(gè)困難的問(wèn)題。
(2) TomoSAR的一個(gè)主要目標(biāo)是恢復(fù)散射體的高程信息,而恢復(fù)的高程信息往往又是一個(gè)具體應(yīng)用的“中間結(jié)果”,如對(duì)建筑物的三維重建。鑒于一般情況下,含有多散射體的像元在整幅SAR圖像中占的比例很小,那么,這種“耗費(fèi)大量精力和時(shí)間”對(duì)單像元多散射體的努力,對(duì)“最終目標(biāo)”的實(shí)現(xiàn)又有多大幫助呢?所以,從某種程度上說(shuō),TomoSAR研究似乎也需要充分考慮具體應(yīng)用(application-oriented)。當(dāng)然,從學(xué)術(shù)的觀點(diǎn)看,能準(zhǔn)確恢復(fù)所有散射體的精確位置和散射性質(zhì),永遠(yuǎn)是科學(xué)研究的一種不懈追求。
總之,SAR 高分辨率和全天候的成像能力為對(duì)地觀測(cè)提供了變革性的觀測(cè)手段,TomoSAR的引入,為恢復(fù)SAR高程信息提供了全新的途徑。在人工智能如火如荼的今天,微波視覺(jué)的提出,視覺(jué)語(yǔ)義的融合,也可望為SAR快速三維成像提供有力的推動(dòng)。