合成孔徑雷達(dá)三維成像中的視覺(jué)語(yǔ)義淺析

2022-03-05 14:34胡占義

雷達(dá)學(xué)報(bào) 2022年1期

胡占義

(中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室北京 100190)

1 背景與引言

2019年，國(guó)家自然科學(xué)基金委經(jīng)過(guò)反復(fù)論證，將“合成孔徑雷達(dá)微波視覺(jué)三維成像理論與應(yīng)用基礎(chǔ)”設(shè)立為重大研究項(xiàng)目?jī)?nèi)容。該項(xiàng)目的一個(gè)重大原始創(chuàng)新是將“微波視覺(jué)”概念引入到SAR三維成像框架中，以期在減少SAR觀察次數(shù)的情況下，仍能有效處理SAR圖像的疊掩現(xiàn)象和散射體的高程信息復(fù)原能力。筆者覺(jué)得，“微波視覺(jué)”目前仍是一個(gè)框架性概念，“微波視覺(jué)語(yǔ)義”也是一個(gè)“內(nèi)涵”比較廣的概念，需要對(duì)這些內(nèi)容進(jìn)行探討和具體化。筆者長(zhǎng)期從事計(jì)算機(jī)視覺(jué)研究，對(duì)生物視覺(jué)也有一些了解，但對(duì)SAR成像和處理了解非常淺薄。借此?？峁┢鯔C(jī)，談一點(diǎn)自己對(duì)這些問(wèn)題的粗淺看法，不妥之處敬請(qǐng)批評(píng)指正。另外，本文主要介紹一些筆者的看法，而不是系統(tǒng)介紹相關(guān)內(nèi)容，所以盡量減少了對(duì)相關(guān)文獻(xiàn)的索引。

2 什么是視覺(jué)和視覺(jué)語(yǔ)義

在探討“微波視覺(jué)”之前，先討論一下什么是“視覺(jué)”。關(guān)于什么是“視覺(jué)”這個(gè)問(wèn)題，從古希臘亞里士多德起，人們的討論就沒(méi)有停止過(guò)。筆者覺(jué)得，“計(jì)算視覺(jué)”(computational vision)的奠基人David Marr[1](馬爾)在其vision一書(shū)中，給出的定義可能是對(duì)“視覺(jué)”最精煉和簡(jiǎn)潔的描述。馬爾認(rèn)為，“視覺(jué)”就是通過(guò)看來(lái)確定什么東西在什么地方(Vision is to know what is where by looking)。盡管很多人覺(jué)得“視覺(jué)”遠(yuǎn)不止馬爾描述的“what”和“where”問(wèn)題，但“什么東西”在“什么地方”至少是視覺(jué)的基本功能。把視覺(jué)功能過(guò)分?jǐn)U大就會(huì)與腦功能混淆，如盲人都具備的能力，似乎不太合適。筆者覺(jué)得，“視覺(jué)”應(yīng)該首先研究“大腦視覺(jué)皮層”的功能，而不宜重點(diǎn)研究涉及多通道融合的腦皮層區(qū)域的功能，否則，“視覺(jué)”與“腦科學(xué)”就沒(méi)有多少區(qū)別了。

2.1 物體視覺(jué)和空間視覺(jué)

為了適應(yīng)白天和黑夜光強(qiáng)的劇烈變化，人類視覺(jué)系統(tǒng)進(jìn)化成了“日視”和“夜視”兩套成像系統(tǒng)。人類約1.2億個(gè)感光細(xì)胞 (photoreceptors)中，約1.1億為桿狀細(xì)胞(rod)，600萬(wàn)～700萬(wàn)為錐狀細(xì)胞(cone)。桿狀細(xì)胞主要負(fù)責(zé)夜視，錐狀細(xì)胞大多可以感知顏色，用于“日視”。視網(wǎng)膜(retina)是成像部位，對(duì)圖像進(jìn)過(guò)初級(jí)加工后，如去噪、對(duì)比度增強(qiáng)等，然后將信號(hào)傳到枕葉(occipital lobe：圖1中的綠色區(qū)域)的視覺(jué)初級(jí)加工區(qū)域(V1,V2區(qū)等)進(jìn)行加工處理。

如圖1所示，信號(hào)經(jīng)過(guò)視皮層初級(jí)處理(如邊緣提取、運(yùn)動(dòng)檢測(cè)、視差估計(jì)等)后，主要分成兩個(gè)加工通道，一個(gè)是腹部通道(ventral pathway：綠色到藍(lán)色區(qū)域虛線)，主要負(fù)責(zé)物體識(shí)別，稱為“物體視覺(jué)”(object vision)。另一個(gè)是背部通道(dorsal pathway：綠色到紅色區(qū)域虛線)，主要負(fù)責(zé)“操作物體”的視覺(jué)，由于操作物體必然涉及空間位置和距離等信息，所以稱為“空間視覺(jué)”(spatial vision)。

圖1 視覺(jué)腹部通道和背部通道。腹部通道主要負(fù)責(zé)物體視覺(jué)，背部通道主要負(fù)責(zé)空間視覺(jué)Fig.1 Visual ventral pathway and dorsal pathway:Ventral pathway is mainly for object vision,dorsal pathway for spatial vision

2.2 深度感知：?jiǎn)文扛兄碗p目感知

由于本文主要關(guān)心“圖像三維視覺(jué)語(yǔ)義”，下面對(duì)單目深度感知和雙目深度感知進(jìn)行一些簡(jiǎn)單介紹。

目前神經(jīng)科學(xué)對(duì)“雙目立體視覺(jué)”(binocular stereo)的機(jī)理相對(duì)比較清楚。單眼信號(hào)首先在視覺(jué)V1區(qū)進(jìn)行融合，并對(duì)絕對(duì)視差(absolute disparity)進(jìn)行加工，然后在后續(xù)皮層進(jìn)一步對(duì)絕對(duì)視差精化和相對(duì)視差計(jì)算。腹部通道和背部通道均涉及視差處理，但到目前為止，人們還沒(méi)有發(fā)現(xiàn)任何一個(gè)腦皮層區(qū)域“專門(mén)用來(lái)處理視差”。雙目視差處理目前主要有2種計(jì)算模型：一種是1990年Ohzawa等人[2]提出的視差能量模型(disparity energy model)，一種是Haefner和Cumming[3]于2008年提出的擴(kuò)展的視差能量模型：2SU模型。由于人的雙眼間距很小，外界環(huán)境在雙眼視網(wǎng)膜上的成像基本上相差一個(gè)很小的平移，所以視差能量模型本質(zhì)上是多個(gè)神經(jīng)元對(duì)“圖像相關(guān)”計(jì)算的一種模型。

很顯然，單目也可以進(jìn)行場(chǎng)景深度感知，僅僅是感知的精度要較雙目差一些。目前，就筆者所知，還沒(méi)有任何關(guān)于單目深度感知的相關(guān)神經(jīng)加工機(jī)理的報(bào)道。目前的一些線索大多是“心理學(xué)”的一些實(shí)驗(yàn)結(jié)論[4]。如：相對(duì)尺寸“relative size”(同樣大小的兩個(gè)物體，看上去大的物體在前，小的在后)，紋理梯度(Texture Gradient)(梯度大的區(qū)域在前面)，線性透視(Linear Perspective)(平行線的投影越到后面變得越窄)等。這些線索還很難上升成“計(jì)算原理”。因?yàn)檫@些都是一些“感覺(jué)”。三維成像是對(duì)現(xiàn)實(shí)的復(fù)原，而三維感覺(jué)卻可以遠(yuǎn)離現(xiàn)實(shí)。目前的很多“虛擬或增強(qiáng)現(xiàn)實(shí)”，事實(shí)上都在給予人們對(duì)“非現(xiàn)實(shí)”的“現(xiàn)實(shí)感”，本質(zhì)上都是一些錯(cuò)覺(jué)。

2.3 視覺(jué)錯(cuò)覺(jué)(visual illusion)

人類視覺(jué)系統(tǒng)既可以從“無(wú)真實(shí)三維信息的圖像”感覺(jué)到三維信息，也可以從“包含真實(shí)三維信息的圖像”得到錯(cuò)誤感覺(jué)。如圖2的線畫(huà)圖，人們可以產(chǎn)生三維感覺(jué)。圖3的“The Ames room illusion”，兩個(gè)人的真實(shí)身高差不多，但人們都會(huì)有“前面人高，后面人矮”的感覺(jué)。

圖2 從線畫(huà)圖可以產(chǎn)生三維感覺(jué)[1]Fig.2 Human could perceive 3D shape from line drawing[1]

圖3 圖中兩個(gè)人身高感覺(jué)存在明顯差異Fig.3 The Ames room illusion.Two women in the picture have similar heights,but perceived very differently

“視覺(jué)語(yǔ)義”就是對(duì)場(chǎng)景感知信息在“語(yǔ)義層次上”的描述，即在“概念”層次上的一種描述?！板e(cuò)覺(jué)”就會(huì)導(dǎo)致“錯(cuò)誤的視覺(jué)語(yǔ)義”。人們可以對(duì)場(chǎng)景有多種感受，但不是所有感受都可以上升到概念層次。另外，感知得到的視覺(jué)語(yǔ)義并不見(jiàn)得都是對(duì)真實(shí)場(chǎng)景的表述。如人們看到的顏色本質(zhì)上是對(duì)波長(zhǎng)信息的語(yǔ)義表述。如何在SAR三維成像中利用三維視覺(jué)語(yǔ)義信息，以提高三維成像質(zhì)量，仍需要在框架、理論和算法3個(gè)層次上進(jìn)行深度探討。

3 什么是“微波視覺(jué)語(yǔ)義”

什么是“微波視覺(jué)語(yǔ)義”？筆者覺(jué)得就是人們從微波圖像“感知”得到的“場(chǎng)景語(yǔ)義信息”。也就是人們從微波圖像“直接看到的”場(chǎng)景語(yǔ)義信息。盡管SAR是距離成像，存在疊掩等光學(xué)成像系統(tǒng)不存在的特有現(xiàn)象，但人們直接從SAR圖像也確實(shí)可以感知到一些場(chǎng)景三維結(jié)構(gòu)信息，如從圖4的SAR圖像中，人們可以感知到的船和橋的一些三維結(jié)構(gòu)信息。

圖4 從圖(a)可以感知到船的一些三維結(jié)構(gòu)信息；圖(b)可以感知到橋的一些三維結(jié)構(gòu)Fig.4 3D ship structural information could be perceived from(a);Bridge 3D shape could be clearly perceived from (b)

本文筆者僅僅討論SAR三維成像中的視覺(jué)語(yǔ)義，還不是更廣泛意義下的微波視覺(jué)語(yǔ)義。由于“視覺(jué)”包含“視覺(jué)感知”和“視覺(jué)認(rèn)知”。計(jì)算機(jī)視覺(jué)傳統(tǒng)意義下主要研究視覺(jué)感知問(wèn)題，而視覺(jué)認(rèn)知覆蓋了更廣泛的概念(如回想視覺(jué)事件、視覺(jué)概念形成、視覺(jué)事件推理等)，且筆者覺(jué)得，視覺(jué)認(rèn)知問(wèn)題似乎與其他感覺(jué)通道信息的認(rèn)知機(jī)理也沒(méi)有本質(zhì)區(qū)別(如視覺(jué)事件推理與聽(tīng)覺(jué)事件推理似乎沒(méi)有本質(zhì)區(qū)別)。正像計(jì)算機(jī)視覺(jué)領(lǐng)域一樣，把“計(jì)算機(jī)視覺(jué)”范疇過(guò)度擴(kuò)展，就會(huì)與“圖像理解”，“圖像分析”，“視頻分析”產(chǎn)生混淆，筆者覺(jué)得，“微波視覺(jué)”似乎也應(yīng)該避免類似問(wèn)題，否則也會(huì)存在與微波圖像理解、微波圖像分析混淆的可能。

筆者覺(jué)得，“SAR三維成像中的視覺(jué)語(yǔ)義”，就是指如何利用從SAR圖像中感知的語(yǔ)義信息來(lái)“增強(qiáng)SAR圖像的三維成像能力”。也就是說(shuō)，在傳統(tǒng)SAR三維成像中，如何通過(guò)增加“視覺(jué)語(yǔ)義”約束，來(lái)提高SAR三維成像的性能。

4 如何利用視覺(jué)語(yǔ)義提高SAR三維成像：處理框架

正像前面所述，“三維成像”是對(duì)真實(shí)三維場(chǎng)景的復(fù)原，“視覺(jué)語(yǔ)義”是對(duì)真實(shí)場(chǎng)景的“主觀感受”，而主觀感受可能產(chǎn)生錯(cuò)覺(jué)。所以如何在SAR三維成像中融合合適的視覺(jué)語(yǔ)義信息，需要探索一套計(jì)算框架、計(jì)算理論和計(jì)算方法。下面主要圍繞本重大項(xiàng)目的“層析SAR”(TomoSAR)問(wèn)題進(jìn)行一些討論。

TomoSAR 是一種恢復(fù)高程信息的有效技術(shù)途徑[5](這里的高程信息主要指位置信息)。本項(xiàng)目的一個(gè)主要目標(biāo)在于“如何融合視覺(jué)語(yǔ)義信息，以減少TomoSAR的觀測(cè)次數(shù)，實(shí)現(xiàn)SAR快速三維成像”，以有效解決傳統(tǒng)TomoSAR周期長(zhǎng)、成本高，不利于時(shí)效性要求較高的應(yīng)用等問(wèn)題。鑒于TomoSAR框架下文獻(xiàn)中對(duì)單個(gè)像元的高程恢復(fù)問(wèn)題已研究了20多年，如以譜分析方法[6]和壓縮感知方法[7]為代表的兩大類方法，筆者認(rèn)為，融合視覺(jué)語(yǔ)義的TomoSAR研究，首先應(yīng)該在處理框架上有別于傳統(tǒng)方法。應(yīng)該從“單像元”處理轉(zhuǎn)變到“圖像區(qū)域”處理，應(yīng)該從“前饋式”處理方式轉(zhuǎn)變到“反饋式”處理方式。關(guān)于圖像區(qū)域處理，文獻(xiàn)中已有一些報(bào)道，如Rambour等人介紹的空間正則途徑[8]。這里的“前饋式”處理是指從SAR圖像一次準(zhǔn)確估計(jì)高程信息的過(guò)程，并不意味著在估計(jì)過(guò)程中沒(méi)有迭代計(jì)算?！胺答伿健碧幚硎侵赴选俺跏脊烙?jì)的粗略高程結(jié)果”再反饋到下次估計(jì)，逐次迭代求精的處理方式。

4.1 基于魯棒統(tǒng)計(jì)的迭代式處理框架

目前文獻(xiàn)中的方法，基本上是增加各種約束，如基于壓縮感知(Compressed Sensing,CS)的稀疏性約束，將“單個(gè)像元內(nèi)所有散射體的高程信息一次準(zhǔn)確恢復(fù)”的過(guò)程。這是一種典型的“前饋處理”方式。任何圖像都不是隨機(jī)分布的，這種以像元為基本處理單元的方式，既沒(méi)有考慮像元鄰域關(guān)系，也沒(méi)有考慮“場(chǎng)景特有的結(jié)構(gòu)先驗(yàn)知識(shí)”。TomoSAR旨在恢復(fù)未知的三維場(chǎng)景結(jié)構(gòu)，Tomo-SAR處理中如何利用“待處理場(chǎng)景特有的結(jié)構(gòu)先驗(yàn)”似乎就成了一個(gè)“雞與蛋”的關(guān)系。解決“雞與蛋”關(guān)系，計(jì)算中采用的是“迭代”策略，其核心假定是：當(dāng)沒(méi)有場(chǎng)景結(jié)構(gòu)先驗(yàn)時(shí)，TomoSAR初始恢復(fù)的高程不可能非常準(zhǔn)確，但存在“一定程度的可靠性”。這些具有一定可靠性的高程信息，特別是一個(gè)“區(qū)域”對(duì)應(yīng)的粗略高程信息，構(gòu)成了對(duì)場(chǎng)景結(jié)構(gòu)恢復(fù)中下一次迭代的“有效先驗(yàn)”。通過(guò)將這些先驗(yàn)融入到下一次TomoSAR的迭代中，可望有效提升TomoSAR的性能。著名的Adaboost分類方法[9]是這方面的一個(gè)典型代表。每個(gè)弱分類器，只要其分類的正確概率大于0.5，多個(gè)弱分類器的組合，就可以構(gòu)成一個(gè)性能優(yōu)良的強(qiáng)分類器。在這種迭代框架下，隨著迭代的進(jìn)行，場(chǎng)景的高程信息會(huì)恢復(fù)得越來(lái)越準(zhǔn)確。這種迭代式估計(jì)方法，其合理性支撐理論是魯棒統(tǒng)計(jì)理論，如RANSAC方法[10]。圖5給出一種TomoSAR迭代估計(jì)框架。

圖5 TomoSAR迭代處理框架Fig.5 TomoSAR iterative framework

目前這種迭代框架下的求解TomoSAR的方法還不多見(jiàn)。Rambour等人[11]給出的REDRESS算法，利用城鎮(zhèn)場(chǎng)景的特性，通過(guò)graph-cut對(duì)初始CS框架下估計(jì)的高程進(jìn)一步優(yōu)化后，進(jìn)而利用場(chǎng)景信息改變CS中的稀疏性懲罰系數(shù)的方法，本質(zhì)上是一種迭代框架下的TomoSAR方法。

4.2 偽多尺度處理框架

多尺度方法是信息領(lǐng)域一種廣泛使用的方法[12]，如圖像的金字塔表示。多尺度理論在特征提取中的假定：真實(shí)的特征在不同尺度下均存在，虛假特征僅僅在某個(gè)尺度下出現(xiàn)。另外，多尺度理論也表明，一個(gè)特征具有其固有的尺度(intrinsic scale)，也就是說(shuō)，特征在其固有的尺度下更容易可靠提取，如公路不宜在“厘米分辨率”的圖像上提取。TomoSAR也可以在多尺度處理框架下進(jìn)行處理。如利用譜分析方法在低分辨率下先得到一個(gè)粗略高程估計(jì)，然后利用該粗略估計(jì)的信息作為先驗(yàn)，進(jìn)一步在壓縮感知框架下精化估計(jì)結(jié)果。這種途徑可以將TomoSAR處理的兩大途徑：譜分析方法和壓縮感知方法結(jié)合起來(lái)，同時(shí)可以在“反饋式”處理模式下進(jìn)一步優(yōu)化。圖6為一種偽多尺度處理框架。這里“偽”是為了表明這不是一種真正符合“多尺度理論”的方法。

圖6 TomoSAR的偽多尺度處理框架Fig.6 TomoSAR pseudo-multi-scale framework

“迭代框架”、“多尺度框架”一定意味著更長(zhǎng)的處理時(shí)間嗎？計(jì)算機(jī)視覺(jué)領(lǐng)域的大量方法和應(yīng)用表明[13,14]，“多尺度”和“迭代”在估計(jì)精度提高的情況下，計(jì)算時(shí)間反而可以降低。TomoSAR處理與其他圖像應(yīng)用相比，在這方面似乎也不應(yīng)該存在本質(zhì)區(qū)別。

5 如何利用視覺(jué)語(yǔ)義提高SAR三維成像：技術(shù)途徑和算法

TomoSAR融合先驗(yàn)知識(shí)，包括視覺(jué)語(yǔ)義知識(shí)，目前的基本處理途徑如式(1)所示，即在Tomo-SAR傳統(tǒng)表述方程中增加視覺(jué)語(yǔ)義約束，以提高三維成像的質(zhì)量。

這種途徑在理論上具有融合各種先驗(yàn)知識(shí)的潛力和靈活性。式(1)中f(XM)既可以包含連續(xù)變量約束，也可以包含離散變量約束，既可以表示確定性正則化(deterministic regularization)，也可以表示統(tǒng)計(jì)性正則化(statistical regularization)，同時(shí)可以表示更一般的語(yǔ)義正則化(semantic regularization)(如XM位于同一空間水平面上)。既可以表示對(duì)單像元的約束，也可以表示空間鄰域像元之間的約束。筆者覺(jué)得，SAR三維成像中的視覺(jué)語(yǔ)義可以在語(yǔ)義正則化框架下進(jìn)行描述和體現(xiàn)。根據(jù)前面對(duì)視覺(jué)語(yǔ)義的討論，SAR三維成像中的視覺(jué)語(yǔ)義應(yīng)該是體現(xiàn)場(chǎng)景結(jié)構(gòu)的語(yǔ)義信息，特別是組成場(chǎng)景的幾何基元信息，如空間線段、面片等基元，其位置和朝向以及物體類別等信息。另外，這些幾何基元信息可以通過(guò)“機(jī)器學(xué)習(xí)的途徑”來(lái)提取。這里需要指出的是，“語(yǔ)義約束”從能量模型的觀點(diǎn)看，一般是一個(gè)“高階能量項(xiàng)”(high-order energy model)。從條件隨機(jī)場(chǎng)(conditional Random Field)能量?jī)?yōu)化理論知道[15]，除了很少的一些高階能量模型外，一般的含高階能量項(xiàng)的優(yōu)化問(wèn)題都是一個(gè)NP-Hard問(wèn)題。所以，上述框架下設(shè)計(jì)“約束項(xiàng)”時(shí)，一定要考慮對(duì)應(yīng)的求解問(wèn)題。否則，會(huì)出現(xiàn)目前很多“設(shè)計(jì)了一個(gè)復(fù)雜優(yōu)美的能量模型，用簡(jiǎn)化方法進(jìn)行了求解，得到了與所設(shè)計(jì)的能量模型關(guān)系不大的結(jié)果”的怪現(xiàn)象。

深度學(xué)習(xí)的進(jìn)展使得計(jì)算機(jī)視覺(jué)研究發(fā)生了“變革性”進(jìn)展。深度學(xué)習(xí)可以用在TomoSAR中嗎？目前見(jiàn)到的報(bào)道并不多，少有的幾項(xiàng)工作如Costante等人[16]直接從SAR圖像推斷DEM的工作，Budillon等人[17]直接用深度學(xué)習(xí)反演TomoSAR，以及Wu等人[18]在CS粗估計(jì)下進(jìn)一步利用DNN進(jìn)行高程超分辨率的工作。利用深度學(xué)習(xí)方法可以從單幅SAR圖像直接推斷高程信息嗎？從單幅光學(xué)圖像推斷景深的進(jìn)展和結(jié)果看[19]，原理上并不存在任何困難。深度學(xué)習(xí)從單幅SAR圖像推斷高程，本質(zhì)上也是建立SAR圖像特征與高程信息的一種映射。由于深度網(wǎng)絡(luò)可以有效逼近任何一種函數(shù)映射關(guān)系，所以，盡管SAR圖像與光學(xué)圖像的成像機(jī)理不同，但從SAR圖像特征到高程信息的映射函數(shù)也可以用深度網(wǎng)絡(luò)近似。從單幅光學(xué)圖像學(xué)習(xí)景深成功的另外兩個(gè)操作：特征的多尺度表示和高程的局部一致性約束，SAR圖像原則上也成立。所以，從單幅SAR圖像在深度學(xué)習(xí)框架下直接推斷高程信息，筆者覺(jué)得核心問(wèn)題是“缺乏大量標(biāo)注數(shù)據(jù)”。盡管“標(biāo)注數(shù)據(jù)匱乏”是任何一個(gè)領(lǐng)域的共性問(wèn)題，但SAR圖像的數(shù)據(jù)匱乏現(xiàn)象較光學(xué)圖像更為嚴(yán)重。

目前計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)對(duì)標(biāo)注數(shù)據(jù)不足的基本策略是：半監(jiān)督學(xué)習(xí)(semi-supervised learning)，即利用少量標(biāo)注數(shù)據(jù)迭代擴(kuò)大標(biāo)注數(shù)據(jù)集；弱監(jiān)督學(xué)習(xí)(weakly supervised learning)，即利用標(biāo)注質(zhì)量不高(含噪聲)的數(shù)據(jù)進(jìn)行學(xué)習(xí)；主動(dòng)學(xué)習(xí)(active learning)，即在學(xué)習(xí)的過(guò)程中人工參與標(biāo)注少量困難樣本，以及模擬數(shù)據(jù)。SAR圖像與波長(zhǎng)和成像視角有關(guān)，存在相干斑噪聲，比光學(xué)圖像數(shù)據(jù)在數(shù)據(jù)增強(qiáng)方面更加困難，但筆者覺(jué)得，這也許僅僅是一個(gè)時(shí)間問(wèn)題，很快含有高程信息的大量SAR標(biāo)注數(shù)據(jù)集會(huì)問(wèn)世。筆者覺(jué)得，在解決SAR圖像標(biāo)注數(shù)據(jù)匱乏問(wèn)題方面，利用“仿真”和“合成”數(shù)據(jù)將是一條有效的途徑。另外，鑒于目前遙感領(lǐng)域已有大量含有高程信息的光學(xué)影像，如何將這些高程信息從光學(xué)影像遷移到SAR圖像中，也是一條值得探索的途徑。

總之，基于深度學(xué)習(xí)從SAR圖像推斷高程信息，盡管目前仍有不少難度，文獻(xiàn)中相關(guān)報(bào)道也不多，但筆者覺(jué)得是一條值得探索且有巨大潛力和前景的技術(shù)途徑。

6 結(jié)論

本文對(duì)SAR三維成像中的微波視覺(jué)問(wèn)題進(jìn)行了初步探討。由于筆者對(duì)SAR圖像處理了解不深，不妥之處在所難免，歡迎讀者批評(píng)指正。關(guān)于Tomo-SAR中如何利用視覺(jué)語(yǔ)義，筆者的基本觀點(diǎn)為：

(1) 處理框架：有必要探索基于魯棒估計(jì)理論的“反饋式”處理框架。即先快速得到一些關(guān)于場(chǎng)景的粗略高程信息，然后根據(jù)這些粗略信息形成關(guān)于場(chǎng)景的一些粗略三維語(yǔ)義約束并反饋到下一輪高程估計(jì)中。隨著迭代的進(jìn)行，“高程信息”和“三維場(chǎng)景語(yǔ)義”互為依托和促進(jìn)，使得高程估計(jì)變得越來(lái)越準(zhǔn)確，同時(shí)“場(chǎng)景語(yǔ)義”也變得越來(lái)越精細(xì)和可靠；

(2) 視覺(jué)語(yǔ)義：場(chǎng)景結(jié)構(gòu)基元，如線段、面片及其位置和姿態(tài)信息，以及物體的類別信息，是最基本和值得優(yōu)先考慮的“視覺(jué)語(yǔ)義”信息。這些場(chǎng)景結(jié)構(gòu)語(yǔ)義信息可以通過(guò)“語(yǔ)義正則化”途徑來(lái)描述和體現(xiàn)；

(3) 語(yǔ)義提?。簣?chǎng)景結(jié)構(gòu)基元，包括三維結(jié)構(gòu)基元，可以通過(guò)機(jī)器學(xué)習(xí)的途徑來(lái)提取。鑒于當(dāng)前機(jī)器學(xué)習(xí)缺乏“圖像匹配中的外點(diǎn)剔除機(jī)制”，所以如何從單幅SAR圖像來(lái)提取場(chǎng)景結(jié)構(gòu)基元以及對(duì)場(chǎng)景幾何結(jié)構(gòu)進(jìn)行推斷，是一條值得探索的途徑；

在結(jié)束本文之前，筆者還想談兩點(diǎn)與“SAR三維成像中的視覺(jué)語(yǔ)義”不太關(guān)聯(lián)的看法：

(1) 隨著SAR成像技術(shù)的進(jìn)步，SAR圖像的距離和方位向分辨率會(huì)越來(lái)越高。這樣單個(gè)像元內(nèi)存在較多疊掩的概率也會(huì)隨之減少。當(dāng)疊掩次數(shù)不超過(guò)2時(shí)，筆者覺(jué)得TomoSAR的處理技術(shù)似乎也會(huì)發(fā)生大的改變。顯然，當(dāng)一個(gè)像元僅僅包含一個(gè)散射體時(shí)，散射體對(duì)應(yīng)的高程相對(duì)比較容易復(fù)原，如理論上可以證明，像元協(xié)方差矩陣最大特征值對(duì)應(yīng)的特征向量是該散射體的投影向量。當(dāng)像元包含兩個(gè)散射體時(shí)，文獻(xiàn)[20,21]表明，可以通過(guò)核PCA(kernel PCA)分解對(duì)應(yīng)的兩個(gè)最大特征值對(duì)應(yīng)的特征向量來(lái)確定散射體的投影向量。這種基于PCA的方法以及其他譜分解方法，由于計(jì)算速度快，未來(lái)似乎應(yīng)該給予必要的關(guān)注。當(dāng)然，如何估計(jì)像元的協(xié)方差矩陣本身也是一個(gè)困難的問(wèn)題。

(2) TomoSAR的一個(gè)主要目標(biāo)是恢復(fù)散射體的高程信息，而恢復(fù)的高程信息往往又是一個(gè)具體應(yīng)用的“中間結(jié)果”，如對(duì)建筑物的三維重建。鑒于一般情況下，含有多散射體的像元在整幅SAR圖像中占的比例很小，那么，這種“耗費(fèi)大量精力和時(shí)間”對(duì)單像元多散射體的努力，對(duì)“最終目標(biāo)”的實(shí)現(xiàn)又有多大幫助呢？所以，從某種程度上說(shuō)，TomoSAR研究似乎也需要充分考慮具體應(yīng)用(application-oriented)。當(dāng)然，從學(xué)術(shù)的觀點(diǎn)看，能準(zhǔn)確恢復(fù)所有散射體的精確位置和散射性質(zhì)，永遠(yuǎn)是科學(xué)研究的一種不懈追求。

總之，SAR 高分辨率和全天候的成像能力為對(duì)地觀測(cè)提供了變革性的觀測(cè)手段，TomoSAR的引入，為恢復(fù)SAR高程信息提供了全新的途徑。在人工智能如火如荼的今天，微波視覺(jué)的提出，視覺(jué)語(yǔ)義的融合，也可望為SAR快速三維成像提供有力的推動(dòng)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡