王先蘭,周金坤,穆 楠,王 晨
(1.武漢郵電科學(xué)研究院,武漢 430074;2.四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)
跨視角地理定位(cross-view geo-localization)指從不同視角(如地面、無人機(jī)(Unmanned Aerial Vehicle,UAV)、衛(wèi)星視角)檢索相似度最高的圖像,將無地理標(biāo)記的圖像與數(shù)據(jù)庫中有地理標(biāo)記的圖像進(jìn)行匹配,從而實(shí)現(xiàn)定位任務(wù)[1-4],被廣泛應(yīng)用于航空攝影、機(jī)器人導(dǎo)航、精準(zhǔn)交付[5-6]等領(lǐng)域。在數(shù)字地圖時(shí)代,通常需要估計(jì)給定圖像的空間地理位置,隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于跨視角圖像匹配的跨視角地理定位技術(shù)成為一種有效且穩(wěn)定的解決方案。早期的跨視角地理定位研究是基于地面視圖(平行視角)和衛(wèi)星視圖(垂直視角)之間的圖像匹配[7-13]。然而,這兩個(gè)視圖圖像的成像方式有很大不同:攝像機(jī)于地面的拍攝角度近乎平行于地平線,與衛(wèi)星的拍攝角度近乎垂直于地平線。由于地面和空中視圖之間視點(diǎn)的劇烈變化會(huì)導(dǎo)致嚴(yán)重的空間域差(domain gap)問題,因此,跨視圖地理定位仍然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
隨著無人機(jī)技術(shù)的發(fā)展,它已被廣泛應(yīng)用于各個(gè)領(lǐng)域,如植被細(xì)分[14]、車輛監(jiān)測[15]、建筑提取[16]等。與傳統(tǒng)的地面圖像相比,無人機(jī)圖像的遮擋物更少,它提供了接近45°視角的真實(shí)視點(diǎn)。傾斜視角相較于平行視角更接近垂直視角,這更適合跨視角地理定位。因此,為了彌補(bǔ)地面-衛(wèi)星跨視角地理定位方法的不足,Zheng 等[17]引入無人機(jī)視角,通過無人機(jī)圖像與衛(wèi)星圖像匹配解決跨視角地理定位的問題。此外,它還可適用于兩個(gè)新應(yīng)用:1)無人機(jī)定位,即給定無人機(jī)圖像,在參考衛(wèi)星圖像中檢索相同位置的圖像;2)無人機(jī)導(dǎo)航,即給定衛(wèi)星圖像,在無人機(jī)圖像中找到它經(jīng)過的最相關(guān)位置圖像,如圖1 所示。其中:A 表示給定無人機(jī)視圖,查詢對應(yīng)衛(wèi)星視圖,執(zhí)行無人機(jī)定位任務(wù);B 表示給定衛(wèi)星視圖,查詢對應(yīng)無人機(jī)視圖,執(zhí)行無人機(jī)導(dǎo)航任務(wù)。然而,無人機(jī)視圖(傾斜視角)和衛(wèi)星視圖(垂直視角)之間的圖像匹配算法仍處于探索階段。目前,用于上述兩種應(yīng)用的現(xiàn)有跨視角地理定位方法[17-25]大多只學(xué)習(xí)基于圖像內(nèi)容的視點(diǎn)不變特征,并沒有考慮無人機(jī)與衛(wèi)星視圖之間的空間對應(yīng)關(guān)系。
圖1 無人機(jī)圖像定位和導(dǎo)航任務(wù)示意圖Fig.1 Schematic diagram of UAV image localization and navigation tasks
Zheng 等[17]將無人機(jī)視角引入跨視圖地理定位問題中提出的University-1652 數(shù)據(jù)集包含了地面街景、無人機(jī)、衛(wèi)星三個(gè)視圖的圖像。他們首次將跨視角圖像匹配方法應(yīng)用在無人機(jī)視圖與衛(wèi)星視圖的匹配中,取得了不錯(cuò)的效果,實(shí)現(xiàn)了無人機(jī)定位和導(dǎo)航任務(wù)。但該方法忽略了鄰近區(qū)域的上下文信息,因此Wang 等[18]采用方形環(huán)特征切分策略實(shí)現(xiàn)了上下文信息的端到端學(xué)習(xí)。He 等[19]基于顯著性特征將特征劃分為前景與背景,利用背景特征作為輔助信息,使圖像更具鑒別性。Ding 等[20]提出了一種基于位置分類的跨視角圖像匹配方法,緩解了衛(wèi)星圖像與無人機(jī)圖像之間輸入樣本不平衡帶來的影響。為了減小圖像縮放、偏移對圖像匹配的影響,Zhuang 等[21]改進(jìn)了Wang 等[18]提出的方形環(huán)特征切分策略,此外還利用注意力機(jī)制提取更加有效的特征;Dai 等[22]引入Transformer 作為骨干網(wǎng),提取圖像的熱力圖,然后基于熱力圖進(jìn)行特征切分、對齊、匹配,以增強(qiáng)模型理解上下文信息和實(shí)例分布的能力。田曉陽等[26]首次將視角轉(zhuǎn)換方法引入無人機(jī)-衛(wèi)星跨視角地理定位中,在LPN((Local Pattern Network)[18]檢索模型基礎(chǔ)上顯著提升了無人機(jī)定位和導(dǎo)航性能;但該方法將視角轉(zhuǎn)換模型割裂地視為視點(diǎn)不變特征檢索模型和預(yù)訓(xùn)練模型,兩個(gè)模型的訓(xùn)練彼此獨(dú)立,未充分發(fā)揮神經(jīng)網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)功能。周金坤等[25]在統(tǒng)一的網(wǎng)絡(luò)架構(gòu)下學(xué)習(xí)全局和局部特征,以多監(jiān)督方式訓(xùn)練分類網(wǎng)絡(luò)并執(zhí)行度量任務(wù),同時(shí)提出多視角平衡采樣策略以及重加權(quán)正則化策略來緩解數(shù)據(jù)集視角樣本不平衡導(dǎo)致的訓(xùn)練問題。以上方法均直接提取無人機(jī)視圖和衛(wèi)星視圖間幾何一致且顯著的視點(diǎn)不變特征,但依然難以消除域差過大帶來的視覺外觀畸變、空間布局信息缺失等影響。因此,本文將視角轉(zhuǎn)換方法應(yīng)用于無人機(jī)與衛(wèi)星圖像間的跨視角地理定位中,采用視角轉(zhuǎn)換模型與視點(diǎn)不變特征提取模型聯(lián)合訓(xùn)練的方式,為無人機(jī)定位和導(dǎo)航任務(wù)提供新的思路。
本文針對視點(diǎn)不變特征與視角轉(zhuǎn)換方法割裂導(dǎo)致的性能提升瓶頸問題,從決策級層面出發(fā),以深度特征對抗決策為基礎(chǔ),提出了多任務(wù)聯(lián)合學(xué)習(xí)模型(Multi-task Joint Learning Model,MJLM)。MJLM 的主要思想是在一個(gè)聚合框架體系內(nèi)聯(lián)合處理跨視角(無人機(jī)-衛(wèi)星視圖)圖像生成任務(wù)以及檢索任務(wù),實(shí)現(xiàn)基于視角轉(zhuǎn)換與視點(diǎn)不變特征方法的融合。具體來說,本文將給定的一對無人機(jī)圖像和衛(wèi)星圖像映射到它們的潛在特征空間并建立聯(lián)系,使用這些特征來完成這兩個(gè)任務(wù)。一方面,后置檢索任務(wù)確保生成衛(wèi)星圖的內(nèi)容和紋理無限接近于真實(shí)衛(wèi)星圖;另一方面,前置生成任務(wù)使MJLM 在兩個(gè)視域之間學(xué)習(xí)幾何一致的特征,初步彌合空間域差,這將有利于無人機(jī)定位任務(wù)。MJLM 是一個(gè)端到端的方法,通過無人機(jī)圖像創(chuàng)建類似真實(shí)的衛(wèi)星圖,并同時(shí)匹配相應(yīng)的真實(shí)衛(wèi)星圖從而實(shí)現(xiàn)無人機(jī)定位任務(wù)。此外,不同于地面與衛(wèi)星視圖間的相關(guān)工作[13,27-29],本文通過探索無人機(jī)-衛(wèi)星目標(biāo)場景的幾何結(jié)構(gòu),使用經(jīng)逆透視映射(Inverse Perspective Mapping,IPM)坐標(biāo)變換后的無人機(jī)圖像作為跨視角生成對抗網(wǎng)絡(luò)(Cross-View Generative Adversarial Network,CVGAN)的輸入,因?yàn)橥敢曌儞Q后的圖像與衛(wèi)星圖像的空間布局更為接近。
本文的主要工作如下:
1)提出了無人機(jī)視圖與衛(wèi)星視圖間的跨視角圖像生成模型。
2)結(jié)合顯式的基于IPM 的坐標(biāo)轉(zhuǎn)換方法與隱式的生成對抗方法,在不依賴任何先驗(yàn)語義信息的情況下,基于無人機(jī)圖像生成內(nèi)容真實(shí)、平滑且?guī)缀慰臻g一致的衛(wèi)星圖像。
3)提出了多任務(wù)聯(lián)合學(xué)習(xí)模型MJLM 實(shí)現(xiàn)無人機(jī)定位任務(wù)。該模型聯(lián)合考慮圖像生成和檢索任務(wù),將兩個(gè)任務(wù)集成到一個(gè)聚合架構(gòu)中,將視角轉(zhuǎn)換方法應(yīng)用在衛(wèi)星與無人機(jī)間的跨視角匹配任務(wù)中,初步彌合了空間域差,實(shí)現(xiàn)了與視點(diǎn)不變特征方法的融合。
4)在最新提出的無人機(jī)數(shù)據(jù)集University-1652 上進(jìn)行了大量實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示本文方法相較于基線方法有了很大的性能提升,相較于現(xiàn)有跨視角地理定位方法取得了最優(yōu)性能。此外,實(shí)驗(yàn)結(jié)果表明本文方法可以作為現(xiàn)有工作的補(bǔ)充,與先進(jìn)方法融合可以進(jìn)一步提高性能。
本文提出的多任務(wù)聯(lián)合學(xué)習(xí)模型MJLM 由前置圖像生成模型(網(wǎng)絡(luò)架構(gòu)如圖2 所示)和后置圖像檢索模型組成。首先,通過IPM 將無人機(jī)圖像進(jìn)行坐標(biāo)轉(zhuǎn)換,使它的內(nèi)容映射到近似于衛(wèi)星視角的投影衛(wèi)星圖,實(shí)現(xiàn)無人機(jī)圖像從傾斜視角到垂直視角的初步轉(zhuǎn)換;然后,將投影衛(wèi)星圖通過CVGAN 生成內(nèi)容保留、紋理真實(shí)的生成衛(wèi)星圖(垂直視角);最后,通過后置檢索模型進(jìn)行生成衛(wèi)星圖與真實(shí)衛(wèi)星圖的圖像匹配,學(xué)習(xí)更顯著的視點(diǎn)不變特征。MJLM 將這些模塊聚合在一起,相互激勵(lì),實(shí)現(xiàn)端到端的無人機(jī)定位。
圖2 基于視角轉(zhuǎn)換的前置圖像生成模型Fig.2 Proactive image generation model based on view transformation
無人機(jī)視圖與衛(wèi)星視圖由于視角不同,存在著巨大的空間域差,直接采用神經(jīng)網(wǎng)絡(luò)隱式地學(xué)習(xí)不同視角域的映射可能會(huì)存在收斂過慢、擬合效果不好等問題。本文采用了一種基于IPM 的坐標(biāo)轉(zhuǎn)換算法,顯式地通過IPM 將無人機(jī)圖像映射為衛(wèi)星圖像,可以粗略地縮小兩個(gè)視域的幾何空間域差。
透視變換可以看成是一種特定的單應(yīng)性變換,可以將同一個(gè)三維物體分別投影到2 個(gè)不同投影平面下的2 幅圖像聯(lián)系起來。常采用逆透視映射實(shí)現(xiàn)這種二次投影變換。逆透視映射在數(shù)學(xué)上為透視變換的逆過程,可以消除由于透視效應(yīng)引起的“近大遠(yuǎn)小”問題,將具有透視形變的斜投影圖變?yōu)檎队皥D。
考慮到數(shù)據(jù)集University-1652[17]中的圖像并未提供攝像機(jī)參數(shù)或者平面位置的任何信息,無法根據(jù)攝像機(jī)參數(shù)模型進(jìn)行逆透視映射。而數(shù)據(jù)集中提供了以每個(gè)目標(biāo)建筑點(diǎn)為中心的無人機(jī)視圖和衛(wèi)星視圖,所以本文可以利用對應(yīng)點(diǎn)對單應(yīng)變換法進(jìn)行逆透視映射。
令無人機(jī)圖的像空間坐標(biāo)系統(tǒng)繞Y軸旋轉(zhuǎn)φ,繞Xφ軸旋轉(zhuǎn)ω,繞Zφω旋轉(zhuǎn)κ后可以得到與衛(wèi)星圖像空間坐標(biāo)系平行的坐標(biāo)系(如圖3 所示),經(jīng)平移即可實(shí)現(xiàn)兩者重合。則兩者關(guān)系如式(1)所示:
圖3 無人機(jī)定位場景的IPM示意圖Fig.3 Schematic diagram of IPM of UAV localization scene
其中:T=[xt yt zt]T是平移矩陣;RφRωRκ為3 × 3 的旋轉(zhuǎn)矩陣,可表達(dá)為:
經(jīng)變換得:
其中:A={aij}3×3為透視變換矩陣;[x',y',1]T為轉(zhuǎn)換后的目標(biāo)點(diǎn)坐標(biāo),即無人機(jī)圖Is通過透視變換生成的投影衛(wèi)星圖Ips。
將式(3)變換為等式形式,輸入圖像與輸出圖像的對應(yīng)關(guān)系為:
其中:(x,y)為源圖像坐標(biāo),即無人機(jī)圖Iu(斜向視角)坐標(biāo);(x',y')為目標(biāo)圖像坐標(biāo),即投影衛(wèi)星圖Ips(垂直視角)坐標(biāo)。
按照對應(yīng)點(diǎn)對單應(yīng)變換法原理,只需要找到變換前后的4 個(gè)點(diǎn)對坐標(biāo)并求出透視變換矩陣即可實(shí)現(xiàn)無人機(jī)視角到衛(wèi)星視角的逆透視映射,其中4 個(gè)點(diǎn)中任意3 點(diǎn)不能在同一直線上。
透視變換的實(shí)質(zhì)是將圖像重新投影到另一個(gè)平面上。為了便于透視變換的訓(xùn)練,前置生成模型將轉(zhuǎn)換后的無人機(jī)圖像大小限制為與衛(wèi)星圖像大小相同。本文會(huì)在在源圖像和目標(biāo)圖像之間找到4 個(gè)基本坐標(biāo)點(diǎn)對,將透視變換矩陣A中的a33設(shè)為1,對8 個(gè)未知量解8 個(gè)方程,得到映射矩陣,最后對剩下的點(diǎn)進(jìn)行反向映射插值。鑒于張建偉等[30]提出的對于不同傾斜視角,僅改變a31、a13兩個(gè)參數(shù)即可實(shí)現(xiàn)各個(gè)角度的正投影結(jié)論,本文結(jié)合University-1652 數(shù)據(jù)集的無人機(jī)圖像數(shù)據(jù)特性,在找到可靠的其他6 個(gè)參數(shù)的情況下,根據(jù)54 個(gè)傾斜視角僅需計(jì)算出54 套a31,a13參數(shù)組合,再結(jié)合輸入無人機(jī)圖像的角度類別參數(shù),即可計(jì)算出54 組通用透視變換矩陣A參數(shù),大幅節(jié)省了透視變換矩陣的計(jì)算量,提高了實(shí)時(shí)性。
通過透視變換得到的投影衛(wèi)星圖Ips與真實(shí)衛(wèi)星圖Is較為相似,且圖像滿足斜向視圖和垂直視圖的幾何空間對應(yīng)關(guān)系。但是,透視變換假設(shè)世界是扁平的,任何三維物體都會(huì)違背這一假設(shè),投影衛(wèi)星圖的外觀畸變?nèi)暂^為明顯。透視變換只能進(jìn)行粗粒度的幾何結(jié)構(gòu)匹配,還不足以完全消除兩個(gè)視圖之間的幾何空間域差。如圖4 所示,投影衛(wèi)星圖有較明顯的失真,轉(zhuǎn)換后的目標(biāo)建筑在垂直視角中不是矩形,而是梯形,且會(huì)出現(xiàn)黑色缺失區(qū)域。因此,為了彌合顯式的透視變換帶來的一定程度的外觀畸變,1.2 節(jié)以CVGAN 作為圖像生成模型,以透視變換后的投影衛(wèi)星圖Ips作為輸入,以建筑類別作為條件,結(jié)合真實(shí)衛(wèi)星圖Is,對圖像內(nèi)容及紋理進(jìn)行細(xì)粒度的匹配及修復(fù),合成出更平滑且真實(shí)的生成衛(wèi)星圖G(Ips)。
圖4 基于IPM的坐標(biāo)轉(zhuǎn)換效果圖Fig.4 Effect diagram of coordinate transformation based on IPM
生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)由于能夠生成高度真實(shí)的圖像而被廣泛應(yīng)用于計(jì)算機(jī)圖像合成領(lǐng)域。一般通過對兩個(gè)對立的網(wǎng)絡(luò):生成器G(Generator)和判別器D(Discriminator)進(jìn)行對抗訓(xùn)練,實(shí)現(xiàn)網(wǎng)絡(luò)整體生成性能的提升。
條件生成式對抗網(wǎng)絡(luò)(conditional GAN,cGAN)是在GAN 基礎(chǔ)上的擴(kuò)展和改進(jìn),通過引入條件約束來實(shí)現(xiàn)有監(jiān)督的學(xué)習(xí)方式,解決了生成數(shù)據(jù)樣本隨機(jī)以及無法針對指定域建模的缺點(diǎn),使模型的數(shù)據(jù)生成具備可控性和目的性。這些特點(diǎn)使cGAN 適用于特定視域間的跨域圖像轉(zhuǎn)換生成。
本節(jié)基于cGAN 架構(gòu)、殘差采樣模塊、網(wǎng)絡(luò)瓶頸層(bottleneck)并結(jié)合自注意力機(jī)制構(gòu)建了一個(gè)跨視角生成對抗網(wǎng)絡(luò)CVGAN,它能夠基于無人機(jī)圖像內(nèi)容生成內(nèi)容保留、外觀真實(shí)且?guī)缀我恢碌男l(wèi)星視角圖像。
CVGAN 主要由生成器G以及判別器D構(gòu)成。訓(xùn)練流程如下:
1)生成器G將經(jīng)逆透視映射后的投影衛(wèi)星圖Ips作為輸入,并將它轉(zhuǎn)換成極盡真實(shí)的生成衛(wèi)星圖。在該情況下,逆透視映射是必要且有效的預(yù)處理步驟,因?yàn)檗D(zhuǎn)換后的圖像的整體輪廓與真實(shí)衛(wèi)星圖像相似,減少了生成器G彌合無人機(jī)視圖及衛(wèi)星視圖幾何空間域差的一些負(fù)擔(dān)。
2)判別器D對生成衛(wèi)星圖G(Ips)及真實(shí)衛(wèi)星圖Is進(jìn)行判別,判斷輸入圖像的真假。
3)判別器D的反饋結(jié)果會(huì)不斷促使生成器G合成出難以與真實(shí)衛(wèi)星圖區(qū)分的圖像。
1.2.1 生成器模型設(shè)計(jì)
1)模塊組成。
受現(xiàn)有圖到圖生成器模型網(wǎng)絡(luò)[18-21]的啟發(fā),將生成器G構(gòu)造為U-Net 架構(gòu)[22],以更好地進(jìn)行圖片還原。因?yàn)榛赨-Net 結(jié)構(gòu)的跳躍連接技巧允許大量的低頻信息跳過瓶頸層在編、解碼器網(wǎng)絡(luò)間進(jìn)行快捷傳遞。如圖5 所示,U-Net 結(jié)構(gòu)主要由下采樣模塊(downsampling block)和上采樣模塊(upsampling block)構(gòu)成,為了能夠充分挖掘特征圖的潛在特征,本文在最深層特征圖(512,32,32)的尺寸維度下,于下/上采樣模塊間構(gòu)造了潛在特征挖掘模塊。
圖5 生成器架構(gòu)示意圖Fig.5 Schematic diagram of generator architecture
鑒于殘差網(wǎng)絡(luò)在特征提取領(lǐng)域的廣泛應(yīng)用,且為了能夠與檢索分支建立一定程度的潛在特征聯(lián)系性,便于特征還原與分類,生成器內(nèi)部模塊的網(wǎng)絡(luò)采用了與檢索分支骨干網(wǎng)(backbone)ResNet-50 類似的殘差網(wǎng)絡(luò)設(shè)計(jì)。
所以生成器內(nèi)部主體由3 個(gè)殘差下采樣模塊(Residual Downsampling,RD)、6 個(gè)網(wǎng)絡(luò)瓶頸層(bottleneck)及3 個(gè)鏡像的殘差上采樣(Residual Upsampling,RU)模塊構(gòu)成,本文將3 個(gè)殘差下采樣模塊以及6 個(gè)網(wǎng)絡(luò)瓶頸層合稱為編碼器GE,3 個(gè)殘差上采樣模塊即為解碼器。此外,于第一個(gè)殘差上采樣模塊之后,在64 × 64 尺寸的特征圖上添加了自注意力模塊[23]。文獻(xiàn)[31]的研究表明,該自注意力模塊有助于學(xué)習(xí)圖像中的全局依賴關(guān)系。
2)數(shù)據(jù)流說明。
①三個(gè)殘差下采樣RD 模塊(如圖6(a))對特征圖進(jìn)行圖像編碼,旨在挖掘它的深層特征。RD 模塊采用殘差網(wǎng)絡(luò)設(shè)計(jì),可以使特征圖在訓(xùn)練過程中融合不同層次的特征信息,增強(qiáng)梯度的傳播,同時(shí)減輕神經(jīng)網(wǎng)絡(luò)的退化。
圖6 生成器網(wǎng)絡(luò)細(xì)節(jié)示意圖Fig.6 Schematic diagram of generator details
如圖6(a)所示,RD 模塊主體由兩個(gè)1×1 Conv 和1 個(gè)3×3 Conv 構(gòu)成,第一個(gè)1×1 Conv 主要作用是通過卷積對特征圖進(jìn)行下采樣,使特征圖的尺寸減半。步長為2,通道數(shù)為C1(RD1 中,C1=C,保持維度不變;RD2 與RD3 中C1=C/2,先進(jìn)行了一次降維)。3×3 Conv 主要作用為擴(kuò)大感受野,它并沒有改變特征圖的尺寸與維度。第二個(gè)1 × 1 Conv 對特征圖進(jìn)行了一次升維。所以特征圖每經(jīng)過一層RD 均會(huì)使其長寬減半、維度擴(kuò)增。其中RD1 與RD2、RD3 不同的是,由于RD1 的第一個(gè)1×1 Conv 沒有進(jìn)行降維,所以RD1 輸出維度為輸入維度4 倍。
②特征圖經(jīng)過RD 后,在維持同等分辨率及通道數(shù)的情況下,6 個(gè)網(wǎng)絡(luò)瓶頸層(如圖6(b))會(huì)進(jìn)一步挖掘它潛在的表示特征。
③生成器G采用殘差下采樣RD 模塊的鏡像模塊——?dú)埐钌喜蓸覴U 模塊(如圖6(c))對深層的特征圖進(jìn)行上采樣,還原它的特征表示,從而使生成器G的輸入/輸出圖像(投影衛(wèi)星圖Ips/生成衛(wèi)星圖G(Ips))保持相同的尺寸。RU 為RD 的鏡像模塊,但由于上下采樣細(xì)節(jié)不同,RU1、RU2 相較于圖中的RU3 而言,在Upsample 及3×3 Conv 間去除了1×1 Conv、批歸一化(Batch Normalization,BN)層、整流線 性單元(Rectified Linear Unit,ReLU)層。RU1、RU2 的上采樣維度變化僅為RU3 的一半,即1/4。由于U-Net 架構(gòu),每次上采樣前要將下采樣特征圖與經(jīng)過網(wǎng)絡(luò)瓶頸層的上采樣特征圖進(jìn)行嵌合,相較于下采樣,上采樣多進(jìn)行了一次降維操作。
投影衛(wèi)星圖Ips(3,256,256)在進(jìn)入殘差下采樣模塊前,須先經(jīng)過1×1 Conv 進(jìn)行升維,即對每個(gè)像素點(diǎn),在不同的通道(channels)上進(jìn)行線性組合(信息整合),在保持特征圖尺度不變的前提下大幅增加非線性特性(利用后接的非線性激活函數(shù))。特征圖在經(jīng)過殘差上采樣模塊后,還需經(jīng)過3×3 Conv 及Tanh 函數(shù)進(jìn)行降維和激活,最后還原成生成圖像。
3)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)說明如表1 所示。其中:在Ips的特征尺寸“(3,256,256)”中,“3”表示投影衛(wèi)星圖Ips的維度即通道數(shù),“(256,256)”表示特 征圖的尺寸,即長和 寬;“1 × 1 Conv(32,256,256)”表示經(jīng)過1 × 1 卷積后的特征圖維度和尺寸分別為32、256 × 256;“(enc1)殘差下采樣模塊RD1(128,128,128)”表示經(jīng)過殘差下采樣模塊(即圖中的RD1)后的特征圖維度和尺寸分別為128 與128 × 128,該特征圖表示為(enc1);“+嵌合(enc3)殘差上采樣模塊RU1(256,64,64)”表示特征圖先與(enc3)進(jìn)行拼接,再經(jīng)過RU1。
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Tab.1 Network structure parameters of generator
4)值得注意的是,與常見的后激活(post-activation)方式不同,本文在網(wǎng)絡(luò)瓶頸層及所有基于殘差網(wǎng)絡(luò)設(shè)計(jì)的網(wǎng)絡(luò)模塊(如RD、RU)均采用了前激活(pre-activation)方式,即在卷積之前進(jìn)行歸一化和激活處理(BN+ReLU)。在這種結(jié)構(gòu)中,反向傳播基本符合假設(shè),信息傳遞無阻礙;BN 層作為前激活方式,起到了正則化的作用。文獻(xiàn)[32]中也證實(shí)了這一點(diǎn)。本文還在每個(gè)卷積層之后均使用譜歸一化(Spectral Normalization,SN)[33],生成器的譜歸一化可以有效抑制參數(shù)幅度的異常波動(dòng)并避免梯度消失或爆炸[31],有利于對GAN的訓(xùn)練;在所有殘差下采樣和上采樣模塊間,本文使用“跳躍連接(skip connections)”作為提高網(wǎng)絡(luò)收斂性的技巧,它能夠保存輸入圖像的空間布局信息,并將其轉(zhuǎn)換為目標(biāo)視圖圖像。
1.2.2 判別器模型設(shè)計(jì)
為了能夠有效建模圖像高頻特征信息,需要將注意力視野放在局部圖像塊中的結(jié)構(gòu)上。因此本文將判別器D構(gòu)造為PatchGAN[25],它能夠?qū)D像中的每個(gè)N×N塊進(jìn)行分類。判別器主要由斜率為0.2 的帶泄露修正線性單元(Leaky Rectified Linear Unit,Leaky ReLU)以及4 × 4 Conv 構(gòu)成,其中4 × 4 Conv 步長為2,如表2 所示。它的輸入分別為真實(shí)衛(wèi)星圖Is以及生成衛(wèi)星圖G(Ips)。對于給定的Ws×Ws衛(wèi)星圖,判別器D將會(huì)下采樣到更小patch 的空間尺寸,并將每個(gè)patch 進(jìn)行真假分類。PatchGAN 的功能類似于生成器G的編碼器,只不過最后輸出的是判別圖像對真?zhèn)蔚母怕?。這種判別器有效地將圖像建模為馬爾可夫隨機(jī)場,假設(shè)像素之間的獨(dú)立性大于一個(gè)patch 直徑,可以理解成是一種紋理/風(fēng)格的損失學(xué)習(xí)模型。該采樣策略有益于合成出更加真實(shí)的生成衛(wèi)星圖G(Ips)。由于生成衛(wèi)星圖中的語義特征如街道、樹木及建筑物均為重復(fù)的局部細(xì)粒度特征,所以全局一致性相較于局部特征顯得不那么重要,因此判別器D更加注重細(xì)粒度特征的判別。
表2 判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Tab.2 Network structure parameters of discriminator
與生成器類似,本文對尺寸為64 × 64 的特征圖作了非局部自注意力模塊處理,且在每個(gè)卷積層之后使用譜歸一化,將每個(gè)單獨(dú)的特征正則化到為1 的譜半徑。當(dāng)然,在生成器和鑒別器的最后一層1×1 Conv 后不使用譜歸一化。我們從經(jīng)驗(yàn)中發(fā)現(xiàn),生成器和判別器的譜歸一化可以在每次生成器更新時(shí)減少判別器更新,從而顯著降低訓(xùn)練的計(jì)算成本。該方法也表現(xiàn)出更穩(wěn)定的訓(xùn)練行為。
MJLM 的整體網(wǎng)絡(luò)架構(gòu)如圖7 所示。1.1 與1.2 節(jié)介紹了前置圖像生成模型,本節(jié)將介紹后置圖像檢索模型。該模型的目標(biāo)是通過將給定的無人機(jī)圖像與衛(wèi)星圖像數(shù)據(jù)庫進(jìn)行匹配來定位它的位置。后置圖像檢索模型選擇了多視角多監(jiān)督網(wǎng)絡(luò)(Multi-view and Multi-supervision Network,MMNet)[25]作為視點(diǎn)不變特征提取模型,其中MMNet 的骨干網(wǎng)為ResNet-50。
圖7 MJLM架構(gòu)示意圖Fig.7 Schematic diagram of MJLM architecture
該模型主要由多監(jiān)督學(xué)習(xí)、多尺度特征融合、重加權(quán)正則化策略及多視角平衡采樣策略四個(gè)部分組成。首先,該模型融合衛(wèi)星視角和無人機(jī)視角,在統(tǒng)一的網(wǎng)絡(luò)架構(gòu)下學(xué)習(xí)多尺度融合特征,再以多監(jiān)督方式訓(xùn)練分類網(wǎng)絡(luò)并執(zhí)行度量任務(wù)。具體來說,MMNet 主要采用了重加權(quán)正則化三元組(Reweighted Regularization Triplet,RRT)損失學(xué)習(xí)全局特征,該損失利用重加權(quán)和距離正則化加權(quán)策略來解決視角樣本不平衡以及特征空間結(jié)構(gòu)紊亂的問題。同時(shí),為了關(guān)注目標(biāo)地點(diǎn)中心建筑的上下文信息,MMNet 對特征圖進(jìn)行方形環(huán)切割獲取局部特征。然后,分別用交叉熵?fù)p失和RRT 執(zhí)行分類和度量任務(wù)。最終,使用加權(quán)策略聚合全局和局部特征來表征目標(biāo)地點(diǎn)圖像,從而完成無人機(jī)定位和導(dǎo)航任務(wù)。因此,在逆透視映射和跨視角生成對抗網(wǎng)絡(luò)之后,利用MMNet將多監(jiān)督學(xué)習(xí)、多尺度特征融合、重加權(quán)正則化策略及多視角平衡采樣策略融入本文的多任務(wù)學(xué)習(xí)方法中。
同時(shí),為了更好地銜接前置生成模型以及后置檢索模型,本文方法將CVGAN 中編碼器GE的潛在特征圖GE(Ips)作為MMNet 無人機(jī)分支的輸入(MMNet 無人機(jī)分支原輸入為無人機(jī)圖像),這樣可減少解碼器解碼過程中的信息缺失,保留最原始的潛在特征以及編碼器GE的特性。但由于生成器G與骨干網(wǎng)的特征提取網(wǎng)絡(luò)不同,輸出特征圖的尺寸與維度并不相同。具體來說,為了能夠保證兩個(gè)分支輸出的尺寸與維度相同,MJLM 將GE(Ips)作為Resnet-50 stage3 的輸入而不是stage 0 的輸入,這也是CVGAN 深層特征尺度設(shè)定為(32,32,516)的一方面考慮。
多任務(wù)訓(xùn)練設(shè)置的核心思想為:通過使用潛在學(xué)習(xí)特征GE(Ips)來連接圖像生成任務(wù)與檢索任務(wù),使前置生成模型與后置檢索模型在訓(xùn)練時(shí)相互作用與加強(qiáng)。后置檢索模型本身僅能隱式地學(xué)習(xí)圖像間的視點(diǎn)不變特征。圖像生成任務(wù)中學(xué)習(xí)到的特征提供了一個(gè)明確的跨域轉(zhuǎn)移映射,能夠幫助后置檢索模型獲得更好的圖像匹配性能。反之,后置檢索模型迫使前置生成模型學(xué)習(xí)最終對圖像匹配有用的特征——這就產(chǎn)生了內(nèi)容保留、外觀真實(shí)且?guī)缀我恢碌纳蓤D像。
MJLM 的目標(biāo)是聯(lián)合前置生成模型以及后置檢索模型進(jìn)行多任務(wù)學(xué)習(xí)。相較于兩個(gè)模型獨(dú)立訓(xùn)練,多任務(wù)學(xué)習(xí)方式需要同時(shí)對兩個(gè)模型進(jìn)行訓(xùn)練。首先通過建立總損失函數(shù)將兩個(gè)模型聯(lián)系起來;然后利用反向傳播來降低損失,實(shí)現(xiàn)基于跨視角圖像匹配任務(wù)的梯度下降。
為此,本文設(shè)計(jì)了以下?lián)p失函數(shù):
其中:LcGAN、LL1、Lret分別為cGAN 損失、L1 損失和檢索損失;LcGAN、LL1、Lret分別為MJLM 中各損失的權(quán)重。
在訓(xùn)練時(shí),MJLM 以對抗性的方式動(dòng)態(tài)更新生成器、判別器、MMNet 三個(gè)網(wǎng)絡(luò)的權(quán)重:
其中:G、R、D分別表示生成器、MMNet、判別器。
接下來將介紹這三部分的損失函數(shù)定義。
1)cGAN 損失。對于圖像生成任務(wù),cGAN 損失如下:
當(dāng)判別器D試圖將圖像分類為真(Is)或假(G(Ips))時(shí),生成器G一直嘗試通過生成真實(shí)圖像來最小化損失。對應(yīng)的投影衛(wèi)星圖Ips作為生成器G和判別器D的條件。
2)L1 損失。L1 損失使預(yù)測的生成圖像G(Ips)與真實(shí)衛(wèi)星圖像Is之間的特征距離最小。
L1 損失為生成器產(chǎn)生的生成圖像G(Ips)與真實(shí)衛(wèi)星圖像Is像素級距離差(pixel-by-pixel difference)的絕對值之和。輸入的無人機(jī)圖像不是原始圖像,而是透視投影變換后的圖像,它的外觀與真實(shí)衛(wèi)星圖比較相似,因此可以使用L1損失。
即使LcGAN能夠?qū)崿F(xiàn)有效的監(jiān)督效果,但是LL1能夠幫助網(wǎng)絡(luò)有效捕捉圖像的低頻特征信息,從而使圖像生成網(wǎng)絡(luò)得到收斂。
3)檢索損失。MMNet 損失由交叉熵?fù)p失和RRT 損失[25]構(gòu)成,RRT 損失定義如下:
MJLM 沿用了MMNet 所采用的MBM 采樣策略。在一個(gè)訓(xùn)練批次中,選擇P類ID 的目標(biāo)建筑圖像,每類ID 選擇γ幅無人機(jī)視圖,1 幅衛(wèi)星視圖。因此一個(gè)批次中,共有P× (γ+1)幅圖像。(i,j,k)表示每次訓(xùn)練批次中的三元組;對于每張圖像i,Pi是與之對應(yīng)的正樣本;Ni是與之相對應(yīng)的負(fù)樣本;分別表示正負(fù)樣本對之間的距離分別代表每個(gè)正負(fù)樣本對的正則化權(quán)重;αp、αn為正負(fù)樣本的縮放系數(shù)。
2.1.1 數(shù)據(jù)集
本文考慮新提出的無人機(jī)定位及導(dǎo)航任務(wù)數(shù)據(jù)集University-1652[17],由44 416 和137 218 對頂視圖衛(wèi)星圖像和全景街景圖像組成。這是目前為止唯一包含無人機(jī)視圖和衛(wèi)星視圖圖像的數(shù)據(jù)集。圖像描繪了鄉(xiāng)村和城市的街道場景。對圖像的方向進(jìn)行歸一化處理,使北方向?qū)?yīng)于衛(wèi)星圖像的頂部和街道圖像的中心。每個(gè)建筑都與三個(gè)不同視角的圖像相關(guān)聯(lián)(如圖8 所示),包括一個(gè)衛(wèi)星視圖圖像,54 個(gè)不同高度和角度的無人機(jī)視圖圖像,以及一個(gè)或多個(gè)地面視圖圖像。本文利用衛(wèi)星圖像(垂直視角)和無人機(jī)圖像(斜向視角)實(shí)現(xiàn)無人機(jī)視覺定位任務(wù)。對于大多數(shù)為傾斜視角的無人機(jī)視圖數(shù)據(jù)集,使用透視投影變換能提高跨視角圖像匹配性能和效率。
圖8 University-1652數(shù)據(jù)集圖像示例Fig.8 Samples of images from University-1652 dataset
2.1.2 實(shí)驗(yàn)細(xì)節(jié)
1)IPM。
University-1652 數(shù)據(jù)集使用合成的無人機(jī)圖像代替真實(shí)的無人機(jī)圖像。具體方法是將飛行軌跡設(shè)置為螺旋曲線。攝像機(jī)圍繞目標(biāo)飛行3 圈,飛行高度從256 m 下降到121.5 m。飛行視頻以每秒30 幀的速度錄制,每15 幀無人機(jī)視角視頻中截取圖像,生成54 幅無人機(jī)圖像。因此,相同序列號的無人機(jī)圖像在不同目標(biāo)建筑位置上的角度和高度幾乎相同,所以本文選擇相同目標(biāo)建筑的4 個(gè)點(diǎn)進(jìn)行逆透視映射。具體來說,將一幢建筑物的無人機(jī)圖像與對應(yīng)的衛(wèi)星圖像進(jìn)行尺度不變特征變化(Scale-Invariant Feature Transform,SIFT)[34]關(guān)鍵點(diǎn)匹配預(yù)處理,并確定對應(yīng)的4 個(gè)視角點(diǎn)靠近衛(wèi)星圖像邊緣的位置。鑒于張建偉等[30]提出的對于不同傾斜視角,僅改變a31和a13兩個(gè)參數(shù)即可實(shí)現(xiàn)各個(gè)角度的正投影結(jié)論。本文結(jié)合University-1652 數(shù)據(jù)集的無人機(jī)圖特性,在找到其他可靠的6 個(gè)參數(shù)的情況下,根據(jù)54 個(gè)傾斜視角僅需計(jì)算出54 套a31,a13參數(shù)組合,再結(jié)合輸入無人機(jī)圖像的角度類別參數(shù),即可計(jì)算出54 組通用透視變換矩陣A參數(shù),它可將54 個(gè)斜投影視圖轉(zhuǎn)換為54 個(gè)正投影視圖。對于其他目標(biāo)建筑而言,同樣的序號選擇與第一個(gè)基準(zhǔn)建筑相同的單應(yīng)性矩陣即可。
2)CVGAN。
本文使用Adam 優(yōu)化器在PyTorch 中實(shí)現(xiàn)模型訓(xùn)練。動(dòng)量參數(shù)β1和β2分別設(shè)置為0.5 和0.999,生成器和判別器網(wǎng)絡(luò)的學(xué)習(xí)速率(learning rate)均設(shè)置為0.000 1。所有輸入圖像的分辨率均為256 × 256。通過隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪以及隨機(jī)旋轉(zhuǎn)對真實(shí)衛(wèi)星圖及投影衛(wèi)星圖進(jìn)行數(shù)據(jù)增強(qiáng)。此外,本文將像素強(qiáng)度值(pixel intensity values)歸一化到[-1,1]。在訓(xùn)練期間,本文遵循GAN 優(yōu)化的相關(guān)標(biāo)準(zhǔn)。具體來說,本文交替對兩個(gè)網(wǎng)絡(luò)進(jìn)行參數(shù)更新,在每個(gè)訓(xùn)練周期中,先對生成器參數(shù)進(jìn)行固定,訓(xùn)練判別器,使其盡可能區(qū)分真實(shí)數(shù)據(jù)與生成數(shù)據(jù);再固定判別器參數(shù),訓(xùn)練生成器,使其盡可能生成真實(shí)的數(shù)據(jù)。
3)MMNet。
MMNet 的骨干網(wǎng)采用了微調(diào)的ResNet-50,在ImageNet數(shù)據(jù)集上對ResNet-50 進(jìn)行了預(yù)處理。本實(shí)驗(yàn)中,對于無人機(jī)分支,無論是訓(xùn)練還是測試,均以前置生成模型生成的特征圖GE(Ips)為輸入,其中前置生成模型的輸入為256 × 256的無人機(jī)圖像;對于衛(wèi)星分支,輸入的是256 × 256 的衛(wèi)星圖像。在訓(xùn)練時(shí),使用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪以及隨機(jī)旋轉(zhuǎn)來增加數(shù)據(jù)的多樣性。ResNet-50 stage4 下采樣層的步幅由2 調(diào)整為1,以增加骨干輸出的特征圖的大小,這是圖像檢索中常見的技巧。本文采用多視角平衡采樣策略,訓(xùn)練批次設(shè)置為32,γ設(shè)置為3,即一個(gè)批次中隨機(jī)選取8 類目標(biāo)地點(diǎn)圖像,每類圖像包含3 幅無人機(jī)視圖和1 幅衛(wèi)星視圖。在反傳過程當(dāng)中,本文采用隨機(jī)梯度下降法優(yōu)化參數(shù),momentum設(shè)置為0.9,weight_decay為0.000 5。骨干網(wǎng)初始學(xué)習(xí)率設(shè)為0.001,分類模塊學(xué)習(xí)率為0.01,經(jīng)過80 個(gè)epoch 完成訓(xùn)練。對于RRT 損失中的超參數(shù),按經(jīng)驗(yàn)分別設(shè)αp=5,αn=20。在測試過程中,利用歐氏距離度量Query 圖像和Gallery 集中候選圖像之間的相似性。本文模型在Pytorch 上實(shí)現(xiàn),所有實(shí)驗(yàn)都在NVIDIA RTX 2080Ti GPU 上進(jìn)行。最后,設(shè)置各個(gè)損失函數(shù)的權(quán)值為:λret=800,λL1=80,λcGAN=1。
2.1.3 評價(jià)指標(biāo)
1)圖像生成模型評價(jià)指標(biāo)。對于圖像生成任務(wù),本文使用均方根誤差(Root Mean Square Error,RMSE)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)和銳度差(Sharpness Difference,SD)指標(biāo)。這些指標(biāo)根據(jù)原始幾何空間屬性量化了生成衛(wèi)星圖和真實(shí)衛(wèi)星圖的像素級差異。
2)圖像檢索模型評價(jià)指標(biāo)。實(shí)驗(yàn)中,使用K-召回率R@K和平均精確率(Average Precision,AP)評估模型的性能。如果在Top-K的Ranking List 中查詢圖像的真實(shí)匹配圖像出現(xiàn)在(K+1)圖像之前,則R@K設(shè)置為1;否則,將其設(shè)置為0。較高的R@K表明網(wǎng)絡(luò)性能較好。對于無人機(jī)定位任務(wù),無人機(jī)視圖數(shù)據(jù)庫中有54 幅匹配圖像。因此,為了盡可能全面地評估匹配結(jié)果,將AP 用作第二評估指標(biāo)。AP 評估指標(biāo)綜合考慮了所有真實(shí)匹配圖像的位置。
相較于ORB(ORiented Brief)[35]、SIFT、加速魯棒特征(Speed-Up Robust Features,SURF)[36]這些基于傳統(tǒng)手工特征的方法,可以發(fā)現(xiàn)基于深度特征的方法大幅提升了跨視角圖像匹配的性能,取得了不錯(cuò)的效果。
在University-1652 數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),通過和9 個(gè)具有競爭性的前沿方法進(jìn)行比較以評估本文模型的性能。如表3 所列,與文中方法作對比的9 個(gè)前沿方法分別為:加權(quán)軟邊界三元組損失[10]、實(shí)例損失[17]、LCM(cross-view Matching based on Location Classification)方 法[20]、SFPN(Salient Feature Partition Network)方法[19]、LPN 方法[18]、PCL(Perspective projection transformation+Conditional generative adversarial nets+LPN)[26]、FSRA(Feature Segmentation and Region Alignment)方 法[22]、MMNet 方法[25]、MSBA(Multiscale Block Attention)方法[21]。由于MJLM 是為了無人機(jī)定位任務(wù)而提出的,且逆透視映射方法適用于傾斜視角至垂直視角的坐標(biāo)變換,所以前置生成模型只做了無人機(jī)至衛(wèi)星視圖的圖像生成任務(wù),本文僅討論MJLM 在無人機(jī)定位任務(wù)上的性能表現(xiàn)。
表3 University-1652數(shù)據(jù)集上MJLM與前沿方法的性能比較 單位:%Tab.3 Performance comparison between MJLM and state-of-the-art methods on University-1652 dataset unit:%
MJLM 在無人機(jī)定位任務(wù)中(無人機(jī)視圖→衛(wèi)星視圖)的R@1 為87.54%,AP 為89.22%。相較于性能最好的MSBA 方法,MJLM 在無人機(jī)定位任務(wù)中的R@1 指標(biāo)提升了1.07%,AP 指標(biāo)提升了0.76%,這些數(shù)據(jù)表明MJLM 在University-1652 數(shù)據(jù)集上的無人機(jī)定位任務(wù)中優(yōu)于現(xiàn)有的最佳方法。
此外,MJLM 方法可以作為前沿方法的補(bǔ)充,當(dāng)MJLM 的前置生成模型與LPN 結(jié)合時(shí)(IPM+CVGAN+LPN),可以發(fā)現(xiàn)在無人機(jī)定位任務(wù)的R@1 和AP 指標(biāo)上較LPN 上分別提高了5.65 和6.31 個(gè)百分點(diǎn)。由此看出多任務(wù)聯(lián)合學(xué)習(xí)方法可以有效提高無人機(jī)定位模型的匹配性能。
如圖9 所示,MJLM 模型在無人機(jī)定位任務(wù)中均成功檢索到了對應(yīng)的衛(wèi)星圖,并在ranking-list 中排第一。
圖9 無人機(jī)定位任務(wù)結(jié)果圖Fig.9 Result graphs of UAV localization tasks
2.3.1 聯(lián)合訓(xùn)練對前置生成模型的影響
對于前置生成模型,考慮了以下消融實(shí)驗(yàn),結(jié)果如表4所示。
表4 University-1652數(shù)據(jù)集上前置圖像生成模型的消融實(shí)驗(yàn)結(jié)果Tab.4 Ablation study results of proactive image generation model on University-1652 dataset
1)將經(jīng)過IPM 的投影衛(wèi)星圖與輸入的衛(wèi)星圖像進(jìn)行淺層特征比較(記作i)。
2)對前置生成模型單獨(dú)進(jìn)行訓(xùn)練(記作ii),為了探究在沒有檢索任務(wù)聯(lián)合訓(xùn)練下的圖像生成質(zhì)量。
3)將前置生成模型聯(lián)合后置檢索模型同時(shí)進(jìn)行訓(xùn)練,本文分別采用LPN(記作iii)和MMNet(記作iv)作為后置檢索模型,以確認(rèn)不同檢索分支網(wǎng)絡(luò)模型對聯(lián)合訓(xùn)練是否有較大的影響。
通過對比表4(i)與(ii)可發(fā)現(xiàn),經(jīng)過CVGAN 后可得到更加真實(shí)的衛(wèi)星視角圖像。對比表4 w/o R 與w/ MMNet 消融實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),聯(lián)合訓(xùn)練確實(shí)有利于圖像生成任務(wù)。原因是,多任務(wù)的學(xué)習(xí)方式會(huì)反向促使生成對抗網(wǎng)絡(luò)學(xué)習(xí)更優(yōu)秀的特征,最終同時(shí)提高兩項(xiàng)任務(wù)的性能。通過對比表4 w/LPN 與w/ MMNet 消融實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),檢索分支采用不同網(wǎng)絡(luò)模型,對圖像生成質(zhì)量影響不是特別大,但結(jié)合全局與局部特征進(jìn)行多監(jiān)督學(xué)習(xí)的MMNet 確實(shí)更有利于生成高質(zhì)量的衛(wèi)星圖。
2.3.2 前置生成模型對后置檢索模型定位效果的影響
為了在University-1652 數(shù)據(jù)集上研究了前置生成模型的不同組件對后置檢索模型的定位性能影響,進(jìn)行以下消融實(shí)驗(yàn),結(jié)果如表5。
表5 University-1652數(shù)據(jù)集上后置圖像檢索模型的消融實(shí)驗(yàn)結(jié)果 單位:%Tab.5 Ablation study results of posterior image retrieval model on University-1652 dataset unit:%
1)放棄顯式的IPM 變換,將未經(jīng)過投影映射的真實(shí)無人機(jī)圖作為CVGAN 的輸入(記作i),這意味著僅利用CVGAN進(jìn)行隱式的學(xué)習(xí)訓(xùn)練。
2)放棄CVGAN 中生成器G的解碼器和判別器D,直接將編碼器編碼的潛在特征GE(Ips)作為后置檢索模型中無人機(jī)分支的輸入(記作ii),這意味著前置生成模型幾乎僅使用了顯式的IPM 變換,不能對圖像進(jìn)行內(nèi)容和幾何特征增強(qiáng),可以看出效果并不太好。
3)僅放棄CVGAN 中的判別器D,意味著放棄了LcGAN,僅基于L1 損失LL1去預(yù)測生成衛(wèi)星圖(記作iii)。這意味著生成器沒有經(jīng)過和判別器的博弈訓(xùn)練,直接生成衛(wèi)星圖。因?yàn)樗荒芾蒙蓪褂?xùn)練的學(xué)習(xí)能力,生成的衛(wèi)星圖顯得并不真實(shí),但由于LL1至少一定程度上支持圖像檢索任務(wù),所以這種修改對精度的降低不是特別明顯。
4)將生成的圖像G(Ips)作為MMNet 的無人機(jī)分支輸入,而不是傳遞編碼器GE的潛在網(wǎng)絡(luò)瓶頸層特征(記作iv),可觀察到性能的下降。因?yàn)樯蓤D像相較于深層網(wǎng)絡(luò)瓶頸層特征GE(Ips)多了解碼再編碼的過程,自然會(huì)丟失很多細(xì)粒度信息。
通過對比表5 的MMNet、(i)、(ii)三個(gè)消融實(shí)驗(yàn)可發(fā)現(xiàn),CVGAN 和IPM 單獨(dú)使用,效果提升并不明顯,其中IPM 對R@1 的提升效果較強(qiáng),CVGAN 對AP 提升明顯一些。而當(dāng)IPM 與CVGAN 聯(lián)合訓(xùn)練后,效果提升非常明顯。綜上所述,表5 的結(jié)果表明,前置生成模型確實(shí)有利于提高整體匹配性能。
2.4.1 拍攝距離對定位的影響
University-1652 數(shù)據(jù)集中衛(wèi)星圖像的要素比例是固定的,而無人機(jī)圖像的要素比例隨著無人機(jī)到地理目標(biāo)的距離和角度而動(dòng)態(tài)變化。本文采用距離地理目標(biāo)不同距離的無人機(jī)圖像作為查詢圖像,研究距離變化對MJLM 的影響。如表6 所示,當(dāng)無人機(jī)圖像在距離地理目標(biāo)的中度距離拍攝時(shí),獲得了最佳性能。當(dāng)無人機(jī)距離地理目標(biāo)較近時(shí),與使用全部無人機(jī)圖像作為查詢圖像相比較,結(jié)果仍然具有競爭力。通過大量觀察,可得出原因,即這些圖像在要素比例上非常接近衛(wèi)星圖像;另外一個(gè)可能原因是,這些無人機(jī)圖像主要為目標(biāo)建筑,沒有額外的樹木和其他建筑干擾物。
表6 University-1652數(shù)據(jù)集上拍攝距離對定位性能的影響 單位:%Tab.6 Influence of shooting distance on localization performance on University-1652 dataset unit:%
2.4.2 偏移不變性
在現(xiàn)實(shí)場景中,查詢圖像和真實(shí)匹配的衛(wèi)星圖之間的目標(biāo)位置通常會(huì)有偏移。為了探究MJLM 是否能夠應(yīng)對這種現(xiàn)實(shí)應(yīng)用場景的挑戰(zhàn),在測試過程中驗(yàn)證MJLM 對位置偏移的魯棒性,實(shí)驗(yàn)結(jié)果見表7。具體來說,將查詢圖像以像素為單位向右平移0~50 像素,保持Gallary 集中的圖像不變,0表示不對查詢圖像進(jìn)行偏移。實(shí)驗(yàn)結(jié)果表明,當(dāng)偏移量從0緩慢增加時(shí),模型性能沒有特別明顯的變化。在30 像素的偏移量內(nèi),性能只是略微下降,即使偏移量達(dá)到50,也依然具有競爭力。如圖10 為MJLM 與當(dāng)前性能較好且權(quán)威的LPN 的對比結(jié)果,可以看出,隨著偏移量的增加,模型的衰減比現(xiàn)有模型的衰減要小得多,這說明模型對位置偏移的魯棒性更強(qiáng)。2.4.3 旋轉(zhuǎn)不變性
圖10 偏移不變性消融實(shí)驗(yàn)對比圖Fig.10 Comparison map of offset-invariance ablation experiment
表7 University-1652數(shù)據(jù)集上偏移不變性的驗(yàn)證結(jié)果 單位:%Tab.7 Verification results of offset-invariance on University-1652 dataset unit:%
由于University-1652 數(shù)據(jù)集中的衛(wèi)星視圖是北向(圖片0 度方向朝北)的,而無人機(jī)視圖的方向是隨機(jī)的。在訓(xùn)練階段,旋轉(zhuǎn)增強(qiáng)僅僅應(yīng)用于衛(wèi)星視圖分支,而無人機(jī)視圖不受影響。為了驗(yàn)證MJLM 的旋轉(zhuǎn)不變性性能,本文通過實(shí)驗(yàn)將查詢圖像進(jìn)行旋轉(zhuǎn)來進(jìn)行跨視角匹配。實(shí)驗(yàn)結(jié)果如表8所示,其中0°表示沒有旋轉(zhuǎn)的輸入查詢圖像。對于無人機(jī)定位任務(wù),MJLM 仍然實(shí)現(xiàn)了有競爭力的性能目標(biāo),而沒有顯著的性能下降。此外,本文還嘗試在Query 集和Gallery 集上旋轉(zhuǎn)不同的角度,以進(jìn)一步測試模型的性能。實(shí)驗(yàn)結(jié)果表明,該模型對旋轉(zhuǎn)變化具有良好的可擴(kuò)展性。
表8 University-1652數(shù)據(jù)集上旋轉(zhuǎn)不變性驗(yàn)證結(jié)果Tab.8 Verification results of rotation-invariance on University-1652 dataset
本文從決策級層面出發(fā),通過多任務(wù)聯(lián)合學(xué)習(xí)方法實(shí)現(xiàn)跨視角地理定位任務(wù)。在一個(gè)聚合框架體系內(nèi)聯(lián)合處理跨視角(無人機(jī)-衛(wèi)星視圖)圖像生成任務(wù)以及檢索任務(wù),實(shí)現(xiàn)基于視角轉(zhuǎn)換與視點(diǎn)不變特征方法的融合。具體來說,MJLM 將給定的一對無人機(jī)圖像和衛(wèi)星圖像映射到它們的潛在特征空間并建立聯(lián)系,使用這些特征來完成這兩個(gè)任務(wù)。通過在University-162 數(shù)據(jù)集上的大量實(shí)驗(yàn),表明了MJLM 相較于前沿方法的先進(jìn)性,此外還可作為前沿方法的補(bǔ)充,更進(jìn)一步提升跨視角地理定位的性能。消融實(shí)驗(yàn)驗(yàn)證了前置生成模型與后置檢索模型聯(lián)合訓(xùn)練的有效性。另外考慮MJLM 工程應(yīng)用場景的魯棒性,從拍攝距離、偏移不變性、旋轉(zhuǎn)不變性等角度進(jìn)行了實(shí)驗(yàn),同樣驗(yàn)證了模型在準(zhǔn)確性和魯棒性方面的良好表現(xiàn)。
下一步工作將繼續(xù)探索如何進(jìn)一步提高無人機(jī)圖像與與衛(wèi)星圖像的匹配精度及魯棒性,以及如何利用無人機(jī)圖像作為中間橋梁,提高地面街景圖與衛(wèi)星圖像的匹配精度。