李志勇,官愷*,牛澤璇,晏非,孫曼,閆兆嬋
(1.61363部隊(duì),陜西 西安 710054)
密集匹配在三維重建[1]、汽車駕駛[2]和航空攝影測量[3-4]等眾多領(lǐng)域都有重要應(yīng)用。其核心是在含有重疊區(qū)域的兩幅圖像上依據(jù)特征為每個(gè)像素尋找同名點(diǎn),其精度將直接影響實(shí)際應(yīng)用中的測量精度。密集匹配的發(fā)展經(jīng)歷了漫長的過程,SAD、SSD[5]、模擬退火[6]、動(dòng)態(tài)規(guī)劃等傳統(tǒng)方法是依據(jù)人工設(shè)計(jì)的特征描述符尋找同名點(diǎn),因此提取特征需要較強(qiáng)的專業(yè)背景知識(shí),通常魯棒性較差且精度有限。隨著計(jì)算機(jī)硬件的發(fā)展和深度學(xué)習(xí)理論層面的逐漸完善,深度學(xué)習(xí)在短短幾年時(shí)間獲得了較大的發(fā)展。MC-CNN[7]網(wǎng)絡(luò)首次利用深度卷積網(wǎng)絡(luò)自動(dòng)提取密集匹配所需特征,發(fā)揮了深度學(xué)習(xí)基于數(shù)據(jù)驅(qū)動(dòng)提取特征的優(yōu)勢,選擇出魯棒性更強(qiáng)的特征;DispNet[8]在光流網(wǎng)絡(luò)FlowNet[9]的基礎(chǔ)上改進(jìn)了上采樣部分,應(yīng)用于密集匹配,取得了不錯(cuò)的效果;iResNet[10]引入了多尺度信息提取模塊和貝葉斯精化視差模塊,進(jìn)一步提升了匹配精度;GCNet[11]摒棄了通用的全卷積網(wǎng)絡(luò),在網(wǎng)絡(luò)結(jié)構(gòu)中引入了視差代價(jià)構(gòu)建模塊,并采用三維卷積的方式計(jì)算匹配代價(jià),利用視差軟回歸將分類問題變?yōu)榛貧w問題;但由于GCNet缺少了多尺度信息,在大面積平滑區(qū)域表現(xiàn)欠佳,因此PSMNet[12]在其基礎(chǔ)上增加了金字塔池化模塊,以增加全局特征克服弱紋理和無紋理區(qū)域帶來的影響,同時(shí)在匹配代價(jià)構(gòu)建部分采用了堆疊沙漏模塊,使不同位置的特征可以相互參考空間位置,進(jìn)一步提升網(wǎng)絡(luò)精度。后期的大部分網(wǎng)絡(luò)均以PSMNet為基礎(chǔ),如增加了分組相關(guān)的GwcNet[13]以及利用視差唯一性的AcfNet[14];參考文獻(xiàn)[15]進(jìn)一步借鑒傳統(tǒng)匹配思想,利用影像金字塔和迭代的方式,將視差范圍由粗到精,逐步迭代,取得了不錯(cuò)的效果。
雖然監(jiān)督密集匹配網(wǎng)絡(luò)在性能上已接近甚至超過傳統(tǒng)方法[16],但監(jiān)督網(wǎng)絡(luò)本質(zhì)是對匹配過程的一個(gè)高維擬合,需以樣本數(shù)據(jù)為基準(zhǔn)訓(xùn)練擬合參數(shù),因此樣本的精度對于監(jiān)督網(wǎng)絡(luò)匹配效果十分重要。當(dāng)前監(jiān)督網(wǎng)絡(luò)所采用的數(shù)據(jù)集樣本精度極高,如Scene Flow[8]虛擬場景數(shù)據(jù)集的樣本數(shù)據(jù)是通過計(jì)算機(jī)精確計(jì)算得到的;KITTI數(shù)據(jù)集采用激光雷達(dá),且經(jīng)過人工修正,整體精度可信度較高。然而,航空數(shù)據(jù)集樣本標(biāo)注存在困難,且真實(shí)樣本數(shù)據(jù)在制作過程中存在一定的誤差,因此需要考慮樣本數(shù)據(jù)誤差對密集匹配精度的影響,并進(jìn)行進(jìn)一步分析,以掌握其規(guī)律。
深度學(xué)習(xí)密集匹配端到端常見的網(wǎng)絡(luò)結(jié)構(gòu)包括DispNet、GCNet和PSMNet等。
1.1.1 DispNet
DispNet網(wǎng)絡(luò)基于FlowNet改進(jìn),網(wǎng)絡(luò)架構(gòu)為通用全卷積網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)類似于U-Net[17],分為特征提取端和分辨率恢復(fù)端,通過跳層連接,包括DispNetS和DispNetC兩個(gè)版本,前者結(jié)構(gòu)如圖1a所示,經(jīng)過特征提取和分辨率恢復(fù)直接得到視差圖,后者特征提取端前3層為孿生網(wǎng)絡(luò),且在融合時(shí)額外加入了相關(guān)信息,融合后的操作與前者一致,即通過卷積層繼續(xù)進(jìn)行更高級別的特征提取以恢復(fù)分辨率,生成視差圖,結(jié)構(gòu)如圖1b所示。
圖1 DispNet結(jié)構(gòu)圖
1.1.2 GCNet
GCNet為端到端深度學(xué)習(xí)架構(gòu),與通用的全卷積網(wǎng)絡(luò)設(shè)計(jì)思想不同,其設(shè)計(jì)更有利于密集匹配,設(shè)計(jì)的匹配代價(jià)構(gòu)建、匹配代價(jià)計(jì)算以及視差軟回歸等模塊的改進(jìn)版一直沿用至今,效果顯著優(yōu)于通用全卷積網(wǎng)絡(luò)結(jié)構(gòu)。其流程包括特征提取、匹配代價(jià)張量構(gòu)建、匹配代價(jià)計(jì)算和視差軟回歸。該網(wǎng)絡(luò)中的特征提取部分增加了多個(gè)殘差塊,提取特征能力更強(qiáng);匹配代價(jià)通過疊加不同偏移的左右特征圖的組合構(gòu)建;構(gòu)建的匹配代價(jià)經(jīng)過三維卷積模塊計(jì)算左右特征圖相應(yīng)偏移的匹配代價(jià);視差軟回歸將匹配代價(jià)的分類問題轉(zhuǎn)為回歸問題,形成最終視差結(jié)果。GCNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 GCNet結(jié)構(gòu)圖
1.1.3 PSMNet
PSMNet沿用GCNet的架構(gòu),包括特征提取、金字塔池化、匹配代價(jià)構(gòu)建、匹配代價(jià)計(jì)算以及視差回歸5個(gè)部分。改進(jìn)的核心思想是在GCNet的基礎(chǔ)上引入多尺度信息,具體體現(xiàn)在特征提取段追加擴(kuò)張卷積殘差塊、金字塔池化和堆疊沙漏3個(gè)部分,進(jìn)一步提升網(wǎng)絡(luò)的精度和魯棒性。其結(jié)構(gòu)如圖3所示。PSMNetB和PSMNetS為PSMNet網(wǎng)絡(luò)的兩個(gè)版本,PSMNetB在代價(jià)匹配部分采用常規(guī)三維卷積加跳層的方式,而PSMNetS采用堆疊沙漏方式。
圖3 PSMNet結(jié)構(gòu)圖
遷移學(xué)習(xí)是將已訓(xùn)練好的模型應(yīng)用于其他數(shù)據(jù)集的策略。該方法利用了原有模型的泛化性能,若能在新數(shù)據(jù)集上產(chǎn)生更好的效果,則可節(jié)省大量運(yùn)算時(shí)間。遷移學(xué)習(xí)包括直推式遷移和模型微調(diào)兩種方式,前者對已訓(xùn)練好的模型不作任何調(diào)整,直接應(yīng)用于新數(shù)據(jù)集;后者則對新數(shù)據(jù)集進(jìn)行微調(diào),使得模型更適合于該數(shù)據(jù)集。模型微調(diào)又分為整體微調(diào)和部分層微調(diào),本次實(shí)驗(yàn)采用模型微調(diào)中的整體微調(diào)。
為全面分析深度學(xué)習(xí)中數(shù)據(jù)集樣本精度與密集匹配精度的關(guān)系,實(shí)驗(yàn)共涉及Scene Flow、KITTI2012[18],KITTI2015[19]、Vaihingen[16]和WHU[20]等5個(gè)數(shù)據(jù)集,其中Scene Flow數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集,其余4個(gè)數(shù)據(jù)集作為測試數(shù)據(jù)集。
Scene Flow數(shù)據(jù)集出自于DispNet,為虛擬場景,通過虛擬場景三維投影到二維的方式獲得樣本數(shù)據(jù)。由于該過程由數(shù)學(xué)公式直接計(jì)算得到,因此相較于真實(shí)場景數(shù)據(jù)集,該數(shù)據(jù)集樣本數(shù)據(jù)精度極高,更適合作為遷移學(xué)習(xí)中的預(yù)訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集分為FlyingThings3D、Driving、Monkaa,訓(xùn)練集包括35 858對圖像,測試集包括4 370對圖像,圖像尺寸為960像素×540像素。
KITTI數(shù)據(jù)集為汽車駕駛的真實(shí)場景,包括KITTI2012和KITTI2015兩個(gè)子集,視差圖由激光雷達(dá)測距反算得到,為半稠密視差圖,為保證樣本標(biāo)注精度,該樣本經(jīng)過人工修正。KITTI2012的訓(xùn)練集和測試集分別為194對和195對圖像,圖像尺寸為1 226像素×370像素;KITTI2015的訓(xùn)練集和測試集均為200對圖像,圖像尺寸為1 242像素×375像素。
Vaihingen數(shù)據(jù)集為德國航拍場景,由3條航帶26張鄉(xiāng)村影像組成,圖像尺寸為9 240像素×14 430像素,航向和旁向重疊度均為60%。經(jīng)過裁剪整理共包括731對圖像,尺寸為955像素×360像素,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的比例為8∶2,樣本數(shù)據(jù)由7款商業(yè)軟件匹配的DSM取平均值反算得到。整個(gè)區(qū)域地形相對平坦,包括低矮的房屋群、河流、樹林和農(nóng)田等。
WHU數(shù)據(jù)集為貴州鄉(xiāng)村航拍場景,飛行平臺(tái)為無人機(jī),拍攝高度約為550 m,分辨率為10 cm,航向和旁向重疊度分別為90%和80%。經(jīng)整理和裁切共包括10 979對圖像,其中8 316對用于訓(xùn)練,2 663對用于測試,尺寸為768像素×384像素。場景為部分高層建筑、少量工廠以及一些山脈河流。
實(shí)驗(yàn)在Windows10操作系統(tǒng)下開展,采用Anconada虛擬環(huán)境,基于PyTorch框架,語言為Python,顯卡為NVIDIA GTX 1080Ti,顯存為11G。batchsize通過梯度累加模擬實(shí)現(xiàn),設(shè)置為8,優(yōu)化其采用Adam,參數(shù)分別為β1=0.9,β2=0.999。訓(xùn)練過程中圖像會(huì)被隨機(jī)裁剪為512像素×256像素,一方面增加訓(xùn)練速度,另一方面做數(shù)據(jù)增強(qiáng)。參數(shù)指標(biāo)采用終點(diǎn)誤差(EPE)和3像素誤差(3 PE),其中EPE為預(yù)測視差與真實(shí)視差之間絕對值的平均值,單位為像素;3PE為EPE大于3像素占總點(diǎn)數(shù)的百分比,單位為百分比。
實(shí)驗(yàn)最大視差設(shè)置為192像素。首先將Sence Flow數(shù)據(jù)集作為遷移學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集,預(yù)訓(xùn)練10輪;然后在其余4個(gè)數(shù)據(jù)集上進(jìn)行微調(diào)和測試,其中在KITTI數(shù)據(jù)集上訓(xùn)練1 000輪,在Vaihingen數(shù)據(jù)集上訓(xùn)練300輪,在WHU數(shù)據(jù)集上訓(xùn)練30輪。作為對比,采用未經(jīng)遷移學(xué)習(xí)的數(shù)據(jù)進(jìn)行測試,由于未經(jīng)遷移學(xué)習(xí)的模型收斂速度相對較慢,在KITTI數(shù)據(jù)集上訓(xùn)練2 000輪,在Vaihingen數(shù)據(jù)集上訓(xùn)練600輪,在WHU數(shù)據(jù)集上訓(xùn)練60輪。按照國家《測量誤差及數(shù)據(jù)處理》技術(shù)規(guī)范,實(shí)際數(shù)據(jù)中所包含的誤差可分為系統(tǒng)誤差、隨機(jī)誤差和粗大誤差[21],為更貼近真實(shí)場景,探究樣本誤差與預(yù)測誤差的關(guān)系,本文分別對3種誤差進(jìn)行模擬實(shí)驗(yàn)。
本次實(shí)驗(yàn)的主要目的是分析數(shù)據(jù)樣本精度與密集匹配精度之間關(guān)系,需要大量消融實(shí)驗(yàn),因此運(yùn)算時(shí)間將作為選取的重要依據(jù)。由于數(shù)據(jù)集圖像大小數(shù)量各異,因此統(tǒng)一在KITTI2015數(shù)據(jù)集上進(jìn)行測試,根據(jù)測試結(jié)果列出各網(wǎng)絡(luò)運(yùn)行2 000輪所需時(shí)間,同時(shí)依據(jù)本文公開展示精度列出各網(wǎng)絡(luò)精度,如表1所示,其中訓(xùn)練1次是指單幅圖像裁切為256像素×512像素從輸入到反向傳播完成的時(shí)間,測試1次是指單幅完整圖像生成視差圖所需時(shí)間,累計(jì)總耗時(shí)為訓(xùn)練時(shí)間與測試時(shí)間的總和,可以看出,DispNet兩個(gè)版本的網(wǎng)絡(luò)累計(jì)耗時(shí)遠(yuǎn)低于其他網(wǎng)絡(luò),且時(shí)間相差較??;DispNetC的精度高于DispNetS,因此綜合考慮精度和運(yùn)行時(shí)間,本文選取DispNetC作為實(shí)驗(yàn)網(wǎng)絡(luò)。
表1 各網(wǎng)絡(luò)運(yùn)行時(shí)間與網(wǎng)絡(luò)精度
系統(tǒng)誤差是指由系統(tǒng)本身造成的誤差,通常分為恒定誤差和按照一定規(guī)律變化的變化誤差。恒定誤差的絕對值和符號保持恒定,在實(shí)驗(yàn)中通過對所有像素增加或減少相同的像素偏移值進(jìn)行模擬;變化誤差規(guī)律種類較多,通常誤差值以一定規(guī)律隨測量條件變化而變化,實(shí)驗(yàn)采用統(tǒng)一百分比縮放的方式進(jìn)行模擬,即誤差隨視差值實(shí)際大小變化而變化,視差值越大,則誤差越大,反之則越小。系統(tǒng)恒定誤差模擬結(jié)果如表2所示,可以看出,深度學(xué)習(xí)方法具有一定的容錯(cuò)能力,理論上來說,系統(tǒng)偏差N像素,預(yù)測偏差應(yīng)相應(yīng)偏移N像素,而實(shí)際效果卻是在遷移學(xué)習(xí)條件下,系統(tǒng)偏差新增1像素,實(shí)際偏差僅平均增長0.47像素,雖然隨著系統(tǒng)偏移距離的增加,誤差增幅也在加速增加,但在一定范圍內(nèi),網(wǎng)絡(luò)仍具有較強(qiáng)的容錯(cuò)能力,尤其在1像素內(nèi),預(yù)測誤差增幅遠(yuǎn)小于系統(tǒng)固定誤差。
表2系統(tǒng)恒定誤差隨偏移距離變化
在遷移學(xué)習(xí)方面,對比遷移學(xué)習(xí)和直接訓(xùn)練0像素偏移列可知,遷移學(xué)習(xí)方法可提升網(wǎng)絡(luò)的精度,直接訓(xùn)練網(wǎng)絡(luò)模型雖然訓(xùn)練的輪次為遷移訓(xùn)練網(wǎng)絡(luò)模型的兩倍,但整體精度較低;相較于直接訓(xùn)練,遷移學(xué)習(xí)方法在KITTI2012、KITTI2015和WHU三個(gè)數(shù)據(jù)集上的EPE分別降低了0.25像素、0.18像素和0.14像素,3PE分別減少了17.6%,13.9%和14.4%,平均減少15.3%。
從抗噪角度來看,遷移學(xué)習(xí)模型預(yù)測誤差隨系統(tǒng)誤差增加的幅度更小,從而說明遷移學(xué)習(xí)在加速收斂,節(jié)約時(shí)間的同時(shí)還能提升精度。對直接訓(xùn)練和遷移學(xué)習(xí)所有EPE結(jié)果分別求和,考慮到Vaihingen數(shù)據(jù)集上直接訓(xùn)練模型表現(xiàn)異常(斜體處不收斂),不參與計(jì)算。最終,直接訓(xùn)練模型的EPE偏移總和為39.08像素,而遷移學(xué)習(xí)模型的EPE偏移總和為35.78像素,因此遷移學(xué)習(xí)模型整體的魯棒性優(yōu)于直接訓(xùn)練模型。另外,通過比較Vaihingen數(shù)據(jù)集遷移學(xué)習(xí)和直接訓(xùn)練方法可知,不收斂的網(wǎng)絡(luò)經(jīng)過遷移學(xué)習(xí),可穩(wěn)定收斂,進(jìn)一步印證了遷移學(xué)習(xí)方法可提升網(wǎng)絡(luò)的魯棒性的結(jié)論。
進(jìn)一步探究Vaihingen數(shù)據(jù)集不收斂原因,通過其他3個(gè)數(shù)據(jù)集收斂以及Vaihingen數(shù)據(jù)集上預(yù)訓(xùn)練后網(wǎng)絡(luò)仍可收斂,排除網(wǎng)絡(luò)本身問題;因此該問題可能是由過擬合或數(shù)據(jù)樣本自身精度引起的。過擬合的典型表現(xiàn)為在訓(xùn)練集上表現(xiàn)良好,在測試集上表現(xiàn)極差。因此,本文通過該方法判斷是否為過擬合,將訓(xùn)練和測試結(jié)果分別制作EPE曲線,如圖4所示,可以看出,無論是在訓(xùn)練集還是在測試集,EPE均在26~30像素之間,說明不是過擬合問題,因此可能為數(shù)據(jù)集標(biāo)簽精度問題。
圖4 Vaihingen數(shù)據(jù)集EPE曲線
由于該數(shù)據(jù)集標(biāo)簽數(shù)據(jù)是由7款商業(yè)軟件匹配的DSM反算得到的,無論是匹配點(diǎn)本身還是計(jì)算過程中都可能引入誤差、降低數(shù)據(jù)集精度,使網(wǎng)絡(luò)無法通過監(jiān)督方法學(xué)習(xí)到匹配的本質(zhì)。為驗(yàn)證猜想,本文采用無監(jiān)督的方法[22]進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示,可以看出,網(wǎng)絡(luò)可收斂,說明標(biāo)簽精度確實(shí)存在問題。另外,以Vaihingen數(shù)據(jù)集標(biāo)簽加1像素的結(jié)果為訓(xùn)練標(biāo)簽進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),網(wǎng)絡(luò)可以收斂;且遷移學(xué)習(xí)結(jié)果中,標(biāo)簽加1像素作為標(biāo)準(zhǔn)數(shù)據(jù)的訓(xùn)練結(jié)果明顯低于標(biāo)簽減1像素的結(jié)果,說明原數(shù)據(jù)集存在1像素的系統(tǒng)偏差,整體結(jié)果偏大。
表3 無監(jiān)督方法結(jié)果
通過進(jìn)一步分析發(fā)現(xiàn),Vaihingen數(shù)據(jù)集和WHU數(shù)據(jù)集都屬于遙感數(shù)據(jù)集,但直接訓(xùn)練方法在WHU數(shù)據(jù)進(jìn)行1像素的偏移后仍可收斂,這與Vaihingen數(shù)據(jù)集存在1像素系統(tǒng)偏差的結(jié)論矛盾。為了探究該問題,需從數(shù)據(jù)集圖像紋理特征和視差圖分布進(jìn)行分析,本文做了相關(guān)工作,繪制了各數(shù)據(jù)集的視差分布圖,如圖5所示,可以看出,Vaihingen數(shù)據(jù)集的差異主要體現(xiàn)在視差分布上,其視差分布更離散,其他數(shù)據(jù)集視差值均集中在0~100像素內(nèi),而Vaihingen數(shù)據(jù)集有大量點(diǎn)的視差值在100像素以上。
圖5 各數(shù)據(jù)集視差分布
此外,對比兩個(gè)數(shù)據(jù)集的規(guī)模發(fā)現(xiàn),Vaihingen數(shù)據(jù)集的圖像數(shù)量僅為WHU數(shù)據(jù)集的1/10,由此可推斷在視差分布范圍大且數(shù)據(jù)集標(biāo)簽較少的情況下,直接訓(xùn)練方法難以收斂。解決辦法是先在Scene Flow數(shù)據(jù)集上構(gòu)建預(yù)訓(xùn)練模型,再利用遷移學(xué)習(xí)方法,則可得到較穩(wěn)定的結(jié)果。由于直接訓(xùn)練方法導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定,且整體精度較差,后續(xù)精度實(shí)驗(yàn)均采用遷移學(xué)習(xí)方法。
變化系統(tǒng)誤差模擬常見的誤差隨視差值增大和減小的情況,通過將全圖視差值乘以固定的比例系數(shù)進(jìn)行模擬,范圍為70%~130%,結(jié)果如表4所示,可以看出,樣本數(shù)據(jù)經(jīng)過等比例變化后,誤差精度下降速度遠(yuǎn)超系統(tǒng)固定誤差,即使偏差約為10%,也會(huì)產(chǎn)生巨大誤差。進(jìn)一步分析原因可知,與恒定誤差不同,等比例誤差與視差值本身有關(guān),本文計(jì)算得到KITTI2012、KITTI2015、Vaihingen和WHU數(shù)據(jù)集的視差均值分別為39.04像素、34.21像素、59.85像素和46.99像素,10%均超過了3像素。對比表2中±2像素、±3像素偏移和表4中90%、110%發(fā)現(xiàn),二者接近,由此可推斷該類誤差與視差值本身相關(guān)。實(shí)際匹配過程中,視差值通常較大,導(dǎo)致誤差整體較大,因此對于該類誤差,在實(shí)際測量中需要避免。
表4 等比例誤差和預(yù)測精度關(guān)系
在真實(shí)場景中,隨機(jī)誤差是不可避免的。通常隨機(jī)誤差具有一定的規(guī)律性,即單峰性、對稱性、抵償性和有界性,一般呈正態(tài)分布。因此,在實(shí)驗(yàn)中通過對原始數(shù)據(jù)增加一個(gè)正態(tài)分布的噪聲,模擬隨機(jī)噪聲,分別探究樣本數(shù)據(jù)噪聲均值和噪聲標(biāo)準(zhǔn)差對匹配精度的影響。在研究噪聲均值的影響實(shí)驗(yàn)中,噪聲標(biāo)準(zhǔn)差統(tǒng)一為3像素,均值從-3~3像素進(jìn)行實(shí)驗(yàn)。噪聲均值和預(yù)測精度關(guān)系如表5所示,可以看出,隨著誤差均值的增加,預(yù)測誤差增幅迅速增加,說明隨機(jī)誤差中的均值誤差對預(yù)測誤差影響較大。對比表2和表5相同行數(shù)據(jù)發(fā)現(xiàn),整體誤差在數(shù)值和變化規(guī)律上均較接近,說明無論誤差是否隨機(jī),樣本數(shù)據(jù)均值的偏移都會(huì)對匹配精度產(chǎn)生相近的影響。此外,表2和表5中0像素偏移列,在均值為0像素,標(biāo)準(zhǔn)差為3像素的情況下,各數(shù)據(jù)集均未產(chǎn)生較大偏差,說明在一定標(biāo)準(zhǔn)差范圍內(nèi),隨機(jī)誤差對預(yù)測精度影響較小。
表5 噪聲均值偏差與預(yù)測精度的關(guān)系
為驗(yàn)證噪聲標(biāo)準(zhǔn)差對網(wǎng)絡(luò)的影響,將噪聲均值設(shè)置為0,標(biāo)準(zhǔn)差從0~6依次進(jìn)行實(shí)驗(yàn),結(jié)果如表6所示,可以看出,在噪聲均值不變的情況下,隨著噪聲標(biāo)準(zhǔn)差的增加,整體上EPE和3PE并沒有明顯增加,進(jìn)一步印證了一定范圍內(nèi)的隨機(jī)噪聲對精度影響較小的結(jié)論。
表6 噪聲標(biāo)準(zhǔn)差與預(yù)測精度的關(guān)系
在實(shí)際測量中,粗差或多或少存在,其結(jié)果可能對整體測量結(jié)果產(chǎn)生嚴(yán)重影響,因此需要對其影響進(jìn)行分析。實(shí)驗(yàn)通過在0~12%比例范圍增加20像素的方式模擬粗差,結(jié)果如表7所示,可以看出,隨著樣本數(shù)據(jù)粗大誤差比例的增加,EPE和3PE未出現(xiàn)明顯增加,說明網(wǎng)絡(luò)對于數(shù)據(jù)樣本的少量粗大誤差具有一定的“過濾”效果,使得網(wǎng)絡(luò)在樣本數(shù)據(jù)少量偏差的情況下,仍能保持網(wǎng)絡(luò)精度;此外,部分?jǐn)?shù)據(jù)在增加少量粗大誤差時(shí),效果甚至更優(yōu),相當(dāng)于給原有的集合增加了“噪聲”,訓(xùn)練這樣的數(shù)據(jù)集有助于增加模型的魯棒性,效果類似于“數(shù)據(jù)增強(qiáng)”。
表7 粗大誤差與預(yù)測精度的關(guān)系
綜合上述3種誤差發(fā)現(xiàn),無論是隨機(jī)誤差還是系統(tǒng)誤差,整體性的均值偏移均會(huì)使密集匹配精度下降,且隨著偏移距離的增加,誤差增幅也在增加;而隨機(jī)性偏移在保證均值無偏移的前提下,在一定范圍內(nèi)精度并沒有明顯下降,甚至還有小幅度提升;此外,基于視差本身的百分比誤差與該區(qū)域視差值本身相關(guān),通常對深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練是“災(zāi)難性”的,微小的百分比偏差,將引起最終匹配上巨大的誤差。
本文在多個(gè)數(shù)據(jù)集上分別模擬了含有系統(tǒng)誤差、隨機(jī)誤差和粗大誤差的樣本數(shù)據(jù),并進(jìn)行了測試分析。實(shí)驗(yàn)首先驗(yàn)證了遷移學(xué)習(xí)方法對網(wǎng)絡(luò)收斂速度、魯棒性的幫助,能在減少訓(xùn)練時(shí)間的同時(shí)增加密集匹配精度,平均誤差減少了15.3%,并通過進(jìn)一步分析Vaihingen與WHU數(shù)據(jù)集的差異發(fā)現(xiàn),環(huán)境復(fù)雜且數(shù)據(jù)樣本較少的數(shù)據(jù)集在含有系統(tǒng)誤差時(shí)更容易不收斂,可通過遷移學(xué)習(xí)方法解決該問題;其次證明了深度學(xué)習(xí)方法在一定范圍內(nèi)具有較強(qiáng)的容錯(cuò)性,但在超出該范圍后誤差增幅逐漸變大;最后說明了深度學(xué)習(xí)方法的抗噪性能主要體現(xiàn)在對抗隨機(jī)誤差,少量的隨機(jī)誤差甚至?xí)蛊ヅ渚扔幸欢ㄌ嵘?,而系統(tǒng)性的整體偏差對精度影響較大,尤其是百分比誤差,對匹配精度影響巨大。本文也存在一些局限性,如未指出隨機(jī)粗差使網(wǎng)絡(luò)發(fā)散的邊界條件,后期將進(jìn)行進(jìn)一步研究。