田生輝
(中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司,陜西 西安 710043)
相比經(jīng)典的半全局匹配算法(SGM[1]),深度學(xué)習(xí)立體匹配模型可以計(jì)算更為魯棒的匹配代價(jià),并具有強(qiáng)大的代價(jià)體(cost volume)正則化能力,因此在計(jì)算機(jī)視覺(jué)研究領(lǐng)域,深度學(xué)習(xí)立體匹配模型的匹配精度已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了SGM算法。目前,已經(jīng)涌現(xiàn)出了各種各樣的深度學(xué)習(xí)立體匹配模型,在kitti 立體基準(zhǔn)排行榜上出現(xiàn)的更先進(jìn)的立體匹配模型,很少有學(xué)者嘗試將其應(yīng)用于衛(wèi)星影像密集匹配。鑒于高分衛(wèi)星影像分辨率高、數(shù)據(jù)量大等特點(diǎn),將采用了由粗到精的策略、運(yùn)行速度極快、適用于高分辨率影像的HSM(Hierarchical Stereo Matching[2])模型應(yīng)用于衛(wèi)星影像密集匹配。
HSM模型為高分辨影像設(shè)計(jì),參數(shù)量較少、運(yùn)行輕便、可以按需輸出不同尺度下的視差圖。本文在詳細(xì)了解該模型結(jié)構(gòu)的前提下,依據(jù)衛(wèi)星影像的特點(diǎn)對(duì)該模型進(jìn)行了改進(jìn),設(shè)計(jì)了新模型HSM-deep。
為了提高HSM模型的精度,避免忽略高分影像中的細(xì)小地物,輸出分辨率更高的視差圖,對(duì)HSM模型進(jìn)行了改進(jìn),提出了HSM-deep 模型。具體改進(jìn)如下:
原特征提取模塊將原始圖像輸入3 層卷積塊后會(huì)將圖像的尺寸降采樣為原尺寸的1/4。鑒于高分辨率衛(wèi)星影像地物細(xì)節(jié)豐富的特點(diǎn),本文提出的HSM-deep 的特征提取模塊將原始圖像輸入4 層卷積塊,未采用步幅為2 的卷積層,因此輸出的初始特征的長(zhǎng)寬尺寸為原圖像的1/2。
原特征提取模塊設(shè)計(jì)了4 個(gè)殘差塊以生成多尺度的圖像特征,這將會(huì)使圖像尺寸依次縮小1/2。因此,最終得到長(zhǎng)寬尺寸分別為原始圖像1/8、1/16、1/32、1/64 的多尺度特征,改進(jìn)后的特征提取模塊增加了一個(gè)殘差塊,生成分辨率更高的特征,最終得到了長(zhǎng)寬尺寸分別為原始圖像1/4、1/8、1/16、1/32、1/64 的多尺度特征。
原始的特征提取模塊只在最粗略的特征圖上添加了金字塔池化層,為了捕獲更為廣泛的全局上下文信息,改進(jìn)后的模型在三個(gè)尺度的特征圖上都增加了金字塔池化層。
最終改進(jìn)的特征提取模塊的結(jié)構(gòu)如圖1 所示,圖中所示的結(jié)構(gòu)類似于U-Net 結(jié)構(gòu),下采樣之后再逐層上采樣恢復(fù)原來(lái)的尺寸,上采樣層與下采樣層之間具有跳躍連接,即某一尺度的特征上采樣與更精細(xì)尺度的特征級(jí)聯(lián)作為下次上采樣的輸入。立方體表示特征,越高表示通道數(shù)越多,標(biāo)簽中帶有“res_block”字樣的方塊為殘差塊,將對(duì)特征進(jìn)行下采樣,標(biāo)簽中帶有“upconv”字樣的方塊會(huì)對(duì)特征進(jìn)行上采樣,標(biāo)簽中帶有“proj”字樣的方塊使用1×1 卷積壓縮特征通道數(shù)。
圖1 HSM-deep 模型特征提取模塊
由于HSM-deep 模型增加了代價(jià)體,因此代價(jià)體解碼器的數(shù)量也相應(yīng)地增加到5 個(gè),代價(jià)體空間分辨率和視差分辨率依次增加。改進(jìn)后的金字塔代價(jià)體解碼器可以正則化更高分辨率的代價(jià)體,將經(jīng)過(guò)正則化的更高分辨率的3D 代價(jià)體輸入視差回歸模塊可以得到更高分辨率的視差圖,這種更高分辨率的視差圖更為“清晰”,能更有效地保留細(xì)小結(jié)構(gòu)。
HSM-deep 模型中的金字塔代價(jià)體解碼器如圖2 所示(改動(dòng)的部分在底部由方框標(biāo)出),圖中每個(gè)解碼器處理不同尺度的代價(jià)體,從上到下,代價(jià)體逐漸精細(xì)。除了decoder1,每個(gè)解碼器具有兩個(gè)輸出,分別是上采樣后的代價(jià)體和壓縮為1 維的3D 代價(jià)體,將3D 代價(jià)體輸入視差回歸模塊即可輸出視差圖。decoder1中具有5 個(gè)conv3D,其余decoder 中具有6 個(gè)conv3D。
圖2 HSM-deep 模型中的金字塔代價(jià)體解碼器結(jié)構(gòu)
HSM 模型采用softmax 函數(shù)歸一化代價(jià)體,導(dǎo)致該模型只能輸出正視差值。而衛(wèi)星影像立體匹配生成的視差圖包括負(fù) 值, 因 此 HSM-deep 模 型 使 用Normalize 函數(shù)將3D 代價(jià)體進(jìn)行歸一化,使得每個(gè)像素在視差搜索空間上的所有代價(jià)值在[-1,1]之間,這樣得到的歸一化代價(jià)體盡管不能從概率的角度解釋,但是可以使視差回歸模塊輸出負(fù)視差值。
實(shí)驗(yàn)采用“大范圍語(yǔ)義3D 重建比賽[3]”第二組挑戰(zhàn)賽的數(shù)據(jù),包含3000 多對(duì)已經(jīng)核線校正過(guò)的立體像對(duì)。每個(gè)圖塊均為全色融合影像,尺寸為1024×1024。
實(shí)驗(yàn)在深度學(xué)習(xí)服務(wù)器中進(jìn)行,CPU為 Inter (R)Xeon (R)E5-2640 v4 2.40GHz,內(nèi)存為128G,GPU 為NVIDIA Tesla P40,顯存為24G。所有深度學(xué)習(xí)模型都基于pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn),采用python 作為主要編程語(yǔ)言。模型運(yùn)行在CentOS 系統(tǒng)下。
使用測(cè)試集上所有樣本的平均端點(diǎn)誤差(EPE)、三像素誤差(3PE)、一像素誤差(1PE)、均方根誤差(RMSE)對(duì)模型(或算法)的精度進(jìn)行定量評(píng)估。其中EPE 是指預(yù)測(cè)視差與真實(shí)視差的平均絕對(duì)差值(計(jì)算公式見(jiàn)式(1)),3PE 是預(yù)測(cè)視差與真實(shí)視差的差值小于3 的像素百分比,1PE 是預(yù)測(cè)視差與真實(shí)視差的差值小于1 的像素百分比(計(jì)算公式見(jiàn)式(2)),RMSE 是預(yù)測(cè)視差與真實(shí)視差的均方根誤差(計(jì)算公式見(jiàn)式(3)),這些評(píng)價(jià)標(biāo)準(zhǔn)只在樣本的有效視差處計(jì)算。此外,本文還對(duì)各個(gè)算法處理一對(duì)立體像對(duì)的時(shí)間進(jìn)行了統(tǒng)計(jì)。
上式中,d(p)表示像素p 的預(yù)測(cè)視差,dgt(p)表示像素p 的真實(shí)視差,A 表示有效像素的集和,δ 可取1 或3。
3.4.1 模型的訓(xùn)練
為了進(jìn)行對(duì)比分析,除對(duì)HSM-deep 模型進(jìn)行訓(xùn)練和評(píng)估外,還將該模型與原HSM 模型、GA-Net[5]模型以及PSMNet[5]模型進(jìn)行了對(duì)比。
深度學(xué)習(xí)立體匹配模型均采用Adam 進(jìn)行優(yōu)化(β1=0.9,β2=0.999)。所有模型的訓(xùn)練整體上可以分為兩個(gè)階段:先以較大的學(xué)習(xí)率使模型快速收斂,之后降低學(xué)習(xí)率,并且更改其他參數(shù)對(duì)模型進(jìn)行微調(diào)。
3.4.2 立體匹配結(jié)果的定性和定量評(píng)估
相對(duì)于原始HSM 模型和GA-Net 模型,HSM-deep模型在可視效果和精度兩方面有所提升。下文選擇一個(gè)典型場(chǎng)景進(jìn)行定性分析,具體可視效果見(jiàn)圖3,該場(chǎng)景中存在大量的樹(shù)木和小型建筑物,這是一種最為考驗(yàn)立體匹配算法的場(chǎng)景,HSM 模型明顯優(yōu)于GA-Net 模型和PSMNet 模型的結(jié)果,在HSM模型的結(jié)果中,地面與地物有著明顯的反差,說(shuō)明HSM 模型區(qū)分“前景- 背景”的能力更強(qiáng)。局部細(xì)節(jié)圖中包含一個(gè)細(xì)小的建筑物,相比其他兩種模型,HSM-deep 模型最有效地恢復(fù)了該建筑物的輪廓。
圖3 GA-Net 模型、原HSM 模型、HSM-deep 模型立體匹配結(jié)果的局部對(duì)比
從定量評(píng)估結(jié)果(見(jiàn)表1)分析,HSM系列模型的各項(xiàng)指標(biāo)優(yōu)于其他模型。HSM-deep 模型各項(xiàng)精度指標(biāo)相比原HSM模型均有所提升,受益于HSM-deep 模型增加了一個(gè)更精細(xì)的尺度,該模型的1PE 精度相比原模型提升明顯,盡管HSM-deep 模型相比原HSM模型運(yùn)行時(shí)間有所下降,但仍舊比其他深度學(xué)習(xí)立體匹配模型更快。
表1 各模型/算法在測(cè)試集上的定量評(píng)估結(jié)果
將多個(gè)深度學(xué)習(xí)立體匹配模型應(yīng)用于衛(wèi)星影像密集匹配,對(duì)HSM模型進(jìn)行改進(jìn),在特征提取模塊增加了一個(gè)更高分辨率的特征提取層和更多的空間金字塔池化層,由于增加了更高分辨率的特征提取層,相應(yīng)地,需要在金字塔代價(jià)體解碼器中增加分辨率更高的代價(jià)體解碼器,從而構(gòu)建了新模型HSM-deep。HSM-deep 模型中新增的更精細(xì)的尺度用于輸出更高分辨率的視差圖,避免忽略細(xì)小地物。相比原HSM模型,HSM-deep 模型生成的視差圖的各項(xiàng)精度評(píng)價(jià)指標(biāo)都有所提高,且能夠有效地保留許多細(xì)小結(jié)構(gòu),在視差邊緣處的可視效果超越了GA-Net 模型。