国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于稀疏卷積的前景實(shí)時(shí)雙目深度估計(jì)算法

2022-01-05 02:32邱哲瀚
計(jì)算機(jī)應(yīng)用 2021年12期
關(guān)鍵詞:卷積語(yǔ)義前景

邱哲瀚,李 揚(yáng)

(廣東工業(yè)大學(xué)機(jī)電工程學(xué)院,廣州 510006)

(?通信作者電子郵箱lyang@gdut.edu.cn)

0 引言

立體匹配作為無(wú)人駕駛的核心技術(shù)之一,通過(guò)不斷提升實(shí)時(shí)性能為自動(dòng)駕駛提供更穩(wěn)定的主動(dòng)安全措施,伴隨著深度學(xué)習(xí)的進(jìn)步研究而不斷發(fā)展。立體匹配算法通過(guò)匹配雙目圖像對(duì)中的對(duì)應(yīng)像素,計(jì)算每對(duì)像素的視差值生成視差圖。比起傳統(tǒng)的立體匹配算法,深度學(xué)習(xí)視差估計(jì)算法可以有效優(yōu)化圖像深度估計(jì)中的不適定問(wèn)題,能夠利用先驗(yàn)知識(shí)學(xué)習(xí)估算出遮擋和弱紋理區(qū)域的深度信息?;谏疃葘W(xué)習(xí)的雙目立體匹配網(wǎng)絡(luò)基本構(gòu)成[1]包括:雙目圖像對(duì)、空間特征提取模塊、視差代價(jià)聚合卷(cost-volume)和視差回歸模塊。

2015年,Mayer等[2]首次提出端對(duì)端的雙目視差估計(jì)網(wǎng)絡(luò)DispNet,通過(guò)下采樣方式提取空間特征后構(gòu)建視差代價(jià)聚合卷cost-volume,并對(duì)cost-volume 進(jìn)行視差解碼,最終回歸出稠密的視差估計(jì)圖。網(wǎng)絡(luò)DispNet采用端對(duì)端的結(jié)構(gòu),可以直接從雙目圖像中獲取視差估計(jì)圖,算法的總體性能高。為了進(jìn)一步提高預(yù)測(cè)精度,不同于Mayer 等采用二維卷積視差回歸模塊,Chang 等[3]提出的PSMNet(Pyramid Stereo Matching Network)將下采樣的空間特征通過(guò)偏移、堆疊形成帶有視差通道的4 維cost-volume,并引入三維卷積層[4]進(jìn)行視差回歸,顯著提升了視差估計(jì)的準(zhǔn)確性,但同時(shí)也增加了運(yùn)算資源占用。這是由于卷積層維度從二維到三維的增加,導(dǎo)致了網(wǎng)絡(luò)參數(shù)量大幅增長(zhǎng),算法的實(shí)時(shí)性能隨之也大幅下降。為此,本文方法在構(gòu)建4 維cost-volume 時(shí),采用稀疏卷積代替稠密卷積,通過(guò)只對(duì)前景進(jìn)行特征提取的方式減小輸入?yún)?shù)量的初始規(guī)模,達(dá)到緩解卷積層維度增加帶來(lái)的參數(shù)量增長(zhǎng)問(wèn)題。

針對(duì)如何提高算法實(shí)時(shí)性的問(wèn)題,Graham[5]提出用稀疏卷積(Sparse Convolution,SC)代替稠密卷積減少運(yùn)算量。稀疏性允許網(wǎng)絡(luò)使用運(yùn)算效率更高的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)架構(gòu),且運(yùn)行更大、稀疏的CNN 可能會(huì)提高結(jié)果的準(zhǔn)確性。具體地,Graham[6]通過(guò)在前景區(qū)域設(shè)置活動(dòng)站點(diǎn)(active site)稀疏化數(shù)據(jù),使得SC 只對(duì)稀疏化的數(shù)據(jù)進(jìn)行卷積操作,減少了運(yùn)算量。針對(duì)SC會(huì)隨著卷積層的加深無(wú)法保留數(shù)據(jù)稀疏性的問(wèn)題,Graham 等[7]提出了子流形稀疏卷積(Submanifold Sparse Convolution,SSC)。SSC 只對(duì)輸入的活動(dòng)站點(diǎn)進(jìn)行卷積操作,且只對(duì)具有激活站點(diǎn)的輸出賦值,在保持?jǐn)?shù)據(jù)原有稀疏性的同時(shí)進(jìn)一步減少了運(yùn)算量。為了最大限度發(fā)揮SC的優(yōu)勢(shì)、克服稠密卷積參數(shù)量大的缺點(diǎn),本文方法通過(guò)分割算法稀疏化輸入數(shù)據(jù),并在特征提取主干網(wǎng)絡(luò)中使用SC 和SSC 完全取代稠密卷積,改善了立體匹配算法的實(shí)時(shí)性。此外,Uhrig等[8]使用SC在稀疏數(shù)據(jù)中恢復(fù)出稠密視差圖,表明SC具有從稀疏數(shù)據(jù)中提取深度信息的能力。根據(jù)該結(jié)論,本文方法使用SC 構(gòu)造視差回歸模塊,通過(guò)解碼稀疏視差代價(jià)聚合卷中的深度信息,生成能夠預(yù)測(cè)稀疏前景的視差估計(jì)圖。因此配合分割算法和SC 實(shí)現(xiàn)對(duì)立體匹配算法的優(yōu)化,能夠有效解決三維卷積解碼方式的實(shí)時(shí)性問(wèn)題。

視差圖中前景的邊緣往往會(huì)有較大模糊,邊緣處視差值誤差率大。為了提升立體匹配算法的邊緣估計(jì)能力,Wang等[9]通過(guò)在視差特征中加入語(yǔ)義特征,提升了視差估計(jì)的邊緣效果;Fu 等[10]提出的注意力模塊起到語(yǔ)義上優(yōu)化邊緣細(xì)節(jié)的效果??墒且话愕淖⒁饬δK只適用于稠密特征,不能兼容稀疏化特征的提取。本文方法借鑒了注意力機(jī)制的構(gòu)筑方式,構(gòu)造了適用于稀疏特征的空間注意力機(jī)制;同時(shí)注意力機(jī)制末端采用自適應(yīng)線性疊加的方法,實(shí)現(xiàn)了語(yǔ)義特征和空間特征的疊加,形成能聚合空間、語(yǔ)義特征的語(yǔ)義注意力模塊。因此引入語(yǔ)義特征和注意力機(jī)制優(yōu)化立體匹配算法,能夠有效地提升網(wǎng)絡(luò)整體的視差估計(jì)精度。

總體上,本文方法利用編碼-解碼結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)LEDNet[11]作為前景分割模塊稀疏化數(shù)據(jù),配合一般SC 和SSC逐層提取前景空間特征,大幅減小輸入數(shù)據(jù)的冗余度,提高了立體匹配算法的運(yùn)算效率。充分利用LEDNet 編碼模塊的高層語(yǔ)義特征,通過(guò)建立語(yǔ)義注意力機(jī)制優(yōu)化稀疏卷積層,可提升視差估計(jì)的整體邊緣效果。在數(shù)據(jù)集ApolloScape 的測(cè)試中,對(duì)比驗(yàn)證了本文方法的實(shí)時(shí)性和準(zhǔn)確性,并通過(guò)消融實(shí)驗(yàn)證明了本文方法各模塊的有效性。

1 模型架構(gòu)

本文針對(duì)場(chǎng)景目標(biāo)深度估計(jì)情景下,基于稠密卷積的雙目視差估計(jì)算法所采取全局特征無(wú)差別提取的學(xué)習(xí)策略,既耗費(fèi)額外計(jì)算資源,又降低網(wǎng)絡(luò)提取特征的效率的問(wèn)題,提出了基于SC 的立體匹配網(wǎng)絡(luò)(SPSMNet)。模型整體架構(gòu)如圖1所示,本文網(wǎng)絡(luò)利用編碼-解碼形式的語(yǔ)義分割模塊將圖像分割成形狀不規(guī)則的前景元素和背景元素,把前景元素作為掩膜稀疏化圖像并將其輸入到空間特征提取模塊;利用語(yǔ)義分割編碼模塊生成空間注意力機(jī)制優(yōu)化空間特征的提取,同時(shí)將語(yǔ)義信息嵌入到空間特征中構(gòu)建視差代價(jià)聚合卷;使用帶有視差通道的三維稀疏卷積模塊解碼視差代價(jià)聚合卷,最終回歸出視差估計(jì)圖。

圖1 SPSMNet模型架構(gòu)Fig.1 SPSMNet model architecture

1.1 語(yǔ)義分割模塊

在立體匹配網(wǎng)絡(luò)SPSMNet 中,語(yǔ)義分割模塊需要為網(wǎng)絡(luò)提供前景分割功能和提取語(yǔ)義信息,以供后續(xù)空間特征提取模塊和語(yǔ)義注意力模塊的使用,符合條件的語(yǔ)義分割模塊的結(jié)構(gòu)將會(huì)是編碼-解碼形式;同時(shí),語(yǔ)義分割模塊作為前置模塊,必須兼有精度高和處理快的特點(diǎn)。LEDNet作為輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)且具備編碼-解碼形式的結(jié)構(gòu),在數(shù)據(jù)集ApolloScape 的平均精確度(Average Precision,AP)達(dá)到0.91,因此很適合作為語(yǔ)義分割模塊。

前景分割功能是稀疏化輸入的雙目圖像的過(guò)程。利用網(wǎng)絡(luò)LEDNet語(yǔ)義分割出的前景掩膜,可以獲得輸入圖像的前景區(qū)域。對(duì)輸入圖像的前景區(qū)域設(shè)置活動(dòng)站點(diǎn)標(biāo)識(shí),使得后續(xù)的空間特征提取模塊能夠識(shí)別需要處理的區(qū)域,從而只對(duì)輸入圖像的前景部分進(jìn)行卷積操作,實(shí)現(xiàn)了輸入圖像稀疏化的功能。語(yǔ)義信息的獲取得益于LEDNet 的構(gòu)成形式。LEDNet采用多次下采樣構(gòu)造語(yǔ)義編碼模塊,使得豐富的語(yǔ)義信息緊湊地匯集在編碼模塊的最后一層特征圖。由此,后續(xù)的語(yǔ)義注意力模塊能夠簡(jiǎn)單方便地獲取和使用語(yǔ)義信息。

1.2 空間特征提取模塊

基于稠密卷積的立體匹配算法,需要通過(guò)學(xué)習(xí)全局特征以區(qū)別多種類多目標(biāo)邊界處的邊緣細(xì)節(jié)、估算各物體內(nèi)部視差。不同于一般的稠密卷積,SC 可以有選擇性地學(xué)習(xí)前景空間特征,網(wǎng)絡(luò)的計(jì)算資源被更多地分配在優(yōu)化目標(biāo)視差的任務(wù)上,這使得采用稀疏卷積CNN 架構(gòu)的立體匹配算法具有良好的準(zhǔn)確性和實(shí)時(shí)性。利用稀疏卷積能夠高效提取稀疏特征的特點(diǎn),使用SC和SSC構(gòu)建4層下采樣的空間特征提取模塊,模塊架構(gòu)如圖2所示。

圖2 空間特征提取模塊Fig.2 Spatial feature extraction module

采用步長(zhǎng)為2 的SC 和最大池化函數(shù)實(shí)現(xiàn)逐層下采樣,以保留顯著的空間特征、降低特征維度和增大卷積核的感受野;直連或殘差連接的SSC 保證了前景特征的稀疏性,同時(shí)加強(qiáng)了網(wǎng)絡(luò)訓(xùn)練的魯棒性;模塊尾端采用離散度為2 的SSC 拓寬卷積核的感受野。卷積層的輸入均采用批歸一化處理,并使用ReLU 非線性函數(shù)激活網(wǎng)絡(luò)節(jié)點(diǎn),左右圖像特征提取的卷積層共享權(quán)重。

1.3 語(yǔ)義注意力模塊

SC 能夠很好地通過(guò)稀疏前景估算出前景內(nèi)部視差,但由于稀疏化的數(shù)據(jù)損失部分邊緣信息,生成的前景視差圖邊緣不清晰。為了補(bǔ)償丟失的邊緣信息,利用LEDNet解碼模塊最后一層的特征圖構(gòu)建語(yǔ)義注意力模塊,模塊架構(gòu)如圖3所示。

圖3 語(yǔ)義注意力模塊Fig.3 Semantic attention module

取LEDNet 編碼模塊的最后一層特征圖(segment feature map)記為S∈RC×H×W,特征圖S經(jīng)過(guò)核心數(shù)為1 的稠密卷積后生成{Q,K}∈R1×H×W。把{Q,K}統(tǒng)一整形成R1×N的結(jié)構(gòu)(其中N=H×W),將矩陣Q轉(zhuǎn)置后與K做矩陣乘積,并應(yīng)用softmax 函數(shù)生成注意力圖A∈RN×N。其中aij是注意力圖A的元素,i,j為元素坐標(biāo),則由{Q,K}生成注意力圖A的計(jì)算方法如下所示:

取空間特征提取模塊的最后一層特征圖(disparity feature map)記為D∈RC×H×W,特征圖D經(jīng)過(guò)卷積核1× 1 的卷積后整形成RC×N結(jié)構(gòu)(其中N=H×W)。將經(jīng)過(guò)卷積并整形后的特征圖D與注意力圖A做矩陣乘積,結(jié)果加上語(yǔ)義特征圖S,之后整形生成聚合特征F∈RC×H×W。其中:fijk是聚合特征F的元素,i、j、k為元素坐標(biāo),a、d、s分別是注意力圖A、經(jīng)過(guò)1× 1 卷積的空間特征圖D、語(yǔ)義特征圖S的元素,β為自適應(yīng)參數(shù)。則聚合特征F的計(jì)算方法如下所示:

1.4 稀疏視差代價(jià)聚合卷

對(duì)于一組雙目圖像輸入,在經(jīng)過(guò)語(yǔ)義注意力模塊之后,將會(huì)得到同時(shí)聚合了空間特征和語(yǔ)義特征的左、右兩個(gè)位置的聚合特征。為了維持特征的稀疏性,由語(yǔ)義注意力模塊得到的聚合特征是稀疏的;聚合特征所具有的活動(dòng)站點(diǎn)標(biāo)識(shí),其標(biāo)識(shí)的狀態(tài)與空間特征提取模塊最后一層的特征圖相一致。視差代價(jià)聚合卷是對(duì)左、右聚合特征的結(jié)合構(gòu)造,其組織也應(yīng)該是稀疏的。稀疏視差代價(jià)聚合卷的構(gòu)造方式與PSMNet[3]類似,都是結(jié)合左右圖中每個(gè)視差值對(duì)應(yīng)的特征圖,但只對(duì)具有活動(dòng)站點(diǎn)標(biāo)識(shí)的特征做出響應(yīng),并輸出維持著原有稀疏性的4維代價(jià)聚合卷(特征×視差×高×寬)。

在最大可預(yù)測(cè)視差值設(shè)定為D的情況下,由于聚合特征的寬高尺寸是目標(biāo)視差圖的1/8,前景視差估計(jì)將會(huì)產(chǎn)生D/8個(gè)視差值選項(xiàng),即4維代價(jià)聚合卷的視差通道數(shù)目。4維代價(jià)聚合卷的第d個(gè)視差通道即視差值為d時(shí),左、右聚合特征的結(jié)合方式為:左聚合特征保持不變,右聚合特征在寬通道上整體右移d個(gè)單位,之后在特征通道上對(duì)左右特征進(jìn)行拼接形成視差特征,最后將視差特征在寬通道上由于右移產(chǎn)生的無(wú)效左區(qū)間的數(shù)值置0;同時(shí),移位操作會(huì)同步移動(dòng)活動(dòng)站點(diǎn),置0 操作會(huì)取消活動(dòng)站點(diǎn),拼接操作也會(huì)拼接活動(dòng)站點(diǎn),這使得稀疏特征能夠被正確表示。最后將D/8 個(gè)視差特征在視差通道上進(jìn)行堆疊,形成帶有視差通道的稀疏4維代價(jià)聚合卷。

聚合卷內(nèi)不同視差通道的左、右聚合特征,在拼接成視差特征之前,其活動(dòng)站點(diǎn)需要進(jìn)行平移和移除操作。根據(jù)雙目圖像左右位置的不同,從屬于代價(jià)聚合卷內(nèi)不同視差通道的活動(dòng)站點(diǎn)a'left,a'right的激活情況如下所示,其中c、h、w是不同視差通道特征圖的特征、高、寬通道,d為通道視差值,ε為單位階躍函數(shù),a是視差聚合前活動(dòng)站點(diǎn)的激活情況:

在稀疏代價(jià)聚合卷的視差通道內(nèi),經(jīng)過(guò)平移置零操作后的左、右聚合特征拼接成視差特征的活動(dòng)站點(diǎn)激活方式如圖4 所示,對(duì)于視差通道的視差特征,圖(a)左聚合特征和圖(b)右聚合特征的活動(dòng)站點(diǎn)標(biāo)識(shí)fleft、fright會(huì)合并到圖(c)代價(jià)聚合層的視差特征中,從而保持了原有特征的稀疏性。

圖4 視差通道激活方式Fig.4 Disparity channel activation mode

1.5 視差回歸模塊

為了適配稀疏的視差代價(jià)聚合卷,利用SC 和SSC 構(gòu)建三維卷積模塊對(duì)稀疏特征代價(jià)卷進(jìn)行解碼。模塊架構(gòu)如圖5 所示,模塊采用殘差連接的方式,SC 與SSC 交替聯(lián)結(jié)。卷積層的輸入均采用批歸一化處理,每個(gè)卷積層后面使用ReLU 非線性函數(shù)激活網(wǎng)絡(luò)節(jié)點(diǎn)。

在模塊末端的稀疏卷積層,通過(guò)連接SC+dense 層將稀疏的解碼圖轉(zhuǎn)化為稠密的解碼圖C∈RD×32×64,使用雙線性插值對(duì)解碼圖進(jìn)行8 倍上采樣得到C'∈RD×256×512,最后利用以下計(jì)算方法回歸出最終的視差估計(jì)圖,其中d為視差值:

1.6 損失函數(shù)

實(shí)現(xiàn)前景視差估計(jì)任務(wù)的監(jiān)督學(xué)習(xí),具體做法是通過(guò)分割算法有選擇性地選取視差真值圖的前景區(qū)域,只對(duì)視差估計(jì)圖的前景區(qū)域使用平滑L1[12]損失作為網(wǎng)絡(luò)的損失函數(shù)。對(duì)于視差估計(jì)圖與視差真值圖D,圖上對(duì)應(yīng)的每個(gè)視差值與di,其整體損失函數(shù)可以表示為:

2 實(shí)驗(yàn)與結(jié)果

2.1 實(shí)驗(yàn)數(shù)據(jù)集

ApolloScape[13]數(shù)據(jù)集采集自真實(shí)路況場(chǎng)景,其中包括適用于不同訓(xùn)練任務(wù)的多個(gè)子數(shù)據(jù)集,以滿足自動(dòng)駕駛多種應(yīng)用需求。立體匹配數(shù)據(jù)集Stereo 同時(shí)包含視差真值圖,前景標(biāo)簽圖和雙目圖像對(duì)的訓(xùn)練樣本共有4 158 個(gè),以6∶2∶1 的比率將樣本劃分出訓(xùn)練集、驗(yàn)證集以及測(cè)試集,并對(duì)樣本進(jìn)行清洗和預(yù)處理,操作過(guò)程遵循以下規(guī)則:

1)去除錯(cuò)誤標(biāo)注;

2)對(duì)于視差真值圖,車體小范圍遮擋區(qū)域利用鄰近的視差值替代,連續(xù)遮擋超過(guò)1/3車體的區(qū)域則直接刪除;

3)前景標(biāo)簽圖對(duì)應(yīng)視差真值圖的刪除區(qū)域也一并刪除。

為了適應(yīng)網(wǎng)絡(luò)輸出尺寸,采用雙線性插值的方法縮放視差真值圖,并按照相同比例對(duì)視差值進(jìn)行放縮,利用隨機(jī)裁剪的方式獲取作為訓(xùn)練標(biāo)簽的視差真值圖。

2.2 實(shí)驗(yàn)設(shè)置

2.2.1 訓(xùn)練設(shè)置

基于PyTorch[14]深度學(xué)習(xí)框架,網(wǎng)絡(luò)的搭載訓(xùn)練和測(cè)試過(guò)程都在NVIDIA RTX2080 GPU 上運(yùn)行(可以進(jìn)行3 個(gè)批處理的訓(xùn)練)。首先按照默認(rèn)參數(shù)設(shè)置,利用前景標(biāo)簽圖監(jiān)督學(xué)習(xí)得到訓(xùn)練好的LEDNet,將其嵌入到網(wǎng)絡(luò)中。將立體匹配的最大視差設(shè)置為192,梯度更新采用Adam 優(yōu)化器(動(dòng)量參數(shù)β1=0.9,β2=0.999),以初始學(xué)習(xí)率0.001開(kāi)始訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練過(guò)程每進(jìn)行50 輪迭代,學(xué)習(xí)率下調(diào)到原來(lái)的1/2,直至網(wǎng)絡(luò)損失穩(wěn)定在某一數(shù)值為止。

2.2.2 測(cè)試設(shè)置

為了對(duì)比本文方法和其他同樣在ApolloScape 數(shù)據(jù)集上進(jìn)行訓(xùn)練的相關(guān)工作,本文采用了常用的衡量指標(biāo)評(píng)估結(jié)果。其中表示視差估計(jì)圖的預(yù)測(cè)值,di表示視差真值圖的實(shí)際值,則指標(biāo)表達(dá)式如下所示:

1)平均絕對(duì)誤差(Mean Absolute Error,MAE):

2)絕對(duì)相對(duì)誤差(Absolute Relative Error,ARE):

3)N點(diǎn)像素誤差(NPixel Error,NPE):

2.3 實(shí)驗(yàn)結(jié)果

從ApolloScape 測(cè)試集中選取了5 個(gè)圖像對(duì),將本文方法與PSMNet[3]和GANet(Guided Aggregation Network)[15]算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6 和圖7 所示,其中前景標(biāo)簽標(biāo)識(shí)著輸入圖像的前景區(qū)域,視差真值的有效范圍與前景區(qū)域相對(duì)應(yīng)。從圖6、7 可以看出,本文方法能夠準(zhǔn)確預(yù)測(cè)前景的內(nèi)部視差和邊緣細(xì)節(jié),尤其是中遠(yuǎn)距離物體的視差誤差(誤差圖前景色越暗淡誤差越?。┟黠@小于其他兩種算法;物體內(nèi)部視差相對(duì)統(tǒng)一,輪廓清晰且過(guò)渡穩(wěn)定,可以較好恢復(fù)重合物體的邊緣。

圖6 ApolloScape測(cè)試集的5組樣本Fig.6 Five group of samples in ApolloScape dataset

圖7 PSMNet、GANet和本文算法對(duì)圖6的視差估計(jì)結(jié)果Fig.7 Results of disparity estimation of PSMNet,GANet and proposed algorithms to Fig.6

在視差圖生成尺度統(tǒng)一為256×512 的情況下,對(duì)測(cè)試集的實(shí)驗(yàn)結(jié)果進(jìn)行了定量可視化,并把各種方法的誤差指標(biāo)進(jìn)行了對(duì)比,定量結(jié)果如表1 所示。表1 中,本文方法的平均絕對(duì)誤差為1.47 像素,視差誤差率在誤差大于2、3、5 像素時(shí)分別為22.05%、11.16%、3.94%,同時(shí)運(yùn)行幀率為每秒16.53幀,表現(xiàn)效果優(yōu)于對(duì)比的其他算法,具有較高的準(zhǔn)確度和實(shí)時(shí)性。

表1 ApolloScape測(cè)試集上的定量結(jié)果Tab.1 Quantitative results on ApolloScape dataset

2.4 消融實(shí)驗(yàn)

為了更好地分析各個(gè)優(yōu)化策略的性能,依據(jù)采取策略的不同,設(shè)置三組模型prototype1、prototype2和prototype3進(jìn)行消融實(shí)驗(yàn)。對(duì)比本文模型prototype3,模型prototype1 的CNN 架構(gòu)為一般的稠密卷積,模型prototype2則是采用稀疏卷積但不使用語(yǔ)義注意力策略。在視差圖生成尺度統(tǒng)一為256×512 的情況下,選取了ApolloScape測(cè)試集中的2個(gè)圖像對(duì),各個(gè)模型的樣本實(shí)驗(yàn)結(jié)果如圖8 和圖9 所示。從圖8、9 可以看出,采取稀疏卷積策略可以更好地預(yù)測(cè)中遠(yuǎn)距離前景的內(nèi)部視差,語(yǔ)義注意力策略很好地彌補(bǔ)了前者策略在近景視差估計(jì)上的不足,邊緣細(xì)節(jié)也更加清晰。這得益于稀疏卷積策略能夠高效提取前景特征,同時(shí)語(yǔ)義注意力策略可以補(bǔ)充稀疏特征缺乏的高層語(yǔ)義信息,能指導(dǎo)生成更加精準(zhǔn)的視差圖。

圖8 ApolloScape測(cè)試集的2組樣本Fig.8 Two group of samples of ApolloScape test dataset

圖9 三個(gè)模型對(duì)圖8的視差估計(jì)結(jié)果Fig.9 Results of disparity estimation of three models to Fig.8

從表2 可以更加直觀地看出,本文方法prototype3 的視差誤差率在誤差大于2、3、5 像素時(shí)分別為22.05%、11.16%、3.94%,在三組模型中具有最佳性能;只采取稀疏卷積策略的模型prototype2,表現(xiàn)效果優(yōu)于單獨(dú)采用一般CNN架構(gòu)的模型prototype1。

表2 消融實(shí)驗(yàn)Tab.2 Ablation experiment

圖10展示了200個(gè)訓(xùn)練批次下三組模型的驗(yàn)證集損失曲線,從曲線走勢(shì)可以看出,采取了稀疏卷積策略的網(wǎng)絡(luò)比模型prototype1 收斂得更快、更平穩(wěn);額外采用了語(yǔ)義注意力策略的模型prototype3,其網(wǎng)絡(luò)收斂速度略快于prototype2。綜上所述,本文方法所采用的稀疏卷積策略和語(yǔ)義注意力策略,都對(duì)視差估計(jì)結(jié)果的優(yōu)化具有一定的有效性。

圖10 三組模型的驗(yàn)證集損失曲線Fig.10 Validation dagaset loss curves for three models

3 結(jié)語(yǔ)

本文針對(duì)前景視差估計(jì)的特定任務(wù)下,使用稠密卷積架構(gòu)將造成立體匹配算法資源占用過(guò)高、實(shí)時(shí)性能不足等問(wèn)題,提出了一種基于稀疏卷積架構(gòu)的實(shí)時(shí)立體匹配框架。框架采用了稀疏卷積和語(yǔ)義注意力策略,可以提取豐富的空間、語(yǔ)義聯(lián)合特征,從而穩(wěn)定地獲得表面平滑,邊緣清晰的最終視差圖;采用了先提取前景后預(yù)測(cè)視差的方式,區(qū)別于直接獲取整個(gè)場(chǎng)景的視差圖,可以實(shí)現(xiàn)對(duì)前景區(qū)域更快更精準(zhǔn)的視差估計(jì)。實(shí)驗(yàn)結(jié)果表明,本文方法具有實(shí)時(shí)性和準(zhǔn)確性的優(yōu)勢(shì),對(duì)前景遮擋表現(xiàn)出抗噪性和魯棒性,視差估計(jì)的效果明顯優(yōu)于現(xiàn)有的先進(jìn)方法。

稀疏卷積架構(gòu)允許擴(kuò)大輸入圖像的尺寸,通過(guò)更詳細(xì)的輸入信息獲得精度更高的視差圖,但是稀疏卷積提取的空間特征缺乏語(yǔ)義信息,這會(huì)導(dǎo)致高視差值區(qū)域的預(yù)測(cè)效果不如一般卷積。稀疏卷積架構(gòu)依賴于分割算法,分割精度會(huì)影響到前景空間特征的提取,這意味著網(wǎng)絡(luò)不是端到端的結(jié)構(gòu)。如何進(jìn)一步豐富稀疏架構(gòu)的語(yǔ)義特征,以及實(shí)現(xiàn)網(wǎng)絡(luò)的端到端結(jié)構(gòu),這些需要在今后的工作中逐步改善和加強(qiáng)。

猜你喜歡
卷積語(yǔ)義前景
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
流蘇樹(shù)與美國(guó)流蘇樹(shù)園林綠化前景探討
天基物聯(lián)網(wǎng)關(guān)鍵技術(shù)及應(yīng)用前景
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
粉煤灰綜合利用進(jìn)展及前景展望
“新零售咖啡”前景幾何?
漢語(yǔ)依憑介詞的語(yǔ)義范疇