国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征調(diào)節(jié)器和雙路徑引導(dǎo)的RGB-D室內(nèi)語義分割

2024-06-01 08:37張帥雷景生靳伍銀俞云祥楊勝英

張帥 雷景生 靳伍銀 俞云祥 楊勝英

摘 要:針對室內(nèi)場景圖像語義分割結(jié)果不精確、顯著圖粗糙的問題,提出一種基于多模態(tài)特征優(yōu)化提取和雙路徑引導(dǎo)解碼的網(wǎng)絡(luò)架構(gòu)(feature regulator and dual-path guidance,F(xiàn)G-Net)。具體來說,設(shè)計(jì)的特征調(diào)節(jié)器對每個(gè)階段的多模態(tài)特征依次進(jìn)行噪聲過濾、重加權(quán)表示、差異性互補(bǔ)和交互融合,通過強(qiáng)化RGB和深度特征聚合,優(yōu)化特征提取過程中的多模態(tài)特征表示。然后,在解碼階段引入特征交互融合后豐富的跨模態(tài)線索,進(jìn)一步發(fā)揮多模態(tài)特征的優(yōu)勢。結(jié)合雙路徑協(xié)同引導(dǎo)結(jié)構(gòu),在解碼階段融合多尺度、多層次的特征信息,從而輸出更細(xì)致的顯著圖。實(shí)驗(yàn)在公開數(shù)據(jù)集NYUD-v2和SUN RGB-D上進(jìn)行,在主要評價(jià)指標(biāo)mIoU上達(dá)到48.5 %,優(yōu)于其他先進(jìn)算法。結(jié)果表明,該算法實(shí)現(xiàn)了更精細(xì)的室內(nèi)場景圖像語義分割,表現(xiàn)出了較好的泛化性和魯棒性。

關(guān)鍵詞:室內(nèi)語義分割;特征調(diào)節(jié)器;雙路徑協(xié)同引導(dǎo);RGB-D特征

中圖分類號:TP391.41?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1001-3695(2024)05-044-1594-07

doi: 10.19734/j.issn.1001-3695.2023.07.0355

RGB-D indoor semantic segmentation based on feature regulator and dual-path guidance

Abstract:Aiming at the problems of inaccurate semantic segmentation results and rough saliency maps of indoor scene images, this paper proposed a network architecture (feature regulator and dual-path guidance, FG-Net) based on multi-modal feature optimization extraction and dual-path guided decoding. Specifically, the feature regulator sequentially performed noise filtering, re-weighted representation, differential complementation and interactive fusion on the multi-modal features at each stage, and optimized multi-modal feature representation in the feature extraction process by strengthening RGB and depth feature aggregation. Then, the dual-path guidance component introduced rich cross-modal cues after feature interactive fusion in the decoding stage to further take advantage of multi-modal features. The dual-path cooperative guidance structure outputted a more detailed saliency map by integrating multi-scale and multi-level feature information in the decoding stage. This paper conducted experiments on the public datasets NYUD-v2 and SUN RGB-D, and achieved 48.5% in the main evaluation metric mIoU, which is better than other state-of-the-art algorithms. The results show that the algorithm achieves more refined semantic segmentation of indoor scene images, and has good generalization and robustness.? Key words:indoor semantic segmentation; feature regulator; dual-path cooperative guidance; RGB-D features

0 引言

近年來,語義分割作為一種有效的室內(nèi)場景分析和處理的技術(shù)手段,被廣泛應(yīng)用于移動機(jī)器人、監(jiān)控和智能家居等領(lǐng)域,為這些應(yīng)用提供了有用的語義信息。然而,室內(nèi)場景存在光線環(huán)境暗淡、物品雜亂等現(xiàn)象,這些因素影響了基于RGB圖像進(jìn)行室內(nèi)場景語義分割的準(zhǔn)確性,導(dǎo)致語義分割結(jié)果不理想。深度攝像機(jī)的使用提供了獲取深度信息作為互補(bǔ)幾何線索的條件,深度信息能夠有效補(bǔ)充RGB圖像的信息,提高模型對場景的理解和分析能力。然而,如何增強(qiáng)兩種不同模態(tài)的特征表示,并有效利用互補(bǔ)信息實(shí)現(xiàn)跨模態(tài)信息融合是具有挑戰(zhàn)性的任務(wù)。因此,許多學(xué)者致力于研究有效的策略來應(yīng)對這些挑戰(zhàn),以釋放多模態(tài)信息的全部潛力。在解決多模態(tài)信息差異性問題的過程中,學(xué)者進(jìn)行了多種嘗試。一些學(xué)者為RGB-D 數(shù)據(jù)設(shè)計(jì)了特定的體系結(jié)構(gòu),在多模態(tài)信息交互時(shí),通過制定不同的策略融合兩種數(shù)據(jù),以獲得更有效的跨模態(tài)線索。還有一些學(xué)者利用數(shù)據(jù)增強(qiáng)的方式,在特征提取階段設(shè)計(jì)了專門的卷積層來增強(qiáng)RGB和深度信息。例如,Chen 等人[1]設(shè)計(jì)了一種門融合方法,在雙流特征融合時(shí)通過多模態(tài)特征的重要性獲得特征權(quán)值,利用特征權(quán)值對特征進(jìn)行篩選和增強(qiáng)。Fernando等人[2]通過多任務(wù)聯(lián)合優(yōu)化引導(dǎo)語義分割,并提出了隨機(jī)多目標(biāo)梯度校正方法來增強(qiáng)多目標(biāo)學(xué)習(xí)過程。Sun 等人[3]提出了一種有效的多任務(wù)剪枝和稀疏性訓(xùn)練方案,通過對多個(gè)任務(wù)進(jìn)行重要性度量來實(shí)現(xiàn)一致決策。Popovic'等人[4]在處理多模態(tài)特征時(shí),通過選擇空間條件解決了空間多條件標(biāo)簽的異質(zhì)性和稀疏性問題。Wu 等人[5]設(shè)計(jì)了一個(gè)深度適應(yīng)偏移模塊,利用深度線索指導(dǎo) RGB 圖像上的特征提取,并將深度信息進(jìn)一步整合到RGB卷積神經(jīng)網(wǎng)絡(luò)中。Dong 等人[6]提出了一種輕量級的帶有點(diǎn)監(jiān)督的邊界細(xì)化模塊,以提高現(xiàn)有分割模型生成的顯著圖的邊界質(zhì)量,并實(shí)現(xiàn)更好的邊界特征提取。Cao 等人[7]引入了形狀感知卷積層處理深度特征,通過對深度特征分解和重加權(quán)組合增強(qiáng)特征表示。在以往基于RGB-D信息的室內(nèi)場景語義分割研究中,由于深度圖像采集設(shè)備自身的缺陷,生成的圖像在物體邊界含有大量的噪聲,成像物體的顯著性也會隨著距離的變遠(yuǎn)迅速降低。針對這個(gè)問題,Wu 等人[8]嘗試僅獲取少量的高顯著深度線索,將深度信息作為輔助手段融入到RGB信息中。Seichter 等人[9]直接在編碼器階段將深度信息加到RGB信息中,將模型重心轉(zhuǎn)移到解碼器階段。Li 等人[10]通過小容量適配器將多任務(wù)與網(wǎng)絡(luò)對齊,從而將多任務(wù)網(wǎng)絡(luò)的知識提取到單一網(wǎng)絡(luò)。文獻(xiàn)[9,11,12]中,研究人員制定深度信息和RGB信息融合的策略時(shí),往往只是將兩種信息進(jìn)行相加或相乘合并,亦或只在解碼階段將模型注意力傾向于跨模態(tài)信息,直接輸出顯著圖結(jié)果。上述算法在物體布局規(guī)整和空間結(jié)構(gòu)簡單的場景下具有非常不錯(cuò)的表現(xiàn),但在室內(nèi)場景物體體型小、互相遮擋,以及空間布局復(fù)雜時(shí),語義分割算法精度會變低,顯著圖粗糙。簡單的整合多模態(tài)特征的互補(bǔ)性不能進(jìn)一步提高室內(nèi)語義分割的準(zhǔn)確性。深入挖掘和利用深度線索,將兩種不同的統(tǒng)計(jì)數(shù)據(jù)整合到模型架構(gòu)中,成為提高算法性能的關(guān)鍵。基于以上問題,本文提出的FG-Net采用了兩個(gè)獨(dú)立的ResNet50[13]骨干網(wǎng)絡(luò)分支分別進(jìn)行深度特征和RGB特征提取,并在編碼器階段設(shè)計(jì)了一個(gè)特征調(diào)節(jié)器來優(yōu)化特征提取過程,同時(shí)對多模態(tài)信息進(jìn)行特征增強(qiáng)。該部件具有特征強(qiáng)化聚合、特征差異性互補(bǔ)和特征交互融合三個(gè)功能,能夠充分挖掘多模態(tài)線索并將它們緊密結(jié)合在一起,使得模型可以更加全面地學(xué)習(xí)多模態(tài)信息,提高對場景的語義分割能力。同時(shí),本文設(shè)計(jì)了一個(gè)雙路徑協(xié)同引導(dǎo)結(jié)構(gòu),通過融合不同層次、不同尺度的特征強(qiáng)化解碼過程,并利用不同階段特征的特性進(jìn)行雙向引導(dǎo),進(jìn)一步細(xì)化顯著圖結(jié)果。實(shí)驗(yàn)數(shù)據(jù)表明,使用特征調(diào)節(jié)器和雙路徑引導(dǎo)結(jié)構(gòu)可以顯著增強(qiáng)模型的魯棒性,尤其是在處理室內(nèi)復(fù)雜場景時(shí),模型的細(xì)節(jié)分割能力和語義識別能力較目前算法有顯著提高。

1 本文模型與方法

1.1 模型架構(gòu)

首先介紹了FG-Net的網(wǎng)絡(luò)框架,然后描述了本文設(shè)計(jì)的特征調(diào)節(jié)器各個(gè)組件,以及雙路徑引導(dǎo)結(jié)構(gòu)創(chuàng)新角度和解決的問題。最后,闡述了各個(gè)模塊的工作流程和具體內(nèi)容。如圖1所示,本文采用編碼器-解碼器結(jié)構(gòu),使用兩個(gè)獨(dú)立的分支從RGB圖像和深度圖像中提取特征。這種設(shè)計(jì)既便于在特征提取階段根據(jù)不同的模態(tài)特性設(shè)計(jì)針對性的特征處理方式,也可以使得每個(gè)模態(tài)的編碼器專注于各自特征的提取。由于RGB圖像與深度圖像的特征存在顯著差異,為了充分發(fā)揮多模態(tài)特征的特性,本文設(shè)計(jì)了特征調(diào)節(jié)器優(yōu)化特征提取過程。首先,考慮到深度相機(jī)成像時(shí)在物體邊界附近區(qū)域以及遠(yuǎn)距離物體的表面區(qū)域會出現(xiàn)很多噪聲,特征強(qiáng)化聚合模塊通過全局平均池化和卷積操作獲得跨模態(tài)信息的全局表達(dá)和權(quán)重表示,并依據(jù)其中顯著部分信息對噪聲進(jìn)行過濾,將過濾后的特征映射與交叉信息進(jìn)行信道相乘,實(shí)現(xiàn)多模態(tài)特征的重加權(quán)表示,從而降低噪聲干擾,增強(qiáng)特征表達(dá)。之后,為了充分發(fā)揮RGB特征和深度特征各自的優(yōu)勢,特征差異性互補(bǔ)模塊利用池化和卷積操作對多模態(tài)信息進(jìn)行特征質(zhì)量評估,并選取顯著部分補(bǔ)充到特征融合階段,通過特征重建增強(qiáng)多模態(tài)特征優(yōu)勢。最后,不同于以往直接將兩種模態(tài)信息相加或相乘的融合方法,特征交互融合模塊從通道角度對兩種模態(tài)特征進(jìn)行切割、重組和交互。通過混合和連接兩種類型的特征,并用歸一化的卷積層、ReLU函數(shù)優(yōu)化特征,以及調(diào)整通道數(shù)量,得到緊密聚合的特征表示,從而更深層次地結(jié)合多模態(tài)信息,并在特征傳遞時(shí)突出有用的線索。此外,考慮到編碼時(shí)各個(gè)階段的融合特征具有不同的層次體現(xiàn),雙路徑協(xié)同引導(dǎo)結(jié)構(gòu)通過跳躍連接的方式以及上采樣和卷積操作,結(jié)合不同層次、不同尺度的融合特征引導(dǎo)解碼過程,進(jìn)一步細(xì)化語義分割顯著圖的輸出。

RGB特征和深度特征經(jīng)過特征調(diào)節(jié)器處理后,得到優(yōu)化后不同尺度的融合特征FC0、FC1、FC2和FC3,這些融合特征依次傳遞到下一階段的分支進(jìn)行特征提取。在這個(gè)過程中,RGB-D特征經(jīng)過特征強(qiáng)化聚合模塊不斷優(yōu)化,而后通過互補(bǔ)和不斷重組的方式,突出其包含的有效線索。隨后,將每次的融合結(jié)果傳遞到解碼階段,結(jié)合本文提出的雙路徑協(xié)同引導(dǎo)結(jié)構(gòu),獲得語義引導(dǎo)層的輸出SG0、SG1和SG2。接著,將語義引導(dǎo)層的輸出傳遞到特征細(xì)化層,得到細(xì)化的輸出FR0、FR1和FR2,并最終輸出顯著圖。

1.2 特征調(diào)節(jié)模塊基于RGB-D跨模態(tài)信息的場景語義分割,主要的挑戰(zhàn)在于如何充分發(fā)揮多模態(tài)特征的優(yōu)勢,尤其是在物體之間存在大量遮擋的室內(nèi)環(huán)境中。這要求算法既要進(jìn)一步獲取有效的線索,又要高效利用獲取的多模態(tài)信息。本文設(shè)計(jì)的特征調(diào)節(jié)器通過對多模態(tài)特征進(jìn)行過濾、強(qiáng)化、重建增強(qiáng)和交互融合,可以獲得更豐富和有效的多模態(tài)信息。特征調(diào)節(jié)模塊由特征強(qiáng)化聚合、特征差異性互補(bǔ)和特征交互融合三個(gè)部分組成。

1.2.1 特征強(qiáng)化聚合

RGB數(shù)據(jù)和深度數(shù)據(jù)的特征存在顯著差異,如何有效處理兩種特征是首先要考慮的問題。此外,雖然深度圖像包含大量幾何線索,但由于深度傳感器的物理特性,深度相機(jī)在采集物體信息時(shí),性能會隨著距離的擴(kuò)大迅速地降低,導(dǎo)致物體邊界附近區(qū)域以及遠(yuǎn)距離物體的表面區(qū)域會出現(xiàn)很多噪聲。這些噪聲會干擾特征提取過程,降低語義分割的精度。針對這個(gè)問題,在本文中,特征提取網(wǎng)絡(luò)先通過特征強(qiáng)化聚合進(jìn)行局部區(qū)域的噪聲信號過濾和重加權(quán)強(qiáng)化表示,這樣可以有效減少特征傳播過程中誤導(dǎo)性信息的出現(xiàn),降低噪聲的干擾。而且,通過強(qiáng)化特征進(jìn)一步挖掘可利用線索,可以在特征融合時(shí)提供更多的對齊基準(zhǔn),進(jìn)而提高語義分割的準(zhǔn)確性。

模塊設(shè)計(jì)原理如圖2所示。本文利用RGB模態(tài)中的高自信激活部分輔助優(yōu)化深度特征的提取,過濾掉低級別的異常深度激活信號。具體來說,首先從通道角度對兩種特征進(jìn)行全局平均池化,獲取兩種模態(tài)的全局空間信息,并通過這些信息獲得跨模態(tài)優(yōu)化的注意力向量:

φ=GAP(RGBin‖Depthin)(1)

其中:‖ 表示兩種模態(tài)信息的特征映射的連接;GAP表示全局平均池化;φ 描述了跨模態(tài)信息全局的表達(dá),用于展示整個(gè)輸入的表達(dá)性統(tǒng)計(jì)信息。之后,將兩種模態(tài)的特征映射輸入到MLP操作中,通過將權(quán)重值變換為(0,1)的sigmoid函數(shù)對整個(gè)輸入的信息進(jìn)行表達(dá)性統(tǒng)計(jì):

Wdepth=δ(FMLP(φ))(2)

其中:FMLP(φ) 表示MLP網(wǎng)絡(luò);δ 是輸入信息經(jīng)sigmiod函數(shù)將權(quán)重值轉(zhuǎn)換為(0,1)值。這樣,神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中就可以通過光感特征和幾何特征中最具有表達(dá)性和顯著性的部分對深度流中異常的噪聲信息進(jìn)行過濾。然后,通過將過濾后的深度特征映射與輸入到MLP中的交叉信息進(jìn)行信道相乘,獲得過濾后的深度表示,即過濾后的深度信息為

這樣,就可以獲得高質(zhì)量的深度特征,這些更精確的深度特征在特征融合時(shí)會成為更精準(zhǔn)的對齊基準(zhǔn),從而增強(qiáng)對RGB特征的響應(yīng)。同樣地,利用過濾后的深度信息中的高自信激活部分,對RGB圖像中的異常噪聲進(jìn)行抑制。在實(shí)踐中,本文采用這種對稱和雙向的方式重新校準(zhǔn)不同模態(tài)信息,進(jìn)而實(shí)現(xiàn)特征的強(qiáng)化聚合。

1.2.2 特征差異性互補(bǔ)

不同模態(tài)的特征具有不同的特性,例如RGB圖像具有豐富的紋理、色彩等信息,深度圖像則包含大量的幾何線索。雙流網(wǎng)絡(luò)在特征提取時(shí)關(guān)注的注意力方向會因模態(tài)特性不同而不一致,而兩者又具有強(qiáng)相關(guān)性。為了充分發(fā)揮多模態(tài)信息的優(yōu)勢,利用彼此的相關(guān)性,本文先對存在差異性的兩種特征按通道分組,利用卷積操作進(jìn)行權(quán)重分級,求得特征顯著性,從而實(shí)現(xiàn)特征質(zhì)量評估。然后,選取顯著部分(經(jīng)過概率轉(zhuǎn)變后,大于0.5顯著因子)補(bǔ)充到特征融合階段,與融合后的交互信息實(shí)現(xiàn)特征重建增強(qiáng)。這種增強(qiáng)方式針對的是不同模態(tài)中最顯著的部分,既可以進(jìn)一步發(fā)揮各自的優(yōu)勢,還能夠進(jìn)一步豐富跨模態(tài)線索,從而輸出更加細(xì)化的顯著圖。消融實(shí)驗(yàn)的結(jié)果和對比實(shí)驗(yàn)中模型可視化圖部分驗(yàn)證了這種互補(bǔ)方法的有效性。具體的關(guān)于差異性信息互補(bǔ)性的衡量則是通過下文中特征質(zhì)量評估方法IDM實(shí)現(xiàn)的。

特征差異性互補(bǔ)模塊如圖3所示。首先將兩個(gè)編碼器輸出的RGB特征和深度特征輸入到IDM模塊進(jìn)行特征質(zhì)量評估。然后,對單模態(tài)特征的貢獻(xiàn)基于評估的結(jié)果進(jìn)行重加權(quán)表示,以促使神經(jīng)網(wǎng)絡(luò)在特征提取過程中將注意力偏向于特征圖顯著且具有各自代表性的區(qū)域。

然后,求得I(i) 的平均值β 作為F(i) 的顯著因子,通過softmax函數(shù)歸一化顯著因子B=(β1,…,βk)T,就可以得到給定特征的質(zhì)量評估結(jié)果。下一步,選取特征最顯著部分(大于0.5顯著因子)進(jìn)行特征增強(qiáng)得到 Fb,并通過卷積操作得到顯著特征的特定表示 Fp。

至此,可以獲得兩種模態(tài)信息中最顯著的部分,同時(shí),也是最具有代表性和差異性的部分。進(jìn)一步地,將獲取的顯著信息補(bǔ)充到特征交互融合階段,進(jìn)行重建增強(qiáng),以實(shí)現(xiàn)對多模態(tài)特征的充分探索和利用。

1.2.3 特征交互融合在特征融合階段,將兩種模態(tài)信息統(tǒng)一為一種高效的表示形式是非常有挑戰(zhàn)性的任務(wù)。不同于以往直接將兩種模態(tài)信息相加或相乘的融合方法,考慮到室內(nèi)環(huán)境的復(fù)雜性,需要進(jìn)一步突出多模態(tài)線索,以輸出更細(xì)致的顯著圖。本文設(shè)計(jì)了一種特征重組-交互的方式,在多模態(tài)特征傳遞時(shí),通過交叉組合,將不同模態(tài)的特征緊密結(jié)合在一起來突出有效線索。這種交互融合的方式從更深層次結(jié)合多模態(tài)特征,可以獲得更豐富、更準(zhǔn)確的校準(zhǔn)信息,使得模型能夠更加全面地學(xué)習(xí)多模態(tài)信息,從而提高其對場景語義分割的準(zhǔn)確度。

本文方法從通道角度對兩種模態(tài)特征進(jìn)行切割、重組和交互,更深層次地結(jié)合深度特征和RGB特征,不僅強(qiáng)調(diào)了不同模態(tài)中的一致重要信息,還充分探索了不同層次之間的跨模態(tài)有效線索。多模態(tài)特征交互融合模塊如圖4所示。首先將兩種模態(tài)特征fri 和ftj 按信道方向平均分成兩部分,得到fij,在形式上為

fri,tj=Cat(fri,ftj)? i=1,2; j=1,2

fri,rj=Cat(fri,ftj)? i=1; j=2

fti,tj=Cat(fri,ftj)? i=1; j=2(11)

其中:Chunk是沿通道軸分裂的操作;Cat是沿通道軸連接的操作。之后,將四個(gè)特征按信道方向成對拼接,得到多方位特征。同時(shí),通過計(jì)算不同模態(tài)中每一對特征的乘積,強(qiáng)調(diào)了一致的重要信息,具體的過程是:

然后,為了進(jìn)一步探索跨模態(tài)線索,混合這兩種類型的特征,將它們連接起來,用歸一化(BN)的卷積層和ReLU函數(shù)來優(yōu)化特征 Frti 并調(diào)整通道數(shù)量。這樣,就可以得到緊密聚合的特征 Fi 。

1.3 雙路徑協(xié)同引導(dǎo)結(jié)構(gòu)基于文獻(xiàn)[14],不同階段的特征是整個(gè)對象不同層次的體現(xiàn)。高層特征具有豐富的綜合性和邊緣性的語義信息,底層特征受限于感受野的因素,具有豐富的局部性細(xì)節(jié)信息。為了追求更豐富的跨模態(tài)線索,本文設(shè)計(jì)了一種多階段多尺度相互引導(dǎo)融合的機(jī)制,充分利用不同階段的語義信息特點(diǎn),優(yōu)化多層次多模態(tài)特征聚合的結(jié)果。具體實(shí)現(xiàn)的過程是將交互融合后的特征提供給雙向引導(dǎo)組件。雙向引導(dǎo)組件致力于發(fā)揮不同階段、不同尺度特征的特點(diǎn),利用高層具有的豐富的語義信息,先自頂向下引導(dǎo)和底層特征的融合,之后,利用融合后的具有豐富細(xì)節(jié)信息的底層特征細(xì)化高層特征輸出。通過兩個(gè)路徑聚合多尺度多層次特征,輸出精確的語義分割結(jié)果,實(shí)驗(yàn)結(jié)果證明了這種解碼機(jī)制更適合本文設(shè)計(jì)的框架結(jié)構(gòu)。

雙路徑協(xié)同引導(dǎo)結(jié)構(gòu)的工作流程如圖5所示。

在解碼階段,首先獲取融合特征的顯著部分,方法與特征差異性互補(bǔ)模塊中的方法一致,通過上采樣,將特征調(diào)節(jié)器的輸出與前一層獲取顯著特征相融合,由此獲得融合后的特征SGi (i=0,1,2)。然后,通過下采樣,將引導(dǎo)后的底層特征FRj (j=0,1,2)與下一階段的高層特征SGj+1相融合,輸出最終的語義分割顯著圖。

整個(gè)相互引導(dǎo)機(jī)制可以分為語義引導(dǎo)層(SG)和特征細(xì)化層(FR)兩個(gè)部分。在語義引導(dǎo)層,先提取融合特征 FCi 的顯著部分,并通過一個(gè)3×3卷積運(yùn)算對該部分進(jìn)行優(yōu)化,得到輸出 FCni。之后,經(jīng)過特征調(diào)節(jié)器輸出的高層特征 FCi+1 通過1×1卷積和平均池化操作后與前者進(jìn)行元素點(diǎn)乘,接著,F(xiàn)Ci+1 在經(jīng)過上采樣和3×3卷積運(yùn)算后與點(diǎn)乘結(jié)果累加,輸出引導(dǎo)后的特征 SGi,該步驟依次迭代至語義引導(dǎo)層結(jié)束。在特征細(xì)化層,底層特征 FRj-1 先經(jīng)過3×3卷積操作后與 SGi 進(jìn)行元素點(diǎn)乘,之后,點(diǎn)乘結(jié)果與 SGi 累加并通過1×1卷積輸出細(xì)化后的特征 FRj。其中,所有的卷積操作都是在ReLU激活下進(jìn)行的,整個(gè)流程可以描述為

2 實(shí)驗(yàn)針對基于RGB-D信息進(jìn)行室內(nèi)語義分割容易出現(xiàn)顯著圖粗糙、語義分割結(jié)果精度低的問題,本文提出了一個(gè)基于RGB-D信息的室內(nèi)場景語義分割模型,其在光照條件惡劣、空間結(jié)構(gòu)復(fù)雜以及物體堆疊等室內(nèi)場景下可以獲得更好的分割結(jié)果。本文在公開的室內(nèi)場景數(shù)據(jù)集NYUD-v2[15]上進(jìn)行了大量的對比和消融實(shí)驗(yàn),NYUD-v2數(shù)據(jù)集包含了各種室內(nèi)環(huán)境,可以驗(yàn)證算法的性能。此外,為了驗(yàn)證算法的魯棒性,本文在SUN RGB-D[16]數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),作為算法性能檢驗(yàn)的補(bǔ)充。SUN RGB-D數(shù)據(jù)集包含了NYUD-v2數(shù)據(jù)集的所有圖片,還額外具有8 886張室內(nèi)場景圖像,通過在此數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),驗(yàn)證了本文算法不僅在一個(gè)特定的數(shù)據(jù)集上表現(xiàn)良好,而且在不同數(shù)據(jù)集的場景下仍能保持較高的準(zhǔn)確性,這種一致的表現(xiàn)可以被認(rèn)為是算法魯棒性的一個(gè)指標(biāo)。通過與最近發(fā)表的最先進(jìn)算法進(jìn)行比較,本文算法在NYUD-v2和SUN RGB-D數(shù)據(jù)集上都取得了最佳結(jié)果,證明了算法的先進(jìn)性和模型的魯棒性。此外,本文還進(jìn)行了嚴(yán)謹(jǐn)細(xì)致的消融實(shí)驗(yàn),驗(yàn)證了每個(gè)方法和模塊的可行性。

2.1 實(shí)驗(yàn)細(xì)節(jié)

本文實(shí)驗(yàn)平臺使用 PyTorch,所有實(shí)驗(yàn)在一臺內(nèi)存為24 GB的 GeForce RTX 3090 上運(yùn)行。在參數(shù)設(shè)置方面,本文對設(shè)計(jì)的模型進(jìn)行了300個(gè)epoch的學(xué)習(xí),batch size為6,使用 SGD 作為優(yōu)化器,在模型訓(xùn)練的300個(gè) epoch 中,設(shè)置動量參數(shù)為0.9,初始學(xué)習(xí)率為 5E-3,并隨著訓(xùn)練輪數(shù)增加遞減學(xué)習(xí)率,利用當(dāng)前訓(xùn)練輪數(shù)與總訓(xùn)練輪數(shù)的比例控制學(xué)習(xí)率遞減速度,并以0.9的指數(shù)進(jìn)一步調(diào)整學(xué)習(xí)率的遞減速度。為了防止過擬合,設(shè)置權(quán)重衰減為0.000 5。在數(shù)據(jù)預(yù)處理方面,本文采用了類似于文獻(xiàn)[8,9,17~19]的數(shù)據(jù)增強(qiáng)方法,包括隨機(jī)水平翻轉(zhuǎn)、隨機(jī)縮放和隨機(jī)裁剪等技術(shù)。在每一輪的訓(xùn)練中,將數(shù)據(jù)集的輸入設(shè)定為480×640的分辨率,RGB特征和深度特征先經(jīng)過特征強(qiáng)化聚合模塊實(shí)現(xiàn)噪聲過濾和特征的重加權(quán)表示。之后,特征差異性互補(bǔ)模塊利用特征質(zhì)量評估,選取具有代表性的差異性信息補(bǔ)充到不同模態(tài),并將重建的特征采取重組交互的方式進(jìn)行特征融合。此外,獲取融合后特征的顯著部分信息補(bǔ)充到雙向引導(dǎo)組件,以進(jìn)一步發(fā)揮多模態(tài)特征的優(yōu)勢。在解碼階段,通過雙重引導(dǎo)解碼的方式融合不同層次、不同尺度的特征,輸出更細(xì)致的語義分割圖。

2.2 數(shù)據(jù)集和評估指標(biāo)實(shí)驗(yàn)細(xì)節(jié)本文在具有說服力和挑戰(zhàn)性的NYUD-v2數(shù)據(jù)集上對本文方法進(jìn)行評估和對比,并在SUN RBG-D數(shù)據(jù)集上進(jìn)一步驗(yàn)證了本文方法的泛化性和魯棒性。NYUD-v2數(shù)據(jù)集由各種室內(nèi)場景的視頻序列組成,總共包括1 449張室內(nèi)空間RGB-D圖像,在數(shù)據(jù)集制作時(shí),本文選擇其中 795 張圖像作為訓(xùn)練集,另外 654 張圖像作為測試集,采用通用的標(biāo)簽設(shè)置,所有的標(biāo)簽都映射到40個(gè)類。SUN RGB-D數(shù)據(jù)集包含了NYUD-v2數(shù)據(jù)集的所有圖片,具有10 335張室內(nèi)場景RGB-D圖像,本文采用包含5 285張圖片的官方訓(xùn)練集進(jìn)行訓(xùn)練,以及包含5 050張圖片的官方測試集對模型進(jìn)行評估。在評價(jià)指標(biāo)方面,本文采用了近期研究[9,11,17,18,20,21]中廣泛使用的三個(gè)指標(biāo),即類別平均精度 (mAcc)、平均交并比 (mIoU) 和像素準(zhǔn)確率 (pixel Acc.)。

2.3 對比實(shí)驗(yàn)本節(jié)評估了本文模型在 NYUD-v2 數(shù)據(jù)集上的性能,并通過可視化部分場景的語義分割結(jié)果,與目前先進(jìn)的算法進(jìn)行比較。表1 顯示了使用 ResNet-50 作為骨干與最先進(jìn)模型在 NYUD-v2 數(shù)據(jù)集上的性能比較,圖6分別展示了RGB、depth和GT圖像,以及RGB單模態(tài)、FuseNet、ACNet、ESANet、RedNet和本文模型的可視化結(jié)果。

圖6中的場景包括燈光昏暗的臥室、空間狹小的浴室、物體體型較小的廚房、擺放雜亂的玩具房、長焦鏡頭拍攝的書桌、廣角鏡頭拍攝的餐廳,以及包含動態(tài)人物的場景。這些場景覆蓋了曝光、物體遮擋、物體重疊、燈光昏暗、物體細(xì)小和布局緊密等復(fù)雜環(huán)境。本文模型在這些不同場景的室內(nèi)環(huán)境下都能夠產(chǎn)生更精細(xì)和準(zhǔn)確的分割結(jié)果。從以上展示的可視化結(jié)果可以直觀地看到,本文算法在細(xì)節(jié)分割方面優(yōu)于其他方法。在沒有深度信息的情況下,RGB單模態(tài)分割結(jié)果的性能較差,特別是對物體邊緣的分割效果很差,很難準(zhǔn)確識別物體語義。這是因?yàn)樵跊]有深度信息的情況下,很難從RGB圖像中提取出空間深度信息,因此很難進(jìn)行精確的物體分割。FuseNet通過結(jié)合深度信息,提升了物體邊緣的分割效果,但是由于其使用反卷積操作,導(dǎo)致生成的圖像會產(chǎn)生棋盤效應(yīng)和顆粒感,從而影響分割結(jié)果的精度和細(xì)節(jié)表現(xiàn)。ACNet和RedNet通過上采樣等措施緩解了這種效應(yīng),但從用戶的角度來看,仍然會產(chǎn)生較為模糊不清的分割圖像。與之相比,ESANet的模型采用了中間融合策略和跳躍連接等方式,可以更好地提取RGB和深度特征,并進(jìn)一步利用跨模態(tài)線索來優(yōu)化分割結(jié)果的幾何層面。然而,ESANet在準(zhǔn)確分割和噪聲去除方面仍有待進(jìn)一步優(yōu)化。本文模型能夠更加準(zhǔn)確地分割出堆疊的物體、識別在強(qiáng)曝光場景下的物體,并且在分割不同距離物體時(shí)表現(xiàn)更佳。特別是在物體邊緣處理方面,本文模型的細(xì)化分割效果也是最好的。這得益于對多模態(tài)特征的優(yōu)化提取和深層次整合,從而獲取了更多有效的跨模態(tài)線索,進(jìn)一步增強(qiáng)了幾何層面的語義分割結(jié)果。這種方法在環(huán)境復(fù)雜、光照條件惡劣的室內(nèi)場景中能夠?qū)崿F(xiàn)更好的場景語義分割。在NYUD-v2數(shù)據(jù)集上進(jìn)行的對比和消融實(shí)驗(yàn)都證明了本文模型具有良好的魯棒性和先進(jìn)性。本文模型與目前最先進(jìn)的語義分割方法在 NYUD-v2 數(shù)據(jù)集上,基于 mAcc、mIoU 和 pixel Acc. 三個(gè)主要評價(jià)指標(biāo)進(jìn)行了語義分割性能比較。如表1 所示(本文使用官方的開放源代碼復(fù)現(xiàn)了部分模型,所有的實(shí)驗(yàn)設(shè)置都與本文模型參數(shù)一樣),本文提出的特征調(diào)節(jié)器和雙路徑協(xié)同雙向引導(dǎo)解碼方式的訓(xùn)練結(jié)果能夠媲美目前先進(jìn)的算法,在 ResNet-50 的 backbone 上,mIoU結(jié)果可以達(dá)到 48.5% 。其中,本文模型比目前先進(jìn)的語義分割算法 REDNet[18] 在主要指標(biāo) mIoU 上提高了 4.5%,比 ACNet[17] 提高了 4.7%,比 ESANet[1]提高了 1.2%。這些算法有的專注于多模態(tài)特征融合策略,有的專注于特征提取過程,各自研究的方法都達(dá)到了很好的效果,但在場景語義分割的結(jié)果上還有所欠缺。本文的研究同時(shí)考慮了這兩個(gè)過程,在多模態(tài)特征融合過程中采用中期融合的策略優(yōu)化特征提取,將高質(zhì)量的多模態(tài)線索傳遞到神經(jīng)網(wǎng)絡(luò)深層,同時(shí)連接到解碼過程,再通過不同階段特征雙向引導(dǎo)的方式完成了更精準(zhǔn)的室內(nèi)場景分析。本文還與一些其他 backbone 的模型進(jìn)行比較,在分割性能方面依舊優(yōu)于基于 Transformer 的 AdaPoinTr 的 44.1%精準(zhǔn)度,對比多任務(wù)學(xué)習(xí)模型 TLAM 的結(jié)果提高了 10.2%。其中,F(xiàn)useNet、ACNet、REDNet 和 ESANet 模型的分割結(jié)果是在與本文模型相同的環(huán)境配置下進(jìn)行的模型復(fù)現(xiàn),這種比較方式更有說服力。

此外,如表2所示,本文算法還與更深層次的算法網(wǎng)絡(luò)進(jìn)行了比較,即使使用更少的神經(jīng)網(wǎng)絡(luò)層數(shù),依舊能夠提高場景解析的性能,在主要指標(biāo)mIoU上高于使用ResNet152結(jié)構(gòu)的 RDFNet和CFNet的47.7%,相較于RefineNet提高了2.6%。這表現(xiàn)出本文模型在網(wǎng)絡(luò)設(shè)計(jì)和參數(shù)設(shè)置方面的優(yōu)越性,使其能夠更加有效地利用特征信息,在減少網(wǎng)絡(luò)計(jì)算和存儲成本的同時(shí),實(shí)現(xiàn)更準(zhǔn)確的語義分割結(jié)果。

為了進(jìn)一步驗(yàn)證本文算法的泛化性和魯棒性,在更大的數(shù)據(jù)集SUN RGB-D上與目前先進(jìn)的語義分割算法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表3所示。由于數(shù)據(jù)集龐大,本文在實(shí)驗(yàn)參數(shù)設(shè)置時(shí)只進(jìn)行了200個(gè)epoch的訓(xùn)練,其他參數(shù)設(shè)置與NYUD-v2數(shù)據(jù)集實(shí)驗(yàn)一致。本文算法在該數(shù)據(jù)集上,即使面對更惡劣的光照條件和更復(fù)雜的室內(nèi)環(huán)境,主要指標(biāo)mIoU依舊達(dá)到了最高的47.6%,相較于RefineNet提高了1.9%,比SGNet提高了0.5%。其證明了在不同類型的對象下,本文提出的特征調(diào)節(jié)器可以充分發(fā)揮多模態(tài)特征各自的優(yōu)勢,并通過雙路徑引導(dǎo)結(jié)構(gòu),充分利用各個(gè)層次模態(tài)的特點(diǎn),在不同數(shù)據(jù)集上能夠?qū)崿F(xiàn)更高的語義分割精度,輸出更細(xì)致的室內(nèi)語義分割顯著圖。

2.4 消融實(shí)驗(yàn)為了驗(yàn)證提出的特征調(diào)節(jié)器和雙路徑協(xié)同引導(dǎo)結(jié)構(gòu)的效果,本文基于NYUD-v2 數(shù)據(jù)集,在相同的環(huán)境配置和超參數(shù)下進(jìn)行了消融實(shí)驗(yàn)。在消融實(shí)驗(yàn)中,采用了mAcc、mIoU 和 Pixel Acc. 這三個(gè)評價(jià)指標(biāo),對比了特征調(diào)節(jié)器、雙路徑協(xié)同引導(dǎo)結(jié)構(gòu)以及兩者結(jié)合的模型,并且針對不同的特征融合策略進(jìn)行了比較。

本文設(shè)計(jì)的特征調(diào)節(jié)器主要由三個(gè)部分組成,分別是能夠過濾噪聲的特征強(qiáng)化聚合模塊、能夠提取顯著區(qū)域信息的特征差異性互補(bǔ)模塊,以及可以緊密結(jié)合多模態(tài)信息的特征交互融合模塊。為了驗(yàn)證特征調(diào)節(jié)器的性能,分別對三個(gè)模塊進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表4所示,以主要評價(jià)指標(biāo) mIoU 為評價(jià)標(biāo)準(zhǔn),其可視化結(jié)果如圖7所示。

從表4中可以看出,初始模型的語義分割結(jié)果為45.5%。在多模態(tài)特征未經(jīng)過特征強(qiáng)化聚合模塊進(jìn)行特征篩選和強(qiáng)化的情況下,將多模態(tài)特征重組交互后模型的性能提高了0.7%。即使目前網(wǎng)絡(luò)中存在異常噪聲,特征重組仍舊能緊密結(jié)合兩種模態(tài)信息,提高模型的魯棒性。第5行的結(jié)果是加入特征強(qiáng)化聚合模塊后的模型輸出結(jié)果,性能提高了0.9%。這說明在排除異常噪聲后,神經(jīng)網(wǎng)絡(luò)對室內(nèi)場景學(xué)習(xí)和分析的能力得到了大幅提高。這一點(diǎn)還可以體現(xiàn)在第6行與第8行結(jié)果的對比上,因?yàn)楦嘤行缀涡畔⒌募尤?,模型語義分割的能力在特征經(jīng)過噪聲過濾和強(qiáng)化聚合后得到了顯著的提升。為了更好地探索和利用多模態(tài)信息的優(yōu)勢,本文將兩種單模態(tài)各自具有特性的部分延展到特征融合的階段,通過傳播多模態(tài)特征的差異性到網(wǎng)絡(luò)中,實(shí)現(xiàn)跨模態(tài)傳播共享特征和特定特征,以彌補(bǔ)缺少的特定信息并增強(qiáng)共享特征。通過特征重建增強(qiáng),模型語義分割準(zhǔn)確率提高了1.4%。該方法不需要對樣本相似性進(jìn)行建模,也無須接收鄰近模態(tài)信息,從而大大減少了計(jì)算量和參數(shù)。第3行與第6行的對比結(jié)果驗(yàn)證了本文策略的正確性。

本文針對 ResNet50架構(gòu)設(shè)計(jì)了雙路徑協(xié)同引導(dǎo)結(jié)構(gòu),通過聚合不同尺度的多模態(tài)特征和融合不同時(shí)期不同層次的特征表現(xiàn),在挖掘和利用跨模態(tài)線索方面取得了非常好的效果。同時(shí),考慮到初始數(shù)據(jù)對深度學(xué)習(xí)過程的指導(dǎo)作用非常重要,特別是隨著深度網(wǎng)絡(luò)的加深,這一作用愈加重要。因此,本文使用了類似于跳躍連接的方式對特征數(shù)據(jù)進(jìn)行跨結(jié)構(gòu)傳輸。不同的是,本文算法不直接傳輸數(shù)據(jù),而是先對多模態(tài)特征融合結(jié)果進(jìn)行顯著信息提取,然后將提取的顯著信息與解碼過程中的特征信息進(jìn)行多步驟的乘法和加法處理,從而取得了最好的實(shí)驗(yàn)結(jié)果48.5%。表4中第7行和第8行的結(jié)果表明,對融合特征進(jìn)行顯著性提取,確實(shí)可以進(jìn)一步提高語義分割效果。

基于特征融合是多模態(tài)信息的重要環(huán)節(jié),本文設(shè)計(jì)的多模態(tài)特征交互融合方法與目前比較流行和公認(rèn)的特征融合方法結(jié)果進(jìn)行了對比。表5的實(shí)驗(yàn)結(jié)果表明,本文算法在通道方面的獨(dú)特設(shè)計(jì),使其比基于RGB-D對應(yīng)元素總和(即基線)、卷積注意力(CBAM)和SE注意力機(jī)制的特征融合方法性能表現(xiàn)更好。這驗(yàn)證了通過特征重組交互的方式,可以有效地緊密結(jié)合多模態(tài)特征。本文還展示了這幾種不同特征融合方式的語義分割圖,如圖8所示。通過獲取更豐富的跨模態(tài)線索,本文模型語義分割的結(jié)果在物體邊緣分割和重疊物體區(qū)分等精細(xì)分割部分有更好的表現(xiàn)。

3 結(jié)束語

本文從多模態(tài)特征在神經(jīng)網(wǎng)絡(luò)中的提取和傳遞過程出發(fā),針對現(xiàn)有語義分割算法難以妥善處理多模態(tài)數(shù)據(jù)、無法高效融合多模態(tài)特征的問題,提出了一個(gè)特征調(diào)節(jié)器,用于優(yōu)化特征提取和傳遞過程。該組件在編碼器階段通過對雙流特征進(jìn)行篩選實(shí)現(xiàn)噪聲去除,并通過特征差異性互補(bǔ)的方式實(shí)現(xiàn)共享特征和特定特征在神經(jīng)網(wǎng)絡(luò)中的傳輸,同時(shí)結(jié)合交互融合的方式進(jìn)一步獲取跨模態(tài)信息。在解碼階段,本文設(shè)計(jì)了雙路徑協(xié)同引導(dǎo)結(jié)構(gòu),用于融合多尺度、多層次的特征信息,并通過傳遞融合特征的顯著部分到解碼階段,進(jìn)一步提高了語義分割的準(zhǔn)確率。相對于以往方法,本文方法在公開數(shù)據(jù)集NYUD-v2上的性能取得了更好的結(jié)果。

參考文獻(xiàn):

[1]Chen Xiaokang,Lin K Y,Wang Jingbo,et al. Bi-directional cross-modality feature propagation with separation-and-aggregation gate for RGB-D semantic segmentation [C]//Proc of European Conference on Computer Vision. Cham: Springer International Publishing,2020: 561-577.

[2]Fernando H,Shen Han,Liu Miao,et al. Mitigating gradient bias in multi-objective learning: a provably convergent approach [C]// Proc of the 11th International Conference on Learning Representations. 2022.

[3]Sun Xinglong,Hassani A,Wang Zhangyang,et al. DiSparse: disentangled sparsification for multitask model compression [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 12372-12382.

[4]Popovic' N,Chakraborty R,Paudel D P,et al.Spatially multi-conditional image generation [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2023: 734-743.

[5]Wu Zongwei,Allibert G,Stolz C,et al.Depth-adapted CNNs for RGB-D semantic segmentation [EB/OL]. (2022-06-08) [2023-07-29]. https://doi. org/10. 48550/arXiv. 2206. 03939.

[6]Dong Zihao,Li Jinping,F(xiàn)ang Tiyu,et al. Lightweight boundary refinement module based on point supervision for semantic segmentation [J]. Image and Vision Computing,2021,110: 104169.

[7]Cao Jinming,Leng Hanchao,Lischinski D,et al. ShapeConv: shape-aware convolutional layer for indoor RGB-D semantic segmentation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021: 7088-7097.

[8]Wu Zongwei,Gobichettipalayam S,Tamadazte B,et al.Robust RGB-D fusion for saliency detection [C]// Proc of International Conference on 3D Vision. Piscataway,NJ: IEEE Press,2022: 403-413.

[9]Seichter D,Khler M,Lewandowski B,et al. Efficient RGB-D semantic segmentation for indoor scene analysis [C]// Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press,2021: 13525-13531.

[10]Li Weihong,Liu Xialei,Bilen H. Universal representations: a unified look at multiple task and domain learning [J/OL]. International Journal of Computer Vision. (2023-11-24). https://doi.org/10.1007/s11263-023-01931-6.

[11]Hazirbas C,Ma Lingni,Domokos C,et al. FuseNet: incorporating depth into semantic segmentation via fusion-based CNN architecture [C]// Proc of the 13th Asian Conference on Computer Vision. Berlin: Springer International Publishing,2017: 213-228.

[12]Chen Linzhuo,Lin Zheng,Wang Ziqin,et al. Spatial information guided convolution for real-time RGBD semantic segmentation [J]. IEEE Trans on Image Processing,2021,30: 2313-2324.

[13]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.

[14]Zeiler M D,F(xiàn)ergus R. Visualizing and understanding convolutional networks [C]// Proc of the 13th European Conference on Computer Vision. Cham: Springer,2014: 818-833.

[15]Silberman N,Hoiem D,Kohli P,et al. Indoor segmentation and support inference from RGB-D images [C]// Proc of the 12th European Conference on Computer Vision. Berlin: Springer,2012: 746-760.

[16]Song Shuran,Lichtenberg S P,Xiao Jianxiong.Sun RGB-D:a RGB-D scene understanding benchmark suite [C]// Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 567-576.

[17]Hu Xinxin,Yang Kailun,F(xiàn)ei Lei,et al. ACNet: attention based network to exploit complementary features for RGB-D semantic segmentation [C]// Proc of IEEE International Conference on Image Proces-sing. Piscataway,NJ: IEEE Press,2019: 1440-1444.

[18]Jiang Jindong,Zheng Lunan,Luo Fuo,et al. REDNet: residual encoder-decoder network for indoor RGB-D semantic segmentation [EB/OL]. (2018-06-04) [2023-07-29]. https://doi. org/10. 48550/arXiv. 1806. 01054.

[19]Park S J,Hong K S,Lee S. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 4980-4989.

[20]Abbasi K,Razzaghi P. Incorporating part-whole hierarchies into fully convolutional network for scene parsing [J]. Expert Systems with Applications,2020,160: 113662.

[21]Lin Guosheng,Milan A,Shen Chunhua,et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 1925-1934.

[22]Groenendijk R,Dorst L,Gevers T. MorphPool: efficient non-linear pooling & unpooling in CNNs [EB/OL]. (2022-11-25) [2023-7-29]. https://doi. org/10. 48550/arXiv. 2211. 14037.

[23]Yu Xumin,Rao Yongming,Wang Ziyi,et al. AdaPoinTr: diverse point cloud completion with adaptive geometry-aware transformers [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(12): 1414-14130.

[24]Lin Di,Chen Guangyong,Cohen-Or D,et al. Cascaded feature network for semantic segmentation of RGB-D images [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2017: 1311-1319.