趙什陸,張強
西安電子科技大學機電工程學院,西安 710071
圖像語義分割是當今計算機視覺領域中極具挑戰(zhàn)性的熱點問題之一。不同于圖像去雨、去霧、去模糊等低層次視覺任務,圖像語義分割旨在將視覺場景分解為不同的語義類別實體,實現(xiàn)對圖像中每個像素的類別預測,是許多視覺場景理解系統(tǒng)中不可或缺的重要組成部分。隨著深度學習技術的不斷創(chuàng)新與發(fā)展,大量圖像語義分割算法相繼提出,在自動駕駛、智慧農(nóng)業(yè)、地質(zhì)監(jiān)測和軍事偵察等領域均取得了顯著的成就。
2015 年,Long 等人(2015)提出了一個里程碑式的工作,即全卷積網(wǎng)絡(fully convolutional network,F(xiàn)CN),為圖像語義分割任務定義了全新的范式,同時引起了基于深度學習的圖像語義分割研究熱潮。到目前為止,研究者們已經(jīng)貢獻了大量高效的基于深度學習的圖像語義分割算法以及用于算法訓練的大規(guī)模數(shù)據(jù)集,并取得了很好的效果。不過,現(xiàn)有的基于深度學習的圖像語義分割工作大多利用可見光(red-green-blue,RGB)圖像實現(xiàn)場景內(nèi)容感知,可見光相機對于場景光照變化的魯棒性較差,且缺乏對煙、霧、霾、雨、雪的穿透功能。受限于其成像機理,可見光相機難以在不良光照條件以及惡劣天氣情況下捕獲足夠有效的場景信息。此外,可見光相機還難以提供場景相關的空間結構信息以及三維布局信息,無法應對具有目標外觀相似、場景區(qū)域多且變化大等特點的復雜場景。
隨著圖像傳感器技術的不斷發(fā)展與進步,不同模態(tài)(即基于不同成像機理)的圖像傳感器在軍用以及民用領域日益普及。除可見光相機外,目前較為常見的圖像傳感器主要為熱紅外成像儀以及深度相機等。不同于可見光相機,深度相機能夠獲取成像場景中目標距離相機光心的物理距離,而熱紅外成像儀則能夠在各種不良光照、天氣條件下反映場景中溫度在絕對零度(-273 ℃)以上物體的熱輻射特性,進而提供精確的目標輪廓信息以及語義信息。但是,相對于RGB 圖像,深度圖像和熱紅外圖像通常缺乏一定的顏色、紋理等細節(jié)信息。考慮到在大多數(shù)復雜場景下單一模態(tài)圖像難以提供完整的場景知識,導致無法獲得精確的語義分割結果,因此,對于多模態(tài)圖像語義分割技術的研究具有重要的現(xiàn)實意義。通過聯(lián)合利用不同模態(tài)圖像間的互補特性,有助于更為全面、準確地實現(xiàn)場景信息的學習與推理。
然而,目前還鮮有綜述性文獻對基于深度學習的多模態(tài)圖像語義分割研究進行總結和分析。Hu等人(2018)和Noori(2021)為基于深度學習的可見光—深度(RGB-depth,RGB-D)圖像語義分割方法提供了簡單的綜述,但其調(diào)研還不夠充分,同時也缺少對已有方法的分類和解析。Zhang等人(2021a)調(diào)研了多模態(tài)圖像語義分割算法,但僅從融合階段的角度將其劃分為早期融合、中期融合和晚期融合,缺乏更為系統(tǒng)的分類和匯總。不同于上述工作,本文將對現(xiàn)有的基于深度學習的可見光—熱紅外(RGBthermal,RGB-T)圖像和RGB-D圖像語義分割算法進行詳細且深入的調(diào)研,以便讀者了解領域內(nèi)研究現(xiàn)狀以及發(fā)展趨勢。
本文的主要貢獻包括:首先對目前已有的基于深度學習的RGB-T∕RGB-D 圖像語義分割算法進行詳盡調(diào)研,從算法的核心思想出發(fā),對其進行歸納、分析和對比;隨后詳細介紹了RGB-T∕RGB-D 圖像語義分割算法常用的客觀評測指標和數(shù)據(jù)集,并提供現(xiàn)有方法在不同數(shù)據(jù)集下的性能對比;最后對基于深度學習的多模態(tài)圖像語義分割未來可能的研究方向進行梳理和討論。
“編碼器—解碼器”結構(Badrinarayanan 等,2017)是基于深度學習的圖像語義分割方法中最為常用的范式,其中編碼器用于提取圖像特征,解碼器則用于圖像特征恢復以及分割結果預測。該結構的優(yōu)勢已經(jīng)在基于深度學習的RGB 圖像語義分割領域得到廣泛證明。因此,目前絕大多數(shù)基于深度學習的RGB-T 圖像語義分割模型也都延續(xù)了“編碼器—解碼器”結構的設計,并在此基礎上針對如何有效利用多模態(tài)圖像間的互補特性進行了深入的研究?;谏疃葘W習的RGB-T 圖像語義分割可以看做是一個典型的流水線處理過程,包含單模態(tài)圖像特征提取、多模態(tài)圖像特征融合和語義分割結果預測3 個步驟。其中,對于單模態(tài)圖像特征提取部分,現(xiàn)有方法均采用預訓練的分類網(wǎng)絡(如VGG(Visual Geometry Group)(Simonyan 和Zisserman,2015)、ResNet(residual network)(He 等,2016))實現(xiàn),本文將不再對這些分類網(wǎng)絡的結構進行詳細描述,相應內(nèi)容可參考綜述性文獻(張珂 等,2021)。
依據(jù)算法側(cè)重點不同,本文將目前已有的基于深度學習的RGB-T 圖像語義分割方法劃分為3 類,即基于圖像特征增強的方法、基于多模態(tài)圖像特征融合的方法和基于多層級圖像特征交互的方法。
基于圖像特征增強的方法通常通過注意力機制以及輔助信息嵌入等方式,直接或間接地增強單模態(tài)圖像特征或多模態(tài)圖像融合特征。這類方法在挖掘單模態(tài)圖像特征或多模態(tài)圖像融合特征中高鑒別力信息的同時降低干擾信息的影響,進而提升語義分割精度。
Shivakumar等人(2020)提出了一種PSTNet(PENN subterranean thermal network),其核心思想是首先利用RGB 圖像的語義分割置信圖作為一種輔助信息,通過將其與輸入的RGB 圖像和熱紅外圖像組合,以增強輸入數(shù)據(jù)中所包含的有效信息。隨后,再通過預訓練分類網(wǎng)絡對增強后的輸入數(shù)據(jù)進行特征提取。本質(zhì)上,該方法是通過增強輸入圖像間接地實現(xiàn)融合特征增強。如圖1 所示,該方法共包含兩個階段。在第1階段,RGB 圖像被輸入到一個“編碼器—解碼器”結構中,以獲取基于RGB 圖像的語義分割置信圖。緊接著,在第2 階段,將第1 階段獲得的RGB 圖像語義分割置信圖、RGB 圖像和熱紅外圖像級聯(lián)后作為輸入,通過一個預訓練的高效殘差分解卷積網(wǎng)絡(efficient residual factorized ConvNet,ERFNet)實現(xiàn)最終的多模態(tài)圖像語義分割結果預測。該方法具有較快的推理速度,但其語義分割精度較低,這是因為這種對輸入數(shù)據(jù)進行增強的方式無法對單模態(tài)圖像特征或多模態(tài)圖像融合特征直接增強,難以確保具有高鑒別力的信息能夠被完整、有效地挖掘。
圖1 PSTNet網(wǎng)絡結構圖Fig.1 Structure of PSTNet
不同于PSTNet 將輔助信息嵌入到輸入數(shù)據(jù)中間接實現(xiàn)特征增強的思路,一些工作選擇直接對單模態(tài)圖像特征或多模態(tài)圖像融合特征進行增強。例如,Deng 等人(2021)提出了一種特征增強注意力網(wǎng)絡(feature-enhanced attention network,F(xiàn)EANet),通過聯(lián)合利用基于空間維度和通道維度的注意力機制,直接實現(xiàn)對多層級RGB 圖像特征和熱紅外圖像特征的增強。具體來說,該工作提出了一種特征增強注意力模塊(feature-enhanced attention module,F(xiàn)EAM)。首先,該模塊通過全局最大池化計算獲得通道注意力向量,以選擇單模態(tài)圖像特征中包含高鑒別力信息的通道,隨后,經(jīng)通道注意力操作增強后的單模態(tài)圖像特征通過沿通道維度的全局最大池化計算獲得空間注意力圖,進一步在全局區(qū)域挖掘有效的信息線索。通道注意力操作能夠有效地挖掘前景線索,與之相輔相成的是,空間注意力操作集中在全局區(qū)域挖掘場景信息,尋找其中可能的小目標物體。通過融合經(jīng)FEAM 增強后的單模態(tài)圖像特征,能夠有效保留空間信息,并將更多的注意力轉(zhuǎn)移到高分辨率特征上,進而促進語義分割效果的提升。
Zhou 等人(2021a)提出了一種邊緣引導融合網(wǎng)絡(edge-aware guidance fusion network,EGFNet),利用邊緣信息作為輔助信息直接實現(xiàn)多模態(tài)圖像融合特征的增強。該方法的結構如圖2 所示。該方法首先通過一個多模態(tài)融合模塊(multi-modal fusion module,MFM)實現(xiàn)對多模態(tài)圖像特征的充分融合。隨后,對于融合后的多模態(tài)圖像融合特征,該方法引入一個由RGB 圖像和熱紅外圖像生成的先驗邊緣圖來捕獲場景中的細節(jié)、紋理信息,通過將先驗邊緣信息與多層級的多模態(tài)圖像融合特征相乘,進而實現(xiàn)邊緣輔助信息的嵌入。該方法通過利用先驗邊緣信息,能夠緩解語義分割任務中物體邊界判別性較弱的問題,有效校正了語義分割預測結果中模糊的目標邊界,因此能夠獲得目標邊緣更加精細的高質(zhì)量語義分割結果。但是,該方法的效果比較依賴于先驗邊緣圖的質(zhì)量,邊緣圖是否完整、準確將直接影響最終的語義分割結果。
圖2 EGFNet網(wǎng)絡結構圖Fig.2 Structure of EGFNet
基于多模態(tài)圖像特征融合的方法主要關注如何有效利用RGB 圖像特征與熱紅外圖像特征之間的互補特性,進而充分發(fā)揮多模態(tài)圖像的優(yōu)勢。與單模態(tài)圖像語義分割任務相比,特征融合是多模態(tài)圖像語義分割任務所特有的。因此,現(xiàn)有的大多數(shù)RGB-T圖像語義分割方法主要針對多模態(tài)圖像特征融合策略展開研究。
以多光譜融合網(wǎng)絡(multi-spectral fusion networks,MFNet)(Ha等,2017)、RGB-T融合網(wǎng)絡(RGBthermal fusion network,RTFNet)(Sun 等,2019)和FuseSeg(Sun等,2021)為代表,早期基于多模態(tài)圖像特征融合的工作主要通過求和或級聯(lián)等簡單融合方式獲取多模態(tài)圖像融合特征。
MFNet 是第1 個基于深度學習的RGB-T 圖像語義分割工作,其結構如圖3 所示。首先,該工作通過兩個簡單的編碼器結構分別提取RGB 圖像特征和熱紅外圖像特征,之后通過級聯(lián)的方式實現(xiàn)對兩種模態(tài)特征的融合,最后利用一個解碼器結構逐級恢復融合特征分辨率并進行語義分割結果預測。由于該方法自行設計了輕量級編碼器結構,未使用預訓練的分類網(wǎng)絡提取圖像特征,導致分割精度較差,難以滿足實際應用的要求。
圖3 MFNet網(wǎng)絡結構圖Fig.3 Structure of MFNet
隨著深度學習技術的發(fā)展,大量高效的分類網(wǎng)絡相繼提出。RTFNet 和FuseSeg 分別利用預訓練的ResNet 和DenseNet(dense convolutional network)(Huang 等,2017)作為編碼器,以便更好地提取RGB圖像特征和熱紅外圖像特征,隨后采用逐元素求和的方式實現(xiàn)多模態(tài)圖像特征融合。最后,在解碼器部分,為了減少解碼過程中細節(jié)、語義信息的丟失,RTFNet 提出一種基于殘差結構設計的Upception 模塊以恢復特征圖分辨率,而FuseSeg 則采用類似于U-Net(Ronneberger 等,2015)的結構,通過跳連接的方式實現(xiàn)編碼器特征對解碼器特征的補充。然而,這些通過簡單策略融合多模態(tài)圖像特征的方法,難以充分利用多模態(tài)圖像特征間的互補特性,導致其性能差強人意。
為了更好地融合多模態(tài)圖像特征,Xu 等人(2021)提出了一種注意力融合網(wǎng)絡(attention fusion network,AFNet)。具體來說,該方法首先使用兩個經(jīng)洞卷積操作改進的ResNet-50作為編碼器(其結構類似于DeepLab v3(Chen等,2017)中的編碼器結構)分別提取RGB 圖像特征和熱紅外圖像特征。通過該編碼器能夠獲得分辨率更高、信息更詳細的特征圖,同時有助于提升對場景中較小目標的感知效果。隨后,對于編碼器最深層提取到的RGB 圖像特征和熱紅外圖像特征,該方法提出了一種基于交互注意力機制的注意力融合模塊(attention fusion module,AFM),以實現(xiàn)多模態(tài)圖像特征融合。該模塊首先通過計算RGB 圖像特征和熱紅外圖像特征之間的余弦相似度來構建空間相關性矩陣,具體為
式中,Cx→y表示x模態(tài)與y模態(tài)間的相關性矩陣,F(xiàn)x和Fy表示x模態(tài)特征和y模態(tài)特征,x代表RGB模態(tài)或熱紅外模態(tài)中的一種,y代表與x不同的另一模態(tài)。Cx→y值的大小反映了RGB 圖像特征和熱紅外圖像特征不同空間位置間信息的相關程度。隨后,通過空間相關性矩陣與多模態(tài)圖像特征間的矩陣乘法運算,以指導不同模態(tài)圖像特征的融合。
Lan 等人(2022)提出了一種多模態(tài)多層級網(wǎng)絡(multi-modal multi-stage network,MMNet)。通過緩解編碼器和解碼器之間的語義差異(semantic gap)實現(xiàn)單模態(tài)圖像特征增強。該方法由兩個不同的階段組成,第1 階段包含兩個相互獨立的“編碼器—解碼器”結構,分別用來提取不同模態(tài)的圖像特征,同時,為了緩解編碼器特征和解碼器特征之間存在的語義差異,本文利用一種基于殘差結構的高效特征增強模 塊(efficient feature enhancement module,EFEM)來連接編碼器和解碼器。在第2 階段,該方法通過簡單的求和方式融合了第1 階段獲得的RGB 圖像信息和熱紅外圖像信息,并通過設計一個輕量級的迷你精細化塊(mini refinement block,MRB)逐漸精細化細節(jié)信息,以獲得最終的語義分割結果。
Zhou 等人(2021b)提出了一種特征分級和多標簽學習網(wǎng)絡(graded-feature multilabel-learning network,GMNet),其結構如圖4 所示。不同于其他方法,該方法對編碼器提取的多層級圖像特征進行分級,其中淺層特征屬于低級特征,主要提供細節(jié)信息(如空間、紋理和邊緣信息);深層特征屬于高級特征,主要提供具有高鑒別力的語義信息,用于指導每個像素的類別標記。考慮到RGB 圖像淺層特征可能攜帶誤導和不完整的信息,針對低級特征,該方法提出了一個淺層特征融合模塊(shallow feature fusion module,SFFM),利用淺層熱紅外圖像特征對淺層RGB 圖像特征進行校正,之后再通過通道注意力機制進一步增強校正后的RGB 圖像特征。對于高級特征,該方法提出了一個深層特征融合模塊(deep feature fusion module,DFFM),首先通過逐元素相乘以及求和的方式融合多模態(tài)圖像高級特征,隨后使用多個串行且膨脹率不同的洞卷積挖掘其中豐富的上下文語義信息。最后,除網(wǎng)絡結構和模塊設計外,該方法還利用多種標簽監(jiān)督網(wǎng)絡訓練:對淺層特征施加邊緣圖監(jiān)督以精細化邊緣細節(jié)信息;對淺層特征與深層特征間的過渡層特征施加二值化標簽監(jiān)督以準確區(qū)分前景和背景信息;對深層特征施加語義分割標簽監(jiān)督以獲取豐富的語義信息。相較于其他使用單一融合策略獲取多模態(tài)圖像融合特征的思路,該方法根據(jù)不同層級特征的特點進行針對性設計,能夠更好地利用多模態(tài)圖像特征間的互補特性,進而取得了很好的分割效果。
圖4 GMNet網(wǎng)絡結構圖Fig.4 Structure of GMNet
Zhang等人(2021b)提出了一種自適應加權雙向模態(tài)差異縮減網(wǎng)絡(adaptive-weighted bi-directional modality difference reduction network,ABMDRNet)。該方法充分考慮了由于成像機制不同而導致的模態(tài)信息差異,提出了一種“先縮減再融合”的策略,首先通過設計一個基于跨模態(tài)圖像轉(zhuǎn)換方式的雙向模態(tài)差異縮減網(wǎng)絡以縮減不同模態(tài)特征分布間的差異,得到更具鑒別力的單模態(tài)圖像特征;隨后,設計了一個通道自適應加權融合模塊,利用卷積塊自適應學習不同模態(tài)各通道特征的重要程度,并對其進行選擇。此外,該方法還提出了多尺度空間∕通道上下文模塊,挖掘更為豐富的上下文信息,以提升模型對場景中不同尺度目標的分割精度。該方法探索性地指出了多模態(tài)圖像特征難以被直接融合的可能原因,分析了忽視模態(tài)差異可能導致的結果,為基于多模態(tài)圖像特征融合的RGB-T 圖像語義分割方法提供了一種新的研究思路。
不同尺度的感受野能夠提取場景中不同尺寸目標的信息,因此,多層級圖像特征的交互有助于捕獲豐富的多尺度上下文信息,進而顯著提升語義分割模型在目標尺度多樣場景下的性能?;诙鄬蛹増D像特征交互的方法在單模態(tài)圖像語義分割領域已經(jīng)得到廣泛應用,在RGB-T圖像語義分割任務中,也有一些工作利用此類方法,取得了良好的語義分割結果。
Guo等人(2021)提出了一種MLFNet(multilevel fusion network)方法,通過建立多層級圖像特征的交互,以獲取豐富的多尺度上下文信息。首先,該方法利 用ESANet(efficient scene analysis network)(Seichter 等,2021)中提出的融合模塊實現(xiàn)多模態(tài)圖像特征融合。對于多層級的多模態(tài)圖像融合特征,該方法提出了一種提取層(extraction layer),用于在每一層級整合所有層級的多模態(tài)圖像融合特征,其結構類似于ResNet 中的殘差塊。最后,包含豐富多尺度上下文信息的特征通過一個輔助解碼模塊(auxiliary decoding module,ADM),通過上采樣與級聯(lián)的方式進一步整合,用于最終的語義分割結果預測。得益于對多層級圖像特征的整合,該方法在目標尺度多樣的場景中具有更好的有效性和魯棒性。
Zhou 等人(2022)提出了一種多尺度特征融合和增強網(wǎng)絡(multiscale feature fusion and enhancement network,MFFENet),其結構如圖5 所示。與RTFNet 以及FuseSeg 類似,MFFENet 同樣通過求和的方式獲得多層級的多模態(tài)圖像融合特征。之后,最深層特征被送入到一個簡化的洞卷積金字塔(compact version of ASPP,CASPP)結構中,通過級聯(lián)操作并結合3 個卷積核尺寸相同但膨脹率不同的洞卷積,以進一步挖掘上下文信息。緊接著,多層級圖像特征通過雙線性插值的方式上采樣到相同的分辨率,再利用級聯(lián)操作實現(xiàn)多層級圖像特征的交互。最后,多層級聚合特征被送入到一個經(jīng)典的空間注意力模塊中,實現(xiàn)最終的語義分割結果預測。此外,為了提升語義分割精度,同時提升目標邊界的區(qū)分效果,該方法同樣采用了與GMNet 類似的多標簽訓練策略,利用邊緣圖、二值化標簽圖以及語義分割標簽圖作為監(jiān)督信息聯(lián)合訓練模型。
圖5 MFFENet網(wǎng)絡結構圖Fig.5 Structure of MFFENet
部分方法的側(cè)重點難以被歸納到前文提及的類別中。例如,考慮到夜間RGB 圖像與熱紅外圖像對標注困難的問題,Vertens 等人(2020)通過引入知識蒸餾技術,有效避免了昂貴且煩瑣的夜間圖像注釋過程。
知識蒸餾是深度神經(jīng)網(wǎng)絡模型壓縮技術中的代表性方法之一,其將一個復雜深度神經(jīng)網(wǎng)絡模型學習到的知識遷移至另一個輕量級模型中,在保證性能的情況下實現(xiàn)模型輕量化。其中,復雜深度神經(jīng)網(wǎng)絡模型稱為教師模型,而輕量級模型稱為學生模型。一個完整的知識蒸餾系統(tǒng)包含知識、蒸餾算法以及師生架構3個關鍵部分。
具體來說,該方法首先通過一個在白天場景預訓練的RGB 圖像語義分割教師模型進行監(jiān)督,再由一個經(jīng)過夜間場景預訓練的熱紅外圖像語義分割教師模型進行可選的監(jiān)督。最后,引入對抗學習策略,通過最小化域鑒別器的域混淆損失,以減小白天和夜間圖像之間的域差異,進而實現(xiàn)白天場景到黑夜場景的知識遷移。
相較于熱紅外圖像和RGB 圖像,深度圖像能夠提供豐富的場景三維空間信息,對于前、背景混淆程度高的場景具有很好的適應能力,但其往往存在較多的噪聲和干擾信息。本文將基于深度學習的RGB-D 圖像語義分割方法按照其對深度圖像信息的利用方式劃分為兩大類。第1 大類類似于基于深度學習的RGB-T 圖像語義分割方法,該類方法將深度圖像與RGB 圖像當做兩種獨立的輸入數(shù)據(jù),通過“單模態(tài)圖像特征提取+多模態(tài)圖像特征融合”的方式,利用RGB 圖像與深度圖像的互補特性,以獲取更具鑒別力的多模態(tài)圖像融合特征,進而提升算法對場景的感知能力,本文將這類方法歸納為基于深度信息提取的方法。根據(jù)其側(cè)重點不同,這類方法又可以細分為基于多模態(tài)圖像特征融合的方法和基于上下文信息挖掘的方法。其次,第2 大類方法則是將深度圖像看做一種監(jiān)督或先驗信息,這類方法通常不需要提取深度圖像的特征,而是顯式或隱式地將深度信息嵌入到RGB 圖像特征提取過程中。這類方法是基于深度學習的RGB-T 圖像語義分割方法中所沒有考慮的,本文中將這類方法歸納為基于深度信息引導的方法。
2.1.1 基于多模態(tài)圖像特征融合的方法
早在FCN 中,就已經(jīng)進行了將深度圖像和RGB圖像級聯(lián)以實現(xiàn)RGB-D 圖像語義分割的嘗試。緊接著,Hazirbas 等人(2017)提出了一個基于多模態(tài)圖像特征融合的RGB-D 圖像語義分割網(wǎng)絡FuseNet,其結構如圖6 所示。該方法通過直接求和的方式逐層級融合RGB 圖像特征與深度圖像特征。
圖6 FuseNet網(wǎng)絡結構圖Fig.6 Structure of FuseNet
在FuseNet的基礎上,為了進一步增強深度圖像所包含的信息,Hung 等人(2019)提出了一種LDFNet(luminance and depth information by a fusionbased network)。該方法采用與FuseNet 類似的結構,利用兩個編碼器分別提取RGB 圖像特征和深度圖像特征。不同的是,該方法將RGB 圖像中的亮度信息嵌入到深度圖像中,進一步提升深度圖像特征的有效性。
Wang 等人(2016)提出了一種RGB-D 圖像語義分割方法,與FuseNet和LDFNet不同,該方法對于每個模態(tài)圖像都采用一個完整的“編碼器—解碼器”結構。該方法的主要實現(xiàn)步驟是:首先利用4 個相互獨立的全連接層實現(xiàn)兩種模態(tài)圖像共有特征和特有特征的解耦,得到RGB 圖像特有信息Frs、RGB 圖像共有信息Frc、深度圖像特有信息Fds以及深度圖像共有信息Fdc。隨后利用某一模態(tài)的模態(tài)共有信息與另一模態(tài)的所有信息進行融合,即Fdc、Frs和Frc進行融合,F(xiàn)rc、Fds和Fdc進行融合。最后將融合后的特征分別送入到兩個獨立的解碼器中進行語義分割結果預測。該方法的核心思路是增強多模態(tài)圖像共有特征的表示,尤其是當一個模態(tài)圖像中的共有信息沒有被很好地捕獲時,能夠較為顯著地提升語義分割效果。
雖然淺層的RGB 圖像特征和深度圖像特征都很好地保留了空間線索,但是由于缺乏對RGB 圖像中視覺信息與深度圖像中幾何信息間的校準,導致兩者在融合過程中難以充分獲取具有鑒別力的信息??紤]到包含語義信息的深層RGB 圖像特征與深度圖像特征具有更強的兼容性,Li 等人(2017)提出利用一種深層語義信息指導淺層細節(jié)信息的融合策略。具體來說,該方法首先利用兩個獨立的FCN分別提取RGB 圖像特征和深度圖像特征。隨后,將包含兼容性更高的語義信息的最深層RGB 圖像特征與深度圖像特征通過求和的方式融合,用以指導淺層RGB 圖像特征和深度圖像特征融合。在淺層圖像特征融合過程中,融合后的深層圖像特征首先經(jīng)過上采樣操作得到與相應淺層圖像特征分辨率一致的特征圖,再通過求和的方式嵌入到淺層RGB 圖像特征和深度圖像特征融合過程中。該方法通過引入深層語義信息作為引導,在融合過程中緩解了淺層深度圖像特征和RGB 圖像特征間存在的模態(tài)差異,取得了比直接融合淺層RGB 圖像特征和深度圖像特征更好的語義分割效果。
Lee 等人(2017)提出了一種RGB-D 融合網(wǎng)絡(RGB-D fusion network,RDFNet),其核心思想是將ResNet 中提出的殘差學習思想擴展到RGB-D 圖像語義分割任務中。該方法首先利用兩個獨立的ResNet 作為編碼器,以提取RGB 圖像特征和深度圖像特征。隨后,提出了一種多模態(tài)特征融合模塊(multi-modal feature fusion,MMF),通過殘差學習的方式處理RGB 圖像特征和深度圖像特征及其組合,以充分利用RGB 圖像和深度圖像間的互補特性。在該模塊中,RGB 圖像特征和深度圖像特征首先被輸入到一個卷積層中進行降維,以減少參數(shù)量過大的問題。隨后,經(jīng)降維處理后的RGB 圖像特征和深度圖像特征均被送入兩個串行的殘差卷積單元(residual convolution unit,RCU)中,通過執(zhí)行一些非線性轉(zhuǎn)換以幫助后續(xù)的多模態(tài)圖像特征融合。其中RCU 是RefineNet(Lin 等,2017b)中提出的模塊,其結構與ResNet 中的殘差塊類似。最后,RGB 圖像特征和深度圖像特征通過求和的方式融合,并通過一種殘差池化操作(residual pooling operation)為融合特征添加上下文信息。此外,在得到多模態(tài)圖像融合特征之后,該方法還引入了RefineNet 中的特征精細塊(feature refinement block),該模塊由RCU、多分辨率融合(multi-resolution fusion)和鏈式殘差池化(chained residual pooling)組成,通過聯(lián)合多層級的多模態(tài)圖像融合特征,實現(xiàn)精細的語義分割結果預測。
為了利用RGB 圖像與深度圖像之間的互補特性,上述幾種方法均使用直接求和的方式實現(xiàn)RGB圖像特征和深度圖像特征的融合,然而,在不同場景中,RGB 圖像和深度圖像所包含的信息量并不是完全等價的??紤]到這一問題,Hu 等人(2019)和Sun等人(2020)分別提出注意力互補網(wǎng)絡(attention complementary network,ACNet)和實時 融合網(wǎng) 絡(real-time fusion network,RFNet),根據(jù)RGB 圖像特征和深度圖像特征所包含的信息量,利用通道注意力機制選擇高質(zhì)量的信息。兩種方法采用相同的思路,首先通過兩個獨立的編碼器分別提取RGB 圖像特征和深度圖像特征。緊接著,利用通道注意力機制分別從RGB 圖像特征和深度圖像特征中選擇高質(zhì)量的信息,并對這些高質(zhì)量信息進行求和融合,具體為
式中,F(xiàn)rgb表示RGB 圖像特征,F(xiàn)d表示深度圖像特征,F(xiàn)fused表示融合特征,G表示全局平均池化操作,C表示卷積操作,?表示外積計算,σ表示sigmoid 函數(shù)。最后,多模態(tài)圖像融合特征被送入到一個解碼器中實現(xiàn)語義分割結果的預測。這兩種方法均利用注意力機制選擇每個模態(tài)圖像特征中有用的信息,同時抑制干擾信息,從而有效提升多模態(tài)圖像融合特征的鑒別力。類似地,Liu等人(2018)則利用加權求和的策略替代直接求和的多模態(tài)圖像特征融合方式,以解決RGB 圖像和深度圖像在不同場景中信息量不等價的問題。具體來說,該方法通過設置一個可學習的權重矩陣實現(xiàn)多模態(tài)特征加權融合。在訓練過程中,權重矩陣能夠?qū)W習到對RGB 圖像特征和深度圖像特征選擇的能力,進而提升融合特征的鑒別力。
考慮到編碼器網(wǎng)絡越深,其邊緣、輪廓等細節(jié)信息丟失越嚴重的問題,為了充分利用深度圖像中豐富的邊緣、輪廓信息,Zhou 等人(2021c)提出了一種三分支自注意力網(wǎng)絡(three-stream self-attention network,TSNet)。與其他已有方法不同的是,該方法采用一種非對稱的方式,即利用兩種不同的編碼器結構分別提取RGB 圖像特征和深度圖像特征。具體來說,為了充分利用深度圖像所提供的邊緣、輪廓信息以及RGB 圖像所提供的細節(jié)和語義信息,該方法采用層數(shù)較少的VGG 結構提取深度圖像特征,同時采用層數(shù)較多的ResNet 結構提取RGB 圖像特征。此外,該方法也使用通道注意力機制,進一步對深層的RGB 圖像特征進行選擇,通過優(yōu)化多模態(tài)圖像語義信息融合過程,進而獲取更多具有鑒別力的信息。
大多數(shù)基于多模態(tài)圖像特征融合的方法均假設深度圖像是足夠精確的,且與RGB 圖像是逐像素對齊的。然而,由于實際測量得到的深度圖像不可避免地存在大量噪聲,將會顯著影響多模態(tài)圖像融合特征的有效性,進而影響最終的語義分割精度。基于此,Chen 等人(2020)提出了一種分離和聚合門控(separation-and-aggregation gate,SA Gate)操作,在多模態(tài)圖像特征融合之前過濾和重新校準兩種特征,如圖7 所示。首先,該方法利用兩個獨立的編碼器分別提取RGB 圖像特征和深度圖像特征。隨后,RGB 圖像特征和深度圖像特征級聯(lián)后輸入到兩個全連接層中得到跨模態(tài)注意力向量,并通過加權融合的方式過濾噪聲以及干擾信息。緊接著,為了充分利用RGB 圖像特征和深度圖像特征間的互補特性,該方法利用一種空間門控策略,采用注意力機制控制每個模態(tài)特征的信息流,最后采用加權求和的方式進行多模態(tài)圖像特征融合。經(jīng)過“先校正再聚合”的方式獲取的多模態(tài)圖像融合特征包含更具鑒別力的信息,且有效抑制了噪聲以及誤導信息,進而提升語義分割精度。
圖7 SA Gate模塊結構圖Fig.7 Structure of SA Gate module
Yue 等人(2021)提出一種兩階段串行解碼器網(wǎng)絡(two-stage cascaded decoder network,TCDNet),為了從包含大量噪聲和冗余信息的低質(zhì)量深度圖像中提取有用的信息,該方法提出了一種深度篩選和融合模塊(depth filter and fusion module,DFFM)。該模塊通過一種“丟棄—接受—聚合”(discard-acceptintegrate)機制實現(xiàn)RGB 圖像特征和深度圖像特征融合,以保留RGB 圖像特征中的有用信息并丟棄深度圖像特征中的冗余信息,同時提高RGB 圖像特征和深度圖像特征的兼容性。此外,對于淺層的多模態(tài)圖像融合特征,該方法還提出了一種細節(jié)修正模塊(detail polishing module,DPM)以實現(xiàn)淺層細節(jié)信息去噪。對于深層的多模態(tài)圖像融合特征,則提出了一種改良金字塔膨脹模塊(modified pyramid dilated module,MPDM)來擴大感受野,利用多個串行且膨脹率不同的洞卷積層獲取豐富的上下文信息。
2.1.2 基于上下文信息挖掘的方法
上下文信息是提升單模態(tài)圖像語義分割方法以及多模態(tài)圖像語義分割方法性能的關鍵,有助于實現(xiàn)場景中不同尺寸目標的感知。受到Non-local(Wang 等,2018)的啟發(fā),Zhou 等人(2020)提出了一種交互注意力網(wǎng)絡(co-attention network,CANet)。該方法提出一種位置交互注意力模塊(position coattention fusion module,PCFM)和一種通道交互注意力模塊(channel co-attention fusion module,CCFM),在不同維度上充分發(fā)揮跨模態(tài)長距離依賴(longrange dependency)的優(yōu)勢。在PCFM 中,深度圖像特征和RGB 圖像特征通過1 × 1 卷積層映射到同一特征空間中,再通過維度變換、矩陣轉(zhuǎn)置以及矩陣乘法運算得到空間交互注意力親和矩陣S,該矩陣中值的大小用來表示RGB 圖像特征各個位置與深度圖像特征各個位置間的相關程度。隨后空間交互注意力親和矩陣S與深度圖像特征進行矩陣乘法運算后與RGB 圖像特征求和得到多模態(tài)圖像融合特征。該模塊根據(jù)多模態(tài)圖像特征在空間維度上的長距離依賴對深度圖像特征進行選擇,有效融合了深度圖像特征的空間上下文信息。對于CCFM,該模塊利用類似的方法獲得通道交互注意力親和矩陣C,進而在通道維度上建立RGB 圖像特征和深度圖像特征的長距離依賴。最后,包含豐富空間上下文信息的多模態(tài)圖像融合特征和包含豐富通道上下文信息的多模態(tài)圖像融合特征進一步聚合,以實現(xiàn)最終的語義分割結果預測。
考慮到CANet僅在編碼器最深層挖掘上下文信息,忽略了多層級圖像特征上下文信息的利用,Zhang 等人(2021c)提出了一種非局部聚合網(wǎng)絡(non-local aggregation network,NANet),致力于捕捉多層級上下文信息,其結構如圖8 所示。該方法首先通過兩個獨立的編碼器獲得RGB 圖像特征和深度圖像特征,隨后,利用一個空間融合模塊(spatial fusion module,SFM)在空間維度對RGB 圖像特征和深度圖像特征的長距離依賴進行建模。緊接著,經(jīng)過SFM 得到的結果被輸入到一個通道融合模塊(channel fusion module,CFM)中,通過學習多模態(tài)圖像特征通道間的非線性交互,利用一種加權融合的方式實現(xiàn)沿通道維度的長距離依賴關系建模。
圖8 NANet網(wǎng)絡和MNAM模塊結構圖Fig.8 Structures of NANet and MNAM((a)NANet;(b)MNAM)
Chen 等人(2021)提出了一種全局—局部傳播網(wǎng)絡(global-local propagation network,GLPNet)。首先,該方法引入一種局部上下文融合模塊(local context fusion module,L-CFM),在RGB 圖像特征和深度圖像特征融合前動態(tài)地對齊這兩種特征。隨后,引入一種全局上下文融合模塊(global context fusion module,G-CFM),通過聯(lián)合建模多模態(tài)圖像特征的全局上下文信息,以實現(xiàn)深度信息到RGB 信息的傳播。該方法利用上下文信息實現(xiàn)了多模態(tài)圖像特征間的傳播,進而提升了模型對多模態(tài)圖像互補信息的利用能力,實現(xiàn)了較為準確的語義分割預測。
基于多模態(tài)圖像特征融合的方法和基于上下文信息挖掘的方法充分利用了RGB 圖像和深度圖像間的互補特性,有效提升了語義分割精度。然而,這些方法需要通過單獨的編碼器提取深度圖像特征,不可避免地增加了模型復雜度,進而導致其在實際場景中的應用受限??紤]到上述問題,基于深度信息引導的方法選擇將深度信息嵌入到RGB 圖像特征的提取過程中,在利用深度圖像提供的三維信息的同時,在一定程度上實現(xiàn)了模型輕量化。
Wang 和Neumann(2018)提出了一種深度感知卷積神經(jīng)網(wǎng)絡(depth-aware convolutional neural networks,D-CNN),利用卷積神經(jīng)網(wǎng)絡處理空間信息的本質(zhì),將深度圖像中的三維場景信息無縫地集成到RGB 圖像特征提取過程中。該方法提出了一種深度感知卷積層和一種深度感知平均池化層,以替代RGB 圖像編碼器中的普通卷積層和平均池化層,能夠在不引入任何參數(shù)和計算復雜度的情況下利用深度信息指導RGB 圖像特征提取過程。在深度感知卷積層中,考慮到深度值接近的空間位置彼此之間應具有更大的影響,該方法在普通卷積操作中添加深度相似性項,利用像素之間的深度相關性引導RGB圖像特征提取,具體計算為
式中,p0和pn分別表示RGB 圖像特征圖中一個局部網(wǎng)格的中心點坐標及其周圍的非中心點坐標,L表示該局部網(wǎng)格中非中心點坐標的集合,x表示該局部網(wǎng)格中各位置的像素值,w表示卷積核權重,F(xiàn)D表示深度相似性項,具體計算為
式中,α為常數(shù),D表示各位置的深度值。類似地,深度感知平均池化層同樣利用深度相似性項,提升模型對目標邊界的敏感性,與普通的平均池化操作不同的是,深度感知平均池化操作對池化窗口內(nèi)的每個空間位置并不是“一視同仁”的,而是根據(jù)它們之間的深度相似性賦予不同空間位置權重后再進行計算。該方法靈活地將深度信息作為引導嵌入到RGB 圖像特征提取過程中,僅需要一個“編碼器—解碼器”結構就能實現(xiàn)RGB-D 圖像語義分割,在取得與基于多模態(tài)圖像特征融合的方法和基于上下文信息挖掘的方法接近的分割精度的同時,大大降低了模型計算量和參數(shù)量,在一定程度上緩解了模型推理精度與推理速度間的矛盾,為基于深度學習的RGB-D圖像語義分割提供了全新的思路。
受D-CNN 啟發(fā),Zheng 等人(2020)提出了一種深度相似卷積層(depth-similar convolution),其實現(xiàn)方式與D-CNN 中提出的深度感知卷積層基本一致,兩者的差異在于深度相似性項的計算方式有所區(qū)別。
場景分辨率(scene-resolution)表示物體和場景的總體分辨率,在絕大多數(shù)場景中,深度信息與場景分辨率存在著相關性。一般來說,深度值較高的區(qū)域往往具有較低的場景分辨率,反之,場景分辨率較高的區(qū)域往往伴隨著較低的深度值。在場景分辨率較低的區(qū)域,物體和場景密集共存,相對于場景分辨率較高的區(qū)域,物體與場景之間的相關性將更加復雜?;诖?,Lin 等人(2017a)與Lin 和Huang(2020)提出利用深度圖像來劃分場景層次的方法,對場景分辨率較高的區(qū)域和場景分辨率較低的區(qū)域分別進行處理。該方法首先通過設定不同的深度閾值區(qū)間實現(xiàn)場景劃分,隨后,引入了一種上下文感知感受野(context-aware receptive field,CaRF),利用不同大小的超像素塊學習不同場景的相關上下文信息。通過CaRF,網(wǎng)絡能夠?qū)哂邢嗨茍鼍胺直媛实膱鼍斑M行單獨學習,進而減少不同場景間的相互影響。該方法將深度圖像作為RGB 圖像場景的劃分依據(jù),通過一種類似于圖像預處理的方式,高效地將深度信息嵌入到RGB 圖像特征學習過程中。該方法丟棄了常規(guī)的深度圖像特征提取以及多模態(tài)圖像特征融合的操作,大大降低了模型參數(shù)量和計算量,同時也取得了很好的分割效果。
Lin 等人(2020)則考慮了目標共存(object coexistence)與深度信息之間的相關性。目標共存表示類別一致的目標。在距離深度相機較遠(即深度值較高)的區(qū)域,物體通常密集共存,而距離深度相機較近(即深度值較低)的區(qū)域往往包含較少的目標和變化。該方法提出了一種可切換上下文網(wǎng)絡(switchable context network,SCN),通過自頂向下(top-down)的方式將上下文信息從低分辨率特征傳播到高分辨率特征。在上下文信息傳播過程中,該方法提出了一種基于深度信息的可切換特征聚合方案,對于具有對象密集共存的區(qū)域,采用帶有壓縮結構的分支,在保留關鍵上下文信息的同時減少干擾信息。對于目標和變化較少的區(qū)域,采用帶有擴展結構的分支進一步挖掘上下文信息。SCN 根據(jù)深度圖像與場景中目標共存情況的相關性,利用深度信息引導不同場景上下文信息的提取,為RGB-D 圖像語義分割方法提供了輕量化的思路。
部分方法由于其特殊的創(chuàng)新性難以歸納到前文提及的類別中。例如,考慮到深度圖像特征包含局部區(qū)域的幾何形狀(shape)屬性以及它的位置(base)屬性,其中形狀屬性與目標語義的聯(lián)系更強,能夠顯著影響語義分割精度,Cao 等人(2021)提出了一種形狀感知卷積層(shape-aware convolutional layer,ShapeConv)來處理深度特征。該方法首先將深度圖像特征分解為形狀分量和位置分量,然后引入兩個可學習的權值分別作用于這兩個分量,最后對這兩個分量的加權組合進行卷積。該方法能夠更為高效地利用深度圖像特征中與目標語義相關的信息,進而提升語義分割精度,此外,這種形狀感知卷積層還具有即插即用的能力,能夠直接集成到任意卷積神經(jīng)網(wǎng)絡中。
⑤蔣介石自己也承認,“國府成立以來,各種設施,百分之九十九悉依漢民之主張”(《國府紀念周蔣主席報告胡辭職經(jīng)過》,《大公報》1931年3月6日,第1張第3版)。
為了分析基于深度學習的多模態(tài)圖像語義分割算法,同時實現(xiàn)各算法性能間的直觀比較,客觀評測指標是必不可少的。與基于深度學習的RGB 圖像語義分割算法所采用的客觀評測指標類似,準確率、實時性以及復雜度通常用于綜合評估基于深度學習的RGB-D∕RGB-T 圖像語義分割模型??紤]到模型推理精度與速度之間的矛盾,參考以上3 種客觀評測指標,研究人員可以在語義分割精度滿足實際需求的情況下,根據(jù)硬件要求選擇合適的模型進行部署。
1)準確率。對于多模態(tài)圖像語義分割任務,用來衡量模型精度的客觀評測指標主要包括:類平均精度(mean accuracy per class,mAcc)和類平均交并比(mean intersection-over-union per class,mIoU)。其中,類平均精度也稱為類平均召回率(mean recall per class),用來反映語義分割預測結果與真值標簽對應像素位置的分類準確率,而類平均交并比則用來反映場景中目標的捕獲程度(即語義分割預測結果與真值標簽的重合程度)。由于現(xiàn)有的多模態(tài)圖像語義分割數(shù)據(jù)集大多存在較為嚴重的類別不平衡問題,導致類平均精度可能難以準確反映模型性能,因此,類平均交并比是目前衡量模型分割精度最為關鍵的客觀評測指標。
為了方便讀者理解,本文通過混淆矩陣中真陽性(true positive,TP)樣本、假陽性(false positive,F(xiàn)P)樣本、真陰性(true negative,TN)樣本和假陰性(false negative,F(xiàn)N)樣本的角度來描述這些常用評測指標的計算方式。假設某個語義分割數(shù)據(jù)集中共包含n種類別的標注,對于第i個類別來說,真陽性樣本表示真值標簽(ground truth)為i且被模型正確預測為i的像素個數(shù),假陽性樣本表示真值標簽不為i但被模型錯誤預測為i的像素個數(shù),真陰性樣本表示真值標簽不為i且被模型正確預測其類別的像素個數(shù),假陰性樣本表示真值標簽為i但被模型錯誤預測為其他類別的像素個數(shù)。
類平均精度首先在每個類內(nèi)計算像素類別預測精度,再取所有類的平均值作為評測指標,具體為
類平均交并比則是在每個類內(nèi)計算真實值與預測值的交集與兩者并集的比值,具體為
2)實時性。除準確率外,語義分割模型的推理速度也是同樣重要的,尤其是在工業(yè)級應用中,例如自動駕駛、地質(zhì)監(jiān)測等領域。對于模型本身來說,其推理速度往往取決于其計算量和參數(shù)量的大小,此外,模型推理速度還取決于硬件設備的計算能力。每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)反映了模型每秒能夠分割的圖像數(shù)量,往往用來作為評估模型實時性的重要評測指標。
3)復雜度。模型復雜度與其實時性是密不可分的,若模型復雜度較高,其實時性往往較差。模型復雜度通常包含模型時間復雜度和模型空間復雜度。其中,時間復雜度能夠通過模型浮點運算數(shù)量(floating point operations,F(xiàn)LOPs)反映,即模型的運算次數(shù);而空間復雜度則通過模型的參數(shù)數(shù)量(parameters)反映。如果模型的復雜度較高,在實際應用中,往往需要更多的訓練數(shù)據(jù)以及較高的硬件設備要求,才能滿足模型訓練和推理效率。
近年來,隨著深度相機和熱成像儀的普及以及圖像配準技術的發(fā)展,獲取與RGB 圖像配準的深度圖像和熱紅外圖像已不再困難。
3.2.1 RGB-D圖像語義分割數(shù)據(jù)集
圖9 NYUD v2數(shù)據(jù)集示例圖Fig.9 Examples of NYUD v2 dataset
2)SUN-RGBD(scene understanding-RGB-D)。SUN-RGBD 數(shù)據(jù)集是普林斯頓大學提出的一個有關室內(nèi)場景理解的RGB-D 圖像數(shù)據(jù)集。該數(shù)據(jù)集共包含10 335 組不同場景的室內(nèi)RGB-D 圖像,其中訓練集、驗證集和測試集分別包含2 666、2 619 和5 050 組配準的RGB-D 圖像,平均每幅圖像中包含14.2個目標。這些圖像涵蓋47個不同的室內(nèi)場景,包含800 種像素級目標類別標注,如床、椅子、鏡子、沙發(fā)、冰箱、窗戶、人等,在RGB-D 圖像語義分割任務中,現(xiàn)有方法均采用其中的38 類標注目標進行模型訓練和測試。其規(guī)模遠大于NYUD v2 數(shù)據(jù)集。SUN-RGBD 數(shù)據(jù)集和NYUD v2 數(shù)據(jù)集均是目前RGB-D 圖像語義分割領域最為常用的數(shù)據(jù)集,該數(shù)據(jù)集樣例如圖10所示。
3.2.2 RGB-T圖像語義分割數(shù)據(jù)集
1)MFNet(multi-spectral fusion network)數(shù)據(jù)集。在早期,熱成像儀主要用于軍事相關領域。Ha 等人(2017)提出了第1 個公開的大規(guī)模RGB-T 圖像語義分割數(shù)據(jù)集MFNet用于城市場景理解。該數(shù)據(jù)集包含1 569 組配準的RGB-T 圖像,其分辨率均為640 ×480 像素,其中,白天圖像為820 組,夜間圖像為749 組。同時,該數(shù)據(jù)集還提供了城市街道場景中常見的9 類目標標注,分別為背景、三角錐、人、擋車器、路緣石、自行車、汽車、凸起和護欄,能夠應用于自動駕駛領域的模型訓練。MFNet 數(shù)據(jù)集是目前RGB-T 圖像語義分割領域最常用的數(shù)據(jù)集,該數(shù)據(jù)集樣例如圖11所示。
圖11 MFNet數(shù)據(jù)集示例圖Fig.11 Examples of MFNet dataset
2)PST900(PENN subterranean thermal 900)。該數(shù)據(jù)集來自美國國防部高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)地下挑戰(zhàn)賽,主要包含洞穴和礦井下的真實場景。該數(shù)據(jù)集包含894 組配準的RGB-T 圖像,同時還包括5 類像素級目標類別標注,分別為背景、手搖鉆、背包、滅火器和幸存者,該數(shù)據(jù)集樣例如圖12所示。
1)根據(jù)已有文獻公開結果,基于深度學習的RGB-T圖像語義分割算法在MFNet數(shù)據(jù)集上的性能比較如表1 所示??梢钥闯?,在基于圖像特征增強的方法中,F(xiàn)EANet(Deng 等,2021)的語義分割準確率最高,在MFNet 數(shù)據(jù)集上mAcc 和mIoU 分別達到了73.2%和55.3%。這類方法通過設計一系列的圖像特征增強策略,能夠從包含大量噪聲以及干擾信息的圖像特征中挖掘并增強具有更高鑒別力的特征,進而為語義分割預測提供更為明確且精細的場景信息。此外,PSTNet(Shivakumar 等,2020)的性能遠低于其他兩種方法,這意味著通過增強輸入圖像間接實現(xiàn)圖像特征增強的方式不如直接對圖像特征進行增強有效,但是,其優(yōu)點在于網(wǎng)絡結構更為簡單,模型復雜度較低,對某些實際應用場景具有一定的參考價值。在基于多模態(tài)圖像特征融合的方法中,GMNet(Zhou等,2021b)的語義分割準確率最高,在MFNet 數(shù)據(jù)集上mAcc 和mIoU 分別達到了74.1%和57.3%。這類方法往往能夠取得較高的語義分割精度,通過利用RGB 圖像特征和熱紅外圖像特征間的互補特性,能夠有效彌補單一模態(tài)圖像存在的缺陷,在不良光照及天氣條件下顯著提升語義分割精度。在基于多層級圖像特征交互的方法中,MFFENet(Zhou等,2022)的語義分割準確率最高,在MFNet 數(shù)據(jù)集上mAcc 和mIoU 分別達到了74.3%和57.1%。這類方法通過多層級圖像特征的交互挖掘豐富的上下文信息,對于場景中不同尺度的目標都有良好的分割表現(xiàn),進而顯著提升模型語義分割精度。從表1 可以看出,在MFNet 數(shù)據(jù)集上,目前性能最優(yōu)的算法是GMNet 和MFFENet。此外,部分方法還存在mIoU 較高但mAcc 較低的現(xiàn)象,如AFNet(Xu等,2021)和MMNet(Lan 等,2022)。由于MFNet 數(shù)據(jù)集中存在嚴重的類別不平衡問題,例如,標簽類別為護欄的像素數(shù)目僅占總像素的0.095%,這使得護欄這一類的Acc 很難得到準確評估,進而導致mAcc難以準確反映模型的性能。相比之下,mIoU 的結果則更具參考性。
表1 不同RGB-T圖像語義分割模型在MFNet數(shù)據(jù)集上的性能比較Table 1 Performance comparisons of different RGB-T semantic segmentation methods on the MFNet dataset
2)基于深度學習的RGB-T 圖像語義分割算法在PST900 數(shù)據(jù)集上的性能比較如表2 所示。在基于圖像特征增強的方法中,EGFNet(Zhou 等,2021a)性能最優(yōu),在PST900 數(shù)據(jù)集上能夠達到mAcc 94.02%和mIoU 78.51%的準確率。在基于多模態(tài)圖像特征融合的方法中,GMNet(Zhou 等,2021b)性能最優(yōu),在PST900 數(shù)據(jù)集上達到了mAcc 89.61%和mIoU84.12%的準確率。在基于多層級圖像特征交互的方法中,MFFENet(Zhou 等,2022)性能最優(yōu),在PST900 數(shù)據(jù)集上達到了mAcc 75.60%和mIoU 78.98%的準確率。從表2 結果可以看出,EGFNet 的mAcc最優(yōu),而GMNet 的mIoU最優(yōu)。
表2 不同RGB-T圖像語義分割模型在PST900數(shù)據(jù)集上性能比較Table 2 Performance comparisons of different RGB-T semantic segmentation methods on the PST900 dataset
3)基于深度學習的RGB-D 圖像語義分割算法在NYUD v2數(shù)據(jù)集上的性能比較如表3所示。在基于多模態(tài)圖像特征融合的方法中,直觀來看,RDFNet(Lee 等,2017)的mAcc 最優(yōu),達到了62.8%,而TCDNet(Yue 等,2021)的mIoU 最優(yōu),達到了53.1%。對比來看,通過設計更為有效的多模態(tài)圖像特征融合模塊,基于多模態(tài)圖像特征融合的方法性能逐年提升。相對于早期利用求和或級聯(lián)等簡單融合方式的模型,針對RGB-D 圖像互補特性精心設計的融合策略能夠挖掘兩種模態(tài)圖像中的有效信息,進而顯著提升語義分割準確率。特別地,以抑制深度圖像噪聲及干擾信息為側(cè)重點的SA Gate(Chen 等,2020)和TCDNet(Yue 等,2021)均取得了很好的性能,這得益于兩者對深度圖像成像特性的分析,進而更全面地發(fā)揮深度圖像的優(yōu)勢。在基于上下文信息挖掘的方法中,GLPNet(Chen 等,2021)的mAcc 和mIoU 分別達到了66.6%和54.6%,不僅是該類方法中性能最優(yōu)的,也是所有方法中性能最優(yōu)的。已經(jīng)證明的是,上下文信息無論是在單模態(tài)圖像語義分割任務還是多模態(tài)圖像語義分割任務都能夠顯著提升模型性能,通過挖掘上下文信息,模型能夠更好地感知場景中不同尺度的目標,因此,這類方法在目標尺度及種類繁雜的復雜場景下往往有較好的表現(xiàn)。在基于深度信息引導的方法中,Zig-Zag(Lin 和Huang,2020)的mAcc 和mIoU 分別達到了64.0%和51.2%,是該類方法中最優(yōu)的。這類方法將深度圖像作為引導信息,不需要提取深度圖像特征,大大降低了模型復雜度,使其在實際應用中更加靈活。但是,這類方法由于缺乏對深度信息的充分利用,其性能往往不如其他類方法。此外,該類方法往往還需要比其他類方法更復雜的預處理流程,這也是實際應用過程中所要面臨的挑戰(zhàn)。例如,Zig-Zag 需要統(tǒng)計數(shù)據(jù)集中深度值的范圍,再人工設定相應的閾值區(qū)間以劃分不同的場景。
表3 不同RGB-D圖像語義分割模型在NYUD v2數(shù)據(jù)集上性能比較Table 3 Performance comparisons of different RGB-D semantic segmentation methods on the NYUD v2 dataset
4)部分基于深度學習的RGB-D 圖像語義分割算法在SUN-RGBD 數(shù)據(jù)集上的性能比較如表4 所示。在基于多模態(tài)圖像特征融合的方法中,以mAcc為參考指標,RDFNet(Lee等,2017)達到了60.1%的最優(yōu)性能,以mIoU 為參考標準,TCDNet(Yue 等,2021)達到了49.5%的最優(yōu)性能。在基于上下文信息挖掘的方法中,GLPNet(Chen 等,2021)性能最優(yōu),其mAcc和mIoU分別達到了63.3%和51.2%。在基于深度信息引導的方法中,Zig-Zag 的性能達到了mAcc62.9%和mIoU51.8%。從表4 結果可以看出,在所列舉的方法中,GLPNet的mAcc最優(yōu),而Zig-Zag的mIoU最優(yōu)。
表4 不同RGB-D圖像語義分割模型在SUN-RGBD數(shù)據(jù)集上性能比較Table 4 Performance comparisons of different RGB-D semantic segmentation methods on the SUN-RGBD dataset
本文從目前已有算法的核心思想出發(fā),詳細介紹了基于深度學習的RGB-D 圖像語義分割算法和RGB-T圖像語義分割算法的研究現(xiàn)狀。隨著傳感器技術與深度學習技術的不斷發(fā)展,未來的研究方向包含但不局限于以下幾個方面。
1)可見光—點云(RGB-point cloud)語義分割。相較于深度圖像,點云數(shù)據(jù)包含更多三維場景信息。然而,點云數(shù)據(jù)與RGB 圖像存在著巨大差異,如何將三維的點云數(shù)據(jù)中所包含的信息與二維的RGB圖像信息結合,以利用兩者的互補特性,是未來的研究方向之一。
2)可見光—深度—熱紅外(RGB-D-T)圖像語義分割。由于成像機理不同,RGB 圖像、深度圖像以及熱紅外圖像都有著各自獨特的優(yōu)勢,如何利用三者之間的互補特性聯(lián)合實現(xiàn)場景信息感知,進而在多樣化場景下獲取精確的語義分割結果,是未來的研究熱點之一。
3)多模態(tài)圖像實時語義分割?,F(xiàn)有方法在語義分割準確率方面已經(jīng)取得了顯著提升,然而,在自動駕駛、視頻監(jiān)控等實際應用領域,不僅對算法的準確率有著較高的要求,還對算法參數(shù)量以及推理速度有著嚴格的限制。因此,如何平衡模型性能和推理速度之間的矛盾,在保證語義分割準確率的情況下,利用輕量化等技術簡化模型,提升模型推理速度,是未來實際生產(chǎn)生活中所必須考慮的問題之一。
4)多模態(tài)視頻語義分割。視頻中所包含的時序信息是圖像所沒有的,在智能交通、智能監(jiān)控等實際應用中,幀與幀之間的關系往往能夠幫助模型更好地實現(xiàn)場景理解。目前還鮮有RGB-D∕RGB-T 視頻語義分割的工作,未來仍需對該領域進一步探索。
5)其他多模態(tài)圖像語義分割。除RGB-D∕RGBT 圖像語義分割兩種主流的多模態(tài)圖像語義分割任務外,多模態(tài)圖像語義分割還包括可見光—偏振(RGB-polarization,RGB-P)圖像語義分割、可見光—事件(RGB-event,RGB-E)圖像語義分割等。偏振光圖像和事件圖像等同樣能夠為RGB 圖像補充不同類型的場景信息,具有提升模型場景理解能力的潛力。
6)弱監(jiān)督∕半監(jiān)督∕無監(jiān)督學習。由于多模態(tài)圖像間的互補特性,其標注工作需要耗費比單模態(tài)圖像更高的人力及時間成本。考慮到目前基于RGBD∕RGB-T 圖像的語義分割數(shù)據(jù)集仍面臨數(shù)據(jù)量較少、標注困難以及場景較單一等問題,基于弱監(jiān)督∕半監(jiān)督∕無監(jiān)督學習的多模態(tài)圖像語義分割研究是未來主要的發(fā)展趨勢之一。
隨著傳感器技術以及圖像配準技術的不斷發(fā)展,以RGB-D 圖像語義分割和RGB-T 圖像語義分割為代表的多模態(tài)圖像語義分割逐漸成為計算機視覺領域的研究熱點之一。首先,本文詳細論述了目前基于深度學習的RGB-D 圖像語義分割算法和RGBT 圖像語義分割算法,并對它們進行全面分類和比較。其次,本文介紹了多模態(tài)圖像語義分割領域常用的客觀評測指標以及數(shù)據(jù)集,并對現(xiàn)有方法在各個數(shù)據(jù)集上的性能進行了整理以及對比分析。最后,本文還對多模態(tài)圖像語義分割未來的研究方向進行思考與展望,以期為廣大研究者提供一些參考和幫助。