国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合注意力機制和多尺度特征的圖像語義分割

2022-11-20 12:54:20姚慶安劉力鳴馮云叢金鎮(zhèn)君
關(guān)鍵詞:尺度注意力語義

姚慶安, 張 鑫, 劉力鳴, 馮云叢, 金鎮(zhèn)君

(長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院, 長春 130012)

圖像語義分割的目標(biāo)是將場景圖像分割為若干有意義的圖像區(qū)域, 并對不同圖像區(qū)域分配指定標(biāo)簽. 因此, 如何提高語義分割精度是圖像語義分割的關(guān)鍵. 全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks for semantic segmentation, FCN)[1]由于其強大的特征學(xué)習(xí)及表達能力目前已成為圖像語義分割問題的首選方法. 圖像語義分割方法大部分基于FCN, 其中很多網(wǎng)絡(luò)結(jié)構(gòu)都有效提升了語義分割的性能, 但圖像語義分割的發(fā)展仍存在如下問題: 1) 網(wǎng)絡(luò)不斷加深, 連續(xù)下采樣導(dǎo)致像素值大幅度丟失, 嚴重削減了上下文語義信息, 并在上采樣過程中難以恢復(fù); 2) 圖像多目標(biāo)分割任務(wù)中感受野不同以及高、 低階網(wǎng)絡(luò)間的信息差異性, 導(dǎo)致圖像有效信息嚴重丟失.

針對上述問題, 本文提出一種融合注意力機制和多尺度特征的圖像語義分割方法, 以ResNet-101[2]為主干網(wǎng)絡(luò), 采用編碼器-解碼器結(jié)構(gòu)提高精度. 該模型主要包括3個模塊: 改進的帶孔空間金字塔池化模塊(reshape atrous spatial pyramid pooling, RASPP), 采用更密集的空洞率融合多尺度特征, 提取圖像語境信息; 注意力細化模塊(attention refinement model, ARM), 監(jiān)督特征信息的學(xué)習(xí), 增加上下文語義的關(guān)聯(lián)性; 基于注意力的特征融合模塊(attention-based feature fusion model, A-FFM), 采用通道監(jiān)督有針對性地指導(dǎo)高、 低階有用信息的融合, 提升網(wǎng)絡(luò)泛化能力. 本文采用改進的帶孔空間金字塔池化模塊, 可捕獲多尺度特征的語義信息, 提升多尺度目標(biāo)下有意義特征信息的分割精度; 通過引入注意力機制模塊, 用注意力細化融合模塊, 監(jiān)督上下文信息引導(dǎo)語義特征的學(xué)習(xí), 并設(shè)計基于注意力的融合模塊, 通過對重要通道的監(jiān)督學(xué)習(xí)引導(dǎo)高、 低階特征融合, 提高了模型的泛化能力; 實驗過程中使用1×1卷積減少了參數(shù)計算量, 并在數(shù)據(jù)集Cityscapes上取得了72.62%的實驗結(jié)果, 證實了模型的魯棒性.

1 相關(guān)工作

1.1 編碼器-解碼器結(jié)構(gòu)

全卷積網(wǎng)絡(luò)FCN[1]推動了語義分割研究的發(fā)展. 編碼器-解碼器結(jié)構(gòu)也被整合完善用于計算機視覺領(lǐng)域, 如Ronneberger等[3]提出了U-Net, 通過跳躍連接將編碼器-解碼器中的特征圖進行拼接, 有效融合了對應(yīng)層級間的特征信息; Badrinarayanan等[4]提出了SegNet, 在編碼階段保留最大池化值和最大索引, 在解碼階段利用最大索引位置信息上采樣得到稠密特征圖. 目前, 編碼器-解碼器作為一種通用的框架模型已廣泛應(yīng)用于各領(lǐng)域. 本文采用編碼器-解碼器結(jié)構(gòu)實現(xiàn)網(wǎng)絡(luò)設(shè)計.

1.2 注意力機制

受人類注意力機制的啟發(fā), 希望網(wǎng)絡(luò)能自動學(xué)習(xí)到圖片中需要關(guān)注的目標(biāo)信息, 抑制其他無用信息. Hu等[5]提出了SENet, 采用通道注意力對各通道進行學(xué)習(xí), 并將所學(xué)結(jié)果用于指導(dǎo)特征圖, 進行調(diào)整; Woo等[6]提出了CBAM, 通過構(gòu)建空間、 通道兩個注意力子模塊, 綜合信息獲得更全面可靠的的注意力信息. 目前, 自然語言處理領(lǐng)域中的Transformer[7-9]在計算機視覺領(lǐng)域也得到廣泛關(guān)注. 注意力機制在圖像語義分割中應(yīng)用廣泛, 本文采用注意力機制模塊監(jiān)督上下文語義信息, 引導(dǎo)特征學(xué)習(xí).

1.3 多尺度融合

特征融合可補充像素值的缺失, 常被用于圖像語義分割中. Zhao等[10]提出了PSPNet, 通過級聯(lián)不同步長的全局池化操作(即金字塔池化模塊)融合多尺度特征, 實現(xiàn)了高質(zhì)量的像素級場景解析; Chen等[11-14]提出了通過DeepLab系列優(yōu)化帶孔金字塔池化(atrous spatial pyramid pooling, ASPP)模塊用于融合尺度目標(biāo)的處理, 有效改善了多尺度分割目標(biāo)的任務(wù); Lin等[15]提出了表示圖像特征的金字塔網(wǎng)絡(luò), 以融合上下文語義信息, 組合成新的特征, 解決了目標(biāo)物體性能不佳的問題. 為提高多尺度物體分割的性能, 本文通過改進RASPP融合多尺度信息提取語義信息, 并設(shè)計A-FMM模塊監(jiān)督高、 低階特征融合, 以提高模型的泛化能力.

2 算法結(jié)構(gòu)

2.1 網(wǎng)絡(luò)體系結(jié)構(gòu)

本文提出的模型旨在解決圖像語義分割中多尺度類別下目標(biāo)分割率低、 圖像上下文特征信息關(guān)聯(lián)性差的問題. 網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示. 網(wǎng)絡(luò)的主體為編碼器-解碼器結(jié)構(gòu), 以ResNet-101拓撲結(jié)構(gòu)為基準. 編碼階段下采樣到原圖的1/16, 先將下采樣結(jié)果輸入到RASPP模塊, 提高多尺度目標(biāo)類別信息的利用率, 然后通過1×1卷積優(yōu)化特征圖信息. 解碼階段包含兩部分: 1) 用ARM模塊捕獲解碼器淺層網(wǎng)絡(luò)的上下文信息; 2) 先將編碼結(jié)果特征圖上采樣到同層特征圖的大小, 再將同層特征圖通過A-FFM進行特征融合, 削減高、 低階特征語義間直接跨層融合導(dǎo)致信息丟失的問題. 最后輸出得到分割結(jié)果圖.

圖1 網(wǎng)絡(luò)整體架構(gòu)

2.2 RASPP

RASPP模塊在保留全局平均池化和1×1卷積不變的情況下, 可降低維度、 減少參數(shù)量, 并采用稠密空洞率實現(xiàn)多目標(biāo)分割, 如圖1中RASPP模塊所示. 將RASPP模塊的輸入用

(1)

其中: 空洞卷積在不增加參數(shù)量的情況下增大了感受野, 在保證圖像分辨率的同時可有效捕獲更大范圍的類別信息[16]; 采用更稠密的空洞率可捕獲更多多尺度目標(biāo)物體的細節(jié)信息.

2.3 注意力模塊

由于網(wǎng)絡(luò)深度不同, 其特征圖各通道承載的特征信息也不相同, 將網(wǎng)絡(luò)深、 淺層特征圖直接求和或拼接會導(dǎo)致大量特征信息的丟失, 影響分割精度.因為前者包含大量的抽象語義信息, 后者更多的是位置細節(jié)信息.因此, 本文提出添加ARM模塊和A-FFM模塊, 分別如圖2和圖3所示. 前者用于細化特征圖的上下文關(guān)聯(lián)信息, 后者根據(jù)各通道承載信息對預(yù)測目標(biāo)貢獻的大小, 有針對性的強化重要特征并進行突出學(xué)習(xí), 以進一步提高模型的學(xué)習(xí)、 泛化能力.

圖2 注意力細化模塊

圖3 注意力機制下的特征融合

ARM模塊用公式可表示為

(2)

設(shè)編碼器中淺層位置信息為Xi∈c×h×w(c表示通道數(shù),h和w分別表示特征映射的高度和寬度), 將其輸入到ARM模塊中,Xi依次經(jīng)過全局池化、 1×1卷積、 批標(biāo)準化和Sigmoid激活函數(shù), 得到輸出結(jié)果再將與輸入特征Xi相乘, 輸出結(jié)果

(3)

其中G表示全局池化,C表示1×1卷積,B表示批標(biāo)準化(batch normal),S表示Sigmoid激活函數(shù).

A-FFM模塊用公式可表示為

(4)

(5)

(6)

其中R表示Relu激活函數(shù).

3 實 驗

3.1 實驗設(shè)計

3.1.1 數(shù)據(jù)集

數(shù)據(jù)集Cityscapes[17]提供了50個不同城市街景記錄的立體視頻序列, 包含20 000張弱注釋圖片和5 000張高質(zhì)量的弱注釋圖片. 圖片像素為1 024×2 048, 涵蓋各時間及天氣變化情形下的街景, 共19個語義類別用于訓(xùn)練和評估.

數(shù)據(jù)集CamVid[18]由車載攝像頭拍攝得到的5個視頻序列組成, 提供了不同時段701張分辨率為960×720的圖片和32個類別的像素級標(biāo)簽, 包括汽車、 行人、 道路等. 數(shù)據(jù)集中道路、 天空、 建筑物等尺度大, 汽車、 自行車、 行人等尺度小, 待分割物體豐富.

3.1.2 評價指標(biāo)

采用平均交并比(mean pixel accuracy, MIoU)[19]作為語義分割質(zhì)量的評價標(biāo)準. MIoU是分割結(jié)果真值的交集與其并集的比值, 按類計算后取平均值, 用公式可表示為

(7)

其中pii表示正確分類的像素個數(shù),pij表示本應(yīng)屬于第i類卻被分為第j類的像素個數(shù),n為類別數(shù).

3.1.3 實驗參數(shù)設(shè)置

實驗基于Pytorch網(wǎng)絡(luò)框架使用Python3.7編寫實現(xiàn). 計算機系統(tǒng)為CentOs7.9, 圖形處理器為NVIDIA TITAN XP(4塊), 加速庫為Cuda10.2. 在數(shù)據(jù)集Cityscapes和CamVid上對模型進行微調(diào), 以加快模型收斂速度, 同時采用隨機梯度下降法對模型進行訓(xùn)練, 設(shè)基礎(chǔ)學(xué)習(xí)率為1×10-4, 動量為0.9, 將輸入圖片進行裁剪.

3.2 實驗結(jié)果與性能分析

3.2.1 模型性能對比

為衡量模型的有效性, 本文在Cityscapes驗證集上進行實驗, 并與DeepLab v3+,SegNet,FCN-8s模型進行對比. 實驗結(jié)果列于表1. 由表1可見, 本文模型比其他模型的結(jié)果更優(yōu), 在相同主干網(wǎng)絡(luò)下, 比DeepLab v3+的預(yù)測結(jié)果高1.14%, 比FCN-8s的預(yù)測結(jié)果高7.42%.

表1 在Cityscapes驗證集上不同模型的性能實驗結(jié)果

為更直觀展示本文模型的優(yōu)越性, 將DeepLab v3+和本文模型進行可視化展示, 結(jié)果如圖4所示. 由圖4中第一、 第二列的圖片可見: DeepLab v3+模型處理近處目標(biāo)分割邊界粗糙, 對遠處目標(biāo)細節(jié)丟失嚴重, 而本文模型很好地彌補了上述不足, 準確地捕獲了細節(jié)信息, 解決了分割模糊和漏分割問題; 對比圖4中第三列可見, 本文模型能正確分割遠處建筑物的細節(jié)信息; 對比圖4中第四列可見, 本文模型成功避免了誤分割和模糊分割的問題. 實驗結(jié)果表明, 本文模型能更好地保留圖像細節(jié)信息, 使預(yù)測結(jié)果更準確和全面. 用本文模型對測試集的分割結(jié)果進行可視化展示如圖5所示.

圖4 Cityscapes驗證集上圖片分割示例

圖5 Cityscapes測試集上圖片分割示例

3.2.2 消融實驗

RASPP是在ASPP基礎(chǔ)上使空洞率稠密化, 本文采用控制變量法進行實驗, 實驗結(jié)果列于表2, 測試集Cityscapes上ASPP模塊性能對比如圖6所示. 由表2可見, 通過將DeepLab v3+原有空洞率(1,6,12,18)稠密化為(1,3,6,9,12,24), 本文提出密集型感受野相對于DeepLab v3+原有的感受野提高了0.59%. 由圖6可見, RASPP在兼顧多類別信息的同時有效捕獲了多尺度細節(jié)信息, 也為后續(xù)高、 低階特征圖的融合提供了較高分辨率的語義特征圖.

表2 ASPP模塊改進前后性能對比

圖6 Cityscapes測試集上ASPP模塊性能對比

為驗證本文提出的RASPP,ARM和A-FFM的有效性, 使用數(shù)據(jù)集Cityscapes進行逐層消融實驗, 對比指標(biāo)為MIoU, 消融實驗結(jié)果列于表3, 消融過程中各模塊可視化結(jié)果如圖7所示.

表3 在數(shù)據(jù)集Cityscapes上不同改進方案的性能分析

圖7 Cityscapes測試集上消融實驗結(jié)果

由表3可見, RASPP模塊將網(wǎng)絡(luò)的MIoU從63.49%提升到69.25%, 有效提高了多目標(biāo)物體的分割精度, 而注意力機制模塊ARM和A-FFM的引入, 對不同層信息充分保留的同時極大削減了各特征層之間的語義差異, 最后達到MIoU為72.62%的結(jié)果輸出, 體現(xiàn)了本文算法的優(yōu)越性.

3.2.3 泛化實驗

為進一步檢驗本文模型的泛化能力, 將RASPP,ARM和A-FFM模塊分別添加到FCN和DeepLab v3+等模型中, 在數(shù)據(jù)集Cityscapes上可達到MIoU為65.71%和72.62%的精確度, 驗證了本文模型有一定的可適性.

下面在小數(shù)據(jù)集CamVid上進行實驗, 同樣采用MIoU作為評價指標(biāo), 實驗結(jié)果列于表4. 由表4可見, 本文模型相比DeepLab v3+其MIoU提高0.57%, 相對于SegNet提高9.28%, 證實了本文模型具有泛化能力.

表4 在數(shù)據(jù)集CamVid上不同模型的性能對比

綜上所述, 針對圖像語義分割中空間信息易丟失、 多尺度類別下目標(biāo)分割率較低的問題, 本文提出了一種融合注意力機制和多尺度特征的圖像語義分割方法. 通過改進ASPP模塊, 提供了更豐富的尺度多樣性, 從而提高了類別信息利用率; 使用ARM模塊監(jiān)督上下文語義信息的提取, 細化了信息邊界; A-FFM模塊通過降低高、 低階特征圖之間的融合差異, 有針對性地減少特征丟失以增強模型的泛化能力, 并在不同數(shù)據(jù)集上對本文模型結(jié)構(gòu)的魯棒性進行了驗證.

猜你喜歡
尺度注意力語義
讓注意力“飛”回來
財產(chǎn)的五大尺度和五重應(yīng)對
語言與語義
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
9
語義分析與漢俄副名組合
菏泽市| 徐汇区| 苍山县| 许昌县| 吉木萨尔县| 赞皇县| 阳信县| 通海县| 东平县| 沂南县| 长寿区| 故城县| 恩平市| 万源市| 顺义区| 文化| 和龙市| 夹江县| 荔浦县| 德兴市| 遂昌县| 历史| 华池县| 白水县| 太康县| 徐汇区| 黄大仙区| 盈江县| 枣庄市| 房产| 鄱阳县| 灵武市| 金门县| 全州县| 旅游| 昌图县| 建德市| 清河县| 和静县| 临沧市| 景洪市|