国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DeepLab V3+改進(jìn)的圖像語(yǔ)義分割模型

2021-12-17 00:56徐志凡杜洪波韓承霖李恒岳祁新林凱迪黎詩(shī)
關(guān)鍵詞:解碼器編碼器卷積

徐志凡,杜洪波,韓承霖,李恒岳,祁新,林凱迪,黎詩(shī)

(沈陽(yáng)工業(yè)大學(xué) 理學(xué)院,沈陽(yáng) 110870)

0 引言

圖像語(yǔ)義分割在計(jì)算機(jī)視覺(jué)領(lǐng)域起著重要的作用,在虛擬現(xiàn)實(shí)[1-2]、醫(yī)學(xué)影像[3-4]、人機(jī)交互[5-6]等領(lǐng)域有著越來(lái)越普遍的應(yīng)用。

深度學(xué)習(xí)[7]與傳統(tǒng)語(yǔ)義分割算法的結(jié)合,使圖像語(yǔ)義分割精度得到極大的提升。全卷積網(wǎng)絡(luò)(FCN)[8]為最初與深度學(xué)習(xí)結(jié)合的網(wǎng)絡(luò),其是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的擴(kuò)展,為減少計(jì)算量FCN 將CNN 中的全連接層轉(zhuǎn)化為卷積層。但FCN 產(chǎn)生的分割圖較為粗略。SegNet[9]為了提高效果,復(fù)制了最大池化指數(shù),引入更多的跳躍連接。這些語(yǔ)義分割模型在空間分辨率方面有著明顯的缺陷,于是RefineNet[10]利用殘差連接的思想,降低了內(nèi)存使用量,提高了模塊間的特征融合。由于基于FCN 的很多架構(gòu)都未引入充分的全局信息,PSPNet[11]提出了一個(gè)金字塔池化模塊,充分利用了局部信息與全局信息,使得最后的分割結(jié)果更加精確。綜上所述可以發(fā)現(xiàn),提高圖像語(yǔ)義分割的精確度是目前的主要研究方向和熱點(diǎn)。

Google 團(tuán)隊(duì)自2015 起提出了一系列DeepLab模型[12-15],在語(yǔ)義分割領(lǐng)域有著重要作用。雖然其中的DeepLab V3+模型的分割效果最優(yōu),但其在解碼器部分對(duì)于特征圖的多尺度連接不夠充分,使最終的語(yǔ)義分割圖的分割精細(xì)度尚有提高的空間。本文據(jù)此提出了一種基于DeepLab V3+改進(jìn)的模型,優(yōu)化了編碼器與解碼器部分,在公開(kāi)數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明MIoU 相較于原模型有所提高。

1 DeepLab V3+模型與改進(jìn)

1.1 DeepLab V3+基礎(chǔ)模型

DeepLab V3+網(wǎng)絡(luò)模型為編解碼結(jié)構(gòu)。編碼器部分的基礎(chǔ)網(wǎng)絡(luò)ResNet101 提取圖像特征,生成語(yǔ)義特征圖;ASPP 模塊則將空洞卷積與SPP 進(jìn)行結(jié)合,對(duì)生成的特征圖進(jìn)行不同擴(kuò)張率的空洞卷積采樣,將得到的特征圖concat 融合后進(jìn)行1x1 的卷積,最后得到具有高級(jí)語(yǔ)義信息的特征圖。解碼器從基礎(chǔ)網(wǎng)絡(luò)ResNet101 的某一個(gè)block 中提取一張帶有低級(jí)語(yǔ)義信息的特征圖,將其與編碼器所得的高級(jí)語(yǔ)義特征圖進(jìn)行concat 融合,最后進(jìn)行上采樣得到與輸入圖像同樣大小的語(yǔ)義分割圖。該模型結(jié)構(gòu)如圖1 所示。

圖1 DeepLab V3+模型結(jié)構(gòu)圖Fig.1 DeepLab V3+model structure diagram

1.2 改進(jìn)的DeepLab V3+模型

對(duì)于語(yǔ)義分割來(lái)說(shuō),在計(jì)算量減少的同時(shí)分割精細(xì)度越高越好。雖然DeepLab V3+算法可以達(dá)到較高的分割精細(xì)度,但其在解碼器部分對(duì)于特征圖的多尺度連接并不充分,僅有高級(jí)語(yǔ)義特征圖與低級(jí)語(yǔ)義特征圖的連接會(huì)使模型的學(xué)習(xí)能力不足。為了提高模型的學(xué)習(xí)能力,得到更為精細(xì)的語(yǔ)義分割圖,且在不增加計(jì)算量的前提下,可利用編碼器結(jié)構(gòu)中的ASPP 模塊,增加中級(jí)語(yǔ)義特征圖。雖然在ASPP 模塊中對(duì)基礎(chǔ)網(wǎng)絡(luò)中得到的特征圖進(jìn)行了多尺度信息的提取,但是不同尺度的特征圖包含的信息是不同的,且不同尺度的特征圖中的信息差異較大,統(tǒng)一進(jìn)行融合后很難學(xué)習(xí)。為此,本文模型引入中級(jí)語(yǔ)義特征圖。中級(jí)語(yǔ)義特征圖含有豐富的語(yǔ)義信息,使得解碼器部分高級(jí)語(yǔ)義特征圖與低級(jí)語(yǔ)義特征圖的連接更為平滑,保留了更多的細(xì)節(jié)信息。經(jīng)實(shí)驗(yàn)對(duì)比,改進(jìn)后的模型分割精度有所提高。

在不增加計(jì)算量的前提下對(duì)編碼器中的ASPP模塊進(jìn)行改進(jìn),一方面先將基礎(chǔ)網(wǎng)絡(luò)ResNet101 所得的語(yǔ)義特征圖并行處理,采用擴(kuò)張率分別為6、12、18 的3x3 卷積提取特征,將多尺度信息做concat融合處理,并通過(guò)1x1 卷積,調(diào)整中級(jí)語(yǔ)義特征圖在語(yǔ)義分割預(yù)測(cè)圖中所占的比重。另一方面將ASPP模塊前兩層輸出的特征圖同樣以concat 融合處理得到高級(jí)語(yǔ)義特征圖,并和中級(jí)語(yǔ)義特征圖一起輸入到解碼器部分,為圖像語(yǔ)義分割做準(zhǔn)備。改進(jìn)后的整體模型的結(jié)構(gòu)如圖2 所示。

圖2 改進(jìn)的DeepLab V3+模型圖Fig.2 Improved DeepLab V3+model diagram

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)仿真環(huán)境為 python3.6、Anaconda3、TensorFlow1.15、Keras2.2.4。硬件環(huán)境為深度學(xué)習(xí)GPU 運(yùn)算塔式服務(wù)器主機(jī),采用可支持兩個(gè)INTEL XEON SP 的可擴(kuò)展處理器(10 核/20 線(xiàn)程2.2G),內(nèi)存為雙16G(24 個(gè)DIMM 插槽),GPU 使用1 塊GeForce RTX3070。

2.2 數(shù)據(jù)集

實(shí)驗(yàn)采用測(cè)試圖像語(yǔ)義分割任務(wù)模型性能的2個(gè)主流圖像數(shù)據(jù)集:COCO 2017 數(shù)據(jù)集[16]、PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集[17]。其中COCO 2017 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集用于對(duì)模型進(jìn)行測(cè)試和評(píng)價(jià)。

2.3 實(shí)驗(yàn)分析

在訓(xùn)練模型開(kāi)始之前,將訓(xùn)練圖像統(tǒng)一裁剪成513x513 像素,出于高效讀取數(shù)據(jù)的考慮,將圖像轉(zhuǎn)化為T(mén)frecord 文件。為增強(qiáng)分割圖片的顯示效果,對(duì)真實(shí)結(jié)果和預(yù)測(cè)結(jié)果采用RGB 彩色圖顯示。訓(xùn)練參數(shù)見(jiàn)表1。

表1 模型參數(shù)配置Tab.1 Training parameters

學(xué)習(xí)率采用多項(xiàng)式自動(dòng)衰減,當(dāng)?shù)螖?shù)超過(guò)200 000 次,學(xué)習(xí)率為0.000 001。對(duì)損失函數(shù)采用動(dòng)量梯度下降法優(yōu)化,在PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集上共計(jì)迭代150 307次??倱p失函數(shù)為交叉熵?fù)p失,如式(1)所示:

其中:M代表類(lèi)別數(shù);yc是一個(gè)one-h(huán)ot 向量,元素只有0 和1 兩種取值(若該類(lèi)別和樣本類(lèi)別相同則取1,否則取0);pc表示預(yù)測(cè)樣本屬于c的概率。

總損失如圖3 所示。由圖中可見(jiàn),總損失在大約14 萬(wàn)次左右開(kāi)始收斂。

圖3 總損失圖Fig.3 Total loss graph

如圖4 所示,改進(jìn)后的模型不僅在單個(gè)目標(biāo)的圖像中(圖4 中第一行)有著良好的分割效果,在擁有多個(gè)目標(biāo)的圖像中(圖4 中第二行)也有不錯(cuò)的分割精細(xì)度。

圖4 改進(jìn)后模型在驗(yàn)證集上效果Fig.4 Improved performance on the validation set model

2.4 實(shí)驗(yàn)對(duì)比

通常在語(yǔ)義分割領(lǐng)域有4 種經(jīng)典評(píng)價(jià)指標(biāo):像素準(zhǔn)確度(PA)、均像素準(zhǔn)確度(MPA)、平均交并比(MIoU)以及頻權(quán)交并比(FWIoU)。本實(shí)驗(yàn)選用MPA與MIoU作為衡量標(biāo)準(zhǔn)。

(1)MPA:計(jì)算分割正確的像素?cái)?shù)量占像素總數(shù)的比例,再取平均:

(2)MIoU:計(jì)算分割圖像與原始圖像真值的重合度,再取平均:

其中,pij表示真實(shí)值為i,被預(yù)測(cè)為j的數(shù)量;pii是真正的數(shù)量;pij表示預(yù)測(cè)為真但實(shí)際為假的數(shù)量;pji表示預(yù)測(cè)為假但實(shí)際為真的數(shù)量。

3 種模型對(duì)比測(cè)試結(jié)果見(jiàn)表2。由此可見(jiàn),改進(jìn)后的DeepLab V3+模型不僅相對(duì)于PSPNet 模型在均像素精度(MPA)上提高了16.08 %,平均交并比(MIoU)提高了6.25 %,而且相對(duì)于原DeepLab V3+模型在均像素精度(MPA)上提高了0.54 %,平均交并比(MIoU)提高了0.76%,驗(yàn)證了改進(jìn)的模型有著更好的分割效果。

表2 3 種模型對(duì)比測(cè)試結(jié)果Tab.2 Comparison test results of three models

為進(jìn)一步體現(xiàn)模型的分割性能,采用模型輸出的語(yǔ)義分割圖像來(lái)對(duì)比說(shuō)明。在圖5 中:(a)為原圖,(b)為DeepLab V3+分割的效果,(c)為改進(jìn)的DeepLab V3+分割的效果。圖中黃色圈所標(biāo)注的是改進(jìn)前后二者之間的差別,驗(yàn)證改進(jìn)的DeepLab V3+分割效果更優(yōu)。例如:從圖5 中第一行可以看出,改進(jìn)的DeepLab V3+模型更為精細(xì)的分割出了飛機(jī)尾翼,而DeepLab V3+模型并沒(méi)有達(dá)到;由5 中第二行可見(jiàn),改進(jìn)的DeepLab V3+模型對(duì)鳥(niǎo)類(lèi)的頭,羽毛與尾部的邊界分割相比于DeepLab V3+更為精準(zhǔn)。這表明改進(jìn)的DeepLab V3+模型在增加了中級(jí)語(yǔ)義特征圖后模型的學(xué)習(xí)能力更強(qiáng),對(duì)邊界的分割的精細(xì)度更精準(zhǔn)。

圖5 基于兩種模型對(duì)比分割結(jié)果Fig.5 Compare segmentation results based on two models

改進(jìn)后的模型不僅分割效果更優(yōu)而且在單張圖片處理速度(MS)與模型大?。∕B)上也更優(yōu)。在單張圖片的運(yùn)行時(shí)間上,改進(jìn)后的模型速度提高約6.41%,且模型容量減少了11.2%,詳見(jiàn)表3。

表3 兩種模型對(duì)比測(cè)試結(jié)果Tab.3 Comparison test results of two models

3 結(jié)束語(yǔ)

本文針對(duì)DeepLab V3+模型在解碼器部分對(duì)于特征圖的多尺度連接不充分的問(wèn)題,提出了一種基于DeepLab V3+模型的改進(jìn)算法,該算法對(duì)DeepLab V3+網(wǎng)絡(luò)模型進(jìn)行了優(yōu)化,在解碼器部分增加了中級(jí)特征層,在COCO 2017 數(shù)據(jù)集和PASCAL VOC 2012 增強(qiáng)版數(shù)據(jù)集上進(jìn)行驗(yàn)證,結(jié)果表明改進(jìn)模型的MIoU 有所提高。但是還存在計(jì)算量過(guò)大,對(duì)于移動(dòng)端的實(shí)時(shí)分割還遠(yuǎn)遠(yuǎn)達(dá)不到要求等問(wèn)題。因此,減少計(jì)算量,輕量化模型結(jié)構(gòu)等將成為下一步的研究方向。

猜你喜歡
解碼器編碼器卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于ResNet18特征編碼器的水稻病蟲(chóng)害圖像描述生成
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
基于Android環(huán)境下的數(shù)據(jù)包校驗(yàn)技術(shù)分析
淺談SCOPUS解碼器IRD—2600系列常用操作及故障處理
卷積神經(jīng)網(wǎng)絡(luò)概述
基于TMS320F28335的絕對(duì)式光電編碼器驅(qū)動(dòng)設(shè)計(jì)
做一個(gè)二進(jìn)制解碼器
因人而異調(diào)整播放設(shè)置
常熟市| 安顺市| 芜湖市| 大方县| 揭西县| 慈溪市| 汉中市| 长葛市| 玛曲县| 仙游县| 巧家县| 博乐市| 宁城县| 商河县| 治县。| 眉山市| 申扎县| 清远市| 攀枝花市| 武强县| 集安市| 隆尧县| 阿克苏市| 开远市| 城口县| 铜陵市| 于都县| 石狮市| 桦南县| 鄂尔多斯市| 武清区| 张掖市| 进贤县| 玛曲县| 新余市| 濮阳县| 麻江县| 威宁| 天津市| 吕梁市| 普陀区|