国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合深度神經(jīng)網(wǎng)絡(luò)和空洞卷積的語義圖像分割研究

2020-01-08 01:37:04陳洪云孫作雷
關(guān)鍵詞:池化空洞分辨率

陳洪云,孫作雷,孔 薇

(上海海事大學(xué) 信息工程學(xué)院,上海 201306)

1 引 言

語義圖像分割是計算機(jī)視覺任務(wù)中圖像理解的重要環(huán)節(jié),在學(xué)術(shù)界的影響日益凸顯,現(xiàn)已成為學(xué)術(shù)界的重要研究課題之一,已經(jīng)廣泛應(yīng)用于自動駕駛系統(tǒng),醫(yī)學(xué)圖像診斷,無人機(jī)應(yīng)用以及穿戴式設(shè)備等多個領(lǐng)域.語義圖像分割技術(shù)是指利用計算機(jī)自動識別并且區(qū)分圖像中每個像素的類別,對其進(jìn)行標(biāo)注,得到不同的分割區(qū)域,具有廣泛的應(yīng)用前景和研究價值.

傳統(tǒng)的語義圖像分割方法中,Normalized cut(N-cut)分割方法是基于圖劃分的方法中最著名的方法之一,它的主要思想是通過像素間的關(guān)系權(quán)重,根據(jù)給定的閾值,將圖像一分為二,只能處理二類分割問題.同時傳統(tǒng)方法的精度和速度都比較低,且需要人工干預(yù),不能滿足各種變化場景的需求.隨著深度學(xué)習(xí)研究的不斷深入,深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的使用變成一種主流.Long等人提出了開創(chuàng)性全卷積網(wǎng)絡(luò)(fully convolution networks,F(xiàn)CN)[1]的圖像語義分割算法,該算法首次將分類網(wǎng)絡(luò)應(yīng)用到語義分割領(lǐng)域中,促進(jìn)了語義分割的快速發(fā)展.全卷積網(wǎng)絡(luò)是將傳統(tǒng)卷積網(wǎng)絡(luò)的全連接層換成卷積層,從而將圖像級別的分類延伸到像素級別的分類,在分割領(lǐng)域中取得新突破.近幾年,多種基于全卷積網(wǎng)絡(luò)改進(jìn)的圖像語義分割方法相繼被提出,如文獻(xiàn)[2-6],語義分割精度也在不斷提高.但是對于語義分割的任務(wù)[7-11],應(yīng)用DCNN仍然存在兩個挑戰(zhàn).一方面是連續(xù)的池化操作引起的特征分辨率降低,這些操作可以使得DCNN學(xué)習(xí)到越來越多的抽象特征表示,然而局部圖像變換的不變性可能妨礙密集預(yù)測的任務(wù),這種任務(wù)需要詳細(xì)的空間信息.另一方面,如何盡可能多的獲取目標(biāo)的總體特征和細(xì)節(jié)特征,即多尺度下的特征也是一大挑戰(zhàn).

為了解決這兩個挑戰(zhàn),在這篇文章中,我們提出了一種基于空洞卷積[12-14]的方法,空洞卷積的使用已經(jīng)被證明在圖像語義分割中很有效.空洞卷積,也被稱為擴(kuò)張卷積,允許重新使用ImageNet預(yù)訓(xùn)練[15]的網(wǎng)絡(luò),通過去除最后幾層的下采樣操作,向上采樣濾波器內(nèi)核,從而提取更密集的特征映射,這就相當(dāng)于在卷積核各個權(quán)重之間插入孔洞,如圖1所示.使

圖1 不同步長的3×3空洞卷積結(jié)構(gòu)圖Fig.1 3×3 Hole convolution with different steps structure diagram

用空洞卷積,能夠在DCNN不需要學(xué)習(xí)額外的參數(shù)的情況下控制特征映射的分辨率.此外,該方法還定義了一種并聯(lián)支路,用于在深層特征圖像上融合淺層特征圖像信息.基于金字塔池化模塊[16]和空洞空間金字塔池化模塊[17,18],本文提出了改進(jìn)的并行多尺度金字塔池化模塊,主要在空洞空間金字塔池化模塊中加入1×1卷積保留學(xué)習(xí)的特征和不同間隔的池化,進(jìn)行更有效的提取不同層的特征以及獲取長范圍的上下文信息,并且在該模塊加入批規(guī)范化,增強(qiáng)參數(shù)調(diào)優(yōu)的穩(wěn)定性.在這項工作中,基于空洞卷積的使用在并聯(lián)模塊和空洞空間金字塔池化的框架下,使我們能夠有效的擴(kuò)大濾波器的視野,從而獲得多尺度的圖片信息.最后,本文還采用了Adam自適應(yīng)優(yōu)化函數(shù),該優(yōu)化函數(shù)根據(jù)損失函數(shù)對每個參數(shù)的梯度的一階矩動態(tài)調(diào)整參數(shù)的學(xué)習(xí)率,使得參數(shù)在更新的過程中具有獨立性,從而提升模型的訓(xùn)練速度以及訓(xùn)練的穩(wěn)定性.

本文的其余部分組織如下,第2節(jié)總結(jié)了理解這項工作所必需的幾個相關(guān)工作,第3節(jié)介紹了模型所涉及到的算法研究,第4節(jié)詳細(xì)的介紹了實驗數(shù)據(jù)、實驗過程以及結(jié)果分析,最后,在第5節(jié)中對本文的工作進(jìn)行總結(jié).

2 相關(guān)工作

在過去的幾十年里,大部分的語義分割系統(tǒng)的研究依賴于手工設(shè)計的單一特征的傳統(tǒng)方法,但是這些傳統(tǒng)方法的精度和速度都比較低.自2012年以來,隨著深度學(xué)習(xí)的不斷發(fā)展,DCNN因其自身強(qiáng)大的學(xué)習(xí)能力,使得語義分割的研究得到了重大創(chuàng)新.

文獻(xiàn)[1]提出了一種端到端的FCN模型,用卷積層替換VGG-16中的最后三層全連接層,實現(xiàn)將圖像分類轉(zhuǎn)換成像素級分類,然后利用雙線性插值的上采樣方法將特征圖恢復(fù)到原圖大小,最后通過結(jié)合不同深度層的結(jié)果,兼顧全局和局部信息,從而實現(xiàn)語義分割的密集預(yù)測.文獻(xiàn)[13]引入了空洞卷積的使用,在不做池化損失信息的情況下,擴(kuò)大了感受野,讓每個卷積輸出都包含較大范圍的信息,解決了由于FCN中連續(xù)的池化層導(dǎo)致的分辨率降低問題.文獻(xiàn)[2]對FCN進(jìn)行改進(jìn),用3×3卷積替換7×7卷積,減少了模型參數(shù),加快了收斂速度,文中還引入了全連接CRF對邊緣像素做后處理,提升了語義分割的精度.文獻(xiàn)[17]提出了并聯(lián)的不同空洞率的空洞卷積,針對多尺度目標(biāo)的特征進(jìn)行提取,改進(jìn)了語義分割的密集預(yù)測效果.文獻(xiàn)[14]提出了空間金字塔池化模塊,通過整合不同區(qū)域的上下文來獲取全局的上下文信息.文獻(xiàn)[18]改進(jìn)了空間金字塔池化模塊,設(shè)計了一種空洞空間金字塔池化模塊,針對于多尺度物體分割,設(shè)計出級聯(lián)或并聯(lián)的池化模塊,從而獲取特征并整合多尺度信息.

這些方法從不同的方面對模型進(jìn)行改動,從而達(dá)到提升語義分割的效果,但是沒有考慮整體性.我們從多方面進(jìn)行考慮,基于ResNet引入了殘差結(jié)構(gòu),提高了收斂效果而將其作為主框架,采用并聯(lián)的不同采樣率r=6,12,18,24的空洞卷積提取多尺度的特征信息,加入批規(guī)范化計算,增強(qiáng)參數(shù)調(diào)優(yōu)的穩(wěn)定性,并且采取圖片級特征,加入卷積核為1×1的卷積用作特征圖的降維,增加一條并聯(lián)支路,用作融合深層特征和淺層特征信息,進(jìn)一步提高語義分割的精度,最后采用Adam自適應(yīng)優(yōu)化函數(shù),提升了模型訓(xùn)練速度和模型的穩(wěn)定性.

3 算法研究

在這部分,我們首先回顧在語義分割中如何使用空洞卷積進(jìn)行密集預(yù)測,然后討論基于空洞卷積進(jìn)行改進(jìn)的ASPP模塊,最后介紹文章中增加的并聯(lián)支路.

3.1 空洞卷積用于獲取密集特征和擴(kuò)大感受野

使用DCNN進(jìn)行語義分割或其他密集的預(yù)測任務(wù),已經(jīng)被證明是簡單和成功的,然而DCNN中連續(xù)的最大池化和下采樣重復(fù)的組合大大降低了最終的特征圖的空間分辨率,有些文章中是采用反卷積(也稱轉(zhuǎn)置卷積,用于擴(kuò)大特征映射分辨率),但這需要額外的空間和計算量.本文中,我們主張使用空洞卷積,它最初的思想是為有效計算非抽取小波變換算法[19]為而開發(fā)的,該算法可以實現(xiàn)以任意的特征響應(yīng)分辨率來計算特征圖的特征映射.

我們先了解一維信號,將長度為k的濾波器w[k]的一維輸入信號x[i]的空洞卷積輸出y[i]定義為:

(1)

速率參數(shù)r對應(yīng)于采樣輸入的步長.標(biāo)準(zhǔn)卷積是速率r=1的特例,如圖2(a)所示.圖2(b)是采樣率r=2的采樣情況.

圖2 一維空洞卷積結(jié)構(gòu)圖Fig.2 One-dimensional atrous convolution structure diagram

然后再來觀察空洞卷積運用在二維信號(圖片)的表現(xiàn),首先給定一個圖像:如圖3所示.上分支,我們假設(shè)首先進(jìn)行向下采樣運算,將分辨率降低2倍,然后與一個核函數(shù)卷積,在進(jìn)行上采樣得到結(jié)果.我們會發(fā)現(xiàn)我們只是得到了圖像位置的1/4處的響應(yīng).相反,下分支,我們對全分辨率圖像做空洞卷積,這樣可以計算出所有圖像位置上的響應(yīng).在該卷積中,我們將原始濾波器向上采樣2倍,并在濾波器值之間引入0.雖然有效的濾波器大小增加了,但是我們只需要考慮非零濾波器的值.在保證濾波器參數(shù)數(shù)量不變的情況下,明確的控制了神經(jīng)網(wǎng)絡(luò)特征響應(yīng)的空間分辨率.

圖3 二維空洞卷積結(jié)構(gòu)圖Fig.3 Two-dimensional atrous convolution structure diagram

文獻(xiàn)[16]中,作者通過進(jìn)行多次實驗,發(fā)現(xiàn)當(dāng)卷積核為3×3時,采樣率為12的時候,模型的效果最好,故在本文中為了達(dá)到類似的平衡,同樣采用卷積核為3×3,采樣率為12的空洞卷積.文獻(xiàn)[13]中,實驗證明空洞卷積可以擴(kuò)大濾波器的感受野,當(dāng)采樣率用r表示,卷積核用k表示,則感受野的大小為:

F=k+(k-1)(r-1)

(2)

如表1所示,當(dāng)卷積核固定時,調(diào)整采樣率的大小,可以看到在不丟失分辨率的情況下,隨著采樣率的增大感受野也在增大.

表1 不同采樣率下的感受野的變化實驗數(shù)據(jù)表
Table 1 Changes in receptive field at different sampling rates experimental data sheet

Layer 1234567Convolution3×33×33×33×33×33×33×3Dilation11248161TruncationYesYesYesYesYesYesYesReceptivefield3×35×59×917×1733×3365×6567×67

3.2 改進(jìn)ASPP模塊表示的多尺度圖像

采用圖像的多尺度信息,對于可以提高DCNN分割不同尺寸物體的精度這一方法已經(jīng)被許多工作進(jìn)行了實踐證明.回顧之前提出的ASPP模塊,采用四個并行的不同采樣率的空洞卷積,相當(dāng)于使用了多個不同視野的濾波器提取圖像特征,具有不同步長的ASPP對尺度信息的捕獲很有效果.但是,伴隨著采樣率的提高,有效的濾波器權(quán)重卻在變小.當(dāng)把一個3×3的濾波器用不同的步長應(yīng)用到65×65的特征映射中,在極端情況下,步長增大到接近特征映射的尺寸時,該濾波器便已退化成1×1濾波器,不能再捕獲整個圖像的內(nèi)容,因為只有中心濾波器的權(quán)重才是有效的.

針對上面的問題,我們將ASPP模塊結(jié)合PSP模塊進(jìn)行改進(jìn),改進(jìn)之后的模塊如圖4所示.在該模塊中,整合了全局內(nèi)容信息,同時采用了圖像級特征,每個空洞卷積提取的特征中再進(jìn)行單獨降維處理,融合每一分支特征圖.采用全局平均池化處理模型,將得到的圖像級特征輸入到一個有256個濾波器的1×1卷積中,然后進(jìn)行雙線性上采樣將特征轉(zhuǎn)化到特定的空間維度.最后,我們改進(jìn)的模塊由一個1×1卷積,和四個3×3卷積組成,步長為(6,12,18,24),輸出步長為16,所有的濾波器個數(shù)為256,并且在改模塊中加入了批規(guī)范化,最后分支處理好的特征會連接在一起通過一個1×1卷積聚合.我們改進(jìn)的ASPP模塊如圖4所示.

圖4 改進(jìn)的ASPP模塊結(jié)構(gòu)圖Fig.4 Improved ASPP module structure diagram

在2015年提出了批規(guī)范化的思想,對于每個隱層神經(jīng)元,通過一定的規(guī)范化手段,把逐漸向非線性函數(shù)映射后向極限飽和區(qū)靠攏的輸入分布強(qiáng)制拉回到標(biāo)準(zhǔn)的正態(tài)分布,以此來解決這種梯度消失的問題.使用批規(guī)范化,首先為了降低特征變量間的差異性需要對層網(wǎng)絡(luò)的輸入樣本進(jìn)行歸一化處理得到x.歸一化之后的x經(jīng)過W1的線性變換后得到s1,然后依次進(jìn)行處理得到第二層結(jié)果s2,表達(dá)式如下:

(3)

(4)

(5)

s3=*s2+β

(6)

y=RELU(s3)

(7)

3.3 增加并聯(lián)卷積支路融合淺層特征信息

對于DCNN中連續(xù)的池化操作導(dǎo)致的分辨率下降問題,F(xiàn)CN[1]網(wǎng)絡(luò)中采用跳躍架構(gòu)將Pool3、Pool4層輸出的特征圖融合進(jìn)最后的得分圖中,但最后分割圖仍然粗糙.Deeplab[17]模型是語義分割領(lǐng)域中最具代表性的模型,其主要是通過利用空洞卷積擴(kuò)大感受野的大小而不縮放圖像的尺寸,并且利用DenseCRF[20,21]對圖像進(jìn)行后處理來解決分辨率下降,這一方法雖然成功但卻存在著一定的約束性.在訓(xùn)練過程中,高分辨率特征映射的生成需要占用大量的內(nèi)存,這嚴(yán)重影響高分辨率特征映射的計算及預(yù)測.文獻(xiàn)[20]通過添加解碼器模塊來解決該問題,但是這樣會導(dǎo)致模型層數(shù)過多,難以快速學(xué)習(xí).針對于解決分辨率下降這個問題,目前的解決方法是增加并聯(lián)卷積支路,利用底層特征產(chǎn)生高分辨率預(yù)測,預(yù)測結(jié)果既包含了較低層表示,又保留了圖像的空間信息.

綜合所述,文章通過增加簡單的并聯(lián)支路融合淺層特征信息,用來改善高層語義的分割結(jié)果.該并行卷積網(wǎng)絡(luò)支路由兩部分組成,第一部分是提取DCNN主干網(wǎng)絡(luò)上的底層特征信息,由于該底層特征信息包含多個通道,所以采用1×1卷積對其進(jìn)行降維處理;第二部分是進(jìn)行4倍上采樣之后的輸出的特征信息.將這兩部分用并聯(lián)支路連接起來,進(jìn)行聚合,然后再通過1×1卷積,最后在對其進(jìn)行4倍的上采樣恢復(fù)原圖大小.這樣就對圖像完成了從粗到細(xì)的語義分割過程.

4 實驗與分析

4.1 數(shù)據(jù)集介紹

本文使用的是PASCAL VOC 2012數(shù)據(jù)集,該數(shù)據(jù)集有20類前景目標(biāo)和1類背景目標(biāo).而本文使用的是PASCAL VOC 2012數(shù)據(jù)集的增強(qiáng)版本,包含額外標(biāo)注產(chǎn)生的10582張圖像用來訓(xùn)練.評價方法是采用21類的平均像素交疊率(mIOU),即模型產(chǎn)生的目標(biāo)窗口與原標(biāo)記窗口的交疊比,具體計算方式:檢測結(jié)果與Ground Truth的交集比上它們的并集.

4.2 實驗環(huán)境

實驗方法是采用TensorFlow框架實現(xiàn)的,機(jī)器軟硬件配置見表2.這部分我們討論訓(xùn)練遵守的一些細(xì)節(jié).對于學(xué)習(xí)率,采用一種′poly′的學(xué)習(xí)策略,公式如下:

初始學(xué)習(xí)率設(shè)為0.007,迭代次數(shù)為20,最大的迭代次數(shù)設(shè)為30K,動量為0.9.使用Adam優(yōu)化函數(shù)對網(wǎng)絡(luò)層的目標(biāo)函數(shù)進(jìn)行優(yōu)化,β1系數(shù)為指數(shù)衰減率,控制權(quán)重分配,通常取值為0.9,β2系數(shù)為指數(shù)衰減率,控制之前的梯度平方的影響情況,一般取值為0.999,輸入圖像的批次batch_size設(shè)為10,為了防止過擬合使用的權(quán)重衰減率設(shè)為0.0005.

4.3 結(jié)果分析

為了對算法的優(yōu)越性和有效性進(jìn)行評估,通過在本地復(fù)現(xiàn)基于ResNet上的Deeplab V3和本文的語義分割系統(tǒng)進(jìn)行對比,訓(xùn)練參數(shù)以及數(shù)據(jù)量均保持一致,參數(shù)設(shè)置如4.2節(jié)所示,使用PASCAL VOC 2012的驗證集來驗證實驗結(jié)果.實驗結(jié)果如表3所示.通過對比發(fā)現(xiàn)本文提出的網(wǎng)絡(luò)模型比Deeplab V3提高了3.07個百分比,實驗證明本文提出的模型對語義分割具有優(yōu)良的魯棒性.值得特別注意的是在復(fù)現(xiàn)基于ResNet的Deeplab V3的結(jié)果時,實驗中取得的最好結(jié)果是74.24%的mIOU,比文獻(xiàn)[18]中的76.42%的mIOU低,考慮是因為輸入的批次和迭代次數(shù)以及單顯卡運算和設(shè)備的單精度計算有關(guān).

表2 機(jī)器軟硬件配置實驗數(shù)據(jù)表
Table 2 Machine hardware and software configuration experimental data sheet

項 目 內(nèi) 容 中央處理器CPUInteri7-7800x內(nèi)存Ddr416g顯卡GPU微星魔龍GTX1080Ti操作系統(tǒng)64bit-Ubuntu16.04CUDACuda8.0withcudnn數(shù)據(jù)處理Python3.6

表3 本文算法和Deeplab V3在30K次迭代次數(shù)下的 mIOU(%)和Pixel Accuracy(%)實驗數(shù)據(jù)表
Table 3 Algorithm and Deeplab V3 have mIOU(%) and Pixel Accuracy(%) under 30K iterations

mIOU(%)PixelAccuracy(%)DeeplabV374.2493.94Ours77.3194.78

我們以30K次迭代為例,表4為本文系統(tǒng)和Deeplab V3系統(tǒng)21個類別的mIOU的對比表,可以看出改進(jìn)之后的模型,只有盆栽類別的mIOU是低于Deeplab V3系統(tǒng),其他類別的mIOU均高于Deeplab V3系統(tǒng).通過對比,我們會發(fā)現(xiàn),本文語義分割系統(tǒng)在迭代次數(shù)為30K的時候,語義分割效果是優(yōu)于Deeplab V3系統(tǒng).

圖5 30K次迭代次數(shù)下的本文系統(tǒng)與Deeplab V3 系統(tǒng)語義分割結(jié)果對比結(jié)構(gòu)圖Fig.5 Comparison of semantic segmentation results between the system and Deeplab V3 system under 30K iterations structure diagram

從測試集中抽出四張圖來進(jìn)行對比,如圖5所示,在飛機(jī)這幅圖中,Deeplab V3中的飛機(jī)尾翼均不連續(xù),在改進(jìn)的模型中,尾翼的連續(xù)性有所改善,本文的系統(tǒng)的飛機(jī)尾翼分割情況較好.在人騎自行車這幅圖中,本文的系統(tǒng)在胳膊處分割效果良好,在最后一幅圖中,桌腿及椅子腿等細(xì)節(jié)的分割效果也很良好.

表4 30K次迭代次數(shù)下的本文系統(tǒng)與Deeplab V3 系統(tǒng)的21類物體的mIOU(%)對比實驗數(shù)據(jù)表
Table 4 Comparison of mIOU(%)between the system and the 21 types of objects in Deeplab V3 system under 30K iterations experimental data sheet

DeeplabV3本文模型background93.1694.08aeroplane82.0186.88bicycle39.7342.56bird87.3688.19boat59.3671.74bottle77.5980.39bus93.0493.85car84.9285.57cat89.2291.59chair37.4440.79cow85.3387.78diningtable51.3155.31dog84.1886.21horse82.0186.92motorbike81.9184.01person81.9683.87pottedplant60.3858.38sheep81.5985.93sofa52.7656.41train85.2888.65tv/monitor68.5874.47MeanIOU74.2477.31

5 結(jié)束語

本文主要講述了一種基于ResNet網(wǎng)絡(luò)的方法,采用的空洞卷積可以擴(kuò)大感受野而不縮放圖像,定義的并聯(lián)支路,將淺層特征圖像信息融合到深層特征圖像中,提出的新的空洞空間金字塔模塊,進(jìn)行更有效的提取不同層的特征以及上下文信息,并且在新模塊中加入批規(guī)范化計算,增強(qiáng)參數(shù)調(diào)優(yōu)的穩(wěn)定性.本文還采用了Adam自適應(yīng)優(yōu)化函數(shù),提升了模型訓(xùn)練的穩(wěn)定性.通過實驗驗證,該系統(tǒng)在PASCAL VOC 2012數(shù)據(jù)集取得77.31%的mIOU,優(yōu)于Deeplab V3的效果.

猜你喜歡
池化空洞分辨率
基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
基于Sobel算子的池化算法設(shè)計
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
EM算法的參數(shù)分辨率
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
原生VS最大那些混淆視聽的“分辨率”概念
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
空洞的眼神
用事實說話勝過空洞的說教——以教育類報道為例
新聞傳播(2015年20期)2015-07-18 11:06:46
金阳县| 澳门| 吴堡县| 尚志市| 锦州市| 镇远县| 平远县| 晋州市| 县级市| 竹北市| 锡林郭勒盟| 嘉定区| 霞浦县| 许昌市| 茶陵县| 牡丹江市| 兴和县| 林西县| 泽州县| 南京市| 峨山| 枣强县| 天水市| 淳化县| 海安县| 恭城| 和林格尔县| 库伦旗| 巧家县| 郎溪县| 威宁| 华安县| 双牌县| 基隆市| 西城区| 鄂尔多斯市| 宁陵县| 郸城县| 阜新市| 天气| 太保市|