国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多層次深度特征交換的人體解析方法

2020-01-08 01:37:04羅文劼
小型微型計算機系統(tǒng) 2020年1期
關(guān)鍵詞:池化空洞語義

羅文劼,倪 鵬,張 涵

(河北大學(xué) 網(wǎng)絡(luò)空間安全與計算機學(xué)院,河北 保定 071002)

1 引 言

人體解析是語義分割領(lǐng)域中一種更加精細(xì)化的任務(wù),其目的是將圖像中的人體分割成特定的語義部位,例如帽子、頭發(fā)、臉、四肢、衣物種類等,如圖1所示,第一行為原始圖像,第二行為標(biāo)注圖像.精確的人體分割系統(tǒng)應(yīng)用前景巨大,已經(jīng)應(yīng)用于人體重識、自動化監(jiān)控、智能安防等領(lǐng)域.目前,人體解析已經(jīng)成為計算機視覺領(lǐng)域的熱門研究任務(wù),受到越來越多的研究人員關(guān)注.然而,人體解析作為一種像素級別的分類任務(wù),依然面臨著多變的人體姿態(tài)、多樣的著裝、復(fù)雜的背景等因素帶來的挑戰(zhàn).隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)依靠強大的特征提取能力被應(yīng)用于語義分割領(lǐng)域.如VGG[1]通過多次池化操作降低了特征圖的分辨率并學(xué)習(xí)到更高維的語義特征,對于較低分辨的特征圖并不能很好的保留高分辨特征圖的細(xì)節(jié)信息.

文獻(xiàn)[2]提出的Segnet網(wǎng)絡(luò)是一種編碼解碼類型的網(wǎng)絡(luò),其編碼網(wǎng)絡(luò)用于產(chǎn)生低分辨率特征圖,解碼網(wǎng)絡(luò)用于從低分辨特征圖還原高分辨特征圖,但這種用低分率特征圖還原高分辨特征圖的做法,會導(dǎo)致還原回來的高分辨特征圖缺乏更為細(xì)節(jié)的局部特征.U-Net[3]網(wǎng)絡(luò)是一種被用于醫(yī)學(xué)圖像分割的編碼解碼類型的網(wǎng)絡(luò),其通過將下采樣過程產(chǎn)生的特征圖與上采樣過程對應(yīng)的特征圖相結(jié)合進(jìn)行特征提取,雖然保留了高分辨率的特征信息但依然存在不足.首先U-Net網(wǎng)絡(luò)是通過上采樣低分辨率特征圖并結(jié)合對應(yīng)低維特征圖來恢復(fù)高分辨率特征圖,其對于高分辨率特征圖的高維特征信息學(xué)習(xí)不足,其次忽視了各分辨率下的特征信息交叉結(jié)合學(xué)習(xí).

圖1 原始圖像與標(biāo)注圖像Fig.1 Original image and annotation image

針對傳統(tǒng)編碼解碼類型網(wǎng)絡(luò)存在的不足,本文提出一種用于人體解析的多層次深度特征交換網(wǎng)絡(luò)DFEnet,該網(wǎng)絡(luò)的第一個優(yōu)點是能夠在保持高分辨率情況下學(xué)習(xí)更加高維的人體特征信息,同時又能夠像編碼解碼網(wǎng)絡(luò)一樣學(xué)習(xí)從高到低不同分辨率下的特征信息.DFEnet的另一個優(yōu)點體現(xiàn)在特征密集交換學(xué)習(xí)上,高分辨率特征會下采樣與低分辨率特征融合學(xué)習(xí),低分辨率特征會上采樣與高分辨率特征融合學(xué)習(xí).最終能夠融合多分辨率特征信息,更好的學(xué)習(xí)全局與局部特征信息.

此外,空洞卷積[4]能夠在不增加學(xué)習(xí)參數(shù)的情況下擴(kuò)展卷積核大小使其擁有更大的感受野,能學(xué)習(xí)更大的空間上下文信息但過大的擴(kuò)張率會導(dǎo)致其學(xué)習(xí)能力不足.空洞金字塔池化(ASPP)[5]被應(yīng)用于語義分割任務(wù),它組合不同擴(kuò)張率的空洞卷積進(jìn)行多尺度的學(xué)習(xí),避免單一過大擴(kuò)張率造成的學(xué)習(xí)能力不足.不同于一般的語義分割任務(wù),由于圖像中的人體部位相對集中且互相關(guān)聯(lián),本文設(shè)計了一種用于人體解析的空洞沙漏池化AHP,空洞沙漏池化將不同擴(kuò)展率的空洞卷積與不同卷積核大小的普通卷積相結(jié)合來處理相對集中且尺度不一的人體語義部位.本文主要工作如下:

1)提出一種新的人體解析方法,能夠?qū)W習(xí)多分辨率、多尺度人體特征信息,具有更高的精確度.

2)對于現(xiàn)有編碼解碼網(wǎng)絡(luò)進(jìn)行改進(jìn),提出一種多層次深度特征交換網(wǎng)絡(luò).它可以將不同分辨率的特征進(jìn)行交換學(xué)習(xí),又可學(xué)習(xí)不同分辨率下的高維特征.

3)提出多尺度特征信息融合處理的空洞沙漏池化.

2 相關(guān)工作

人體解析傳統(tǒng)的非卷積神經(jīng)網(wǎng)絡(luò)的方法有,Basela等人[6]使用馬爾科夫隨機場模型應(yīng)用于人體衣物解析.此后,Edgar等人[7]將衣物解析作為一種姿態(tài)意識的條件隨機場推理問題,它利用人體的外觀、姿態(tài)和位置以及不同部位之間的相似性與對稱性進(jìn)行推斷操作.Chen等人[8]將SVM與條件隨機場相結(jié)合,提出一種全自動化的人體解析與姿態(tài)估計系統(tǒng),但只是對人體上半身進(jìn)行操作.這些方法需要手動的設(shè)計特征提取器,使用不夠靈活.最近,基于卷積神經(jīng)網(wǎng)絡(luò)的方法在人體解析中取得了很大的成功,其中文獻(xiàn)[9]提出將人體解析作為一種活動模板回歸問題,利用卷積神經(jīng)去學(xué)習(xí)模板相關(guān)系數(shù)與活動類型參數(shù),忽視人體關(guān)節(jié)之間的關(guān)系直接去解析人體部位,并使用超像素平滑方法去改進(jìn)解析結(jié)果.Liu等人[10]將卷積網(wǎng)絡(luò)與聚類算法相結(jié)合提出了一種卷積神經(jīng)網(wǎng)絡(luò)KNN非參數(shù)模型.該模型將原始圖像與經(jīng)過處理的KNN區(qū)域圖像分別作為輸入,然后進(jìn)行卷積操作輸出人體結(jié)果.Liang等人[11]提出Co-CNN網(wǎng)絡(luò),該方法將跨層次上下文信息、語義邊緣上下文信息和局部超像素上下信息整合到統(tǒng)一的網(wǎng)絡(luò)中進(jìn)行人體解析.此外,支等人[12]提出步態(tài)人體語義分割方法,將人體解析與步態(tài)識別任務(wù)相結(jié)合.

人體解析與姿態(tài)估計是兩個相近的任務(wù),因此出現(xiàn)了一些將人體解析與姿態(tài)估計相結(jié)合的方法.如文獻(xiàn)[13]使用一種與或圖結(jié)構(gòu)的框架用人體姿態(tài)估計結(jié)果去指導(dǎo)人體解析.文獻(xiàn)[14]引入了更有挑戰(zhàn)更多樣的人體解析數(shù)據(jù)集Look Into Person(LIP)彌補了大數(shù)據(jù)集的缺失,同時結(jié)合姿態(tài)估計與人體解析任務(wù)提出一種自我監(jiān)督結(jié)構(gòu)意識的損失函數(shù).文獻(xiàn)[15]將人體解析與姿態(tài)估計任務(wù)一起進(jìn)行操作,并設(shè)計了一種轉(zhuǎn)換解析結(jié)果去輔助姿態(tài)估計的網(wǎng)絡(luò).但是這類方法需要額外引入人體姿態(tài)標(biāo)注信息,同時也增加了額外的計算消耗.

本文提出的 DFEnet的方法不同以往的方法,在特征提取方面結(jié)合了編碼解碼網(wǎng)絡(luò)與特征金字塔模型[16]的優(yōu)點,既學(xué)習(xí)到不同分辨的高維人體特征信息,又充分融合全局與局部人體特征信息.此外在最后階段使用了空洞沙漏池化,不同于場景解析中PSPnet[17]和DenseASPP[18],DenseASPP中過于密集的連接導(dǎo)致其參數(shù)過大,而PSPnet只使用了普通的卷積操作,本文提出的空洞沙漏池化,將空洞卷積與普通卷積相結(jié)合,在多個尺度處理人體特征信息并綜合學(xué)習(xí)這些人體特征信息,接下來的部分將詳細(xì)介紹本文方法.

3 多層次深度特征交換的人體解析方法

本文方法的整體過程如圖2所示,令I(lǐng)代表人體圖像,3wh代表輸入圖像格式,其中3為通道數(shù),w代表圖像寬度,h代表圖像高度.目的是輸出解析結(jié)果圖cwh,其中c代表解析出的類別數(shù).圖像I被輸入網(wǎng)絡(luò)后,首先多層次深度特征交換網(wǎng)絡(luò)會提出人體語義特征,之后將提取的特征輸入空洞沙漏池化模型進(jìn)行處理輸出學(xué)習(xí)后的特征,最后應(yīng)用分類器輸出最終的人體解析結(jié)果.下面將分別介紹多層次深度特征交換網(wǎng)絡(luò)與空洞沙漏池化.

圖2 本文方法整體流程Fig.2 Overall flow of the method in this paper

3.1 多層次深度特征交換網(wǎng)絡(luò)

在設(shè)計DFEnet時考慮到了以下兩方面,第一如何避免多次池化操作導(dǎo)致的局部細(xì)節(jié)特征不足或缺失,第二如何更加有效的綜合學(xué)習(xí)全局與局部特征信息.受Segnet與特征金子塔模型的啟發(fā),綜合Segnet的編碼解碼網(wǎng)絡(luò)與特征金子塔模型的多尺度特征學(xué)習(xí)特點設(shè)計了DFEnet網(wǎng)絡(luò),該網(wǎng)絡(luò)整體類似一個倒金字塔結(jié)構(gòu)如圖3所示,最頂層特征圖擁有最高的分辨率,每下降一層特征圖分辨率下降一倍,channel數(shù)量增加1/2倍,DFEnet從最左側(cè)輸入原始圖像,從最右側(cè)輸出人體語義特征圖.自底向上每增高一層會多出一個卷積塊,如最底層為1塊,第二層為2塊,第三層為3塊以此類推相鄰層間每經(jīng)過一次卷積塊會進(jìn)行一次特征信息交換學(xué)習(xí).DFEnet每層的首次下采樣路徑與最后一次上采樣路徑構(gòu)成了編碼解碼類型網(wǎng)絡(luò),各層組合到一起構(gòu)成了特征金字塔模型.

DFEnet的下采樣操作沒有使用Segnet中的最大池化操作,每層下采樣時使用卷積核大小為3,跨度為2的卷積加批處理與ReLU操作,上采樣使用雙線性插值法.特征信息交換學(xué)習(xí)時會先進(jìn)行1×1的卷積操作,使其擁有不同權(quán)重,然后將其連接進(jìn)行融合學(xué)習(xí).本文使用5層DFEnet模型,其原始圖像會先經(jīng)過跨度為2,padding為3,卷積核大小分別為7和3的卷積預(yù)處理,其輸出通道數(shù)為256,然后送入DFEnet中,DFEnet的輸入與輸出大小為原始圖像的1/4,最低層為原始圖像大小的1/64.經(jīng)過DFEnet處理得到人體語義特征圖緊接著會被送入空洞沙漏池化進(jìn)行處理.

圖3 多層次深度特征交換網(wǎng)絡(luò)DFEnet結(jié)構(gòu)圖Fig.3 Structure diagram of multi-level deep feature exchange network

3.2 空洞沙漏池化

空洞卷積與普通卷積的結(jié)構(gòu)如圖4所示,圖4(a)為擴(kuò)張度為2卷積核大小為3的空洞卷積,圖4(b)為卷積核大小為5的普通卷積,這兩者都擁有相同大小的感受野,但空洞卷積的卷積核會被嵌入不參與學(xué)習(xí)其值為的參數(shù)以此來增大卷積核.其空洞卷積的卷積核大小可以用數(shù)學(xué)表達(dá)式表示如下:

圖4 空洞卷積與普通卷積結(jié)構(gòu)圖Fig.4 Structure of atrous convolution and ordinary convolution

K=k+(r-1)×(k-1)

(1)

其中k代表原始卷積核大小,r為擴(kuò)張率,K為被擴(kuò)展后空洞卷積核的大小.空洞卷積擴(kuò)展后的卷積核相當(dāng)于在感受野區(qū)域進(jìn)行像素級別稀疏采樣操作,而普通卷積的卷積核相當(dāng)于在感受野區(qū)域進(jìn)行像素級別密集采樣.ASPP使用不同擴(kuò)張率的空洞卷積,在分辨率不變的情況下通過擴(kuò)大卷積核來達(dá)到池化的效果,從而學(xué)習(xí)多尺度特征,而PSPnet使用不同卷積核大小的普通卷積去嵌入不同上下文信息,本文提出的空洞沙漏池化AHP,如圖5所示,整體結(jié)構(gòu)類似一個沙漏模型,其上半部分分別使用擴(kuò)張率為2、3,卷積核大小為2與3的空洞卷積,下半部分分別為卷積核大小為3、5、7的普通卷積,中間部位是卷積核大小為1×1的普通卷積,它們的通道數(shù)為輸入通道的1/4,使用連接的方式將AHP的特征圖進(jìn)行融合并應(yīng)用1×1的卷積,使各個特征擁有不同的權(quán)重,綜合學(xué)習(xí)多尺度特征信息.

圖5 AHP結(jié)構(gòu)圖Fig.5 AHP structure diagram

使用Aij表示擴(kuò)張率為i,卷積核大小為j的空洞卷積,Ci表示卷積核大小為j的普通卷積,AHP的整體表達(dá)式為:

P=A22○A23○A33○C1○C3○C5○C7

(2)

其中○代表連接操作,通過AHP提取出多尺度融合特征圖后,使用1×1的卷積作為分類器,其分類器的輸入通道為特征圖的通道數(shù),輸出的通道數(shù)為類別數(shù).在訓(xùn)練階段其損失函數(shù)這里使用多分類交叉熵?fù)p失,其數(shù)學(xué)表達(dá)式為:

(3)

4 實 驗

4.1 數(shù)據(jù)集

Look Into Person(LIP)數(shù)據(jù)集擁有50462張圖像,其中包含了19081張全身圖像,136672張上半身圖像,403張下半身圖像,3386張頭部缺失圖像,2778張背影圖像,21028張遮擋圖像.LIP被隨機分成訓(xùn)練集、驗證集、測試集,其中訓(xùn)練集包含30462張圖像,驗證集包含10000張圖像,10000張測試集圖像.LIP擁有包括19種像素級別的人體語義部位標(biāo)注類別和一個背景標(biāo)準(zhǔn)類別.

4.2 評價指標(biāo)

本文使用三種評價指標(biāo)來評價人體解析模型的性能,三種指標(biāo)分別是:像素精度(PA)、均像素精度(MPA)、均交并比(MIoU).

4.3 實驗細(xì)節(jié)

本文使用PyTorch來實現(xiàn),基于Linux操作環(huán)境,使用NVIDIA GTX1080Ti顯卡進(jìn)行訓(xùn)練,在訓(xùn)練階段原始圖像會經(jīng)過-10度到10度之間隨機旋轉(zhuǎn),0.8到1.5比例之間隨機縮放.圖像的分辨率被設(shè)置為256×256,經(jīng)過卷積預(yù)處理后,進(jìn)入DFEnet的特征大小為64×64,batch大小為16,每個卷積塊使用ResNet[19]深度為4,DFEnet與AHP單獨訓(xùn)練,首先預(yù)訓(xùn)練DFEnet,初始學(xué)習(xí)率設(shè)置為0.0005,每隔40輪學(xué)習(xí)率下降一倍,使用RMSProp優(yōu)化器進(jìn)行參數(shù)學(xué)習(xí),一共訓(xùn)練200輪.然后加上AHP進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為0.0001,其訓(xùn)練方式與DFEnet相同.

4.4 實驗結(jié)果與分析

本文方法與其他方法實驗結(jié)果如表1所示,本文提出的DFEnet取得84.36%AP,54.79%MPA,43.96%MIoU,經(jīng)過AHP處理后各個指標(biāo)分別提高了0.76%、0.86%、0.62%,結(jié)果表明經(jīng)過AHP多尺度特征處理后,其擁有更精確的解析結(jié)果.

表1 在LIP驗證集下不同方法的結(jié)果
Table 1 Comparison with different methods on LIP validation

Method PA(%)MPA(%)MIoU(%)SegNet[2]69.0124.1218.17FCN-8s[20]76.1436.8328.29DeepLab[5]82.6851.6241.65Attention[21]83.4254.3942.92SS-JPPNet[14]83.7654.4743.23DEFNet84.3654.7943.96DEFNet+AHP85.1255.6544.68

在測試階段使用DFEnet處理每張圖像平均需要0.124秒,加入AHP后處理每張圖像平均時間需要0.129秒,處理時間增加了約4%,雖然增加了時間開銷但整體可以接受.在AP指標(biāo)下與SS-JPPnet相比提高了1.56%,與SegNet相比提高了近15.11%,在MPA指標(biāo)下相比SegNet提高了31.53%,比SS-JPPnet提高了0.86%,在MIoU指標(biāo)下相比SegNet提高了26.51%,比SS-JPPnet提高了0.72%,從表中可以看出在三種評價指標(biāo)上均優(yōu)于其他先進(jìn)方法.

為了更加詳細(xì)比較各個語義類別的解析結(jié)果,表2展示了不同方法在人體語義類別的具體結(jié)果,其采用交并比的評價指標(biāo),從中可以發(fā)現(xiàn)不同方法對不同的人體語義類別擁有不同的處理效果,從表2中可以看出SegNet對于太陽鏡、裙子等多種語義部位不能有效識別,而本文方法在解析帽子、手套、上衣、裙子、面部、背景擁有更高的解析精度,綜合解析能力要高于其他方法,說明DFEnet對于全局與局部特征信息擁有更好的學(xué)習(xí)效果.

表2 在LIP驗證集下各類別結(jié)果
Table 2 Results of each category under the LIP verification set

classMethodSegnetFCN-8sDeepLabAttentionSS-JPPNetDEFNetDEFNet+AHPhat26.6039.7959.2358.8758.6559.3459.75hair44.0158.9665.7366.7867.2367.3367.25glove0.015.3223.4023.3225.226.7229.95sunglasses0.003.0824.2519.4821.4319.8421.57upperclothes34.4649.0859.3463.2064.9163.4165.3dress0.0012.3613.7829.6325.1830.4529.49coat15.9726.8247.9349.7051.6351.0951.92socks3.5915.6638.3835.3235.2140.2738.52pants33.5649.4167.3366.0466.0167.4570.02jumpsuits0.016.486.3824.7323.2522.7824.48scarf0.000.009.8412.8411.7510.5912.32skirt0.002.1619.7520.4122.1420.4622.16face52.3862.6570.4070.5869.8570.2371.13leftarm15.3029.7852.1150.1750.2149.2552.44rightarm24.2336.6354.9354.0353.1252.8855.38leftleg13.8228.1241.1338.3541.2942.3740.23rightleg13.1726.0539.1037.7039.7335.7839.00leftshoe9.2617.7627.9926.2028.2133.8129.12rightshoe6.4717.7028.3027.0926.4230.8729.03background70.6278.0283.7384.0083.2184.2884.56avg18.1728.2941.6542.9243.2343.9644.68

接下來為了更詳細(xì)分析DFEnet的層數(shù)與卷積塊深度對解析精度的影響,首先使用深度為4的卷積塊與不同層數(shù)的DFEnet對比,其分別使用3、4、5層,結(jié)果如圖6所示,層數(shù)的增長結(jié)果也隨著提高,從使用3層的40.38%到使用5層的43.96%其增長了3.58%,實驗結(jié)果表明增加DFEnet的層數(shù)能有效的提升解析精度.

使用5層DEFnet與不同卷積塊深度做對比,設(shè)置其深度分別為2、3、4,網(wǎng)絡(luò)類型為ResNet,結(jié)果如表3所示.從表3中可以看出隨著卷積塊中網(wǎng)絡(luò)深度的加深其解析結(jié)果也相應(yīng)的提高.從39.71%提升到了43.96%,由此可知加深卷積塊的深度與增加DFEnet層數(shù)均可有效提高解析精度.

表3 在LIP驗證集下對比實驗結(jié)果
Table 3 Comparison of experimental results on LIP validation set

MethodMIoU(%)DFEnet(depth-2)39.71DFEnet(depth-3)42.83DFEnet(depth-4)43.96

圖7展示了不同方法的可視化解析結(jié)果圖,與其他方法對比可以發(fā)現(xiàn)Segnet解析結(jié)果較為粗糙,解析區(qū)域不連續(xù),識別錯誤比較嚴(yán)重,而SS-JPPnet解析結(jié)果要明顯優(yōu)于Segnet,本文方法的結(jié)果圖對比其他方法解析出來的結(jié)果要更加精細(xì),識別區(qū)域也比較完整.

圖6 不同層數(shù)實驗結(jié)果Fig.6 Different layers of experimental results

5 結(jié) 論

本文提出的人體解析方法,采用多層次深度特征交換網(wǎng)絡(luò)DEFnet可以在不同分辨率下學(xué)習(xí)高維特征信息,又可滿足不同分辨率特征之間的交換學(xué)習(xí),相比SegNet擁有更好的特征提取能力,空洞沙漏池化AHP能夠融合學(xué)習(xí)多尺度特征信息.經(jīng)過DEFnet多分辨率下特征提取與AHP多尺度融合學(xué)習(xí)能夠有效的提高人體解析效果.實驗結(jié)果表明了本文方法的有效性,相比其他先進(jìn)方法擁有更好的解析結(jié)果.接下來的工作是近一步優(yōu)化網(wǎng)絡(luò)模型,使其在人體解析領(lǐng)域具有更好的表現(xiàn),同時對多人場景進(jìn)行研究.

圖7 可視化人體解析結(jié)果Fig.7 Visualization of human parsing results

猜你喜歡
池化空洞語義
基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
基于Sobel算子的池化算法設(shè)計
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
語言與語義
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
空洞的眼神
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
用事實說話勝過空洞的說教——以教育類報道為例
新聞傳播(2015年20期)2015-07-18 11:06:46
認(rèn)知范疇模糊與語義模糊
臭氧層空洞也是幫兇
东台市| 泽普县| 靖边县| 佛教| 修武县| 涿鹿县| 多伦县| 伊宁市| 万山特区| 揭阳市| 峨边| 泰安市| 永寿县| 库伦旗| 响水县| 平顺县| 洞口县| 石渠县| 青河县| 右玉县| 河北区| 会宁县| 康保县| 二连浩特市| 诏安县| 万州区| 电白县| 胶州市| 东宁县| 博野县| 高唐县| 舟曲县| 巩义市| 遵义县| 嘉定区| 水城县| 班玛县| 安新县| 崇文区| 容城县| 栾城县|