多層次深度特征交換的人體解析方法

2020-01-08 01:37:04羅文劼

小型微型計算機系統(tǒng) 2020年1期

羅文劼，倪鵬，張涵

(河北大學(xué) 網(wǎng)絡(luò)空間安全與計算機學(xué)院，河北保定 071002)

1 引言

人體解析是語義分割領(lǐng)域中一種更加精細(xì)化的任務(wù)，其目的是將圖像中的人體分割成特定的語義部位，例如帽子、頭發(fā)、臉、四肢、衣物種類等，如圖1所示，第一行為原始圖像，第二行為標(biāo)注圖像.精確的人體分割系統(tǒng)應(yīng)用前景巨大，已經(jīng)應(yīng)用于人體重識、自動化監(jiān)控、智能安防等領(lǐng)域.目前，人體解析已經(jīng)成為計算機視覺領(lǐng)域的熱門研究任務(wù)，受到越來越多的研究人員關(guān)注.然而，人體解析作為一種像素級別的分類任務(wù)，依然面臨著多變的人體姿態(tài)、多樣的著裝、復(fù)雜的背景等因素帶來的挑戰(zhàn).隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)依靠強大的特征提取能力被應(yīng)用于語義分割領(lǐng)域.如VGG[1]通過多次池化操作降低了特征圖的分辨率并學(xué)習(xí)到更高維的語義特征，對于較低分辨的特征圖并不能很好的保留高分辨特征圖的細(xì)節(jié)信息.

文獻(xiàn)[2]提出的Segnet網(wǎng)絡(luò)是一種編碼解碼類型的網(wǎng)絡(luò)，其編碼網(wǎng)絡(luò)用于產(chǎn)生低分辨率特征圖，解碼網(wǎng)絡(luò)用于從低分辨特征圖還原高分辨特征圖，但這種用低分率特征圖還原高分辨特征圖的做法，會導(dǎo)致還原回來的高分辨特征圖缺乏更為細(xì)節(jié)的局部特征.U-Net[3]網(wǎng)絡(luò)是一種被用于醫(yī)學(xué)圖像分割的編碼解碼類型的網(wǎng)絡(luò)，其通過將下采樣過程產(chǎn)生的特征圖與上采樣過程對應(yīng)的特征圖相結(jié)合進(jìn)行特征提取，雖然保留了高分辨率的特征信息但依然存在不足.首先U-Net網(wǎng)絡(luò)是通過上采樣低分辨率特征圖并結(jié)合對應(yīng)低維特征圖來恢復(fù)高分辨率特征圖，其對于高分辨率特征圖的高維特征信息學(xué)習(xí)不足，其次忽視了各分辨率下的特征信息交叉結(jié)合學(xué)習(xí).

圖1 原始圖像與標(biāo)注圖像Fig.1 Original image and annotation image

針對傳統(tǒng)編碼解碼類型網(wǎng)絡(luò)存在的不足，本文提出一種用于人體解析的多層次深度特征交換網(wǎng)絡(luò)DFEnet，該網(wǎng)絡(luò)的第一個優(yōu)點是能夠在保持高分辨率情況下學(xué)習(xí)更加高維的人體特征信息，同時又能夠像編碼解碼網(wǎng)絡(luò)一樣學(xué)習(xí)從高到低不同分辨率下的特征信息.DFEnet的另一個優(yōu)點體現(xiàn)在特征密集交換學(xué)習(xí)上，高分辨率特征會下采樣與低分辨率特征融合學(xué)習(xí)，低分辨率特征會上采樣與高分辨率特征融合學(xué)習(xí).最終能夠融合多分辨率特征信息，更好的學(xué)習(xí)全局與局部特征信息.

此外，空洞卷積[4]能夠在不增加學(xué)習(xí)參數(shù)的情況下擴(kuò)展卷積核大小使其擁有更大的感受野，能學(xué)習(xí)更大的空間上下文信息但過大的擴(kuò)張率會導(dǎo)致其學(xué)習(xí)能力不足.空洞金字塔池化(ASPP)[5]被應(yīng)用于語義分割任務(wù)，它組合不同擴(kuò)張率的空洞卷積進(jìn)行多尺度的學(xué)習(xí)，避免單一過大擴(kuò)張率造成的學(xué)習(xí)能力不足.不同于一般的語義分割任務(wù)，由于圖像中的人體部位相對集中且互相關(guān)聯(lián)，本文設(shè)計了一種用于人體解析的空洞沙漏池化AHP，空洞沙漏池化將不同擴(kuò)展率的空洞卷積與不同卷積核大小的普通卷積相結(jié)合來處理相對集中且尺度不一的人體語義部位.本文主要工作如下：

1)提出一種新的人體解析方法，能夠?qū)W習(xí)多分辨率、多尺度人體特征信息，具有更高的精確度.

2)對于現(xiàn)有編碼解碼網(wǎng)絡(luò)進(jìn)行改進(jìn)，提出一種多層次深度特征交換網(wǎng)絡(luò).它可以將不同分辨率的特征進(jìn)行交換學(xué)習(xí)，又可學(xué)習(xí)不同分辨率下的高維特征.

3)提出多尺度特征信息融合處理的空洞沙漏池化.

2 相關(guān)工作

人體解析傳統(tǒng)的非卷積神經(jīng)網(wǎng)絡(luò)的方法有，Basela等人[6]使用馬爾科夫隨機場模型應(yīng)用于人體衣物解析.此后，Edgar等人[7]將衣物解析作為一種姿態(tài)意識的條件隨機場推理問題，它利用人體的外觀、姿態(tài)和位置以及不同部位之間的相似性與對稱性進(jìn)行推斷操作.Chen等人[8]將SVM與條件隨機場相結(jié)合，提出一種全自動化的人體解析與姿態(tài)估計系統(tǒng)，但只是對人體上半身進(jìn)行操作.這些方法需要手動的設(shè)計特征提取器，使用不夠靈活.最近，基于卷積神經(jīng)網(wǎng)絡(luò)的方法在人體解析中取得了很大的成功，其中文獻(xiàn)[9]提出將人體解析作為一種活動模板回歸問題，利用卷積神經(jīng)去學(xué)習(xí)模板相關(guān)系數(shù)與活動類型參數(shù)，忽視人體關(guān)節(jié)之間的關(guān)系直接去解析人體部位，并使用超像素平滑方法去改進(jìn)解析結(jié)果.Liu等人[10]將卷積網(wǎng)絡(luò)與聚類算法相結(jié)合提出了一種卷積神經(jīng)網(wǎng)絡(luò)KNN非參數(shù)模型.該模型將原始圖像與經(jīng)過處理的KNN區(qū)域圖像分別作為輸入，然后進(jìn)行卷積操作輸出人體結(jié)果.Liang等人[11]提出Co-CNN網(wǎng)絡(luò)，該方法將跨層次上下文信息、語義邊緣上下文信息和局部超像素上下信息整合到統(tǒng)一的網(wǎng)絡(luò)中進(jìn)行人體解析.此外，支等人[12]提出步態(tài)人體語義分割方法，將人體解析與步態(tài)識別任務(wù)相結(jié)合.

人體解析與姿態(tài)估計是兩個相近的任務(wù)，因此出現(xiàn)了一些將人體解析與姿態(tài)估計相結(jié)合的方法.如文獻(xiàn)[13]使用一種與或圖結(jié)構(gòu)的框架用人體姿態(tài)估計結(jié)果去指導(dǎo)人體解析.文獻(xiàn)[14]引入了更有挑戰(zhàn)更多樣的人體解析數(shù)據(jù)集Look Into Person(LIP)彌補了大數(shù)據(jù)集的缺失，同時結(jié)合姿態(tài)估計與人體解析任務(wù)提出一種自我監(jiān)督結(jié)構(gòu)意識的損失函數(shù).文獻(xiàn)[15]將人體解析與姿態(tài)估計任務(wù)一起進(jìn)行操作，并設(shè)計了一種轉(zhuǎn)換解析結(jié)果去輔助姿態(tài)估計的網(wǎng)絡(luò).但是這類方法需要額外引入人體姿態(tài)標(biāo)注信息，同時也增加了額外的計算消耗.

本文提出的 DFEnet的方法不同以往的方法，在特征提取方面結(jié)合了編碼解碼網(wǎng)絡(luò)與特征金字塔模型[16]的優(yōu)點，既學(xué)習(xí)到不同分辨的高維人體特征信息，又充分融合全局與局部人體特征信息.此外在最后階段使用了空洞沙漏池化，不同于場景解析中PSPnet[17]和DenseASPP[18]，DenseASPP中過于密集的連接導(dǎo)致其參數(shù)過大，而PSPnet只使用了普通的卷積操作，本文提出的空洞沙漏池化，將空洞卷積與普通卷積相結(jié)合，在多個尺度處理人體特征信息并綜合學(xué)習(xí)這些人體特征信息，接下來的部分將詳細(xì)介紹本文方法.

3 多層次深度特征交換的人體解析方法

本文方法的整體過程如圖2所示，令I(lǐng)代表人體圖像，3wh代表輸入圖像格式，其中3為通道數(shù)，w代表圖像寬度，h代表圖像高度.目的是輸出解析結(jié)果圖cwh，其中c代表解析出的類別數(shù).圖像I被輸入網(wǎng)絡(luò)后，首先多層次深度特征交換網(wǎng)絡(luò)會提出人體語義特征，之后將提取的特征輸入空洞沙漏池化模型進(jìn)行處理輸出學(xué)習(xí)后的特征，最后應(yīng)用分類器輸出最終的人體解析結(jié)果.下面將分別介紹多層次深度特征交換網(wǎng)絡(luò)與空洞沙漏池化.

圖2 本文方法整體流程Fig.2 Overall flow of the method in this paper

3.1 多層次深度特征交換網(wǎng)絡(luò)

在設(shè)計DFEnet時考慮到了以下兩方面，第一如何避免多次池化操作導(dǎo)致的局部細(xì)節(jié)特征不足或缺失，第二如何更加有效的綜合學(xué)習(xí)全局與局部特征信息.受Segnet與特征金子塔模型的啟發(fā)，綜合Segnet的編碼解碼網(wǎng)絡(luò)與特征金子塔模型的多尺度特征學(xué)習(xí)特點設(shè)計了DFEnet網(wǎng)絡(luò)，該網(wǎng)絡(luò)整體類似一個倒金字塔結(jié)構(gòu)如圖3所示，最頂層特征圖擁有最高的分辨率，每下降一層特征圖分辨率下降一倍，channel數(shù)量增加1/2倍，DFEnet從最左側(cè)輸入原始圖像，從最右側(cè)輸出人體語義特征圖.自底向上每增高一層會多出一個卷積塊，如最底層為1塊，第二層為2塊，第三層為3塊以此類推相鄰層間每經(jīng)過一次卷積塊會進(jìn)行一次特征信息交換學(xué)習(xí).DFEnet每層的首次下采樣路徑與最后一次上采樣路徑構(gòu)成了編碼解碼類型網(wǎng)絡(luò)，各層組合到一起構(gòu)成了特征金字塔模型.

DFEnet的下采樣操作沒有使用Segnet中的最大池化操作，每層下采樣時使用卷積核大小為3，跨度為2的卷積加批處理與ReLU操作，上采樣使用雙線性插值法.特征信息交換學(xué)習(xí)時會先進(jìn)行1×1的卷積操作，使其擁有不同權(quán)重，然后將其連接進(jìn)行融合學(xué)習(xí).本文使用5層DFEnet模型，其原始圖像會先經(jīng)過跨度為2，padding為3，卷積核大小分別為7和3的卷積預(yù)處理，其輸出通道數(shù)為256，然后送入DFEnet中，DFEnet的輸入與輸出大小為原始圖像的1/4，最低層為原始圖像大小的1/64.經(jīng)過DFEnet處理得到人體語義特征圖緊接著會被送入空洞沙漏池化進(jìn)行處理.

圖3 多層次深度特征交換網(wǎng)絡(luò)DFEnet結(jié)構(gòu)圖Fig.3 Structure diagram of multi-level deep feature exchange network

3.2 空洞沙漏池化

空洞卷積與普通卷積的結(jié)構(gòu)如圖4所示，圖4(a)為擴(kuò)張度為2卷積核大小為3的空洞卷積，圖4(b)為卷積核大小為5的普通卷積，這兩者都擁有相同大小的感受野，但空洞卷積的卷積核會被嵌入不參與學(xué)習(xí)其值為的參數(shù)以此來增大卷積核.其空洞卷積的卷積核大小可以用數(shù)學(xué)表達(dá)式表示如下：

圖4 空洞卷積與普通卷積結(jié)構(gòu)圖Fig.4 Structure of atrous convolution and ordinary convolution

K=k+(r-1)×(k-1)

(1)

其中k代表原始卷積核大小，r為擴(kuò)張率，K為被擴(kuò)展后空洞卷積核的大小.空洞卷積擴(kuò)展后的卷積核相當(dāng)于在感受野區(qū)域進(jìn)行像素級別稀疏采樣操作，而普通卷積的卷積核相當(dāng)于在感受野區(qū)域進(jìn)行像素級別密集采樣.ASPP使用不同擴(kuò)張率的空洞卷積，在分辨率不變的情況下通過擴(kuò)大卷積核來達(dá)到池化的效果，從而學(xué)習(xí)多尺度特征，而PSPnet使用不同卷積核大小的普通卷積去嵌入不同上下文信息，本文提出的空洞沙漏池化AHP，如圖5所示，整體結(jié)構(gòu)類似一個沙漏模型，其上半部分分別使用擴(kuò)張率為2、3，卷積核大小為2與3的空洞卷積，下半部分分別為卷積核大小為3、5、7的普通卷積，中間部位是卷積核大小為1×1的普通卷積，它們的通道數(shù)為輸入通道的1/4，使用連接的方式將AHP的特征圖進(jìn)行融合并應(yīng)用1×1的卷積，使各個特征擁有不同的權(quán)重，綜合學(xué)習(xí)多尺度特征信息.

圖5 AHP結(jié)構(gòu)圖Fig.5 AHP structure diagram

使用Aij表示擴(kuò)張率為i，卷積核大小為j的空洞卷積，Ci表示卷積核大小為j的普通卷積,AHP的整體表達(dá)式為：

P=A22○A23○A33○C1○C3○C5○C7

(2)

其中○代表連接操作，通過AHP提取出多尺度融合特征圖后，使用1×1的卷積作為分類器，其分類器的輸入通道為特征圖的通道數(shù)，輸出的通道數(shù)為類別數(shù).在訓(xùn)練階段其損失函數(shù)這里使用多分類交叉熵?fù)p失，其數(shù)學(xué)表達(dá)式為：

(3)

4 實驗

4.1 數(shù)據(jù)集

Look Into Person(LIP)數(shù)據(jù)集擁有50462張圖像，其中包含了19081張全身圖像，136672張上半身圖像，403張下半身圖像，3386張頭部缺失圖像，2778張背影圖像，21028張遮擋圖像.LIP被隨機分成訓(xùn)練集、驗證集、測試集，其中訓(xùn)練集包含30462張圖像，驗證集包含10000張圖像，10000張測試集圖像.LIP擁有包括19種像素級別的人體語義部位標(biāo)注類別和一個背景標(biāo)準(zhǔn)類別.

4.2 評價指標(biāo)

本文使用三種評價指標(biāo)來評價人體解析模型的性能，三種指標(biāo)分別是：像素精度(PA)、均像素精度(MPA)、均交并比(MIoU).

4.3 實驗細(xì)節(jié)

本文使用PyTorch來實現(xiàn)，基于Linux操作環(huán)境，使用NVIDIA GTX1080Ti顯卡進(jìn)行訓(xùn)練，在訓(xùn)練階段原始圖像會經(jīng)過-10度到10度之間隨機旋轉(zhuǎn)，0.8到1.5比例之間隨機縮放.圖像的分辨率被設(shè)置為256×256，經(jīng)過卷積預(yù)處理后，進(jìn)入DFEnet的特征大小為64×64，batch大小為16，每個卷積塊使用ResNet[19]深度為4，DFEnet與AHP單獨訓(xùn)練，首先預(yù)訓(xùn)練DFEnet，初始學(xué)習(xí)率設(shè)置為0.0005，每隔40輪學(xué)習(xí)率下降一倍，使用RMSProp優(yōu)化器進(jìn)行參數(shù)學(xué)習(xí)，一共訓(xùn)練200輪.然后加上AHP進(jìn)行訓(xùn)練，學(xué)習(xí)率設(shè)置為0.0001，其訓(xùn)練方式與DFEnet相同.

4.4 實驗結(jié)果與分析

本文方法與其他方法實驗結(jié)果如表1所示，本文提出的DFEnet取得84.36%AP，54.79%MPA，43.96%MIoU，經(jīng)過AHP處理后各個指標(biāo)分別提高了0.76%、0.86%、0.62%，結(jié)果表明經(jīng)過AHP多尺度特征處理后，其擁有更精確的解析結(jié)果.

表1 在LIP驗證集下不同方法的結(jié)果
Table 1 Comparison with different methods on LIP validation

Method PA(%)MPA(%)MIoU(%)SegNet[2]69.0124.1218.17FCN-8s[20]76.1436.8328.29DeepLab[5]82.6851.6241.65Attention[21]83.4254.3942.92SS-JPPNet[14]83.7654.4743.23DEFNet84.3654.7943.96DEFNet+AHP85.1255.6544.68

在測試階段使用DFEnet處理每張圖像平均需要0.124秒，加入AHP后處理每張圖像平均時間需要0.129秒，處理時間增加了約4%，雖然增加了時間開銷但整體可以接受.在AP指標(biāo)下與SS-JPPnet相比提高了1.56%，與SegNet相比提高了近15.11%，在MPA指標(biāo)下相比SegNet提高了31.53%，比SS-JPPnet提高了0.86%，在MIoU指標(biāo)下相比SegNet提高了26.51%，比SS-JPPnet提高了0.72%，從表中可以看出在三種評價指標(biāo)上均優(yōu)于其他先進(jìn)方法.

為了更加詳細(xì)比較各個語義類別的解析結(jié)果，表2展示了不同方法在人體語義類別的具體結(jié)果，其采用交并比的評價指標(biāo)，從中可以發(fā)現(xiàn)不同方法對不同的人體語義類別擁有不同的處理效果，從表2中可以看出SegNet對于太陽鏡、裙子等多種語義部位不能有效識別，而本文方法在解析帽子、手套、上衣、裙子、面部、背景擁有更高的解析精度，綜合解析能力要高于其他方法，說明DFEnet對于全局與局部特征信息擁有更好的學(xué)習(xí)效果.

表2 在LIP驗證集下各類別結(jié)果
Table 2 Results of each category under the LIP verification set

classMethodSegnetFCN-8sDeepLabAttentionSS-JPPNetDEFNetDEFNet+AHPhat26.6039.7959.2358.8758.6559.3459.75hair44.0158.9665.7366.7867.2367.3367.25glove0.015.3223.4023.3225.226.7229.95sunglasses0.003.0824.2519.4821.4319.8421.57upperclothes34.4649.0859.3463.2064.9163.4165.3dress0.0012.3613.7829.6325.1830.4529.49coat15.9726.8247.9349.7051.6351.0951.92socks3.5915.6638.3835.3235.2140.2738.52pants33.5649.4167.3366.0466.0167.4570.02jumpsuits0.016.486.3824.7323.2522.7824.48scarf0.000.009.8412.8411.7510.5912.32skirt0.002.1619.7520.4122.1420.4622.16face52.3862.6570.4070.5869.8570.2371.13leftarm15.3029.7852.1150.1750.2149.2552.44rightarm24.2336.6354.9354.0353.1252.8855.38leftleg13.8228.1241.1338.3541.2942.3740.23rightleg13.1726.0539.1037.7039.7335.7839.00leftshoe9.2617.7627.9926.2028.2133.8129.12rightshoe6.4717.7028.3027.0926.4230.8729.03background70.6278.0283.7384.0083.2184.2884.56avg18.1728.2941.6542.9243.2343.9644.68

接下來為了更詳細(xì)分析DFEnet的層數(shù)與卷積塊深度對解析精度的影響，首先使用深度為4的卷積塊與不同層數(shù)的DFEnet對比，其分別使用3、4、5層，結(jié)果如圖6所示，層數(shù)的增長結(jié)果也隨著提高，從使用3層的40.38%到使用5層的43.96%其增長了3.58%，實驗結(jié)果表明增加DFEnet的層數(shù)能有效的提升解析精度.

使用5層DEFnet與不同卷積塊深度做對比，設(shè)置其深度分別為2、3、4，網(wǎng)絡(luò)類型為ResNet，結(jié)果如表3所示.從表3中可以看出隨著卷積塊中網(wǎng)絡(luò)深度的加深其解析結(jié)果也相應(yīng)的提高.從39.71%提升到了43.96%，由此可知加深卷積塊的深度與增加DFEnet層數(shù)均可有效提高解析精度.

表3 在LIP驗證集下對比實驗結(jié)果
Table 3 Comparison of experimental results on LIP validation set

MethodMIoU(%)DFEnet(depth-2)39.71DFEnet(depth-3)42.83DFEnet(depth-4)43.96

圖7展示了不同方法的可視化解析結(jié)果圖，與其他方法對比可以發(fā)現(xiàn)Segnet解析結(jié)果較為粗糙，解析區(qū)域不連續(xù)，識別錯誤比較嚴(yán)重，而SS-JPPnet解析結(jié)果要明顯優(yōu)于Segnet，本文方法的結(jié)果圖對比其他方法解析出來的結(jié)果要更加精細(xì)，識別區(qū)域也比較完整.

圖6 不同層數(shù)實驗結(jié)果Fig.6 Different layers of experimental results

5 結(jié) 論

本文提出的人體解析方法，采用多層次深度特征交換網(wǎng)絡(luò)DEFnet可以在不同分辨率下學(xué)習(xí)高維特征信息，又可滿足不同分辨率特征之間的交換學(xué)習(xí)，相比SegNet擁有更好的特征提取能力，空洞沙漏池化AHP能夠融合學(xué)習(xí)多尺度特征信息.經(jīng)過DEFnet多分辨率下特征提取與AHP多尺度融合學(xué)習(xí)能夠有效的提高人體解析效果.實驗結(jié)果表明了本文方法的有效性，相比其他先進(jìn)方法擁有更好的解析結(jié)果.接下來的工作是近一步優(yōu)化網(wǎng)絡(luò)模型，使其在人體解析領(lǐng)域具有更好的表現(xiàn)，同時對多人場景進(jìn)行研究.

圖7 可視化人體解析結(jié)果Fig.7 Visualization of human parsing results

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡