甘 甜, 蔣 華, 顏靖柯, 王慧嬌
(桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)
民族服飾作為民族文化的載體之一,其結(jié)構(gòu)、式樣和圖案反映了特定民族的生活習(xí)俗、審美風(fēng)格、色彩愛好、文化心態(tài)、宗教觀念,它不僅是民族文化特色的載體,也彰顯了同一社群內(nèi)的文化認(rèn)同感[1]。研究少數(shù)民族服飾圖案對(duì)弘揚(yáng)和傳承民族文化有重大意義。
對(duì)于如何更好地分割民族服飾上的飾品(包)、袖子、上衣、裙子 、護(hù)腿、褲子、腰帶等圖案,進(jìn)而提高識(shí)別效果的問題,相關(guān)學(xué)者已開展大量研究工作。識(shí)別少數(shù)民族服飾圖案的方法可以分為3類:基于Sift[2]+Surf等傳統(tǒng)方法、基于區(qū)域綜合匹配的方法[3]和基于深度學(xué)習(xí)網(wǎng)絡(luò)的方法[4]。
服飾圖案特征處理方面,Shinde等[5]基于Sift+Surf的傳統(tǒng)方法能夠找到足夠相似的唯一特征信息,但其不僅依賴于理想的實(shí)驗(yàn)環(huán)境,且存在計(jì)算量大、準(zhǔn)確性較低、易產(chǎn)生冗余窗口等問題,此外,背景過于復(fù)雜易導(dǎo)致無法很好地提取特征信息。針對(duì)Sift和Surf檢索方法的不足,李珂等[6]提出基于區(qū)域綜合匹配的方法,首先通過模糊顏色的直方圖對(duì)圖案不同區(qū)域的顏色和紋理等進(jìn)行提取,再進(jìn)行區(qū)域間的加權(quán)匹配,最后進(jìn)行圖片檢索。但該方法過于依賴顏色,若光照發(fā)生變化,則易對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生較大影響,在實(shí)際應(yīng)用中有較大的局限性。由于深度學(xué)習(xí)有擬合復(fù)雜函數(shù)的能力,常被用于識(shí)別少數(shù)民族服飾圖案。雷秦川等[7]采用傳統(tǒng)HOG+SVM 方式提取飾品花紋,采用Eff Net[8]分類少數(shù)民族服飾圖案。雖然該深度學(xué)習(xí)方法能識(shí)別出少數(shù)民族服飾圖案,但傳統(tǒng)HOG+SVM 方式計(jì)算量過大,特征信息提取實(shí)時(shí)性不足。此外,該方式獲取的少數(shù)民族服飾圖案特征信息不平滑,需要進(jìn)一步擬合。
近年來,深度學(xué)習(xí)在語義分割技術(shù)中迅速發(fā)展。Long等[9]設(shè)計(jì)了不斷上采樣和下采樣的全卷積網(wǎng)絡(luò),用CNN代替全連接,將分類網(wǎng)絡(luò)轉(zhuǎn)變?yōu)榉指罹W(wǎng)絡(luò),但下采樣易導(dǎo)致像素的空間、位置信息丟失。ENet[10]、GCN+[11]通過編碼器和解碼器還原了圖像空間維度、位置信息,解決了下采樣細(xì)節(jié)丟失的問題,但無法獲得圖像上下文信息和圖像的多尺度表示。Chen等[12]對(duì)Deep Lab不斷優(yōu)化,增強(qiáng)了網(wǎng)絡(luò)的感受野,同時(shí)能獲得多尺度信息,提高分割精度。雖然Deep Lab分割效果有所提升,但仍存在如下問題:訓(xùn)練樣本缺乏前景圖片,導(dǎo)致正負(fù)樣本不平衡,背景復(fù)雜程度低,反向傳播易阻塞損失值傳遞到較淺的網(wǎng)絡(luò)層,訓(xùn)練時(shí)可能出現(xiàn)梯度爆炸,網(wǎng)絡(luò)收斂速度慢等問題。
針對(duì)上述問題,以苗族服飾圖案為例,提出一種基于Deep Labv3+的苗族服飾圖案識(shí)別網(wǎng)絡(luò)Efficient-Deep Labv3+。該網(wǎng)絡(luò)加快了網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂速度,提升了網(wǎng)絡(luò)的特征信息提取能力;使用的先進(jìn)訓(xùn)練策略減少了因過擬合產(chǎn)生的負(fù)面影響;提升了分割復(fù)雜環(huán)境下物體和分割相似物體的能力。
Deep Labv3+是由Chen等[12]提出的語義分割網(wǎng)絡(luò),使用ASPP(atrous spatial pyramid pooling)[13]結(jié)構(gòu),采用多尺度捕獲更多的特征信息,采用帶有空洞因子卷積層[13]增加網(wǎng)絡(luò)的感受野,能實(shí)現(xiàn)像素級(jí)別的分類,可更好地提取苗族服飾圖案特征信息。通過對(duì)其進(jìn)行優(yōu)化,提出一種基于Efficient-DeepLabv3+的苗族服飾圖案的識(shí)別網(wǎng)絡(luò)。網(wǎng)絡(luò)步驟如圖1所示。首先對(duì)輸入的服飾圖像進(jìn)行初始化,包括數(shù)據(jù)增強(qiáng)、標(biāo)簽平滑LS(Label smoothing)[14]等,其次將圖像輸入編碼器進(jìn)行特征信息提取,通過解碼器處理并恢復(fù)到原始圖像大小,最后通過全連接網(wǎng)絡(luò)進(jìn)行圖像分割,得到輸出結(jié)果。
圖1 Efficient-DeepLabv3+網(wǎng)絡(luò)步驟
Deep Labv3+網(wǎng)絡(luò)使用編碼器解碼器結(jié)構(gòu)。編碼器利用卷積進(jìn)行特征信息提取,獲得高維語義信息?;诳斩淳矸e的金字塔(ASPP)結(jié)構(gòu)如圖2所示,包含左側(cè)的1個(gè)1×1卷積、空洞因子為6的3×3卷積、空洞因子為12的3×3卷積、空洞因子為18的3×3卷積、1個(gè)全局平均池化層,其中每個(gè)卷積核數(shù)量為256,空洞卷積可利用可用資源控制計(jì)算密度,增大網(wǎng)絡(luò)的感受野;中間表示歸一化和激活函數(shù),ASPP結(jié)構(gòu)對(duì)輸入圖像以不同的采樣率進(jìn)行采樣,卷積層之間進(jìn)行歸一化,采用ReLU(rectified linear unit)激活函數(shù)以增加非線性表達(dá)能力;右側(cè)表示整合多尺度信息,其在多個(gè)尺度獲取上下文圖像特征信息,采用并行結(jié)構(gòu)整合多尺度信息,融合1張?zhí)卣鲌D。解碼器通過上采樣操作逐漸恢復(fù)特征圖尺寸,將特征圖恢復(fù)到原始圖像大小,通過語義標(biāo)簽得到對(duì)應(yīng)的語義分割結(jié)果。為防止恢復(fù)過程中特征丟失,Deep-Labv3+加入了跳躍連接結(jié)構(gòu),接收編碼器下采樣前的特征,以與經(jīng)過編碼器后的特征進(jìn)行融合,從而保證網(wǎng)絡(luò)能充分學(xué)習(xí)特征信息。
圖2 Atrous Spatial Pyramid Pooling結(jié)構(gòu)
Deep Labv3+的總體架構(gòu)如表1所示,共包含3部分。
表1 DeepLabv3+的總體架構(gòu)
第1部分:Deep Labv3+的主干特征信息提取網(wǎng)絡(luò),能夠提取圖像的特征信息。使用Resnet[15],包含Conv Block和Identity Block結(jié)構(gòu),其中Conv Block包括4個(gè)卷積層,它的輸入和輸出維度不同,不能連續(xù)串聯(lián),用于改變網(wǎng)絡(luò)的維度,以間接加深網(wǎng)絡(luò)深度;Identity Block包括3個(gè)卷積層,輸入和輸出維度相同,可以串聯(lián),直接加深網(wǎng)絡(luò)深度。
第2部分:將主干特征信息提取網(wǎng)絡(luò)得到的結(jié)果Conv_identity 1.8輸入ASPP結(jié)構(gòu),經(jīng)過1×1的卷積,壓縮特征層。
第3部分:先將Conv_identity 1.7的結(jié)果采用1×1卷積改變通道數(shù),再將第2部分所得結(jié)果包含的特征信息融合在一起,經(jīng)過2個(gè)空洞因子為1的3×3卷積和1個(gè)1×1普通卷積后,采用雙線性差值恢復(fù)到原始圖像大小,得到語義分割結(jié)果。
Deep Labv3+結(jié)構(gòu)如圖3所示,主要分為編碼器模塊和解碼器模塊。編碼器模塊的作用是逐漸減小特征圖的大小,捕獲更高層的語義信息,解碼器模塊的作用是逐漸恢復(fù)圖像的空間信息。
圖3 Deep Labv3+中編碼器和解碼器
少數(shù)民族服飾圖案分割對(duì)準(zhǔn)確率具有較高要求。通過對(duì)Deep Labv3+進(jìn)行改進(jìn),使網(wǎng)絡(luò)適用于少數(shù)民族服飾分割問題。具體改進(jìn)如下:
1)使用Mosaic數(shù)據(jù)增強(qiáng)[16],將4張圖像合成1張圖像,不僅可以豐富檢測(cè)物體的背景,使網(wǎng)絡(luò)能識(shí)別較小物體,而且在訓(xùn)練時(shí)可同時(shí)提取4張圖像特征信息;
2)使用LS增強(qiáng)網(wǎng)絡(luò)泛化能力,減少過擬合的影響,降低網(wǎng)絡(luò)過于相信預(yù)測(cè)類別的風(fēng)險(xiǎn);
3)融合Dice損失函數(shù)[17]和交叉熵?fù)p失函數(shù),得到聯(lián)合損失函數(shù),解決訓(xùn)練時(shí)前景部分丟失和訓(xùn)練不穩(wěn)定的問題;
4)使用輔助分支結(jié)構(gòu),主分支損失函數(shù)和輔助分支損失函數(shù)能共同計(jì)算損失值,可計(jì)算較淺網(wǎng)絡(luò)層的損失值;
5)使用多級(jí)衰減余弦退火算法跳過局部最優(yōu)學(xué)習(xí)率,找到最合適的學(xué)習(xí)率。
Efficient-Deep Labv3+網(wǎng)絡(luò)如圖4所示。
圖4 Efficient-Deep Labv3+網(wǎng)絡(luò)
Mosaic數(shù)據(jù)增強(qiáng)在YOLOv4[16]中得到了應(yīng)用,是Cutmix[18]數(shù)據(jù)增強(qiáng)的改進(jìn)。Cutmix對(duì)A、B兩張圖像進(jìn)行操作。首先隨機(jī)生成一個(gè)矩形裁剪區(qū)域,裁剪掉圖A的矩形框區(qū)域,其次將圖B中與圖A 中被裁剪掉的對(duì)應(yīng)位置的圖像放到圖A 中被裁剪處,組合成新圖像,最后將分類類別標(biāo)簽按一定的比例進(jìn)行分配。Cutmix計(jì)算式為:
其中:xA、xB表示2個(gè)不同的訓(xùn)練樣本,yA、yB為對(duì)應(yīng)的標(biāo)簽值;M為需要?jiǎng)h掉的區(qū)域和進(jìn)行填充的二進(jìn)制掩碼;☉表示逐像素相乘;1為所有元素都為1的二進(jìn)制掩碼;λ屬于β分布,λ~β(α,α),令α=1,則λ服從(0,1)的均勻分布;x~、y~分別表示經(jīng)過Cutmix數(shù)據(jù)增強(qiáng)后的訓(xùn)練樣本和對(duì)應(yīng)訓(xùn)練標(biāo)簽。
Mosaic數(shù)據(jù)增強(qiáng)將基本數(shù)據(jù)增強(qiáng)處理后的4張圖像分別放入左上角、右下角、左下角和右下角,進(jìn)行拼接合成1張圖像,效果如圖5所示。將拼接后的圖像傳入神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)可在同一張圖里訓(xùn)練不同的對(duì)象,不僅極大地豐富了圖像背景,而且訓(xùn)練時(shí)可同時(shí)提取4張圖像特征信息。實(shí)際任務(wù)中,目標(biāo)對(duì)象易被遮擋,并未完整呈現(xiàn)在合成圖像上,但神經(jīng)網(wǎng)絡(luò)可利用Mosaic數(shù)據(jù)增強(qiáng)系統(tǒng)地學(xué)習(xí)被遮擋對(duì)象。
圖5 Mosaic數(shù)據(jù)增強(qiáng)后的圖像
Inception[19]的單類情況下,若該類別概率接近1,其他類別概率接近0,導(dǎo)致交叉熵?fù)p失函數(shù)變得很大,樣本屬于某個(gè)類別的概率非常大,網(wǎng)絡(luò)太過相信自己的判斷,泛化能力減弱,易產(chǎn)生過擬合。LS是常用的正則化技術(shù),對(duì)真實(shí)樣本標(biāo)簽添加了懲罰因子,懲罰標(biāo)簽置信度分布,形成新樣本分布。通過對(duì)真實(shí)樣本平滑處理,能軟化真實(shí)標(biāo)簽與其他類別的相對(duì)距離,訓(xùn)練過程中可有效減少過度尋找正確標(biāo)簽的計(jì)算量,從而提高網(wǎng)絡(luò)泛化能力,避免網(wǎng)絡(luò)過擬合。LS可表示為
其中:δk,y為Dirac函數(shù)分布的真實(shí)標(biāo)簽;u(k)為類別總數(shù);∈為懲罰權(quán)重值;q(k|x)為標(biāo)簽平滑后的真實(shí)標(biāo)簽。
KL散度衡量用于同一個(gè)隨機(jī)變量x的2個(gè)單獨(dú)概率分布真實(shí)值與預(yù)測(cè)值之間的差異,即
表示樣本的交叉熵。
優(yōu)化過程中,KL散度中前部分不變化,只需關(guān)注交叉熵。深度學(xué)習(xí)中直接用交叉熵作誤差函數(shù)評(píng)估網(wǎng)絡(luò)。交叉熵?fù)p失函數(shù)在多分類問題中的計(jì)算式為
其中:yi為當(dāng)前樣本的標(biāo)簽;pi為當(dāng)前樣本預(yù)測(cè)的概率。
V-Net中,鑒于Milletari等[17]在醫(yī)學(xué)影像分割中發(fā)現(xiàn)交叉熵?fù)p失函數(shù)的損失值易陷入局部極小值,使網(wǎng)絡(luò)偏向于背景,導(dǎo)致出現(xiàn)前景區(qū)域常常丟失等問題,提出一個(gè)新型損失函數(shù)計(jì)算Dice損失函數(shù),損失值取值范圍為(0,1),
極端場(chǎng)景下,當(dāng)p和g的值都非常小時(shí),計(jì)算得到的梯度值可能非常大,導(dǎo)致訓(xùn)練更加不穩(wěn)定。因此,使用交叉熵?fù)p失值和Dice損失值融合解決模型訓(xùn)練時(shí)梯度過大和前景比例丟失的問題,最終聯(lián)合損失函數(shù)為
神經(jīng)網(wǎng)絡(luò)反向傳播易阻塞損失值傳遞到較淺的網(wǎng)絡(luò)層,增加輔助分支有助于計(jì)算所有網(wǎng)絡(luò)層的損失值,優(yōu)化學(xué)習(xí)過程,指導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。主干特征信息提取網(wǎng)絡(luò)使用增加了輔助分支結(jié)構(gòu)的ResNet網(wǎng)絡(luò),如圖6所示。ResNet中res4b22作為輔助分支結(jié)構(gòu)的輸出,res5c作為主干結(jié)構(gòu)的輸出。輔助分支結(jié)構(gòu)中使用交叉熵?fù)p失函數(shù)計(jì)算損失值,主干結(jié)構(gòu)中使用交叉熵?fù)p失函數(shù)和Dice損失函數(shù)計(jì)算損失值。在輔助分支函數(shù)和主干損失函數(shù)中增加1個(gè)權(quán)重,主干損失函數(shù)能夠承擔(dān)起最大的優(yōu)化責(zé)任。
圖6 輔助分支結(jié)構(gòu)
優(yōu)化目標(biāo)函數(shù)時(shí)可能存在許多峰值,除全局最優(yōu)解外還存在很多局部最優(yōu)解,訓(xùn)練時(shí)可能陷入局部最優(yōu)解,可通過突然增加學(xué)習(xí)率跳出局部最優(yōu)解。帶重啟的隨機(jī)梯度下降算法使用余弦退火算法[20]跳出局部最優(yōu)解,但訓(xùn)練時(shí)余弦退火算法學(xué)習(xí)率僅下降和上升1次,也存在無法很好地找到最優(yōu)學(xué)習(xí)率的可能。因此,提出多級(jí)衰減余弦退火算法,多次降低和升高學(xué)習(xí)率,找到當(dāng)前迭代次數(shù)最適合的學(xué)習(xí)率。余弦退火算法和多級(jí)衰減余弦退火算法的學(xué)習(xí)率對(duì)比如圖7所示。
圖7 余弦退火、多級(jí)衰減余弦退火曲線
其中:i為當(dāng)前批次需要訓(xùn)練的次數(shù);ηmax、ηmin 分別為學(xué)習(xí)率的最大值和最小值,定義了學(xué)習(xí)率的范圍;Tcur為當(dāng)前網(wǎng)絡(luò)訓(xùn)練周期數(shù),每個(gè)批次運(yùn)行之后更新;Ti為第i次運(yùn)行中總的網(wǎng)絡(luò)訓(xùn)練周期數(shù)。
通過實(shí)驗(yàn)驗(yàn)證Efficient-Deep Labv3+網(wǎng)絡(luò)的有效性。首先對(duì)實(shí)驗(yàn)所需服飾數(shù)據(jù)集進(jìn)行采集,并對(duì)實(shí)驗(yàn)的評(píng)定指標(biāo)進(jìn)行設(shè)定;其次搭建實(shí)驗(yàn)環(huán)境,對(duì)神經(jīng)網(wǎng)絡(luò)的超參數(shù)進(jìn)行設(shè)置;最后對(duì)Efficient-Deep Labv3+網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)證明。
少數(shù)民族服飾具有鮮明的民族特色,每種圖案和紋路都蘊(yùn)含著民族文化中的獨(dú)特寓意,實(shí)驗(yàn)采用圖案豐富多樣,包括多種動(dòng)植物紋及幾何紋的苗族服飾數(shù)據(jù)集,但目前公開的各種服飾類數(shù)據(jù)集中還尚未有針對(duì)少數(shù)民族服飾圖案的,所選苗族服飾數(shù)據(jù)集是由研究者于貴州西江千戶苗寨采集而得,從多角度進(jìn)行拍攝后整理,得到具有12 500張樣本的圖像庫,從中選取測(cè)試樣本圖像2 500張,訓(xùn)練樣本圖像10 000張。表2為苗族服飾數(shù)據(jù)集樣本分布情況。
表2 苗族服飾數(shù)據(jù)集分布
PASCAL VOC2012數(shù)據(jù)集包含分類、檢測(cè)和分割任務(wù)的數(shù)據(jù)集。其分割任務(wù)數(shù)據(jù)集常用于評(píng)價(jià)語義分割模型性能。語義分割增強(qiáng)數(shù)據(jù)集有8 498張訓(xùn)練圖片,2 875張測(cè)試圖片,共有20個(gè)語義分類,大部分分辨率集中在500×500。
為判斷能否成功分割出苗族服飾圖案,利用平均交并比(mean intersection over union,簡稱MIoU)和類別平均像素準(zhǔn)確率(pixel accuracy,簡稱MPA)作為分割效果的評(píng)價(jià)指標(biāo),MPA 和MIoU 越大,表示網(wǎng)絡(luò)預(yù)測(cè)效果越好。MPA 表示將分割出的少數(shù)民族服飾每個(gè)類真實(shí)值的像素點(diǎn)數(shù)與該類的所有像素點(diǎn)數(shù)的比例相加后求平均值,MIoU 表示將分割出的少數(shù)民族服飾每個(gè)類真實(shí)值與預(yù)測(cè)值重合部分的像素值占真實(shí)值的百分比相加后求平均值。
假定有k+1類,包括k個(gè)目標(biāo)類和1個(gè)背景類,則MPA計(jì)算式為
實(shí)驗(yàn)環(huán)境基于Python 3.6,Keras 2.3.1,TensorFlow 1.13,使用GPU 2070Ti,Ubuntu 18.04完成,使用Adam 梯度下降訓(xùn)練網(wǎng)絡(luò)。參數(shù)設(shè)置:批尺寸為14,初始批次為0,基礎(chǔ)學(xué)習(xí)率為1×10-3,最小學(xué)習(xí)率為1×10-7,迭代次數(shù)為200。
針對(duì)苗族服飾數(shù)據(jù)集,在Deep Labv3+中分別加入不同的數(shù)據(jù)增強(qiáng)方法Mix UP[21]、Cut Mix和Mosaic,進(jìn)行實(shí)驗(yàn)對(duì)比,以研究不同數(shù)據(jù)增強(qiáng)方法對(duì)網(wǎng)絡(luò)精度的影響,如表3所示。從表3可看出,在網(wǎng)絡(luò)中分別加入Mix UP、Cut Mix、Mosaic數(shù)據(jù)增強(qiáng)方法后,檢測(cè)指標(biāo)MIoU 和MPA均有不同程度的提高,增加了訓(xùn)練樣本數(shù)及背景復(fù)雜程度。
表3 不同數(shù)據(jù)增強(qiáng)方法下的MIoU和MPA
實(shí)驗(yàn)中引入不同訓(xùn)練技巧能提高網(wǎng)絡(luò)預(yù)測(cè)的精度,如輔助分支結(jié)構(gòu)、余弦退火算法、多級(jí)衰減余弦退火算法、LS、不同的損失函數(shù),將它們分別加入Deep-Labv3+中進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示,其中,AL為輔助分支結(jié)構(gòu),CA 為余弦退火算法,ICA 為多級(jí)衰減余弦退火算法,CE為交叉熵?fù)p失函數(shù),DC為Dice損失函數(shù)。相較于Deep Labv3+,加入輔助分支結(jié)構(gòu)后,網(wǎng)絡(luò)損失值計(jì)算能傳入較淺網(wǎng)絡(luò)層,MIoU 和MPA分別提高了7.95%、5.49%;加入多級(jí)衰減余弦退火算法后,能找到梯度下降最優(yōu)學(xué)習(xí)率,MIoU和MPA 分別提高到73.72%和87.09%;加入LS后,MIoU 和MPA分別提高了1.15%、0.54%,解決了網(wǎng)絡(luò)過擬合的問題,分割效果得以提升;使用交叉熵?fù)p失函數(shù)和Dice損失函數(shù)后,MIoU 和MPA 分別提高到77.85%、88.94%,對(duì)網(wǎng)絡(luò)的梯度優(yōu)化具有較好效果。
表4 加入AL、CA、ICA和LS后的MIoU和MPA
將Efficient-Deeplabv3+ 與CASIA_IVA_SDN[22]、DIS[23]、ERFNet[24]和DRN ResNet-50[25]等網(wǎng)絡(luò)在分割服飾不同部位上的MIo U 和MPA 進(jìn)行對(duì)比,結(jié)果如表5、6所示。從表5、6可看出,相同實(shí)驗(yàn)環(huán)境下,Deep Labv3+網(wǎng)絡(luò)特征信息提取和檢測(cè)能力高于其他網(wǎng)絡(luò),每類的平均MIo U 提高到84.96%,MPA提高到93.7%,相較于DRN ResNet-50,MIo U 提升了13.53%,MPA 提升了8.28%,加快了網(wǎng)絡(luò)收斂速度,減少了網(wǎng)絡(luò)過擬合,增強(qiáng)了網(wǎng)絡(luò)的特征信息提取能力,提取的特征信息更加豐富,能更好地適應(yīng)多干擾環(huán)境下的分割任務(wù)。
表5 苗族服飾數(shù)據(jù)集上不同網(wǎng)絡(luò)的MIoU
為驗(yàn)證提出的網(wǎng)絡(luò)是否在背景復(fù)雜的圖片上具有很好的特征提取效果,在PASCAL VOC2012數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖8所示,可見Efficient-DeepLabv3+網(wǎng)絡(luò)能更好地提取出物體的特征,能分割出物體邊緣細(xì)節(jié),具有更好的語義分割能力。
表6 苗族服飾數(shù)據(jù)集上不同網(wǎng)絡(luò)的MPA
將Deep Labv3+分別加入輔助分支結(jié)構(gòu)、多級(jí)衰減余弦退火算法、LS、聯(lián)合損失函數(shù)后的損失函數(shù)進(jìn)行可視化,訓(xùn)練損失值結(jié)果如圖9所示。從圖9可看出,隨著所有數(shù)據(jù)訓(xùn)練完成次數(shù)epochs的增加,其損失值Loss_value比DeepLabv3+的低,模型收斂速度也更快。
圖9 VOC數(shù)據(jù)集的訓(xùn)練損失值
對(duì)Efficient-Deep Labv3+、ERFNet、DRN Res-Net-50網(wǎng)絡(luò)分割苗族服飾圖案進(jìn)行可視化,如圖10所示。從圖10可看出,綠色框中項(xiàng)圈和藍(lán)色框中褲腿的背景較為復(fù)雜,相較于ERFNet和DRN Res-Net-50,Efficient-Deep Labv3+能更好地分割出項(xiàng)圈和褲腿;紅色框中衣服和袖子顏色相似,ERFNet和DRN ResNet-50不能很好地分割出袖子和衣服,而Efficient-Deep Labv3+則可以,說明其可以較好地分割出顏色相近的物體。實(shí)驗(yàn)結(jié)果表明,與ERFNet、DRN ResNet-50網(wǎng)絡(luò)相比,Efficient-Deep Labv3+網(wǎng)絡(luò)能更好地處理復(fù)雜物體和相似物體的邊緣細(xì)節(jié)等問題,并能更好地進(jìn)行物體特征提取。
圖10 ERFNet、DRN ResNet-50和Efficient-Deep Labv3+網(wǎng)絡(luò)分割效果
針對(duì)苗族服飾圖像分割任務(wù)中特征信息的丟失問題,提出了一種基于Efficient-Deep Labv3+的苗族服飾圖案識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)通過Mosaic數(shù)據(jù)增強(qiáng)增加訓(xùn)練樣本數(shù),可提取更多特征信息;使用了LS,在真實(shí)標(biāo)簽添加懲罰因子,避免網(wǎng)絡(luò)過分相信訓(xùn)練樣本標(biāo)簽;提出了一種輔助分支結(jié)構(gòu),充分利用中間層特征所保留的信息計(jì)算損失函數(shù),彌補(bǔ)因多層卷積造成的圖片部分信息丟失;通過聯(lián)合損失函數(shù)計(jì)算損失值,計(jì)算最小損失函數(shù)和最優(yōu)模型參數(shù);通過多級(jí)衰減余弦退火算法找到最優(yōu)學(xué)習(xí)率。與原Deep Labv3+相比,Efficient-Deep Labv3+在苗族服飾數(shù)據(jù)集上每類的平均MIoU 提高了16.49%,MPA 提高了14.92%,且通過在苗族服飾數(shù)據(jù)集和PASCAL VOC2012數(shù)據(jù)集上與不同網(wǎng)絡(luò)的對(duì)比表明,Efficient-Deep Labv3+網(wǎng)絡(luò)的分割效果得到明顯提升,極大地減少了苗族服飾圖像分割任務(wù)中特征信息的丟失。但由于苗族服飾數(shù)據(jù)集上小飾品特征信息不豐富,網(wǎng)絡(luò)可提取到的特征信息有限,導(dǎo)致邊緣分割精度不夠高。后續(xù)將研究小目標(biāo)物體分割,放大小目標(biāo)特征信息,提升網(wǎng)絡(luò)對(duì)小目標(biāo)的分割能力。