国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度融合增強(qiáng)的服裝圖像解析方法

2022-11-07 05:39:04陳麗芳余恩婷
關(guān)鍵詞:類別尺度解析

陳麗芳,余恩婷

(江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214000)

隨著服裝和互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,服裝圖像解析作為圖像處理的一個(gè)重要應(yīng)用有著巨大的發(fā)展前景。服裝圖像解析的目標(biāo)是對(duì)服裝圖像各個(gè)部分的組成進(jìn)行像素級(jí)別的識(shí)別,將服裝圖像按照若干個(gè)類別劃分為若干個(gè)區(qū)域。服裝圖像解析是計(jì)算機(jī)視覺中一項(xiàng)特定形式的細(xì)粒度分割。因此,服裝圖像解析研究對(duì)服裝檢索[1]、服裝推薦[2]和服裝合成[3]等領(lǐng)域的發(fā)展有著重要意義。Liu等[4]通過深度卷積網(wǎng)絡(luò)來學(xué)習(xí)豐富的語義信息以克服不同的身體部位和服裝間的語義模糊,同時(shí)采用不進(jìn)行下采樣的網(wǎng)絡(luò)為小尺度對(duì)象保留分辨率和局部細(xì)節(jié)信息,并設(shè)計(jì)了一個(gè)橋梁模塊在2個(gè)并行的網(wǎng)絡(luò)間交換互補(bǔ)信息,從而提升網(wǎng)絡(luò)解析性能。Luo等[5]利用對(duì)抗網(wǎng)絡(luò)解決低級(jí)局部和高級(jí)語義的不一致性,該網(wǎng)絡(luò)采用2個(gè)鑒別器,分別作用于低分辨率標(biāo)簽圖和高分辨率標(biāo)簽映射的多個(gè)像素塊,強(qiáng)制實(shí)現(xiàn)語義和局部的一致性,而且避免了處理高分辨率圖像時(shí)對(duì)抗網(wǎng)絡(luò)收斂性差的問題。Wang等[6]將以人體為中心的服裝圖像解析定義為一個(gè)基于人體結(jié)構(gòu)的神經(jīng)信息融合過程,并建立了結(jié)合直接推理、自頂向下推理和自底向上推理的3個(gè)層次推理的網(wǎng)絡(luò)結(jié)構(gòu),可以明確地捕獲人體的組成和分解關(guān)系,進(jìn)而提高服裝圖像解析精度。Gong等[7]首先通過圖內(nèi)推理在一個(gè)數(shù)據(jù)集內(nèi)的標(biāo)簽之間學(xué)習(xí)和傳播特征信息,然后通過圖間轉(zhuǎn)移在多個(gè)數(shù)據(jù)集之間傳輸語義信息,分析和編碼不同數(shù)據(jù)集之間全局語義一致性以增強(qiáng)圖傳遞能力,實(shí)現(xiàn)多層次的解析任務(wù)?,F(xiàn)有解析方法沒有很好地解決服裝類別豐富且尺度差異大等問題,導(dǎo)致服裝圖像解析效果有待提升。因此,提出一種多尺度融合增強(qiáng)網(wǎng)絡(luò),在充分發(fā)揮深度卷積網(wǎng)絡(luò)中各個(gè)層次特征優(yōu)勢(shì)的基礎(chǔ)上,利用通道注意力機(jī)制增強(qiáng)特征表達(dá),從而提高服裝圖像解析效果。

1 相關(guān)工作

1.1 服裝圖像解析

服裝圖像解析在人工智能等領(lǐng)域具有廣闊的應(yīng)用前景。Chen等[8]將深度卷積網(wǎng)絡(luò)提取到的多尺度特征輸入到注意力模塊,分別學(xué)習(xí)各個(gè)尺度特征在每個(gè)位置上的權(quán)重,輸出不同信息重要性差異的權(quán)值圖,然后將不同尺度的權(quán)值圖分別乘以原始特征,調(diào)整不同像素對(duì)于不同類別的重要性。Zhao等[9]在利用金字塔結(jié)構(gòu)獲取多尺度特征的基礎(chǔ)上,提出語義感知模塊和邊界感知模塊,其中語義感知模塊選擇與類別相關(guān)的有區(qū)分性的特征,防止不相關(guān)的特征被合并到一起,而邊界感知模塊將多尺度特征與對(duì)象邊界有效結(jié)合,實(shí)現(xiàn)精確的局部定位和部分區(qū)域間的準(zhǔn)確識(shí)別。Luo等[10]設(shè)計(jì)了金字塔殘留池結(jié)構(gòu)以捕獲全局和局部的上下文信息,利用一種可信指導(dǎo)多尺度監(jiān)督方法,有效地整合和監(jiān)督不同尺度的上下文信息,從而解決了人為誤標(biāo)標(biāo)簽時(shí)導(dǎo)致的標(biāo)簽解析混亂問題。

1.2 注意力機(jī)制

深度學(xué)習(xí)中的注意力機(jī)制源于人類視覺特性,當(dāng)人類觀察事物時(shí),選擇性地獲取所觀察事物的重要特征,忽略不重要特征。深度學(xué)習(xí)中的注意力機(jī)制借鑒了人類的視覺機(jī)制,旨在自適應(yīng)地聚集有相關(guān)性的特征,幫助深度學(xué)習(xí)模型對(duì)輸入的信息賦予不同的權(quán)重,獲取更有用的特征,所以注意力機(jī)制被廣泛應(yīng)用于語義分割、目標(biāo)識(shí)別和圖像分類等計(jì)算機(jī)視覺領(lǐng)域。Hu等[11]提出通道注意力模塊,從通道的維度學(xué)習(xí)特征的重要程度,選擇性地提升對(duì)當(dāng)前任務(wù)有用的特征并抑制對(duì)當(dāng)前任務(wù)用處不大的特征。由于在特征提取時(shí)卷積操作經(jīng)常把通道和空間信息混合在一起,因此模型效果仍然不夠好。Woo等[12]在Hu等[11]提出的通道維度注意力機(jī)制的基礎(chǔ)上,又提出了同時(shí)考慮通道和空間位置維度的混合注意力機(jī)制,進(jìn)而有效地整合全局的上下文特征表達(dá)。與其他注意力機(jī)制不同的是,Wang等[13]通過自注意力模塊Non-local計(jì)算任意2個(gè)位置之間的相互作用,直接捕獲遠(yuǎn)距離依賴關(guān)系,然后將相關(guān)性作為權(quán)重表征其他位置和當(dāng)前待計(jì)算位置的相似度。Hu等[14]定義了一個(gè)聚集算子,有效地聚合給定空間范圍上的特征響應(yīng),同時(shí)設(shè)計(jì)一個(gè)激發(fā)算子調(diào)整聚合后的特征大小,并將其作為注意力特征重新分發(fā)給原始特征,從而以更輕量級(jí)的方式提升網(wǎng)絡(luò)性能。

2 網(wǎng)絡(luò)設(shè)計(jì)

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

提出的多尺度融合增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,以步長(zhǎng)為16的ResNet101[14]作為編碼網(wǎng)絡(luò),提取多個(gè)層次的特征圖,同時(shí)將Conv-1、Res-2、Res-3、Res-4和Res-5的輸出依次表示為L(zhǎng)4、L3、L2、L1和H1;其次,在解碼網(wǎng)絡(luò)中根據(jù)分辨率大小分為4個(gè)階段進(jìn)行解碼,并且每個(gè)階段都使用了如圖2所示的融合增強(qiáng)模塊(FEM),融合不同層次的語義和不同尺度的特征,從而提升預(yù)測(cè)結(jié)果精度;然后,將4個(gè)融合增強(qiáng)模塊輸出的特征圖H5、H4、H3和H2串聯(lián)拼接在一起,進(jìn)一步細(xì)化特征對(duì)各個(gè)類別的感知能力;最后,通過線性插值、1×1卷積和argmax操作得到服裝圖像各個(gè)對(duì)象的解析結(jié)果。

圖1 多尺度融合增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of multi-scale fusion enhanced network

2.2 融合增強(qiáng)模塊

如圖2所示,融合增強(qiáng)模塊的輸入來自編碼網(wǎng)絡(luò)跳躍連接的低層特征Li和解碼網(wǎng)絡(luò)的深層特征Hi??紤]到顯存(2塊8 GB顯卡)的有限性,用1×1卷積將低層特征Li和深層特征Hi的通道維度均降低為256。為了融合不同層次的低層特征Li和深層特征Hi,先將深層特征Hi通過線性插值得到與低層特征Li相同的分辨率,然后將兩者串聯(lián)在一起。受文獻(xiàn)[15]中用不同大小的感受野提取不同尺度特征信息的啟發(fā),用3×3、5×5和7×7卷積提取串聯(lián)后的特征,分別得到特征圖F33、F55和F77。將特征圖F33、F55和F77串聯(lián)在一起,并應(yīng)用1×1卷積對(duì)其進(jìn)行融合,進(jìn)而增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度服裝對(duì)象的感知。雖然這種網(wǎng)絡(luò)結(jié)構(gòu)很好地提取了多尺度上下文信息,但是沒有考慮全局信息,因此結(jié)合Hu等[11]提出的通道注意力機(jī)制,從全局角度對(duì)特征圖進(jìn)行優(yōu)化。首先,對(duì)特征圖F357進(jìn)行全局池化和Sigmoid激活,形成大小為256×1×1的全局信息圖;然后,通過乘法對(duì)全局信息圖中3個(gè)不同尺度的特征圖F33、F55和F77分別加權(quán),從而起到強(qiáng)調(diào)重要信息、抑制無用信息的作用;最后,將3個(gè)加權(quán)后的不同尺度特征圖進(jìn)行串聯(lián)拼接得到最終的輸出特征Hi+1。

圖2 融合增強(qiáng)模塊Fig.2 Fusion enhancement module

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)均是在2個(gè)NVIDIA GTX1070 GPU服 務(wù) 器 上 利 用Ubuntu18.04、Python3.6和Pytorch0.4.1搭建的深度學(xué)習(xí)框架。使用步長(zhǎng)為16的預(yù)訓(xùn)練好的ResNet101[16]作為骨干網(wǎng)絡(luò)。在訓(xùn)練和測(cè)試時(shí)采用的圖像大小為320×320。初始學(xué)習(xí)率設(shè)置為0.003,并使用“Poly”學(xué)習(xí)率策略對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。在訓(xùn)練過程中采用隨機(jī)梯度下降方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,動(dòng)量和權(quán)重衰減分別設(shè)置為0.9和0.000 5,同時(shí)采用隨機(jī)的圖像縮放(從0.5到1.5)、裁剪和左右翻轉(zhuǎn)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)。提出的多尺度融合增強(qiáng)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的多類的交叉熵?fù)p失函數(shù)監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí),使網(wǎng)絡(luò)預(yù)測(cè)結(jié)果不斷接近真實(shí)值,在網(wǎng)絡(luò)參數(shù)不斷迭代更新過程中實(shí)現(xiàn)端到端的學(xué)習(xí)。

3.2 數(shù)據(jù)集

實(shí)驗(yàn)中使用的數(shù)據(jù)集是公共數(shù)據(jù)集Fashion Clothing數(shù)據(jù)集和LIP(Look Into Person)數(shù)據(jù)集。Fashion Clothing數(shù) 據(jù) 集 由Clothing Co-Parsing[17]、Fashionista[18]和Colorful Fashion Parsing Data[19]3個(gè)服裝數(shù)據(jù)集組成。由于這些數(shù)據(jù)集有一些細(xì)微的差異,因此現(xiàn)有算法通常把這3個(gè)數(shù)據(jù)集的標(biāo)簽統(tǒng)一為18個(gè)類別,最后得到4 371幅像素級(jí)別標(biāo)注的圖像。LIP數(shù)據(jù)集[20]是包含20個(gè)類別50 462張圖像的大型數(shù)據(jù)集,其中訓(xùn)練集包含30 462張圖像,驗(yàn)證集包含10 000張圖像,測(cè)試集包含10 000張圖像。

在Fashion Clothing數(shù)據(jù)集中使用像素準(zhǔn)確率、前景準(zhǔn)確率、平均精確率、平均召回率和平均F1分?jǐn)?shù)5個(gè)評(píng)價(jià)指標(biāo)對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。在LIP數(shù)據(jù)集中使用像素準(zhǔn)確率、平均準(zhǔn)確率、每個(gè)類別的交并比和平均交并比4個(gè)評(píng)價(jià)指標(biāo)對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估。

3.3 消融實(shí)驗(yàn)

表1為各模塊消融實(shí)驗(yàn)對(duì)比結(jié)果?!瘫硎驹诙喑叨热诤显鰪?qiáng)網(wǎng)絡(luò)中加入了此部分,×表示在多尺度融合增強(qiáng)網(wǎng)絡(luò)中沒有加入此部分。F357表示利用3×3、5×5和7×7卷積提取的多尺度特征圖,GP表示加入了全局池化結(jié)構(gòu)對(duì)特征圖進(jìn)行優(yōu)化,C表示將4個(gè)融合增強(qiáng)模塊(FEM)輸出的特征圖H2、H3、H4和H5串聯(lián)在一起。從表1可以看出,在加入3×3、5×5和7×7卷積后卷積感受野變大,從而提取到更豐富的上下文信息,有效地解決服裝圖像目標(biāo)尺度差異較大的問題。多尺度融合增強(qiáng)網(wǎng)絡(luò)在加入全局池化結(jié)構(gòu)后提高了模型的特征表達(dá)能力,使得解析準(zhǔn)確率明顯提升。最后,將4個(gè)融合增強(qiáng)模塊輸出的特征圖H2、H3、H4和H5串聯(lián)拼接在一起,進(jìn)一步增強(qiáng)融合后的特征信息。同時(shí),為了驗(yàn)證融合增強(qiáng)模塊個(gè)數(shù)對(duì)網(wǎng)絡(luò)性能的影響,在解碼網(wǎng)絡(luò)中從左到右使用了不同數(shù)量的融合增強(qiáng)模塊并在表2中列出了實(shí)驗(yàn)結(jié)果。由表2可見,隨著解碼網(wǎng)絡(luò)中使用的融合增強(qiáng)模塊數(shù)量的增加,像素準(zhǔn)確率、前景準(zhǔn)確率、平均精確率、平均召回率和平均F1分?jǐn)?shù)5個(gè)評(píng)價(jià)指標(biāo)都有明顯的提升,進(jìn)一步驗(yàn)證了融合增強(qiáng)模塊在增強(qiáng)模型特征表達(dá)和提升網(wǎng)絡(luò)性能的有效性。

表1 各模塊消融實(shí)驗(yàn)結(jié)果Tab.1 Results of ablation experiments for each module

表2 不同融合增強(qiáng)模塊個(gè)數(shù)下實(shí)驗(yàn)結(jié)果Tab.2 Experimental results under different fusion enhancement modules

3.4 Fashion Clothing數(shù)據(jù)集上的性能對(duì)比

表3給出了多尺度融合增強(qiáng)網(wǎng)絡(luò)與其他先進(jìn)方法在Fashion Clothing數(shù)據(jù)集上的性能對(duì)比。從表3可以看出,多尺度融合增強(qiáng)網(wǎng)絡(luò)與TGPNet(trusted guidance pyramid network)[10]和TPRR(typed partrelation reasoning)[21]相比,像素準(zhǔn)確率、前景準(zhǔn)確率、平均精確率、平均召回率和平均F1分?jǐn)?shù)都有明顯的提升。這主要是由于多尺度融合增強(qiáng)網(wǎng)絡(luò)充分利用了編碼過程中提取到的所有特征,增強(qiáng)了不同層次特征的信息表達(dá),更適合紋理復(fù)雜、目標(biāo)差異大的服裝圖像,因此提高了服裝圖像解析各個(gè)評(píng)價(jià)指標(biāo)的值。為更清晰地展示多尺度融合增強(qiáng)網(wǎng)絡(luò)在服裝圖像分割效果上的提升,在圖3可視化了不同方法在Fashion Clothing數(shù)據(jù)集上的解析結(jié)果。從圖3c可以看出,TGPNet[10]和TPRR[21]等方法都將半身裙錯(cuò)誤地分割為連衣裙,只有本方法準(zhǔn)確地解析出半身裙的整個(gè)輪廓,表明本方法可以更精準(zhǔn)地區(qū)分易混淆的類別。從圖3a和圖3b可以看出,其他方法均沒有關(guān)注到眼鏡和腰帶這種類別較小的目標(biāo),本方法卻精確地分辯出小尺度的眼鏡和腰帶。因此,相比其他方法本方法可以給予尺度差異較大的目標(biāo)對(duì)象均衡的關(guān)注,從而提升服裝圖像解析效果。

圖3 不同方法在Fashion Clothing數(shù)據(jù)集上的解析結(jié)果對(duì)比Fig.3 Comparison of parsing results between different methods on Fashion Clothing dataset

表3 不同方法在Fashion Clothing數(shù)據(jù)集上的性能對(duì)比Tab.3 Comparison of performance between different methods on Fashion Clothing dataset

3.5 LIP數(shù)據(jù)集上的性能對(duì)比

為了進(jìn)一步驗(yàn)證本方法的有效性和泛化性,表4給出了多尺度融合增強(qiáng)網(wǎng)絡(luò)與其他方法在LIP數(shù)據(jù)集上的解析結(jié)果。從表4可以看出,多尺度融合增強(qiáng)網(wǎng)絡(luò)與PGECNet相比,像素準(zhǔn)確率、平均準(zhǔn)確率和平均交并比3個(gè)評(píng)價(jià)指標(biāo)分別提升了0.15%、1.14%和0.63%。表5給出了不同方法在LIP數(shù)據(jù)集上每個(gè)類別的交并比。從表5可以看出,多尺度融合增強(qiáng)網(wǎng)絡(luò)對(duì)大部分服裝類別的解析都得到了較高的精度,也表明本方法對(duì)于不同尺度的目標(biāo)類別都是有效的。本方法的解析效果不僅在連衣裙、外套和連衣褲等較大的服裝類別上有明顯的提升,還在帽子、手套和眼鏡等較小的服裝類別上有明顯的改善。因此,驗(yàn)證了多尺度融合增強(qiáng)網(wǎng)絡(luò)在融合低層特征、深層特征以及增強(qiáng)特征表達(dá)方面的有效性。

表4 不同方法在LIP數(shù)據(jù)集上的性能對(duì)比Tab.4 Comparison of performance between different methods on LIP dataset

表5 不同方法在LIP數(shù)據(jù)集上每個(gè)類別的交并比Tab.5 Comparison of per-class IoU between different methods on LIP dataset

4 結(jié)語

提出了一種基于多尺度融合增強(qiáng)的服裝圖像解析方法。通過融合增強(qiáng)模塊設(shè)計(jì),在提取不同尺度特征的基礎(chǔ)上,利用通道注意力機(jī)制優(yōu)先考慮全局特征,增強(qiáng)多尺度特征信息,達(dá)到獲取更多細(xì)節(jié)特征的目的。實(shí)驗(yàn)結(jié)果表明,本方法不僅可以提升較大目標(biāo)的解析效果,還對(duì)帽子、腰帶和眼鏡等小物體的解析效果有明顯改善。雖然本方法對(duì)較小對(duì)象的解析結(jié)果有所改善,但是與其他類別相比,小目標(biāo)對(duì)象的解析精度仍然較低。在未來的研究中,將考慮利用目標(biāo)檢測(cè)技術(shù)定位小目標(biāo)對(duì)象,從而提升小目標(biāo)對(duì)象的解析精度。

作者貢獻(xiàn)聲明:

陳麗芳:模型網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)思、設(shè)計(jì)、分析,論文修改與校對(duì)。

余恩婷:模型網(wǎng)絡(luò)結(jié)構(gòu)程序與實(shí)驗(yàn)設(shè)計(jì),論文撰寫與修改。

猜你喜歡
類別尺度解析
三角函數(shù)解析式中ω的幾種求法
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
睡夢(mèng)解析儀
電競(jìng)初解析
商周刊(2017年12期)2017-06-22 12:02:01
相機(jī)解析
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
服務(wù)類別
9
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
东山县| 原平市| 丰城市| 漯河市| 大田县| 布尔津县| 拉萨市| 莆田市| 灵武市| 平原县| 宁南县| 新民市| 凯里市| 石柱| 来安县| 合川市| 哈巴河县| 昌吉市| 珲春市| 安仁县| 阳信县| 新宁县| 邻水| 新兴县| 修文县| 安乡县| 成安县| 保靖县| 云霄县| 仁布县| 黄冈市| 高安市| 晴隆县| 额敏县| 余姚市| 德令哈市| 怀化市| 拉萨市| 黔西县| 仪陇县| 兴业县|