曾華福 楊杰 李林紅
摘要:針對服裝圖像分類模型體積較大,缺少細(xì)分類的問題,提出基于改進(jìn)ShuffleNet v1的服裝圖像分類算法。該算法以ShuffleNet v1為基礎(chǔ),通過優(yōu)化模塊的堆疊次數(shù)和網(wǎng)絡(luò)層通道數(shù)來降低模型的計算量,滿足算法的實(shí)時性要求;嵌入通道和空間注意力模塊,使得模型關(guān)注重要的特征信息,抑制無用的特征信息;設(shè)計非對稱多尺度特征融合模塊,加強(qiáng)模型的特征提取能力。結(jié)果表明:所提算法在自建的襯衫服裝數(shù)據(jù)集中準(zhǔn)確率為88.31%,分別高于ShuffleNet v1、ShuffleNet v2、MobileNet v2和ResNet50模型2.77%、3.69%、1.98%、0.62%;所提算法在DeepFashion的部分?jǐn)?shù)據(jù)集中也取得了不錯的效果,驗(yàn)證了所提算法的有效性與通用性;與基礎(chǔ)模型相比,所提模型的參數(shù)量僅為0.73M,模型參數(shù)量減少了約60%,實(shí)現(xiàn)了模型準(zhǔn)確率和推理速度的提升。
關(guān)鍵詞:服裝圖像分類;ShuffleNet v1;深度學(xué)習(xí);注意力機(jī)制;非對稱多尺度特征融合
中圖分類號:TP399
文獻(xiàn)標(biāo)志碼:A
文章編號:1009-265X(2023)02-0023-13
隨著電子商務(wù)的發(fā)展,網(wǎng)上購物已成為人們主要的購物方式之一。服裝作為人們?nèi)粘I畹谋匦杵?,在電子商?wù)中占據(jù)著重要地位。據(jù)產(chǎn)業(yè)信息網(wǎng)《2021—2027年中國服裝紡織電子商務(wù)行業(yè)市場發(fā)展模式及未來前景展望報告》數(shù)據(jù)顯示,服裝行業(yè)的電子商務(wù)交易額逐年增長,2020年較2011年交易額增長420.7%,網(wǎng)購服裝已經(jīng)成為消費(fèi)者購買服裝的主流方式[1]。檢索服裝是網(wǎng)購服裝的重要一步,電商平臺檢索服裝的主要方式是文字搜索。這種搜索方式的前提是商家拍照后進(jìn)行服裝分類同時配上相應(yīng)的文字再上傳至平臺,在搜索時根據(jù)文字匹配相應(yīng)的服裝圖像。服裝圖像分類作為檢索的重要組成部分,可以幫助用戶快速地找到心儀的服裝。目前,電商平臺進(jìn)行服裝圖像分類的方式主要是傳統(tǒng)的人工分類。人工分類仍存在以下缺點(diǎn):a)服裝圖像數(shù)量大,人工分類消耗大量的人力財力;b)服裝款式更新迭代迅速,商家要花費(fèi)大量的時間才有可能全面地熟悉和掌握,難以快速準(zhǔn)確地進(jìn)行更新和細(xì)致分類;c)人工分類存在個人主觀性,不可避免地存在分類誤差。另一方面,用戶希望能夠基于自己的喜好和風(fēng)格來檢索出更加精準(zhǔn)的結(jié)果。因此,商家對服裝的分類需要做到細(xì)致和準(zhǔn)確。所以,為了解決現(xiàn)有的電商服裝分類難題,滿足商家對服裝分類的高效準(zhǔn)確的需求,研究一種高效的服裝細(xì)分類方法具有重要意義。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,基于CNN(Convolutional neural network)的圖像分類算法已經(jīng)取得了顯著進(jìn)展。CNN能夠自動學(xué)習(xí)圖像的有效特征,準(zhǔn)確率較傳統(tǒng)方法有了極大的提升,為服裝圖像分類提供了理論和技術(shù)支持。由于CNN的顯著優(yōu)勢,大量學(xué)者基于CNN來設(shè)計服裝圖像分類模型。任永亮等[2]提出了一種利用網(wǎng)絡(luò)剪枝方法和網(wǎng)絡(luò)稀疏約束的方法,減少卷積神經(jīng)網(wǎng)絡(luò)Xception中從卷積層到全連接層的冗余參數(shù),在DeepFashion數(shù)據(jù)集上的準(zhǔn)確率為79.88%。Zhou等[3]提出了一種基于并行卷積神經(jīng)網(wǎng)絡(luò)(PCNN)與優(yōu)化隨機(jī)向量函數(shù)鏈(RVFL)相結(jié)合的服裝分類方法,利用泄漏整流線性單元激活函數(shù)和最大池化層來提高特征提取的性能,F(xiàn)ashion-Mnist數(shù)據(jù)集上的準(zhǔn)確率達(dá)到92.93%。高櫻萍等[4]針對傳統(tǒng)的服裝圖像分類方法效率低、準(zhǔn)確度不高等缺點(diǎn),提出了一種基于VGG16和遷移學(xué)習(xí)的服裝圖像分類方法,從DeepFashion數(shù)據(jù)集中另外選取400張圖片組成測試集,達(dá)到了92.25%的準(zhǔn)確率。趙宏偉等[5]提出了一種基于關(guān)鍵點(diǎn)注意力和通道注意力的分類模型,在DeepFashion數(shù)據(jù)集上的top-3準(zhǔn)確率為91.24%。Yu等[6]提出了一種VCG網(wǎng)絡(luò),使用VGG16作為特征提取網(wǎng)絡(luò),并在第二個卷積塊中加入卷積塊注意模塊(CBAM), 在DeepFashion數(shù)據(jù)集上的平均準(zhǔn)確率為80.77%。Gao等[7]基于ResNet模型提出服裝分類算法,采用隨機(jī)擦除數(shù)據(jù)增強(qiáng)方式,強(qiáng)化模型的泛化能力,分類精度提高了2.43%。上述研究對服裝圖像分類問題從不同的方面進(jìn)行了改進(jìn),例如改善卷積方式和引入注意力機(jī)制,有效地提升了模型的分類精度,為本研究提供了良好的借鑒思路。然而,上述研究仍然存在以下不足:a)在提升精度的同時忽略了模型復(fù)雜度的上升,導(dǎo)致模型體積較大,在設(shè)備中的推理耗時較高;b)研究對象相對集中于服裝大類別分類,對某一類別的細(xì)分類存在不足。因此,研究一種輕量級的服裝圖像細(xì)分類模型具有重要的實(shí)用價值。
2012年,Krizhevsky等[8]提了AlexNet模型,該模型采用卷積神經(jīng)模型自動提取圖像特征,其在ImageNet數(shù)據(jù)集中的識別精度遠(yuǎn)超傳統(tǒng)的特征提取方法,引起了深度學(xué)習(xí)的熱潮。再到2014年的GoogleNet[9]、VGG[10]系列模型,2015年的ResNet[11]系列模型,卷積神經(jīng)模型在圖像處理領(lǐng)域優(yōu)勢越來越突出,同時模型的參數(shù)量也越來越大。然而,大型模型對硬件算力的要求高,使得模型難以直接在邊緣設(shè)備上運(yùn)行,限制了模型的產(chǎn)業(yè)化,促使研究往輕量級模型發(fā)展。2017年SqueezeNet[12]的提出,標(biāo)志著模型輕量化的開始。后續(xù)出現(xiàn)了Xception[13]、MobileNet[14]和ShuffleNet[15]等系列的輕量級模型,使得模型在保證精度的同時,模型計算量和參數(shù)量更小,推理速度更快。其中,ShuffleNet具有網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)雅、參數(shù)量低和識別精度高等優(yōu)點(diǎn)。因此,本文選取ShuffleNet v1作為本研究的基礎(chǔ)網(wǎng)絡(luò),對其進(jìn)行優(yōu)化改進(jìn),實(shí)現(xiàn)襯衫服裝圖像分類。
針對服裝圖像分類模型模型較大,缺少細(xì)分類問題,本文在前人研究的基礎(chǔ)上,探索設(shè)計一種輕量級的服裝圖片細(xì)分類模型?;谳p量級ShuffleNet v1模型,從以下幾個方面設(shè)計高效的服裝圖像細(xì)分類模型:a)選取輕量高效的ShuffleNet v1作為本研究的基礎(chǔ)模型;b)通過改進(jìn)模塊的堆疊次數(shù)和調(diào)整基本單元的通道數(shù)來優(yōu)化模型結(jié)構(gòu),使得準(zhǔn)確率的下降在可接受范圍內(nèi),減少模型的參數(shù)量和計算量;c)嵌入通道和空間注意力模塊,使得模型關(guān)注重要特征,減弱次要特征;d)設(shè)計非對稱多尺度特征融合模塊,提高模型的特征提取能力和模型的魯棒性能。
1相關(guān)工作
1.1ShuffleNet v1
ShuffleNet v1是由曠視科技于2018年提出的一種高效的輕量級神經(jīng)網(wǎng)絡(luò)模型,可直接在移動端部署使用,模型在保持輕量性的同時,具有不錯的識別精度。該模型的主要創(chuàng)新點(diǎn)如下:a)該網(wǎng)絡(luò)在基本單元中使用了分組逐點(diǎn)卷積,而不是傳統(tǒng)卷積,該方式能夠有效降低模型的計算量和參數(shù)量,提升卷積的運(yùn)算效率;b)提出通道重洗技術(shù),解決了分組卷積帶來的組與組之間的特征信息無共享交流的問題,實(shí)現(xiàn)通道信息交流,加強(qiáng)了模型的特征表達(dá)能力。
ShuffleNet v1的基本單元模塊主要有兩種,如圖1所示。基本單元模塊借鑒了殘差單元[11]的設(shè)計思路,提升梯度的傳播效率;如圖1(a)所示,卷積操作中使用深度卷積替換標(biāo)準(zhǔn)的3×3卷積,降低卷積操作的復(fù)雜度,減少模型參數(shù);將首尾兩個逐點(diǎn)卷積換成分組逐點(diǎn)卷積,進(jìn)一步降低模型的參數(shù)量;在首端的分組逐點(diǎn)卷積和深度卷積之間加入通道重洗,實(shí)現(xiàn)組與組之間特征信息的交流。將輸入直接與卷積操作后的輸出相加融合,構(gòu)成步長為1的基本單元模塊,如圖1(b)所示;將輸入進(jìn)行平均池化后與卷積操作后的輸出拼接融合,構(gòu)成步長為2的基本單元模塊,如圖1(c)所示。
1.2分組逐點(diǎn)卷積與通道重洗
分組逐點(diǎn)卷積是將1×1的標(biāo)準(zhǔn)卷積進(jìn)行分組卷積操作。在卷積的過程中,將輸入的特征層分組,每個卷積核也相應(yīng)地分組,每組中的卷積核只與同組的輸入特征進(jìn)行卷積操作。如圖2所示,輸入特征尺寸為H×W×Cin,輸出特征尺寸為H×W×Cout,假設(shè)分為g組,此時每組的特征尺寸為H×W×Cin/g;每個卷積核也分為g組,每組卷積核的個數(shù)為Cout/g,最后將每個組的輸出拼接在一起輸出。分組逐點(diǎn)卷積的參數(shù)量比逐點(diǎn)卷積的參數(shù)量小,是逐點(diǎn)卷積的1/g,具體對比如式(1):
P1P2=1×1×Cin×Coutg1×1×Cin×Cout=1g(1)
式中:P1是分組逐點(diǎn)卷積的參數(shù)量,P2是逐點(diǎn)卷積的參數(shù)量。
通道重洗可以實(shí)現(xiàn)組與組之間的特征信息共享交流。在如圖3(a)所示,輸入特征分為綠、藍(lán)、黃三組,進(jìn)行分組逐點(diǎn)卷積后,輸出僅與組內(nèi)的特征有關(guān),與其他組的特征無關(guān),信息沒有共享交叉,提取的特征有一定的局限性。通道重洗正好可以解決這個問題,在完成分組逐點(diǎn)卷積后,進(jìn)行通道重洗操作。如圖3(b)所示,使得組與組之間特征信息相互
融合,提高了模型特征提取能力。
分組逐點(diǎn)卷積和通道重洗是ShuffleNet v1的核心技術(shù)點(diǎn)。分組逐點(diǎn)卷積可以減少模型參數(shù)量,提高模型運(yùn)算效率;還可以降低過擬合的風(fēng)險,具有正則化的效果[18]。通道重洗將不同組的通道信息重新分組,克服了各組之間的信息孤立的約束,在不增加計算量的前提下,使得組與組之間實(shí)現(xiàn)信息共享,提高了模型對特征信息的學(xué)習(xí)能力。鑒于分組逐點(diǎn)卷積和通道重洗的優(yōu)勢,本文沿用這兩個核心技術(shù)點(diǎn),在設(shè)計基本單元時,使用分組逐點(diǎn)卷積進(jìn)行通道調(diào)整;采用通道重洗技術(shù)對特征進(jìn)行通道洗牌。具體如圖2、圖3所示。
1.3注意力機(jī)制
CBAM[16]模塊包含空間和通道注意力模塊,可以嵌入到CNN模型中,與CNN一起進(jìn)行端到端的訓(xùn)練。其過程如式(2):
Fc=Mc(F)F
Fs=Ms(Fc)Fc(2)
式中:F表示輸入的特征圖,Ms表示通道權(quán)重系數(shù),Mc表示通道權(quán)重系數(shù),F(xiàn)c表示通道注意力特征,F(xiàn)s表示空間注意力特征,表示逐像素乘法運(yùn)算。
CBAM的通道注意力機(jī)制如圖4(a)所示,將輸入的特征層進(jìn)行空間維度的平均池化和最大池化,得到兩個特征描述,將兩個特征描述經(jīng)過一個多層感知機(jī)(MLP, Multilayer perceptron),然后將神經(jīng)模型輸出的特征進(jìn)行相加操作,再經(jīng)過Sigmoid激活函
數(shù)激活,得到通道的權(quán)重系數(shù)Mc,最后將此權(quán)重系數(shù)與輸入的特征相乘得到新的特征層,過程如式(3):
Mc=σ(fM(fAvg(F)+fMax(F)))(3)
式中:σ表示非線性激活函數(shù),fM表示多層感知機(jī)(MLP)操作,fAvg表示空間維度上的平均池化函數(shù),fMax表示空間維度上的最大池化函數(shù)。
CBAM的空間注意力機(jī)制如圖4(b)所示,對輸入的特征層進(jìn)行通道維度的平均池化和最大池化得到兩個特征描述,按通道維度將這兩個特征描述拼接在一起,再經(jīng)過一個卷積計算,將卷積計算得到的特征通過Sigmoid激活函數(shù)激活,得到空間的權(quán)重系數(shù)Ms,最后將此權(quán)重系數(shù)與輸入特征相乘得到新的特征層。具體計算如式(4):
Ms=σ( fc([fAvg(F), fMax(F)]))(4)
式中:σ表示非線性激活函數(shù),fc表示卷積計算,fAvg表示通道維度上的平均池化函數(shù),fMax表示通道維度上的最大池化函數(shù)。
1.4非對稱卷積
ACNet(Asymmetric convolution net)是Ding等[17]于2019年提出的一種非對稱卷積模型。核心思想是:a)訓(xùn)練階段在標(biāo)準(zhǔn)的k×k卷積中并行k×1、1×k卷積,將3個卷積后的特征相加融合輸出,如
圖5(a)所示;b)推理階段如圖5(b)所示,將學(xué)習(xí)好的3個卷積核如圖所示方式進(jìn)行相加融合,刪除訓(xùn)練階段并行的k×1、1×k卷積。訓(xùn)練階段并行的非對稱卷積核,可以強(qiáng)化特征提取能力,提高模型的魯棒性。推理階段將并行的3個卷積核融合,同時只保留標(biāo)準(zhǔn)的k×k卷積,在不增加計算量的前提下,提升了模型的性能。這種特征融合的方式為多尺度特征融合提供了新的設(shè)計思路。
2算法設(shè)計
針對于服裝圖像分類問題,本文基于ShuffleNet v1模型進(jìn)行改進(jìn),設(shè)計輕量高效的服裝圖像分類算法。本文提出改正后的模型整體框圖如圖6所示,其中
Conv代表普通卷積層,GC Conv代表分組卷積,Stage代表模型內(nèi)部的大模塊,由多個基本單元BottleNeck組成。其中基本單元包括帶有注意力機(jī)制的基本單元BottleNeck_C和具有非對稱多尺度特征融合模塊的基本單元BottleNeck_A。
本文模型的具體的設(shè)計思路如下:首先,與基礎(chǔ)模型相比,針對于模型的Stage塊的數(shù)量設(shè)計,本文模型增加了Stage塊的數(shù)量,由原來的3個增加至6個,該方式能夠加深網(wǎng)絡(luò)深度,有利于提取到圖像的深層特征;其次,本文對基本單元進(jìn)行通道數(shù)優(yōu)化,構(gòu)建先升維再降維的通道變化規(guī)律,允許基本單元有更小通道的輸入和輸出,降低模型的整體計算量;再次,本文對ShuffleNet v1的基本單元進(jìn)行了改進(jìn),在步長為1的基本單元中嵌入注意力機(jī)制,構(gòu)建了帶注意力機(jī)制基本單元;本文也提出了一種非對稱多尺度特征融合單元,應(yīng)用于步長為2情況下的基本單元,提升模型的特征提取能力。
2.1模型結(jié)構(gòu)設(shè)計
MobileNet v2[14]提出一種倒殘差結(jié)構(gòu),它與普通的殘差結(jié)構(gòu)不同,如圖7所示。普通的殘差結(jié)構(gòu)是先降維后升維,即對輸入特征的維度先降維進(jìn)行特征的提取,然后進(jìn)行升維。倒殘差正好相反,先升維后降維,即對輸入特征的維度先升維進(jìn)行特征的提取,然后進(jìn)行降維。倒殘差結(jié)構(gòu)的這種先升后降可以允許輸入更低的維度,減少模型的參數(shù)量和計算量,且不影響模型的特征提取性能。
本文模型借鑒MobileNet v2的倒殘差結(jié)構(gòu)設(shè)計,通過優(yōu)化模塊的堆疊次數(shù)和網(wǎng)絡(luò)層通道數(shù)來降低模型的計算量方式設(shè)計新的模型結(jié)構(gòu),降低模型的參數(shù)量,提高了模型運(yùn)算效率。
2.2注意力機(jī)制單元
CBAM注意力機(jī)制能夠自適應(yīng)地獲取通道和空間相應(yīng)的權(quán)重參數(shù)。利用相應(yīng)的權(quán)重參數(shù)可以從冗雜的特征信息中選擇出對當(dāng)前類別的關(guān)鍵特征信息,從而強(qiáng)化關(guān)鍵特征信息,有效地提升了模型的特征提取能力和抗噪性能。
本文將CBAM注意力機(jī)制嵌入到ShuffleNet v1步長為1的基本單元模塊中,使得模型在通道和空間維度上都能強(qiáng)化關(guān)鍵特征信息,抑制無用特征信息,提高模型的特征提取能力。CBAM注意力機(jī)制在基本單元模塊中的位置如圖8所示,在第2個分組逐點(diǎn)卷積之后依次串聯(lián)通道注意力機(jī)制和空間注意力機(jī)制。同時將通道重洗在殘差融合后進(jìn)行[19]。改進(jìn)后的基本單元模塊如圖9所示,將其作為本文模型中步長為1的基本單元模塊,模塊命名為BottleNeck_C。
2.3非對稱多尺度特征融合單元
標(biāo)準(zhǔn)卷積是利用單一尺度的卷積核進(jìn)行卷積操作。單一尺度的卷積核的感受野有限,提取的特征信息比較單一,在一定程度上限制了模型的性能。為進(jìn)一步提升模型的性能,本文提出了一種非對稱多尺度特征融合模塊。非對稱多尺度特征融合模塊借鑒ACNet訓(xùn)練階段的思想,如圖10所示,在標(biāo)準(zhǔn)的k×k卷積基礎(chǔ)上并行k×1、1×k的卷積,相加融合得到特征的輸出,稱之為k×k非對稱多尺度特征融合模塊。利用多個不同尺度的卷積核進(jìn)行特征提取,可以增加模型對尺度的適應(yīng)性和加寬模型,提取的特征在空間尺度上更為豐富,強(qiáng)化特征的提取能力。同時并行非對稱的卷積可以提高模型對圖像翻轉(zhuǎn)、旋轉(zhuǎn)的魯棒性[17]。
本文通過非對稱多尺度特征融合模塊來設(shè)計模型的基本單元,命名為BottleNeck_A,該單元如圖11所示。首先,在非對稱多尺度特征融合后連接一組逐點(diǎn)卷積,進(jìn)行通道的調(diào)整;其次,在另一條分支上進(jìn)行最大池化和分組逐點(diǎn)卷積操作;然后,將兩條分支的輸出特征經(jīng)過BN層后執(zhí)行相加操作;最終,采用通道重洗技術(shù)對特征進(jìn)行通道洗牌。考慮到并行卷積會導(dǎo)致模型參數(shù)量大幅增加,因此,本文只將非對稱多尺度特征融合單元應(yīng)用于步長為2時的基本單元。
3實(shí)驗(yàn)與結(jié)果
3.1數(shù)據(jù)集介紹
實(shí)驗(yàn)一共使用了兩個數(shù)據(jù)集,分別是自建的襯衫數(shù)據(jù)集和DeepFashion[19]的部分?jǐn)?shù)據(jù)集,DeepFashion的部分?jǐn)?shù)據(jù)集用于驗(yàn)證提出算法的有效性和通用性。由于目前尚未有公開的襯衫圖像分類數(shù)據(jù)集,本文通過模型搜索和人工拍攝的方式收集襯衫圖像,并按照圖像分類任務(wù)的文件格式建立數(shù)據(jù)集。自建數(shù)據(jù)集根據(jù)襯衫上圖案的不同,將襯衫分為具象圖案和抽象圖案兩大類,具象圖案有豹紋、斑馬紋和刺繡,抽象類圖案包括條紋、格子、斑點(diǎn)、純色、印花,共計8類襯衫8143張圖片,具體數(shù)量見表1。
DeepFashion是一個公開的大型服裝數(shù)據(jù)集,包含80萬張不同場所、角度和不同類別的圖片。本次研究選取Blazer類別中經(jīng)典男友款短上衣、經(jīng)典牛仔款短上衣、經(jīng)典一扣短上衣等8類經(jīng)典的短上衣和Dress類別中的V形印花連衣裙、豹紋印花連衣裙等6類連衣裙,共計14類。由于數(shù)據(jù)量較小,使用剪裁、仿射變化等數(shù)據(jù)增強(qiáng)的方式生成圖片,擴(kuò)充數(shù)據(jù)量,避免訓(xùn)練的過程中由于數(shù)據(jù)量小而出現(xiàn)過擬合問題,增強(qiáng)后的具體數(shù)量如表2所示。在訓(xùn)練的過程中,將數(shù)據(jù)集按8∶2劃分為訓(xùn)練集和驗(yàn)證集。
3.2實(shí)驗(yàn)設(shè)置及環(huán)境
首先,為了證明本研究提出的各項(xiàng)改進(jìn)點(diǎn)對基礎(chǔ)模型的性能提升都有貢獻(xiàn),設(shè)置消融實(shí)驗(yàn)。然后,為了驗(yàn)證本文所提模型的有效性和通用性,選取經(jīng)典的分類模型VGG16、ResNet50及最新的EfficientNet v2[20]和輕量級分類模型ShuffleNet v2[21]、MobileNet v2在DeepFashion的部分?jǐn)?shù)據(jù)集上進(jìn)行不同模型的對比實(shí)驗(yàn),比較本文所提模型和其他分類模型的分類性能。
本文搭建的實(shí)驗(yàn)平臺配置如下:電腦為Intel Core I5-8500(3GHz)的CPU,搭載2張Tesla P100顯卡,Ubuntu 14.04的操作系統(tǒng),python 版本為3.6.9,深度學(xué)習(xí)框架及版本為Pytorch1.6.0。
模型的訓(xùn)練使用Tesla P100進(jìn)行加速,減少訓(xùn)練的時間。選擇Adam作為模型參數(shù)優(yōu)化器;訓(xùn)練周期設(shè)置為200次;每批次訓(xùn)練的16張襯衫圖片;學(xué)習(xí)率設(shè)置為0.0001;損失函數(shù)采用交叉熵?fù)p失。為提高模型的泛化能力,在訓(xùn)練時對數(shù)據(jù)集執(zhí)行:a)將襯衫圖片隨機(jī)剪裁224×224;b)隨機(jī)水平翻轉(zhuǎn);c)歸一化處理。驗(yàn)證時對數(shù)據(jù)集執(zhí)行:a)將襯衫圖片大小調(diào)整為256×256;b)中心裁剪為224×224;c)歸一化處理。
采用準(zhǔn)確率Acc(Accuracy)、F1(F-score)作為襯衫分類結(jié)果的衡量指標(biāo),采用參數(shù)量P(Params)衡量模型的大小,Occ(Occupancy)衡量模型訓(xùn)練時GPU的占用內(nèi)存,模型的推理速度采用平均時間(Tavg)衡量。各衡量指標(biāo)具體的計算如式(5)、式(6):
Acc=TP+TNTP+TN+FP+FN(5)
F1=2TP2TP+FP+FN(6)
式中:TP表示正類預(yù)測準(zhǔn)確的數(shù)量,TN表示負(fù)類預(yù)測準(zhǔn)確的數(shù)量,F(xiàn)P表示負(fù)類預(yù)測錯誤的數(shù)量,F(xiàn)N表示正類預(yù)測錯誤的數(shù)量。
P=∑(H×W×Cin1+1)×Cout1+∑(Cin2+1)×Cout2(7)
式中:H表示卷積核高度,W表示卷積核寬度,Cin1表示輸入通道數(shù),Cout1表示輸出通道數(shù),Cin2表示全連接層輸入節(jié)點(diǎn)數(shù),Cout2表示全連接層輸出節(jié)點(diǎn)數(shù),P表示所有卷積層參數(shù)與所有全連接層參數(shù)的和。
Tavg=∑Ni=1tiN(8)
式中:N表示測試圖片的數(shù)量,ti表示第i張圖片推理的耗時,Tavg表示單張圖片的平均耗時。
3.3消融實(shí)驗(yàn)
為了證明本研究提出的各項(xiàng)改進(jìn)點(diǎn)對基礎(chǔ)模型的性能提升都有貢獻(xiàn),設(shè)置消融實(shí)驗(yàn)。首先,為了驗(yàn)證所提改進(jìn)結(jié)構(gòu)的有效性,按新的網(wǎng)絡(luò)結(jié)構(gòu)表搭建出所提結(jié)構(gòu);其次,為了證明引入通道和空間注意力機(jī)制對模型性能的提升效果,使用注意力機(jī)制單元BottleNeck_C替換ShuffleNet v1步長為1情況下的基本單元;再次,為了驗(yàn)證所提出的非對稱多尺度特征融合單元對網(wǎng)絡(luò)的貢獻(xiàn),使用非對稱多尺度特征融合單元BottleNeck_A替換ShuffleNet v1步長為2情況下的基本單元;最后,將所有改進(jìn)點(diǎn)進(jìn)行結(jié)合,對最終的模型進(jìn)行性能測試。
消融實(shí)驗(yàn)結(jié)果如表3所示??梢钥闯觯ㄟ^改進(jìn)模型的結(jié)構(gòu),模型在僅犧牲1.17%的準(zhǔn)確率情況下,參數(shù)量減少至約為基礎(chǔ)模型的1/8;通過引入CBAM模塊,使得模型在通道和空間維度上都能關(guān)注重要特征信息,提升了模型的識別準(zhǔn)確率;非對稱多尺度特征融合模塊并行了兩個1×3、3×1卷積強(qiáng)化模型對特征的學(xué)習(xí)能力,提高模型對圖像翻轉(zhuǎn)、旋轉(zhuǎn)的魯棒性,模型的準(zhǔn)確率提高了1.66%。
為了驗(yàn)證通道注意力和空間注意力分別對襯衫服裝分類的有效性,設(shè)計6組對比實(shí)驗(yàn),分類結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明:a)嵌入注意力機(jī)制后,模型的預(yù)測準(zhǔn)確率都得到了提升,其中,識別精度最好的連接方式是依次串聯(lián)通道注意力和空間注意力;b)CBAM注意力機(jī)制中主要是通道注意力帶來參數(shù)量。為直觀體現(xiàn)通道、空間注意力對模型的效果,將模型卷積結(jié)果利用CAM[22]采用熱力圖的形式進(jìn)行可視化展示。如圖12所示,溫度越高的地方表示模型越關(guān)注。在圖12(b)中是沒有加入注意力機(jī)制的原始模型,可以發(fā)現(xiàn)模型關(guān)注點(diǎn)比較分散,包含了無關(guān)的背景信息;在圖12(c)―(f)中加入了注意力機(jī)制后,模型可以將注意力集中在分類的目標(biāo)上,有效地區(qū)分周圍的背景干擾信息,其中串聯(lián)通道注意力后串聯(lián)空間注意力對分類目標(biāo)的關(guān)注度最好。
為了確保模型推理速度,本文優(yōu)化了模塊的堆疊次數(shù)和網(wǎng)絡(luò)層的通道數(shù),在保證模型精度的情況下,極大地減少了參數(shù)量;在注意力機(jī)制的實(shí)驗(yàn)中,證明了采用通道與空間注意力機(jī)制依次串聯(lián)的方式對網(wǎng)絡(luò)的性能提升效果最明顯;本文提出的非對稱多尺度特征融合單元能夠提升模型的特征提取能力,進(jìn)一步提升模型的分類準(zhǔn)確率。與基礎(chǔ)的ShuffleNet v1相比,所提模型準(zhǔn)確率提高了2.77%,模型的參數(shù)量減少了約60%,單張圖片推理的平均時間減少了4.18 ms,實(shí)現(xiàn)了模型準(zhǔn)確率和推理速度的提升。因此,消融實(shí)驗(yàn)證明了本文所提改進(jìn)點(diǎn)的有效性,所提模型是一種低消耗、高精度的服裝圖像分類模型。
3.4算法對比
為了體現(xiàn)本文所提出算法的有效性,與當(dāng)前主流分類模型VGG16、ResNet50、EfficientNet v2、ShuffleNet v2、MobileNet v2等進(jìn)行實(shí)驗(yàn)對比。在自建的襯衫服裝分類數(shù)據(jù)集中訓(xùn)練,訓(xùn)練的過程中保證每一個模型的超參數(shù)相同,同時每完成一個訓(xùn)練周期,記錄模型在驗(yàn)證集上的準(zhǔn)確率。
如圖13所示為不同模型在自建的襯衫數(shù)據(jù)集中的訓(xùn)練曲線,E為訓(xùn)練的迭代次數(shù),A為模型測試的準(zhǔn)確率,L為模型測試的損失值。從圖13中可以看出,改進(jìn)后的模型有明顯的提升,收斂速度更快,在驗(yàn)證數(shù)據(jù)集中的損失值最小。各模型在自建數(shù)據(jù)中具體實(shí)驗(yàn)結(jié)果如表5所示,表中Ts表示單張圖片推理時間(CPU),Occ表示模型訓(xùn)練是GPU的占用率。可以看出,本文算法基于ShuffleNet v1模型改進(jìn),準(zhǔn)確率最高,且耗時最短,GPU占用內(nèi)存也是最??;具體改進(jìn)后模型的準(zhǔn)確率比VGG16、EfficientNet v2分別略低0.24%、0.61%,但參數(shù)量分別減少了99.46%、99.38%;比ShuffleNet v1、ShuffleNet v2、MobileNet v2、ResNet50模型分別高2.77%、3.69%、1.88%、0.62%,同時模型參數(shù)量約減少分別為65.40%、42.06%、67.26%、96.81%。原因如下:a)ShuffleNet v1本身對襯衫服裝分類性能的優(yōu)越性,對特征的提取能力超越了ShuffleNet v2;b)重新設(shè)計了模型結(jié)構(gòu)減少模型的參數(shù)量,實(shí)驗(yàn)證明,準(zhǔn)確率下降在可接受的范圍內(nèi),改進(jìn)后的模型結(jié)構(gòu)可以大幅度地減少模型的參數(shù)量;c)本文算法引入CBAM注意力機(jī)制模塊,能夠模擬人的視覺專注重要信息,而忽略非必要信息;d)本文算法設(shè)計的非對稱多尺度特征融合模塊,將步長為2的結(jié)構(gòu)單元換成非對稱多尺度特征融合單元,強(qiáng)化模型的特征提取性能同時提升了模型的魯棒性。
如表6所示為各模型在自建襯衫數(shù)據(jù)集中的F1值,結(jié)果顯示:a)本文算法對條紋、斑點(diǎn)、純色、斑馬紋4類襯衫的F1值均高于其他模型的F1值;b)本文算法的平均F1值為0.875,分別高于ResNet50的0.874、MobileNet v2的0.857、ShuffleNet v2的0.842、ShuffleNet v1的0.847,僅次于VGG16的0.876和EfficientNet v2的0.879。通過分析可知,本文模型參數(shù)量僅為0.73M,僅約為EfficientNet v2的0.6%,VGG的0.54%。本文模型在以極低的計算消耗的情況下取得了不錯的識別精度,更適合在實(shí)際場景中的部署使用。因此,所提模型是一種高精度、低消耗的服裝圖像分類模型。
為進(jìn)一步分析本文所提出算法的有效性和通用性,在DeepFashion的部分?jǐn)?shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如表7所示??梢钥闯觯疚乃惴ㄔ贒eepFashion的部分?jǐn)?shù)據(jù)中的準(zhǔn)確率為93.22%,超越了ShuffleNet v1、ShuffleNet v2、MobileNet v2、VGG16和ResNet50模型,僅次于EfficientNet v2。本文算法的準(zhǔn)確率低于EfficientNet v2的原因是EfficientNet v2模型結(jié)構(gòu)深,模型復(fù)雜,具有較好的學(xué)習(xí)能力,但是EfficientNet v2的模型參數(shù)量大,對設(shè)備的要求較高。因此,本文算法同樣具有有效性和通用性。
4結(jié)語
本文基于ShuffleNet v1進(jìn)行改進(jìn),提出襯衫服裝分類算法。在自建的襯衫分類數(shù)據(jù)集中表明,本文算法準(zhǔn)確率超過了許多經(jīng)典的輕量級分類模型;改進(jìn)模型結(jié)構(gòu)大幅度地減少了模型參數(shù)量;嵌入CBAM注意力機(jī)制模塊可以提高模型對分類目標(biāo)的關(guān)注度,有效地區(qū)分周圍背景干擾信息;引入非對稱多尺度特征融合模塊使得模型提取到的特征在空間尺度上更為豐富,提高了分類的準(zhǔn)確率。在公共數(shù)據(jù)集DeepFashion的部分?jǐn)?shù)據(jù)中表明本文算法的有效性和通用性。實(shí)現(xiàn)了高精度、耗時小的襯衫服裝分類,對幫助商戶前期的服裝細(xì)分類具有實(shí)際的應(yīng)用價值。同時,對類似的細(xì)分類問題和輕量化問題的研究具有較好的學(xué)術(shù)意義和參考價值。
本文算法是應(yīng)用于服裝圖像的細(xì)分類。由于數(shù)據(jù)集的原因,目前僅支持條紋、格子、斑點(diǎn)等襯衫的少數(shù)類別?,F(xiàn)實(shí)生活中,某一類服裝有不同的形式和更多的類別。如何收集有效數(shù)據(jù)或利用對抗性學(xué)習(xí)來擴(kuò)展數(shù)據(jù)集是一個值得探索的方向。
參考文獻(xiàn):
[1]產(chǎn)業(yè)信息網(wǎng). 2021—2027年中國服裝紡織電子商務(wù)行業(yè)市場發(fā)展模式及未來前景展望報告[R/OL]. [2022-07-20]. https://www.chyxx.com/research/202011/906001.html.
Industry Information Network. Report on the market development mode and future prospects of China apparel and textile E-commerce industry in 2021-2027[R/OL]. [2022-07-20]. https://www.chyxx.com/research/202011/906001.html.
[2]任永亮,宋田,毋濤.基于Xception改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法[J].計算機(jī)系統(tǒng)應(yīng)用,2022,31(6):381-387.
REN Yongliang, SONG Tian, WU Tao. Improved clothing classification algorithm based on Xception in convolutional
Neural Network[J]. Computer Systems & Applications, 2022,31(6): 381-387.
[3]ZHOU Z Y, DENG W X, WANG Y M, et al. Classification of clothing images based on a parallel convolutional neural network and random vector functional link optimized by the grasshopper optimization algorithm[J]. Textile Research Journal. 2022, 92(9/10): 1415-1428..
[4]高櫻萍,宋丹,陳玉婷.基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的服裝圖像分類[J].紡織科技進(jìn)展,2021(11):48-52.
GAO Yingping, SONG Dan, CHEN Yuting. Clothing image classification based on VGG16 and transfer learning[J]. Progress in Textile Science & Technology, 2021(11): 48-52.
[5]趙宏偉,劉曉涵,張媛,等.基于關(guān)鍵點(diǎn)注意力和通道注意力的服裝分類算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2020,50(5):1765-1770.
ZHAO Hongwei, LIU Xiaohan, ZHANG Yuan, et al. Clothing classification algorithm based on landmark attention and channel attention[J]. Journal of Jilin University(Engineering and Technology Edition), 2020, 50(5): 1765-1770.
[6]YU S, JIN S Z, PENG J, et al. Application of a new deep learning method with CBAM in clothing image classification[C]//?IEEE International Conference on Emergency Science and Information Technology. Chongqing, China. IEEE, 2022:364-368.
[7]GAO Z Y, HAN L X. Clothing image classification based on random erasing and residual network[J]. Journal of Physics: Conference Series, 2020, 1634(1): 012136.
[8]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Infor-mation Processing Systems. Lake Tahoe, Nevada. New York: ACM, 2012: 1097-1105.
[9]SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA. IEEE, 2015: 1-9.
[10]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-07-22]. http://arxiv.org/abs/1409.1556.
[11]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE, 2016: 770-778.
[12]IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5 MB model size[EB/OL]. [2018-11-13]. https://arxiv.org/pdf/?1602. 07360.pdf.
[13]CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA. IEEE, 2017: 1800-1807.
[14]SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 4510-4520.
[15]ZHANG X Y, ZHOU X Y, LIN M X, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 6848-6856.
[16]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[M]. Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[17]DING X H, GUO Y C, DING G G, et al. ACNet: Strengthening the kernel skeletons for powerful cnn via asymmetric convolution blocks[C]//IEEE/CVF Inter-national Conference on Computer Vision(ICCV). seoul, Korea(South). IEEE, 2019: 1911-1920.
[18]ZHOU B L, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE, 2016: 2921-2929.
[19]LIU Z W, LUO P, QIU S, et al. DeepFashion: Powering robust clothes recognition and retrieval with rich annotations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA. IEEE, 2016: 1096-1104.
[20]MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[M]. Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 122-138.
[21]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
Clothing image classification algorithm based on improved ShuffleNet v1
ZENG Huafua,b, YANG Jiea,b, LI Linhonga,b
(a.School of Electrical Engineering and Automation; b.Jiangxi Provincial Key Laboratory of Maglev Technology, Jiangxi University of Science and Technology, Ganzhou 341000, China)
Abstract:
In recent years, with the development of the Internet economy, compared with offline sales of clothing, online shopping has broken the time and geographical restrictions, and has gradually become one of the mainstream consumption methods with distinctive features such as various categories and affordable prices. According to the China E-Commerce Report 2021 released by the Ministry of Commerce of the People's Republic of China, in 2021, the national online retail witnessed rapid growth, with the online retail volume reaching 13.09 trillion yuan, of which footwear and clothing products account for the largest proportion, reaching 22.94%. With the increasing demand for clothing, consumers' requirements for clothing retrieval methods are also increasing. Consumers hope to retrieve more accurate results based on their own needs and styles. Therefore, the classification of clothing needs to be meticulous and accurate.
To promote the accurate integration of clothing retrieval results of e-commerce platforms and consumer demand, it is necessary to further enrich the clothing retrieval methods of e-commerce platforms. Aiming at the problem of large volume and lack of fine classification of garment image classification models, a garment image classification algorithm based on improved ShuffleNet v1 is proposed. Based on ShuffleNet v1, the algorithm reduces the computational load of the model by optimizing the number of module stacks and network layer channels to meet the real-time requirements of the algorithm. Furthermore, the channel and spatial attention module is embedded to make the model focus on important feature information and suppress useless feature information. Finally, the asymmetric multi-scale feature fusion module is designed to enhance the feature extraction ability of the model. The results show that the accuracy of the proposed algorithm in the self-built shirt and clothing dataset is 88.31%, which is 2.77%, 3.69%, 1.98% and 0.62% higher than that of ShuffleNet v1, ShuffleNet v2, MobileNet v2 and ResNet50 models respectively. The proposed algorithm has also achieved good results in some datasets of DeepFashion, verifying the effectiveness and universality of the proposed algorithm. Compared with the basic model, the parameters of the proposed model are only 0.73M, and the parameters of the model are reduced by about 60%, which improves the accuracy and reasoning speed of the model.
This paper proposes an algorithm to achieve high-precision and less time-consuming shirt clothing classification, which has practical application value for helping merchants to subdivide clothing in the early stage. At the same time, it has good academic significance and reference value for the research of similar fine classification and lightweight problems. However, due to the limitation of the dataset, only a few categories of shirts such as stripes, lattices and spots are supported. In real life, a certain type of clothing has different forms and more categories. How to collect effective data or expand datasets is a direction worth exploring in the future.
Keywords:
clothing image classification; ShuffleNet v1; deep learning; attention mechanism; asymmetric multi-scale feature fusion
收稿日期:20220801
網(wǎng)絡(luò)出版日期:20221207
基金項(xiàng)目:江西省03專項(xiàng)及5G項(xiàng)目(20204ABC03A15)
作者簡介:曾華福(1996—),男,江西贛州人,碩士研究生,主要從事計算機(jī)視覺方面的研究。
通信作者:楊杰,E-mail:yangjie@jxust.edu.cn