李 青,冀艷波,郭濠奇,劉凱旋
(1.西安工程大學(xué)服裝與藝術(shù)設(shè)計(jì)學(xué)院,西安 710048;2.江西理工大學(xué)電氣工程與自動化學(xué)院,江西贛州 341000)
網(wǎng)購作為新時代下的虛擬平臺與實(shí)物交易的購物模式,打破了商品區(qū)域性,其“一鍵式”購物逐步被眾人接受與應(yīng)用。服裝業(yè)呈現(xiàn)出個性化、多元化的發(fā)展趨勢,并且結(jié)合便捷的電商平臺,展現(xiàn)出經(jīng)濟(jì)蓬勃發(fā)展、效益顯著提升的局面。在發(fā)達(dá)的商品化網(wǎng)購時代下,傳統(tǒng)特征信息的分類效率與層出不窮的商品供應(yīng)之間存在不平衡,可表現(xiàn)為商品量大、款式更迭快,但人工分類效率低、主觀性較強(qiáng)等方面,導(dǎo)致分類速度跟不上新商品涌現(xiàn)的速度。而卷積神經(jīng)網(wǎng)絡(luò)CNN[1-2]技術(shù)的日益成熟,為服裝行業(yè)的圖像分類、款式生成、圖形設(shè)計(jì)等提供了可行性方案。
近年來,隨著深度學(xué)習(xí)技術(shù)的不斷成熟,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域脫穎而出,在服裝圖像分類方面,張振煥等[3]針對目前服裝分類算法在解決多類別服裝分類問題時分類精度一般的問題,提出了一種基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法;厲智等[4]針對服裝圖像分類精度較低的問題提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)服裝圖像分類檢索算法;針對L2-normalization無法跟蹤全局信息問題上,Zhe等[5]研究了一種矢量分布的深度度量學(xué)習(xí)模型,通過定期更迭類中心的替代學(xué)習(xí)方法,實(shí)現(xiàn)了對嵌入層全局信息的捕獲和類分布的近似表達(dá);湯清云[6]提出了一種基于注意力區(qū)域特征表達(dá)的服裝圖像檢索方法;于雨桐[7]利用多特征融合和圖像分類識別技術(shù),對服裝款式進(jìn)行明確分類;胡夢瑩等[8]提出了利用卷積神經(jīng)網(wǎng)絡(luò)對不同品牌服裝風(fēng)格特征進(jìn)行自動提取、識別和分類的方法實(shí)現(xiàn)品牌服裝的分類任務(wù);Lü等[9]設(shè)計(jì)了一種帶有姿態(tài)預(yù)測的深度神經(jīng)網(wǎng)絡(luò)模型,提取相關(guān)的目標(biāo)區(qū)域特征,并融合分類特征生成服裝圖像的最終屬性。
上述方法更多的是傾向于服裝整體類別的研究,而對于服裝單獨(dú)特征的研究較少;在分類模型中依然存在計(jì)算量偏大、時效性不足等問題。本文將女襯衫作為研究對象,以深度學(xué)習(xí)為技術(shù)手段,以提高襯衫分類識別率為目標(biāo)。結(jié)合遷移學(xué)習(xí)優(yōu)化Inception v3模型,并將其應(yīng)用到女襯衫圖案樣式識別分類中,針對8種典型的女襯衫圖案樣式數(shù)據(jù)集,在傳統(tǒng)服裝分類模型中基于一種模型遷移關(guān)系,選取對女襯衫訓(xùn)練有益的模型權(quán)重分配,并為襯衫數(shù)據(jù)集提供一個精度高、可靠性強(qiáng)的識別訓(xùn)練模型,有效縮短了模型訓(xùn)練周期,提高了服裝類型識別率,在服裝分類及設(shè)計(jì)領(lǐng)域,具有一定的應(yīng)用價值。
襯衫,歸屬為常見的上衣類品,可搭配的服裝較多,且一年四季皆可穿著,而女襯衫在款式、色彩、圖案等方面相較于男襯衫具有更迭較快、種類繁多等特點(diǎn),且市場需求量較大。同時,女襯衫圖案分類的高準(zhǔn)確率也可進(jìn)一步為圖案生成與設(shè)計(jì)提供了一定的技術(shù)參考。因此,在訓(xùn)練數(shù)據(jù)集中,綜合選取了多類別服裝數(shù)據(jù)集DeepFashion[10]以及網(wǎng)絡(luò)購物平臺的公開服裝數(shù)據(jù),依據(jù)女襯衫的圖案特點(diǎn)進(jìn)行標(biāo)注與分類,共計(jì)8種類別的8121張女襯衫圖片,如表1 所示。
表1 女襯衫分類數(shù)據(jù)集Tab.1 Blouse classification dataset
在此數(shù)據(jù)集選取65%(即5279張)作為網(wǎng)絡(luò)訓(xùn)練樣本集,驗(yàn)證集和測試集分別選取20%(1624張)和15%(1218張),且在3種數(shù)據(jù)子集中不存在數(shù)據(jù)交集與并集問題。其中驗(yàn)證集選取分類特征相對明顯的照片,用于對模型參數(shù)進(jìn)行調(diào)整與優(yōu)化,確保模型訓(xùn)練的準(zhǔn)確性;測試集則直接在對應(yīng)數(shù)據(jù)集中隨機(jī)選取,保障對模型結(jié)果的可信度。
1.2.1 Inception v3模型
自2014年Google提出Inception模型以來,相繼研發(fā)了包括Inception-Resnet在內(nèi)的五代分類模型,其通過底層設(shè)計(jì)1*1卷積、3*3卷積、5*5卷積以及3*3池化等簡化網(wǎng)絡(luò)架構(gòu),保障了每層網(wǎng)絡(luò)結(jié)構(gòu)都能學(xué)習(xí)到目標(biāo)稀疏特征,增加網(wǎng)絡(luò)寬度和深度同時,也提高了網(wǎng)絡(luò)對尺度的適應(yīng)性。在網(wǎng)絡(luò)結(jié)構(gòu)中,Inception模型有效避免了網(wǎng)絡(luò)深度和精度需求與結(jié)構(gòu)性能飽和之間的矛盾,保障了不犧牲網(wǎng)絡(luò)分類識別精準(zhǔn)率的環(huán)境下,降低目標(biāo)模型的運(yùn)算結(jié)構(gòu)和硬件配置的依賴性。在目標(biāo)分類問題中,Inception模型提供了良好的識別方案,例如,Inception模型在醫(yī)療診斷[11]、冶煉工藝檢測[12]等方面均有不同程度的研究與應(yīng)用。
針對服裝圖案樣式分類問題,本文參考了張靖等[13]和Mednikov等[14]的研究,分別以服裝和生活垃圾為目標(biāo)的識別算法的評估,其中包括典型的VGG、Inception v3、Xception、ResNet 和MnasNet等模型,在服裝和垃圾分類中,VGG和Inception v3具備較優(yōu)的識別精度。同時,在綜合考慮了訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)、模型大小等性能指標(biāo)后直接采用后者作為優(yōu)化算法進(jìn)行設(shè)計(jì),并與幾種常見模型作性能對比驗(yàn)證。
由Liu等[15]提出的引入適當(dāng)?shù)姆纸饩矸e(Factorized convolutions)和積極的正則化(Aggressive regularization)來降低目標(biāo)計(jì)算復(fù)雜度這一理論,即Inception v3的問世,相比Inception v2的特征歸一化(Batch normalization)技術(shù),在模型參數(shù)和計(jì)算量上均有不俗的表現(xiàn)。在結(jié)構(gòu)上,Inception v3整體延續(xù)了Inception v2的網(wǎng)絡(luò)架構(gòu),如圖1所示。該算法使用 Inception模塊能夠同時對輸入圖像執(zhí)行多個卷積運(yùn)算或池化操作,并將所有輸出結(jié)果拼接為一個比較深的圖像。同時,網(wǎng)絡(luò)架構(gòu)采用2個1*n和n*1的卷積核取代n*n的卷積核,卷積分解降低了參數(shù)計(jì)算量,輔助分類器用作正則化器,解決了梯度消失問題,提高了訓(xùn)練期間的收斂性。將原始大卷積核分解為有同等輸出的小卷積核,在更有效地保留圖像特征的同時減少計(jì)算量。將較大的卷積分解為若干個較小的卷積,在保證效果相同的前提下降低參數(shù)量,提升泛化能力。
圖1 Inception v3的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure diagram of Inception v3
綜合上述,本文將直接選用Inception v3作為圖案分類的實(shí)現(xiàn)手段。如圖1,該模型以多組小型卷積層取代較大網(wǎng)絡(luò)卷積層,提高模型泛化能力。此外,也包含了以下技術(shù)革新:
a)使用LSR方法降低過擬合。用標(biāo)簽q(k/x)采用獨(dú)熱編碼的形式進(jìn)行模型訓(xùn)練,輸出為softmax歸一的預(yù)測概率分布p(k/x),其中:
(1)
其損失函數(shù)為:
(2)
為解決過擬合問題,Inception v3以權(quán)重加入某一概率分布構(gòu)成新的標(biāo)簽的方式進(jìn)行處理,具體方式如下:
(3)
式中:α∈(0,1),屬于均勻分布,損失函數(shù)表示為:
(4)
當(dāng)u服從均勻分布時,H(u,p)為常數(shù),能夠衡量預(yù)測分布p和均勻分布的不相似程度,實(shí)現(xiàn)了正則化。
b)采用雙層1*n和n*1的卷積核取代n*n的卷積核,節(jié)省計(jì)算量。
c)在auxiliary classifier的全連接層進(jìn)行了批標(biāo)準(zhǔn)化操作。
d)采用RMSProp優(yōu)化結(jié)構(gòu),具備自適應(yīng)學(xué)習(xí)能力。
(5)
式中:β為衰減系數(shù)。
1.2.2 遷移學(xué)習(xí)
將遷移學(xué)習(xí)[16]引入到Inception v3訓(xùn)練模型中,保障在少樣本情況下的學(xué)習(xí)效率和準(zhǔn)確率,例如刺繡襯衫僅500余張。通過遷移學(xué)習(xí)可以提高模型的穩(wěn)定性和泛化能力,有效避免了因部分圖像像素變化、差異等因素造成的對模型訓(xùn)練精度影響。將遷移學(xué)習(xí)中獲得的知識作為瓶頸層的輸出應(yīng)用于女襯衫數(shù)據(jù)集中,其全連接(FC)層和 softmax 層之前的卷積層將被中止,而后通過不斷調(diào)整網(wǎng)絡(luò)參數(shù),訓(xùn)練新的FC層和新的softmax層來提取襯衫圖像的深層特征,從而在較短的時間內(nèi)實(shí)現(xiàn)模型訓(xùn)練和圖像分類,其網(wǎng)絡(luò)特征提取如圖2所示。為了保證模型網(wǎng)絡(luò)深度結(jié)構(gòu),文章選用多尺寸過濾器選取,并通過矩陣拼接形式構(gòu)成網(wǎng)絡(luò)框架,最終形成由11個Inception模塊構(gòu)成的46組卷積層。
圖2 遷移學(xué)習(xí)的深度特征提取結(jié)構(gòu)Fig.2 Deep feature extraction architecture for transfer learning
實(shí)驗(yàn)驗(yàn)證的硬件配置:采用64位Ubuntu18.0操作系統(tǒng)的DELL R740服務(wù)器,Intel Xeon E5-2603v4處理器,外設(shè)2個GPU:Tesla-P100,模型訓(xùn)練在TensorFlow和PyCharm2020平臺完成。
為了評估Inception v3算法的識別效果,本文引入其余3種經(jīng)典識別模型進(jìn)行對比,其訓(xùn)練的準(zhǔn)確率和損失率如圖3所示。在訓(xùn)練中,實(shí)驗(yàn)?zāi)P蛥?shù)選用學(xué)習(xí)率為0.0001,模型優(yōu)化器選用Adagrad,迭代次數(shù)為200,批尺寸(Batch_size)為32,數(shù)據(jù)集的照片尺寸取224*224*3,激活函數(shù)取ReLU函數(shù)等。
圖3 4種訓(xùn)練模型的準(zhǔn)確率和損失值Fig.3 Accuracy and loss values for the four trained models
針對女襯衫圖案特征識別中,4種訓(xùn)練模型均有良好的識別精度,大約在100代逐步進(jìn)入收斂區(qū),且保持在90%以上的準(zhǔn)確率和0.5以下的損失函數(shù)值。而初始的Inception v3模型在準(zhǔn)確率和損失值上并未表現(xiàn)出顯著的優(yōu)勢在識別精度上不及VGG模型(識別精度達(dá)94%),但其收斂速率具有明顯的快速性,在第10代之后進(jìn)入10%的準(zhǔn)確誤差帶之內(nèi)。這也說明了VGG與Inception v3在目標(biāo)識別分類方面具有高精度識別率性能。
在保持良好收斂速率前提下,如何保證較高識別率,降低模型訓(xùn)練對計(jì)算硬件性能的依賴性也是當(dāng)下研究的方向之一。因此,將遷移學(xué)習(xí)引入到Inception v3模型(Inception v3-transfer),并在相同數(shù)據(jù)集上進(jìn)行驗(yàn)證分析。其中,遷移學(xué)習(xí)直接利用Inception v3在ImageNet數(shù)據(jù)集獲取的預(yù)訓(xùn)練權(quán)重,對特征提取部分進(jìn)行權(quán)重的初始化,在訓(xùn)練過程中凍結(jié)特征提取部分,只讓分類層的權(quán)重參數(shù)進(jìn)行學(xué)習(xí)并更新,有效避免了模型的“零”起點(diǎn)學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)降低學(xué)習(xí)成本,提升模型識別精度的目的。
結(jié)合2.1小節(jié),將遷移學(xué)習(xí)和原始的Inception v3、VGG進(jìn)行效果對比,如表2所示。
表2 3種訓(xùn)練模型的準(zhǔn)確率對比Tab.2 Accuracy comparison of the three training models
由表2可見,結(jié)合遷移學(xué)習(xí)的Inception v3模型具備較好的識別效果,且遷移學(xué)習(xí)的引入有效的提高了訓(xùn)練模型的學(xué)習(xí)起點(diǎn);相比VGG,其識別精度高出52.26%;在收斂速率上,Inception v3-transfer 在30至40代之間率先達(dá)到90%,而Inception v3和VGG分別在100代和80代左右;在識別準(zhǔn)確率上,Inception v3-transfer經(jīng)過200次的迭代訓(xùn)練,精度基本穩(wěn)定在98%附近,而Inception v3和VGG分別在92%和94%左右。不論在識別速率或識別精度上Inception v3-transfer模型均有不俗的表現(xiàn)。
進(jìn)一步將改進(jìn)前后的兩種Inception v3模型在準(zhǔn)確率和損失值的性能指標(biāo)上進(jìn)行對比,如圖4所示。
圖4 基于Inception v3訓(xùn)練模型的準(zhǔn)確率和損失值Fig.4 Accuracy and loss values of training models based on Inception v3
圖4中,遷移模型很好的繼承了初始Inception v3的快速收斂性,進(jìn)一步優(yōu)化了數(shù)據(jù)特征的識別率和損失值,且模型初始值更優(yōu)、識別精度更加趨于平滑。相比初始模型92%的準(zhǔn)確率,改進(jìn)后模型識別率提高了6%,達(dá)98%;相應(yīng)損失函數(shù)值降低至 0.06,優(yōu)化了約70%;這也說明在女襯衫圖案識別問題上,遷移學(xué)習(xí)依然具備良好的繼承性和訓(xùn)練模型的適應(yīng)性。
在概述上,遷移學(xué)習(xí)就是運(yùn)用已存有的知識對不同但相關(guān)領(lǐng)域問題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法,可有效的降低目標(biāo)訓(xùn)練模型的參數(shù)量,提高訓(xùn)練效率。結(jié)合兩種訓(xùn)練模型,提取了模型訓(xùn)練參數(shù)量進(jìn)行對比。其中,Pall為訓(xùn)練模型的參數(shù)總量,Ptr為實(shí)際參與訓(xùn)練的模型參數(shù)量,Pnt為未參與訓(xùn)練的模型參數(shù)量,Ptr/%=Ptr/Pall×100;如表3所示。
表3中,基于Inception v3的初始模型所涉及的訓(xùn)練參數(shù)量幾乎調(diào)用了所有參數(shù),而遷移模型下的訓(xùn)練計(jì)算量僅調(diào)用了約8.81%,這意味著達(dá)到了降低模型訓(xùn)練需求量和保持良好識別性能的設(shè)計(jì)目標(biāo),且在訓(xùn)練平均周期中優(yōu)化了31%的運(yùn)算效率。
表3 兩種模型的訓(xùn)練參數(shù)量Tab.3 The amount of training parameters for the two models
結(jié)合上述兩種訓(xùn)練模型,選用20%的樣本集作為驗(yàn)證集用于調(diào)整網(wǎng)絡(luò)分類器的訓(xùn)練參數(shù),發(fā)揮驗(yàn)證集對訓(xùn)練模型的性能評估與調(diào)參作用,驗(yàn)證近似模型的泛化能力,有效避免訓(xùn)練模型的過擬合或收斂過慢等問題。
將改進(jìn)前后的兩種Inception v3在驗(yàn)證模型準(zhǔn)確率和損失值的性能指標(biāo)上進(jìn)行對比,如圖5所示。
圖5 基于Inception v3測試模型的準(zhǔn)確率和損失值Fig.5 Accuracy and loss values of the test model based on Inception v3
在圖5中,驗(yàn)證集伴隨著訓(xùn)練集識別精度的升高,其參數(shù)調(diào)節(jié)機(jī)制逐步處于穩(wěn)定狀態(tài),并在20代之后逐漸收斂。特別的,在模型訓(xùn)練初始參數(shù)的調(diào)節(jié)能力更強(qiáng),波動幅度較大。在100代之后,由驗(yàn)證集對訓(xùn)練模型的識別度趨于穩(wěn)定,保持在90%以上。在逐步收斂過程中,改進(jìn)的遷移模型在準(zhǔn)確率和損失值上均有明顯的優(yōu)勢。
針對女襯衫圖案樣式分類問題,本文提出了一種基于Inception v3網(wǎng)絡(luò)模型結(jié)合遷移學(xué)習(xí)的分類方法。并在自定義的女襯衫數(shù)據(jù)集中得到了驗(yàn)證,結(jié)合遷移學(xué)習(xí)的Inception v3較好的繼承了原始模型的識別精度和收斂速率。其中,遷移模型的識別精度高達(dá)98%,提升6%,參與訓(xùn)練的參數(shù)量降低約91%,平均訓(xùn)練周期降低31%。而訓(xùn)練集和驗(yàn)證集良好的收斂特性,在模型魯棒性和識別特性中均優(yōu)于四種初始化模型,為服裝圖案、款式等分類及智能網(wǎng)絡(luò)生成等研究提供了技術(shù)參考。