国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合遷移學(xué)習(xí)和集成學(xué)習(xí)的服裝風(fēng)格圖像分類方法

2024-10-08 00:00:00游小榮李淑芳
現(xiàn)代紡織技術(shù) 2024年9期

摘 要:針對(duì)服裝風(fēng)格人工分類受主觀性、地域等因素影響而造成的分類錯(cuò)誤問(wèn)題,研究了一種基于人工智能的服裝風(fēng)格圖像分類方法。首先,在FashionStyle14數(shù)據(jù)集基礎(chǔ)上篩除重復(fù)或無(wú)效圖像,構(gòu)建服裝風(fēng)格圖像數(shù)據(jù)集;然后,采用遷移學(xué)習(xí)方法,對(duì)EfficientNet V2、RegNet Y 16GF和ViT Large 16等模型進(jìn)行微調(diào)訓(xùn)練,生成新模型,實(shí)現(xiàn)基于單個(gè)深度學(xué)習(xí)的服裝風(fēng)格圖像分類;最后,為進(jìn)一步提高圖像分類的準(zhǔn)確性、可靠性和魯棒性,分別采用基于投票、加權(quán)平均和堆疊的集成學(xué)習(xí)方法對(duì)上述單個(gè)模型進(jìn)行組合預(yù)測(cè)。遷移學(xué)習(xí)實(shí)驗(yàn)結(jié)果表明,基于ViT Large 16的深度學(xué)習(xí)模型在測(cè)試集上表現(xiàn)最佳,平均準(zhǔn)確率為77.024%;集成學(xué)習(xí)方法實(shí)驗(yàn)結(jié)果顯示,基于投票的集成學(xué)習(xí)方法在相同測(cè)試集上平均準(zhǔn)確率可達(dá)78.833%。研究結(jié)果為解決服裝風(fēng)格分類問(wèn)題提供了新的思路。

關(guān)鍵詞:服裝風(fēng)格;遷移學(xué)習(xí);集成學(xué)習(xí);ViT模型;圖像分類

中圖分類號(hào): TP391.41;TS102. 3

文獻(xiàn)標(biāo)志碼: A

文章編號(hào):1009-265X(2024)09-0127-08

收稿日期:2024-01-08

網(wǎng)絡(luò)出版日期:2024-03-21

基金項(xiàng)目:江蘇省碳纖維先進(jìn)材料智能制造工程技術(shù)研究開發(fā)中心項(xiàng)目(蘇教科[2023]11號(hào))

作者簡(jiǎn)介:游小榮(1981— ),男,江西臨川人,副教授,碩士,主要從事紡織服裝數(shù)字化和人工智能應(yīng)用方面的研究。

時(shí)尚產(chǎn)業(yè)在全球經(jīng)濟(jì)中發(fā)揮重要作用,目前約占全球GDP總值的2%[1。服裝風(fēng)格分類能夠幫助消費(fèi)者更好地了解并選擇符合自己喜好的時(shí)尚產(chǎn)品,從而更快捷地找到感興趣的風(fēng)格和品牌。同時(shí),服裝風(fēng)格分類在時(shí)尚研究和設(shè)計(jì)方面也非常重要,為設(shè)計(jì)師提供靈感和參考。此外,對(duì)時(shí)尚品牌公司和零售商而言,服裝風(fēng)格的精確分類有助于更好地了解市場(chǎng)需求和消費(fèi)者喜好,進(jìn)而調(diào)整產(chǎn)品類別和推廣策略。然而,人工進(jìn)行服裝風(fēng)格分類具有主觀性、多樣性、變化性和地域性等特點(diǎn)2,容易導(dǎo)致分類結(jié)果存在誤差。因此通過(guò)借助技術(shù)手段,如人工智能等,來(lái)提高分類的客觀性和準(zhǔn)確性具有重要意義。

隨著人工智能技術(shù)的廣泛應(yīng)用,尤其是深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,許多學(xué)者利用海量的服裝風(fēng)格圖像數(shù)據(jù)來(lái)訓(xùn)練深度學(xué)習(xí)模型,從而實(shí)現(xiàn)對(duì)服裝風(fēng)格的定性和定量分析。Takagi等[3針對(duì)FashionStyle14數(shù)據(jù)集,采用ResNet50等模型進(jìn)行服裝風(fēng)格圖像分類,分類的平均精度為72%,高于普通用戶62%的人工分類精度,但低于專業(yè)用戶82%的人工分類精度;李揚(yáng)等[4使用改進(jìn)Bilinear-CNN模型對(duì)服裝圖像風(fēng)格進(jìn)行識(shí)別,在FashionStyle14數(shù)據(jù)集上能夠達(dá)到76.4%的識(shí)別準(zhǔn)確率。盡管上述兩位研究者為應(yīng)對(duì)服裝風(fēng)格分類問(wèn)題提供了解決辦法,但分類精度仍有待提升。Woottisart等[5利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)卡哇伊、泰國(guó)街頭風(fēng)格和歐洲街頭風(fēng)格圖像進(jìn)行分類,訓(xùn)練后模型的平均分類準(zhǔn)確率可達(dá)85.53%,但這種方法研究的服裝風(fēng)格數(shù)量偏少。還有一些學(xué)者試圖在風(fēng)格與屬性之間建立聯(lián)系,對(duì)服裝風(fēng)格進(jìn)行定量分析。An 等[6將服裝風(fēng)格分成了性別、區(qū)域和個(gè)性3個(gè)維度,將服裝屬性與風(fēng)格直接聯(lián)系起來(lái),借助深度學(xué)習(xí)方法,共同輸出時(shí)尚的風(fēng)格,在測(cè)試集上的平均準(zhǔn)確率為75.21%;然而,由于未能解決服裝屬性的多標(biāo)簽分類問(wèn)題,這種方法未能充分確定風(fēng)格與屬性之間的映射關(guān)系。Ma等[7基于Kobayashi的美學(xué)理論構(gòu)建了一個(gè)Fashion語(yǔ)義空間,將服裝風(fēng)格分類問(wèn)題視為一個(gè)回歸問(wèn)題,并采用多模態(tài)深度學(xué)習(xí)模型實(shí)現(xiàn)服裝趨勢(shì)分析,以定量的方式描述服裝時(shí)尚風(fēng)格;然而,這種方法要求對(duì)數(shù)據(jù)集中的服裝圖像屬性進(jìn)行大量標(biāo)注,耗時(shí)耗力且成本高。綜上所述,深度學(xué)習(xí)模型能夠通過(guò)學(xué)習(xí)圖像中的特征和模式,自動(dòng)提取并理解不同的服裝風(fēng)格,從而降低主觀偏見的影響,并更準(zhǔn)確地捕捉服裝風(fēng)格的多樣性。

針對(duì)服裝風(fēng)格人工分類受主觀性、地域等因素影響而造成分類錯(cuò)誤的問(wèn)題,研究了一種融合遷移學(xué)習(xí)和集成學(xué)習(xí)的服裝風(fēng)格圖像分類方法。首先,在FashionStyle14數(shù)據(jù)集基礎(chǔ)上構(gòu)建服裝風(fēng)格圖像數(shù)據(jù)集;其次,采用EfficientNet V2、RegNet和ViT Large 16等預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練,生成新模型;再次,對(duì)新模型進(jìn)行測(cè)試,并根據(jù)評(píng)價(jià)指標(biāo)評(píng)估其分類性能,從中選擇表現(xiàn)較好的深度學(xué)習(xí)模型;最后,分別構(gòu)建基于投票、加權(quán)集成和堆疊的集成學(xué)習(xí)方法,將表現(xiàn)較好的3個(gè)深度學(xué)習(xí)模型進(jìn)行組合分類。通過(guò)對(duì)比實(shí)驗(yàn),選擇性能最優(yōu)的集成學(xué)習(xí)方法,進(jìn)一步提高圖像分類的準(zhǔn)確性、可靠性和魯棒性。

1 研究方法

1.1 數(shù)據(jù)集構(gòu)建

常見的公開服裝圖像數(shù)據(jù)集包括DeepFashion、FashionGen、Fashion 144K、HipsterWars、Fashion Style14等[1。除了HipsterWars和FashionStyle14,上述數(shù)據(jù)集均未對(duì)服裝風(fēng)格單獨(dú)標(biāo)記;而HipsterWars數(shù)據(jù)集只包含時(shí)髦、波西米亞、哥特等5個(gè)風(fēng)格分類,數(shù)據(jù)集中的圖像數(shù)量不到2000張,風(fēng)格種類和數(shù)量都偏少。因此本文選用了Fashion Style14數(shù)據(jù)集。

FashionStyle14數(shù)據(jù)集專門為服裝風(fēng)格而設(shè)計(jì),由服裝領(lǐng)域?qū)<也邉?,包含保守、禮服、民族風(fēng)、仙女風(fēng)、女性化、女孩風(fēng)、少女風(fēng)、休閑、洛麗塔、時(shí)尚、自然、復(fù)古、搖滾和街頭等14種現(xiàn)代服裝風(fēng)格,共13126張圖像。本文在去除FashionStyle14數(shù)據(jù)集中部分重復(fù)圖像以及讀取文件出錯(cuò)的無(wú)效圖像后,總計(jì)得到了11203張圖像的數(shù)據(jù)集。篩選后的數(shù)據(jù)集中,各服裝風(fēng)格類別對(duì)應(yīng)圖像數(shù)量情況如圖1所示。由圖1可知,每個(gè)類別圖像數(shù)量在697~907之間,類別之間的均衡性較好。然后,本文按照6∶2∶2的比例對(duì)篩選后的數(shù)據(jù)集進(jìn)行劃分,分成訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別用于訓(xùn)練、驗(yàn)證和測(cè)試模型。

1.2 基于遷移學(xué)習(xí)的服裝風(fēng)格圖像分類模型

隨著深度學(xué)習(xí)算法的發(fā)展,各種圖像分類的深度學(xué)習(xí)模型不斷涌現(xiàn),其基于深度學(xué)習(xí)模型的圖像分類精度也顯著提高。根據(jù)模型結(jié)構(gòu)的不同,可以將深度學(xué)習(xí)模型分為基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型(如RegNet、EfficientNet、ResNet和VGG等)和基于自注意力機(jī)制的深度學(xué)習(xí)模型(包括Vision Transformer、Swin Transformer和CaiT等)[8。

在深度學(xué)習(xí)應(yīng)用中,由于相關(guān)方法對(duì)大規(guī)模數(shù)據(jù)集和計(jì)算資源的高需求,遷移學(xué)習(xí)作為一種有效的策略逐漸受到重視。該方法首先在大規(guī)模數(shù)據(jù)集上對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,形成預(yù)訓(xùn)練模型,然后將該模型的參數(shù)作為初始參數(shù),在新的數(shù)據(jù)集上進(jìn)行微調(diào)。這一策略顯著降低了模型訓(xùn)練所需的數(shù)據(jù)量和時(shí)間,同時(shí)提高了模型的分類性能和計(jì)算效率[9?;诖耍疚牟捎眠w移學(xué)習(xí)方法來(lái)構(gòu)建服裝風(fēng)格圖像分類模型。

圖2展示了基于遷移學(xué)習(xí)的圖像分類模型框架。預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)又可分為特征提取和分類兩部分。圖2所使用的預(yù)訓(xùn)練模型經(jīng)過(guò)大型數(shù)據(jù)集(ImageNet)的訓(xùn)練,其輸出層默認(rèn)包括1000個(gè)節(jié)點(diǎn),用來(lái)對(duì)ImageNet中的1000個(gè)類別圖像進(jìn)行分類。在訓(xùn)練過(guò)程中,本文保留了特征提取的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),僅對(duì)分類層的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行微調(diào)。為了適應(yīng)本文中的服裝風(fēng)格圖像分類任務(wù),本文將輸出層的1000個(gè)節(jié)點(diǎn)修改為14個(gè)節(jié)點(diǎn),對(duì)應(yīng)于14種分類。然后,針對(duì)微調(diào)后的模型,在上述訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練和驗(yàn)證。訓(xùn)練完成后,程序?qū)⑸尚碌纳疃葘W(xué)習(xí)模型。

由于軟硬件資源的限制,本文選擇了在圖像分類任務(wù)中表現(xiàn)較好的3種預(yù)訓(xùn)練模型[10進(jìn)行服裝風(fēng)格圖像分類,這些模型分別是:

a)EfficientNet V2 L:該模型在處理圖像分類任務(wù)時(shí),能夠有效地捕捉圖像中的特征,并在保持準(zhǔn)確性的同時(shí),具有較高的計(jì)算和參數(shù)效率[11。

b)RegNet Y 16GF:該模型是一種基于正則化網(wǎng)絡(luò)的圖像分類模型,屬于RegNet Y網(wǎng)絡(luò)結(jié)構(gòu)中的一個(gè)變種,擁有16個(gè)組和16個(gè)Gflops的計(jì)算量。其設(shè)計(jì)目標(biāo)是在保持準(zhǔn)確性的同時(shí),盡可能減少計(jì)算和參數(shù)量,以提高模型的效率和速度[12。

c)ViT Large 16:ViT是Vision Transformer的縮寫,是一種基于注意力機(jī)制的圖像分類模型。它在Transformer模型的基礎(chǔ)上進(jìn)行了改進(jìn),利用自注意力機(jī)制來(lái)處理圖像分類任務(wù)。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),ViT Large 16模型不需要手動(dòng)設(shè)計(jì)卷積核和池化操作,具有良好的可擴(kuò)展性和泛化能力[13。

1.3 基于集成學(xué)習(xí)的服裝風(fēng)格圖像分類方法

集成學(xué)習(xí)方法是一種機(jī)器學(xué)習(xí)方法[14,通過(guò)組合多個(gè)基本學(xué)習(xí)器的預(yù)測(cè)結(jié)果,獲得更好的整體預(yù)測(cè)性能。該方法具有如下優(yōu)點(diǎn):a)減少單個(gè)學(xué)習(xí)器的過(guò)擬合風(fēng)險(xiǎn),提高模型的泛化能力;b)通過(guò)結(jié)合

多個(gè)學(xué)習(xí)器的預(yù)測(cè)結(jié)果,提高對(duì)少數(shù)類別樣本的分類準(zhǔn)確性,解決樣本分布不平衡的問(wèn)題;c)綜合各學(xué)習(xí)器的優(yōu)勢(shì),提高整體模型的穩(wěn)定性。

綜合上述集成學(xué)習(xí)方法的優(yōu)點(diǎn),針對(duì)服裝風(fēng)格分類問(wèn)題,本文選擇了以下3種集成學(xué)習(xí)方法:

a)基于投票的集成學(xué)習(xí)方法。該方法包括硬投票和軟投票。其中,硬投票是指簡(jiǎn)單地統(tǒng)計(jì)每個(gè)基本模型預(yù)測(cè)結(jié)果中出現(xiàn)次數(shù)最多的類別作為最終預(yù)測(cè)結(jié)果。而軟投票則是考慮每個(gè)基本模型預(yù)測(cè)結(jié)果的置信度,將置信度加權(quán)求和后得到最終的預(yù)測(cè)結(jié)果。本文將選用硬投票的集成學(xué)習(xí)方法。

b)基于加權(quán)平均的集成學(xué)習(xí)方法。在該方法中,每個(gè)基本模型都會(huì)對(duì)樣本進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均。各個(gè)分類器的權(quán)重大小取決于它們的測(cè)試性能表現(xiàn)。最終的決策結(jié)果是基于加權(quán)平均后的預(yù)測(cè)結(jié)果確定的。

c)基于堆疊的集成學(xué)習(xí)方法。該方法將不同的基本學(xué)習(xí)器的預(yù)測(cè)結(jié)果作為新的特征輸入元模型中,形成新的訓(xùn)練集。隨后,基于這一新的訓(xùn)練集,構(gòu)建了由3層神經(jīng)網(wǎng)絡(luò)組成的元模型,用以輸出14個(gè)數(shù)據(jù)。其框架結(jié)構(gòu)如圖3所示。由圖3可知,每種深度學(xué)習(xí)模型在每次預(yù)測(cè)后都會(huì)生成14個(gè)數(shù)據(jù),而3個(gè)模型的輸出數(shù)據(jù)組合在一起就形成42個(gè)數(shù)據(jù)。因此,經(jīng)過(guò)多次預(yù)測(cè)后,這些數(shù)據(jù)就形成了新的訓(xùn)練集。此外,圖3中的元模型包括1個(gè)輸入層(a)、1個(gè)隱藏層(b)和1個(gè)輸出層(c)。其中,輸入層接收42個(gè)輸入數(shù)據(jù),對(duì)應(yīng)42個(gè)神經(jīng)元;隱藏層包含100個(gè)神經(jīng)元;輸出層輸出14個(gè)數(shù)據(jù),代表14個(gè)類別。各層之間采用全連接方式。

2 實(shí)驗(yàn)和結(jié)果分析

2.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)硬件環(huán)境包括:CPU型號(hào)為i9-13900H、內(nèi)存16 Gi、固態(tài)硬盤1 TiB;軟件環(huán)境包括:操作系統(tǒng)為win10 64 bit、開發(fā)語(yǔ)言為Python 3.10.1、深度學(xué)習(xí)框架為Pytorch 1.11.0。

2.2 評(píng)價(jià)指標(biāo)

在后續(xù)實(shí)驗(yàn)中,采用了以下4種評(píng)價(jià)指標(biāo):

a)平均準(zhǔn)確率(Accuracy):被正確分類的樣本數(shù)與總樣本數(shù)之間的比值,用于評(píng)估模型在所有服裝風(fēng)格類別上的整體分類準(zhǔn)確性。

b)精確度(Precision):真正屬于某一類別的樣本數(shù)與所有被分類為該類別的樣本數(shù)之間的比值,用于評(píng)估模型對(duì)某一特定服裝風(fēng)格類別的判斷能力,即模型的查準(zhǔn)率。

c)召回率(Recall):真正屬于某一類別的樣本數(shù)與所有真正屬于該類別的樣本數(shù)之間的比值,用于評(píng)估模型對(duì)某一特定服裝風(fēng)格類別的覆蓋能力,即模型的查全率。

d)F1分?jǐn)?shù)(F1-score):用于綜合評(píng)估模型在準(zhǔn)確性和覆蓋能力方面的綜合表現(xiàn)。計(jì)算公式如下:

V=2V·VV+V(1)

式中:V為F1分?jǐn)?shù)的值,V為精確度值,V為召回率值。

2.3 遷移學(xué)習(xí)訓(xùn)練及測(cè)試結(jié)果與分析

針對(duì)上述預(yù)訓(xùn)練模型,訓(xùn)練過(guò)程中采用了交叉熵?fù)p失函數(shù),并選擇了隨機(jī)下降法作為優(yōu)化器。同時(shí),本文設(shè)置了表1所示的訓(xùn)練參數(shù),以取得較好的訓(xùn)練效果。

訓(xùn)練和驗(yàn)證的過(guò)程涵蓋了多個(gè)關(guān)鍵步驟,以確保深度學(xué)習(xí)模型的有效訓(xùn)練和性能評(píng)估。具體步驟包括:a)加載訓(xùn)練和驗(yàn)證數(shù)據(jù)集。b)選擇并加載預(yù)訓(xùn)練模型。c)進(jìn)入訓(xùn)練階段,需要定義損失函數(shù)、優(yōu)化器、學(xué)習(xí)率、動(dòng)量、學(xué)習(xí)率調(diào)度器、步長(zhǎng)、縮放因子等。d)初始化訓(xùn)練和驗(yàn)證損失率、準(zhǔn)確率以及最低驗(yàn)證損失率。e)迭代循環(huán)運(yùn)行每一個(gè)輪次,實(shí)現(xiàn)訓(xùn)練和驗(yàn)證的交替進(jìn)行。在訓(xùn)練階段,模型被設(shè)置為訓(xùn)練模式,梯度計(jì)算被啟用,每個(gè)批次的樣本和標(biāo)簽被讀取,優(yōu)化器的梯度被清零,樣本輸入模型,計(jì)算輸出和損失率值,并進(jìn)行反向傳播和參數(shù)更新。在驗(yàn)證階段,模型被設(shè)置為評(píng)估模式,計(jì)算當(dāng)前階段的損失率、準(zhǔn)確率和樣本數(shù)量。如果當(dāng)前驗(yàn)證損失更低率,更新最低驗(yàn)證損失率,并保存當(dāng)前模型為新模型。f)當(dāng)訓(xùn)練循環(huán)結(jié)束后,得到服裝風(fēng)格圖像的分類模型。

各模型在訓(xùn)練過(guò)程中準(zhǔn)確率和損失率變化情況如圖4所示,其中模型1為EfficientNet V2 L模型,模型2為RegNet Y 16GF模型,模型3為ViT Large 16模型。由圖4可知,基于ViT Large 16模型訓(xùn)練的平均準(zhǔn)確率明顯優(yōu)于另外兩種基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型EfficientNet V2 L和RegNet Y 16GF。在驗(yàn)證集上,ViT Large 16模型的平均準(zhǔn)確率達(dá)到了77.176%。

針對(duì)相同的測(cè)試集,對(duì)上述3個(gè)新模型進(jìn)行測(cè)試,測(cè)試結(jié)果如表2所示。由表2可知,基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型EfficientNet V2 L、RegNet Y 16GF的平均準(zhǔn)確率分別為67.164%、69.607%。而ViT Large 16模型具有最高的平均準(zhǔn)確率,其值為77.024%,比RegNet Y 16GF模型測(cè)試結(jié)果高出7.417%,分類和識(shí)別效果更優(yōu)。此外,對(duì)文獻(xiàn)[3]中的最優(yōu)分類模型ResNet50模型進(jìn)行訓(xùn)練和測(cè)試,結(jié)果表明:在相同測(cè)試集的情況下,ResNet50模型的平均準(zhǔn)確率為62.867%,比上述3種模型測(cè)試結(jié)果都低。

ViT Large 16模型在測(cè)試數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)情況見表3,評(píng)價(jià)指標(biāo)包括精確度、召回率和F1分?jǐn)?shù)。由表3可知,禮服、民族風(fēng)、仙女風(fēng)、洛麗塔、自然這5個(gè)服裝風(fēng)格分類各項(xiàng)指標(biāo)均較高,而保守、少女風(fēng)、休閑和時(shí)尚這4個(gè)服裝風(fēng)格分類各項(xiàng)指標(biāo)則略低。

2.4 集成學(xué)習(xí)測(cè)試結(jié)果與分析

本文使用與遷移實(shí)驗(yàn)相同的測(cè)試集,對(duì)基于投票、加權(quán)平均和堆疊的集成學(xué)習(xí)方法進(jìn)行測(cè)試。基于投票和加權(quán)平均的集成學(xué)習(xí)方法可以直接使用上述新生成的模型,無(wú)需重新訓(xùn)練。此外,根據(jù)表2測(cè)試結(jié)果,對(duì)基于加權(quán)平均的集成學(xué)習(xí)方法的權(quán)值進(jìn)行分配。計(jì)算方法是按照每個(gè)模型的準(zhǔn)確率除以所有模型平均準(zhǔn)確率的總和,使得準(zhǔn)確率較高的模型權(quán)值較大。計(jì)算過(guò)程和結(jié)果如式(2)—(4)所示:

W=67.164%/(67.164%+69.607%+77.024%)=0.314(2)

W=69.607%/(67.164%+69.607%+77.024%)=0.326(3)

W=77.024%/(67.164%+69.607%+77.024%)=0.360(4)

式中:W為EfficientNet V2 L模型對(duì)應(yīng)的權(quán)值,W為RegNet Y 16GF模型對(duì)應(yīng)的權(quán)值,W為ViT Large 16模型對(duì)應(yīng)的權(quán)值。

由于基于堆疊的集成學(xué)習(xí)方法包含元模型,因此需要先對(duì)元模型進(jìn)行訓(xùn)練,訓(xùn)練完成后再生成新的堆疊分類模型。在測(cè)試階段,使用新的堆疊分類模型進(jìn)行服裝風(fēng)格圖像的分類和識(shí)別。

3種集成學(xué)習(xí)方法的測(cè)試結(jié)果如表4所示。由表4可知,基于投票的集成學(xué)習(xí)方法在數(shù)據(jù)集上測(cè)得的平均準(zhǔn)確率最高,其值為78.833%,而在3個(gè)集成學(xué)習(xí)方法之間,平均準(zhǔn)確率的差異不到1%。此外,根據(jù)表2和表4的結(jié)果可以得出如下結(jié)論:與本文單一深度學(xué)習(xí)模型測(cè)試結(jié)果相比,基于投票的集成學(xué)習(xí)方法在服裝風(fēng)格分類任務(wù)中的平均準(zhǔn)確率提高了1.809%(從77.024%提升至78.833 %)。上述實(shí)驗(yàn)結(jié)果證明,集成學(xué)習(xí)方法可以有效提高整體模型的準(zhǔn)確率。

在對(duì)基于投票的集成學(xué)習(xí)方法進(jìn)行測(cè)試后,還得到了如圖5所示的混淆矩陣結(jié)果。其中,圖中的數(shù)據(jù)為查全率。通過(guò)混淆矩陣不難看出,洛麗塔和禮服兩種風(fēng)格查全率超過(guò)90%,說(shuō)明這兩種風(fēng)格的圖像特征具有明顯的獨(dú)特性。而女性化、女孩風(fēng)以及少女風(fēng)這3類風(fēng)格查全率整體偏低,查全率不到80%,相互之間容易出現(xiàn)混淆的情況,反映出這些風(fēng)格圖像之間存在一定的相似性。而對(duì)于民族風(fēng)風(fēng)格,其分類效果受到世界多民族服飾差異性的影響,查全率也偏低,建議對(duì)各民族服飾進(jìn)一步細(xì)化分類。此外,搖滾風(fēng)格和街頭風(fēng)格之間也容易混淆,表明這兩種風(fēng)格特征之間存在一定的重疊。

圖6中展示了一些錯(cuò)誤分類的案例。由圖6可知,半身、側(cè)身或被遮擋的圖像更容易出現(xiàn)分類出錯(cuò)的問(wèn)題,這表明數(shù)據(jù)集中涵蓋了不同領(lǐng)域或來(lái)源的圖像,受到了環(huán)境、光照條件、拍攝設(shè)備、拍攝角度等因素的影響,可被歸類為跨域圖像。而這種跨域問(wèn)題直接導(dǎo)致了模型分類性能的降低。因此,在實(shí)際應(yīng)用中,為了提高分類準(zhǔn)確率,應(yīng)盡量選用同域圖像,即在相同的領(lǐng)域或環(huán)境中獲取的圖像。

3 結(jié)論

在人工進(jìn)行服裝風(fēng)格分類時(shí),常受主觀性、地域等因素影響,導(dǎo)致服裝風(fēng)格圖像分類錯(cuò)誤。針對(duì)上述問(wèn)題,本文研究了一種融合遷移學(xué)習(xí)和集成學(xué)習(xí)的服裝風(fēng)格圖像分類方法。該方法首先采用了遷移學(xué)習(xí)方法,對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練,訓(xùn)練后得到新模型,然后選擇基于投票、加權(quán)平均和堆疊的集成

學(xué)習(xí)方法,分別對(duì)生成的新模型進(jìn)行組合預(yù)測(cè),最終實(shí)現(xiàn)服裝風(fēng)格圖像分類功能。通過(guò)一系列實(shí)驗(yàn),得出如下結(jié)論:

a)與基于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型相比,基于自注意力機(jī)制的深度學(xué)習(xí)模型在服裝風(fēng)格圖像分類與識(shí)別方面展現(xiàn)出較好的分類與識(shí)別能力,ViT Large 16模型的平均準(zhǔn)確率比本文中的其他模型高出7.417%。

b)與單個(gè)模型相比,采用常見的集成學(xué)習(xí)方法可有效提高服裝風(fēng)格圖像分類與識(shí)別的精度,在分類精度上提升了1.809%。

c)女性化、女孩風(fēng)以及少女風(fēng)這3類風(fēng)格較相似易混淆,搖滾風(fēng)格和街頭風(fēng)格之間也容易混淆。

d)跨域圖像更容易導(dǎo)致服裝風(fēng)格圖像識(shí)別的失敗。

后續(xù)研究可以根據(jù)服裝屬性等對(duì)相似風(fēng)格進(jìn)行更深入的分析,以提升模型的性能和分類準(zhǔn)確性。此外,跨域服裝風(fēng)格圖像分類問(wèn)題有待進(jìn)一步研究。

參考文獻(xiàn):

[1]JEON Y, JIN S, HAN K. FANCY: human-centered, deep learning-based framework for fashion style analysis[C]//Proceedings of the Web Conference 2021. Ljubljana, Slovenia. ACM, 2021: 2367-2378.

[2]RYDING D, CLAUDIA, RUDAWSKA E, et al. Extending the consumer style inventory to define consumer typologies for secondhand clothing consumption in Poland[J].European Research Studies Journal, 2020: 410-433.

[3]TAKAGI M, SIMO-SERRA E, IIZUKA S, et al. What makes a style: Experimental analysis of fashion prediction[C]//IEEE International Conference on Computer Vision Workshops. Venice. IEEE, 2017: 2247-2253.

[4]李揚(yáng), 黃榮, 董愛華. 基于改進(jìn)Bilinear-CNN的服裝圖像風(fēng)格識(shí)別[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,47(3):90-95.

LI Yang, HUANG Rong, DONG Aihua. Fashion style recognition based on an improved Bilinear-CNN[J]. Journal of Donghua University(Natural Science),2021,47(3):90-95.

[5]WOOTTISART P, SRIPIAN P, THANASUAN K. The study of fashion style classification: harajuku-type kawaii and street fashion[C]//16th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS). Dijon, France. IEEE, 2022: 402-408.

[6]AN H, LEE K Y, CHOI Y, et al. Conceptual framework of hybrid style in fashion image datasets for machine learning[J]. Fashion and Textiles, 2023, 10(1):18.

[7]MA Y, JIA J, ZHOU S, et al. Towards better understanding the clothing fashion styles: A multimodal deep learning approach[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, California, USA. ACM, 2017, 31(1):38-43.

[8]石爭(zhēng)浩, 李成建, 周亮, 等. Transformer驅(qū)動(dòng)的圖像分類研究進(jìn)展[J]. 中國(guó)圖象圖形學(xué)報(bào), 2023, 28 (9): 2661-2692.

SHI Zhenghao, LI Chengjian, ZHOU Liang, et al. Survey on Transformer for image classification[J]. Journal of Image and Graphics, 2023, 28 (9): 2661-2692.

[9]曾華福, 楊杰, 李林紅. 基于改進(jìn)ShuffleNet v1的服裝圖像分類算法[J]. 現(xiàn)代紡織技術(shù), 2023, 31(2):23-35.

ZENG Huafu, YANG Jie, LI Linhong. Clothing image classification algorithm based on improved ShuffleNet v1[J]. Advanced Textile Technology,2023,31(2):23-35.

[10]LIU Z, MAO H, WU C Y, et al. A convnet for the 2020s[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, LA, USA. IEEE, 2022: 11976-11986.

[11]TAN M, LE Q. Efficientnetv2: Smaller models and faster training[C]//International Conference on Machine Learning. Stockholm, Sweden, PMLR, 2021: 10096-10106.

[12]DOLLAR P, SINGH M, GIRSHICK R. Fast and accurate model scaling[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA. IEEE, 2021: 924-932.

[13]李翔, 張濤, 張哲, 等. Transformer在計(jì)算機(jī)視覺領(lǐng)域的研究綜述[J].計(jì)算機(jī)工程與應(yīng)用, 2023, 59 (1): 1-14.

LI Xiang, ZHANG Tao, ZHANG Zhe, et al.Survey of transformer research in computer vision[J].Computer Engineering and Applications, 2023, 59 (1): 1-14.

[14]徐繼偉, 楊云. 集成學(xué)習(xí)方法:研究綜述[J]. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2018, 40 (6): 1082-1092.

XU Jiwei, YANG Yun. Ensemble learning methods: A research review[J]. Journal of Yunnan University (Natural Sciences Edition), 2018, 40 (6): 1082-1092.

A fashion style image classification method integrating transfer learning and ensemble learning

YOU Xiaoronga, LI Shufangb

(a. School of Intelligent Manufacturing;b. School of Intelligent Textiles and Materials, Changzhou

Vocational Institute of Textile and Garment, Changzhou 213164, China)

Abstract: The fashion industry plays an important role in the global economy, and its GDP scale shows a growing trend, currently accounting for approximately 2% of the global GDP. Fashion style classification can help consumers better understand and choose fashion products that suit their preferences, making it easier for them to find the styles and brands they are interested in. At the same time, fashion style classification also plays an important role in fashion research and design, providing inspiration and reference for designers. In addition, for fashion brand companies and retailers, the precise classification of fashion styles helps to better understand market demand and consumer preferences, thereby adjusting product categories and promotion strategies. Manual fashion style classification has the characteristics of subjectivity, diversity, variability and regionality, which can easily lead to errors in classification results. Therefore, it is important to improve the objectivity and accuracy of classification by using technical means, such as artificial intelligence.

In response to the above problems, this paper studied a fashion style image classification method that combines transfer learning and ensemble learning. Firstly, based on the FashionStyle14 data set, duplicate or invalid images were filtered out to construct a fashion style image data set. Secondly, pre-trained models such as EfficientNet V2, RegNet Y 16GF and ViT Large 16 were used for fine-tuning training to generate new models to achieve fashion style image classification with a single deep learning model. Thirdly, the new model was tested and its classification performance was evaluated according to the evaluation indicators, and a good deep learning model was selected. Fourthly, an ensemble learning method based on voting, weighted integration and stacking was built to perform combined predictions on the above models, so as to improve the generalization ability and stability of the model. Finally, the ensemble learning method with the best performance was selected to classify fashion styles. By using the above method, not only advanced algorithms were applied in artificial intelligence to fashion style classification, but also the effectiveness of the method in classifying various fashion styles was verified, and some similar fashion styles were discovered, which provided data support for further refinement of fashion style classification. It is found that compared with the deep learning model based on a traditional convolutional neural network, the deep learning model based on the self-attention mechanism shows better recognition ability in fashion style image classification and recognition; compared with a single model, the commonly used integrated learning method can effectively improve the accuracy of fashion style image classification and recognition; the three styles of femininity, girly style and maiden style are similar, and it is easy to confuse between rock style and street style; cross-domain images are more likely to lead to recognition failure of fashion style images.

In future research work, similar styles can be analyzed more deeply based on methods such as fashion attributes to improve the performance and classification accuracy of the model. In addition, in-depth research on cross-domain fashion style image classification and recognition issues is needed to explore more effective solutions.

Keywords: fashion style; transfer learning; ensemble learning; ViT model; image classification

日照市| 新河县| 南岸区| 五台县| 阿拉善右旗| 泰州市| 金门县| 邯郸县| 商丘市| 彭水| 务川| 钦州市| 南投县| 苏尼特右旗| 定安县| 南木林县| 专栏| 玉田县| 金门县| 呼玛县| 都安| 轮台县| 汽车| 玉田县| 通海县| 久治县| 南丹县| 资溪县| 龙井市| 竹北市| 盘山县| 淳化县| 历史| 穆棱市| 延津县| 周至县| 财经| 永年县| 甘孜| 新兴县| 东莞市|