摘要:針對服裝圖像檢索這一問題,用深度殘差網(wǎng)絡(luò)ResNet101作為骨干模型,并使用DeepFashion數(shù)據(jù)集中的子數(shù)據(jù)集Category and Attribute Prediction Benchmark中的圖片作為研究對象。文中首先將服裝圖片進(jìn)行處理后送入已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型中得到服裝圖像特征,并建立服裝特征庫,然后將待檢索的服裝圖片送入模型中得到圖像特征,并與服裝特征庫中的特征進(jìn)行相似度度量,最后按照相似度大小得到檢索結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法可以得到比較完整的服裝特征,具有較高的檢索準(zhǔn)確率。
關(guān)鍵詞:深度學(xué)習(xí);圖像檢索;度量學(xué)習(xí);殘差網(wǎng)絡(luò);積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP183 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)32-0087-02
Clothing Image Retrieval Based on Deep Residual Network
YAN Si-xue
(Hunan University of Technology, Zhuzhou 412007,China)
Abstract:In order to solve the problem of clothing image retrieval, the deep residual network Resnet101 is used as the backbone model, and the images in the Category and Attribute Prediction Benchmark, a sub-dataset of the DeepFashion dataset, are used as the research object. In this paper, first of all be incorporated into clothing pictures after processing has trained network model in the clothing image characteristics, and establish the clothing characteristic library, and then to retrieve the clothing pictures into the model of image characteristics, and with the clothing features in the library for a similarity measure, finally according to the size of similarity retrieval results are obtained. Experimental results show that this method can obtain more complete clothing features and has a high retrieval accuracy.
Key words: deep learning;image retrieval;metric learning;residual network;convolutional neural network
1引言
近年來,隨著互聯(lián)網(wǎng)的高速發(fā)展,電子商務(wù)進(jìn)入了一個(gè)蓬勃發(fā)展的階段,并且網(wǎng)絡(luò)購物已經(jīng)成為大多數(shù)人購買物品的第一選擇,而服裝作為電子商務(wù)的一個(gè)重要組成部分,產(chǎn)生了大量的服裝圖像,而想要在眾多服裝圖像中選中自己喜歡的服裝是一個(gè)十分棘手的難題。
為了解決這個(gè)難題,研究人員提出了兩種解決辦法:第一種解決辦法是基于文本的圖像檢索方法(TBTR),第二種是基于內(nèi)容的圖像檢索方法(CBIR)?;谖谋镜膱D像檢索方法一般是以關(guān)鍵詞或是以等級目錄的形式查詢圖像。它是在以文本注釋為基礎(chǔ)的圖像上進(jìn)行圖像檢索。其主要過程是:首先,對圖像建立相應(yīng)的關(guān)鍵詞或者是描述性的文字,其次,根據(jù)這些文字對圖像進(jìn)行特征抽取,建立相應(yīng)的圖像索引數(shù)據(jù)庫,最后按照數(shù)據(jù)庫管理,采用數(shù)據(jù)庫管理方法?;趦?nèi)容的圖像檢索方法是根據(jù)圖像內(nèi)容語義進(jìn)行查找。其主要過程是先用軟件對圖像進(jìn)行處理,得到圖像特征,然后將圖像特征進(jìn)行處理,將其作為特征向量存入圖像特征庫中。在檢索的過程中,先是對一張給定的圖像進(jìn)行處理,得到它的特征向量,然后將其與特征數(shù)據(jù)庫的向量進(jìn)行相似度度量,根據(jù)度量結(jié)果輸出檢索圖像。
2相關(guān)工作
2.1服裝圖像檢索
研究者們針對服裝圖像檢索這一問題提出了很多解決方法?,F(xiàn)在使用最多的是基于內(nèi)容的服裝圖像檢索。使用基于內(nèi)容的服裝圖像檢索主要解決兩個(gè)問題,一是對服裝圖像提取特征,二是對服裝圖像特征進(jìn)行相似度度量。現(xiàn)在比較流行的方法是提取服裝圖像的傳統(tǒng)特征和使用深度學(xué)習(xí)來提取服裝圖像的深度特征。葛俊等[1]提出一種基于累加直方圖與Hu不變矩加權(quán)特征和局部二值模式(LBP)的檢索方法,董俊杰[2]使用方向梯度直方圖(HOG)實(shí)現(xiàn)了服裝圖像檢索系統(tǒng),張騰等[3]使用顏色直方圖(HSV)進(jìn)行服裝圖像檢索,肖行等[4]使用改進(jìn)的LBP特征進(jìn)行服裝圖像檢索,陳雙[5]對VGG-16模型引入哈希層后進(jìn)行圖像檢索。包青平[6]等使用Tripletloss進(jìn)行度量學(xué)習(xí)完成圖像檢索任務(wù)。何媛媛[7]等使用融合GoogleNet的多層特征并使用K-Means聚類算法進(jìn)行圖像檢索。曾雄梅[8]通過融合感興趣區(qū)域特征和深層特征來進(jìn)行圖像檢索。相似性度量的目的是減少同類樣本間的距離,增大不同類別之間的距離,目前主要是使用有監(jiān)督學(xué)習(xí)方法,在卷積神經(jīng)網(wǎng)絡(luò)中引入的有監(jiān)督度量學(xué)習(xí),主要形成了Siamese結(jié)構(gòu)和Triplet結(jié)構(gòu)。Siamese結(jié)構(gòu)是由兩個(gè)共享權(quán)值的子神經(jīng)網(wǎng)絡(luò)組成,將兩個(gè)輸入分別送入子神經(jīng)網(wǎng)絡(luò)中得到輸出,最后得出兩個(gè)輸出之間的距離。Triplet結(jié)構(gòu)由三個(gè)共享權(quán)值的子網(wǎng)絡(luò)組成,其中輸入樣本分別為參考樣本,正樣本和負(fù)樣本組成,同與參考樣本為類別的是正樣本,與參考樣本不同類別的為負(fù)樣本,將樣本分別送入子網(wǎng)絡(luò)中得到輸出特征,然后分別計(jì)算參考樣本和正樣本之間的距離,參考樣本和負(fù)樣本之間的距離。本文使用ResNet101網(wǎng)絡(luò)模型提取服裝特征,使用Triplet結(jié)構(gòu)進(jìn)行相似性度量。
2.2 深度殘差網(wǎng)絡(luò)
深度殘差網(wǎng)絡(luò)是由MSRA(微軟亞洲研究院)何凱明團(tuán)隊(duì)提出的,并且在2015年的ImageNet上取得冠軍。該網(wǎng)絡(luò)的層數(shù)達(dá)到152層。深度殘差網(wǎng)絡(luò)使用恒等映射,解決了在增加神經(jīng)網(wǎng)絡(luò)的深度時(shí),會出現(xiàn)準(zhǔn)確率先上升然后達(dá)到飽和,再持續(xù)增加深度則會導(dǎo)致準(zhǔn)確率下降的問題。深度殘差網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)深度的不同,分為18、34、50、101、152層的網(wǎng)絡(luò)如圖1所示。
在這五種不同層數(shù)的網(wǎng)絡(luò)模型中,本文使用ResNet101網(wǎng)絡(luò)作為骨干模型提取圖像特征。
3基于特征融合的服裝圖像檢索
3.1模型設(shè)計(jì)
為了克服梯度消失和梯度爆炸的問題,本文使用了深度殘差網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò)。在深度殘差網(wǎng)絡(luò)模型中,出于提高檢索準(zhǔn)確率和減少檢索時(shí)間這兩個(gè)原因考慮,本文使用ResNet101網(wǎng)絡(luò)模型。本文使用的數(shù)據(jù)集是DeepFashion數(shù)據(jù)集中的子數(shù)據(jù)集Category and Attribute Prediction Benchmark,有著較多的訓(xùn)練樣本,可以得到比較好的實(shí)驗(yàn)結(jié)果。本文修改ResNet101的兩個(gè)全連接層,將倒數(shù)第二層修改為輸出維度500維,并將倒數(shù)第二個(gè)全連接層得到的服裝圖像特征建立起服裝特征數(shù)據(jù)庫,將最后一個(gè)全連接層的輸出維度修改為20維,因?yàn)楸疚倪x取了20個(gè)類別作為訓(xùn)練樣本。
3.2方法概述
(1)首先對服裝圖像進(jìn)行預(yù)處理。
(2)將進(jìn)行預(yù)處理后的大小為3[×] 224[×] 224的服裝圖片輸入到ResNet101網(wǎng)絡(luò)模型中,然后經(jīng)過網(wǎng)絡(luò)模型的處理,得到服裝特征。
(3)將所有的服裝圖片依次送入網(wǎng)絡(luò)模型中,將得到的服裝特征建立成服裝特征向量庫。
(4)將待檢索的圖片進(jìn)行預(yù)處理后送入網(wǎng)絡(luò)模型中得到待檢索圖片的服裝特征。
(5)計(jì)算待檢索的服裝特征與服裝數(shù)據(jù)庫中的特征的距離,然后得出與待檢索圖片特征向量最近的N張圖片作為檢索結(jié)果,并且按照相似度大小排列,最相似的圖片排在檢索結(jié)果中的第一位,排在最后面的是N張圖片中最不相似的圖片。
4實(shí)驗(yàn)和分析
4.1數(shù)據(jù)集
本文使用DeepFashion數(shù)據(jù)庫中的Category and Attribute Prediction Benchmark數(shù)據(jù)集,該數(shù)據(jù)集一共有289222張服裝圖片,均是JPG格式,其中有50個(gè)服裝類別,1000個(gè)服裝屬性,服裝類別分為上身服裝,下身服裝和全身服裝。本文抽取數(shù)據(jù)集中的20個(gè)服裝類別的圖片進(jìn)行試驗(yàn)。
4.2評價(jià)指標(biāo)
我們使用平均精度均值(mean Average Precision,mAP)來衡量服裝圖像的檢索效果。在完成一次檢索結(jié)果后,相似圖片占檢索出來的圖片總數(shù)的比值即為檢索結(jié)果的準(zhǔn)確率,而平均精度均值是多次檢索準(zhǔn)確率的和除以檢索次數(shù)后得到的值。
準(zhǔn)確率= [檢索結(jié)果中的相似服裝數(shù)目返回的檢索結(jié)果數(shù)目]×100%
MAP =[多次準(zhǔn)確率的和檢索次數(shù)×]100%
從公式可以看出,平均精度均值可以有效考察檢索模型在檢索時(shí)的正確返回結(jié)果在所有返回結(jié)果中的占比情況。
4.3實(shí)驗(yàn)結(jié)果與分析
根據(jù)實(shí)驗(yàn)設(shè)計(jì),本文對DeepFashion數(shù)據(jù)集中的子數(shù)據(jù)集Category and Attribute Prediction Benchmark進(jìn)行了105次訓(xùn)練后,其損失值和準(zhǔn)確率趨于穩(wěn)定。將訓(xùn)練好的模型用于服裝圖像檢索,其檢索結(jié)果由圖2可知。
在圖像檢索中,本文分別返回前3、5、10張圖片來計(jì)算平均精度均值(mAP),實(shí)驗(yàn)結(jié)果如表1所示。
5結(jié)論
本文使用ResNet101網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò),使用Triplet進(jìn)行相似性度量,并計(jì)算圖像之間的余旋距離,最后的檢索結(jié)果按照圖像之間的相似度進(jìn)行排序。從表一可知,本實(shí)驗(yàn)具有較高的平均精度均值,該模型較好地完成了服裝圖像檢索工作。在后續(xù)的工作中,可以使用Flask做一個(gè)網(wǎng)頁的服裝圖像檢索系統(tǒng)。
參考文獻(xiàn):
[1] 葛俊,于威威.一種基于加權(quán)顏色形狀特征和LBP服裝圖像檢索方法[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2018(19):33-38.
[2] 董俊杰.基于HOG和SVM的服裝圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué),2014.
[3] 張騰,郭清宇.基于HSV顏色直方圖的服裝檢索[J].信息與電腦(理論版),2011(20):28-29.
[4] 肖行.一種基于Gabor小波和LBP的服裝圖像檢索方法[J].企業(yè)技術(shù)開發(fā),2014,33(33):51-52.
[5] 陳雙.基于深度學(xué)習(xí)的服裝圖像分類與檢索研究[D].杭州:浙江理工大學(xué),2019.
[6] 包青平,孫志鋒.基于度量學(xué)習(xí)的服裝圖像分類和檢索[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(4):255-259.
[7] 侯媛媛,何儒漢,劉軍平.融合顏色特征和深度特征服裝圖像檢索算法[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(10):194-199.
[8] 曾雄梅.基于感興趣區(qū)域和特征融合的服裝圖像檢索研究[D].武漢:華中科技大學(xué),2019.
【通聯(lián)編輯:唐一東】
收稿日期:2021-07-25
基金項(xiàng)目:田園綜合體信息化運(yùn)營技術(shù)集成與示范(2019YFD1101305);湖南省自然科學(xué)基金(2018JJ2098)
作者簡介:晏思雪(1996—),女,四川簡陽人,電子與通信工程專業(yè)碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺。