国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的服裝圖像檢索方法①

2019-03-11 06:02何利力鄭軍紅
關(guān)鍵詞:哈希類別檢索

陳 雙,何利力,鄭軍紅

(浙江理工大學(xué) 信息學(xué)院,杭州 310018)

隨著服裝電子商務(wù)的飛速發(fā)展,互聯(lián)網(wǎng)上服裝圖像數(shù)據(jù)量急劇增長,如何從海量的圖像庫中進(jìn)行快速精準(zhǔn)檢索成為了近幾年研究的熱點[1].

目前服裝圖像檢索的常規(guī)方法有兩類,一類是基于文字的圖像檢索(TBIR),通過對服裝圖像的文字描述進(jìn)行語義式匹配;另一類是基于圖像內(nèi)容的圖像檢索(CBIR),從圖像的顏色、紋理等方面進(jìn)行特征提取,實現(xiàn)“以圖搜圖”[2].但這兩類方法都具有一定的局限性,文字描述所進(jìn)行的人工語義標(biāo)簽十分繁瑣,且具有主觀性;而內(nèi)容特征不能全面地反映圖像豐富的視覺特征,機(jī)器從低級的可視化特征得到的相似性與人從高級的語義特征得到的相似性間存在著巨大的“語義鴻溝”[3],造成檢索的效果不佳.為此,在深度學(xué)習(xí)技術(shù)與圖像處理技術(shù)飛速發(fā)展的當(dāng)下,借助深度學(xué)習(xí)強(qiáng)大的特征提取能力,直接對圖像進(jìn)行處理,消除不同底層特征帶來的影響,進(jìn)行服裝圖像檢索研究.

基于深度學(xué)習(xí)的方法在圖像分類、圖像檢索方面具有獨特的優(yōu)越性.AlexNet模型[4]與 VGG 模型[5]成功地驗證了深度卷積神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)圖像特征表示上的能力.而對于有著紋理、款式等特有視覺特征的服裝圖像的檢索,目前仍處于探索階段.如基于深度學(xué)習(xí)進(jìn)行對服裝圖片的自動標(biāo)注[6],以及著重于深度卷積神經(jīng)網(wǎng)絡(luò)的層次多任務(wù)服裝分類等[7],它們主要借助于深度學(xué)習(xí)的圖像特征表達(dá)能力來進(jìn)行研究.面對大規(guī)模服裝圖像,利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練樣本的近似哈希編碼得到哈希構(gòu)造函數(shù),采用CNN與哈希方法相結(jié)合的算法[8]能有效提高圖像檢索的速度.

本文主要進(jìn)行3方面的研究.1)基于Fashion-MNIST數(shù)據(jù)集建立卷積神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行服裝類別標(biāo)簽分類.2)基于VGG-16預(yù)訓(xùn)練模型,對服裝數(shù)據(jù)集進(jìn)行特征提取,并映射成哈希編碼,建立服裝特征哈希索引庫,實現(xiàn)圖像的快速檢索.3)綜合以上兩個模型,以爬取的服裝圖像進(jìn)行分類訓(xùn)練,建立大規(guī)模服裝數(shù)據(jù)集,提出一種新的Fashin-16神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)基于深度學(xué)習(xí)的先分類再類內(nèi)檢索的服裝圖像檢索,并通過實驗分析與對比實驗的設(shè)計驗證其檢索效果.

1 研究方法

1.1 研究環(huán)境與預(yù)處理

實驗環(huán)境:基于 Keras深度學(xué)習(xí)框架,Tensorflow做為后端.

預(yù)訓(xùn)練數(shù)據(jù):采用Fashion-MNIST數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練.Fashion-MNIST 是德國研究機(jī)構(gòu) Zalando Research發(fā)布的一個服裝圖像數(shù)據(jù)集[9],含有60 000個訓(xùn)練樣本和 10 000 個測試樣本,包括 10 個類別標(biāo)簽:T 恤,褲子,套頭衫,裙子,外套,涼鞋,襯衫,運動鞋,包,踝靴.

實驗數(shù)據(jù):使用爬蟲爬取服裝圖像與網(wǎng)上相關(guān)服裝數(shù)據(jù)集,獲取了總計 325 820張服裝圖像,關(guān)聯(lián)對應(yīng)的服裝類別標(biāo)簽,建立大規(guī)模服裝圖像數(shù)據(jù)集作為實驗樣本集,并將樣本集隨機(jī)分為三批,20萬個樣本作為訓(xùn)練數(shù)據(jù),進(jìn)行模型的訓(xùn)練,10萬個樣本進(jìn)行模型的參數(shù)調(diào)優(yōu),剩下的樣本用來衡量最優(yōu)模型的性能.

標(biāo)簽選擇:為實現(xiàn)高效精準(zhǔn)的分類,本文參考Fashin-MNIST數(shù)據(jù)集的類別標(biāo)簽,采用單標(biāo)簽的方法.考慮缺少多標(biāo)簽之間的關(guān)聯(lián),泛化能力不足[10],后期將對Fashion-16模型進(jìn)行調(diào)整,實現(xiàn)多標(biāo)簽的分類檢索.

預(yù)處理:對于輸入預(yù)訓(xùn)練模型與進(jìn)行檢索的圖像,為減少圖像冗余信息,去除背景、光照、多主體等因素的影響,需對實驗數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練格式標(biāo)準(zhǔn)化,主要進(jìn)行去均值與歸一化:去均值是指對圖像的每個數(shù)據(jù)點進(jìn)行均值消除,移除圖像的平均亮度,消除數(shù)據(jù)的直流分量;歸一化是指令 x_train=x_train/255,使樣本值處于[0,1]之間,減少各維度數(shù)據(jù)取值范圍的差異帶來的干擾[11].

圖1 Fashion-MNIST 及抓取圖像部分?jǐn)?shù)據(jù)集

1.2 基于卷積神經(jīng)網(wǎng)絡(luò)的服裝類別標(biāo)簽分類模型

服裝圖像中含有豐富的服裝特有屬性信息,如顏色、花紋、袖子的長短等.本文從服裝的類別進(jìn)行研究,采用卷積神經(jīng)網(wǎng)絡(luò)的非線性映射能力與自學(xué)習(xí)能力,根據(jù)服裝圖像與類別標(biāo)簽,自動學(xué)習(xí)服裝類別標(biāo)簽特征,以網(wǎng)絡(luò)的高層語義激活值表示服裝的類別標(biāo)簽特征,實現(xiàn)服裝高效精準(zhǔn)分類,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的服裝類別標(biāo)簽分類模型[12].建立卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表1所示.

表1 服裝類別標(biāo)簽分類模型結(jié)構(gòu)

卷積層通過卷積核與輸入的相互作用進(jìn)行特征提取,池化層弱化位置信息并過濾不重要的高頻信息,形成更抽象的特征,逐層提取并組合成完備的描述特征,保證圖像的局部關(guān)聯(lián)性與空間不變性[13].服裝類別標(biāo)簽分類模型采用卷積層和池化層兩次交替,對Fashion-MNIST 28×28 的輸入圖像采用 3×3 的卷積核,f(x)=max(0,x)的ReLU激活函數(shù),每兩次卷積后進(jìn)行一次2×2 的 Max pooling 池化.

在全連接層展平像素前引入兩層Dropout層,以0.25與0.5的閾值隨機(jī)去除權(quán)重,這一過程雖然降低了訓(xùn)練速度,但提高了網(wǎng)絡(luò)的泛化能力,防止過度擬合.

在最后一層輸出層中使用Softmax函數(shù)進(jìn)行分類,采用Logistic回歸代價函數(shù)做為Softmax分類器的代價函數(shù),給出樣本對每一類別的概率,獲得類別標(biāo)簽[14].在表達(dá)中,令模型的參數(shù)為θ1,θ2,···,θk,采用歸一化使所有的概率和為1,對所有輸入的列向量,有:

通過模型訓(xùn)練,對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行參數(shù)fine-tune,使模型效果達(dá)到預(yù)定的分類準(zhǔn)確率,形成以4層卷積層初步提取服裝圖像特征,2層池化層提取其主要特征,2層全連接層進(jìn)行特征匯總,Softmax分類層進(jìn)行分類預(yù)測,最終返回一個包含10個類別的對應(yīng)概率的一維矩陣,概率的最大值即該圖像的服裝類別,實現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)的服裝類別標(biāo)簽分類模型.

1.3 基于VGG-16的圖像檢索模型

實驗中用到的VGG-16模型是深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet的一種,是由16層神經(jīng)網(wǎng)絡(luò)構(gòu)成的經(jīng)典模型,采用由ImageNet預(yù)訓(xùn)練的權(quán)重.采用小核堆疊的思想,反復(fù)堆疊3×3的小型卷積核和2×2的最大池化層,包含13個卷積層、3個全連接層,對224×224×3的輸入數(shù)據(jù),以多層卷積與池化進(jìn)行特征提取[15].其整體結(jié)構(gòu)如圖2所示.

利用VGG-16的卷積層與池化層學(xué)習(xí)到的服裝圖像特征,對模型進(jìn)行調(diào)整,在原模型中引入哈希層,采用局部敏感哈希算法思想,以隨機(jī)超平面的方法構(gòu)造哈希函數(shù)[16],將高維的服裝圖像特征映射成二進(jìn)制哈希碼,具有相同的二進(jìn)制哈希碼的樣本保存在相同庫中,以此構(gòu)建服裝數(shù)據(jù)集的特征哈希索引庫[17].

在檢索時,對輸入的圖像進(jìn)行同樣的特征提取與映射,對比得到與輸入圖像相似性高的樣本所在的索引庫,將輸入圖像的二進(jìn)制哈希碼傳入庫中與庫中的哈希碼逐一進(jìn)行相似性度量[18],根據(jù)比較結(jié)果返回20個相似度最高的圖片及對應(yīng)的相似度,實現(xiàn)服裝圖像的快速檢索.

1.4 Fashion-16服裝圖像檢索模型

結(jié)合基于卷積神經(jīng)網(wǎng)絡(luò)的服裝類別標(biāo)簽分類模型與基于VGG-16的圖像檢索模型,本文提出了一種新的模型:Fashion-16服裝圖像檢索模型.

整體采用先分類再類內(nèi)檢索的思想.借助于上述兩個模型的特征提取能力與Softmax分類功能,對訓(xùn)練樣本進(jìn)行先分類再根據(jù)類別進(jìn)行特征信息的保存,對于檢索圖像進(jìn)行特征提取及局部敏感哈希進(jìn)行近似最近鄰的查找,在相應(yīng)類別的服裝圖像集中檢索到按相似度降序圖像[19].實現(xiàn)圖像的精準(zhǔn)分類與快速檢索,以分類優(yōu)化檢索.

首先采用VGG-16模型對爬取的服裝圖像樣本集進(jìn)行特征提取,并映射成哈希編碼.然后對VGG-16模型的最后一個卷積層進(jìn)行調(diào)整,添加能處理服裝類別標(biāo)簽的網(wǎng)絡(luò),即卷積神經(jīng)網(wǎng)絡(luò)模型的Softmax分類層.根據(jù)分類信息將訓(xùn)練模型信息存至HDF5文件,分別構(gòu)造特征哈希索引庫.對測試樣本進(jìn)行相似性度量,衡量模型的性能并進(jìn)行調(diào)參.

對于一次完整的檢索過程,將待檢索圖像輸入網(wǎng)絡(luò)模型進(jìn)行前向傳播,層層采樣獲得圖像特征,哈希編碼后根據(jù)服裝類別標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)模型Softmax分類器的結(jié)果傳入對應(yīng)的索引庫進(jìn)行近似最近鄰查找,返回按相似度排序的圖像結(jié)果,實現(xiàn)服裝圖像的精準(zhǔn)分類和快速檢索[20].模型整體構(gòu)造如圖3所示.

圖3 Fashion-16 模型整體架構(gòu)

2 實驗分析與對比

2.1 結(jié)果分析

根據(jù)實驗設(shè)計,對實驗數(shù)據(jù)集進(jìn)行20次迭代,總計用時7301 s,得到損失率(Loss)與準(zhǔn)確率(Accurancy)如圖4所示.

圖4 20次迭代過程損失值與準(zhǔn)確率變化情況

從圖中可以發(fā)現(xiàn),前幾次準(zhǔn)確率上升、損失值下降速度較快,后續(xù)趨于平緩,表明實驗在多次迭代后結(jié)果趨于穩(wěn)定.

采用Flask進(jìn)行Web實現(xiàn),得到服裝圖像分類檢索頁面樣式如圖5所示.

圖5 服裝圖像分類檢索頁面樣式

2.1.1 分類精確度

考慮在圖像領(lǐng)域常用的評價指標(biāo),對于服裝圖像檢索的精確率,分類精確度直接影響檢索精確度,本文采用查準(zhǔn)率對分類精確度進(jìn)行度量,定義為檢索結(jié)果中正確圖像數(shù)目m與返回圖像數(shù)目k的比值,計算公式為:

對服裝圖像集2萬個隨機(jī)樣本進(jìn)行測試,得到Softmax分類器的分類精確度為92.71%.實驗表明,檢索對服裝圖像的類別具有良好的針對性,能達(dá)到預(yù)期的檢索效果.

2.1.2 穩(wěn)定性

設(shè)計實驗,對于數(shù)據(jù)集大小從預(yù)實驗的Fashin-MNIST數(shù)據(jù)集進(jìn)行逐50 000數(shù)據(jù)量的增加,對于驗證數(shù)據(jù)實驗生成的檢索精確度如表2所示.

表2 數(shù)據(jù)量與檢索精確度

實驗表明,隨著數(shù)據(jù)集的擴(kuò)大,檢索精確度同步得到了提升,而后續(xù)逐漸趨于穩(wěn)定,保證了模型面向超大規(guī)模服裝圖像集具有一定的穩(wěn)定性.

2.1.3 檢索速度

對于驗證數(shù)據(jù),隨機(jī)取1000次檢索時間的平均值,得到平均檢索用時為3.2416 s,檢索具有較好的檢索速度,能應(yīng)對日常的圖像檢索需求.

這主要是采用類內(nèi)檢索縮小了檢索范圍,并協(xié)同哈希方法在檢索中計算速度和存儲空間的優(yōu)越性,保證了模型優(yōu)異的檢索速度.

2.2 實驗對比

2.2.1 SIFT特征提取與卷積神經(jīng)網(wǎng)絡(luò)特征提取

特征提取方法選用基于內(nèi)容的圖像檢索中比較著名的局部特征描述子SIFT特征,SIFT由于對旋轉(zhuǎn)、尺度交換以及一定的視角和光照變化等圖像變化具有不變性,可以獲得較好的特征效果[21].而在本模型中,使用預(yù)訓(xùn)練模型VGG-16進(jìn)行服裝圖像特征的提取,依靠多層卷積與池化,層層采樣,得到的不同層次的特征,同樣具有良好的特征表達(dá)能力.

對兩種特征提取方式得到的特征分別進(jìn)行后續(xù)的分類與檢索,通過對驗證數(shù)據(jù)集20 000個樣本的實驗,得到各自檢索結(jié)果準(zhǔn)確率如表3所示.

表3 檢索結(jié)果準(zhǔn)確率

實驗結(jié)果表明,相比于SIFT特征,使用VGG-16模型所進(jìn)行的對低層次特征學(xué)習(xí)、抽象、組合形成的高層特征具有更好的圖像特征表示能力.

2.2.2 直接檢索與類內(nèi)檢索

先分類再進(jìn)行類內(nèi)檢索的方法限定了檢索的范圍,得到的檢索結(jié)果與目標(biāo)的類別相同,避免了特征描述的偏差引起不同類別間的相似性過高,相比直接檢索具有更高的準(zhǔn)確性.而對于檢索速度而言,對不分類直接進(jìn)行檢索與分類后進(jìn)行類內(nèi)檢索這兩種情況下進(jìn)行對比,隨機(jī)取各自1000次檢索時間的平均值,得到平均檢索用時如表4所示.

表4 平均檢索用時

實驗結(jié)果表明,分類后進(jìn)行類內(nèi)檢索相比直接檢索在檢索速度上有10.88%的提升,并且可預(yù)期的對于更大規(guī)模的圖像集,因檢索范圍的限定,檢索速度的差別將會更大.

3 結(jié)語

本文提出了一個新的深度學(xué)習(xí)模型Fashion-16服裝圖像檢索模型,借助于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的圖像特征提取能力,采用先分類,再類內(nèi)檢索的思想,在類內(nèi)以局部敏感哈希算法進(jìn)行近似最近鄰的查找.通過實驗,驗證了模型具有良好的分類精確度、穩(wěn)定性與檢索速度.模型針對服裝領(lǐng)域類別屬性的修正優(yōu)化,能夠達(dá)到較好的服裝檢索效果.

猜你喜歡
哈希類別檢索
哈希值處理 功能全面更易用
Windows哈希值處理不犯難
文件哈希值處理一條龍
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
一起去圖書館吧
瑞典專利數(shù)據(jù)庫的檢索技巧
2019年第4-6期便捷檢索目錄
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
英國知識產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫信息檢索
巧用哈希數(shù)值傳遞文件