孫 潔, 丁笑君, 杜 磊, 李秦曼, 鄒奉元
(1. 浙江理工大學(xué) 服裝學(xué)院, 浙江 杭州 310018; 2. 浙江傳媒學(xué)院 設(shè)計(jì)藝術(shù)學(xué)院, 浙江 杭州 310018; 3. 浙江省服裝工程技術(shù)研究中心, 浙江 杭州 310018; 4. 絲綢文化傳承與產(chǎn)品設(shè)計(jì)數(shù)字化技術(shù)文化和旅游部重點(diǎn)實(shí)驗(yàn)室, 浙江 杭州 310018)
織物是服裝的三大物態(tài)構(gòu)成要素之一,織物圖像的分類(lèi)、識(shí)別與檢索技術(shù)在紡織服裝行業(yè)數(shù)字化設(shè)計(jì)與智能制造領(lǐng)域發(fā)揮著重要作用[1-2]。隨著織物圖像數(shù)量的迅速增加,如何合理地組織、表達(dá)織物圖像信息,使用戶能夠快速、準(zhǔn)確地從海量圖像數(shù)據(jù)集中找到目標(biāo)圖像是一個(gè)亟待解決的問(wèn)題[3]。
基于內(nèi)容的圖像檢索(CBIR)通過(guò)圖像像素相似性匹配實(shí)現(xiàn)檢索。在CBIR系統(tǒng)中,圖像淺層視覺(jué)特征經(jīng)參數(shù)化處理轉(zhuǎn)化為特征向量,從而實(shí)現(xiàn)計(jì)算機(jī)對(duì)圖像信息的讀取。目前,已有多種圖像淺層視覺(jué)特征提取方法被用于圖像檢索,如顏色、形狀及紋理特征[4]、空間包絡(luò)特征(GIST)[5-6]等基于圖像全局特征的提取方法,詞袋模型(BoW)[7]、尺度不變特征變換(SIFT)[5]等基于圖像局部特征的提取方法。特征提取后需通過(guò)歐氏距離或余弦相似度函數(shù)[6,8]等非柔性距離函數(shù)進(jìn)行圖像相似度搜索,而固定的剛性相似函數(shù)或距離函數(shù),并不是最適合的復(fù)雜視覺(jué)圖像檢索任務(wù)的距離計(jì)算方法。
從計(jì)算機(jī)提取的淺層視覺(jué)特征到大腦中形成的高級(jí)人類(lèi)感知是一個(gè)復(fù)雜的映射關(guān)系,即由淺層視覺(jué)特征到高層感知判斷的過(guò)程存在“語(yǔ)義鴻溝”。深度學(xué)習(xí)被認(rèn)為是當(dāng)下克服“語(yǔ)義鴻溝”的重要途徑。該方法通過(guò)多個(gè)層次的數(shù)據(jù)抽取進(jìn)行特征學(xué)習(xí),并允許系統(tǒng)學(xué)習(xí)復(fù)雜的函數(shù)[1,3,9],進(jìn)而實(shí)現(xiàn)語(yǔ)義概念的抽象表達(dá)[10]。近年來(lái),學(xué)者們提出了大量的深度學(xué)習(xí)技術(shù)。其中,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在計(jì)算機(jī)視覺(jué)和圖像識(shí)別的各種任務(wù)和競(jìng)爭(zhēng)中都表現(xiàn)出了較優(yōu)的性能[11]。在CNN分類(lèi)識(shí)別任務(wù)基礎(chǔ)上實(shí)現(xiàn)基于語(yǔ)義的圖像檢索(SBIR)已成為圖像檢索的發(fā)展趨勢(shì)。
織物圖像檢索的關(guān)鍵是設(shè)計(jì)適合的、高效的圖像特征提取方法,并能夠在此基礎(chǔ)上構(gòu)建具有適用性的分類(lèi)與識(shí)別模型[11-12]。針對(duì)上述問(wèn)題,本文分別從織物圖像淺層視覺(jué)特征提取、深度特征學(xué)習(xí) 2個(gè)方面梳理并討論其在織物圖像檢索中的適用性,并從高層語(yǔ)義屬性、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)與距離尺度學(xué)習(xí)3個(gè)方面論述了檢索模型的優(yōu)化路徑,最后基于現(xiàn)狀展望了該領(lǐng)域未來(lái)的研究重點(diǎn)。
圖像淺層視覺(jué)特征主要關(guān)注圖像的顏色、紋理、形態(tài)等視覺(jué)特征以及GIST、SIFT等手工提取特征。
1.1.1 顏色特征
顏色特征是織物圖像識(shí)別過(guò)程中最直觀的視覺(jué)特征。顏色特征提取主要有顏色矩(CM)[6]、顏色直方圖(CH)[2,13-14]及顏色相關(guān)圖[15]等方法。顏色直方圖可用于描述不同色彩在整幅圖像中所占的比例,但并不能捕捉到顏色區(qū)域的空間關(guān)系[6]。顏色相關(guān)圖和顏色矩是基于圖像顏色全局分布的顏色索引方法,具有特征向量維數(shù)低、計(jì)算次數(shù)少等優(yōu)點(diǎn)[6],但對(duì)圖像的尺寸與空間信息不敏感。故顏色特征在圖像分類(lèi)、識(shí)別與檢索中一般不單獨(dú)使用,需要與其他特征結(jié)合使用。
1.1.2 紋理特征
紋理特征旨在捕獲圖像中的表面細(xì)粒度和重復(fù)模式,描述圖像中對(duì)象的表面性質(zhì),對(duì)區(qū)域內(nèi)部灰度變化進(jìn)行量化[16]。
在織物特征的表達(dá)中,紋理特征對(duì)織物表面肌理[14,17]、重復(fù)周期[17-18]、疵點(diǎn)[19]等具有較好的表征效果。Jing等[17]采用灰度均值、灰度方差和灰度共生矩陣等紋理特征分析色織物的意匠圖和重復(fù)特征,識(shí)別色織物的組織模式。Yildiz[19]采用局部二值(LBP)特征表征起絨織物表面疵點(diǎn)特性,實(shí)現(xiàn)織物疵點(diǎn)檢測(cè)。但以上2個(gè)單獨(dú)使用紋理特征進(jìn)行織物特征表征的案例中,樣本均為純色織物圖像,對(duì)于色差大、復(fù)雜程度高的織物圖案,還需融合其他特征使用。
1.1.3 形狀特征
形狀特征提取通常需在圖像分割與輪廓提取后進(jìn)行。形狀特征提取方法可分為2類(lèi):基于邊界和基于區(qū)域[6,20]。傅里葉描述符[21]和不變矩[2,22-23]是形狀特征的2種常用表示。傅里葉描述符使用傅里葉變換邊界進(jìn)行形狀描述。不變矩的主要目的是利用變換不變的區(qū)域內(nèi)像素點(diǎn)的矩進(jìn)行形狀描述。形狀特征在多色織物圖案元素的識(shí)別問(wèn)題中具有重要作用,在檢索運(yùn)用中,形狀特征也需要與其他特征融合使用[22-23]。
如上所述,顏色、紋理和形狀特征是圖像的淺層視覺(jué)特征,每一類(lèi)特征在單獨(dú)使用時(shí)均存在缺陷。結(jié)合2個(gè)及以上的特征,可達(dá)到更好的檢索效果[6,22]:Kuo等[2]采用顏色直方圖和重復(fù)單元圖像的Hu不變矩構(gòu)建波點(diǎn)印花織物的檢索數(shù)據(jù)庫(kù);向忠等[24]提出了一種基于邊緣特征和顏色特征的織物花型檢索算法,具有平移、縮放、旋轉(zhuǎn)不變性,平均查準(zhǔn)率可達(dá)93.17%。
以上研究?jī)H對(duì)織物的淺層視覺(jué)特征進(jìn)行相似匹配計(jì)算,并未就織物高層屬性進(jìn)行識(shí)別。有學(xué)者嘗試采用淺層視覺(jué)特征構(gòu)建分類(lèi)模型,探索織物高層語(yǔ)義識(shí)別問(wèn)題。
Suciati等[14]提出一種基于分形紋理特征與HSV顏色特征的織物圖像檢索系統(tǒng),對(duì)“batik”和非“batik”2種織物表面肌理進(jìn)行識(shí)別,檢索召回率分別為94%和92%。Chen等[13]提取了織物顏色、紋理等特征,使用支持向量回歸(SVR)來(lái)構(gòu)建特征與情感語(yǔ)義標(biāo)簽之間的映射函數(shù),分別對(duì)8、16個(gè)屬性進(jìn)行識(shí)別,平均檢索召回率高于80%。Jing等[6]提出了基于顏色矩和GIST特征的織物紋樣檢索算法,對(duì)5類(lèi)織物紋樣進(jìn)行檢索,平均檢索精度達(dá)86.3%,平均召回率達(dá)53.3%。Umam等[22]采用三維特征提取方法(CVQ)提取顏色特征以及Hu不變矩識(shí)別Madurese蠟染織物的26類(lèi)設(shè)計(jì)母題,結(jié)果顯示基于顏色特征的平均檢索精度僅為46.72%,基于形狀特征的平均檢索精度為80%??梢钥吹?,隨著語(yǔ)義識(shí)別屬性的增多,檢索效率明顯下降。
以上涉及的織物淺層視覺(jué)特征提取文獻(xiàn)比較如表1所示??梢?jiàn),手工特征提取方法在小樣本數(shù)據(jù)集中具有一定的適用性,但由于該方法依賴(lài)人工標(biāo)注,未在大樣本圖像檢索中得到普及。此外,淺層視覺(jué)特征在高層語(yǔ)義識(shí)別問(wèn)題中表現(xiàn)并不理想,特別是當(dāng)語(yǔ)義屬性數(shù)量增加時(shí),檢索效果明顯不佳。
表1 織物淺層視覺(jué)特征提取文獻(xiàn)比較Tab.1 Comparison of literatures on extraction of superficial features of fabrics
圖像深度特征學(xué)習(xí)旨在將研究對(duì)象的語(yǔ)義信息表示為稠密低維實(shí)值向量,在低維空間中計(jì)算語(yǔ)義聯(lián)系。深度卷積神經(jīng)網(wǎng)絡(luò)在圖像特征學(xué)習(xí)方面已經(jīng)被證明優(yōu)于傳統(tǒng)手工提取特征[25]。
卷積神經(jīng)網(wǎng)絡(luò)模型是一種典型的監(jiān)督學(xué)習(xí)模型,是LeCun于1989年在梯度反向傳播算法(BP)的基礎(chǔ)上提出的一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)[26],即LeNet-5 CNN模型,如圖1所示。該模型由2部分組成:一是卷積層和池化層;二是全連接層和隱含層。
圖1 LeNet-5 CNN模型結(jié)構(gòu)Fig.1 LeNet-5 CNN model structure
在服裝及織物圖像的分類(lèi)、識(shí)別與檢索問(wèn)題中常采用在LeNet-5模型基礎(chǔ)上改進(jìn)的AlexNet和VGGnet模型。其中AlexNet克服了LeNet-5模型的過(guò)擬合問(wèn)題,采用11×11的巨大卷積核進(jìn)行降維處理,但快速縮小也意味著可能丟失更多的細(xì)節(jié)特征[27];VGGnet在卷積層的結(jié)構(gòu)中采用多個(gè)3×3的卷積核代替大卷積核,并在多個(gè)卷積層后加入池化層,以保證網(wǎng)絡(luò)深度[28]。
通過(guò)CNN圖像特征學(xué)習(xí),實(shí)現(xiàn)圖像識(shí)別與檢索的基本思路如圖2所示。通過(guò)CNN分類(lèi)過(guò)程將圖像分配到不同的預(yù)設(shè)語(yǔ)義標(biāo)簽上,從而構(gòu)建圖像與語(yǔ)義信息的映射關(guān)系。這一過(guò)程通常提取圖像的全局特征,當(dāng)圖像中包含多個(gè)感興趣對(duì)象/區(qū)域時(shí),首先需要利用圖像淺層視覺(jué)特征進(jìn)行區(qū)域分割,實(shí)現(xiàn)目標(biāo)檢測(cè);然后,通過(guò)CNN提取特征,經(jīng)支持向量機(jī)(SVM)等分類(lèi)器,完成由圖像輸入到語(yǔ)義輸出的識(shí)別過(guò)程。
圖2 基于CNN的織物圖像語(yǔ)義識(shí)別框架Fig.2 Framework of fabric SBIR based on CNN
CNN網(wǎng)絡(luò)特征提取過(guò)程中,卷積窗口在圖像上滑動(dòng),將窗口內(nèi)的元素進(jìn)行卷積操作。遍歷過(guò)程中產(chǎn)生的所有的輸出按位置組成了特征圖,而每一層需要設(shè)計(jì)多少特征圖取決于需要學(xué)習(xí)多少種特征。特征圖數(shù)量設(shè)計(jì)的好壞直接影響著最終的網(wǎng)絡(luò)性能。如何科學(xué)計(jì)算特征圖數(shù)目,目前還沒(méi)有形成詳細(xì)的理論指導(dǎo),大都依賴(lài)實(shí)驗(yàn)和經(jīng)驗(yàn)決定。
CNN分類(lèi)過(guò)程中,不同圖像數(shù)據(jù)集具有的圖像標(biāo)簽數(shù)是不同的,而網(wǎng)絡(luò)最后一層全連接層的輸出個(gè)數(shù)需要與圖像標(biāo)簽的數(shù)目一致。故在網(wǎng)絡(luò)結(jié)構(gòu)中,若全連接層的輸出個(gè)數(shù)能夠根據(jù)數(shù)據(jù)集的標(biāo)簽數(shù)變化,將有效提升模型的適用范圍。為此,Wan等[29]嘗試在AlexNet結(jié)構(gòu)上,將第2層全連接層的輸出個(gè)數(shù)設(shè)置為可變,使得第1層全連接層的輸出個(gè)數(shù)到第3層全連接層的輸出個(gè)數(shù)的改變可以相對(duì)平滑,最后一層全連接層能平滑擬合不同的標(biāo)簽數(shù)量。
研究表明經(jīng)過(guò)預(yù)處理的大規(guī)模數(shù)據(jù)集可直接用于SBIR任務(wù)特征提取[29]??蓮?個(gè)方面提升織物檢索模型的精度:一是語(yǔ)義分類(lèi)標(biāo)簽的合理設(shè)計(jì);二是CNN的結(jié)構(gòu)優(yōu)化;三是距離尺度學(xué)習(xí)。
CNN作為一種有監(jiān)督的機(jī)器學(xué)習(xí)模型,需要預(yù)先進(jìn)行語(yǔ)義分類(lèi)標(biāo)簽設(shè)定。標(biāo)簽的設(shè)計(jì)一方面需要全面反映織物的固有屬性,另一方面需適應(yīng)機(jī)器學(xué)習(xí)。人工標(biāo)注方法是目前常用的圖像標(biāo)注方法[30],主要通過(guò)專(zhuān)家知識(shí)[13,22,30]或用戶使用頻數(shù)排序[1]來(lái)確定標(biāo)簽。但人工標(biāo)注對(duì)大樣本數(shù)據(jù)集并不適用,特別是當(dāng)一張圖片同時(shí)觸發(fā)多個(gè)屬性時(shí),人工標(biāo)注費(fèi)時(shí)費(fèi)力且難以詳盡。
此外,以上標(biāo)簽詞均是封閉詞匯,雖然便于建模假設(shè),但對(duì)織物多樣化多層次的屬性表達(dá)具有極大的限制。針對(duì)這一問(wèn)題,有學(xué)者將本體構(gòu)造引入織物圖像檢索[31]?;诒倔w的圖像檢索技術(shù)可表達(dá)較為復(fù)雜的語(yǔ)義關(guān)系,并且具備語(yǔ)義模糊匹配能力。Kuang等[32]集成深度CNN構(gòu)建了基于本體的服裝屬性語(yǔ)義識(shí)別模型,論證了該模型在細(xì)粒度的服裝(含織物)語(yǔ)義識(shí)別中具有更優(yōu)的表現(xiàn)。
諸多學(xué)者探索了如何優(yōu)化CNN結(jié)構(gòu),使其更適合織物圖像檢索。汪珊娜等[30]在AlexNet模型基礎(chǔ)上構(gòu)建并行的CNN網(wǎng)絡(luò)后,經(jīng)Softmax分類(lèi)器輸出織物圖像的情感類(lèi)別。并與LeNet-5模型、AlexNet模型、VGG-16模型進(jìn)行對(duì)比發(fā)現(xiàn),并行模型對(duì)小樣本數(shù)據(jù)有更好的分類(lèi)識(shí)別效率。
針對(duì)大樣本數(shù)據(jù)集,F(xiàn)ashionNet模型實(shí)現(xiàn)了服裝中織物的語(yǔ)義屬性識(shí)別,采用VGG-16目標(biāo)識(shí)別框架,通過(guò)位置標(biāo)定處理織物在服裝中的形變和位置變化,由學(xué)習(xí)到的特征集合誘導(dǎo)出帶有位置信息的織物識(shí)別檢索,實(shí)現(xiàn)end-to-end的特征學(xué)習(xí)與語(yǔ)義自動(dòng)標(biāo)注[1]。
為進(jìn)一步提升網(wǎng)絡(luò)識(shí)別效率,學(xué)者們嘗試在CNN模型中嵌入尺度學(xué)習(xí)算法[33-34],通過(guò)共同學(xué)習(xí)圖像表示和語(yǔ)義識(shí)別的度量,弱化類(lèi)內(nèi)變化,增強(qiáng)類(lèi)間變化,提升模型的魯棒性。
針對(duì)如何在現(xiàn)有的CNN模型中嵌入距離尺度學(xué)習(xí)以提升檢索精度問(wèn)題,Deng等[3]提出一種聚焦于排序的嵌入算法(FRE),并與現(xiàn)有的Pair、Magnet和Triplet的3種嵌入算法進(jìn)行對(duì)比,F(xiàn)RE方法的檢索召回率達(dá)93.5%,優(yōu)于其他3種距離尺度學(xué)習(xí)嵌入模型,在細(xì)粒度織物圖像分類(lèi)識(shí)別問(wèn)題上呈現(xiàn)出較大的優(yōu)勢(shì)。該方法基于AlexNet模型實(shí)現(xiàn),將AlexNet的前7層作為網(wǎng)絡(luò)架構(gòu)的早期層,再添加輔助層來(lái)計(jì)算損失函數(shù),損失函數(shù)為
式中:f(x)為原始圖像至特征向量的變換;D(x,x)為2個(gè)特征向量之間的距離;σ(x)為邏輯函數(shù),σ(x)=log2(1+2-x)。f(x)與某一對(duì)象x具有相同標(biāo)簽的圖像為正,用x+表示,反之用x-表示。
可見(jiàn),CNN對(duì)于捕捉圖像高層語(yǔ)義信息對(duì)應(yīng)的淺層像素信息具有較好的效果。針對(duì)不同類(lèi)型的檢索任務(wù),CNN模型需通過(guò)適當(dāng)?shù)募?xì)化方案,在特征表示學(xué)習(xí)過(guò)程中能獲得優(yōu)于手工特征的效果。同時(shí),通過(guò)相似性學(xué)習(xí)可進(jìn)一步提高深度模型的分類(lèi)識(shí)別能力,在細(xì)粒度的圖像分類(lèi)問(wèn)題上具有明顯優(yōu)勢(shì)。
目前國(guó)內(nèi)外學(xué)者在織物圖像特征提取與檢索領(lǐng)域的研究已取得一些成果。為更好地優(yōu)化織物圖像檢索的準(zhǔn)確度,實(shí)現(xiàn)細(xì)粒度的語(yǔ)義識(shí)別效果,未來(lái)面料檢索系統(tǒng)的構(gòu)建應(yīng)具有以下特點(diǎn)。
1) 語(yǔ)義標(biāo)簽合理化設(shè)計(jì)。合理的語(yǔ)義標(biāo)簽既要充分反映織物固有的屬性以及屬性間的關(guān)系,也需適用于機(jī)器學(xué)習(xí)過(guò)程。簡(jiǎn)單而有效的語(yǔ)義模型構(gòu)造將是未來(lái)織物語(yǔ)義識(shí)別研究的重要內(nèi)容。織物語(yǔ)義本體的構(gòu)建,有助于設(shè)計(jì)知識(shí)的表示和管理,有效提升織物圖像數(shù)字化設(shè)計(jì)中對(duì)設(shè)計(jì)信息表述的支持能力,增強(qiáng)建模的自動(dòng)化水平。
2) 精準(zhǔn)的圖像自動(dòng)分割與分類(lèi)識(shí)別。在圖像檢索過(guò)程中,準(zhǔn)確的對(duì)象分割與識(shí)別是實(shí)現(xiàn)語(yǔ)義檢索的前提與關(guān)鍵。精準(zhǔn)的對(duì)象識(shí)別以及對(duì)顯著性區(qū)域的排序,是實(shí)現(xiàn)對(duì)多個(gè)區(qū)域或?qū)ο笮枨箜憫?yīng)的重要環(huán)節(jié),在此基礎(chǔ)上可實(shí)現(xiàn)設(shè)計(jì)規(guī)律與要素信息的挖掘。
3) 多模態(tài)融合、交互式語(yǔ)義識(shí)別。數(shù)據(jù)信息本質(zhì)上是多模態(tài)的,多模態(tài)的語(yǔ)義模型構(gòu)造可更有效反映數(shù)據(jù)信息的內(nèi)在本質(zhì)關(guān)聯(lián),通過(guò)模態(tài)的信息對(duì)齊更有效地獲取目標(biāo)圖像集合。此外,允許用戶使用擴(kuò)展的關(guān)鍵字來(lái)描述檢索圖像的屬性,構(gòu)建交互式檢索系統(tǒng),可提高圖像檢索的適用性,提升信息共享效率。