基于Faster R-cNN的服裝目標檢測改進方法

2020-06-19 08:45:58陳雙何利力

軟件導刊 2020年4期

陳雙何利力

摘要：為了滿足近年來在服裝電子商務高速發(fā)展背景下急劇增長的服裝圖像分類與定位需求，實現(xiàn)對服裝圖像的目標檢測，提出基于Faster R-CNN的服裝目標檢測改進方法。借助殘差神經(jīng)網(wǎng)絡的特征提取能力進行服裝圖像特征提取，采用RPN網(wǎng)絡進行服裝候選區(qū)域生成，經(jīng)過RoI興趣區(qū)域池化后接入分類層與回歸層，調整網(wǎng)絡結構，融合服裝圖像的HOG底層特征，從而針對性地實現(xiàn)對服裝圖像的目標檢測。實驗結果表明，該方法構建模型的平均準確率為0.902，運行速度為8.9幀/秒，具有一定的實用價值。

關鍵詞：服裝圖像;深度學習;目標檢測;殘差神經(jīng)網(wǎng)絡;邊緣梯度直方圖特征

DOI： 10. 11907/rjdk.191 807

開放科學（資源服務）標識碼（OSID）：

中圖分類號：TP301

文獻標識碼：A

文章編號：1672-7800（2020）004-0042-04

Improved Method for Garment Target Detection Based on Faster R-CNN

CHEN Shuang， HE Li-li

（School of Information ， Zh.ejiarzg Sci-tec Urziversity ， Hangzhou 3100 1 8.China ）Abstract： In order to meet the demand for the classification and positioning of clothing images under the rapid development of clothinge-commerce in recent years， the target detection of' clothing images is realized. An improved method of garment target detection basedon Faster R-CNN is proposed. The f'eature extraction ability of residual neural network is used to extract the features of clothing images.The RPN network is used to generate clothing candidate regions. After the pool of RoI interest regions， the classification lay er is ac-cessed. With the regression layer， the network structure is adjusted， and the underlying features of' the HOG of the clothing image areintegrated to achieve the pertinence of the clothing， and the target detection of the clothing image is realized. The experimental resultsshoW， that the model constructed hy this method has an average accuracy of 0.902 and an operating speed of 8.9 frames per second.Which proves the method has social practical value and academic research significance.Key Words： clothing image; deep learning; target detection ; residual neu ral network ; edge gradient histogram feature

O引言

隨著互聯(lián)網(wǎng)信息技術與服裝電子商務的迅速發(fā)展，服裝圖像數(shù)據(jù)量呈爆炸式增長，用戶對服裝圖像識別與分類的需求日漸迫切[1-2]。通過圖像目標檢測技術得到服裝的具體類別信息與位置信息，成為當前計算機視覺技術在服裝領域的應用熱點之一。

對于一張服裝圖像，人的視覺系統(tǒng)能夠輕松感知到目標的款式、色彩、圖案等服裝特征信息，而計算機只能識別得到服裝圖像的RGB像素矩陣。由于環(huán)境中存在服裝圖像的光照、形變、遮擋、多主體與背景等干擾因素，計算機通過對像素的抽象難以實現(xiàn)較好的識別效果[3]。傳統(tǒng)目標檢測方法對Haar小波特征、HOG特征、LBP特征、SIFT特征等進行提取，再構建SVM、決策樹等分類器進行檢測與定位[4-5]。該方法具有一定檢測效果，但由于具有較高的時間復雜度與較低的魯棒性，難以達到使用需求。隨著深度學習在計算機視覺領域取得突破性進展，越來越多學者針對深度學習方法在服裝圖像檢測與分類方面的應用進行研究，并取得了一定成果。

目前深度學習在目標檢測方向的研究方法主要分為兩類，一類是基于區(qū)域的算法，如R-CNN、SPP-net、FastR-CNN、Faster R-CNN.R-FCN，另一類是基于端到端的算法，如YOLO、SSD。通常后者速度相對更快，但檢測準確度不如前者。國內外眾多學者將以上兩類方法應用于服裝領域，衍生出許多針對服裝圖像的目標檢測方法。如

陳雙，何利力：基于Faster R-CNN的服裝曰標檢測改進方法Yamazakj1[6]通過研究服裝的褶皺特征以檢測日常生活中隨意放置的服裝位置，同時使用高層語義與低層特征信息，有效解決了服裝圖像中的遮擋問題;Pan等。[7]通過BP神經(jīng)網(wǎng)絡識別針織物，取得了良好的識別效果;Wang等。[8]針對服裝款式進行研究，得到準確率更高的識別方法;香港大學的Liu等[9-10]提出一個大型公開服裝圖像數(shù)據(jù)集Deep-Fashion，該數(shù)據(jù)集含有超過80萬個具有豐富類別、屬性、Bhox、特征點等標注信息的服裝圖像，并提出用FashionNet進行服裝特征學習。

本文主要進行以下3方面研究：①綜合相關數(shù)據(jù)集與爬蟲數(shù)據(jù)，進行基本預處理后構建具有服裝類別及服裝主體邊框標簽的大規(guī)模服裝圖像數(shù)據(jù)集;②基于FasterR-CNN模型進行服裝圖像特征提取、區(qū)域生成、興趣區(qū)域池化與類別判定，并修改網(wǎng)絡結構，融合服裝圖像的HOG顯著性底層特征，實現(xiàn)針對服裝圖像的目標檢測[11];③通過對比實驗設計與分析，驗證實驗模型性能。

1實驗方法

本文整體模型結構基于Faster R-CNN，融合服裝圖像顯著性特征進行目標檢測，主要分為4步：圖像特征提取、RPN區(qū)域生成網(wǎng)絡、興趣區(qū)域池化與分類回歸[12]。主要網(wǎng)絡結構如圖1所示。

主要流程如下：①將服裝圖像輸入網(wǎng)絡模型，通過卷積神經(jīng)網(wǎng)絡卷積層與池化層的交替作用進行服裝圖像特征提取，得到圖像的特征圖傳人RPN網(wǎng)絡，并進行RoI池化。這里采用ResNetl01殘差神經(jīng)網(wǎng)絡;②RPN網(wǎng)絡將輸入的特征圖輸出為多個矩形候選區(qū)域;③將直接傳人的特征圖結合RPN網(wǎng)絡的候選區(qū)域特征信息，通過RoI池化進行裁剪過濾，映射成7*7的特征;④根據(jù)特征白動學習服裝類別，通過Softmax分類器進行是否為目標的二分類，并通過邊界框回歸器修正區(qū)域候選框，融合服裝的HOG特征回歸邊框，得到最終的服裝主體圖像。

Faster R-CNN損失函數(shù)計算包括：RPN進行前景與背景二分類的分類損失、RPN滑動窗口的位置回歸損失、RoI分類器損失與RoI邊界框回歸損失，以四者和作為最終損失函數(shù)進行模型反向傳播[13]。

I.I殘差神經(jīng)網(wǎng)絡

ResNet（ Deep Residual Network）殘差神經(jīng)網(wǎng)絡[14]是2015年微軟研究院提出的卷積神經(jīng)網(wǎng)絡，一舉取得了2015年ILSVRC比賽的冠軍。ResNet將層與層之間的傳遞學習表示為輸入與輸出差別的殘差函數(shù)學習，能夠有效中和梯度爆炸問題與退化問題。

ResNet通過在不相鄰的層之間添加通路進行跨層連接，使用恒等映射將原始輸入信息直接傳輸?shù)胶竺娴木W(wǎng)絡層中。在加深網(wǎng)絡時，對于輸入x期望，輸出為H（x），學習F（x）=H（x）-x作為ResNet的殘差學習單元，改變了學習目標，從對輸出函數(shù)的學習轉換為對殘差的學習，從而在將網(wǎng)絡層數(shù)據(jù)增加到152層時，仍能保持正常收斂與較好性能。相對于淺層網(wǎng)絡，深層網(wǎng)絡得到的高層抽象語義更能表現(xiàn)出圖像特征，具有更佳的性能。相比于一般的CNN，ResNet使用了一種shortcut連接方式。普通CNN與ResNet基本結構塊如圖2所示。殘差基本結構塊可以表示為：

其中F為殘差函數(shù)，h（x1）=X1為恒等映射，XI、X1+1.分別表示第，個殘差單元的輸入與輸出，f為ReLU激活函數(shù)，則從，至L所學習的特征為：以鏈式規(guī)則求反向傳播梯度：

可以看出，該方式能保證梯度的無損傳播，有效避免梯度消失問題，在模型中具有良好的服裝圖像特征提取效果。

1.2 RPN網(wǎng)絡

RPN（Region Proposal Networks）網(wǎng)絡是一種全卷積網(wǎng)絡，通過端到端的形式進行區(qū)域生成，與分類回歸共享提取到的卷積特征，相較于之前的Selective Search與EdgeBoxes方法具有更快的提取速度[15-16]。

RPN網(wǎng)絡將殘差神經(jīng)網(wǎng)絡的共享特征圖作為輸入，以滑動窗口方式生成k個區(qū)域建議框，對應分類層有2k個輸出，表示判斷是目標與非目標的概率，對應回歸層有4k個輸出，表示k個區(qū)域建議框的位置。RPN 工作原理如圖3所示。

1.3興趣區(qū)域池化

在Faster R-CNN的RPN網(wǎng)絡后接人全連接層，通過RoI興趣區(qū)域池化層將不同大小的興趣區(qū)域轉換為固定大小。

將RPN網(wǎng)絡輸出建議與CNN網(wǎng)絡輸出特征圖輸入到RoI興趣區(qū)域池化層，以空間尺度數(shù)l/16映射回（M/16）*（N/16）的特征圖尺度，接入最大值池化層，針對將特征圖水平與豎直7等分的建議，生成7*7的輸出[17]，主要過程如圖4所示。

通過RoI興趣區(qū)域池化后，對于任意尺寸大小的圖像輸入，模型后續(xù)回歸分類的全連接層具有相同維度的輸入。

1.4回歸分類

1.4.1Softmax分類器

對RoI池化得到的區(qū)域建議特征圖，經(jīng)全連接層以3*3的卷積核遍歷特征圖，采用Softmax分類器計算類別概率向量，選取概率最大的k個向量作為候選區(qū)。對于每一類別的概率，令模型參數(shù)為，采用歸一化方法使所有概率和為1，對于所有輸入的列向量

1.4.2邊框回歸

對于圖像目標檢測的正確性，采用IoU（交并比），也稱為檢測評價函數(shù)進行度量。如圖5所示，IoU是指預測框（黑框）與真實框（紅框）交集與并集的比值。

通過邊框回歸器得到位置偏移量，使最終的回歸框更加精確，得到當前的回歸坐標值。

針對服裝的特有屬性，考慮文獻[18]中對顯著性特征的分析，調整模型并采用HOG邊緣梯度直方圖特征結合SVM分類器進行目標檢測。主要計算圖像局部區(qū)域梯度直方圖，并統(tǒng)計區(qū)域內的梯度直方圖構成特征向量。采用128*144的檢測子，nhins設置為9，結合服裝目標的顯著性檢測進行邊框修正，得到綜合考慮圖像底層HOG邊緣梯度直方圖特征與高層卷積神經(jīng)網(wǎng)絡特征的服裝圖像，輸出邊框回歸坐標值[19]。

2實驗分析

2.1實驗環(huán)境與預處理

2.1.1 實驗環(huán)境

處理器：Intel Core i5-9400F@6x 4.1GHz。

顯卡：GeForce GTX 1660 Ti。

內存：16G。

操作系統(tǒng)：ManjaroLinux環(huán)境。

開發(fā)環(huán)境：基于Pvthon3與PvTorch。

2.1.2 實驗數(shù)據(jù)集

綜合香港中文大學提供的大型公開服裝圖像數(shù)據(jù)集DeepFashion與FashionAI、某省服裝個性化定制協(xié)同創(chuàng)新中心項目積累的大量圖片，以及在各電子商務網(wǎng)站爬取的服裝圖像，得到總計325 870張服裝圖像。關聯(lián)對應的服裝類別標簽與服裝主體邊界框標注，建立大規(guī)模服裝圖像數(shù)據(jù)集，部分圖片展示如圖6所示。

考慮日常照片中的上半身照較多，鞋子出現(xiàn)較少，將研究任務選取類別主要分為上衣、下裝、裙子3大類，再細分得到24個服裝類別標簽如表l所示。對沒有標注的圖像進行人工服裝類別與目標框標注，標注圖像對應的類別與邊框。參考PASCAL VOC 2007數(shù)據(jù)集格式，生成對應的XML文件。

對于建立的大規(guī)模服裝圖像數(shù)據(jù)集，將數(shù)據(jù)集隨機分成3批，采用20萬張作為訓練集，用來進行模型訓練，6萬張作為驗證集，用來進行參數(shù)調整，得到最佳模型參數(shù)，其余部分作為測試集，用來進行模型評價[20]。

2.1.3預處理

對于實驗數(shù)據(jù)集中的服裝圖像，為減少圖像冗余信息，需進行預處理，主要進行去均值與歸一化。

去均值是指消除圖像每個數(shù)據(jù)點的平均亮度值，將輸入樣本的中心定位于坐標系原點，以去除維度對樣本的影響。對于共m個輸入樣本，維數(shù)為為，樣本圖像像素平鋪后的i個像素，則對于該像素而言，使該點像素變?yōu)?。歸一化是將像素點除以255，歸一到[O，1]區(qū)間，統(tǒng)一各維度取值范圍。

2.2實驗分析

2.2.1 目標檢測評價參數(shù)

對于目標檢測模型，通常采用能綜合考慮精確度（Pre-cision）與召回率（Recall）的平均準確率均值（mAP，MeanAverage Precision）評價模型。AP是指對某一類別識別的平均準確率，mAP則可衡量對所有類別的識別效果。mAP在0-1之間，該值越大，表示模型檢測效果越好。計算公式如下：

對于實驗模型，mAP值為0.902，具有較好的檢測效果。

2.2.2運行速度

采用FPS（Frame Per Second，每秒幀率），即模型每秒處理圖像的數(shù)量描述模型運行速度。在本實驗的硬件環(huán)境中，模型對數(shù)據(jù)集的FPS為8.9幀/秒，即一秒能夠完成對8.9張圖像的目標檢測，具有較快的檢索速度。

2.3對比實驗設計

考慮采用不同卷積神經(jīng)網(wǎng)絡進行特征提取，并進行模型檢測效果比較，得到不同模型性能對比如表2所示。

實驗結果表明，總體而言，Resnetl01與Densenet201的特征提取效果更好，但Densenet201由于深度過大，模型過于復雜，耗時遠超過其它模型，因此本文選取的Resnetl01具有最佳的綜合性能。

3 結語

本文提出一種針對服裝圖像的目標檢測方法，借助殘差神經(jīng)網(wǎng)絡的特征提取能力進行服裝圖像特征提取，通過RPN網(wǎng)絡進行候選區(qū)域生成，調整Faster R-CNN網(wǎng)絡模型，融合服裝的高層卷積特征與底層HOG特征，從而有效提高了服裝目標的檢測準確率，并具有較快的處理速度。但由于數(shù)據(jù)集中的服裝圖像目標一般為單個，缺少對多目標、多類別的魯棒性，未來考慮從該方面出發(fā)，對服裝圖像目標檢測作更深入的研究。

參考文獻：

[1]王潛.基于卷積神經(jīng)網(wǎng)絡的服裝分類與目標檢測研究[D].武漢：武漢理工大學，2017.

[2]蘭麗服裝圖像自動標注方法研究[D].北京：北京服裝學院，2017.

[3]張振煥，周彩蘭，梁媛.基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡服裝分類算法[J].計算機工程與科學，2018，40（2）：354-360.

[4]劉鵬飛視頻監(jiān)控場景中人數(shù)統(tǒng)計方法的研究與應用[D].成都：

電子科技大學，2017.

[5]黃凱奇，陳曉棠，康運鋒，等智能視頻監(jiān)控技術綜述[J].計算機學報，2015 .38（6）： 1093-1118.

[6]YAMAZAKI K. INABA M. A cloth detection method based on image

wrinkle feature for dailv assistive robots[J].MVA，2013.

[7]PAN R. GAO W，LIU J， et al. Automatic recognition ofWoven fabricpattern based on image processing and BP neural network[J] Journalof the Textile Institute， 2011，102（1）：19-30.

[8]WANG N，AI H Z，TANC F. Who hlockswho： simultaneous segmenta-tion of occluded ohjects FJl. Journal of Cnmputer Science and Tech-nology， 2013， 28（5）： 890-906.

[9]LIU Z. YAN S，LLO P. et al. Fashion landmark detection in the wild[C]. European Conference on Cnmputer Vision， 2016.

[10]LIU Z， LUO P， QIU S，et al. Deepfashion： powering rohust clothesrecngnition and retrievalM-ith rich annotations[C] Computer Vision&Pattern Recognition， 20 1 6.

[II]紀娟，秦珂，楊若瑜，基于HOG和幾何特征的服裝細節(jié)要素識別與分類[J].圖學學報，2016（1）：84-90.

[12]曹詩雨，劉躍虎，李辛昭.基于Fast R-CNN的車輛目標檢測[J].中國圖象圖形學報，2017，22（5）：671-677.

[13]王林，張鶴鶴Faster R-CNN模型在車輛檢測中的應用[J].計算機應用，2018，38（ 3）：666-670.

[14]HE K， ZHANC X. REN S， et al. Deep residual learniW for image rec-ognition[C]. Cnmputer Vision and Pattern Recognition（CVPR）， 2015.

[15]CHEN Y P， LI Y. WANG G.An enhanced region propnsal networkfor ohject detection using deep learning method[J]. PloS one， 201 8.

[16] 殷文斌卷積神經(jīng)網(wǎng)絡在遙感目標識別中的應用研究[D].北京：中國科學院大學，2017.

[17]楚翔宇.基于深度學習的交通視頻檢測及車型分類研究[D].哈爾濱：哈爾濱工業(yè)大學，2017.

[18]娜黑雅顯著區(qū)域檢測及其在服裝檢索中的應用[D].青島：中國石油大學（華東），2014.

[19]何妮.結合顯著性目標檢測與圖像分割的服飾提取算法研究及實現(xiàn)[D]成都：西南交通大學，2015.

[20]徐勝，昊新娟基于多示例學習的圖像檢索方法[J].信息技術，2014（7）：106-110

（責任編輯：黃健）

收稿日期：2019-06-03

基金項目：浙江省科技廳（重大）項目（2015C03001）

作者簡介：陳雙（1994-），男，浙江理工大學信息學院碩士研究生，研究方向為人工智能與機器學習、大數(shù)據(jù)技術與應用;何利力

（1966-），男，博士，浙江理工大學信息學院教授，研究方向為圖形圖像、人機交互、制造業(yè)信息化、企業(yè)智能、數(shù)據(jù)庫。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Faster R-cNN的服裝目標檢測改進方法