基于部件精細(xì)化分割的行人檢索方法

2020-08-07 14:43趙延

現(xiàn)代計(jì)算機(jī) 2020年18期

趙延

（北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室，北京100144）

0 引言

行人檢索是利用計(jì)算機(jī)視覺的技術(shù)和方法，在攝像頭等設(shè)備采集到的圖像數(shù)據(jù)集中，搜索目標(biāo)行人的圖像。行人檢索可以作為人臉識別的一個(gè)補(bǔ)充，當(dāng)行人圖像中缺乏有效的人臉信息時(shí)，通過識別行人圖像的非人臉信息是一個(gè)常用的檢索方法。行人檢索是一個(gè)復(fù)雜的問題，同一個(gè)行人受到多種因素干擾，如行人走路姿態(tài)、服裝穿戴、圖像清晰度等，大大提高了行人檢索的難度。

近年來，隨著深度學(xué)習(xí)的飛速發(fā)展，對于行人檢索已提出許多方法。文獻(xiàn)[1]采用了垂直分割行人圖像的方式，利用長短時(shí)記憶網(wǎng)絡(luò)提取部件特征，這種方法對行人圖像對齊有較高的要求。文獻(xiàn)[2-3]采用人體骨架關(guān)鍵點(diǎn)模型，將人體分為若干個(gè)區(qū)域，提取部件特征和全局特征，最終得到一個(gè)融合全局特征和多個(gè)尺度部件特征的行人特征。

1 基于部件精細(xì)化分割的行人檢索方法

1.1 行人對齊

在行人檢索過程中，行人所處的不同背景會影響圖像檢索的準(zhǔn)確率。采取部件特征提高識別準(zhǔn)確的前提是部件的準(zhǔn)確定位[9]，所以，行人圖像的對齊是提高識別準(zhǔn)確率的方法。文獻(xiàn)[4]提出了一種基于SP 距離自動(dòng)對齊模型，采用動(dòng)態(tài)對齊算法，可以在無額外信息的情況下自動(dòng)對齊部件特征。

1.2 行人精細(xì)化分割

行人圖像分割主要有兩種分割方式：按語義劃分成頭部、軀干、四肢等，或?qū)D像垂直劃分成多個(gè)水平橫條部件。

本文采用垂直劃分的方式，提出一種行人圖像部件的精細(xì)化分割方法，將圖像劃分為p 個(gè)水平橫條，每個(gè)水平橫條再按像素劃分成m*n 個(gè)色塊，將色塊按照顏色區(qū)分，匹配最近的同色色塊，加強(qiáng)部件內(nèi)部的一致性。通過部件池化來糾正內(nèi)部的不一致，根據(jù)各部件的相似性來分配所有列向量，為此我們需要?jiǎng)討B(tài)的對所有列向量進(jìn)行分類。使用線性層和Softmax 激活函數(shù)作為部件分類器。

1.3 部件特征提取

本文使用卷積神經(jīng)網(wǎng)絡(luò)提取特征，選擇相似性度量方法對提取的特征進(jìn)行度量，本文采用Triplet Loss[8]，Triplet Loss 是深度學(xué)習(xí)中的一種損失函數(shù)，用于訓(xùn)練差異性較小的樣本。

將進(jìn)行精細(xì)化分割處理后的p 個(gè)水平橫條通過一個(gè)傳統(tǒng)的平均池化，將p 個(gè)水平橫條在空間上進(jìn)行下采樣，得到p 個(gè)列向量gi(i=1,2,…,p)。然后通過一個(gè)1*1 的conv 卷積，降至256 維，得到p 個(gè)列向量hi(1*1*256)，并輸入到分類器中。本文經(jīng)過驗(yàn)證，將p值取為6。

1.4 多分支特征融合

得到部件特征后，將各部件特征、全局特征作為分支特征，輸入到多分支網(wǎng)絡(luò)中，得到一個(gè)增強(qiáng)的特征，提高了行人檢索的準(zhǔn)確率。多分支網(wǎng)絡(luò)如圖1 所示。

圖1 多分支網(wǎng)絡(luò)

2 實(shí)驗(yàn)與分析

實(shí)驗(yàn)環(huán)境是基于PyTorch 框架，實(shí)驗(yàn)硬件設(shè)備：

NVIDIA GeForce GTX 1060 6GB。

2.1 實(shí)驗(yàn)所用數(shù)據(jù)集與評價(jià)指標(biāo)

本文算法在Market-1501、DukeMTMC-reID 兩個(gè)數(shù)據(jù)集上進(jìn)行測試。

Market-1501[5]在清華大學(xué)校園中采集，拍攝時(shí)間為夏季。采集所用攝像頭共6 個(gè)（高清攝像頭5 個(gè)，低清攝像頭1 個(gè)），共拍攝1501 個(gè)行人、32688 個(gè)行人圖像。其中訓(xùn)練集751 人、12936 個(gè)行人圖像；測試集750 人、19732 個(gè)行人圖像。

DukeMTMC-reID[6]源自在杜克大學(xué)中8 個(gè)不同的攝像頭采集的85 分鐘高分辨率視頻，拍攝時(shí)間為冬季。從視頻中每隔120 幀采樣一張行人圖像，共1404個(gè)行人、36411 個(gè)行人圖像。其中來自702 人的16522個(gè)訓(xùn)練圖像；702 人的2228 個(gè)查詢圖像和17661 個(gè)待匹配圖像。

評價(jià)指標(biāo)有：Rank-1：指檢索結(jié)果中最靠前的一張圖是正確結(jié)果的概率，一般通過實(shí)驗(yàn)多次來取平均值。mAP：平均檢索精度，是檢索中，用于衡量精度的指標(biāo)，數(shù)值越高，檢索結(jié)果越好。

2.2 精細(xì)化分割與其他分割方法的對比

在表1 和表2 中將我們提出的方法分別在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上與已發(fā)布的方法進(jìn)行了比較。與現(xiàn)有技術(shù)相比，本文的方法取得了很好的效果。在Market-1501 測試中，Rank-1 為93.8%，mAP 為80.8%。在DukeMTMC-reID 上，Rank-1為65.1%，mAP 為55.6%。檢索結(jié)果示例如圖2 所示。

表1 Market-1501 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表2 DukeMTMC-reID 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖2 檢索結(jié)果示例

3 結(jié)語

本文采用了一種新的部件分割方法，同時(shí)采用多分支的網(wǎng)絡(luò)結(jié)構(gòu)提取圖像特征，提高了行人圖像檢索的精度。在Market-1501 和DukeMTMC-reID 兩個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn)，取得了很好的結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡