趙延
(北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100144)
行人檢索是利用計(jì)算機(jī)視覺的技術(shù)和方法,在攝像頭等設(shè)備采集到的圖像數(shù)據(jù)集中,搜索目標(biāo)行人的圖像。行人檢索可以作為人臉識別的一個(gè)補(bǔ)充,當(dāng)行人圖像中缺乏有效的人臉信息時(shí),通過識別行人圖像的非人臉信息是一個(gè)常用的檢索方法。行人檢索是一個(gè)復(fù)雜的問題,同一個(gè)行人受到多種因素干擾,如行人走路姿態(tài)、服裝穿戴、圖像清晰度等,大大提高了行人檢索的難度。
近年來,隨著深度學(xué)習(xí)的飛速發(fā)展,對于行人檢索已提出許多方法。文獻(xiàn)[1]采用了垂直分割行人圖像的方式,利用長短時(shí)記憶網(wǎng)絡(luò)提取部件特征,這種方法對行人圖像對齊有較高的要求。文獻(xiàn)[2-3]采用人體骨架關(guān)鍵點(diǎn)模型,將人體分為若干個(gè)區(qū)域,提取部件特征和全局特征,最終得到一個(gè)融合全局特征和多個(gè)尺度部件特征的行人特征。
在行人檢索過程中,行人所處的不同背景會影響圖像檢索的準(zhǔn)確率。采取部件特征提高識別準(zhǔn)確的前提是部件的準(zhǔn)確定位[9],所以,行人圖像的對齊是提高識別準(zhǔn)確率的方法。文獻(xiàn)[4]提出了一種基于SP 距離自動(dòng)對齊模型,采用動(dòng)態(tài)對齊算法,可以在無額外信息的情況下自動(dòng)對齊部件特征。
行人圖像分割主要有兩種分割方式:按語義劃分成頭部、軀干、四肢等,或?qū)D像垂直劃分成多個(gè)水平橫條部件。
本文采用垂直劃分的方式,提出一種行人圖像部件的精細(xì)化分割方法,將圖像劃分為p 個(gè)水平橫條,每個(gè)水平橫條再按像素劃分成m*n 個(gè)色塊,將色塊按照顏色區(qū)分,匹配最近的同色色塊,加強(qiáng)部件內(nèi)部的一致性。通過部件池化來糾正內(nèi)部的不一致,根據(jù)各部件的相似性來分配所有列向量,為此我們需要?jiǎng)討B(tài)的對所有列向量進(jìn)行分類。使用線性層和Softmax 激活函數(shù)作為部件分類器。
本文使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,選擇相似性度量方法對提取的特征進(jìn)行度量,本文采用Triplet Loss[8],Triplet Loss 是深度學(xué)習(xí)中的一種損失函數(shù),用于訓(xùn)練差異性較小的樣本。
將進(jìn)行精細(xì)化分割處理后的p 個(gè)水平橫條通過一個(gè)傳統(tǒng)的平均池化,將p 個(gè)水平橫條在空間上進(jìn)行下采樣,得到p 個(gè)列向量gi(i=1,2,…,p)。然后通過一個(gè)1*1 的conv 卷積,降至256 維,得到p 個(gè)列向量hi(1*1*256),并輸入到分類器中。本文經(jīng)過驗(yàn)證,將p值取為6。
得到部件特征后,將各部件特征、全局特征作為分支特征,輸入到多分支網(wǎng)絡(luò)中,得到一個(gè)增強(qiáng)的特征,提高了行人檢索的準(zhǔn)確率。多分支網(wǎng)絡(luò)如圖1 所示。
圖1 多分支網(wǎng)絡(luò)
實(shí)驗(yàn)環(huán)境是基于PyTorch 框架,實(shí)驗(yàn)硬件設(shè)備:
NVIDIA GeForce GTX 1060 6GB。
本文算法在Market-1501、DukeMTMC-reID 兩個(gè)數(shù)據(jù)集上進(jìn)行測試。
Market-1501[5]在清華大學(xué)校園中采集,拍攝時(shí)間為夏季。采集所用攝像頭共6 個(gè)(高清攝像頭5 個(gè),低清攝像頭1 個(gè)),共拍攝1501 個(gè)行人、32688 個(gè)行人圖像。其中訓(xùn)練集751 人、12936 個(gè)行人圖像;測試集750 人、19732 個(gè)行人圖像。
DukeMTMC-reID[6]源自在杜克大學(xué)中8 個(gè)不同的攝像頭采集的85 分鐘高分辨率視頻,拍攝時(shí)間為冬季。從視頻中每隔120 幀采樣一張行人圖像,共1404個(gè)行人、36411 個(gè)行人圖像。其中來自702 人的16522個(gè)訓(xùn)練圖像;702 人的2228 個(gè)查詢圖像和17661 個(gè)待匹配圖像。
評價(jià)指標(biāo)有:Rank-1:指檢索結(jié)果中最靠前的一張圖是正確結(jié)果的概率,一般通過實(shí)驗(yàn)多次來取平均值。mAP:平均檢索精度,是檢索中,用于衡量精度的指標(biāo),數(shù)值越高,檢索結(jié)果越好。
在表1 和表2 中將我們提出的方法分別在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上與已發(fā)布的方法進(jìn)行了比較。與現(xiàn)有技術(shù)相比,本文的方法取得了很好的效果。在Market-1501 測試中,Rank-1 為93.8%,mAP 為80.8%。在DukeMTMC-reID 上,Rank-1為65.1%,mAP 為55.6%。檢索結(jié)果示例如圖2 所示。
表1 Market-1501 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表2 DukeMTMC-reID 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
圖2 檢索結(jié)果示例
本文采用了一種新的部件分割方法,同時(shí)采用多分支的網(wǎng)絡(luò)結(jié)構(gòu)提取圖像特征,提高了行人圖像檢索的精度。在Market-1501 和DukeMTMC-reID 兩個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn),取得了很好的結(jié)果。