熊 煒,楊荻椿,艾美慧,李 敏,李利榮
(1.湖北工業(yè)大學(xué)電氣與電子工程學(xué)院,湖北 武漢 430068;2.美國(guó)南卡羅來(lái)納大學(xué)計(jì)算機(jī)科學(xué)與工程系,南卡 哥倫比亞 29201)
近年來(lái)智能安防建設(shè)快速發(fā)展,人們對(duì)監(jiān)控視頻處理的要求日益提高,依靠人臉、指紋等生物特征進(jìn)行重識(shí)別顯得十分困難,此時(shí)行人重識(shí)別Person ReID(Person Re-IDentification)技術(shù)成為了一個(gè)重要的替代品。行人重識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門研究課題,意指在跨攝像頭的情況下檢索特定行人圖像。目前該項(xiàng)技術(shù)的識(shí)別能力已經(jīng)超越了人類本身[1],但是仍然存在以下困難:在拍攝過(guò)程中攝像頭參數(shù)、拍攝環(huán)境和行人姿態(tài)的變化容易造成所拍攝行人圖像質(zhì)量低劣的問(wèn)題。如何應(yīng)對(duì)這些挑戰(zhàn),是當(dāng)前研究的首要任務(wù)。
行人重識(shí)別研究主要分為基于傳統(tǒng)方法和基于深度學(xué)習(xí)方法2類[2]。
傳統(tǒng)的行人重識(shí)別從特征表達(dá)和距離度量學(xué)習(xí)2個(gè)方面進(jìn)行研究?;谔卣鞅磉_(dá)的方法重點(diǎn)在于設(shè)計(jì)魯棒、可靠的行人圖像特征外觀模型,即能夠區(qū)分不同行人同時(shí)又不受光照和視角變化的影響。2005年Zajdel等人[3]公開(kāi)描述了行人重識(shí)別的概念。2006年Gheissari等人[4]首次在計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上提出利用H-S直方圖和邊緣直方圖提取行人特征,至此行人重識(shí)別正式進(jìn)入研究階段。Hamdoun等人[5]提出在一定時(shí)間間隔的視頻序列上提取相同區(qū)域的特征點(diǎn)用來(lái)表示行人外觀變化。Gray等人[6]利用RGB、HSV、YCbCr顏色通道和亮度紋理通道提取被分割為3個(gè)部分的行人圖像特征。Farenzena等人[7]根據(jù)行人結(jié)構(gòu)的對(duì)稱性將圖像分割為不同區(qū)域,并提取每個(gè)區(qū)域的累積顏色特征和紋理特征。而基于距離度量學(xué)習(xí)的方法則關(guān)注的是找到有效的行人特征相似度的度量標(biāo)準(zhǔn),即通過(guò)度量學(xué)習(xí)的方法獲得新的距離度量空間,使得同一行人不同圖像的特征距離小于不同行人之間的距離。研究學(xué)者[8-10]基于歐氏距離、馬氏距離等距離度量函數(shù)提出不同的度量方法,皆旨在優(yōu)化行人樣本之間的距離。但是,這些傳統(tǒng)方法的行人重識(shí)別性能不佳[11],只適用于小型數(shù)據(jù)集,難以勝任實(shí)際運(yùn)用。
隨著深度學(xué)習(xí)時(shí)代的來(lái)臨,研究人員開(kāi)始運(yùn)用深度學(xué)習(xí)進(jìn)行行人重識(shí)別[12]。卷積神經(jīng)網(wǎng)絡(luò)(CNN)強(qiáng)大的特征提取能力和學(xué)習(xí)能力使基于深度學(xué)習(xí)的行人重識(shí)別取得了階段性的進(jìn)步,基本取代了傳統(tǒng)方法。Geng等人[13]使用預(yù)訓(xùn)練好的GoogleNet提取全局特征,將分類損失函數(shù)和驗(yàn)證損失函數(shù)結(jié)合用于訓(xùn)練網(wǎng)絡(luò),實(shí)驗(yàn)證明了使用遷移獲得的預(yù)訓(xùn)練網(wǎng)絡(luò)可以大幅提升識(shí)別效果。大量學(xué)者[14-16]通過(guò)人工對(duì)數(shù)據(jù)集增加屬性標(biāo)簽,利用屬性標(biāo)簽中的額外信息和行人特征互補(bǔ)提升模型性能。然而,以全局特征為主的行人重識(shí)別很快進(jìn)入了瓶頸階段,學(xué)術(shù)界意識(shí)到需要引入行人圖像中的局部特征進(jìn)行識(shí)別[17]。Wei等人[18]設(shè)計(jì)了基于全局特征和局部特征對(duì)齊的特征描述子GLAD(Global-Local-Alignment Descriptor),將行人的全局特征和局部特征(頭、上身、下身)融合進(jìn)行特征表征。Zheng等人[19]針對(duì)行人圖像不對(duì)齊現(xiàn)象,通過(guò)使用姿態(tài)估計(jì)模型得到局部骨架關(guān)鍵點(diǎn)進(jìn)行語(yǔ)義部件對(duì)齊,從而提取局部特征。Zhao等人[20]提出了Spindle Net,同樣是通過(guò)姿態(tài)信息提取行人骨架點(diǎn),然后根據(jù)這些點(diǎn)將行人劃分為7個(gè)區(qū)域,最后與全局特征相融合。Zhang等人[21]提出了密集語(yǔ)義對(duì)齊的網(wǎng)絡(luò)框架,首先將行人圖像分為24個(gè)語(yǔ)義區(qū)域并映射到UV空間,獲得密集語(yǔ)義對(duì)齊的24個(gè)身體部分圖像,然后將所提取的全局特征和局部特征進(jìn)行融合。但是,使用姿態(tài)估計(jì)需要用到在其他數(shù)據(jù)集上已經(jīng)預(yù)訓(xùn)練好的模型,會(huì)引入數(shù)據(jù)誤差,增加網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度。于是Sun等人[22]將圖像統(tǒng)一進(jìn)行均勻分塊,對(duì)每一塊采用一個(gè)損失函數(shù)訓(xùn)練,考慮到統(tǒng)一分塊可能出現(xiàn)語(yǔ)義部分不對(duì)齊的現(xiàn)象,提出了RPP(Refined Part Pooling)策略,最終將所有局部特征組合成全局特征,得到的評(píng)價(jià)指標(biāo)刷新了歷史記錄。Li等人[23]提出了協(xié)調(diào)注意力網(wǎng)絡(luò)HA-CNN(Harmonious Attention Convolution Neural Network),通過(guò)多條分支學(xué)習(xí)具有判別度的像素和特征區(qū)域,并引入了交叉感知學(xué)習(xí)機(jī)制,最后將各分支特征進(jìn)行融合。雖然上述方法的識(shí)別效果已經(jīng)有了一定提升,但是忽略了使用低層可識(shí)別性語(yǔ)義信息,并且網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜。
為了彌補(bǔ)已有行人重識(shí)別方法不能利用有效特征信息進(jìn)行識(shí)別、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的缺陷,本文提出了一種多支路特征融合的網(wǎng)絡(luò)模型。選用SE-ResNeXt50[24]作為基礎(chǔ)骨干網(wǎng)絡(luò),將3個(gè)不同的卷積塊(其中包括1個(gè)低層卷積塊)分別接出1條支路,采用通道域注意力模型CAM(Channel Attention Model)[25]加強(qiáng)語(yǔ)義關(guān)聯(lián)特征通道聚集,為提取高細(xì)粒度特征,采用批特征擦除BFE(Batch Feature Erasing)[26],并且對(duì)不同卷積層采用不同的正則化方法。距離度量時(shí),本文采用了聚類損失函數(shù)[27]。本文所提網(wǎng)絡(luò)模型在Market1501、DukeMTMC-reID、CUHK03和MSMT17數(shù)據(jù)集上進(jìn)行了單域和跨域?qū)嶒?yàn),結(jié)果表明所提取的特征具有良好的表征能力和泛化能力。
本文提出的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示,由骨干網(wǎng)絡(luò)和3個(gè)分支網(wǎng)絡(luò)(Branch1,Branch2,Branch3)構(gòu)成,其中,f1,f2,f3為行人特征向量。骨干網(wǎng)絡(luò)采用了SE-ResNeXt50網(wǎng)絡(luò);Branch1由CAM[25]、實(shí)例和批量正則化IBN(Instance and Batch Normalization)[28]和全局平均池化GAP(Global Average Pooling)組成;Branch2由GAP組成;Branch3由批標(biāo)準(zhǔn)正則化BN(Batch Normalization)、BFE[26]和全局最大池化GMP(Global Max Pooling)組成。最后將3個(gè)分支網(wǎng)絡(luò)所輸出的特征f1,f2和f3進(jìn)行融合,融合特征f用于行人分類。
Figure 1 Structure of the proposed network model
SE-ResNeXt50網(wǎng)絡(luò)是2017年ImageNet奪冠模型SENet[24]和殘差模型ResNeXt[29]的結(jié)合,它通過(guò)自動(dòng)學(xué)習(xí)特征通道權(quán)重參數(shù)的機(jī)制和多支路卷積的設(shè)計(jì)提升了識(shí)別效果。本文對(duì)SE-ResNeXt50進(jìn)行了如下修改:(1)移除網(wǎng)絡(luò)最后的池化層和全連接層;(2)將conv_5中的下采樣步長(zhǎng)從2變?yōu)?。分支網(wǎng)絡(luò)Branch1首先將SE-ResNeXt50的第3個(gè)卷積塊conv_3輸出的特征引出,雖然低層卷積所提取的特征在通道上語(yǔ)義相關(guān)性較高,但是這些通道關(guān)聯(lián)并不緊湊,故加入CAM對(duì)語(yǔ)義相似的通道進(jìn)行聚合;然后通過(guò)1×1卷積進(jìn)行升維處理,同時(shí)為了消除不同行人的外觀特征差異和增強(qiáng)模型泛化能力,采用IBN分別對(duì)每幅行人圖像和批量行人圖像聯(lián)合進(jìn)行歸一化處理;最后通過(guò)GAP得到特征f1,f1大小為1×1×2048。分支網(wǎng)絡(luò)Branch2是把SE-ResNeXt50的第5個(gè)卷積塊conv_5輸出的全局特征通過(guò)GAP得到特征f2,f2大小為1×1×2048,該分支用于監(jiān)督Branch1和Branch3學(xué)習(xí)。分支網(wǎng)絡(luò)Branch3首先將SE-ResNeXt50的第4個(gè)卷積塊conv_4輸出的特征引出,通過(guò)1×1卷積進(jìn)行升維處理,但是Branch1中采用實(shí)例正則化IN(Instance Normalization)[30]消除不同外觀行人的個(gè)體特征差異的同時(shí),也丟失了不同行人之間可識(shí)別的相關(guān)特征信息,故采用BN進(jìn)行歸一化處理,保留不同行人特征的差異性,使得Branch1和Branch3互補(bǔ)學(xué)習(xí);然后加入BFE,隨機(jī)把同一批量行人特征圖的相同語(yǔ)義部分區(qū)域的值全部置為零,目的是為了讓網(wǎng)絡(luò)注重學(xué)習(xí)其它更加具有辨別性的特征信息;最后通過(guò)GMP增強(qiáng)特征擦除后學(xué)習(xí)到的顯著局部特征,加快模型收斂速度[26],得到特征f3,f3大小為1×1×2048。將經(jīng)過(guò)尺度統(tǒng)一后的3個(gè)分支特征f1、f2和f3融合,得到特征f,f大小為1×1×2048,然后通過(guò)Softmax函數(shù)進(jìn)行分類。運(yùn)用聚類損失函數(shù)[27]和標(biāo)簽平滑損失函數(shù)[31]訓(xùn)練該網(wǎng)絡(luò)模型,3個(gè)分支網(wǎng)絡(luò)聯(lián)合學(xué)習(xí),相互監(jiān)督。
所謂注意力機(jī)制一般來(lái)說(shuō)就是卷積網(wǎng)絡(luò)首先快速瀏覽行人圖像的全局信息,獲得重點(diǎn)關(guān)注的分類信息區(qū)域;然后投入更多注意力到重點(diǎn)關(guān)注區(qū)域,以提取可辨別性特征,去除干擾信息。由于低層卷積提取的特征更多是局部底層粗略信息,高層卷積提取的特征更多的是全局語(yǔ)義信息,因此只有低層卷積提取出準(zhǔn)確的邊緣信息,高層卷積才能更好地獲得完整行人特征。本文所用的骨干網(wǎng)絡(luò)SE-ResNeXt50的低層卷積所提取特征注重行人粗略的語(yǔ)義部分(如頭手等明顯的部分),并且隨著網(wǎng)絡(luò)深度的加深,這些有關(guān)聯(lián)的特征通道是分散的,并不能有效表征相關(guān)語(yǔ)義信息,為充分利用邊緣特征信息,本文對(duì)conv_3輸出的特征圖M加入注意力機(jī)制。CAM[25]將具有相似語(yǔ)義信息的特征通道聚類,增強(qiáng)了特征的識(shí)別性。
本文所采用的通道域注意力模型如圖2所示,其中,特征圖M∈RH×W×C,H和W分別表示特征圖的高度和寬度,C表示通道數(shù);Mci表示第i個(gè)通道的特征矩陣;關(guān)系矩陣Ecicj∈RH×W表示第j個(gè)通道對(duì)第i個(gè)通道的關(guān)聯(lián)度;M′ci表示M′中第i個(gè)通道的特征矩陣;M′表示通過(guò)CAM聚類語(yǔ)義相關(guān)通道后的特征圖。
Figure 2 Schematic diagram of CMA model
關(guān)系矩陣Ecicj的計(jì)算如式(1)所示:
(1)
特征矩陣M′ci的計(jì)算如式(2)所示:
(2)
其中,γ是超參數(shù),控制CAM的影響力大小。
特征圖M′由各通道特征矩陣M′ci拼接可得。
分類問(wèn)題中常使用批量正則化BN,BN對(duì)每一批量圖像進(jìn)行歸一化以保證數(shù)據(jù)分布的一致性,但是行人重識(shí)別數(shù)據(jù)集是從不同攝像頭拍攝得到的,網(wǎng)絡(luò)所提取的同一行人特征會(huì)隨光照、視角等因素的變化而變化,導(dǎo)致所做的正則化處理不能代表整體數(shù)據(jù)分布,會(huì)出現(xiàn)類內(nèi)(Within-class)行人之間的度量距離大于類間(Between-classes)行人的情況。實(shí)例正則化IN常用于圖像風(fēng)格遷移中,可保留圖像的風(fēng)格信息,還可以加速模型收斂速度。而在行人重識(shí)別中注重保持不同行人圖像之間實(shí)例獨(dú)立,故可采用IN解決數(shù)據(jù)分布不統(tǒng)一的問(wèn)題。但是,Pan等人[28]指出IN在降低圖像外觀差異的同時(shí),會(huì)損失相關(guān)特征信息,BN在保存圖像可識(shí)別特征的同時(shí),會(huì)對(duì)網(wǎng)絡(luò)處理外觀信息時(shí)產(chǎn)生影響,于是提出IBN-Net,聯(lián)合使用IN和BN提升了模型的表征能力和泛化能力。IN和BN的本質(zhì)區(qū)別在于,IN是將單幅圖像的單個(gè)通道通過(guò)計(jì)算均值、方差進(jìn)行標(biāo)準(zhǔn)正態(tài)分布,BN是將整個(gè)批量圖像的同一通道通過(guò)計(jì)算均值、方差進(jìn)行標(biāo)準(zhǔn)正態(tài)分布。式(3)列舉了IN和BN中計(jì)算均值μ的區(qū)別。
(3)
其中,H和W分別表示圖像的高度和寬度,B表示批量圖像數(shù)量,xjk表示圖像中第j行、第k列像素的像素值,xjkm表示第m幅圖像中第i行、第j列像素的像素值。
由于IBN可以充分利用IN和BN的優(yōu)勢(shì),同時(shí)將劣勢(shì)互補(bǔ),極大增強(qiáng)了模型識(shí)別能力,故本文在Branch1中使用IBN代替BN,如圖3所示,對(duì)特征圖M′經(jīng)過(guò)升維處理后進(jìn)行IBN正則化,其中一半通道使用IN,另一半通道使用BN。
Figure 3 Schematic diagram of IBN
Branch1和Branch2這2個(gè)分支網(wǎng)絡(luò)均是提取全局特征,存在著可判別性特征缺乏的問(wèn)題,近年來(lái)有研究者證明了特征融合方法的有效性[18-21]。故本文通過(guò)批特征擦除BFE提取局部特征與全局特征進(jìn)行特征融合。批特征擦除BFE[26]采用極其簡(jiǎn)單的機(jī)制達(dá)到了較高的識(shí)別效果,即隨機(jī)擦除同一訓(xùn)練批次特征圖的相同區(qū)域,這一區(qū)域應(yīng)能夠包含一個(gè)語(yǔ)義部分特征,從而達(dá)到網(wǎng)絡(luò)更加注重學(xué)習(xí)剩余特征的目的。BFE首先根據(jù)設(shè)置擦除的矩形高度比he和寬度比we計(jì)算擦除矩形區(qū)域的高HBFE和寬WBFE,如式(4)所示:
HBFE=H×he
WBFE=W×we
(4)
其中,H和W分別表示特征圖的高度和寬度。
假設(shè)隨機(jī)選擇矩形的1個(gè)頂點(diǎn)坐標(biāo)為p1(x,y),其中,x∈(0,H-HBFE),y∈(0,W-WBFE),則另外3個(gè)頂點(diǎn)坐標(biāo)分別為p2(x,y+WBFE)、p3(x+HBFE,y)、p4(x+HBFE,y+WBFE),然后將矩形區(qū)域像素的像素值全部置為零。
本文所提網(wǎng)絡(luò)模型采用聚類損失函數(shù)[27]和標(biāo)簽平滑損失函數(shù)[31]聯(lián)合訓(xùn)練。聚類損失函數(shù)可以在距離度量中輸出行人圖像之間更大的類間變化距離和更小的類內(nèi)變化距離。如式(5)所示,聚類損失函數(shù)類似于三元組損失函數(shù),與其相比,聚類損失函數(shù)在其基礎(chǔ)上度量目標(biāo)行人與正負(fù)樣本之間的距離是通過(guò)各類樣本集合的特征映射平均值計(jì)算的。
(5)
交叉熵?fù)p失函數(shù)[32]是常見(jiàn)的分類損失函數(shù),但在行人重識(shí)別數(shù)據(jù)集中,訓(xùn)練集數(shù)量有限,容易造成模型過(guò)擬合,因此希望網(wǎng)絡(luò)模型不要過(guò)度依賴真實(shí)標(biāo)簽,能夠接受少量的錯(cuò)誤標(biāo)簽,提升泛化能力。如式(6)所示,給定錯(cuò)誤率ε,對(duì)行人標(biāo)簽實(shí)施平滑處理(Label Smoothing)[31]。
(6)
其中,K為行人數(shù)量總和,k是行人標(biāo)簽,pi是網(wǎng)絡(luò)預(yù)測(cè)該行人屬于標(biāo)簽i行人的概率,qi是真?zhèn)螛?biāo)簽。
因此,本文采用的聯(lián)合損失函數(shù)Lloss如式(7)所示,2個(gè)損失函數(shù)不同的優(yōu)化目標(biāo)會(huì)共同約束特征,學(xué)習(xí)更多具有識(shí)別性的特征。
Lloss=Lcluster+Llabel
(7)
為驗(yàn)證本文所提網(wǎng)絡(luò)模型的有效性,分別在Market1501、CUHK03、DukeMTMC-reID和MSMT17共4個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),使用Rank-1、Rank-5和mAP作為評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估。
Market1501數(shù)據(jù)集[33]是由6個(gè)不同視角攝像頭在清華大學(xué)校園所采集的共1 501個(gè)行人32 668幅DPM檢測(cè)器自動(dòng)檢測(cè)并切割成矩形框的行人圖像,其中,訓(xùn)練集由751個(gè)行人的12 936幅圖像組成,測(cè)試集由750個(gè)行人的19 732幅圖像組成。
DukeMTMC-reID[34]是DukeMTMC數(shù)據(jù)集的子集,它由8個(gè)不同視角攝像頭在杜克大學(xué)校園所采集的圖像構(gòu)成,共有1 812個(gè)行人36 441幅人工檢測(cè)的圖像,并提供了行人屬性的標(biāo)記,其中,訓(xùn)練集由702個(gè)行人的16 522幅圖像組成,測(cè)試集由702個(gè)行人的19 889幅圖像組成;在gallery查詢集中加入了額外的408個(gè)干擾行人。
CUHK03[35]是2014年以來(lái)第1個(gè)可用于深度學(xué)習(xí)訓(xùn)練的大規(guī)模行人重識(shí)別數(shù)據(jù)集,它由10個(gè)(5對(duì))不同視角攝像頭在香港中文大學(xué)校園所采集的圖像構(gòu)成,共有1 467個(gè)行人14 097幅圖像,并提供了DPM檢測(cè)器檢測(cè)和人工檢測(cè)2個(gè)類型數(shù)據(jù)集。本實(shí)驗(yàn)采用了基于DPM檢測(cè)器獲取的檢測(cè)數(shù)據(jù)集和文獻(xiàn)[37]所提的測(cè)試協(xié)議,將數(shù)據(jù)集分為:訓(xùn)練集(767個(gè)行人)和測(cè)試集(700個(gè)行人)。
MSMT17[36]是2018年CVPR會(huì)議上提出的大型數(shù)據(jù)集,它是由15個(gè)攝像頭(12個(gè)室外、3個(gè)室內(nèi))在北京大學(xué)所采集的圖像構(gòu)成,采集是在不同氣候條件、不同時(shí)間段進(jìn)行的,共有4 101個(gè)行人126 441幅Faster RCNN檢測(cè)器檢測(cè)所得行人圖像,其中訓(xùn)練集由1 041個(gè)行人的32 621幅圖像組成;測(cè)試集由3 060人的93 820幅圖像組成。
本文實(shí)驗(yàn)環(huán)境為64位Ubuntu16.04操作系統(tǒng),Python3.6、Pytorch1.0.1、iGame GeForce RTX 2070顯卡、64 GB內(nèi)存。
在數(shù)據(jù)集預(yù)處理階段,所有圖像尺度統(tǒng)一為258×128,并通過(guò)翻轉(zhuǎn)、隨機(jī)遮擋等操作對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng)處理。共設(shè)置100次迭代,每個(gè)訓(xùn)練批次大小為32(8個(gè)行人,每個(gè)行人有4幅圖像)。優(yōu)化器采用Adam,初始學(xué)習(xí)率為3.5×10-4。
本文所提網(wǎng)絡(luò)模型的骨干網(wǎng)絡(luò)是SE-ResNeXt50,初始權(quán)重參數(shù)是利用ImageNet預(yù)訓(xùn)練好的。為驗(yàn)證所選骨干網(wǎng)絡(luò)的性能,分別以ResNet50、SE-ResNet50和SE-ResNeXt50作為骨干網(wǎng)絡(luò)在Market1501上進(jìn)行實(shí)驗(yàn),訓(xùn)練過(guò)程中僅使用了Branch2,實(shí)驗(yàn)結(jié)果如表1所示。從表1中可以發(fā)現(xiàn),雖然SE-ResNeXt50網(wǎng)絡(luò)訓(xùn)練時(shí)間最長(zhǎng),但在Rank-1和mAP指標(biāo)上均有明顯優(yōu)勢(shì),且訓(xùn)練時(shí)間僅比ResNet50多0.21 h,表明選用SE-ResNeXt50網(wǎng)絡(luò)可以更有效地提升網(wǎng)絡(luò)模型性能。
Table 1 Comparison experiments of backbone networks on Market1501
為驗(yàn)證所提模型中每個(gè)分支網(wǎng)絡(luò)的效果,首先依次對(duì)每個(gè)分支網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),即每個(gè)實(shí)驗(yàn)中只有1個(gè)分支網(wǎng)絡(luò)。然后進(jìn)行了2個(gè)分支網(wǎng)絡(luò)的實(shí)驗(yàn),即每個(gè)實(shí)驗(yàn)中只有2個(gè)分支網(wǎng)絡(luò)。最后進(jìn)行3個(gè)分支網(wǎng)絡(luò)的實(shí)驗(yàn),即實(shí)驗(yàn)中有3個(gè)分支網(wǎng)絡(luò)。分別在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。通過(guò)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):主干路Branch2是單個(gè)分支網(wǎng)絡(luò)實(shí)驗(yàn)中識(shí)別效果最好的;在2個(gè)分支網(wǎng)絡(luò)實(shí)驗(yàn)中,由Branch2組合的分支網(wǎng)絡(luò)評(píng)價(jià)指標(biāo)Rank-1和mAP均有大幅提升;當(dāng)3個(gè)分支網(wǎng)絡(luò)同時(shí)加入模型時(shí),在Market1501上Rank-1達(dá)到了95.1%,mAP達(dá)到了86.8%,在DukeMTMC-reID上Rank-1達(dá)到了89.6%,mAP達(dá)到了79.1%,最為明顯的在CUHK03上,Rank-1高達(dá)76.6%,mAP高達(dá)72.8%,在MSMT17上,Rank-1和mAP分別達(dá)到了80.2%和56.6%,這表明主干路Branch2所提取的全局特征是具有高表征能力的特征,3個(gè)分支網(wǎng)絡(luò)相互監(jiān)督學(xué)習(xí),共同提升模型性能。
在Branch1中,CAM模型是為了將相關(guān)語(yǔ)義部分的特征通道進(jìn)行聚類,從而增加特征信息,IBN正則化是為了提升特征表征能力和泛化能力,為了驗(yàn)證其有效性,在4個(gè)數(shù)據(jù)集上保持Branch2和Branch3不變的情況下,分別進(jìn)行以下實(shí)驗(yàn):(1)移除CAM;(2)用BN代替IBN。實(shí)驗(yàn)結(jié)果表明,在4個(gè)數(shù)據(jù)集上模型均有相似的提升效果,表3只展示了在Market1501上的結(jié)果,可以發(fā)現(xiàn)加入CAM模型后,Rank-1提高0.9%,mAP提高了1.5%;IBN正則化將模型的Rank-1和mAP分別提高了0.5%和1.3%。
在Branch3中,批特征擦除BFE對(duì)同一批次的特征圖隨機(jī)擦除一個(gè)明顯語(yǔ)義部分,加強(qiáng)模型對(duì)其余可辨性特征的學(xué)習(xí),并且可以防止過(guò)擬合現(xiàn)象的發(fā)生。為了驗(yàn)證其有效性,在4個(gè)數(shù)據(jù)集上保持Branch1和Branch2不變的情況下,進(jìn)行有無(wú)BFE對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在4個(gè)數(shù)據(jù)集上模型均有相似的性能提升,表4只展示了在Market1501上的結(jié)果,在加入BFE后,Rank-1和mAP分別提高了1.5%和2.9%。
Table 2 Experiments of different branches combinations
Table 3 Effectiveness experiments of CAM and IBN
Table 4 Comparison experiments of BFE
Re-ranking[37]測(cè)試技巧是通過(guò)對(duì)行人特征向量K-reciprocal編碼后進(jìn)行杰卡德距離計(jì)算,然后將該距離與原始距離組合度量圖像之間的距離,重新排序行人圖像,可以提升模型性能。在測(cè)試本文所提模型時(shí)加入了Re-ranking,實(shí)驗(yàn)結(jié)果如表5所示,在3個(gè)數(shù)據(jù)集上評(píng)價(jià)指標(biāo)均有大幅提升,其中在CUHK03上,Rank-1達(dá)到了85.4%,mAP達(dá)到了87.6%。
Table 5 Experiments of Re-ranking test technique
在MSMT17上進(jìn)行測(cè)試時(shí),由于顯存不足,未得出實(shí)驗(yàn)結(jié)果,表9同理。
本節(jié)對(duì)深層卷積網(wǎng)絡(luò)所提取的行人特征進(jìn)行了映射,如圖4所示。
Figure 4 Mapping of person features
從圖4中可以看出,SE-ResNeXt50網(wǎng)絡(luò)低層網(wǎng)絡(luò)提取了行人輪廓,高層網(wǎng)絡(luò)提取了相關(guān)可辨別性特征(如手提包),再次說(shuō)明了所選取骨干網(wǎng)絡(luò)的高性能。
行人圖像查詢結(jié)果可視化結(jié)果如圖5所示。第1列為查詢圖像,后10列為查詢結(jié)果排序圖像,其中黑色邊框表示錯(cuò)誤識(shí)別,無(wú)色邊框表示正確識(shí)別,可以發(fā)現(xiàn)對(duì)對(duì)有完整行人正面的查詢圖像所獲得的查詢結(jié)果更加精確,但是對(duì)有遮攔、行人背面的查詢圖像所獲得的查詢結(jié)果前5個(gè)識(shí)別圖像基本準(zhǔn)確。再次驗(yàn)證本文所提的行人重識(shí)別模型具有較好的識(shí)別效果。
Figure 5 Visualization of the query results
為了驗(yàn)證本文所提模型的優(yōu)越性,將其與近年來(lái)的主流模型進(jìn)行了比較,表6~表10分別展示了在Market1501、DukeMTMC-reID、CUHK03、MSMT17和跨數(shù)據(jù)集上測(cè)試的評(píng)價(jià)指標(biāo)對(duì)比結(jié)果。
表6所示為本文所提模型在Market1501數(shù)據(jù)集上與主流模型(CamStyle[38]、HA-CNN[23]、AlignedReID[1]、HSP[39]、PCB+RPP[22]、BFE[26]、DG-Net[40]和Bag Trick[41])的比較結(jié)果。與目前較優(yōu)模型DG-Net[40]相比(未加Re-ranking),Rank-1和mAP分別提高了0.3%和0.8%。
表7所示為本文所提模型在DukeMTMC-reID數(shù)據(jù)集上與主流模型的比較結(jié)果。從表7中可以看出,ABD-Net[25]是目前性能較好的模型,本文在該模型基礎(chǔ)上只引用了CAM,大大降低了模型復(fù)雜度,但是Rank-1和mAP分別提高了0.6%和0.5%。
表8所示為本文所提模型在CUHK03數(shù)據(jù)集上與主流模型的比較結(jié)果。本文所提模型的Rank-1和mAP分別達(dá)到了76.6%和73.2%,性能明顯高于多數(shù)模型,加入Re-ranking后,Rank-1和mAP可以達(dá)到85.4%和87.6%。
Table 6 Performance comparison of mainstream models on Market1501
Table 7 Performance comparison of mainstream models on DukeMTMC-reID
表9所示為本文所提模型在MSMT17數(shù)據(jù)集上與主流模型的比較結(jié)果。MSMT17是一個(gè)更加接近實(shí)際情況的大型數(shù)據(jù)集,但是本文所提模型依然取得了較好的結(jié)果,Rank-1和mAP分別比DG-Net[40]提高了3%和4.3%,表明了本文所提模型對(duì)處理大數(shù)據(jù)集的優(yōu)越性。
Table 8 Performance comparison of mainstream models on CUHK03
Table 9 Performance comparison of mainstream models on MSMT17
為了驗(yàn)證網(wǎng)絡(luò)模型的泛化能力,本節(jié)還進(jìn)行了跨域測(cè)試的實(shí)驗(yàn),結(jié)果如表10所示,表10中M、D、C分別代表Market1501、DukeMTMC-reID、CUHK03,箭頭(‘→’)左邊字母代表訓(xùn)練集,右邊字母代表測(cè)試集??梢园l(fā)現(xiàn)所提模型在跨域測(cè)試中Rank-1和mAP最高只能達(dá)到62.5%和34.4%,相比其他模型Rank-1最高可提高0.3%,mAP最高可提高1.3%,也存在性能低于其他模型的現(xiàn)象。分析原因可知,行人重識(shí)別的數(shù)據(jù)集中訓(xùn)練集和測(cè)試集是不相交的,而且各數(shù)據(jù)間的風(fēng)格差異頗大,比如Market1501中行人穿著基本是短袖和短褲,而DukeMTMC-reID中行人穿著基本是外套和長(zhǎng)褲,導(dǎo)致模型跨域表現(xiàn)不佳。實(shí)驗(yàn)結(jié)果表明本文所提模型的泛化能力在一定程度上有所提升,但是總體識(shí)別能力有待進(jìn)一步提高。
Table 10 Performance comparison of mainstream models on the cross-domain condition
同時(shí),本文還在Market1501上對(duì)模型復(fù)雜性進(jìn)行了比較,所有實(shí)驗(yàn)均是在相同實(shí)驗(yàn)參數(shù)的情況下進(jìn)行的,實(shí)驗(yàn)結(jié)果如表11所示。從表11中可以發(fā)現(xiàn),本文模型達(dá)到了高水平識(shí)別精度,訓(xùn)練時(shí)間相比DG-Net[40]減少了4.9 h、參數(shù)量比CamStyle[38]減少了約6.8 million。
Table 11 Comparison of model complexity
通過(guò)上述實(shí)驗(yàn)對(duì)比可知,本文所提模型不僅充分利用了低層卷積的有效特征信息,而且結(jié)構(gòu)簡(jiǎn)單,所獲得的特征擁有高細(xì)粒度的特征表征能力,能夠達(dá)到很好的識(shí)別效果。
本文提出了一種多支路特征融合的行人重識(shí)別網(wǎng)絡(luò)模型,利用融合后的特征進(jìn)行重識(shí)別。該模型采用SE-ResNeXt50作為骨干網(wǎng)絡(luò),引出3個(gè)分支網(wǎng)絡(luò),根據(jù)每個(gè)分支的特點(diǎn)采用不同的處理方式,最后將3個(gè)分支的特征融合,并加入聚類損失函數(shù)和標(biāo)簽平滑損失函數(shù)聯(lián)合訓(xùn)練模型。實(shí)驗(yàn)結(jié)果表明,本文所提模型在單域情況下,識(shí)別率達(dá)到了較好的效果,但在跨域情況下,識(shí)別率有待提升。未來(lái)的工作方向是在保證模型簡(jiǎn)單化的情況下,提升泛化能力。