任雪娜,張冬明,包秀國(guó),李冰
(1.中國(guó)科學(xué)院信息工程研究所,北京 100093;2.中國(guó)科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,北京 100093;3.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029;4.北京航空航天大學(xué)自動(dòng)化學(xué)院,北京 100191)
行人再識(shí)別(Re-ID,re-identification)也稱行人重識(shí)別,是指利用計(jì)算機(jī)視覺(jué)技術(shù)在不同監(jiān)控設(shè)備采集的大規(guī)模圖像或者視頻中搜索目標(biāo)行人的技術(shù)。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛成功應(yīng)用,行人再識(shí)別取得了快速的發(fā)展,作為視頻監(jiān)控研究領(lǐng)域的關(guān)鍵組成部分,近幾年逐漸成為研究熱點(diǎn),受到廣泛的關(guān)注[1-2]。它可以彌補(bǔ)固定攝像頭的視覺(jué)局限,并可與行人檢測(cè)[3]、行人跟蹤技術(shù)[4]相結(jié)合,應(yīng)用于視頻監(jiān)控、智能安防、智慧城市等領(lǐng)域。研究基于深度學(xué)習(xí)的行人重識(shí)別的相關(guān)技術(shù)具有非常重要的理論意義和應(yīng)用前景。
當(dāng)前,Re-ID 方法在公開(kāi)的基準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率基本達(dá)到了90%以上,但是在面對(duì)復(fù)雜多變的實(shí)際場(chǎng)景時(shí),模型性能會(huì)急劇下降。這是由于實(shí)際的應(yīng)用場(chǎng)景中,行人可能受到不同程度的遮擋,遮擋物可能是物體,例如汽車、樹(shù)木等,也可能是其他行人。這些遮擋導(dǎo)致Re-ID 性能降低。當(dāng)然,還有影響Re-ID 的其他因素,包括拍攝姿態(tài)和視角、光照,以及采集視頻的清晰度、分辨率等。當(dāng)采集數(shù)據(jù)時(shí)間跨度較長(zhǎng)時(shí),Re-ID 還可能面臨服裝變化的巨大挑戰(zhàn)。因此,研究能適應(yīng)復(fù)雜場(chǎng)景的行人識(shí)別方法是當(dāng)前的主要趨勢(shì),也是行人再識(shí)別面臨的主要挑戰(zhàn)[5-7]。本文重點(diǎn)研究行人識(shí)別中的遮擋問(wèn)題,即遮擋行人再識(shí)別。
遮擋行人再識(shí)別用遮擋的圖像作為查詢對(duì)象,在不同攝像頭下采集的數(shù)據(jù)中查找相同身份的行人。待查找數(shù)據(jù)中既有全身圖像又有遮擋圖像。如前所述,由于遮擋的隨機(jī)性,全身行人再識(shí)別的有效算法在遮擋數(shù)據(jù)集上性能會(huì)嚴(yán)重下降,有必要研究可統(tǒng)一處理全身和遮擋的行人再識(shí)別框架及算法。
本文針對(duì)遮擋行人再識(shí)別中特征不對(duì)齊問(wèn)題,提出了一種利用注意力對(duì)齊語(yǔ)義特征的算法。該算法利用注意力機(jī)制學(xué)習(xí)行人的全局特征和帶有語(yǔ)義信息的局部特征,并根據(jù)局部特征的可見(jiàn)性約束特征的訓(xùn)練和匹配,抑制遮擋區(qū)域影響,進(jìn)而實(shí)現(xiàn)圖像對(duì)之間的共有特征的語(yǔ)義對(duì)齊匹配,可統(tǒng)一實(shí)現(xiàn)全身和遮擋的行人再識(shí)別。
本文主要的研究工作如下。
1) 語(yǔ)義引導(dǎo)網(wǎng)絡(luò)。利用行人掩膜作為監(jiān)督信息,以注意力的形式增加對(duì)非遮擋區(qū)域的關(guān)注,設(shè)計(jì)全局語(yǔ)義引導(dǎo)和局部語(yǔ)義引導(dǎo)結(jié)構(gòu),抑制遮擋和背景因素的影響。網(wǎng)絡(luò)訓(xùn)練中,利用頭部、上半身、下半身以及腳部的監(jiān)督信息得到對(duì)應(yīng)部分的可見(jiàn)性,根據(jù)可見(jiàn)性動(dòng)態(tài)地訓(xùn)練模型。相比已有語(yǔ)義引導(dǎo)工作,本文將對(duì)人體語(yǔ)義模型嵌入網(wǎng)絡(luò)中,構(gòu)成端到端網(wǎng)絡(luò),僅在訓(xùn)練階段使用外部語(yǔ)義模型結(jié)果作為監(jiān)督信息,在推理階段則不再依賴外部模型。
2) 局部特征對(duì)齊。局部語(yǔ)義特征分為頭部、上半身、下半身和腳部,分別設(shè)計(jì)對(duì)應(yīng)的注意力結(jié)構(gòu),并用對(duì)應(yīng)的頭部、上半身、下半身、腳部的掩膜作監(jiān)督。通過(guò)局部注意力得到帶有語(yǔ)義信息的局部特征,實(shí)現(xiàn)特征的語(yǔ)義對(duì)齊。在損失函數(shù)設(shè)計(jì)中,利用人體結(jié)構(gòu)中頭部、上半身、下半身以及腳部在全身中的占比分配不同的權(quán)重?fù)p失約束。
3) 基于可見(jiàn)性的相似度計(jì)算。利用局部語(yǔ)義引導(dǎo)學(xué)到的掩膜計(jì)算局部特征的可見(jiàn)性,選擇待檢索圖像和底庫(kù)圖像中同時(shí)出現(xiàn)的特征,采用局部到局部的匹配策略得到圖像間的匹配度。
實(shí)驗(yàn)結(jié)果表明,本文提出的方法不僅在全身數(shù)據(jù)集Market1501[8]和DukeMTMC-reID[4,9]上保持了較高的識(shí)別準(zhǔn)確率,更重要的是能夠有效應(yīng)對(duì)遮擋問(wèn)題,在復(fù)雜的遮擋數(shù)據(jù)集Occluded-DukeMTMC[10]和P-DukeMTMC-reID[11]上的性能優(yōu)于其他先進(jìn)算法。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法可統(tǒng)一實(shí)現(xiàn)全身和遮擋的行人再識(shí)別。
基于深度學(xué)習(xí)的行人再識(shí)別方法近年取得了較大的進(jìn)展。行人再識(shí)別方法大致可分為特征提取方法和基于距離度量學(xué)習(xí)的方法兩類。特征提取方法核心是找到能夠很好表現(xiàn)行人的表觀特征的模型,而基于距離度量學(xué)習(xí)的方法關(guān)注的是找到有效度量行人特征相似度的準(zhǔn)則。以下主要針對(duì)特征提取方法進(jìn)行闡述。
特征提取方法的重點(diǎn)在于設(shè)計(jì)穩(wěn)健可靠的行人圖像特征表示模型,提高模型的泛化能力和穩(wěn)健性,降低模型對(duì)各種影響因素的敏感度。特征提取方法又分為全局特征提取和局部特征提取。
全局特征提取利用卷積網(wǎng)絡(luò)對(duì)整幅圖像提取特征圖,對(duì)特征圖通過(guò)一個(gè)全局池化得到一個(gè)特征向量。利用全局特征進(jìn)行行人識(shí)別通常會(huì)建模為分類和驗(yàn)證 2 種模型。PersonNet(person re-identification with deep convolutional neural network)[12]構(gòu)建驗(yàn)證模型學(xué)習(xí)輸入圖像對(duì)的融合特征,并判斷是否為同一個(gè)行人。MuDeep(multi-scale deep learning model)[13]利用分類子網(wǎng)絡(luò)和驗(yàn)證子網(wǎng)絡(luò)分別學(xué)習(xí)單幅圖像的全局特征和2 幅圖像的一個(gè)融合特征來(lái)進(jìn)行類別的預(yù)測(cè)。全局特征因進(jìn)行全局池化會(huì)丟失空間信息,此外,由于全局特征提取主要關(guān)注某一個(gè)身體區(qū)域,因此在著裝相似場(chǎng)景下學(xué)習(xí)不到判別性的特征。針對(duì)全身數(shù)據(jù)的學(xué)習(xí)方式會(huì)因數(shù)據(jù)上的遮擋部分使學(xué)到的特征帶有噪聲,從而導(dǎo)致匹配錯(cuò)誤。而實(shí)際行人數(shù)據(jù)非常復(fù)雜,單獨(dú)使用全局特征不能滿足性能要求,因此,局部特征提取逐漸成為當(dāng)前主流的研究方法。
局部特征提取方法通過(guò)人工或者自動(dòng)方法讓網(wǎng)絡(luò)關(guān)注顯著的局部區(qū)域,然后提取這些區(qū)域的局部特征。常用的提取局部特征的方式主要有圖像切塊[14-16]、先驗(yàn)知識(shí)(如姿態(tài))估計(jì)關(guān)鍵點(diǎn)定位、人體語(yǔ)義分割、行人前景分割等[17-18]。局部特征提取方式能從一定程度上減輕遮擋部分的影響,但簡(jiǎn)單的均勻分塊的方法仍需要預(yù)先人工剪切人體區(qū)域,而姿態(tài)估計(jì)等又嚴(yán)重依賴外部模型的性能。
針對(duì)遮擋行人識(shí)別問(wèn)題,當(dāng)前研究工作主要集中于表征學(xué)習(xí)能力提升和不同特征匹配兩方面。這些研究方法大致可以分為三類。
1) 遮擋預(yù)處理方法。這類方法首先對(duì)遮擋圖像進(jìn)行人工裁剪或者網(wǎng)絡(luò)分割,去掉遮擋區(qū)域,只留下可見(jiàn)的部分行人區(qū)域;然后用部分行人圖像進(jìn)行檢索。例如,DSR(deep spatial feature reconstruction)[19]和SFR(spatial feature reconstruction)[20]處理的圖像先進(jìn)入全卷積網(wǎng)絡(luò)(FCN,fully convolution network)進(jìn)行分割,再利用整個(gè)庫(kù)中的圖像對(duì)查詢圖像的像素特征進(jìn)行稀疏重建,在DSR 的基礎(chǔ)上進(jìn)行提升,通過(guò)FCN 生成多尺度特征以處理特征圖的尺度問(wèn)題。STNRe-ID(spatial transformer networks Re-ID)利用孿生網(wǎng)絡(luò)輸入一對(duì)圖像對(duì),圖像對(duì)由同一身份的全身圖像和部分圖像組成,利用STN(spatial transformer network)學(xué)習(xí)仿射變換得到仿射圖像,使仿射圖像逼近部分可見(jiàn)的圖像。這類方法并不是真正的遮擋行人識(shí)別方法,對(duì)遮擋部分的處理會(huì)消耗較多的時(shí)間與人力成本。
2) 局部-全身特征匹配方法。AFPB(attention framework of person body)[11]和 T-S(teacherstudent)[21]通過(guò)顯著性掩膜學(xué)習(xí)遮擋圖像中的顯著特征與全身圖像特征匹配,該方法不需要裁剪及分割的操作,比直接利用被遮擋的圖像特征更容易找到相似圖像。然而,局部-全局的匹配策略很明顯會(huì)引起特征的不對(duì)齊問(wèn)題。
3) 局部-局部特征匹配方法。Zheng 等[22]提出了一種基于字典學(xué)習(xí)的AMC(ambiguity-sensitive matching classifier),并引入滑動(dòng)窗口匹配(SWM,sliding window matching)解決全局局部匹配的問(wèn)題。VPM(visibility-aware part model)[23]通過(guò)自我監(jiān)督學(xué)習(xí)感知可見(jiàn)區(qū)域,從而避免遮擋區(qū)域的噪聲影響。在測(cè)試過(guò)程中,給定待比較的2 幅圖像,VPM 首先計(jì)算它們共享區(qū)域之間的局部距離,然后得出總體距離。PVPM(pose-guided visible part matching)[24]、PGFA(pose-guided feature alignment)[10]和高階信息[25]利用人體姿態(tài)估計(jì)得到人體的關(guān)鍵點(diǎn)信息,從而利用語(yǔ)義信息塊進(jìn)行局部特征塊之間的對(duì)齊。
DSR、SFR、VPM 以及AMC 都需要預(yù)先人工裁剪遮擋部分區(qū)域,只保留可見(jiàn)區(qū)域。姿態(tài)估計(jì)[10]、人體語(yǔ)義解析模型[26]以及顯著性檢測(cè)[21]方法能夠直接處理遮擋圖像,不需要耗時(shí)的人工裁剪,并且能夠準(zhǔn)確地定位行人關(guān)鍵點(diǎn)以及行人身體區(qū)域,實(shí)現(xiàn)特征對(duì)齊,但該類方法的性能對(duì)外部模型有較強(qiáng)的依賴性,且在測(cè)試階段會(huì)因輔助模型引入額外的計(jì)算消耗。因此,本文提出語(yǔ)義引導(dǎo)的注意力網(wǎng)絡(luò)(SGAN,semantic-guided attention network)來(lái)對(duì)齊不同人體部分,利用注意力學(xué)習(xí)帶有語(yǔ)義信息的局部特征,根據(jù)局部特征塊的語(yǔ)義信息進(jìn)行對(duì)齊,并利用掩膜信息判斷各個(gè)局部特征的可見(jiàn)性,訓(xùn)練過(guò)程中根據(jù)監(jiān)督信息的可見(jiàn)程度對(duì)訓(xùn)練損失進(jìn)行動(dòng)態(tài)約束,并在測(cè)試階段根據(jù)局部語(yǔ)義注意力的掩膜信息選擇是否參與相似性度量。
SGAN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。采用殘差卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)ResNet-50[27]作為主干網(wǎng)絡(luò),在第一個(gè)殘差層Res-Stage1 和第四個(gè)殘差層Res-Stage4 中分別增加全局語(yǔ)義引導(dǎo)和局部語(yǔ)義引導(dǎo),并專門設(shè)計(jì)了相應(yīng)的網(wǎng)絡(luò)損失函數(shù)約束。
圖1 SGAN 的網(wǎng)絡(luò)結(jié)構(gòu)
全局語(yǔ)義引導(dǎo)和局部語(yǔ)義引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)分別如圖2 和圖3 所示,全局語(yǔ)義引導(dǎo)包括空間注意力和通道注意力。其中,F(xiàn)C 代表全連接層;Conv 代表卷積操作;ReLu 和Sigmoid 均是激活函數(shù),實(shí)現(xiàn)非線性變換。
圖2 全局語(yǔ)義引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)
圖3 局部語(yǔ)義引導(dǎo)網(wǎng)絡(luò)結(jié)構(gòu)
從ResNet-50 的Res-Stage1 得到特征圖A后,特征圖進(jìn)入空間注意力層,在空間注意力層經(jīng)過(guò)一個(gè)3×3 的卷積操作、ReLu 激活函數(shù)、1×1 的降維卷積操作得到單通道的概率圖,最后經(jīng)過(guò)Sigmoid函數(shù)獲得空間注意特征圖。從 ResNet-50 的Res-Stage1 得到特征圖,并與空間注意特征圖做乘法得到圖像中行人的前景特征圖,前景特征圖進(jìn)一步通過(guò)通道注意力層,經(jīng)過(guò)全局平均池化操作和2 個(gè)升維降維的全連接層以及Sigmoid 函數(shù),最終得到過(guò)濾背景和遮擋的全局特征fglobal。
在ResNet-50 的Res-Stage4 后增加局部語(yǔ)義引導(dǎo),在局部語(yǔ)義引導(dǎo)中有4 個(gè)分支,分別對(duì)應(yīng)頭部、上半身、下半身和腳部部分。4 個(gè)局部的注意力結(jié)構(gòu)相同,4 個(gè)分支的語(yǔ)義引導(dǎo)結(jié)構(gòu)相同,且只有空間注意力。如圖3 所示,先對(duì)Res-Stage4 的輸出特征V進(jìn)行降維操作,從通道2048 變?yōu)?12,再經(jīng)過(guò)ReLu 激活函數(shù)的非線性變換,之后將512 通道經(jīng)過(guò)1×1 的卷積得到單張通道的空間注意力特征圖,得到頭部、上半身、下半身和腳部的注意力特征圖后,與V相乘分別得到局部語(yǔ)義特征fhead、fupper、flower、ffeet。
三元損失[28]是SGAN 模型訓(xùn)練的基本損失,SGAN 計(jì)算三元損失Ltri,在此基礎(chǔ)上,SGAN 將同時(shí)考慮全局、局部語(yǔ)義損失和注意力損失。下面介紹這些損失的影響因子計(jì)算方法。
3.3.1動(dòng)態(tài)因子
由于人體的頭部、上身以及下身的比例不同,根據(jù)人體的頭身比例特點(diǎn)這個(gè)先驗(yàn)知識(shí)來(lái)為4 個(gè)局部特征分配不同的權(quán)重系數(shù)。
因男性與女性的身體比例差異及采集圖像中行人姿態(tài)和年齡等因素的影響,本文對(duì)頭部、上半身、下半身和腳部的比例分割采用不同的比例,根據(jù)人體的頭身比以及人體的黃金分割比得到一個(gè)比例范圍,頭身比約為1/6 到1/8,再根據(jù)黃金比例分割參數(shù)0.618 得到上下身比例。最終在16×8 的監(jiān)督掩膜中得到4 個(gè)局部-全身的比例,分別為3/16(頭部/全身)、5/16(上身/全身)、1/2(下身/全身)及3/16(腳部/全身),比例參數(shù)用r表示。據(jù)此得到4 個(gè)比例參數(shù)為
根據(jù)比例參數(shù)計(jì)算得到各個(gè)局部權(quán)重參數(shù),通過(guò)人體語(yǔ)義解析模型預(yù)先得到行人數(shù)據(jù)集的語(yǔ)義掩膜M,用該掩膜作為監(jiān)督信息,同時(shí)用它來(lái)判斷每個(gè)身體部位特征的可見(jiàn)性。通過(guò)計(jì)算掩膜的均值來(lái)得到4 個(gè)局部身體特征的可見(jiàn)標(biāo)簽。每一部分的掩膜計(jì)算都會(huì)從上一特征區(qū)域的最后一行開(kāi)始計(jì)算,局部特征圖的大小為16×8,行數(shù)以0~15 為索引,則頭部的掩膜均值計(jì)算對(duì)應(yīng)0~2 行,上身的掩膜均值計(jì)算對(duì)應(yīng)2~6 行,下身的掩膜均值計(jì)算對(duì)應(yīng)6~13 行,腳部的掩膜計(jì)算對(duì)應(yīng)13~15 行。先計(jì)算監(jiān)督掩膜的概率均值,再與各比例參數(shù)操作得到各個(gè)局部語(yǔ)義部分的權(quán)重參數(shù),按式(2)計(jì)算。
其中,16 和8 分別為局部監(jiān)督掩膜圖像的高度和寬度,ms(w,h)為監(jiān)督掩膜中(w,h)處的像素值。
在訓(xùn)練階段,從ResNet-50 的第四個(gè)殘差層得到特征V,特征V進(jìn)入局部語(yǔ)義引導(dǎo)部分,局部語(yǔ)義引導(dǎo)中包含4 個(gè)分支,分別用來(lái)得到圖形中行人的頭部、上身、下身及腳部的概率圖,用得到的4 個(gè)身體部位的概率圖分別與特征圖V相乘,再經(jīng)過(guò)平均池化層得到4 個(gè)局部語(yǔ)義特征fhead、fupper、flower、ffeet,考慮遮擋因素的影響,某個(gè)局部特征可能只有極少的幾個(gè)像素可見(jiàn),在可見(jiàn)像素很少時(shí),設(shè)定此局部特征不可見(jiàn),不參加模型的訓(xùn)練。局部特征的可見(jiàn)性按式(3)計(jì)算。經(jīng)實(shí)驗(yàn)對(duì)比,δ設(shè)置為0.1。
3.3.2分類損失
根據(jù)式(4)與式(5)計(jì)算局部和全局損失。
其中,C是身份類別總數(shù),ξ是平滑參數(shù),分別是C維的局部向量和全局向量中的第i維度的預(yù)測(cè)值,ID 是行人圖像的真實(shí)分類,Lcls_l和Lcls_g分別對(duì)應(yīng)的全局特征分類和局部特征分類。
3.3.3注意力損失
注意力損失用來(lái)引導(dǎo)全局和局部語(yǔ)義網(wǎng)絡(luò)的學(xué)習(xí),用于監(jiān)督的掩膜是二值掩膜,為了能夠使各個(gè)語(yǔ)義引導(dǎo)部分學(xué)習(xí)到更加逼近真實(shí)掩膜的注意力概率圖,采用二分類的交叉熵?fù)p失計(jì)算。局部注意力損失用Ls_l表示,同局部分類損失一樣,也根據(jù)wfl的值動(dòng)態(tài)地約束掩膜的學(xué)習(xí)。全局注意損失用Ls_g表示。全局、局部注意力損失分別為
其中,Mg和Ml分別是全局掩膜和局部掩膜,本文實(shí)驗(yàn)設(shè)置Mg的大小為64×32,Ml的大小為16×8;分別是全局掩膜和局部掩膜在i位置的掩膜標(biāo)簽;分別是全局引導(dǎo)和局部引導(dǎo)在i位置的預(yù)測(cè)值。
這樣,SGAN 的總體損失函數(shù)為
在測(cè)試階段,根據(jù)局部語(yǔ)義引導(dǎo)部分學(xué)到的概率圖來(lái)判斷當(dāng)前區(qū)域?qū)儆谡趽醪糠诌€是行人區(qū)域。vl是對(duì)應(yīng)局部特征的可見(jiàn)性標(biāo)簽,如前所述,vl=0表示遮擋,vl=1 表示特征可見(jiàn)。simg表示全局特征的相似度,siml表示局部特征的相似度值。sim 值越大,表明相似度越高。
本節(jié)選取Occluded-DukeMTMC 數(shù)據(jù)集中的圖像進(jìn)行實(shí)驗(yàn)。對(duì)上述相似度計(jì)算方式進(jìn)行可視化,如圖4 所示,不可見(jiàn)部分對(duì)最終的相似度沒(méi)有影響,可見(jiàn)部分對(duì)相似度的貢獻(xiàn)取決于對(duì)應(yīng)部分相似度,其權(quán)重受可見(jiàn)塊數(shù)調(diào)節(jié)。查詢目標(biāo)圖像與檢索圖像示例如圖5所示,q和g分別表示查詢的目標(biāo)圖像和Gallery中的某一幅圖像,其具體的匹配計(jì)算如表1 所示。
圖5 查詢目標(biāo)圖像與檢索圖像示例
表1 q 與g 的相似度匹配計(jì)算
為了驗(yàn)證所提方法的有效性,分別在主流公開(kāi)的全身數(shù)據(jù)集和遮擋數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證。采用的全身數(shù)據(jù)集為Market1501 和DukeMTMC-reID,采用的遮擋數(shù)據(jù)集為 Occluded-DukeMTMC 和P-DukeMTMC-reID。
Market-1501[8]包含來(lái)自1 501 個(gè)行人的共32 668 幅圖像。這些圖像來(lái)自6 個(gè)采集設(shè)備,其中包括5 個(gè)高分辨率攝像頭和一個(gè)低分辨率攝像頭。751 個(gè)行人的12 936 幅圖像被分為訓(xùn)練集,其余750 個(gè)行人的19 732 幅圖像被劃分為測(cè)試集。測(cè)試集中又分為待查找對(duì)象(query)和底庫(kù)(gallery)。query 有3 368 幅圖像,gallery 有19 734 幅圖像。每個(gè)行人最多具有6 幅查詢圖像。
DukeMTMC-reID[9]是跟蹤數(shù)據(jù)集DukeMTMC的一個(gè)子集,舍棄了只出現(xiàn)在一個(gè)攝像頭中的408 個(gè)行人(即干擾項(xiàng)ID),只選取出現(xiàn)在2 個(gè)攝像頭以上的1 404 個(gè)行人。因此它包含來(lái)自8 個(gè)不同攝像機(jī)的1 404 個(gè)行人的36 411 幅圖像。702 個(gè)行人的16 522 幅圖像被分為訓(xùn)練集。剩余的702 個(gè)行人的19 889 幅圖像被分為測(cè)試集,其中,query 為2 228 幅,gallery 為17 661幅。
Occluded-DukeMTMC[10]包含15 618 幅訓(xùn)練圖像、17 661 幅gallery 圖像和2210 幅被遮擋的query圖像。在訓(xùn)練集、query、gallery 中遮擋圖像所占的比例分別是9%、100%和10%。所有的query 是遮擋的圖像,在gallery 中既有全身圖像又有遮擋圖像。
P-DukeMTMC-reID[11]訓(xùn)練集12 927 幅圖像、665 個(gè)行人,query 中有634 個(gè)行人的2 163 幅圖像,gallery 中有9 053 幅圖像。
本節(jié)采用行人識(shí)別中常用的累積匹配特征(CMC,cumulative match characteristic)曲線和平均平均精度(mAP,mean average precision)來(lái)評(píng)估所提方法。CMC 曲線中的Rank-n 指匹配結(jié)果的前n幅圖像的正確率。本節(jié)實(shí)驗(yàn)中,Rank-1、Rank-5、Rank-10 和mAP用來(lái)衡量算法的性能并與其他方法進(jìn)行比較。所有實(shí)驗(yàn)結(jié)果均是在單個(gè)q設(shè)置下。指標(biāo)及具體方法如下。
其中,k是一個(gè)從1 開(kāi)始增加的變量,最常用的為1、5、10。用Q中所有圖像的Rank-k值相加,再除以Q的總數(shù)即可得到CMC 的值。
mAP。mAP 是Q中每個(gè)q的AP(average precision)的平均值。AP 計(jì)算的是和q同一ID 的圖像在查詢結(jié)果中的占比,計(jì)算式為
實(shí)驗(yàn)平臺(tái)的操作系統(tǒng)為Ubuntu16.04,一塊NVIDIA 1080TI GPU,顯存為11 GB;使用深度學(xué)習(xí)框架Pytorch1.0.1,基于Python3.5.2 完成程序編程;使用在 ImageNet[29]數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50 參數(shù)初始化主干網(wǎng)絡(luò),并去掉了全局平均池化層和全連接層。輸入圖像的尺寸是256 像素×128 像素,在實(shí)驗(yàn)中用到了行人再識(shí)別中常用的數(shù)據(jù)增強(qiáng)策略,包括圖像的隨機(jī)水平翻轉(zhuǎn)、標(biāo)準(zhǔn)化和隨機(jī)擦除策略。三元損失函數(shù)中的邊界超參為0.3,訓(xùn)練過(guò)程中使用Adam 優(yōu)化器進(jìn)行優(yōu)化,訓(xùn)練批次是64,每一訓(xùn)練批次中包括16 個(gè)行人,每個(gè)行人4 幅圖像。初始的學(xué)習(xí)率為3×10-4,分別在50、100 epoch 時(shí)按照10%速度衰減,迭代次數(shù)為200。
為了驗(yàn)證模型的有效性,本節(jié)在Market-1501、DukeMTMC-reID 和遮擋數(shù)據(jù)集 Occluded-DukeMTMC、P-DukeMTMC-reID 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),表2 和表3 分別展示了所提SGAN 與當(dāng)前的主流方法的對(duì)比結(jié)果。
從表2 和表3 中可以看出,SGAN 獲得了最好的表現(xiàn)。提取全局特征的方法會(huì)引入遮擋噪聲,從而影響特征的表達(dá);均勻分塊方法沒(méi)有考慮局部特征的語(yǔ)義性,圖像中的遮擋特征會(huì)引起特征塊的不對(duì)齊;SGAN 在Occluded-DukeMTMC 數(shù)據(jù)集上的性能比HONet[25]在mAP 和Rank-1 上分別提高了2.9%和1.6%,在P-DukeMTMC-reID 數(shù)據(jù)集上的mAP 比最新方法PVPM 的結(jié)果提高了2.2%。
表2 Occluded-DukeMTMC 數(shù)據(jù)集上的對(duì)比結(jié)果
表3 P-DukeMTMC-reID 數(shù)據(jù)集上的對(duì)比結(jié)果
表4 展示了 SGAN 在 Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上與不同方法的性能對(duì)比結(jié)果。從表4 可以看出,SGAN 在全身數(shù)據(jù)集上也有較好的表現(xiàn),通過(guò)在行人再識(shí)別網(wǎng)絡(luò)中引入注意力網(wǎng)絡(luò)學(xué)習(xí)全局和局部特征,并根據(jù)注意力網(wǎng)絡(luò)的概率圖得到的語(yǔ)義信息進(jìn)行局部特征的對(duì)齊策略有效提高了網(wǎng)絡(luò)的精度,且明顯優(yōu)于其他現(xiàn)有方法。
表4 Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上的對(duì)比結(jié)果
4.4.1語(yǔ)義引導(dǎo)的有效性
為了驗(yàn)證SGAN 中語(yǔ)義引導(dǎo)的有效性,以及動(dòng)態(tài)訓(xùn)練的有效性,本節(jié)在遮擋數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)包括4組,分別是行人識(shí)別基準(zhǔn)(B)、使用全局注意力引導(dǎo)(G)、使用局部注意力引導(dǎo)(L)、同時(shí)使用全局和局部注意力引導(dǎo)(G+L)。實(shí)驗(yàn)基準(zhǔn)使用Resnet-50 提取圖像全局特征,用身份約束和三元損失訓(xùn)練網(wǎng)絡(luò),測(cè)試時(shí)用全局特征進(jìn)行度量。其余3 組(G、L、G+L)實(shí)驗(yàn)在訓(xùn)練時(shí)各個(gè)損失帶有權(quán)重約束,測(cè)試時(shí)將特征聚合。
Occluded-DukeMTMC 數(shù)據(jù)集上語(yǔ)義引導(dǎo)的對(duì)比結(jié)果如表5 所示。從表5 可以看出,基準(zhǔn)實(shí)驗(yàn)和只有全局注意力的Rank-1 差1.8%,局部注意力比基準(zhǔn)實(shí)驗(yàn)高2.5%,說(shuō)明利用語(yǔ)義引導(dǎo)部分能夠關(guān)注圖像中的可見(jiàn)區(qū)域,從一定程度上緩解遮擋的影響。G 和L 的對(duì)比說(shuō)明對(duì)齊的局部語(yǔ)義特征能夠減小匹配的誤差,在只有全局特征時(shí),會(huì)存在半身-全身的特征度量,這導(dǎo)致G 比L 的首位命中率低。G+L 中Rank-1 達(dá)到了58.0%,對(duì)齊的局部特征和全局特征相結(jié)合提高了模型的準(zhǔn)確率。
表5 Occluded-DukeMTMC 數(shù)據(jù)集上語(yǔ)義引導(dǎo)的對(duì)比結(jié)果
4.4.2權(quán)重?fù)p失約束的有效性
表6 顯示了不同權(quán)重?fù)p失約束下模型在Occluded-DukeMTMC 數(shù)據(jù)集上的性能對(duì)比結(jié)果。3 組對(duì)比實(shí)驗(yàn)分別是不帶權(quán)重的身份損失和不帶權(quán)重的注意力損失C+A、帶權(quán)重的身份損失和不帶權(quán)重的注意力損失w×C+A、帶權(quán)重的身份損失和帶權(quán)重的注意力損失w×(C+A)。從表6 可以看到,隨著對(duì)分類損失和注意力損失增加約束,模型的首位命中率逐漸提高,尤其在給注意力損失增加權(quán)重約束之后,Rank-1 和mAP 的值比不帶損失約束提高了1.4%和0.8%。由此可以得出增加權(quán)重?fù)p失約束能夠使模型更關(guān)注占比較大的可見(jiàn)區(qū)域,使模型以較大概率地從這些區(qū)域?qū)W習(xí)判別性的特征。
表6 Occluded-DukeMTMC 數(shù)據(jù)集上權(quán)重?fù)p失約束的對(duì)比結(jié)果
4.4.3可視化結(jié)果
為了驗(yàn)證模型的全局和局部特征的學(xué)習(xí)性能,對(duì)模型學(xué)習(xí)到的全局概率圖和局部語(yǔ)義概率圖進(jìn)行了可視化,實(shí)驗(yàn)中圖像來(lái)自O(shè)ccluded-DukeMTMC 數(shù)據(jù)集。局部注意力結(jié)果和語(yǔ)義注意力圖可視化結(jié)果分別如圖6 和圖7 所示,圖6 中數(shù)據(jù)保留2 位小數(shù)顯示。從圖6 和圖7 中可以看出,利用語(yǔ)義注意損失,不僅能夠準(zhǔn)確地定位到各個(gè)局部特征,還能夠利用得到語(yǔ)義掩膜判斷各個(gè)局部特征的可見(jiàn)性。圖8 為利用GradCAM[45]方法在特征圖上的可視化結(jié)果,可以看出模型突出了各個(gè)身體的局部區(qū)域。圖像檢索結(jié)果如圖9 所示,其中顯示了排序中的前5 個(gè)圖像,圖像上方的CORRECT表示匹配正確,圖9 也說(shuō)明SGAN 在圖像存在遮擋時(shí),能夠在一定程度上找到相匹配的目標(biāo)圖像。
圖6 局部注意力結(jié)果
圖7 語(yǔ)義注意力圖可視化結(jié)果
圖8 GradCAM 在特征圖上的可視化結(jié)果
圖9 圖像的檢索結(jié)果
本文對(duì)行人再識(shí)別中的遮擋導(dǎo)致的特征不對(duì)齊問(wèn)題進(jìn)行研究。考慮遮擋的隨機(jī)性以及人體結(jié)構(gòu)的一般比例,提出基于語(yǔ)義引導(dǎo)進(jìn)行特征對(duì)齊的遮擋行人再識(shí)別網(wǎng)絡(luò)模型。SGAN 能夠根據(jù)局部特征的可見(jiàn)性對(duì)模型訓(xùn)練和特征匹配進(jìn)行約束,根據(jù)特征的可見(jiàn)性實(shí)現(xiàn)動(dòng)態(tài)訓(xùn)練,并借助語(yǔ)義信息實(shí)現(xiàn)同語(yǔ)義特征塊對(duì)齊及共有的可見(jiàn)特征的匹配計(jì)算。實(shí)現(xiàn)結(jié)果表明,算法獲得了優(yōu)異的檢索性能,在復(fù)雜遮擋數(shù)據(jù)集Occluded-DukeMTMC 和P-DukeMTMCreID 上算法的Rank-1/mAP 分別達(dá)到58.0%/45.4%和84.0%/71.2,優(yōu)于當(dāng)前的最新方法。本文研究表明,利用語(yǔ)義特征可有效引導(dǎo)模型降低遮擋區(qū)域?qū)π腥嗽僮R(shí)別的負(fù)面影響。端到端的行人再識(shí)別網(wǎng)絡(luò)不僅能夠減少對(duì)其他語(yǔ)義模型的依賴,還能避免因使用語(yǔ)義模型帶來(lái)的計(jì)算消耗。
在未來(lái)的研究工作中,考慮改變網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu),對(duì)遮擋進(jìn)行感知,研究遮擋圖像特征與全身圖像特征的關(guān)聯(lián)度,期望不利用附加的人體語(yǔ)義分割結(jié)果作為監(jiān)督信息即可以實(shí)現(xiàn)準(zhǔn)確遮擋行人再識(shí)別,從而提高模型的泛化能力。