李 擎,胡偉陽,李江昀?,劉 艷,李夢璇
1) 北京科技大學(xué)自動化學(xué)院,北京 100083 2) 工業(yè)過程知識自動化教育部重點實驗室,北京 100083 3) 北京科技大學(xué)順德研究生院,佛山 528000
行人重識別(Person re-identification,Person ReID),是利用計算機視覺技術(shù)對跨攝像頭的人員圖像進行特征提取,從而進行人員匹配的技術(shù),廣泛應(yīng)用于智慧安防、智慧零售等領(lǐng)域,是人工智能技術(shù)與產(chǎn)業(yè)結(jié)合的重要支點. 在早期的行人重識別研究中,大量的工作是基于傳統(tǒng)計算機視覺方法,利用手工提取的圖像特征,進行行人重識別的研究. 近年來,隨著深度學(xué)習(xí)在許多領(lǐng)域的成功應(yīng)用,研究人員們開始嘗試將深度學(xué)習(xí)應(yīng)用到行人重識別上,并已取得一定的成果. 其主要研究思路為采用深度學(xué)習(xí)方法進行特征向量提取,再利用度量學(xué)習(xí)對特征向量進行判別,將圖像之間的差異量化,并使用大量標注數(shù)據(jù)對模型進行訓(xùn)練迭代. 本文首先對行人重識別的概念、數(shù)據(jù)集以及兩個基本方法進行介紹. 之后,根據(jù)研究思路的不同,將當前的方法分為基于局部特征、基于生成對抗網(wǎng)絡(luò)、基于視頻以及基于重排序4個方向并分別對其進行分析和討論. 最后,對行人重識別現(xiàn)存問題進行歸納整理,并對未來的研究方向進行展望.
行人重識別是長時、跨域多目標跟蹤的核心技術(shù)[1],其主要目標是對同一個行人進行跨攝像頭的再識別. 在研究中,通常給定一個目標行人圖像或者視頻片段,在待匹配的圖像序列或者視頻片段中,識別出目標行人,并給出目標圖像與匹配圖像的相似度. 如圖1所示,兩個視野不重合的監(jiān)控攝像頭,在不同的時段分別采集了一些行人圖像,從攝像頭1采集的圖像中選擇一張作為目標圖像.行人重識別的目標就是在攝像頭2所采集的圖像中,通過尋找和目標圖像匹配度最高的圖像,再次將該人物識別出來,實現(xiàn)對行人的跨攝像頭跟蹤.
圖1 行人重識別的應(yīng)用場景示例Fig.1 An example of person re-identification application scenarios
行人重識別是一項具有挑戰(zhàn)性的任務(wù),它的數(shù)據(jù)一般來自于安防系統(tǒng). 在系統(tǒng)中,不同攝像設(shè)備之間的背景、風(fēng)格具有較大差異,同時行人外觀易受遮擋、穿著、視角和姿態(tài)等多種因素的影響,這就使得行人重識別成為一個具有一定挑戰(zhàn)性的研究課題,同時具有較高的研究價值. 圖2對當前基于深度學(xué)習(xí)的行人重識別存在的問題與解決方法進行了梳理.
圖2 基于深度學(xué)習(xí)的行人重識別研究問題與方法歸納Fig.2 Research problems and methods of person re-identification based on deep learning
行人重識別的研究方法從基于傳統(tǒng)的人工特征發(fā)展為基于深度學(xué)習(xí)方法,離不開大規(guī)模數(shù)據(jù)集的發(fā)展[2]. 目前常用的行人重識別數(shù)據(jù)集主要有以下幾種:CUHK03 數(shù)據(jù)集[3],Market1501[4]數(shù)據(jù)集以及DukeMTMC-reID[5],其中CUHK03數(shù)據(jù)集的ID劃分分為新舊兩種協(xié)議,即1367/100與767/700[6],具體信息如表1所示. 在基于視頻的行人重識別領(lǐng)域廣泛應(yīng)用的數(shù)據(jù)集主要有PRID2011[7]以及iLIDS-VID[8],分別收錄了984與300個行人的視頻信息,其他視頻數(shù)據(jù)集信息如表2所示.
表1 部分行人重識別公開數(shù)據(jù)集Table 1 Part of person re-identification public datasets
表2 部分行人重識別視頻數(shù)據(jù)集Table 2 Part of person re-identification video datasets
除了以上幾個已經(jīng)開源的常用數(shù)據(jù)集以外,近幾年內(nèi)還有一些優(yōu)秀的數(shù)據(jù)集被提出,其中比較典型的有:北京大學(xué)采集的MSMT17[9]數(shù)據(jù)集,包含室內(nèi)室外15個相機的12萬多張行人圖像,有4千多個行人ID,是目前最大的單幀ReID數(shù)據(jù)集;北京大學(xué)和微軟研究院聯(lián)合采集的LvreID數(shù)據(jù)集,包含室內(nèi)室外15個相機的3千多個行人ID的序列圖像,總共14943個序列的3百多萬張圖像;北京航空航天大學(xué)等采集的LPW[10]數(shù)據(jù)集,包含2731個行人的7694個軌跡序列,總共有56萬多張圖像,該數(shù)據(jù)集的特點是有多個獨立的場景,每個場景都可以作為一個獨立的數(shù)據(jù)集,訓(xùn)練集和測試集按照場景分開,因此更加接近真實使用情況;Yu等[11]提出一種衣著變換的數(shù)據(jù)集COCAS,含有5266個行人ID,共62382個行人檢測框,由手工標注得到. 2020年以來,一些優(yōu)秀的行人重識別數(shù)據(jù)集也被相繼提出;由中山大學(xué)提出的SYSU-30[12]數(shù)據(jù)集包含了30000個行人ID,同時數(shù)據(jù)集涵蓋了劇烈的光照變化、遮擋、低像素、俯視拍攝以及真實場景下的復(fù)雜背景等多種復(fù)雜情況;由起源人工智能研究院提出的RandPerson[13]行人數(shù)據(jù)集,利用一種隨機自動生成大量三維人物模型的方法,并在游戲環(huán)境中進行渲染而得到,包含8000個行人ID,38段視頻以及1801816張行人切片圖像.為了研究黑衣人問題而建立的首個黑衣人數(shù)據(jù)集Black-reID[14],該數(shù)據(jù)集圖像來自于Market-1501、DukeMTMC-reID、Partial等幾個數(shù)據(jù)集,建立者從中選取對應(yīng)的圖像建立黑衣人數(shù)據(jù)集,該數(shù)據(jù)集訓(xùn)練集包含688個行人ID,測試集包含1644個行人ID.
行人重識別的評測指標主要有以下幾種.
(1)Rank-nAccuracy[19]:這是一種在圖像分類、檢索領(lǐng)域廣泛使用的評價指標. 給定一張目標圖像,訓(xùn)練好的行人重識別模型會給出一個按照置信度排序的識別結(jié)果序列. 最常用的Rank-1 Accuracy與Rank-5 Accuracy 2種評價指標,分別代表在測試中,第1位即為正確匹配的比例,以及前5位存在正確匹配的比例.
(2)CMC 曲線[19](Cumulative match characteristic):累積匹配曲線,通過繪制Rank-naccuracy隨著參數(shù)n變化的曲線,直觀地了解top-n擊中概率的變化,主要用來評估閉集中排序結(jié)果的正確率.
(3)ROC曲線(Receiver operating characteristic curve):ROC曲線是檢測、分類、識別任務(wù)中常用的一項評價指標,表示隨著分類閾值的變化,行人重識別模型對正樣本與負樣本的區(qū)分情況.
(4)mAP[11](mean Average Precision):平均精度均值,是多目標檢測與多標簽分類的常用評價指標,繪制精確率與召回率的關(guān)系曲線(P–R曲線),該曲線與坐標軸的面積即為平均精確率(Average precision),對所有類別測試得到各自的平均精確率,取均值得到平均精度均值mAP. 平均精度指標不僅體現(xiàn)了模型的精確率,還能對模型給出的排名順序做出評價.
行人重識別模型最為常用的評價指標為Rank-nAccuracy與mAP,表3整理了目前各個數(shù)據(jù)集上表現(xiàn)最優(yōu)的模型(State of the art, SOTA)以及其他一些優(yōu)秀模型的精度數(shù)據(jù),其中OSNet與DG-Net的精度數(shù)據(jù)測試于按照新版協(xié)議劃分的CUHK03數(shù)據(jù)集.
表3 各數(shù)據(jù)集的性能最優(yōu)模型以及精度數(shù)據(jù)Table 3 State-of-the-art models and their precision for each dataset
行人重識別框架與大多數(shù)基于深度學(xué)習(xí)的圖像處理問題相似,首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),利用表征學(xué)習(xí)對數(shù)據(jù)進行特征提取得到特征向量,之后再利用度量學(xué)習(xí)的方法進行類別判斷. 行人重識別的研究框架如圖3所示,本章對表征學(xué)習(xí)與度量學(xué)習(xí)的定義以及基本方法進行簡要介紹.
圖3 行人重識別研究方法框架Fig.3 Research method framework of person re-identification methods
表征學(xué)習(xí),即特征表示學(xué)習(xí),它的目的是提取圖像特征,即將圖像數(shù)據(jù)抽象為高維特征向量,便于圖像之間差異的量化. 隨著深度學(xué)習(xí)的發(fā)展,廣泛使用卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,提取圖像或者視頻的特征向量.
在圖像分類領(lǐng)域,已有一些較為有效的特征提取方法[25-27],因此在行人重識別研究的初期,一些學(xué)者將行人重識別轉(zhuǎn)換為分類問題進行研究.將行人的ID作為標簽對數(shù)據(jù)進行標注,使用圖像分類方法進行行人的分類. 在之后的研究中,一些學(xué)者受到圖像檢索方法的啟發(fā),提出了CIR(Crossimage representation)方法,使用圖像對作為輸入,最終輸出兩者的相似度. 該方法基于孿生卷積神經(jīng)網(wǎng)絡(luò)(Siamese CNN)[28],將2張圖像分別輸入到2個獨立的子網(wǎng)絡(luò)中,得到圖像的特征圖,再通過度量學(xué)習(xí)的方法判斷圖像對是否屬于同一個行人. Yi等[29]首次將孿生卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到行人重識別領(lǐng)域,考慮到行人重識別圖像數(shù)據(jù)的背景、光照等特征的不同,舍棄了原網(wǎng)絡(luò)共享權(quán)值的做法,使2個子網(wǎng)絡(luò)相互獨立. Ahmed等[30]基于孿生卷積神經(jīng)網(wǎng)絡(luò),針對行人重識別提出了一種深度網(wǎng)絡(luò),將圖像對作為網(wǎng)絡(luò)輸入,計算圖像特征圖差異,最終判斷圖像對是否屬于同一類別. 在此基礎(chǔ)上,Wu等[31]提出了PersonNet,在原有的結(jié)構(gòu)上,使用多個3×3卷積層加深網(wǎng)絡(luò),使得效果得到顯著提升. CIR方法強調(diào)輸入的兩張圖像的相互關(guān)系,在網(wǎng)絡(luò)結(jié)構(gòu)中可以很好地體現(xiàn)出來. Wang等[32]提出一種名為Wconv的卷積結(jié)構(gòu),讓每張輸入圖像都經(jīng)過兩個獨立的卷積層,生成兩張?zhí)卣鲌D并進行融合,從而得到兩張圖像各自的特征圖.Wang等[33]提出了一種結(jié)合單張圖像特征的方法,對輸入的圖像對,分別使用獨立的卷積神經(jīng)網(wǎng)絡(luò)提取各自的特征,并抽取特征提取過程中的特征圖進行融合,這種方法結(jié)合了提取單張圖像特征的高效率以及CIR方法對圖像間信息提取的優(yōu)勢. 熊煒等[34]提出了一種深層特征融合行人重識別模型,利用卷積層與池化層多次提取網(wǎng)絡(luò)深層特征,使用融合后的深層特征作為行人的特征屬性,提升了網(wǎng)絡(luò)提取全局特征的能力. 同樣的思想,該作者在文獻[35]中提出,將特征提取網(wǎng)絡(luò)最后三個卷積層提取的特征圖進行拼接,再使用卷積神經(jīng)網(wǎng)絡(luò)提取深層特征,提升了網(wǎng)絡(luò)的深層特征提取能力. Wang等[20]提出的St-ReID方法,利用跨模態(tài)融合方法,將圖像的視覺特征以及時空特征進行融合,該方法在多個數(shù)據(jù)集上取得了較好的性能表現(xiàn).
評價與總結(jié):表征學(xué)習(xí)是提取圖像特征的基本方法,在行人重識別上的應(yīng)用也取得了一定效果. 但是,由于行人重識別數(shù)據(jù)的特殊性,存在遮擋、部位不對齊以及姿態(tài)差異等問題,直接提取圖像的全局特征并不能達到最好的識別精度. 針對這些問題,學(xué)者們相繼提出了提取局部特征以及引入注意力機制等方法,在后文中予以歸納總結(jié).
對于行人重識別,首先需要利用特征提取器得到行人圖像的特征向量,然后利用度量學(xué)習(xí)方法判斷目標圖像與待匹配圖像的相似度. 度量學(xué)習(xí)是機器學(xué)習(xí)的常用方法,通過定量方法,確定特征向量的相似程度. 在網(wǎng)絡(luò)的訓(xùn)練過程中,度量學(xué)習(xí)方法主要體現(xiàn)在損失函數(shù)上,用以更新深度網(wǎng)絡(luò)的參數(shù),從而提取更具判別力的圖像特征. 行人重識別使用的損失函數(shù)主要有以下幾種.
對照損失:在最初的行人重識別研究中,通過提取圖像對的特征并進行距離的計算[3,29],根據(jù)特征向量Ia與Ib的距離d判斷圖像對是否屬于同一個行人. 通常給定網(wǎng)絡(luò)輸入為圖像對,變量y值為+1或-1,作為圖像對的標簽,引入閾值margin,對圖像對距離加以約束.
Yi等[29]將對照損失應(yīng)用在行人重識別中,網(wǎng)絡(luò)輸入為圖像對,分別提取圖像的特征向量,計算特征向量的余弦(Cosine)距離,輸出一個介于+1、-1之間的相似度. 這種方法的優(yōu)點在于對于一張目標圖像,相同類別圖像的相似度往往會高于不同類別圖像的相似度. 在之后的研究中,學(xué)者們提出對每一張待匹配的圖像,根據(jù)相似度進行排名,將排名最高的圖像作為行人重識別的結(jié)果,這也是現(xiàn)在廣泛使用的確定識別結(jié)果的方法. 但是一些學(xué)者發(fā)現(xiàn),分類方法和排名方法都有各自的優(yōu)缺點,分類方法難以確定一個固定的區(qū)分閾值,而排名方法得出的Top1圖像相似度最高,卻很容易因為丟失細節(jié)信息導(dǎo)致匹配錯誤. 針對這一問題,Chen等[36]提出了一種多任務(wù)深度網(wǎng)絡(luò)MTDNet,文章指出應(yīng)用排名方法往往更為關(guān)注全局特征,而分類方法則更關(guān)注圖像對之間的聯(lián)系,比較注重局部特征. MTDNet的輸入為3張圖像,首先通過卷積神經(jīng)網(wǎng)絡(luò)提取低維特征后,執(zhí)行排名任務(wù),之后通過三元組損失函數(shù),判斷正負樣本的距離,從而完成分類任務(wù). 該方法整合了排名方法和分類方法的優(yōu)點,并使兩者的缺點得到互補. 同樣的思想,Chen等[37]提出了整合分類與排名的訓(xùn)練方法,使用GoogleNet[25]進行特征提取,便于遷移訓(xùn)練.
三元組損失:三元組損失是圖像檢索領(lǐng)域廣泛應(yīng)用的損失函數(shù)[38-40]. 它來源于人臉識別的方法FaceNet[41],應(yīng)用三元組損失函數(shù)的網(wǎng)絡(luò)架構(gòu)輸入為3張圖像,分別是目標圖像、正樣本和負樣本. 三元組損失函數(shù)通過調(diào)整系數(shù),拉近正樣本特征向量Ip與目標圖像特征向量Ia的距離,擴大負樣本特征向量In與目標圖像特征向量Ia的距離.最終相同ID的圖像在特征空間內(nèi)聚類,完成行人重識別任務(wù),同時三元組損失函數(shù)可以將行人重識別作為一個端對端的問題進行研究.
三元組損失函數(shù)的缺點在于構(gòu)造簡單,如果在網(wǎng)絡(luò)中直接優(yōu)化三元組損失函數(shù),會導(dǎo)致網(wǎng)絡(luò)的鑒別能力降低,一些學(xué)者通過加入更豐富的信息,設(shè)計出性能更強的三元組損失函數(shù),Hermans等[42]指出,讓網(wǎng)絡(luò)一直學(xué)習(xí)簡單的樣本組合會限制網(wǎng)絡(luò)的泛化能力,針對這一問題,提出三元組損失函數(shù)的改進方法,通過選擇一個批次中較難區(qū)分的正樣本和負樣本,來對三元組損失函數(shù)進行訓(xùn)練,加強三元組損失函數(shù)對于困難樣本對的挖掘能力,從而提升三元組損失函數(shù)的性能. Cheng等[43]提出一種改進的三元組損失函數(shù),原始的三元組損失函數(shù)旨在拉近正樣本與目標圖像的距離,擴大負樣本與目標圖像的距離[41],但是損失函數(shù)并沒有對樣本距離進行約束,導(dǎo)致正樣本與目標圖像的絕對距離很遠,作者通過在原始三元組損失函數(shù)中加入了一個新的閾值,用于限制類內(nèi)圖像的最大距離,保證網(wǎng)絡(luò)不僅能夠在特征空間把正負樣本推開,也能保證正樣本對的距離處于一定的閾值之下.
四元組損失:為了解決三元組損失函數(shù)類內(nèi)距離較大的問題,一些學(xué)者在三元組損失函數(shù)的基礎(chǔ)上,提出了四元組損失函數(shù). Chen在文章[44]中提出了一種應(yīng)用四元組損失函數(shù)的行人重識別網(wǎng)絡(luò)架構(gòu). 網(wǎng)絡(luò)輸入為4張圖像,相對于三元組損失,又增加了一張不同ID的負樣本n2. 四元組損失不僅可以學(xué)習(xí)正負樣本的相對距離,同時限制最小的類間距離高于最大的類內(nèi)距離,同時引入閾值margin1與margin2對損失函數(shù)的值域加以約束,使網(wǎng)絡(luò)的性能得到提升.
現(xiàn)有的行人重識別方法在訓(xùn)練過程中,廣泛使用交叉熵損失函數(shù)與三元組損失函數(shù)聯(lián)合對網(wǎng)絡(luò)的訓(xùn)練過程進行約束,在訓(xùn)練過程中,使用網(wǎng)絡(luò)層最后輸出的特征向量進行三元組損失函數(shù)的計算,之后連接全連接層進行交叉熵損失函數(shù)的計算,在這一過程中,由于2種損失函數(shù)的收斂方向不同,在訓(xùn)練過程中會產(chǎn)生一定沖突. Luo等[45]提出BNneck分類器,在最后一個網(wǎng)絡(luò)層與全連接層之間插入一個批次正則化層,從而實現(xiàn)兩種損失函數(shù)的解耦,統(tǒng)一網(wǎng)絡(luò)訓(xùn)練的收斂方向,使網(wǎng)絡(luò)模型的性能得到有效提升.
評價與總結(jié):利用度量學(xué)習(xí)對卷積神經(jīng)網(wǎng)絡(luò)提取的特征向量進行處理,從而得到行人重識別的結(jié)果. 對照損失注重圖像對之間的聯(lián)系,但是在類別較多的問題中,又會損失類間的相互關(guān)系. 三元組損失函數(shù)則通過拉近類內(nèi)圖像距離、擴大類間距離的方法,使行人重識別的性能得到有效提升. 它的問題在于類內(nèi)距離與類間距離沒有一個明確的閾值,導(dǎo)致類內(nèi)距離有時會大于類間距離.針對這個問題,學(xué)者們提出改進的三元組損失函數(shù)以及四元組損失函數(shù),對圖像對距離加以約束,從而取得了識別精度的提升.
在行人重識別的研究中,針對行人遮擋與部位不對齊等問題,學(xué)者們通過提取局部特征來代替全局特征,提出了固定分塊、基于注意力機制以及其他融合局部特征的方法,對這些固有問題進行研究與探討. 下面對基于局部特征的行人重識別方法的研究進展進行總結(jié)與討論.
早期的一些方法,將圖像按照預(yù)設(shè)的劃分方式進行劃分,但當使用從不同角度拍攝的數(shù)據(jù)時,固定的分割方式并不能很好地將圖像中身體各部位分開,圖像間對應(yīng)區(qū)域包含的部位也不能很好地對應(yīng). Sun等[46]使用PCB(Part-based convolutional baseline)方法,如圖4所示,在提取特征的過程中,將特征圖分為多個水平特征塊后進行池化操作,再通過小尺寸卷積核進行特征降維生成多個特征向量輸入到分類器中,進行ID的區(qū)分. 同時為了解決在劃分過程中伴隨的部位不一致問題,提出了改良的局部池化方法,進一步地提升了PCB的性能. Li等[47]提出MSCAN,利用空洞卷積完成多個尺度下的特征提取,充分利用了圖像的上下文信息. 引入 STN(Spatial transformer networks)用于圖像的分割,利用MSCAN網(wǎng)絡(luò)提取局部特征,并將提取的全局特征與局部特征向量進行融合.Kalayeh等[48]提出了一種SPReID架構(gòu),為了避免背景信息的干擾,使用語義分割方法替換常用的檢測方法來確定目標區(qū)域,從而進行局部特征的提取. Xu等[49]利用多任務(wù)金字塔重疊匹配的方法,將全局信息與多尺度的局部信息進行融合,并結(jié)合各分塊的邊緣信息,提升了網(wǎng)絡(luò)的識別性能.Zhu等[50]提出一種ISP(Identity-guided human semantic parsing)模型,通過人體語義解析的方法,僅通過人的身份標簽,進行人體部位的定位與像素級別的分類.
圖4 采取固定分塊方式的局部特征提取方法[46]Fig.4 Local feature extraction method based on fixed blocks[46]
一些學(xué)者引入注意力機制進行局部特征的提取. Zhao等[51]提出一種方法,沒有使用固定的區(qū)域分割方法,而是在注意力機制的啟發(fā)下,在網(wǎng)絡(luò)中根據(jù)不同權(quán)值分為了K個分支,用于提取不同區(qū)域的特征,解決了關(guān)鍵點未對齊的問題. 董亞超等[52]利用注意力機制提取注意力特征圖,并與卷積神經(jīng)網(wǎng)絡(luò)提取的全局特征進行融合,之后將特征圖進行切塊,相鄰塊之間進行協(xié)作式融合,保持了特征塊之間的聯(lián)系. Wang等[53]提取一種有效地解決遮擋問題的行人重識別方法,將圖像的局部特征作為圖的節(jié)點,通過一種自適應(yīng)方向的圖卷積(ADGC)來聚合節(jié)點間的信息.
此外,Yang等[54]使用 LSTM(Long short-term memory)[55]對局部特征進行融合,有效地改善了遮擋問題. Varior等[56]在孿生卷積神經(jīng)網(wǎng)絡(luò)的中間層加入了匹配門(Matching gate)機制,通過對比圖像對在卷積中間層的特征,有選擇地增強局部細節(jié),提升了網(wǎng)絡(luò)的判別能力. 楊婉香等[57]提出了一種多尺度生成對抗網(wǎng)絡(luò),使用低分辨率圖像作為輸入重構(gòu)高分辨率的行人圖像,有效融合不同尺度的圖像細節(jié)信息,提升了行人圖像去遮擋的性能,表4給出了不同方法在多個數(shù)據(jù)集上的精度表現(xiàn),其中PCB方法的識別精度測試于按照新版協(xié)議劃分的CUHK03數(shù)據(jù)集.
表4 基于局部特征的行人重識別方法的性能表現(xiàn)Table 4 Performance of person re-identification method based on local feature
評價與總結(jié):為了解決行人圖像的遮擋問題,學(xué)者們提出了基于局部特征的方法. 提取局部特征可以使網(wǎng)絡(luò)更加關(guān)注圖像的細節(jié)信息. 但由于固定的分塊方式,并不能解決部位不對齊問題,因此學(xué)者們引入了注意力機制增強重要部位的顯著性,能夠?qū)崿F(xiàn)部位對齊. 對于行人重識別中存在的遮擋與部位不對齊問題,基于注意力機制是目前主流的方法,也是未來的研究熱點.
在行人重識別任務(wù)的研究中,對于訓(xùn)練數(shù)據(jù)的處理具有較高的要求,首先需要對從監(jiān)控系統(tǒng)中采集的圖像進行切割,得到行人的切片圖像. 之后還要對圖像進行標注,標明行人ID以及圖像采集時間、攝像頭編號等信息. 所以,行人重識別的一些主流數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)都相對較少,在數(shù)據(jù)集Market-1501上,平均每一個行人類別只有17.2張圖像,CUHK03數(shù)據(jù)集平均為9.6張,DukeMTMC-reID數(shù)據(jù)集平均為23.5張. 由于數(shù)據(jù)集之間背景差異較大,導(dǎo)致模型的泛化能力較差. 針對這些問題,學(xué)者們利用生成對抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[58],來進行數(shù)據(jù)集的擴充,從而加強行人重識別模型的泛化能力.
Zheng等[5]首次將生成對抗網(wǎng)絡(luò)用于行人重識別的問題上來,他們使用行人重識別數(shù)據(jù)集對DCGAN[59]進行訓(xùn)練,輸入隨機向量生成新的行人圖像,對數(shù)據(jù)集進行了有效擴充,同時提出一種標簽平滑正則化(Label Smoothing Regularization for Outliers, LSRO)的方法,進行半監(jiān)督學(xué)習(xí). 作為生成對抗網(wǎng)絡(luò)在行人重識別領(lǐng)域的首次應(yīng)用,該方法在精度上取得了小幅提升,為行人重識別的數(shù)據(jù)擴充提供了新思路. 在這個方法的基礎(chǔ)上,Zhong等[60]使用CycleGAN[61]對數(shù)據(jù)集進行訓(xùn)練,對不同攝像機拍下的圖像數(shù)據(jù)進行遷移,生成一個行人在不同攝像機風(fēng)格下的新圖像,保留了行人的標簽信息. 同時文章對前文提出的LSRO進行了推廣,提出了一種 LSR (Label smoothing regularization)方法,減輕了生成數(shù)據(jù)噪聲對模型訓(xùn)練的影響.Deng等[62]將CycleGAN與孿生網(wǎng)絡(luò)結(jié)合,提出了一種圖像在數(shù)據(jù)集之間遷移的方法,在將圖像由原數(shù)據(jù)集向目標數(shù)據(jù)集遷移的過程中,保留了圖像的標簽信息. Wei等[9]提出PTGAN,完成了行人圖像在不同數(shù)據(jù)集之間的風(fēng)格遷移,并提出了MSMT17數(shù)據(jù)集. Li等[63]提出了一種ReadNet用于解決數(shù)據(jù)不平衡問題. Zhai等[64]提出増廣判別聚類方法實現(xiàn)了數(shù)據(jù)的遷移. Zhang等[65]根據(jù)源域圖像與目標與圖像的語義一致性,基于弱標注的源域行人圖像,將源域圖像的語義信息遷移到目標域上,增強了跨域的行人重識別特征表達能力. Liu等[66]提出UnityGAN,學(xué)習(xí)不同攝像機之間的背景風(fēng)格差異,并生成基于這些背景風(fēng)格差異的平均風(fēng)格圖像,提升了行人重識別模型對于相機背景風(fēng)格的泛化能力. 表5給出了部分基于生成對抗網(wǎng)絡(luò)的行人重識別方法的性能表現(xiàn).
表5 基于生成對抗網(wǎng)絡(luò)的行人重識別方法的性能表現(xiàn)Table 5 Performance of person re-identification method based on GAN
為了解決數(shù)據(jù)集之間姿態(tài)的差異,利用生成對抗網(wǎng)絡(luò)進行姿態(tài)的遷移,成為了行人重識別數(shù)據(jù)集擴充的重要方向. 一些優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型可以在一定程度上彌補數(shù)據(jù)集中行人姿態(tài)較少的缺點,但是擴充姿態(tài)多樣性的數(shù)據(jù)仍然是提升模型性能的關(guān)鍵. Liu等[68]提出了一種姿態(tài)遷移的方法,選擇姿態(tài)豐富的數(shù)據(jù)集,利用姿態(tài)檢測算法[69]提取圖像中行人的姿態(tài)信息,并使用RGB圖像進行表征,將姿態(tài)信息與待遷移數(shù)據(jù)集中的行人圖像作為輸入數(shù)據(jù),訓(xùn)練CGAN[70]生成新的行人圖像,完成姿態(tài)信息的遷移. 同時提出了一種指導(dǎo)模型,對生成的行人圖像進行選擇,之后使用LSR[59]方法對生成數(shù)據(jù)進行標注,完成了對數(shù)據(jù)集的擴充. Qian等[66]提出一種一般性的生成對抗網(wǎng)絡(luò)模型PNGAN,預(yù)設(shè)8種行人姿勢,以一張原始圖像為基準,利用生成對抗網(wǎng)絡(luò)生成八張預(yù)設(shè)姿態(tài)的圖像,將原始數(shù)據(jù)集擴大了8倍,姿態(tài)的多樣性與統(tǒng)一性使網(wǎng)絡(luò)有能力學(xué)習(xí)一些更具判別力的特征,該方法使行人重識別模型的泛化能力得到了有效地提升,不再需要重新訓(xùn)練就可以進行跨數(shù)據(jù)集的應(yīng)用.
評價與總結(jié):為了擴充數(shù)據(jù)集與實現(xiàn)數(shù)據(jù)集的域適應(yīng),學(xué)者們引入了生成對抗網(wǎng)絡(luò). 但是,生成對抗網(wǎng)絡(luò)產(chǎn)生了大量未標注的數(shù)據(jù),因此需要結(jié)合半監(jiān)督學(xué)習(xí)方法進行訓(xùn)練. 以上方法的應(yīng)用使基于圖像的行人重識別方法的精度達到了峰值,但圖像數(shù)據(jù)在時序信息上的缺失使得精度達到了瓶頸,這就引發(fā)了基于視頻的行人重識別的研究熱潮.
基于圖像的行人重識別方法雖然在大部分數(shù)據(jù)集上取得了較好的效果,但是由于數(shù)據(jù)集較小,導(dǎo)致基于單幀圖像的行人重識別方法沒有很好的泛化能力. 同時,單幀圖像很難獲得行人的動作以及姿態(tài)變化等信息,導(dǎo)致當行人被遮擋或者光線變化較大時,模型的判別能力大大下降. 針對這些問題,學(xué)者們提出了基于視頻的行人重識別方法,在提取單幀特征的基礎(chǔ)上,能有效地考慮到幀間關(guān)系. 基于視頻的行人重識別方法主要由3個部分組成:單幀圖像特征提取、視頻序列時序特征提取以及度量學(xué)習(xí),表6給出了部分基于視頻的行人重識別方法的性能表現(xiàn).
表6 基于視頻的的行人重識別方法的性能表現(xiàn)Table 6 Performance of video-based person re-identification method
對于單幀圖像的特征提取與損失函數(shù),學(xué)者仍然沿用基于圖像的行人重識別領(lǐng)域的方法[71-75],基于視頻的行人重識別方法的重點在于對時序信息的處理,目前最為廣泛應(yīng)用的方法是遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)[76]. McLaughlin等[77]提出了一種基于CNN與RNN的行人重識別方法,如圖5所示,基于孿生網(wǎng)絡(luò),網(wǎng)絡(luò)以視頻對作為輸入,首先通過CNN提取視頻里每一幀圖像的特征,按照時間順序送入RNN中. 之后,RNN結(jié)合時序信息得到特征向量序列. 最后,為了避免對前一時刻信息的過度依賴,加入了時序池化層,對所有時間的信息進行聚合,得到視頻序列的特征向量. 該方法的優(yōu)點在于可以使用任意長度的視頻序列作為輸入,同時使得每一時刻的信息都能占有一定的比重. 在這個方法的基礎(chǔ)上,Wu等[78]對網(wǎng)絡(luò)進行了修改,使用GRU模塊[79]代替LSTM模塊,在效果基本不變的情況下,降低了參數(shù)量.
圖5 視頻幀序列的時序信息融合方法[77]Fig.5 Temporal information fusion of video frames sequence[77]
上述方法中,都采用了平均池化層用于時序信息的融合,這種方法的優(yōu)點在于每一時刻的信息都占有相同的比重. 但針對行人重識別,一段視頻中只有行人出現(xiàn)的段落具有特征提取的價值,同時,某一異常值會對結(jié)果造成影響. 針對這一問題,Yan等[80]提出RFA-net,提取單幀圖像的特征,表示行人外觀信息,使用LSTM提取圖像序列特征,表示行人動態(tài)信息. 融合外觀信息與動態(tài)信息,獲得更好的識別精度. Zhang等[81]提出了一種SCAN行人重識別架構(gòu),利用無參數(shù)注意力機制,在視頻序列中選取具有辨別力的關(guān)鍵幀,并最終通過計算視頻對的相似度得出識別結(jié)果. Liao等[82]將3D卷積應(yīng)用到行人重識別領(lǐng)域進行視頻特征的提取,并使用非局部塊(Non-local blocks)來解決部位失調(diào)問題,并捕獲時空遠程依賴關(guān)系. 表6給出了部分基于視頻的行人重識別方法的性能表現(xiàn).
以上對單幀特征融合的幾種方法進行了介紹.在基于視頻的行人重識別中,主要存在的問題有行人姿態(tài)失調(diào)與遮擋、視頻數(shù)據(jù)冗余信息過多等.為了解決視頻序列中存在的遮擋問題以及部位不對齊問題,Li等[83]在行人重識別的模型中引入注意力機制,在連續(xù)的圖像序列中,某一幀的信息并不會影響全局的信息,所以使用限定隨機抽樣法在視頻序列中提取部分數(shù)據(jù)作為網(wǎng)絡(luò)的輸入,提取圖像特征后,應(yīng)用空間注意力模型自動發(fā)現(xiàn)突出的圖像區(qū)域. 這種方法很好地解決了遮擋問題,同時有效提取了行人的一些非常規(guī)特征,使得網(wǎng)絡(luò)的辨別力得到顯著提升. 針對3D卷積在行人部位不對齊時,存在的特征抓取性能不佳的問題,Gu等[84]提出一種AP3D方法,在卷積層之前,通過像素級的特征對齊,解決由于行人部位失調(diào)帶來的問題. Feng等[85]提出一種門控機制,判斷哪些區(qū)域有助于人的重新識別,讓這些區(qū)域通過門,不相關(guān)的背景區(qū)域被門過濾掉. Hou等[86]提出STCnet,利用時空補全網(wǎng)絡(luò),基于未被遮擋的部分精確地恢復(fù)遮擋部分的信息,增強了網(wǎng)絡(luò)的魯棒性,為解決行人重識別中的遮擋問題提供了新的思路.Gao等[87]提出了一種姿態(tài)匹配方法用于學(xué)習(xí)局部特征,并判別該部分是否被遮擋. Yan等[88]提出一種多粒度超圖網(wǎng)絡(luò)框架,在空間角度,通過不同細粒度的圖像分割,獲取不同尺度的信息;時序角度,則通過連接不同視頻幀的相同部位構(gòu)建超圖,實現(xiàn)時序信息的捕捉.
對于視頻數(shù)據(jù)的過多冗余信息,Zhang等[89]提出多細粒度參考輔助注意力特征聚合方法(Multigranularity reference-aided attentive feature aggregation,MG-RAFA)用于空間信息與時序信息的融合. Liu等[90]為了抑制背景信息的干擾,提出了CSTNet,捕獲視頻幀之間常見的突出前景區(qū)域,并從這些區(qū)域探索了時空長程文本的相互依賴關(guān)系,以學(xué)習(xí)更具判別力的行人特征.
評價與總結(jié):與圖像數(shù)據(jù)相比,視頻數(shù)據(jù)具有較強的時序信息,所以如何將這些時序信息進行融合是基于視頻的重識別問題的重要研究方向.現(xiàn)有的方法主要包括利用RNN結(jié)合平均池化進行時序信息的融合,以及利用3D卷積的方法進行融合. 學(xué)者們在此基礎(chǔ)上對細節(jié)部分加以創(chuàng)新,使得識別精度不斷提升. 基于視頻的行人重識別方法更加接近實際應(yīng)用,需要大量的數(shù)據(jù)標注工作,同時模型的參數(shù)量與計算量較大,因此結(jié)合半監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)方法以及對網(wǎng)絡(luò)輕量化的研究會成為今后的熱點研究方向.
除了對于表征學(xué)習(xí)與度量學(xué)習(xí)的探索,近年來,一些研究學(xué)者將主要精力集中于對行人重識別結(jié)果排序的優(yōu)化上,即結(jié)果重排序(Re-ranking).一般情況下,給定一張目標圖像,通過提取圖像特征并計算目標圖像與待匹配圖像(Gallary)的距離,得到匹配圖像的排序結(jié)果,根據(jù)該結(jié)果計算Rank-n Accuracy,并繪制CMC曲線. 重排序就是利用相關(guān)方法,對當前的排序結(jié)果進行優(yōu)化,從而提升行人重識別的精度.
在圖像檢索領(lǐng)域,Shen[91]使用K最近鄰算法(k-Nearest Neighbor,KNN)對模型輸出排序結(jié)果進行二次優(yōu)化. 在行人重識別領(lǐng)域,Li等[92]率先提出了利用最近鄰算法對行人重識別的排序結(jié)果進行優(yōu)化的方法. Ye等[93]提出了一種基于KNN的排序聚合方法,分別提取圖像的全局特征與局部特征,分別根據(jù)兩者得到結(jié)果的排序,通過對2種特征的結(jié)合,利用最近鄰算法對排序結(jié)果進行優(yōu)化. Zhong[6]等利用K最近鄰互編碼(k-reciprocal encoding)的方法對識別結(jié)果進行重排序,使用該編碼方法,對匹配圖像與目標圖像在特征空間內(nèi)求取最近鄰,利用該距離并聯(lián)合度量學(xué)習(xí)中的圖像特征距離,對匹配圖像進行重排序,從而提升行人重識別的精度. Wang[94]等提出一種在線優(yōu)化排序結(jié)果的方法,即人體驗證在線機機器學(xué)習(xí)(Human verification incremental learning,HVIL),在預(yù)設(shè)的周期內(nèi),人工地從排序結(jié)果中找出正確匹配,并給出Rank-1結(jié)果的相似度(True match/similar/dissimilar),根據(jù)以上結(jié)果進行誤差計算并更新網(wǎng)絡(luò)參數(shù),實現(xiàn)在線人工標注,有效地提升識別的精度. Sarfraz等[95]提出了一種基于交叉最近鄰距離的無監(jiān)督自動重排序框架,是當時性能最佳的重排序方法.
評價與總結(jié):針對常規(guī)方法在排序結(jié)果上存在的一些問題,學(xué)者們另辟蹊徑,通過相關(guān)方法對排序結(jié)果進行優(yōu)化,在沒有大幅增加計算量與參數(shù)量的前提下,有效地提升了行人重識別算法的精度,同時重排序方法可以直接的應(yīng)用到其他高精度的行人重識別算法中,是一種提升模型性能的有效方法,同時也是未來的一個熱門研究方向.
(1)現(xiàn)有的研究方法大多基于切割的行人圖像,而實際的工業(yè)場景應(yīng)用則基于全局圖像,這就需要人工或者基于目標檢測方法對圖像進行切割.
(2)全監(jiān)督學(xué)習(xí)方法需要對數(shù)據(jù)進行完整的標注,而行人重識別的數(shù)據(jù)標注較為復(fù)雜,且需要標注人員ID、攝像頭的編號、視頻編號等屬性,導(dǎo)致行人重識別數(shù)據(jù)集相對較小.
(3)行人重識別模型在不同數(shù)據(jù)集的表現(xiàn)差異很大,泛化能力較差.
(4)行人重識別算法一般需要部署在邊緣計算設(shè)備上,如智能監(jiān)控攝像頭、嵌入式設(shè)備等. 現(xiàn)有的算法參數(shù)量與計算量較大,無法滿足邊緣設(shè)備的算力要求.
(1)端到端學(xué)習(xí):結(jié)合目標檢測算法與行人重識別方法,進行端到端行人重識別模型的研究,實現(xiàn)直接使用采集的圖像或者視頻進行訓(xùn)練和實際的應(yīng)用.
(2)半監(jiān)督學(xué)習(xí)的性能優(yōu)化:如何在保證模型表征學(xué)習(xí)能力的基礎(chǔ)上,提出更加有效的半監(jiān)督學(xué)習(xí)方法,降低數(shù)據(jù)標注的工作量,是行人重識別未來研究的熱點問題.
(3)數(shù)據(jù)集的遷移:模型的泛化能力是深度學(xué)習(xí)領(lǐng)域所面對的一個共同問題,因此跨數(shù)據(jù)集的行人重識別模型研究仍然是未來的研究熱點.
(4)輕量化模型:對行人重識別進行輕量化模型研究,降低模型參數(shù)量,提升模型運行速度,為算法在工業(yè)領(lǐng)域的部署應(yīng)用提供可能.
本文針對行人重識別領(lǐng)域的研究現(xiàn)狀,從基于局部特征、基于生成對抗網(wǎng)絡(luò)、基于視頻以及基于重排序4個方向,對現(xiàn)有的基于深度學(xué)習(xí)的行人重識別方法進行了歸納與總結(jié),針對近一年的成果做出分析與討論,并對現(xiàn)存的主要問題與未來的研究方向進行闡述. 當前基于深度學(xué)習(xí)的行人重識別問題研究尚未成熟,仍然存在諸多未解決的問題. 本文針對當前現(xiàn)有的行人重識別方法進行綜述,旨在使讀者對基于深度學(xué)習(xí)的行人重識別方法有全面的了解,為開展行人重識別領(lǐng)域的研究提供幫助.