国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能視頻監(jiān)控系統(tǒng)中行人再識別技術(shù)研究綜述

2019-11-11 01:07胡正平張敏姣李淑芳孫德剛
燕山大學(xué)學(xué)報 2019年5期
關(guān)鍵詞:度量特征提取行人

胡正平,張敏姣,李淑芳,孫德剛

(1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.燕山大學(xué) 河北省信息傳輸與信號處理重點實驗室,河北 秦皇島 066004;3.山東華宇工學(xué)院 電子信息工程學(xué)院,山東 德州 253000)

0 引言

迄今為止,行人再識別仍是計算機視覺任務(wù)中相對年輕的研究方向,從最初不被廣泛關(guān)注到近幾年成果豐碩,可謂風華正茂。文獻[1]于1961年首次提出行人再識別的概念,所謂再識別,即重新確認某一行人既定特征,該任務(wù)最初與多相機跟蹤任務(wù)聯(lián)系在一起[2]。

行人再識別技術(shù)作為智能視頻監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)之一,能夠?qū)崿F(xiàn)跨視圖信息關(guān)聯(lián)的同時,還是一種通用的特征匹配算法,可為多種不同的機器視覺研究提供解決思路。例如,在無法借助成熟的人臉識別技術(shù)進行行人ID匹配的情況下,基于行人穿著、外貌等信息,輔以行人再識別技術(shù),可提高復(fù)雜場景中行人身份匹配系統(tǒng)的準確性;此外,行人再識別還可以提供非侵犯性的身份一致性匹配方案。又如,公安執(zhí)法人員可以在沒有嫌犯人像信息的情況下,借助行人再識別技術(shù)及時地在案發(fā)地周圍多地監(jiān)控錄像視頻中搜索嫌犯,從而快速準確地定位嫌犯位置并實施抓捕。

除了廣泛的應(yīng)用價值,從學(xué)術(shù)角度看,利用前沿的計算機技術(shù)、借助強大的機器算法,完成對行人信息的高效挖掘和整合可推動其他計算機視覺任務(wù)的長足進步。在實際監(jiān)控場景中,跨視圖攝像機捕捉到的圖像視角、行人姿態(tài)、背景復(fù)雜程度、光照條件以及像素分辨率等普遍存在差異,因此針對靜態(tài)圖像的魯棒性特征提取變得困難,如何充分挖掘行人的有效信息并確定特征提取方法是一個關(guān)鍵問題。此外,如何針對行人這一特殊視覺匹配對象,設(shè)計能夠有效度量特征相似度的特征匹配方法,更準確地排序是又一挑戰(zhàn)性難點。完整的行人再識別框圖如圖1所示。

完整視頻監(jiān)控系統(tǒng)一般包括行人檢測、行人跟蹤、行人再識別3個主要模塊,但受限于過去的硬件設(shè)備性能,早期大都將三者當作獨立子任務(wù)研究,例如針對行人再識別問題,研究者著重提高再識別的準確率而假設(shè)前兩個模塊的工作已完成[3]。行人再識別的技術(shù)本質(zhì)是使用計算機視覺技術(shù)確定特定行人是否存在于圖像或視頻序列中。該技術(shù)的難點主要存在于特征表示和距離度量兩方面,其中特征表示包括光照條件復(fù)雜、局部背景遮擋、拍攝角度多變、行人姿勢多變、衣著外觀不固定等諸多問題;另外,距離度量階段還有類間不同程度混疊、類內(nèi)不同程度不對齊、訓(xùn)練樣本有限、模型泛化能力較弱等挑戰(zhàn),有針對性的解決這些關(guān)鍵問題在行人再識別的研究中有巨大的科研和應(yīng)用價值。

圖1 行人再識別過程框架

Fig.1 Person re-identification framework

本文首先回顧行人再識別研究的發(fā)展歷程;然后分別從特征表示、距離度量以及深度學(xué)習(xí)網(wǎng)絡(luò)模型的角度總結(jié)目前出現(xiàn)的優(yōu)秀算法;介紹幾種常用的圖像行人數(shù)據(jù)集、視頻行人數(shù)據(jù)集以及性能評估指標;最后根據(jù)目前行人再識別的研究進展和存在的問題,預(yù)測未來的研究方向。

1 行人再識別研究概述

隨著計算機視覺任務(wù)研究方法的不斷更新,研究者針對行人再識別問題建立了不少性能良好的系統(tǒng)模型,行人再識別發(fā)展歷程如圖2所示。

圖2 行人再識別主要研究歷程

Fig.2 The main study history of person re-identification

早期行人再識別通常被當作多相機跟蹤任務(wù)的子任務(wù)之一,行人圖像的幾何對齊與表觀模型結(jié)合后與跨攝像頭校準集成以實現(xiàn)跟蹤目的。其中表觀模型包括顏色、紋理、邊緣等特征的提取,1997年Huang Timothy等人提出聯(lián)系上下文的貝葉斯公式[4],該模型根據(jù)攝像機A中觀察所得的目標表觀特征預(yù)測攝像機B中該目標的表觀特征,在某種程度上能夠克服相機參數(shù)的差異,為行人再識別中表觀特征的學(xué)習(xí)帶來了新思路?!靶腥嗽僮R別”專業(yè)名詞直到2005年才被Wojciech Zajdel等人首次明確提出[5],其意義被重新定義為 “重新確定一個離開觀察視野區(qū)后再次進入的行人的身份”。該研究假定每個行人都有一個獨特標簽,首先利用動態(tài)貝葉斯網(wǎng)絡(luò)對行人標簽和不同表觀特征的概率對應(yīng)關(guān)系進行編碼,當有行人目標重新進入觀察視野區(qū)時,該行人身份ID可通過近似貝葉斯算法計算而得的后驗身份標簽的分布決定。作為行人再識別研究的首次獨立嘗試,該研究具有里程碑式的意義。

2006年,文獻[6]提出在前景檢測操作之后基于顏色、顯著邊緣直方圖和Hessian-Affine興趣點算子提取行人的表觀特征,該工作的創(chuàng)新點在于:在前景檢測操作中針對視頻幀設(shè)計時空分割方法,并針對行人再識別子任務(wù)專門設(shè)計特征提取方法,而不再僅僅將其作為多相機跟蹤的某一環(huán)節(jié)。其實驗數(shù)據(jù)集包括由中度視域重疊的3個攝像頭捕獲的44個行人,雖然該工作實質(zhì)上仍屬于基于靜止圖像的行人再識別范疇,但是標志著行人再識別與多相機跟蹤任務(wù)的正式分離,此后行人再識別開始成為一個獨立的計算機視覺任務(wù)。

由于單圖像中的行人特征有限,研究者從2010年開始嘗試基于多幀圖像的行人再識別模型的研究。文獻[7]提出新穎表觀特征提取機制,同一行人的多幀圖像的表觀信息被集中到一個高度信息化直方圖加縮影特征(Histogram Plus Epitome,HPE)中,該特征融合了行人的全局以及細節(jié)特征信息。另外文獻[8]利用分割模型檢測前景之后再提取顏色特征,可以成功克服前景中行人主體外的干擾。隨著所選幀數(shù)的增加,基于多幀圖像的行人再識別模型相對于基于單幀圖像的行人再識別模型可以提取更豐富的表觀特征,對各種環(huán)境變化的魯棒性更強。

基于多幀圖像的行人再識別取得性能優(yōu)化之后,越來越多的研究者開始嘗試基于視頻提取時間-空間特征,視頻具有時間連續(xù)性,理論上可以挖掘到更多的行人辨別性特征。思路之一是將行人視頻幀中的某段時間中的一系列動作為基元進行對齊,文獻[9]利用此思路首先基于光流能量分解圖像序列,為模型學(xué)習(xí)提供一組候選視頻片段集,如此一來,在測試過程中系統(tǒng)將會自動選擇最具區(qū)分性的片段進行匹配,充分利用了視頻中包含的行人全局信息。然而基于視頻的行人再識別研究充分利用時間信息的同時也存在一定的挑戰(zhàn),一般情況下,行人的表觀特征例如衣服顏色會存在較大的差異,然而行走速度或行走周期的差異較細微,對應(yīng)特征向量的類間距離更小從而變得更難區(qū)分。

2012年,基于深度學(xué)習(xí)方法的圖像分類效果取得重大突破[10]。Hinton團隊在ImageNet圖像識別大賽中使用自己構(gòu)建的AlexNet摘得桂冠,證明了深度學(xué)習(xí)在計算機視覺領(lǐng)域里不容小覷的實力,之后深度學(xué)習(xí)技術(shù)逐漸被遷移學(xué)習(xí)到行人再識別的研究中。國內(nèi)代表性研究有,Ouyang Wanli等人提出共同學(xué)習(xí)特征提取,變形、遮擋處理以及分類等行人檢測的關(guān)鍵過程,并提出一個新的聯(lián)合深度網(wǎng)絡(luò)JointDeep模型架構(gòu)[11]。文獻[12]則基于三元組深度多度量學(xué)習(xí)(Deep Multi-metric Learning,DMML)框架分別學(xué)習(xí)行人全局和局部特征,并基于梯度下降法訓(xùn)練多度量損失網(wǎng)絡(luò),為每一種特征單獨學(xué)習(xí)度量函數(shù)。同時國外研究者Anelia A等人采用soft-cascade與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)網(wǎng)絡(luò)結(jié)合的方式得到性能優(yōu)良的行人檢測模型[13]。之后越來越多利用深度學(xué)習(xí)技術(shù)研究行人再識別的文章發(fā)表在國際重要會議CVPR、ICCV、ECCV、AAAI等和期刊TPAMI、TIP等上。

隨著行人檢測和再識別兩個子任務(wù)的性能提升,逐漸有研究者將兩者結(jié)合以求得更優(yōu)異的性能表現(xiàn)。Xu Yuanlu等人首次將行人檢測和再識別兩個子任務(wù)結(jié)合研究,聯(lián)合行人視頻幀的共性和特性共同構(gòu)造行人搜索模型框架[14]。此后2017年CVPR大會上,Xiao Tong等人也提出結(jié)合行人再識別過程的行人搜索問題,相對地說,行人搜索是將前端行人檢測與后端行人再識別的匹配問題同時進行的綜合創(chuàng)新[15]。經(jīng)實驗部分驗證聯(lián)合考慮行人檢測和再識別比獨立研究這兩部分子任務(wù)可以獲得更高的匹配率。

2 行人再識別相關(guān)問題

行人再識別模型通常包括行人特征提取、特征轉(zhuǎn)換、距離度量等模塊,若想提高整個系統(tǒng)模型的性能表現(xiàn),可對各個模塊的性能逐一改善,其中行人再識別問題中的研究重點聚集在特征表示和距離度量上,因此目前行人再識別研究領(lǐng)域的工作主要可以分類為:1)改進行人目標的特征表示方法,力求提取內(nèi)容更豐富且魯棒性更強的行人特征,從而可以更全面地描述行人固有特征;2)尋求更具判別力的距離度量函數(shù)或特征映射子空間,盡可能獲得大類間距離和小類內(nèi)距離。隨著該研究的持續(xù)升溫,從不同角度出發(fā)設(shè)計的各種方法不斷出現(xiàn),類別結(jié)構(gòu)圖如圖3所示,接下來將對相關(guān)行人再識別算法做分類介紹。

圖3 行人再識別類別結(jié)構(gòu)圖

Fig.3 The category structure of person re-identification

2.1 行人再識別特征提取

實際應(yīng)用時,行人表觀特征在不同應(yīng)用場景中容易受場景光照、自身穿著、攝像視角、外部遮擋等因素影響,同時不同攝像設(shè)備還存在參數(shù)和分辨率不同等特點,這使得尋找魯棒的行人再識別特征描述子成為關(guān)鍵的技術(shù)環(huán)節(jié)。

2.1.1低層視覺特征

常用的低層視覺特征主要有:基于RGB[16]、HSV[17]等顏色空間提取的顏色直方圖;Gabor濾波器[18]、局部二值模式(Local Binary Pattern,LBP)等紋理特征;尺度不變特征(Scale-Invariant Feature transform,SIFT)等。

行人再識別研究中提取低層視覺特征時,通常采用分塊機制,文獻[10]基于人體的對稱性和不對稱性為人體局部特征建立加權(quán)算法,提取身體各部分的加權(quán)顏色直方圖、最大概率區(qū)域以及高復(fù)發(fā)結(jié)構(gòu)片段三種互為補充的細節(jié)特征。但因攝像設(shè)備視角差異的存在,一個背包行人的前后表觀特征可能存在較大差異,若對每張行人圖像均提取細節(jié)表觀特征可能會帶來過擬合問題反而導(dǎo)致誤判。因此2007年,文獻[19]定義了形狀和表觀上下文概念,通過模擬每個樣本對象的表觀空間分布區(qū)域,引入可實時計算包含所有給定樣本類的圖像區(qū)域間相似度的表觀模型。行人再識別是一個全局與局部信息對識別都很重要的問題,具體的特征提取分塊機制對特征的表現(xiàn)力也有著巨大影響。2008年,文獻[20]提出首先將行人劃分為幾個穩(wěn)定的特征提取水平條區(qū)域,然后在每個水平條區(qū)域提取顏色和紋理特征,同時注重全局與細節(jié)特征的描述。意大利維羅納大學(xué)的Michela Farenzena等人利用人體左右對稱性和上下不對稱性建模的對稱性設(shè)計局部累積特征(Symmetry-Driven Accumulation of Local Features, SDALF),并混合顏色直方圖、區(qū)域顏色和高復(fù)發(fā)結(jié)構(gòu)等互補特征[21]。具體的特征提取示意圖如圖4所示。局部特征相對于全局特征,更容易受光照、視角、行人姿勢等因素的影響,因此從2013年開始,研究者在工作[22-23]中創(chuàng)新了行人特征塊劃分機制,該類方法使用固定步長的重疊子窗口在水平和垂直方向上滑動分塊,然后從每個興趣塊中密集采樣出LAB顏色直方圖和SIFT特征。Das Abir等人結(jié)合行人特點劃分特征塊,直接從行人頭部、軀干和腿部提取HSV顏色直方圖,獲得了更豐富的行人表觀信息[24]。

相對于特征分塊機制,更加具有表現(xiàn)力的特征描述符也很重要,Kviatkovsky J等人提出利用ColorInv進行行人再識別,顏色不變量ColorInv結(jié)合Log空間中的顏色直方圖、協(xié)方差描述符,基于局部形狀上下文描述子共同描述行人表觀[25]。類似于利用上下文形狀關(guān)系描述行人特征,將行人的顏色特征與顏色名稱結(jié)合可實現(xiàn)對行人表觀特征的語義描述,文獻[26]引入基于顏色描述符的顯著顏色特征,并利用此顏色機制對行人顏色特征進行全局描述,該顏色特征的RGB值對光照變化具有更強的魯棒性。文獻[27]提出局部最大概率特征(Local Maximal Occurrence Representation,LOMO),該特征融合HSV顏色直方圖、尺度不變局部三元模式描述子,最大化人體局部顏色以及紋理特征在同一水平條出現(xiàn)的概率,為了處理光照變化,該算法還應(yīng)用Retinex變換和尺度不變紋理算子。2016年,文獻[28]提出一種層級高斯特征,利用特定的高斯分布來模擬每個特定行人興趣塊中的顏色和紋理特征,最終高斯集的特征仍然使用另一高斯特征表示,層級高斯特征充分利用一般顏色描述符協(xié)方差中不存在的像素特征平均信息,可自然地模擬行人興趣塊中的表觀特征,該方法示意圖如圖5所示。

圖4 對稱性局部累積SDALF特征示意圖

Fig.4 Schematic diagram of SDALF feature

圖5 局部最大概率LOMO特征提取示意圖

Fig.5 Schematic diagram of LOMO feature extraction

2.1.2語義屬性特征

所謂屬性特征,即借鑒人類鑒別兩人是否為同一個人的思路,對待匹配兩人的發(fā)型、外套顏色、褲子鞋子等特征進行計算機語言描述。例如圖6所示女生,假設(shè)定義可描述的6個屬性(是否女性;是否長發(fā);是否穿短裙;是否背包),該女生對應(yīng)的屬性特征向量為[1 1 1 0]。2012年,文獻[29]首先標注了15種表觀語義屬性特征,利用支持向量機(Support Vector Machine,SVM)對某一行人A的語義屬性特征作屬性加權(quán),然后再與幾種其他低層視覺特征融合作為該行人的特征描述向量,該方法首次將低層視覺特征與中層語義特征進行融合,提取更為豐富的行人固有信息從而提高了行人特征描述子的魯棒性。

圖6 行人示例

Fig.6 Person example

除了已定義的行人屬性,屬性特征中的隱含關(guān)聯(lián)也引起研究者的注意,文獻[30]中提出將交叉視圖行人數(shù)據(jù)的低層特征與中級屬性特征集成之后投影到連續(xù)的低秩屬性空間,該低秩屬性矩陣具有較小的類內(nèi)差和較大的類間差,可以糾正不精確的屬性并恢復(fù)丟失的屬性,使屬性向量具有更大的區(qū)分性,在iLIDS-VID和PRID兩大具有挑戰(zhàn)性的數(shù)據(jù)集的Rank-1分別提高了8.5%和3.5%。為進一步利用低層視覺特征的分塊思想對屬性特征進行精確描述,Shi Zhiyuan等人使用最近鄰分割算法對行人圖像進行超像素劃分后再定義多種屬性特征,采用傳輸語義進行行人再識別[31]。使用中層語義特征前,作為數(shù)據(jù)準備,必須對行人的屬性特征進行人工標注,這是一項耗時費力的工作,為方便研究,Li Dangwei等人收集了一個具有豐富行人屬性注釋的大型數(shù)據(jù)集,以此來促進基于屬性特征的行人再識別的研究[32]。

2.1.3時間-空間特征

行人靜止圖像中并不包含時間信息,若單靠顏色和紋理來表示行人表觀特征,在遇到外部遮擋、光照變化、攝像角度變化等情況時識別效果又會受到影響,因此基于視頻幀提取行人運動信息成為行人再識別算法中特征提取部分的又一研究方向。

行人表觀特征偶爾存在服裝顏色相似等情況,但步態(tài)和行走周期相對表觀特征來說是較為獨特的行為特征,因此一些研究人員提出利用步態(tài)信息作為識別的關(guān)鍵[33],該類方法首先利用視頻幀提取行人步態(tài)信息,辨別行人行走步態(tài)之間的細微差別,從而達到區(qū)分不同行人的目的,其中提出的平均池化時間對齊集合表示算法(Avg-Temporally Aligned Pooling Representation,Avg-TAPR)在數(shù)據(jù)集iLIDS-VID和PRID 2011的實驗中將Rank-1提高到55%以及73.9%。另外還有一種比較常見的時空信息提取方法,基于人體結(jié)構(gòu)信息,利用人體不同區(qū)域的空間直方圖和協(xié)方差特征描述視頻幀之間的空間關(guān)系。早在2006年,文獻[8]中首先將行人視頻幀進行前景分割,利用一個時空分布圖標記時間-空間穩(wěn)定區(qū)域后再提取特征,提高了針對低分辨率、遮擋、姿勢、視角以及照明變化的魯棒性。同時期,Hamdoun Omar等人提出使用SURF局部特征來檢測和描述短視頻序列中的特征興趣點,并利用KD樹對這些短視頻序列特征依次進行索引以加速匹配過程,但提取SURF特征使得特征構(gòu)成較為單一,仍舊限制了系統(tǒng)性能的進一步提高[34]。

上述工作大都基于多相機視頻幀間的空間信息構(gòu)建特征描述子,更注重行人視頻幀的空間聯(lián)系,而在最近的一些研究中,將時間次序關(guān)系加入特征提取模型成為研究趨勢。2014年,文獻[10]提出通過提取光流能量分布圖檢測行走周期,然后使用時空梯度方向直方圖(Histogram of Oriented 3D Gradient, HOG3D)[35]和步態(tài)能量圖像(Gait Energy Image,GEI)[36]描述行人運動特征。但是隨著數(shù)據(jù)集的增大,行人的行走周期也非常接近以至于難以分辨,只提取行人的步態(tài)特征顯然不能滿足行人較多的情況,You Jinjin等人在視頻水平提取HOG3D特征,融合基于行人圖像水平提取的表觀特征后構(gòu)成行人的時間-空間特征,該研究利用了所有可用的行人視頻幀,表觀特征提取階段還加入特征池化以保證特征的豐富性[37]。文中頂推距離度量學(xué)習(xí)算法(Top-push Distance Learning, TDL)被用來解決距離度量問題,頂推約束強制對頂級匹配進行優(yōu)化,可使模型更有效地選擇判別性特征來準確區(qū)分不同行人。TDL算法處理前后特征分布對比示意圖如圖7所示。

圖7 TDL處理前后特征分布對比圖

Fig.7 Comparison of feature distribution before and after TDL

2.1.4深度特征

隨著深度學(xué)習(xí)的發(fā)展,行人再識別領(lǐng)域內(nèi)也逐漸利用深度神經(jīng)網(wǎng)絡(luò)自動提取行人本質(zhì)特征。2014年,文獻[12]首先將輸入圖像劃分為三個水平條,經(jīng)過兩層卷積層和一個全連接層得到激活響應(yīng),然后將基于所有水平條提取的特征融合后以向量形式輸出,最后在距離度量階段使用余弦距離計算兩個輸出向量的相似度。Michael Jones等人利用分類問題的常用思路,建立一個深度神經(jīng)網(wǎng)絡(luò)系統(tǒng),通過計算輸入圖像和樣本特征之間的差異設(shè)定閾值來判斷是否屬于同一行人[38]。傳統(tǒng)深度網(wǎng)絡(luò)都是提取整體行人特征再結(jié)合反饋調(diào)整提取機制,文獻[39]則首先將行人圖像分塊,利用多分支卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)提取深度特征,根據(jù)深度特征間的相似度排序判斷行人是否為同一個,自適應(yīng)特征提取網(wǎng)絡(luò)的使用使得計算速度被提高。

傳統(tǒng)特征提取方法可以分別提取低層視覺特征和中層語義特征,深度網(wǎng)絡(luò)同樣也可以考慮中層語義特征的提取。文獻[40]嘗試利用深度卷積體系結(jié)構(gòu)自適應(yīng)地學(xué)習(xí)人的中層特征,還可以自動學(xué)習(xí)所有輸入特征的對應(yīng)潛在關(guān)系,成功地將傳統(tǒng)方法中的有效特征遷移到了深度網(wǎng)絡(luò)的應(yīng)用中。Xu Fangjie等人提出利用卷積自動編碼器進行無監(jiān)督的特征提取,之后交由多個屬性分類器進行屬性分類,結(jié)合屬性類別的映射關(guān)系表計算最終類別的判定[41]。屬性特征的設(shè)計將在很大程度上影響再識別效果,如何實現(xiàn)數(shù)據(jù)驅(qū)動的屬性生成是提取屬性特征的改進方向。Wu Lin等人提出將SIFT特征和顏色直方圖等低層視覺特征匯總到Fisher向量中,經(jīng)過一層全連接層得到最終的行人特征向量,最后使用線性判別分析(Linear Discriminant Analysis,LDA)作為目標函數(shù)進行距離度量[42]。

2.1.5特征提取方法總結(jié)

綜合多種特征提取方法的一般過程,可以看出,特征提取器若魯棒到極致,則趨于刻畫一些無關(guān)緊要的特征,如此,針對同一行人,即使差異較大的圖像表示也會比較接近,但同時這也會導(dǎo)致不同行人特異性的丟失,降低特征的判別力,反之亦然。恰恰說明這兩個切入點在一定程度上是互補的:只有探索同時具有高魯棒性和高判別性的特征,并基于一個合理角度找到兩者之間的折中,才能更從容地應(yīng)對各式各樣的行人圖像,使模型達到真正的魯棒。

上述幾種常用特征描述方法各有優(yōu)劣,針對不同特點的數(shù)據(jù)集可以實現(xiàn)不同的性能表現(xiàn),各個方法的特點及優(yōu)缺點比較總結(jié)如下:1)顏色和紋理特征融合后作為特征描述子,一定程度上可以克服行人表觀差異,但在實際應(yīng)用時仍存在一些問題:顏色特征在不同光照環(huán)境下差異較大,這會導(dǎo)致距離度量階段的匹配出現(xiàn)差錯;相機設(shè)備參數(shù)設(shè)置不合適時,不同顏色在視覺上會很接近而導(dǎo)致誤判;視頻中出現(xiàn)的行人分布面積較小,紋理特征比較模糊,因此難以提取到具有強判別性的紋理特征;將行人分塊進行特征提取雖然較好地克服了由于視角不同而帶來的視覺差異,但并不能克服外部遮擋的影響。2)與低層視覺特征相比,語義屬性特征可以更好地應(yīng)對環(huán)境以及背景變化,但由于攝像設(shè)備的像素質(zhì)量不高以及取像距離較遠等問題的存在,計算機準確判斷男女并進行描述的技術(shù)難度較大。3)模型提取空間、時間特征,或?qū)烧呓Y(jié)合當作行人的辨別性特征,目的都是盡可能尋求更加具有區(qū)分性的視頻特征。但在實際應(yīng)用時,時空特征容易受行人姿勢、光照、行人數(shù)量規(guī)模等影響,從生物學(xué)角度分析,當行人數(shù)據(jù)集的規(guī)模逐漸增大時,行人行走姿勢之間的相似性也會隨之增加,從而限制時空特征的判別性。4)深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,具有無監(jiān)督情況下準確感知高層特征的優(yōu)勢,該特點恰恰適應(yīng)了行人視頻監(jiān)控中存在大量無標簽數(shù)據(jù)的情況,為行人再識別帶來了新的希望。然而大多數(shù)行人再識別數(shù)據(jù)集都只為目標行人提供兩張可用圖像,用來訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)不夠充足;并且深度網(wǎng)絡(luò)系統(tǒng)的參數(shù)目前僅僅通過經(jīng)驗來設(shè)置,若要將系統(tǒng)應(yīng)用到實際中,其中的參數(shù)設(shè)置等細節(jié)需要相關(guān)專家的專業(yè)指導(dǎo),因此它的大規(guī)模應(yīng)用將是一條具有挑戰(zhàn)的道路。

2.2 行人再識別度量學(xué)習(xí)

不論哪種特征提取方法,其實質(zhì)都是按某種規(guī)則將圖像固有的特征信息以向量形式表示,在特征空間中,如何計算相似特征向量間的距離成為另一研究要點。實質(zhì)上,度量學(xué)習(xí)與特征提取互為補充,最終的研究目的是增強特征描述子的魯棒性和判別性,將原始圖像投影到更理想的分類空間中。

傳統(tǒng)方法中,利用L2范數(shù)、巴氏距離、余弦相似度等方法計算得到特征向量之間的距離或相似度之后,可以采用K近鄰算法完成識別匹配過程。這種方法計算速度較快,但識別率普遍不高,因此在行人再識別問題中的應(yīng)用并不普遍。在行人再識別研究中,大多數(shù)方法都屬于監(jiān)督式的全局度量學(xué)習(xí)范疇。所謂全局度量,其目的是針對全部特征使類間距離盡可能大,同時類內(nèi)距離盡可能小,在距離度量中最常使用的是馬氏(Mahalanobis)距離,兩個特征向量xi和xj之間的平方距離可以描述為

d(xi,xj)=(xi-xj)TM(xi-xj),

(1)

其中,M是一個半正定矩陣。

2.2.1圖像水平的度量學(xué)習(xí)

許多經(jīng)典距離方法大都基于公式(1)引入,例如文獻[43]中提出給匹配對設(shè)置邊界閾值,并且懲罰那些侵入邊界的邊緣臨近值,這種方法稱為大間隔最近鄰(Large Margin Nearest Neighbor,LMNN)分類算法,該方法是馬氏距離度量學(xué)習(xí)算法的典型代表。為了避免LMNN中出現(xiàn)的過擬合問題,Zheng Weishi等人提出利用信息理論度量學(xué)習(xí)方法(Information-Theoretic Metric Learning,ITML),通過優(yōu)化兩個多元高斯分布間的相對熵來學(xué)習(xí)度量矩陣,確保學(xué)習(xí)到的距離函數(shù)既滿足給定相似性約束又接近實際距離[17]。度量學(xué)習(xí)算法中的一大特點是,正樣本對的數(shù)量相對比較有限,因此數(shù)量巨大的負樣本對學(xué)習(xí)過程的影響重大。Guillaumin Matthieu等人將度量矩陣的學(xué)習(xí)描述為邏輯回歸問題,最大化訓(xùn)練數(shù)據(jù)中的正負樣本對的分類概率,從而達到學(xué)習(xí)度量標準的目的[44]。2015年,Liao Shengcai等人推導(dǎo)了一種具有半正定(Positive Semi-Definition,PSD)約束和非對稱樣本分類加權(quán)策略的度量學(xué)習(xí)方法,并基于Log邏輯損失函數(shù)應(yīng)用加速近鄰點梯度算子尋找待優(yōu)化距離函數(shù)的全局最小解,該算法充分利用了負樣本對的非對稱性,加權(quán)策略增大了特征區(qū)分性[45]。進一步地,為降低行人圖像中普遍存在的特征不對齊問題,Sun Chong等人同時學(xué)習(xí)度量矩陣和空間分布變量,引入垂直偏差、水平偏差以及腿部變化等三種潛在變量來描述再識別問題中存在的不對齊特征,兩個行人特征之間的距離通過與潛在變量距離最小化給定的距離函數(shù)來確定[46]。另一層面看,不對齊的特征也是行人圖像的特性之一,若能將其與共性結(jié)合共同描述行人,可以作為補充特征利用,為此文獻[47]提出同時考慮圖像對之間的特性和共性,并且得出不同類圖像對之間的協(xié)方差矩陣可以從同類圖像對之間的協(xié)方差矩陣中推斷而出的結(jié)論,該結(jié)論進一步推動了行人再識別技術(shù)在大數(shù)據(jù)集上的研究。

除了學(xué)習(xí)判別性較強的距離度量標準外,部分研究者專注于學(xué)習(xí)區(qū)分性子空間[48]。Liao Shengcai等提出將交叉視圖數(shù)據(jù)投影到一個公共低維子空間w中[27],利用類似于線性判別分析的計算方法[49],該方法中學(xué)習(xí)子空間時將待優(yōu)化目標函數(shù)簡化為

(2)

其中,Sb和Sw分別是類間和類內(nèi)散布矩陣,在學(xué)習(xí)到的子空間w中,使用簡單而直接的度量學(xué)習(xí)(Keep It Simple and Straightforward Metric Learning,KISSME)算法學(xué)習(xí)距離函數(shù)。KISSME算法無需迭代優(yōu)化就可以尋求到閉合形式的解,但缺點是當特征向量的維度較高時,算法運算時間及速度等容易受影響。為了克服該算法的這一特點,文獻[27]利用視網(wǎng)膜Retinex理論和最大化局部特征出現(xiàn)分別處理光照和視角變化,然后通過最大化投影矩陣投射后的同類與不同類樣本對之間差異的方差比學(xué)習(xí)一個距離度量子空間。文獻[50]利用跨攝像頭數(shù)據(jù)學(xué)習(xí)一個交叉視圖映射模型,利用學(xué)習(xí)好的映射模型進行行人特征變換,從而消除不同攝像機拍攝區(qū)域的特征差異,具體的模型優(yōu)化框圖如圖8所示。為學(xué)習(xí)具有較強區(qū)分性的子空間,Zhang Li等人采用Null Foley-Sammon變換學(xué)習(xí)滿足零類內(nèi)散射和正類間散射的判別零空間,增強了子空間判別性[51]。

圖8 交叉視圖映射模型

Fig.8 Cross-view mapping model

還有一部分研究為降低計算復(fù)雜度從而減少系統(tǒng)匹配時間,提出省去KISSME算法之前的必要降維步驟,文獻[52]提出了成對約束成分分析(Paired Constraint Component Analysis,PCCA)算法,該方法學(xué)習(xí)一個線性映射函數(shù)以便能夠直接處理高維數(shù)據(jù),從而減小了計算復(fù)雜度。進一步地,文獻[53]又對子空間投影方法PCCA進行了改進,提出應(yīng)用效果更好、精度更高的正則化成對約束成分分析(rPCCA)算法。學(xué)習(xí)一個可以直接計算特征表達向量間的相似度的模型也是解決行人再識別問題的一個常用思路,Chen Dapeng等人將特征經(jīng)過二次多項式函數(shù)的特征映射,從而實現(xiàn)了馬氏距離與雙線性相似度融合的模型[54-56]。使用支持向量機SVM進行分類也是當時研究者的思路之一,Prosser Sateesh等人提出首先學(xué)習(xí)一組弱RankSVMs分類器,之后再將這些弱分類器級聯(lián)組成強分類器,通過此強分類器來完成分類即再識別任務(wù)[17]。利用從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)而得的詞典表示行人是來自與人臉識別的解決思路,Lisanti Giuseppe等人采用迭代策略學(xué)習(xí)稀疏編碼,匹配過程則采用排序法[57]。文獻[58]利用每個行人的特征特性為每個行人ID學(xué)習(xí)特定的支持向量機分類器,提出利用最小二乘耦合字典算法來學(xué)習(xí)行人的特征詞典映射函數(shù),在常用數(shù)據(jù)集中,該研究取得了較大的性能優(yōu)化結(jié)果。Pedagadi Sateesh等人將近鄰保持映射(Locality-Preserving Projection,LPP)融入傳統(tǒng)的費舍爾判別分析(Fisher Discriminant Analysis,FDA)中,提出了局部費舍爾判別分析LFDA,該方法在多個數(shù)據(jù)集中取得了不錯的效果[59]。

2.2.2視頻水平的度量學(xué)習(xí)

在基于視頻的行人再識別過程中,除了圖像特征提取和距離度量兩個階段,還有一個必要過程,即考慮對多幀圖像的特征做何種距離度量會使特征更具區(qū)分性。

其中一類比較簡單的方法,直接選取兩個圖像特征集合中距離最近的圖像對之間的距離作為集合間距離,該策略被稱為近鄰點法。例如文獻[16]提出表觀特征的上下文學(xué)習(xí)方法,注重行人視頻幀中的表觀特征里所隱含的空間分布模式,該測度使特征能夠反映更多的空間信息。相對近鄰點法,平均分布法更為有效,該方法直接計算兩個圖像特征集合中所有的圖像對之間的距離,最后取這些距離的均值作為兩個集合間的距離。其中比較具有代表性工作如文獻[60],該文獻提出將同一行人的兩不同視角下所得的圖像特征向量級聯(lián)之后,利用徑向基函數(shù)核的支持向量機做二分類操作,支持向量機輸出的分數(shù)可作為排序參考。

另一種可行方法是集合建模法,即以一種顯式的表征形式來表示幾何特征,通常情況下直接取一個典型表達刻畫整個集合的特征,該典型表示的提取方法有兩種,其一是針對視頻時空表觀特征設(shè)計更加全面的表示模型;另外一種是直接對所有圖像的特征求平均作為代表。

基于靜止圖像的行人再識別問題中存在類間距離和類內(nèi)距離的概念,在基于視頻的行人再識別研究中同樣存在類似的距離概念,文獻[61]同時學(xué)習(xí)視頻內(nèi)和視頻間距離的度量方法,這使視頻表示變得更為緊湊且區(qū)分性更強。Wang Taiqing等人利用RankSVM從行人的不完整圖像序列中自動選擇最具辨別力的視頻片段,計算可靠時空特征的同時學(xué)習(xí)人物ReID的視頻分級功能,從而實現(xiàn)了RankSVM在視頻行人再識別中的應(yīng)用[62,9]。

2.2.3度量學(xué)習(xí)方法總結(jié)

綜合圖像、視頻水平的度量學(xué)習(xí)方法,可以看出,現(xiàn)有研究大都從距離概念定義、投影子空間學(xué)習(xí)、特征對齊等角度出發(fā),對行人再識別的度量學(xué)習(xí)方法進行創(chuàng)新和擴展,逐步提出很多行之有效的經(jīng)典算法。總結(jié)目前度量方法的特點如下:1)目前出現(xiàn)的大部分度量學(xué)習(xí)方法大都基于行人特征向量間的距離度量即特征相似度概念進行模型設(shè)計,倘若受特征提取器的影響,行人特征向量中出現(xiàn)了關(guān)鍵信息缺失的情況,該類度量方法的準確度將會大打折扣。因此,基于特征序列提取行人更加立體和全面的表觀及運動細節(jié),并輔以有效的序列相似度匹配方法,將成為未來針對度量學(xué)習(xí)角度的主研方向之一。2)大多數(shù)現(xiàn)有度量方法的模型穩(wěn)定性和實驗結(jié)果的魯棒性需要借助大量的標注數(shù)據(jù)集,然而在現(xiàn)實跨攝像頭監(jiān)控環(huán)境中,對行人樣本的完整采集已屬不易,對大量行人樣本的標注也是一項艱巨的任務(wù),樣本不足增大了高準確度度量方法的學(xué)習(xí)和優(yōu)化的難度。因此如何利用大量未標注行人數(shù)據(jù),學(xué)習(xí)合理高效的度量方法模型,使其在小數(shù)據(jù)集中仍有較好的泛化能力,是未來針對度量方法的又一主研方向。

2.3 常用深度學(xué)習(xí)模型

文獻[12]最早將深度學(xué)習(xí)用于解決行人再識別問題,在行人再識別研究中,常用的深度CNN模型有分類模型[10]和暹羅網(wǎng)絡(luò)模型[63]。文獻[9]利用深度網(wǎng)絡(luò)提取行人特征,首先將將行人圖像劃分成3個圖像區(qū)域,然后經(jīng)過兩組參數(shù)共享的卷積層和一個全連接層進行融合,最后輸出特征向量。香港中文大學(xué)的Li Wei等人首次將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在行人再識別問題中,提出了DeepReID模型,用深度神經(jīng)網(wǎng)絡(luò)來聯(lián)合處理誤對齊、光度學(xué)變換、幾何變換、遮擋和背景雜亂問題,并取得了不錯的效果[64],模型示意圖如圖9所示。方法[10]則提出了一種增加了部件匹配層的改進網(wǎng)絡(luò)結(jié)構(gòu),部件匹配層的引入能夠?qū)煞鶊D像上對應(yīng)位置的卷積響應(yīng)相乘。文獻[65]將暹羅網(wǎng)絡(luò)與長短時記憶模型融合,在分塊基礎(chǔ)上,記憶模型的引入可以自適應(yīng)地記憶圖像之間存在的空間關(guān)系,從而得到更有區(qū)分性的深度特征。暹羅網(wǎng)絡(luò)的缺點是僅僅考慮成對行人圖像的標簽,然而在最近公布的行人數(shù)據(jù)集中行人圖像大都大于兩張,此時分類模型就顯得更加適用于行人再識別問題。文獻[66]使用Softmax代價函數(shù),結(jié)合每個全連接神經(jīng)元的影響系數(shù)和Dropout影響系數(shù),共同學(xué)習(xí)而得的通用分類網(wǎng)絡(luò)可以有效提高行人再識別系統(tǒng)的識別準確率。

圖9 深度再識別DeepReID模型示意圖

Fig.9 DeepReID model diagram

由于視頻運動特征的有效性,若能將運動特征和深度特征提取網(wǎng)絡(luò)綜合考慮,理論上會得到更優(yōu)秀的性能。文獻[67]提出結(jié)合CNN及RNN的循環(huán)卷積網(wǎng)絡(luò)(Recurrent Convolutional Network),首先使用CNN網(wǎng)絡(luò)模型從輸入視頻幀中提取特征,然后將特征作為RNN網(wǎng)絡(luò)的輸入,得到視頻幀之間隱含的時間信息,最后經(jīng)過最大或者平均池化對輸入視頻幀的特征進行整合,得到視頻幀特征的魯棒表達。實驗結(jié)果表明,該算法在iLID-VID以及PRID 2011兩大數(shù)據(jù)集中的Rank-1提高到58%和70%,比傳統(tǒng)深度方法基線高出將近20%。

如上所述,大多數(shù)現(xiàn)有的研究都將行人檢測和行人再識別作為獨立部分來改進,但行人檢測中抓取到的行人框的質(zhì)量和行人跟蹤中追蹤器的準確性將直接影響行人再識別的準確度,分開研究并無法保證實際應(yīng)用時系統(tǒng)的高效性和實時性。

深度學(xué)習(xí)模型的端到端工作模式使這兩者的融合成為可能,一個包含行人檢索和行人再識別模塊的端到端系統(tǒng)示意圖如圖10所示。自工作[14]之后,文獻[68]和文獻[69]引入基于大規(guī)模數(shù)據(jù)集的端到端行人再識別系統(tǒng)模型,這兩個系統(tǒng)模型均采用原始視頻幀作為輸入,在原始視頻幀中直接進行行人檢測,將抓取到的行人框構(gòu)成行人再識別的數(shù)據(jù)集,而不再僅僅局限于提升行人再識別模塊的性能。

圖10 一個包含行人檢索和行人再識別的端到端系統(tǒng)

Fig.10 An end-to-end person re-ID system that includes person detection and re-identification

基于深度學(xué)習(xí)的靜止圖像行人再識別的主要瓶頸在于早期行人圖像數(shù)據(jù)集的數(shù)據(jù)量較小,數(shù)據(jù)不足導(dǎo)致訓(xùn)練不出性能更優(yōu)良的深度網(wǎng)絡(luò)模型?;谏疃葘W(xué)習(xí)的視頻行人再識別在數(shù)據(jù)量上完全不用擔心,解決要點在于采取何種策略對不同的行人視頻序列進行匹配。

3 常用數(shù)據(jù)集及評價指標

3.1 數(shù)據(jù)集

過去幾年發(fā)布了許多基于幀圖像的行人數(shù)據(jù)集,其中常用的基于圖像的行人再識別數(shù)據(jù)集匯總?cè)绫?。最先發(fā)布的是VIPeR[70]數(shù)據(jù)集,它包含632對行人的1 264張行走圖像,該數(shù)據(jù)集是在室外環(huán)境中經(jīng)兩個角度不同的攝像設(shè)備采集而得,背景、光線、角度等的變化豐富,在行人再識別的研究中非常具有挑戰(zhàn)性,因此到目前為止該數(shù)據(jù)集是應(yīng)用最為廣泛的行人數(shù)據(jù)集之一。之后陸續(xù)發(fā)布的行人數(shù)據(jù)集盡可能地涵蓋了各種實際應(yīng)用場景,例如,iLIDS[71]收集了機場大廳中來往匆匆的行人圖像,行人目標的年齡段分布廣泛;CUHK01[72]、CUHK02[73]、CUHK03[64]和Market-1501[74]收集的多為大學(xué)校園的行人,衣著特色變化明顯的年輕人較多。其中CUHK01數(shù)據(jù)集包含971個行人的3 884幅圖像,采用人工標注方式產(chǎn)生,因此圖像質(zhì)量很好;Market-1501數(shù)據(jù)集包含由6個相機拍攝的1 501個行人的32 668幅圖像,采用部分變形模型自動檢測算法標注行人,有些行人圖像只包含了行人的身體部件,但因該數(shù)據(jù)集規(guī)模較大,深度學(xué)習(xí)模型常采用它作為訓(xùn)練集。

行人再識別研究中常用數(shù)據(jù)集詳情匯總?cè)绫?所示,部分數(shù)據(jù)集示例如圖11所示。其中MARS[75]數(shù)據(jù)集非常值得一提,它是到目前為止行人再識別研究領(lǐng)域內(nèi)規(guī)模最大的數(shù)據(jù)集,由清華大學(xué)的Zheng Liang等人在一家校園超市門口自設(shè)角度不同的六臺攝像機錄制而得,MARS數(shù)據(jù)集中包含的是連續(xù)的視頻幀,共包括1 261個行人的17 467段視頻片段,共有行人圖像1 067 516張,由此可見其規(guī)模之大。該數(shù)據(jù)集的行人圖像標注工作全部由計算機使用部分變形模型自動檢測算法(Deformable Parts Model,DPM)完成,也存在嚴重的行人誤檢、較多的錯誤標注和圖像噪聲,不過這種特點使得它成為近期行人再識別研究中最具挑戰(zhàn)性的數(shù)據(jù)集之一。

表1 部分常用基于圖像的行人再識別數(shù)據(jù)集

Tab.1 Some image-based person re-identification data sets

數(shù)據(jù)集名稱發(fā)布時間行人總數(shù)圖像總數(shù)攝像頭個數(shù)采集場景VIPeR[70]20076321 2642室外校園iLIDs[71]20091194762室內(nèi)機場CUHK01[72]20129713 8842室內(nèi)外校園CUHK02[73]20131 8167 26410室內(nèi)外校園CUHK03[64]20141 46713 1642室內(nèi)外校園Market-1501[74]20151 50132 6686室外校園

表2 部分常用基于視頻的行人再識別數(shù)據(jù)集

Tab.2 Some video-based person re-identification data sets

數(shù)據(jù)集提出時間行人總數(shù)視頻片段行人框總數(shù)相機個數(shù)采集場景PRID 2011[76]201120040040k2室外步行街ILIDS-VID[9]201430060044k2室內(nèi)機場MARS[75]20161 26120 7151M6室外校園

綜合近年來陸續(xù)發(fā)布的數(shù)據(jù)集的特點,可以總結(jié)出以下發(fā)展趨勢:1)發(fā)布時間比較連續(xù)且近幾年發(fā)布的數(shù)據(jù)集的規(guī)模在不斷增加,行人的形象類別越來越豐富;2)各數(shù)據(jù)集的采集場景在不斷變化,少有重復(fù)。要實現(xiàn)行人再識別在實際中的應(yīng)用,具有較多難點,這也促進了不同場景內(nèi)更大規(guī)模數(shù)據(jù)集的陸續(xù)發(fā)布;3)行人邊框逐漸由行人檢測算法檢出而不是人工標出,但同時帶來了行人誤檢、誤對齊等問題,這給自動檢測算法的研究提出了更高的要求;4)采集行人圖像的相機個數(shù)越來越多,角度變化越來越多,包含的圖像信息也越來越豐富。

圖11 多數(shù)據(jù)集行人圖像示例

Fig.11 Pedestrian image examples

3.2 評價指標

行人再識別系統(tǒng)目前常用的評價指標主要有累積匹配特征(Cumulative Match Characteristic,CMC)曲線和Rank-N表格。如圖12 CMC曲線示例所示,CMC曲線橫軸對應(yīng)待查詢樣本的排列序號,縱軸對應(yīng)概率值即平均精度,例如CMC曲線上的任意一點(k,p)對應(yīng)的實際意義是指針對查詢集中行人A的某張圖像,在行人候選集中選出相似度最高的前k張圖片,其中包含查詢目標行人的概率值p,由全部N個查詢樣本得到的結(jié)果統(tǒng)計而得:

(3)

其中,l(·)表示指示函數(shù),mi是指第i個查詢樣本對應(yīng)的待查詢前k張圖片中與它同類別的樣本序號。當橫坐標對應(yīng)相等時,不同算法對應(yīng)的縱坐標越大,表明識別效果越好,并且隨著橫坐標的增大,縱坐標表示的準確率呈遞增趨勢。Rank-N表格是CMC曲線上不同算法識別率的數(shù)字直觀表示,一般實驗中考慮Rank-1,Rank-5,Rank-10和Rank-20所對應(yīng)概率值,根據(jù)實際意義Rank-1代表模型系統(tǒng)真正的行人再識別能力。

圖12 CMC曲線示例

Fig.12 CMC curve example

3.3 常用經(jīng)典方法性能對比

綜合考慮上述各有效方法的優(yōu)劣,將當前幾種表現(xiàn)良好的經(jīng)典算法在VIPeR數(shù)據(jù)集中的性能對比、在PRID以及CUHK 01數(shù)據(jù)集中的性能對比、在視頻數(shù)據(jù)集PRID 2011及iLIDS-VID中的性能對比分別匯總?cè)绫?~5所示。

表3 部分算法在VIPeR數(shù)據(jù)集中的識別結(jié)果展示

Tab.3 Some algorithms′ CMC rank results on VIPeR dataset%

算法Rank-1Rank-5Rank-10Rank-20KISSME[16]23.3552.9567.5181.78ITML[17]11.6131.3945.7663.86ELF[20]12.0031.0041.0058.00SDALF[21]19.8738.8949.3765.73LMNN[43]6.2319.6532.6352.25PCCA[52]11.9836.7152.1071.41rPCCA[53]16.0544.0961.6778.24LFDA[59]17.9644.3860.0976.17

表4 部分算法在PRID和CUHK 01數(shù)據(jù)集中的識別結(jié)果展示

Tab.4 Some algorithms′ CMC rank results on PRID and CUHK 01 datasets%

算法PRID數(shù)據(jù)集CUHK 01數(shù)據(jù)集Rank-1Rank-5Rank-10Rank-20Rank-1Rank-5Rank-10Rank-20KISSME[16]16.2440.3053.6168.7715.435.8447.9060.48PCCA[52]12.1835.1650.2067.5610.9930.8743.4957.93rPCCA[53]18.5445.0260.0366.1414.7138.6952.3466.65LFDA[59]15.3137.0150.1064.4013.1129.8339.9651.86

表5 部分算法在視頻數(shù)據(jù)集PRID 2011和iLIDS-VID中的識別結(jié)果展示

Tab.5 Some algorithms′ CMC rank results on PRID 2011 and iLIDS-VID datasets%

算法PRID 2011數(shù)據(jù)集iLIDS-VID數(shù)據(jù)集Rank-1Rank-5Rank-10Rank-20Rank-1Rank-5Rank-10Rank-20KISSME[16]34.3861.6872.1381.0136.5367.8078.8087.07SDALF[21]5.2220.7732.0247.936.3418.8727.1937.34Avg-TAPR[33]68.6494.6197.4498.9355.0287.5693.8897.20TDL[37]56.7480.0087.6493.5956.3387.6095.6098.27LMNN[43]27.1953.7164.9475.1728.3361.4076.4788.93LFDA[59]43.7072.8081.6990.8932.9368.4782.2092.60

由表中結(jié)果可知,相對于基于單幀圖像數(shù)據(jù)集,基于視頻數(shù)據(jù)集訓(xùn)練優(yōu)化的模型具有更好的性能表現(xiàn)。實際應(yīng)用中的視頻流包含豐富的行人細節(jié)信息,因此以多幀圖像作為集合的行人再識別有著更好的實用性與準確性。當前大多數(shù)基于視頻行人再識別的方法,在集合表示和距離度量方面往往比較直接,限制了性能的進一步提升。如何在充分利用視頻幀圖像的細節(jié)信息,緩解行人姿態(tài)變化、遮擋等帶來的負面影響的同時,減少噪聲和冗余信息的過多引入,防止模型過擬合將是下一階段行人再識別研究面臨的主要挑戰(zhàn)。

4 存在問題與趨勢展望

本文回顧行人再識別的發(fā)展歷程,介紹基本任務(wù)的同時,從不同研究方法角度出發(fā)將該問題按照基于特征提取、距離度量、深度學(xué)習(xí)網(wǎng)絡(luò)等方法進行分析與總結(jié)。此外本文還介紹了幾種常用行人數(shù)據(jù)集以及目前使用的性能評價指標;最后對行人再識別目前研究存在的問題和今后趨勢作進一步展望。

到目前為止,現(xiàn)有行人再識別模型在某些小規(guī)模數(shù)據(jù)集上的識別效果已經(jīng)接近人類的識別能力,但隨著監(jiān)控網(wǎng)絡(luò)規(guī)模的不斷擴大,研究中的數(shù)據(jù)集規(guī)模還遠未達到實際需求。而且實際應(yīng)用對視頻內(nèi)容的自適應(yīng)智能化分析要求越來越高,因此從,長遠的研究和應(yīng)用角度來看,未來行人再識別的研究可能主要圍繞以下幾個方面進行:1)收集更大的行人數(shù)據(jù)集、尋求更精確的行人檢測算法。在保證特征描述子的魯棒性和度量學(xué)習(xí)方法的判別性前提下,為接近實際應(yīng)用場景中的規(guī)模,嘗試提出大規(guī)模數(shù)據(jù)集。理所當然,若自動檢測算法的精度比較低,將會帶來很多行人視頻幀數(shù)據(jù)集中的錯誤標注,隨之而來的是行人再識別階段的誤判和再識別準確率的降低,但是目前的自動檢測算法的精度遠不如人類手動剪裁,因此提出較大規(guī)模數(shù)據(jù)集的同時,還應(yīng)該研究出應(yīng)用效果及精度更高的檢測跟蹤算法。2)與其他生物識別技術(shù)結(jié)合。隨著攝像技術(shù)的發(fā)展,遠距離清晰拍攝或者逆光拍攝逐漸也會成為可能,因此可以在再識別模型中加入人臉識別,來輔助再識別準確率的提高。3)減少算法用時,提高識別速度。盡管在小規(guī)模數(shù)據(jù)集中幾乎可以忽略識別時長,但隨著數(shù)據(jù)集規(guī)模的增大,識別速度也是一個需要顧及的性能評價指標,應(yīng)盡可能保證識別效果的同時提高識別效率。實際應(yīng)用時,總是希望能在較短時間內(nèi)準確定位目標行人的行走路線和所在位置,最好能夠?qū)崿F(xiàn)大監(jiān)控網(wǎng)絡(luò)的實時追蹤。4)考慮行人檢測、跟蹤、再識別集成系統(tǒng)的研究。大多數(shù)現(xiàn)有的行人再識別研究可以被當作一種識別任務(wù),是因為實驗中用到的查詢集總有上限,然而在實際應(yīng)用時,行人再識別將成為復(fù)雜開放問題,識別任務(wù)將變?yōu)樵趲缀鯖]有數(shù)量上限的行人查詢集中搜尋目標行人。因此從技術(shù)角度來講,行人再識別未來的研究目標之一仍是提高匹配精度,在此基礎(chǔ)上可以集成行人檢測、行人跟蹤以及行人再識別形成高效的端到端身份識別系統(tǒng),這將大大利于行人再識別模型在實際中的高效應(yīng)用。

猜你喜歡
度量特征提取行人
鮑文慧《度量空間之一》
毒舌出沒,行人避讓
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設(shè)計方案
突出知識本質(zhì) 關(guān)注知識結(jié)構(gòu)提升思維能力
路不為尋找者而設(shè)
度 量
基于MED—MOMEDA的風電齒輪箱復(fù)合故障特征提取研究
三參數(shù)射影平坦芬斯勒度量的構(gòu)造