吳成豪 莫緒言 徐瑩瑩 黃強(qiáng)
【摘 要】行人再識(shí)別是智能視頻監(jiān)控中的一項(xiàng)關(guān)鍵任務(wù),是近年來計(jì)算機(jī)視覺領(lǐng)域中一直備受關(guān)注的研究熱點(diǎn),適用于安防以及公共場所尋人等技術(shù)領(lǐng)域。特征提取是行人再識(shí)別技術(shù)中存在的核心問題之一。對現(xiàn)有的基于特征表示的行人再識(shí)別方法進(jìn)行評述,并對現(xiàn)有的行人再識(shí)別方法進(jìn)行了分類,分析其中主要方法的優(yōu)缺點(diǎn)。最后針對主要問題、現(xiàn)有技術(shù)以及未來研究方向,分析了行人再識(shí)別技術(shù)的未來發(fā)展趨勢。
【關(guān)鍵詞】行人再識(shí)別;行人檢測;深度學(xué)習(xí);計(jì)算機(jī)視覺
一、行人再識(shí)別發(fā)展歷史
(一)引言
行人再識(shí)別可定義為: 在無重疊的視頻監(jiān)控網(wǎng)絡(luò)中,對于攝像頭中給定的某個(gè)行人,判斷其是否出現(xiàn)在其他攝像頭中的過程。它是一種自動(dòng)的目標(biāo)識(shí)別技術(shù),是智能視頻監(jiān)控和人體行為分析等應(yīng)用中的重要步驟。隨著我國智能視頻分析需求的亟需提高,行人再識(shí)別技術(shù)的需求應(yīng)運(yùn)而生。行人外觀易受穿著、遮擋、視角以及遮擋的影響,同時(shí)視頻圖像存在分辨率低、光照變換的影響,使得行人再識(shí)別成為計(jì)算機(jī)視覺領(lǐng)域中最具挑戰(zhàn)性的問題之一。
(二)發(fā)展歷史
行人再識(shí)別的研究起始于二十世紀(jì)九十年代中期。近年來,隨著高校、研究所以及一些廠商的研究持續(xù)深入,行人再識(shí)別技術(shù)得到了飛速的發(fā)展。
行人檢測在計(jì)算機(jī)視覺領(lǐng)域的許多應(yīng)用中起著至關(guān)重要的作用,例如視頻監(jiān)控、汽車駕駛員輔助系統(tǒng)、人體的運(yùn)動(dòng)捕捉系統(tǒng)等。圖像的行人檢測方法可以分成兩大類:輪廓匹配和表觀特征。表觀特征又被定義成圖像特征空間(也叫做描述算子),它可以分為整體法、局部法、特征點(diǎn)對法。
在整體法中,Papageorgiou和Poggio[1]提出了Haar小波(HWs)特征,并用SVM訓(xùn)練行人,其中包括了行人的正面和背面。Viola和Jones[2]采用級聯(lián)AdaBoost學(xué)習(xí)算法(即選擇超過一定閾值的弱分類器組成強(qiáng)分類器的算法)提取基本Haar-like特征和擴(kuò)展的兩個(gè)Haar-like特征,用于視頻監(jiān)控的行人檢測。Levi和Weiss[3]則提出邊緣方向直方圖(edge orientation histograms,簡稱EOHs)進(jìn)行人臉檢測。Haar-like可以通過圖像積分圖方法加快運(yùn)算速度。Dalal和Triggs等人提出了梯度方向直方圖特征(histogram of oriented gradient,簡稱HOG)。HOG基于梯度信息并允許塊間相互重疊,因此對光照變化和偏移不敏感,能有效地刻畫人體的邊緣特征。然而HOG也有其缺點(diǎn):特征維度高,大量的重疊和直方圖統(tǒng)計(jì),使得特征的計(jì)算速度慢;遮擋處理能力較差;未利用顏色、形狀和紋理等特征。針對這些缺點(diǎn),近年來一些研究者提出了更多的行人特征,有COV,Integral Channel Feature,ACF,GGP等。Chen等人提出韋伯特征(Weber local descriptor,簡稱WLD)。WLD由兩部分組成:激勵(lì)(differential excitation)和方向(orientation)。
局部法的主要思想是將人體看成是部位的組合。Mohan等人將人體劃分為頭、下半身、左右胳膊這4個(gè)部位,取各個(gè)部位分類器的響應(yīng)值作為支持向量機(jī)的輸入,構(gòu)建一個(gè)組合的多層次分類器來檢測行人。
Edgelet特征描述的是人體的輪廓特征。它將人體分為幾個(gè)部分來訓(xùn)練,每個(gè)部分都使用adaboost算法訓(xùn)練一個(gè)強(qiáng)分類器;在分類時(shí),利用4個(gè)部分的聯(lián)合概率進(jìn)行決策。該算法在出現(xiàn)遮擋的情況下仍然有很好的表現(xiàn),缺點(diǎn)是特征的計(jì)算比較復(fù)雜。
Wu提取圖像的edgelet特征用于檢測靜態(tài)圖像中的人體,對組成人體的各個(gè)部分分別建立模型,每一個(gè)edgelet描述人體的某個(gè)部位的輪廓,然后再用adaboost算法篩選出最有效的一組edgelet來描述人的整體。Wu定義了3種edgelet,包括直線型、弧形和對稱型。這類方法分別檢測窗口的局部區(qū)域,然后再綜合這些區(qū)域的檢測結(jié)果來做最終的判決。優(yōu)點(diǎn)是能更好地處理遮擋以及行人姿勢的多樣性。
二、現(xiàn)有行人再識(shí)別方法
為了克服行人再識(shí)別中的許多問題,國內(nèi)外涌現(xiàn)出了大量的行人再識(shí)別方法。這些方法大致可以分為四類方法:直接法、間接法、深度學(xué)習(xí)、顯著性學(xué)習(xí)。
(一)直接法
直接法利用視覺特征對行人建立一個(gè)魯棒性和區(qū)分性的表示,直接利用行人特征,然后根據(jù)傳統(tǒng)的相似性度量算法(歐氏距離、巴氏距離等)來度量行人之間的相似度。
1.基于matching-CNN的方法
針對一般所獲得的行人特征表示難以有效區(qū)分匹配對和非匹配的問題,提出了一種特征增強(qiáng)的方法。針對不能完全利用行人圖片的底層視覺特征的問題,提出了將HSV顏色特征和LBP紋理特征,在利用特征增強(qiáng)后進(jìn)行有效結(jié)合的方法。此外,由于當(dāng)前研究行人再識(shí)別問題所用到的公開數(shù)據(jù)庫數(shù)據(jù)量都相當(dāng)少,而人工制作、標(biāo)注大規(guī)模的專用數(shù)據(jù)庫過程非常繁重,本文提取了利用海量無標(biāo)簽、非結(jié)構(gòu)化的網(wǎng)絡(luò)視頻對模型進(jìn)行進(jìn)一步調(diào)整的方法,有效地利用了大量數(shù)據(jù)資源中所包含的隱藏信息。
2.基于特征融合與改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法
為了獲得基于突出性顏色名稱的顏色描述(SCNCD)特征對于光照變化較好的魯棒性,提出了融合SCNCD特征和對于視角變化魯棒性高的局部最大出現(xiàn)概率(LOMO)表觀特征的方法; 將圖像劃分為多個(gè)重疊塊,并提取塊特征;引入動(dòng)量項(xiàng)。這樣有助于基于突出性顏色名稱的顏色描述(SCNCD)特征,獲得對于光照變化較好的魯棒性。優(yōu)點(diǎn)是融合后的特征識(shí)別能力明顯高于原特征的識(shí)別能力,且改進(jìn)后的神經(jīng)網(wǎng)絡(luò)收斂速度明顯提高。
3.基于韋伯局部算子和顏色特征的方法
該方法[11]在分析韋伯局部算子(WLD)差分激勵(lì)分量和方向分量的基礎(chǔ)上,用圓形鄰域的差分激勵(lì)表現(xiàn)圖像的紋理特性,然后用LBP(局部二值模式)編碼的方向分量表現(xiàn)圖像邊緣方向,再用HSV顏色空間直方圖表現(xiàn)圖像顏色信息以及紋理信息, 統(tǒng)計(jì)韋伯局部特征算子的圓形鄰域差分激勵(lì)直方圖,最后串聯(lián)特征。WLD不僅能夠有效提取圖像的紋理特征,且對光照和噪聲有較強(qiáng)的魯棒性。解決了精度高的行人再識(shí)別特征數(shù)值復(fù)雜、提取困難的問題。
4.基于耦合特征空間學(xué)習(xí)的方法
在耦合特征學(xué)習(xí)算法的基礎(chǔ)上,提出了一種基于聯(lián)合圖正則化耦合特征空間學(xué)習(xí)的行人再識(shí)別算法。算法分為訓(xùn)練階段和測試階段,在訓(xùn)練階段進(jìn)行投影矩陣訓(xùn)練,利用l2,1范數(shù)和跡范數(shù)進(jìn)行偶合特征提取并使用聯(lián)合圖正則項(xiàng)對投影矩陣進(jìn)行局部約束,使得投影后特征空間具有相關(guān)性和局部性;在測試階段,對不同攝像頭條件下獲取的行人圖像進(jìn)行特征提取得到不同的特征子空間,利用訓(xùn)練得到的投影矩陣將不同的特征子空間投影到一個(gè)耦合的共同特征空間,在這個(gè)共同特征空間上對不同攝像條件下獲得的圖像進(jìn)行距離度量,根據(jù)度量結(jié)果判斷是否是同一個(gè)行人,并得出再識(shí)別結(jié)果。同時(shí)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)行人再識(shí)別系統(tǒng),將行人再識(shí)別技術(shù)的基本流程和該方法綜合應(yīng)用于這個(gè)系統(tǒng)中,在具有挑戰(zhàn)性的行人再識(shí)別數(shù)據(jù)集中實(shí)現(xiàn)了對目標(biāo)行人圖像的再識(shí)別,通過導(dǎo)入目標(biāo)行人圖像,能從候選集中查找出該行人對應(yīng)的再識(shí)別圖像,并進(jìn)行結(jié)果顯示。
(二)間接法
間接法主要是學(xué)習(xí)得到一個(gè)分類器或一個(gè)排序模型。間接法代表性的算法有距離測度學(xué)習(xí)、支持向量機(jī)、遷移學(xué)習(xí)和流形排序算法。
1.基于距離度量的方法
反應(yīng)樣本特性,性能較好,但需要大量的訓(xùn)練樣本數(shù)據(jù)。同時(shí)訓(xùn)練數(shù)據(jù)需要人工標(biāo)定,所以帶來的成本非常高?,F(xiàn)有的距離測度學(xué)習(xí)算法學(xué)習(xí)一種馬氏距離形式的距離函數(shù),其本質(zhì)上是學(xué)習(xí)一個(gè)投影矩陣。但是在投影時(shí),其對不同監(jiān)控視頻的行人圖像特征向量采用同一投影變換,很難消除不同監(jiān)控視頻的特征差異[4]。
2.基于自適應(yīng)度量學(xué)習(xí)的方法
提出了基于自適應(yīng)度量學(xué)習(xí)(AML)的行人再識(shí)別方法。與正常處理所有負(fù)樣本的常規(guī)度量學(xué)習(xí)方法不同的是,AML基于它們與探針的距離將負(fù)樣本自適應(yīng)地分為三組,并對它們給予不同的關(guān)注。良好可分離的負(fù)樣本容易被丟棄以減輕數(shù)據(jù)不平衡并加速學(xué)習(xí)過程,通過加強(qiáng)負(fù)樣本的影響,AML可以更好地挖掘正樣本和負(fù)樣本之間的辨別信息,從而生成更有效的度量。除此之外,由于基于度量學(xué)習(xí)的方法傾向于在高維特征空間中過擬合,在測試階段盲目相信學(xué)習(xí)的度量可能會(huì)產(chǎn)生不理想的結(jié)果,該方法提出了一個(gè)探針特定重新排名(PSR)框架,以細(xì)化由學(xué)習(xí)的度量測量的初始結(jié)果。與直接計(jì)算成對距離不同,PSR考慮在排名前100的圖庫圖像中的鄰域信息以做出魯棒決定,PSR通過考慮測試期間圖庫圖像之間的鄰域關(guān)系進(jìn)一步提高了性能,從而具有良好的魯棒性和優(yōu)越性。
3.基于視覺感知模型的方法
針對行人再識(shí)別問題的影響因素,提出一種基于視覺感知模型的行人再識(shí)別方法。該方法根據(jù)行人的局部對稱性將行人分為頭部、軀干和腿部,分別以行人的軀干和腿部的垂直對稱軸為中心建立基于感知均勻顏色空間CIELAB的局部加權(quán)空間直方圖,結(jié)合貝葉斯框架下基于局部統(tǒng)計(jì)特征的顯著區(qū)域檢測方法描述行人外觀特征。兩種特征分別采用不同的距離測度計(jì)算相似度,并通過自適應(yīng)選取權(quán)值的方法進(jìn)行線性融合。該方法的行人再識(shí)別性能良好,對視覺相似的行人目標(biāo)的識(shí)別有一定的優(yōu)勢。
(三)深度學(xué)習(xí)法
深度學(xué)習(xí)在圖像識(shí)別、語音識(shí)別、自然語言處理等多個(gè)領(lǐng)域取得了優(yōu)異的效果。相比于傳統(tǒng)人工提取特征的方法,深度神經(jīng)網(wǎng)絡(luò)通過從數(shù)據(jù)中自動(dòng)學(xué)習(xí)到更能表征圖像的特征并進(jìn)行分類,更具實(shí)際意義。將深度學(xué)習(xí)應(yīng)用到行人再識(shí)別上已經(jīng)成為當(dāng)前的研究熱點(diǎn),但基于深度學(xué)習(xí)的行人再識(shí)別算法需要非常大的訓(xùn)練數(shù)據(jù)庫,導(dǎo)致訓(xùn)練時(shí)間長,此外還需要針對特定問題搭建相應(yīng)的模型,因此不利于該方法的推廣。同時(shí),深度學(xué)習(xí)方法中還存在調(diào)置參數(shù)缺乏理論性指導(dǎo),具有較大主觀性的問題。
1.基于深度學(xué)習(xí)的方法
提出了一種基于深度學(xué)習(xí)的方法[5],設(shè)計(jì)了一種針對端到端行人再識(shí)別的預(yù)訓(xùn)練網(wǎng)絡(luò)模型,該模型結(jié)合了驗(yàn)證和分類兩種網(wǎng)絡(luò)結(jié)構(gòu),并利用空間池化操作對不同尺度的輸入圖片進(jìn)行特征歸一化。在此基礎(chǔ)上用ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)對端到端的行人再識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。之后在caffe深度學(xué)習(xí)框架上訓(xùn)練改進(jìn)的模型并進(jìn)行多組實(shí)驗(yàn),包括預(yù)訓(xùn)練模型的有效性、不同特征維度對網(wǎng)絡(luò)模型效果的影響、在不同大小的候選集、低分辨率和遮擋子集下的性能分析,以及與當(dāng)前比較先進(jìn)的算法進(jìn)行對比。運(yùn)用該方法訓(xùn)練出來的模型能夠?qū)W習(xí)到具有較高魯棒性的特征,大幅度提高了行人再識(shí)別的識(shí)別率[5]。
(四)顯著性學(xué)習(xí)
基于顯著性學(xué)習(xí)的行人再識(shí)別方法近年來也受到研究者的廣泛興趣。人們可以通過行人的一些顯著信息來識(shí)別行人,但顯著性學(xué)習(xí)的行人再識(shí)別算法在行人姿態(tài)變化的情況下, 顯著性區(qū)域會(huì)出現(xiàn)偏移或者消失,導(dǎo)致識(shí)別效果較差。
1.基于多方向顯著性權(quán)值學(xué)習(xí)的方法
針對當(dāng)前行人再識(shí)別匹配塊的顯著性外觀特征不一致的問題,提出一種基于多向顯著性相似度融合學(xué)習(xí)的行人再識(shí)別算法。首先用流形排序估計(jì)目標(biāo)的內(nèi)在顯著性,并融合類間顯著性得到圖像塊的顯著性;然后根據(jù)匹配塊的4種顯著性分布情況,通過多向顯著性加權(quán)融合建立二者的視覺相似度,同時(shí)采用基于結(jié)構(gòu)支持向量機(jī)排序的度量學(xué)習(xí)方法獲得各方向顯著性權(quán)重值,形成圖像對之間全面的相似度度量。本文算法能夠?qū)崿F(xiàn)大場景非重疊多攝像機(jī)下的行人再識(shí)別,具有較高的識(shí)別力和識(shí)別精度,且對背景變化具有較強(qiáng)的魯棒性。
三、總結(jié)與展望
綜上所述,行人再識(shí)別領(lǐng)域的研究仍然面臨著很多的挑戰(zhàn),基于深度圖像的人體部位識(shí)別技術(shù)對于上肢的識(shí)別效果還有待提高,如何解決復(fù)雜多變的姿勢對識(shí)別的干擾,特別是當(dāng)一些部位被遮擋時(shí)。由于行人在人群中有時(shí)候會(huì)被隱藏或者會(huì)被其他行人所遮擋,身影重疊,就會(huì)導(dǎo)致截取不到所需要的行人特征,難以識(shí)別。目前提出了無視野重疊區(qū)域的跨攝像機(jī)行人跟蹤技術(shù),但是由于在實(shí)際的交通監(jiān)控環(huán)境中存在復(fù)雜的背景、行人間遮擋、攝像機(jī)拍攝視角和攝像機(jī)間自身屬性差異等因素干擾,使得無視野重疊區(qū)域的跨攝像機(jī)行人跟蹤面臨著巨大的困難與挑戰(zhàn)。所以未來需要結(jié)合行人檢測、跟蹤和再識(shí)別算法研究出可更好的輔助于無視野重疊區(qū)域的跨攝像機(jī)行人跟蹤的算法。在多鏡頭行人再識(shí)別中,我們需要對每個(gè)檢測對象的所有圖像進(jìn)行處理,因此通過設(shè)計(jì)更高效的關(guān)鍵頓選擇方案能夠減少再識(shí)別的計(jì)算時(shí)間。由于姿勢和光照等因素的變化使不同相機(jī)中所得行人的外形具有明顯變化,較難提取不變性特征,導(dǎo)致識(shí)別率偏低問題。針對行人再識(shí)別精度低的難題,未來需要結(jié)合行人檢測、跟蹤和再識(shí)別算法研究出可更好的輔助于無視野重疊區(qū)域的跨攝像機(jī)行人跟蹤的算法。需要更多的研究人員投入到這一項(xiàng)極其具有研究價(jià)值、應(yīng)用前景的領(lǐng)域中來。未來需要研究發(fā)明出性價(jià)比較高的儀器方便試驗(yàn)技術(shù)研究。
相信隨著機(jī)器學(xué)習(xí)、模式識(shí)別和圖像處理等相關(guān)領(lǐng)域研究的不斷發(fā)展,計(jì)算機(jī)計(jì)算能力不斷增強(qiáng),行人再識(shí)別技術(shù)會(huì)走向成熟,走向更廣泛的實(shí)際應(yīng)用。
【參考文獻(xiàn)】
[1] Papageorgiou C, Poggio T. A trainable system for object detection.Int l Journal of Computer Vision, 1600,28(1):15-24.
[2] Viola P, Jones MJ, Snow D. Detecting pedestrians using patterns of motion and appearance. In: Proc. of the Intl Conf.on Computer Vision. 1603. 725-731..
[3] Levi K, Weiss Y. Learning object detection from a small number of examples:The importance of good features. In: Proc. of the IEEE Conf.on Computer Vision and Pattern Recognition. 1604.53-60.
[4] 俞婧,仇春春,王恬,許金鑫.基于距離匹配的行人再識(shí)別技術(shù)綜述[J/OL].微處理機(jī),1616,3
[5] 焦旭輝.基于深度學(xué)習(xí)的行人再識(shí)別技術(shù)研究[D].西南交通大學(xué),1617.