鄭舟恒,劉 凱
(四川大學(xué) 電氣信息學(xué)院,四川 成都 610065)
行人重識別問題是在非重疊區(qū)域的攝像頭中,對出現(xiàn)的目標(biāo)進(jìn)行判斷是否為同一目標(biāo)的過程[1]。由于在現(xiàn)實場景中,不同的攝像頭之間存在著巨大光照變化、視角差異以及目標(biāo)本身的姿態(tài)變化,該問題在實際解決的過程中存在著巨大的問題和挑戰(zhàn)。目前,比較流行的方法大致可以分為兩類:基于特征描述的方法和基于距離度量學(xué)習(xí)的方法。
首先基于特征描述的方法利用了兩幅圖片之間具有魯棒性的特征來提高目標(biāo)的識別率,一些特有的特征描述由于對視角和光照變化不敏感,所以具有一定的分辨效果。Bazzani等[2]提出一種結(jié)合人體全局和局部特征的行人重識別算法,利用連續(xù)多幀的圖像積累得到全局特征,然后與人體分塊得到特征互相融合得到最終的特征向量;Zhao等[3]將兩幅圖片進(jìn)行劃分,得到不同的小塊,在一定約束條件下尋找到最為匹配的方塊,然后提取出局部特征;Wang等[4]提出了在圖像中尋找一種顯著特征來對行人進(jìn)行匹配的方法。然而,由于相同行人在不同的攝像頭中存在光照和視角的差異較大,這些特征通常無法得到較為精確的結(jié)果。
基于度量學(xué)習(xí)的方法主要側(cè)重于對現(xiàn)有的數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練出來投影矩陣進(jìn)行解決同一行人的不匹配問題。該類方法能夠利用較為簡單的特征達(dá)到較好的分類效果?;诰嚯x度量學(xué)習(xí)距離的方法的主要思想在于學(xué)習(xí)一個測度矩陣,將特征向量投影到一個更容易區(qū)分的空間下。BoostMetric[5]是一種基于三元組形式約束的度量學(xué)習(xí)模型,首先利用一個弱分類器得到半正定矩陣,再通過Boosting來學(xué)習(xí)矩陣的線性組合作為投影矩陣;Pedagadi等[6]將局部Fisher判定應(yīng)用于行人重識別當(dāng)中,利用對散列矩陣求解特征值的方法得到測度矩陣,由于通常求解矩陣的維數(shù)過大,會使用主成分分析的方法進(jìn)行一個降維的過程;Kostinger等[7]利用馬氏距離的思想,提出了簡單有效原則下的度量學(xué)習(xí)方法,能夠有效得降低訓(xùn)練復(fù)雜度,并且在實際中有不錯的識別效果。
然而,在實際情況中存在遮擋、視角變化、樣本不足等情況,存在過擬合現(xiàn)象。現(xiàn)有的各種算法為了解決這類問題,通常需要在測度矩陣學(xué)習(xí)的過程中加入各種約束,從而計算復(fù)雜度極大的增加。對此,本文提出了一種對測度矩陣正則化的算法。文獻(xiàn)[7]提出了KISSME算法,計算過程簡單且能夠很好地應(yīng)用于大量數(shù)據(jù)集的情況,但在訓(xùn)練樣本過少、樣本質(zhì)量較差的情況下,過擬合現(xiàn)象比較嚴(yán)重。為了對文獻(xiàn)[7]中訓(xùn)練得到的測度矩陣進(jìn)行正則化,本文首先正則化生成測度矩陣的兩個協(xié)方差矩陣,將兩個協(xié)方差矩陣特征值分解后,對其特征值進(jìn)行平滑和優(yōu)化,然后可以得到正則化后的測度矩陣,算法在公共實驗數(shù)據(jù)集上的實驗效果顯示改進(jìn)算法可以有效地提高匹配率。
文獻(xiàn)[7]中提出了一種KISSME的算法,首先一對行人對(i,j)之間的相似關(guān)系可以表示為
(1)
其中,S為樣本對(i,j)相關(guān)的集合,而D為樣本對(i,j)不相關(guān)的集合,P0(i,j)為一行人對(i,j)屬于相關(guān)行人對的概率,P1(i,j)表示行人對(i,j)不屬于相關(guān)行人的概率。δ(i,j)越小則對應(yīng)行人對屬于相關(guān)行人對的概率越小。利用特定的特征提取方法,行人對(i,j)的圖像特征可以用(xi,xj)表示,由式(1)可以得到
(2)
由于相關(guān)和不相關(guān)在行人對在特征差空間服從于均值0,協(xié)方差分別為ΣS和ΣD的多維正態(tài)分布,于是可以得到
(3)
和
(4)
其中
(5)
(6)
將式(3)和式(4)代入式(2)中可以得到
(7)
由于常數(shù)項對于最后的結(jié)果沒有影響,式(7)可以化簡為
(8)
式(8)可以看成是馬氏距離的度量,由此可以得到測度矩陣M
(9)
可通過
dij=(xi-xj)TM(xi-xj)
(10)
來計算一組行人對之間的相似度。
由上一節(jié)可以看出,行人重識別的精度是由測度矩陣M的準(zhǔn)確與否來決定的。但是在實際情況中,通常無法獲得足夠的訓(xùn)練樣本,同時KISSME計算過程并沒有加入過多的約束條件,容易產(chǎn)生過擬合現(xiàn)象。當(dāng)訓(xùn)練樣本過少時,有限的訓(xùn)練集無法很好地反映出真實模型,訓(xùn)練得到的測度矩陣在訓(xùn)練集匹配可以達(dá)到非常好的效果,但是在測試集中則無法達(dá)到預(yù)期的結(jié)果。而當(dāng)訓(xùn)練集中出現(xiàn)了遮擋、姿態(tài)嚴(yán)重變化等質(zhì)量較差的訓(xùn)練樣本時,由于無法事先將這些質(zhì)量較差的樣本去除,同樣產(chǎn)生提高在訓(xùn)練集合表現(xiàn),在測試集上效果表現(xiàn)反而欠佳的情況。由于過擬合現(xiàn)象的存在,會對行人重識別的識別精度造成很大的影響,為了防止學(xué)習(xí)到的測度矩陣過于擬合訓(xùn)練集中的噪聲和異常值,提高算法的泛化能力,本文對測度矩陣進(jìn)行了正則化處理。
由式(9)可知,測度矩陣由兩協(xié)方差矩陣的逆相減得到,所以分別對協(xié)方差矩陣進(jìn)行正則化,首先對其進(jìn)行特征值分解,由于對兩個協(xié)方差矩陣進(jìn)行同樣的操作,所以只介紹針對ΣS的操作
Σs=ΨΛΨT
(11)
其中,Λ=diag(λ1,λ2,…,λd)為ΣS的特征值矩陣,特征值從大到小排列,而Ψ是對之對應(yīng)的特征向量。這里將特征值分為3個子區(qū)間:P區(qū)間,L區(qū)間和N區(qū)間,如式(12)所示,其中P空間為特征值較大的區(qū)間,集中了特征值大部分的能量,L空間為特征值相對較小的區(qū)間,而N區(qū)間則認(rèn)為是噪聲區(qū)間,該區(qū)間的特征值過小而容易遭受到噪聲的干擾
(12)
其中,p和q是預(yù)先確定的不同區(qū)間的分界點。分別計算為
(13)
和
q=max{q|λq<(λmed-(λp-λmed))}
(14)
其中,η為一能量比例參數(shù),為P區(qū)間特征值和所占所有特征值和的比例。λmed為所有特征值的中位數(shù)。由于倒數(shù)函數(shù)能夠較好擬合協(xié)方差特征值的分布曲線[8],本文提出利用3個參數(shù)的倒數(shù)函數(shù)模型來進(jìn)行擬合
(15)
(16)
(17)
(18)
擬合之后的特征值分布曲線變得更加平滑,能夠在一定程度上抑制噪聲的影響,為了更好估計協(xié)方差矩陣的特征值,對擬合得到的特征值進(jìn)行進(jìn)一步的處理。當(dāng)缺乏足夠可靠的訓(xùn)練樣本時,獲得的協(xié)方差矩陣中的大特征值相對于真實特征值會偏大,而較小的特征值相對于真實特征值會偏小[9]。本文提出應(yīng)當(dāng)對于不同的子區(qū)間的特征值采用不同的方法進(jìn)行正則化處理:適當(dāng)抑制P區(qū)間中大特征值,同時提高L區(qū)間中較小特征值的影響,對于N區(qū)間,由于其對于噪聲十分敏感,所以只進(jìn)行了平滑處理
(19)
(20)
(21)
本文算法在不同實驗測試集上與現(xiàn)有的算法比較所有實驗均基于Matlab實現(xiàn),實驗平臺為2GB內(nèi)存,Intel(R) Core(TM) i3-2120 CPU 2.66 GHz的PC臺式機(jī)。
在本文使用了廣泛使用的公共測試數(shù)據(jù)集VIPeR,ETHZ,CUHK01,能夠有效得對算法性能與其它算法進(jìn)行比較。在實驗過程中,隨機(jī)選取p張行人圖像對為測試集,將余下的行人圖像對作為訓(xùn)練集。p值取值越大,則對應(yīng)的訓(xùn)練樣本越少,過擬合現(xiàn)象則更為嚴(yán)重。在測試集中,一對行人圖像分為查詢集合和行人圖像庫,給定一種算法后,其性能體現(xiàn)于在行人圖像庫中能否正確找到查詢集合中對應(yīng)的行人圖像。
現(xiàn)有的評價指標(biāo)為積累匹配特性CMC(cumulative match characteristic)。該評價指標(biāo)是指在行人圖像庫中,相似度排名前r的結(jié)果中找到正確匹配的待查詢?nèi)藞D像的比例。其中最重要的是第1匹配率(Rank1),當(dāng)r較小時,其對應(yīng)的匹配率在實際情況中也具有一定的意義,因為可以通過人工搜索的方式尋找到正確匹配的行人對。對于所有的實驗,均重復(fù)10次后做平均作為最后的實驗結(jié)果。
為了將本文算法與其它算法進(jìn)行比較,同文獻(xiàn)[7]中相同,本文對行人圖像只利用底層顏色特征和紋理特征進(jìn)行描述。首先將圖像分割成重疊的大小為8×16的圖像塊,步進(jìn)為8×8,并在每一個圖像塊中提取特征。采用的顏色空間包括RGB和LAB兩種顏色空間,每一個顏色通道都提取了24 bin直方圖。紋理特征采用了LBP紋理特征。最后將得到的特征向量進(jìn)行串聯(lián)。由此一副圖像能夠用一個631維度的特征向量進(jìn)行表示。為了減少冗余信息,利用PCA對特征向量進(jìn)行降維,將特征維度降低至34維。
2.3.1 VIPeR數(shù)據(jù)集實驗結(jié)果
在VIPeR中有1264幅圖像,總共632位行人。每一張圖像都已經(jīng)被人為剪裁為128×48像素大小的圖片。該數(shù)據(jù)集即使對于相同的行人對之間也存在比較大的光照、姿態(tài)、背景等變化,十分具有挑戰(zhàn)性。由于VIPeR是行人重識別問題最主要的數(shù)據(jù)集,大多數(shù)行人重識別算法都在該數(shù)據(jù)集下進(jìn)行比較,所以在該數(shù)據(jù)集下進(jìn)行了多種實驗來驗證算法的有效性和先進(jìn)性。
首先該數(shù)據(jù)集下分析了參數(shù)a和b對于實驗結(jié)果的影響。由于兩個參數(shù)對于不同的特征值區(qū)域進(jìn)行調(diào)整,兩者相對獨立,在進(jìn)行參數(shù)分析時,將另一參數(shù)設(shè)置為0。同時為了觀察參數(shù)對于過擬合的影響,選擇了較少的訓(xùn)練樣本,在這里p取值選取為532。圖1顯示了不同參數(shù)a對于算法性能影響比較。
圖1 不同a參數(shù)對識別結(jié)果的影響比較
圖1可以看出,當(dāng)a取值過大時,會導(dǎo)致最后得到的測度矩陣無法很好得適應(yīng)訓(xùn)練樣本,而當(dāng)a過小,如當(dāng)a=0時候,相當(dāng)于只對協(xié)方差矩陣的特征值進(jìn)行了平滑處理,并無法取得較好的實驗效果。實驗結(jié)果表明當(dāng)a在0.05達(dá)到了最優(yōu)值。所以在本文接下來的實驗中,a的取值均采用0.05且保持不變。圖2顯示了不同參數(shù)b對算法性能的影響。
圖2 不同b參數(shù)對算法性能的影響比較
由圖2可以看出,b取值過大會造成測度矩陣過于偏離樣本。b在區(qū)間(0,0.1)內(nèi)對最后的識別精度效果較好,但是如果b取0,即沒有該參數(shù)影響,在r較小的區(qū)域性能明顯低于有參數(shù)進(jìn)行正則化的情況。所以在本文中b同樣選取0.05。由此通過兩個較小的參數(shù)a和b,可以對測度矩陣進(jìn)行一個調(diào)整,讓其不過分適用于訓(xùn)練樣本數(shù)據(jù)。η則根據(jù)經(jīng)驗值設(shè)定為0.8,由于在P區(qū)間附近的特征值均較大,所以η在一定范圍內(nèi)變化并不會對p,q的取值和最后的分區(qū)造成太大影響。
為了驗證提出的算法優(yōu)于原算法以及其它正則化方法,本文算法與KISSME、RE_KISS[9]和文獻(xiàn)[10]進(jìn)行了比較,后兩種算法都是對KISSME算法進(jìn)行正則化的算法。RE_KISS算法思想是對于協(xié)方差矩陣進(jìn)行特征值分解,在特征值較小的區(qū)域取平均值代替其原有特征值,并將得到的特征值與單位陣做加權(quán)平均,文獻(xiàn)[10]直接將測度矩陣與單位陣進(jìn)行加權(quán)平均處理。由于不同數(shù)量的訓(xùn)練樣本的會存在不同程度的過擬合現(xiàn)象,所以p值選取316和532來分別進(jìn)行比較。4種算法在VIPeR的結(jié)果見表1。
從表1中可以看出,本文的提出算法可以有效得提高行人重識別的精度。在Rank1,提出的算法與原算法比較,不同數(shù)量訓(xùn)練樣本p=316和p=532性能上分別提高了4%和11%,且在Rank10,Rank25和Rank50的匹配率中,均有明顯的改善。當(dāng)p=532時候,即只有少量的訓(xùn)練樣本,過擬合現(xiàn)象十分嚴(yán)重,這就導(dǎo)致了其識別效果明顯低于p=316時的情況,在實際情況中通過正則化方法提高識別精度就變得尤為重要。而在樣本較少的情況下,本文提出的算法對于KISSME算法性能的提升效果更為明顯。和RE_KISS算法、文獻(xiàn)[10]提出的算法相比,僅僅在p=316,Rank1時,性能指標(biāo)低于文獻(xiàn)[10],其它指標(biāo)均優(yōu)于這兩種算法。特別是p=532,對于過擬合的抑制效果顯著優(yōu)于另外兩種正則化算法。說明了算法的有效性。
表1 4種算法在VIPeR中的比較
為了驗證本文算法的優(yōu)越性,將本文提出的算法與當(dāng)前主流的行人重識別算法進(jìn)行了比較,包括歐式距離,KISSME[7],LMNN,PRDC,ITML,CVDWA[11]和rPCCA[12]。同樣對于p的取值為316和532。各個算法的結(jié)果見表2。
表2 多種算法在VIPeR中的比較
從表2中可以看出,在兩個測試集規(guī)模下,每一個Rank等級的正確率均優(yōu)于目前主流的算法,說明了算法在實際應(yīng)用中具有良好的識別精度。注意到當(dāng)p=532,即訓(xùn)練樣本數(shù)量過少時,目前主流的算法識別精度都受了很大影響,而此時本文算法不同Rank等級的正確率優(yōu)勢體現(xiàn)的更為明顯。充分說明了算法對于訓(xùn)練樣本不足產(chǎn)生的過擬合起到了很好的效果。
2.3.2 ETHZ數(shù)據(jù)集實驗結(jié)果
ETHZ中共計8555張圖片由146位行人組成,圖像由一個移動攝像機(jī)中3個視頻序列中提取,同樣將每張圖像尺寸設(shè)置為128×48像素大小。在該數(shù)據(jù)集下,訓(xùn)練集為73對行人圖像,表3分析了本文算法與KISSME算法的比較。
表3 兩種算法在ETHZ中的比較
由于該數(shù)據(jù)集采集的圖像由同一個攝像機(jī)拍攝,相對于其它數(shù)據(jù)集而言姿態(tài)、光照條件變化較小。從表3中可以看出,KISSME算法本身的精度較高,提出的算法在識別精度上提高效果不明顯,在Rank1中僅僅提高了2%,在Rank10中甚至略微低于原算法性能。這也說明了算法的局限性,在樣本條件較好的情況下,本文算法對于識別效果的改善空間有限。
2.3.3 CUHK01數(shù)據(jù)集實驗結(jié)果
CUHK01中由3884幅圖像共971個行人組成。每個行人包含了4幅圖像,前兩幅圖像是攝像頭A拍攝一行人前后的圖像,后兩幅圖像是攝像頭B拍攝同一行人側(cè)面的圖像,從前兩幅中隨機(jī)選取一張,同時從后兩幅圖像中選取一張,從而構(gòu)成相關(guān)行人對。同時將圖像的大小調(diào)整為128×48像素。在本文中測試集為485對行人圖像,訓(xùn)練集為486對行人圖像。從表4中可以看出,本文算法性能在CUHK01數(shù)據(jù)集上均優(yōu)于KISSME算法,在Rank1中匹配率提高了5%。
表4 兩種算法在CUHK01中的比較
在行人重識別問題中,實際情況訓(xùn)練樣本不足、質(zhì)量較差一直是重要而難以解決的問題。由此而帶來的過擬合問題會對算法的準(zhǔn)確性造成影響。為了解決這個問題,本文提出了一種基于測度矩陣正則化的方法,實驗結(jié)果表明能夠有效緩解過擬合問題對行人重識別精度帶來的不利影響。但是在訓(xùn)練樣本足夠,樣本質(zhì)量較好時,對于算法性能的提升并不明顯,在接下來的研究中,將進(jìn)一步研究更有效的距離度量方法。
[1]Liu Z,Huang K,Tan T.Foreground object detection using top-down information based on EM framework[J].IEEE Transactions on Image Processing,2012,21(9):4204-4217.
[2]Bazzani L,Cristani M,Perina A,et al.Multiple-shot person re-identification by chromatic and epitomic analyses[J].Pattern Recognition Letters,2012,33(7):898-903.
[3]Zhao R,Ouyang W,Wang X.Unsupervised salience learning for person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:3586-3593.
[4]WANG Cailing,ZHAN Song,JING Xiaoyuan.Pedestrian re-identification based on salient features in non-overlapping areas[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science Edition),2016,36(1):106-111(in Chinese).[王彩玲,詹松,荊曉遠(yuǎn).基于圖像顯著特征的非重疊視域行人再識別[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2016,36(1):106-111.]
[5]Shen C,Kim J,Wang L,et al.Positive semi-definite metric learning using boosting-like algorithms[J].Journal of Machine Learning Research,2012,13(4):1007-1036.
[6]Pedagadi S,Orwell J,Velastin S,et al.Local fisher discriminant analysis for pedestrian re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Portland:IEEE,2013:3318-3325.
[7]K?stinger M,Hirzer M,Wohlhart P,et al.Large scale metric learning from equivalence constraints[C]//Computer Vision and Pattern Recognition.Providence:IEEE,2012:2288-2295.
[8]Sharma A,Paliwal K K.A two-stage linear discriminant analysis for face-recognition[J].Pattern Recognition Letters,2012,33(9):1157-1162.
[9]Tao D,Jin L,Wang Y,et al.Person re-identification by re-gularized smoothing kiss metric learning[J].IEEE Transactions on Circuits and Systems for Video Technology,2013,23(10):1675-1685.
[10]QI Meibin,WANG Yunxia,TAN Shengshun,et al.Person re-identification based on regularization of independent measure matrix[J].Pattern Recognition and Artificial Intelligence,2016,29(6):511-518(in Chinese).[齊美彬,王運俠,檀勝順,等.正則化獨立測度矩陣的行人再識別[J].模式識別與人工智能,2016,29(6):511-518.]
[11]Chen Y C,Zheng W S,Lai J H,et al.An asymmetric distance model for cross-view feature mapping in person re-identification[J].IEEE Transactions on Circuits and Systems for Video Technology,2016,PP(99):1-1.
[12]Xiong F,Gou M,Camps O,et al.Person re-identification using kernel-based metric learning methods[C]//European Conference on Computer Vision.Zurich:Springer,2014:1-16.