竇偉
(中國人民公安大學研究生院,北京100038)
隨著“平安城市”管理系統(tǒng)在我國的不斷推進,我國逐步實現(xiàn)了主要城市視頻監(jiān)控系統(tǒng)的覆蓋。為貫徹科技強警的要求,構建全覆蓋、全天候的監(jiān)控網(wǎng)絡,以提高對違法犯罪行為的應對與打擊能力,到十三五初期,我國為建設視頻監(jiān)控系統(tǒng)而布設的前端攝像頭已經(jīng)超過2500 萬個。隨著視頻監(jiān)控網(wǎng)絡規(guī)模的不斷擴大,僅僅依靠人力分析視頻圖像的效率變得極其低下。一方面,環(huán)境的多樣性導致監(jiān)控區(qū)域的復雜性增加,另一方面,在跨區(qū)域追蹤時,視頻監(jiān)控的信息量將成倍增加。因此,在跨視域情況下從大量監(jiān)控信息中篩選出支撐公安業(yè)務的重要犯罪信息顯得尤為重要,行人再識別技術應運而生。
近些年,在引入深度學習相關方法后,行人再識別技術發(fā)展迅速,基于深度學習的算法在現(xiàn)有的行人重識別數(shù)據(jù)集上都展現(xiàn)出優(yōu)越的性能,經(jīng)典數(shù)據(jù)集有VIPeR[6]、GRID[7]、Market-1501[8]、CUHk03[9]等。然而已有數(shù)據(jù)集難以模擬出真實環(huán)境的復雜性,評價標準也與實際情況相去甚遠,這使得行人再識別算法即使在數(shù)據(jù)集上跑出很高的得分,也難以在實際應用中發(fā)揮應有作用。隨著視頻圖像數(shù)量的增多、攝像頭光線與角度的變化、采集時間與地點的多樣化,數(shù)據(jù)集的可識別難度到達了瓶頸期,同時現(xiàn)有評價指標較為統(tǒng)一且變動甚微,這使得算法性能出現(xiàn)“虛高”現(xiàn)象。因此,為了提高行人再識別算法的實用性,本文對已有行人再識別算法評價指標進行概括說明,并對提升評價指標的合理性提出了改進方案。
早期的行人再識數(shù)據(jù)集種類少,內容簡單,多采用CMC(Cumulative Match Characteristic curve)評估曲線對相關算法進行評估。CMC 評估曲線,即累積匹配特性曲線,是一種計算top-k 擊中概率的曲線,主要用于閉集測試。計算過程如下:
在一個識別的數(shù)據(jù)集中,假設底庫里有100 個人,現(xiàn)在我們要識別某一個人A(設其label 為x0),將其與整個底庫里的行人圖片比對后,按照相似度得分從高到低進行排序,我們發(fā)現(xiàn):
如果經(jīng)過識別后得到的結果是x0、x1、x2、x3、x4…,那么,rank-1 的準確率就是100%;rank-2 的準確率也是100%;rank-5 的準確率也是100%;如果經(jīng)過識別后得到的結果是x1、x0、x2、x3、x4…,則此時rank-1的準確率就是0%;rank-2 的準確率是100%;rank-5的準確率也是100%;如果經(jīng)過識別后得到的結果是x1、x2、x3、x4、x0…,則此時rank-1 的準確率就是0%;rank-2 的準確率也是0%;rank-5 的準確率是100%;可見,對于rank-k 的計算,如果在第n 次搜索到正確的目標,那么在k
同理,在待識別的人臉集合數(shù)目較多的時候,采取對其識別結果取平均值的方法,作為評價的結果。比如我們待識別的目標行人有3 個A、B、C(假設他們的label 分別為x0,x1,x2),那么,對于每一個人,將他們與底庫中的行人圖片進行比對,將每個比對的結果按照相似度得分從高到低進行排序。
如果對于行人A、B、C 的識別結果如表1 所示。
表1 對于人物A、B、C 的第一種搜索結果
那么rank-1 的準確率是(1+1+1)/3=100%;rank-2的準確率是(1+1+1)/3=100%;rank-5 的準確率是(1+1+1)/3=100%;可見,對于搜索三個目標行人時,其準確率的計算采用了取均值的方法。由于三個目標行人都是在第一次就搜索正確,所以其后的rank-k 的值都是100%。
如果對于行人A、B、C 的識別結果如表2 所示。
表2 對于人物A、B、C 的第二種搜索結果
那么rank-1 的準確率是(0+0+0)/3=0%;rank-2 的準確率是(0+1+0)/3=33.33%;rank-5 的準確率是(0+1+1)/3=66.66%;由于第一個目標人物A 在前五次均沒有搜索正確,所以對于目標A 的rank-k<5 時,值均為0。
CMC 曲線會對正確的搜索結果中置信度最高的n張圖求平均值,獲取一個最終結果。隨著測試次數(shù)的增加,再識別的準確度將會提高,其總體趨勢是隨著k值的增大rank-k 趨向于1。因此,在選取考量的時候選值k 常常小于20,并且尤為注重一個算法的rank-1的能力,又稱算法的第一識別率。在Y.Deng 提出的PETA 數(shù)據(jù)集中,搜索結果的一個示意圖如圖1 所示[3]。其中,紅色代表錯誤樣本,藍色代表正確樣本。
圖1 搜索結果示意圖
當query(查詢圖像)對應的gallery(候選行人庫)中每個人的圖像僅有一張時,CMC 評估曲線評估能力較好。將VIPeR、GRID、PRID 等作為數(shù)據(jù)集的行人再識別算法,例如廖勝才于2015 年提出的LOMO_XQDA算法[2],都使用了CMC 評估曲線作為評價指標。CMC評估曲線在比較兩個算法性能的優(yōu)劣時,曲線越靠近豎軸,代表該算法性能越好。Liao 用LOMO 對VIPeR數(shù)據(jù)集進行特征提取并且在XQDA 度量學習下測試,其CMC 曲線如圖2 所示。
圖2 LOMO_XQDA算法在VIPeR數(shù)據(jù)集下的CMC評估曲線
當gallery 中每個人的圖像為多張時,CMC 評估曲線則出現(xiàn)了一些問題。例如,在Market-1501 數(shù)據(jù)集中,query 和gallery 有一定概率出自于同樣的攝像機視角,然而每個query 可能對應同一攝像頭收集的gallery的多個樣本,該方法僅保留其中一個匹配度最高、最容易識別的樣本,其余樣本則被剔除。換句話說,query的返回圖像往往是gallery 中最容易識別的正樣本,其它更難識別的正樣本則被忽略。換言之,對于每個gallery 存在多個實例的情形,用CMC 計算的準確率不能很好地評估算法的優(yōu)劣。此外,對于擁有相近rank 命中率的算法來說,CMC 也不能很好地區(qū)分它們的性能。例如兩個算法在rank-10、rank-20 上的命中概率相同,但是其中一個算法搜索的結果可能更靠前,則其性能更優(yōu)越,但在CMC 評估曲線上無法做出合理的區(qū)分。
行人再識別技術的快速發(fā)展和機器學習的引入使得更多大規(guī)模的數(shù)據(jù)集出現(xiàn),數(shù)據(jù)集的時間復雜性和空間復雜性都有大幅度提升,其圖片可能來自于多個時間段、多個空間、多個角度。此外,數(shù)據(jù)集的形式不局限于圖片,還出現(xiàn)了視頻序列,一個視頻序列中可能有某個人的幾十張圖片。此時僅用CMC 曲線一個評估指標對算法的優(yōu)劣進行判定就顯得力不從心了。因此,為了解決gallery 中存在多個正確樣本的問題,一個新的評估指標平均正確率均值(mean Average Precision mAP)應運而生。
mAP 的核心思想在于,優(yōu)秀的行人再識別系統(tǒng)應當返回query 在gallery 中對應的所有真實匹配的樣本。假如有兩種行人再識別算法,二者均能發(fā)現(xiàn)第一個真實匹配,召回能力卻有很大差別。此時,相比于CMC 曲線,mAP 展示出很大的優(yōu)越性,是一個更系統(tǒng)全面的評估指標。
首先介紹什么是準確率(Precision)和召回率(Recall):準確率是指返回的樣本中正確樣本占總樣本的比例,召回率是指返回到正確樣本占全體正確樣本的比例,二者均針對同一類別進行計算,并且只有檢索到當前類別時才進行計算。
準確率= 返回的正確樣本個數(shù)/返回的總樣本個數(shù)
召回率= 返回的正確樣本個數(shù)/全體正確樣本個數(shù)
應用于行人再識別中可舉例,若行人A 的標簽為X0,測試集中包含3 張行人A 的樣本圖像,將匹配出的樣本圖像依照得分從高到低的方式進行排列,如表3所示。
表3 檢索結果排序
第一次檢索到X0,返回的正確樣本個數(shù)=1,返回的樣本個數(shù)=1,返回的樣本個數(shù)=2,正確率=1/1=100%,召回率=1/2=50%;
第二次檢索到X0,返回的正確樣本個數(shù)=2,返回的樣本個數(shù)=6,返回的樣本個數(shù)=2,正確率=2/6=33.33%,召回率=2/2=100%;
那么平均正確率AP=(100%+33.33%)/2=66.67%,當檢索任務為多個目標行人時,正確率的計算就是取檢索到的每個人的正確率的平均值mAP。
關于mAP 的計算,在market1501 的評估代碼里還有另一種計算方法,即求Precision-Recall 曲線的面積。該方法計算的是Precision-Recall 曲線下的面積,與信息檢索領域計算每次命中時準確率的平均值不同。在做比較時,曲線在上面的算法性能好(即準確率和召回率都高的情況),如圖3 所示,藍色線代表的算法要比紅色線的性能好。如果出現(xiàn)交叉的情況,就要看具體情況去計算面積差值來做進一步的比較。
圖3 Precision-Recall曲線
隨著行人再識別技術的快速提升,相關算法的測試結果取得了矚目的成就。2018 年,主打人工智能算法與視頻深度學習技術的千視通,在行人再識別常用數(shù)據(jù)集Market 1501、DukeMTMC-ReID、CUHK03 上的測試結果有著巨大的突破,千視通Market 1501 上的首位命中率(Rank-1 Accuracy)達到97.1%,已經(jīng)超越人眼識別能力(94%),刷新了2018 年4 月公布的96.6%的世界紀錄?,F(xiàn)有的行人再識別數(shù)據(jù)集近乎涵蓋了所有的現(xiàn)實情境,如遮擋、服飾與姿態(tài)變化、多視角、分辨率變化等。Y.Deng 等人提出,可將各種類型的數(shù)據(jù)集揉合來提高數(shù)據(jù)集的復雜度和再識別的困難性,對算法提出了更嚴峻的考驗,并且提出了一個新的數(shù)據(jù)集PETA[3]。除此之外,筆者認為可以在算法的評價指標方面加以改進,以更好地測試算法的性能。在實際應用中,大多采用CMC 和mAP 相結合的形式共同評估行人再識別算法的性能。例如,Yifan Sun 團隊于2017年ICCV 上提出的《SVDNet for Pedestrian Retrieval》,便采用了二者結合的評估方式,如表4 所示。
表4 SVDNet 算法的性能指標及結果
在當前的行人再識別算法中,通常將gallery 中的樣本與query 進行某種特征(如顏色特征、紋理特征)的相似性度量,而后按照樣本間距由近到遠的順序對樣本進行排列,最后計算每個樣本的準確率。準確率的計算是一個二值化的判斷,輸出結果僅為0 或1,計算準確率的具體方法是得到gallery 中每個樣本圖片的特征矩陣,分別將其與query 的特征矩陣進行相似性度量,設定一個閾值M,度量結果大于M,該樣本判定為正樣本,輸出1,反之為負樣本,輸出0。該方法僅考慮匹配的圖片是正樣本還是負樣本,而忽略圖片的質量和有效性。
以圖4 為例,假設我們需要在gallery 中搜索左圖中的男子,匹配結果為右邊四張圖片,人像有正臉、側臉、背影之分,圖片像素質量不一?,F(xiàn)有的評估指標認為,右邊的四張圖片均為正樣本,但無法進一步判斷匹配的行人圖像對判定行人面部及其他信息是否具有有效性,也無法評估圖片的清晰度對實際需求的滿足程度。在實際應用中,通常情況下無法獲取質量較好的犯罪嫌疑人的圖像信息,用于檢索的query 有可能為側臉或背影,且圖片像素低下,模糊不清。我們希望獲取便于識別嫌疑人身份信息的圖片,即清晰度較高的正臉照和全身照,為下一步業(yè)務工作的開展提供重要線索。這就要求準確率的計算不能簡單地“一概而論”,僅判斷圖片是否為正樣本,而應當對包含不同信息量的正樣本返回不同的數(shù)值加以區(qū)分。
為了滿足工作的實際需求,本文提出了一種改進的行人再識別評估指標。本文主要針對行人的正臉、側臉以及背影分配權值,以評估算法的匹配難度以及匹配圖像的信息量。將匹配到正臉、側臉或是背影等幾種不同的情況加以權重,以得分的平均作為算法的最終得分,以此來構建一個更全面的評估指標。
例如,在VIPeR 數(shù)據(jù)集中,將632 個人物的1264張圖像去除四張不符合要求的圖像后,按照檢索到正臉、側臉或是背影分為以下幾種情況,其在LOMO 算法下的準確率如表5 所示。
表5 VIPeR 數(shù)據(jù)集中包含的圖像分類后結果及其準確率
由表5 可見,對于不同情況下的行人圖像,算法的識別能力并不一樣,因此不能一概而論,而是要適當?shù)募右粋€權值進行計算,才更為合理。根據(jù)實際情況調查,我們拿到的多數(shù)為側臉或是背影較多,且圖像質量多數(shù)不好,故此我們以上四種情況的得分ki分別配以權值αi,每類圖片的數(shù)量(張)為ni,其中i 取1 到4 的整數(shù),則其最終得分的計算如下式:
根據(jù)實際需求將α 取一組數(shù)值分別為0.9、1.0、1.0、0.9,進行重新計算得分后,將其結果與原結果對比如表6。
表6 改進后的評分與原指標的評分比較
由表6 可知,改進后的評估,總體準確率都要下降十幾個百分點,可見新的評估方法考慮到實際情況后,對算法提出了更為苛刻的要求,這就要求我們繼續(xù)改進算法,以期算法可以更好地、更貼合實際情況地提升其能力,這為行人再識別的未來發(fā)展指明了一個方向,對于其商業(yè)化以及更好地應用具有指導作用。
當前行人再識別領域的算法評估指標較為統(tǒng)一,多數(shù)采用累計匹配特性曲線CMC 與平均準確率mAP相結合的方式,并且非常注重算法的第一識別率。然而隨著深度學習技術的引入,再用老的評估指標來進行評價,最新的算法都可以得到非??捎^的得分,導致該方向的研究達到了一個瓶頸,然而這距離實際的應用卻是相去甚遠,所以本文提出了一個新的改革性的方向,即改進對其的評估。本文提出了一種新的改進的評估方法,希望能對行人再識別的未來發(fā)展提供一個新的方向,為其更好地應用、更好地服務人民具有一定的借鑒意義。