胡誠,陳亮,張勛,孫韶媛
(1.東華大學信息科學與技術學院,上海 201620;2.東華大學數(shù)字化紡織服裝技術教育部工程研究中心,上海 201620)
行人視覺屬性識別,由于它的高層的語義信息,可以建立人的底層特征和高層認知的聯(lián)系。因此在計算機視覺領域是一個很熱門的研究方向。并且在很多的領域也取得了成功。例如:圖片檢索、目標檢測、人臉識別。近些年,隨著平安城市的概念的提出,數(shù)以萬計的監(jiān)控攝像頭裝在了城市的各個角落,保護著人們的安全。因此,監(jiān)控場景下的行人視覺屬性的識別具有重要的研究價值,并且它也在智能視頻監(jiān)控和智能商業(yè)視頻有很大的市場前景。
當前大多數(shù)的行人屬性識別研究主要在兩個應用場景:自然場景和監(jiān)控場景。自然場景下的屬性識別研究較多,在目標識別、人臉識別等研究方向上也取得了很好的成績。例如,自然場景下的屬性識別的研究最早是Ferriari[1]提出。在他的論文中,提出了概率生成模型去學習低層次的視覺屬性,例如:條紋和斑點。Zhang[2]提出了姿態(tài)對齊神經(jīng)網(wǎng)絡,在沒有約束的場景下,對圖片進行像年齡、性別和表情這些屬性的識別。在自然場景下用于行人屬性識別研究的樣本圖片的分辨率都很高。然而監(jiān)控場景下的行人樣本的圖片分辨率較低,并且很模糊。像行人戴眼鏡這樣的細粒度的屬性是很難識別出來的。主要是在真實的監(jiān)控場景中,是遠距離拍攝行人的,很少能拍攝的到近距離的清晰的人臉和身體。監(jiān)控場景下的遠距離拍攝也容易受到一些不可控的因素的影響。例如,光照強度的變化(例如白天和夜晚,室內(nèi)和室外),監(jiān)控攝像頭不同的拍攝角度行人姿態(tài)的不同的變化,現(xiàn)實環(huán)境中物體的遮擋等等。因此,使用遠距離拍攝的臉部或者行人身體的視覺信息來進行屬性識別,這對監(jiān)控場景下的行人屬性識別的研究工作帶來挑戰(zhàn)。
由于上述的種種問題,國內(nèi)外對于監(jiān)控場景下的行人屬性識別的研究工作還是比較少。Layne[3]是第一個通過使用支持向量機(SVM)去識別像背包、性別這樣的行人屬性,然后通過這些行人屬性信息來輔助行人的重識別。為了解決混合場景下的屬性識別問題,Zhu[4]引入了APis數(shù)據(jù)庫,并用Boosting算法去識別屬性。Deng[5]構建了最大的行人屬性數(shù)據(jù)庫,在這個數(shù)據(jù)集的基礎上使用支持向量機和馬爾科夫隨機場去識別屬性。然而這些方法,都是使用人工提取行人特征。而人工提取特征需要依賴人的經(jīng)驗。經(jīng)驗的好壞決定了屬性特征識別的精確度。另外,這些方法也忽略了屬性特征之間的關聯(lián)。例如,長頭發(fā)這個屬性特征是女性的可能性一定是高于男性的。所以頭發(fā)的長度有助于提高行人的性別的屬性的識別精度。
受到卷積神經(jīng)網(wǎng)絡在計算機視覺領域上廣泛的應用的啟發(fā)。本文提出了一種在監(jiān)控場景下基于卷積神經(jīng)網(wǎng)絡來識別行人屬性的方法。卷積神經(jīng)網(wǎng)絡在訓練過程中可以自動提取行人特征。重新定義新的損失函數(shù),同時考慮所有行人屬性特征之間的聯(lián)系。與人工提取特征的方法相比,操作簡單,有效地利用了行人屬性特征之間的聯(lián)系,提高了屬性的識別精度。
深度學習是機器學習研究中的新的領域。其目的是建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡。模擬人腦的機制來解釋數(shù)據(jù),例如圖像、語音等。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks)是深度學習的一種,目前已成為語音識別和圖像識別領域的研究熱點。一個典型的卷積神經(jīng)網(wǎng)絡結構,主要由卷積層、激勵層、池化層、全連接層等疊加而成。由于卷積神經(jīng)網(wǎng)絡的局部感受野和權值共享的特點,降低網(wǎng)絡參數(shù)選擇的復雜度。圖像可以直接作為網(wǎng)絡的輸入,避免了傳統(tǒng)圖像識別算法中的復雜的特征提取和數(shù)據(jù)重建的過程。
Krizhevsky[6]等人提出了一種新型卷積神經(jīng)網(wǎng)絡(簡稱AlexNet)在2012年大規(guī)模視覺識別挑戰(zhàn)競賽中,贏得了第一名,Top-5錯誤率為15.3%,比上一屆冠軍下降了10%。該網(wǎng)絡模型在圖片識別上十分出色。典型的AlexNet網(wǎng)絡結構如表1所示??偣灿?層,其前五層是卷積層,即卷積層1、卷積層2、卷積層3、卷積層4、卷積層5。卷積層的作用是進行特征提取。后三層是全連接層,即全連接層6、全連接層7、全連接層8。全連接層的作用是連接所有的特征,將輸出值輸入給Softmax分類器。每一層都采用ReLu函數(shù),能保證數(shù)據(jù)輸入與輸出是可微的。在第一個和第二個ReLu函數(shù)后是響應歸一化和最大化池化操作,同時第五個卷積層后也是最大化池化操作。另外,全連接層8,也是輸出層,輸出1000個節(jié)點,對應1000個類別,應用Softmax回歸函數(shù)得到分類值。
盡管AlexNet網(wǎng)絡模型在圖像識別上表現(xiàn)很出色,但是卻存在兩方面的問題:第一,該網(wǎng)絡模型目前應用的場景是自然場景,圖片樣本的分辨率高。第二,AlexNet處理的圖片識別問題都是單標簽分類問題。即卷積神經(jīng)網(wǎng)絡訓練的時候,輸入給網(wǎng)絡是一張圖片和對應的單個標簽。真實監(jiān)控場景中,每一個行人樣本圖片中有性別、頭發(fā)、上下身衣服類型和顏色等多種屬性。所以,AlexNet網(wǎng)絡模型無法直接解決行人屬性識別問題。
表1 AlexNet卷積神經(jīng)網(wǎng)絡結構
假設行人樣本中有N張圖片,每張圖片標注了L個行人屬性。比如性別、頭發(fā)長度、年齡等。每張行人圖片可以表示xi,i∈[1,2…,N]。每張圖片xi對應的行人屬性標簽向量為yi。每個標簽向量yi對應的屬性值為如果yil=1,表明這個訓練樣本xi有這個屬性;yil=0,表明這個訓練樣本xi沒有這個屬性。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡的行人屬性識別模型(如圖1)。該模型是基于AlexNet網(wǎng)絡模型微調(diào)的?;揪W(wǎng)絡結構與AlexNet相同,層數(shù)也是8層(前五層是卷積層,后三層是全連接層)。在模型訓練階段,本文模型的輸入是一張行人圖片和對應的行人屬性標簽向量。測試階段,模型的輸出是對行人樣本圖片預測的屬性類別。
通常,屬性之間是有關聯(lián)的。而大多數(shù)的屬性識別方法會把每一個屬性獨立起來,忽略了屬性之間的關聯(lián)信息。例如頭發(fā)的長度可以提高性別的識別精度。為了更好地利用屬性之間的關聯(lián),提高行人屬性的識別精度。本文重新提出了一種新的損失函數(shù),這樣本文的模型在訓練過程中可以同時學習所有的行人屬性。損失函數(shù)(loss fuction)PLOSS如下所示。
表示是行人樣本x的第l個屬性的概率。y是iil真實屬性標簽,表示行人樣本xi有沒有第l個屬性。
圖1 本文的屬性識別模型
本文算法采取的實驗的軟硬件環(huán)境配置:操作系統(tǒng)是Ubuntu14.04,內(nèi)存是 8GB,CPU是Intel i5-6600,GPU是NVIDIA GTX1070,運算平臺是CUDA8.0。使用深度學習的Caffe框架。Caffe是純粹的C++/CUDA架構,支持命令行、Python和MATLAB接口,可以直接在CPU和GPU之間無縫切換。
本文的實驗數(shù)據(jù)來源于合肥寰景信息技術有限公司與安徽大學聯(lián)合創(chuàng)辦的實驗室在合肥市某地點抓拍的行人圖像,通過人工標注得到每張行人圖像的標注結果,以XML的形式保存。本文選取了19000張行人樣本。這些行人樣本都是監(jiān)控攝像頭遠距離拍攝,然后通過行人檢測算法剪切出來的,因此圖片的分辨率都不高。按照一個被大家廣泛采取的實驗數(shù)據(jù)集劃分原則,我們把19000張圖片分成三部分:訓練集,驗證集,測試集。9500張用于訓練,1900張用于驗證,7600張用于測試。在網(wǎng)絡模型訓練之前,將所有圖片的縮放到寬為256,高為256這樣的大小。另外,本文對每一張圖片都標注了12個屬性標簽:性別(男、女)、頭發(fā)長度(長發(fā)、短發(fā))、3種上身衣服類型(T恤、襯衫、外套)、3種上身衣服顏色(黑色、白色、紅色、)、2種下身衣服的類型(長褲、長裙)、2種下身衣服的顏色(黑色、白色)。并且每一個屬性標簽都是二進制標簽,標簽值分別為0或者1,0代表這個行人樣本沒有這個屬性,1代表這個行人有這個屬性。
一般而言,卷積神經(jīng)網(wǎng)絡的最低層,可以學習到一些局部的顏色和紋理特征信息。利用這些特征信息,可以進行大多數(shù)的物體的分類識別。同時,卷積神經(jīng)網(wǎng)絡的層數(shù)越多,可以學習到更高層次的語義信息,更豐富的細節(jié)信息。本文采取的卷積神經(jīng)網(wǎng)絡模型,是基于AlexNet網(wǎng)絡模型來微調(diào)的,這樣可以更好的去學習到低層次和高層次的特征信息。另外,本文是在監(jiān)控場景下來進行行人的屬性識別,而AlexNet是在自然場景下。所以為了使我們的網(wǎng)絡也適應監(jiān)控場景,所以設置最初的學習率(base_lr)為0.001,權重衰減(weight decay)為0.005??偣驳?0000次,每迭代2000次,學習率降為原來的1/10。為了把屬性之間的聯(lián)系考慮起來,采取公式(1)的損失函數(shù)。
將用于訓練的9600張和用于驗證的1900張及其對應的屬性標簽向量,作為本文的卷積神經(jīng)網(wǎng)絡模型的輸入數(shù)據(jù)。通過20000次的不斷迭代學習,直至模型收斂并保存模型參數(shù)。模型訓練完成的時間,根據(jù)訓練模型的日志,大約耗時3個小時。然后用訓練好的模型參數(shù)來對剩余的7600張測試圖片進行預測。
對于屬性識別算法,大多數(shù)文獻都采取平均精度(mA)作為評判指標。本文也采取平均精度作為本論文的屬性識別結果的評價指標。對每一個行人屬性,分別計算正樣本和負樣本的分類識別的精確度,然后把正樣本和負樣本的識別精確度的平均值來作為該屬性的最終的識別精度。平均精度會把所有的行人屬性的識別精度的平均值來作為本文論文算法的最后的識別率。
平均精度的計算方式,如下:
公式說明:Pi表示測試樣本中第i個屬性的正標簽的數(shù)目,TPi表示測試樣本中第i個屬性的正標簽被預測正確的數(shù)目。Ni表示測試樣本中的第i個屬性的負標簽的數(shù)目,TNi表示測試樣本中第i個屬性的負標簽被正確預測的數(shù)目。L表示行人屬性總的數(shù)量。
用訓練好的模型,對行人樣本圖片進行測試,實驗結果如表2示。同時為了顯示本文算法的優(yōu)越性。用2.2小節(jié)中的實驗數(shù)據(jù),也實驗了文獻[5]的方法。該論文是采取人工提取特征,并且沒有考慮到屬性之間的相互聯(lián)系。從表3可以看出,本文提出的算法的平均精度明顯高于文獻[5]。行人屬性的識別精度都超過了80%以上。同時下身裙子、性別的識別精度都很高,因為兩者是有聯(lián)系的。生活中很常見穿裙子的女性,而不常見穿裙子的男性。這說明考慮屬性的相互聯(lián)系,可以提高屬性的識別精度。另外,頭發(fā)”、“上.紅”這兩個屬性的識別精度不是很高。主要是行人樣本圖片中,有些行人戴了帽子,無法檢測到臉部區(qū)域的頭發(fā)長度信息,導致檢測頭發(fā)的效果不佳。衣服顏色中某些衣服顏色的識別精度不高,比如上身紅色。主要是衣服顏色與行人佩戴的圍巾、背包顏色較近,在行人屬性標注的時候,把它們都標注在一個包圍框里,識別時產(chǎn)生了干擾,因而識別精度不高。
表中的上.T恤表示的是上身的衣服類型是T恤。上.黑表示的是上身的衣服的顏色是黑色。
本文提出了基于卷積神經(jīng)網(wǎng)絡的行人屬性識別算法來識別行人屬性。通過實驗驗證,該算法可以很好地完成行人多屬性識別任務,具有良好的檢測效果。并且同傳統(tǒng)的方法相比,該算法還可以自動學習特征,操作簡單。但某些屬性,例如“頭發(fā)”、“上.紅”沒有達到預期的效果,原因是行人樣本中的有圍巾、背包、戴帽子這些干擾屬性,導致本文行人屬性識別模型識別時無法區(qū)分,識別到有效行人特征。在未來的工作中,希望該算法,提高這些屬性的識別精度。
表2 不同算法的行人屬性識別率的比較
表3 本文算法與文獻[5]的平均精度的比較
[1]Ferrari V,Zisserman A.Learning Visual Attributes.[J].Advances in Neural Information Processing Systems,2007:433-440.
[2]Zhang N,Paluri M,Ranzato M,et al.PANDA:Pose Aligned Networks for Deep Attribute Modeling[C].Computer Vision and Pattern Recognition.IEEE,2014:1637-1644.
[3]Layne R,Hospedales T M,Gong S.Person Re-identification by Attributes[C]//BMVC.2012.
[4]Zhu J,Liao S,Lei Z,et al.Pedestrian Attribute Classification in Surveillance:Database and Evaluation[C].IEEE International Conference on Computer Vision Workshops.IEEE,2013:331-338.
[5]Deng Y,Luo P,Chen C L,et al.Pedestrian Attribute Recognition At Far Distance[C].ACM International Conference on Multimedia.ACM,2014:789-792.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.