羅南超 鄭伯川
摘 要:由于高清視頻監(jiān)控領(lǐng)域現(xiàn)有行人檢測算法在復(fù)雜背景下檢測準(zhǔn)確率不高且檢測實時性不強(qiáng),提出了一種新穎的深度特征行人檢測算法,該算法利用聚合通道特征模型對監(jiān)控高清圖像進(jìn)行預(yù)處理,篩選出具有顯著特性的疑似目標(biāo),大大降低目標(biāo)檢測的數(shù)量;然后對獲取的疑似目標(biāo)區(qū)域進(jìn)行尺度校正與特征提取,并輸入到深度模型中進(jìn)行深度特征編碼,提高特征的表征能力;最后輸入到LSSVM分類模型,得到最終的行人檢測結(jié)果。仿真實驗結(jié)果顯示所提行人檢測算法在保證檢測準(zhǔn)確率的同時,具有較高的檢測效率。
關(guān)鍵詞:模式識別;深度編碼;行人檢測;SVM算法;自編碼網(wǎng)絡(luò);聚合通道特征
中圖分類號:TP 391.9 ? 文獻(xiàn)標(biāo)志碼:A
DOI:10.13800/j.cnki.xakjdxxb.2019.0419 ? 文章編號:1672-9315(2019)04-0701-07
Abstract:To solve the problem of poor real time detection and low precision in video surveillance,a novel deep feature based pedestrian detection algorithm is proposed.The algorithm firstly uses the aggregation channel feature model to process the surveillance images,and selects the suspected target region with salient characteristics.Then,the scaled correction and feature extraction are performed on the obtained suspected target region.The corresponding low level features are obtained and input into the deep auto encoder network for deep feature coding so as to enhance the representation ability.Finally,the coding feature is input into the least squares SVM classification model to obtain the final detection results.A large number of qualitative and quantitative experimental results show that the proposed detection algorithm guarantees the accuracy of pedestrian detection with higher efficiency.
Key words:pattern recognition;deep coding;pedestrian detection;SVM Model;auto encoder network;aggregation channel feature
0 引 言
行人檢測是安防監(jiān)控、智能駕駛等領(lǐng)域的關(guān)鍵技術(shù),吸引了國內(nèi)外科研人員的廣泛關(guān)注與深入研究[1]。并提出了許多有效的解決方案與算法,取得了重大的進(jìn)展。然而,現(xiàn)有的大部分算法對目標(biāo)姿態(tài)、服飾、分辨率等因素比較敏感,這就使得行人檢測的普適性不強(qiáng),復(fù)雜背景下檢測精度不高[2]。
早期行人檢測算法大都是采用背景建模方法,通過提取前景目標(biāo)特征,最后采用支持向量機(jī)、AdBoost,隨機(jī)森林、決策樹等模型進(jìn)行行人檢測與分類[3]。這些傳統(tǒng)的檢測分類模型對固定場景下明顯行人目標(biāo)檢測效果較好,但對復(fù)雜變化場景的檢測率不高,其本質(zhì)原因是現(xiàn)有特征對行人的描述能力不夠。近年來,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度模型強(qiáng)調(diào)模型的深度,通過將低層次特征進(jìn)行逐層組合優(yōu)化,獲得更加抽象的高層次特征,增強(qiáng)目標(biāo)模型的表征能力[4]。
目前,行人檢測領(lǐng)域的研究方向大都集中在深度學(xué)習(xí)領(lǐng)域,取得了巨大突破,提出了以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為框架的RCNN,SPP NET,F(xiàn)ast RCNN,F(xiàn)aster RCNN和以YOLO為框架的SSD,CS SSD[5-6]。Byeon等人在RCNN的基礎(chǔ)上,將難分樣本挖掘機(jī)制嵌入SGD模型中,使得訓(xùn)練過程根據(jù)訓(xùn)練函數(shù)自動選擇合適的正負(fù)樣本進(jìn)行訓(xùn)練[7];由于高層的抽象特征損失了很多細(xì)節(jié)信息,Zhang等人提出了一個多層次特征融合的深度模型,不僅考慮了高層特征語義信息,還結(jié)合低層次紋理信息,提升行人目標(biāo)定位精度。雖然深度學(xué)習(xí)算法提升了整個檢測領(lǐng)域的檢測性能,但由于該模型訓(xùn)練耗時,同時對硬件要求較高,直接影響實時性應(yīng)用[8]。
由于現(xiàn)有的算法都是采用窮舉策略對樣本訓(xùn)練學(xué)習(xí)再進(jìn)行分類,不僅具有很高的算法復(fù)雜度,模型的泛化能力也不高。因此,筆者結(jié)合多年在安防監(jiān)控領(lǐng)域圖像處理算法的經(jīng)驗,以“XXX市平安城市監(jiān)控項目”為契機(jī),對高清監(jiān)控領(lǐng)域復(fù)雜場景下行人目標(biāo)檢測算法進(jìn)行了多層次深入分析,針對現(xiàn)有算法實時性不強(qiáng)的問題,提出了一種高層次特征深度編碼的行人檢測算法,該算法是利用聚合信道特征提取出高清圖像中多尺度顯著性目標(biāo),通過降低疑似樣本的數(shù)據(jù),提升檢測的速度;為了提高檢測的精度,該算法直接對獲取的疑似區(qū)域進(jìn)行深度特征編碼,得到高層次深度特征;最后采用最小二乘支持向量機(jī)對獲得的深度特征進(jìn)行決策分類,輸出檢測到的行人目標(biāo)。實驗結(jié)果表明文中所提的特征深度行人檢測算法的檢測效率較高,對復(fù)雜背景下的小尺度、非剛性行人目標(biāo)檢測準(zhǔn)確率較高,適合應(yīng)用于高清監(jiān)控、安防等領(lǐng)域。
1 深度特征自編碼網(wǎng)絡(luò)
1.1 深度自編碼模型及其相應(yīng)符號描述
1.4 行人檢測及其框架
眾所周知,現(xiàn)在目標(biāo)檢測算法大都利用一定的搜索策略生成海量的候選樣本集,然后利用響應(yīng)的算法,如相關(guān)匹配、檢測器、模式識別等模型對候選區(qū)域進(jìn)行評分(Score),從中找出最優(yōu)樣本作為最終檢測到的目標(biāo)[17]。這是一種窮舉搜索模式,復(fù)雜度相當(dāng)高。同時,由于行人是非剛性目標(biāo),其外形受尺度、姿態(tài)等因素影響太大,一方面只有通過多尺度篩選目標(biāo)才能覆蓋所有目標(biāo)區(qū)域,復(fù)雜度太高;另一方面對多尺度區(qū)域進(jìn)行篩選的算法非常低效[18]。為了降低行人檢測樣本復(fù)雜度,增強(qiáng)檢測的效率,首先采用聚合通道特征模型獲取疑似目標(biāo)區(qū)域,降低單幀圖像搜索時間。大量定性定量仿真實驗結(jié)果表明,經(jīng)過聚合通道特征模型處理后疑似目標(biāo)幾乎囊括了圖像中所有可能目標(biāo)區(qū)域,大大降低疑似目標(biāo)檢測時間。
假定經(jīng)預(yù)處理的圖像具有M個疑似顯著性區(qū)域,可以表示為{Bi∈Rmi×ni|i=1,2,…,M}。由于不同疑似區(qū)域的尺度不同,且模型訓(xùn)練參數(shù)是固定大小,因此,為了便于模型訓(xùn)練與參數(shù)的優(yōu)化,M個疑似樣本需要?dú)w一化到統(tǒng)一的尺度,{Di∈Rm×n|i=1,2,…,M}。
由于疑似樣本Di需要?dú)w一化到統(tǒng)一的尺度,通過獲取相應(yīng)的梯度直方圖特征,并將其轉(zhuǎn)換成特征向量di;然后利用學(xué)習(xí)到的深度模型進(jìn)行深度編碼,得到深度特征向量vi;最后利用訓(xùn)練好的LSSVM對深度特征進(jìn)行分類,找到最優(yōu)行人目標(biāo),并重構(gòu)出分類向量ci,其中ci=gd(θ,vi).圖1展示了文中提出的行人檢測模型的訓(xùn)練流程;圖2則是提出的行人檢測算法對疑似樣本的檢測過程,可以看出該模型通過預(yù)處理可以大大降低樣本量,只需要對疑似區(qū)域進(jìn)行檢測;同時,深度編碼增強(qiáng)了行人的表征能力,可提高疑似目標(biāo)檢測精度。
2.1 實驗數(shù)據(jù)集
為了有效評估所提深度特征編碼行人檢測算法的性能,選擇了國際上通用的行人檢測公共數(shù)據(jù)集:NICAT與MIT。針對實驗特征,所有圖片被隨機(jī)分成測試集、訓(xùn)練集與驗證集,其中訓(xùn)練集中包含于13 589個訓(xùn)練樣本,13 991個負(fù)樣本。由于模型都是歸一化到相同尺度進(jìn)行深度特征編碼,所有樣本尺度設(shè)置為64×128.測試集則包含有948張具有不同尺度、服飾、分辨率,姿態(tài)的行人。
2.2 對比算法及評價指標(biāo)
對比算法不僅包含傳統(tǒng)低層次特征行人檢測算法,也包含現(xiàn)有最新深度學(xué)習(xí)算法,分別是HoG SVM(HS)[19],CLPD[20],CrossTalk[21],Shapelet[22],HOG LPB[23],R CNN[24],各對比算法的特點(diǎn)見表1.為了便于定量分析各算法的檢測性能,實驗選用檢測錯誤權(quán)衡圖(DET)曲線[25]和檢測時間(Time)分析與評價不同算法的行人檢測效果,其中DET表征每個圖像檢測準(zhǔn)確率與誤檢率(False Positives Per Image,F(xiàn)PPI)的關(guān)系。實驗軟硬件環(huán)境設(shè)置為:Xeon Bronze 3106-B 1.7 GHz,32 GB內(nèi)存,Nvidia Geforce GTX 1080Ti,Ubuntul 604,64位操作系統(tǒng)。
2.3 定量性能對比及其分析
為了定量對比所有算法的檢測性能,圖3展示了行人目標(biāo)檢測準(zhǔn)確率與FPPI的關(guān)系曲線。從曲線圖可以看出,相比于HS算法、HOG LPB算法、Shapelet算法、CLPD算法和CrossTalk算法,所提檢測算法具有較高的準(zhǔn)確率,重要的是該深度編碼模型也比RCNN性能較好,主要是文中算法是對低層次特征進(jìn)行深度編碼,泛化性較高。為了便于直觀分析,表2中展示了FPPI=1時不同算法下檢測的準(zhǔn)確率,這便于直觀分析。當(dāng)FPPI=1時,算法的檢測率是67.79%,而對比算法中最好檢測結(jié)果是65.01%.從曲線圖可以看出,在相同條件下,提出的算法準(zhǔn)確率最高,相比于深度學(xué)習(xí)RCNN高2.78%.總之,所提算法獲得較好的檢測效果,主要?dú)w功于直接對低層次方向直方圖特征進(jìn)行深度編碼,增加了目標(biāo)表征能力,進(jìn)一步增強(qiáng)模型的泛化性;同時,模型摒棄了傳統(tǒng)深度學(xué)習(xí)采用softmax進(jìn)行分類學(xué)習(xí),而是采用了最優(yōu)線性最優(yōu)解得最小二乘SVM分類算法,進(jìn)一步提升了模型檢測的整體性能。
時間復(fù)雜度是評價算法性能的一個重要指標(biāo)。為了便于客觀分析,對比算法都是采用作者提供的源代碼或可執(zhí)行文件,其參數(shù)及其初值都使用默認(rèn)值。由于對比算法的編程語言與編程風(fēng)格的差異,這對評估文中所提算法的運(yùn)算時間帶來了一定的困難。因此,文中僅僅對具有相同硬件環(huán)境下進(jìn)行分析,其對相同圖像平均檢測時間見表3.雖然提出的深度特征編碼算法增加了預(yù)處理模塊,但這反而降低了算法的時間復(fù)雜度。這是由于采用的預(yù)處理模塊是一種低漏檢的顯著性目標(biāo)檢測算法,可以過濾掉大量非目標(biāo)區(qū)域,大大降低后續(xù)特征提取與深度編碼的時間。實驗結(jié)果也表明,模型的單幀計算時間最低。若能采取多通道GPU并行編程,算法將達(dá)到實時的檢測效果。
2.4 檢測結(jié)果定性分析
試驗從測試數(shù)據(jù)集中挑選了3幅比較有代表性的圖像進(jìn)行分析,結(jié)果如圖4所示。由于篇幅的限制,只對定量結(jié)果中最好的HOG LPB,RCNN與Shapelet進(jìn)行定性對比分析。紅色的矩形框是文中算法檢測到的行人結(jié)果,可以看出文中算法能夠檢測到圖像中的行人,尤其是第一行圖像中間的遠(yuǎn)處模糊的白色衣服行人,主要?dú)w功于深度編碼的表征能力,然而第二行中墻上的疑似區(qū)域也被檢測出來,但文中算法不存在漏檢,充分說明算法的有效性。第三行圖像中,墻壁的顏色與某個行人的衣服一致,導(dǎo)致對比結(jié)果中出現(xiàn)一些漏檢,文中的算法能夠檢測到行人,但墻壁上一些類似行人的區(qū)域也被檢測成行人,而且對類似行人的影子也有誤檢,但文中算法不存在漏檢。藍(lán)色矩形框為RCNN算法的檢測結(jié)果,該算法直接利用樣本進(jìn)行深度特征學(xué)習(xí),其結(jié)果中能找到大多數(shù)明顯的目標(biāo),然而對遠(yuǎn)處的行人檢測效果不佳,主要是該模型在進(jìn)行多層學(xué)習(xí)時存在梯度消失現(xiàn)象,造成一些弱小目標(biāo)被排除;黃色矩形框是Shapelet算法的結(jié)果,該算法是利用機(jī)器學(xué)習(xí)的方法自動地生成自適應(yīng)的局部特征,主要還是通過低層次梯度信息進(jìn)行組合。從結(jié)果可以看出,該算法對明顯邊緣信息的行人檢測較好,但存在大量的虛檢。粉色矩形框是HOG LPB的結(jié)果,該方法是融合多種特征對行人進(jìn)行檢測,但從結(jié)果看出,該方法的檢測精確度較差,存在漏檢與誤檢。值得注意的是,文中提出的行人檢測算法也存在一些誤檢,尤其是針對一些疑似強(qiáng)邊緣目標(biāo),主要是采用了方向梯度直方圖作為低層次特征,與人體類似的強(qiáng)邊緣很容易誤認(rèn)為人體,但該模型也對對攜帶行李、附著物遮擋等情況的檢測效果較好,這表明深度編碼可以增強(qiáng)特征表征能力,提升檢測精度。
3 結(jié) 論
1)提出的深度特征編碼行人檢測算法能夠利用聚合信道特征模型篩選出具有顯著特性的疑似目標(biāo)區(qū)域,降低檢測樣本的復(fù)雜度。
2)對獲取的疑似目標(biāo)區(qū)域進(jìn)行深度特征編碼,增強(qiáng)特征的表征能力。
3)實驗結(jié)果表明所提出算法在復(fù)雜背景下的檢測性能超過現(xiàn)有大多數(shù)檢測算法,具有一定的可行性和使用價值。
因此,文中提出的行人檢測算法可以應(yīng)用于高清監(jiān)控、安防等領(lǐng)域,解決現(xiàn)有行人檢測算法在復(fù)雜背景下存在檢測準(zhǔn)確率不高且檢測實時性不強(qiáng)的問題。下一步,我們將算法移植到監(jiān)控系統(tǒng)中,進(jìn)一步驗證算法的工程價值。
參考文獻(xiàn)(References):
[1] 覃 劍,王美華.采用在線高斯模型的行人檢測候選框快速生成方法[J].光學(xué)學(xué)報,2016,36(11):169-179.
QIN Jian,WANG Mei hua.Fast pedestrian proposal generation algorithm using online Gaussian model[J].Acta Optica Sinica,2016,36(11):169-179.
[2]吳冬梅,王 靜,李白萍,等.基于改進(jìn)SURF算法的大規(guī)模群體人數(shù)統(tǒng)計[J].西安科技大學(xué)學(xué)報,2015,35(5):650-655.
WU Dong mei,WANG Jing,LI Bai ping,et al.Large scale population statistics based on improved SURF algorithm[J].Journal of Xi’an University of Science and Technology,2015,35(5):650-655.
[3]Benenson R,Omran M,Hosang J,et al.Ten years of pedestrian detection,what have we learned?[C]//European Conference on Computer Vision,2014:613-627.
[4]Tian Y,Luo P,Wang X,et al.Deep learning strong parts for pedestrian detection[C]//International Conference on Computer Vision,2015:1904-1912.
[5]Liu W,Anguelov D,Erhan D,et al.SSD:Single shot MultiBox detector[C]//European Conference on Computer Vision,2016:21-37.
[6]Ren S,He K,Girshick R,et al.Faster rcnn:towards real time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems,2015:91-99.
[7]Byeon Y H,Kwak K C.A performance comparison of pedestrian detection using faster RCNN and ACF[C]//International Conference on Advanced Applied Informatics,2017:858-863.
[8]Zh Z,Xie C,Wang J,et al.Deepvotin:a robust and explainable deep network for semantic part detection under partial occlusion[C]//IEEE Conference on Computer Vision and Pattern Recognition,2018:1372-1380.
[9]Munder S,Gavrila D M.An experimental study on pedestrian classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(11):1863-1868.
[10]Zhao X,He Z,Zhang S,et al.Robust pedestrian detection in thermal infrared imagery using a shape distribution histogram feature and modified sparse representation classification[J].Pattern Recognition,2015,48(6):1947-1960.
[11]Tang Z,Wang S,Huo J,et al.Bayesian framework with non local and low rank constraint for image reconstruction[C]//Journal of Physics Conference Series,2017:010-038.
[12]Zhang S,Benenson R,Schiele B,et al.Filtered channel features for pedestrian detection[C]//Computer Vision and Pattern Recognition,2015:1751-1760.
[13]Guo L,Ge P S,Zhang M H,et al.Pedestrian detection for intelligent transportation systems combining AdaBoost algorithm and support vector machine[J].Expert Systems with Applications,2012,39(4):4274-4286.
[14]Zhang J,Shan S,Kan M,et al.Coarse to Fine Auto Encoder Networks(CFAN) for real time face alignment[C]//European Conference on Computer Vision,2014:1-16.
[15]Mathur,Mridul Kumar.Image compression using robust error back propagation neural network with GDAL[J].International Journal of Research and Engineering,2017,14(4):133-136.
[16]Li L,Yu S,Xiao W,et al.Sequence based identification of recombination spots using pseudo nucleic acid representation and recursive feature extraction by linear kernel SVM[J].BMC Bioinformatics,2014,15(1):340.
[17]Hosang J H,Benenson R,Dollar P,et al.What makes for effective detection proposals[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4):814-830.
[18]Girshick R B,Donahue J,Darrell T,et al.Region based convolutional networks for accurate object detection and segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):142-158.
[19]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005:886-893.
[20]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743-761.
[21]Dollar P,Appel R,Kienzl W.Crosstalk cascades for frame rate pedestrian detection[C]//European Conference on Computer Vision,2012:645-659.
[22]Sabzmeydani P, Mori G. Detecting Pedestrians by Learning Shapelet Features[C]//Computer Vision and Pattern Recognition, 2007: 1-8.
[23]Wang X,Han T X,Yan S,et al.An HOG LBP human detector with partial occlusion handling[C]//International Conference on Computer Vision,2009:32-39.
[24]Girshick R B.Fast R CNN[C]//International Conference on Computer Vision,2015:1440-1448.
[25]Felzenszwalb P F,Girshick R B,Mcallester D A,et al.Object detection with discriminatively trained part based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.