婁翔飛 呂文濤 葉冬 郭慶 魯競 陳影柔
摘 要: 基于計算機視覺的行人檢測方法可有效提高行人檢測效率,已廣泛應(yīng)用于智慧城市、輔助駕駛等場景。文章對行人檢測涉及的圖像分割、特征提取、機器學(xué)習(xí)和分類與定位等方法進行了歸納,綜述了各種方法的主要思想、適用性和局限性;同時介紹了行人檢測算法的評價指標(biāo),對算法性能進行了分析;最后總結(jié)了行人檢測方法的研究進展,并對未來的發(fā)展方向進行了展望。計算機視覺作為目標(biāo)檢測中的一項重要技術(shù),在行人檢測領(lǐng)域仍有待發(fā)展,算法結(jié)構(gòu)改進、分類器優(yōu)化、復(fù)雜場景下的行人檢測等是未來的研究重點。
關(guān)鍵詞:計算機視覺;行人檢測;圖像分割;特征提??;機器學(xué)習(xí);分類與定位
中圖分類號:TP391.4;TP183
文獻標(biāo)志碼:A
文章編號:1673-3851 (2023) 05-0318-13
引文格式:婁翔飛,呂文濤,葉冬,等. 基于計算機視覺的行人檢測方法研究進展[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2023,49(3):318-330.
Reference Format: LOU? Xiangfei,L? Wentao,YE? Dong,et al. Research progress of pedestrian detection methods based on computer vision[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):318-330.
Research progress of pedestrian detection methods based on computer vision
LOU Xiangfei1a, L? Wentao1a, YE Dong2, GUO Qing3, LU Jing3, CHEN Yingrou1b
(1a.School of Information Science and Engineering; 1b.Key Laboratory of Intelligent Textile and Flexible Interconnection of Zhejiang Province, Zhejiang Sci-Tech University, Hangzhou 310018, China; 2.Zhejiang Mobile Information System Integration Co., Ltd., Hangzhou 311217, China; 3.Zhejiang Technology Innovation Service Center, Hangzhou 310007, China)
Abstract: Pedestrian detection methods based on computer vision can effectively improve the efficiency of pedestrian detection, and have been widely used in smart cities, assisted driving and other scenes. In this paper, the methods of image segmentation, feature extraction, machine learning, classification and location involved in pedestrian detection are summarized, and the main ideas, applicability and limitations of each method are summarized. At the same time, the evaluation index of pedestrian detection algorithm is introduced, and the algorithm performance is analyzed. Finally, the research progress of pedestrian detection methods is summarized, and the future development direction is prospected. As an important technology in object detection, computer vision still needs to be developed in the field of pedestrian detection. The improvement of algorithm structure, classifier optimization, and pedestrian detection in complex scenes are the focus of future research.
Key words:computer vision; pedestrian detection; image segmentation; feature extraction; machine learning; classification and position
0 引 言
行人檢測技術(shù)通過計算機視覺技術(shù)來檢測圖像序列中有無行人目標(biāo),同時對行人目標(biāo)進行定位。目前,行人檢測技術(shù)不僅在智慧城市、輔助駕駛等場景中得到了廣泛應(yīng)用,而且為行人跌倒檢測、人體行為預(yù)測等研究提供理論基礎(chǔ)和技術(shù)支撐[1]?;谟嬎銠C視覺的行人檢測技術(shù)在無人駕駛、輔助駕駛中起到了決定性的作用,該技術(shù)可在行車過程中通過成像設(shè)備獲取車輛周圍的圖像數(shù)據(jù),給出圖像序列中行人目標(biāo)的準(zhǔn)確定位,提高了輔助駕駛的安全性,保障了駕駛員及行人的生命安全。在實際應(yīng)用中,各類行人檢測系統(tǒng)需要高實時性、強魯棒性[2-4],這是行人檢測技術(shù)的難點,也使其成為目標(biāo)檢測領(lǐng)域的研究熱點。行人檢測與一般的目標(biāo)檢測存在著較大差異,一般的目標(biāo)檢測方法并不完全適用于行人目標(biāo)[5],主要原因有以下幾點:
a)檢測圖像中存在目標(biāo)重疊、相互遮擋等情況。行人檢測中通常會出現(xiàn)人與人的遮擋、人與物的遮擋。目前的行人檢測方法已能處理局部遮擋問題,但對于大面積、較嚴(yán)重的遮擋問題仍待進一步研究[6]。
浙江理工大學(xué)學(xué)報(自然科學(xué))2023年 第49卷
第3期婁翔飛等:基于計算機視覺的行人檢測方法研究進展
b)行人檢測受背景影響較大?,F(xiàn)實背景下光照變化、類似行人輪廓物體的干擾等都會造成行人目標(biāo)與背景的混淆、難以區(qū)分,從而出現(xiàn)漏檢、誤檢,使得準(zhǔn)確識別、精確定位行人目標(biāo)變得非常困難[7]。
c)小目標(biāo)行人定位準(zhǔn)確度較低。遠距離成像的行人通常目標(biāo)較小、分辨率較低,缺乏充分的特征信息,易受噪聲干擾,所以檢測算法難以精確定位小目標(biāo)行人。
d)行人多姿態(tài)、非剛性導(dǎo)致定位準(zhǔn)確度低。行人檢測區(qū)別于一般的目標(biāo)檢測,不同行人具有不同的姿態(tài)和特征,由此帶來的不確定性會影響行人目標(biāo)定位的準(zhǔn)確度。
隨著圖像處理技術(shù)的發(fā)展,近年來越來越多的研究人員提出了基于圖像分割、特征提取、機器學(xué)習(xí)等行人檢測方法來解決以上問題,這也讓行人檢測技術(shù)得到了長足的進步[8]。本文綜述了近年來典型的行人檢測方法,對其主要思想、適用性和局限性進行了總結(jié)。首先,闡述了基于圖像分割、特征提取、機器學(xué)習(xí)、分類與定位的行人檢測方法;其次,介紹了行人檢測算法的評價指標(biāo),同時對算法性能進行了分析;最后,總結(jié)了行人檢測方法的研究進展,并對未來的發(fā)展方向進行了展望。
1 基于圖像分割的行人檢測方法
圖像分割是將圖像劃分為若干個特定的區(qū)域,再將這些區(qū)域按照其特征區(qū)分為不同的類別,便于提取感興趣目標(biāo)區(qū)域(Region of interest, ROI)[9]。基于圖像分割的行人檢測方法計算速度快、節(jié)約硬件資源,但該方法受圖像背景的影響較大,對于行人目標(biāo)的檢測準(zhǔn)確率不高。本文總結(jié)了以下3種基于圖像分割的行人檢測方法,分別為閾值分割檢測方法[10]、邊緣分割檢測方法[11]和語義分割檢測方法[12],該3種方法的原理和優(yōu)缺點見表1。
1.1 閾值分割檢測方法
閾值分割法是目前使用最廣泛、最常見的圖像分割方法。該方法通過設(shè)定不同的特征閾值,將ROI和背景區(qū)域進行分割[13]。唐清[14]提出了一種改進的單高斯模型閾值分割方法,該方法利用了紅外熱成像技術(shù)以獲得高亮像素的檢測分割結(jié)果。在正常的背景環(huán)境中,該方法可以對行人目標(biāo)與背景區(qū)域進行有效分割[15]。單高斯模型閾值法較為簡捷實用,但有一定的局限性,易受復(fù)雜背景的影響。如采用紅外圖像的閾值分割法,當(dāng)背景中諸如電器、電線、汽車等接近人體溫度的熱源較多時,易將溫度較高的背景與行人目標(biāo)混淆。為了改善復(fù)雜環(huán)境下圖像分割準(zhǔn)確率較低的問題,Su等[16]提出了基于最大類間方差的紅外圖像閾值分割法,可將圖像中的待測目標(biāo)和背景進行準(zhǔn)確區(qū)分,但該方法穩(wěn)定性不佳,且計算量較大,無法兼顧檢測的實時性和準(zhǔn)確率。
Trivedi等[17]提出了一種自適應(yīng)閾值分割算法,通過動態(tài)決策準(zhǔn)則提高行人檢測模型的性能。該算法對不同背景環(huán)境變化和待測目標(biāo)灰度變化有較好的魯棒性,同時兼顧了檢測精度和實時性,在復(fù)雜背景環(huán)境、存在噪聲干擾的行人檢測中,相較其他閾值分割算法有一定的優(yōu)勢。
1.2 邊緣分割檢測方法
邊緣分割法通過搜索不同區(qū)域的邊界實現(xiàn)ROI與背景區(qū)域的分割。該方法受復(fù)雜背景的影響較小,對于邊界特征較明顯的行人檢測,精確度較高。Sobel分割是一種較常見的邊緣檢測方法,該方法根據(jù)圖像的每一像素點,計算其與四周鄰點灰度的加權(quán)差[18-19],該加權(quán)差通常在邊緣處達到極值,從而實現(xiàn)邊緣的檢測。
Sobel分割僅對于每個像素的周圍像素點進行計算,計算量相對較小,它對灰度漸變的圖像往往檢測效果較好。但是一般的Sobel分割法不能區(qū)分水平邊緣和垂直邊緣,無法精確檢測邊緣方向信息,邊緣定位精度較低,易受噪聲的干擾,無法達到行人檢測的應(yīng)用需求。因此,Ma等[20]提出了一種邊緣檢測算法,將圖像邊緣特征與經(jīng)過二值化后分割的邊緣特征融合,提高了邊緣檢測的方向敏感度,解決了易將路燈、車燈等亮度較高的背景與行人目標(biāo)混淆的問題;然而該方法抗噪聲能力較弱,對于檢測邊緣的精度稍顯不足。Wu等[21]針對該問題,提出了一種基于改進Sobel的邊緣檢測算法。該算法先對待測圖像中的每一種邊緣情況進行數(shù)學(xué)建模,然后僅對連續(xù)的邊緣模型進行分析,建立用于邊緣方向檢測的分類器模型;通過細化處理待測圖像的梯度圖,增強圖像邊緣特征,解決了Sobel分割法在邊緣定位精度低且易受噪聲干擾的問題。這類改進的Sobel邊緣檢測算法能有效改善傳統(tǒng)Sobel分割法的缺陷,提高對于行人目標(biāo)邊緣檢測時的抗噪聲能力,使邊緣定位更加精確,是一種實用性較高的行人檢測算法[22]。
Shi等[23]提出了一種基于改進Prewitt的邊緣檢測算法,該算法利用圖像中各像素周圍鄰域的灰度加權(quán)相關(guān)度,結(jié)合待測行人目標(biāo)的特征,生成一個自適應(yīng)的動態(tài)閾值。該算法是對傳統(tǒng)Prewitt算法的改進,具有傳統(tǒng)Prewitt算法抗噪能力強的優(yōu)點,通過自適應(yīng)生成的動態(tài)閾值解決了原先邊緣定位精度低的問題,過濾了偽邊緣,同時提高了計算速度,可滿足行人檢測應(yīng)用中實時、精確的需求。
1.3 語義分割檢測方法
語義分割在復(fù)雜背景環(huán)境中的檢測效果較好,魯棒性較優(yōu)。Hu等[24]提出了一種語義分割樹算法,該算法可生成更多的語義區(qū)域,形成語義分割樹的中間節(jié)點。語義分割樹有助于識別檢測ROI,可以較好地過濾掉冗余目標(biāo)。該算法對所有圖像類別的檢測效果都較好,即使是分辨率較低的圖像檢測效果也比其他算法有較大提升。但該算法仍存在語義分割時相鄰像素間易混淆、標(biāo)簽不一致的問題。
Gao等[25]針對語義分割時相鄰像素間標(biāo)簽一致性較差、易混淆的缺點,提出了一種組合多類圖像語義分割的方法,該方法將自上而下和自下而上的分割結(jié)果合并在一起,增大了圖像感受野。Jiang等[26]也根據(jù)圖像的上下文信息,設(shè)計了一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)特征融合的圖像語義分割方法。
上述兩種語義分割方法在行人檢測中具有更高的檢測準(zhǔn)確率,但沒有明顯延長計算時間。在行人檢測過程中融合不同尺度的網(wǎng)絡(luò)模型,能夠獲得更多的局部特征,分割結(jié)果更加準(zhǔn)確,模型泛化能力強。因此,該類方法對于小目標(biāo)行人檢測效果較為突出。
CNN、R-CNN、Fast-RCNN等算法能達到不錯的語義分割效果,且檢測精確度高,模型魯棒性好;但是這些算法沒有充分考慮待測圖像的全局語義信息,對于小目標(biāo)的行人檢測誤差較大,而且神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)往往導(dǎo)致模型計算量較大,在實時性上達不到應(yīng)用要求[27]。Li等[28]提出了基于改進U-Net神經(jīng)網(wǎng)絡(luò)的語義分割算法,利用深度卷積、殘差網(wǎng)絡(luò)和樹狀網(wǎng)絡(luò)來改進網(wǎng)絡(luò)模型,在減少參數(shù)量的同時提取更豐富的圖像信息。該算法在卷積層后加入最大池化,并利用反卷積還原圖像特征,進行大量特征融合,從而獲得更精確的語義信息;但該算法本質(zhì)上還是基于卷積神經(jīng)網(wǎng)絡(luò),仍然存在模型參數(shù)量大、計算速度慢等不足,在實際應(yīng)用中會造成檢測速度過慢且資源消耗大等問題。
姜宏宇[29]利用卷積神經(jīng)網(wǎng)絡(luò)輕量化技術(shù),提出了一種適用于實時行人檢測的輕量級網(wǎng)絡(luò)MS-PSPNet。該網(wǎng)絡(luò)利用金字塔池化模塊提取多尺度語義信息,利用逐點分組卷積降低計算參數(shù)量,提升運算速度;針對參數(shù)量減少會導(dǎo)致模型精度損失的問題,在模型中加入注意力機制,在最后兩層使用空洞卷積來增大感受野,便于獲取行人圖像的全局特征。該網(wǎng)絡(luò)適用于復(fù)雜背景下的行人檢測,解決了語義分割存在的相鄰像素間標(biāo)簽一致性差、易混淆的問題。
語義分割檢測方法通常具有較好的檢測精度,多適用于復(fù)雜背景下的行人檢測,穩(wěn)定性較高。使用語義分割方法可以使提取到的行人特征更具典型,增強模型的泛化能力。
2 基于特征提取的行人檢測方法
行人特征描述子的選擇對模型的泛化能力有較大的影響,若提取的特征判別力較差則會導(dǎo)致誤檢率較高,無法達到輔助駕駛、智慧交通等場景的應(yīng)用需求?;谔卣魈崛〉男腥藱z測方法一般包括基于顏色、梯度或紋理等信息的底層特征檢測方法以及混合特征檢測方法,這兩類行人檢測方法優(yōu)缺點見表2。
2.1 底層特征檢測方法
基于圖像顏色、紋理等底層特征的行人檢測方法是最普遍、最常見的一種。Ma等[30]提出了基于Histogram of oriented gradients(HOG)特征的行人目標(biāo)檢測方法,該方法通過計算圖像局部的梯度幅值、方向構(gòu)成特征,并利用支持向量機(Support vector machine,SVM)進行分類預(yù)測;其在MIT行人數(shù)據(jù)庫的檢測準(zhǔn)確率幾乎達到100%,魯棒性也相對較好。這類特征是目前使用最廣泛的描述行人的特征之一,大多數(shù)行人檢測方法都是基于HOG特征和SVM分類器的思路改進的。
然而,基于HOG特征的行人檢測方法也有較多缺陷,如特征維度高導(dǎo)致計算速度變慢。Liu等[31]針對該問題,提出了基于HOG特征塊可變性的特征,設(shè)計的算法能夠自適應(yīng)提取行人目標(biāo)特征;同時使用積分圖加快運算速度,用Boosting算法篩選出最具典型性的特征塊,該算法對于計算速度的提升較為有效。Bilal等[32]提出了類似的行人檢測算法,在GPU上計算HOG,可極大提升運算速度;通過結(jié)合多尺度的特征提高檢測性能。上述兩種方法雖然可滿足檢測的實時性要求,但是忽視了細節(jié)特征,不適用于小目標(biāo)行人的檢測。Fan等[33]利用人體的多尺度特征,提出一種基于Gabor特征和HOG特征的行人檢測算法。該算法對待測圖像進行小波變換以提取行人多方位多尺度的振幅譜,使用主成分分析降維,然后提取HOG特征,減少了參數(shù)量,最后融合小波變換后得到的Gabor特征與HOG特征,能夠有效加快運算速度,同時提高檢測精度。
局部二值模式(Local binary pattern,LBP)是一種用于圖像紋理分析的算子,多應(yīng)用于人臉識別、圖像紋理特征分類。LBP于2008年提出,其作用是記錄待測圖像的每一像素點與周圍像素點的對比信息[34]。Peng等[34]提出了基于HOG和LBP的行人檢測算法,該算法能有效減少待測圖像中遮擋帶來的干擾,提升檢測性能。然而,LBP在低分辨率、噪聲干擾較多的圖像中不能有效描述局部細節(jié)特征,判別能力較弱。因此,該算法的魯棒性較弱,難以應(yīng)用于實際的無人駕駛、智慧交通等場景中。
Census transform histogram(CENTRIST)與LBP類似,通過計算每一像素點對應(yīng)的Census transform(CT)值組成的特征直方圖,描述圖像的全局信息。對比基于HOG特征的行人檢測方法,其呈現(xiàn)出的圖像特征更為全面。林才紡[35]提出了基于CENTRIST特征的行人檢測算法,將RGB圖像轉(zhuǎn)化為灰度圖像,運用GPU并行處理技術(shù)實現(xiàn)縮放圖像、圖像濾波、CT圖像構(gòu)建等步驟,大大提升了檢測效率。基于CENTRIST特征的行人檢測算法擁有更高的檢測效率和更好的抗噪性能,同時能有效處理細節(jié)特征,滿足行人檢測的應(yīng)用要求。
2.2 混合特征檢測方法
基于單一特征的行人檢測方法一般檢測精確度較低,泛化能力較弱。所以,研究人員通常進行多特征融合以提高特征判別力。Park等[36]提出的行人目標(biāo)檢測算法將HOG特征和描述紋理的LBP特征進行融合,通過主成分分析減少計算參數(shù)量;該算法還加入了加權(quán)部件,對待測圖像中的每一目標(biāo)附上權(quán)值,可有效降低遮擋或行人目標(biāo)部分重合造成的影響。Watanabe等[37]提出了基于共生梯度方向直方圖(Co-occurrence histograms of oriented gradients,CoHOG)的行人檢測方法,該方法通過多個梯度方向的特征描述行人目標(biāo),相較于基于HOG特征的行人檢測方法具有更高的準(zhǔn)確率及召回率。
種衍文等[38]針對行人檢測精度不足的問題,利用四方向特征(Four direction features, FDF)設(shè)計了檢測模型,并采用Entropy-histograms of oriented gradients(EHOG)算子來增強對于小目標(biāo)行人的敏感度,該算法在行人檢測中有較優(yōu)的檢測準(zhǔn)確率和魯棒性,但其實時性較差。針對該情況,Schwartz等[39]提出了基于邊緣特征的方法,結(jié)合行人顏色、紋理信息,采用偏最小二乘(Partial least squares,PLS)降低維度,提升計算效率。但是上述算法受遮擋及背景干擾影響較大。針對該情況,儲珺等[40]提出了融合語義和多層特征的行人檢測算法,增強行人和背景的區(qū)分度;該算法在Caltech和CityPersons數(shù)據(jù)集上漏檢率較低,具有強魯棒性,可便捷應(yīng)用于其他的行人檢測框架中。Dollár等[41]考慮圖像上下文信息,設(shè)計了積分通道特征,在此基礎(chǔ)上提出了行人檢測方法。該方法的基本原理是利用積分圖技術(shù)把圖像的梯度直方圖、積分直方圖、Haar特征等結(jié)合起來進行特征計算;該方法集成了多特征信息,同時兼顧了檢測速度和準(zhǔn)確率。
綜上所述,基于不同特征的行人檢測方法,其檢測速度、準(zhǔn)確率、魯棒性各有不同,而且在不同應(yīng)用場景下所選擇的行人特征描述子也各有差異。
3 基于機器學(xué)習(xí)的行人檢測方法
機器學(xué)習(xí)廣泛應(yīng)用于行人檢測領(lǐng)域,基于機器學(xué)習(xí)的方法能夠自動提取判別力強的行人特征,且檢測準(zhǔn)確率高,魯棒性好。本文總結(jié)并分析了傳統(tǒng)機器學(xué)習(xí)檢測方法和深度學(xué)習(xí)檢測方法,這兩種方法的優(yōu)缺點見表3。
3.1 傳統(tǒng)機器學(xué)習(xí)檢測方法
傳統(tǒng)機器學(xué)習(xí)檢測方法通常都采用Boosting算法,主要包括自適應(yīng)增強(Adaptive boosting,AdaBoost)和梯度提升決策樹(Gradient boosting decision tree,GBDT)算法。如Ma等[42]提出了基于Haar特征和AdaBoost的行人檢測方法,采用改進AdaBoost來選擇判別力強的Haar特征,通過積分圖像表示多尺度特征,在計算速度上得到明顯提升,實時性更好;然而使用積分圖像的特征表示方法會受復(fù)雜背景的干擾,魯棒性較差。Yang等[43]針對復(fù)雜背景下的行人檢測,提出了基于HOG特征和SVM的方法,利用GrabCut和Mask R-CNN進行行人圖像分割;該方法具有更高的檢測精度和穩(wěn)定性,但是存在過擬合的問題。針對該問題,王焱[44]運用RPN進行特征提取,再使用GBDT對模型進行訓(xùn)練;為了防止過擬合,在訓(xùn)練過程中加入了隨機策略。該算法在Caltech數(shù)據(jù)集上的檢測性能較優(yōu),能較好地檢測存在部分遮擋的行人目標(biāo)。
Edgelet以局部特征的檢測為基礎(chǔ),在分類預(yù)測時,結(jié)合各部分的局部特征得到最終的分類結(jié)果。Shridhar等[45]用Edgelet來描述行人的局部輪廓特征,在此基礎(chǔ)上設(shè)計了行人檢測方法。該方法首先將人體劃分為若干個區(qū)域,用AdaBoost算法對每一部分區(qū)域進行訓(xùn)練,得到一個強分類器模型;在預(yù)測時,結(jié)合各個分類器的置信度來進行目標(biāo)判別。上述方法通常有較好的分類預(yù)測效果,對于遮擋較多、行人重疊等情況下的檢測魯棒性較強。然而該方法在分類預(yù)測時計算量較大,需要耗費大量的時間進行匹配計算,實時性較差,無法滿足實際的應(yīng)用需求。
3.2 深度學(xué)習(xí)檢測方法
深度學(xué)習(xí)檢測方法相較傳統(tǒng)機器學(xué)習(xí)檢測方法具有更高的準(zhǔn)確性和穩(wěn)定性。目前基于深度學(xué)習(xí)的行人檢測方法大致可分為兩類:一類是兩步法,即先選擇候選框區(qū)域再進行分類回歸,如基于R-CNN、Fast R-CNN、Faster R-CNN等的方法;另一類是一步法,即直接進行分類回歸,如基于Single-shot detector(SSD)、YOLO系列算法、RetinaNet等的方法。
3.2.1 兩步法
在行人檢測方法中,基于R-CNN的相關(guān)算法相較于基本的目標(biāo)檢測算法,其檢測精度、穩(wěn)定性有極大提升。Yang等[46]提出了基于R-CNN的行人檢測算法,通過建立人體各部位之間的從屬關(guān)系,實現(xiàn)復(fù)雜場景下的有效檢測。但是基于R-CNN的行人檢測算法仍存在著重復(fù)計算、計算量大的缺點,因此研究人員提出了Fast R-CNN、Faster R-CNN。如Zhang等[47]提出了基于Fast R-CNN的行人檢測方法,將K-means聚類算法與RPN相結(jié)合,提升了檢測效率,然而該方法提取的特征判別力不強。Cai等[48]設(shè)計了MS-CNN,能將淺層特征與深層特征相融合,提高提取特征的判別力;基于MS-CNN的行人檢測方法取得了較好的檢測效果,但其在背景光照不均、行人色彩多樣的情況下檢測誤差較大。Tian等[49]針對該問題提出了基于自動色彩增強(Automatic color enhancement,ACE)、Faster R-CNN的行人檢測算法,利用ACE增強行人目標(biāo)的對比度,從而提高了色彩復(fù)雜場景下的檢測精度。針對遮擋情況下的行人檢測,Zhang等[50]在Faster R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)中融入跨通道注意力機制,提高了行人目標(biāo)的定位精度,降低了誤檢率。
3.2.2 一步法
Liu等[51]提出了SSD算法用于目標(biāo)檢測,該算法直接采用了不同尺度的特征層進行分類預(yù)測,省略了R-CNN、Faster R-CNN等算法提取候選框區(qū)域的步驟,極大提升了檢測效率,但是該算法的檢測精度較低。裴偉等[52]針對該問題用表征能力更強的殘差網(wǎng)絡(luò)作為SSD的基礎(chǔ)網(wǎng)絡(luò),利用殘差學(xué)習(xí)降低模型訓(xùn)練難度,實驗結(jié)果表明改進后的SSD算法與傳統(tǒng)SSD算法相比,更具實時性和魯棒性,但是改進后的算法對于存在遮擋的行人目標(biāo)或小目標(biāo)行人的檢測召回率較低。Dong等[53]針對地鐵站等擁擠場景下的行人檢測,提出了基于SF-SSD的檢測方法。該方法基于傳統(tǒng)SSD網(wǎng)絡(luò),通過合并低層特征圖,準(zhǔn)確定位小目標(biāo),降低了擁擠場景下行人檢測的誤檢率和漏檢率。
YOLO系列算法也適用于行人目標(biāo)的實時檢測,YOLO的網(wǎng)絡(luò)結(jié)構(gòu)一般分為Backbone層、Neck層和Head層?;赮OLO系列的行人檢測算法相較于其他CNN,具有較強競爭力,但基于YOLOv3以前系列的檢測算法對于行人目標(biāo)定位的準(zhǔn)確度不夠高,且計算量過大。Zhang等[54]對YOLOv3做了改進,在歸一化層引入L1正則化,并對通道進行剪枝,減少了參數(shù)量,同時使用CIoU損失函數(shù),加快網(wǎng)絡(luò)收斂速度;該算法計算參數(shù)量少、檢測效率高,可滿足行人檢測實時性的要求;然而對于擁擠場景及小目標(biāo)行人檢測的準(zhǔn)確率仍有待提高。Guo等[55]提出了基于改進YOLOv5的行人檢測算法,通過放大數(shù)據(jù)集的訓(xùn)練網(wǎng)格提高了對遮擋目標(biāo)的識別能力。Li等[56]針對小目標(biāo)行人檢測問題,提出了一種高效的YOLO-ACN算法,通過添加注意力機制、CIoU損失函數(shù)和深度可分離卷積進行了改進,增大感受野,有效提取了細節(jié)特征。
綜上所述,深度學(xué)習(xí)檢測方法在行人檢測領(lǐng)域中得到了廣泛應(yīng)用。該類方法能自動在大量的數(shù)據(jù)集中學(xué)習(xí)特征表達,相比于傳統(tǒng)的行人檢測方法,具有更優(yōu)的檢測準(zhǔn)確率和模型泛化性能。然而該類方法參數(shù)量大,計算速度遠不及傳統(tǒng)的目標(biāo)檢測方法,難以達到實時行人檢測的要求。對于非剛性的行人目標(biāo)以及復(fù)雜背景影響下的場景,基于深度學(xué)習(xí)的行人檢測方法有待進一步高效化、精確化。
4 基于分類與定位的行人檢測方法
基于分類與定位的行人檢測方法的原理是直接判斷待測圖像中是否存在行人目標(biāo)且進行窗口定位。目前,行人檢測領(lǐng)域中常用的分類定位方法包括滑動窗口法、超越滑動窗口法。
4.1 滑動窗口法
滑動窗口法的基本原理是在待測圖像中選擇一個固定寬高的窗口并依序滑動,然后通過訓(xùn)練后的分類器模型來判別窗口內(nèi)是否存在行人目標(biāo)。滑動窗口法由整體法和部位法兩種方法組成。整體法可直接提取窗口內(nèi)行人目標(biāo)的全局特征;部位法則是將行人目標(biāo)拆分為各個部位進行特征提取,再建立各個部位之間的幾何關(guān)系。上述兩種方法的優(yōu)缺點見表5。
4.1.1 整體法
整體法是目前行人檢測中較為主流的分類方法,其中SVM、Boosting是目前應(yīng)用最廣泛的分類方法。SVM最早在1964年被提出,這是一種二元分類模型,廣泛用于行人識別、文本分類等研究中。Oren等[57]首次將SVM應(yīng)用于行人檢測中,并由比例模板擴展得到的小波模板方法來提取行人目標(biāo)特征,該方法計算效率較高。核函數(shù)普遍應(yīng)用于目標(biāo)檢測,Lei等[58]設(shè)計了一種以直方圖交叉核向量機為基礎(chǔ)框架的分類器,該分類器的運算速度與SVM相差不大,但是其對行人檢測準(zhǔn)確率提升較大。
Freund等[59]對Boosting算法進行優(yōu)化,在1995年提出了檢測效率更高的AdaBoost算法,但是其訓(xùn)練耗時較長,對異常樣本較為敏感,會影響強學(xué)習(xí)分類器的預(yù)測準(zhǔn)確性。Ma等[42]將弱學(xué)習(xí)分類器組合成級聯(lián)結(jié)構(gòu),顯著提高了檢測效率,但該方法不適用于復(fù)雜場景下的行人檢測,易將行人目標(biāo)與背景混淆。Kim等[60]提出了用于圖像和視覺特征共聚類的多分類器增強(Multiple classifier boosting,MCBoost)算法;該算法能最大限度地區(qū)分待測目標(biāo)與背景,從而適應(yīng)行人檢測中多類別且背景復(fù)雜的場景,但該算法存在過擬合的問題。Jiang等[61]提出了以HOG特征和Gentle AdaBoost為基礎(chǔ)框架的行人檢測算法,在分類器模型訓(xùn)練時加入樣本加權(quán)調(diào)節(jié)算法,可以有效解決過擬合的問題。Lin等[62]提出了一種多示例學(xué)習(xí)框架,通過對形變部位的建??梢愿纳菩腥硕嘧藨B(tài)、非剛性造成的部分特征無法識別的問題;基于該框架的行人檢測方法能自動匹配行人的局部特征,提高了行人檢測的精度。
基于整體法的行人檢測在訓(xùn)練數(shù)據(jù)集時只需要用矩形框標(biāo)注出行人區(qū)域,檢測效率高,然而容易忽視細節(jié)特征,在擁擠環(huán)境、遮擋影響下的行人檢測精度會大幅降低,其模型泛化能力較弱。因此該方法不適用于小目標(biāo)行人的檢測。
4.1.2 部位法
部位法的基本原理是將行人劃分為若干個不同部位,再分別對檢測不同部位的分類器進行訓(xùn)練,建立各個部位之間的幾何關(guān)系。2010年Felzenszwalb等[63]提出了形變部位模型(Deformable part model,DPM),基于DPM的方法能改善待測圖像中行人目標(biāo)非剛性的問題,但是該方法計算速度慢,影響檢測效率。因此,F(xiàn)elzenszwalb等[64]又結(jié)合級聯(lián)結(jié)構(gòu)分類器的思想,提出了一種級聯(lián)結(jié)構(gòu)的DPM,兼顧了檢測準(zhǔn)確率和效率。
基于部位法的行人檢測重點在于如何劃分行人目標(biāo)的各個部位以及構(gòu)造各部位的分類器模型。在基于級聯(lián)結(jié)構(gòu)分類器的行人檢測中,各部位分類器的檢測性能起到了決定性作用,其作用大于各個部位之間的幾何關(guān)系。部位法通常對遮擋較多、行人重疊等場景具有較強的魯棒性,然而各部位與整體圖像的匹配需要大量時間,在行人檢測實時性方面達不到應(yīng)用要求。
4.2 超越滑動窗口法
隨著基于詞袋(Bag of words,BOW)的場景分類技術(shù)的發(fā)展,超越滑動窗口法應(yīng)運而生,但是該類方法在行人檢測技術(shù)中應(yīng)用相對較少。Lampert等[65]提出了高效子窗口搜索法(Efficient subwindow search,ESS),這是一種能快速定位目標(biāo)的方法,但計算過程較為復(fù)雜。An等[66]對其搜索策略做出改進,提出了一種基于交替搜索的近似算法,其速度比ESS方法快約900倍,但是其對擁擠環(huán)境下的遮擋問題并沒有有效解決。隱式形狀模型是廣義霍夫變換(Generalized hough transform, GHT)和特征袋(Bag of features, BOF)方法的結(jié)合,在行人檢測中能有效解決遮擋的問題。Thi等[67]將隱式形狀模型運用到目標(biāo)定位中,該模型不依賴圖像預(yù)處理來區(qū)別復(fù)雜背景,提高了目標(biāo)定位精度。超越滑動窗口法可改善行人檢測中遮擋較多、行人多姿態(tài)的問題,但無法兼顧檢測實時性,局部特征的判別力較差,且誤檢率也較高。
綜上所述,不同的方法對不同場景的行人檢測,其檢測性能、檢測精度以及魯棒性存在較大差異。常見行人檢測方法的類型、優(yōu)缺點和相關(guān)文獻見表6。
5 評價指標(biāo)及各算法性能比較
5.1 評價指標(biāo)
本文總結(jié)了目前常見的幾種行人檢測算法評價指標(biāo)。nTP,表示預(yù)測為正樣本且預(yù)測結(jié)果正確(True positive,TP)的數(shù)量;nFP,表示預(yù)測為正樣本且預(yù)測結(jié)果錯誤(False positive,F(xiàn)P)的數(shù)量;nTN,表示預(yù)測為負樣本且預(yù)測結(jié)果正確(True negative,TN)的數(shù)量;nFN,表示預(yù)測結(jié)果為負樣本且預(yù)測結(jié)果錯誤(False negative,F(xiàn)N)的數(shù)量。
a)準(zhǔn)確率(Precision):p,表示nTP占所有被預(yù)測為正樣本數(shù)量的比值,p=nTP/(nTP+nFP)。
b)召回率(Recall):r,表示nTP占所有正樣本數(shù)量的比值,r =nTP/(nTP+nFN)。
c)漏檢率(Miss rate, MR):rM,表示未被檢測出的正樣本數(shù)量占所有正樣本數(shù)量的比值,rM=1-r。該指標(biāo)越小,模型檢測召回率越高,檢測性能越好。
d)平均誤檢率(False positive per image, FPPI):rF,表示每張圖像的平均誤檢率。
e)平均對數(shù)漏檢率(Log-average miss rate, MR-2):rLM,該指標(biāo)常用于行人檢測器的性能評價,rM-rF曲線上在[0.01, 1]區(qū)間均勻采樣9個rM值,并求其平均數(shù)rLM。rLM值越小,表示模型漏檢率越低,性能越好。
f)平均檢測精度(Average precision, AP):rAP,該指標(biāo)通過計算p和r來判定行人檢測器的性能。構(gòu)造p-r曲線,計算線下面積即可得到rAP;rAP越大,模型檢測精度越高,其性能越好。
g)FPS:檢測速度評價指標(biāo),表示在統(tǒng)一的硬件環(huán)境下每秒處理的圖像數(shù)量。FPS越大,檢測速度越快。
5.2 各算法性能比較
由于行人檢測算法種類繁多,彼此采用的實驗數(shù)據(jù)集和評價指標(biāo)各有差異,故難以在同一維度進行各算法性能的分析對比。以下以rLM為評價指標(biāo),總結(jié)了常見的行人檢測算法在Caltech數(shù)據(jù)集上的性能,見表7。
表7是常見行人檢測算法在不同遮擋情況下的平均對數(shù)漏檢率,其中:R表示Reasonable,少量遮擋及無遮擋;HO表示Heavily occlusion,嚴(yán)重遮擋;R+HO表示綜合結(jié)果;A表示完整數(shù)據(jù)集。從表7可以看出,Dollár等[68]提出的ACF算法和Nam等[69]提出的LDCF算法均基于手工特征、多種特征融合的方式進行行人檢測,其性能相較基于深度神經(jīng)網(wǎng)絡(luò)的行人檢測算法仍有較大差距。Zhang等[50]采用基于錨點框的方法,通過加入注意力機制降低漏檢和誤檢率。此外,相比于手工特征,基于深度神經(jīng)網(wǎng)絡(luò)的行人檢測算法在檢測準(zhǔn)確率上有大幅提升,但是距離高精度、高效率的行人檢測還有一定的差距。
6 總結(jié)與展望
本文介紹了行人檢測方法的研究進展,綜述了基于圖像分割、特征提取、機器學(xué)習(xí)、分類與定位的行人檢測方法,歸納了這些方法的基本原理,分析了優(yōu)缺點及其適用性。目前,行人檢測方法已改善的有如下幾點:
a)關(guān)于行人檢測目標(biāo)重疊、定位精度低的問題,基于單視角的行人檢測技術(shù)很難從本質(zhì)上解決該問題。為了改善該問題,一種方式是采用無人機、雷達無線電定位等技術(shù)多視角攝像機來檢測行人目標(biāo)。在多視角下,行人目標(biāo)更為立體,姿態(tài)和空間定位的獲取更為準(zhǔn)確。另一種方式是利用深度神經(jīng)網(wǎng)絡(luò)檢測行人,增大感受野,獲得多尺度行人目標(biāo)特征。該方法對于圖像序列中小目標(biāo)行人的檢測效果提升較明顯,是未來行人檢測領(lǐng)域的主要研究方向之一。
b)關(guān)于行人檢測系統(tǒng)實際應(yīng)用中面臨惡劣環(huán)境的問題,如在雨天、大霧等能見度低、分辨率低的環(huán)境下對行人目標(biāo)進行準(zhǔn)確檢測,可建立惡劣環(huán)境下的行人檢測數(shù)據(jù)集,提高模型的泛化能力,提升檢測系統(tǒng)的魯棒性。
c)關(guān)于小目標(biāo)行人定位準(zhǔn)確度較低的問題,可利用熱成像技術(shù)、CT圖像及高光譜技術(shù)更有效地獲取行人目標(biāo)信息,改善了傳統(tǒng)的CCD相機僅能得到目標(biāo)表面信息的不足,提高了行人空間定位的準(zhǔn)確性。該類技術(shù)可與行人檢測算法相結(jié)合,有望成為行人檢測領(lǐng)域的熱點方向。
d)關(guān)于行人多姿態(tài)、非剛性的問題,可通過構(gòu)建自適應(yīng)檢測器,對行人目標(biāo)進行更魯棒、精確的檢測。該方法對行人目標(biāo)檢測的準(zhǔn)確率有較大提升,對不同背景環(huán)境變化和待測目標(biāo)灰度變化有較好的魯棒性。通過自學(xué)習(xí)提升行人檢測系統(tǒng)的性能將是重要發(fā)展方向。
目前,行人檢測已經(jīng)是計算機視覺應(yīng)用領(lǐng)域的一大研究熱點,然而在實際應(yīng)用中行人檢測方法仍有待發(fā)展,算法結(jié)構(gòu)改進、分類器優(yōu)化、復(fù)雜場景下的行人檢測等問題仍是未來的研究重點。根據(jù)本文對行人檢測方法原理和優(yōu)缺點的分析,行人檢測方法還需在以下幾個方面加快發(fā)展:
a)基于圖像分割的行人檢測方法較為簡單便捷且節(jié)約硬件資源,但該方法在人流量較大、多行人遮擋的場景中,尚未改善漏檢、誤檢等問題,因此需提升該類方法的檢測準(zhǔn)確率和召回率。
b)基于傳統(tǒng)底層特征提取的行人檢測方法相較于基于圖像分割的方法,其檢測效率及準(zhǔn)確率略有提升,但仍受復(fù)雜背景或遮擋的影響,對于惡劣環(huán)境下的行人檢測,其魯棒性仍待提升,因此采用基于混合特征的行人檢測方法在一定程度上可提高該類方法的性能。
c)基于機器學(xué)習(xí)的行人檢測方法魯棒性較優(yōu)、適用性廣,對于小目標(biāo)或遮擋較嚴(yán)重等場景下的行人檢測效果尤為突出;基于深度神經(jīng)網(wǎng)絡(luò)的方法能提取判別力較強的特征,極大地提高了模型的泛化能力,降低了復(fù)雜背景對行人檢測結(jié)果的影響;然而該類方法計算參數(shù)量大,硬件成本相對較高,如何兼顧檢測精度和檢測效率還需進一步研究。
d)基于分類與定位的行人檢測方法中,基于滑動窗口法的行人檢測通常存在檢測速度慢、誤檢率較高等問題,如何提高其檢測精度和實時性還待進一步探究;基于超越滑動窗口法的行人檢測性能較為優(yōu)越,但該類方法硬件成本高,不適用于一般行人檢測任務(wù),如何設(shè)計與該類技術(shù)相結(jié)合的行人檢測方法仍需進一步研究。
參考文獻:
[1]Zheng G, Chen Y B. A review on vision-based pedestrian detection[C]∥2012 IEEE Global High Tech Congress on Electronics. Shenzhen, China. IEEE, 2012: 49-54.
[2]Ahmed Z, Iniyavan R, Madhan M P. Enhanced vulnerable pedestrian detection using deep learning[C]∥2019 International Conference on Communication and Signal Processing (ICCSP). Chennai, India. IEEE, 2019: 971-974.
[3]Song Y, Li M, Qiu X H, et al. Full-time infrared feature pedestrian detection based on CSP network[C]∥2020 International Conference on Intelligent Transportation, Big Data & Smart City (ICITBS). Vientiane, Laos. IEEE, 2020: 516-518.
[4]雷詩謠. 改進的候選區(qū)域生成網(wǎng)絡(luò)應(yīng)用于半監(jiān)督行人檢測[D]. 廣州: 華南理工大學(xué), 2019: 1-17.
[5]Renu Chebrolu K N, Kumar P N. Deep learning based pedestrian detection at all light conditions[C]∥2019 International Conference on Communication and Signal Processing (ICCSP). Chennai, India. IEEE, 2019: 838-842.
[6]Cao J L, Pang Y W, Xie J, et al. From handcrafted to deep features for pedestrian detection: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9): 4913-4934.
[7]Feng T T, Ge H Y. Pedestrian detection based on attention mechanism and feature enhancement with SSD[C]∥2020 5th International Conference on Communication, Image and Signal Processing (CCISP). Chengdu, China. IEEE, 2020: 145-148.
[8]Li F, Li X Y, Liu Q, et al. Occlusion handling and multi-scale pedestrian detection based on deep learning: a review[J]. IEEE Access, 2022, 10: 19937-19957.
[9]Cheng Y, Li B J. Image segmentation technology and its application in digital image processing[C]∥2021 IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC). Dalian, China. IEEE, 2021: 1174-1177.
[10]Guo X Q, Yang C, Liu Y J, et al. Learn to threshold: ThresholdNet with confidence-guided manifold mixup for polyp segmentation[J]. IEEE Transactions on Medical Imaging, 2021, 40(4): 1134-1146.
[11]Li Y, Zhang Y, Cui W G, et al. Dual encoder-based dynamic-channel graph convolutional network with edge enhancement for retinal vessel segmentation[J]. IEEE Transactions on Medical Imaging, 2022, 41(8): 1975-1989.
[12]羅艷, 張重陽, 田永鴻, 等. 深度學(xué)習(xí)行人檢測方法綜述[J]. 中國圖象圖形學(xué)報, 2022, 27(7): 2094-2111.
[13]Song Y H, Yan H. Image segmentation techniques overview[C]∥2017 Asia Modelling Symposium (AMS). Kota Kinabalu, Malaysia. IEEE, 2018: 103-107.
[14]唐清. 閾值分割及紅外圖像行人檢測研究[D]. 廣州: 華南理工大學(xué), 2010: 10-24.
[15]Swetha V, Sushma K, Divya Praneetha N, et al. Application to pedestrian detection and object detection[C]∥2022 6th International Conference on Computing Methodologies and Communication (ICCMC). Erode, India. IEEE, 2022: 1462-1466.
[16]Su H Q, Wen C J. A new algorithm based on super-green features for ostu′s method using image segmentation[C]∥2012 World Automation Congress. Puerto Vallarta, Mexico. IEEE, 2012: 1-4.
[17]Trivedi S, Kumar Khunteta D, Narayan S. Hand segmentation using modified K-means clustering with depth information and adaptive thresholding by histogram analysis[C]∥2017 IEEE International Conference on Power, Control, Signals and Instrumentation Engineering (ICPCSI). Chennai, India. IEEE, 2018: 1607-1609.
[18]Liu Y, Xie Z W, Liu H.An adaptive and robust edge detection method based on edge proportion statistics[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2020, 29: 5206-5215.
[19]Fernandez J J, Nithyanandam P. Fingerprint core point detection using connected component approach and orientation map edge tracing approach[J]. International Journal of Biometrics, 2021, 13(4): 409-431.
[20]Ma Y L, Ma H Y, Chu P C. Demonstration of quantum image edge extration enhancement through improved Sobel operator[J]. IEEE Access, 2020, 8: 210277-210285.
[21]Wu T, Wang L W, Zhu J C. Image edge detection based on Sobel with morphology[C]∥2021 IEEE 5th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). Xi′an, China. IEEE, 2021: 1216-1220.
[22]Zhang Y, Han X Y, Zhang H, et al. Edge detection algorithm of image fusion based on improved Sobel operator[C]∥2017 IEEE 3rd Information Technology and Mechatronics Engineering Conference (ITOEC). Chongqing, China. IEEE, 2017: 457-461.
[23]Shi J T, Zhu Y, Chu X L, et al. A novel approach of edge detection based on gray weighted absolute correlation degree and Prewitt operator[C]∥2010 International Conference on Intelligent Computing and Integrated Systems. Guilin. IEEE, 2010: 232-234.
[24]Hu H, Cai H, Ma Z Y, et al. Semantic segmentation based on semantic edge optimization[C]∥2021 International Conference on Electronic Information Engineering and Computer Science (EIECS). Changchun, China. IEEE, 2021: 612-615.
[25]Gao C, Zhang X, Wang H. A combined method for multi-class image semantic segmentation[J]. IEEE Transactions on Consumer Electronics, 2012, 58(2): 596-604.
[26]Jiang H, Zhang C, Wu M. Pedestrian detection based on multi-scale fusion features[C]∥2018 International Conference on Network Infrastructure and Digital Content (IC-NIDC). Guiyang, China. IEEE, 2018: 329-333.
[27]田萱,王亮,丁琪.基于深度學(xué)習(xí)的圖像語義分割方法綜述[J]. 軟件學(xué)報, 2019, 30(2): 440-468.
[28]Li P H, Zhang L J, Qiao J L, et al. A semantic segmentation method based on improved U-net network[C]∥2021 4th International Conference on Advanced Electronic Materials, Computers and Software Engineering (AEMCSE). Changsha, China. IEEE, 2021: 600-603.
[29]姜宏宇. 面向道路場景的輕量化語義分割研究[D]. 北京: 中國地質(zhì)大學(xué)(北京), 2021: 7-33.
[30]Ma N, Chen L, Hu J C, et al. Pedestrian detection based on HOG features and SVM realizes vehicle-human-environment interaction[C]∥2019 15th International Conference on Computational Intelligence and Security (CIS). Macao,China. IEEE, 2020: 287-291.
[31]Liu Z H. Improvement of feature extraction based on HOG[C]∥2021 2nd Asia Symposium on Signal Processing (ASSP). Beijing, China. IEEE, 2022: 55-60.
[32]Bilal M, Hanif M S. Benchmark revision for HOG-SVM pedestrian detector through reinvigorated training and evaluation methodologies[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(3): 1277-1287.
[33]Fan G J, Li B, Mu W Q, et al. HOGG: Gabor and HOG-based human detection[C]∥2016 8th International Conference on Information Technology in Medicine and Education (ITME). Fuzhou, China. IEEE, 2017: 562-566.
[34]Peng W L, Yu X, Rong X. Human detection with log-polar transform and HOG-LBP features[J]. ICIC Express Letters, 2018, 12(7): 637-644.
[35]林才紡. 基于CENTRIST特征行人檢測算法的GPU實現(xiàn)[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2017: 6-39.
[36]Park W J, Kim D H, Suryanto, et al. Fast human detection using selective block-based HOG-LBP[C]∥2012 19th IEEE International Conference on Image Processing. Orlando, USA. IEEE, 2013: 601-604.
[37]Watanabe T, Ito S, Yokoi K. Image feature descriptor using co-occurrence histograms of oriented gradients for human detection[J]. The Journal of the Institute of Image Information and Television Engineers, 2017, 71(1): J28-J34.
[38]種衍文, 匡湖林, 李清泉. 一種基于多特征和機器學(xué)習(xí)的分級行人檢測方法[J]. 自動化學(xué)報, 2012, 38(3): 375-381.
[39]Schwartz W R, Kembhavi A, Harwood D, et al. Human detection using partial least squares analysis[C]∥IEEE 12th International Conference on Computer Vision. Kyoto, Japan. IEEE, 2010: 24-31.
[40]儲珺, 束雯, 周子博, 等. 結(jié)合語義和多層特征融合的行人檢測[J]. 自動化學(xué)報, 2022, 48(1): 282-291.
[41]Dollár P, Tu Z W, Perona P, et al. Integral channel features[C]∥Proceedings of the British Machine Vision Conference, BMVC. London, UK. British Machine Vision Association, 2009: 1-11.
[42]Ma S Y, Bai L. A face detection algorithm based on Adaboost and new Haar-like feature[C]∥2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS). Beijing, China. IEEE, 2017: 651-654.
[43]Yang Y S, Lin L. Automatic pedestrians segmentation based on machine learning in surveillance video[C]∥2019 IEEE International Conference on Computational Electromagnetics (ICCEM). Shanghai, China. IEEE, 2019: 1-3.
[44]王焱. 基于隨機梯度提升決策樹的行人檢測算法設(shè)計與實現(xiàn)[D]. 杭州: 浙江大學(xué), 2017: 33-66.
[45]Shridhar H, Neelgar B, Premananda R. An improved image fusion technique based on wavelet and edge gradients to augment spatial prominence of image features[C]∥2018 International Conference on Electrical, Electronics, Communication, Computer, and Optimization Techniques (ICEECCOT). Msyuru, India. IEEE, 2020 : 416-421.
[46]Yang L, Song Q, Wang Z H, et al. Hier R-CNN: instance-level human parts detection and a new benchmark[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 39-54.
[47]Zhang H, Du Y, Ning S R, et al. Pedestrian detection method based on Faster R-CNN[C]∥2017 13th International Conference on Computational Intelligence and Security (CIS). Hong Kong, China. IEEE, 2018: 427-430.
[48]Cai Z W, Fan Q F, Feris R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]∥Proceedings of the 14th European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 354-370.
[49]Tian Q, Wang M H, Zhang Y, et al. A research for automatic pedestrian detection with ACE enhancement on Fasters R-CNN[C]∥2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). Beijing, China. IEEE, 2019: 1-9.
[50]Zhang S S, Yang J, Schiele B. Occluded pedestrian detection through guided attention in CNNs[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 6995-7003.
[51]Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multiBox detector[C]∥Proceedings of the 2016 European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 21-37.
[52]裴偉, 許晏銘, 朱永英, 等. 改進的SSD航拍目標(biāo)檢測方法[J]. 軟件學(xué)報, 2019, 30(3): 738-758.
[53]Dong X W, Han Y, Li W, et al. Pedestrian detection in metro station based on improved SSD[C]∥2019 IEEE 14th International Conference on Intelligent Systems and Knowledge Engineering (ISKE). Dalian, China. IEEE, 2020: 936-939.
[54]Zhang N, Fan J H. A lightweight object detection algorithm based on YOLOv3 for vehicle and pedestrian detection[C]∥2021 IEEE Asia-Pacific Conference on Image Processing, Electronics and Computers (IPEC). Dalian, China. IEEE, 2021: 742-745.
[55]Guo W J, Shen N B, Zhang T Z. Overlapped pedestrian detection based on YOLOv5 in crowded scenes[C]∥2022 3rd International Conference on Computer Vision, Image and Deep Learning & International Conference on Computer Engineering and Applications (CVIDL & ICCEA). Changchun, China. IEEE, 2022: 412-416.
[56]Li Y J, Li S S, Du H H, et al. YOLO-ACN: focusing on small target and occluded object detection[J]. IEEE Access, 2020, 8: 227288-227303.
[57]Oren M, Papageorgiou C, Sinha P, et al. Pedestrian detection using wavelet templates[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan, PR, USA. IEEE, 2002: 193-199.
[58]Lei Y, Huang Z J. Research on pedestrian detection algorithm based on monocular vision[C]∥2018 International Conference on Robots & Intelligent System (ICRIS). Changsha, China. IEEE, 2018: 161-163.
[59]Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
[60]Kim T K, Cipolla R. MCBoost: multiple classifier boosting for perceptual co-clustering of images and visual features[C]∥Conference on Neural Information Processing Systems. New York: ACM, 2008: 841-848.
[61]Jiang J F, Xiong H. Fast pedestrian detection based on HOG-PCA and gentle AdaBoost[C]∥2012 International Conference on Computer Science and Service System. Nanjing, China. IEEE, 2012: 1819-1822.
[62]Lin Z, Hua G, Davis L S. Multiple instance fFeature for robust part-based object detection[C]∥2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009). Miami, Florida, USA. IEEE, 2009: 405-412.
[63]Felzenszwalb P F, Girshick R B, McAllester D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[64]Felzenszwalb P F, Girshick R B, McAllester D. Cascade object detection with deformable part models[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA. IEEE, 2010: 2241-2248.
[65]Lampert C H, Blaschko M B, Hofmann T. Efficient subwindow search: a branch and bound framework for object localization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(12): 2129-2142.
[66]An S J, Peursum P, Liu W Q, et al. Efficient algorithms for subwindow search in object detection and localization[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA. IEEE, 2009: 264-271.
[67]Thi T H, Cheng L, Zhang J, et al. Weakly supervised action recognition using implicit shape models[C]∥2010 20th International Conference on Pattern Recognition. Istanbul, Turkey. IEEE, 2010: 3517-3520.
[68]Dollár P, Appel R, Belongie S, et al. Fast feature pyramids for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1532-1545.
[69]Nam W, Dollár P, Han J H. Local decorrelation for improved pedestrian detection[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 1. New York: ACM, 2014: 424-432.
[70]Zhang L L, Lin L, Liang X D, et al. Is faster R-CNN doing well for pedestrian detection?[C]∥Proceedings of the 14th European Conference on Computer Vision(ECCV). Cham: Springer International Publishing, 2016: 443-457.
(責(zé)任編輯:康 鋒)