国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于可變形部件模型及稀疏特征的行人檢測

2015-11-26 12:33甘鵬坤
關(guān)鍵詞:級聯(lián)行人部件

甘鵬坤,陶 凌,龍 偉

南昌大學(xué)信息工程學(xué)院,南昌330000

隨著科學(xué)技術(shù)的發(fā)展,計算機逐漸能夠幫助甚至是替代人類完成一些以前看似只能由人類完成的任務(wù),如何讓計算機更好的服務(wù)于人類生活成了近年研究的熱點.其中,讓計算機分析及理解攝像頭捕捉到的圖像,就像人類通過眼睛獲得信息一樣,是當(dāng)前研究的重點,而行人檢測是這個研究領(lǐng)域的顯著代表.

行人檢測就是利用智能化手段,從圖像或視頻中自動識別行人,通過計算機視覺、數(shù)字圖像處理等技術(shù),在計算機上實現(xiàn)行人自動識別的過程.這種技術(shù)可以對靜態(tài)圖像或視頻中的行人進行檢測.由于行人所處背景的復(fù)雜性及不確定性,受光照而產(chǎn)生的明暗變化,服飾各異,行姿多變,以及由攝像機位置造成行人在圖像上的不同等,使得行人檢測是一項極具挑戰(zhàn)的任務(wù).

行人檢測主要涉及兩方面內(nèi)容,包括圖像特征提取和模型訓(xùn)練.稀疏編碼直方圖的方法是在方向梯度直方圖(histogram oforiented gradient,HOG)[1-2]檢測模型的基礎(chǔ)上,計算以每個像素為中心塊的稀疏編碼,對得到的稀疏編碼值進行插值計算,以此形成圖像的特征,該方法在一定程度上提高了檢測精度.PASCAL VOC挑戰(zhàn)賽數(shù)據(jù)集合中的訓(xùn)練數(shù)據(jù)通常指定了標簽,但這些標簽沒有標明各個部件,是一種弱標簽,現(xiàn)引入一種具有判別能力的弱標簽學(xué)習(xí)方法,對該弱標簽數(shù)據(jù)集合進行訓(xùn)練得到部件模型,再選擇級聯(lián)檢測的方法,可使行人檢測的準確率和速率得到顯著提高.

1 圖像特征的提取

稀疏編碼直方圖(histograms of sparse codes,HSC)[3]特征算子類似于HOG特征算子,但不同的是,基于稀疏編碼技術(shù)用稀疏的碼字來表示圖像的局部特征.這種稀疏的字典通過一種無監(jiān)督的學(xué)習(xí)從數(shù)據(jù)中獲取.計算出每個像素的稀疏編碼后,通過聚類使其成為有規(guī)律的單元,就可用它們?nèi)〈鶫OG特征.

1.1 局部圖像稀疏表達

采用K-SVD進行字典學(xué)習(xí)[4],通過無監(jiān)督字典學(xué)習(xí)產(chǎn)生K-means.給出一組圖像塊Y=[y1,y2,…,yn],K-SVD算法將通過最小化公式(1)重構(gòu)誤差找到一個字典 D=[d1,d2,…,dn],以及一個相關(guān)的稀疏矩陣 X=[x1,x2,…,xn].

其中,xi是X的列,零范數(shù)計算稀疏編碼x中非零值的個數(shù),K是預(yù)先定義的稀疏等級.K-SVD通過迭代選擇X和D來解決優(yōu)化問題.當(dāng)給出一個字典D時,可通過貪婪匹配追蹤算法高效地解出稀疏編碼X;當(dāng)給出編碼X,字典D可通過奇異值分解來更新.當(dāng)字典D學(xué)習(xí)完成時,可通過正交匹配追蹤算法計算稀疏碼.

1.2 稀疏編碼直方圖提取

稀疏編碼X,其尺寸等于字典的大小.對于非零項xi∈ X,通過軟分級的方式來分派絕對值到細胞單元中的4個像素單元中.對于每個平均稀疏編碼使用L2范數(shù)對特征向量F進行歸一化處理,最后對F中的每個元素進行指數(shù)變換

其中,α是維度指數(shù),通常0<α<1,指數(shù)變換使得F值的分布更具一致性,提高了辨別率.對于行人目標檢測,僅使用值是不夠的,還需在線性聚類之前增加半波調(diào)整值,使每個經(jīng)過字典學(xué)習(xí)的碼子 i在稀疏直方圖中有3個值,為[,max(xi,0),max(-xi,0)].

將所有歸一化后的平均單元塊,按照先行后列的順序展開成向量,所得到的向量即為對應(yīng)的HSC特征直方圖.圖1是稀疏特征算子可視化結(jié)果.

2 可變形部件模型建模

星型模型[5-6]可定義成簡單的目標檢測語義模型,實際上就是由一系列濾波器組成星型結(jié)構(gòu)的模型,包括根濾波器和部件濾波器.

在行人檢測問題中,針對可分部件,可分為兩種情況:①該部件不能再分解,在此定義為終端,用T表示;②部件還可往下分解,稱為非終端,用N表示.為增加根濾波器,創(chuàng)建終端符號A與濾波器F0關(guān)聯(lián).對于星型模型包含N的部分,用Y1,Y2,…,Yn來表示.因此,混合模型Q由根濾波器和多個部件濾波器組成

其中,Ω表示一組實例化的參數(shù),如圖像的坐標以及尺度;ω∈Ω;A(ω)是一個模型指定的終端部件;Yi∈N∪T,結(jié)構(gòu)規(guī)則中所對應(yīng)的每個部件有一個偏差β和規(guī)范化的錨點補償.每個錨點補償?shù)男问綖?δ=[δx,δy,δl],操作 ⊕ 表示由[x,y,l]×[δx,δy,δl]∈ Ω×Δ 映射到(x+2δlδx,y+2δlδy,l+ δlλ).(x,y,l)表示在圖像金字塔中的位置和尺度.其中,(x,y)是一個數(shù)組;l表示所在圖像金字塔中的層數(shù),是為了獲得某一層的分辨率而需要在金字塔中向下走的層數(shù).約束部件濾波器在根濾波器的下一層中,因此,對于每一個δl可固定δl=1.

圖1 稀疏編碼直方圖特征Fig.1 Histograms of sparse codes features

為指定模型的每個部件,創(chuàng)建終端符號B1,B2,…,Bn,將其與對應(yīng)的濾波器F1,F(xiàn)2,…,F(xiàn)n關(guān)聯(lián)起來.為完成語義模型,將每個部件終端Bi(ω)與其對應(yīng)的非終端部件Yi(ω)通過如式(4)的變形規(guī)則連接起來.

其中,φΔ為變形特征函數(shù);Δ為相對于理想位置的偏移,由變形規(guī)則產(chǎn)生的結(jié)構(gòu)允許部件濾波器相對根濾波器有一定位移,限制位移偏差δ,本研究設(shè)Δδl=0={(δx,δy,δl)∈ Δδl=0}.dn為部件n的變形花費.直觀地說,針對每個子部件相對根部件的位置,這個參數(shù)分配了一個非常大的負偏差.將這些規(guī)則組合起來,組成語義模型,它定義了星型結(jié)構(gòu)的可變形部件模型.

3 特征訓(xùn)練

3.1 弱標簽隱藏變量結(jié)構(gòu)化SVM算法(weak label latent variable structured support vector machine algorithm,WL-SSVM)[7-8]

設(shè)C={c1,c2,…,cn}為輸入訓(xùn)練數(shù)據(jù)集合,G={g1,g2,…,gn}為標簽集合,S={s1,s2,…,sn}為輸出,即訓(xùn)練得到的模型.從訓(xùn)練樣本{(c1,g1),(c2,g2),…,(cn,gn)}集合中得到學(xué)習(xí)函數(shù)f:C→S,其中(ci,gi)∈C×G.為構(gòu)造函數(shù)方便,用x和y代替c和g,分別表示輸入的訓(xùn)練數(shù)據(jù),標簽數(shù)據(jù).

構(gòu)造一個損失函數(shù)L:y×s→R≥0用于將標簽與輸出關(guān)聯(lián)起來,其中R為規(guī)則集合.函數(shù)L(y,s)計算標簽y∈Y時其對應(yīng)預(yù)測輸出為s∈S時的花費.設(shè)M為c×y上固定但未知的概率分布,本研究的目標是找到一個函數(shù)f(x),使得預(yù)期的損失函數(shù)所得花費低于期望值EM[L(y,f(x))].

設(shè)f模型參數(shù)由向量w來表示,它通過最大化圖像特征映射ψ(x,s)的線性函數(shù)得到.

為了顯性的表示參數(shù),將 f(x)寫成 fw(x).S∈S(x),x為其中一個實例.

由于M分布情況未知,在訓(xùn)練集合中通過最小化規(guī)范風(fēng)險來訓(xùn)練參數(shù)w.WL-SSVM定義為

其中,Lsurr由兩部分增廣預(yù)測損失組成

在式(7)等號右邊第1項中,Lmargin鼓勵高損失輸出,因此會促使得分下降;而第2項中Loutput抑制高損失輸出,因此低損失預(yù)測得分將被拉高.當(dāng)Lmargin=Loutput時,Lsurr成為了一種斜坡?lián)p耗,可見,Loutput的選擇對于訓(xùn)練問題的計算難度有重大意義.

3.2 目標檢測

級聯(lián)檢測算法的核心內(nèi)容是通過閾值修剪來簡化檢測模型,在不損失檢測精度的基礎(chǔ)上,提高行人檢測效率.算法步驟為:

1)通過使用主成份分析(principal component analysis,PCA)系數(shù)矩陣[9]將標準模型內(nèi)的特征向量降維,把所有32維濾波器映射為12維濾波器并保存起來,原模型繼續(xù)保持32維濾波器;

2)將所有濾波器重新排列,再寫入模型,形成簡化模型;

3)讀取非PCA分數(shù)統(tǒng)計信息,并對分數(shù)進行裁剪;

4)讀取PCA分數(shù)統(tǒng)計信息并對分數(shù)裁剪;

5)將統(tǒng)計分數(shù)按方差值遞減排序;

6)計算閾值.從第0個部件開始不斷累加分數(shù),然后取所有正樣本在此累加過程中的最小值,再加上偏移權(quán)重,形成該級的級聯(lián)檢測閾值.

通過以上步驟標準模型轉(zhuǎn)換為級聯(lián)模型.將根濾波器與特征金字塔進行卷積并計算分數(shù)響應(yīng),通過對目標預(yù)先假設(shè)和形變閾值進行裁剪,從而完成對目標的級聯(lián)檢測[10-11].

4 實驗數(shù)據(jù)分析與處理

本研究使用INRIA Person行人檢測以及PASCAL VOC挑戰(zhàn)賽數(shù)據(jù)集合,采用PASCAL VOC挑戰(zhàn)賽協(xié)議對系統(tǒng)進行評價,這些評測集是公認的目標檢測中難度很大的測試,該數(shù)據(jù)集合都包含數(shù)千張真實世界場景的圖片.在數(shù)據(jù)集合中,已標注了行人目標的區(qū)域邊框,測試目標是預(yù)測圖像中行人邊框.在實際應(yīng)用中,系統(tǒng)會輸出一系列帶評分的區(qū)域邊框,研究人員通過在不同點對這些分數(shù)進行閾值化處理,從而獲得一個包含測試集合中所有圖片的準確率-查全率(precision-recall,PR)曲線.

4.1 評判規(guī)則

在PASCAL VOC挑戰(zhàn)賽中,常用PR曲線替代計算精度的平均得分.設(shè)TP為真陽性,表示輸出的預(yù)測是p而真實的結(jié)果也是p;FP為假陽性,表示輸出的預(yù)測是p而真實的結(jié)果是n;TN為真陰性,表示輸出的預(yù)測是n而真實的結(jié)果也是n;FN為假陰性,表示輸出的預(yù)測是n而真實的結(jié)果是p.PR曲線的準確率(Precision)定義為檢測到樣本中屬于正確目標樣本的數(shù)量除以所有檢測到目標的樣本數(shù)量的商,即

查全率(Recall)為檢測到樣本正確目標樣本的數(shù)量除以所有正確目標樣本的數(shù)量的商,即

4.2 行人檢測的實現(xiàn)及結(jié)果分析

基于可變形部件模型的行人檢測[12-13]主要分為訓(xùn)練和檢測兩個階段.

4.2.1 模型訓(xùn)練階段

訓(xùn)練是指根據(jù)提取好的人體目標特征來訓(xùn)練相應(yīng)的分類器,并構(gòu)造模型濾波器,以便在檢測階段得到很好的利用.訓(xùn)練結(jié)果的好壞會直接影響以后檢測的效果,所以要在訓(xùn)練階段進行大量的訓(xùn)練,以獲得最小的誤差.采取HOG特征對樣本圖像進行特征提取并生成特征金字塔,本研究中訓(xùn)練時金字塔層數(shù)取10,圖像塊大小為8×8像素.利用WL-SSVM算法對特征進行訓(xùn)練和分類,經(jīng)過大量的正負樣本訓(xùn)練以及不斷更新濾波器來獲得最佳的檢測模型.訓(xùn)練好的混合模型如圖2.

圖2 混合模型中的根濾波器和部件濾波器模型的訓(xùn)練結(jié)果Fig.2 Training results of root and part filters in the mixed model

針對于行人語義模型,可將數(shù)據(jù)集合中的目標按照長寬比分成6組,訓(xùn)練一個包含6個組件的混合模型.主要覆蓋行人上肢部分的有5個必選部件,其余為可選部件.檢測時,根據(jù)目標被遮擋的情況,選擇對應(yīng)合適的模型與之匹配.模型訓(xùn)練結(jié)果如圖3.

圖3 語義模型中的根濾波器模型和部件濾波器模型的訓(xùn)練結(jié)果Fig.3 Training results of root and part filters in the semantic model

4.2.2 人體目標檢測階段

利用訓(xùn)練好的多部件模型濾波器對輸入的目標圖像進行檢測,若檢測到目標,則標出目標在圖像中的位置.

圖4是單個目標檢測的結(jié)果.其中,圖4(a)是使用混合模型檢測得出的結(jié)果;圖4(b)是使用行人語義模型檢測得出的結(jié)果.觀測兩者可以看出,兩種模型檢測的結(jié)果有略微區(qū)別,與其對應(yīng)的模型結(jié)構(gòu)相似,圖4(b)中人體下肢部分由可選部件組成,檢測結(jié)果兩者并無多大差異.

由于混合模型不存在可選部件,其部件數(shù)量在模型訓(xùn)練時確定,而每個組件之間相互獨立,有時會出現(xiàn)組件之間的競爭關(guān)系.如圖5,目標圖像只包含一個行人目標,但是圖5(b)顯示檢測出兩個行人,外層目標對應(yīng)的是混合組件模型檢測的結(jié)果,而里面的框圖只包含行人上一部分,顯然是組件模型檢測的結(jié)果.當(dāng)使用行人語義模型檢測時就不會出現(xiàn)這種現(xiàn)象.

針對遮擋問題,行人語義模型體現(xiàn)出更好的性能.如圖6,對同一幅圖像,圖6(a)是使用混合模型檢測出的結(jié)果,圖6(b)是使用行人語義模型檢測出的結(jié)果.在使用混合模型時,圖中左邊的下半身被遮擋的行人目標未被檢測出來.

本研究檢測時使用的測試數(shù)據(jù)集為INRIA Person測試數(shù)據(jù)集[14-15],該測試數(shù)據(jù)集合包含了741張圖像,其中正樣本288張,負樣本453張.檢測結(jié)果如圖7.其中,實線表示使用混合模型檢測的結(jié)果,點線表示的是使用行人語義模型檢測的結(jié)果,虛線表示混合模型加級聯(lián)檢測結(jié)果.

圖4 單個目標的檢測結(jié)果Fig.4 Detection results of a single target

圖5 混合模型與行人語義模型檢測結(jié)果Fig.5 Test results of the mixed model and pedestrian semantic model

由圖7可見,檢測性能曲線都突破了(0.8,0.9)點,表明準確率以及查全率較高.其中使用級聯(lián)檢測算法的PR曲線[16]基本上與一般檢測方法相似,但其速度卻大大提高了.

設(shè)待檢測窗口有1 300個,縮放比例為0.9,為了對圖像中大小不同的人體目標進行有效檢測,以8為掃描步長分別在x方向和y方向上遍歷掃描圖像,在相同硬件條件下,對大小為320×240像素的圖像采用上述3種模型進行檢測.表1給3種模型的檢測耗時,并通過統(tǒng)計測試數(shù)據(jù)集檢測所花費的平均時間,發(fā)現(xiàn)使用級聯(lián)檢測算法的耗時僅是采用其他檢測算法的平均耗時倍.

圖6 遮擋目標的檢測結(jié)果Fig.6 Detection results of occluded targets

圖7 檢測結(jié)果PR曲線Fig.7 Test results PR curve

表1 級聯(lián)檢測與一般檢測耗時比較Table1 Comparison of time consume between cascade detection and general detection s

結(jié) 語

本研究通過對大量人體檢測方法的學(xué)習(xí)研究,采用特征學(xué)習(xí)方法提取合適的人體特征,用圖像語義模型對行人檢測問題進行建模,并使用改進的機器學(xué)習(xí)算法隱藏變量SVM(latent support vector machine,LSVM)以及弱標簽隱藏變量SVM來訓(xùn)練模型濾波器,最后結(jié)合級聯(lián)檢測算法實現(xiàn)對人體目標的檢測,大幅提高了檢測效率.

本研究尚存在一些亟待解決的問題.如稀疏直方圖特征算子計算復(fù)雜度較大,使整體檢測速度較慢,基于目前的硬件條件,實時性很差;在復(fù)雜的環(huán)境下,如人群擁擠,人與人之間相互遮擋時出現(xiàn)誤檢概率較大,人體語義模型只能解決下肢被遮擋的情況,而無法檢測到左右半身被遮擋的情況.

/References:

[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2005:886-893.

[2]Lin Zhe,Davis L S,Doermann D S,et al.Hierarchical part-template matching for human detection and segmentation[C]//IEEE 11th International Conferenceon Computer Vision.Rio de Janeiro(Brazil):IEEE,2007:1-8.

[3]Ren Xiaofeng,Ramanan D.Histograms of sparse codes for object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland(USA):IEEE,2013:3246-3253.

[4]Elad M,Aharon M.Image denoising via sparse and redundant representations over learned dictionaries[J].IEEE Transactions on Image Processing,2006,15(12):3736-3745.

[5]Fergus R,Perona P,Zisserman A.Object class recognition by unsupervised scale-invariantlearning[C]//Proceedings of IEEE Computer Society Conference on ComputerVision and Pattern Recognition.Madison(USA):IEEE,2003,2:II-264-II-271.

[6]Weber M,Welling M,Perona P.Towards automatic discovery of object categories[C]//Proceedings of Computer Vision and Pattern Recognition.Hilton Head Island(USA):IEEE:101-108.

[7]Tsochantaridis I,Joachims T,Hofmann T,et al.Large margin methods for structured and interdependent output variables[J].The Journal of Machine Learning Research,2005,6:1453-1484.

[8]Lecun Y,Chopra S,Hadsell R,et al.A tutorial on energy-based learning [J].Predicting Structured Data,2006.

[9]Zhang Chuang. Human cascade detection based on deformable component model[D].Dalian:Dalian Maritime University,2014.(in Chinese)張闖.基于可變形部件模型的人體級聯(lián)檢測 [D].大連:大連海事大學(xué),2014.

[10]An Ping.The construction of cascade detector based on linear SVM and its application in target detection[D].Changsha:National Defense Science and Technology University,2007.(in Chinese)安平.基于線性SVM的級聯(lián)檢測器的構(gòu)造及其在目標檢測中的應(yīng)用 [D].長沙:國防科學(xué)技術(shù)大學(xué),2007.

[11]Li Tongzhi,Ding Xiaoqing,Wang Shengjin.The human detection method based on cascade[J].SVM Chinese Journal of Graphics,2008(3):566-570.(in Chinese)李同治,丁曉青,王生進.利用級聯(lián)SVM的人體檢測方法 [J].中國圖象圖形學(xué)報,2008(3):566-570.

[12]Yin Xuecong.Research on face detection method based on deformable component model[D].Xi'an:Xi'an Electronic and Science University,2012.(in Chinese)尹雪聰.基于可變形部件模型的人臉檢測方法研究[D].西安:西安電子科技大學(xué),2012.

[13]Guo Jie,Zhang Honggang,Chen Daiwu,et al.Object detection algorithm based on deformable part models[C]//Proceedings of the 4th IEEE International Conference on Network Infrastructure and DigitalContent.Beijing:IEEE,2014:90-94.

[14]Everingham M,Van Gool L,Williams C K I,et al.The pascal visual object classes(VOC)challenge [J].International Journal of Computer Vision,2010,88(2):303-338.

[15]Everingham M,Ali Eslami S M,Van Gool L,et al.The pascal visual object classes challenge:a retrospective[J].International Journal of Computer Vision,2015,1111(1):98-136.

[16]Everingham M,Van Gool L,Williams C,et al.Pascal visual object classes challenge results[J].Machine Learning ChallengesEvaluating Predictive Uncertainty Visual Object Classification&Recognising Tectual Entailment,2006,93(12):117-176.

猜你喜歡
級聯(lián)行人部件
毒舌出沒,行人避讓
路不為尋找者而設(shè)
基于Siemens NX和Sinumerik的銑頭部件再制造
部件拆分與對外漢字部件教學(xué)
我是行人
級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
曝光闖紅燈行人值得借鑒
基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
LCL濾波器在6kV級聯(lián)STATCOM中的應(yīng)用
H橋級聯(lián)型STATCOM的控制策略研究