視頻監(jiān)控下的行人性別檢測

2018-11-17 02:35蘇寧陳臨強(qiáng)

現(xiàn)代計算機(jī) 2018年29期

蘇寧，陳臨強(qiáng)

（杭州電子科技大學(xué)計算機(jī)學(xué)院，杭州 310018）

0 引言

隨著計算機(jī)軟、硬件技術(shù)的快速發(fā)展，計算機(jī)處理圖像、視頻的能力也不斷提升，從而使得計算機(jī)視覺得到了飛速的發(fā)展，成為近些年來最火熱的研究方向之一。行人屬性分析作為計算機(jī)視覺的一部分也得到了空前的發(fā)展。行人的屬性信息例如性別、年齡、衣著、身高等，是行人最明顯的生物特征。行人性別識別基于行人識別，在視頻監(jiān)控和安全防護(hù)領(lǐng)域有著廣泛的應(yīng)用。先進(jìn)的行人搜索系統(tǒng)可以首先確定性別，縮小搜索范圍，并根據(jù)其他屬性信息進(jìn)一步執(zhí)行更準(zhǔn)確的搜索，大大提高了檢測的準(zhǔn)確率以及效率。

性別的檢測主要是通過計算機(jī)算法提取人物的一些基本特征，再根據(jù)特征的差異來判斷性別。Shan[1]根據(jù)局部二值模式直方圖進(jìn)行性別識別，在LFW人臉數(shù)據(jù)庫中實(shí)現(xiàn)了94.81%的正確率。Xia等[2]提出了一種局部蓋博二值映射模式人臉表示方法，利用SVM（Support Vector Machine）進(jìn)行性別識別，在GAS-PEAL人臉數(shù)據(jù)庫中達(dá)到94.96%的準(zhǔn)確率。Yang等[3]利用局部三元模式和極限學(xué)習(xí)機(jī)進(jìn)行性別識別，在FERET數(shù)據(jù)庫中實(shí)現(xiàn)了95.625%的準(zhǔn)確率。Gil等[4]設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行性別識別。Ail等[5]采用局部蓋博二值模式和三維人臉重建進(jìn)行性別識別，在LFW數(shù)據(jù)庫中獲得99.8%的準(zhǔn)確率。Hamid等[6]運(yùn)用主成分分析和模糊聚類的方法，在FG-NET數(shù)據(jù)庫中測試準(zhǔn)確率達(dá)到92.65%。閆敬文等[7]融合方向梯度直方圖和多尺度 LBP（Local Binary Patterns）特征，提取臉部梯度特征和局部紋理特征實(shí)現(xiàn)性別識別。汪濟(jì)民等[8]通過卷積神經(jīng)網(wǎng)絡(luò)提取人臉特征進(jìn)行性別識別。馬千里等[9]對人臉圖像分塊、融合五官特征加權(quán)的LBP特征提取的方法進(jìn)行性別檢測。

根據(jù)現(xiàn)有的方法來看，基于人臉特征來進(jìn)行性別檢測的準(zhǔn)確率是最高的，但是在普通的監(jiān)控攝像頭中，攝像頭的分辨率不高，距離遠(yuǎn)一些的人臉會變得很模糊，人臉信息都會丟失掉，通過提取人臉特征來進(jìn)行性別識別是相當(dāng)困難的，此時需要根據(jù)行人其他部位信息來進(jìn)行性別的檢測?；谶@種情況，以及受到卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域上廣泛應(yīng)用的啟發(fā)。本文提出一種根據(jù)卷積神經(jīng)網(wǎng)絡(luò)和特征提取相結(jié)合的算法對人物身體部位提取信息進(jìn)行性別檢測。該算法的優(yōu)點(diǎn)是通過人物的發(fā)型、穿著等局部信息，避開了對人臉的檢測，能夠在攝像頭分辨率不高的情況下也能實(shí)現(xiàn)對人物性別檢測，使得算法的應(yīng)用場景更加廣泛。

1 基于高斯混合模型的前景目標(biāo)提取

幀差法、光流法和背景差分法是前景目標(biāo)提取中比較典型的幾種方法。幀差法實(shí)現(xiàn)起來比較容易，但如果前景目標(biāo)速度過快，會產(chǎn)生虛影與空洞。光流法雖然適應(yīng)運(yùn)動背景中的前景目標(biāo)檢測，但計算復(fù)雜，且對于硬件的要求較高[10]。背景差分法在場景不變的情況下對圖像進(jìn)行背景建模，能夠很好地提取出前景目標(biāo)。

由于目標(biāo)區(qū)域會存在一些非檢測目標(biāo)的晃動，例如波動的水面和搖晃的樹葉，這些對于目標(biāo)檢測來說會有一定的干擾作用。為了盡量小地消除這些影響，可采用多個單高斯模型線性疊加的高斯混合模型對目標(biāo)區(qū)域進(jìn)行背景建模。

1.1 建立背景模型

在t時間段內(nèi)，取0到t時刻的當(dāng)前幀圖像[F0，F(xiàn)1，F(xiàn)2，…，F(xiàn)t]。為了提升背景建模的精度，首先要對這t張圖像進(jìn)行高斯濾波從而減少拍攝時產(chǎn)生的噪聲，然后再將t張彩色圖像從R,G,B空間轉(zhuǎn)化為灰度空間，即：

1.2 定義模型與初始化參數(shù)

若[X0，X1，X2，…，Xt]表示樣本點(diǎn)的離散灰度值，則可用K的高斯分布來表示像素點(diǎn)Xt的概率：

其中σi,t,k表示像素點(diǎn)X的均值，表示像素點(diǎn)X的方差，η(Xt|ui,t,k,σi,t,k)表示高斯分布，ωi,t,k表示單個高斯分布的權(quán)值。K表示混合高斯分布中峰值的個數(shù)，由于像素點(diǎn)分布情況的不同，K的取值也不同，一般情況下取3-5個。

1.3 運(yùn)動目標(biāo)檢測

將當(dāng)前圖像中像素點(diǎn)的值與模型根據(jù)公式（3）進(jìn)行比較：

符合的即為背景目標(biāo)，否則為前景目標(biāo)[11]。

1.4 背景模型的更新

若像素點(diǎn)屬于背景，則用此像素點(diǎn)更新背景得到新的背景模型。更新背景模型的公式如下：

ρ=aη(Xt|ui,t,k,σi,t,k)

其中a表示學(xué)習(xí)率，ρ表示模型適應(yīng)的學(xué)習(xí)因子。

圖1 原圖

圖2 運(yùn)動目標(biāo)提取

2 基于Hog的圖像特征提取

由于一幅圖像的外形特征可以根據(jù)像素的邊緣分布來描述，Dalal和Triggs在2005年提出了使用Hog特征的描述算子[12]（梯度方向直方圖）來表示圖像的外形特征。其特征提取過程如下：

2.1 標(biāo)準(zhǔn)化Gamma空間和顏色空間

對圖像進(jìn)行Gamma標(biāo)準(zhǔn)化，是為了削弱圖像對于特征提取產(chǎn)生的影響。由于后續(xù)步驟中block歸一化與Gamma標(biāo)準(zhǔn)化的作用相同，所以此過程對于結(jié)果來說影響并不是很大，故在后續(xù)提取hog特征的時候則不需要再進(jìn)行Gamma標(biāo)準(zhǔn)化。

2.2 計算像素梯度

模板算子選取的好壞，影響著hog特征提取的結(jié)果。根據(jù)多次試驗(yàn)的結(jié)果表明，使用一維離散微分模板（-1,0,+1）在圖像水平方向以及豎直方向上對像素進(jìn)行梯度計算的效果都比較好。由公式（5）和公式（6）計算像素點(diǎn)得到梯度模值與方向角。

其中，G(x,y)，H(x,y)，α(x,y)分別表示像素點(diǎn)的梯度幅值、像素點(diǎn)的灰度值以及梯度方向。彩色圖像由于具有多個通道，可以計算出所有顏色通道的梯度，選取幅值最大的作為此像素點(diǎn)的梯度。

2.3 統(tǒng)計單元內(nèi)梯度直方圖

將訓(xùn)練圖像平分成多個正方形的細(xì)胞（cell），每一個細(xì)胞有8×8個像素，再將[-π/2,π/2]的梯度方向平分成9個區(qū)段（bin），然后統(tǒng)計在這9個區(qū)段上每一個cell內(nèi)所有像素的梯度直方圖，則每一個cell將會得到一個9維的特征向量。

2.4 block歸一化直方圖

一個block包含有2×2個cell，則一個block將得到36的特征向量，再使用L2-范數(shù)對block進(jìn)行歸一化，結(jié)果即為最后的特征向量。

2.5 圖像的Hog特征

訓(xùn)練時采用的圖像大小為 64×64，cell為 8×8，block為16×16，則一幅圖就會包含49個block，每一個block是36的向量，故一副64×64大小的圖像的Hog特征向量為49×36=1764維。

3 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類

3.1 介紹

近年來發(fā)展起來的卷積神經(jīng)網(wǎng)絡(luò)在圖像分類和語音識別方面顯示出很大的優(yōu)勢，由卷積層、激勵層、池化層、全連接層等組成的是最典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。其與實(shí)際的生物神經(jīng)網(wǎng)絡(luò)相似，能夠有效地降低網(wǎng)絡(luò)復(fù)雜度，這也是它在圖像處理方面的一大優(yōu)勢。

3.2 LeNet卷積神經(jīng)網(wǎng)絡(luò)

最早由Yann LeCun與Yoshua Bengio提出的LeNet是第一個真正多層結(jié)構(gòu)學(xué)習(xí)的算法，在手寫數(shù)字識別中具有很高的正確率[13,14]，如圖3所示。

圖3 手寫體數(shù)字識別

對于圖像分類，需要設(shè)計多層的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為全連接時，過多參數(shù)輸入會使得效率降低。例如對1000×1000的圖像進(jìn)行卷積，大約需要1000×1000×1000×1000個參數(shù)。為了降低參數(shù)，可以使用局部卷積降低參數(shù)為 1000×1000×10×10≈100M。若再采用權(quán)值共享的策略，可以將卷積參數(shù)降到10×10。為了較好地保證圖片信息，設(shè)計多個卷積特征圖，將參數(shù)降至10K。如圖4所示。

圖4 采用權(quán)重共享策略降低參數(shù)量

3.3 本文結(jié)構(gòu)設(shè)計

輸入層是32×32大小圖像，網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

第一層：卷積層（C1）。選用6個大小為5×5的卷積核進(jìn)行卷積操作，得到6個28×28的特征圖。

第二層：下采樣層（S2）。使用2×2的窗口對C1進(jìn)行池化得到S2，此時每一個特征圖大小變?yōu)?4×14。

第三層：卷積層（C3）。使用16個大小為5×5的卷積核對S2中得到的6個14×14的特征圖進(jìn)行卷積，再經(jīng)過加權(quán)組合得到16個10×10的特征圖。

第四層：下采樣層（S4）。用2×2的窗口對C3中得到的特征圖進(jìn)行池化采樣得到S4，即16個5×5的特征圖。

第五層：卷積層（C5）。使用大小為5×5的卷積核對S4所得特征圖進(jìn)行卷積，得到120個1×1的特征圖。

第六層：全連接層（F6）。該層有84個節(jié)點(diǎn)，與C5層得到的120維向量進(jìn)行全連接。

第七層：輸出層。由于性別識別是一個二分類的問題，所以徑向基函數(shù)（RBF）單元組成的神經(jīng)元只有兩個。公式（7）為RBF的計算公式。

圖5 網(wǎng)絡(luò)結(jié)構(gòu)示意圖

4 本文算法流程與實(shí)驗(yàn)

圖6 總體流程圖

由于在低分辨率的攝像頭下，人臉特征提取會變得比較困難，所以根據(jù)人臉進(jìn)行性別檢測的方法就會行不通。但在這種情況下，行人的外觀特征相對容易提取。本文就是根據(jù)行人的頭部信息以及服裝的外形信息來進(jìn)行行人性別的檢測。對行人進(jìn)行分析就必須先從監(jiān)控視頻中檢測到行人，先使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練行人分類器來檢測行人。選取了900張MIT行人數(shù)據(jù)庫中的行人圖片為正樣本，由于圖片除了行人之外還有一些多余的場景，訓(xùn)練之前要先進(jìn)行裁剪。負(fù)樣本為無人、人群、汽車等圖片，選取了2000張圖片。訓(xùn)練樣本如圖7所示。

圖7 行人訓(xùn)練圖片

將單個行人從前景目標(biāo)中檢測出來后，對行人相應(yīng)部位進(jìn)行檢測即可得出性別結(jié)果。在檢測之前，需要對行人相應(yīng)部位進(jìn)行訓(xùn)練。

圖8（a）是在監(jiān)控攝像機(jī)下拍到的行人，（b）圖是將（a）圖中的行人進(jìn)行了截取，從圖中我們可以看出根據(jù)頭部信息是最能夠，也是最明顯的區(qū)分行人性別的一個特征。因?yàn)槟壳斑€沒有行人性別相關(guān)的數(shù)據(jù)庫，所以本文使用的訓(xùn)練圖片是由拍攝的監(jiān)控視頻中摳取得到。其中男女訓(xùn)練樣本均為700張，包括面對攝像頭與背對攝像頭的照片，圖9是部分訓(xùn)練圖片。

圖8 行人局部區(qū)域示意圖

圖9 行人樣本集合

從人體的身體結(jié)構(gòu)來看，不同人的相同部位的相對位置基本上是一樣的。所以根據(jù)此種情況，我們可以通過身體部位占人體的比例來進(jìn)行身體區(qū)域的分割，然后進(jìn)行區(qū)域特征提取。本文主要是對行人上半身進(jìn)行相應(yīng)的檢測，所以說需要確定行人頭部、肩部以及腰部的比例系數(shù)，從而得到局部重合的身體部位。比例系數(shù)是由選取的50個行人圖片計算得來，如下所示：

a=0.15 b=0.20 c=0.50

其中a代表頭部占全身的比例，b代表頭肩位置占全身的比例，c為上半身占全身的比例。

取男、女各300張圖片作為訓(xùn)練樣本，因?yàn)楝F(xiàn)有的行人數(shù)據(jù)庫不適合做性別研究，所以將剩下男、女各400張圖片用作測試圖片。為了檢測本文算法的有效性，還增加了一組使用Hog特征提取行人頭部特征與衣著特征的對比實(shí)驗(yàn)，結(jié)果如下：

表1 傳統(tǒng)方法與本文方法對比結(jié)果

最后，將訓(xùn)練好的分類器運(yùn)用到檢測出來的行人上，得到行人性別結(jié)果。部分結(jié)果如圖10所示：

圖10 部分結(jié)果圖

5 結(jié)語

鑒于在視頻監(jiān)控下，受到距離限制以及攝像頭分辨率不高的因素，根據(jù)人臉進(jìn)行性別檢測已經(jīng)不能達(dá)到要求，本文提出了一種提取行人多個部位特征的方法進(jìn)行性別檢測。此方法避開了對行人臉部特征的提取，可以在攝像機(jī)分辨率不高的情況下對中等距離下的行人進(jìn)行性別檢測。盡管本文的方法在限定的條件下取得了一定的效果，但仍然存在一些不足，例如在遠(yuǎn)距離情況下、光線太壞或者太好的情況下都會削減正確率，所以還需要進(jìn)行進(jìn)一步的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡