吳冬梅,袁 宵,張 靜
(西安科技大學通信與信息工程學院,陜西 西安 710054)
長期以來,煤礦井下燈光昏暗,運作的礦車和行人難以分辨,行人時常誤入危險區(qū)域?qū)е旅旱V井下事故頻發(fā)[1],而目前煤礦井下的監(jiān)控視頻通過人工觀察,不能及時發(fā)現(xiàn)事故。因此若能在復(fù)雜的煤礦井下智能、實時的檢測到行人,對礦工的安全保障具有重大意義。
目前常用的行人檢測方法[2]仍然是基于計算機視覺。如果在人工確定提取適合的特征之前,對圖像進行增強輪廓和細節(jié)的預(yù)處理,可以提高圖像質(zhì)量。文獻[3]提出了基于Retinex的增強算法,是通過改變低頻與高頻信號在原圖中占據(jù)的比例實現(xiàn)圖像增強,但是該算法復(fù)雜、運行速度慢。文獻[4]提出用改進的直方圖均衡化算法優(yōu)化原始圖像的低頻分量,用改進的Retinex算法估計和放大高頻分量達到增強效果,但存在噪聲且效率低的問題。文獻[5]提出的基于安全帽檢測的煤礦井下人員目標檢測方法,針對四種檢測場景,檢測效率快,但平均準確率低。而文獻[6]提出的基于HOG+SVM的礦工檢測算法,檢測精度雖有所提升,但處理實時的視頻圖像很難滿足要求?;诖?,本文提出一種改進的反銳化掩模算法以及多特征融合的方法,先對圖像增強,然后對提取的特征進行降維、融合兩種特征,最后多次訓練分類器并對參數(shù)調(diào)優(yōu)得到最佳檢測模型。
煤礦井下光照分布不均的特殊環(huán)境使得所獲取的煤礦井下視頻清晰度不高,因而煤礦井下的視頻行人檢測效率也不能得到提升。傳統(tǒng)的直方圖均衡化算法會擴增原始圖像中較亮的區(qū)域;Retinex算法能夠抑制原始圖像中亮度較高的區(qū)域,但經(jīng)過Retinex算法處理后圖像整體的亮度和對比度較低;經(jīng)過線性UM算法處理過的圖像的清晰度會提升,但是整體增強效果達不到后續(xù)的處理要求。為了使得人物目標輪廓更加明顯,圖像質(zhì)量更高,本文針對上述算法處理非均勻光照圖像[7]的不足提出了改進的反銳化掩膜算法。
雙邊濾波是常用的非線性濾波方法,該方法不僅能有效抑制噪聲,而且能對圖像的邊緣信息很好的保留。
假設(shè)f(x,y)代表原始圖像,(x,y)表示某個像素點的坐標,g(x,y)表示點(x,y)經(jīng)過雙邊濾波處理后的結(jié)果,如式(1)
(1)
式(1)中S(x,y)代表以點(x,y)為中心,鄰域大小為(2N+1)×(2N+1);等號右邊表示鄰域S(x,y)內(nèi)所有像素值的加權(quán)平均;ω(i,j)為加權(quán)系數(shù), 如式(2)所示
ω(i,j)
(2)
在一幅圖像中,波動越小的區(qū)域,鄰域間像素值相差越小,對于波動較大的區(qū)域,原始圖像的灰度值可以用鄰域內(nèi)的相似像素的均值替代。
傳統(tǒng)的線性UM算法對高頻圖像的放大是使用確定的系數(shù),對于整幅圖像而言,使用同一個確定的系數(shù)放大圖像,不能使圖像均勻增強,因此對高頻圖像的放大,本文采用非線性函數(shù)處理。
首先,用線性函數(shù)把高頻信號轉(zhuǎn)換為另一個不同的信號,如式(3)所示
c=2d-1
(3)
其中,d表示高頻信號,c為經(jīng)過線性轉(zhuǎn)換處理的信號。
其次,假定信號c與增益γ有一定的函數(shù)關(guān)系
γ(c)=α+β·exp(-|c|η)
(4)
當c分別取0和1時,可得出參數(shù)α和β,如式(5)和(6)所示
α=γmax-β
(5)
β=(γmax-γmin)/(1-exp(-1))
(6)
參數(shù)α,β確定之后就可以確定增益γ的函數(shù)表達式。
經(jīng)過線性UM處理的圖像的邊緣信息不能達到很好的保留效果,并且對整幅圖像的放大采用同一個系數(shù),達不到最好的圖像增強目的。因此,本文提出基于雙邊濾波的自適應(yīng)增益反銳化掩膜算法,該算法能對原始圖像的低頻分量很好的保留,也可以對圖像的高頻分量進行增強。假設(shè)用F表示原始圖像,L表示低頻圖像用,H表示高頻圖像,本文提出的改進算法可通過以下6個步驟實現(xiàn):
1)顏色空間轉(zhuǎn)換。
2)對原始圖像F經(jīng)過雙邊濾波得到L;
3)F-L=H;
4)自適應(yīng)增益由H得到并放大;
5)增強圖像是由F與放大后的H相加確定;
6)將增強之后的圖變化到彩色空間。
本文對大量受光不均的礦井圖像進行增強實驗,為了驗證本文提出改進的反銳化掩模算法的增強效果,下面將與直方圖均衡化(HE)、單尺度Retine算法(SSR)、多尺度Retinex(MSR)算法、線性UM算法進行比較,圖像增強后的處理結(jié)果如圖1所示。
圖1 五種算法對礦井原始圖像的增強效果圖
從上述結(jié)果可以看出原圖經(jīng)過直方圖均衡化之后,亮的區(qū)域更亮,暗的區(qū)域更暗;經(jīng)過SSR算法增強后,對原圖中亮度較高的區(qū)域進行了抑制,但圖像平均亮度低;通過MSR增強算法處理后,相比于SSR算法提高了圖像的亮度,但是行人目標與背景對比度低,人物輪廓不明顯;線性UM算法處理圖像后,圖像中燈光亮的區(qū)域沒有擴大,但圖像整體模糊;經(jīng)過本文增強算法處理后,提升了圖像亮度、對比度,弱化了原始圖像中礦燈亮的區(qū)域且沒有擴增,而且更好地突出了人形目標。
下面將對比傳統(tǒng)的增強算法與本文提出的改進算法。其中,圖像包含的信息可以體現(xiàn)在信息熵;圖像對比度體現(xiàn)在標準差;圖像的清晰程度體現(xiàn)平均梯度。統(tǒng)計結(jié)果如表1所示。
表1 五種算法對礦井原始圖像增強處理的指標對比
從表1可知,MSR和線性UM對圖像的增強效果比較明顯,將本文改進算法與上述兩種算法進行對比,標準差分別提高了46.6%和1.8%;信息熵分別提高了8.3%和3.4%;平均梯度是MSR算法的2.7倍,是線性UM算法的1.8倍,雖然直方圖均衡化算法處理圖像后標準差高于本文提出的改進算法,但從圖像來看,原始圖像中燈光亮的區(qū)域增大,而本文提出的改進算法避免了這種情況,而且行人目標更突出,可以確定本文提出的改進算法效果好。
HOG特征是利用邊緣梯度對一幅圖像中目標的形狀、輪廓等進行描述。用于行人檢測時,若人體有部分輕微的動作變化,檢測結(jié)果不發(fā)生改變。對于一幅尺寸為64×128的圖像I,取8×8大小的Cell,16×16大小的Block,滑動窗口的移動間隔為8。通過灰度化、歸一化、梯度的模值和角度構(gòu)建的方向直方圖得到圖像的HOG特征。
由于提取HOG特征時包含了大量冗余信息,而在分類器訓練過程中,隨著特征維數(shù)的不斷增加,匹配的過程就越復(fù)雜,系統(tǒng)的運行速率就越慢,所以為了提高檢測速度,必須對原始的HOG特征進行降維[8],通過PCA將高緯度的特征映射至低緯度,保留高緯度數(shù)據(jù)的一些重要特征,去除噪聲和不重要的特征。
LBP是表示圖像紋理信息的特征描述符,對光照突變和復(fù)雜的背景穩(wěn)定性高。獲取圖像的LBP特征的原理是選取(xc,yc)作為圖像中心,鄰域區(qū)域S的大小為3×3,且把S內(nèi)除點(xc,yc)以外的8個像素點依次與閾值T值比較。超過T的為1,小于T的為0。
特征融合既能提取出多種特征中具有代表性的信息,又能去除掉大多數(shù)不重要的信息,提高了運行效率。而HOG特征可以代表圖像的邊緣信息,LBP特征對背景復(fù)雜和光照變化劇烈具有穩(wěn)定性,所以本文選擇串行融合HOG特征與LBP特征[9]。
假設(shè)特征空間A和B構(gòu)成樣本空間Ω,選擇其中一個樣本ε(ε∈Ω)分別對應(yīng)A特征空間的α(α∈A)特征向量、B特征空間的β(β∈B)特征向量,經(jīng)過串聯(lián)融合兩種特征,可以用γ=(α,β)表示特征矩陣。若有m維的α,n維的β,則(m+n)就代表串聯(lián)融合特征之后的維度。
SVM分類器模型訓練[10]的好壞決定了最終的分類效果。本文分類器的訓練重點在于困難樣本的挖掘,首先針對樣本大小不一進行歸一化處理,其次根據(jù)提取的融合之后的HOG-LBP特征用于初始分類器模型的訓練,然后利用第一次訓練完成的分類器在負樣本上再次檢測,將錯誤的檢測結(jié)果歸納為困難樣本,最后將正樣本、負樣本、困難樣本輸入SVM分類器進行訓練,對分類器參數(shù)進行調(diào)優(yōu),得到最終需要的分類器模型。
本文算法利用Vision Studio2013和OpenCV3.1.0配置編程實現(xiàn),測試環(huán)境為Intel(R) Core(TM) i3-4030U,CPU頻率為1.90GHz,內(nèi)存4GB。
INRIA數(shù)據(jù)庫是現(xiàn)在最常用的標準行人數(shù)據(jù)庫,為了驗證本文提出的融合HOG與LBP特征后分類器的檢測效果,先在INRIA行人數(shù)據(jù)庫上進行測試,結(jié)果如圖2所示。
圖2 INRIA行人數(shù)據(jù)庫檢測結(jié)果
從圖2可以看出對于單個行人、多個行人、不同姿態(tài)多種情況下的人形目標都能夠準確檢測。
下面是提取融合后的特征與只提取單一的HOG特征或LBP特征的統(tǒng)計結(jié)果,分類器的檢測效果將通過誤檢率、漏檢率、查準率、查全率來評價,其中正樣本有132張,負樣本有110張,統(tǒng)計結(jié)果如表2所示
表2 三種特征的檢測率
從表2中的結(jié)果可以看出,相比于提取單一特征與提取融合后的特征訓練的分類器,融合后的特征查全率為96%,檢測效果更好。
為了驗證本文所提出的改進算法在煤礦井下復(fù)雜環(huán)境中的檢測效果,本文選取了3段不同場景的視頻。測試視頻1是模擬視頻,選擇的是室外場景光線較暗的情況,用同時出現(xiàn)的行人與車輛表示井下的礦工和礦車。測試視頻2是背景環(huán)境更復(fù)雜的真實井下監(jiān)控視頻,有礦工以及運作的礦車和照明的礦燈兩種干擾。測試視頻3是自行拍攝的煤礦井下真實環(huán)境,其中包括礦工、礦燈兩個目標,檢測的結(jié)果如圖3所示。
圖3 3段測試視頻檢測結(jié)果
本文三段視頻經(jīng)過增強處理后的結(jié)果如表3所示。
表3 3段視頻的檢測率
將本文的行人檢測算法與文獻[5]和文獻[6]的算法比較,其中文獻[5]的四種場景平均檢測率為84.1%,誤檢率為11%,文獻[6]中礦工檢測的準確率為86.7%,誤檢率為9.56%。通過對比,本文算法對測試視頻1和3的檢測率均高于文獻[5]和文獻[6]。視頻2的準確率雖低于文獻[5]和[6],但是測試視頻2的干擾更多、背景環(huán)境更復(fù)雜。而本文行人檢測算法誤檢率在三段測試中最高為7.3%,相比于文獻[5]的11.49%和文獻[6]的9.56%,誤檢率更低。因此本文的檢測算法效果更好,且抗干擾能力更強。
目前,行人檢測針對靜態(tài)圖像的檢測結(jié)果都不錯,但由于視頻存在背景復(fù)雜、相機晃動等不穩(wěn)定因素,導(dǎo)致難以實現(xiàn)實時的視頻行人檢測,同時提取的特征維度過高也會影響檢測的時效性,而且針對煤礦井下視頻環(huán)境復(fù)雜,行人檢測的難度更大且準確率更低?;诖耍疚奶岢龈倪M的 HOG-LBP 特征融合進行行人檢測的方法,在特征融合之前,利用改進的UM算法對其進行圖像增強,增強后的圖像的清晰度更高、人形目標的輪廓更突出,融合特征之后送入分類器多次訓練得到最佳模型進行煤礦井下的行人檢測時準確率得到一定的提升。但本文算法沒有考慮多個行人互相遮擋的問題,因此在下一步的研究中,主要考慮解決煤礦井下行人遮擋的問題。