汪建 方洪鷹
摘要:精細化管控在建設(shè)行業(yè)中的作用日益突出,其核心是安全質(zhì)量監(jiān)管。本文首次將圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到安全監(jiān)管中,研討了將碼本運算、HOG運算、SVM運算融為一體進行人體圖像挖掘的可能性,提出基于多姿態(tài)人體安全帽檢測技術(shù),并且通過試驗證明該算法的實用性和有效性。
關(guān)鍵詞:人體識別;碼本;方向梯度直方圖;支持向量機
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)31-0152-04
Application of Figure Recognition Technology in Safety Production
WANG Jian1,F(xiàn)ANG Hong-ying2
(1.College of Computer Science and Technology,Chongqing University of Posts and Telecoms,Chongqing 400065;2.College of Science,Chongqing Jiaotong University,Chongqing 400074)
Abstract:The role of fine management in the construction industry is increasingly prominent, and its core is the safety and quality supervision. In this paper, the image processing technology and data mining technology will be applied to the security supervision at first, and the possibility of human image mining based on the integration of Code Book, HOG and SVM will be discussed as well. At last the human body detection technology based on multi-gesture will be performed and its utility and effectiveness of the algorithm will be proved by experiments.
Key words:figure recognition; code book; hog; SVM
近年來,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的成熟和普及,建設(shè)行業(yè)中的精細化管控手段的作用和重要性日漸突出?,F(xiàn)代的安全管控體系衍變成了由“人防”和“技防”相結(jié)合的綜合監(jiān)管系統(tǒng)。
精細化管控的核心是安全質(zhì)量監(jiān)管,涉及“安全”和“質(zhì)量”兩方面內(nèi)容,具體落實到生產(chǎn)環(huán)節(jié)中的“人、機、物料”三個要素,物聯(lián)網(wǎng)技術(shù)在其中起的至關(guān)重要的作用。比如:傳統(tǒng)的施工設(shè)備或配料設(shè)備借助于物聯(lián)網(wǎng)技術(shù),實時的匯報工作狀態(tài),出現(xiàn)偏差,可以及時糾正;萬一產(chǎn)生問題,保存的歷史數(shù)據(jù),也可以作為問題溯源的依據(jù)。精細化管控等內(nèi)容非常豐富,本文研究的重點是如何利用現(xiàn)代視頻處理技術(shù)為施工人員提供安全保障。
隨著硬件價格降低和互聯(lián)網(wǎng)環(huán)境的改善,絕大多數(shù)建設(shè)施工現(xiàn)場都安裝配備的攝像頭,但是其作用主要是用于防盜和事后查找問題追責?,F(xiàn)在我們的目的是要變被動為主動,以圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)為依托對視頻大數(shù)據(jù)進行實時分析,識別出危險行為并加以提醒。
1 系統(tǒng)體系結(jié)構(gòu)
整個安全管控系統(tǒng)分為五個部分:視頻數(shù)據(jù)采集、圖像分離、人像特征挖掘、人像庫建立和危險行為識別,如圖1所示。
圖1 安全管控系統(tǒng)系統(tǒng)體系
其中視頻數(shù)據(jù)采集和圖像分離兩個階段實現(xiàn)了基礎(chǔ)數(shù)據(jù)的粗加工,視頻數(shù)據(jù)采集模塊為系統(tǒng)提供實時的視頻信息數(shù)據(jù)流,圖像分離實現(xiàn)了圖像中前景和背景的分離,為進一步進行人像的提取奠定了基礎(chǔ)。
人像特征挖掘階段尤為重要,此時系統(tǒng)要將識別出來的物體運行分類定性,可以運用多種數(shù)據(jù)挖掘方法(監(jiān)督的和非監(jiān)督的)進行分類,也可以融入的機器自學(xué)習理論運行分類的優(yōu)化。人像特征挖掘不但要進行人像識別,更重要的是要形成便于存儲、傳輸和共享的人像特征庫,便于在多通道視頻輸入環(huán)境下進行各分布式分類器同時進行處理。
上述過程的完成僅僅是實現(xiàn)了從復(fù)雜背景圖像中提取人像的任務(wù),接下來的任務(wù)是對生產(chǎn)環(huán)節(jié)中人員的著裝、佩戴的安全裝備和行為動作等關(guān)鍵的安全要素進行識別和處理。
2 圖像分離
圖像分離技術(shù)包括靜態(tài)圖像分離和動態(tài)圖像分離兩個方面。靜態(tài)圖像分離可以采取的手段并不多,主要集中在圖像分割技術(shù)的討論,包括閾值分割、區(qū)域分割、邊緣分割和直方圖法。近年針對人體特征的分割技術(shù)有了一些進展,出現(xiàn)了Magic Wand[1]、Intelligent Scissors[2]、Active Contour Model[3]、Graph Cut和Level Set[4]等一系列有代表性的算法。但是無論上述哪種算法都是基于單張圖像有限的圖元信息進行分析,局限性比較大,比如:Graph Cut算法是基于圖像的顏色進行分析,如果前景和背景顏色比較接近時,就無法得到完整的人像輪庫;Level Set算法無法處理模糊的和有噪聲干擾的圖像。
本文的數(shù)據(jù)來源是連續(xù)視頻信息,可以利用多幀圖像信息的關(guān)聯(lián)性將人像從背景中準確的提取出來。提取出來的圖像沒有背景的干擾,求取出來的特征值將更具有代表性。現(xiàn)有的運動圖像前景提取算法包括:背景差分法、幀間差分法、光流法[5]、能量分析法和碼本法[6]等。
2.1 光流法
真實的物體運動是在三維空間中進行的,可以用運動場來表示,而視頻錄像卻是二維平面圖像,物體的運動是通過計算各個像素點色彩(為了減少計算量,往往采用灰度進行計算)的變化趨勢,從而得到運動矢量來體現(xiàn)的。從三維空間到二維平面的映射,即是運動場到光流場(Optical Flow Field)的轉(zhuǎn)換。光流法即是利用多幀連續(xù)圖像序列來計算各個像素點的運動矢量,從而為真實的運動進行近似估計的方法。
光流法分離前景的最大特點是:該算法能夠獨立檢測運動目標,甚至可以精確地計算出目標的運動速度而不需要任何先驗的背景信息。
光流法缺點也比較多。首先是計算繁雜,不適用于對效率要求較高的環(huán)境;其次外部光線變化對算法的影響比較大,即使物體沒有運動,也能檢測到光流;最后如果圖像的灰度等級變化不明顯,很難檢測出運動和識別物體。
2.1 碼本法
碼本(Code Book)模型處理對象是仍然是連續(xù)圖像。首先利用顏色失真程度和亮度失真范圍相結(jié)合的方式將圖像各像素量化后用碼本表示,將不同時刻圖像中對應(yīng)像素的碼本做比較判斷,利用減除背景的思想提取出前景運動目標。
顏色失真因子:
[δ=colordistxt,vi=xt2-xt, xi2xi2] (1)
亮度失真因子:
[brightnessI,I,I=trueif Ilow≤xt≤Ihifalseotherwise] (2)
具體算法是為每個像素建立一個編碼本,這個編碼本里包括一個或者多個碼字。進行運動檢測時,在編碼本里已有的碼字中查找當前幀像素點,如果前者中有可以匹配的碼字,則該像素點即為背景點;如果匹配失敗,那么該像素點即為前景點,即運動目標的一部分。
碼本檢測算法利用量化和聚類技術(shù)來構(gòu)建背景模型具有魯棒性強,計算效率高的特點,可以通過迭代更新碼本模型來適應(yīng)背景變化。
3 人體特征挖掘與識別
通過圖像分離,所有的活動目標都被區(qū)分識別出來了,其中包括人和其他物件。本節(jié)將要討論如何選擇合適的特征表述方法對目標進行標識,從而將人體和其他物件區(qū)分開來。物體具有的特征的非常多,比如說顏色、輪廓、形狀、尺寸和紋理等,本文將選取HOG[7](Histogram of Oriented Gradient)特征作為標志和區(qū)分的依據(jù)。
方向梯度直方圖(HOG)特征是由經(jīng)過計算和統(tǒng)計的圖像局部區(qū)域梯度方向直方圖構(gòu)成,在計算機視覺(Computer Vision)和圖像處理中常用來進行物體檢測的特征描述。
3.1 HOG特征提取算法
1.圖像預(yù)處理—灰度化;
2.圖像顏色空間的標準化和歸一化;
3.計算每個像素的梯度值:大小和方向;
4.將圖像劃分成細胞單元(Cell);
5.統(tǒng)計每個Cell的梯度形成直方圖(Histogram),即Cell Descriptor;
6.將每幾個Cell組成一個區(qū)塊(Block),每個區(qū)塊內(nèi)所有Cell Descriptor再次歸一化便得到該區(qū)塊的Block Descriptor。
7.圖像內(nèi)的所有區(qū)塊的Block Descriptor串聯(lián)起來就可以得到該圖像以特征向量表示的Image Descriptor了。
第2步的歸一化處理,能對光照變化和陰影獲得更好的效果。
第3步通過卷積運算,確定每個像素在水平方向和垂直方向上的梯度分量,計算公式如下:
[Gxx,y=Hx+1,y-Hx-1,y] (3)
[Gyx,y=Hx,y+1-Hx,y-1] (4)
其中[Gxx,y],[Gyx,y],[Hx,y]分別表示坐標[x,y]處像素點的水平方向梯度分量、垂直方向梯度分量和灰度值。然后再計算該像素點的梯度幅值和梯度方向。
[Gx,y=Gxx,y2+Gyx,y2 ] (5)
[θx,y=tan-1Gyx,yGxx,y] (6)
其中[Gx,y]代表梯度幅度值,[θx,y]代表梯度方向。
第4步可以采用矩形(Rectangular)或星形(Radial)結(jié)構(gòu)來劃分細胞單元(Cell)。
第5步統(tǒng)計每個Cell的梯度形成直方圖,即是求取該Cell的特征向量。根據(jù)不同的精度要求,將梯度方向360度([2π])根據(jù)需要分割成若干個區(qū)間(Section),比方分割成12個Section,每個Section即為30度,然后根據(jù)Cell中每個像素點的梯度方向,將其幅值累加到這12個區(qū)間中,最終形成能刻畫該Cell灰度特征的特征向量。
第6步的Cell組合,可以采取Overlap和Non-Overlap兩種策略。Overlap指的是組合出的Block互相交疊,有重合的區(qū)域;Non-Overlap指的是Block不交疊,沒有重合的區(qū)域。因為目前說做所有的分割和組合都帶有隨機性,以人臉為例,如果采用Non-Overlap方式進行組合,很有可能將人臉上的器官1分為N,直接影響后續(xù)的分類效果,但是它的好處是計算量小、速度快;而Overlap則不同,冗余的數(shù)據(jù)將提高器官完整的可能性,但是缺點是計算量大,因為重疊區(qū)域需要重復(fù)計算。
總而言之,與其他的特征描述方法(SIFT和PCA-SIFT)相比, HOG算法著眼于圖像局部單元(Cell和Block)的計算,受圖像幾何(Geometric)和光學(xué)(Photometric)形變影響比較小。
3.2 SVM分類器
經(jīng)過HOG運算完成之后得到的特征向量就可以納入到分類器當中進行分類了,本文選擇SVM(Support Vector Machine)分類器進行人體識別。
SVM分類器是基于統(tǒng)計學(xué)習的分類算法,在圖像識別中得到廣泛的應(yīng)用,其主要思想是:將分類問題轉(zhuǎn)化為尋找訓(xùn)練樣本點的一個分割超平面的問題,目的是保證最小的分類錯誤率。如果樣本線性可分,能夠?qū)颖就耆珠_的超平面不止一個,SVM算法的終極目標是找到其中的最優(yōu)超平面(能使得每類數(shù)據(jù)中與超平面距離最近的向量之間距離最大的平面);如果樣本線性不可分,則是因為其特征向量維度太低引起的,可以通過所謂的核函數(shù)(非線性映射算法)將低維向量樣本映射到高維特征空間,使其線性可分。本文使用到的SVM最優(yōu)分類函數(shù)是:
[fx=i=1nαiyixiTx+b=i=1nαiyixi,x+b ] (7)
其中[αi]是支持向量的最優(yōu)系數(shù),[b]是分類閥值。使用核函數(shù)提高特征向量維度后進行分類的確可以提高分類的準確性,但是卻因為其計算量大,對識別速度會有影響,常見的核函數(shù)如下:
線性核函數(shù):[Kx,y=x?y] (8)
多項式核函數(shù):[Kx,y=x?y+1d ,d=1,2,…,n] (9)
高斯核函數(shù):
[Kx,y=e-2x-yσ2] (10)
實際應(yīng)用中需要根據(jù)具體需求,平衡識別的準確率和效率,選擇合適的核函數(shù)。
3.3 人體識別
人體的識別過程分為兩個部分:訓(xùn)練和識別,如圖2所示。
圖2 人體識別流程
訓(xùn)練過程,首先通過碼本分離算法從運動圖像中提取出的前景,此時的前景包括了人體和其他物體;然后是通過人工分檢,選出各種光照效果下具有典型勞動特征的人體形成訓(xùn)練樣本庫;接下來計算每一個樣本的HOG特征值,并利用這個樣本值集合進行SVM訓(xùn)練,使其針對HOG特征具有分類能力;最終構(gòu)建出人體特征分類器。
識別過程,首先將碼本算法得到的前景提取HOG特征值,然后送入到訓(xùn)練過程產(chǎn)生的分類器當中進行分類;最終識別出人體。
4 危險行為識別
隨著行業(yè)的不同,生產(chǎn)環(huán)節(jié)中對安全的要求也有所不同,比如:不同工種的著裝、佩戴的安全裝備和行為動作等都屬于安全生產(chǎn)管轄的范疇。本文就以建筑行業(yè)的施工環(huán)節(jié)中安全帽的佩戴作為檢測目標,并作為出算法的驗證試驗。
4.1 人頭模型
識別安全帽首先要提取人體的頭部信息,可以采取復(fù)雜模型:首先進行人臉識別定位人頭的位置;然后建立人體軀體模型,找到軀干和四肢;最終完成人體重建。雖然看似第一步就可以通過臉部準確的定位人頭,但是此方法在現(xiàn)實中卻不可行,因為在工地上具體的施工環(huán)節(jié)中,不可能讓每一個工人都正面面對攝像頭進行人臉檢測,攝像頭中往往得到的是一個背影或側(cè)影。簡化模型:首先根據(jù)SVM人體分類器中不同工作姿勢人體類別,統(tǒng)計各類別中人頭的位置和大小比例;然后從待處理人體圖像中分離處彩色的人頭圖像;最后使用顏色直方圖進行安全帽的識別。
4.1 模型對比
復(fù)雜模型適應(yīng)于沒有進行過前景背景分離的圖像,識別的前提是圖像中的人體有人臉的正面照,因此識別率較低;簡化模型中識別對象是經(jīng)過了前景背景分離和SVM分類并已經(jīng)真正分割出來的獨立的人體,雖然人體模型簡單,但是人頭的識別率非常高。
5 實驗及結(jié)果分析
為了驗證本文闡述的安全管控系統(tǒng)的有效性,特地選取某建筑企業(yè)在建工地的鋼筋加工車間實時視頻監(jiān)控圖像進行分析,原始視頻中包含了各種姿態(tài)(站姿和蹲姿)的人體,如圖3所示。
圖3 原始視頻圖像
圖4 碼本算法提取前景
圖5 膨脹處理
圖6 圖像分割
圖7 遮罩提取
圖8 頭部
1) 碼本算法提取前景。由于碼本算法是基于像素點的色彩變化進行統(tǒng)計分析來確定運動目標,受光線等干擾的影響,碼本算法采集到的前景區(qū)域往往不連通,如圖4所示。
2) 膨脹處理。對圖像進行膨脹處理的目的是為了擴大連通區(qū)域,便于圖像分割。膨脹之后的圖像如圖5所示。
3) 圖像分割。采用第2章中所述的靜態(tài)圖像分離算法切割膨脹處理之后的局部連通圖,分割出來的去除了背景的單體圖像比分割前“意義”更明確,求出的HOG特征向量特征更明顯,單體圖像如圖6所示。
4) 遮罩提取。上述步驟操作的都是對象區(qū)域,為了得到原始的分割圖像,只需要進行遮罩運算即可,結(jié)果如圖7所示。
5) 安全帽識別。使用4.1節(jié)所述的人體模型提取人頭圖像,如圖8所示。因為安全帽的種類和顏色非常規(guī)范, 提供統(tǒng)計建立顏色(紅、黃、藍)分布直方圖,即可識別個人是否佩戴安全帽。
上述過程前4步可以實現(xiàn)前景提取,并進行基于SVM的人體特征挖掘與識別。本例構(gòu)建的訓(xùn)練樣本分別為100、300、500張,使用HOG算法進行特征向量提取,并將此特征向量集用于SVM訓(xùn)練,最終得出人體分類器、人頭位置和尺寸參數(shù)。通過訓(xùn)練好的分類器對測試樣本進行檢測,實驗結(jié)果如表1所示。
表1 不同樣本空間檢測準確率對比結(jié)果
[訓(xùn)練樣本數(shù)\&人體檢出準確率\&安全帽檢出準確率\&綜合準確率\&100\&53%\&86%\&≈46%\&300\&62%\&89%\&≈55%\&500\&84%\&93%\&≈78%\&]
從表中數(shù)據(jù)可以看出:隨著訓(xùn)練樣本數(shù)的增加,人體檢出準確率明顯提高,而安全帽檢出的準確率受樣本規(guī)模影響比較小。
6 結(jié)論
本文首次將圖像處理技術(shù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到安全生產(chǎn)管理中。研討了將碼本運算、HOG運算、SVM運算融為一體進行人體圖像挖掘的具體實現(xiàn)細節(jié),提出基于實時視頻流模式的多姿態(tài)安全帽檢測技術(shù),并且通過試驗證明該算法的實用性和有效性,取得了令人滿意的結(jié)果。
未來的工作是對人像進行跟蹤,分析其動作,并抽象提煉出行為,通過對每一種行為的危險系數(shù)進行評估,最終實現(xiàn)危險行為識別即做出有害和無害的結(jié)論。
參考文獻:
[1] Adobe System Incop. Adobe Photoshop User Guide. 2002.
[2] Mortensen E.N, Barrett W.A: Intelligent scissors for image composition [C] Proceedings of the 22nd international conference on Computer Graphics and Techniques. ACM: 191-198.
[3] Caselles V, Kimmel R, Sapiro G. Geodesic contours [C].In Proceedings of IEEE International Conference on Computer Vision. 1995: 694-699.
[4] 王芳梅,范虹,王鳳妮.水平集在圖像分割中的應(yīng)用研究[J].計算機應(yīng)用研究.2012,29(4): 1207-1210.
[5] Sun H, Feng T, Tan T. Robust extraction of moving objects from image sequences[C]. Proc the Fourth Asian Conference on Computer Vision, Taiwan. 2000:961-964.
[6] Kyungnam Kim,Thanarat H. Chalidabhongse,David Harwood,Larry Davis. Real-time foreground–background segmentation using codebook model[J]. Real-Time Imaging . 2005 (3).
[7] Dalal Navneet,Triqqs Bill.Histograms of oriented gradients for human detection. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 2005 .