鄧開發(fā) 鄒振宇
摘要:安全帽能夠有效減輕事故損害,監(jiān)督工人的安全帽佩戴顯得十分必要。針對工人安全帽佩戴檢測,文章提出一種基于深度學習的安全帽佩戴檢測方法,用于施工現場攝像頭監(jiān)控的圖像和視頻目標檢測。試驗結果表明,該方法能夠較好地實現安全帽佩戴的圖像和視頻檢測。
關鍵詞:深度學習;安全帽佩戴檢測;圖像檢測;視頻檢測
中圖分類號:TP391.4 文獻標識碼:A 文章編號:1006-8228(2020)07-12-05
0引言
建筑施工作業(yè)過程中存在著較多安全隱患,使得事故發(fā)生率居高不下。施工活動實踐表明,作業(yè)前對建筑工人的行為能力和安全裝備進行檢查,能夠有效減輕事故損害或減少事故發(fā)生。因此,監(jiān)督工人的活動和安全設備正確佩戴顯得尤為重要的。然而,目前傳統(tǒng)活動監(jiān)測和安全裝備佩戴檢查很大程度上依賴于現場經驗豐富的管理人員進行的觀察和檢查,普遍存在自動化水平較低、工作量較大、檢查項目有限的現象,容易出現誤檢、漏檢等問題。
隨著科技的發(fā)達,計算機視覺、人工智能等技術飛速發(fā)展。人工智能這一術語在1956年首次被提出,到今天已經獲得了60年的長足的發(fā)展,尤其是近十年人工智能在中國的發(fā)展也突飛猛進。而計算機視覺是人工智能的一個熱門的發(fā)展方向。在我國,圖像識別技術正在逐漸同各行各業(yè)相互融合,包括金融、醫(yī)療、教育、家居等各行業(yè)領域當中均能夠看見它的“身影”,已可實現三維人體姿態(tài)重建、跌倒監(jiān)測、駕駛員疲勞監(jiān)測、行為識別等功能。
基于上述原因,本文提出一種基于深度學習技術來檢測安全帽佩戴的方法。使用Keras深度學習框架搭建Faster RCNN模型,收集施工工人佩戴安全帽和未佩戴安全帽圖像,構建對模型訓練及測試的數據集,并對算法的測試速度、準確性進行評估。在取得良好測試結果的前提下,進一步設計將圖像檢測結果用于視頻檢測安全帽佩戴。選取一段在施工現場上攝像頭拍攝的視頻,檢測在實際場景中應用的效果。通過此技術可以來代替?zhèn)鹘y(tǒng)的人為監(jiān)督,有利于構建智能化、自動化的施工安全裝備佩戴檢測,既節(jié)省了勞動力成本,又提高了施工現場的安全性,更是為“智慧工地”的發(fā)展建設奠定了基礎。
1目標檢測關鍵技術
1.1卷積神經網絡介紹
卷積神經網絡(onvolutional neural network,CNN)(LeCun,1989),是深度神經網絡中的一種,專門用來處理具有時間序列數據和圖像數據的神經網絡。隨著卷積神經網絡在各大競賽中取得優(yōu)異的成績,成為研究機構競相追捧的研究對象,模型得到不斷發(fā)展、改進,然而如圖1所示,其網絡結構的基本構件幾乎不變,卷積層和池化層仍是卷積神經網絡的核心所在。
卷積層實際上是卷積核對圖像進行卷積運算。卷積核是一個和學習特征高度相關的模板,在提取圖像特征時,從圖像或特征映射圖的第一個像素開始依次向右向下移動計算,將模板的中心與每一個像素點對其覆蓋,對覆蓋區(qū)域內的每個像素值與模板的對應權值加權求和。通常還需要把加權求和的結果送入一個非線性函數,將其函數值作為最終計算出下一層特征圖的元素值。
池化層又叫下采樣層、降采樣層。在降采樣層中,通常采取的計算方式是求平均值、求最大值或求最小值,因此池化層沒有需要學習的權值。與卷積層類似,池化層運算也可以看作是模板運算,從數據源的左上角第一個像素開始依次向右向下移動,對覆蓋區(qū)域內與模板大小同樣的像素區(qū)域進行池化運算。池化層的降維操作不僅可以壓縮原圖像尺寸、提升計算效率,還可以保證圖像特征旋轉、平移不變性。
1.2Faster RCNN介紹
Faster RCNN是一種基于卷積神經網絡的物體檢測框架,它是繼RCNN和Fast RCNN之后,為了減少檢測網絡運行時間、提升檢測進度的改進版本。
1.2.1RCNN與Fast RCNN簡介
RCNN(Regions with CNN features)的首次提出在基于深度學習的物體檢測研究中具有里程碑式的歷史意義,其首先采用非深度學習方法提出候選區(qū)域(region proposal),從候選區(qū)域利用深度卷積網絡提取特征,再利用支持向量機等線性分類器,將區(qū)域分為物體和背景,而不再是對整張圖像進行特征提取和分類。然而,RCNN的缺點也比較明顯,在計算機對所有候選區(qū)域進行特征提取時,會有重復計算,繼而產生嚴重的速度瓶頸,使得花費的時間非常多。
RCNN的進階版Fast RCNN則在RCNN的基礎上采納了空間金字塔池化方法(Spatial Pyramid Poohng,SPP),對RCNN作了改進。不像RCNN把每個候選區(qū)域給深度網絡提特征,而是整張圖提一次特征,再把候選區(qū)域映射到第五個卷積層上,只需要計算一次特征,使得性能進一步提高。
1.2.2Faster RCNN簡介
經過RCNN和Fast RCNN的積淀,Faster RCNN的誕生進一步完善了這一流程,在Fast RCNN的基礎上,加入一個提取邊緣的神經網絡,名叫區(qū)域建議網絡(Region Proposal Network(RPN)。首先通過卷積層和池化層提取整個圖像的基礎信息,形成特征圖(feature map),再通過區(qū)域建議網絡(RPN),提取多個興趣區(qū)域的位置信息和對應區(qū)域是否存在目標的置信度值,在ROI pooing層將特征映射為相同尺寸的特征向量輸入全連接層,隨后利用窗口得分對每一類物體進行非極大值抑制去除重疊區(qū)域建議框,最終得到每個分類回歸修正后得到分數最高的窗口。簡而言之,Faster RCNN的特點在于找候選區(qū)域的工作也交給神經網絡來做,代替了之前RCNN和Fast RCNN區(qū)域建議由費時的選擇性搜索(selective search)來實現,從而使得區(qū)域建議階段不再那么耗時,檢測速度大幅度提高。
基于深度學習目標檢測從RCNN、Fast RCNN、Faster RCNN一路走來,流程變得越來越精簡,速度越來越快,精度也越來越高。可以說基于候選區(qū)域的RCNN系列目標檢測方法是當前目標檢測技術領域最主要的一個分支。
1.3視頻目標檢測
視頻目標檢測和圖像目標檢測都屬于計算機視覺領域的研究范疇。然而視頻和圖像這兩類數據存在著明顯的類型差異,視頻中每幀圖片的內容變化不大,利用卷積來提取特征是相當耗時的計算。假使每幀視頻都利用卷積來提取特征再進行目標,檢測會導致極大的計算冗余,十分影響計算效率,令人難以忍受。
深度特征流算法(Deep Feature Flow)的出現為視頻目標檢測研究領域提供了一種結合光流來實現特征圖的幀間傳播和復用的思路。該算法的核心思想是只在稀疏的關鍵幀(key frame)上運行計算量龐大的卷積子網絡來提取特征圖,而在非關鍵幀(currentframe)上,通過光流傳播的方式將關鍵幀的特征圖傳播到非關鍵幀上。再利用現有的目標檢測算法,在特征圖上進行目標檢測,得出檢測結果。由于光流傳播的方式傳播非關鍵幀的特征圖,能夠大大減少計算量,加快視頻目標檢測的速度。
2試驗
本試驗環(huán)境配置在Windows 764位操作系統(tǒng)、210GHz CPU、GeForce GTX 1060GPU,6G顯存并安裝GPU并行數據計算開發(fā)環(huán)境CUDA和CuDnn、8G內存平臺上,使用基于Keras學習框架進行相關代碼和參數訓練,通過Python語言編譯Faster RCNN網絡框架并且分別選擇vgg 16、resnet 50、inception resnet v2網絡提取目標特征。
2.1數據集
本試驗訓練測試的數據采用安全帽佩戴檢測比賽數據集GDUT-HWD,共3174張圖片,為了提供豐富充足的樣本來源,又通過截取多個建設項目施工現場視頻監(jiān)控圖像和拍攝的照片,共采集8814張。兩個數據集打亂混合相加共11988張圖像。再根據本試驗需求,使用圖像注釋工具Labeling對數據集中的圖片進行人工標注,注釋包括佩戴安全帽工人、未佩戴安全帽工人。將標注結果保存為XML文件。作為安全帽佩戴的應用型研究,在實際場景中的應用效果非常重要的,因此截取了多個施工現場的攝像頭監(jiān)控視頻來進行視頻安全帽佩戴檢測。
2.2評估指標
為了評價本試驗對建筑工人安全帽佩戴識別檢測效果的可靠性,使用準確率(accuracy)、召回率(recall)和錯誤率(error)三個指標來衡量。
網絡的目標預測情況可以分為以下三種:正確正例(True Poitives,TP):被正確識別的正樣本;錯誤正例(False Poitives,FP):被錯誤識別的負樣本;正確負例(False Negative,FN):被錯誤識別的正樣本。具體表示見.表1。
2.3檢測效果及分析
將收集的11988張圖像按照9:l的比例分為訓練集合測試集,其中10788張作為訓練集,其余的1200張作為測試集。訓練時,為避免梯度下降過快,先將模型迭代次數進行測試,并繪制訓練模型迭代損失值曲線,如圖2所示,在增加迭代次數后,明顯能夠降低模型的損失率,在迭代次數達到10000次趨于穩(wěn)定。
完成訓練后,將1200張圖像放置于測試集文件夾中,調用訓練好的模型進行測試檢測。根據統(tǒng)計出的TP、FP及FN參數,按照式(1)~(3)進行計算,評估工人安全帽佩戴檢測的效果。由表2可見,擁有更深網絡的resnet 50網絡和inception resnet v2網絡相比vgg 16網絡效果更佳。
如圖3顯示的部分測試結果圖像,Faster RCNN網絡用于檢測安全帽佩戴圖像檢測效果不錯。為檢驗在實際場景中的應用效果,采用基于深度特征流(DeepFeature Flow)對施工現場的攝像頭監(jiān)控截取的視頻進行安全帽佩戴檢測,其中特征網絡選擇之前圖像檢測中效果略佳的inception resnet v2網絡,任務網絡依舊選擇Faster RCNN網絡,流網絡選擇FlowNet Simple網絡。
從視頻的第一幀開始遍歷,直到所有的視頻幀都遍歷完,得到所有的關鍵幀。將這些關鍵幀送入特征網絡得到特征圖,再將特征圖送入目標檢測任務網絡進行安全帽佩戴檢測,最終輸出檢測結果。本試驗截取了幾個關鍵幀檢測效果在圖4中進行展示。
3結束語
針對工人安全帽佩戴檢測,本文提供了一種基于Faster RCNN的安全帽佩戴檢測方法,對佩戴安全帽和未佩戴安全帽的圖像數據集進行檢測和識別,再將檢測效果好的模型結合Deep Feature Flow算法用于施工現場攝像頭監(jiān)控的視頻目標檢測。經過本試驗和對深度學習的研究,該方法能夠較好地實現安全帽佩戴的圖像和視頻檢測效果。然而在本試驗中,圖像中存在目標被遮擋和光線昏暗的現象,使檢測結果產生誤差,并且視頻中運動模糊和光線變化多樣性也對檢測結果產生影響。因此,解決上述問題是下一步研究的重點。