劉文平 薛宏佺 付茂闖
1.中車南京浦鎮(zhèn)車輛有限公司 江蘇 南京 210031
2.四川銳明智通科技有限公司 四川 成都 610213
隨著中國鐵路的高速發(fā)展,鐵路運輸已經(jīng)成為中國運輸業(yè)不可或缺的一部分,在2019年全國鐵路旅客運輸量達到了36.6億人次。鐵路運輸環(huán)境復雜,人員流動性大等問題對鐵路管理部門提出了極大的挑戰(zhàn)[1]。視頻監(jiān)控系統(tǒng)可從安全運營的角度緩解當前存在的問題。視頻監(jiān)控系統(tǒng)通常采用人工的方式來查看和處理視頻信息,存在著工作效率低,人工成本高,實時性低等問題。因此需要考慮采用智能視頻分析系統(tǒng)來對視頻信息進行實時分析,實時預警,提升列車運營安全性。
人臉檢測技術(shù)在近年來得到了深入的發(fā)展與廣泛的應用,但傳統(tǒng)的人臉檢測方法難以滿足各個場景下人臉檢測的速度與精度。深度學習在特征提取上具有其特有的優(yōu)勢且結(jié)合了特征分類的功能,卷積神經(jīng)網(wǎng)絡是圖像識別領(lǐng)域中深度學習的主要代表[2]。當前基于卷積神經(jīng)網(wǎng)絡的人臉檢測算法主要包括Faster R-CNN算法,YOLO算法和SSD算法,其中SSD算法結(jié)合了YOLO算法的快速性和Faster R-CNN算法窗口預測的精準性[3]。因此本文主要采用SSD算法進行人臉檢測,首先介紹了SSD算法的基本原理,然后基于SSD算法從司機狀態(tài)識別和乘客信息識別兩個方面來應用于列車視頻監(jiān)控系統(tǒng)。
深度學習是采用多層次結(jié)構(gòu),通過整體的方式完成特征學習,特征抽象和模型學習等步驟。卷積神經(jīng)網(wǎng)絡是最常用的一種深度學習方法,主要由輸入層,卷積層,激活層,池化層和輸出層等按照一定順序堆疊而成[4]。
輸入層將圖像像素點轉(zhuǎn)換為計算機能識別的三維矩陣,作為神經(jīng)網(wǎng)絡后續(xù)處理的原始數(shù)據(jù)。
卷積層是特征信息提取的整個卷積神經(jīng)網(wǎng)絡的核心層。卷積層通過采用卷積核對圖像局部區(qū)域提取特征,不同卷積層有不同的權(quán)值參數(shù),在每層卷積中通過滑動窗口的方式依次將卷積核與和卷積核相同大小的局部圖像作卷積,通過反向傳播算法調(diào)整偏置卷積核參數(shù),并將上一層結(jié)果作為下一層卷積的輸入。
激活層用于進行非線性分析。卷積對每個像素點分配一定的權(quán)重系數(shù),屬于線性模型,僅適用于線性分析,當需要進行非線性分析時,需要引入非線性的激活函數(shù)。卷積神經(jīng)網(wǎng)絡常用的激活函數(shù)為ReLU函數(shù),其是將響應大于0的結(jié)果保留,將相應小于0的結(jié)果設為0,公式為:
池化層主要有三個方面的作用,保持特征不變性,特征降維,減小過擬合現(xiàn)象。池化對特征數(shù)據(jù)進行降維處理,目前應用最廣的有最大池化和均值池化,最大池化是保留卷積特征層中最大值,均值池化為保留卷積特征層中平均值。池化壓縮了特征數(shù)據(jù)量,但是保留了不同區(qū)域間的特征關(guān)系,同時減小了數(shù)據(jù)信息達到防止過擬合的現(xiàn)象。
SSD算法是一種基于YOLO算法和Faster R-CNN算法提出的端到端的目標圖像檢測算法,優(yōu)點是結(jié)合了YOLO算法的檢測速度和Faster R-CNN算法的檢測精度。SSD算法基礎網(wǎng)絡采用VGG-16網(wǎng)絡,并在其基礎上增加了4個卷積層,如圖1所示[5]。SSD分別分析每一層卷積網(wǎng)絡中的特征信息,通過非極大值抑制輸出結(jié)果回歸輸出。
圖1 SSD算法框架[5]
(1)默認框生成
SSD算法基于anchor理念采用默認框機制,通過生成大小和尺度不一樣的默認框?qū)D像中目標完全覆蓋。默認框的尺度大小,高寬比,位置是需要注意設計的影響預測精度的參數(shù)。第k層特征層對應的尺寸大小計算公式為:
其中,為特征圖個數(shù),本文設置為6。是默認框相對于與原圖大小比例,和分別為該比例所取的最大值與最小值。第1層Conv4_3尺寸設置為0.1,第2至第6層的尺寸可得到分別為0.2,0.375,0.55,0.725,0.9。
默認框的高度和寬度計算公式為:
(2)先驗框匹配
默認框形成后需要進行一定的篩選,去除無意義的候選框,避免出現(xiàn)冗余計算的情況。采用IOU方法篩選候選框,IOU是計算檢測邊框與實際邊框交集與并集的比值,公式可表示為:
(3)損失函數(shù)設計
采用多任務損失函數(shù)進行判斷置信度以及位置回歸,將兩者加權(quán)求和,計算公式可表示為:
其中,x為匹配成功的先驗框,c為置信度預測值,l為預測框,g為標注框,N為先驗框數(shù)量,為權(quán)重因子,Lconf為置信度損失,Lloc為位置損失。
(4)非極大值抑制
非極大值抑制算法在SSD算法中對于篩選合適的候選框異常重要,可避免僅采用IOU方法時出現(xiàn)的漏檢或重復檢測。非極大值抑制算法是對通過分類器進行類別判斷時得到的類別概率值進行排序,首先找出其中的最大概率值,同時設置好判別閾值,計算所有檢測框與最大概率值之間的IOU,刪掉其中IOU大于閾值的重疊率高的檢測框。再對未刪的檢測框進行重新排序,重復上述過程,處理完所有檢測框后,輸出結(jié)果。
視頻分析架構(gòu)主要可分為前端分析與后端分析[6],前端分析將視頻分析模塊內(nèi)嵌在前端設備中,前端設備將分析結(jié)果數(shù)據(jù)傳輸至中心節(jié)點,是較為常用的視頻智能分析方式。這種分析方式可有效減少帶寬資源以及處理能力的限制,本文主要采用前端分析方式。
后端分析將采集到的視頻傳輸至后端或關(guān)鍵節(jié)點處做視頻分析處理,攝像機僅提供視頻采集功能。后端分析方式對視頻數(shù)據(jù)做統(tǒng)一處理與分析,處理靈活性強。但視頻分析計算復雜度和計算量較大,因此對與后端處理性能和帶寬要求較高。
得益于SSD算法在人臉檢測中的快速性和精準性,視頻監(jiān)控系統(tǒng)可以實現(xiàn)更多的智能應用,本節(jié)主要研究基于SSD算法的人臉檢測在司機狀態(tài)識別和乘客信息識別兩個場景下的智能應用。
列車司機疲勞駕駛是造成列車運營安全事故的主要原因之一,當前列車視頻監(jiān)控系統(tǒng)中對于列車司機駕駛狀態(tài)的監(jiān)測還比較薄弱,因此對司機的狀態(tài)監(jiān)測的研究與應用就尤為重要。司機駕駛列車是相對枯燥的過程,在運行過程中可能會發(fā)生司機疲勞閉眼,分心等影響駕駛安全的行為[7]。采用人臉檢測技術(shù)實時監(jiān)測司機駕駛狀態(tài),當檢測到異常情況后可向司機和管理人員發(fā)出主動提醒,避免由于司機異常駕駛行為造成的安全事故。
圖2 人臉監(jiān)測流程
司機駕駛狀態(tài)監(jiān)測實現(xiàn)流程如圖2所示。首先由前端攝像機采集司機面部視頻信息。前端設備通過SSD算法檢測人臉,提取人臉特征,識別人臉位置及大小。然后進行人臉跟蹤,跟蹤人臉所處位置。最后進行人臉對齊,即識別出人臉上關(guān)鍵點,根據(jù)關(guān)鍵點識別司機狀態(tài),識別司機疲勞駕駛,分心駕駛等影響列車安全運營的行為。若檢測到發(fā)生違規(guī)行為,通過前端設備對司機發(fā)出語音提醒。人臉檢測算法實現(xiàn)效果如圖3所示,涉及隱私部分打碼處理。分別對閉眼疲勞和分心駕駛這兩種影響安全運營的行為進行了100次試驗,兩種行為的識別準確率如表1所示,識別率都達到了95%以上。駕駛狀態(tài)監(jiān)測應用于列車司機監(jiān)控可很好的避免由于司機注意不集中而導致的交通安全事故。
圖3 人臉檢測效果
表1 司機疲勞駕駛和分心駕駛識別率
針對于鐵路運營中可能存在的逃票、買短乘長等問題。采用人臉識別技術(shù)自動檢測與識別面部信息,聯(lián)動客票數(shù)據(jù)庫判斷車上人員是否為該車乘客,以及是否按照區(qū)間乘車。視頻監(jiān)控系統(tǒng)識別出異常后發(fā)出報警信息提示工作人員處理,避免出現(xiàn)逃票、買短乘長等擾亂列車運營管理的行為。效果如圖4所示,采用乘客信息識別可提升鐵路部門運營管理效率。
圖4 乘客信息識別效果
針對現(xiàn)有傳統(tǒng)列車視頻監(jiān)控系統(tǒng)效率低,人工成本高,時效性差等問題,本文介紹了卷積神經(jīng)網(wǎng)絡和SSD算法的基本原理及結(jié)構(gòu),研究了應用基于SSD算法的人臉檢測在列車視頻監(jiān)控系統(tǒng)中的智能應用,主要結(jié)論如下:
(1)在司機駕駛狀態(tài)的識別中,人臉檢測識別疲勞駕駛和分心駕駛的準確率達到90%以上;在乘客信息識別中,技術(shù)方案可有效比對乘客信息,智能應用效果良好。
(2)鐵路部門推行智能視頻監(jiān)控系統(tǒng),將被動監(jiān)控變?yōu)橹鲃颖O(jiān)控,可有效提升運營安全性及管理高效性。