劉 穎, 胡 楠, 楊壯觀, 同東輝, 胡 畔
(國網(wǎng)遼寧省電力有限公司 信息通信分公司, 沈陽 110006)
隨著網(wǎng)絡技術的快速發(fā)展,基于流媒體技術和圖像壓縮技術的視頻監(jiān)控系統(tǒng)被廣泛應用于廠礦、學校和銀行等場合[1].電力系統(tǒng)由于受生產(chǎn)環(huán)境和廠地位置的限制,通常分布在較偏僻的地區(qū).為了保證電網(wǎng)系統(tǒng)安全穩(wěn)定運行,電網(wǎng)公司安裝了大量的監(jiān)控系統(tǒng),并通過人工監(jiān)管和查看后期視頻對電網(wǎng)進行監(jiān)測[2-3],然而這并不能及時發(fā)現(xiàn)電網(wǎng)風險,挽回損失.因此,開發(fā)和設計智能行人檢測與識別系統(tǒng)能減輕監(jiān)控人員的負擔,并能更好地保障電網(wǎng)環(huán)境的安全[4].
電網(wǎng)監(jiān)控視頻通常面臨著背景復雜、場景多變等問題,人體姿態(tài)的變化和遮擋也會對檢測與識別帶來困難[5].傳統(tǒng)的行人檢測方法側重于提取有效的行人特征,設計簡單的分類器,常見的特征包括局部二值模式(local binary pattern,LBP)特征、梯度向量直方圖(histogram of oriented gradient,HOG)特征、Haar特征和積分通道特征等[6-7];常見的行人分類器有SVM(support vector machine)、人工神經(jīng)網(wǎng)絡和隨機森林等.基于這些特征與分類器提出了諸多行人檢測與識別方法,如文獻[8]提出了一種基于SVM和小波特征的行人檢測方法;文獻[9]基于AdaBoost算法和聚類方法利用多個決策器的輸出組合檢測出行人目標.
相比于上述特征提取方法,深度學習[10]采用貪婪逐級訓練策略從海量訓練數(shù)據(jù)中提取出更豐富的特征.基于深度學習的目標檢測方法有端到端和區(qū)域提名兩種,端到端方法主要包括SSD(single shot multibox detector)和YOLO(you only look once)兩種;區(qū)域提名方法主要包括RCNN和SPP-Net[11].這些方法使用海量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,大幅提高了目標檢測的準確性和魯棒性.本文基于深度學習技術實時分析電網(wǎng)監(jiān)控系統(tǒng)的圖像,并對其中工作人員進行檢測和識別,以輔助保障電網(wǎng)安全生產(chǎn)及設備安全穩(wěn)定.
本文使用Faster-Rcnn檢測電網(wǎng)監(jiān)控視頻中的工作人員,總體流程如圖1所示.該算法首先使用卷積神經(jīng)網(wǎng)絡提取監(jiān)控視頻中每一幀圖片的特征,并生成特征圖,然后由區(qū)域生成網(wǎng)絡RPN根據(jù)特征圖生成可能存在目標的得分,最后由ROI池化層根據(jù)生成的區(qū)域建議和閾值判斷出目標的類別,并在此通過邊框回歸獲得目標的精確位置.本文設置閾值為0.5,當區(qū)域建議的分數(shù)大于0.5時,標記這些邊框為目標;否則標記為背景.相比于傳統(tǒng)的目標檢測方法,F(xiàn)aster-Rcnn具有更快的訓練速度和更高的檢測精確.
Faster-Rcnn的特征提取網(wǎng)絡由多組Conv、Relu和Pooling層組成,通過不斷改變輸入、輸出特征圖的大小來獲得更大的感受野,本文使用Res50網(wǎng)絡作為特征提取網(wǎng)絡.傳統(tǒng)的目標檢測方法使用活動窗口和圖像金字塔的方式生成目標位置,而Faster-Rcnn使用RPN網(wǎng)絡直接生成檢測框,從而大幅提高了檢測速度,圖2所示為RPN網(wǎng)絡架構.該網(wǎng)絡采用錨策略在特征圖中選取k個具有不同大小和長寬比的錨,每個錨使用Softmax將目標框分為有行人和沒有行人兩類,并計算出目標框的偏移量以獲取更精確的結果.假設目標框由(x,y,w,h)表示,其中,x,y為目標的最左上坐標;w和h為目標框的寬和高,則將隨機初始化的位置A=(Ax,Ay,Aw,Ah)映射到真實窗口G=(Gx,Gy,Gw,Gh)時需要先做平移變化再做縮放,即
圖1 行人檢測流程Fig.1 Flow chart of pedestrian detection
(1)
式中,dx(A)、dy(A)、dw(A)、dh(A)為需要學習的偏移量.訓練時輸入目標位置b=(bx,by,bw,bh),輸出為dx(A),dy(A),dw(A),dh(A)的4個變換,則有
d(A)=WTφ(A)
(2)
式中:W為網(wǎng)絡參數(shù);φ(A)為特征向量.
圖2 RPN網(wǎng)絡結構Fig.2 RPN network structure
為了使得到的位置盡量精確,需要使輸入與輸出的損失函數(shù)最小,即
(3)
ROI池化層將原始特征和RPN的結果作為輸入,根據(jù)輸入特征計算出位置建議特征,并送入后續(xù)網(wǎng)絡得到最終的目標位置,使得每個特征圖被歸一化到相同的大小.由于所有建議的目標位置的尺度均為M×N,因此,ROI池化層首先將參數(shù)映射為M×N大小的尺度,并將每個位置建議按水平、豎直方向分為7份,得到7×7大小的建議,最后,使用全連接和Softmax層計算每個建議的類別并輸出概率向量.
工作人員檢測網(wǎng)絡的目標函數(shù)為多任務分類函數(shù),即網(wǎng)絡一方面要準確地判斷是否有工作人員,另一方面也要確定出檢測框的具體坐標.因此,本文定義的目標函數(shù)為
(4)
(5)
繼續(xù)對檢測網(wǎng)絡檢測到的工作人員進行再識別,本文將兩個網(wǎng)絡融為一個網(wǎng)絡,使用相同的特征提取網(wǎng)絡實現(xiàn)多任務學習.本文使用Res50網(wǎng)絡作為特征提取層,具體檢測與識別架構如圖3所示.該網(wǎng)絡主要包括特征提取網(wǎng)絡、工作人員檢測網(wǎng)絡和工作人員識別網(wǎng)絡,首先,使用Res50網(wǎng)絡提取輸入圖片的特征,然后,使用工作人員檢測網(wǎng)絡檢測出工作人員框,最后,使用工作人員識別網(wǎng)絡識別出工作人員的身份信息.
圖3 工作人員檢測與識別網(wǎng)絡Fig.3 Staff detection and identification network
1) 特征提取網(wǎng)絡.該網(wǎng)絡為工作人員檢測與識別網(wǎng)絡的共享網(wǎng)絡,輸入圖片大小為600×1 000,用Res50網(wǎng)絡的前4個塊提取特征,得到1 024個大小為38×63的特征映射.測試時只需將輸入圖片調(diào)整到600×100分辨率即可.該網(wǎng)絡的具體參數(shù)如表1所示.表1中data為輸入層數(shù)據(jù),圖像大小為3通道、寬600、長1 000;Conv1為卷積層,卷積核大小為7×7,核數(shù)量為64,步長為2;Pool為池化層,核大小為3×3,步長為2,其它各層的參數(shù)定義類似.
2) 工作人員檢測網(wǎng)絡.該網(wǎng)絡使用上文介紹的Faster-Rcnn提取出候選框,將第1部分Res50網(wǎng)絡提取出的特征圖的每個位置選取出9個Anchors,并回歸計算出行人框.
3) 工作人員識別網(wǎng)絡.該網(wǎng)絡將特征提取網(wǎng)絡提取出的特征圖輸入到ROI池化層,以統(tǒng)一特征維度.此網(wǎng)絡將特征圖固定在14×14的大小,并使用如表2所示的網(wǎng)絡架構進一步進行特征提取,然后將生成的2 048維特征向量輸入到全連接層和Softmax層,對邊框中的行人進行識別.
表1 特征提取網(wǎng)絡參數(shù)Tab.1 Feature extraction network parameters
表2 工作人員識別網(wǎng)絡架構Tab.2 Staff identification network architecture
本文使用Softmax損失和IOM損失來判別檢測出的行人是否為電網(wǎng)工作人員.其中,IOM損失可以在擴大類間距離的同時減小類內(nèi)距離,使不同特征的類盡量分開,其定義為
(6)
式中:z為提取出的特征;γ∈[0,1];vi和uk分別為預先提取的第i個和第k個工作人員的特征;Q、L為各類工作人員的總數(shù);si為待查詢的工作人員是第i個標記的工作人員的概率;gi為待查詢的工作人員不是第i個標記的工作人員的概率.
本文截取電網(wǎng)監(jiān)控視頻的圖像來構建數(shù)據(jù)集,該數(shù)據(jù)集共包括40 000張訓練圖片和3 000張測試圖片.本文使用GTX1060 GPU訓練該網(wǎng)絡,并設置初始學習率為0.001,使用Adam優(yōu)化網(wǎng)絡參數(shù).使用監(jiān)控視頻數(shù)據(jù)集和上文介紹的深度神經(jīng)網(wǎng)絡來檢測與識別電網(wǎng)工作人員,并通過分別計算檢測及識別精度來驗證所提方法的有效性.
圖4為本算法在20 000次迭代中識別精度和平均檢測精度(mAP)的變化情況.從圖4可以看出,網(wǎng)絡迭代10 000次后即可獲得較好的檢測和識別精度,且隨著迭代次數(shù)的增加,性能穩(wěn)定上升.
增加深度神經(jīng)網(wǎng)絡的特征維度,將增加訓練復雜度和訓練時間,但也能一定程度上提升網(wǎng)絡性能.本文比較了使用不同數(shù)量的特征維度時,電網(wǎng)工作人員的識別與檢測精度,如圖5所示.從圖5中可以看出,在特征維度為256時具有最優(yōu)的檢測精度和識別精度,因此,本文在后續(xù)電網(wǎng)工作人員的識別與檢測測試中設置特征的維度為256.
圖4 檢測與識別精度Fig.4 Accuracy of detection and recognition
圖5 不同特征維度下的性能比較Fig.5 Performance comparison under different feature dimensions
為了驗證本文方法的有效性,將所提出的方法與CCF、ACF、GT等檢測方法及DSIFT+Euclidean、DSIFT+KISSME、BOW+Cosine、LOMO+XQDA、PS等識別方法進行比較,各種方法均使用默認的參數(shù)設置,比較結果如表3、4所示.表3分別給出了各種算法的平均精度均值和top-1精度,其中top-1精度為預測結果中概率最大的分類結果的正確率.由表3可以看出,相比于傳統(tǒng)方法,本方法能獲得更高的檢測和識別精度.同時,由于光照條件和工作人員被遮擋時均會對檢測和識別的精度產(chǎn)生影響,本文也比較了在低光照及有遮擋時各種方法的檢測和識別精度,結果如表4所示.從表4可以看出,在遮擋和低光照情況下,所提出的方法均能取得更好的檢測和識別結果.
本文提出一種基于深度學習的電網(wǎng)監(jiān)控視頻中工作人員檢測與識別算法.該算法組合了行人檢測網(wǎng)絡和行人識別網(wǎng)絡,能夠識別出電網(wǎng)監(jiān)控視頻中的工作人員.兩個網(wǎng)絡共享Res50網(wǎng)絡提取出的行人特征,并使用RPN網(wǎng)絡和ROI池化快速、精確地檢測出電網(wǎng)中的工作人員;使用Softmax和IOM損失對檢測出的工作人員進行身份確認.在電網(wǎng)監(jiān)控視頻構成的數(shù)據(jù)集上的測試結果表明,所提出的方法具有更高的檢測和識別精度,且對遮擋及低光照圖片具有較好的魯棒性.
表3 各種算法精度比較Tab.3 Accuracy comparison of various algorithms %
表4 低分辨率和低光照時精度比較Tab.4 Accuracy comparison under low resolution and illumination %