基于深度學習的電網(wǎng)監(jiān)控視頻中工作人員檢測與識別*

2019-09-19 08:56楊壯觀同東輝

沈陽工業(yè)大學學報 2019年5期

劉穎，胡楠，楊壯觀，同東輝，胡畔

(國網(wǎng)遼寧省電力有限公司信息通信分公司，沈陽 110006)

隨著網(wǎng)絡技術的快速發(fā)展，基于流媒體技術和圖像壓縮技術的視頻監(jiān)控系統(tǒng)被廣泛應用于廠礦、學校和銀行等場合[1].電力系統(tǒng)由于受生產(chǎn)環(huán)境和廠地位置的限制，通常分布在較偏僻的地區(qū).為了保證電網(wǎng)系統(tǒng)安全穩(wěn)定運行，電網(wǎng)公司安裝了大量的監(jiān)控系統(tǒng)，并通過人工監(jiān)管和查看后期視頻對電網(wǎng)進行監(jiān)測[2-3]，然而這并不能及時發(fā)現(xiàn)電網(wǎng)風險，挽回損失.因此，開發(fā)和設計智能行人檢測與識別系統(tǒng)能減輕監(jiān)控人員的負擔，并能更好地保障電網(wǎng)環(huán)境的安全[4].

電網(wǎng)監(jiān)控視頻通常面臨著背景復雜、場景多變等問題，人體姿態(tài)的變化和遮擋也會對檢測與識別帶來困難[5].傳統(tǒng)的行人檢測方法側重于提取有效的行人特征，設計簡單的分類器，常見的特征包括局部二值模式(local binary pattern，LBP)特征、梯度向量直方圖(histogram of oriented gradient，HOG)特征、Haar特征和積分通道特征等[6-7]；常見的行人分類器有SVM(support vector machine)、人工神經(jīng)網(wǎng)絡和隨機森林等.基于這些特征與分類器提出了諸多行人檢測與識別方法，如文獻[8]提出了一種基于SVM和小波特征的行人檢測方法；文獻[9]基于AdaBoost算法和聚類方法利用多個決策器的輸出組合檢測出行人目標.

相比于上述特征提取方法，深度學習[10]采用貪婪逐級訓練策略從海量訓練數(shù)據(jù)中提取出更豐富的特征.基于深度學習的目標檢測方法有端到端和區(qū)域提名兩種，端到端方法主要包括SSD(single shot multibox detector)和YOLO(you only look once)兩種；區(qū)域提名方法主要包括RCNN和SPP-Net[11].這些方法使用海量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡，大幅提高了目標檢測的準確性和魯棒性.本文基于深度學習技術實時分析電網(wǎng)監(jiān)控系統(tǒng)的圖像，并對其中工作人員進行檢測和識別，以輔助保障電網(wǎng)安全生產(chǎn)及設備安全穩(wěn)定.

1 目標檢測

本文使用Faster-Rcnn檢測電網(wǎng)監(jiān)控視頻中的工作人員，總體流程如圖1所示.該算法首先使用卷積神經(jīng)網(wǎng)絡提取監(jiān)控視頻中每一幀圖片的特征，并生成特征圖，然后由區(qū)域生成網(wǎng)絡RPN根據(jù)特征圖生成可能存在目標的得分，最后由ROI池化層根據(jù)生成的區(qū)域建議和閾值判斷出目標的類別，并在此通過邊框回歸獲得目標的精確位置.本文設置閾值為0.5，當區(qū)域建議的分數(shù)大于0.5時，標記這些邊框為目標；否則標記為背景.相比于傳統(tǒng)的目標檢測方法，F(xiàn)aster-Rcnn具有更快的訓練速度和更高的檢測精確.

Faster-Rcnn的特征提取網(wǎng)絡由多組Conv、Relu和Pooling層組成，通過不斷改變輸入、輸出特征圖的大小來獲得更大的感受野，本文使用Res50網(wǎng)絡作為特征提取網(wǎng)絡.傳統(tǒng)的目標檢測方法使用活動窗口和圖像金字塔的方式生成目標位置，而Faster-Rcnn使用RPN網(wǎng)絡直接生成檢測框，從而大幅提高了檢測速度，圖2所示為RPN網(wǎng)絡架構.該網(wǎng)絡采用錨策略在特征圖中選取k個具有不同大小和長寬比的錨，每個錨使用Softmax將目標框分為有行人和沒有行人兩類，并計算出目標框的偏移量以獲取更精確的結果.假設目標框由(x，y，w，h)表示，其中，x，y為目標的最左上坐標；w和h為目標框的寬和高，則將隨機初始化的位置A=(Ax，Ay，Aw，Ah)映射到真實窗口G=(Gx，Gy，Gw，Gh)時需要先做平移變化再做縮放，即

圖1 行人檢測流程Fig.1 Flow chart of pedestrian detection

(1)

式中，dx(A)、dy(A)、dw(A)、dh(A)為需要學習的偏移量.訓練時輸入目標位置b=(bx，by，bw，bh)，輸出為dx(A)，dy(A)，dw(A)，dh(A)的4個變換，則有

d(A)=WTφ(A)

(2)

式中：W為網(wǎng)絡參數(shù)；φ(A)為特征向量.

圖2 RPN網(wǎng)絡結構Fig.2 RPN network structure

為了使得到的位置盡量精確，需要使輸入與輸出的損失函數(shù)最小，即

(3)

ROI池化層將原始特征和RPN的結果作為輸入，根據(jù)輸入特征計算出位置建議特征，并送入后續(xù)網(wǎng)絡得到最終的目標位置，使得每個特征圖被歸一化到相同的大小.由于所有建議的目標位置的尺度均為M×N，因此，ROI池化層首先將參數(shù)映射為M×N大小的尺度，并將每個位置建議按水平、豎直方向分為7份，得到7×7大小的建議，最后，使用全連接和Softmax層計算每個建議的類別并輸出概率向量.

工作人員檢測網(wǎng)絡的目標函數(shù)為多任務分類函數(shù)，即網(wǎng)絡一方面要準確地判斷是否有工作人員，另一方面也要確定出檢測框的具體坐標.因此，本文定義的目標函數(shù)為

(4)

(5)

2 工作人員檢測與識別

繼續(xù)對檢測網(wǎng)絡檢測到的工作人員進行再識別，本文將兩個網(wǎng)絡融為一個網(wǎng)絡，使用相同的特征提取網(wǎng)絡實現(xiàn)多任務學習.本文使用Res50網(wǎng)絡作為特征提取層，具體檢測與識別架構如圖3所示.該網(wǎng)絡主要包括特征提取網(wǎng)絡、工作人員檢測網(wǎng)絡和工作人員識別網(wǎng)絡，首先，使用Res50網(wǎng)絡提取輸入圖片的特征，然后，使用工作人員檢測網(wǎng)絡檢測出工作人員框，最后，使用工作人員識別網(wǎng)絡識別出工作人員的身份信息.

圖3 工作人員檢測與識別網(wǎng)絡Fig.3 Staff detection and identification network

1) 特征提取網(wǎng)絡.該網(wǎng)絡為工作人員檢測與識別網(wǎng)絡的共享網(wǎng)絡，輸入圖片大小為600×1 000，用Res50網(wǎng)絡的前4個塊提取特征，得到1 024個大小為38×63的特征映射.測試時只需將輸入圖片調(diào)整到600×100分辨率即可.該網(wǎng)絡的具體參數(shù)如表1所示.表1中data為輸入層數(shù)據(jù)，圖像大小為3通道、寬600、長1 000；Conv1為卷積層，卷積核大小為7×7，核數(shù)量為64，步長為2；Pool為池化層，核大小為3×3，步長為2，其它各層的參數(shù)定義類似.

2) 工作人員檢測網(wǎng)絡.該網(wǎng)絡使用上文介紹的Faster-Rcnn提取出候選框，將第1部分Res50網(wǎng)絡提取出的特征圖的每個位置選取出9個Anchors，并回歸計算出行人框.

3) 工作人員識別網(wǎng)絡.該網(wǎng)絡將特征提取網(wǎng)絡提取出的特征圖輸入到ROI池化層，以統(tǒng)一特征維度.此網(wǎng)絡將特征圖固定在14×14的大小，并使用如表2所示的網(wǎng)絡架構進一步進行特征提取，然后將生成的2 048維特征向量輸入到全連接層和Softmax層，對邊框中的行人進行識別.

表1 特征提取網(wǎng)絡參數(shù)Tab.1 Feature extraction network parameters

表2 工作人員識別網(wǎng)絡架構Tab.2 Staff identification network architecture

本文使用Softmax損失和IOM損失來判別檢測出的行人是否為電網(wǎng)工作人員.其中，IOM損失可以在擴大類間距離的同時減小類內(nèi)距離，使不同特征的類盡量分開，其定義為

(6)

式中：z為提取出的特征；γ∈[0，1]；vi和uk分別為預先提取的第i個和第k個工作人員的特征；Q、L為各類工作人員的總數(shù)；si為待查詢的工作人員是第i個標記的工作人員的概率；gi為待查詢的工作人員不是第i個標記的工作人員的概率.

3 仿真與測試

本文截取電網(wǎng)監(jiān)控視頻的圖像來構建數(shù)據(jù)集，該數(shù)據(jù)集共包括40 000張訓練圖片和3 000張測試圖片.本文使用GTX1060 GPU訓練該網(wǎng)絡，并設置初始學習率為0.001，使用Adam優(yōu)化網(wǎng)絡參數(shù).使用監(jiān)控視頻數(shù)據(jù)集和上文介紹的深度神經(jīng)網(wǎng)絡來檢測與識別電網(wǎng)工作人員，并通過分別計算檢測及識別精度來驗證所提方法的有效性.

圖4為本算法在20 000次迭代中識別精度和平均檢測精度(mAP)的變化情況.從圖4可以看出，網(wǎng)絡迭代10 000次后即可獲得較好的檢測和識別精度，且隨著迭代次數(shù)的增加，性能穩(wěn)定上升.

增加深度神經(jīng)網(wǎng)絡的特征維度，將增加訓練復雜度和訓練時間，但也能一定程度上提升網(wǎng)絡性能.本文比較了使用不同數(shù)量的特征維度時，電網(wǎng)工作人員的識別與檢測精度，如圖5所示.從圖5中可以看出，在特征維度為256時具有最優(yōu)的檢測精度和識別精度，因此，本文在后續(xù)電網(wǎng)工作人員的識別與檢測測試中設置特征的維度為256.

圖4 檢測與識別精度Fig.4 Accuracy of detection and recognition

圖5 不同特征維度下的性能比較Fig.5 Performance comparison under different feature dimensions

為了驗證本文方法的有效性，將所提出的方法與CCF、ACF、GT等檢測方法及DSIFT+Euclidean、DSIFT+KISSME、BOW+Cosine、LOMO+XQDA、PS等識別方法進行比較，各種方法均使用默認的參數(shù)設置，比較結果如表3、4所示.表3分別給出了各種算法的平均精度均值和top-1精度，其中top-1精度為預測結果中概率最大的分類結果的正確率.由表3可以看出，相比于傳統(tǒng)方法，本方法能獲得更高的檢測和識別精度.同時，由于光照條件和工作人員被遮擋時均會對檢測和識別的精度產(chǎn)生影響，本文也比較了在低光照及有遮擋時各種方法的檢測和識別精度，結果如表4所示.從表4可以看出，在遮擋和低光照情況下，所提出的方法均能取得更好的檢測和識別結果.

4 結論

本文提出一種基于深度學習的電網(wǎng)監(jiān)控視頻中工作人員檢測與識別算法.該算法組合了行人檢測網(wǎng)絡和行人識別網(wǎng)絡，能夠識別出電網(wǎng)監(jiān)控視頻中的工作人員.兩個網(wǎng)絡共享Res50網(wǎng)絡提取出的行人特征，并使用RPN網(wǎng)絡和ROI池化快速、精確地檢測出電網(wǎng)中的工作人員；使用Softmax和IOM損失對檢測出的工作人員進行身份確認.在電網(wǎng)監(jiān)控視頻構成的數(shù)據(jù)集上的測試結果表明，所提出的方法具有更高的檢測和識別精度，且對遮擋及低光照圖片具有較好的魯棒性.

表3 各種算法精度比較Tab.3 Accuracy comparison of various algorithms %

表4 低分辨率和低光照時精度比較Tab.4 Accuracy comparison under low resolution and illumination %

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學習的電網(wǎng)監(jiān)控視頻中工作人員檢測與識別*

1 目標檢測

2 工作人員檢測與識別

3 仿真與測試

4 結 論

4 結論