楊可林, 許永盛, 李鵬
(國網(wǎng)山東省電力公司菏澤供電公司,山東 菏澤 274000)
高壓輸電線路是輸送電能的重要設(shè)備,其正常運行是評價電網(wǎng)安全的重要基礎(chǔ)指標(biāo)。我國復(fù)雜的地形地貌導(dǎo)致了輸電線路運行環(huán)境的惡劣,極易發(fā)生各種故障影響系統(tǒng)的安全穩(wěn)定運行[1]。為了保證復(fù)雜狀況和環(huán)境下巡檢工作的效率和可靠性,電網(wǎng)公司對巡檢系統(tǒng)進(jìn)行改造,通過使用監(jiān)控設(shè)備代替人工現(xiàn)場巡檢的方式,大大提高了運行檢修工作的效率。電網(wǎng)大力發(fā)展智能監(jiān)控的同時,也面對著新的難題。以山東省菏澤市為例,據(jù)統(tǒng)計菏澤市35 kV以上電壓等級輸電線路124條,總長度2 215 km,共計8 401座桿塔,監(jiān)控設(shè)備的安裝使用大大減少了傳統(tǒng)巡檢方式的人力和工作時間的投入,但同時監(jiān)控設(shè)備產(chǎn)生的視頻或圖像數(shù)據(jù)的總量也極其龐大。菏澤電網(wǎng)現(xiàn)階段已知安裝監(jiān)控設(shè)備約1 200臺,以每天工作12 h、每0.5 h拍攝1張圖像計算,一天整個監(jiān)控系統(tǒng)能夠獲得約28 800張圖像,一個月接近860 000張。而根據(jù)統(tǒng)計,菏澤電網(wǎng)平均每年發(fā)生故障跳閘70~80次,平均每月發(fā)生故障不超過10次。在海量的監(jiān)控數(shù)據(jù)中可挖掘的有效故障原因數(shù)據(jù)寥寥無幾,而且受硬件設(shè)備和拍攝條件的影響,肉眼無法快速準(zhǔn)確辨識拍攝圖像,增加了人工識別工作的難度。由于有效圖像數(shù)據(jù)比例較小且有效性無法保證,大大增加了后期人工識別圖像的工作量和時間,降低了故障排除的效率。
目前相關(guān)研究多采用監(jiān)控視頻作為主要的識別樣本,利用運動目標(biāo)檢測技術(shù)實現(xiàn)對輸電線路附近異物的識別。例如:通過分析拍攝視頻圖像,采用幀差法在關(guān)鍵幀中標(biāo)注出異物,再利用特征點跟蹤異物,從而實現(xiàn)輸電線路異物識別[2];在改進(jìn)的最大類間方差分割算法分割背景的基礎(chǔ)上,根據(jù)輸電線路特征有目的性地進(jìn)一步濾除背景,采用梯度法尋找輸電線路,選取Hough變換累加器極大值個數(shù)和檢測到的輸電線路數(shù)量作為依據(jù),識別輸電線路異物[3];分析巡檢過程拍攝到的圖片,根據(jù)人眼感知特性在事先檢測到的輸電線路有明顯差異的興趣區(qū)域內(nèi)計算出視覺顯著圖,然后利用顏色、形狀或空間分布等特性對異物區(qū)域?qū)崿F(xiàn)統(tǒng)一定位[4]。
上述方法雖然對于異物識別的準(zhǔn)確性極高,但主要采用視頻數(shù)據(jù),數(shù)據(jù)量比起圖像數(shù)據(jù)更加龐大,相應(yīng)地對系統(tǒng)傳輸通道和儲存設(shè)備的要求也更高,單位時間內(nèi)服務(wù)器設(shè)備處理數(shù)據(jù)量巨大。但電網(wǎng)監(jiān)控系統(tǒng)處于發(fā)展初期,相關(guān)硬件設(shè)備尚不完善,這些方法的推廣受到了限制。并且上述方法只能做到識別異物的出現(xiàn),不能真正判斷異物的種類,想要得到更加精確的異物信息,依然需要人工識別的參與。
為了解決電網(wǎng)智能監(jiān)控存在的問題,結(jié)合當(dāng)下發(fā)展迅速的基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù),針對輸電線路周邊常發(fā)生的工程機(jī)械外力入侵檢測問題,提出了基于深度學(xué)習(xí)的輸電通道危物辨別技術(shù),對監(jiān)控圖像中可能引發(fā)線路故障的工程機(jī)械進(jìn)行自動識別,并在圖像中使用邊界框標(biāo)注其位置和種類[5-6]。使用深度學(xué)習(xí)對圖像進(jìn)行故障目標(biāo)的判別,可提高故障判斷效率和可靠性,同時為故障定位和預(yù)警提供有效數(shù)據(jù)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)最新的研究領(lǐng)域,其在圖像識別、語音識別、人臉識別和目標(biāo)檢測等方面均有重要應(yīng)用。深度學(xué)習(xí)來源于人工神經(jīng)網(wǎng)絡(luò),通過模擬人腦神經(jīng)結(jié)構(gòu),形成一種多層神經(jīng)網(wǎng)絡(luò),從圖像、語音和文字等數(shù)據(jù)中提取低層特征,組合形成更加抽象的高層特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[7]。目前涌現(xiàn)出了許多深度學(xué)習(xí)模型框架,如深度置信網(wǎng)絡(luò)[8]、自編碼器[9]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[10]和循環(huán)神經(jīng)網(wǎng)絡(luò)[11]及演變的多種模型等。其中,CNN采用了卷積層和下采樣層間局部連接、同層間權(quán)值共享以及池化處理的思想,其網(wǎng)絡(luò)結(jié)構(gòu)具有復(fù)雜度低、訓(xùn)練難度低、計算速度快、容錯能力和魯棒性強(qiáng)等特點,使其成為當(dāng)下使用最為廣泛的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
現(xiàn)階段深度學(xué)習(xí)已經(jīng)在其他領(lǐng)域得到了應(yīng)用,例如:使用多層網(wǎng)絡(luò)結(jié)構(gòu)搭建的深度CNN能夠檢測到復(fù)雜環(huán)境中的行人,識別率高達(dá)99.7%[12];使用CNN識別多種手勢,精度較高且復(fù)雜度較小,具有很好的魯棒性,對各個手勢的識別率為90.75%~100%,誤識率也小于10%[13]。因為CNN在各領(lǐng)域的出色表現(xiàn),本文也選擇采用CNN作為主要研究方向,研究CNN在輸電通道智能監(jiān)控中的應(yīng)用。
CNN屬于前饋深度網(wǎng)絡(luò),由加拿大多倫多大學(xué)LeCun教授提出,最早作為分類器使用[14]。CNN作為一種分層結(jié)構(gòu)網(wǎng)絡(luò),根據(jù)各層功能和作用,可分為輸入層、卷積層、下采樣層(也稱為池化層)、全連接層和輸出層。CNN基本結(jié)構(gòu)如圖1所示。
CNN識別圖像的基本原理為:圖像從輸入層進(jìn)入CNN,通過多層卷積層和下采樣層交替作用,提取輸入圖像低層特征并轉(zhuǎn)變?yōu)楦邔犹卣?,再由全連接層和輸出層對提取的高層特征進(jìn)行分類,最終輸出一個一維向量,代表輸入圖像的類別。下面針對CNN各層進(jìn)行詳細(xì)介紹。
輸入層負(fù)責(zé)接收讀取輸入信號,例如圖像、語音及文字等。卷積層由多個特征面組成,每個特征面由多個神經(jīng)元組成,主要功能是通過卷積核進(jìn)行卷積計算提取特征。卷積層數(shù)學(xué)模型描述為
Xi=f(Xi-1?Wi+bi).
(1)
式中:Xi為第i層的特征圖;Wi為第i層卷積層的權(quán)值向量;bi為第i層卷積層偏移向量;f(*)為激勵函數(shù),通常采用tanh函數(shù)或是sigmoid函數(shù)。
卷積層應(yīng)用了局部連接和權(quán)值共享的概念,使用小于圖片尺寸的卷積核(一般采用3×3或5×5的卷積核)對整個圖進(jìn)行滑動卷積計算處理,提取出卷積核所要突出的特征(例如線條、邊緣等),起到了濾波的作用。每層卷積層會使用多個不同的卷積核以提取出多個特征,并形成特征圖向下輸入到下采樣層中進(jìn)行池化,對特征進(jìn)行進(jìn)一步篩選。
圖1 CNN基本結(jié)構(gòu)Fig.1 Basic structure of CNN
下采樣層設(shè)置在卷積層之后,同樣由多個特征面組成,會將卷積層傳輸過來的特征圖按照一定規(guī)則(一般分為均值池化和最大值池化),在保證特征圖空間性不變的前提下,減低特征維度。下采樣層數(shù)學(xué)模型描述為
Xj=p(Xj-1).
(2)
式中p(*)為所選擇的的池化規(guī)則。
全連接層與局部連接的卷積層和下采樣層不同,全連接層的神經(jīng)元會與上一層全部神經(jīng)元相連,將經(jīng)過多層卷積層和下采樣層所提取的特征進(jìn)行最終分類。全連接層數(shù)學(xué)模型為
Xi=f(WiXi-1+bi).
(3)
輸出層采用Softmax邏輯回歸的方法對全連接層輸出特征進(jìn)行分類。
作為計算機(jī)視覺領(lǐng)域中的重要課題,目標(biāo)檢測的主要功能是定位圖像中的目標(biāo),識別目標(biāo)類型并在圖像中畫出邊界框作為標(biāo)識。該功能十分適合運用在如今監(jiān)控設(shè)備不斷完善的電網(wǎng)巡檢系統(tǒng)中,用于檢測輸電線路周邊可能影響到電網(wǎng)系統(tǒng)穩(wěn)定運行的危險物體,做出及時正確的預(yù)警與判斷。
目前基于深度學(xué)習(xí)的目標(biāo)檢測算法根據(jù)工作原理可分為2類:
a)兩步檢測算法,首先在未識別圖像中產(chǎn)生候選區(qū)域,然后對候選區(qū)域分類,其典型代表是基于候選區(qū)域的R-CNN系算法,如R-CNN[15]、Fast R-CNN[16]、Faster R-CNN[17]等;
b)一步檢測算法,直接在未識別圖像中產(chǎn)生類別概率和位置坐標(biāo)值,典型的算法如YOLO(you only look once)[18]和SSD(single shot multibox detector)[19]。
目標(biāo)檢測模型的主要性能指標(biāo)是檢測準(zhǔn)確度和速度,其中準(zhǔn)確度包括定位準(zhǔn)確度和分類準(zhǔn)確度。本文分別采用Faster R-CNN和Mobilenet_SSD[20]網(wǎng)絡(luò)模型,使用同一組訓(xùn)練樣本訓(xùn)練模型參數(shù),并使用另外一組與訓(xùn)練樣本互斥的測試樣本作為驗證比較。
深度學(xué)習(xí)框架主要包括TensorFlow、Caffe、Keras和CNTK等,本文選擇最主流的TensorFlow和Caffe框架進(jìn)行比較,分析各自的優(yōu)缺點,決定所采用的框架。
TensorFlow是由Google在DistBelief的基礎(chǔ)上進(jìn)行改進(jìn)的第二代人工智能學(xué)習(xí)系統(tǒng),具有較好的靈活性、可移植性和可延展性;支持Python、C/C++、Java以及Go多種語言編寫,程序編譯兼容性更高;支持在圖形處理器(graphics processing unit,GPU)上運行,能極大提高CNN模型的訓(xùn)練速度和運行速度,節(jié)省時間成本;支持分布式計算,可以在單個CPU/GPU或GPU組成的分布式平臺上自動運行。
Caffe由賈揚清提出創(chuàng)建,具有開放性和社區(qū)性,而且框架運行速度快,模塊化程度高,也是第一個工業(yè)級深度學(xué)習(xí)框架。但是Caffe由于架構(gòu)設(shè)計問題造成框架不夠靈活,且擴(kuò)展性不好。
考慮到實際應(yīng)用運行中的硬件和軟件環(huán)境因素,為提高CNN模型的泛用性,選擇兼容性和可移植性更好的TensorFlow作為本文CNN框架。
經(jīng)過調(diào)研比較,本文選取威脅輸電通道概率最大的大型工程機(jī)械作為主要識別對象。
因?qū)嶋H現(xiàn)場圖片數(shù)量較少,無法單獨作為CNN訓(xùn)練樣本,而且目前尚無危險物體相關(guān)圖像數(shù)據(jù)集,本文選擇從互聯(lián)網(wǎng)上獲取和人工拍攝圖片的方法,經(jīng)過人工篩選和查重之后,挑選出合適的1 330張圖片作為訓(xùn)練樣本。
經(jīng)過初步的測試發(fā)現(xiàn),1 330張圖片作為樣本訓(xùn)練出的CNN模型精度依舊較低,為了提高樣本數(shù)量,并減小樣本獲取和篩選的工作量,在保證樣本有效性的前提下,采用數(shù)據(jù)增廣,對原有的1 330張圖片樣本進(jìn)行旋轉(zhuǎn)不同角度和對比度變換處理,將訓(xùn)練樣本擴(kuò)充到了13 300張,以提升CNN模型的訓(xùn)練精度。數(shù)據(jù)增廣效果如圖2所示。
圖2 數(shù)據(jù)增廣效果Fig.2 Data augmentation effect
樣本選取之后,因為Faster R-CNN和Mobilenet_SSD網(wǎng)絡(luò)模型是有監(jiān)督學(xué)習(xí),需要對樣本進(jìn)行標(biāo)注,以便網(wǎng)絡(luò)模型訓(xùn)練過程中能夠定位到需檢測的目標(biāo)位置。
使用labelImg軟件,打開樣本圖片,人工判斷需要標(biāo)注的目標(biāo)位置與種類,并手動畫出矩形標(biāo)注框,將目標(biāo)整體包圍,保存形成關(guān)于目標(biāo)在圖片中的位置文件,即與圖片名相同的xml文件。完成13 300張圖片手動標(biāo)注以后,即可對CNN進(jìn)行訓(xùn)練,標(biāo)注效果如圖3所示。
圖3 標(biāo)注效果Fig.3 Label effect
CNN的訓(xùn)練過程即是對網(wǎng)絡(luò)模型內(nèi)部參數(shù)的求解過程。其中,F(xiàn)aster R-CNN提供了交替訓(xùn)練和近似聯(lián)合訓(xùn)練2種訓(xùn)練方式,本文選擇使用近似聯(lián)合訓(xùn)練,在保證準(zhǔn)確率的同時,訓(xùn)練速度更快。
根據(jù)樣本集調(diào)整預(yù)訓(xùn)練的學(xué)習(xí)參數(shù):①樣本數(shù)據(jù)分塊設(shè)置為133;②模型初始化,采用標(biāo)準(zhǔn)偏差0.01的零均值高斯分布來初始化權(quán)重;③設(shè)定每一層卷積層學(xué)習(xí)率一致,初始學(xué)習(xí)率0.001,系數(shù)動量0.9,權(quán)值衰減系數(shù)0.000 5。
本文的實驗環(huán)境為Intel(R) Core(TM) i7-5500U CPU @ 2.40 GHz,8 GB RAM以及Windows7(64位)操作系統(tǒng),圖像檢測與分類基于OpenCV和Tensorflow進(jìn)行。
實例驗證的指標(biāo)包括準(zhǔn)確率和召回率,準(zhǔn)確率為正確檢測的目標(biāo)數(shù)量與標(biāo)記目標(biāo)總數(shù)量之比,召回率為正確檢測的目標(biāo)數(shù)量與實際目標(biāo)總數(shù)量之比。
圖片選取了非訓(xùn)練樣本的378張測試樣本,其中危險物體選定為大型挖掘機(jī),共計420臺挖掘機(jī),將其放入訓(xùn)練模型中進(jìn)行目標(biāo)檢測。圖像檢測部分結(jié)果如圖4所示,其中左列為Faster R-CNN網(wǎng)絡(luò)模型結(jié)果,右列為Mobilenet_SSD網(wǎng)絡(luò)模型結(jié)果。
圖4 圖像檢測結(jié)果Fig.4 Image detection results
Faster R-CNN與Mobilenet_SSD網(wǎng)絡(luò)模型圖像檢測數(shù)據(jù)見表1。
表1 檢測數(shù)據(jù)Tab.1 Detection results
Faster R-CNN網(wǎng)絡(luò)模型檢測運行時間遠(yuǎn)大于Mobilenet_SSD網(wǎng)絡(luò)模型檢測時間,但其準(zhǔn)確率高于Mobilenet_SSD網(wǎng)絡(luò)模型。這主要是因為Faster R-CNN網(wǎng)絡(luò)模型比Mobilenet_SSD網(wǎng)絡(luò)模型規(guī)模大,擁有更多的卷積層和下采樣層,需要更長的運算時間;與此同時,F(xiàn)aster R-CNN網(wǎng)絡(luò)模型需要生成候選框,在多個候選框中進(jìn)行回歸與分類,這會消耗更多的計算時間;也因如此,F(xiàn)aster R-CNN網(wǎng)絡(luò)模型對于圖像中目標(biāo)的特征提取更加詳細(xì)準(zhǔn)確,在識別多目標(biāo)圖像時精確性更高。
在比較召回率時,F(xiàn)aster R-CNN網(wǎng)絡(luò)模型卻小于Mobilenet_SSD網(wǎng)絡(luò)模型。通過仔細(xì)分析圖像標(biāo)注結(jié)果發(fā)現(xiàn),在Faster R-CNN網(wǎng)絡(luò)模型的結(jié)果中出現(xiàn)了大量僅標(biāo)注了挖掘機(jī)局部區(qū)域的現(xiàn)象。根據(jù)分析,F(xiàn)aster R-CNN網(wǎng)絡(luò)模型在對目標(biāo)局部特征識別后,將其作為目標(biāo)本身,減小了召回率;另外,當(dāng)多個挖掘機(jī)重疊時,因為其特征發(fā)生重疊,網(wǎng)絡(luò)模型會將其作為同一個目標(biāo)標(biāo)記,這也是召回率降低的一個重要原因。
實例驗證的初步結(jié)論是:Faster R-CNN網(wǎng)絡(luò)模型更適用于對目標(biāo)檢測精度要求較高的場合,而Mobilenet_SSD網(wǎng)絡(luò)模型更適用于對目標(biāo)檢測效率要求較高的場合。
現(xiàn)場圖像選取了從電網(wǎng)監(jiān)控系統(tǒng)中挑選出包含危險物體的圖像,其中危險目標(biāo)選定為大型挖掘機(jī),將其放入訓(xùn)練模型中進(jìn)行目標(biāo)檢測?,F(xiàn)場部分圖像檢測結(jié)果如圖5所示,其中左列為Faster R-CNN網(wǎng)絡(luò)模型結(jié)果,右列為Mobilenet_SSD網(wǎng)絡(luò)模型結(jié)果。
圖5 現(xiàn)場圖像檢測結(jié)果Fig.5 Detection results of on-site image
經(jīng)過實際圖像驗證,在不考慮檢測運行時間的情況下,F(xiàn)aster R-CNN網(wǎng)絡(luò)模型的準(zhǔn)確率遠(yuǎn)大于Mobilenet_SSD網(wǎng)絡(luò)模型,且邊界框位置和大小更加精確。
與圖4結(jié)果相比,現(xiàn)場圖像檢測效果明顯降低,主要原因在于現(xiàn)場圖像中危險物體圖像的占比太小,不到整個圖像大小的1%,目標(biāo)特征并不明顯,提取和識別的難度較大,相應(yīng)的目標(biāo)分類準(zhǔn)確率和邊界框回歸的準(zhǔn)確性明顯降低。
經(jīng)過圖像檢測實驗,初步驗證了基于深度學(xué)習(xí)的輸電通道危物辨識技術(shù)具有較高的識別效率和準(zhǔn)確率,具備實際應(yīng)用的基礎(chǔ)。相比于早期電網(wǎng)使用的異物辨識技術(shù),基于深度學(xué)習(xí)的輸電通道危物辨識技術(shù)能夠準(zhǔn)確判斷出危及輸電通道安全運行的危險物體,并標(biāo)記出物體位置,為電網(wǎng)運檢和維護(hù)提供更加詳細(xì)準(zhǔn)確的信息,提高巡線效率,減少工作時間和人工的投入,也可避免人工識別中因疲勞可能造成的錯誤判斷。
結(jié)合現(xiàn)場圖像的檢測結(jié)果,在實際應(yīng)用中還需要考慮圖像的拍攝條件等因素對識別正確率的影響,主要問題是識別目標(biāo)在圖像中所占比例較小,目標(biāo)特征不夠明顯。在今后的工作中,需要著重解決較小目標(biāo)的識別問題,研究方向主要有以下幾點:①增加小目標(biāo)樣本在訓(xùn)練樣本中的比例,提高小目標(biāo)樣本對訓(xùn)練模型參數(shù)的調(diào)節(jié)作用;②加強(qiáng)小目標(biāo)特征表達(dá),從圖像預(yù)處理入手,減小大量背景圖像對小目標(biāo)的干擾;③調(diào)整訓(xùn)練模型的邊界框長寬比和像素尺寸,提高模型對特定小目標(biāo)的識別效率和精度[21-24]。