伍藝佳,華 雄,王麗蓉,陳紅波
(1.國網湖南省電力有限公司檢修公司,湖南 長沙 518052;2.安徽南瑞繼遠電網技術有限公司,安徽 合肥 230088;3.中國科學院合肥物質科學研究院智能機械研究所,安徽 合肥 230031)
隨著變電站數(shù)量的逐步增多,傳統(tǒng)人工巡檢方式存在勞動強度大、效率低的問題,難以勝任變電站設備及時、準確的巡檢工作要求。近年來計算機技術快速發(fā)展,基于計算機技術的變電檢測在變電站應用越來越廣,成為變電站設備巡檢的新應用方向[1-4]。對于變電設備缺陷圖像檢測來說,其核心難點是如何處理變電站內不同光照、不同天氣等情況下的缺陷圖像定位與檢測。傳統(tǒng)的目標檢測方法可分為3個主要過程:區(qū)域選擇、特征提取和分類器。其面臨的問題主要體現(xiàn)在:一方面圖像中目標區(qū)域選擇策略沒有針對性,時間復雜度高,候選窗口冗余;另一方面?zhèn)鹘y(tǒng)特征提取的特征魯棒性較差。隨著深度學習的出現(xiàn),目標檢測領域取得了巨大的發(fā)展,就現(xiàn)有基于深度學習的圖像檢測算法來說,可分為單階段目標檢測框架和雙階段目標檢測框架2大類。單階段目標檢測框架的代表有YOLO[5-6]系列算法、SSD[7-8]系列算法,以YOLO、SSD為方向目標檢測框架主要是基于回歸方法的深度學習目標檢測。雙階段目標檢測算法代表有R-CNN[9]、Fast R-CNN[10]、Faster R-CNN[11]等以RCNN為基礎的基于Region Proposal的深度學習目標檢測算法。單階段目標檢測框架優(yōu)缺點體現(xiàn)在:1)將目標檢測任務轉換成一個回歸問題,加速了檢測的速度,時效性好;2)采用全局特征圖進行預測;3)針對小目標的檢測和相互靠近的物體,單步檢測框架精度有限。雙階段目標檢測框架優(yōu)缺點體現(xiàn)在:1)獲取區(qū)域候選目標比較費時,需要先訓練分類模型網絡,進而對目標邊框進行回歸計算;2)目標檢測整體精度較高。
上述基于深度學習的目標檢測是典型的數(shù)據驅動型技術,因此,上述大部分檢測識別框架在訓練樣本多樣性豐富、數(shù)量充足的前提下,模型魯棒性好、泛化能力強。而在變電站缺陷圖像的檢測應用中,實際的變電站內圖像面臨著光照、天氣、尺度等多種因素的影響,造成檢測精度低,難以運用到實際中。為了解決這種問題,一個較為有效的思路是收集大量不同狀態(tài)下的變電站內缺陷圖像數(shù)據,經過基于深度學習的檢測模型訓練來提升目標檢測精度,以達到實際應用程度,但是大規(guī)模地收集各種類型與情況的變電站缺陷圖像數(shù)據,短期內無法完成,進而影響工程化推廣應用。另一個思路是通過數(shù)據增強來增加語義信息,引入注意力機制等方法增強現(xiàn)有檢測框架的魯棒性。本文重點是通過引入注意力機制來提升現(xiàn)有目標檢測算法精度,以適應變電站缺陷圖像檢測識別需求。
盡管基于單階段與雙階段目標檢測框架能在一定程度上解決變電站圖像中光照、尺度差異問題,但直接運用卷積神經網絡提取缺陷圖像多尺度特征無法做到自適應,且目標檢測框架泛化能力相對較弱,尤其是對于單階段檢測框架下的小尺寸目標無法準確檢測。為此,本文基于單階段目標檢測框架,提出一種基于注意力機制學習的變電設備缺陷圖像檢測方法。所提方法融合注意力機制原理,通過提取不同注意力機制下變電站缺陷圖像特征,設計特征融合學習函數(shù),將不同注意力機制下的缺陷圖像特征輸入到最終檢測模型。實驗結果表明,所提方法增強了變電設備缺陷圖像檢測的準確性。
對于基于Faster R-CNN的目標檢測框架,文獻[12-14]分別將目標檢測技術應用到輸電線路缺陷識別中。為輔助高壓巡線人員提高發(fā)現(xiàn)缺陷的能力,熊小萍等人[12]設計出適用于無人機圖像識別的輸電線路缺陷目標檢測識別模型,在其自建的輸電線路缺陷圖像數(shù)據庫基礎上,分析對比深度神經網絡不同預訓練模型對檢測效果的影響,優(yōu)選最適合自建圖像數(shù)據集的訓練模型及參數(shù),并最終完成輸電線路缺陷識別網絡模型。劉召等人[13]提出一種基于改進的Faster R-CNN高壓線纜目標檢測方法。首先為了獲取深度神經網絡高層語義特征,引入跳轉連接并調整神經網絡激活層、卷積層的連接方式,改進目標候選框的生成機制,提升對小目標檢測的響應能力,最后應用池化層提取每個區(qū)域的特征,同時實現(xiàn)定位與識別任務。金昊等人[14]研究不同的預訓練網絡模型對輸電線缺陷檢測的正確率,重點通過圖像數(shù)據增強方式,如圖像旋轉、加入正態(tài)分布的高斯噪聲、尺度變化等擴充訓練圖像數(shù)據庫,進一步提升目標檢測效果。
與雙階段目標檢測不同的是,文獻[15]基于YOLO單階段目標檢測框架,將其技術應用到輸電線路故障的檢測識別中。張迪等人[15]利用TensorFlow框架搭建基于深度學習的目標檢測網絡,并提出了一種基于YOLO改進目標檢測方法,使得檢測與定位輸電線路上的螺栓和破損導線更加快速和準確。
Lin等人[16]構造的特征金字塔網絡FPN(Feature Pyramid Networks),通過融合淺層視覺信息和高層語義信息,對小目標具有良好的檢測能力,在目標檢測領域取得了良好的效果。趙小魚等人[17]采用傳統(tǒng)的SIFT算法對變電站異物進行檢測。文獻[18]結合深度神經網絡特征提取模型,應用隨機森林算法對電氣設備圖像進行分類,實現(xiàn)了對絕緣子、斷路器、電線桿等5種電力設備的識別。文獻[19]通過將生成的對抗網絡和傳統(tǒng)的圖像增強用于擴展電力設備圖像樣本,使用深度森林方法獲得魯棒的網絡模型應用到電力設備圖像檢測中。隨著大數(shù)據與人工智能技術的快速發(fā)展,變電站無人巡檢與自動識別監(jiān)控等智能化必將是未來發(fā)展趨勢[20-22]。從提升變電站設備智能化運維出發(fā),本文重點關注變電站設備缺陷圖像檢測算法的有效性,引入注意力機制從原始變電設備圖像中提取高可靠性、高辨識度的特征實現(xiàn)變電設備的缺陷檢測。所提方法能夠充分利用不同注意力機制下的深度卷積神經網絡特征,并在特征融合的基礎上,植入到現(xiàn)有目標檢測框架中,實現(xiàn)變電設備缺陷圖像檢測的高魯棒性。
本文提出的基于注意力機制學習的變電設備缺陷圖像檢測網絡框架是在卷積神經網絡特征提取基礎上,借鑒注意力機制學習,設計特征融合優(yōu)化模型,實現(xiàn)不同注意力下的深度卷積神經網絡特征的提取與融合,以此提高變電站缺陷圖像檢測網絡模型的表達能力。所提方法框架主要分為6個部分:輸入原始圖像、不同注意力機制下圖像表示、卷積神經網絡特征提取、特征融合、分類與回歸器、輸出結果。與傳統(tǒng)目標檢測方法相比,本文基于注意力機制學習的目標檢測方法的最大優(yōu)勢在于有效融合不同注意力機制下目標圖像區(qū)域特征,并將候選區(qū)域特征通過學習函數(shù)有效級聯(lián),最終送入Softmax函數(shù)實現(xiàn)目標檢測與識別。
標準卷積神經網絡主要包括卷積層、池化層、激活函數(shù)、全連接層,將深度卷積神經網絡用于圖像檢測識別任務時,還會定義其損失函數(shù)完成模型訓練。
卷積層(convolutional layer)的功能是對輸入圖像進行特征提取,其內部包含多個卷積核,組成卷積核的每個元素都對應一個權重系數(shù)和一個偏差量。在處理多個維度的卷積運算時,例如輸入圖像數(shù)據為一個二維矩陣X時,此時卷積運算變成:
(1)
其中,k為二維卷積核,m和n分別為卷積核的寬和高,在圖像的特征提取中,卷積核在輸入圖像上滑動,同時將對應位置的輸入與核函數(shù)值相乘后輸出。
池化層(pooling layer)在卷積層進行特征提取后,輸出的特征圖會被傳遞至池化層進行信息過濾。池化操作使用像素附近的統(tǒng)計信息作為網絡特定位置的輸出,由大小固定滑動窗口在特征圖中滑動計算。通常,池化采用最大池化操作(max pooling)或平均池化操作(average pooling),分別以滑動窗中的最大值和均值作為輸出,是卷積神經網絡中流行的下采樣方式。
全連接層(fully-connected layer)的作用則是對提取的特征進行非線性組合以得到輸出,卷積層和池化層能夠對輸入數(shù)據進行特征提取,全連接層主要是利用現(xiàn)有的高階特征完成特征學習。
激活函數(shù)的特性是需要具備非線性映射能力,并且能反向傳播訓練網絡。而卷積運算是一種線性操作,因此僅僅通過堆疊卷積層來增加神經深度網絡則只能學習到線性映射關系,而線性模型特征表達能力有限。因此,通常會在卷積層后添加非線性函數(shù)從而提供網絡的非線性建模能力。常用的激活函數(shù)有Sigmoid、Tanh、ReLU[23]等,其中最常使用的ReLU公式如下:
ReLU(x)=max(0,x)
(2)
損失函數(shù)是指導一個神經網絡訓練的標準,由它來控制網絡學習優(yōu)化方向,監(jiān)督整個數(shù)據訓練的正確性。一般來說神經網絡在最后一層輸出結果,可以通過設計不同的損失函數(shù)來衡量該結果與樣本數(shù)據間的差異,再通過反向傳播方式訓練整個網絡。目標檢測是一個多任務學習的問題,一般由分類和回歸2個損失函數(shù)共同衡量識別與定位的準確性。
注意力(Attention)機制最早是在視覺圖像領域提出來,2014年Google Deep Mind團隊[24]基于RNN模型應用Attention機制實現(xiàn)圖像分類。Attention機制的本質來自于人類視覺注意力機制。隨后注意力機制被廣泛應用在基于RNN/CNN等神經網絡模型的各種視覺、自然語言等任務中。人們的視覺在感知東西的時候一般不會從頭到尾全部都看,往往是根據需求觀察注意特定的一部分,當人們發(fā)現(xiàn)經常在某部分出現(xiàn)自己想觀察的東西時會進行學習,在將來再出現(xiàn)類似場景時把注意力放到該部分上。
借鑒注意力機制原理,本文從不同觀察距離,把變電站鳥巢原始圖像通過注意力網絡分為3個層次,分別是原始距離、中間距離以及近距離。由圖1不難發(fā)現(xiàn),經過注意力網絡后,原始尺度圖像能更明確地表現(xiàn)出圖像全局特征,中間距離尺度圖像則清晰定位所要檢測識別的物體特征,而近距離的鳥巢圖像則更能表現(xiàn)出目標的高辨識性特征。這種聚焦了圖像全局特征、中間特征以及局部特征的方式能夠更有效地提升檢測識別算法的魯棒性,特別是小目標物體的檢測成功率。
圖1 注意力機制模型
圖2 基于注意力的變電設備缺陷圖像檢測框架
這里假設A∈Rd×M為多注意力下變電缺陷圖像在最后卷積神經網絡中卷積層上抽取的特征映射圖,構造如下特征融合模型:
(3)
其中,ai為特征矩陣A第i列特征映射,φ是特征映射圖權值,s表示不同注意力下尺度參數(shù)。此外,在識別與定位的分類層(Softmax),通過如下方式構造對應的損失函數(shù)以完成整個網絡訓練學習:
(4)
(5)
(6)
2.4.1 實驗數(shù)據
如表1所示,為驗證所提方法的有效性,建立變電站缺陷圖像數(shù)據集,具體包含表計破損、絕緣子破裂、硅膠變色、油封破損、高空懸浮物、鳥巢、地面油污、金屬銹蝕8類,數(shù)據集每一類都包括300個圖像,共計2400個圖像樣本。采用LabelImg工具,人工標注實驗數(shù)據集。為了使得算法驗證更準確,針對本文數(shù)據集,在模型訓練之前每類樣本進行翻轉、裁剪等擴充數(shù)據集的操作,使得每類樣本實際參與訓練的數(shù)目增加2倍。
表1 變電設備缺陷圖像數(shù)據集
2.4.2 實驗平臺環(huán)境
為了驗證本文的方法,使用Python接口在Pytorch框架上實現(xiàn),使用12 GB Tesla P40 GPU進行運算,設計了一些實驗來與其他最常見的卷積神經網絡架構進行比較,主干網絡采用ResNet-50,網絡結構如表2所示。
表2 ResNet50深度殘差網絡結構
2.4.3 訓練參數(shù)設置
所有的訓練數(shù)據的分辨率被調整到1333×800,選擇RMSprop作為卷積神經網絡反向傳播時的優(yōu)化器,動量參數(shù)被設置為0.9。針對可能存在的過擬合問題,本文在訓練網絡前進行了圖像樣本的翻轉、裁剪、平移等操作進行擴充,在訓練網絡時采用了dropout策略以及BatchNormal批歸一化操作,通過隨機隱藏部分神經元及批歸一化改變神經元輸入數(shù)據的分布,避免出現(xiàn)過擬合問題。學習率修正策略采用階梯式下降策略,初始化學習率為0.0025。此外,一個批次的大小被設置為16。
為驗證所提方法的有效性,通過查全率(Recall)、查準率(Precision)和均值平均精度(mean Average Precision, mAP)3個指標來進行結果分析。查全率為正確檢測出測試集中缺陷變電圖像目標總個數(shù)的占比;查準率為實際檢測出來的缺陷樣本總個數(shù)占比(含正確和錯誤)。
交并比IOU用于判斷每一個檢測框的正確性,其定義如圖3所示,表示目標預測框與真實邊界框的交集與并集的比值。
圖3 交并比定義
mAP是目標檢測中衡量精度的重要指標,是多個類別的AP的平均值,mAP定義如下:
(7)
(8)
本文對真實場景變電設備缺陷圖像數(shù)據集在IOU閾值設為0.5的情況下,計算Precision-Recall,圖4為各個缺陷類別的PR曲線。
圖4 基于注意力機制檢測的各類PR曲線
本文算法訓練的loss曲線如圖5所示,從圖中可以看出,隨著epoch的增加,loss呈不斷下降的趨勢,在第25個epoch時趨于穩(wěn)定,模型收斂。
圖5 訓練loss曲線
為進一步驗證本文算法的有效性,本文對比主流的目標檢測算法,主要包括單階段目標檢測算法YOLO、SSD,雙階段目標檢測算法RCNN、Fast-RCNN、Faster-RCNN以及對小目標檢測效果較好的特征金字塔網絡FPN,考慮到實時性及計算量,主干網絡均采用ResNet-50。從表3可以看出,由于本文算法融合了注意力機制的思想,通過綜合不同注意力下的缺陷特征,使得特性表達更豐富,相比其他算法在變電設備缺陷圖像檢測的精度分別提高了4.3個百分點、4.1個百分點、4.4個百分點、4.0個百分點、0.9個百分點和0.3個百分點。通過實驗進一步驗證了本文提出的變電設備缺陷圖像檢測方法的有效性。
表3 不同神經網絡模型下的變電站缺陷檢測mAP
從實際模型檢測的可視化結果(圖6)不難發(fā)現(xiàn),與其他常見的目標檢測算法相比,本文方法在檢測效果上優(yōu)于其他類型算法。特別是,當變電站待檢測缺陷圖像目標出現(xiàn)在復雜場景下,如目標尺寸不一、部分遮擋等情況發(fā)生時,相比于通用方法,本文方法能夠較好地融合多種注意力下的圖像特征,檢測魯棒性更好。
圖6 不同檢測算法可視化結果圖
受復雜背景(如目標尺寸不一、部分遮擋等因素)影響,現(xiàn)有的變電站缺陷圖像檢測算法誤檢率高、魯棒性弱。對此,本文基于注意力機制學習提出了一種變電設備缺陷圖像檢測識別模型。通過引入注意力機制,構建了不同注意力機制下變電設備缺陷圖像特征模型,增強了圖像表示能力。為了有效融合不同注意力機制下的圖像特征,設計了新的特征融合方法,進一步增強變電缺陷圖像特征可辨識性。實驗結果表明了所提算法的有效性和可用性。
本文所提算法也存在一定的不足,雖然多種注意力機制下圖像生成方式對圖像特征表示方面有巨大優(yōu)勢,但隨之而來的是目標檢測的時效性較弱。在下一步工作中,將應用特征降維操作以及相關優(yōu)化算法,在不降低算法精度的前提下,提升變電缺陷圖像檢測算法的時效性。