余一聰,何領朝,蔡榮貴,洪家軍
(1.莆田學院 新工科產(chǎn)業(yè)學院,福建 莆田 351100;2.福州數(shù)據(jù)技術研究有限公司,福建 福州 350200)
隨著電力系統(tǒng)智能化水平日益提升,人們對電力系統(tǒng)的日常安全穩(wěn)定運行提出了更高需求。絕緣子是輸電系統(tǒng)中的重要元器件,數(shù)量龐大,長期暴露在室外環(huán)境下很容易出現(xiàn)故障,對電力系統(tǒng)的安全穩(wěn)定運行造成嚴重的影響。我國疆土遼闊,地形復雜,輸電線路經(jīng)常需橫跨山河湖川,電力系統(tǒng)的巡線任務采用傳統(tǒng)的人工巡檢方式人力成本太高,對工作人員的素質要求嚴格,同時易受復雜的自然環(huán)境影響,特別對偏遠山區(qū)的輸電線路的檢查,更加耗時耗力,甚至由于作業(yè)難度太大,難以完成或者完成的質量不高。為獲取輸電線路運行狀況,同時降低巡線成本,提高巡線效率,電力部門逐漸開始用無人機巡檢替代人工巡檢。無人機巡檢不受天氣、環(huán)境影響,節(jié)約了人力物力,同時也拍攝了大量的現(xiàn)場照片,為后續(xù)算法訓練做了重要的數(shù)據(jù)儲備。
目前大部分檢測方法是基于單步檢測法和兩步檢測法。兩步檢測法精度較高,但消耗計算資源較多,耗時較長,不利于落地部署。單步檢測法消耗資源較少,但精度較低。為解決上述問題,本文在YOLOv7算法的基礎上,通過增加CBAM注意力機制結構,并采用線上線下增強相結合模式,提出一種基于改進的YOLOv7算法,稱為YOLOv7_CBAM,并應用到絕緣子缺失檢測領域中。該算法利用YOLOv7算法強大的特征提取能力,學習從樣本中檢測絕緣子,并判斷絕緣子正常與否。實驗結果表明,該方法模型能夠兼顧精度和速度,可以有效區(qū)分絕緣子是否存在缺失現(xiàn)象。本研究主要貢獻有以下三點。
(1)在原來YOLOv7算法基礎上增加CBAM注意力機制結構,有助于網(wǎng)絡模型在大面積覆蓋圖像中定位感興趣區(qū)域。
(2)將改進YOLOv7算法應用到絕緣子缺失檢測領域,提升了絕緣子缺失的檢測精度,節(jié)省了人力與時間成本。
(3)采用線下與線上增強相結合模式,增加了樣本多樣性,利于提升檢測的精確度。
當前,計算機視覺識別圖像已成為學術界、工業(yè)界的一個主流研究方向。計算機視覺檢測方式分為單步檢測法和兩步檢測法。兩種不同策略的性能對比如表1所示,兩步檢測法精度較高,但消耗計算資源較多,耗時較長,不利于落地部署。單步檢測法消耗資源較少,但精度較低。
表1 不同策略性能對比
Zuo D等[1]提出了一種基于計算機視覺復雜背景下的直升機空中絕緣子成像缺陷檢測算法,該算法先通過特征提取,訓練并獲取到一個具有檢測和定位功能的絕緣子分類器,針對絕緣子進行一系列數(shù)字圖像處理并分割,最后利用分割好的絕緣子像素,分析確定絕緣子是否有缺陷。Guo F等[2]提出了一種基于YOLOv3的檢測算法,對拍攝的絕緣子圖像進行檢測和分類,最終實現(xiàn)了對正常絕緣子和缺陷絕緣子的智能檢測。Liu X等[3]提出了一種基于FasterRCNN的絕緣子故障檢測方法,該方法包括一個卷積網(wǎng)絡、區(qū)域網(wǎng)絡和目標檢測器,實現(xiàn)對絕緣子缺失區(qū)域的檢測,該檢測方法雖精度有所提升,但兩步檢測消耗計算資源較多,耗時較長。
YOLO系列算法是一種基于端到端的單步檢測模型,通過將目標檢測任務視為回歸問題,只需用一個神經(jīng)網(wǎng)絡就能同時預測出目標的類別和位置,相比其他算法,檢測速度有了很大提升[4]。YOLOv1作為YOLO系列開山之作,其最大的缺陷是精度不高,在PASCAL VOC上的檢測精度達到63.4%,雖不如FastRcnn的73.2%,但其45FPS的檢測速度已完全能夠滿足實時檢測要求,況且該算法在精度上有很大的提升空間。YOLOv2在YOLOv1基礎上改進,在略微犧牲檢測速度的情況下提升檢測精度。后續(xù)版本如YOLOv3、YOLOv4等如法炮制,增加多種改進如多尺度特征融合、錨框、注意力機制、數(shù)據(jù)增強等技術進一步提升檢測精度。
YOLOv7模型是由Alexey Bochkovskiy等在2022年提出的,算法相較于之前提出的YOLOv4在精度和速度上都有很大提升[5]。在MS COCO數(shù)據(jù)集上5FPS到160FPS范圍內,速度和精度上表現(xiàn)優(yōu)于YOLOR、YOLOX、YOLOv5、DETR等算法。YOLOv7-E6比基于Transformer的檢測器Swin Cascade-Mask RCNN速度快509%,精度高2%,比基于卷積的檢測器ConvNeXt-XL Cascade-Mask RCNN[6]速度快551%,精度高0.7%。
原始絕緣子數(shù)據(jù)集由1000張圖像組成。材料上包括橡膠絕緣子、玻璃絕緣子、陶瓷絕緣子。結構上包括單絕緣子串和雙絕緣子串??偣卜譃槿悩撕?分別是:正常絕緣子串Normal_insulator、包含缺失的絕緣子串Defective_insulators、缺失絕緣子串Insulators_fault。
數(shù)據(jù)增強分為線下增強和線上增強兩種處理。線下增強:對數(shù)據(jù)集中的圖像進行反轉、隨機調整亮度、隨機裁剪、旋轉等增加樣本多樣性,以便增加樣本數(shù)量[7]。線上增強:在輸入網(wǎng)絡模型前,對樣本進行翻轉、調整亮度、Mosaic、隨機裁剪、Mixup[8]、Copy_paste[9]等,并且一般不改變樣本數(shù)量。
為了增強數(shù)據(jù),本研究采用線下增強采用隨機翻轉、隨機改變亮度對比度策略,把樣本增強至8084張。線上增強采用隨機左右翻轉、Mosaic、Mixup、Copy_paste。
YOLOv7網(wǎng)絡的主要成就包括以下四點:(1)設計了幾種Bag-of-freebies方法,可以在不增加推理成本的情況下提高檢測精度。(2)發(fā)現(xiàn)了兩個新問題,一是重參數(shù)化模塊如何替換原始模塊,二是動態(tài)分配策略如何分配給不同輸出層問題,并針對這兩個問題給出解決方案。(3)提出實時目標檢測擴充方法和符合擴充方法,可以有效計算和設計參數(shù)。(4)減少約40%的參數(shù)和50%的計算量,并且表現(xiàn)出更快的推理速度和更高的檢測精度。
網(wǎng)絡坐標損失采用CIoULoss,目標置信度損失與分類損失均采用BCEWith-LogitsLoss,如式(1)所示。
LCIOU=1-IOU(A,B)+ρ2(Actr,Bctr)/c2+α·v
(1)
式(1)中,v、α分別滿足式(2)和式(3)。
(2)
(3)
式(2)和式(3)中,A表示預測框,B表示真實框,wgt與hgt表示真實框B的寬與高,w與h表示預測框A的寬與高,ρ表示框A與B之間的歐式距離,c為框A與B最小包圍框的對角線長度,IOU(A,B)表示框A與B之間交并比,如式(4)所示。
LBCEWithLogits={l1,l2,…,ln}
(4)
n表示Batch size,其中l(wèi)n滿足關系式(5)。
ln=-wn[yn·logxn+(1-yn)·log(1-xn)]
(5)
CBAM塊是一個簡捷有效的注意力機制模塊,如圖1所示,該模塊融合了通道注意力機制和空間注意力機制,能快速集成到卷積神經(jīng)網(wǎng)絡中,實現(xiàn)端到端訓練[10]。通道注意力機制與時頻變換類似,它為不同通道分配不同大小的權重,以衡量通道與關鍵信息之間的相關性,并間接地提高對關鍵信息的關注度??臻g注意力機制則將不同的權重分配給特征圖中的不同區(qū)域,以增強重要區(qū)域的信息,削弱非重要區(qū)域的信息。通道注意力機制篩選與目標相關的通道信息,而空間注意力機制關注與目標相關的位置信息。
圖1 CBAM模塊結構
在卷積層輸出后,經(jīng)過通道注意力模塊加權處理后,特征會再進入空間注意力模塊進一步加權處理,最終輸出加權結果。該結構結合通道和空間兩個維度的注意力機制模塊,不僅能有效減少參數(shù)和計算力,還能作為即插即用的模塊集成到現(xiàn)有網(wǎng)絡架構中去,以便進一步提高特征提取能力。
本文改進YOLOv7網(wǎng)絡模型如圖2所示,其中YOLOv7網(wǎng)絡中各模塊結構如圖3所示。通過將CBAM模塊添加到REP模塊前,有助于網(wǎng)絡在大面積覆蓋圖像中定位感興趣區(qū)域。
圖2 改進YOLOv7網(wǎng)絡模型
圖3 YOLOv7各模塊結構示意圖
實驗設計流程主要包括以下幾步,如圖4所示,首先獲取數(shù)據(jù)集;對獲取到的數(shù)據(jù)集進行打標簽,主要標注類別以及目標所在樣本中的位置坐標;對所有樣本進行線下增強,方法包括隨機旋轉、改變亮度、隨機剪切等,標簽同時隨著樣本增強改變;對增強后的樣本進行隨機切分,分為測試集和訓練集,本方法采用的切分比例為測試集:訓練集=1:9;最后將增強后的訓練集樣本進行批量線上增強,然后輸入到改進YOLOv7網(wǎng)絡模型進行訓練;最后保存訓練好的權重,在測試集上進行結果驗證。
圖4 實驗設計流程
實驗評價指標包括Pr(精確度)、AP(每個分類的平均精度)、mAP(平均精度均值)、Re(召回率)。精確度與召回率的求解如式(6)所示。
(6)
式(6)中,Tp是正樣本正確識別為正樣本的樣本數(shù)目,Fp是負樣本被錯誤識別為正樣本的樣本數(shù)目,Fn是正樣本被錯誤識別為負樣本的樣本數(shù)目。召回率表示算法從數(shù)據(jù)集中找回正樣本的能力,精確度用來衡量算法從數(shù)據(jù)集中找出正樣本的準確性。
IOU(交并比)用來衡量候選框與標記框重疊率,取值為0到1。當使用不同的預設IOU值,檢測目標的召回率Re與精確度Pr也不同。P-R曲線表示取不同IOU值,精確度Pr與召回率Re形成的曲線。AP表示P-R曲線與坐標軸圍成的面積,類別AP值越大,表示模型對該類別的檢測效果越好。mAP表示所有類別目標的AP均值,如式(7)所示。
(7)
式(7)中,APi表示第i類目標AP值,n表示需要檢測的目標個數(shù)。mAP越大,表示算法的整體性能越好。
本研究選用YOLOv5、YOLOv7、FasterRCNN、SSD算法作為對比算法。YOLOv5網(wǎng)絡模型選用YOLOv5m、YOLOv5n、YOLOv5s,樣本輸入尺寸選用640×640大小,均訓練30個Epoch,且均在官方給出的模型上進行調優(yōu)。本文改進的YOLOv7與非YOLO系列模型FasterRCNN、SSD的實驗對比結果如圖5和圖6所示,其中圖中標記的YOLOv7_CBAM是本文改進的方法。
圖5 非YOLO系列實驗對比結果(mAP_0.5)
圖6 非YOLO系列實驗對比結果(mAP_0.5:0.95)
圖5中mAP_0.5記為將IOU設為0.5時的mAP值,mAP_0.5:0.95記為在不同IOU閾值,從0.5到0.95,步長為0.05上的平均mAP。
由圖5和圖6可以看出,改進YOLOv7算法mAP曲線起始值均大于FasterRCNN、SSD,表明YOLOv7的預訓練模型泛化性要優(yōu)于FasterRCNN、SSD。改進YOLOv7算法曲線提前進入高位平穩(wěn)狀態(tài),表明在該檢測任務上改進YOLOv7算法檢測性能要大大優(yōu)于FasterRCNN、SSD的檢測效果,且改進YOLOv7模型收斂性和泛化能力比FasterRCNN、SSD更強。
在進行改進的YOLOv7與同為YOLO系列的官方YOLOv7、YOLOv5m、YOLOv5n、YOLOv5s的實驗對比,如圖7和圖8所示,改進YOLOv7和官方的YOLOv7趨勢接近,它的mAP_0.5與mAP_0.5:0.95起時值均比YOLOv5大,這表明YOLOv7的預訓練模型泛化性要優(yōu)于YOLOv5。改進YOLOv7與YOLOv7的mAP_0.5曲線均在YOLOv5上方,且提前進入平穩(wěn)狀態(tài),這表明在檢測任務上YOLOv7算法檢測性能優(yōu)于YOLOv5,且模型收斂性較強。改進YOLOv7與YOLOv7的mAP_0.5:0.95曲線同樣在YOLOv5上方,在YOLOv5已經(jīng)達到收斂狀態(tài)時,改進YOLOv7與YOLOv7曲線不僅在上方,且仍呈上升趨勢,表明在YOLOv5性能達到瓶頸時,改進YOLOv7與YOLOv7仍具有上升優(yōu)化空間。而單獨對比改進YOLOv7與YOLOv7曲線,發(fā)現(xiàn)改進YOLOv7曲線均在官方YOLOv7模型上方,改進YOLOv7精度達到了99.03%,由于YOLOv7的精度已經(jīng)很高,因此在圖8中表現(xiàn)不太明顯。
圖7 改進YOLOv7與YOLO系列的模型實驗對比結果(mAP_0.5)
圖8 改進YOLOv7與YOLO系列的模型實驗對比結果(mAP_0.5:0.95)
進一步分析圖7與圖8的數(shù)據(jù),可以發(fā)現(xiàn)同時訓練20Epoch時,改進YOLOv7算法的mAP_0.5:0.95值分別比官方YOLOv7、YOLOv5m、YOLOv5s、YOLOv5n高了近0.4%、8.25%、20.15%、38.54%,mAP_0.5的值提高了近1.07%、1.13%、4.04%、8.26%。這完全可以表明改進的YOLOv7模型是完全有效。
基于改進YOLOv7模型在應用效果中的部分推理結果,表明本文提出的方法能夠有效區(qū)分絕緣子是否存在缺失,判斷并標注缺失的位置,如圖9所示。
圖9 改進YOLOv7網(wǎng)絡推理結果
絕緣子是輸電系統(tǒng)中的重要元器件,本文提出基于改進YOLOv7的絕緣子缺失檢測方法,采用線上增強與線下增強相結合的數(shù)據(jù)增強模式,增加了樣本多樣性,利用改進YOLOv7算法強大的特征提取能力,從樣本中檢測絕緣子,判斷絕緣子正常與否并標記位置。實驗結果表明,該方法模型在測試集上的mAP_0.5(又稱為Map50)達到了99.03%,精度較原來YOLOv7算法提升了1.07%,能夠有效區(qū)分絕緣子是否存在缺失。另外,本方法仍有一些不足之處,如絕緣子在圖像中占比較小時,識別將受到影響。在采集圖像時,外界的天氣、環(huán)境中的浮塵以及拍攝角度等因素,都會導致獲得的圖像存在噪聲,這種噪聲會對圖像質量產(chǎn)生負面影響,如降低對比度、模糊圖像特征等,進而影響識別的準確性。