張 震, 晉志華, 陳可鑫
(1.鄭州大學 電氣與信息工程學院,河南 鄭州 450001;2.鄭州大學 計算機與人工智能學院,河南 鄭州 450001)
近年來,隨著中國經(jīng)濟的高度發(fā)展,居民汽車擁有量不斷增加,地下車庫成為汽車的主要停泊地。然而,由于電氣短路、油箱漏油等原因,車輛在地下車庫停放時容易發(fā)生火災。停車場車輛密度大、火焰燃燒迅速、場所較為封閉、施救難度大,一旦發(fā)生火災,經(jīng)濟損失巨大[1]。目前,大部分的公共場所都在使用傳統(tǒng)的光電感煙探測器。由于地下停車場空間大,并配備一定的通風設備,使得傳統(tǒng)的煙霧火災檢測裝置效果大大降低,且光電感煙探測器工作需要一定的顆粒濃度,所以實時性較差。車庫一般都安裝有監(jiān)控攝像頭,因此將基于視頻的目標檢測用于地下停車場的火災檢測具有重要的研究意義。
當前目標檢測算法主要分為由R-CNN代表的二階段(two-stage)目標檢測算法以及YOLO(you only look once)代表的一階段(one-stage)目標檢測算法[2-3]。主流的二階段目標檢測算法有 R-CNN[4]、Fast R-CNN[5]等,這類算法首先生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡進行樣本分類。代表性的一階段目標檢測算法有SSD[6]、YOLO等。以YOLO為代表的一階段目標檢測算法僅需處理一次圖像就可以得到目標的位置以及分類結果,相較于二階段目標檢測算法,能夠有效提升目標檢測的速度,因此更適用于實時性要求高的地下停車場火災檢測問題。
YOLOv5[7]在目標檢測領域有著廣泛的應用??紤]到地下停車場空間較大、發(fā)生火災初期火焰目標較小,原始的YOLOv5s模型在此條件下檢測效果較差,本文通過增加小目標檢測層、增加注意力機制以及修改損失函數(shù)來提升對小型火焰目標的檢測效果。
YOLOv5網(wǎng)絡結構分為輸入端Input、骨干網(wǎng)絡Backbone、頸部Neck和預測部分 Prediction。算法一共包含4個模型,按照模型由小到大分別是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中,YOLOv5s的模型最小,相同實驗環(huán)境下檢測速度最快、易于部署,且擁有較高的檢測精度,能夠滿足對火災火焰實時檢測的要求。
YOLOv5模型在數(shù)據(jù)輸入端Input采用Mosaic數(shù)據(jù)增強算法對數(shù)據(jù)集進行訓練前處理。隨機讀取數(shù)據(jù)集中的4張原始圖片,對圖片進行隨機縮放、翻轉、改變色域等操作,隨后將處理后的圖片進行拼接,得到一個擁有更高復雜度的樣本。通過對數(shù)據(jù)集多次處理,可以大大增加數(shù)據(jù)集的復雜度,從而提升模型的泛化能力。
YOLOv5模型的骨干網(wǎng)絡Backbone采用了最新的Focus結構。輸入矩陣經(jīng)過間隔采樣操作變?yōu)?個具有原矩陣信息的低維度矩陣,然后將4個矩陣在同一維度上進行堆疊,使得堆疊后的新矩陣能夠得到更明顯的原始矩陣信息,大大提高了后續(xù)的特征提取的效率。YOLOv5在CSP模塊[8]中加入SPP模塊,有效地增加了主干特征的接收范圍,即提高了感受野,顯著地分離了最重要的上下文特征,從而提升了模型精度。
本文的主要工作主要體現(xiàn)在以下3個方面:在原模型的基礎上增加一個小目標檢測層、加入改進坐標注意力結構以及使用CIoU替換GIoU。
針對火災初期火源目標較小、原模型漏檢的問題,在YOLOv5s模型的基礎上增加一個小目標檢測層,通過增加模型對細粒特征的分辨能力,從而增強模型對小目標的檢測效果,雖然增加了計算成本,但是能夠很好地檢出小型火焰目標。
增加小目標檢測層網(wǎng)絡如圖1所示,與原始YOLOv5s網(wǎng)絡相比,改進后的網(wǎng)絡從骨干網(wǎng)絡的第2層就開始特征增強、提取淺層特征;將提取到的特征圖與深層特征進行融合,繼續(xù)進行上采樣處理,特征圖繼續(xù)擴大,與骨干網(wǎng)絡提取出的淺層特征進行融合,得到具有更多特征信息的特征圖,并將富含細粒信息的特征圖向下層傳遞。由此,模型能夠提升對細粒信息的敏感度,從而提高對小目標的檢測性能。
圖1 YOLOv5s增加檢測層結構圖Figure 1 YOLOv5s added detection layer structure diagram
如圖2所示,不同的特征層對小目標的感知是不同的,通過增加淺層的檢測層,以及提供更小的Anchor,使模型可以更好地關注小型目標的信息,能夠提升模型對于小型火焰目標的檢測能力。
圖2 不同特征層檢測不同大小目標示意圖Figure 2 Schematic diagram of objects of different sizes detected by different feature layers
坐標注意力機制[9](coordinate attention, CA)在SE注意力機制[10]的基礎上進行了針對性的改進,保留了圖像的特征位置信息。相較于SE注意力模塊,該模塊不僅能獲取到空間方向上的長程依賴,還能增強特征的位置信息表達,同時增大網(wǎng)絡的全局感受野。
如圖3所示,通過將輸入特征分別進行X軸與Y軸方向上的一維自適應平均池化,從而分別得到保留有X軸與Y軸信息的獨立方向感知特征,其中一個空間方向捕獲長程依賴,另一個空間方向保留精準的位置信息。對得到的兩個一維特征在W維度上進行拼接,再經(jīng)過一個卷積以及非線性激活函數(shù),緊接著將特征在通道維度進行拆分,通過卷積以及Sigmoid激活函數(shù)得到兩個帶有特定空間方向長程依賴的特征圖,這兩個特征圖可以互補地應用到輸入特征圖來增強感興趣的目標。通過與原特征進行特征融合,最終得到在寬度與高度方向上帶有注意力權重的特征圖。
圖3 坐標注意力機制網(wǎng)絡圖Figure 3 network diagram of coordinate attention mechanism
目前,常見的Backbone注意力結構如圖4(a)、4(b)所示。其中,C3CA結構是將注意力模塊嵌入YOLOv5的C3模塊中,即對每個特征層提取的特征均進行注意力機制的處理;CA結構是只對深層次的特征圖進行特征的增強。
圖4 C3CA、CA結構與本文結構對比Figure 4 Comparison among C3CA, CA structure and this structure
本文提出一種新的間隔注意力結構,如圖4(c)所示。圖像經(jīng)過一次提取得到的特征圖經(jīng)過注意力機制,得到一個小感受野的、具有獨立方向感知特征的特征圖;該帶有位置信息的特征圖繼續(xù)進行一次特征提取,然后再一次通過坐標注意力機制,得到一個具有大感受野并具有獨立方向感知的特征圖。相較于常見的C3CA、CA結構,本文使用的間隔注意力結構在Backbone中間隔使用了兩次注意力模塊,將第2、4個C3層替換為具有注意力機制的C3CA層。本文結構能夠讓模型更加關注中小目標的特征,有助于對深層次目標的特征強化,使模型能夠更精準地提取目標特征,從而增強目標檢測的精度。
相比于C3CA結構,本文結構減少了兩個注意力模塊,模型的復雜度大大降低,使網(wǎng)絡模型更加精簡,有助于提升模型的檢測速度;相比于CA結構,本文結構增加了在中間特征層的注意力模塊,通過注意力模塊提取的帶有位置信息的特征經(jīng)FPN結構融合,得到更多的特征語義信息,能夠進一步提升模型的檢測效果。
YOLOv5中采用GIoU Loss作為Bounding box的損失函數(shù)。如果預測框與真實框出現(xiàn)非相交的情況,此時梯度將變?yōu)?,神經(jīng)網(wǎng)絡將無法優(yōu)化,預測框與真實框的相對位置無法區(qū)分??紤]到上述情況,本文使用Complete IoU(CIoU) Loss[11]代替GIoU Loss。CIoU損失在考慮GIoU損失的基礎上,考慮了BBox的重疊面積、中心點距離以及BBox長寬比的一致性,使模型得到更好的回歸效果。
當前并沒有公開的地下停車場火災的數(shù)據(jù)集,本文選擇自定義數(shù)據(jù)集。其中圖像來自于包括CVPR實驗室采集的KMU Fire and Smoke database火焰圖像[12]、停車場監(jiān)控模擬火災視頻、室內(nèi)火焰模擬視頻以及網(wǎng)絡視頻等。為了更好地對小目標火焰進行檢測,更快對地下停車場火災做出反應,通過模擬實驗采集一部分小型火焰圖像數(shù)據(jù)。另外,地下停車場光線較差,普通監(jiān)控攝像機容易過曝,本文對這種情況也進行了模擬。數(shù)據(jù)集包含夜晚、燈光、日光等多種場景,火焰目標大小不同,共計3 420張圖片。本文通過labelImg標注工具對數(shù)據(jù)集圖像進行標注,并保存為YOLO系列的txt格式。通過對數(shù)據(jù)進行亂序排列,隨機選出訓練集2 394張,測試集共513張,驗證集共513張。數(shù)據(jù)集示例如圖5所示。
圖5 數(shù)據(jù)集示例圖Figure 5 Dataset example graph
訓練集中所有標簽框的大小分布如圖6所示,其中橫縱坐標分別代表標簽框的寬度和高度。圖中深藍色表示尺寸在該區(qū)域的標簽圖較多,更符合火災初期火焰目標較小的情況,所以該數(shù)據(jù)集適用于本文研究的火焰目標檢測的問題。
圖6 標簽框大小分布圖Figure 6 Label box size distribution
本文通過搭建PyTorch深度學習框架對自定義數(shù)據(jù)集進行訓練和測試。操作系統(tǒng)選用Windos10專業(yè)版21H2,CPU為Ryzen 5800X,GPU為GeForceRTX3060Ti,顯存為8 GB,內(nèi)存為32 GB,CUDA版本號為11.1.1,PyTorch版本號為1.8.0。
實驗中訓練參數(shù)設置如下:輸入圖像尺寸為像素640×640,batch size為16,epoch設置為100。
本實驗中采用mAP0.5、參數(shù)量(parameters)、復雜度、精確率P(precision)、召回率R(recall)和幀率等指標[13]作為模型性能的評價指標。其中復雜度用GFLOPs衡量,1 GFLOPs=109FLOPs,FLOPs(floating point operations)為浮點運算數(shù),可以衡量模型的復雜度。
在訓練階段,選用Ultralytics6.0版本的YOLOv5s模型作為基準模型,使用上述數(shù)據(jù)集對YOLOv5s模型與本文算法進行重新訓練,以下所示結果均為采用同一數(shù)據(jù)集得出。
為了提升對火災初期小的火焰目標的檢測效果,加入小目標檢測層模型A與YOLOv5s對比如表1所示。加入小目標檢測層后mAP0.5提升0.9百分點,R提升1.2百分點,由于增加了網(wǎng)絡的深度,導致模型復雜度上升,幀率有所下降。
加入小目標檢測層后,置信度損失有較大的下降,置信度損失曲線如圖7所示。隨著迭代次數(shù)的增加,本文算法的置信度損失曲線明顯收斂更快、損失值更小。
圖7 置信度損失曲線Figure 7 Confidence loss curve
通過以上實驗,說明采用小目標檢測層雖然幀率有所降低,但是對火焰目標的置信度誤差大大降低,對于小的火焰目標的檢測置信度和對網(wǎng)絡的檢測精度有所提升。因此,通過增加FPN+PAN的網(wǎng)絡深度,以及增加小目標檢測層,能夠有效提升網(wǎng)絡對小目標的檢測效果。
為了加強檢測網(wǎng)絡對火焰目標的特征提取能力,在網(wǎng)絡加入改進的注意力模塊,并與主流的SE注意力機制、CBAM注意力機制、原CA注意力機制進行對比,以驗證本文改進結構的性能,結果如表2所示。其中,本文模型B的mAP0.5最高,相較于YOLOv5s網(wǎng)絡,mAP0.5有1.8百分點的提升,R提升1.4百分點;與主流的注意力機制SE、CBAM機制相對比,模型B檢測精度及檢測速度均最高;與C3CA、CA結構相對比,模型B的mAP0.5分別提升0.9百分點、1.8百分點,R分別提升2.8百分點、0.5百分點。
表2 消融實驗2數(shù)據(jù)表Table 2 Data sheet of ablation experiment 2
為了驗證CIoU替換YOLOv5s中GIoU后的效果,實驗3對比了YOLOv5s替換目標框損失函數(shù)前后的表現(xiàn),如表3所示。使用CIoU損失函數(shù)后,mAP0.5有0.6百分點的提升,R提升2.3百分點,可見CIoU能夠顯著提升模型的召回率。并且可以優(yōu)化模型的檢測速度。
表3 消融實驗3數(shù)據(jù)表Table 3 Data sheet of ablation experiment 3
對各個模塊的有效性及性能進行驗證后,與目前主流的目標檢測算法YOLOv3、YOLOv5s以及YOLOv5m進行對比,對比結果如表4所示。
表4 主流目標檢測算法對比Table 4 Comparison of mainstream target detection algorithms
實驗表明,本文算法在地下停車場火焰目標檢測任務上可達到mAP0.5為92.0%的檢測精度。相較于未改進前的YOLOv5s算法,本文算法的mAP0.5有1.8百分點的提升,R有2.0百分點的提升,雖然犧牲了一部分的檢測速度,但是得到了具有更好檢測精度的模型。相較于YOLOv5m算法,雖然兩種算法在精度上相當,但是本文算法具有較高的召回率R以及較高的幀率,具有較快的檢測速度,且本文算法權重僅為16.4 MB,遠遠小于YOLOv5m的41.5 MB,對檢測設備的配置要求更低。
為了更好地驗證本文算法對于小型火焰目標的檢測性能,從測試集中選取部分圖像數(shù)據(jù)進行測試,如圖8所示。在圖8(a)中,本文算法在檢測精度上明顯高于原始模型。在圖8(b)中,YOLOv5s出現(xiàn)了漏檢,無法可靠地檢測出目標,而本文算法能夠準確地檢測到火焰目標,主要是因為本文模型增加了小目標的檢測層,從而具有更強的分辨力,能夠更準確地檢測到小型火焰目標。在圖8(c)中,YOLOv5s模型沒有正確框選出火焰目標,而本文算法能夠準確地框選出火焰目標,這歸結于坐標注意力機制帶來了較大的感受野,增加了模型對火焰的感知能力,并且CIoU損失函數(shù)能夠提升預測時的定位精度。
目前地下停車場缺乏成熟的視頻火災檢測算法,已有的技術依賴傳感器等設備,且無法針對火災初期小型火焰目標做出快速反應,本文提出一種改進的YOLOv5火災檢測算法。
為增強對小型火焰目標的檢測性能,增加小目標檢測層,提升了檢測網(wǎng)絡對小型火焰目標的檢測效果;為提高模型對火焰特征的提取以及獲得更大的感受野,提出了一種新的間隔注意力結構,進一步提升了網(wǎng)絡對火焰目標的特征提取能力,且相較于C3CA、CA結構,本文改進模型具有復雜度較低、精度高的特點;為了提升定位精度、降低目標漏檢率,使用CIoU損失函數(shù),提升了網(wǎng)絡的回歸性能。在實驗設備不變的情況下,本文算法與原YOLOv5s相比,mAP0.5提升了1.8百分點,召回率R提升了2.0百分點,本文算法權重大小僅為16.4 MB,幀率在本文實驗環(huán)境下能達到113幀/s。
實驗表明,本文算法對火焰目標較小的情況也能夠正確檢出,具有較高的精確率和召回率、較小的模型體積,易于部署,基本能夠滿足地下停車場對火災實時檢測的要求。