梁煜,陳童,張為
(天津大學 微電子學院,天津 300072)
火災是日常生活中最常見的災害之一,一旦發(fā)生,會給人們的生命財產(chǎn)帶來巨大的威脅.因此,在火災發(fā)生的初期進行快速有效的檢測并進行預警具有重大的意義.早期基于傳感器的火災檢測方法受環(huán)境、空間的影響較大,且響應時間長,局限性較大.隨著計算機視覺的發(fā)展,火焰檢測技術逐漸由基于傳感器的識別演變?yōu)閳D像檢測技術,其檢測速度快,準確率高,且能夠感知火災發(fā)生的具體位置,逐漸成為火災檢測的主流.
傳統(tǒng)的圖像檢測技術主要是利用機器學習算法,選擇火焰的顏色、運動以及閃爍頻率等特征進行提取并分類識別,進而輸出火焰檢測結果.FOGGIA等[1]基于火焰的形狀、顏色和運動特性,設計了一個實時的火災檢測系統(tǒng)模型.MUHAMMAD 等[2]使用了多種經(jīng)典分類網(wǎng)絡分別來提取火焰特征,避免了繁瑣耗時的預處理過程,根據(jù)實際問題提出了輕便高效的火災檢測模型.YU 等[3]提出了一種用于火災煙霧實時檢測的紋理分析方法,利用了火焰的紋理特征進行識別.KHAN 等[4]提出一種結合火焰的顏色、邊界、面積、圓形度等特征的分類模型,同時利用了火焰的靜態(tài)與動態(tài)特征.但是上述方式均是基于人工提取特征,消耗時間長,且算法魯棒性低.
近年來,基于深度學習技術的圖像型火災檢測技術由于其準確率高、速度快且受外界干擾小逐漸發(fā)展起來.KIM 等[5]運用了Faster R-CNN 檢測疑似火災區(qū)域和非火災區(qū)域,構建了一種基于深度學習和視頻序列的火災檢測方法.將卷積神經(jīng)網(wǎng)絡廣泛應用于火焰特征提取,能夠使用戶獲得更加豐富的火焰特征信息,增強了對火焰的識別能力.皮駿等[6]將YOLOv5s 的主干網(wǎng)絡替換成Shufflenet v2,并加入CA 注意力模塊,讓骨干網(wǎng)絡對圖片信息的提取效率變得更快,在保持網(wǎng)絡精度的同時保證檢測速度,能滿足在白天、黑夜或視野良好等情況下對森林火災的實時性預防與檢測.葉銘亮等[7]結合Transformer 與深度學習算法并應用于森林火災檢測領域,在Swin Transformer 網(wǎng)絡結構中對窗口自注意力機制進行改進,采用了KNN 自注意力提高對小塊噪聲的識別,使用Augmentation 數(shù)據(jù)增強方法增加模型的泛化能力.
上述的檢測算法在火災檢測任務中取得了不錯的效果,但是也存在一些局限性,首先是實際場景下檢測效果不太理想,針對一些特定背景、特定形狀的火焰檢測效果好,但是不能很好地應用于復雜場景,環(huán)境背景適應性較差.其次,由于攝像頭遠近以及火勢蔓延程度不同,火焰在圖片中呈現(xiàn)的尺度變化較大,算法對多尺度火焰檢測精度較低.
鑒于目前火焰檢測算法中存在的問題,本文采用了Anchor Free 結構設計了一種適用于實際場景的多尺度火災檢測算法.該算法將主干網(wǎng)絡殘差模塊設置為多分支結構并替換原本的3×3 卷積為自適應注意力模塊提取出更具表達力的火焰特征,之后在特征融合網(wǎng)絡通過亞像素卷積減少信息丟失,并對高層特征進一步增強融合,最后根據(jù)火焰形狀自適應地產(chǎn)生正樣本用于之后的預測,改進GIoU Loss 以獲得更準確的邊界框回歸.該算法能夠實時檢測多尺度火焰目標,而且具有準確率高、誤報率低等優(yōu)點,適用于各種實際場景下的火災檢測任務.
本文構建了如圖1 所示的火災檢測算法,整體采用了無錨框網(wǎng)絡的基本形式.為了提取到更為豐富的火焰特征,選取經(jīng)典的特征提取網(wǎng)絡ResNet-50[8]作為基礎的主干網(wǎng)絡,將殘差模塊設置為多分支結構,并添加自適應注意力模塊用于關注通道信息以及選取適合的感受野.頸部網(wǎng)絡用于將高分辨率特征和強語義特征結合,本文首先引入了特征金字塔FPN[9]結構用于融合不同層的特征.在此基礎上,通過亞像素卷積減輕通道縮減造成的信息缺失問題,并引入特征增強模塊豐富特征解決了FPN 自上而下融合過程中導致的高層特征缺失問題.
圖1 火災檢測算法網(wǎng)絡結構Fig.1 Network structure of fire detection algorithm
此外,檢測網(wǎng)絡分為兩個分支分別用于分類和回歸,兩個分支都先經(jīng)過4 個卷積層進行特征強化.之后,分類分支再通過一個3×3 卷積得到的特征圖,該特征圖上每一個點對應的值代表預測為火焰的概率,中心度分支預測當前位置與要預測的目標中心點的歸一化距離.在分類網(wǎng)絡訓練過程中,由于背景點數(shù)量較多會導致正負樣本不均衡,因此選用Focal Loss[10]作為分類損失函數(shù),具體運算如公式(1)所示,取γ=2 ,α=0.25.回歸分支生成的H×W×4特征圖預測錨點到檢測框上下左右四條邊界的距離.并用改進后的GIoU Loss[11]作為回歸損失函數(shù).
火焰本身具有豐富的自身特征.例如,火焰顏色在實際場景中往往與周圍環(huán)境有較大的差異性.諸如溫度和燃燒物的材料都會影響火焰的顏色,顏色隨著溫度的升高而傾向于冷色,隨著溫度的降低而傾向于暖色.燃燒溫度的高低也會影響火焰飽和度和亮度的變化.此外,火焰形狀大小多變,受不同燃燒材料和燃燒環(huán)境的影響,火焰隨時間的蔓延程度也有很大不同.然而由于現(xiàn)有的主干網(wǎng)絡感受野大小有限并且缺乏跨通道之間的相互作用,往往不能很好地關注到火焰本身的特征,因此,本文對ResNet-50 主干網(wǎng)絡進行了改進,以期網(wǎng)絡能在眾多背景點中更關注火焰的特征,提高檢測的準確度.
本文將ResNet 主干網(wǎng)絡中的每一個殘差模塊設計成多分支結構,即用一種平行堆疊相同結構的block,可以在不增加參數(shù)量級的基礎上提升模型的準確率,同時還能減少超參數(shù)的數(shù)量,并添加注意力模塊.改進前后的殘差模塊如圖2 所示,整體采用組卷積的形式,group 數(shù)為32,并將原本的3×3 卷積替換成本文設計的自適應注意力模塊.
為了更好地適應火災尺度變化較大的特征,提升對于火災的檢測效果,受SKNet[12]的啟發(fā),本文設計了如圖3 所示的自適應注意力模塊,雙分支結構可以對不同的輸入分配不同大小的感受野.與SKNet 不同的是,本文并沒有采用全連接的方式對通道嵌入空間信息,而是借鑒ECANet[13]的思想,采用局部跨通道交互的方式對通道分配權重,避免了降維對于學習通道注意的影響,自適應地分配通道權重.2.2.1 節(jié)對比試驗可以顯示本文提出的自適應注意力模塊對于火焰檢測的效果優(yōu)于SKNet 和ECANet.該模塊整體結構分為3×3 和5×5 兩個分支,對于H×W×C的輸入特征分別經(jīng)過這兩個分支之后進行特征相加融合,此時得到的H×W×C的中間特征融合了不同感受野的上下文信息.該融合后的特征再經(jīng)過一個全局平均池化層(global average pooling, GAP)整合全局空間信息,并且與相鄰的5 個通道進行跨通道交互,局部跨通道之間的交互可以使得網(wǎng)絡更關注有效的通道,此時得到的1×1×C的特征包含了豐富的通道信息.再通過歸一化函數(shù)Softmax 分配通道權重,該權重代表了每個通道對特征提取的影響力.通過保留更有價值的特征,從而達到提高特征表示能力的目的.最后再與原圖像相乘得到攜帶通道權重的輸出,兩部分相加即為最終自適應注意力模塊的輸出.
圖3 自適應注意力模塊的具體實現(xiàn)Fig.3 Concrete implementation of adaptive attention block
局部跨通道之間的交互是通過一個權重共享的卷積核大小為k的一維卷積實現(xiàn)的,在全局平均池化層之后的特征上進行跨通道之間的交互,分配權重信息,對應表達式如下:
式(2)為整體權重計算表達式,其中 ω代表通道權重,S代表SoftMax 激活函數(shù),C1Dk代表卷積核大小為k的一維卷積,k代表局部跨通道的覆蓋率.式(3)為單層特征權重計算的表達式, ωi為第i層特征yi對應的權重,j表示通道, ωi是通過yi相鄰的k個通道計算得到的,代表了yi相鄰k個通道的集合.經(jīng)實驗驗證當k= 5 時效果最好,因此本文設置超參數(shù)k為5,具體實驗見2.2.1 節(jié).
自適應注意力模塊的3×3 和5×5 兩個分支可以提供不同的感受野大小.而火焰在實際場景中由于距離攝像頭遠近的不同以及蔓延程度的不同,在圖像中展示出的尺度不同.因此,網(wǎng)絡可以根據(jù)火焰不同尺度進行自適應的調(diào)整,對于不同輸入使用的卷積核感受野不同,參數(shù)權重也不同,可以自適應地對輸出進行處理,分配不同的感受野大小.考慮每個通道及其相鄰的5 個通道來捕獲跨通道交互,即每一層都關注和它相鄰的5 層通道的相互作用,通過分配權重表示了每個通道對特征提取的影響力.提升對當前火災檢測有用的特征圖通道的權重,抑制對當前任務作用不大的特征通道,從而讓神經(jīng)網(wǎng)絡重點關注權重值大的通道,通過顯式的構建卷積特征通道之間的相互依賴關系來提高網(wǎng)絡的表示能力.所以經(jīng)過自適應注意力模塊,網(wǎng)絡不僅可以根據(jù)火焰本身尺度大小自適應地選取感受野,還能夠自適應地給定通道權重,更適于提取火焰特征.為了證明本文設計注意力模塊的有效性,與經(jīng)典的注意力機制進行了對比試驗,具體實驗結果見2.2.1 節(jié).
本文改進后的整體主干網(wǎng)絡結構和ResNet-50對比如表1 所示,改進后的主干網(wǎng)絡更關注通道特征之間的關系,增加了有用通道的權重,抑制了不相關的特征信息.此外,網(wǎng)絡可以對不同尺度的火焰自適應的選擇感受野大小,使得網(wǎng)絡的輸出特征更加豐富,提高了火焰特征提取網(wǎng)絡的魯棒性,有利于提高火焰檢測任務的檢測效果.
表1 改進前后主干網(wǎng)絡結構對比Tab.1 Comparison of backbone structure before and after improvement
在實際火災場景中,火焰離攝像頭遠近不同或者火災蔓延的程度都會導致火焰尺度有明顯的變化,這對算法模型的多尺度檢測能力提出了更高的要求.高層網(wǎng)絡感受野較大,語義信息表征能力強,但空間信息表征能力較弱;而低層網(wǎng)絡感受野空間信息表征能力強,語義信息表征能力弱.傳統(tǒng)的FPN 結構通過自上而下的信息融合一定程度上改善了對于多尺度目標的檢測效果,但是也存在以下兩點不足:
1) FPN 網(wǎng)絡初期為了提高計算效率采用1×1卷積進行通道維度縮減時會導致嚴重的信息丟失,側重于在縮減后的256 個通道的特征金字塔Pi上開發(fā)有效的模塊,但是沒有充分利用Ci豐富的通道信息.
2) 較低層次的特征映射通過自上而下的融合可以合并較高層次的語義信息,但是最高層次的特征只包含單一級別的上下文信息.
因此,為了更好地滿足多尺度火焰檢測的需求,本文在原有FPN 的基礎上添加了亞像素融合方法(sub-pixel conv),并且利用特征增強模塊(feature augmentation)對P5進行特征增強,以充分利用全局特征信息,提升對多尺度火焰的檢測能力.改進后的FPN網(wǎng)絡結構如圖4 所示.
圖4 特征增強FPN 網(wǎng)絡結構Fig.4 Feature enhanced FPN network structure
其中{C2,C3,C4,C5}表示主干輸出,通過亞像素卷積生成{F2,F3,F4,F5}特征層,通道數(shù)減少為256,對應輸入圖片的步長為{4,8,16,32}.特征金字塔{P2,P3,P4,P5}通過FPN 中自上而下路徑生成,單獨對P5進行了特征增強,有效解決了最高層特征上下文信息單一的問題.
主干網(wǎng)絡的高級特征{C4,C5}包含豐富的語義信息.但是傳統(tǒng)的FPN 結構直接采用1×1卷積層來減少Ci的通道維數(shù),這導致了嚴重的通道信息丟失.而本文采用的亞像素融合是指采用亞像素卷積[14]的方法融合低分辨率特征和高分辨率特征,卷積過程如圖5 所示,它通過像素重組(shuffling pixels) 來增加寬度和高度的尺寸,而不是單純地通過補零進行反卷積.將多通道特征圖上的單個像素組合成新特征上單位通道像素,這樣原特征圖上的每個像素就相當于新的特征圖上的一個亞像素.其結果就是將尺度大小為H×W×C·r2的特征重新排列為rH×rW×C,其數(shù)學表達式如下:
圖5 亞像素卷積方法實現(xiàn)Fig.5 Implementation of subpixel convolution method
亞像素融合充分利用了{C4,C5}豐富的通道信息,并將它們合并到Fi中,如圖4 網(wǎng)絡架構所示,亞像素卷積可以看作是C5、C4到F4、F3的兩個額外連接,同時進行上采樣和通道融合,然后利用C5、C4豐富的通道信息增強特征金字塔的表達能力,彌補了因通道縮減導致的信息丟失.為了證明本文采用的亞像素卷積方法的優(yōu)勢,在2.2.2 節(jié)進行了對比試驗.
此外,在傳統(tǒng)的FPN 中,較低層次的特征映射通過合并較高層次的語義信息,自然地賦予不同的上下文信息.但是,最高級別的特征層P5只包含單一級別的上下文信息,而沒有從其他層級中受益.因此,本文設計了一個如圖6 所示的特征增強模塊(feature augmentation)用來豐富P5的通道信息.對F5特征進行膨脹率為2, 4, 8, 16, 24 的空洞卷積提取不同感受野范圍的上下文,將每個空洞卷積層的輸出拼接到輸入特征圖上,然后再輸入到下一個空洞卷積層,并且空洞卷積之間采用了密集連接的形式,注入不同的空間上下文信息,強化了P5的特征表示.
圖6 特征增強模塊的具體結構Fig.6 Specific structure of feature augmentation modules
改進后的FPN 結構融合后的特征被賦予多尺度的上下文信息,利用高層語義信息對低層特征進行映射增強,更好地利用了全局空間信息,使得網(wǎng)絡的輸出特征更加豐富,更有利于后續(xù)的多尺度目標檢測過程.
標簽分配在目標檢測中有著重要的作用,傳統(tǒng)的標簽分配方法例如FCOS[15]通過標準框中心點和鋪設點之間的距離和尺寸來確定正負樣本,目標框內(nèi)的錨點作為候選樣本.這樣做忽略了具有不同大小和形狀的對象的劃分邊界可能會有所不同的事實,限制了檢測器的學習能力.因此,為了適應火焰形狀多變的特點,本文引入了一種自適應的選取樣本[16]的方法,依據(jù)中心點距離以及IoU 閾值的統(tǒng)計特性自動劃分正負樣本.
離對象中心越近的錨點更有可能產(chǎn)生更高質(zhì)量的檢測,所以首先根據(jù)錨框和對象之間的中心距離選擇候選對象.對于每個輸出的檢測層,計算錨框和目標的中心點的L2距離,選取K個錨框離目標中心點最近的錨框作為候選正樣本.其次計算每個候選正樣本和ground truth 之間的IoU,得到每組IoU 的均值和標準差.均值高表示具有高質(zhì)量的候選框,應當提高閾值來調(diào)整正樣本,同樣均值較低則應該降低閾值.此外,標準差是用來衡量哪些層適合檢測該對象的,標準差高意味著高質(zhì)量的錨框集中在一層中,低標準差則表示多個層都適合該ground truth.所以將IoU 閾值設置為每組IoU 的均值和標準差之和,根據(jù)對象的統(tǒng)計特征,自動選擇對應特征層上合適的錨框,解決固定閾值對檢測器的限制.
FCOS 的采樣方式如圖7(a)所示,其結果較為固定,而且由于火焰形狀多變,會引入了大量的背景點作為正樣本加入訓練,對模型的學習造成困擾.而本文引入的自適應標簽分配方法采樣方式如圖7(b)所示,能夠很好地適應火焰自身形狀,篩選出更適合的正樣本,有效規(guī)避經(jīng)典采樣方式的弊端,對于火焰特征的學習更為充分,有效提升了不同環(huán)境背景下的火焰檢測能力,增強了算法的環(huán)境適應性.
圖7 正樣本分配效果圖Fig.7 Positive sample distribution effect
在此基礎上,由于火災形態(tài)尺度多變,對邊界框回歸也提出了更高的要求,GIoU Loss 在IoU 損失中引入懲罰項以緩解梯度消失問題,可以較好的反應相交情況,本文在現(xiàn)有的GIoU Loss 的基礎上引入了參數(shù)λ,改進前后的損失函數(shù)如下.將λ應用于IoU損失函數(shù)以及正則化項,可以獲得更準確的邊界框回歸,提高bbox 的回歸精度.改進前后的GIoU Loss公式如下:
GIoU Loss 對應λ=1 的情況,IoU 的梯度一直是-1.當λ>1 時,如果對應IoU 大于0.5,損失梯度大于-1,可以加速收斂.因此,λ>1 可以增加了高IoU 目標的損失和梯度,通過更多地關注高IoU 目標來獲得高的bbox 回歸精度.而當λ<1 時,它降低了高IoU 目標的權重,會影響bbox 的回歸精度.根據(jù)本文實驗可得當λ=3 時效果最好,具體實驗過程見2.2.2 節(jié).
由于目前缺乏高質(zhì)量的火災公共數(shù)據(jù)集,本文按照MS COCO 數(shù)據(jù)集格式要求自建了一個包含豐富環(huán)境背景的火災數(shù)據(jù)集.數(shù)據(jù)集圖片搜集于實際火災視頻、實驗火災視頻以及網(wǎng)絡上公開火災視頻等191 段視頻,共包含火災圖像13 573 張,其中訓練集10 014 張,測試集3 559 張.數(shù)據(jù)源涵蓋了地鐵站、停車場、超市、學校、工廠和寺廟等數(shù)百個場景,包括多種尺度形態(tài)的火災圖像,大、中、小尺度圖像根據(jù)火焰標準框占圖像的像素點百分比劃分,圖像尺度越大在實際場景中代表火焰距離攝像頭越近或者蔓延程度越大.部分數(shù)據(jù)集圖片如圖8 所示,包括室內(nèi)、室外、黑天和燈光、紅色物體、光線干擾等多種場景下的圖像,從左到右尺度由小到大,能夠充分驗證本文提出的適用于實際環(huán)境的多尺度火災檢測算法的有效性.此外,為了驗證模型的泛化能力,本文在劃分測試集與訓練集時選擇了不同場景.
圖8 部分數(shù)據(jù)集火災圖像Fig.8 Partial data set fire images
本文訓練和測試的實驗環(huán)境如表2 所示.采用隨機梯度下降優(yōu)化器進行迭代訓練,批訓練規(guī)模為4,訓練輪數(shù)為12 輪,動量和權重衰減因子分別為0.9和0.000 1,初始學習率為0.001 25.學習率在第8 輪和第11 輪分別衰減為當前學習率的10%.訓練過程中采用隨機翻轉、隨機縮放及亮度變化等數(shù)據(jù)增強方式,增加訓練的數(shù)據(jù)量,解決過擬合和樣本不平衡問題,提高模型的泛化能力.
表2 實驗環(huán)境參數(shù)Tab.2 Experimental environmental parameters
為了驗證本文主干網(wǎng)絡中設計的自適應注意力模塊、利用亞像素卷積和特征增強模塊改進后的FPN 模塊以及自適應標簽分配包含改進GIoU Loss的效果和對整體網(wǎng)絡的貢獻,設計了消融實驗,整體實驗結果如表3 所示.本文對模型綜合性能的評價指標采用的是COCO 評價標準中的AP 和AP50,其中AP50代表IoU 閾值為0.5 時模型檢測的精度,即網(wǎng)絡輸出的檢測框與數(shù)據(jù)集標注框IoU 大于0.5 則為預測正確;而AP 代表IoU 閾值取0.5~0.95 之間的10個值時模型檢測的精度的平均值.此外,采用COCO評價標準中的APl,APm和APs表征模型對大、中、小尺度目標的檢測精度,衡量算法對多尺度火焰的檢測效果.以下是對各個模塊消融效果分析.
表3 整體網(wǎng)絡消融實驗結果Tab.3 Results of global network ablation experiment
本文首先將主干網(wǎng)絡殘差模塊設置為多分支結構,并把殘差模塊中的3×3 卷積替換為本文設計的自適應注意力模塊.如表3 實驗結果顯示,嵌入自適應注意力模塊之后,AP 由54.2%提升為55.3%,AP50由91.8%提升為92.9%,多尺度的檢測精度均有提升.由此可以證明本文設計的自適應注意力模塊的有效性,可以根據(jù)火焰尺度自適應選取感受野并自適應分配通道權重,提升了特征提取能力.
本文在FPN 基礎上添加了亞像素融合之后,在原有精度基礎上各個尺度的檢測精度均有提升,如表3 所示,其中APs和APl增幅均超過了一個百分點,證明了本文引入的亞像素融合可以充分利用高層特征圖豐富的通道信息,彌補因通道縮減造成的信息丟失.
在此基礎上進行多尺度特征增強之后,整體火焰檢測精度進一步提升,APs由54.0%上升為55.1%,APl由56.1%上升至57.8%.證明了本文設計的特征增強模塊的有效性,可以注入不同的空間上下文信息,增強特征金字塔的特征表達能力.
在原有改進的網(wǎng)絡基礎上,采用自適應采樣方式對模型進行改進,整體網(wǎng)絡檢測精度以及各個尺度目標的檢測精度均有提升,如表3 所示.其中AP50由94.1%上升到94.9%,證明了自適應采樣方式對于火災檢測任務的有效性,改進后的標簽分配利用統(tǒng)計特性作為閾值,克服了固定閾值對檢測器學習能力的限制,更適應火焰形狀多變的特點,可以有效提升不同環(huán)境背景下的火焰檢測能力.
2.2.1 自適應注意力模塊
為了驗證本文設計的自適應注意力模塊的有效性,本文與SENet、SKNet 以及ECANet 注意力機制進行了對比試驗.保持基礎的網(wǎng)絡結構不變,保持數(shù)據(jù)集和實驗環(huán)境配置不變,在其基礎上分別嵌入了不同的注意力模塊,實驗結果如表4 所示.
表4 注意力機制對比試驗結果Tab.4 Comparison experimentation results of the attention mechanism
通過表4 的結果,可以看到本文設計的自適應注意力模塊對網(wǎng)絡檢測效果提升最為明顯,說明本文設計的自適應注意力模塊可以使得網(wǎng)絡不僅可以根據(jù)火焰本身尺度大小自適應選取合適的感受野大小,并且可以給定通道不同的權重,提取到更適合的火焰特征,更有利于火災檢測任務.
此外,為得到對網(wǎng)絡提取特征更為有效的超參數(shù)k,本文在原網(wǎng)絡基礎上嵌入自適應注意力模塊進行了多次對比試驗,實驗結果如圖9 所示,其中k為[4, 8]區(qū)間內(nèi)整數(shù).隨著k逐漸增大,AP 值先增加后下降.實驗結果表明,k= 5 時網(wǎng)絡效果最好.因此本文在最終算法中固定k為5.
圖9 k 參數(shù)對比實驗結果Fig.9 Comparison experimentation results of value k
2.2.2 自適應注意力模塊
為了驗證本文亞像素卷積上采樣方式對于彌補信息丟失的有效性,本文進行了以下對比試驗.保持基礎的網(wǎng)絡結構以及實驗環(huán)境配置不變,在原FPN基礎上將上采樣方式分別替換為雙線性插值和亞像素卷積,實驗結果如表5 所示.
表5 上采樣方式對比試驗結果Tab.5 Comparison of upsampling mode with experimental results
2.2.3 損失函數(shù)
為得到提升效果最好的損失參數(shù)λ,本文在不進行其他改進的基礎上進行了多次對比試驗,分別取λ為[1, 6]區(qū)間內(nèi)整數(shù).λ為1 時代表GIoU Loss 損失函數(shù),實驗結果如表6 所示.隨著λ逐漸增大,AP 值增加后趨于平穩(wěn)再逐漸下降,于3 處到達最高值.實驗結果表明,調(diào)整λ的值會影響模型的檢測效果,且λ為3 時模型的檢測效果最好.因此本文在最終算法中固定λ為3.
表6 λ 參數(shù)取值對比試驗結果Tab.6 Comparison of value λ with experimentation results
為了驗證本文算法的有效性,保持實驗環(huán)境和實驗參數(shù)不變,在本文自建數(shù)據(jù)集上利用經(jīng)典的目標檢測算法FCOS、RetinaNet 以及最新的目標檢測算法YOLOF[17]、TOOD[18]和DETR[19]進行了對比實驗.實驗結果如表7 所示.可以看出,本文算法在整體檢測精度和多尺度的檢測精度上均有更好的檢測效果.
表7 與經(jīng)典目標檢測算法的對比實驗結果Tab.7 Comparison of experimentation results with classical object detection algorithms
此外,為了證明本文算法的先進性,和經(jīng)典的Anchor Free 目標檢測算法FCOS 以及最新的目標檢測算法YOLOF 和DETR 在檢測效果上進行了對比,對比效果如圖10 所示.可以看出本文提出的算法在黑夜、白天以及有光斑、燈光干擾時檢測效果均優(yōu)于其他3 種算法,明顯抑制了實際場景中誤報漏報情況的發(fā)生,說明本文算法抗干擾能力更強,綜合性能更好.
圖10 不同場景多尺度火焰檢測效果對比圖Fig.10 Detection effect comparison of multi-scale flame in different scenes
為了進一步驗證本文提出算法模型的有效性,在火災檢測常用的公開數(shù)據(jù)集Mivia(http://signal.ee.ilkent.edu.tr/VisiFire/)上與一些常用的火災檢測算法進行了對比.Mivia 數(shù)據(jù)集由FOGGIA 等收集,涵蓋不同環(huán)境下的31 段視頻,其中火災視頻14 段,非火災視頻17 段,包含燈光、移動物體以及紅色類火物體等干擾環(huán)境,更適用于檢測模型的魯棒性.表8 展示了本文算法與經(jīng)典火災算法在Mivia 數(shù)據(jù)集上準確度(precision)、誤報率(false positive, FP)以及漏報率(false negative, FN)的性能評估結果,其他算法的數(shù)據(jù)均來源于原文獻.誤報率代表假陽性,即非火物體被預測為火的概率;漏報率即假陰性,即火災目標沒有被檢測出來的概率;而準確率代表預測為火災的樣本中有多少比例為真值.
表8 與經(jīng)典的火災檢測算法對比實驗結果Tab.8 Comparison of experimentation results with classical fire detection algorithms
基于以上實驗結果,本文算法在檢測精度相比其他火災檢測算法均具有優(yōu)勢,并且漏報率為0,針對數(shù)據(jù)集中室內(nèi)、室外、黑夜、白天等多種環(huán)境下的多種尺度火災都有較好的檢測效果,能夠實現(xiàn)火災的精準定位和分類.此外,本文算法在也不易受光照、燈光和移動物體等條件的影響,環(huán)境背景適應性更強,與其他算法相比更具有優(yōu)勢,更能滿足實際火災檢測的需要.
本文提出了一種適用于實際場景的多尺度火災檢測算法,有效解決了當前火災檢測算法容易受外界干擾產(chǎn)生誤報漏報的問題.將主干網(wǎng)絡殘差模塊設計為多分支結構,并嵌入自適應注意力模塊提取到了更具表達力的火焰特征;通過亞像素卷積改進了特征圖上采樣過程中出現(xiàn)的信息缺失問題,并且添加了特征增強模塊豐富了最高層特征,提升了對多尺度火焰的檢測效果;采用自適應標簽分配適應火焰自身形狀尺度,增強了算法的學習能力;對GIoU Loss 函數(shù)進行了改進,獲得了更精確的邊界框回歸.
經(jīng)實驗表明,與常用的目標檢測算法和火災檢測算法相比,本文提出的火災檢測算法檢測精度高,抗干擾能力強,能夠適用于實際場景下的不同形態(tài)的火災檢測場景,具有較高的應用價值.