陳浩霖 高尚兵 相林 蔡創(chuàng)新 汪長春
摘要模型的效率在計算機視覺中變得越來越重要.本文通過研究用于火焰檢測的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了幾個關(guān)鍵的優(yōu)化方案,以提高模型效率和檢測效果.第一,提出一種由多卷積組合結(jié)構(gòu)構(gòu)建的主干網(wǎng)絡(luò)(FIRE-Net),它能高效地從多個尺度上提取豐富的火焰特征;第二,提出一種改進的加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN-mini)以快速地實現(xiàn)多尺度特征融合;第三,提出一種新的注意力機制(FIRE-Attention),讓檢測器對火焰特征更敏感.基于上述優(yōu)化,本文開發(fā)出了一種全新的火焰檢測器FIRE-DET,它在硬件資源有限的條件下能夠取得比現(xiàn)有基于深度學習的火焰檢測方法更高的檢測效率.FIRE-DET模型在自建數(shù)據(jù)集上進行訓練后,最終對火焰檢測的準確率和幀率分別達到97%和85 FPS.實驗結(jié)果表明,與主流算法相比,本文火焰檢測模型檢測性能更優(yōu).本文為解決火焰探測問題提供了一個更通用的解決方案.
關(guān)鍵詞特征提取;特征融合;注意力機制;火焰檢測
中圖分類號
TP391.41
文獻標志碼
A
收稿日期
2021-11-12
資助項目
國家重點研發(fā)計劃(2018YFB1004904);江蘇省高校自然科學研究重大項目(18KJA520001);2021年淮陰工學院研究生科技創(chuàng)新計劃項目(HGYK202122)
作者簡介
陳浩霖,男,碩士生,研究方向為深度學習及計算機視覺.1007256512@qq.com
高尚兵(通信作者),男,博士,教授,研究方向為機器學習、計算機視覺、模式識別和數(shù)據(jù)挖掘.luxiaofen_2002@126.com
0 引言
火災的發(fā)生會威脅人類的生命安全,如:2019年9月6日至2020年1月14日,澳大利亞森林火災燃燒面積達1 860萬hm2,傷亡人數(shù)34人,死于火災的動物超過10億只[1];2020年3月30日,四川省涼山州西昌市經(jīng)久鄉(xiāng)發(fā)生森林火災,造成19名消防戰(zhàn)士犧牲.為了預防火災,我國在“十三五”全國森林防火規(guī)劃建設(shè)期間,全國規(guī)劃投入森林防火資金450.95億元,其中中央建設(shè)投資和財政經(jīng)費分別投入189.89 億元和185.44億元.
火焰是火災中最明顯的特征之一,因此基于圖像處理提取火焰特征是常用的檢測火災的方法.目前該類方法主要分為基于傳統(tǒng)圖像處理的火焰檢測、基于傳統(tǒng)機器學習的火焰檢測和基于深度學習的火焰檢測.近年火焰檢測的方法具體有:
1)基于傳統(tǒng)圖像處理的火焰檢測方法,使用手工提取的火焰特征識別火焰.如:張慧珍等 [2] 提出一種基于超像素分割并結(jié)合閃頻特征進行判斷識別火焰的方法;Gong等 [3] 通過計算圖像每幀火焰區(qū)域的質(zhì)心,然后通過提取火焰的空間變異性、形狀變異性和面積變異性等特征檢測火焰.
2)基于傳統(tǒng)機器學習的火焰檢測方法,更注重特征的提取,特征可解釋性較強.如:Ko等[4]提出基于模糊有限自動機的火焰檢測算法;Gunay等[5]提出一種基于熵函數(shù)的在線自適應(yīng)決策融合框架;Dimitropoulos 等[6]利用火焰的先驗知識,提取火焰候選區(qū)域,然后使用兩類SVM分類器對候選區(qū)域進行分類.
3)基于深度學習的火焰檢測方法,通過自動學習特征(卷積特征)檢測火焰,無需設(shè)計指定特征,學習獲得的特征只有計算機理解.如:Kim等[7]將連續(xù)幀中邊界框內(nèi)的匯總特征由Long Short-Term Memory(LSTM)在短期時間序列中判斷是否存在火并進行分類,然后將大多數(shù)連續(xù)的短期決策合并在一起,長期投票決定最終結(jié)果;Aslan等[8]提出一種基于視覺的深度卷積生成對抗性神經(jīng)網(wǎng)絡(luò)火焰檢測方法;Zhang等[9]提出一種有效的非對稱編譯碼U形結(jié)構(gòu)ATT-Squeeze-Net來鑒別森林火災;Dunnings等[10]提出一種基于超像素分割結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)的火焰檢測方法.
基于傳統(tǒng)圖像處理的火災檢測所依靠的特征和判定閾值規(guī)則是人為設(shè)定的,往往泛化能力略顯不足.基于傳統(tǒng)機器學習的火焰檢測同樣是利用人工提取特征,只是在最后的檢測時利用機器學習分類算法進行火焰分類,依然無法避免人工特征工程的缺點.基于深度學習的火焰檢測,可以避免人工特征工程的繁雜,利用計算機自動提取特征,能夠?qū)崿F(xiàn)端到端的實時輸出,并且能夠保證檢測精度和泛化能力,這就擁有了很好的智能性.但復雜的模型會降低模型的檢測效率,所以本文利用深度學習方法中單步檢測的框架實現(xiàn)火焰檢測.
現(xiàn)有的目標檢測器主要根據(jù)它們是否具有區(qū)域建議步驟,分為單步檢測(One-Stage Detectors)[11-15]和雙步檢測(Two-Stage Detectors)[15-20].雖然雙步檢測器往往更靈活和更準確,但單步檢測器通常被認為更簡單和更高效.在本文中,主要以單步檢測器的設(shè)計為主體,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)使其獲得更高的效率和精度.深度卷積神經(jīng)網(wǎng)絡(luò)自提出起就被廣泛應(yīng)用于圖像領(lǐng)域的分類、檢測和分割等任務(wù)中.近些年,在深度卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域任務(wù)中出現(xiàn)了一系列優(yōu)化的方法:
1)主干網(wǎng)絡(luò):現(xiàn)有的單步檢測的主干網(wǎng)絡(luò)主要使用CenterNet[20]、DarkNet52[11]和EfficientNet[21]等,可以分為兩種類型:一種是輕量型的,其目標在于開發(fā)出一種微型的主干網(wǎng)絡(luò)并且能擁有較好的特征提取效果,如EfficientNet;另一種是重量型的,在特征提取上具有較好的效果,如DarkNet52.雖然重量型的網(wǎng)絡(luò)在多目標檢測過程中表現(xiàn)出優(yōu)異的效果,但是在面對火焰目標時會出現(xiàn)魯棒性低的情況,這是由于火焰非結(jié)構(gòu)化、形態(tài)特異性高的特性決定的.因此本文提出一種輕量型主干網(wǎng)絡(luò)使其獲得更高的效率和精度.
2)特征融合網(wǎng)絡(luò):融合多尺度特征是目標檢測的主要難點之一.早期的檢測器通常直接將骨干網(wǎng)絡(luò)中提取的金字塔特征進行預測.特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[22]作為其開創(chuàng)性工作之一,提出了一種自頂向下的多尺度特征組合路徑;PANet[23]在FPN的基礎(chǔ)上增加了一個自下而上的路徑聚合網(wǎng)絡(luò);NAS-FPN[24]利用神經(jīng)結(jié)構(gòu)搜索來自動設(shè)計特征網(wǎng)絡(luò)拓撲.最近,BiFPN[25]利用簡單的雙向特征融合網(wǎng)絡(luò)并進行加權(quán)融合.BiFPN雖然性能更好,但面對火焰檢測速度仍有不足.因此本文改進了BiFPN模塊,提升輸出特征對火焰語義的抽象程度與魯棒性.
3)注意力機制:注意力機制是近年提出的一種新觀念.注意力機制主要分為兩種:一種是通道注意力機制,另外一種是空間注意力機制.SENet[26]最早提出通道注意力機制,為每個通道加上一個權(quán)重,目的是為了體現(xiàn)每個通道的重要程度;CBAM[27]則在通道注意力機制的基礎(chǔ)上增加了空間注意力機制,體現(xiàn)特征圖中每個位置的重要程度.傳統(tǒng)的注意力機制是無監(jiān)督的,它通過網(wǎng)絡(luò)的反饋計算獲得自適應(yīng)的注意力矩陣,所以它會生成一些背離預期的結(jié)果,這是我們所不愿看見的.因此本文提出了一種監(jiān)督式的空間注意力機制,通過檢測器的標簽值生成一組二值圖像標簽來監(jiān)督獲得的注意力矩陣.
基于上述分析,本文提出了一種基于FIRE-DET的快速火焰檢測方法.主要的貢獻如下:
1)提出了一種Multi-Conv模塊,并通過Multi-Conv模塊建立FIRE-Net網(wǎng)絡(luò),并將其作為主干網(wǎng)絡(luò)提取多個尺度的火焰特征,增強特征提取效果.
2)受BiFPN網(wǎng)絡(luò)的啟發(fā),本文將主干網(wǎng)絡(luò)提取的特征進行雙向連接融合,提取出含有多個尺度的特征,而不是單尺度特征.
3)提出一種監(jiān)督式的空間注意力機制Fire-Attention,通過檢測器的標簽值生成一組二值圖像標簽來監(jiān)督獲得的注意力矩陣.
1 本文方法
1.1 FIRE-DET模型
FIRE-DET檢測器是由主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、注意力機制和檢測頭構(gòu)成的一種端到端的深度卷積神經(jīng)網(wǎng)絡(luò),并遵循了單步檢測器的結(jié)構(gòu).FIRE-DET檢測器的整體架構(gòu)如圖1所示.FIRE-DET的主干網(wǎng)絡(luò)是FIRE-Net,是由Multi-Conv模塊建立的輕量級網(wǎng)絡(luò),可獲取輸入圖像多個尺度的特征{P 1,P 2,P 3};FIRE-DET的特征融合網(wǎng)絡(luò)是BiFPN-mini,BiFPN-mini將主干網(wǎng)絡(luò)提取的多個尺度的特征{P 1,P 2,P 3}進行融合;FIRE-DET中提出了一種注意力機制FIRE-Attention,對融合后的特征進行反饋調(diào)節(jié),增強檢測器對火焰特征的敏感性;FIRE-DET中使用現(xiàn)有的檢測有YOLO head預測對象和對象位置.
1.2 FIRE-Net網(wǎng)絡(luò)
1.2.1 深度卷積模塊
一個卷積層i可以定義為一個函數(shù):y=f i(x (h,w,c)),其中f是算子,y是輸出張量,x是輸入張量,具有張量形狀h,w,c,其中h和w是空間維度,c是通道維度.兩個算子連續(xù)作用于一個輸入張量可以定義為
y=f 2(f 1(x (h,w,c)))=f 2⊙ f 1(x (h,w,c)),
一個卷積模塊的結(jié)構(gòu)可以被表示為
N=f k⊙…⊙f 2⊙f 1(x)=⊙j=1…kf j(x (h,w,c)).(1)
在實踐中,卷積模塊層通常被劃分為多個階段,每個階段中的所有層共享相同的體系結(jié)構(gòu).因此,本文可以將卷積模塊定義為
N=⊙j=1,…,kf j(x (h,w,c)).(2)
圖2為具有代表性的卷積模塊.圖2a為傳統(tǒng)的卷積塊,由卷積歸一化與激活函數(shù)構(gòu)成.傳統(tǒng)卷積模塊可以表示為
g 1(x)=reluBN(Conv(x (h,w,c))),(3)
其中,Conv是特征處理的卷積操作,BN為歸一化操作,relu為激活函數(shù),g 1是傳統(tǒng)卷積模塊的算子.圖2b顯示了經(jīng)典的殘差卷積塊,由兩種傳統(tǒng)卷積塊組合構(gòu)成.殘差卷積塊可以表示為
g 2(x)=g 1⊙g 1(x (h,w,c))+x (h,w,c).(4)
1.2.2 Muti-Conv模塊
傳統(tǒng)的Conv Block在感受野上受到限制,未能融合不同感受野的信息,所以Res Block增加一個Conv Block的路徑來擴展網(wǎng)絡(luò)的感受野,如圖2b所示.本文發(fā)現(xiàn)Res Block比Conv Block獲得了更好的準確性,但仍然不能適應(yīng)檢測火焰的計算.如果卷積的路徑只有一條,那么它獲得的感受野比較有限,所以本文首先增加了卷積的路徑數(shù),然后將每次卷積的結(jié)果融合后輸出,以避免特征損失,最后減少卷積的通道數(shù),以提高模型的效率.通過上述優(yōu)化,本文將新的特征網(wǎng)絡(luò)命名為Multi-Conv Block,如圖2c所示.Multi-Conv卷積塊可以表示為
g 3(x)=g 1⊙g 1(x (h,w,c))+g 1⊙g 1(x (h,w,c))+
g 1⊙g 1(x (h,w,c))+g 1(x (h,w,c))+
g 1(x (h,w,c))+g 1(x (h,w,c)).(5)
1.2.3 構(gòu)建FIRE-Net網(wǎng)絡(luò)
由于本文的模型主要用于火焰檢測,因此提出針對火焰檢測的特征提取網(wǎng)絡(luò).為了增加提取火焰的有效性,本文還提出一個新的主干骨網(wǎng)絡(luò),稱為FIRE-Net.該網(wǎng)絡(luò)通過增加卷積的路徑與卷積核的大小,提高網(wǎng)絡(luò)對火焰特征的提?。?中每一行描述了一個線性層,每層中介紹了算子f i、輸入分辨率h i×w i和輸出通道C i.
雖然FIRE-Net的Muti-Conv模塊結(jié)構(gòu)復雜,但是FIRE-Net網(wǎng)絡(luò)通道數(shù)減少至Darknet53層結(jié)構(gòu)的1/4,并且下采樣次數(shù)減少一半,使網(wǎng)絡(luò)參數(shù)變少.最終模型變得更小,但由于Muti-Conv模塊多卷積路徑的特點,使模型對火焰特征提取的能力仍有提升.網(wǎng)絡(luò)以512×512大小的圖像作為輸入進行3次最大池化和Muti-Conv操作,在FIRE-Net中第1次使用Muti-Conv采用1、9、27三種卷積核提取特征,第2次使用Muti-Conv采用1、3、9三種卷積核提取特征,第3次使用Muti-Conv采用1、3兩種卷積核提取特征.這樣設(shè)置卷積核基于以下原因:1)使用卷積核1的主要目的是形成一種無監(jiān)督的注意力機制,讓網(wǎng)絡(luò)自動調(diào)整網(wǎng)絡(luò);2)本文模型的輸入圖像像素大小為512×512,若使用2的等比數(shù)列感受野過小,若使用4的等比數(shù)列會導致感受野過大,所以本文卷積核為3的等比數(shù)列中的值.FIRE-Net的性能與最先進的分類器相比,其浮點運算更少,表明網(wǎng)絡(luò)結(jié)構(gòu)能更好地利用處理器,使其更有效地檢測,從而更快獲取火焰特征.
1.3 BiFPN-mini網(wǎng)絡(luò)
多尺度特征融合旨在聚集不同分辨率的特征.形式上,給定一個多尺度特征序列Pin=(Pin l1,Pin l2,…),其中P li表示(l i+1)倍下采樣后的特征圖,本文的目標是找到一個可以有效聚合不同特征的變換h,并輸出一個新特征列表:Pout=h(Pin).
圖3a為傳統(tǒng)的自上而下的FPN,需要5個尺度的特征Pin=(Pin l1,Pin l2,…,Pin l5),其中Pin l1表示分辨率為輸入圖像1/2的特征級別.例如,如果輸入分辨率為512×512,則Pin ?l1代表的2倍下采樣后分辨率為256×256的特征圖 (512÷21=256),而Pin l5代表16倍下采樣后分辨率為32×32.FPN自上而下的多尺度特征融合方法可以表示為
pout 5=Conv(pin 5),
pout 4=Conv(pin 4+Resize(pin 5)),
…
pout 1=Conv(pin 1+Resize(pin 2)).(6)
如圖3a中傳統(tǒng)的自上而下的FPN本質(zhì)上受到單向信息流的限制,所以BiFPN提出了刪除那些只有一條輸入邊的節(jié)點形成簡化的雙向網(wǎng)絡(luò),且從原始輸入到輸出節(jié)點添加額外的邊融合更多的特征,如圖3b所示.為了提高模型效率,本文提出幾種跨尺度連接的優(yōu)化方法:首先,沿用BiFPN雙向輸入的思想,但是并不是刪除單向節(jié)點,而是為單向節(jié)點增加不同尺度輸入而形成雙向網(wǎng)絡(luò);其次,減少特征融合網(wǎng)絡(luò)的輸入,以便降低成本.本文將新特性網(wǎng)絡(luò)命名為簡化版雙向特性金字塔網(wǎng)絡(luò)(BiFPN-mini),如圖3c所示.BiFPN-mini定義如下:
ptd 5=Conv(pin 5+Resize(Resize(pin 5))),
ptd 3=Conv(pin 3+Resize(ptd 5)),
ptd 1=Conv(pin 1+Resize(ptd 3)),
pout 1=Conv(pin 1+ptd 1+Resize(Resize(ptd 1))),
pout 3=Conv(pin 3+ptd 3+Resize(pout 1)),
pout 5=Conv(pin 5+ptd 1+Resize(pout 3)).(7)
1.4 FIRE-Attention網(wǎng)絡(luò)
注意力機制的主要作用是增強目標的特征.注意力機制主要分為通道注意力機制、空間注意力機制和混合注意力機制等.
如圖4通道注意力機制主要作用是將特征圖每個通道與不同權(quán)重進行相乘,可以忽略無關(guān)通道信息而關(guān)注重點通道信息.空間注意力機制的作用是將特征圖每個位置的特征與不同權(quán)重進行相乘,可以忽略無關(guān)空間信息而關(guān)注重點空間信息.通道注意力機制與空間注意力機制更關(guān)注區(qū)域或者通道,而且注意力是確定性的注意力,學習完成后直接可以通過網(wǎng)絡(luò)生成.注意力是可微的,可以微分的注意力就可以通過神經(jīng)網(wǎng)絡(luò)算出梯度,并且通過反向傳播來學習獲得注意力的權(quán)重.
傳統(tǒng)的注意力機制是無監(jiān)督的,它通過網(wǎng)絡(luò)的反饋計算獲得自適應(yīng)的注意力矩陣.因為它是無監(jiān)督的,所以會生成一些背離預期的結(jié)果.針對這個問題,本文提出一種監(jiān)督式的空間注意力機制FIRE-Attention,通過檢測器的標簽值生成一組二值圖像標簽來監(jiān)督獲得的注意力矩陣.
FIRE-DET模型的損失函數(shù)在YOLO-head的損失函數(shù)的基礎(chǔ)上增加了FIRE-DET模型中FIRE-Attention的損失值.圖5的右圖為圖像分割的注意力圖.
為了提高圖像分割網(wǎng)絡(luò)提取的注意力圖的準確性,將BiFPN-mini網(wǎng)絡(luò)輸出的特征圖進行反卷積,與卷積后得到的注意力圖和火焰對象的二值圖像通過將圖像與圖像長寬1/4大小的卷積核進行平均卷積,來獲取類似人眼關(guān)注事物的注意力圖像之間定義一個損失函數(shù),如圖6所示.
損失函數(shù)(L)計算如下:
z(i,j)=∑k,jm(i+k,j+l)n(k,j),
L=max(x,0)-x×z+log(1+e-abs(x)),(8)
其中m為火焰目標二值圖像,n為均值濾波,x為圖像分割網(wǎng)絡(luò)輸出的注意力圖,i和j分別代表圖像的x軸與y軸坐標,k和l分別代表卷積核的x軸與y軸坐標,z為火焰目標二值圖像進行均值濾波處理后的特征圖.將圖像分割網(wǎng)絡(luò)輸出的3個注意力圖,分別與標記火焰的二值圖像使用上述損失函數(shù)進行反饋計算,并將L與YOLO-head損失函數(shù)的和作為FIRE-DET模型的損失函數(shù),可以使網(wǎng)絡(luò)的損失函數(shù)快速下降并達到收斂.
2 實驗與分析
2.1 火焰數(shù)據(jù)集
由于火災檢測研究尚處于初始階段,目前沒有較為完整和權(quán)威的公開火災視頻數(shù)據(jù)庫.本文中的訓練數(shù)據(jù)集是通過收集互聯(lián)網(wǎng)上的圖,然后根據(jù)PASCAL VOC的格式進行手工標注圖片中的目標得到的,將其中火焰區(qū)域標注為fire,未標注的區(qū)域為背景.圖7為實驗用的火焰場景的圖片.火焰數(shù)據(jù)中含有小目標、多目標和類火焰數(shù)據(jù).在研究過程中使用的數(shù)據(jù),可聯(lián)系筆者獲?。?/p>
2.2 實驗過程
本文實驗所用機器的基本配置為 GPU:GTX 1080 Ti,CPU:i5-7500,內(nèi)存16 GB,操作系統(tǒng)為Window10,使用深度學習中的 tensorflow框架.對模型使用動量為0.9、權(quán)重衰減為1e-8的Adam優(yōu)化器進行訓練,并使用裁剪、縮放、翻轉(zhuǎn)與增減對比度增強數(shù)據(jù).
在實驗過程中,在遵循控制變量的原則下,各算法都在相同環(huán)境、相同訓練集中訓練100個周期,然后進行檢測實驗驗證FIRE-DET模型的魯棒性.為了驗證本文提出的貢獻點和合理性,還進行了消融實驗與分析.
2.3 評價指標
在模式識別任務(wù)中,真陽性和假陽性的定義如表2所示.如果預測框與地面真值框之間的交并比(IOU)> 0.5,則預測框為“真陽性”(TP),否則,它是“假陽性”(FP).由于圖像中沒有預測到物體的每一部分都被認為是背景,所以測量“真陰性”(TN)是非必要的,故文中只測量“假陰性”(FN)作為模型遺漏的對象(圖8).預測的邊界框是紅色的,火焰目標的真實框是綠色的.
準確率(A)表示預測正確的樣本在所有樣本中占的比例,一般準確率越高分類器越好.此外,精確度(P)和召回率(R)也是算法評價的兩個重要指標.在分類任務(wù)中,一個類的精確度是真陽性數(shù)除以預測并標記為屬于陽性類的元素總數(shù).召回率的定義是真陽性數(shù)除以實際屬于陽性類的元素總數(shù).準確率、精確度和召回率的定義如下:
A=TP+TNTP+TN+FP+TN,(9)
P=TPTP+FP,(10)
R=TPTP+FN.(11)
2.4 實驗結(jié)果
實驗中用到的驗證數(shù)據(jù)集來源如表3所示,圖9是在驗證數(shù)據(jù)集下使用FIRE-DET模型對火焰進行檢測后的部分效果圖.由于模型的魯棒性與數(shù)據(jù)增強的優(yōu)點,因而對不同形態(tài)和不同顏色(圖9a—c))的火焰檢測效果較好.由于模型本身采用中心點預測的方法,減少了回歸過程中的震蕩幅度,并且在特征提取網(wǎng)絡(luò)中使用Muti-Conv結(jié)構(gòu)構(gòu)建了FIRE-Net網(wǎng)絡(luò)結(jié)合BiFPN-mini提取多尺度特征,提升了檢測器對火焰特征的提取效果,所以對于火焰形態(tài)較小的目標(圖9d—f)),該模型亦能夠有效地提供更精確的定位.對擁有多個目標的圖像(圖9g—i)也能快速檢測.在面對類火焰的對象該模型也不會產(chǎn)生虛檢(圖9j—l)),這是因為模型中FIRE-Attention結(jié)構(gòu)能通過監(jiān)督的方式抑制模型對非火焰物體誤檢的概率.FIRE-DET模型對不同場景下不同長寬比的火焰展現(xiàn)出了較高的適應(yīng)性,同時對類火焰對象不易產(chǎn)生誤檢,表明本方法對火焰和非火焰視頻擁有良好的檢測效果和魯棒性.
本文將FIRE-DET與先進的檢測器對比它們的準確率、精確率、召回率和檢測速度(FPS),以驗證目標測器的性能,結(jié)果如表4所示,可以發(fā)現(xiàn)FIRE-DET檢測器比其他的檢測器效率更高.YOLOv4-tiny擁有極快的檢測速度并可以部署于移動設(shè)備上,但其在其他評估指標中表現(xiàn)欠佳;Faster R-CNN方法對火焰檢測的效果不好;Dunnings等[10]的方法中雖然檢測效果好,但是檢測速度較低.
本文方法保持較快的速度和較高的準確度,主要是因為基于FIRE-DET模型的火焰檢測方法,采用FIRE-Net增加模型的感受野,并且通過BiFPN-mini網(wǎng)絡(luò)融合多尺度的特征加強了檢測特征的語義信息,因而對不同場景下不同長寬比的火焰
目標的檢測,該模型亦能夠有效地提供更精確的定位.同時,
模型中FIRE-Attention能提高檢測模型的魯棒性,減少檢測過程中假陽性發(fā)生概率.實驗結(jié)果表明,本文模型檢測準確率高達97.42%,檢測速度為85 FPS.基于FIRE-DET模型的檢測方法檢測準確率、召回率和檢測速度均優(yōu)于其他模型.
另外,本文對提出的FIRE-DET網(wǎng)絡(luò)進行了消融實驗,如表5中α表示FIRE-Net網(wǎng)絡(luò)、β表示BiFPN-min網(wǎng)絡(luò)、γ表示FIRE-Attention網(wǎng)絡(luò),實驗中將YOLOv4作為對照組.在第1組實驗中將FIRE-Net網(wǎng)絡(luò)加入實驗中,在添加FIRE-Net網(wǎng)絡(luò)后的模型比對照組模型的精確度提高了約9個百分點,且檢測速度提高了1倍,這主要是因為Muti-Conv提高了模
型對火焰特征的提取效果,其次是因為FIRE-Net網(wǎng)絡(luò)僅使用了3次下采樣,提高了檢測速度.第2組實驗在第1組實驗的基礎(chǔ)上添加了FIRE-Attention網(wǎng)絡(luò),再次提高了模型的檢測準確率,這是由于增加了監(jiān)督式的注意力機制,但是也降低了模型的效率.第3組實驗在第2組實驗的基礎(chǔ)上添加了BiFPN-mini網(wǎng)絡(luò),使模型的檢測速度達到了85 FPS,比第2組實驗的檢測效率提高了1倍.結(jié)果表明,F(xiàn)IRE-DET模型通過FIRE-Net網(wǎng)絡(luò)與FIRE-Attention網(wǎng)絡(luò)可以增加特征提取效果,提高模型檢測的準確率和檢測效率,而BiFPN-mini能加快模型的檢測速度.
3 結(jié)論
為了提高在自然場景下對火焰檢測的檢測速度,本文從模型檢測效率出發(fā),結(jié)合注意力機制和卷積神經(jīng)網(wǎng)絡(luò)在特征提取上的優(yōu)勢,提出了一種基于FIRE-DET的火焰檢測方法.在主干網(wǎng)絡(luò)中利用多個卷積核進行卷積提高模型感受野,在特征融合網(wǎng)絡(luò)中利用簡單的雙向結(jié)構(gòu)提取更多的特征,最后利用提出的注意力機制提升模型的準確率.實驗結(jié)果表明,在面對小目標、多形態(tài)和多目標時,本文模型均能準確預測.本文模型和現(xiàn)有主流的檢測模型相比,在檢測準確率和速率上表現(xiàn)更佳,達到預期實驗效果.FIRE-DET在消融實驗中也體現(xiàn)了FIRE-Net、BiFPN-mini和FIRE-Attention的優(yōu)點,F(xiàn)IRE-Net、FIRE-Attention可以提高模型的準確率,BiFPN-mini可以提高模型的檢測速度.本文的檢測方法受限于檢測數(shù)據(jù)集,在未來的工作中,將對小樣本數(shù)據(jù)集訓練的問題進行深入研究,進一步提高模型的檢測效果.
參考文獻
References
[1] 張志,許文浩.澳大利亞2019—2020森林火災對我國應(yīng)急管理體系建設(shè)的啟示[J].中國應(yīng)急救援,2020(2):18-22
ZHANG Zhi,XU Wenhao.Emergency management system in China:lessons learned from Australia 2019-2020 bushfires[J].China Emergency Rescue,2020(2):18-22
[2] 張慧珍,嚴云洋,劉以安,等.基于超像素分割與閃頻特征判別的視頻火焰檢測[J].數(shù)據(jù)采集與處理,2018,33(3):512-520
ZHANG Huizhen,YAN Yunyang,LIU Yian,et al.Video flame detection based on super pixel segmentation and flash frequency feature discrimination[J].Journal of Data Acquisition & Processing,2018,33(3):512-520
[3] Gong F M,Li C T,Gong W J,et al.A real-time fire detection method from video with multifeature fusion[J].Computational Intelligence and Neuroscience,2019,2019:1939171
[4] Ko B C,Ham S J,Nam J Y.Modeling and formalization of fuzzy finite automata for detection of irregular fire flames[J].IEEE Transactions on Circuits and Systems for Video Technology,2011,21(12):1903-1912
[5] Gunay O,Toreyin B U,Kose K,et al.Entropy-functional-based online adaptive decision fusion framework with application to wildfire detection in video[J].IEEE Transactions on Image Processing,2012,21(5):2853-2865
[6] Dimitropoulos K,Barmpoutis P,Grammalidis N.Spatio-temporal flame modeling and dynamic texture analysis for automatic video-based fire detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2015,25(2):339-351
[7] Kim B,Lee J.A video-based fire detection using deep learning models[J].Applied Sciences,2019,9(14):2862-2881
[8] Aslan S,Güdükbay U,Treyin B U,et al.Deep convolutional generative adversarial networks for flame detection in video[C]∥Computational Collective Intelligence,2020:807-815
[9] Zhang J M,Zhu H Q,Wang P Y,et al.ATT squeeze U-net:a lightweight network for forest fire detection and recognition[J].IEEE Access,2021,9:10858-10870
[10] Dunnings A J,Breckon T P.Experimentally defined convolutional neural network architecture variants for non-temporal real-time fire detection[C]∥2018 25th IEEE International Conference on Image Processing (ICIP).October 7-10,2018,Athens,Greece.IEEE,2018:1558-1562
[11] Redmon J,F(xiàn)arhadi A.YOLOv3:an incremental improvement [J].arXiv e-print,2018,arXiv:1804.02767
[12] Bochkovskiy A,Wang C Y,Liao H Y Mark.YOLOv4:optimal speed and accuracy of object detection[J].arXiv e-print,2020,arXiv:2004.10934
[13] Jiang Z C,Zhao L Q,Li S Y,et al.Real-time object detection method based on improved YOLOv4-tiny[J].arXiv e-print,2020,arXiv:2011.04244
[14] Ge Z,Liu S T,Wang F,et al.YOLOX:exceeding YOLO series in 2021[J].arXiv e-print,2021,arXiv:2107.08430
[15] 陳西江,安慶,班亞.優(yōu)化EfficientDet深度學習的車輛檢測[J].南京信息工程大學學報(自然科學版),2021,13(6):653-660
CHEN Xijiang,AN Qing,BAN Ya.Optimized EfficientDet deep learning model for vehicle detection [J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2021,13(6):653-660
[16] 梅舒歡,閔巍慶,劉林虎,等.基于Faster R-CNN的食品圖像檢索和分類[J].南京信息工程大學學報(自然科學版),2017,9(6):635-641
MEI Shuhuan,MIN Weiqing,LIU Linhu,et al.Faster R-CNN based food image retrieval and classification[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2017,9(6):635-641
[17] 金嘯宇,尹嬙,倪軍,等.一種基于場景合成和錨點約束的SAR目標檢測網(wǎng)絡(luò)[J].南京信息工程大學學報(自然科學版),2020,12(2):210-215
JIN Xiaoyu,YIN Qiang,NI Jun,et al.SAR target detection network based on scenario synthesis and anchor constraint[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2020,12(2):210-215
[18] He K M,Gkioxari G,Dollr P,et al.Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988
[19] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[20] Zhou X Y,Wang D Q,Krhenbühl P.Objects as points [J].arXiv e-print,2019,arXiv:1904.07850
[21] Tan M X,Le Q V.EfficientNet:rethinking model scaling for convolutional neural networks[J].arXiv e-print,2019,arXiv:1905.11946
[22] Lin T Y,Dollr P,Girshick R,et al.Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944
[23] Liu S,Qi L,Qin H F,et al.Path aggregation network for instance segmentation[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:8759-8768
[24] Ghiasi G,Lin T Y,Le Q V.NAS-FPN:learning scalable feature pyramid architecture for object detection[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:7029-7038
[25] Tan M X,Pang R M,Le Q V.EfficientDet:scalable and efficient object detection[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:10778-10787
[26] Hu J,Shen L,Albanie S,et al.Squeeze-and-excitation networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023
[27] Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[M]∥Computer Vision — ECCV 2018.Cham:Springer International Publishing,2018:3-19
FIRE-DET:an efficient flame detection model
CHEN Haolin1,2 GAO Shangbing1,2 XIANG Lin1 CAI Chuangxin1 WANG Changchun1
1Faculty of Computer and Software Engineering,Huaiyin Institute of Technology,Huaian 223001
2Laboratory for Internet of Things and Mobile Internet Technology of Jiangsu Province,Huaiyin Institute of Technology,Huaian 223001
Abstract In view of the increasing concern on model efficiency in computer vision,this paper proposed several optimization schemes to improve the flame detection models in model efficiency as well as the detection performance.A backbone network (FIRE-Net) was constructed from a multi-convolution combined structure,which can efficiently extract rich flame features from multiple scales.Then an improved weighted bidirectional feature pyramid network (BiFPN-mini) was used to quickly achieve multi-scale feature fusion.In addition,a new attention mechanism (FIRE-Attention) was proposed to make the detector more sensitive to flame characteristics.The above optimizations were combined to develop a new flame detector abbreviated as FIRE-DET,which was then trained on self-built dataset and tested on internet videos.The experimental results showed that the FIRE-DET outperformed mainstream algorithms by its flame recognition accuracy of 97% and frame rate of 85 FPS,thus provides a more common solution to solve the flame detection.
Key words feature extraction;feature fusion;attention mechanism;flame detection