摘 要:火災(zāi)引發(fā)的經(jīng)濟(jì)與人員損傷始終是社會(huì)的棘手問題,迫切需要能夠?qū)崟r(shí)、準(zhǔn)確監(jiān)控火災(zāi)發(fā)生的方案。針對(duì)城市火災(zāi)場景復(fù)雜、目標(biāo)小和定位要求高等問題,提出了一種改進(jìn)YOLOv5 的城市火災(zāi)場景下煙火目標(biāo)檢測算法。整理收集到的網(wǎng)絡(luò)數(shù)據(jù)、構(gòu)建數(shù)據(jù)集,并進(jìn)行數(shù)據(jù)增強(qiáng)。基于YOLOv5s 算法模型,重構(gòu)網(wǎng)絡(luò)結(jié)構(gòu),增加小目標(biāo)檢測層,使模型更加關(guān)注小目標(biāo)的檢測。嵌入了壓縮與激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet),使YOLOv5 模型的檢測精度進(jìn)一步提升。討論了SENet 添加位置的問題。實(shí)驗(yàn)結(jié)果表明,改進(jìn)YOLOv5 算法的精確率達(dá)到了93. 7% ,與原YOLOv5s 相比召回率和平均精確度分別提高了1. 9% 、1. 6% ;在網(wǎng)絡(luò)中添加注意力模塊的位置不同,所產(chǎn)生的模型效果也不同。
關(guān)鍵詞:火災(zāi)檢測;小目標(biāo)樣本;YOLOv5;壓縮與激勵(lì)網(wǎng)絡(luò)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)06-1454-08
0 引言
目前,在火災(zāi)安全防護(hù)及檢測相關(guān)領(lǐng)域研究中,對(duì)于自然火災(zāi)已探索出了及時(shí)、有效的監(jiān)控和解決方法。但隨著經(jīng)濟(jì)發(fā)展,城鎮(zhèn)化、工業(yè)化快速推進(jìn),居民火災(zāi)多發(fā),造成了不可估量的損失。據(jù)國家應(yīng)急管理部2022 年1—9 月統(tǒng)計(jì)顯示,全國共接報(bào)火災(zāi)63. 68 萬起,其中電氣火災(zāi)在火災(zāi)總數(shù)中占比最高[1]。因此,迫切需要整合人工智能、大數(shù)據(jù)等領(lǐng)域的技術(shù),研究自動(dòng)火災(zāi)監(jiān)控方法,做到快速檢測、降低成本、更好地應(yīng)對(duì)檢測環(huán)境雜亂,解決火災(zāi)監(jiān)測準(zhǔn)確率偏低和漏報(bào)率偏高等問題。
傳統(tǒng)的火災(zāi)特征提取,無論是最初的對(duì)單一特征進(jìn)行提取,還是對(duì)多特征進(jìn)行融合,都具有很強(qiáng)的主觀性,且泛化性不高,無法適應(yīng)不同的環(huán)境。近年來,結(jié)合深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)等飛速發(fā)展,已廣泛應(yīng)用于實(shí)際生活中。本文基于深度學(xué)習(xí)的目標(biāo)檢測,由機(jī)器自主學(xué)習(xí)提取煙火特征,更具有研究價(jià)值?,F(xiàn)階段基于深度學(xué)習(xí)的目標(biāo)檢測算法可分為兩大類[2]:一類是一階段目標(biāo)檢測算法,主要代表算法有SSD[3]、YOLO[4]、YOLOv3[5]、YOLOv5 等,這類方法直接在圖像上獲取目標(biāo)特征信息,進(jìn)而預(yù)測目標(biāo)的位置和分類,無需提前生成候選區(qū)域;另一類是在目標(biāo)檢測過程中分兩步完成,首先在圖片上生成預(yù)選框,然后再對(duì)目標(biāo)進(jìn)行分類或預(yù)測,該方法也稱為兩階段目標(biāo)檢測算法,代表算法有R-CNN、FastR-CNN[6]、Faster R-CNN[7]等。
目前已有眾多學(xué)者在火災(zāi)檢測領(lǐng)域做了相關(guān)研究。寧陽等[8]通過在DeeplabV3 +的解碼器部分增加低層特征來源,從而保留更多的細(xì)節(jié)信息,實(shí)現(xiàn)更加準(zhǔn)確的火焰分割;然后將火焰視頻每幀分割得到的像素?cái)?shù)組成火勢發(fā)展序列,基于關(guān)鍵點(diǎn)對(duì)序列進(jìn)行分段和線性擬合,獲取火勢發(fā)展的關(guān)鍵趨勢。常麗等[9] 采用K-means 重新計(jì)算錨框尺寸,在YOLOv5s 基礎(chǔ)上融合SRGAN 算法,引入了CBAM[10]注意力機(jī)制模塊和梯度均衡機(jī)制,針對(duì)隧道火災(zāi)得到了較好的檢測效果。喻麗春等[11]改進(jìn)Mask R-CNN 算法,在其特征金字塔引入一條自下向上的特征融合,同時(shí)改進(jìn)了損失函數(shù),使火焰圖像識(shí)別邊框定位更準(zhǔn)確。章曙光等[12]利用二維Haar小波變換提取火災(zāi)圖像的煙火紋理光譜特征,并在YOLOv5 模型中使用嵌入CA 機(jī)制的CAC3 模塊,提升了火災(zāi)場景下的煙火檢測性能。
本文的典型應(yīng)用場景為城市環(huán)境下建筑電氣火災(zāi),電線或電氣設(shè)備著火時(shí)一般是在其內(nèi)部,火災(zāi)情況隨機(jī)性大,隱蔽性強(qiáng)。該場景下圖片背景豐富,存在遮擋現(xiàn)象,隨著煙霧擴(kuò)散會(huì)使特征模糊,火焰初期閃爍、面積小,導(dǎo)致檢測目標(biāo)較小。因此該場景下無論是外部拍照檢測,還是攝像頭采集畫面檢測,都是較為困難的。
由于煙火小目標(biāo)對(duì)象分辨率低、像素占比小,在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時(shí)局限性大,不足以對(duì)小目標(biāo)進(jìn)行表達(dá)[13]。在多次下采樣過程中,特征圖尺寸將會(huì)不斷減小,使小目標(biāo)的特征提取難度繼續(xù)加大,甚至出現(xiàn)嚴(yán)重的誤檢、漏檢現(xiàn)象。
近兩年,也有許多學(xué)者為解決小目標(biāo)檢測的問題,將YOLO 系列算法進(jìn)行改進(jìn)。牛為華等[14]針對(duì)道路小目標(biāo),在YOLOv5 特征融合部分采用了雙線性插值上采樣方法和CBAM 注意力機(jī)制模塊。韓俊等[15]面對(duì)無人機(jī)密集小目標(biāo)檢測,構(gòu)造了多尺度特征提取模塊。劉展威等[16]則選擇了在主干網(wǎng)絡(luò)中添加CA 模塊、修改損失函數(shù)等方案。以上研究都取得了較好的效果,可見改進(jìn)YOLO 系列模型確實(shí)可為小目標(biāo)檢測提供新思路,因此本文研究如下:
① 在YOLOv5 系列算法中選用YOLOv5s 作為本實(shí)驗(yàn)的基礎(chǔ)模型,提出了一種應(yīng)用于城市室外火災(zāi)檢測的改進(jìn)YOLOv5 算法,改進(jìn)后的模型檢測效果較好,精確率達(dá)到了93. 7% 。
② 對(duì)YOLOv5 算法網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),將原始的3 層檢測層擴(kuò)展到4 層,讓網(wǎng)絡(luò)更加關(guān)注小目標(biāo)的檢測,提高了算法在煙火密集場景下的表現(xiàn)。
③ 為解決煙火目標(biāo)檢測的精度低等問題,插入了壓縮與激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet),分別在特征提取和特征融合部分以不同形式加入SENet,探索了本實(shí)驗(yàn)SENet 插入的最優(yōu)位置在Backbone 最后一層。
由實(shí)驗(yàn)結(jié)果可知,改進(jìn)YOLOv5 算法在煙火檢測中各評(píng)價(jià)指標(biāo)更優(yōu),檢測煙火類別的召回率和平均精確度值提升明顯。
1 YOLOv5 概述
YOLO 系列是目前最熱門的目標(biāo)檢測算法,其YOLOv5 模型具有高效、準(zhǔn)確、實(shí)時(shí)等優(yōu)點(diǎn),在目標(biāo)檢測領(lǐng)域已被廣泛應(yīng)用[17-19]。YOLOv5 模型主要由輸入端、Backbone、Neck 和Head 四部分組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。其中Backbone 部分主要負(fù)責(zé)輸入圖像的特征提??;Neck 負(fù)責(zé)對(duì)特征圖進(jìn)行多尺度特征融合,并把特征傳遞給預(yù)測層;Head 進(jìn)行最終的回歸預(yù)測。
輸入端:本文采用Mosaic 數(shù)據(jù)增強(qiáng),每組選?。?張圖片,進(jìn)行隨機(jī)縮放、旋轉(zhuǎn)后進(jìn)行拼貼,最終將其看成一個(gè)新的輸入圖像,很大程度上擴(kuò)充了訓(xùn)練集當(dāng)中小目標(biāo)的數(shù)量。使用自適應(yīng)圖片縮放操作將輸入的不同尺寸圖像統(tǒng)一縮放至640 pixel× 640 pixel。
Backbone:本文以YOLOv5s 為例,原始的640 pixel× 640 pixel×3 的圖像經(jīng)Focus 模塊切片操作,最終變成320 pixel× 320 pixel× 32 的特征圖。Backbone 的特征提取結(jié)構(gòu)由C3、Conv 和SPPF 模塊組成。其中,在YOLOv5 模型中使用了大量的C3 模塊。C3 模塊在結(jié)構(gòu)作用上基本相同于CSP 架構(gòu),由2 個(gè)分支組成,將數(shù)據(jù)分為兩部分,一部分為經(jīng)過殘差結(jié)構(gòu)和卷積層處理的圖像,將這部分?jǐn)?shù)據(jù)與未經(jīng)過處理的那部分進(jìn)行拼接,最終再進(jìn)行一次卷積得到輸入結(jié)果。C3 模塊很大程度上增加了網(wǎng)絡(luò)的深度和感受野,提高了網(wǎng)絡(luò)特征提取的能力。
Neck:YOLOv5 在Neck 部分使用了特征金字塔(Feature Pyramid Network,PPN)+ 路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)結(jié)構(gòu)。FPN[20]是一個(gè)自頂向下的特征金字塔,越上層的featuremap 經(jīng)過不斷地卷積操作,攜帶有越強(qiáng)的紋理、顏色等語義特征,而在定位信息等特征上相對(duì)較弱。YOLOv5針對(duì)該特點(diǎn),添加了PAN 結(jié)構(gòu),將低層的定位信息由下至上傳遞,這樣構(gòu)成的新金字塔結(jié)構(gòu),同時(shí)具備了語義特征信息與定位特征信息。
Head:采用CIOU_LOSS 作為邊界框的損失函數(shù)和非極大值抑制(NonMaximum Suppression,NMS)用于抑制檢測時(shí)冗余的框。
2 改進(jìn)YOLOv5 的火災(zāi)檢測算法
2. 1 算法框架
本文針對(duì)小目標(biāo)檢測存在的問題,分別從兩方面對(duì)YOLOv5 算法進(jìn)行改進(jìn):第一,增加一個(gè)小目標(biāo)檢測層,利用淺層特征層中包含的豐富的語義及位置信息精確定位識(shí)別小目標(biāo);第二,在Backbone 主干網(wǎng)絡(luò)的最后一層插入SENet 模塊,加強(qiáng)通道特征。改進(jìn)的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2. 2 小目標(biāo)檢測層
在本文中,YOLOv5 模型針對(duì)煙火小目標(biāo)的檢測效果并不理想。這是由于YOLOv5 模型的下采樣倍數(shù)較大,目標(biāo)的局部細(xì)節(jié)特征產(chǎn)生損失,甚至出現(xiàn)了小目標(biāo)信息丟失的情況。因此,本文提出了增加小目標(biāo)檢測層,讓網(wǎng)絡(luò)更加關(guān)注煙火類小目標(biāo),使小目標(biāo)的位置信息和特征細(xì)節(jié)更詳細(xì),提高檢測效果。
具體來說,修改了特征融合網(wǎng)絡(luò),增加了一組較小的先驗(yàn)框,接著在原有模型基礎(chǔ)上,繼續(xù)對(duì)特征圖進(jìn)行上采樣等處理,使特征圖繼續(xù)擴(kuò)大,同時(shí)將獲取到的160 pixel×160 pixel 的特征圖與骨干網(wǎng)絡(luò)中的第二層特征圖進(jìn)行Concat 融合,以獲取更大的特征圖,對(duì)于本文的煙火小目標(biāo)檢測有著很好的改善。
2. 3 SENet
SENet[21]的目的在于通過建模顯示表示各通道之間的相互依賴性,從而實(shí)現(xiàn)強(qiáng)調(diào)有用特征、抑制無用特征的效果。SENet 作為輕量級(jí)的注意力機(jī)制,具有即插即用、結(jié)構(gòu)簡單的特點(diǎn),僅會(huì)小幅度增加網(wǎng)絡(luò)的運(yùn)算量。SENet 結(jié)構(gòu)如圖3 所示。
SENet 是一種用于對(duì)卷積神經(jīng)網(wǎng)絡(luò)中通道維度的特征進(jìn)行加權(quán)的方法。其中,SENet 包括2 個(gè)重要的操作:Squeeze 和Excitation。
Squeeze 操作使用全局平均池化將每個(gè)通道上的特征壓縮成一個(gè)全局特征向量,具體操作是通過每個(gè)通道的信息(W×H)轉(zhuǎn)化成1 個(gè)數(shù)值即1 個(gè)像素(1×1),當(dāng)中的每一個(gè)數(shù)值都具有該通道的全局感受野。Squeeze 操作如下:
式中:H、W、C 為圖片的長、寬、維度,uc 為給定的H×W×C 的輸入,Zc 為擠壓后得到的1×1×C 的輸出。
Excitation 操作由2 個(gè)全連接層組成,用于對(duì)通道維度的特征進(jìn)行加權(quán)。第一個(gè)全連接層使用ReLU 激活函數(shù),ReLU 激活函數(shù)在輸入為正數(shù)時(shí)直接輸出,而輸入為負(fù)數(shù)時(shí)輸出為0,從而實(shí)現(xiàn)了非線性的特征變換和篩選。第二個(gè)全連接層使用Sigmoid 函數(shù),目的是將通道的數(shù)值規(guī)范到(0,1),這個(gè)數(shù)值代表了各個(gè)通道在最終權(quán)重的占比,進(jìn)而得到不同通道的激活值,最終實(shí)現(xiàn)了跨通道之間的交互作用。Excitation 操作如下:
s = Fex(z,W) = σ(W2 δ(W1 z)), (2)
式中:W1 為降維矩陣,W2 為升維矩陣,δ 為ReLU 激活函數(shù),σ 為Sigmoid 激活函數(shù)。
該部分共進(jìn)行了3 組SENet 添加位置對(duì)比實(shí)驗(yàn)。這3 組對(duì)比實(shí)驗(yàn)的目的是評(píng)估并比較添加SENet 與YOLOv5s 的基準(zhǔn)模型之間的性能差異,以及驗(yàn)證SENet 在不同層次的性能表現(xiàn)。
在第1 組實(shí)驗(yàn)中,選擇在Backbone 的C3 模塊中插入SENet。在第2 組實(shí)驗(yàn)中,選擇在模型的Backbone 的最后一層添加SENet。目的在于讓模型在學(xué)習(xí)過程中盡早受益于注意力機(jī)制的加強(qiáng),模型可以更早地聚焦于輸入數(shù)據(jù)中的關(guān)鍵特征,并在后續(xù)的學(xué)習(xí)過程中更好地利用這些重要特征。第3 組實(shí)驗(yàn)在模型的Neck 中引入SENet。由于在模型的深層次中,包含了煙火類目標(biāo)更加抽象和高級(jí)的特征信息,本文試圖在較深層次引入SENet,以此提高模型在深層次特征方面的學(xué)習(xí)能力。
3 數(shù)據(jù)獲取與評(píng)價(jià)指標(biāo)
3. 1 實(shí)驗(yàn)環(huán)境
本文所使用的實(shí)驗(yàn)配置環(huán)境如下:CPU 配置為13th Gen Intel(R)Core(TM)i9-13900KF;GPU 配置為NVIDIA GeForce RTX 4090,24 GB 顯存;操作系統(tǒng)為Windows 10;深度學(xué)習(xí)框架為PyTorch1. 7. 0;調(diào)用GPU 進(jìn)行訓(xùn)練,模型學(xué)習(xí)率為0. 01,學(xué)習(xí)動(dòng)量為0. 937,訓(xùn)練epochs 選用300。
3. 2 實(shí)驗(yàn)數(shù)據(jù)集
本文通過網(wǎng)絡(luò)爬蟲等方式構(gòu)建數(shù)據(jù)集。該數(shù)據(jù)集共計(jì)6 940 張圖片,包含火和煙2 類目標(biāo),類別數(shù)量分別為14 537 和21 045。
將數(shù)據(jù)集按照8 ∶ 1 ∶ 1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,其中驗(yàn)證集為模型多次調(diào)參提供反饋信號(hào),但訓(xùn)練模型會(huì)對(duì)驗(yàn)證集過擬合,所以仍需測試集來評(píng)估模型。
3. 3 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)增強(qiáng)
首先采用YOLO 中Mosaic 數(shù)據(jù)增強(qiáng)策略,將4 張圖片進(jìn)行拼接,組合成一張圖片,增加了數(shù)據(jù)的多樣性,同時(shí)也使每個(gè)樣本會(huì)有更大概率包含小目標(biāo),提升小目標(biāo)檢測性能?;旌希?張具有不同語義信息的圖片,讓模型檢測超出常規(guī)語境的目標(biāo),增加了模型的魯棒性。
其次采用Python 的ImageEnhance 庫實(shí)現(xiàn)對(duì)數(shù)據(jù)的增強(qiáng)。本文進(jìn)行的數(shù)據(jù)增強(qiáng)包括以下幾種方式:對(duì)隨機(jī)25% 的圖像進(jìn)行圖像翻轉(zhuǎn),對(duì)隨機(jī)25%的圖像進(jìn)行90°旋轉(zhuǎn),對(duì)隨機(jī)25% 的圖像進(jìn)行對(duì)比度為5 的數(shù)據(jù)增強(qiáng)。初始圖與增強(qiáng)圖對(duì)比如圖4所示。
(2)目標(biāo)標(biāo)注與文件轉(zhuǎn)換
選用矩形框?qū)D片中的火焰與煙霧進(jìn)行標(biāo)注,標(biāo)注結(jié)束后在精靈標(biāo)注助手中選擇. xml 文件導(dǎo)出,文件內(nèi)容包含圖片大小,以及每個(gè)檢測框內(nèi)的對(duì)象名與對(duì)象位置信息。其中實(shí)驗(yàn)所需要關(guān)注的主要信息為對(duì)象名及位置。接下來將. xml 文件中的類別和坐標(biāo)信息提取出來,轉(zhuǎn)化成txt 格式的標(biāo)簽,其中每一行由5 個(gè)數(shù)據(jù)組成,第一個(gè)數(shù)據(jù)代表種類,后面4 個(gè)數(shù)據(jù)代表坐標(biāo)。本文實(shí)驗(yàn)中0 代表火,1 代表煙。文件轉(zhuǎn)換示例如圖5 所示。
3. 4 評(píng)價(jià)標(biāo)準(zhǔn)
通過評(píng)價(jià)指標(biāo)可直接反映經(jīng)過訓(xùn)練后的模型性能。本文選取精確率(Precision,P )、召回率(Recall,R)、平均精確率(mean Average Precision,mAP)作為學(xué)習(xí)模型的評(píng)價(jià)指標(biāo)。
準(zhǔn)確率:檢測結(jié)果為煙霧與火焰當(dāng)中,預(yù)測對(duì)的結(jié)果占全部檢測結(jié)果為煙霧與火焰的比例。
P = TP/TP + FP, (3)
式中:TP 表示預(yù)測框檢測為正樣本且檢測正確,FP表示將背景預(yù)測為檢測目標(biāo)。
召回率:要檢測的煙霧與火焰目標(biāo)是否被成功檢測到。
Recall = TP/TP + FN, (4)
式中:FN 表示未成功將物品檢測出來,將其當(dāng)成了背景。
平均精確率:由煙霧與火焰的平均準(zhǔn)確率相加求均值。
4 實(shí)驗(yàn)結(jié)果與分析
4. 1 不同網(wǎng)絡(luò)架構(gòu)下YOLOv5 算法對(duì)比實(shí)驗(yàn)
未檢驗(yàn)選擇訓(xùn)練模型的合理性,設(shè)計(jì)了對(duì)比試驗(yàn),在每個(gè)YOLO 系列算法官方都會(huì)提供多個(gè)預(yù)訓(xùn)練模型,基于本文預(yù)處理后的數(shù)據(jù),選用YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 四個(gè)不同版本結(jié)構(gòu)做對(duì)比實(shí)驗(yàn),每個(gè)版本的模型大小、檢測速度和精確率各不相同。檢測效果對(duì)比如表1 所示,與其他結(jié)構(gòu)相比,YOLOv5s 網(wǎng)絡(luò)模型的體積更小,檢測精確率最高;相較于YOLOv5m,雖然YOLOv5s 網(wǎng)絡(luò)的召回率略低,但模型體積下降了約66% ,模型較輕量。總之,因其檢測效果佳、速度快和易部署,本文選擇YOLOv5s 作為訓(xùn)練模型是合理的。
4. 2 SENet 對(duì)比實(shí)驗(yàn)
為驗(yàn)證SENet 添加的有效性和添加SENet 的模型在深層次的學(xué)習(xí)能力,本文依據(jù)SENet 的添加位置不同,設(shè)計(jì)了3 個(gè)對(duì)比實(shí)驗(yàn)。分別將SENet 融入C3 模塊中,以及2 組在不同位置添加SENet 的模型進(jìn)行訓(xùn)練,檢測結(jié)果如表2 所示。
與YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練效果相比,SENet1 -YOLOv5 實(shí)驗(yàn)中3 個(gè)評(píng)價(jià)指標(biāo)均下降了,P 僅有90. 4% ,R 為78. 5% ,mAP 為86. 4% 。在SENet2 -YOLOv5 改進(jìn)實(shí)驗(yàn)中,P 提高了1. 2% ,R 和mAP 分別提高了0. 5% 和0. 2% ,可看出在Backbone 添加SENet 后,模型性能有所提高。在SENet3 -YOLOv5改進(jìn)實(shí)驗(yàn)中,P 降低了0. 3% ,R 降低了0. 8% ,mAP降低了0. 1% 。因此,本實(shí)驗(yàn)在C3 模塊和Neck 層添加SENet 的方式,使模型性能不升反降。3 組對(duì)比試實(shí)驗(yàn)中,SENet2 -YOLOv5 檢測效果最好。可見,本實(shí)驗(yàn)并不是在越深層添加注意力機(jī)制,模型的檢測效果越好,即本實(shí)驗(yàn)?zāi)P偷膶W(xué)習(xí)能力與注意力機(jī)制放置深度并不存在必然關(guān)系,仍然存在注意力提取和施加位置不對(duì)的可能。推測原因有以下2 點(diǎn):
① 本文研究對(duì)象為煙火類小目標(biāo),網(wǎng)絡(luò)層次越深小目標(biāo)保留的語義信息越少??赏茰y小目標(biāo)的語義信息在深層次存在丟失的可能,注意力機(jī)制未能完成特征的重組。
② 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多次下采樣后細(xì)節(jié)信息丟失。
4. 3 消融實(shí)驗(yàn)
為了驗(yàn)證本文對(duì)YOLOv5 算法所做的各項(xiàng)改進(jìn)對(duì)城市火災(zāi)下煙火檢測的影響,對(duì)各處改進(jìn)點(diǎn)進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果如表3 所示,“√”代表添加此模塊。由表3 可以看出,在YOLOv5s 模型關(guān)閉了數(shù)據(jù)預(yù)處理中的數(shù)據(jù)增強(qiáng)后,評(píng)價(jià)指標(biāo)P 和mAP都有所下降。這也證明了數(shù)據(jù)增強(qiáng)的有效性,提高了模型的魯棒和泛化性。在增加小目標(biāo)檢測層后,模型的R 和mAP 分別提高了2. 5% 、0. 7% ,但檢測精確度為89. 7% ,較改進(jìn)前大大降低。在最終改進(jìn)YOLOv5 實(shí)驗(yàn)中,各評(píng)價(jià)指標(biāo)均有所提高,P 為93. 7% ,雖然不敵SENet2 -YOLOv5 模型的精確度,但是克服了添加小目標(biāo)檢測層后精確度不高的問題,R 較改進(jìn)前也提高了1. 9% 。該方法的mAP 值達(dá)到了89. 8% ,在所有對(duì)比實(shí)驗(yàn)中最高。
4. 4 改進(jìn)算法檢測效果實(shí)驗(yàn)
為更加直觀地展示改進(jìn)YOLOv5 在城市火災(zāi)場景下的煙火檢測效果,本文隨機(jī)選取測試集中多張圖片進(jìn)行檢測。原標(biāo)注圖像和改進(jìn)YOLOv5 檢測結(jié)果如圖6 所示??梢钥闯?,在密集標(biāo)簽下,該模型也能達(dá)到較好的檢測效果。改進(jìn)后的模型既保持了原模型對(duì)大目標(biāo)檢測效果,又提高了對(duì)小目標(biāo)的檢測能力。
5 結(jié)束語
本文在城市建筑電氣等火災(zāi)檢測中,能準(zhǔn)確識(shí)別出煙火目標(biāo),為遠(yuǎn)程實(shí)時(shí)監(jiān)控滅火提供了技術(shù)參考。在對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)操作后,提出了改進(jìn)YOLOv5 算法。優(yōu)化了網(wǎng)絡(luò)模型,增加了小目標(biāo)檢測層,該預(yù)測特征層通過將高層語義信息和低層傳遞的位置信息進(jìn)行有效融合來預(yù)測本文的煙火小目標(biāo),然后用SENet 進(jìn)一步提升模型檢測能力,并討論了3 種SENet 的添加位置的檢測效果。最后,經(jīng)添加小目標(biāo)檢測層和SENet 的改進(jìn)YOLOv5 模型整體效果要優(yōu)于YOLOv5 等目標(biāo)檢測方法。
本文在實(shí)現(xiàn)城市建筑電氣火災(zāi)等場景下的煙火檢測過程中,仍存在漏檢行為,煙類目標(biāo)的漏檢考慮與背景相關(guān),還需進(jìn)一步處理,因此檢測效果還有提高的空間。改進(jìn)后的模型體積雖無較大增長,但如何壓縮模型體積、使模型更加精簡以及提高檢測模型的有效性和高效性依舊是需要考慮的問題。
參考文獻(xiàn)
[1] 應(yīng)急管理部舉行習(xí)近平總書記向國家綜合性消防救援隊(duì)伍授旗致訓(xùn)詞4 周年專題新聞發(fā)布會(huì)[Z / OL].(2022-10-31)[2023-07-10]. https:∥www. mem. gov.cn / xw / xwfbh / 2022n10y31rxwfbh / wzsl_4260 / 202210 / t20221031_425195. shtml.
[2] 劉穎,劉紅燕,范九倫,等. 基于深度學(xué)習(xí)的小目標(biāo)檢測研究與應(yīng)用綜述[J]. 電子學(xué)報(bào),2020,48 (3 ):590-601.
[3] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot MultiBox Detector [C ]∥ Computer VisionECCV2016. Amsterdam:Springer,2016:21-37.
[4] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection [EB /OL]. (2015 - 06 - 08)[2023 - 07 - 11]. https:∥ arxiv.org / abs / 1506. 02640.
[5] REDMON J,FARHADI A. YOLOv3:An Incremental Improvement[EB / OL]. (2018 - 04 - 08)[2023 - 07 - 11].https:∥arxiv. org / abs / 1804. 02767.
[6] GIRSHICK R. Fast RCNN[C]∥2015 IEEE InternationalConference on Computer Vision (ICCV). Santiago:IEEE,2015:1440-1448.
[7] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(6):1137-1149.
[8] 寧陽,杜建超,韓碩,等. 改進(jìn)DeeplabV3 +的火焰分割與火情分析方法[J]. 西安電子科技大學(xué)學(xué)報(bào),2021,48(5):38-46.
[9] 常麗,張雪,蔣輝,等. 融合YOLOv5s 與SRGAN 的實(shí)時(shí)隧道火災(zāi)檢測[J]. 電子測量與儀器學(xué)報(bào),2022,36(8):223-230.
[10] WOO S,PARK J,LEE J Y,et al. CBAM:ConvolutionalBlock Attention Module[C]∥15th European Conferenceon Computer Vision. Munich:Springer,2018:3-19.
[11] 喻麗春,劉金清. 基于改進(jìn)Mask RCNN 的火焰圖像識(shí)別算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56 (21 ):194-198.
[12] 章曙光,唐銳,邵政瑞,等. 一種基于小波變換的YOLOv5 火災(zāi)檢測改進(jìn)算法[J]. 無線電工程,2023,53(10):2303-2310.
[13] 劉洪江,王懋,劉麗華,等. 基于深度學(xué)習(xí)的小目標(biāo)檢測綜述[J ]. 計(jì)算機(jī)工程與科學(xué),2021,43 (8 ):1429-1442.
[14] 牛為華,殷苗苗. 基于改進(jìn)YOLO v5 的道路小目標(biāo)檢測算法[J]. 傳感技術(shù)學(xué)報(bào),2023,36(1):36-44.
[15] 韓俊,袁小平,王準(zhǔn),等. 基于YOLOv5s 的無人機(jī)密集小目標(biāo)檢測算法[J]. 浙江大學(xué)學(xué)報(bào)(工學(xué)版),2023,57(6):1224-1233.
[16] 劉展威,陳慈發(fā),董方敏. 基于YOLOv5s 的航拍小目標(biāo)檢測改進(jìn)算法研究[J]. 無線電工程,2023,53 (10):2286-2294.
[17] 賈志,李茂軍,李婉婷. 基于改進(jìn)YOLOv5+DeepSort 算法模型的交叉路口車輛實(shí)時(shí)檢測[J]. 計(jì)算機(jī)工程與科學(xué),2023,45(4):674-682.
[18] 汪穎,王峰,李瑋,等. 用于復(fù)雜環(huán)境下果蔬檢測的改進(jìn)YOLOv5 算法研究[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2023,44(1):185-191.
[19] 楊國亮,楊浩,余帥英,等. 改進(jìn)YOLOv5 的交通標(biāo)志檢測算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59 (10 ):262-269.
[20] LIN T Y,DOLL?R P,GIRSHICK R,et al. FeaturePyramid Networks for Object Detection[C]∥2017 IEEEConference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:936-944.
[21] HU J,SHEN L,ALBANIE S,et al. SqueezeandExcitationNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2020,42(8):2011-2023.
作者簡介
武 慧 女,(1988—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺、圖像處理與深度學(xué)習(xí)。
楊玉竹 女,(2000—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺、圖像處理與深度學(xué)習(xí)。
卜顯峰 男,(1966—),高級(jí)農(nóng)藝師。主要研究方向:植物保護(hù)、計(jì)算機(jī)視覺。
(*通信作者)曹麗英 女,(1978—),博士,教授,碩士生導(dǎo)師。
主要研究方向:計(jì)算機(jī)視覺、圖像處理與深度學(xué)習(xí)。
基金項(xiàng)目:國家自然科學(xué)基金(U19A2061);吉林省科技廳中青年科技創(chuàng)新創(chuàng)業(yè)卓越人才(團(tuán)隊(duì))項(xiàng)目(創(chuàng)新類)(20220508133RC);吉林省科技發(fā)展計(jì)劃項(xiàng)目(20210404020NC)