基于SSD和光流法的煙火檢測

2022-07-25 09:42李宏

現(xiàn)代計算機 2022年9期

李宏

（西南交通大學計算機與人工智能學院，成都 610000）

0 引言

世界各地每天都會發(fā)生數(shù)百起火災(zāi)，嚴重影響到人類的生命和財產(chǎn)安全。因此，對煙火的實時監(jiān)測變得尤其重要，及時檢測出煙火能在很大程度上減少火災(zāi)帶來的損失。視頻相對靜態(tài)圖像包含更加豐富和復雜的信息，同時隨著監(jiān)控攝像頭的普及，視頻數(shù)據(jù)也越來越容易獲取到。相對于靜態(tài)圖像的煙火檢測，我們能夠利用視頻里煙火的動態(tài)特性來降低煙火檢測的誤識別。

傳統(tǒng)的基于視頻的煙火檢測方法主要是利用一些運動檢測方法來提取出煙火的疑似區(qū)域，然后訓練一個機器學習分類器或者深度卷積神經(jīng)網(wǎng)絡(luò)來判斷該候選區(qū)域中是否出現(xiàn)煙火。這類方法存在以下問題：①在復雜的場景中，通過運動檢測方法提取出來的區(qū)域會變得特別多，這導致如果對每一個候選區(qū)域都進行識別判斷，將很難做到實時處理；②跟煙火外形相似的物體很容易被誤識別成煙火，而這些對于火災(zāi)防控尤其重要。在本文的工作中，使用SSD檢測模型和光流法來解決上述存在的問題。

SSD 在目標檢測中得到了廣泛的應(yīng)用，多尺度和一階段的檢測框架使得其能夠?qū)崿F(xiàn)高準確率和高效率。與傳統(tǒng)方法使用運動檢測方法得到煙火候選區(qū)域不同的是，本文首先通過SSD 檢測網(wǎng)絡(luò)檢測出煙火候選框，然后基于熱空氣向上流動的理論，利用相鄰幀的煙火候選框和光流法來進一步判斷該候選框是否存在煙火。與其他方法相比，本文提出的檢測框架能夠取得更好的效果，同時有著更快的檢測速度。

1 相關(guān)工作

1.1 煙火檢測

基于深度學習的煙火檢測算法最先是基于簡單的卷積網(wǎng)絡(luò)實現(xiàn)煙火的分類識別。Khan等權(quán)衡了檢測的準確性和效率，采用VGG-16卷積神經(jīng)網(wǎng)絡(luò)作為Baseline 進行煙霧檢測，實驗表明即使輕量級的卷積神經(jīng)網(wǎng)絡(luò)在煙火檢測上的表現(xiàn)也好于傳統(tǒng)方法。Yin 等將傳統(tǒng)的卷積網(wǎng)絡(luò)層替換為歸一化層和卷積層，加快模型收斂的速度，實驗表明卷積網(wǎng)絡(luò)并不需要特別復雜的處理，也能在煙火檢測上得到高準確率。Valikhujaev等將空洞卷積加入傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中，這可以在計算量相當?shù)那闆r下提供更大的感受野，從而增加煙火檢測模型的泛化性。Khan 等為了消除含霧場景下的煙霧誤檢，使用EfficientNet 卷積網(wǎng)絡(luò)進行煙火識別，網(wǎng)絡(luò)模型訓練的數(shù)據(jù)類別共包含四類：smoke、non-smoke、smoke with fog 和non-smoke with fog，這能夠極大地減少含霧場景下的誤識別率。

直接將整個圖像輸入到分類網(wǎng)絡(luò)中會使得檢測準確率較低，尤其是在圖像分辨率很高的時候，而煙火只占圖像的小部分。面對這種情況，現(xiàn)有的方法大多是基于煙火的動態(tài)特性，使用運動檢測算法提取出候選區(qū)域，然后將候選區(qū)域輸入到CNN 網(wǎng)絡(luò)中進行分類。Gagliardi等提出了一個基于傳統(tǒng)的卡爾曼濾波的運動特征檢測器，通過生成移動物體的邊界框來自動選擇圖像中感興趣的特定區(qū)域，最后利用一個輕量級的淺層卷積網(wǎng)絡(luò)來驗證該區(qū)域中煙霧的實際存在。Cao等利用ViBe算法提取出煙火候選區(qū)域，然后通過卷積網(wǎng)絡(luò)和雙向的LSTM 網(wǎng)絡(luò)來提取煙火候選區(qū)域的時空特征，雙向即從前往后和從后往前，此外還采用注意力機制來強調(diào)時域的運動信息，找到對煙霧識別有更多貢獻的視頻幀。

1.2 目標檢測

基于深度學習的目標檢測方法主要可以分為兩類：一階段檢測器和兩階段檢測器。經(jīng)典的一階段檢測器有SSD和Yolo 系列等，僅用一個深度卷積網(wǎng)絡(luò)完成候選區(qū)域的提取和識別檢測。相對兩階段檢測器，一階段檢測器通常更快。經(jīng)典的兩階段檢測器有Faster RCNN和Cascade R-CNN等，這一類方法把檢測問題分為兩階段：候選區(qū)域提取階段和檢測階段，候選區(qū)域提取階段主要是生成目標可能存在的一些區(qū)域，然后在檢測階段，候選區(qū)域的位置和類別將被進一步細化。與一階段檢測器相比，二階段的檢測器能夠?qū)崿F(xiàn)更好的檢測效果，然而檢測速度通常慢很多。

2 算法實現(xiàn)

本文通過在自己構(gòu)建的數(shù)據(jù)集上分別測試了SSD，Yolov3，F(xiàn)aster R-CNN 的表現(xiàn)，最終權(quán)衡了檢測速度和精準度，選擇了效率更高的SSD作為本文的baseline，更多實驗細節(jié)見第3節(jié)實驗部分。通過采用SSD作為目標檢測網(wǎng)絡(luò)，得到煙火的候選框，然后提取相鄰幀的煙火候選框的光流，進一步判斷該候選框中是否存在煙火。

2.1 煙火候選框提取

本文采用SSD 檢測網(wǎng)絡(luò)進行煙火候選框的提取。不同于Faster R-CNN 只用最后一層進行檢測，SSD 使用了多層的特征圖進行檢測，能夠更好地捕獲到多尺度目標信息。因為錨點（anchor）被應(yīng)用到不同尺度的特征圖上，所以SSD 在不同層的特征圖上設(shè)計了不同的錨點大小，能夠很好地處理同一個目標在各種場景下有著不同的大小尺寸問題，這也提升了檢測的召回率。此外，SSD 引入了一些額外的數(shù)據(jù)增強技術(shù)和困難負樣本挖掘技術(shù)，使得SSD 在一些基準數(shù)據(jù)集上能夠得到很好的檢測效果。

SSD 將總體的目標損失函數(shù)定義為置信度損失（conf）和定位損失（loc）的加權(quán)和，見公式（1）：

其中是匹配到真值框（ground truth）的先驗框數(shù)量，則用于調(diào)整置信度和定位損失之間的比例。

置信度損失是在多類別置信度上的softmax損失，見公式（2），其中表示先驗框的序號，表示真值框的序號，表示類別的序號。

圖1 算法整體結(jié)構(gòu)圖

定位損失是典型的1 損失，見公式（3），其中為預(yù)測框，為真值框，使用1 損失是為了防止在訓練早期出現(xiàn)梯度爆炸。

2.2 煙火檢測識別

通過SSD 檢測網(wǎng)絡(luò)提取得到的煙火候選框通常存在一些誤檢情況，如車燈，紅色的物體，云霧等，這類物體跟煙火有著相似的外觀和形狀。為了盡可能消除這些誤檢，本文基于煙火的動態(tài)特性和熱空氣向上流動的理論，計算視頻中相鄰幀的煙火候選框的光流，統(tǒng)計候選框中每個像素點的位移向量，進而判斷該候選框中存在的物體是否為煙火。

光流法的輸入為連續(xù)兩張×的灰度圖像，輸出為一張××2 的光流場，其中每個像素值為輸入幀上該像素在方向和方向的位移。

圖2 光流場的表現(xiàn)形式

本文采用的光流計算方法來自O(shè)penCV SDK提供的的DeepFlow，該方法能夠很好地計算相鄰幀的光流信息。使用該方法計算出相鄰幀的煙火候選框的光流運動方向來進行輔助檢測，能夠極大減少一些誤檢情況的發(fā)生，如車燈、旗子、云霧等。

3 實驗設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集

由于公開的煙火數(shù)據(jù)集并沒有進行目標框的標注，所以本文將構(gòu)建一個能夠用于目標檢測網(wǎng)絡(luò)訓練測試的數(shù)據(jù)集，其中數(shù)據(jù)來源于互聯(lián)網(wǎng)和一些公開數(shù)據(jù)集。本文的數(shù)據(jù)集共分為兩類：圖像和視頻，其中圖像用于目標檢測網(wǎng)絡(luò)的訓練和測試，視頻則用于本文算法檢測效果的驗證分析。圖像數(shù)據(jù)集共包含19532 張圖片，將這些圖片使用標注工具進行煙火兩類目標框標注后按照8∶2 的比例劃分為訓練集和測試集。視頻數(shù)據(jù)集有6 個視頻，包含2 個煙火視頻和4個容易被誤識別成煙火的非煙火視頻。

3.2 評價指標

在本文的實驗中采用平均精度均值（mean average precision，mAP）作為評價標準，的定義首先是被PASCAL VOC 數(shù)據(jù)集提出的。針對目標檢測，本文使用交互比（intersection over union，IoU）來判斷預(yù)測候選框的準確性，通過設(shè)定閾值為0.5 來判斷正負樣本。精準度（）是預(yù)測結(jié)果中正確預(yù)測的比例，召回率（）是所有正樣本中預(yù)測對的比例。在不同的recall之下的precision得到一條曲線，即曲線，根據(jù)這個曲線得到各個類別的，然后對所有的類別取平均得到。此外，模型的推理速度也是一個很重要的平均指標，即每秒能夠檢測多少張圖片。

3.3 實驗設(shè)置

本實驗在Linux 16.04系統(tǒng)上進行，使用了4塊TITAN XP 顯卡進行目標檢測的訓練和測試。在目標檢測網(wǎng)絡(luò)對比實驗中，SSD，Yolov3，F(xiàn)aster R-CNN 設(shè)置相同的參數(shù)，批尺寸取32，初始學習率取0.02，權(quán)重衰減因子取0.0001，都是用SGD 訓練策略。而對于主干網(wǎng)絡(luò)，SSD 采用VGG-16，Yolov3 采用DarkNet-53，F(xiàn)aster RCNN 采用ResNet-101。三者的主干網(wǎng)絡(luò)都加載在ImageNet上已經(jīng)預(yù)訓練的模型參數(shù)進行微調(diào)。

3.4 結(jié)果分析

本文將SSD，Yolov3，F(xiàn)aster R-CNN 在構(gòu)建的圖像測試集上進行了實驗對比，實驗結(jié)果如表1所示。其中加粗表示效果最好，加下劃線表示效果次之。通過實驗結(jié)果可以看出，SSD 跟Faster RCNN 有著幾乎相近的檢測精準度，同時還有著三者最快的檢測速度。這可能與本文的檢測目標和SSD 的檢測網(wǎng)絡(luò)有關(guān)，因為煙火在不同場景下有著不同大小的尺度，而SSD 專為檢測多尺度特征而生。同時，SSD采用輕量級的VGG-16作為主干網(wǎng)絡(luò)也帶來了更快的檢測速度。

表1 不同檢測網(wǎng)絡(luò)的實驗結(jié)果對比

權(quán)衡檢測模型的精準度和速度，本文選用SSD 檢測網(wǎng)絡(luò)繼續(xù)在視頻數(shù)據(jù)集上進行測試。對視頻進行抽幀，使用SSD 檢測模型檢測視頻的每一幀，從檢測結(jié)果可以看出，SSD 仍存在不少誤檢，尤其是外形跟煙火相似的物體。如圖3，車燈或者一些光照很強的物體容易被誤識別為煙或火，為了消除這類誤檢，本文使用光流法計算相鄰幀的光流。通過觀察煙火的光流運動方向和非煙火的光流運動方向，本文得出煙火的光流運動方向通常是向上，而其他容易被誤識別成煙火的物體的光流方向通常是向下或者運動緩慢。結(jié)合光流法，本文在視頻數(shù)據(jù)集上繼續(xù)測試，實驗結(jié)果見表2。從表2 可以看出，利用光流法可以極大地消除誤檢。

圖3 測試結(jié)果實例（從左至右分別為誤檢情況和其對應(yīng)的光流場）

表2 煙火檢測算法在視頻上的表現(xiàn)

4 結(jié)語

本文提出了基于目標檢測網(wǎng)絡(luò)SSD 和光流法的煙火檢測方法，并在構(gòu)建的圖像和視頻數(shù)據(jù)集上進行該方法的實驗，實驗表明該方法可以實現(xiàn)高準確率和高效率，同時能夠極大減少誤檢數(shù)量。該方法可用做實際火災(zāi)防控工作的智能化解決方式，能夠?qū)崟r識別出煙火并且定位到其發(fā)生的具體位置。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡