王麗霞 夏 雪 高 凡 劉 強 董霙達 郜曉晶
(內(nèi)蒙古農(nóng)業(yè)大學(xué)計算機與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)
森林吸收大量的CO2,在碳循環(huán)中起著不可替代的作用,同時在防災(zāi)防疫、調(diào)節(jié)氣候、保持水土等方面擁有巨大的價值[1]。然而,近些年受異常氣候影響,森林火災(zāi)或極端氣候事件的數(shù)量增加[2-5]。森林火災(zāi)是一個世界性的難題,準確地檢測出森林火災(zāi)并進行及時撲救尤為重要,但人工地面巡邏[6]、瞭望塔檢測[7]、全息影像技術(shù)[8]、傳感器檢測[9]等傳統(tǒng)林火檢測方法受制于其檢測性能、經(jīng)濟成本和可操作性等原因,無法有效預(yù)測火災(zāi)。近年來,隨著人工智能技術(shù)及計算機領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)在圖像分類、目標檢測、人臉識別等計算機視覺領(lǐng)域應(yīng)用廣泛,各種基于深度學(xué)習(xí)的目標檢測算法層出不窮。深度學(xué)習(xí)技術(shù)通過設(shè)計網(wǎng)絡(luò)自動提取圖像特征,具有效率高、適應(yīng)性強等優(yōu)勢。因此,將深度學(xué)習(xí)技術(shù)應(yīng)用于森林火災(zāi)檢測中,進而全面監(jiān)測并及時高效預(yù)警,可以在更大限度上降低森林火災(zāi)造成的危害。
深度學(xué)習(xí)[10]是機器學(xué)習(xí)領(lǐng)域內(nèi)的一個分支,通過構(gòu)建多個層次的網(wǎng)絡(luò)學(xué)習(xí)模型對大量數(shù)據(jù)進行處理,使機器具有從原始數(shù)據(jù)中多層次抽象數(shù)據(jù)的自動學(xué)習(xí),以及特征提取分析的能力[11]。其網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入層、輸出層以及兩者之間的多個隱藏層組成,學(xué)習(xí)方式主要分為有監(jiān)督和無監(jiān)督兩種。常見的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)等。表1總結(jié)了目前用于森林火災(zāi)檢測的主要深度學(xué)習(xí)模型的優(yōu)缺點。
表1 用于森林火災(zāi)檢測的深度學(xué)習(xí)算法比較Tab.1 Comparison of deep learning algorithms for forest fire detection
RNN[12]于20世紀80至90年代提出,以序列數(shù)據(jù)為輸入并在序列的演進方向遞歸,是所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(luò)。RNN的典型架構(gòu)有基于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory networks,LSTM)[13]和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN, Bi-RNN)[14],在圖像視頻字幕、手寫識別、語言翻譯等方面表現(xiàn)出不俗的效果。RNN的優(yōu)勢在于,在對由非獨立元素序列組成的輸入和輸出建模,同時對多個尺度上的順序和時間依賴性建模,以保持數(shù)據(jù)中的依賴關(guān)系[15]。在視頻圖像序列分析和交互任務(wù)等領(lǐng)域,輸入的學(xué)習(xí)模型必須以序列的形式。因此,RNN可作為一種合適的網(wǎng)絡(luò)模型。在森林火災(zāi)檢測中,通常需要以視頻或者照片的形式對場景進行拍攝。RNN作為一種可以描述動態(tài)時間行為的深度學(xué)習(xí)方法,對于視頻序列的處理具有強大的優(yōu)勢,因此可將其用于攝像機拍攝到的火災(zāi)視頻序列,進行火災(zāi)中煙霧以及火焰等特征的學(xué)習(xí)分析。
CNN[16]的研究始于20世紀80~90年代,直至21世紀數(shù)值計算等理論及設(shè)備得到改進后才進入快速發(fā)展時期。CNN是一個具有層次結(jié)構(gòu)的多層感知器,其隱藏層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性,使其可以通過較小的計算量學(xué)習(xí)多個特征。基礎(chǔ)的CNN由輸入層、卷積層、激活層、池化層、連接層及輸出層組成。發(fā)展至今,各種基于CNN的模型涌現(xiàn),如LeNet[17]、AlexNet、VGG[18]、GoogLeNet[19]、殘差網(wǎng)絡(luò)(Residual Network,ResNet)[20]等。CNN的最大優(yōu)勢是具有直觀、清晰的解釋機制和強大的學(xué)習(xí)與表征能力,廣泛應(yīng)用在計算機視覺、語音識別、人臉識別等方面,且對于在復(fù)雜環(huán)境下視頻圖像的特征學(xué)習(xí)仍具有穩(wěn)定效果。森林環(huán)境是極為復(fù)雜的,例如有蜿蜒的地勢、樹木的遮蔽、不定的風(fēng)向等,都會導(dǎo)致視頻序列中的火災(zāi)特征不明顯,致使判斷過程的誤差增大。CNN在復(fù)雜環(huán)境中的學(xué)習(xí)能力突出,故將其應(yīng)用到林火檢測中具有較高可行性。
隨著深度學(xué)習(xí)技術(shù)、GPU等其他硬件設(shè)備的快速發(fā)展,DNN出現(xiàn)并在大規(guī)模的圖像分類與檢測任務(wù)中展現(xiàn)出強大的模型準確度和特征學(xué)習(xí)能力,已被廣泛應(yīng)用在圖像識別、自然語言處理、建模等領(lǐng)域。它由多個層次的神經(jīng)網(wǎng)絡(luò)組成,通過卷積、池化、非線性激活等操作提取深層次的特征、提高算法性能,具有較強的數(shù)據(jù)表征能力[21]。與RNN、CNN不同,DNN是全連接的神經(jīng)元結(jié)構(gòu),沒有RNN時間序列上的依賴關(guān)系,也不像CNN包含卷積單元。森林火災(zāi)中煙霧和火焰特征的學(xué)習(xí)和檢測是確定火災(zāi)位置的重要標志,復(fù)雜因素下拍攝的視頻圖像質(zhì)量難以保證。因此,需要性能更高的算法進行處理,而DNN不失為一個很好的選擇。
在森林火災(zāi)檢測中,傳統(tǒng)的檢測方法難以避免數(shù)據(jù)的不可靠性和操作的盲目性、復(fù)雜性。深度學(xué)習(xí)通過樣本數(shù)據(jù)的自動學(xué)習(xí)反應(yīng)數(shù)據(jù)差別的特征,執(zhí)行分類、預(yù)測、識別等任務(wù)。通過多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)[22],為森林火災(zāi)檢測中的煙霧與火焰特征的提取、火災(zāi)與非火災(zāi)圖像的分類、森林火災(zāi)的預(yù)判跟蹤等工作提供了新的手段。
火焰是火災(zāi)最顯著的特征,火災(zāi)發(fā)生后火焰所處空間高大且火焰顏色、形狀分明并具有明顯的閃動頻率,具有區(qū)別于煙霧和周圍樹木的明顯特征。當觀察到火焰時,需迅速采取撲救措施。Frizzi等[23]使用CNN作為火焰檢測器直接對原始RGB幀進行操作,在最后一個池化層上使用滑動窗口方法提取可疑區(qū)。然而,該模型對于定位火災(zāi)的位置還需要通過改進數(shù)據(jù)集來進一步提升準確度。Faster R-CNN 是一種使用CNN進行實時檢測的深度學(xué)習(xí)算法。張藝秋[24]將該方法應(yīng)用在森林火災(zāi)的識別與檢測上,其準確率能夠達到99%以上,但沒有考慮到林火發(fā)生初期的煙霧特征。Akhloufi等[25]提出了一種Deep-Fire卷積神經(jīng)網(wǎng)絡(luò)算法,用于進行森林野火的檢測和分割,在對火焰的檢測和分割過程中取得了較好的效果。
煙霧是火災(zāi)的預(yù)測標志,在火災(zāi)發(fā)生初期,燃燒不完全會產(chǎn)生大量的煙霧,因此煙霧探測比火焰探測能提供更早的火災(zāi)警報。煙霧具有豐富的運動形態(tài)和變化尺寸,與周圍環(huán)境存在濃度差,且大量煙氣顆粒更易與空氣區(qū)分。Hohberg[26]使用GoogleNet卷積網(wǎng)絡(luò)對數(shù)據(jù)集進行煙霧顏色、紋理、形狀特征的學(xué)習(xí)和訓(xùn)練,并利用三維卷積來提取煙霧的時間動態(tài)信息,取得了較好的檢測效果。陳俊周等[27]提出了一種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法,對煙霧的靜態(tài)紋理特征使用空域和時域CNN識別,綜合分析了兩個不同域內(nèi)的識別結(jié)果判斷是否存在煙霧。該模型降低了復(fù)雜場景中的煙霧誤檢率,實時監(jiān)測速度也達到了使用要求。因此,針對于森林火災(zāi)復(fù)雜的場景,這種級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型具有很大的應(yīng)用價值。Filonenko等[28]以不同環(huán)境下的煙霧圖像為主要數(shù)據(jù)集,使用AlexNet、VGG、ResNet等幾種典型的二維卷積網(wǎng)絡(luò)對煙霧特征進行訓(xùn)練和測試。試驗表明:該方法在煙霧特征提取的準確性方面具有較高的性能。Peng等[29]提出了一種結(jié)合提取煙霧可疑區(qū)域和深度學(xué)習(xí)的快速視頻火災(zāi)煙霧識別算法,該方法具有較高的分類精度和速度,適用范圍更廣,并且對硬件設(shè)備要求更低。
攝像機監(jiān)測到的森林火災(zāi)視頻圖像是連續(xù)的,每一幀圖像中都包含著煙霧或火焰的動態(tài)、尺寸大小、擴散方向等信息。對于CNN而言,它可以從單個幀中自動學(xué)習(xí)煙霧或火焰特征,但無法捕獲幀之間的運動信息,而RNN具有處理視頻序列的強大能力。針對森林火災(zāi)煙霧識別中的候選圖像序列分類問題,可以使用卷積神經(jīng)對候選塊提取煙霧空間特征,再利用循環(huán)神經(jīng)網(wǎng)絡(luò)對圖像序列提取煙霧動態(tài)特征。
森林火災(zāi)與非火災(zāi)圖像的分類是森林火災(zāi)檢測工作中的重要一環(huán),是對煙霧或火焰特征提取后的森林火災(zāi)圖像的進一步整理。正確分類森林火災(zāi)與非火災(zāi)圖像,可為后續(xù)的森林火災(zāi)預(yù)判、跟蹤、定位等工作提供一個準確、高質(zhì)量的數(shù)據(jù)集,提升整體的檢測速度。
森林火災(zāi)與非火災(zāi)圖像的分類能夠以檢測到的煙霧與火焰特征為標志進行區(qū)分,從而判斷森林火災(zāi)是否發(fā)生。煙霧中的大量顆粒導(dǎo)致其與周圍環(huán)境存在明顯的濃度差,可根據(jù)濃度的不同將其與背景進行區(qū)分。Pundir等[30]將深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)應(yīng)用在森林火災(zāi)煙霧的分類檢測中,選擇了在野火煙霧視頻、山基煙霧視頻、室內(nèi)或室外煙霧視頻等不同場景下進行測試,該方法的煙霧與非煙霧分類準確率達到了99.51%。在森林火災(zāi)與非火災(zāi)圖像分類的研究上,森林火災(zāi)中的煙霧與薄霧,充分燃燒時的火焰顏色與楓樹、紅旗等顏色相近,在對它們的區(qū)分上存在一定難度。因此,火災(zāi)圖像與其他相似圖像的區(qū)分問題需要特殊考慮,否則會導(dǎo)致森林火災(zāi)的誤判或者漏判,造成更大的損失。Sharma等[31]利用火災(zāi)圖像與非火災(zāi)圖像中的不同特征,訓(xùn)練ResNet網(wǎng)絡(luò)對火焰進行檢測。同時,在ResNet網(wǎng)絡(luò)中添加了全連接層,提高了算法的健壯性和檢測精度,但也增加了訓(xùn)練時間。針對這一問題,王勇等[32]提出一種基于稀疏自編碼深度神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)圖像分類方法。稀疏自編碼是一種無監(jiān)督的特征學(xué)習(xí)算法,直接從圖像塊像素中提取火災(zāi)特征,該方法對森林火災(zāi)與相似圖像的分類準確率達到了79.5%,比于傳統(tǒng)的分類方法準確,但識別精度還需進一步提高。針對森林火災(zāi)圖像背景復(fù)雜、識別率低的問題,Liu等[33]使用精度較高的CNN+SVM分類器對森林火災(zāi)區(qū)域進行二次識別,識別率可達97.6 %,識別樣本圖片的平均時間僅為0.7 s,顯示出較高的有效性和魯棒性。
根據(jù)森林火災(zāi)中煙霧和火焰的特征,預(yù)判著火點的大小、位置、蔓延方向等信息,監(jiān)測跟蹤火情,為森林消防撲救工作提供更加精準的火災(zāi)情況,減少火災(zāi)帶來的損失。Zhang等[34]基于深度學(xué)習(xí)算法結(jié)合局部信息與全局信息進行森林火災(zāi)檢測,使用AlexNet網(wǎng)絡(luò)對局部塊和全局圖像進行訓(xùn)練和測試,同時建立了火災(zāi)探測基準。王飛[35]針對目前我國林火監(jiān)測系統(tǒng)在林火監(jiān)測過程中存在的各種問題,提出了一種基于二維卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)煙霧檢測算法,將網(wǎng)絡(luò)上搜集獲得的森林火災(zāi)煙霧視頻圖像作為數(shù)據(jù)集,然后使用Faster RCNN特征提取方法提取煙霧候選區(qū),再使用3D卷積神經(jīng)網(wǎng)絡(luò)提取煙霧候選區(qū)的動態(tài)特征,并據(jù)此算法設(shè)計了一套可以進行林區(qū)環(huán)境監(jiān)測、煙霧識別和火災(zāi)自動報警等功能的林火智能監(jiān)測系統(tǒng)。該研究結(jié)果進一步證明了深度學(xué)習(xí)在森林火災(zāi)識別檢測中的適用性。
為有效避免直接調(diào)整森林火災(zāi)圖像大小帶來的特征損失,Zhao等[36]提出了一個15層的自學(xué)習(xí)深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)體系結(jié)構(gòu)“Fire_Net”,作為自學(xué)習(xí)的火災(zāi)特征提取器和分類器,用于航空圖像中核心火區(qū)火焰的快速定位和分割。對40幅野火抽樣圖像進行測試,可有效地定位航空圖像中的核心火區(qū),即使是非常小的點火區(qū)也能很好地定位,且分割后的火災(zāi)圖像包含最大火災(zāi)特征,沒有嚴重失真或特征損失。Jindal等[37]使用LRCN(長期遞歸卷積神經(jīng)網(wǎng)絡(luò))來建立生成模型,作為強化學(xué)習(xí)模型動態(tài)分析森林火災(zāi)衛(wèi)星圖像,預(yù)測火災(zāi)的蔓延趨勢、方向等,能夠快速、準確地找到最佳切入點。
綜上所述,智能森林火災(zāi)監(jiān)控系統(tǒng)可為預(yù)測、跟蹤、定位火災(zāi)提供更加準確的輸入信息,通過分析深度學(xué)習(xí)模型的特點,可將RNN模型用于處理視頻序列,CNN模型應(yīng)用在圖像特征提取與分類上,而DNN模型對于深層次的特征提取與降維有顯著效果[38]。
通過分析現(xiàn)有研究成果發(fā)現(xiàn),深度學(xué)習(xí)技術(shù)在森林火災(zāi)檢測應(yīng)用中面臨的挑戰(zhàn)和問題不容忽視。例如,煙霧或火焰動態(tài)特征的提取能力與識別率低;森林火災(zāi)與非火災(zāi)圖像的數(shù)據(jù)不全面,分類誤差大;在森林火災(zāi)圖像背景較為復(fù)雜時,算法的魯棒性和可擴展性需要提升;火災(zāi)視頻圖像處理的速度、火災(zāi)點定位的準確度還存在一定差距。因此,如何更早、更快、更準確地檢測出火情是減少傷害最有效的方法,深度學(xué)習(xí)在森林火災(zāi)檢測應(yīng)用中未來的發(fā)展可以從以下方向探索:
1) 對于森林火災(zāi)檢測中深度學(xué)習(xí)模型本身而言,數(shù)據(jù)集的改進、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性的簡化、參數(shù)的優(yōu)化、學(xué)習(xí)過程的強化、識別分類正確率的提升以及算法的魯棒性,依然是今后研究的重點。
2) 區(qū)分與煙霧、火焰的相似物體特征。例如,在煙霧特征檢測中,會受到森林霧氣的干擾;在火焰特征檢測中,易受到陽光、枯黃樹葉和紅楓樹葉的干擾。由于這些物體特征在顏色、紋理上與煙霧或者火焰的特征高度相似,很可能錯判為火災(zāi),導(dǎo)致信息傳遞出現(xiàn)誤差。因此,在與煙霧、火焰的相似物體特征的訓(xùn)練與檢測方面需要進一步的研究。
3) 加強深度學(xué)習(xí)算法與無人機、傳感器技術(shù)的結(jié)合。智能森林火災(zāi)監(jiān)測系統(tǒng)是一個重要發(fā)展方向,無人機的實時性與遠程操作性強,搭載傳感器后在一定范圍內(nèi)可根據(jù)火災(zāi)的溫度與燃燒氣味等特征進行報警,是實時監(jiān)測森林火災(zāi)狀況的重要研究方向。