左應(yīng)祥 倪建輝 楊圓鑒 韓光譜 彭 聰
(1. 中國(guó)石油西南油氣田分公司 重慶氣礦, 重慶 400021; 2. 重慶科技學(xué)院 安全工程學(xué)院(應(yīng)急管理學(xué)院), 重慶 401331)
當(dāng)前,人工監(jiān)控預(yù)警模式效率低下、實(shí)時(shí)性較差的問(wèn)題日漸突出,智能化監(jiān)控模式成為新的應(yīng)用研究方向。采用智能化監(jiān)控模式,可以實(shí)時(shí)檢測(cè)并識(shí)別入侵目標(biāo),提取其外觀特征,跟蹤其運(yùn)動(dòng)軌跡,并及時(shí)預(yù)警。入侵目標(biāo)檢測(cè)是智能化監(jiān)控的核心技術(shù),經(jīng)過(guò)多年發(fā)展其算法也在不斷成熟,傳統(tǒng)的算法有光流法、粒子濾波和均值漂移等。Lucas 等人對(duì)光流法進(jìn)行了改進(jìn)[1],通過(guò)對(duì)比相鄰幀的特征點(diǎn)得到運(yùn)動(dòng)目標(biāo)的光流矢量,進(jìn)而獲取該目標(biāo)在當(dāng)前幀下的位置坐標(biāo)。粒子濾波算法是通過(guò)粒子集來(lái)表示概率,Andrew等人將該算法應(yīng)用于目標(biāo)跟蹤領(lǐng)域[2-3]。他們提取了目標(biāo)特征,根據(jù)高斯分布規(guī)律進(jìn)行粒子采樣,將采集到的樣本與提取到的目標(biāo)特征進(jìn)行匹配,從中選取相似度最高者作為預(yù)測(cè)結(jié)果。均值漂移法最早由Fukunaga 等人應(yīng)用于 Hosterler數(shù)據(jù)分類上[4],之后在目標(biāo)跟蹤領(lǐng)域也有所表現(xiàn)[5]。該算法是以概率分布理論為基礎(chǔ),利用顏色直方圖進(jìn)行識(shí)別,經(jīng)過(guò)多次迭代后獲得目標(biāo)位置的概率分布,目標(biāo)位置的概率最大。
隨著入侵目標(biāo)檢測(cè)應(yīng)用的普及,傳統(tǒng)算法的不足逐漸顯現(xiàn)出來(lái)。其中,光流法的計(jì)算耗時(shí)較長(zhǎng),無(wú)法滿足運(yùn)動(dòng)目標(biāo)檢測(cè)中的實(shí)時(shí)性需求[6]。粒子濾波算法僅利用顏色直方圖進(jìn)行圖像識(shí)別,當(dāng)圖像背景與檢測(cè)目標(biāo)本身顏色相似時(shí),則極有可能跟蹤失敗[7]。均值漂移法雖具有識(shí)別速度快、魯棒性好等優(yōu)點(diǎn),但其空間信息描述不足,同樣會(huì)面臨目標(biāo)與背景顏色相似等問(wèn)題,存在一定的局限性[8]。
當(dāng)前常用的一種入侵檢測(cè)思路是,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)入侵目標(biāo)的外觀特征提取[9],基于濾波算法實(shí)現(xiàn)入侵目標(biāo)的運(yùn)動(dòng)特征提取[10]?;谙嚓P(guān)濾波算法提取運(yùn)動(dòng)特征,提取效果和魯棒性較出色,但無(wú)法描述入侵目標(biāo)的外觀特征,因此需要配合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行外觀特征提取[11]。而在多種卷積神經(jīng)網(wǎng)絡(luò)中,YOLO網(wǎng)絡(luò)因其較高的精度和較快的檢測(cè)速度而得以廣泛應(yīng)用[12]。
本次研究將針對(duì)當(dāng)前氣田無(wú)人值守場(chǎng)站的監(jiān)控問(wèn)題,討論基于YOLOv5網(wǎng)絡(luò)的入侵目標(biāo)檢測(cè)方法[13],采用Deep SORT算法對(duì)檢測(cè)到的入侵目標(biāo)進(jìn)行跟蹤[14]。為解決卷積神經(jīng)網(wǎng)絡(luò)對(duì)于顯存資源消耗較大而無(wú)法滿足多路攝像頭同時(shí)檢測(cè)的問(wèn)題,在此采用拼接畫面的方式進(jìn)行檢測(cè),使用單一攝像頭資源進(jìn)行多路攝像頭并行檢測(cè)。
入侵檢測(cè)的基本流程包括:采用拼接畫面的方式實(shí)現(xiàn)多個(gè)攝像頭同時(shí)檢測(cè);通過(guò)YOLOv5網(wǎng)絡(luò)實(shí)現(xiàn)人體檢測(cè);應(yīng)用Deep SORT算法對(duì)檢測(cè)到的人體進(jìn)行跟蹤,判斷目標(biāo)是否進(jìn)入危險(xiǎn)區(qū)域。入侵檢測(cè)整體設(shè)計(jì)流程如圖1所示。
進(jìn)行入侵檢測(cè),首先需要實(shí)現(xiàn)對(duì)入侵目標(biāo)的識(shí)別。在此,采用卷積神經(jīng)網(wǎng)絡(luò)中的YOLOv5模型。經(jīng)過(guò)多次版本迭代,該模型比一些經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型(如AlexNet、SSD等)在精度上有了巨大提升;而且,可同時(shí)對(duì)多個(gè)區(qū)域進(jìn)行檢測(cè),相比其他采用滑動(dòng)檢測(cè)框的單一檢測(cè)方法其檢測(cè)速度也更具優(yōu)勢(shì)。
圖1 入侵檢測(cè)整體設(shè)計(jì)流程
YOLOv5網(wǎng)絡(luò)架構(gòu)如圖2所示[15]。其中,在圖像特征提取部分,邊緣提取方法及紋理、顏色等潛層特征與其他網(wǎng)絡(luò)相類似,因此這一部分借鑒了VGG網(wǎng)絡(luò)、深度殘差網(wǎng)絡(luò)等模型。在特征增強(qiáng)部分,參考了FPN、PANet等模型。在檢測(cè)頭部分,通過(guò)反卷積層對(duì)其進(jìn)行反卷積操作從而得到檢測(cè)框,實(shí)現(xiàn)結(jié)果輸出。
在入侵檢測(cè)中,既要實(shí)現(xiàn)對(duì)入侵目標(biāo)的識(shí)別,也要實(shí)現(xiàn)對(duì)檢測(cè)目標(biāo)的實(shí)時(shí)跟蹤。采用傳統(tǒng)算法,跟蹤效果易受光線強(qiáng)弱、背景顏色變化等因素的影響,效果不佳。在此采取濾波與深度學(xué)習(xí)相結(jié)合的方法,用Deep SORT算法實(shí)現(xiàn)多目標(biāo)跟蹤。在當(dāng)前幀檢測(cè)到目標(biāo)時(shí),隨即在下一幀根據(jù)當(dāng)前目標(biāo)所在位置對(duì)其進(jìn)行預(yù)測(cè),并按照合適的匹配策略對(duì)預(yù)測(cè)框的歸屬進(jìn)行分配,從而實(shí)現(xiàn)目標(biāo)跟蹤。
對(duì)于通過(guò)卡爾曼濾波得到的預(yù)測(cè)狀態(tài)與當(dāng)前檢測(cè)到的狀態(tài)評(píng)價(jià)匹配問(wèn)題,引入馬氏距離進(jìn)行評(píng)價(jià)[9]:
(1)
式中:d(1)(i,j) —— 第j個(gè)檢測(cè)框和第i個(gè)軌跡間的匹配度;
Si—— 由卡爾曼濾波預(yù)測(cè)得到的空間協(xié)方差矩陣;
yi—— 當(dāng)前預(yù)測(cè)狀態(tài);
dj—— 第j個(gè)檢測(cè)框的狀態(tài)。
馬氏距離應(yīng)用于簡(jiǎn)單場(chǎng)景的檢測(cè)效果較好。但現(xiàn)實(shí)場(chǎng)景中目標(biāo)運(yùn)動(dòng)的不確定性較高,因此又引入最小余弦距離進(jìn)行評(píng)價(jià)[9]:
(2)
式中:rj、rk—— 表面特征描述量;
Ri—— 第i個(gè)軌跡中特征描述的集合。
圖2 YOLOv5網(wǎng)絡(luò)架構(gòu)
在實(shí)際生產(chǎn)當(dāng)中,某些特定區(qū)域具有一定的危險(xiǎn)性,嚴(yán)格禁止無(wú)關(guān)人員進(jìn)入。如在實(shí)地考察中發(fā)現(xiàn),重慶氣礦張家站某些區(qū)域硫化物含量極高,禁止非工作人員進(jìn)入。經(jīng)溝通后,最終由氣礦安全部門通過(guò)監(jiān)控畫面標(biāo)定危險(xiǎn)區(qū)域。當(dāng)目標(biāo)進(jìn)入上述危險(xiǎn)區(qū)域時(shí),監(jiān)控系統(tǒng)隨即發(fā)出警報(bào)。
深度學(xué)習(xí)的優(yōu)勢(shì)在于能夠獲得極高的精度。但在一般情況下,準(zhǔn)確有效的特征提取結(jié)果才能保證獲取高精度的圖像。本次研究中所用的攝像頭為螢石云C6,顯卡為nVidia公司的RTX 3070,單個(gè)攝像頭會(huì)占用1.5~2 GiB的顯存。該顯卡的顯存容量為8 GiB,即使采用多線程并行檢測(cè)的方式實(shí)現(xiàn)多路攝像頭監(jiān)控,最多也只能滿足4個(gè)攝像頭的實(shí)時(shí)運(yùn)行需求,這與硬件投入的成本不相匹配。因此,需要尋求一種新的方法,在節(jié)約顯存資源的情況下采用多個(gè)攝像頭實(shí)現(xiàn)實(shí)時(shí)入侵檢測(cè)。
我們采用圖像拼接的方式,僅利用單一攝像頭的顯存資源實(shí)現(xiàn)多個(gè)攝像頭實(shí)時(shí)檢測(cè),在YOLOv5網(wǎng)絡(luò)中檢測(cè)模型會(huì)自動(dòng)將圖像調(diào)整為適合檢測(cè)的尺寸。因此,通過(guò)OpenCV技術(shù)獲取每一個(gè)攝像頭當(dāng)前時(shí)刻下的畫面時(shí),可以將所有圖像調(diào)整尺寸后以矩陣相加的形式拼接成一張圖像,然后送入模型中完成檢測(cè),以節(jié)約顯存資源。
采用OTB100及氣礦監(jiān)控視頻集成的自建數(shù)據(jù)集,樣本數(shù)共計(jì)500個(gè),詳情見(jiàn)表1。圖3所示為自建數(shù)據(jù)集部分圖像。
表1 數(shù)據(jù)集樣本來(lái)源及數(shù)量
從自建數(shù)據(jù)中選取75%組成訓(xùn)練集,將剩余的25%組成測(cè)試集,在訓(xùn)練過(guò)程中應(yīng)用自適應(yīng)學(xué)習(xí)率進(jìn)行訓(xùn)練。YOLOv5網(wǎng)絡(luò)本身的預(yù)訓(xùn)練權(quán)重用于人體檢測(cè)效果較好,因此選擇在預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上進(jìn)行遷移學(xué)習(xí),使用此次構(gòu)建的數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。其間,共進(jìn)行300輪次訓(xùn)練,達(dá)到了較為出色的訓(xùn)練效果。圖4所示為訓(xùn)練效果曲線。
圖3 自建數(shù)據(jù)集部分圖像
圖4 訓(xùn)練效果曲線
從訓(xùn)練效果圖可以看出,在第50輪次左右精度開(kāi)始上升,在200輪次精度趨于穩(wěn)定,最終精度達(dá)到95%。
應(yīng)用本次研究的入侵目標(biāo)檢測(cè)方法,以重慶氣礦大竹采輸氣作業(yè)區(qū)實(shí)際監(jiān)控為例進(jìn)行了測(cè)試。圖5所示為部分測(cè)試圖像的效果。
可以看出,入侵目標(biāo)識(shí)別的實(shí)際訓(xùn)練效果達(dá)到了預(yù)期要求。在針對(duì)人體的目標(biāo)識(shí)別結(jié)果中,沒(méi)有出現(xiàn)誤報(bào)、漏報(bào)的情況,達(dá)到mAP值95%的訓(xùn)練要求。同時(shí),在識(shí)別光線明暗層次變化比較明顯的場(chǎng)景時(shí),也具有極強(qiáng)的魯棒性,能夠滿足實(shí)際需求。
本次研究基于YOLOv5網(wǎng)絡(luò)構(gòu)建模型,預(yù)訓(xùn)練權(quán)重,增添自建數(shù)據(jù)集,并從該數(shù)據(jù)集中提取數(shù)據(jù)用作遷移學(xué)習(xí)的訓(xùn)練樣本。應(yīng)用此模型在氣田作業(yè)區(qū)場(chǎng)景下進(jìn)行樣本訓(xùn)練,獲取了良好的訓(xùn)練效果。通過(guò)多個(gè)攝像頭獲取圖像,經(jīng)拼接后對(duì)其進(jìn)行檢測(cè),并對(duì)網(wǎng)絡(luò)模型進(jìn)行資源分配;最后,僅利用單一攝像頭的顯存資源,實(shí)現(xiàn)多路攝像頭入侵檢測(cè)。訓(xùn)練結(jié)果表明,該模型在氣田作業(yè)區(qū)的誤報(bào)率和漏報(bào)率均符合使用標(biāo)準(zhǔn),且在復(fù)雜環(huán)境下具有良好的魯棒性。