潘東亮
(國(guó)能包神鐵路集團(tuán)有限責(zé)任公司 科技信息部,包頭 014010)
鐵路大橋作為鐵路線路防護(hù)重點(diǎn)區(qū)域,存在非法穿越、員工誤入等人員侵入界限(簡(jiǎn)稱:侵限)行為,給鐵路運(yùn)營(yíng)帶來(lái)嚴(yán)重的事故隱患,因此,亟需對(duì)鐵路大橋的人員入侵情況進(jìn)行實(shí)時(shí)監(jiān)測(cè),保障列車安全運(yùn)行[1-2]。
目前,針對(duì)鐵路大橋,多采用人員巡檢和護(hù)欄布設(shè)等手段防止人員入侵,監(jiān)測(cè)的時(shí)空范圍和防護(hù)能力有限。部分鐵路橋梁雖然布設(shè)了攝像頭等監(jiān)測(cè)設(shè)備,仍存在誤報(bào)頻繁、依賴人工辨識(shí)等問(wèn)題,檢測(cè)精度和智能化水平有待進(jìn)一步提高。針對(duì)鐵路侵限監(jiān)測(cè),相關(guān)研究人員提出了電網(wǎng)檢測(cè)[3]、光纖光柵檢測(cè)[4]、超聲波檢測(cè)[5]、紅外線檢測(cè)[6]、視頻檢測(cè)[7-8]、激光雷達(dá)檢測(cè)[9]等方法,相較之下,視頻檢測(cè)法技術(shù)更加成熟,具有檢測(cè)范圍大、檢測(cè)精度高、獲取信息量大等優(yōu)點(diǎn)[10]。
隨著智能視頻分析技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型被廣泛應(yīng)用于鐵路周界入侵監(jiān)測(cè)[11-12]。作為智能視覺(jué)領(lǐng)域重要研究方向,目標(biāo)檢測(cè)可以找出圖像中所有感興趣目標(biāo),并對(duì)之進(jìn)行定位和分類。作為當(dāng)前主流的目標(biāo)檢測(cè)模型,YOLOv5 已在京張(北京—張家口)鐵路等軌道交通場(chǎng)景開(kāi)展了實(shí)際應(yīng)用[13],具有強(qiáng)魯棒性和高泛化能力。
光學(xué)相機(jī)及人工智能技術(shù)的快速發(fā)展,使得智能視頻分析的檢測(cè)方法被廣泛應(yīng)用于鐵路安全保障領(lǐng)域,并取得良好的監(jiān)測(cè)效果?;诖?本文研究鐵路大橋人員入侵智能檢測(cè)技術(shù),構(gòu)建基于智能視覺(jué)的鐵路大橋人員入侵防護(hù)系統(tǒng)(簡(jiǎn)稱:鐵路大橋人員入侵防護(hù)系統(tǒng)),實(shí)現(xiàn)對(duì)入侵人員的實(shí)時(shí)精準(zhǔn)監(jiān)測(cè),提升鐵路大橋人員入侵檢測(cè)精度和防護(hù)水平,有效保障鐵路運(yùn)輸安全。
鐵路大橋人員入侵防護(hù)系統(tǒng)由視頻平臺(tái)、智能視覺(jué)平臺(tái)及業(yè)務(wù)管理平臺(tái)組成,如圖1 所示。
圖1 鐵路大橋人員入侵防護(hù)系統(tǒng)組成
1.1.1 視頻平臺(tái)及其功能
視頻平臺(tái)主要由視頻監(jiān)測(cè)攝像頭、數(shù)據(jù)前端處理模塊、數(shù)據(jù)傳輸模塊等組成。視頻監(jiān)測(cè)攝像頭由云臺(tái)、槍機(jī)等高清攝像頭組成,用于現(xiàn)場(chǎng)數(shù)據(jù)的采集;數(shù)據(jù)前端處理模塊主要負(fù)責(zé)圖像數(shù)據(jù)的預(yù)處理和暫時(shí)存儲(chǔ);數(shù)據(jù)傳輸模塊主要負(fù)責(zé)監(jiān)測(cè)數(shù)據(jù)的回傳,包括網(wǎng)口有線傳輸和4G 無(wú)線回傳等傳輸模式。視頻平臺(tái)支持相機(jī)注冊(cè)接入及數(shù)據(jù)采集功能,支持遠(yuǎn)程視頻查看、視頻存儲(chǔ)及回放等功能。
1.1.2 智能視覺(jué)平臺(tái)及其功能
智能視覺(jué)平臺(tái)通過(guò)實(shí)時(shí)流傳輸協(xié)議(RTSP,Real Time Streaming Protocol)接收視頻平臺(tái)的數(shù)據(jù),通過(guò)運(yùn)行深度學(xué)習(xí)模型,實(shí)時(shí)監(jiān)測(cè)橋面情況;當(dāng)檢測(cè)到人員入侵時(shí),產(chǎn)生告警信息并發(fā)送至業(yè)務(wù)管理平臺(tái)。
智能視覺(jué)平臺(tái)架構(gòu)如圖2 所示。該平臺(tái)主要提供對(duì)圖像與視頻的智能分析能力,針對(duì)鐵路海量視頻與圖像數(shù)據(jù),綜合運(yùn)用深度神經(jīng)網(wǎng)絡(luò)技術(shù)、圖像處理技術(shù)、視頻流分發(fā)存儲(chǔ)技術(shù),實(shí)現(xiàn)數(shù)據(jù)的智能視覺(jué)分析與應(yīng)用;以組件化的形式提供視頻采集、解碼、預(yù)處理、推理、跟蹤、渲染、編碼輸出等功能,其核心是提供面向鐵路場(chǎng)景的視頻分析算法庫(kù)和模型庫(kù),及推理加速能力。
圖2 智能視覺(jué)平臺(tái)架構(gòu)
1.1.3 業(yè)務(wù)管理平臺(tái)及其功能
業(yè)務(wù)管理平臺(tái)支持告警信息實(shí)時(shí)查看、處理,以及歷史告警信息查詢、結(jié)果統(tǒng)計(jì)分析、數(shù)據(jù)查詢等操作。
圖3 所示為業(yè)務(wù)管理平臺(tái)告警時(shí)抓拍記錄的圖片,紅色線條表示繪制的危險(xiǎn)區(qū)域,當(dāng)人員進(jìn)入該區(qū)域時(shí)產(chǎn)生告警,便于人工復(fù)核,進(jìn)一步確認(rèn)入侵情況。
圖3 業(yè)務(wù)管理平臺(tái)告警抓拍記錄
鐵路大橋人員入侵防護(hù)系統(tǒng)的檢測(cè)流程如圖4所示。
圖4 鐵路大橋人員入侵防護(hù)系統(tǒng)檢測(cè)流程
(1) 設(shè)置相機(jī)預(yù)置位與守望位,避免人為移動(dòng)相機(jī)后檢測(cè)位置不準(zhǔn)確;
(2) 配置相機(jī)參數(shù),如晝夜參數(shù)轉(zhuǎn)換、分辨率、幀率、定時(shí)重啟等,滿足檢測(cè)基本要求;
(3) 配置檢測(cè)區(qū)域與檢測(cè)時(shí)間,當(dāng)特定時(shí)間段內(nèi)進(jìn)入特定區(qū)域時(shí)產(chǎn)生告警信息;
(4) 配置系統(tǒng)運(yùn)行參數(shù)后開(kāi)始識(shí)別,實(shí)時(shí)上報(bào)告警信息,并通知相關(guān)業(yè)務(wù)人員及時(shí)處理。
鐵路大橋人員入侵防護(hù)系統(tǒng)具有以下特點(diǎn)。
(1)靈活性高:支持自定義危險(xiǎn)區(qū)域繪制,靈活設(shè)置重點(diǎn)關(guān)注區(qū)域位置。
(2)全天候檢測(cè):采用深度學(xué)習(xí)算法進(jìn)行人員檢測(cè),可適應(yīng)不同光照條件下的檢測(cè)。
(3)檢測(cè)精度高:支持不同遠(yuǎn)近、不同大小人體目標(biāo)檢測(cè)。
(4)響應(yīng)速度快:連續(xù)幀實(shí)時(shí)目標(biāo)檢測(cè),當(dāng)有人員進(jìn)入危險(xiǎn)區(qū)域時(shí),在1 s 內(nèi)即可產(chǎn)生報(bào)警。
(5)可靠性高:采用連續(xù)滑窗動(dòng)態(tài)檢測(cè),當(dāng)在一定時(shí)間段內(nèi)持續(xù)入侵時(shí),才進(jìn)行實(shí)時(shí)檢測(cè)入侵情況,避免單幀誤檢引起的誤報(bào)。
橋面人員入侵檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性是制約智能視頻檢測(cè)技術(shù)應(yīng)用的關(guān)鍵問(wèn)題。本文采用YOLOv5 目標(biāo)檢測(cè)模型進(jìn)行人員入侵檢測(cè),該模型的網(wǎng)絡(luò)結(jié)構(gòu)主要由主干(Backbone)網(wǎng)絡(luò)、頸部(Neck)網(wǎng)絡(luò)和頭部(Head)網(wǎng)絡(luò)組成。
采用Backbone 網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行提??;采用注意力機(jī)制(Focus)+跨階段局部(CSP,Cross Stage Partial)網(wǎng)絡(luò)模塊,以提升圖像特征提取速度和檢測(cè)實(shí)時(shí)性;采用Neck 網(wǎng)絡(luò)對(duì)不同網(wǎng)絡(luò)層的特征圖進(jìn)行融合,獲取圖像更豐富的特征信息,以提升檢測(cè)的準(zhǔn)確性;由Head 網(wǎng)絡(luò)層輸出檢測(cè)結(jié)果,通過(guò)檢測(cè)框的平移和校準(zhǔn),進(jìn)一步提升檢測(cè)的準(zhǔn)確性。
Backbone 網(wǎng)絡(luò)用于提取圖像特征,供后續(xù)網(wǎng)絡(luò)結(jié)構(gòu)使用。YOLOv5 的Backbone 網(wǎng)絡(luò)中使用了Focus模塊,并設(shè)計(jì)了2 種CSP 結(jié)構(gòu),在保證模型精度的同時(shí)大幅提高推理速度;同時(shí),使用空間金字塔池化(SPP,Spatial Pyramid Polling)模塊獲取不同尺度信息,提高模型性能。
2.1.1 Focus 模塊
圖像輸入主干網(wǎng)絡(luò)之前,先由Focus 模塊對(duì)其進(jìn)行切片操作,將高分辨率圖像拆分成多個(gè)低分辨率圖像。以一個(gè)像素為4×4×3 的輸入圖像為例,對(duì)輸入特征圖進(jìn)行間隔采樣,并將采樣結(jié)果在通道維度進(jìn)行拼接,將通道數(shù)擴(kuò)充為原來(lái)的4 倍,輸出像素為2×2×12 的特征圖,后續(xù)的網(wǎng)絡(luò)層都在新的特征圖上進(jìn)行卷積操作。
假設(shè)圖像像素為640×640×3,將其輸入到Y(jié)OLOv5 中,經(jīng)過(guò)Focus 層進(jìn)行切片操作之后得到像素為320×320×12 的特征圖,再與通道數(shù)為32 的卷積層進(jìn)行卷積操作,最后得到像素為320×320×32 的特征圖。利用Focus 切片操作將圖像的平面信息轉(zhuǎn)換為通道維度,可以在確保圖像信息無(wú)損的前提下實(shí)現(xiàn)兩倍下采樣操作,有效提升網(wǎng)絡(luò)推理速度。
2.1.2 CPS 結(jié)構(gòu)
針對(duì)網(wǎng)絡(luò)優(yōu)化時(shí),因存在梯度重復(fù)計(jì)算而導(dǎo)致的推理計(jì)算量過(guò)大問(wèn)題,YOLOv5 借鑒CSPNet 思想,設(shè)計(jì)了2 種CSP 模塊。其中,CSP1_X 用于主干網(wǎng)絡(luò),該模塊將特征圖按通道拆分為兩部分,一部分進(jìn)行標(biāo)準(zhǔn)卷積操作,另一部分利用殘差網(wǎng)絡(luò)思想構(gòu)建殘差組件。最后將這兩部分合并得到新的特征圖,以避免重復(fù)計(jì)算梯度值,提高模型推理速度。此外,CSP 結(jié)構(gòu)在反向傳播過(guò)程中可以增強(qiáng)梯度值,當(dāng)主干網(wǎng)絡(luò)的層數(shù)較深時(shí),可以緩解梯度消失的問(wèn)題,增強(qiáng)網(wǎng)絡(luò)的特征提取能力。CSP2_X 則用于Neck 網(wǎng)絡(luò),模塊使用卷積層代替殘差組件,將輸入的特征圖分為兩部分,分別計(jì)算之后再融合,以保留更多圖像信息。研究表明,引入CSP 模塊可有效增強(qiáng)模型的學(xué)習(xí)能力,能在大幅減少模型計(jì)算量的同時(shí)保證檢測(cè)精度。
2.1.3 SPP 模塊
SPP 模塊的主要思想是將不同大小的池化層疊加在一起,每個(gè)池化層大小與感受野大小成正比,最終獲取不同大小的感受野。SPP 模塊將特征圖并行輸入到卷積核像素為5×5、9×9 和13×13 的最大池化層,得到3 個(gè)最大池化后的特征圖,再將4 個(gè)感受野不同的特征圖(分別為輸入特征圖及3 個(gè)最大池化后的特征圖)拼接到一起。
針對(duì)隨著網(wǎng)絡(luò)層數(shù)增加而出現(xiàn)的圖像局部信息消失問(wèn)題,YOLOv5 利用Neck 網(wǎng)絡(luò)融合不同像素的特征圖,以獲取更豐富的圖像特征信息,通過(guò)將這些經(jīng)過(guò)處理后的特征輸入到Head 層,更好地分類和定位目標(biāo)。
在YOLOv5 中,Neck 網(wǎng)絡(luò)首先接收Backbone網(wǎng)絡(luò)的3 個(gè)不同像素的特征圖,將其作為輸入,采用特征金字塔網(wǎng)絡(luò)(FPN,Feature Pyramid Network)結(jié)構(gòu)對(duì)深層特征圖采樣后與淺層特征圖融合;再采用PAN(Pyramid Attention Network)結(jié)構(gòu)增加一個(gè)自底向上的特征金字塔,對(duì)淺層特征圖采樣后與深層特征圖融合。YOLOv5 結(jié)合FPN 和PAN 結(jié)構(gòu),這種設(shè)計(jì)方式既能自頂向下傳遞強(qiáng)語(yǔ)義信息,又能自底向上傳達(dá)強(qiáng)邊緣信息,可以有效提高模型性能。
YOLOv5 在進(jìn)行目標(biāo)檢測(cè)任務(wù)時(shí),首先將圖像輸入到Backbone 網(wǎng)絡(luò)并提取特征,將Backbone 網(wǎng)絡(luò)提取的特征輸入到Neck 網(wǎng)絡(luò)進(jìn)行加工處理,最后由Head 網(wǎng)絡(luò)層輸出目標(biāo)類別。Head 網(wǎng)絡(luò)層主要負(fù)責(zé)根據(jù)預(yù)測(cè)的位置偏移量修正候選框的位置,進(jìn)而得到更加精準(zhǔn)的檢測(cè)結(jié)果。
本文提出的鐵路大橋人員入侵防護(hù)系統(tǒng)在包神鐵路集團(tuán)有限公司(簡(jiǎn)稱:包神鐵路公司)萬(wàn)南站區(qū)黃河大橋進(jìn)行了部署和測(cè)試。
在包神鐵路公司萬(wàn)南站區(qū)黃河大橋?qū)﹁F路大橋人員入侵防護(hù)系統(tǒng)的硬件設(shè)備進(jìn)行了安裝、部署。黃河大橋全長(zhǎng)856 m,南北走向。為實(shí)現(xiàn)橋面人員入侵檢測(cè),在大橋的南、中、北這3 個(gè)位置分別安裝雙攝像頭,共6 個(gè)攝像頭,如圖5 所示,實(shí)現(xiàn)橋面無(wú)死角監(jiān)控。采用深度學(xué)習(xí)服務(wù)器部署智能視覺(jué)平臺(tái)及業(yè)務(wù)管理平臺(tái),服務(wù)器參數(shù)如表1 所示。
表1 鐵路大橋人員入侵防護(hù)系統(tǒng)服務(wù)器參數(shù)
圖5 鐵路大橋人員入侵防護(hù)系統(tǒng)攝像頭安裝示意
3.2.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
在黃河大橋現(xiàn)場(chǎng),使用橋面相機(jī)采集入侵人員圖像數(shù)據(jù)。該數(shù)據(jù)集覆蓋不同時(shí)間段、不同天氣等各種場(chǎng)景,包含鐵路大橋人員入侵的多數(shù)情況。通過(guò)圖像標(biāo)注軟件Labelmg 對(duì)入侵人員進(jìn)行標(biāo)定,共包含27 200 張圖像數(shù)據(jù)。按照9 : 1 的比例劃分訓(xùn)練集與測(cè)試集,即24 480 張圖像用來(lái)訓(xùn)練,2 720 張用來(lái)測(cè)試。部分?jǐn)?shù)據(jù)集樣本如圖6 所示。
圖6 數(shù)據(jù)集樣本
鐵路橋梁類型多樣,橋梁人員侵限的種類復(fù)雜,而基于有限數(shù)據(jù)進(jìn)行模型訓(xùn)練的結(jié)果具有泛化能力差、場(chǎng)景適應(yīng)度低等問(wèn)題,這也是制約人員入侵檢測(cè)精度的又一關(guān)鍵問(wèn)題。為提高模型的泛化能力,本文采用隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)、色彩抖動(dòng)、高斯噪聲、Mosaic 等圖像數(shù)據(jù)增強(qiáng)技術(shù),增強(qiáng)原始圖像數(shù)據(jù),解決訓(xùn)練樣本不足和樣本類型單一的問(wèn)題,有助于 YOLOv5 目標(biāo)檢測(cè)模型學(xué)習(xí)到更多圖像特征,提升該模型的泛化能力和場(chǎng)景適應(yīng)能力。
3.2.2 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
本次實(shí)驗(yàn)所用的實(shí)驗(yàn)環(huán)境與超參數(shù)設(shè)置分別如表2 和表3 所示。
表2 實(shí)驗(yàn)環(huán)境
表3 超參數(shù)設(shè)置
3.2.3 性能評(píng)估
使用訓(xùn)練集數(shù)據(jù)對(duì)YOLOv5 目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練,在每個(gè)訓(xùn)練周期(epoch)結(jié)束后計(jì)算模型損失,并更新模型參數(shù),訓(xùn)練過(guò)程Loss 變化曲線如圖7 所示;在訓(xùn)練過(guò)程中,從訓(xùn)練集中選擇一部分?jǐn)?shù)據(jù)作為驗(yàn)證集,用來(lái)評(píng)估 YOLOv5 目標(biāo)檢測(cè)模型的性能,計(jì)算該模型在不同指標(biāo)下的精度和召回率等指標(biāo);使用測(cè)試集數(shù)據(jù)測(cè)試YOLOv5 目標(biāo)檢測(cè)模型,評(píng)估該模型在新數(shù)據(jù)上的性能。測(cè)試結(jié)果為:在測(cè)試集上人員檢測(cè)的準(zhǔn)確率為95.3%;在NVIDIA Tesla T4 設(shè)備上,單張圖片平均測(cè)試時(shí)間為2 ms;人員檢測(cè)的準(zhǔn)確率與實(shí)時(shí)性均滿足工程實(shí)際應(yīng)用要求。
圖7 模型訓(xùn)練過(guò)程曲線
本文設(shè)計(jì)了基于智能視覺(jué)的鐵路大橋人員入侵防護(hù)系統(tǒng)。采用YOLOV5 目標(biāo)檢測(cè)模型和多種圖像數(shù)據(jù)增強(qiáng)技術(shù),提升入侵人員檢測(cè)的準(zhǔn)確率和實(shí)時(shí)性,確保模型的泛化能力與場(chǎng)景適應(yīng)能力。該系統(tǒng)在包神鐵路集團(tuán)萬(wàn)南站區(qū)黃河大橋進(jìn)行了部署和測(cè)試,驗(yàn)證了該系統(tǒng)的有效性和可靠性,實(shí)現(xiàn)了高可靠、高精度準(zhǔn)確率、全天候?qū)崟r(shí)入侵檢測(cè)。
本系統(tǒng)可在以下方面持續(xù)優(yōu)化。
(1)工作服區(qū)分法:在正常的天窗施工期間,也會(huì)有人員告警,大多數(shù)為鐵路施工人員。未來(lái),可優(yōu)化深度學(xué)習(xí)模型,通過(guò)工作服區(qū)分是否為工作人員,避免誤報(bào)。
(2)自適應(yīng)檢測(cè)區(qū)域法:由于橋面相機(jī)為多專業(yè)共用,會(huì)出現(xiàn)人為移動(dòng)位置的情況,導(dǎo)致繪制的檢測(cè)區(qū)域出現(xiàn)偏差。未來(lái),可通過(guò)軌道區(qū)域檢測(cè)等方法,自動(dòng)調(diào)整危險(xiǎn)區(qū)域,避免漏報(bào)。