趙丁瑩,劉正才,雷宇斌,朱建偉,王書涵,
(1.湘潭大學(xué) 土木工程學(xué)院,湖南 湘潭 411105;2.湖南科技大學(xué) 地理空間信息技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室,湖南 湘潭 411201;3.湖南省第一測繪院,湖南 長沙 410114)
高速公路廣告牌基數(shù)龐大,隨著我國高速公路現(xiàn)代化建設(shè)的不斷推進(jìn),高速公路廣告牌的數(shù)量將持續(xù)增長.作為高速公路的重要運(yùn)營模塊之一,現(xiàn)階段對于高速公路廣告牌的管理依舊采用人工巡檢的方式,該方式存在作業(yè)危險系數(shù)高、效率低下以及信息管理不便等問題[1-2].研發(fā)新型的高速公路廣告牌智能巡檢技術(shù)已成為亟須解決的一大問題.目標(biāo)檢測作為幾乎涵蓋各類AI項(xiàng)目的第一步,對整個項(xiàng)目最終的結(jié)果具有重要意義.現(xiàn)階段目標(biāo)檢測算法直接應(yīng)用于高速公路廣告牌目標(biāo)檢測,面臨以下幾個主要問題:(1)高速公路廣告牌影像數(shù)據(jù)集匱乏;(2)移動小型設(shè)備提供的算力有限,模型需盡量輕巧;(3)在高速行駛條件下進(jìn)行實(shí)時檢測,目標(biāo)尺度變化劇烈,同時容易造成廣告牌密集區(qū)域數(shù)據(jù)的運(yùn)動模糊,降低檢測精度.
傳統(tǒng)的數(shù)字圖像處理技術(shù)難以滿足實(shí)時檢測的需求.近年來,深度學(xué)習(xí)對目標(biāo)高緯度信息強(qiáng)大的挖掘能力被廣泛應(yīng)用于各類目標(biāo)檢測任務(wù)中.李晗等[3]提出了一種以固態(tài)硬盤(SSD)進(jìn)行遷移學(xué)習(xí)的戶外廣告牌檢測方法,雖可行度高,但易出現(xiàn)漏檢.卜江等[4]采用模糊決策樹探測視頻流關(guān)鍵幀,抽幀后基于圖像顏色特征和局部尺度不變特征變化的特性與模板商標(biāo)進(jìn)行匹配來實(shí)現(xiàn)對廣告牌目標(biāo)的檢測,該方法較好地結(jié)合了傳統(tǒng)方法與機(jī)器學(xué)習(xí)的優(yōu)勢,但模板匹配的方法需要大量的樣本建立數(shù)據(jù)庫.黨倩[5]基于無人機(jī)平臺,以YOLOv5算法結(jié)合級聯(lián)分類器的方法實(shí)時檢測高速公路廣告設(shè)施,但在高速巡檢狀態(tài)下檢測精度欠佳.劉羅成等[6]融合YOLOv3目標(biāo)檢測算法和語義分割算法識別城市道路旁的違規(guī)廣告牌,該方法雖實(shí)時檢測性能較好,但檢測速度較慢.盡管現(xiàn)有目標(biāo)檢測方法在精度和實(shí)時檢測能力上遠(yuǎn)遠(yuǎn)超越了傳統(tǒng)方法,但在面對小型移動式嵌入檢測平臺處于高速運(yùn)動狀態(tài)且僅能提供有限算力等苛刻條件時,算法性能有待進(jìn)一步的提升.
當(dāng)下主流的目標(biāo)檢測算法按照深度學(xué)習(xí)模型的網(wǎng)絡(luò)架構(gòu)階段數(shù)的差異分為兩類:雙階段模型(two-stage)和單階段模型(one-stage).其中,雙階段檢測法雖然檢測精度較高,但是模型體積大、計算速度慢且算力要求高,難以滿足實(shí)時檢測的需求,其代表性算法有Faster-RCNN[7]等;而單階段檢測法將目標(biāo)檢測當(dāng)作回歸問題來解決,可以一步得出待識別物體類型及所處圖像的位置坐標(biāo)值,檢測速度和模型體積更適用于實(shí)時檢測任務(wù),其代表算法為YOLO[8-11]系列,還有SSD[12]、EfficientNet[13]、RetinaNet[14]等.YOLOv1于2016年首次被Redmon等[8]提出,隨后該團(tuán)隊(duì)更新了YOLOv2和YOLOv3,2020年,YOLOv4、YOLOv5 又相繼被提出.本文聚焦于解決高速公路廣告牌目標(biāo)檢測所面臨的主要問題,提出一種改進(jìn)的YOLOv5s標(biāo)檢測算法,為高速公路廣告牌智能巡檢平臺視覺系統(tǒng)提供技術(shù)支撐.
YOLOv5作為最具代表性的一階段檢測算法,其網(wǎng)絡(luò)架構(gòu)可以靈活地進(jìn)行網(wǎng)絡(luò)深度、寬度調(diào)整以及網(wǎng)絡(luò)組件配置,非常適合于算力有限設(shè)備的基礎(chǔ)部署模型.
YOLOv5網(wǎng)絡(luò)架構(gòu)分為輸入端、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)、預(yù)測層(Head)4部分,其中YOLOv5s的簡化網(wǎng)絡(luò)架構(gòu)如圖1所示.
圖1 未改進(jìn)YOLOv5s的網(wǎng)絡(luò)架構(gòu)Fig.1 does not improve the network architecture of YOLOv5s
輸入端主要包含數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計算等功能.骨干網(wǎng)絡(luò)包含F(xiàn)oucs、CSP1-x/C3、SPP/SPPF 等組件;其中CSP1-x/C3模塊一共封裝了向量卷積運(yùn)算[15]、歸一化處理[16]、線性整流函數(shù)[17]和池化[18]4個功能;SPPF對特征圖進(jìn)行多次最大池化,盡可能多地提取高層級的語義特征,同時保證特征圖尺寸和通道數(shù)不變;但骨干網(wǎng)絡(luò)中的CSP1-x結(jié)構(gòu)包含的參數(shù)量較大,使模型應(yīng)用受限.頸部網(wǎng)絡(luò)(Neck)負(fù)責(zé)完成多尺度特征融合,Neck部分的組件有CBS、Upsample、Concat和不帶殘差神經(jīng)網(wǎng)絡(luò)的CSP2-1;YOLOv5采用FPN[18](Feature Pyramid Network)+PA-Net[19]雙向耦合的特征融合策略,Neck層的特征融合金字塔中包含兩個PA-Net結(jié)構(gòu),此外YOLOv5將Neck的普通卷積升級為CSP2-1結(jié)構(gòu);雖然相比YOLOv4版本具有更強(qiáng)的特征融合能力,但在應(yīng)對尺寸變化劇烈的檢測任務(wù)時依舊存在可提升的空間.預(yù)測層主要完成錨框的非極大值抑制以及訓(xùn)練損失函數(shù)計算[20],表達(dá)公式如式(1)所示,通過改變每個損失函數(shù)權(quán)值(λ)可以調(diào)整對三者(分類損失Lclsj、定位損失Lobjj、置信度損失LCIoUj)的關(guān)注度.
(1)
式中:λ1、λ2、λ3為損失函數(shù)權(quán)值;Lclsj為分類損失;Lobjj為定位損失;LCIoUj為置信度損失.
針對現(xiàn)有算法難以滿足高速公路廣告牌高精度實(shí)時檢測任務(wù)需求的問題,本文基于YOLOv5s進(jìn)行改進(jìn),主要改進(jìn)為:將骨干網(wǎng)絡(luò)中的CSP1-x模塊替換為性能更優(yōu)、參數(shù)量更少的PP-LCNet網(wǎng)絡(luò),在特征提取能力基本不變的同時實(shí)現(xiàn)模型的輕量化;將頸部網(wǎng)絡(luò)中的雙向金字塔特征融合網(wǎng)絡(luò)中的PA-Net網(wǎng)絡(luò)改為ASFF自適應(yīng)特征融合網(wǎng)絡(luò),進(jìn)一步提高輕量化模型的特征融合能力,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)架構(gòu)如圖2所示.
圖2 改進(jìn)后的YOLOv5s網(wǎng)絡(luò)架構(gòu)Fig.2 Improved YOLOv5s network architecture
1.2.1 骨干網(wǎng)絡(luò)的改進(jìn)
YOLOv5骨干網(wǎng)絡(luò)中采用CSP1-x結(jié)構(gòu)使其獲得了強(qiáng)大的深層特征提取能力,但大量的網(wǎng)絡(luò)參數(shù)和浮點(diǎn)數(shù)導(dǎo)致該算法在小型移動設(shè)備實(shí)時檢測應(yīng)用中效果欠佳.為了兼容模型強(qiáng)大的特征提取能力與輕量化的體積,本文引入百度團(tuán)隊(duì)提出的PP-LCNet網(wǎng)絡(luò)[21]對骨干網(wǎng)絡(luò)中的CSP-x模塊進(jìn)行替換.PP-LCNet在檢測精度和模型體積上的優(yōu)勢超越現(xiàn)有的輕量級網(wǎng)絡(luò).PP-LCNet網(wǎng)絡(luò)架構(gòu)如圖3所示,Stem部分使用標(biāo)準(zhǔn)的3×3卷積,基本模塊為深度可分離卷積(DepthSepConv);DW表示深度方向卷積,從Stem層開始,中間包含了13層DW;PW表示方向卷積;GAP表示全局平均池化;此外還包含虛線框內(nèi)的SE注意力模塊.
圖3 PP-LCNet網(wǎng)絡(luò)架構(gòu)Fig.3 PP-LCNet network architecture
PP-LCNet較同級網(wǎng)絡(luò)能保證在推理時間不變的情況下挖掘到更多的深度語義特征,PP-LCNet中深度可分離卷積選擇了性能更好的H-Swish激活函數(shù),避免了大量的指數(shù)運(yùn)算;同時采用了更大的卷積核,在網(wǎng)絡(luò)的末端進(jìn)行了5×5卷積內(nèi)核替換操作;此外,在最后的全局平均池化層與全連接層之間插入一個1 280維大小1×1的卷積核,解決網(wǎng)絡(luò)輸出尺寸較小的問題;最后,為了注意力機(jī)制能更好地捕捉顯著特征,調(diào)整了SE模塊至更合適的安裝位置,文獻(xiàn)[22]經(jīng)過大量實(shí)驗(yàn)驗(yàn)證指出,當(dāng)SE模塊位于網(wǎng)絡(luò)末端時,能產(chǎn)生最佳的精度與速度的平衡.PP-CLNet較CSP1-x參數(shù)量減少了36%,但該網(wǎng)絡(luò)的特征提取依舊具有魯棒性.
1.2.2 頸部網(wǎng)絡(luò)的改進(jìn)
高速巡檢時要求檢測模型能夠在目標(biāo)尺度變化劇烈的條件下進(jìn)行高效的特征融合.YOLOv5現(xiàn)有的PA-Net特征融合方法只是簡單地對FPN輸出的不同特征層統(tǒng)一尺寸后再相加,這種融合方式不能有效地對抗不同尺度目標(biāo)的不同層級特征之間沖突的不一致性導(dǎo)致的梯度傳播干擾.ASFF算法[23]能學(xué)習(xí)自適應(yīng)融合不同層級的特征,在空間上過濾沖突信息以抑制梯度反向傳播時的不一致性.其適配最優(yōu)融合的操作過程是差分的,所以非常方便在網(wǎng)絡(luò)中進(jìn)行部署,且不干預(yù)主干模型,實(shí)現(xiàn)簡單.本文將特征融合層中的PA-Net替換為ASFF組成新的特征融合網(wǎng)絡(luò),在計算體積基本不變的情況下能更好地融合高層的語義特征和底層的細(xì)粒度特征.ASFF結(jié)構(gòu)如圖4所示:
圖4中的第一層、第二層、第三層分別為FPN特征金字塔輸出的特征圖,虛線框內(nèi)則演示了ASFF-3的特征融合過程.融合的ASFF-3為不同層級輸出與可學(xué)習(xí)權(quán)重系數(shù)α3、β3、γ3的乘積的和,計算表達(dá)式如下:
(2)
(3)
圖4 ASFF網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 ASFF network structure
在高速公路廣告牌目標(biāo)檢測任務(wù)中,雖然只有廣告牌一個目標(biāo)類別,但在高速運(yùn)動狀態(tài)下進(jìn)行目標(biāo)檢測任務(wù),目標(biāo)尺度變化劇烈,瞬時圖像中往往存在多個不同尺度的目標(biāo),如圖5所示,圖中從左到右廣告牌目標(biāo)尺度依次增大,按該順序定義圖中3個目標(biāo)分別為小目標(biāo)、中目標(biāo)和大目標(biāo),分別對這3個目標(biāo)做可視化分析.
在圖6所示的第一層、第二層、第三層中,左邊為小目標(biāo)的可視化特征圖,中間為中目標(biāo)的可視化特征圖,右邊為大目標(biāo)的可視化特征圖.
圖5 高速公路廣告牌多目標(biāo)樣例 圖6 特征圖可視化Fig.5 Example of a highway billboard with multiple targets Fig.6 Feature map visualization
在第一層中,相對尺度最大的大目標(biāo)響應(yīng)劇烈,很容易就被檢測到,這說明深層網(wǎng)絡(luò)更注重語義信息,對于尺度相對較大的檢測目標(biāo),檢測頭需要配置更大的感受野,更加顧及基于底層特征的相互邏輯關(guān)系所構(gòu)建的高級的語義特征,如由廣告牌邊緣、顏色、紋理等所構(gòu)成的“廣告牌目標(biāo)”這個高層的語義特征;第二層檢測到相對尺度較小的中目標(biāo)和小目標(biāo);而相對尺度最小的小目標(biāo)在第三層響應(yīng)劇烈,大目標(biāo)在該層則未被檢測到,這說明淺層網(wǎng)絡(luò)更加注重細(xì)節(jié)信息,對于尺度較小的目標(biāo)則需要底層的細(xì)粒度特征來判別,諸如廣告牌中的邊緣特征、局部的顏色特征、輪廓特征、空間關(guān)系特征等.ASFF實(shí)現(xiàn)了每一層的權(quán)重參數(shù)與特征求積再相加的特征融合方式,只保留該層的有效信息,該方式能更好地融合不同層的特征信息,相較于原有模型簡單統(tǒng)一特征圖尺寸后就相加的特征融合方式能有效地提升模型的訓(xùn)練效率.
高速公路廣告牌智能巡檢技術(shù)還處于研發(fā)階段,已開源的數(shù)據(jù)集匱乏,針對該問題,本文自主制作了一份高速公路廣告牌影像數(shù)據(jù)集.數(shù)據(jù)來源于湖南省長株潭城市群長潭西高速路段,長度約24 km,其地理坐標(biāo)為28°3′36″N~28°9′30″N,112°52′12″E~112°52′48″E.沿線兩側(cè)高炮廣告牌共128個,車載相機(jī)型號為DSC-RX1RM2,像素為4 020萬,焦距為35 mm.沿線采集圖像數(shù)據(jù),剔除拍攝不清晰、角度不合理、圖內(nèi)目標(biāo)丟失等數(shù)據(jù);其次為了防止在模型訓(xùn)練過程中發(fā)生過擬合或欠擬合的情況,引入百度和361圖庫中符合要求的高速公路高炮廣告牌圖片,使數(shù)據(jù)集所體現(xiàn)的樣本特點(diǎn)更具普適性.最終得到總計2 200張高速公路廣告牌影像,按照1~2 200對圖片進(jìn)行隨機(jī)編號排序,方便對數(shù)據(jù)集進(jìn)行分割.本文對訓(xùn)練集、驗(yàn)證集、測試集的劃分對應(yīng)比例為8∶2∶1.數(shù)據(jù)標(biāo)注基于Labellmg軟件的YOLO格式人工標(biāo)注完成,總計標(biāo)注真實(shí)目標(biāo)框9 774個,目標(biāo)框?qū)?yīng)的標(biāo)簽文件包含其中心點(diǎn)橫縱坐標(biāo)、長寬以及一個總類別標(biāo)簽,存儲格式為txt格式,數(shù)據(jù)集標(biāo)簽信息統(tǒng)計如圖7所示.
圖7 (a)數(shù)據(jù)實(shí)體;(b)標(biāo)注框可視化;(c)標(biāo)注框中心點(diǎn)坐標(biāo)分布;(d)標(biāo)簽尺寸分布Fig.7 (a)Data entity;(b)Dimension box visualization;(c)Coordinate distribution of the center point of the dimension box;(d)Label size distribution
本文采用的評價指標(biāo)有:精確率(Precision)、平均精度(AP)、召回率(Recall)、幀率(FPS).計算方式為:預(yù)測值為正樣本記為P;預(yù)測值為負(fù)樣本記為N;預(yù)測可能發(fā)生的情況以混淆矩陣的形式表示,如表1所示.
表1 混淆矩陣
則精確率、召回率、平均精度指標(biāo)按如下公式(4)計算.
(4)
式中,APc為第c個類別的精確率.
模型訓(xùn)練基于自建數(shù)據(jù)集,使用隨機(jī)梯度下降法(SGD)[23]進(jìn)行梯度更新,訓(xùn)練次數(shù)設(shè)置為 200 輪,訓(xùn)練批的大小為16,訓(xùn)練參數(shù)設(shè)置如表2所示.
表2 訓(xùn)練參數(shù)設(shè)置
在本文實(shí)驗(yàn)數(shù)據(jù)上的收斂效果如圖8所示.
圖8 改進(jìn)YOLOv5s的損失函數(shù)Fig.8 Improved loss function of YOLOv5s
由于本文僅針對高速公路廣告牌一個類別標(biāo)簽進(jìn)行訓(xùn)練,故類別損失為0,圖中僅展示回歸框損失與置信度損失.本文模型的檢測效果主要評價因子變化如圖9所示.
圖9 改進(jìn)YOLOv5s的評價因子變化:(a)精確率變化圖;(b)召回率變化圖;(c)平均精度變化圖Fig.9 Improvement of YOLOv5s evaluation factor changes:(a)Accuracy variation chart;(b)Recall rate change chart;(c)Average accuracy variation chart
可見,本文提出的改進(jìn)YOLOv5s算法在自建集上的性能非常好,收斂速度快,只訓(xùn)練了30輪左右時兩類損失函數(shù)就已經(jīng)趨于穩(wěn)定;檢測精度高,僅訓(xùn)練10輪左右mAP就已經(jīng)達(dá)到98.5%.最終的實(shí)驗(yàn)結(jié)果表明,本文算法在自建集測試中AP達(dá)到99.2%,Recall達(dá)到97.2% ,F(xiàn)PS達(dá)到77幀,并且權(quán)重大小僅10.8 MB,完全滿足高速公路智能巡檢目標(biāo)檢測任務(wù)的需求.為了模擬該模型的實(shí)時檢測效果,本文基于車載相機(jī)錄制了長潭西高速路段模擬巡檢視頻,并在僅配置CPU的計算機(jī)上模擬實(shí)時目標(biāo)檢測任務(wù),結(jié)果表明本文算法在高速出入口廣告牌密集路段、廣告牌背景地物復(fù)雜路段以及高速行駛等條件下依舊具有魯棒性,部分檢測效果如圖10所示.
圖10 改進(jìn)的YOLOv5s算法檢測效果Fig.10 Improved detection effect of YOLOv5s algorithm
為了更好地體現(xiàn)本文算法在高速公路廣告牌目標(biāo)檢測任務(wù)中的優(yōu)勢,開展了與Faster-RCNN、SSD、YOLOv4、YOLOv5m以及未改進(jìn)的YOLOv5s的對比實(shí)驗(yàn).所有模型訓(xùn)練均基于本文自建集在相同訓(xùn)練條件下開展.各模型在權(quán)重大小、平均精度、召回率以及推理時間對比結(jié)果如表3所示.由表3可知,從權(quán)重大小來看,YOLOv5s算法較二階段檢測算法Faster-RCNN、一階段檢測算法SSD和同系列的YOLOv4、YOLOv5m是最輕量的算法,權(quán)重大小僅為14.7 MB,但文本改進(jìn)的YOLOv5s算法在此基礎(chǔ)上體積再次縮小了26.5%,僅有10.8 MB,非常適用于安裝在小型移動檢測設(shè)備上.從平均精度、召回率與推理時間來看,本文算法雖然比二階段檢測算法AP降低了0.6%、Recall降低了1%,但檢測速度大大超越了Faster-RCNN;與一階段算法相比,較除本文算法外性能最優(yōu)的YOLOv5s在AP上提高了2.5%、Recall提高了1.9%,推理時間減少了12 ms.綜合來看,本文提出的改進(jìn)YOLOv5s算法在自建集上的性能表現(xiàn)最佳.可見,本文算法較好地解決了高速公路廣告牌實(shí)時目標(biāo)檢測任務(wù)所面臨的問題,具有較高的應(yīng)用價值.
表3 對比實(shí)驗(yàn)結(jié)果
開展消融實(shí)驗(yàn)以驗(yàn)證本文在YOLOv5s算法網(wǎng)絡(luò)中改進(jìn)的兩個模塊對算法整體性能的優(yōu)化效果.實(shí)驗(yàn)結(jié)果如表4所示,PL-YOLOv5s表示僅替換骨干網(wǎng)絡(luò)中的CSP1-x結(jié)構(gòu)后的模型,AF-YOLOv5s表示骨干網(wǎng)絡(luò)不變,頸部網(wǎng)絡(luò)中PA-Net替換為ASFF后的模型.由表4可知,Neck不變,將骨干網(wǎng)絡(luò)中的CSP1-x模塊替換為PP-LCNe模塊后,參數(shù)量大大降低,推演時間較改進(jìn)前降低了14 ms,但同時平均精度僅損失0.9%;骨干網(wǎng)絡(luò)不變,將頸部網(wǎng)絡(luò)的PA-Net特征融合層替換為ASFF自適應(yīng)特征融合后,模型的平均精度較未改進(jìn)前提高了2.7%,但同時推演時間僅增加3 ms;最后的實(shí)驗(yàn)結(jié)果表明,將兩個模塊同時改進(jìn)以后耦合效果良好,改進(jìn)后的模型較原YOLOv5s平均精度提高了2.5%,推演時間減少了12 ms,在檢測平均精度和速度上同時得到了提升.
表4 消融實(shí)驗(yàn)結(jié)果
高速公路廣告牌智能巡檢平臺的研發(fā)迫在眉睫.本文自主制作了一份可靠的高速公路廣告牌影像數(shù)據(jù)集,同時提出了一種基于YOLOv5s改進(jìn)的輕量化高精度的高速公路廣告牌實(shí)時目標(biāo)檢測算法.基于自建數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文算法平均精度、召回率、權(quán)重大小、每幀推演時間分別達(dá)到99.2%、97.2%、10.8 MB、13 ms;較未改進(jìn)的YOLOv5s平均精度、召回率分別提高了2.5%、1.9%;權(quán)重大小、每幀推演時間減少了26.5%、12 ms.該方法有效地解決了移動小型設(shè)備難以提供足夠算力和高速巡檢條件下目標(biāo)檢測精度較低的問題,為研發(fā)高速公路廣告牌智能巡檢平臺提供了有力的技術(shù)支持.下一步將開發(fā)嵌入本文模型的移動巡檢前端并開展基于車載遙感的廣告牌影像信息提取工作.