代少升,吳云鐸,熊 昆,肖佳偉
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)
限速標(biāo)志牌對(duì)于駕駛員安全駕駛具有重要意義,一個(gè)高效實(shí)時(shí)的限速牌識(shí)別系統(tǒng)可以幫助駕駛?cè)藛T預(yù)防超速、提高駕駛安全以及減少交通事故的發(fā)生。現(xiàn)代的限速牌識(shí)別系統(tǒng)都是利用網(wǎng)絡(luò)導(dǎo)航提供的限速信息,但是有些道路出現(xiàn)臨時(shí)限速牌時(shí)網(wǎng)絡(luò)導(dǎo)航就無(wú)法提前獲知限速信息,所以一個(gè)可以離線又高效實(shí)時(shí)的限速牌識(shí)別系統(tǒng)就具有重要的研究意義。
目前國(guó)內(nèi)外單純做限速標(biāo)志識(shí)別的相對(duì)較少,但是交通標(biāo)志識(shí)別的技術(shù)現(xiàn)在已經(jīng)成為一個(gè)熱門的研究方向,兩者之間具有一些共通性,所以可以從交通標(biāo)志識(shí)別中借鑒有效的方法。有些學(xué)者提出了基于色彩空間、形狀特征或者兩者結(jié)合的識(shí)別交通標(biāo)志牌方法[1-3],雖然有一定的效果,但是不適合用于實(shí)際路面檢測(cè),且在一些天氣不好的情況下(下雨、大霧、烈日反光等)識(shí)別率降低。近年來隨著深度學(xué)習(xí)的興起,有學(xué)者將其應(yīng)用在交通標(biāo)志的識(shí)別上并取得了不錯(cuò)的效果。文獻(xiàn)[4]在德國(guó)交通標(biāo)志數(shù)據(jù)集(German Traffic Sign Recognition Benchmark,GTSRB)上首次實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志超過人工的效果,網(wǎng)絡(luò)識(shí)別的錯(cuò)誤率只有0.56%。文獻(xiàn)[5]提出使用單發(fā)多盒檢測(cè)器(Single Shot MultiBox Detector,SSD)網(wǎng)絡(luò)[6]檢測(cè)交通標(biāo)志的位置和分類,該文獻(xiàn)的模型準(zhǔn)確率最高可以達(dá)到88.4%。文獻(xiàn)[7]通過形態(tài)學(xué)和邊緣檢測(cè)算法尋找待檢測(cè)圖像中的交通標(biāo)志輪廓,然后使用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,實(shí)現(xiàn)對(duì)交通標(biāo)志的識(shí)別,也得到了不錯(cuò)的效果。
本文針對(duì)現(xiàn)有關(guān)于車載限速牌識(shí)別算法所存在的檢測(cè)速度慢、準(zhǔn)確率低、無(wú)法應(yīng)用于嵌入式系統(tǒng)等問題,提出了一種基于神經(jīng)網(wǎng)絡(luò)來檢測(cè)并識(shí)別限速標(biāo)志牌的算法。該算法的神經(jīng)網(wǎng)絡(luò)是基于SSD_MobileNet_v1網(wǎng)絡(luò)的改進(jìn)框架,這個(gè)框架對(duì)原來的網(wǎng)絡(luò)進(jìn)行架構(gòu)裁剪去掉了冗余結(jié)構(gòu);同時(shí)引入了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和使用focal loss作為訓(xùn)練網(wǎng)絡(luò)的分類損失。實(shí)驗(yàn)表明,與目前主流目標(biāo)檢測(cè)網(wǎng)絡(luò)算法相比,本文提出的網(wǎng)絡(luò)算法雖在檢測(cè)精度上略有差距,但是在網(wǎng)絡(luò)實(shí)時(shí)性和權(quán)重文件大小方面還是存在不小的優(yōu)勢(shì)。
SSD是目前比較經(jīng)典和主流的目標(biāo)定位與識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)通過提取不同尺度的特征來預(yù)測(cè)目標(biāo)類別與位置,越在前面的檢測(cè)層對(duì)于小目標(biāo)的分類與定位效果越好。文獻(xiàn)[6]中SSD使用的骨干網(wǎng)絡(luò)是VGG-16,可是VGG-16的參數(shù)數(shù)量比MobileNet_v1網(wǎng)絡(luò)多了將近30倍,但是網(wǎng)絡(luò)的準(zhǔn)確率相差不大。結(jié)合實(shí)際的應(yīng)用場(chǎng)景本文使用MobileNet_v1網(wǎng)絡(luò)代替VGG-16作為SSD的骨干網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 SSD_MobileNet_v1的網(wǎng)絡(luò)結(jié)構(gòu)
本文使用的限速標(biāo)志數(shù)據(jù)集是從中國(guó)交通標(biāo)志檢測(cè)數(shù)據(jù)集CCTSDB[8]和清華大學(xué)的Tinghua100K數(shù)據(jù)集[9]中挑選出的帶有限速牌的圖片,這些原圖數(shù)據(jù)與圖像擴(kuò)增數(shù)據(jù)各占50%,總計(jì)一萬(wàn)多張。將圖片大小統(tǒng)一縮放至300 pixel×300 pixel時(shí)限速牌的長(zhǎng)寬分布見圖2。
圖2 限速牌數(shù)據(jù)集長(zhǎng)寬分布圖
從圖1的SSD_MobileNet_v1網(wǎng)絡(luò)結(jié)構(gòu)圖可以看出該網(wǎng)絡(luò)是一個(gè)多尺度檢測(cè)的網(wǎng)絡(luò),前面的檢測(cè)層用于檢測(cè)小目標(biāo),后面的檢測(cè)層用于檢測(cè)大目標(biāo)。但是從圖2限速牌數(shù)據(jù)集的長(zhǎng)寬分布圖可知本文的限速牌大部分是小目標(biāo),檢測(cè)大物體的輸出層很可能沒有使用,存在網(wǎng)絡(luò)結(jié)構(gòu)上的冗余。為了驗(yàn)證這個(gè)推測(cè),本文使用這些限速牌數(shù)據(jù)集在SSD_MobileNet_v1網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練到模型收斂后統(tǒng)計(jì)各個(gè)檢測(cè)層的輸出占比,結(jié)果如表1所示。
表1 網(wǎng)絡(luò)檢測(cè)層輸出統(tǒng)計(jì)結(jié)果
由表1的統(tǒng)計(jì)結(jié)果可知SSD_MobileNet_v1網(wǎng)絡(luò)從Conv14_2開始后面的檢測(cè)層輸出的比重都為0,所以推斷該網(wǎng)絡(luò)結(jié)構(gòu)確實(shí)存在冗余。由于網(wǎng)絡(luò)檢測(cè)層是按照線性串聯(lián),在后面的大尺度檢測(cè)層結(jié)構(gòu)去掉不會(huì)影響前面小尺度檢測(cè)層,所以本文對(duì)SSD_MobileNet_v1網(wǎng)絡(luò)進(jìn)行冗余架構(gòu)裁剪,刪除后面不參與檢測(cè)的網(wǎng)絡(luò)層。
本文使用一個(gè)已經(jīng)訓(xùn)練到收斂的網(wǎng)絡(luò)對(duì)圖3(a)進(jìn)行識(shí)別,分別取出其中一個(gè)低層和一個(gè)高層的特征圖層進(jìn)行可視化處理。從圖3(b)可知卷積神經(jīng)網(wǎng)絡(luò)低層特征具有更多的紋理信息和位置信息,從圖3(c)可知網(wǎng)絡(luò)的高層特征則具有豐富的語(yǔ)義信息,但是經(jīng)過卷積推理的層數(shù)較多其位置信息和紋理信息遠(yuǎn)不如低層網(wǎng)絡(luò)的多。特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)的功能是將高層網(wǎng)絡(luò)豐富的抽象語(yǔ)義信息映射到低層,這些映射的信息與低層網(wǎng)絡(luò)的紋理和位置信息相融合讓網(wǎng)絡(luò)的識(shí)別精度進(jìn)一步提高。
圖3 特征層可視化
如圖4所示,特征金字塔網(wǎng)絡(luò)包含三個(gè)部分:Part 1是低層特征層conv11到高層特征層conv14_2的常規(guī)卷積路線;Part 2是高層特征層到低層特征層的路線,由于網(wǎng)絡(luò)推理的過程中高層特征層的尺寸會(huì)減小通道數(shù)會(huì)增加,為了可以映射到低層網(wǎng)絡(luò)一般采用上采樣或者反卷積操作保持與低層網(wǎng)絡(luò)一樣的特征尺寸;Part 3是側(cè)向連接將低層特征圖與經(jīng)過上采樣(2×up)后的高層特征圖進(jìn)行元素相加(特征融合),圖中1×1的卷積可以將低層特征圖的通道數(shù)與高層特征圖的保持一致。
圖4 特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)后的SSD_MobileNet_v1網(wǎng)絡(luò)整體架構(gòu)如圖5所示,整個(gè)網(wǎng)絡(luò)的設(shè)計(jì)目的主要是去除網(wǎng)絡(luò)的冗余架構(gòu)和引進(jìn)特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)。前者去除冗余架構(gòu)加快網(wǎng)絡(luò)檢測(cè)速度,具體流程為把原來的SSD_MobileNet_v1網(wǎng)絡(luò)的conv14_2后面的網(wǎng)絡(luò)結(jié)構(gòu)全部去除,雖然從表1中可知conv14_2也不輸出檢測(cè)結(jié)果但是它可以用于充當(dāng)特征金字塔網(wǎng)絡(luò)的高層網(wǎng)絡(luò)所以將該層保留。后者使用特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)多層信息融合,具體的流程為將高層網(wǎng)絡(luò)上采樣與低層網(wǎng)絡(luò)進(jìn)行融合最后進(jìn)行輸出檢測(cè),融合后的輸出層將共享高層的語(yǔ)義信息與低層的紋理和位置信息。
圖5 改進(jìn)網(wǎng)絡(luò)的架構(gòu)圖
圖5所示的改進(jìn)網(wǎng)絡(luò)的主網(wǎng)絡(luò)結(jié)構(gòu)中除了輸入為320×320與圖1主網(wǎng)絡(luò)的300×300不一樣和對(duì)應(yīng)生成的特征圖有一點(diǎn)差異外,其他的網(wǎng)絡(luò)參數(shù)都是相同的;網(wǎng)絡(luò)架構(gòu)中白色的特征層如conv14_1層表示使用傳統(tǒng)的卷積進(jìn)行運(yùn)算,紅色的特征層表示使用深度可分離卷積進(jìn)行運(yùn)算,傳統(tǒng)的卷積和深度可分離卷積都默認(rèn)使用3×3的卷積核,特征層的尺寸數(shù)字減半表示使用了步長(zhǎng)為2×2的池化層進(jìn)行特征提取。特征金字塔網(wǎng)絡(luò)的低層特征到高層特征是按照網(wǎng)絡(luò)的卷積路線實(shí)現(xiàn)的,2×2的上采樣(2×2 up)實(shí)現(xiàn)了網(wǎng)絡(luò)的高層特征向低層特征的連接通道,它與調(diào)整低層特征通道數(shù)的1×1卷積和⊕(融合)操作構(gòu)成了特征金字塔網(wǎng)絡(luò)的側(cè)向連接;原MobileNet-SSD v1網(wǎng)絡(luò)的輸入為300×300,該網(wǎng)絡(luò)的conv11層的特征層為19×19不利于特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)的2×2上采樣操作,所以將網(wǎng)絡(luò)的輸入改為320×320使conv11層的特征層變?yōu)?0×20,修改后特征金字塔網(wǎng)絡(luò)上采樣特征層的順序?yàn)?5×5)→(10×10)→(20×20),原來上采樣的操作一般采用反卷積運(yùn)算,本文則直接使用線性放大將特征層的長(zhǎng)寬擴(kuò)增一倍以減小計(jì)算成本。除此之外,圖5中Detection的作用是生成分類和定位的檢測(cè)框,NMS表示使用非極大值抑制算法,Output表示輸出最終的目標(biāo)檢測(cè)與分類的結(jié)果。
傳統(tǒng)的單階段目標(biāo)檢測(cè)算法中正樣本與負(fù)樣本的分布很不平衡,在訓(xùn)練時(shí)模型的損失值極易被負(fù)樣本所干擾導(dǎo)致樣本中正樣本包含的關(guān)鍵信息不能被損失函數(shù)有效地發(fā)掘,從而讓模型無(wú)法收斂到更好的效果。
focal loss的提出一定程度上減輕了正負(fù)樣本分布不均衡以及簡(jiǎn)單與困難樣本訓(xùn)練的問題,該方法的主要思想是通過帶權(quán)重的交叉熵?fù)p失來降低這些不平衡。采用現(xiàn)在的分類與定位網(wǎng)絡(luò)中廣泛使用的交叉熵來作為模型的損失函數(shù),公式如下:
(1)
式中:p表示該模型的類別概率,它的值域?yàn)閇0,1];q為輸入的標(biāo)簽,取值為0或者1。
由于樣本不平衡,模型在訓(xùn)練時(shí)可以使用一個(gè)與樣本數(shù)量相反的系數(shù)來矯正原來交叉熵計(jì)算出來的損失值。給數(shù)量較少的正樣本匹配一個(gè)較大的權(quán)重系數(shù)擴(kuò)大該類型樣本對(duì)模型的產(chǎn)生的影響,對(duì)于數(shù)量大的負(fù)樣本匹配的權(quán)重則要變小以削弱它對(duì)模型的影響,通過該方法模型可以學(xué)習(xí)到比原來更多的正樣本信息。加入權(quán)重系數(shù)k后交叉熵公式變?yōu)?/p>
(2)
對(duì)于樣本中簡(jiǎn)單樣本與困難樣本的訓(xùn)練,focal loss在式(2)的基礎(chǔ)上又增添了一個(gè)與模型輸出的類別概率有關(guān)的動(dòng)態(tài)縮放因子,它可以在訓(xùn)練時(shí)自動(dòng)降低簡(jiǎn)單樣本的交叉熵系數(shù)和提高困難樣本的交叉熵系數(shù),幫助模型更好地訓(xùn)練困難樣本。加入動(dòng)態(tài)縮放因子后得到的完整focal loss公式為
(3)
式中:γ為提前設(shè)定的超參數(shù),在反向傳播時(shí)不參與更新。
在訓(xùn)練SSD_MobileNet_v1時(shí)會(huì)產(chǎn)生上千個(gè)檢測(cè)框,而對(duì)于限速牌這種目標(biāo)只占整體背景很小一部分的數(shù)據(jù)集來說網(wǎng)絡(luò)產(chǎn)生的絕大部分的檢測(cè)框都不包含訓(xùn)練目標(biāo),這就造成正負(fù)樣本不平衡的現(xiàn)象。在引入focal loss后不僅可以平衡正負(fù)樣本失衡對(duì)模型的影響,而且困難樣本可以得到更好的訓(xùn)練效果進(jìn)一步提高了模型的檢測(cè)率。原SSD_MobileNet_v1的整體損失函數(shù)是位置損失函數(shù)與類別損失函數(shù)的加權(quán),本文保持位置損失函數(shù)不變只對(duì)類別損失函數(shù)進(jìn)行改造。類別損失函數(shù)使用的是交叉熵(SoftmaxLoss),公式展開后如下:
(4)
(5)
式中:pi表示第i個(gè)被預(yù)測(cè)為正樣本或者負(fù)樣本的概率,γ為可調(diào)因子可以調(diào)節(jié)正負(fù)樣本交叉熵系數(shù)的權(quán)重比例。
目前國(guó)內(nèi)外專門針對(duì)限速標(biāo)志的數(shù)據(jù)集比較少而且規(guī)模都不大,所以本文采用的數(shù)據(jù)集除了上文提到的CCTSDB和Tinghua100K數(shù)據(jù)集包含的限速牌樣本以及對(duì)應(yīng)的數(shù)據(jù)擴(kuò)增數(shù)據(jù)集外,只能增添一部分實(shí)際道路采集的限速圖片確保每一類的限速牌數(shù)量接近相同,防止出現(xiàn)訓(xùn)練數(shù)據(jù)不平衡影響模型精度。將整個(gè)限速牌數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,其中訓(xùn)練集中包含限速牌圖片1.2萬(wàn)張,測(cè)試集中包含限速牌圖片1 200張。
本文使用的訓(xùn)練平臺(tái)參數(shù)見表2,模型的訓(xùn)練和測(cè)試均使用Caffe框架,框架對(duì)應(yīng)配套的CUDA版本為8.0以及CUDNN版本為7.5。
表2 訓(xùn)練平臺(tái)參數(shù)
為了驗(yàn)證改進(jìn)SSD_MobileNet_v1網(wǎng)絡(luò)的性能,本文采用均值平均精度(mean Average Precision,mAP)和每秒幀率(Frame Per Second,FPS)對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)估測(cè)試。mAP的計(jì)算公式如下:
(6)
式中:TP為被正確識(shí)別的正樣本數(shù),F(xiàn)P為被錯(cuò)誤識(shí)別成正樣本的負(fù)樣本數(shù),F(xiàn)N為錯(cuò)誤識(shí)別成負(fù)樣本的正樣本數(shù);AP為衡量模型單類別的平均精度(Average Precision),AP公式中的Ni為第i類劃分準(zhǔn)確率P(Precision)和召回率R(Recall)的數(shù)量,p(ri)表示召回率R=ri時(shí)在類別i的p值。
使用裁剪網(wǎng)絡(luò)框架、引入特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和使用focal loss作為分類損失進(jìn)行訓(xùn)練后網(wǎng)絡(luò)的改進(jìn)效果如表3所示,其中基準(zhǔn)網(wǎng)絡(luò)為原SSD_MobileNet_v1網(wǎng)絡(luò)和SSD300網(wǎng)絡(luò),表3中mAP的重疊度(Intersection over Union,IOU)標(biāo)準(zhǔn)取0.5。
表3 網(wǎng)絡(luò)改進(jìn)效果
分析表3,SSD300網(wǎng)絡(luò)雖然mAP的值最高但是模型的運(yùn)行效率最低不適合實(shí)時(shí)檢測(cè);未修改前的SSD_MobileNet_v1網(wǎng)絡(luò)使用深度可分離卷積后降低了網(wǎng)絡(luò)權(quán)重?cái)?shù)量,與SSD300相比大幅度提升了運(yùn)行速度,但是網(wǎng)絡(luò)權(quán)重?cái)?shù)量下降的同時(shí)對(duì)特征提取能力也存在一定的損失,所以從表中可知mAP的指標(biāo)下降了5個(gè)百分點(diǎn)左右;對(duì)SSD_MobileNet_v1進(jìn)行裁剪架構(gòu)后,運(yùn)行速度提升1個(gè)百分點(diǎn)左右而mAP幾乎沒有變化,說明對(duì)該網(wǎng)絡(luò)對(duì)于限速牌數(shù)據(jù)集存在架構(gòu)上面的冗余;由于本文使用的改進(jìn)SSD_MobileNet_v1的網(wǎng)絡(luò)輸入為320×320而原SSD_MobileNet_v1為300×300,增加了一些輸入與特征層擴(kuò)張的計(jì)算量,所以即使裁剪了網(wǎng)絡(luò)架構(gòu)后模型的FPS指標(biāo)還是下降3.5左右,但是更高的輸入分辨率給模型準(zhǔn)確率提升了0.6個(gè)mAP指標(biāo);除此之外,特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)從高層網(wǎng)絡(luò)映射了比較豐富的語(yǔ)義信息結(jié)合低層網(wǎng)絡(luò)的方法以及focal loss損失函數(shù)增加了對(duì)正樣本和困難樣本的挖掘都可以提升一定的網(wǎng)絡(luò)準(zhǔn)確率,從表中易得兩種方法各自提升了網(wǎng)絡(luò)1.13和0.94個(gè)mAP指標(biāo),符合預(yù)期結(jié)果,而這些方法增加的計(jì)算量由FPS指標(biāo)可得知相較原SSD_MobileNet_v1只下降了3.43左右,在可接受的范圍之內(nèi)。所以改進(jìn)后的SSD_MobileNet_v1網(wǎng)絡(luò)較原來的SSD_MobileNet_v1網(wǎng)絡(luò)準(zhǔn)確率有明顯的提高而識(shí)別速度下降不大,滿足實(shí)時(shí)要求。
為了進(jìn)一步驗(yàn)證算法的有效性,本文使用相同的限速牌數(shù)據(jù)集來訓(xùn)練Faster-RCNN[10]、YOLOv4[11]和SSD300網(wǎng)絡(luò),訓(xùn)練后得到的對(duì)比結(jié)果見表4,表中mAP的IOU標(biāo)準(zhǔn)取0.5。
表4 不同算法的對(duì)比結(jié)果
由表4分析可知,F(xiàn)aster-RCNN的檢測(cè)精度很高,僅次于YOLOv4網(wǎng)絡(luò),但是網(wǎng)絡(luò)的FPS指標(biāo)特別低,無(wú)法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)限速牌;YOLOv4網(wǎng)絡(luò)的mAP指標(biāo)最高,F(xiàn)PS指標(biāo)僅次于本文使用的架構(gòu),但是模型的權(quán)重文件太大,在一些嵌入式AI設(shè)備上運(yùn)行時(shí)對(duì)設(shè)備內(nèi)存要求較高;SSD300網(wǎng)絡(luò)相較于本文的算法檢測(cè)的精度略高,但是FPS指標(biāo)和權(quán)重文件大小都明顯比不上本文算法。雖然本文架構(gòu)的檢測(cè)精度比不上上述的網(wǎng)絡(luò),但是仍在車載嵌入式環(huán)境的可接受范圍之內(nèi),而且它在FPS指標(biāo)和網(wǎng)絡(luò)權(quán)重文件大小上具有明顯優(yōu)勢(shì),極大地提高了車載環(huán)境下限速牌的檢測(cè)速度,滿足了實(shí)時(shí)性要求和設(shè)備的硬件需求。
本文提出了一種基于網(wǎng)絡(luò)的實(shí)時(shí)限速牌識(shí)別算法。該算法基于改進(jìn)的SSD_MobileNet_v1,除了利用原網(wǎng)絡(luò)的檢測(cè)速度快和權(quán)重文件精簡(jiǎn)的優(yōu)點(diǎn)外,還引進(jìn)特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和focal loss進(jìn)一步提高網(wǎng)絡(luò)識(shí)別限速牌的準(zhǔn)確率,同時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行裁剪去除網(wǎng)絡(luò)的冗余結(jié)構(gòu)加快了計(jì)算速度。實(shí)驗(yàn)驗(yàn)證了本文提出算法的有效性,相比別的網(wǎng)絡(luò)算法在車載嵌入式環(huán)境下有突出的優(yōu)勢(shì),在GPU平臺(tái)上mAP和FPS分別可以達(dá)到88.11%和35.13,而網(wǎng)絡(luò)的模型文件僅有24 MB。
由于車載場(chǎng)景的限速牌標(biāo)志環(huán)境復(fù)雜存在很多干擾因素,比如限重標(biāo)志牌與限速標(biāo)志牌很相近就差一個(gè)“t”,網(wǎng)絡(luò)識(shí)別時(shí)往往把限重標(biāo)志牌也識(shí)別為限速標(biāo)志牌,如何排除這些干擾因素是本文的下一步研究方向。