国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進Cascade R-CNN的交通標志牌識別*

2021-06-07 05:28:04徐國整廖晨聰
傳感器與微系統(tǒng) 2021年5期
關(guān)鍵詞:像素閾值圖像

徐國整, 周 越, 董 斌, 廖晨聰

(1.上海交通大學(xué) 船舶海洋與建筑工程學(xué)院,上海 200240; 2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240;3.東南大學(xué) 土木工程學(xué)院,江蘇 南京 211189)

0 引 言

交通標志牌檢測是指在車輛行駛過程中利用計算機視覺技術(shù)采集交通標志并實現(xiàn)自動檢測與識別?,F(xiàn)有的基于深度學(xué)習的交通標志牌檢測算法可以分為兩大類:一類是基于回歸方法的目標檢測算法,另一類是基于候選框提取的目標檢測算法。前者的典型代表有YOLO[1]和SSD[2],它們直接對圖像進行劃分網(wǎng)格,在每個網(wǎng)格對應(yīng)位置回歸出目標位置和類別信息,檢測速度非??欤窃跈z測精度上略有欠缺。后者的典型代表是Faster R-CNN[3],它先通過候選區(qū)網(wǎng)絡(luò)(region proposal network,RPN)提取可能存在交通標志的候選框,再用R-CNN[4]對其進行檢測,使檢測精度得到很大提高,但是在較高IOU(intersection over union)閾值下仍然無法滿足該任務(wù)的精度要求[5]。文獻[6]提出級聯(lián)R-CNN結(jié)構(gòu),使得能夠在高IOU閾值的情況下訓(xùn)練出高質(zhì)量的檢測器。

本文基于虛擬仿真環(huán)境下的自動駕駛交通標志識別大賽提供的數(shù)據(jù)集,針對雨、雪、霧天等惡劣環(huán)境下以及行人狀況等干擾因素,交通標志容易被遮擋,且目標較小,難以被高精度識別以及定位的問題,本文首先對數(shù)據(jù)集進行了去霧、增亮增強;并基于改進的Cascade R-CNN,提出了先粗后精和模型融合的思想和設(shè)計了檢測算法框架。本文提出的算法模型較其他模型有著顯著的優(yōu)勢,能高精度精準的檢測并識別復(fù)雜環(huán)境下道路周邊交通標志牌。

1 模型算法

1.1 算法流程設(shè)計

本文提出的算法框架如圖1所示,首先針對干擾因素對圖像做了去霧和增亮的數(shù)據(jù)增強,然后基于由粗到精的策略,將第一個網(wǎng)絡(luò)預(yù)測出的包含目標的小尺寸區(qū)域裁剪出來然后再放大,輸入到兩個分別基于Resnext[7]和Hrnet[8]的不同的骨干網(wǎng)絡(luò)中重新訓(xùn)練并預(yù)測,最后將模型結(jié)果進行融合,輸出模型檢測出的交通信號燈的精確位置坐標以及類別。

圖1 本文提出的算法流程

1.2 Cascade R-CNN 算法

檢測問題是分類和定位問題的結(jié)合,對于分類問題,可以根據(jù)標簽直接計算損失,對于定位問題,現(xiàn)有目標檢測模型的主要解決辦法是回歸,同時需要根據(jù)IOU閾值來定義正負樣本,IOU的選擇就會對訓(xùn)練和推斷造成很大的影響。通常IOU大于某個閾值會被假定為正樣本,當這個閾值設(shè)置偏低,易產(chǎn)生噪聲;設(shè)置偏高則會降低檢測器的性能:一方面導(dǎo)致正樣本數(shù)量的急劇減少,會導(dǎo)致訓(xùn)練過程過擬合,另一方面訓(xùn)練和推斷兩個階段的閾值不同會導(dǎo)致不匹配。Cascade R-CNN 采用多個階段訓(xùn)練,能很好地解決這個問題。

本文采用的Cascade R-CNN具體結(jié)構(gòu)如圖2所示。首先輸入(input)圖像,經(jīng)過提取特征的骨干(backbone)卷積神經(jīng)網(wǎng)絡(luò),本文粗檢測模型中采用的是Resnet50,精確檢測模型中分別采用的是Resnext101和Hrnet。為了獲得更加魯棒性的高層語義特征,在卷積神經(jīng)網(wǎng)絡(luò)之后,本文加上了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)[9];然后使用RPN生成候選區(qū),對于候選框下采樣層(RoI),本文采用了對齊候選區(qū)下采樣層(RoI Align),RoI Align的準確率顯著優(yōu)于普通的RoI pooling[3],最后經(jīng)過接頭網(wǎng)絡(luò)(H),再分別進行分類(C)和框回歸(B)。對于R-CNN部分,本文進行了三階段擴展,檢測器的級聯(lián)階段越深,對相似假陽性就有更多的選擇性。三個階段的IOU取值依次為0.6,0.7,0.8,利用三個串聯(lián)IOU閾值訓(xùn)練,每經(jīng)過一個檢測器,候選區(qū)的IOU都更高,樣本質(zhì)量更好,當使下一個檢測器閾值設(shè)置得比較高時,也不會出現(xiàn)過多的樣本被判為負樣本,從而避免過擬合問題。

圖2 Cascade R-CNN結(jié)構(gòu)示意

1.3 錨設(shè)計

Cascade R-CNN 通常是在PASCAL VOC數(shù)據(jù)集上進行訓(xùn)練評估,默認采用三種高寬比的(0.5,1,2)的錨比例,而在交通信號標志的檢測中,目標通常比較小,同時高寬比分布比較固定,本文統(tǒng)計了數(shù)據(jù)集的全部被檢測目標的高寬比,主要分布在0.6~1.4之間。故本文采用了(0.6,1,1.4)的錨比例,這樣的錨設(shè)計能更好地在區(qū)域生成網(wǎng)絡(luò)中更好地生成適合目標大小的候選區(qū)域。

1.4 在線難例挖掘

本文在每個階段的R-CNN部分使用在線難例挖掘(online hard example mining,OHEM)的方法:針對模型訓(xùn)練過程中導(dǎo)致?lián)p失值很大的一些樣本,重新訓(xùn)練它們。將原圖的所有候選區(qū)輸入到RoIAlign中,計算它們的分類損失和框回歸損失,根據(jù)損失從高到低排序,以及利用極大值抑制,來選出前K個候選區(qū),將K個候選區(qū)重新輸入RoIAlign中訓(xùn)練,并將梯度殘差回傳給卷積層,從而更新整個網(wǎng)絡(luò)。

1.5 多尺度訓(xùn)練

對于小目標而言,單一尺度的訓(xùn)練難以檢測出小目標,而利用多尺度訓(xùn)練,可以提高模型的魯棒性。多尺度分為訓(xùn)練階段多尺度與測試階段多尺度,其中訓(xùn)練階段多尺度又分為圖像金字塔與特征金字塔。本文在訓(xùn)練階段采用圖像金字塔方法,將多種分辨率的圖像送到網(wǎng)絡(luò)中識別,訓(xùn)練時每隔一定輪回隨機選取一種尺度訓(xùn)練,這樣訓(xùn)練出來的模型魯棒性強,其可以接受任意大小的圖片作為輸入。

1.6 由粗到精

交通信號牌檢測的數(shù)據(jù)集中目標較小而圖片尺寸較大,容易導(dǎo)致目標難以檢測到或者因為IOU達不到0.9的閾值要求而被過濾掉。并且,圖片中包含大量無用信息,而這些又占用了大量的計算資源。因此,本文采用由粗到精的策略,在相同的計算資源下,即先利用一個骨干網(wǎng)絡(luò)深度和寬度較小的模型來檢測全尺寸圖片(3 200像素×800像素),得到目標框大致坐標信息,再根據(jù)此坐標信息裁取一個包含目標的小尺寸區(qū)域,將其適當放大后輸入一個骨干網(wǎng)絡(luò)深度更深且寬度更寬的模型中重新訓(xùn)練并預(yù)測。

2 數(shù)據(jù)增強

針對數(shù)據(jù)集中存在大量霧天和在夜晚拍攝導(dǎo)致亮度較暗的圖片中的交通標志無法辨識的情況,本文采用暗通道去霧與神經(jīng)網(wǎng)絡(luò)增亮的方法對數(shù)據(jù)進行了增強。

2.1 暗通道去霧

本文采用暗通道去霧算法對圖片進行去霧處理,計算機視覺和計算機圖形學(xué)中,圖像去霧模型如下

I(x)=J(x)t(x)+A(1-t(x))

(1)

式中I(x)為待去霧的圖像,J(x)為無霧圖像,A為全球大氣光成分,t(x)為折射率(大氣傳遞系數(shù))。

去除霧霾的目標是從中I(x)恢復(fù)J(x),A和對于t(x)個像素的彩色圖像I(x),存在3N個約束和4N+3個未知數(shù)。等式中的第一項稱為衰減項,第二項被稱為空氣光,空氣光在散射光的作用下產(chǎn)生顏色轉(zhuǎn)變,透射率隨場景深度呈指數(shù)變化,如果能夠恢復(fù)轉(zhuǎn)化關(guān)系,就能將場景深度恢復(fù)到未知的范圍。在無霧圖像中,每一個局部區(qū)域都很有可能會有陰影,根據(jù)Dark Channel Prior理論[10],每一個局部區(qū)域都很有可能存在至少一個顏色通道會有很低的值。如下式所示,通過求出每個像素RGB分量中的最小值,存入一副和原始圖像大小相同的灰度圖中,然后再對這幅灰度圖進行最小值濾波便可得到暗通道。Jc表示彩色圖像的每個通道,Ωx表示以像素x為中心的一個窗口。

(2)

算法步驟如下:

1)估計傳輸率t,假設(shè)大氣光A已知,則

(3)

2)取兩次最小值運算

(1-t(x))

(4)

3)代入暗通道先驗假設(shè),令暗通道為0,即

(5)

4)求出窗口內(nèi)折射率

ω∈[0,1],ω=0.95

(6)

5)計算去霧以后回復(fù)圖像

(7)

當投射圖t(x)的值很小時,會導(dǎo)致J(x)的值偏大,從而使得圖像整體向白場過度,因此一般可設(shè)置一閾值t0,當t(x)值小于t0時,令t(x)=t0,本文中所有效果圖均以t0=0.1為標準計算。如圖3所示,本文的去霧算法能夠很好去除圖片中的霧霾,且在一定程度上增加了圖片對比度。

圖3 暗通道去霧效果

2.2 神經(jīng)網(wǎng)絡(luò)增亮

針對數(shù)據(jù)集中較暗樣本以及去霧以后圖像變暗的問題,本文提出FCN LightNet,采用訓(xùn)練一個全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)來直接處理快速成像系統(tǒng)中的低亮度圖像。純粹的FCN 結(jié)構(gòu)可以有效地代表許多圖像處理算法。如圖4所示,在圖片的每個通道上將空間分辨率降低50 %。原始低分辨率數(shù)據(jù)以6×6排列塊組成;通過交換相鄰?fù)ǖ涝氐姆椒▽?6個通道的數(shù)組打包成9個通道。此外,本文消除黑色像素并按照期望的倍數(shù)縮放數(shù)據(jù)(例如,×100或×300)。將處理后數(shù)據(jù)作為 FCN模型的輸入,輸出是一個包含12通道的圖像,其空間分辨率只有輸入的50 %。本文將兩個標準的FCN結(jié)構(gòu)作為模型的核心架構(gòu),分別是多尺度聚集網(wǎng)絡(luò)(multi-scale context aggregation network,CAN)和U-net。

圖4 FCN LightNet技術(shù)路線

本文網(wǎng)絡(luò)輸入是原始的較暗的原始數(shù)據(jù),在RGB空間中的真實數(shù)據(jù)是相應(yīng)的光照條件較好的圖片數(shù)據(jù)。在每次訓(xùn)練迭代中,隨機裁剪一個512像素×512像素的小圖用于訓(xùn)練并利用翻轉(zhuǎn)、旋轉(zhuǎn)等操作來隨機增強數(shù)據(jù)。效果如圖5所示。

圖5 FCN LightNet增亮效果

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

數(shù)據(jù)由虛擬仿真環(huán)境下的自動駕駛交通標志識別大賽主辦方天津泰達科技發(fā)展集團有限公司采集,全部來源于虛擬場景環(huán)境下自動駕駛車輛采集的道路交通數(shù)據(jù),場景中會有不同的天氣狀況(霧天、雨天、雪天等)和行人狀況作為干擾因素,采用仿真環(huán)境下車輛攝像頭采集數(shù)據(jù),圖片大小為3 200像素×1 800像素。

3.2 實驗環(huán)境與參數(shù)設(shè)置

本文的模型訓(xùn)練和測試均基于上海交通大學(xué)學(xué)生創(chuàng)新中心GPU計算平臺的Linux 系統(tǒng)進行,使用了4塊11 G 顯存的NVIDIA GeForce GTX 1080Ti GPU。訓(xùn)練的初始學(xué)習率設(shè)置為0.01,在第4個輪回的迭代之后降到0.001,在第8個輪回的迭代之后降到0.0001,之后以0.0001的學(xué)習率繼續(xù)迭代4個輪回停止。優(yōu)化函數(shù)采用的是隨機梯度下降法,動量、衰減率分別設(shè)為0.9000,0.0001,在PYTORCH架構(gòu)上進行實驗。

3.3 模型評估與實驗結(jié)果

圖像檢測需要使用矩形框?qū)⒛繕藱z測物體選中,根據(jù)檢測結(jié)果和目標框之間重疊比率大于0.90,視為合格候選,預(yù)測的實例A和真實實例B之間的IOU計算公式為

(8)

式中A為被預(yù)測的實例;B為真實實例;IOU為交并比。

根據(jù)圖片中汽車道路標志牌名稱與候選名稱是否一致判斷圖像內(nèi)容是否匹配。為全面評估模型的有效性,必須同時檢查召回率(recall)和精度(precision),檢測結(jié)果的召回率和精確率的計算公式為

(9)

式中R為召回率;TP為真正例,指模型將正類別樣本正確預(yù)測為正類別;FN為真負例,指將負類別樣本正確地預(yù)測為負類別

(10)

式中P為精確率;FP為假正例,指將負類別樣本錯誤地預(yù)測為正類別。

當精確率和召回率評估指標都為最優(yōu)時是最理想的情況;但一般情況下,精確率高,召回率就低,反之,召回率高,精確率就低、故本文采用綜合評價指標F1,來綜合考慮精確率和召回率,從而更合理地評估模型的性能,F(xiàn)1的計算公式為

(11)

通常來說,圖的大小增大,能提高檢測的準確率,故在本文的實驗中,采用了一張卡訓(xùn)練一張圖的策略。本文提出的改進算法記為Our-Cascade R-CNN,并與其他模型結(jié)果對比如表1所示。模型1和模型2的輸入為原圖,模型3~模型6是采用C to F的思想之后,將目標裁減出來之后,再次進行訓(xùn)練,輸入為裁剪并放大之后的小圖;模型1和模型2的骨干網(wǎng)絡(luò)均采用了Resnet50,沒有采用更深更寬的網(wǎng)絡(luò)的原因是原圖的尺寸是3 200像素×1 800像素,比較偏大,采用Resnet 50的骨干網(wǎng)絡(luò),GPU已經(jīng)占用了95 %以上,模型3~模型6則是采用了C to F的策略之后,同樣的計算資源之下,采用了更深更寬的網(wǎng)絡(luò);模型1~模型3是沒有經(jīng)過改進的模型,模型4~模型6均采用了本文的改進策略。

表1 模型計算結(jié)果對比

實驗結(jié)果表明:模型1的得分是顯著低于模型2的得分,其原因是因為當IOU>0.9的框才算目標被檢測到,級聯(lián)RCNN結(jié)構(gòu)體現(xiàn)了巨大的優(yōu)勢,它讓檢測到的目標定位更加的精準;而模型4~模型6的得分均高于模型2超過1 %,驗證了本文提出的由粗到精檢測的方法在高精度檢測方面的優(yōu)勢;模型4和模型5其他參數(shù)均相同,但是采用Resnext 101和Hrnet 2p兩種不同的提取特征的骨干網(wǎng)絡(luò),這兩個模型的性能表現(xiàn)相似;模型6是將模型4和模型5進行了融合,結(jié)果表明兩個不同的骨干網(wǎng)絡(luò)的模型進行融合,模型將表現(xiàn)更加的優(yōu)異,泛化能力也能會更好。

4 結(jié) 論

本文基于Cascade R-CNN的網(wǎng)絡(luò)思想設(shè)計了一種更適用于復(fù)雜環(huán)境下交通標志識別的算法系統(tǒng),在驗證集上F1指標取得了0.997 2的分數(shù),實現(xiàn)了對交通標志的精準檢測和識別,并得到如下結(jié)論:1)當對檢測目標的定位準確率要求高時,Cascade R-CNN的優(yōu)勢顯著高于Raster R-CNN;2)針對交通信號牌檢測數(shù)據(jù)集的特點,對圖片進行去霧和增亮處理,適當修改Anchor ratio,并結(jié)合難例挖掘、多尺度等方法,能顯著增強模型的檢測效果;3)當被檢測圖片大小遠超過被檢測目標的大小時,采用本文提出的由粗到精的方法,能在節(jié)省計算資源的前提下還能大幅提升檢測的準確率;4)將性能相近,但是網(wǎng)絡(luò)結(jié)構(gòu)不同的模型進行融合,能更好提高模型的泛化能力和檢測的效果。

猜你喜歡
像素閾值圖像
趙運哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
改進的LapSRN遙感圖像超分辨重建
像素前線之“幻影”2000
有趣的圖像詩
小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
“像素”仙人掌
基于自適應(yīng)閾值和連通域的隧道裂縫提取
比值遙感蝕變信息提取及閾值確定(插圖)
河北遙感(2017年2期)2017-08-07 14:49:00
室內(nèi)表面平均氡析出率閾值探討
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
乌苏市| 滕州市| 拉萨市| 兴海县| 黄梅县| 武义县| 喀喇| 泰和县| 崇信县| 东安县| 福贡县| 方山县| 安多县| 木里| 包头市| 江陵县| 西昌市| 日喀则市| 靖远县| 探索| 勃利县| 泰兴市| 磐安县| 萍乡市| 哈密市| 邵东县| 包头市| 桑日县| 上饶县| 枞阳县| 东乡族自治县| 定安县| 介休市| 砚山县| 铁岭市| 甘肃省| 上高县| 吴旗县| 苗栗市| 泸西县| 儋州市|