金 旺,易國洪,2,洪漢玉,陳思媛
1.武漢工程大學 計算機科學與工程學院,武漢430205
2.武漢工程大學 智能機器人湖北省重點實驗室,武漢430205
3.武漢工程大學 圖像處理與智能控制實驗室,武漢430205
隨著汽車的越發(fā)普及,城市交通事故愈發(fā)頻繁,自動駕駛技術(shù)能夠有效地避免交通事故發(fā)生。車輛檢測是自動駕駛中的一項關(guān)鍵技術(shù),快速準確的車輛檢測在減少交通事故上起著重要作用。
由于深度學習的快速發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),越來越多的深度學習模型應用于目標檢測任務(wù)。根據(jù)檢測框的不同,目標檢測算法可分為兩類,分別為基于候選區(qū)域生成的檢測算法和基于回歸的檢測算法?;诤蜻x區(qū)域生成的算法主要有R-CNN[1]、SPPNet[2]、Fast R-CNN[3]、Faster R-CNN[4]、R-FCN[5]。RCNN首次將深度學習應用于目標檢測任務(wù),利用選擇性搜索方法生成候選框,將每個候選框中提取的特征輸入到SVM中進行分類。R-CNN相較于傳統(tǒng)檢測方法性能有很大的提升,但是R-CNN要求輸入圖像的尺寸固定,且候選框的生成需要大量計算導致檢測速度慢。SPP-Net引入了金字塔池化層,解決了圖像輸入尺寸固定的問題,但是SPP-Net難以進行網(wǎng)絡(luò)參數(shù)微調(diào),限制了檢測精度的提升。Fast R-CNN使用感興趣區(qū)域池化層替代金字塔池化層,同時使用多任務(wù)損失的端到端訓練,解決了SPP-Net整體訓練困難的問題。但是Fast RCNN仍然使用選擇性搜索方法生成候選框,使得檢測速度仍然很慢。Faster R-CNN提出了區(qū)域生成網(wǎng)絡(luò)用于候選框的生成,極大地提高了候選框生成速度。但是Faster R-CNN仍然未能達到實時檢測的要求。R-FCN提出位置敏感池化層,相較于Faster R-CNN檢測速度更快,但是R-FCN同樣未能實現(xiàn)實時檢測?;诤蜻x區(qū)域生成的算法雖然在檢測精度上有著良好的表現(xiàn),但在檢測實時性上仍面臨巨大的挑戰(zhàn)。
基于回歸的算法主要有YOLO[6]、SSD[7]、YOLOv2[8]、YOLOv3[9]?;诨貧w的方法直接通過回歸得到目標的位置和分數(shù)。這種方法不需要生成候選區(qū)域,極大地減小了計算量,從而提高了檢測的速度。YOLO最先使用回歸的方法進行目標檢測,該方法在GPU上檢測速度達到45 f/s,真正意義上實現(xiàn)了實時檢測。但是YOLO存在定位誤差,且對于重疊物體以及小物體檢測效果差。SSD通過預設(shè)先驗框以及采用多尺度特征進行檢測,提高了對于尺度變化較大的物體的檢測能力。但是SSD的多尺度特征均來自于最后的全連接層,沒有考慮卷積層之間的聯(lián)系。YOLOv2通過使用預設(shè)先驗框、批量標準化以及多尺度訓練等系列優(yōu)化手段,來提高算法的檢測精度。但是YOLOv2在檢測精度上相較于SSD并未得到提高。YOLOv3改變了基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),使用殘差網(wǎng)絡(luò)提取特征,構(gòu)建特征金字塔網(wǎng)絡(luò)實現(xiàn)多尺度預測,在檢測精度上得到極大的提高。但是YOLOv3對于遮擋物體檢測性能不佳,對于尺寸變化較大的目標存在漏檢的問題。同時,YOLOv3網(wǎng)絡(luò)模型參數(shù)規(guī)模較大,計算成本高。
目前已有很多基于深度學習的車輛檢測算法,史凱靜等人[10]通過改進FAST R-CNN算法來檢測道路前方的車輛;阮航等人[11]提出了一種基于加權(quán)特征映射的卷積神經(jīng)網(wǎng)絡(luò)模型;王得成等人[12]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)并融合了彩色與深度圖像的車輛檢測算法;通過改進YOLOv3來實現(xiàn)車輛的檢測[13-15]。但是這些車輛檢測算法存在以下問題:(1)尺度敏感。對于尺度變化較大的車輛容易出現(xiàn)誤檢漏檢問題。(2)重疊車輛檢測效果差。(3)模型結(jié)構(gòu)復雜,訓練較為困難,檢測速度過度依賴于計算資源。
針對上述問題,本文以深度殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),在主網(wǎng)絡(luò)后增加卷積層與主網(wǎng)絡(luò)卷積層共同構(gòu)建多尺度特征金字塔,以解決尺度敏感的問題;使用軟化非極大抑制線性衰減置信得分,解決車輛遮擋的問題;對批標準化層中的γ系數(shù)施加正則化,裁剪特征通道,縮減參數(shù)規(guī)模,精簡網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)模型更易訓練。實驗結(jié)果表明,本文所提的方法有效降低了模型的參數(shù)量,顯著提高了對于復雜場景中尺度變化較大車輛以及遮擋車輛的檢測效果。
本文提出的車輛檢測網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該方法以車輛圖像作為輸入,同時輸出車輛的位置和置信得分。首先,使用深度殘差網(wǎng)絡(luò)提取車輛特征;然后將高層特征圖上采樣與淺層特征圖共同構(gòu)建特征金字塔網(wǎng)絡(luò),用于多尺度預測;最后將車輛預測框使用軟化非極大抑制線性衰減置信得分,得到最后的車輛檢測結(jié)果。同時,在訓練過程中,對每個特征圖進行正則化約束,對網(wǎng)絡(luò)進行裁剪,從而精簡網(wǎng)絡(luò)結(jié)構(gòu),縮減參數(shù)規(guī)模。與現(xiàn)有車輛檢測方法相比,本文方法更易訓練,針對尺度變化較大目標以及遮擋目標具有較好的檢測效果。
圖1 車輛檢測網(wǎng)絡(luò)結(jié)構(gòu)圖
殘差學習[16]能夠很好地解決深度神經(jīng)網(wǎng)絡(luò)隨網(wǎng)絡(luò)層數(shù)加深而導致網(wǎng)絡(luò)退化的問題,深度殘差網(wǎng)絡(luò)能夠提取更為豐富的特征。受殘差學習的啟發(fā),本文使用殘差模塊作為特征提取網(wǎng)絡(luò)的基本模塊。殘差網(wǎng)絡(luò)由一系列殘差模塊組成,每個殘差模塊可分為映射部分和殘差部分。殘差塊表示方式如式(1)所示,xi表示第i個殘差塊的輸入,f(?)表示中間卷積輸出,xi+1表示第i個殘差塊的輸出。
殘差塊結(jié)構(gòu)如圖2所示,殘差塊包含三個卷積層,卷積層間使用relu激活函數(shù),第一個1×1卷積操作用于通道降維,第二個1×1卷積操作用于維數(shù)恢復。這種做法能夠有效地減少計算量和參數(shù)量。
圖2 殘差塊結(jié)構(gòu)圖
深度殘差網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。將分辨率為512×512的圖像輸入到深度殘差網(wǎng)絡(luò)中,首先使用32個尺寸為3×3的卷積核對圖像進行過濾,得到圖像初始特征圖。然后使用步長為2的卷積對特征圖進行降采樣,接著將降采樣后的特征圖分別經(jīng)過1、2、8、8、4、4、4的殘差塊,分別得到尺寸為128×128、64×64、32×32、16×16、8×8、4×4的特征圖。這樣,淺層特征圖感受野小可用于小物體的檢測,高層特征圖感受野大可用于大物體的檢測。
表1 深度殘差網(wǎng)絡(luò)結(jié)構(gòu)
特征金字塔網(wǎng)絡(luò)[17]通過將高層語義信息與淺層位置信息融合得到多個尺度不同的特征圖用于目標檢測,能夠很好地解決車輛尺度變化較大導致檢測效果較差的問題。在深度殘差網(wǎng)絡(luò)中,得到了6種尺寸的特征圖。將尺寸為4×4的特征圖分別進行2倍、4倍、8倍、16倍上采樣得到8×8、16×16、32×32、64×64尺寸特征圖,然后將上采樣得到的特征圖與深度殘差網(wǎng)絡(luò)中對應尺寸的特征圖進行融合,得到5種尺度的信息融合特征圖,并形成5個檢測分支,用于檢測不同尺寸的車輛。
傳統(tǒng)的非極大抑制方法直接將重合度大于某一閾值的預測框的置信得分置為0,而在真實場景下獲得的車輛圖片往往存在車輛重疊的情況,這樣使用普通的非極大抑制就會造成車輛的漏檢。本文使用軟化非極大抑制方法[18],利用高斯加權(quán)平滑函數(shù),通過線性衰減置信得分來降低重疊車輛的漏檢率?,F(xiàn)有的目標檢測算法大多使用預測框與真實框的交并(Intersection over Union,IoU)來反映預測框與真實框的重合度。然而當預測框與真實框沒有相交時,對應的IoU為0,根本無法反映預測框與真實框的重合度。為了解決這一問題,本文使用DIoU[19]代替IoU,設(shè)定預測框為A及真實框為B,A和B的最小凸集為C(包含A和B的最小包圍框),IoU和DIoU的計算方法如式(2)和式(3)所示:
式(3)中,bgp和bgt分別表示預測框和真實框的中心點,ρ(?)表示兩中心點之間的歐式距離,c表示最小凸集C的對角線距離。這樣,得到了軟化非極大抑制的計算方法如式(4)所示:
式(4)中,si表示第i個檢測框的得分,bm表示得分最高的檢測框中心點,bi表示第i個檢測框的中心點,σ為常數(shù)。
目標檢測算法往往利用深度神經(jīng)網(wǎng)絡(luò)來提高算法的檢測精度。而深度神經(jīng)網(wǎng)絡(luò)通常模型結(jié)構(gòu)復雜,參數(shù)量大,難以訓練,且網(wǎng)絡(luò)在訓練過程中需要龐大的計算資源。對網(wǎng)絡(luò)進行裁剪能有效地減少計算資源,精簡網(wǎng)絡(luò)結(jié)構(gòu),縮減參數(shù)規(guī)模。以數(shù)據(jù)驅(qū)動的通道裁剪相較于層級裁剪更為靈活,可以獲得更好的裁剪質(zhì)量。
在卷積神經(jīng)網(wǎng)絡(luò)中,通常在卷積層后使用批標準化進行特征縮放。批標準化可表示為式(5)的形式,γ和β為可學習參數(shù),一個特征通道對應一組(γ,β)。當γ較小時,該通道特征對最終檢測結(jié)果影響較小。通過將較小γ所在特征通道進行裁剪,從而實現(xiàn)模型的通道級裁剪[20]。
對特征通道的裁剪,通常的做法是直接設(shè)置裁剪閾值,當裁剪因子小于裁剪閾值時,將該裁剪因子對應的特征通道刪除,但是這種方法存在兩個問題:裁剪閾值需要多次嘗試才能得到較好的裁剪模型,而每次嘗試需要重新訓練,耗費大量時間;直接設(shè)置裁剪閾值可能導致網(wǎng)絡(luò)中某一層的特征通道全部被裁剪。在本文中,使用裁剪率替代裁剪閾值,將所有裁剪因子的值進行排序,選取裁剪率對應的裁剪因子作為裁剪閾值。為了避免網(wǎng)絡(luò)某層的特征通道全部被裁剪,將每層網(wǎng)絡(luò)中最大的裁剪因子進行排序,選取其中最小的裁剪因子作為裁剪閾值的限定值。當裁剪閾值小于限定值時,將該裁剪閾值作為最終的裁剪閾值,當裁剪閾值大于限定值時,使用限定值作為最終的裁剪閾值。通過將小于裁剪閾值的裁剪因子所在的特征通道刪除,從而實現(xiàn)模型的精簡。
本文網(wǎng)絡(luò)基本參數(shù)設(shè)置如下:最大迭代次數(shù)為50 000次,學習率(learning rate)初始值為1E?3,并依次衰減為1E?4、1E?5,對應迭代次數(shù)分別為25 000、15 000、10 000。設(shè)置動量(momentum)為0.9,權(quán)重衰減(decay)為5E?4,批量大?。╞atch size)為8,優(yōu)化器選用隨機梯度下降(Stochastic Gradient Descent,SGD)。本文網(wǎng)絡(luò)的損失由分類置信度損失和位置損失以及正則化約束函數(shù)構(gòu)成。正則化約束函數(shù)是為了使裁剪因子γ產(chǎn)生稀疏解,通常使用L1正則化約束函數(shù),但是L1正則化函數(shù)不是連續(xù)可導的,直接使用L1正則化函數(shù)可能導致網(wǎng)絡(luò)在訓練過程中無法收斂。為了解決這一問題,將L1正則化函數(shù)進行平滑操作,對應公式如式(6)所示,λ為0到1之間的常量。
最終定義網(wǎng)絡(luò)的損失函數(shù)如式(7):
在式(7)中,L1為置信度損失函數(shù),L2為位置損失函數(shù),lconf和lloc分別為兩者的平衡參數(shù),ypc和ytc分別為預測類別和真實類別,bgp和bgt分別為預測位置和真實位置。置信度損失使用交叉熵損失函數(shù),位置損失使用均方損失函數(shù),Ω(?)為正則化約束函數(shù)。
本次實驗基于Darknet53和pytorch1.0框架,在Intel Core i7-8750H和NVIDIA GTX 1080 8 GB GPU的機器上運行。
PASCAL VOC數(shù)據(jù)集來自于PASCAL VOC挑戰(zhàn)賽,主要用于評估模型在目標分類、目標檢測、目標分割任務(wù)的性能。PASCAL VOC挑戰(zhàn)賽從2005年持續(xù)到到2012年,目前使用最多的數(shù)據(jù)集是VOC2007和VOC2012。VOC數(shù)據(jù)集分為4個大類、20個小類。本文結(jié)合VOC2007和VOC2012,對兩個數(shù)據(jù)集中的標簽信息進行處理,僅保留車輛標簽信息及對應的圖像,最后得到2 595張包含車輛信息的數(shù)據(jù)集VOC0712。并將車輛數(shù)據(jù)集分為兩個部分:包含2 465張圖片的訓練驗證數(shù)據(jù)集;包含130張圖片的測試數(shù)據(jù)集。
Apollo數(shù)據(jù)集是由百度提供的自動駕駛數(shù)據(jù)集,是目前環(huán)境最復雜、標注最精準、數(shù)據(jù)量最大的數(shù)據(jù)集。本文選取3D車輛實例數(shù)據(jù)集,其中包括4 283張圖片的訓練數(shù)據(jù)集和1 040張圖片的測試數(shù)據(jù)集。
本文實驗使用精度(Average Precision,AP)、速度(Frames Per Second,F(xiàn)PS)、參數(shù)量(Parameters)、計算力(FLOPS)、模型體積作為性能評價指標。
精度是指模型的P-R曲線的線下面積,本文使用逐點積分的方法來計算模型的檢測精度。計算公式如式(8)所示。其中,r表示召回率,p表示準確率,n為召回率和準確率的數(shù)量,min(?)表示取小。
速度是指模型每秒檢測圖像的幀數(shù)。參數(shù)量是指模型訓練參數(shù)的數(shù)量,參數(shù)量計算公式如式(9)所示。其中,Kw和Kh表示卷積核尺寸,Ci和Oi分別表示輸入通道數(shù)和輸出通道數(shù),N表示卷積層數(shù)。
模型體積是指訓練得到的模型大小。計算力是指模型消耗的計算資源,其計算公式如式(10)所示。其中,Hi和Wi表示輸出特征圖尺寸。
在該數(shù)據(jù)集上,將本文提出的方法與Fast R-CNN、Faster R-CNN、SSD512、YOLOv3進行比較。表2顯示了各種方法在該數(shù)據(jù)集上的性能,主要使用檢測精度、檢測速度作為模型的評價指標。
表2 不同模型在PASCAL VOC數(shù)據(jù)集上的結(jié)果
由表2可以看出,本文所提方法在VOC0712上的檢測平均精度達到87.6%,優(yōu)于其他檢測方法。檢測速度為每秒42幀圖像,實現(xiàn)了車輛的實時檢測。
基于區(qū)域生成的方法Fast R-CNN和Faster RCNN在檢測精度和檢測速度上遠低于本文所提方法。在檢測精度上,相較于Fast R-CNN,本文提出的方法提升了24.8個百分點;相較于Faster R-CNN,本文提出的方法提升了16.4個百分點。在檢測速度上,F(xiàn)ast RCNN和Faster R-CNN沒有達到實時檢測的要求,而本文所提方法每秒檢測42幀圖像,能夠?qū)崿F(xiàn)實時檢測。特別地,F(xiàn)ast R-CNN和Faster R-CNN的網(wǎng)絡(luò)層數(shù)少,但是模型的體積較大,尤其是Faster R-CNN,其模型體積大約是本文模型的2倍,這是因為本文增加了正則化約束,對模型進行了裁剪,使得模型體積得到極大的降低。
基于回歸的算法中,YOLOv3算法性能高于SSD512,檢測效果更好。本文提出的方法相較于YOLOv3和SSD512,精度分別提高了3.7個百分點和9.8個百分點。但是本文所提方法檢測速度不及YOLOv3,這是因為本文網(wǎng)絡(luò)擁有更多的卷積層和尺度,這導致模型的參數(shù)量極大增加。雖然本文對模型結(jié)構(gòu)進行了精簡,但是本文模型參數(shù)量仍然是YOLOv3的1.5倍,這使得模型的檢測速度有了一定的下降。
值得注意的是,本文對Fast R-CNN、Faster R-CNN、YOLOv3、SSD512等方法進行了重復實驗,發(fā)現(xiàn)相較于原始實驗結(jié)果,本文的重復實驗結(jié)果在精度上有所降低。其原因可能是本文實驗在單塊8 GB顯卡和8 GB內(nèi)存上進行,考慮到內(nèi)存和顯存限制,本文適當縮小了網(wǎng)絡(luò)的初始參數(shù),如本文將YOLOv3的批量大小由64改為16,這種做法在一定程度上降低模型的收斂精度。
圖3 顯示了Fast R-CNN、Faster R-CNN、YOLOv3、SSD512以及本文方法在VOC0712上的PR曲線。
通過比較P-R曲線下的面積,可以得出本文所提出的方法獲得了最佳的檢測精度,這說明了本文模型在VOC0712上的漏檢和誤檢率更低,具有更好的檢測效果。
圖3 不同模型的P-R曲線
由于YOLOv3在現(xiàn)有的檢測算法中實現(xiàn)了最優(yōu)的性能,在Apollo數(shù)據(jù)集中,重點將本文模型與YOLOv3模型進行了比較。表3顯示了本文模型與YOLOv3模型在該數(shù)據(jù)集上性能,使用模型參數(shù)量、模型體積、模型的計算力以及在數(shù)據(jù)集上的檢測精度作為模型評價指標。
表3 不同模型在Apollo上的性能
從表3中可以看出,本文方法和YOLOv3相比具有更少的網(wǎng)絡(luò)參數(shù),更小的模型體積。本文方法需要的計算資源更少,檢測精度更高。
圖4 顯示了本文方法和YOLOv3方法在Apollo數(shù)據(jù)集上的檢測效果。第一列是原始圖像,第二列為YOLOv3檢測結(jié)果,最后一列是本文模型檢測結(jié)果。從圖中可以看出,本文模型相較于YOLOv3模型,對于尺度變換較大車輛以及遮擋的車輛具有更好的魯棒性。
圖4 不同模型在Apollo數(shù)據(jù)集上的檢測效果
在實際環(huán)境中采集的車輛圖片通常存在較大的尺度變換,YOLOv3使用了52×52、26×26和13×13三種尺度進行目標檢測。但是YOLOv3在尺度變換大的Apollo數(shù)據(jù)集中存在漏檢和誤檢的問題。本文分析其原因可能有兩個:網(wǎng)絡(luò)層數(shù)少,提取的細粒度特征不足;13×13的尺度感受野有限,無法檢測尺度較大的目標。
為了探究尺度對檢測精度的影響,本文在YOLOv3的基礎(chǔ)上,增加網(wǎng)絡(luò)的尺度。同時,由于YOLOv3是全卷積網(wǎng)絡(luò),為了更方便進行卷積操作和消除圖像輸入尺寸對實驗結(jié)果的影響,本文使用統(tǒng)一的輸入圖像尺寸512×512。由于網(wǎng)絡(luò)復雜度會隨著網(wǎng)絡(luò)層數(shù)的加深而加大,考慮到設(shè)備顯存容量的限制,本文對YOLOv3進行增加一個尺度和兩個尺度的操作,最終得到4個尺度的網(wǎng)絡(luò)模型和5個尺度的網(wǎng)絡(luò)模型。將三種模型在Apollo數(shù)據(jù)集上進行測試。結(jié)果如表4所示。
表4 多尺度預測結(jié)果
從表4中可以看出,隨著尺度的增加,檢測精度也得到提升。增加一個尺度和兩個尺度的模型相較于3個尺度模型檢測精度分別提高了0.016和0.033。但是隨著尺度的增加,模型的檢測速度隨之降低,這是因為尺度增加導致模型結(jié)構(gòu)更加復雜,模型的參數(shù)量和計算量都大幅提高,這導致了模型的檢測速度降低。
為了精簡網(wǎng)絡(luò)結(jié)構(gòu)、縮減參數(shù)規(guī)模,本文對網(wǎng)絡(luò)進行了通道級裁剪。為了分析裁剪閾值對實驗結(jié)果的影響,本文選用不同的裁剪閾值進行實驗,結(jié)果如表5所示。
表5 不同裁剪率實驗結(jié)果
從表5可以看出,在不執(zhí)行網(wǎng)絡(luò)裁剪的情況下,特征通道數(shù)為13 376,當裁剪率為90%時,檢測速度提升了3.6倍,但是經(jīng)過微調(diào)后模型檢測精度降低了0.112;當裁剪率為85%時,微調(diào)模型的檢測速度提升了2.6倍,但是檢測精度降低了0.059;當裁剪率設(shè)定為80%時,經(jīng)過微調(diào)后模型的檢測精度與未裁剪模型相比不僅沒有降低,反而提高了0.002,且檢測速度提高了2倍;當裁剪閾值為70%時,微調(diào)模型檢測精度基本保持不變,但檢測速度相較于80%裁剪率模型有所降低。綜上,當設(shè)定裁剪率為80%,裁剪閾值為0.007 1時,裁剪模型的綜合性能表現(xiàn)最優(yōu)。圖5顯示了模型裁剪因子的權(quán)重分布。
圖5 裁剪因子權(quán)重分布
為了分析網(wǎng)絡(luò)裁剪對不同模型造成的影響,將本文的深度殘差網(wǎng)絡(luò)模型模型和YOLOv3模型與對應的裁剪模型在Apollo數(shù)據(jù)集上進行對比實驗,裁剪率為0.8。實驗結(jié)果如表6所示。
表6 不同模型裁剪結(jié)果
從表6可以看出,裁剪后的YOLOv3模型相比原始YOLOv3模型參數(shù)量由6.15×107縮減至1.09×107,降低了82.3%;模型體積由246 MB縮減至43 MB,降低了82.5%;計算力由32.8×109縮減至9.6×109,降低了70.7%;檢測速度由45 f/s提升至67 f/s,提高了48.9%;裁剪網(wǎng)絡(luò)經(jīng)過微調(diào)后,精度不僅沒有降低,反而有微弱的提升,由77.5%提升至77.6%。本文模型裁剪后參數(shù)量減小了80.1%,模型體積僅為未裁剪模型的1/5,計算量降低了57.0%,而檢測速度得到了大幅提升,達到42 f/s,滿足了實時檢測的要求。
為了提高在實際場景中車輛檢測的精度和魯棒性,本文構(gòu)建了深度殘差網(wǎng)絡(luò)提取車輛的細粒度特征。針對車輛尺度變換較大的問題,本文構(gòu)建了包含五種尺度的特征金字塔網(wǎng)絡(luò),為了解決車輛的遮擋問題,本文使用軟化非極大抑制線性衰減置信得分,提升了模型的檢測精度。同時,本文通過數(shù)據(jù)增強等方式增強模型的魯棒性。為了降低多尺度模型對計算資源的損耗,本文對批標準化層的γ系數(shù)進行正則化約束,從而對模型進行通道級的裁剪,有效地降低了模型的參數(shù)規(guī)模,節(jié)省了計算資源,提高了模型的檢測速度,最終實現(xiàn)車輛的實時檢測。在PASCAL VOC和Apollo數(shù)據(jù)集上的實驗結(jié)果證明本文提出的方法在檢測精度上優(yōu)于現(xiàn)有的檢測方法,且在檢測速度上取得了不錯的表現(xiàn)。在后續(xù)的工作中,將繼續(xù)研究車輛的精細分類以及車輛行駛過程中的障礙物檢測等任務(wù)。