喬延婷,陳萬培,張 濤
(揚(yáng)州大學(xué) 信息工程學(xué)院,江蘇 揚(yáng)州 225009)
隨著現(xiàn)代社會的快速發(fā)展,車輛已成為主要的交通工具[1]。每年成千上萬的交通事故給世界經(jīng)濟(jì)帶來損失,威脅著人們的生命安全?;谟?jì)算機(jī)視覺的車輛檢測方法通過圖像處理技術(shù)確定目標(biāo)車輛的位置,能夠有效地避免交通事故的發(fā)生,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[2-3]。
傳統(tǒng)上,一些學(xué)者將Haar-like[4]或方向梯度直方圖(HOG)特征[5]應(yīng)用于車輛檢測,但由于存在誤檢測和幀丟失等問題,這些算法無法滿足復(fù)雜的交通場景。隨著計(jì)算機(jī)視覺技術(shù)的不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法的性能與傳統(tǒng)算法相比有了很大的提高,如R-CNN[6]、Fast R-CNN[7]、Faster RCNN[8]、YOLO[9]、YOLOv2[10]和SSD[11]等。
雖然檢測結(jié)果得到了改善,但由于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算強(qiáng)度很高且有較大的內(nèi)存需求,面臨著在嵌入式平臺和低延遲需求場景下難以應(yīng)用的問題[12]。因此,在幾乎不降低檢測準(zhǔn)確率的前提下對深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮和加速成了研究重點(diǎn)。近年來,該領(lǐng)域取得了重大突破。Vanhoucke等[13]提出了8 bit參數(shù)量化的方法,該方法可以在準(zhǔn)確率損失極小的同時(shí)實(shí)現(xiàn)大幅加速。Han等[14]將參數(shù)修剪、量化和編碼結(jié)合應(yīng)用到模型壓縮中,實(shí)現(xiàn)了最大程度的網(wǎng)絡(luò)壓縮,但參數(shù)修剪形成了稀疏矩陣,需要專門的硬件支持。Hu等[15]通過計(jì)算每個(gè)濾波器的參數(shù)為零的百分比作為其重要性得分,修剪不重要的神經(jīng)元。Li[16]通過計(jì)算過濾器的絕對值和來評估過濾器的重要性,當(dāng)絕對值過低時(shí),則修剪掉該過濾器。
本文采用SSD算法檢測車輛,但SSD算法沒有全連接層,上述網(wǎng)絡(luò)壓縮方法無法在該網(wǎng)絡(luò)上取得較好的效果?;诖?,結(jié)合網(wǎng)絡(luò)剪枝和參數(shù)量化的方法,提出基于SSD的輕量級車輛檢測網(wǎng)絡(luò),在不損失檢測準(zhǔn)確率的同時(shí),縮小網(wǎng)絡(luò)體積,提高檢測速度。
SSD是由Wei Liu等人提出的單個(gè)網(wǎng)絡(luò)目標(biāo)檢測算法。本文采用SSD算法檢測車輛,將車輛檢測看作一個(gè)回歸問題,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。SSD網(wǎng)絡(luò)以VGG網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),將VGG網(wǎng)絡(luò)中全連接層轉(zhuǎn)換為卷積層,并添加了額外的卷積層,融合多個(gè)卷積層的輸出做預(yù)測。預(yù)測采用2個(gè)3×3的卷積核,一個(gè)用來分類,另一個(gè)用來回歸位置。
圖1 SSD的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network architecture of SSD
該算法的主要檢測步驟如下:
① 輸入RGB(紅、綠、藍(lán))圖像,調(diào)整圖像尺寸,將其看作一個(gè)300×300×3的三維矩陣。
② 按照網(wǎng)絡(luò)結(jié)構(gòu)的順序依次提取圖像的特征,提取特征時(shí),不同特征圖的每個(gè)特征點(diǎn)上都對應(yīng)了一組默認(rèn)邊界框,預(yù)測的時(shí)候計(jì)算默認(rèn)邊界框的位置偏移和置信度。
③ 融合卷積Conv4_3,Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2的預(yù)測結(jié)果做輸出,得到多個(gè)目標(biāo)檢測框。通過非極大值抑制的方法剔除相同車輛的多余窗口,獲得最終的檢測結(jié)果。最終在圖像中框出車輛的目標(biāo)。
POEMS綜合征的臨床特征及診療分析 …………………………………………… 葛義俊,戴映,高建國 107
首先,根據(jù)后一層的輸出結(jié)果指導(dǎo)裁剪上一層的過濾器,該方法考慮了當(dāng)前層過濾器對后一層輸出的影響,能夠保證在不影響精度的情況下大大壓縮網(wǎng)絡(luò);接著,在修剪結(jié)束以后,采用K-means[17]算法量化參數(shù),使多個(gè)參數(shù)共享一個(gè)有效權(quán)值。網(wǎng)絡(luò)剪枝與參數(shù)量化結(jié)合的方法在準(zhǔn)確度幾乎沒有損失的情況下,達(dá)到了15.7%的壓縮率,并且檢測速度提高了近3倍。
網(wǎng)絡(luò)剪枝是最有效的去除網(wǎng)絡(luò)冗余參數(shù)的方法[18]。剪枝技術(shù)最先被用于解決決策樹過擬合的問題,后被用于去除深度神經(jīng)網(wǎng)絡(luò)不太重要的參數(shù)。通過剪枝的方法壓縮深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的基本步驟如圖2所示。首先,需要預(yù)訓(xùn)練一個(gè)基于SSD算法的車輛檢測網(wǎng)絡(luò)模型;接著,評估過濾器的重要性,裁剪掉不太重要的過濾器;然后,微調(diào)裁剪后的網(wǎng)絡(luò)模型使網(wǎng)絡(luò)模型具有較好的性能;最后循環(huán)修剪網(wǎng)絡(luò)和微調(diào)網(wǎng)絡(luò)參數(shù),直到取得網(wǎng)絡(luò)模型壓縮率和檢測正確率二者間的平衡。
圖2 網(wǎng)絡(luò)剪枝示意Fig.2 Flow diagram of network pruning
本文通過ThiNet[19]的方法衡量過濾器的重要性原理,利用第i+1層的輸出指導(dǎo)修剪第i層的過濾器,修剪后的網(wǎng)絡(luò)結(jié)果不變,但具有較少的過濾器和特征圖。網(wǎng)絡(luò)剪枝示意如圖3所示,輸入特征圖Xi和第i層的K×K大小的過濾器卷積產(chǎn)生第i+1層的特征圖,特征圖Xi+1又將作為下一個(gè)卷積層的輸入,當(dāng)移除Fi中的一個(gè)過濾器Fi,j,與它對應(yīng)的特征圖Xi+1,j(藍(lán)色部分)被裁剪掉,下一卷積層過濾器中對應(yīng)的核(藍(lán)色部分)也被移除。所以,當(dāng)可以使用第i+1層輸入的一個(gè)子集來近似計(jì)算第i+1層的輸出時(shí),則該子集外的其他通道可以安全地從第i+1層的輸入中移除,那么第i層中對應(yīng)的過濾器也可以移除。
圖3 網(wǎng)絡(luò)剪枝示意Fig.3 Schematic diagram of network pruning
(1)
式中,C表示特征圖的通道數(shù);K表示卷積核的大小。進(jìn)一步定義:
(2)
則式(1)可簡化為:
(3)
(4)
(5)
式中,|S|表示子集S中的元素個(gè)數(shù);r表示事先定義的壓縮率(即保留多少個(gè)信道)。然后采用貪婪策略求解子集S,每次向S添加一個(gè)元素,并在當(dāng)前迭代中求得最小目標(biāo)值。
采用參數(shù)量化的方法進(jìn)一步壓縮網(wǎng)絡(luò)模型,首先利用K-means算法求解有效權(quán)值,然后多個(gè)參數(shù)共享同一個(gè)有效權(quán)值來減少需要存儲的比特?cái)?shù)。
參數(shù)量化和質(zhì)心微調(diào)如圖4所示。假設(shè)某層有4個(gè)神經(jīng)元輸入和4個(gè)神經(jīng)元輸出,權(quán)值參數(shù)和梯度參數(shù)都是一個(gè)4×4的矩陣。通過K-Means聚類算法將權(quán)值參數(shù)分為4個(gè)簇,每一個(gè)簇內(nèi)的參數(shù)共享一個(gè)有效權(quán)值,然后用4×4簇索引矩陣表示權(quán)值參數(shù)矩陣。每一個(gè)梯度參數(shù)對應(yīng)一個(gè)權(quán)值參數(shù),所以梯度參數(shù)也可按照權(quán)值參數(shù)聚類的結(jié)果分為4類。在更新過程中,所有的梯度參數(shù)按顏色分組并求和乘以學(xué)習(xí)率,從上次迭代的共享質(zhì)心中減去來微調(diào)質(zhì)心。
圖4 參數(shù)量化和質(zhì)心微調(diào)Fig.4 Parameter quantification and centroid fine-tuning
假定設(shè)置k個(gè)簇,則最終只需要lbk位的簇索引矩陣和k個(gè)b位有效權(quán)值表示權(quán)值參數(shù)矩陣,b表示原來權(quán)值參數(shù)的位數(shù)。所以,對于具有n個(gè)權(quán)值參數(shù)且每個(gè)權(quán)值參數(shù)用b位表示的網(wǎng)絡(luò),將其權(quán)值參數(shù)限制為只有k個(gè)共享權(quán)值的壓縮率為:
(6)
基于Caffe深度學(xué)習(xí)框架在NVIDIA GeForce GTX 1080平臺對SSD車輛檢測模型進(jìn)行相關(guān)實(shí)驗(yàn)。訓(xùn)練參數(shù)的具體設(shè)置如下:訓(xùn)練數(shù)量批尺寸(batch_size)為16,初始學(xué)習(xí)率(base_lr)為10-4,學(xué)習(xí)策略(lr_policy)為多步衰減(multistep),gamma為0.1,采用隨機(jī)梯度下降法(SGD)進(jìn)行優(yōu)化,網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)為80 000次,權(quán)值衰減(weightdecay)設(shè)置為5e-4,沖量(momentum)設(shè)置為0.9。微調(diào)是恢復(fù)剪枝后網(wǎng)絡(luò)的泛化能力必不可少的步驟,通過在修剪一層之后微調(diào)一個(gè)epoch來節(jié)省時(shí)間。當(dāng)所有層都修剪結(jié)束后,再微調(diào)整個(gè)網(wǎng)絡(luò)得到一個(gè)精確的模型。在KITTI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以驗(yàn)證所提出算法的有效性。KITTI數(shù)據(jù)集[20]由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計(jì)算機(jī)視覺算法評測數(shù)據(jù)集,主要包含市區(qū)、鄉(xiāng)村和高速公路等場景下采集的真實(shí)圖像數(shù)據(jù)。每張圖像中最多達(dá)15輛車,還有各種程度的遮擋與截?cái)?。KITTI數(shù)據(jù)集共分為8個(gè)類別:Car,Cyclist,Pedestrian,Van,Truck,Tram,Person(sitting),Misc。本文僅采用其中的車輛樣本數(shù)據(jù):Car,Van,Truck和Tram。本文數(shù)據(jù)集格式為VOC數(shù)據(jù)集格式,并將每個(gè)數(shù)據(jù)集按照8∶1∶1的比例劃分為訓(xùn)練集、測試集和驗(yàn)證集。
第1組實(shí)驗(yàn)的目的是比較基于SSD的車輛檢測時(shí)間與本文提出基于SSD的輕量級的車輛檢測網(wǎng)絡(luò)的檢測時(shí)間。本組實(shí)驗(yàn)統(tǒng)計(jì)了1 min檢測的圖像幀數(shù),求每幀圖像的平均耗時(shí),單幀圖像檢測所需要的平均時(shí)間如表1所示。
表1 車輛檢測時(shí)間比較
從該組實(shí)驗(yàn)可以得出,利用基于SSD的輕量級的車輛檢測網(wǎng)絡(luò)的檢測速度遠(yuǎn)高于原算法的檢測速度,是原算法檢測速度的3倍左右。主要是去除了網(wǎng)絡(luò)中的冗余連接,減少了參數(shù)計(jì)算,從而節(jié)約了時(shí)間。本文所提算法的最大優(yōu)勢在于大大降低了算法的檢測時(shí)間,對于實(shí)時(shí)性要求較高的車輛檢測任務(wù),其性能比基于SSD的車輛檢測算法好。
第2組實(shí)驗(yàn)分析了不同壓縮方法對SSD網(wǎng)絡(luò)的檢測準(zhǔn)確率(mAP)損失。分別對比了只網(wǎng)絡(luò)修剪、只參數(shù)量化和網(wǎng)絡(luò)修剪與參數(shù)量化結(jié)合的方法,實(shí)驗(yàn)結(jié)果如圖5所示。從圖5可以看到,這3種壓縮方法在壓縮率較高的情況下,平均mAP基本沒有損失,而壓縮率低到一定程度時(shí),網(wǎng)絡(luò)模型的mAP會驟然下降。參數(shù)量化和網(wǎng)絡(luò)修剪的方法在不影響檢測準(zhǔn)確率的情況下,最多都只能壓縮30%左右,但二者結(jié)合的方法可以達(dá)到15%左右的壓縮率。每一種方法在保證模型檢測正確率[21]的情況下都對應(yīng)一個(gè)最小的壓縮率,稱之為最優(yōu)壓縮率。對于剪枝后的車輛檢測網(wǎng)絡(luò),本文能夠量化到每個(gè)卷積層8位(256個(gè)共享權(quán)值),而不損失任何精度。實(shí)驗(yàn)發(fā)現(xiàn),在檢測準(zhǔn)確率幾乎不損失的情況下,結(jié)合過濾器剪枝和參數(shù)量化結(jié)合的方法則可以達(dá)到15.7%的壓縮率。最終,網(wǎng)絡(luò)整體壓縮6倍多,可以移植到嵌入式平臺。
圖5 不同壓縮率下的mAP損失Fig.5 mAP loss at different compression rates
為了探究壓縮后的網(wǎng)絡(luò)對車輛檢測準(zhǔn)確率的影響,在KITTI數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),輸入圖像尺寸為300 pixel×300 pixel,實(shí)驗(yàn)結(jié)果如圖6和表2所示,Ours表示輕量級的車輛檢測網(wǎng)絡(luò),壓縮后的模型的mAP有輕微的下降,但仍然保持較高的檢測結(jié)果。相較于其他車型的AP,Car的AP受網(wǎng)絡(luò)壓縮影響大一點(diǎn),其他類型車輛的AP只有輕微下降。所以,該輕量級的車輛檢測網(wǎng)絡(luò)可以在達(dá)到15.7%的同時(shí),基本上保持原網(wǎng)絡(luò)的檢測效果。
圖6 基于SSD的輕量級車輛檢測網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果Fig.6 Experimental results of a lightweight vehicle detection network based on SSD
表2 各網(wǎng)絡(luò)的性能對比Tab.2 Performance comparison of each network
通過研究基于SSD算法的車輛檢測網(wǎng)絡(luò),發(fā)現(xiàn)網(wǎng)絡(luò)存在較大的冗余參數(shù),所以采用網(wǎng)絡(luò)剪枝和參數(shù)量化結(jié)合的網(wǎng)絡(luò)壓縮方法,提出基于SSD的輕量級車輛檢測網(wǎng)絡(luò)。該網(wǎng)絡(luò)能夠在車輛檢測準(zhǔn)確度損失較低的情況下達(dá)到15.7%的壓縮率,且車輛檢測速度提高了近3倍,達(dá)到嵌入式平臺實(shí)時(shí)檢測的應(yīng)用需求。但是,在實(shí)驗(yàn)過程中,發(fā)現(xiàn)該輕量級的車輛檢測網(wǎng)絡(luò)對小目標(biāo)車輛的檢測準(zhǔn)確率較低。所以,如何在壓縮網(wǎng)絡(luò)和提高車輛檢測速度的情況下保證小目標(biāo)車輛的檢測準(zhǔn)確率有待進(jìn)一步的研究。