劉正全,鄧亮,吳杰
(常州星宇車燈股份有限公司,江蘇常州 213000)
基于機器視覺的行人檢測對于高級輔助駕駛系統(tǒng)至關(guān)重要。目前主要的研究內(nèi)容都集中在可見光譜圖像中的行人檢測上,包含有多個數(shù)據(jù)集,并對行人進行了樣本標(biāo)注[1]。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的發(fā)展,越來越多的高性能識別器都開始使用CNN技術(shù)??梢姽鈭D像的行人識別器的一個主要缺點是在夜間表現(xiàn)較差以及對光照變化比較敏感。所以將可見攝像儀的信息與紅外攝像儀提供的信息融合起來有助于克服上述缺點[3]。
作者利用基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的檢測方法,該方法在可見光環(huán)境下是確實可行的,并將其擴展到寬光譜情況。作者評估引入的模型和深度學(xué)習(xí)的數(shù)據(jù)集都是基于KAIST寬光譜行人檢測的標(biāo)注樣本,同時與其他的方法展開性能比較。
KAIST寬光譜行人樣本數(shù)據(jù)集[4]由時間和空間對應(yīng)的可見和紅外圖像組成。數(shù)據(jù)集包含了可見和紅外圖像一共95 300組:訓(xùn)練集圖像數(shù)據(jù)為50 200組,其中行人的標(biāo)注數(shù)據(jù)41 500組;測試集圖像數(shù)據(jù)為45 100組,其中行人的標(biāo)注數(shù)據(jù)44 700組。
目前,KAIST標(biāo)準(zhǔn)測試中性能最好的是增強性聚合信道特征(Aggregate Channel Feature,ACF)識別器[5]。原始ACF檢測器以滑動窗口方式操作,并使用二次采樣和濾波通道作為特征。這些通道是CIELUV色彩空間的組成部分,歸一化的梯度幅值和定向梯度的直方圖。ACF識別器(ACF+T+THOG)的寬光譜擴展不僅包含了紅外圖像的對比增強版本,還有紅外圖像的HOG特征作為輔助通道。作者在實驗中使用ACF+T+THOG作為標(biāo)準(zhǔn)與YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的檢測方法進行性能比較。
文中的模型是建立在YOLO識別架構(gòu)的基礎(chǔ)上,將行人檢測作為一個回歸問題進行求解。輸入圖像經(jīng)過一次推斷,即可得到圖像中所有行人的位置和相應(yīng)的置信概率,同時融合可見光和紅外兩種不同模式的信息來執(zhí)行二元分類。
融合架構(gòu)(如圖1所示)分別在兩個子網(wǎng)絡(luò)中處理可見光與紅外光兩種模式的圖像數(shù)據(jù),并將所得特征表示融合在全連接的層中。這兩個子網(wǎng)都是基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的,該網(wǎng)絡(luò)中有24個卷積層和2個全連接層。在紅外圖像的子網(wǎng)絡(luò)中,每個卷積層的濾波器數(shù)量和可見光圖像的子網(wǎng)絡(luò)是一致的。最后的全連接層將兩個子網(wǎng)絡(luò)所產(chǎn)生的結(jié)果與具有8 192個神經(jīng)元進行完全相融合。融合層后面是一個ReLU非線性層、一個Dropout掉線機制層以及一個二元分類層。YOLO融合網(wǎng)絡(luò)的所有參數(shù)是以不斷迭代方式展開學(xué)習(xí)的。
訓(xùn)練深度卷積網(wǎng)絡(luò)時,提供足夠數(shù)量的標(biāo)注數(shù)據(jù)往往是提高性能的關(guān)鍵。由于數(shù)據(jù)采集和樣本標(biāo)注的成本較高,在大多數(shù)應(yīng)用中可用的訓(xùn)練數(shù)據(jù)是有限的??朔@個問題的一種常用方法是在大型輔助數(shù)據(jù)集上對所要使用的神經(jīng)網(wǎng)絡(luò)進行預(yù)訓(xùn)練。
文中的預(yù)訓(xùn)練過程包括以下兩個步驟:在第一步中, YOLO-RGB和YOLO-IR的網(wǎng)絡(luò)卷積圖層使用ImageNet數(shù)據(jù)集進行圖像分類任務(wù)的訓(xùn)練;在第二步中,使用CALTECH標(biāo)準(zhǔn)的所有圖像對網(wǎng)絡(luò)進行微調(diào)[2]。
YOLO融合模型對KAIST數(shù)據(jù)的訓(xùn)練也分兩步進行:首先根據(jù)預(yù)先訓(xùn)練的結(jié)果,融合架構(gòu)的兩個子網(wǎng)絡(luò)用預(yù)先訓(xùn)練的權(quán)重或隨機值進行初始化。 從這些參數(shù)開始,分別對兩個子網(wǎng)絡(luò)進行優(yōu)化。 之后,包括對整個YOLO融合架構(gòu)進行聯(lián)合微調(diào)。當(dāng)子網(wǎng)的權(quán)重固定并且只有融合層被訓(xùn)練時,可以達(dá)到最好的融合結(jié)果。
YOLO識別器的評估是在KAIST測試數(shù)據(jù)子集上進行的,分別包含了白天和夜間拍攝的圖像。圖2顯示了YOLO識別器的ROC曲線以及對數(shù)平均缺失率。基于YOLO融合的預(yù)訓(xùn)練深層架構(gòu)明顯優(yōu)于目前的ACF+T+THOG識別器。YOLO融合的預(yù)訓(xùn)練深層架構(gòu)性能與標(biāo)準(zhǔn)相比:在白天條件下,提高了6.95%;在夜間環(huán)境下,提高了12.24%。大多數(shù)情況下,YOLO融合架構(gòu)可以達(dá)到目前ACF+T+THOG的性能。作者認(rèn)為至少有3個原因:首先,YOLO融合構(gòu)架中的子網(wǎng)絡(luò)YOLO-IR專門使用KAIST數(shù)據(jù)集進行了訓(xùn)練;其次,YOLO融合網(wǎng)絡(luò)在預(yù)訓(xùn)練過程中學(xué)習(xí)到了更多有意義的行人多模態(tài)特征,這是因為在紅外圖像通道中得到了有效的補充信息;最后,YOLO融合網(wǎng)絡(luò)在空間信息不太相關(guān)的階段展開了信息融合。 正如所預(yù)料的那樣,紅外模式在夜間所具備的優(yōu)勢顯而易見。
作者在寬光譜圖像數(shù)據(jù)的基礎(chǔ)上引入了深度卷積神經(jīng)網(wǎng)絡(luò)用于行人檢測。KAIST寬光譜標(biāo)準(zhǔn)數(shù)據(jù)集的分析表明:基于YOLO融合的預(yù)訓(xùn)練深層架構(gòu)與目前的ACF+T+THOG解決方案相比更有優(yōu)勢。這是由于YOLO融合的預(yù)訓(xùn)練網(wǎng)絡(luò)在給定環(huán)境中,學(xué)習(xí)到了更多有意義的行人多模態(tài)抽象特征。