石 鑫,趙池航,張小琴,李彥偉,薛善光,毛迎兵
(1.河北交通職業(yè)技術(shù)學(xué)院 土木工程系,河北 石家莊 050011;2.東南大學(xué) 交通學(xué)院,江蘇 南京 211189;3.河北省交通規(guī)劃設(shè)計(jì)院 公路建設(shè)與養(yǎng)護(hù)技術(shù)、材料及裝備交通運(yùn)輸行業(yè)研發(fā)中心,河北 石家莊 050011)
車輛品牌類型信息已成為公共交通服務(wù)、交通運(yùn)行監(jiān)管和安全防護(hù)等行業(yè)中的數(shù)據(jù)處理與分析的基礎(chǔ),因此,研究基于圖像的車輛品牌識(shí)別方法已經(jīng)成為智慧交通系統(tǒng)車輛管理和維護(hù)工作中的重要課題[1]。基于稀疏表征的車輛品牌識(shí)別方法是在給定的字典(車型品牌庫)中選擇部分相關(guān)類型的信息表示車臉圖像,其目標(biāo)是利用選擇的原子對(duì)與原始圖像同類的不同樣本形成較好的表達(dá)能力。為了使字典中的原子能夠正確表示存在自然噪聲的車臉圖像,常用做法是不斷增加車臉圖像的訓(xùn)練樣本,但是訓(xùn)練樣本的成倍增加將導(dǎo)致識(shí)別速度大幅降低;同時(shí),為了提高車輛品牌的識(shí)別率和精度,需要對(duì)二維車臉圖像按行或列展開,組合成一維特征向量,這既增加計(jì)算復(fù)雜度,也忽略了圖像矩陣中固有的局部結(jié)構(gòu)信息。
特征融合的目的是為了挖掘具有相互補(bǔ)充和增強(qiáng)描述能力的潛在特征,這些特征信息可以來自同信息源或異信息源。本文提出的基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法,是將待識(shí)別車輛品牌的車臉圖像一級(jí)提取特征作為過完備字典中訓(xùn)練圖像集的線性組合,通過尋找稀疏分解得到最佳稀疏系數(shù),從而得到有效描述車輛品牌類型特征的內(nèi)在結(jié)構(gòu)及特征信息之間的關(guān)聯(lián)性信息,大大提高車輛品牌類型的識(shí)別效率。
方向梯度直方圖(Histogram of Oriented Gradient, 簡稱HOG)[2]是由Dalal和Triggs提出的一種紋理特征提取方法,主要思想是在梯度或邊緣的特定位置不確定的情況下,借用圖像的局部梯度變化的方向分布來實(shí)現(xiàn)對(duì)圖像局部的紋理外觀描述,其優(yōu)勢在于圖像幾何和光學(xué)的形變都能保持很好的不變性。采用方向梯度直方圖提取車臉圖像紋理特征的過程如下。
(1)將車臉圖像分割成大小相同的單元格,并利用梯度提取算子對(duì)每個(gè)單元格進(jìn)行卷積計(jì)算,得到每個(gè)像素點(diǎn)的梯度值的大小和方向,然后將車臉圖像的360°方向劃分成所需的級(jí)數(shù)。
(2)根據(jù)車臉圖像中像素點(diǎn)梯度方向的梯度值進(jìn)行累加,形成不同方向的直方圖;將車臉圖像分成若干個(gè)包含小單元格的塊,對(duì)單元格采用Gamma矯正法調(diào)節(jié)對(duì)比度,濾除光線陰影等因素的影響。
(3)將每個(gè)單元格提取到的車臉HOG特征進(jìn)行首尾串聯(lián),組成整個(gè)車臉圖像的一維特征向量。
本文將單元格大小定義為64×64 pixels,胞元大小為64×64 pixels,胞元增量橫向、縱向均為64 pixels,應(yīng)用梯度濾波器[-1,0,1]獲取圖像的梯度直方圖,每個(gè)像素點(diǎn)的梯度0°~180°內(nèi)分為9級(jí)。對(duì)圖1(a)中的上海大眾車臉圖像提取方向梯度直方圖特征,如圖1(b)所示,特征維數(shù)為288維。
圖1 車輛圖像的HOG特征提取
稀疏編碼模型將某種類別中的每幅圖像都作為多個(gè)基函數(shù)的線性組合[3],當(dāng)把該圖像投影到由基函數(shù)張成的特征子空間上時(shí),只有部分基函數(shù)上的投影權(quán)值較大,大部分基函數(shù)上的投影值很小或?yàn)?,從而形成對(duì)該圖像的稀疏表示。本文提出的融合特征稀疏編碼模型是將車臉圖像的一級(jí)抽象HOG特征作為過完備字典中訓(xùn)練樣本集的線性組合,通過尋找稀疏分解得到最佳稀疏系數(shù),得到有效描述車輛品牌特征的內(nèi)在結(jié)構(gòu)及特征信息之間的關(guān)聯(lián)性信息。
假設(shè)車臉圖像為I,則I(x,y)為車臉圖像的灰度像素值,(x,y)為像素的空間坐標(biāo),定義一級(jí)抽象HOG特征變換函數(shù)
Tt=Γ1(I(x,y))
(1)
式中:t為特征維數(shù)。
視覺感知系統(tǒng)通過對(duì)外界刺激產(chǎn)生的感受野特征,將其表達(dá)為視覺細(xì)胞的活動(dòng)狀態(tài),該過程可用信息編碼模型來描述,即
(2)
式中:ti為模擬初級(jí)視覺系統(tǒng)主視皮層V1區(qū)感受野的特征基向量;αi是隨機(jī)稀疏系數(shù)矢量,表示對(duì)各個(gè)基函數(shù)的響應(yīng),并對(duì)應(yīng)主視皮層V1區(qū)簡單細(xì)胞神經(jīng)元的活動(dòng)狀態(tài);ε假設(shè)為高斯白噪聲。對(duì)于變換后的Tt信號(hào),Α為變換后信號(hào)組成的訓(xùn)練樣本空間;y為測試圖像轉(zhuǎn)換組合而成的列向量;A表示基函數(shù);x為稀疏向量。
當(dāng)稀疏向量ti的l0足夠稀疏時(shí),則有
(3)
式(3)與l1最小化問題的解同解,即
(4)
如果式(4)中的線性約束不成立,就可以將其轉(zhuǎn)化為下列無約束優(yōu)化問題,即
(5)
從神經(jīng)生理學(xué)的角度出發(fā),V1區(qū)神經(jīng)元細(xì)胞對(duì)較弱的背景刺激較為敏感,而且刺激不能為負(fù)值。根據(jù)一級(jí)HOG提取特征都是非負(fù)性的,則可以對(duì)車臉特征信號(hào)進(jìn)行非負(fù)性稀疏表示。將Lee等人的非負(fù)矩陣分解算法(Non-negative Matrix Factorization,NMF)和Olshausen等人提出的標(biāo)準(zhǔn)算法相結(jié)合,則形成一種非負(fù)稀疏編碼算法,其目標(biāo)函數(shù)定義為
(6)
其中,約束條件λ>0;稀疏向量x的稀疏性由懲罰函數(shù)的具體形式?jīng)Q定,定義為
f(x)=|x|=x(x≥0)
(7)
因此,目標(biāo)函數(shù)式(6)在非負(fù)性條件下等價(jià)于
(8)
xi+1=xi.*{(ATy)./(ATAy+λ)}
(9)
采用式(9)更新規(guī)則來實(shí)現(xiàn)x的迭代過程,則更新后的x仍然滿足非負(fù)性,因?yàn)槠涓逻^程是通過乘以一個(gè)非負(fù)因子(ATy)./(ATAy+λ)來實(shí)現(xiàn)的。只要稀疏向量x的初始值設(shè)置為正數(shù),那么在x的迭代過程中,對(duì)任意要求的精度都能夠收斂到全局最小值。給定x不變,考慮A的優(yōu)化問題,采用標(biāo)準(zhǔn)的梯度下降算法,得到A的更新規(guī)則為
(10)
式中:μ為學(xué)習(xí)步長;β為學(xué)習(xí)速率。只要步長μ>0且足夠小,投影梯度算法就可以保證減小目標(biāo)函數(shù)值。
對(duì)于給定的k類車輛品牌圖像,通過對(duì)訓(xùn)練樣本進(jìn)行字典學(xué)習(xí),可獲得m個(gè)最適合重構(gòu)車輛品牌圖像的基函數(shù)集合。對(duì)于任意的測試樣本,計(jì)算其用每種基函數(shù)集合進(jìn)行稀疏表示的重構(gòu)誤差,對(duì)應(yīng)于重構(gòu)誤差最小的類別為該車輛品牌的所屬類別。令每個(gè)車輛品牌類下的每個(gè)樣本用v中的一個(gè)列向量來描述vini,若第i類包含ni個(gè)樣本,則有
(11)
若y屬于第i類,則有
y=ai1vi1+ai2vi2+…+ainivini
(12)
通過求得的稀疏解向量重構(gòu)出各類車臉圖像,并與原始測試樣本對(duì)比求殘差,分類規(guī)則為重構(gòu)殘差最小的為該所屬車輛品牌類型。
圖2 東南大學(xué)車臉數(shù)據(jù)庫的部分圖像
試驗(yàn)采用東南大學(xué)的車臉數(shù)據(jù)庫,該數(shù)據(jù)庫部分圖像如圖2所示,包含30類車輛品牌類型,每類圖像400幅,共12 000幅圖像,涵蓋奧迪、別克、比亞迪、長安、奇瑞、雪佛蘭、雪鐵龍、東風(fēng)、中國一汽、福特、福田、重汽、長城、本田、現(xiàn)代、江淮、日產(chǎn)、鈴木、豐田、上海大眾、五菱、海馬、起亞、標(biāo)致、躍進(jìn)、威望、吉利、通用、啟晨和五征等車輛品牌。為考察基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法的有效性,隨機(jī)選取東南大學(xué)車臉數(shù)據(jù)庫中的7 500幅圖像作為訓(xùn)練樣本集(數(shù)據(jù)庫的67.5%,每類車輛品牌250幅),剩余的4 500幅圖像作為測試樣本集(數(shù)據(jù)庫的32.5%,每類車輛品牌150幅),進(jìn)行以下對(duì)比試驗(yàn)。
本文通過試驗(yàn)與基于單特征HOG及支持向量機(jī)(SVM)的車輛品牌分類方法、基于傳統(tǒng)稀疏表示的車輛品牌識(shí)別方法、基于字典學(xué)習(xí)稀疏表示的車輛品牌識(shí)別方法進(jìn)行對(duì)比分析[4-5],試驗(yàn)結(jié)果統(tǒng)計(jì)如表1所示,其中基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法的性能優(yōu)于HOG+SVM、傳統(tǒng)稀疏表示和字典學(xué)習(xí)稀疏表示的車輛品牌識(shí)別方法,其平均識(shí)別率達(dá)到96.16%。
表1 不同方法的車輛品牌識(shí)別結(jié)果
計(jì)算所有車輛品牌識(shí)別結(jié)果的混淆矩陣,混淆矩陣對(duì)角線上的元素為車輛品牌的正確識(shí)別率。奧迪、別克、比亞迪、長安、奇瑞、雪佛蘭、雪鐵龍、東風(fēng)、一汽大眾、福特、福田、重汽、長城、本田、現(xiàn)代、江淮、日產(chǎn)、鈴木、豐田、上海大眾、五菱、海馬、起亞、標(biāo)致、躍進(jìn)、威望、吉利、通用、啟晨和五征一共30種車輛品牌的識(shí)別率分別為98.67%、98.00%、96.67%、98.67%、92.67%、95.33%、95.33%、94.00%、89.33%、96.67%、94.67%、90.67%、98.67%、97.33%、94.00%、94.00%、94.00%、100.00%、85.33%、100.00%、100.00%、98.67%、98.67%、100.00%、96.67%、99.33%、100.00%、100.00%、100.00%、100.00%。其中,8種車輛品牌的識(shí)別率達(dá)到了100%,20種車輛品牌的識(shí)別率高于90%,只有中國一汽和豐田2種車輛品牌的誤判率偏大,分別為89.33%和85.33%,說明它們與其他車輛品牌存在較相似的細(xì)節(jié)特征信息,如圖3所示。豐田品牌大多被誤判為比亞迪品牌。
圖3 被誤判車輛品牌樣本實(shí)例
由于受道路(如道旁樹木的陰影投射在車輛上)、天氣(如太陽光線太足,導(dǎo)致車臉區(qū)域有反光)、人為(如車輛裝飾或文字繪畫)等多方面的影響,車臉圖像通常存在一定噪聲。為進(jìn)一步考察基于融合特征稀疏編碼模型的車輛品牌類型識(shí)別方法的魯棒性和適用性,選取52幅具有嚴(yán)重噪聲的車臉圖像,如圖4所示,分別包括強(qiáng)光反射、局部裝飾或遮擋、光線照射弱、運(yùn)動(dòng)模糊等測試樣本進(jìn)行試驗(yàn),試驗(yàn)結(jié)果如表2所示。由表2可知,52幅圖像的車輛品牌整體識(shí)別率為78.85%,其中測試樣本在光線照射弱的環(huán)境中識(shí)別錯(cuò)誤的序號(hào)有(1)、(2)、(12)、(21)、(23)、(24)、(25)、(26),在強(qiáng)光反射的環(huán)境中識(shí)別錯(cuò)誤的樣本序號(hào)有(35)、(36)、(42)。采用基于HOG特征及支持向量機(jī)(SVM)的車輛品牌分類方法對(duì)52幅車輛品牌圖像進(jìn)行識(shí)別,則只有序號(hào)(30)為識(shí)別正確的測試樣本。試驗(yàn)結(jié)果表明,基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法是最優(yōu)的。
圖4 含有不同噪聲類型的車臉圖像
表2 含有不同噪聲類型的識(shí)別結(jié)果
基于HOG進(jìn)行稀疏分解,提取到的融合特征是對(duì)HOG特征的第二層抽象,也即對(duì)HOG特征的深層次的特征挖掘,該融合特征既能保留HOG特征的紋理描述對(duì)幾何光學(xué)形變的不變形優(yōu)點(diǎn),又能結(jié)合稀疏表示特征的生物視覺感知系統(tǒng)的局部性、方向性和頻域的帶通性等特點(diǎn),并針對(duì)HOG特征的非負(fù)性對(duì)稀疏表示中的系數(shù)求解進(jìn)行改進(jìn),因此,本文提出的基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法具有較好的魯棒性。