基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法

2020-05-25 07:48趙池航張小琴李彥偉薛善光毛迎兵

筑路機(jī)械與施工機(jī)械化 2020年3期

石鑫，趙池航，張小琴，李彥偉，薛善光，毛迎兵

(1.河北交通職業(yè)技術(shù)學(xué)院土木工程系，河北石家莊 050011；2.東南大學(xué) 交通學(xué)院，江蘇南京 211189；3.河北省交通規(guī)劃設(shè)計(jì)院公路建設(shè)與養(yǎng)護(hù)技術(shù)、材料及裝備交通運(yùn)輸行業(yè)研發(fā)中心，河北石家莊 050011)

0 引言

車輛品牌類型信息已成為公共交通服務(wù)、交通運(yùn)行監(jiān)管和安全防護(hù)等行業(yè)中的數(shù)據(jù)處理與分析的基礎(chǔ)，因此，研究基于圖像的車輛品牌識(shí)別方法已經(jīng)成為智慧交通系統(tǒng)車輛管理和維護(hù)工作中的重要課題[1]。基于稀疏表征的車輛品牌識(shí)別方法是在給定的字典(車型品牌庫)中選擇部分相關(guān)類型的信息表示車臉圖像，其目標(biāo)是利用選擇的原子對(duì)與原始圖像同類的不同樣本形成較好的表達(dá)能力。為了使字典中的原子能夠正確表示存在自然噪聲的車臉圖像，常用做法是不斷增加車臉圖像的訓(xùn)練樣本，但是訓(xùn)練樣本的成倍增加將導(dǎo)致識(shí)別速度大幅降低；同時(shí)，為了提高車輛品牌的識(shí)別率和精度，需要對(duì)二維車臉圖像按行或列展開，組合成一維特征向量，這既增加計(jì)算復(fù)雜度，也忽略了圖像矩陣中固有的局部結(jié)構(gòu)信息。

特征融合的目的是為了挖掘具有相互補(bǔ)充和增強(qiáng)描述能力的潛在特征，這些特征信息可以來自同信息源或異信息源。本文提出的基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法，是將待識(shí)別車輛品牌的車臉圖像一級(jí)提取特征作為過完備字典中訓(xùn)練圖像集的線性組合，通過尋找稀疏分解得到最佳稀疏系數(shù)，從而得到有效描述車輛品牌類型特征的內(nèi)在結(jié)構(gòu)及特征信息之間的關(guān)聯(lián)性信息，大大提高車輛品牌類型的識(shí)別效率。

1 方向梯度直方圖

方向梯度直方圖(Histogram of Oriented Gradient, 簡稱HOG)[2]是由Dalal和Triggs提出的一種紋理特征提取方法，主要思想是在梯度或邊緣的特定位置不確定的情況下，借用圖像的局部梯度變化的方向分布來實(shí)現(xiàn)對(duì)圖像局部的紋理外觀描述，其優(yōu)勢在于圖像幾何和光學(xué)的形變都能保持很好的不變性。采用方向梯度直方圖提取車臉圖像紋理特征的過程如下。

(1)將車臉圖像分割成大小相同的單元格，并利用梯度提取算子對(duì)每個(gè)單元格進(jìn)行卷積計(jì)算，得到每個(gè)像素點(diǎn)的梯度值的大小和方向，然后將車臉圖像的360°方向劃分成所需的級(jí)數(shù)。

(2)根據(jù)車臉圖像中像素點(diǎn)梯度方向的梯度值進(jìn)行累加，形成不同方向的直方圖；將車臉圖像分成若干個(gè)包含小單元格的塊，對(duì)單元格采用Gamma矯正法調(diào)節(jié)對(duì)比度，濾除光線陰影等因素的影響。

(3)將每個(gè)單元格提取到的車臉HOG特征進(jìn)行首尾串聯(lián)，組成整個(gè)車臉圖像的一維特征向量。

本文將單元格大小定義為64×64 pixels，胞元大小為64×64 pixels，胞元增量橫向、縱向均為64 pixels，應(yīng)用梯度濾波器[-1，0，1]獲取圖像的梯度直方圖，每個(gè)像素點(diǎn)的梯度0°～180°內(nèi)分為9級(jí)。對(duì)圖1(a)中的上海大眾車臉圖像提取方向梯度直方圖特征，如圖1(b)所示，特征維數(shù)為288維。

圖1 車輛圖像的HOG特征提取

2 融合特征稀疏編碼模型

稀疏編碼模型將某種類別中的每幅圖像都作為多個(gè)基函數(shù)的線性組合[3]，當(dāng)把該圖像投影到由基函數(shù)張成的特征子空間上時(shí)，只有部分基函數(shù)上的投影權(quán)值較大，大部分基函數(shù)上的投影值很小或?yàn)?，從而形成對(duì)該圖像的稀疏表示。本文提出的融合特征稀疏編碼模型是將車臉圖像的一級(jí)抽象HOG特征作為過完備字典中訓(xùn)練樣本集的線性組合，通過尋找稀疏分解得到最佳稀疏系數(shù)，得到有效描述車輛品牌特征的內(nèi)在結(jié)構(gòu)及特征信息之間的關(guān)聯(lián)性信息。

假設(shè)車臉圖像為I，則I(x,y)為車臉圖像的灰度像素值，(x,y)為像素的空間坐標(biāo)，定義一級(jí)抽象HOG特征變換函數(shù)

Tt=Γ1(I(x,y))

(1)

式中：t為特征維數(shù)。

視覺感知系統(tǒng)通過對(duì)外界刺激產(chǎn)生的感受野特征，將其表達(dá)為視覺細(xì)胞的活動(dòng)狀態(tài)，該過程可用信息編碼模型來描述，即

(2)

式中：ti為模擬初級(jí)視覺系統(tǒng)主視皮層V1區(qū)感受野的特征基向量；αi是隨機(jī)稀疏系數(shù)矢量，表示對(duì)各個(gè)基函數(shù)的響應(yīng)，并對(duì)應(yīng)主視皮層V1區(qū)簡單細(xì)胞神經(jīng)元的活動(dòng)狀態(tài)；ε假設(shè)為高斯白噪聲。對(duì)于變換后的Tt信號(hào)，Α為變換后信號(hào)組成的訓(xùn)練樣本空間；y為測試圖像轉(zhuǎn)換組合而成的列向量；A表示基函數(shù)；x為稀疏向量。

當(dāng)稀疏向量ti的l0足夠稀疏時(shí)，則有

(3)

式(3)與l1最小化問題的解同解，即

(4)

如果式(4)中的線性約束不成立，就可以將其轉(zhuǎn)化為下列無約束優(yōu)化問題，即

(5)

從神經(jīng)生理學(xué)的角度出發(fā)，V1區(qū)神經(jīng)元細(xì)胞對(duì)較弱的背景刺激較為敏感，而且刺激不能為負(fù)值。根據(jù)一級(jí)HOG提取特征都是非負(fù)性的，則可以對(duì)車臉特征信號(hào)進(jìn)行非負(fù)性稀疏表示。將Lee等人的非負(fù)矩陣分解算法(Non-negative Matrix Factorization，NMF)和Olshausen等人提出的標(biāo)準(zhǔn)算法相結(jié)合，則形成一種非負(fù)稀疏編碼算法，其目標(biāo)函數(shù)定義為

(6)

其中，約束條件λ>0；稀疏向量x的稀疏性由懲罰函數(shù)的具體形式?jīng)Q定，定義為

f(x)=|x|=x(x≥0)

(7)

因此，目標(biāo)函數(shù)式(6)在非負(fù)性條件下等價(jià)于

(8)

xi+1=xi.*{(ATy)./(ATAy+λ)}

(9)

采用式(9)更新規(guī)則來實(shí)現(xiàn)x的迭代過程，則更新后的x仍然滿足非負(fù)性，因?yàn)槠涓逻^程是通過乘以一個(gè)非負(fù)因子(ATy)./(ATAy+λ)來實(shí)現(xiàn)的。只要稀疏向量x的初始值設(shè)置為正數(shù)，那么在x的迭代過程中，對(duì)任意要求的精度都能夠收斂到全局最小值。給定x不變，考慮A的優(yōu)化問題，采用標(biāo)準(zhǔn)的梯度下降算法，得到A的更新規(guī)則為

(10)

式中：μ為學(xué)習(xí)步長；β為學(xué)習(xí)速率。只要步長μ>0且足夠小，投影梯度算法就可以保證減小目標(biāo)函數(shù)值。

對(duì)于給定的k類車輛品牌圖像，通過對(duì)訓(xùn)練樣本進(jìn)行字典學(xué)習(xí)，可獲得m個(gè)最適合重構(gòu)車輛品牌圖像的基函數(shù)集合。對(duì)于任意的測試樣本，計(jì)算其用每種基函數(shù)集合進(jìn)行稀疏表示的重構(gòu)誤差，對(duì)應(yīng)于重構(gòu)誤差最小的類別為該車輛品牌的所屬類別。令每個(gè)車輛品牌類下的每個(gè)樣本用v中的一個(gè)列向量來描述vini，若第i類包含ni個(gè)樣本，則有

(11)

若y屬于第i類，則有

y=ai1vi1+ai2vi2+…+ainivini

(12)

通過求得的稀疏解向量重構(gòu)出各類車臉圖像，并與原始測試樣本對(duì)比求殘差，分類規(guī)則為重構(gòu)殘差最小的為該所屬車輛品牌類型。

圖2 東南大學(xué)車臉數(shù)據(jù)庫的部分圖像

3 試驗(yàn)分析

試驗(yàn)采用東南大學(xué)的車臉數(shù)據(jù)庫，該數(shù)據(jù)庫部分圖像如圖2所示，包含30類車輛品牌類型，每類圖像400幅，共12 000幅圖像，涵蓋奧迪、別克、比亞迪、長安、奇瑞、雪佛蘭、雪鐵龍、東風(fēng)、中國一汽、福特、福田、重汽、長城、本田、現(xiàn)代、江淮、日產(chǎn)、鈴木、豐田、上海大眾、五菱、海馬、起亞、標(biāo)致、躍進(jìn)、威望、吉利、通用、啟晨和五征等車輛品牌。為考察基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法的有效性，隨機(jī)選取東南大學(xué)車臉數(shù)據(jù)庫中的7 500幅圖像作為訓(xùn)練樣本集(數(shù)據(jù)庫的67.5%，每類車輛品牌250幅)，剩余的4 500幅圖像作為測試樣本集(數(shù)據(jù)庫的32.5%，每類車輛品牌150幅)，進(jìn)行以下對(duì)比試驗(yàn)。

本文通過試驗(yàn)與基于單特征HOG及支持向量機(jī)(SVM)的車輛品牌分類方法、基于傳統(tǒng)稀疏表示的車輛品牌識(shí)別方法、基于字典學(xué)習(xí)稀疏表示的車輛品牌識(shí)別方法進(jìn)行對(duì)比分析[4-5]，試驗(yàn)結(jié)果統(tǒng)計(jì)如表1所示，其中基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法的性能優(yōu)于HOG+SVM、傳統(tǒng)稀疏表示和字典學(xué)習(xí)稀疏表示的車輛品牌識(shí)別方法，其平均識(shí)別率達(dá)到96.16%。

表1 不同方法的車輛品牌識(shí)別結(jié)果

計(jì)算所有車輛品牌識(shí)別結(jié)果的混淆矩陣，混淆矩陣對(duì)角線上的元素為車輛品牌的正確識(shí)別率。奧迪、別克、比亞迪、長安、奇瑞、雪佛蘭、雪鐵龍、東風(fēng)、一汽大眾、福特、福田、重汽、長城、本田、現(xiàn)代、江淮、日產(chǎn)、鈴木、豐田、上海大眾、五菱、海馬、起亞、標(biāo)致、躍進(jìn)、威望、吉利、通用、啟晨和五征一共30種車輛品牌的識(shí)別率分別為98.67%、98.00%、96.67%、98.67%、92.67%、95.33%、95.33%、94.00%、89.33%、96.67%、94.67%、90.67%、98.67%、97.33%、94.00%、94.00%、94.00%、100.00%、85.33%、100.00%、100.00%、98.67%、98.67%、100.00%、96.67%、99.33%、100.00%、100.00%、100.00%、100.00%。其中，8種車輛品牌的識(shí)別率達(dá)到了100%，20種車輛品牌的識(shí)別率高于90%，只有中國一汽和豐田2種車輛品牌的誤判率偏大，分別為89.33%和85.33%，說明它們與其他車輛品牌存在較相似的細(xì)節(jié)特征信息，如圖3所示。豐田品牌大多被誤判為比亞迪品牌。

圖3 被誤判車輛品牌樣本實(shí)例

由于受道路(如道旁樹木的陰影投射在車輛上)、天氣(如太陽光線太足，導(dǎo)致車臉區(qū)域有反光)、人為(如車輛裝飾或文字繪畫)等多方面的影響，車臉圖像通常存在一定噪聲。為進(jìn)一步考察基于融合特征稀疏編碼模型的車輛品牌類型識(shí)別方法的魯棒性和適用性，選取52幅具有嚴(yán)重噪聲的車臉圖像，如圖4所示，分別包括強(qiáng)光反射、局部裝飾或遮擋、光線照射弱、運(yùn)動(dòng)模糊等測試樣本進(jìn)行試驗(yàn)，試驗(yàn)結(jié)果如表2所示。由表2可知，52幅圖像的車輛品牌整體識(shí)別率為78.85%，其中測試樣本在光線照射弱的環(huán)境中識(shí)別錯(cuò)誤的序號(hào)有(1)、(2)、(12)、(21)、(23)、(24)、(25)、(26)，在強(qiáng)光反射的環(huán)境中識(shí)別錯(cuò)誤的樣本序號(hào)有(35)、(36)、(42)。采用基于HOG特征及支持向量機(jī)(SVM)的車輛品牌分類方法對(duì)52幅車輛品牌圖像進(jìn)行識(shí)別，則只有序號(hào)(30)為識(shí)別正確的測試樣本。試驗(yàn)結(jié)果表明，基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法是最優(yōu)的。

圖4 含有不同噪聲類型的車臉圖像

表2 含有不同噪聲類型的識(shí)別結(jié)果

4 結(jié) 語

基于HOG進(jìn)行稀疏分解，提取到的融合特征是對(duì)HOG特征的第二層抽象，也即對(duì)HOG特征的深層次的特征挖掘，該融合特征既能保留HOG特征的紋理描述對(duì)幾何光學(xué)形變的不變形優(yōu)點(diǎn)，又能結(jié)合稀疏表示特征的生物視覺感知系統(tǒng)的局部性、方向性和頻域的帶通性等特點(diǎn)，并針對(duì)HOG特征的非負(fù)性對(duì)稀疏表示中的系數(shù)求解進(jìn)行改進(jìn)，因此，本文提出的基于融合特征稀疏編碼模型的車輛品牌識(shí)別方法具有較好的魯棒性。