劉海華,廖秋萍
(中南民族大學生物醫(yī)學工程學院,武漢430074)
物體識別是計算機視覺領域中最重要的,也是最具挑戰(zhàn)性的課題.近來各國研究者提出各種多類物體識別的方法,如FeiFei等人提出的基于“bag of words”貝葉斯模型的多類物體識別方法[1,2],Graumand[3]、Lazebnik[4]等人提出的尺度空間金字塔匹的識別模型.然而,這些方法存在計算量過大、模型優(yōu)化困難等缺點.2005年 Thomas和 Poggio[5]根據(jù)人的視覺系統(tǒng)信息加工機理的研究成果,提出第一個能模擬人腦視覺系統(tǒng)的物體識別模型,即HMAX模型.隨著人類對自身視覺系統(tǒng)研究的逐步深入,以及認知心理學和計算機視覺的不斷發(fā)展,基于該模型的各種改進算法不斷出現(xiàn),并應用于物體識別領域.2006年 Mutch[6]在 HMAX 模型基礎上,加入稀疏性、側面抑制等生物特性來實現(xiàn)多類物體的識別,取得了良好的識別效果.國內(nèi)學者朱慶生[7]等人通過AdBoosts算法結合HMAX的特征對柑桔潰瘍病進行識別;李芹[8]等人通過對模型訓練特征的提取方法及匹配算法進行改進,并限定C2層的不變性范圍來對人臉進行識別,達到了非常好的效果;2009年湯毓婧[9]通過提取顯著點處小塊作為特征小塊,在一定程度上提高特征模板有效性.但這些方法都存在共同性的問題,即計算量大,且識別率與計算量很難平衡等問題.為此,本文結合多類物體特點來簡化HMAX模型,減少計算量;同時,給出適合于多類物體穩(wěn)定興趣點的提取算法,提高多類物體的識別率.
其 中,λ = σ/0.8,X=xcosθ+ysinθ,σ =0.0036RFsize2+0.35RFsize+0.18,Y=xsinθ+ycosθ.RFsize為濾波器尺寸,分別設置為 7,9,11,…,37.
C1層模擬V2區(qū)復雜細胞,對S1層8個子帶采用最大化聯(lián)合操作方法模擬V1區(qū)復雜細胞生理特性.具體操作方法是:對各子帶進行Ni×Ni(Ni=9,10,…,22;i=1,2,3,…,8 區(qū)域的最大值濾波處理(濾波器的滑動間隔了半個區(qū)域),從而實現(xiàn)小范圍的局部位置不變性;然后,抽取同一子帶同一方向上兩尺度的最大值,以實現(xiàn)小范圍的局部尺度的不變性.
對于訓練樣本,要在C1層生成的不變響應中學習出特征模板,該學習過程通過隨機選擇任意子帶,在該子帶對應的4個方向特征上隨機抽取不同大小的小塊,將抽取的小塊保存為特征模板.本模型的具體做法是,從第2個子帶上隨機的抽取4種不同的小塊,通過最小距離計算獲取訓練的特征,共K個特征.4種小塊的大小分別為4×4,8×8,12×12和14×16.
S2層主要模擬視覺皮層的V4層,通過圖像所有子帶、所有位置的C1層輸出特征與訓練特征進行遍歷相似度匹配,來獲得具有全局尺度不變性和全局位置不變性的特征.對于圖像某子帶中某位置的局部C1特征,采用式(2)的徑向基函數(shù)(RBF)來與個訓練特征進行匹配計算:
r=exp( - γ‖X-Pi‖2),i=1,2,3,…,K,(2)其中Pi為第i個訓練特征,r代表與訓練特征遍歷匹配結果.那么每個訓練特征都與所有尺度上的所
Thomas Serre[5]提出了模擬大腦視覺皮層腹部通路的4層次結構模型,分為S1層、C1層、S2層和C2層,分別對應視覺皮層的V1、V2、V4和IT區(qū).其中,該模型S1層中使用(1)式給出的Gabor濾波器模擬V1區(qū)的簡單細胞的生理特性,反應了簡單細胞在不同尺度和不同方向上的響應,在原模型中使用了4個方向、16個尺度的Gabor濾波器組成了1個濾波器組對圖像進行操作,從而獲得64個響應子圖,并將相鄰兩個尺度的響應圖作為1個子帶,從而形成了8個子帶圖.有位置特征進行匹配計算,最終結果即是具有全局尺度和位置不變性的S2特征.
C2層模擬視覺皮層中的IT層,即取S2層輸出中所有尺度和位置上的最大值.也就是說,S2特征代表輸入圖像的所有位置和尺度與一系列特征小塊Pi的匹配值,而C2特征代表其中最匹配的值.如特征模板有K個訓練特征,那么最終得到列向量,作為該圖像的C2層特征向量.最后將C2特征向量送入SVM分類器進行分類.
標準模型最初主要用于復雜背景中單類物體的識別,所以在S2層計算中用到8個子帶的C1特征與特征小塊,并采用遍歷形式進行相似匹配,從而實現(xiàn)全局尺度和位置的不變性.這種方法的主要問題是計算量較大.為此,采用選擇合適的局部尺度不變性范圍的方法對原標準模型進行改進.
由于圖像數(shù)據(jù)庫中各種類型物體具有在視野中的大小變化不大,物體位置也基本上都在視野中央的特點.而rolls指出V4和IT區(qū)中的神經(jīng)元并非具有完全意義上的不變性[10],其感受野范圍僅在部分視域和一定尺度范圍內(nèi).為此,在模型中沒有必要對所有尺度的信息進行考慮,而是需要有選擇性的使用.也就是說對S2層匹配的尺度不變性范圍限定,從而在不影響識別率的基礎上,提高模型的識別速度.
在模型中,每個子帶的C1特征是原圖像經(jīng)過不同尺度Gabor濾波器濾波后得出的不同的特征,其相鄰子帶所包含的信息相似,因此有限地選擇子帶,減少計算量.如模板來自第2子帶,那么由于第2子帶與鄰近子帶(如3子帶)的C1特征包含信息較為相似,與特征模板匹配時,能產(chǎn)生更良好的匹配結果;而來自第8子帶的C1特征由于經(jīng)過尺度相差較大Gabor濾波后,得出的特征信息與第2子帶的C1特征差異較大,所以得到最好匹配的概率較少.因此,為了減少模型的計算量,在子帶選擇時不需要全部子帶,而是通過實驗選擇部分子帶,從而獲取合適的局部尺度不變性范圍.
由于HMAX模型隨機選取小塊作為特征模板,其結果導致特征模板有效性不高.為此,采用能有效表達多類物體信息的興趣小塊作為特征模板,從而提高特征模板的有效性.采用的方法是獲取圖像中的興趣點,并以興趣點為中心選取相應大小的興趣小塊,作為特征模板.
為了節(jié)約運行時間,所以在改進模型中采用計算簡單、抗噪性良好的harris興趣點提取算法來提取興趣點.Haris算子[11]是受信號處理中自相關函數(shù)的啟發(fā)而構建的,其基本思路是計算由圖像灰度梯度構成的自相關函數(shù)關聯(lián)一階曲率,如果兩個曲率值都高,那么就認為該點是興趣點特征.矩陣^C的定義由式(3)確定.其中,Ix為圖像I在方向的偏導;Iy為y方向的偏導.興趣點響應函數(shù)CRF的判斷標準為:
圖1分別給出了一副圖像隨機選取點和提取興趣點后的復合圖像.從圖1可以看出,隨機選取點的方法所選取的點在圖像中的分布較均勻,既有在關注對象上的點,也有在背景上的點,因此有效點的數(shù)量相對較少.而采用選擇興趣點的方法所獲得的點幾乎全在關注對象上,提高了所選擇點的有效性.由于Harris興趣點提取算法是根據(jù)CRF值的大小來確定取興趣點,因此需要為CRF設置閾值.然而不同類別的目標表現(xiàn)出的圖像信息不同,計算出的CRF值的分布不同,很難給出統(tǒng)一的標準.為此采用設置固定的興趣點數(shù)量來解決這類問題.
對于不同圖像,計算的CRF值越大,該點是該圖像的興趣點概率就越大.通過對計算獲得的CRF值進行降序排列,選取前n個點作為興趣點.使用該方法對所有的圖像都選取相同的n個興趣點,以選擇的興趣點為中心選取n個小塊.雖然可能存在所選取的小塊在背景上的情況,但卻能夠降低漏選能表達目標特征的興趣小塊,且保證了所有圖像在計算興趣小塊所消耗的時間的一致性.圖2給出了以設置CRF閾值的方法和設置興趣點總數(shù)的方法所獲得興趣點圖,其中圖2(a)為設置CRF閾值為1500的興趣點圖,圖2(b)為選取固定數(shù)量為40的興趣點圖.從圖2可以發(fā)現(xiàn),(a)圖中右圖所選取的興趣點有較大一部分落在背景上,而左邊的圖漏選了一些我們感興趣的點;而(b)圖中的兩幅圖所選取的興趣點都比較均勻分布在目標上,即選出了能表達目標特征的興趣點,而有沒有過多興趣點分布在圖像的背景上.
為了對上述方法進行合理的驗證,采用標準圖像數(shù)據(jù)庫Caltech-101作為測試圖像數(shù)據(jù)來源.該數(shù)據(jù)庫包含101類不同的目標和背景類共102類,每類大約包含40到800張彩色圖片.本文選取了其中的8類物體進行分類.這8類物體分別是手風琴、飛機、汽車、鋼琴、摩托車、手槍、帆船、手表.在實驗過程中,選取每類圖像20幅作為訓練樣本,剩下的作為測試樣本.為了實驗的方便快捷,對所有圖像進行高度為140,寬度等比例縮小的方式進行預處理,使用OSU-SVM工具箱的線性核函數(shù)進行分類,其中懲罰因子設置1.實驗中,S1層Gabor濾波器組的參數(shù)和C1層滑動窗口的參數(shù)按照表1給出的值進行設置;其中訓練樣本學習獲得的特征模板為800個小塊,小塊的分別為4×4、8×8、12×12和16×16等4種尺寸,每種取200個小塊.
圖2 興趣點提取分布圖Fig.2 Interest points extacting distribution map
表1 HMAX模型中S1層和C1層參數(shù)的設置Tab.1 HMAX model S1 layer and C1 layer parameters settings
為了驗證限定S2層的尺度不變性范圍的有效性,將HMAX模型全部8子帶的C1特征全部與特征模板進行匹配,逐步遞減到只用前3子帶的C1特征與特征模板進行匹配,從而獲取識別的準確率.表2是給出了實驗所獲得的識別準確率和提出C2特征所需要的時間,其中每次實驗結果取6組實驗數(shù)據(jù)的平均值.
從表2給出的結果可以看出,選取與特征模板進行匹配的C1層子帶的數(shù)量從8個逐漸減少到5個,其提取C2特征的時間大大縮短,但識別率下降的幅度卻較小.該結果說明小部分高子帶即第6、7、8特征所損失的輪廓特征在可接受范圍內(nèi),所以限定局部尺度不變性范圍為前5子帶.
表2 不同局部尺度不變性范圍的識別率和速率對比結果Tab.2 Comparison of different local scale invariance range of recognition rate and rate
根據(jù)上述結果,在選取C1層5個子帶進行特征匹配來簡化模型的基礎上,再提取訓練圖像的興趣點,把興趣點映射到該圖像的C1特征,以映射后的興趣點為中心的小塊特征作為特征模板,其基本步驟為:
第1步:隨機從訓練樣本中抽取1副圖像,并提取該圖像第2子帶的C1特征;
第2步:提取該圖像Harris興趣點,在把興趣點映射到C1特征上;
第3步:隨機選取映射到C1特征上的興趣點,以該點為中心提取大小的小塊;
第4步:判斷該小塊是否有超出C1層的邊緣,如超出則把小塊向圖像中間移動,直到所取小塊全部在C1層上為止;
第5步:保存小塊為特征模板.
圖3給出了提取興趣點的數(shù)量與識別率的關系圖.每組對訓練圖像提取興趣點的個數(shù)從30點到190點,每次間隔10個興趣點.從圖3給出的6組數(shù)據(jù)的平均識別率曲線可看出,識別率隨著興趣點個數(shù)的增加逐漸提高,當識別率達到最大后,識別率隨興趣點的增加有所回落并趨于平穩(wěn).這表明當興趣點少時,雖然取得的特征小塊都是興趣小塊,但另一部分代表目標興趣區(qū)域的小塊沒有選出來,所以識別率較低;隨著興趣點的增加,漏選的興趣區(qū)域小塊減少,識別率隨之提高.而當興趣點達到一定個數(shù)時,對部分類別圖像所選取點興趣點落在非目標區(qū)域上的數(shù)量會增加,從而影響識別效果.隨著興趣點的進一步增加,提取興趣小塊的完整性與非興趣小塊之間達到平衡,從而使得識別趨于平穩(wěn).從平均識別率曲線上看,當取興趣點個數(shù)為170時,能夠達到最高識別率87.89%.
表3給出了改進模型與HMAX模型識別率和識別速度的對比結果.其中限定S2尺度不變性范圍為5個子帶,興趣點個數(shù)為170個.從表3可以看出建議對HMAX模型進行限定S2層特征的尺度不變性范圍,識別率沒有大幅度降低但卻大大提高識別的速度;當根據(jù)建議的方法提取興趣小塊為特征模板后,提高了模型的識別率.從整體上看,本文改進的模型比HMAX模型具有更快的識別速度和更高的識別率.
圖3 興趣點數(shù)量與識別率的關系Fig.3 Relationship between number of interest points with recognition rate
表3 改進模型與HMAX模型識別率和識別速度的對比結果Tab.3 Comparison of rate and speed of recognition between improved model and HMAX model
本文在HMAX模型的基礎上對該模型進行改進,其重點在于在特征模板的訓練過程中,選取以本文改進的興趣點為中心興趣小塊作為特征模板,力求解決無法在所有目標中協(xié)調(diào)閾值選取問題,以提高模型的識別率.通過對Caltech-101圖像數(shù)據(jù)庫中多類目標進行分類實驗表明,本文改進模型不僅比原HMAX模型具有更快的識別速度和更高的識別率,而且具有應用的普適性,即能對所有類別目標取統(tǒng)一的興趣點數(shù)量進行特征提取,從而解決了不同類別目標圖像閾值選擇問題.
[1]Fei-Fei L,F(xiàn)ergus R,Perona P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[C]//IEEE.Proc of the Workshop on Generative-Model Based Vision in Computer Vision and Paueru Recognition.Washington:IEEE,2004:59-70.
[2]Wang G,Zhang Y,F(xiàn)ei-Fei L.Using dependent regions for object categorization in a generative framework[C]//IEEE.IEEE Computer Society Conference on Computer Vision and Patten Recognition.New York:IEEE,2006:1597-1604.
[3]Grauman K,Darrell T.Pyramid match kernels:Discriminative classification with sets of image features[C]//IEEE.Proceedings of International Conference on Computer Vision.Washington:IEEE,2005:1458-1465.
[4]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//IEEE.Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.NewYork:IEEE,2006:2169-2178.
[5]Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex[C]//IEEE.Proc IEEE CVPR.Washington:IEEE Press,2005:994-1000.
[6]Mutch J,.Lowe D.Multiclass object recognition using sparse,localized hmax features[C]//IEEE.Proc CVPR 2006.New York:IEEE Press,2006:11-18.
[7]朱慶生,張 敏,柳 鋒.基于HMAX特征的層次式柑桔潰瘍病識別方法[J].計算機科學,2008,35(4):231-232.
[8]李 芹,練秋生.基于生物視覺模型的人臉識別設計[J].電視技術,2008,2(2):80-84.
[9]湯毓婧.基于人腦視覺感知機理的分類與識別研究[D].南京:南京理工大學,2009.
[10]Roll E,Deco G.The computational neuroscience of vision[M].Oxford:Oxford University Press,2001.
[11]Harris C,Stephens M.A combined corner and edge detector[J].Image Vision Computting,1998,6:121-128.