国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

仿人腦視皮層機(jī)制的目標(biāo)識別方法

2015-12-23 01:09李岳云許悅雷馬時平史鶴歡
計算機(jī)工程與設(shè)計 2015年8期
關(guān)鍵詞:梯度方向皮層字典

李岳云,許悅雷,馬時平,史鶴歡

(空軍工程大學(xué) 航空航天工程學(xué)院,陜西 西安710038)

0 引 言

通過人腦視皮層的實驗,研究學(xué)者們積累了大量的先驗知識,并嘗試將其推廣到計算機(jī)視覺中,取得了極具意義的研究成果。Robinson等[1]在視覺皮層研究中發(fā)現(xiàn),視覺信息的處理方式是一種多層分級的結(jié)構(gòu);Riresan等[2]模擬視皮層簡單、復(fù)雜細(xì)胞構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)多層級聯(lián)的結(jié)構(gòu)以及同平面上的權(quán)值共享,極大程度避免了神經(jīng)網(wǎng)絡(luò)權(quán)值訓(xùn)練的時間消耗,它在手寫字體的識別上取得了不錯的效果;Huang等[3]基于前人視皮層腹側(cè)通路研究提出與靈長類大腦類似的皮層等級處理模型HMAX,通過抽取邊緣信息的 “碎片集”作為特征集,結(jié)合支持向量機(jī)SVM 或者Adaboost能夠有效地實現(xiàn)目標(biāo)分類,但它也存在著運算量大,訓(xùn)練樣本太多的問題;Jim Mutch等[4]根據(jù)神經(jīng)元橫向側(cè)抑制的特點對HMAX 模型進(jìn)行改進(jìn),稀疏了所抽取的特征,減少了冗余和計算量,在某些情況下識別率得到了提高,但它對復(fù)雜圖像的處理效果卻不是很理想,同樣對特征的描述不夠;Lowe等[5]總結(jié)了不變量的特征檢測方法,并提出了一種基于尺度空間的、對圖像縮放、旋轉(zhuǎn)甚至仿射變換保持不變性的圖像局部特征描述算子SIFT,但該描述算子復(fù)雜度太高,計算非常耗時;Duraid Abdullah等[6]將金字塔梯度方向直方圖PHOG(pyramid histogram of oriented gradient)用于視覺機(jī)制中,對視覺特征的簡化有一定的改進(jìn),減小了計算復(fù)雜度,提高了速度,但該方法建立的模型與腦機(jī)制契合度不夠,處理的圖像也比較簡單。

本文針對傳統(tǒng)方法的不足,基于視皮層分級處理的框架結(jié)構(gòu),模擬皮層腹側(cè)通路的信息處理方式,結(jié)合Gabor濾波器與初級皮層簡單細(xì)胞的相似特性,利用該濾波器提取邊緣,根據(jù)復(fù)雜細(xì)胞的max-like機(jī)制,進(jìn)行局部和全局的最大化操作,稀疏化邊緣特征,同時能夠有效增加尺度和旋轉(zhuǎn)的不變性,使得目標(biāo)的識別更具有魯棒性。通過訓(xùn)練圖像抽取的PHOG 特征構(gòu)建完備字典,以該字典對測試圖像進(jìn)行表示描述,用最終表示描述的特征去訓(xùn)練多類SVM 分類器,進(jìn)行分類識別。

1 視覺皮層結(jié)構(gòu)

人腦不是直接根據(jù)外部世界在視網(wǎng)膜上的投影成像,而是經(jīng)過聚集過程和因素分解過程處理以后的信息來識別物體。視皮層能夠?qū)σ暽窠?jīng)感知信號進(jìn)行提取和計算,而不僅僅是對視網(wǎng)膜上投影的圖像實現(xiàn)再現(xiàn)。生理學(xué)實驗表明,視覺信息的傳遞有腹側(cè)和背側(cè)兩條通路,前者主要是處理目標(biāo)的形狀、輪廓、邊緣、顏色和紋理等靜態(tài)信息,與目標(biāo)的識別有很大的關(guān)系;后者主要對目標(biāo)的運動和朝向等動態(tài)信息進(jìn)行加工,與運動的識別密不可分。背側(cè)通路和腹側(cè)通路雖然所處理的視覺信息種類有所區(qū)別,但它們的工作方式有很大的相似性,并不是單獨分開作用的[7,8]。圖1是人眼視覺皮層結(jié)構(gòu)。

圖1 人眼視覺皮層結(jié)構(gòu)

神經(jīng)學(xué)、解剖學(xué)和生理學(xué)不斷證明視覺信息的傳遞和處理是通過逐級分層進(jìn)行的。視覺信息處理通路從結(jié)構(gòu)上來說,主要包括視網(wǎng)膜、側(cè)膝體 (LGN)和大腦皮層3部分。視皮層又有V1、V2、V3和V4等部分,它們都是腹側(cè)通路和背側(cè)通路的重要構(gòu)成。在視覺皮層內(nèi)視覺信息又是按照簡單細(xì)胞、復(fù)雜細(xì)胞、超復(fù)雜細(xì)胞、祖母細(xì)胞[9]這樣的一個特定的序列來逐級進(jìn)行傳遞的。構(gòu)成一個由低級到高級、由簡單到復(fù)雜分層逐級傳遞的完善的視覺信息處理系統(tǒng)。

2 PHOG 和卷積神經(jīng)網(wǎng)絡(luò)

2.1 PHOG

PHOG 是能夠同時對物體整體形狀和局部形狀空間分布有較好描述的形狀特征描述符,在不同層次上統(tǒng)計邊緣圖像的梯度方向直方圖分布情況,具有較強(qiáng)的抗噪性能和一定的抗旋轉(zhuǎn)能力。其基本流程是:首先得到一幅邊緣圖像,并求取邊緣圖像的梯度方向,量化梯度方向值,統(tǒng)計各梯度方向值的個數(shù),形成梯度方向直方圖,然后逐級分割圖像,計算每一個分割區(qū)域的梯度方向直方圖,再將全部區(qū)域的梯度方向直方圖連接起來,從而形成一個梯度方向金字塔 (這不同于SIFT 的直方圖),最后將直方圖進(jìn)行歸一化。梯度方向的計算由式 (1)、式 (2)完成

式中:I表示原圖像,gx,gy分別是x,y方向的方向?qū)?shù),求得的θ即為梯度方向。一般將360°的梯度方向量化成若干個區(qū)間 (每個區(qū)間在直方圖中以條狀表示稱為bin),例如:在很多人臉識別中采用8個bin,這樣每個bin表示的角度范圍為45°。當(dāng)采用8個bin,分層數(shù)Level=0時,梯度維數(shù)為8;Level=1 時,梯度維數(shù)則為8× (1+4)=40;Level=N 時,梯度維數(shù)的一般計算式為8×(1+4+42+…+4N)。圖2是以一幅自然圖像為例抽取其PHOG特征的簡單過程。

圖2 抽取PHOG 特征流程

2.2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)由特征提取層和特征映射層所組成。特征提取層選取一系列不同的濾波器與圖像進(jìn)行卷積,得到的結(jié)果稱為特征圖譜,多個濾波器可以分別探測出不同的特征。特征映射層是計算層,同樣有多層,它是神經(jīng)網(wǎng)絡(luò)的連接方式,一個映射層為一個平面,其所有神經(jīng)元權(quán)值相等,該層一般采用sigmoid函數(shù)作為激活函數(shù)。通過多級卷積層和計算層級聯(lián)連接到一個或多個全連層,全連層的輸出就是最終的輸出。

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。

圖3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

3 仿人腦視皮層機(jī)制目標(biāo)識別模型

在視覺信息分層等級處理的框架上,利用PHOG 能夠?qū)π螤钸吘壓芎妹枋龅奶匦?,根?jù)腹側(cè)通路處理信息的流程構(gòu)建如圖4 所示的仿人腦視覺皮層機(jī)制目標(biāo)識別模型。它主要包括卷積層、下采樣層、特征提取層和特征形成層4個層,特征提取層層遞進(jìn),逐級運算,由簡單到復(fù)雜,由初級到高級。下面具體解釋各層的實現(xiàn)方式。

圖4 仿人腦視皮層機(jī)制目標(biāo)識別模型

V1區(qū)簡單細(xì)胞對特定位置特定朝向的簡單線條比較敏感,在模型中用Gabor濾波器來模擬實現(xiàn),它能夠有效地描述簡單細(xì)胞的感受野特性。對于卷積層,將輸入圖像簡單預(yù)處理后,通過與一系列Gabor濾波器卷積便得到特征圖譜。一個二維的Gabor濾波器表示形式為

式中:λ為復(fù)正弦函數(shù)的空間波長,σ2為高斯函數(shù)方差,代表Gabor濾波器的尺度,θ是濾波器的方向,γ為空間寬高比。因此,卷積層輸出的特征圖譜可以表示如下

式中:I(x,y)——灰度變換后的原圖像,Iσ,θ(x,y)——濾波后的特征圖譜。這里選取濾波器8個尺度,9個方向,共72幅特征圖。

下采樣層模擬的是V1區(qū)的復(fù)雜細(xì)胞,它的感受野是簡單細(xì)胞的兩倍,同時具有同朝向邊緣的位置和尺度不變性等特性,它的主要功能是對特征圖進(jìn)行計算。在模型中,對特征圖譜實現(xiàn)下采樣操作。具體而言,取特征圖譜中相同方向相鄰尺度的圖像,分別以相同尺寸的小模板滑動取最大值,該操作可以實現(xiàn)一定的平移和尺度不變性。將所有特征圖譜進(jìn)行該操作,此時的特征圖減少了一半。人視覺對所有感受野中的目標(biāo)不是一視同仁的,Jim Mutch等[4]認(rèn)為人所注意的區(qū)域非常有限,因此進(jìn)一步稀疏了特征圖,即求取同一尺度上各個方向上的最大響應(yīng)值,該響應(yīng)方向便是視覺最感興趣的主方向。此時特征圖已經(jīng)減少到了8幅,實現(xiàn)了特征圖極大的精簡。

特征抽取層是為了抽取下采樣層輸出圖像的PHOG 特征。首先將下采樣層輸出圖像,通過上節(jié)提到的PHOG 方法提取特征。但是,得到的PHOG 特征與傳統(tǒng)方法是不一樣的,因為該直方圖具有主方向,它的主方向便是下采樣層稀疏化時最大響應(yīng)值方向,類比Lowe等[5]的SIFT 特征描述子思想可以得到結(jié)論,采用帶有主方向的PHOG 描述子同樣具備很好的旋轉(zhuǎn)不變性,從而將訓(xùn)練所得的字典用于識別時更具有魯棒性。若是訓(xùn)練階段則選取一定數(shù)量的圖像的PHOG 特征,存儲起來作為字典;測試階段,則把提取的測試特征與存儲字典求取直方圖交叉。直方圖交叉算法被Cheng 等[10]用于行人的識別,取得了非常好的結(jié)果。通過計算相應(yīng)圖像直方圖的交叉部分,用來衡量圖像的匹配率,這可以被認(rèn)為是直方圖之間的相似性度量,直方圖交叉值越大,則相似度越高。假設(shè)兩幅圖像的直方圖以HX和HY來表示,它們均有K 個bin,第i(i=0,1,…,K)個bin的響應(yīng)值可以表示為hxi與hyi,則直方圖交叉的數(shù)學(xué)表示為

特征形成層旨在對抽取的PHOG 特征與字典元素進(jìn)行匹配,即求取直方圖交叉的最大值,找尋與所存儲的最相似的直方圖,用找到的相似字典元素線性組合表示當(dāng)前抽取的特征,以此作為最終形成的特征。該特征可以用來訓(xùn)練多類SVM 分類器,以完成目標(biāo)識別和分類的任務(wù)

式中:HIP——在測試圖像上獲得的直方圖與存儲字典的直方圖交叉,hIi,hPj——第i個測試圖的直方圖與字典的第j個元素,M 是字典元素的總個數(shù)。

4 實驗及結(jié)論分析

4.1 選用數(shù)據(jù)庫和實驗環(huán)境

為了檢驗所提出模型對目標(biāo)識別的有效性,選用Caltech101數(shù)據(jù)庫進(jìn)行實驗。該數(shù)據(jù)庫由美國加州理工大學(xué)開發(fā)完成,其中有Car、Motorbike、Face和各種背景圖等多類圖像,是圖像識別領(lǐng)域上的經(jīng)典數(shù)據(jù)庫。通過在CPU頻率為2GHZ、內(nèi)存1.0G 的電腦上編寫Matlab2010 程序進(jìn)行仿真,Gabor濾波器參數(shù)設(shè)置σ=0.7,γ=0.6。將特征形成層得到的特征輸入到多類SVM 分類器進(jìn)行訓(xùn)練分類,得到在3類實驗圖的識別率,從而對所提出的模型實現(xiàn)論證。圖5列出了所選擇的實驗數(shù)據(jù)庫中部分圖像。圖6是列舉的4類部分圖像抽取到的PHOG 特征。

圖5 實驗數(shù)據(jù)庫中的部分圖像

圖6 4類部分圖像抽取到的PHOG 特征

4.2 識別率的比較

為了得到一個比較合適的分層梯度方向直方圖的層數(shù)和bin數(shù),預(yù)先選用數(shù)據(jù)庫中的幾類圖像進(jìn)行試驗。通過不同的分層數(shù)實驗,得到圖7所示的PHOG 分層數(shù)——識別率曲線。從曲線中可以看出:當(dāng)所分的層數(shù)是3層時得到的識別率結(jié)果最好。對于金字塔梯度方向直方圖PHOG而言,不是分層數(shù)越多結(jié)果越好。當(dāng)分層數(shù)太少時,形狀空間分布信息不能夠有效的表達(dá);當(dāng)分層數(shù)太多時,整幅圖像都被分成小塊,塊與塊之間的差異被嚴(yán)重削弱,形狀信息就會很弱。在本文后續(xù)實驗中,都采用3 層的結(jié)構(gòu)。圖8是在計算PHOG 時所選用的不同bin數(shù)對4類圖像平均識別率的影響曲線。通過實驗發(fā)現(xiàn),在選取bin=9時的效果是最好的。這是因為,bin的選取涉及到了一個類間與類內(nèi)特征的平衡問題。在bin的數(shù)量比較少時,梯度方向量化等級少,類與類之間的區(qū)分度不夠,識別效果當(dāng)然不會太好;當(dāng)bin達(dá)到某個值時,根據(jù)圖8得出,本文在7~9附近,類間與類內(nèi)特征實現(xiàn)了均衡,使得識別率最高,也就是說此時既能夠保證同類之間的聚合,又能夠?qū)崿F(xiàn)不同類之間的區(qū)分;繼續(xù)增大bin數(shù)則使梯度方向量化等級太多,使得同類的特征聚合度很差,無法實現(xiàn)同類之間的聚合,這樣肯定會降低識別率。

分類器的選擇對目標(biāo)識別的成功與否至關(guān)重要,作為一種經(jīng)典識別分類方法,SVM 對高維線性數(shù)據(jù)分類具有很好的效果,因此本文選用多類SVM 作分類器。表1是本文算法在Caltech 數(shù)據(jù)庫中的Car、Motorbikes和Faces這3類圖像中實驗得到的混淆矩陣。

圖7 PHOG 層數(shù)—識別率曲線

圖8 bin數(shù)量—識別率曲線

表1 實驗圖像所得混淆矩陣

將本文算法與文獻(xiàn) [11]所使用的方法作為基準(zhǔn)Benchmark,文獻(xiàn) [12]中Serre 在Caltech 數(shù)據(jù)庫中所使用的SMF特征分類以及文獻(xiàn) [6]提出的基于視覺機(jī)制的PHOG 特征識別方法相比較。計算混淆矩陣中正確識別的數(shù)量比率,得到了如表2所示的不同類識別率,并繪制比較算法的虛警率—檢測率曲線 (ROC)如圖9 所示。通過表2和ROC曲線可以看出:本文所提出的識別方法較其它3類方法都要好。從識別率統(tǒng)計表看,不僅整體的平均識別率得到了提高,而且單個類的識別率也有比較大的改善;對比ROC曲線可以明顯看出,本文算法曲線下面積是最大的,同樣在虛警率比較小的情況下,檢測率便已經(jīng)達(dá)到很高的值。需要說明的是,與其它算法相比,本文所使用的訓(xùn)練圖像少得多,只占到了測試圖像的1/10。分析原因是本文算法避免了抽取大量碎片集作為特征描述的不足之處,而是采用梯度方向直方圖對邊緣特征進(jìn)行了有效的描述,既建立了合適的訓(xùn)練字典,又大大的減少了計算量,Gabor濾波器和max-like機(jī)制的全局及局部最大化操作保證了尺度縮放的不變性;此外,帶有主方向的PHOG 直方圖使目標(biāo)識別更具有旋轉(zhuǎn)不變性,從而使文章算法更具有魯棒性。

表2 識別率統(tǒng)計比較

圖9 本文算法和對比算法ROC曲線

5 結(jié)束語

針對傳統(tǒng)方法在目標(biāo)識別、特征提取上的不足,從仿生學(xué)角度和工程應(yīng)用出發(fā),提出了一種仿人腦視皮層的目標(biāo)識別新模型。①用卷積神經(jīng)網(wǎng)絡(luò)的卷積層和下采樣層分別模擬初級皮層簡單、復(fù)雜細(xì)胞,該方法克服了傳統(tǒng)識別方法人工標(biāo)定特征的不足,這與人腦識別是一致的;②以PHOG 作為特征描述子,對全局特征和局部特征分布可以很好的描述,同時賦予PHOG 一個主方向,使得該描述子具有比較好的旋轉(zhuǎn)不變性;③充分考慮到人類視覺信息的稀疏性,運用max-like機(jī)制簡化了特征并能夠大大減小計算量,并借鑒壓縮感知及稀疏表示的思想,建立了圖像目標(biāo)特征庫。

[1]Robinson E Pino,Michael Moore,Jason Rogers,et al.A columnar V1/V2visual cortex model and emulation using a PS3 Cell-BE array [C]//The International Joint Conference on Neural Networks,2011:1667-1674.

[2]Ciresan D,Ueli Meier,Juergen Schmidhuber.Multicolumn deep neural networks for image classification [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2012:3642-3649.

[3]Qiao Hong,Li Yinlin,Tang Tang,et al.Introducing memory and association mechanism into a biologically inspired visual model[J].IEEE Transactions on Cybernetics,2013,44(9):1485-1496.

[4]Mutch J,Lowe D G.Object class recognition and localization using sparse features with limited receptive fields[J].International Journal of Computer Vision,2008,80 (1):45-57.

[5]Muja M,Lowe D G.Fast matching of binary features[C]//Ninth Conference on Computer and Robot Vision,2012:404-410.

[6]Duraid Abdullah,Iqbal Murtza,Asifullah Khan.Feature extraction and reduction strategy based on pyramid HOG and hierarchal exploitation of cortex like mechanisms [C]//16th International Multi Topic Conference,2013:160-165.

[7]Jia Cheng Ni,Yue Lei Xu.SAR automatic target recognition based on a visual cortical system [C]//International Congress on Image and Signal Processing,2013:778-787.

[8]Norbert Kruger,Peter Janssen,Sinan Kalkan,et al.Deep hierarchies in the primate visual cortex:What can we learn for computer vision [J].Pattern Analysis and Machine Intelligence,2013,35 (8):1847-1871.

[9]SHOU Tiande.Visual information processing mechanism of the brain [M].2nd ed.Hefei:Press of University of Science and Technology of China,2010:87-113 (in Chinese). [壽天德.視覺信息處理的腦機(jī)制 [M].2版.合肥:中國科學(xué)技術(shù)大學(xué)出版社,2010:87-113.]

[10]Cheng Y,Su S Z,Li S Z.Combine histogram intersection kernel with linear kernel for pedestrian classfication [C]//IET International Conference on Information Science and Control Engineering,2012:1-3.

[11]Huang Lihong,Chen Xiangan,Gao Zhiyong,et al.Human action recognition by imitating the simple cells of visual cortex[C]//International Conference on Intelligent Computation and Bio-Medical Instrumentation,2011:313-320.

[12]Kuehne H,Jhuang H,Garrote E,et al.HMDB:A large video database for human motion recognition [C]//International Conference on Intelligent Computation and Bio-Medical Instrumentation,2011:2556-2563.

猜你喜歡
梯度方向皮層字典
基于機(jī)器視覺的鋼軌接觸疲勞裂紋檢測方法
復(fù)發(fā)緩解型多發(fā)性硬化患者扣帶皮層結(jié)構(gòu)和灌注變化
急性皮層腦梗死的MRI表現(xiàn)及其對川芎嗪注射液用藥指征的指導(dǎo)作用研究
基于復(fù)雜網(wǎng)絡(luò)的磁刺激內(nèi)關(guān)穴腦皮層功能連接分析
字典的由來
基于梯度方向一致性引導(dǎo)的邊緣檢測研究
基于光譜上下文特征的多光譜艦船ROI鑒別方法
基底節(jié)腦梗死和皮層腦梗死血管性認(rèn)知功能的對比
我是小字典
基于支持向量機(jī)的分類器訓(xùn)練研究