白陽(yáng) 萬(wàn)洪林 白成杰
摘要:在對(duì)GoogLeNet模型分析的基礎(chǔ)上,通過(guò)Caffe平臺(tái)上使用開(kāi)源GoogLeNet模型,對(duì)Stanford40靜態(tài)圖像集中人體行為進(jìn)行分類(lèi)研究,得到top-5準(zhǔn)確率為50.23%,這些工作對(duì)深入理解GoogLeNet模型和靜態(tài)圖像中人體行為分類(lèi)的研究有所幫助。
關(guān)鍵詞:人體行為分類(lèi);GoogLeNet;靜態(tài)圖像
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)18-0186-03
1概述
在靜態(tài)圖像索引和檢索中,人體行為分類(lèi)有許多潛在的應(yīng)用。目前,對(duì)靜態(tài)圖像中人體行為的分類(lèi)已有很多研究。有些方法是用整幅圖片直接進(jìn)行分類(lèi),如基于空間金字塔法、隨機(jī)森林法等構(gòu)建的分類(lèi)器;有些方法是利用對(duì)象與人之間的相互作用或者是人體的姿態(tài)進(jìn)行分類(lèi);還有些方法是利用整體和局部屬性進(jìn)行識(shí)別。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)框架,通過(guò)卷積運(yùn)算來(lái)由淺人深的提取圖像不同層次的特征,且整個(gè)網(wǎng)絡(luò)可以自動(dòng)調(diào)節(jié)卷積核的參數(shù),從而無(wú)監(jiān)督的產(chǎn)生最適合的分類(lèi)特征,取得較好的分類(lèi)效果,使卷積神經(jīng)網(wǎng)絡(luò)成為當(dāng)前圖像識(shí)別領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢(shì)。
1998年,紐約大學(xué)教授Yann LeCun開(kāi)發(fā)了一套能夠識(shí)別手寫(xiě)數(shù)字的系統(tǒng)LeNet,這是卷積神經(jīng)網(wǎng)絡(luò)第一次用于解決實(shí)際問(wèn)題。2012年,Geoffrey和Alex在ILSVRC競(jìng)賽中提出AlexNet模型,并贏得冠軍。2014年ILSVRC挑戰(zhàn)賽由Google團(tuán)隊(duì)提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)GoogLeNet模型奪得冠軍。隨著卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的不斷增強(qiáng),其處理的問(wèn)題也可以相應(yīng)變得更加復(fù)雜,本文實(shí)驗(yàn)使用GoogLeNet模型來(lái)測(cè)試對(duì)靜態(tài)圖像中人體行為的分類(lèi)效果,并加以分析。
2 G00gLeNet解析
GoogLeNet是由一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)構(gòu)成的,其網(wǎng)絡(luò)架構(gòu)代號(hào)為Inception。該網(wǎng)絡(luò)架構(gòu)的特點(diǎn)是提高了計(jì)算資源的利用率,可以在保持網(wǎng)絡(luò)計(jì)算資源不變的前提下,通過(guò)工藝上的設(shè)計(jì)來(lái)增加網(wǎng)絡(luò)的寬度和深度,從而優(yōu)化網(wǎng)絡(luò)的性能。
2.1基本單元
GoogLeNet是由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的,而卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、特征提取層和全連接層三部分構(gòu)成。
輸入層輸入測(cè)試集和訓(xùn)練集數(shù)據(jù),在輸入之前,需要對(duì)測(cè)試集和訓(xùn)練集進(jìn)行標(biāo)簽標(biāo)注和歸一化等預(yù)處理。全連接層把得到的多個(gè)特征映射轉(zhuǎn)化為一個(gè)特征向量,并在其中以完全連接的方式輸出,最后得到圖像的特征,然后結(jié)合預(yù)處理時(shí)的標(biāo)簽進(jìn)行分類(lèi)識(shí)別。
特征提取層是卷積神經(jīng)網(wǎng)絡(luò)的核心,主要包含卷積層和池化層,二者相互配合來(lái)學(xué)習(xí)圖像的特征。輸入層的特征經(jīng)過(guò)卷積層映射到新的特征空間,再將得到的特征作為池化層的輸入;池化層對(duì)得到的特征進(jìn)行抽樣,對(duì)區(qū)域取最大值的最大池化或取均值的均值池化來(lái)進(jìn)行降采樣。
2.2網(wǎng)絡(luò)架構(gòu)
GoogLeNet神經(jīng)網(wǎng)絡(luò)模型是在LeNet神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,通過(guò)加深網(wǎng)絡(luò)模型的深度和寬度所構(gòu)建的一種深度卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)加深了LeNet模型的深度,使帶參數(shù)的層達(dá)到22個(gè),獨(dú)立成塊的層總共有100多個(gè)。GoogLeNet網(wǎng)絡(luò)的像素感應(yīng)大小是224×224,采用了RGB彩色三通道。同時(shí),為了避免梯度消失問(wèn)題,在不同深度處增加了兩個(gè)loss來(lái)保證梯度回傳;為了防止過(guò)擬合,減小誤差,強(qiáng)化特征,并加快收斂速度,在模型的所有卷積操作之后,都用了修正線性單元(Re-LU);最后將softmax作為分類(lèi)器。
GoogLeNet在網(wǎng)絡(luò)寬度上的增加體現(xiàn)在結(jié)構(gòu)中加入的In-cepfion模塊,如圖1所示。
Inception的主要思想是找出圖像的最優(yōu)局部稀疏結(jié)構(gòu),并將其近似地用稠密組件替代。這樣可以實(shí)現(xiàn)有效的降維,從而能夠在計(jì)算資源同等的情況下增加網(wǎng)絡(luò)的寬度與深度,并減少需要訓(xùn)練的參數(shù),減輕過(guò)擬合問(wèn)題。而且該架構(gòu)實(shí)現(xiàn)了在不同的維度上提取圖像特征并加以整合,使特征值更豐富,使得圖像更易識(shí)別。
3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)在Ubuntu14.04系統(tǒng)下進(jìn)行,CPU為Inter(R)Core(TM)i7-4790 CPU@3.60GHz,GPU為NVIDIA GeForce GTX 750 Ti,卷積神經(jīng)網(wǎng)絡(luò)框架為Caffe中開(kāi)源的GoogLeNet框架。實(shí)驗(yàn)在GPU模式下進(jìn)行。
3.1數(shù)據(jù)集
采用Stanford40數(shù)據(jù)集,其中共有40個(gè)類(lèi)別,每個(gè)類(lèi)別有180~320張圖像,數(shù)據(jù)集共計(jì)9532張圖像且均為RGB彩色圖像,但由于數(shù)據(jù)集中圖像尺寸有些許差別,因此在對(duì)圖像進(jìn)行學(xué)習(xí)分類(lèi)之前,應(yīng)先對(duì)圖像尺寸進(jìn)行歸一化處理。圖2所示為部分類(lèi)別,包括跳躍、射箭、做飯、拉小提琴、打電話、攀巖、扔飛盤(pán)和切菜。
3.2實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)在Caffetm(Convolutional Architecture for Fast Feature Embedding)平臺(tái)上進(jìn)行。Caffe是一個(gè)實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)相關(guān)算法的框架,其應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型由若干個(gè)不同的層組成,且各層是模塊化的,便于用不同類(lèi)型的層來(lái)定義模型。
實(shí)驗(yàn)使用基于Caffe平臺(tái)的GoogLeNet模型作為分類(lèi)模型,該模型與文獻(xiàn)[12]有些許不同。第一是初始化數(shù)據(jù)使用“Xavi-er代替了“Gaussian”。Gaussian是最早的一種可以實(shí)現(xiàn)很接近0的方法,帶有較強(qiáng)的隨機(jī)性,但也具有中央分布的特性,而Xavier可以認(rèn)為是Gaussian的一種改進(jìn)版,使網(wǎng)絡(luò)具有更顯著、更快的收斂性,且使得數(shù)據(jù)信息可以更好的在網(wǎng)絡(luò)中流動(dòng),并解決梯度消失等問(wèn)題。第二是改進(jìn)了學(xué)習(xí)速率衰減方案,使用線性衰減“poly”交替了階梯式衰減“step”,使得訓(xùn)練速度變得更快。
3.3實(shí)驗(yàn)過(guò)程endprint
在進(jìn)行實(shí)驗(yàn)前,先將Stanford40數(shù)據(jù)集中每種類(lèi)別的40個(gè)圖像作為測(cè)試集,剩下的圖像作為訓(xùn)練集,即訓(xùn)練集共計(jì)7932張圖像,測(cè)試集共計(jì)1600張圖像。將測(cè)試集和訓(xùn)練集分別放入兩個(gè)文件夾中,然后在Caffe中進(jìn)行標(biāo)簽注釋。實(shí)驗(yàn)中需要將數(shù)據(jù)集全部圖像的尺寸分別規(guī)劃為256*256、288*288、320*320和352*352,從而形成四組實(shí)驗(yàn)數(shù)據(jù),每組數(shù)據(jù)(9532張圖像)分別進(jìn)行測(cè)試。
每次實(shí)驗(yàn)時(shí),實(shí)驗(yàn)?zāi)P蜑镚oogLeNet。原始數(shù)據(jù)輸入為224*224*3,經(jīng)過(guò)第一層卷積層convl,輸出特征為112*112*64,然后進(jìn)行relu,經(jīng)過(guò)pooll,進(jìn)行norm;再經(jīng)過(guò)第二層卷積層conv2,然后進(jìn)行relu、norm、pool2;第三層進(jìn)入Inception模型,該模型使用4種不同尺度的卷積核來(lái)處理問(wèn)題,即數(shù)據(jù)分為四條支線進(jìn)行處理,然后對(duì)數(shù)據(jù)進(jìn)行連接;再分為四條支線進(jìn)入第四層,以此類(lèi)推,最后以softmax作為分類(lèi)器得到分類(lèi)特征。
由于在網(wǎng)絡(luò)中間層產(chǎn)生的特征可能會(huì)有判別性,所以在中間層添加輔助分類(lèi)器,且中間層添加的輔助分類(lèi)器損失都會(huì)加權(quán)(0.3)計(jì)人總損失。實(shí)驗(yàn)輸出為第一個(gè)輔助分類(lèi)器輸出損失lossl/loss及準(zhǔn)確率lossl/top-1、lossl/top-5,第二個(gè)輔助分類(lèi)器輸出損失loss2/loss及準(zhǔn)確率loss2/top-1、loss2/top-5,最終損失loss330ss及最終準(zhǔn)確率loss3/top-l和loss3/top-5,共9個(gè)輸出。
3.4實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果取損失loss3/loss及準(zhǔn)確率loss3/top-1和loss3/top-5為最終結(jié)果,分別記為loss、top-1和top-5,其中top-1和top-5的部分實(shí)驗(yàn)數(shù)據(jù)如表1所示。
3.5實(shí)驗(yàn)分析
依據(jù)圖3和圖4中的數(shù)據(jù)分布情況可以看出,GoogLeNet的準(zhǔn)確率受訓(xùn)練集每次的迭代個(gè)數(shù)和圖像初始化像素大小的影響。準(zhǔn)確率大體隨訓(xùn)練集迭代個(gè)數(shù)的增加而增加,中間也有間斷的回落,同時(shí)圖像尺寸也影響著圖像分類(lèi)的準(zhǔn)確率。
在本次實(shí)驗(yàn)中,在圖像像素初始化相同的情況下,分類(lèi)準(zhǔn)確率大體上隨訓(xùn)練集每次迭代個(gè)數(shù)的增加而增加,在最高迭代個(gè)數(shù)為15的情況下得到最高的分類(lèi)準(zhǔn)確率。在訓(xùn)練集每次迭代個(gè)數(shù)選定為15的情況下,圖像像素初始化為288*288時(shí),分類(lèi)效果最好,得到top-5準(zhǔn)確率的最高值50.23%,top-1準(zhǔn)確率的最高值18.23%。
Stanford40數(shù)據(jù)集共有40個(gè)分類(lèi),分類(lèi)類(lèi)別較多,且每類(lèi)每個(gè)圖像的背景都比較復(fù)雜,主體中人體行為動(dòng)作有一定程度上的相似,這些都給圖像分類(lèi)增加了難度。受框架限制,對(duì)樣本的特征提取可能并不完全,且在圖像尺寸不同的情況下,網(wǎng)絡(luò)模型選取像素區(qū)域的不同也影響著實(shí)驗(yàn)的結(jié)果。
4結(jié)束語(yǔ)
人體行為靜態(tài)圖像識(shí)別作為計(jì)算機(jī)視覺(jué)的研究熱點(diǎn),其難點(diǎn)在于背景的復(fù)雜性和人體行為的復(fù)雜性,大大增加了人體行為識(shí)別的難度。在Caffe平臺(tái)上使用開(kāi)源的GoogLeNet模型,對(duì)Stanford40靜態(tài)圖像集中人體行為進(jìn)行分類(lèi)研究,得到top-5準(zhǔn)確率為50.23%,相關(guān)研究工作對(duì)深入理解GoogLeNet模型等卷積神經(jīng)網(wǎng)絡(luò)和人體行為分類(lèi)研究有所幫助。
隨著卷積神經(jīng)網(wǎng)絡(luò)的深度以及寬度的不斷加深,卷積神經(jīng)網(wǎng)絡(luò)模型將可以對(duì)更復(fù)雜的圖像進(jìn)行特征提取,其強(qiáng)大的特征識(shí)別能力也會(huì)得到充分地體現(xiàn),可解決更困難的問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍將更加廣泛。endprint