基于GoogLeNet的靜態(tài)圖像中人體行為分類(lèi)研究

2017-10-21 07:53白陽(yáng)萬(wàn)洪林白成杰

電腦知識(shí)與技術(shù) 2017年18期

白陽(yáng)　萬(wàn)洪林　白成杰

摘要：在對(duì)GoogLeNet模型分析的基礎(chǔ)上，通過(guò)Caffe平臺(tái)上使用開(kāi)源GoogLeNet模型，對(duì)Stanford40靜態(tài)圖像集中人體行為進(jìn)行分類(lèi)研究，得到top-5準(zhǔn)確率為50.23%，這些工作對(duì)深入理解GoogLeNet模型和靜態(tài)圖像中人體行為分類(lèi)的研究有所幫助。

關(guān)鍵詞：人體行為分類(lèi)；GoogLeNet；靜態(tài)圖像

中圖分類(lèi)號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2017）18-0186-03

1概述

在靜態(tài)圖像索引和檢索中，人體行為分類(lèi)有許多潛在的應(yīng)用。目前，對(duì)靜態(tài)圖像中人體行為的分類(lèi)已有很多研究。有些方法是用整幅圖片直接進(jìn)行分類(lèi)，如基于空間金字塔法、隨機(jī)森林法等構(gòu)建的分類(lèi)器；有些方法是利用對(duì)象與人之間的相互作用或者是人體的姿態(tài)進(jìn)行分類(lèi)；還有些方法是利用整體和局部屬性進(jìn)行識(shí)別。隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學(xué)習(xí)框架，通過(guò)卷積運(yùn)算來(lái)由淺人深的提取圖像不同層次的特征，且整個(gè)網(wǎng)絡(luò)可以自動(dòng)調(diào)節(jié)卷積核的參數(shù)，從而無(wú)監(jiān)督的產(chǎn)生最適合的分類(lèi)特征，取得較好的分類(lèi)效果，使卷積神經(jīng)網(wǎng)絡(luò)成為當(dāng)前圖像識(shí)別領(lǐng)域的研究熱點(diǎn)和發(fā)展趨勢(shì)。

1998年，紐約大學(xué)教授Yann LeCun開(kāi)發(fā)了一套能夠識(shí)別手寫(xiě)數(shù)字的系統(tǒng)LeNet，這是卷積神經(jīng)網(wǎng)絡(luò)第一次用于解決實(shí)際問(wèn)題。2012年，Geoffrey和Alex在ILSVRC競(jìng)賽中提出AlexNet模型，并贏得冠軍。2014年ILSVRC挑戰(zhàn)賽由Google團(tuán)隊(duì)提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)GoogLeNet模型奪得冠軍。隨著卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的不斷增強(qiáng)，其處理的問(wèn)題也可以相應(yīng)變得更加復(fù)雜，本文實(shí)驗(yàn)使用GoogLeNet模型來(lái)測(cè)試對(duì)靜態(tài)圖像中人體行為的分類(lèi)效果，并加以分析。

2 G00gLeNet解析

GoogLeNet是由一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)構(gòu)成的，其網(wǎng)絡(luò)架構(gòu)代號(hào)為Inception。該網(wǎng)絡(luò)架構(gòu)的特點(diǎn)是提高了計(jì)算資源的利用率，可以在保持網(wǎng)絡(luò)計(jì)算資源不變的前提下，通過(guò)工藝上的設(shè)計(jì)來(lái)增加網(wǎng)絡(luò)的寬度和深度，從而優(yōu)化網(wǎng)絡(luò)的性能。

2.1基本單元

GoogLeNet是由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的，而卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、特征提取層和全連接層三部分構(gòu)成。

輸入層輸入測(cè)試集和訓(xùn)練集數(shù)據(jù)，在輸入之前，需要對(duì)測(cè)試集和訓(xùn)練集進(jìn)行標(biāo)簽標(biāo)注和歸一化等預(yù)處理。全連接層把得到的多個(gè)特征映射轉(zhuǎn)化為一個(gè)特征向量，并在其中以完全連接的方式輸出，最后得到圖像的特征，然后結(jié)合預(yù)處理時(shí)的標(biāo)簽進(jìn)行分類(lèi)識(shí)別。

特征提取層是卷積神經(jīng)網(wǎng)絡(luò)的核心，主要包含卷積層和池化層，二者相互配合來(lái)學(xué)習(xí)圖像的特征。輸入層的特征經(jīng)過(guò)卷積層映射到新的特征空間，再將得到的特征作為池化層的輸入；池化層對(duì)得到的特征進(jìn)行抽樣，對(duì)區(qū)域取最大值的最大池化或取均值的均值池化來(lái)進(jìn)行降采樣。

2.2網(wǎng)絡(luò)架構(gòu)

GoogLeNet神經(jīng)網(wǎng)絡(luò)模型是在LeNet神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上，通過(guò)加深網(wǎng)絡(luò)模型的深度和寬度所構(gòu)建的一種深度卷積神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)加深了LeNet模型的深度，使帶參數(shù)的層達(dá)到22個(gè)，獨(dú)立成塊的層總共有100多個(gè)。GoogLeNet網(wǎng)絡(luò)的像素感應(yīng)大小是224×224，采用了RGB彩色三通道。同時(shí)，為了避免梯度消失問(wèn)題，在不同深度處增加了兩個(gè)loss來(lái)保證梯度回傳；為了防止過(guò)擬合，減小誤差，強(qiáng)化特征，并加快收斂速度，在模型的所有卷積操作之后，都用了修正線性單元（Re-LU）；最后將softmax作為分類(lèi)器。

GoogLeNet在網(wǎng)絡(luò)寬度上的增加體現(xiàn)在結(jié)構(gòu)中加入的In-cepfion模塊，如圖1所示。

Inception的主要思想是找出圖像的最優(yōu)局部稀疏結(jié)構(gòu)，并將其近似地用稠密組件替代。這樣可以實(shí)現(xiàn)有效的降維，從而能夠在計(jì)算資源同等的情況下增加網(wǎng)絡(luò)的寬度與深度，并減少需要訓(xùn)練的參數(shù)，減輕過(guò)擬合問(wèn)題。而且該架構(gòu)實(shí)現(xiàn)了在不同的維度上提取圖像特征并加以整合，使特征值更豐富，使得圖像更易識(shí)別。

3實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)在Ubuntu14.04系統(tǒng)下進(jìn)行，CPU為Inter（R）Core（TM）i7-4790 CPU@3.60GHz，GPU為NVIDIA GeForce GTX 750 Ti，卷積神經(jīng)網(wǎng)絡(luò)框架為Caffe中開(kāi)源的GoogLeNet框架。實(shí)驗(yàn)在GPU模式下進(jìn)行。

3.1數(shù)據(jù)集

采用Stanford40數(shù)據(jù)集，其中共有40個(gè)類(lèi)別，每個(gè)類(lèi)別有180～320張圖像，數(shù)據(jù)集共計(jì)9532張圖像且均為RGB彩色圖像，但由于數(shù)據(jù)集中圖像尺寸有些許差別，因此在對(duì)圖像進(jìn)行學(xué)習(xí)分類(lèi)之前，應(yīng)先對(duì)圖像尺寸進(jìn)行歸一化處理。圖2所示為部分類(lèi)別，包括跳躍、射箭、做飯、拉小提琴、打電話、攀巖、扔飛盤(pán)和切菜。

3.2實(shí)驗(yàn)平臺(tái)

實(shí)驗(yàn)在Caffetm（Convolutional Architecture for Fast Feature Embedding）平臺(tái)上進(jìn)行。Caffe是一個(gè)實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)相關(guān)算法的框架，其應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型由若干個(gè)不同的層組成，且各層是模塊化的，便于用不同類(lèi)型的層來(lái)定義模型。

實(shí)驗(yàn)使用基于Caffe平臺(tái)的GoogLeNet模型作為分類(lèi)模型，該模型與文獻(xiàn)[12]有些許不同。第一是初始化數(shù)據(jù)使用“Xavi-er代替了“Gaussian”。Gaussian是最早的一種可以實(shí)現(xiàn)很接近0的方法，帶有較強(qiáng)的隨機(jī)性，但也具有中央分布的特性，而Xavier可以認(rèn)為是Gaussian的一種改進(jìn)版，使網(wǎng)絡(luò)具有更顯著、更快的收斂性，且使得數(shù)據(jù)信息可以更好的在網(wǎng)絡(luò)中流動(dòng)，并解決梯度消失等問(wèn)題。第二是改進(jìn)了學(xué)習(xí)速率衰減方案，使用線性衰減“poly”交替了階梯式衰減“step”，使得訓(xùn)練速度變得更快。

3.3實(shí)驗(yàn)過(guò)程endprint

在進(jìn)行實(shí)驗(yàn)前，先將Stanford40數(shù)據(jù)集中每種類(lèi)別的40個(gè)圖像作為測(cè)試集，剩下的圖像作為訓(xùn)練集，即訓(xùn)練集共計(jì)7932張圖像，測(cè)試集共計(jì)1600張圖像。將測(cè)試集和訓(xùn)練集分別放入兩個(gè)文件夾中，然后在Caffe中進(jìn)行標(biāo)簽注釋。實(shí)驗(yàn)中需要將數(shù)據(jù)集全部圖像的尺寸分別規(guī)劃為256*256、288*288、320*320和352*352，從而形成四組實(shí)驗(yàn)數(shù)據(jù)，每組數(shù)據(jù)（9532張圖像）分別進(jìn)行測(cè)試。

每次實(shí)驗(yàn)時(shí)，實(shí)驗(yàn)?zāi)Ｐ蜑镚oogLeNet。原始數(shù)據(jù)輸入為224*224*3，經(jīng)過(guò)第一層卷積層convl，輸出特征為112*112*64，然后進(jìn)行relu，經(jīng)過(guò)pooll，進(jìn)行norm；再經(jīng)過(guò)第二層卷積層conv2，然后進(jìn)行relu、norm、pool2；第三層進(jìn)入Inception模型，該模型使用4種不同尺度的卷積核來(lái)處理問(wèn)題，即數(shù)據(jù)分為四條支線進(jìn)行處理，然后對(duì)數(shù)據(jù)進(jìn)行連接；再分為四條支線進(jìn)入第四層，以此類(lèi)推，最后以softmax作為分類(lèi)器得到分類(lèi)特征。

由于在網(wǎng)絡(luò)中間層產(chǎn)生的特征可能會(huì)有判別性，所以在中間層添加輔助分類(lèi)器，且中間層添加的輔助分類(lèi)器損失都會(huì)加權(quán)（0.3）計(jì)人總損失。實(shí)驗(yàn)輸出為第一個(gè)輔助分類(lèi)器輸出損失lossl/loss及準(zhǔn)確率lossl/top-1、lossl/top-5，第二個(gè)輔助分類(lèi)器輸出損失loss2/loss及準(zhǔn)確率loss2/top-1、loss2/top-5，最終損失loss330ss及最終準(zhǔn)確率loss3/top-l和loss3/top-5，共9個(gè)輸出。

3.4實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果取損失loss3/loss及準(zhǔn)確率loss3/top-1和loss3/top-5為最終結(jié)果，分別記為loss、top-1和top-5，其中top-1和top-5的部分實(shí)驗(yàn)數(shù)據(jù)如表1所示。

3.5實(shí)驗(yàn)分析

依據(jù)圖3和圖4中的數(shù)據(jù)分布情況可以看出，GoogLeNet的準(zhǔn)確率受訓(xùn)練集每次的迭代個(gè)數(shù)和圖像初始化像素大小的影響。準(zhǔn)確率大體隨訓(xùn)練集迭代個(gè)數(shù)的增加而增加，中間也有間斷的回落，同時(shí)圖像尺寸也影響著圖像分類(lèi)的準(zhǔn)確率。

在本次實(shí)驗(yàn)中，在圖像像素初始化相同的情況下，分類(lèi)準(zhǔn)確率大體上隨訓(xùn)練集每次迭代個(gè)數(shù)的增加而增加，在最高迭代個(gè)數(shù)為15的情況下得到最高的分類(lèi)準(zhǔn)確率。在訓(xùn)練集每次迭代個(gè)數(shù)選定為15的情況下，圖像像素初始化為288*288時(shí)，分類(lèi)效果最好，得到top-5準(zhǔn)確率的最高值50.23%，top-1準(zhǔn)確率的最高值18.23%。

Stanford40數(shù)據(jù)集共有40個(gè)分類(lèi)，分類(lèi)類(lèi)別較多，且每類(lèi)每個(gè)圖像的背景都比較復(fù)雜，主體中人體行為動(dòng)作有一定程度上的相似，這些都給圖像分類(lèi)增加了難度。受框架限制，對(duì)樣本的特征提取可能并不完全，且在圖像尺寸不同的情況下，網(wǎng)絡(luò)模型選取像素區(qū)域的不同也影響著實(shí)驗(yàn)的結(jié)果。

4結(jié)束語(yǔ)

人體行為靜態(tài)圖像識(shí)別作為計(jì)算機(jī)視覺(jué)的研究熱點(diǎn)，其難點(diǎn)在于背景的復(fù)雜性和人體行為的復(fù)雜性，大大增加了人體行為識(shí)別的難度。在Caffe平臺(tái)上使用開(kāi)源的GoogLeNet模型，對(duì)Stanford40靜態(tài)圖像集中人體行為進(jìn)行分類(lèi)研究，得到top-5準(zhǔn)確率為50.23%，相關(guān)研究工作對(duì)深入理解GoogLeNet模型等卷積神經(jīng)網(wǎng)絡(luò)和人體行為分類(lèi)研究有所幫助。

隨著卷積神經(jīng)網(wǎng)絡(luò)的深度以及寬度的不斷加深，卷積神經(jīng)網(wǎng)絡(luò)模型將可以對(duì)更復(fù)雜的圖像進(jìn)行特征提取，其強(qiáng)大的特征識(shí)別能力也會(huì)得到充分地體現(xiàn)，可解決更困難的問(wèn)題，卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍將更加廣泛。endprint

電腦知識(shí)與技術(shù)2017年18期

電腦知識(shí)與技術(shù)的其它文章: 智能化技術(shù)在市政交通工程自動(dòng)化控制中的應(yīng)用; 淺析移動(dòng)通信工程4G—LTE技術(shù)工程; 桌面終端安全系統(tǒng)在煙草網(wǎng)絡(luò)安全管控中的應(yīng)用; 互聯(lián)網(wǎng)通信技術(shù)及其實(shí)際應(yīng)用探究; 中小企業(yè)云會(huì)計(jì)平臺(tái)建設(shè)探討; 實(shí)時(shí)心率顯示襯衫的設(shè)計(jì)與實(shí)現(xiàn)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于GoogLeNet的靜態(tài)圖像中人體行為分類(lèi)研究