国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法設(shè)計與實現(xiàn)

2015-09-26 01:49王振高茂庭
現(xiàn)代計算機(jī) 2015年20期
關(guān)鍵詞:錯誤率圖像識別卷積

王振,高茂庭

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法設(shè)計與實現(xiàn)

王振,高茂庭

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

0 引言

讓計算機(jī)能夠識別出物體,具有類似人類的視覺一直是人工智能追求的一個目標(biāo),經(jīng)過多年的發(fā)展,取得了長足的進(jìn)步,然而卻始不盡如人意。

為了測試圖像識別算法的性能和準(zhǔn)確率,研究者們建立了一個準(zhǔn)確、足夠龐大的圖像數(shù)據(jù)庫ImageNet,以這個數(shù)據(jù)庫為基礎(chǔ)平臺,每年舉辦大規(guī)模視覺挑戰(zhàn)賽 ImageNet Large Scale Visual Recognition Challenge(以下簡稱ILSVRC),這是規(guī)模最大的圖像識別比賽,基本可以代表計算機(jī)視覺領(lǐng)域的最高水準(zhǔn),在2012年以前,圖像識別的錯誤率一直居高不下(26%左右)。

在ILSVRC-2012比賽中,使用卷積神經(jīng)網(wǎng)絡(luò)的算法[1]取得了非常不錯的成績。從此,卷積神經(jīng)網(wǎng)絡(luò)成為這一比賽的主流算法,幾乎所有的隊伍都或多或少地使用了卷積神經(jīng)網(wǎng)絡(luò),圖像識別所能夠取得的最好的成績都是由深度卷積網(wǎng)絡(luò)相關(guān)的算法創(chuàng)造的,這從側(cè)面反映深度卷積網(wǎng)絡(luò)在計算機(jī)視覺方面的良好性能。很快地,在一些相關(guān)領(lǐng)域,例如人臉識別、手寫字體識別,深度卷積網(wǎng)絡(luò)也取得了世界領(lǐng)先的成果??梢哉f,深度卷積網(wǎng)絡(luò)是現(xiàn)在用于圖像識別的最好的算法,這也是本文決定采用深度卷積網(wǎng)絡(luò)算法的原因。

從算法本身的角度考慮,卷積神經(jīng)網(wǎng)絡(luò)在卷積層之間使用了共享的參數(shù),這不僅減少了需要的內(nèi)存大小,也減少了需要訓(xùn)練的參數(shù)數(shù)量,提高了算法的性能。同時也幾乎不需要對圖像進(jìn)行一些預(yù)處理或者特征值提取,這是其他一些機(jī)器學(xué)習(xí)的算法所不具備的優(yōu)勢。

然而,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)算法[1]并沒有對算法進(jìn)行深入挖掘,卷積神經(jīng)層的卷積核較大,而且整體結(jié)構(gòu)的層數(shù)略少,算法的優(yōu)勢并沒有完全發(fā)揮。為了提高經(jīng)典算法的識別率并改進(jìn)算法性能,本文引入了一種使用較小卷積核的結(jié)構(gòu),并進(jìn)行修改使得這種新的結(jié)構(gòu)可以簡單地重復(fù)使用,這樣既能夠保證網(wǎng)絡(luò)的總體深度,又能夠有效地提高算法的識別率。

1 卷積神經(jīng)網(wǎng)絡(luò)的基本概念

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的常用算法,最早是受到人體的視覺系統(tǒng)啟發(fā)提出的[2],后來不斷加以修正[3-5],最終形成為一個非常適合用于處理并識別圖像的多層神經(jīng)網(wǎng)絡(luò)。作為深度學(xué)習(xí)算法的一個實例,卷積神經(jīng)網(wǎng)絡(luò)在一些介紹深度學(xué)習(xí)算法的論文中也有所提及[6]。

經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)[1]包括卷積神經(jīng)層、Rectified Linear Units層 (以下簡稱為ReLU層)、Pooling層和規(guī)范化層,其結(jié)構(gòu)如圖1所示。

圖1 經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

為了對經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行改進(jìn),下面首先對卷積神經(jīng)網(wǎng)絡(luò)的這種結(jié)構(gòu)逐層進(jìn)行介紹,并在一些需要有所改進(jìn)的地方進(jìn)行論述。

1.1卷積神經(jīng)層

卷積是圖像識別中常用的算法,是指輸出圖像中的每個像素都是由輸入圖像的對應(yīng)位置的小區(qū)域的像素通過加權(quán)平均所得,這個區(qū)域就叫做卷積核。一般而言,卷積核都是正方形的,所以都是用類似m×m的方式表達(dá),這里的m即為區(qū)域的邊長。卷積神經(jīng)層,其實就是對圖像的每個點(diǎn)進(jìn)行卷積運(yùn)算,卷積核都被作為訓(xùn)練參數(shù)。卷積神經(jīng)層可以看作是對輸入圖像進(jìn)行“抽象”的操作,經(jīng)過幾次處理之后,能夠提取出圖像的“特征值”。

一般而言,卷積神經(jīng)層中,卷積核越大,對圖像“抽象”的效果越好,但需要訓(xùn)練的參數(shù)就越多;卷積核越小,越能夠精細(xì)地處理圖像,但需要更多的層數(shù)來達(dá)到同樣的“抽象”效果。只是,較小的卷積核,就意味著更多的ReLU層,也就意味著整個結(jié)構(gòu)更加具有識別力。

經(jīng)典的結(jié)構(gòu)中,使用了11×11卷積核這樣的較大的卷積核,這樣的神經(jīng)層引入了很多的參數(shù),雖然保證了最終的效果,但也降低了算法的性能。因此,在本文引入的結(jié)構(gòu)中,僅使用了3×3和5×5這樣的較小的卷積核。

1.2ReLU非線性函數(shù)

在經(jīng)典的結(jié)構(gòu)中,使用的神經(jīng)網(wǎng)絡(luò)激活函數(shù)是Rectified函數(shù),在卷積神經(jīng)網(wǎng)絡(luò)中,這樣的神經(jīng)層一般叫做ReLU。

在文獻(xiàn)[15]中,有關(guān)于ReLU的詳細(xì)論證,而在經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)算法中,也將ReLU與傳統(tǒng)的激活函數(shù)進(jìn)行比較,得出的結(jié)論是ReLU能夠減少訓(xùn)練時間,提高算法性能。深度卷積網(wǎng)絡(luò)一般都需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,以至于使用傳統(tǒng)的激活函數(shù)幾乎不能夠配合卷積神經(jīng)層完成訓(xùn)練。在這種情況下,ReLU幾乎就是最好的選擇。

在本文中,如非特指,每個卷積神經(jīng)層之后都用ReLU處理。

1.3Pooling層

輸入圖像經(jīng)過卷積神經(jīng)層和ReLU處理之后,圖像中的每個像素點(diǎn)都包含了周圍一小塊區(qū)域的信息,造成了信息冗余。如果繼續(xù)使用包含了冗余信息的圖像,不僅會降低算法性能,還會破壞算法的平移不變性。

為了提高算法的性能和魯棒性,這里需要對圖像進(jìn)行二次采樣(Subsampling)。在深度卷積網(wǎng)絡(luò)中,這樣的操作又叫做Pooling,即將圖像分成一小塊一小塊的區(qū)域,對每個區(qū)域計算出一個值,然后將計算出的值依次排列,輸出為新的圖像。如果劃分的區(qū)域之間互不重疊,這樣的算法被稱作Non-overlapping Pooling,否則稱為Overlapping Pooling。對每個區(qū)域計算輸出的方法也分為兩種:求平均值(一般叫做Sum Pooling,也可以叫做Avg Pooling)或者取最大值(Max Pooling)。這一神經(jīng)層比較簡單,不需要訓(xùn)練。另外,這一算法有時會忽略輸入圖像的邊緣部分,這對于算法整體而言也是可以接受的。如輸入圖像為13×13,而Pooling層選取的區(qū)域大小為3×3,則最下方和最右方邊緣的1個像素則會被忽略。

在經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu)中,使用的是可以重疊的、取最大值的Pooling算法(Overlapping Max-Pooling),原因是可以稍微降低過度擬合。在本文中也使用了相似的算法。

1.4規(guī)范化神經(jīng)層(Normalization Layer)

規(guī)范化層是為了讓圖像更加具有對比性而設(shè)計的神經(jīng)層,這一神經(jīng)層的效果類似于對圖像進(jìn)行“增加對比度”的操作。顯而易見的是,需要一個計算“平均值”的算法,然后按照一定的規(guī)則對圖像的每個像素進(jìn)行調(diào)整,使得圖像的主體部分能夠和背景更加具有區(qū)分度。目前常用的算法通常是Local Response Normalization[1](以下簡稱LRN),這一算法可以很有效地提高主題部分與其他部分的區(qū)分度。

然而LRN并非必要,對效果的提升并不是很明顯,所以在使用深度卷積網(wǎng)絡(luò)時,一般只有當(dāng)卷積核較大,即處理得比較“粗糙”的時候,才會使用LRN。

2 網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計

設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)時,既需要考慮到深度學(xué)習(xí)算法的一般性,也要針對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。在實際設(shè)計中,還需要兼顧到拓展性。在一般的深度學(xué)習(xí)算法中。

2.1網(wǎng)絡(luò)深度很重要

在大多數(shù)的深度學(xué)習(xí)算法里,網(wǎng)絡(luò)的深度都是很重要的參數(shù)[5,8,10],深度卷積網(wǎng)絡(luò)也不例外。在文獻(xiàn)[14]中,VGG甚至專門驗證了深度對于結(jié)果的影響,他們使用3×3卷積核,然后分別測試了11層、13層、16層和19層的不同網(wǎng)絡(luò)結(jié)構(gòu)所能夠取得的結(jié)果。雖然訓(xùn)練的參數(shù)有些許的增加(從133M個到144M個),但與正確率提高的幅度相比較,卻是微乎其微的。這也是深度卷積網(wǎng)絡(luò)的一個優(yōu)勢:增加深度并不會引起訓(xùn)練時間的爆炸性增長,而是一個相對緩慢的增長;網(wǎng)絡(luò)所能夠取得的結(jié)果卻往往能夠有明顯的改善。

在經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的層數(shù)雖然多于普通的神經(jīng)網(wǎng)絡(luò),但由于使用的是卷積核較大的神經(jīng)層,所以整體的層數(shù)略顯不足。

2.2引入的結(jié)構(gòu)

在文獻(xiàn)[7]中,經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)使用了11×11的較大的卷積核,雖然,這能夠有效地對圖像進(jìn)行“抽象”,但訓(xùn)練的參數(shù)較多,限制了整體算法的性能。為了改進(jìn)算法性能并增加神經(jīng)網(wǎng)絡(luò)的深度,在新引入的結(jié)構(gòu)中使用了卷積核較小的卷積層。同時,為了能夠方便地調(diào)整算法,并兼顧算法的拓展性,引入的結(jié)構(gòu)應(yīng)當(dāng)可以直接疊加而不必引入新的神經(jīng)層。為此,在本文中引入的新的結(jié)構(gòu)如圖2所示:

圖2 本文中引入的結(jié)構(gòu)

在圖2所示的新結(jié)構(gòu)中,每個卷積層之后都包含有一層ReLU。

在該結(jié)構(gòu)的首尾處各有一個1×1卷積核的神經(jīng)層,可以將其理解為“粘合劑”,即通過使用了1×1卷積核的神經(jīng)層之后,使得與使用任何卷積核的神經(jīng)層都可以直接相連。

中間使用了3×3卷積核和5×5卷積核的神經(jīng)層,既可以有效地提取圖像特征值,又保證了這樣的結(jié)構(gòu)不會像較大的卷積核一樣,引入過多的參數(shù)。我們也試過用3層3×3卷積核的神經(jīng)層,二者效果相差不大,但圖2中的結(jié)構(gòu)更易于調(diào)整。

2.3網(wǎng)絡(luò)的總體結(jié)構(gòu)

在最開始的試驗階段,我們曾經(jīng)試過用4次圖2中引入的結(jié)構(gòu),但訓(xùn)練的時間過長;使用3次圖2中的結(jié)構(gòu),訓(xùn)練時間可以接受,但取得的效果不甚理想,因此,在最后設(shè)計的結(jié)構(gòu)中,考慮使用一個7×7卷積核的神經(jīng)層取代原來的結(jié)構(gòu),這樣既可以保證訓(xùn)練的時間不至于過長,又能夠有效地降低錯誤率。為此,網(wǎng)絡(luò)的總體結(jié)構(gòu)設(shè)計成圖3所示的結(jié)構(gòu)。

卷積神經(jīng)層之后,使用了傳統(tǒng)的全連接型的神經(jīng)網(wǎng)絡(luò)和Softmax回歸,這也是在文獻(xiàn)[1]中使用的經(jīng)典結(jié)構(gòu)。另外,Softmax的輸出并不是單一的圖像識別分類,而是輸出概率最高的幾個,如此一來就能夠更方便地衡量算法的準(zhǔn)確率。

圖3 網(wǎng)絡(luò)的總體結(jié)構(gòu)

相比于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),圖3這樣的結(jié)構(gòu)更容易調(diào)整,只要計算資源允許,就可以在網(wǎng)絡(luò)中增加圖2中引入的結(jié)構(gòu)。同時,這樣的結(jié)構(gòu)從卷積神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)——提取圖像的特征值的角度考慮,抽象能力也更強(qiáng)。

3 實驗結(jié)果與分析

在實現(xiàn)算法并驗證其有效性時,需要首先選定一個足夠龐大、精細(xì)的圖像數(shù)據(jù)庫,之后在這個數(shù)據(jù)庫里甄選有代表意義的圖像。同時也需要確定較為精準(zhǔn)的算法優(yōu)劣的判別標(biāo)準(zhǔn),這樣就能夠與當(dāng)前的世界先進(jìn)水平進(jìn)行對比。

3.1圖像的選取及預(yù)處理

深度卷積網(wǎng)絡(luò)需要大量整理好的圖像進(jìn)行訓(xùn)練,為了有一個通用的圖像數(shù)據(jù)庫,ImageNet被設(shè)計出來并廣泛應(yīng)用于科研領(lǐng)域。同時ImageNet還會在每年舉辦的ILSVRC中,選取出進(jìn)一步整理的圖像用來測試算法。

ILSVRC-2014的分類比賽中,共計提供了1000個類別的約120萬幅圖像用作訓(xùn)練,5萬幅圖像用作校正,10萬幅圖像用作測試。雖然,這對于物體識別這一宏偉目標(biāo)相距甚遠(yuǎn),但對于實驗,這樣的深度卷積網(wǎng)絡(luò)一般就足夠了。實際上,訓(xùn)練全部圖像需要有不錯的機(jī)器設(shè)備性能和很長的時間,因此在實際實現(xiàn)中并沒有選取全部的圖像,而是挑選了其中100個類別的共計99858幅圖像訓(xùn)練(針對每個類別挑選1000幅圖像,但某些類別不足1000幅)和2000幅圖像用作測試。

在使用卷積神經(jīng)網(wǎng)絡(luò)處理之前,需要先對圖像進(jìn)行預(yù)處理。由于圖像的大小直接關(guān)系到卷積核的選取,因此不宜太大;如果圖像太小,又會引起圖像關(guān)鍵細(xì)節(jié)的丟失。一般選取256×256像素作為圖像的標(biāo)準(zhǔn)大小。預(yù)處理時,可以將圖像的寬或者高之中較小的一個縮放到256像素,之后按比例調(diào)節(jié)圖像大小,然后裁剪出居中的224×224像素的部分作為算法的輸入。

3.2判別標(biāo)準(zhǔn)

衡量圖像識別算法效果的優(yōu)劣,一般都是計算錯誤率。在本文中,由于選取的圖像是從ILSVRC中選取,所以為了能夠方便地將算法的結(jié)果和國際領(lǐng)先水平相比較,也引入了相同的錯誤率算法。在ILSVRC中,比較不同隊伍間的成績是計算兩種錯誤率:Top-1錯誤率和Top-5錯誤率。Top-5錯誤率是指將算法輸出的結(jié)果與圖像的標(biāo)簽進(jìn)行比較,如果輸出的前5個結(jié)果中有任何一個命中 (不考慮順序),即視為正確。Top-1錯誤率是指將算法的第一個輸出和圖像的標(biāo)簽作比較,相同則視作正確。

3.3程序框架

實現(xiàn)深度卷積網(wǎng)絡(luò)已經(jīng)有了成熟的框架,本文實驗使用的是Caffe[9]。Caffe是一個可讀性、簡潔性和性能都很優(yōu)秀的深度學(xué)習(xí)框架,并且直接集成了卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)層。由于深度卷積網(wǎng)絡(luò)本身的特性,有時候用GPU加速運(yùn)算可以大大縮短算法訓(xùn)練時間,Caffe也提供了相應(yīng)的接口。

使用Caffe實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)時,需要預(yù)處理數(shù)據(jù),然后根據(jù)設(shè)計好的網(wǎng)絡(luò)結(jié)構(gòu)配置相應(yīng)的文件,即可使用Caffe訓(xùn)練并測試結(jié)果。

3.4結(jié)果分析

在得出本文算法測試結(jié)果后,與ILSVRC一部分具有代表性的算法及其結(jié)果[11-12]進(jìn)行對比,如表1所示。

表1 實驗結(jié)果與ILSVRC結(jié)果對比

在表1中,除最后一行所示算法(ISI),都使用了深度卷積網(wǎng)絡(luò)??梢钥闯觯矸e神經(jīng)網(wǎng)絡(luò)所得到的結(jié)果還是相當(dāng)理想的。其中,排名靠前的算法都使用了卷積核較小的神經(jīng)層:VGG使用的全是3×3卷積核的神經(jīng)層,而GoogLeNet設(shè)計了一種比本文中的結(jié)構(gòu)更加復(fù)雜的模塊,并使用了更深的網(wǎng)絡(luò)結(jié)構(gòu),所取得的結(jié)果也是目前所能夠取得的最好的結(jié)果。

從錯誤率的角度來看,對比也是相當(dāng)明顯的。最初將神經(jīng)網(wǎng)絡(luò)應(yīng)用于ImageNet識別的文獻(xiàn)[1]中所得到的Top-5錯誤率是16.4%,遠(yuǎn)遠(yuǎn)超過當(dāng)時沒有使用深度卷積網(wǎng)絡(luò)的算法(26.2%)。隨后,經(jīng)過兩年的研究和完善,現(xiàn)在所取得的最好的成果已經(jīng)可以達(dá)到6.67%的錯誤率。這樣的成果是相當(dāng)振奮人心的,甚至在文獻(xiàn)[13]中將這一結(jié)果和普通人識別ImageNet的結(jié)果相比較,結(jié)果是普通人識別的錯誤率在5%左右,最好的深度卷積網(wǎng)絡(luò)算法的結(jié)果已經(jīng)比較接近人識別的錯誤率水平。

4 結(jié)語

本文引入的新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地提高圖像識別的準(zhǔn)確度,并具備良好的擴(kuò)展性。對比經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),不僅在算法的效果上有所提高,而且訓(xùn)練的參數(shù)有所減少,訓(xùn)練所需的時間更短。雖然距離當(dāng)前世界先進(jìn)算法的水平尚有些差距,但算法的準(zhǔn)確率依舊比傳統(tǒng)的圖像處理算法高出許多,今后,將繼續(xù)在這方面進(jìn)行深入研究。

[1]Alex Krizhevsky,Ilya Sutskever,Geoff Hinton.Imagenet classification with deep con-volutional neural networks[J].Advances in Neural Information Processing Systems 25,2012:1106-1114

[2]DH Hubel,TN Wiesel.Receptive fields,binocular interaction,and functional architecture in the cat's visual cortex[J].Journal of Physiology(London),1962,160:106-154

[3]K.Fukushima,Neocognitron:A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J].Biological Cybernetics,1980,36:193-202

[4]Y.Le Cun,L.Bottou,Y.Bengio,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[5]Y.LeCun,B.Boser,J.S.Denker,et al.Backpropagation applied to handwritten zip code recognition[J].Neural Computation,1989,1(4):541-551.

[6]Yoshua Bengio,Learning Deep Architectures for AI[J].Machine Learning,2009,2(1):1-127.

[7]Glorot X,Bordes A,Bengio,Y.Deep sparse rectifier networks[C].Proceedings of the 14th International Conference on Artificial Intelligence and Statistics.JMLR W&CP Volume,2011,15:315-323.

[8]Yoshua Bengio,Aaron Courville,and Pascal Vincent,representation learning:A review and new rerspectives[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2013,Issue No.08-Aug.(2013 vol.35):1798-1828.

[9]JIA Yang-qing,Shelhamer Evan,Donahue Jeff,et al.caffe:convolutional architecture for Fast feature embedding[EB/OL].2014,arXiv preprint arXiv:1408.5093

[10]Know your meme:We need to go deeper[EB/OL][2014-12-01].http://knowyourmeme.com/memes/we-need-to-go-deeper

[11]Christian Szegedy,Wei Liu,Yangqing Jia,et al.Going deeper with convolutions[EB/OL][2014-09-17]arXiv:1409.4842v1[cs.CV]

[12]Olga Russakovsky,Jia Deng,Hao Su,et al.ImageNet Large Scale Visual Recognition Challenge.?[EB/OL],2014,arXiv:1409.0575

[13]Andrej Karpathy.What I learned from competing against a ConvNet on ImageNet[EB/OL][2015-01-24].URL:http://karpathy.github. io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[14]Karen Simonyan,Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[EB/OL],[2014-11-18]. arXiv:1409.1556v3[cs.CV]

[15]V.Nair,G.E.Hinton.Rectified linear units improve restricted boltzmann machines[C].In Proc.27th International Conference on Machine Learning,2010

Convolutional Neural Networks;Deep Learning;Image Recognition;Machine Learning;Neural Network

Design and Implementation of Image Recognition Algorithm Based on Convolutional Neural Networks

WANG Zhen,GAO Mao-ting
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

國家自然科學(xué)基金項目(No.61202022)、上海海事大學(xué)科研項目

1007-1423(2015)20-0061-06

10.3969/j.issn.1007-1423.2015.20.014

王振(1990-),男,江蘇沛縣人,碩士研究生,學(xué)生,研究方向為機(jī)器學(xué)習(xí)、深度學(xué)習(xí),Email:wangzhen@gra.shmtu.edu.cn

高茂庭(1963-),男,江西九江人,博士,教授,研究方向為智能信息處理、數(shù)據(jù)庫與信息系統(tǒng)

2015-06-19

2015-07-01

卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域取得很好的效果,但其網(wǎng)絡(luò)結(jié)構(gòu)對圖像識別的效果和效率有較大的影響,為改善識別性能,通過重復(fù)使用較小卷積核,設(shè)計并實現(xiàn)一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),有效地減少訓(xùn)練參數(shù)的數(shù)量,并能夠提高識別的準(zhǔn)確率。與圖像識別領(lǐng)域當(dāng)前具有世界先進(jìn)水平的ILSVRC挑戰(zhàn)賽中取得較好成績的算法對比實驗,驗證這種結(jié)構(gòu)的有效性。

卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);圖像識別;機(jī)器學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)

Convolutional neural networks has achieved a great success in image recognition.The structure of the network has a great impact on the performance and accuracy in image recognition.To improve the performance of this algorithm,designs and implements a new architecture of the convolutional neural network by using convolutional layers with small kernel size repeatedly,which will reduce the number of training parameters effectively and increase the recognition accuracy.Compared with the state-of-art results in ILSVRC,experiments demonstrate the effectiveness of the new network architecture.

猜你喜歡
錯誤率圖像識別卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計
基于Resnet-50的貓狗圖像識別
高速公路圖像識別技術(shù)應(yīng)用探討
從濾波器理解卷積
小學(xué)生分?jǐn)?shù)計算高錯誤率成因及對策
圖像識別在物聯(lián)網(wǎng)上的應(yīng)用
圖像識別在水質(zhì)檢測中的應(yīng)用
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
正視錯誤,尋求策略