王超
摘要:圖像分類問(wèn)題一直是計(jì)算機(jī)視覺(jué)的一個(gè)核心問(wèn)題,而隨著深度學(xué)習(xí)的發(fā)展,也為我們解決圖像分類中圖像特征提取問(wèn)題提供了一種很好的解決方法,通過(guò)構(gòu)建具有隱層的機(jī)器學(xué)習(xí)模型和海量的圖像訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的圖像特征,從而最終提升圖像分類或預(yù)測(cè)的準(zhǔn)確性。該文使用Caffe深度學(xué)習(xí)框架,構(gòu)建小型的圖像數(shù)據(jù)庫(kù),通過(guò)Caffe框架給出的卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練分析,提取目標(biāo)圖像特征信息,最后對(duì)目標(biāo)圖像進(jìn)行預(yù)測(cè),并和傳統(tǒng)的圖像分類算法進(jìn)行對(duì)比,預(yù)測(cè)的準(zhǔn)確率有很大的提升。
關(guān)鍵詞:圖像分類;深度學(xué)習(xí);Caffe框架;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我們已經(jīng)進(jìn)入了一個(gè)以圖像構(gòu)建的世界。但是面臨有海量圖像信息卻找不到所需要的數(shù)據(jù)的困境,因而圖像分類技術(shù)應(yīng)運(yùn)而生。通過(guò)各種機(jī)器學(xué)習(xí)算法使計(jì)算機(jī)自動(dòng)將各類圖像進(jìn)行有效管理和分類,但是由于圖像內(nèi)容包含著大量復(fù)雜且難以描述的信息,圖像特征提取和相識(shí)度匹配技術(shù)也存在一定的難題,要使得計(jì)算機(jī)能夠像人類一樣進(jìn)行分類還是有很大的困難。
深度學(xué)習(xí)是近十年來(lái)人工智能領(lǐng)域取得的重要突破,在圖像識(shí)別中的應(yīng)用取得了巨大的進(jìn)步,傳統(tǒng)的機(jī)器學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)有大量的參數(shù),經(jīng)常會(huì)出現(xiàn)過(guò)擬合問(wèn)題,因而對(duì)目標(biāo)檢測(cè)準(zhǔn)確率上比較低。本文采用卷積神經(jīng)網(wǎng)絡(luò)框架,圖像特征是從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)得到,而且神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深由很多層組成,通過(guò)重復(fù)利用中間層的計(jì)算單元來(lái)減少參數(shù),在特征匯聚階段引入圖像中目標(biāo)的顯著信信息,增強(qiáng)了圖像的特征表達(dá)能力。通過(guò)在圖像層次稀疏表示中引入圖像顯著信息,加強(qiáng)了圖像特征的語(yǔ)義信息,得到圖像顯著特征表示,通過(guò)實(shí)驗(yàn)測(cè)試,效果比傳統(tǒng)的圖像分類算法預(yù)測(cè)的準(zhǔn)確度有明顯的提升。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法
1.1 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是描述生物神經(jīng)網(wǎng)絡(luò)運(yùn)行機(jī)理和工作過(guò)程的抽象和簡(jiǎn)化了的數(shù)學(xué)物理模型,使用路徑權(quán)值的有向圖來(lái)表示模型中的人工神經(jīng)元節(jié)點(diǎn)和神經(jīng)元之間的連接關(guān)系,之后通過(guò)硬件或軟件程序?qū)崿F(xiàn)上述有向圖的運(yùn)行[1]。目前最典型的人工神經(jīng)網(wǎng)絡(luò)算法包括:目前最典型的人工神經(jīng)網(wǎng)絡(luò)有BP網(wǎng)絡(luò) [2]Hopfield網(wǎng)絡(luò)[3]Boltzmann機(jī)[4]SOFM網(wǎng)絡(luò)[5]以及ART網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)[6],算法流程圖如圖1所示[7]。
1.2 卷積神經(jīng)網(wǎng)絡(luò)框架的架構(gòu)
Caffe是Convolutional Architecture for Fast Feature Embedding的縮寫(xiě)[8],意為快速特征嵌入的卷積結(jié)構(gòu),包含最先進(jìn)的深度學(xué)習(xí)算法以及一系列的參考模型,圖2表示的是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。Caffe深度學(xué)習(xí)框架主要依賴CUDA,IntelMKL,OpenCV,glog軟件以及caffe文件。本文使用的各個(gè)軟件版本說(shuō)明,如表1所示。
Caffe深度學(xué)習(xí)框架提供了多個(gè)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),利用隱含層的卷積層和池采樣層是實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)特征提取功能,卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)采取梯度下降法最小化損失函數(shù)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié),通過(guò)頻繁的迭代訓(xùn)練來(lái)提高網(wǎng)絡(luò)的精度。卷積神經(jīng)網(wǎng)絡(luò)使用權(quán)值共享,這一結(jié)構(gòu)類似于生物神經(jīng)網(wǎng)絡(luò),從而使網(wǎng)絡(luò)的復(fù)雜程度明顯降低,并且權(quán)值的數(shù)量也有大幅度的減少,本文使用這些模型直接進(jìn)行訓(xùn)練,和傳統(tǒng)的圖像分類算法對(duì)比,性能有很大的提升,框架系統(tǒng)訓(xùn)練識(shí)別基本流程如圖3表示。
1.3 圖像分類特征提取
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次相比傳統(tǒng)的淺層的神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),要復(fù)雜得多,每?jī)蓪拥纳窠?jīng)元使用了局部連接的方式進(jìn)行連接、神經(jīng)元共享連接權(quán)重以及時(shí)間或空間上使用降采樣充分利用數(shù)據(jù)本身的特征,因此決定了卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比維度大幅度降低,從而降低計(jì)算時(shí)間的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)主要分為兩個(gè)過(guò)程,分為卷積和采樣,分別的對(duì)上層數(shù)據(jù)進(jìn)行提取抽象和對(duì)數(shù)據(jù)進(jìn)行降維的作用。
本文以Caffe深度學(xué)習(xí)框架中的 CIFAR-10數(shù)據(jù)集的貓的網(wǎng)絡(luò)模型為例,如圖4所示,對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。CIFAR-10是一個(gè)標(biāo)準(zhǔn)圖像圖像訓(xùn)練集,由六萬(wàn)張圖像組成,共有10類(分為飛機(jī),小汽車,鳥(niǎo),貓,鹿,狗,青蛙,馬,船,卡車),每個(gè)圖片都是32×32像素的RGB彩色圖像。通過(guò)對(duì)數(shù)據(jù)進(jìn)行提取和降維的方法來(lái)提取圖像數(shù)據(jù)的特征。
2 實(shí)驗(yàn)分析
將貓的圖像訓(xùn)練集放在train的文件夾下,并統(tǒng)一修改成256×256像素大小,并對(duì)貓的圖像訓(xùn)練集進(jìn)行標(biāo)記,標(biāo)簽為1,運(yùn)行選擇cpu進(jìn)行訓(xùn)練,每進(jìn)行10次迭代進(jìn)行一次測(cè)試,測(cè)試間隔為10次,初始化學(xué)習(xí)率為0.001,每20次迭代顯示一次信息,最大迭代次數(shù)為200次,網(wǎng)絡(luò)訓(xùn)練的動(dòng)量為0.9,權(quán)重衰退為0.0005,5000次進(jìn)行一次當(dāng)前狀態(tài)的記錄,記錄顯示如下圖5所示,預(yù)測(cè)的準(zhǔn)度在98%以上。而相比傳統(tǒng)的圖像分類算法BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的收斂性慢,訓(xùn)練時(shí)間長(zhǎng)的,網(wǎng)絡(luò)的學(xué)習(xí)和記憶具有不穩(wěn)定性,因而卷積神經(jīng)網(wǎng)絡(luò)框架在訓(xùn)練時(shí)間和預(yù)測(cè)準(zhǔn)度上具有非常大的優(yōu)勢(shì)。
3 結(jié)束語(yǔ)
本文使用Caffe深度學(xué)習(xí)框架,以CIFAR-10數(shù)據(jù)集中貓的網(wǎng)絡(luò)模型為例,構(gòu)建小型貓的數(shù)據(jù)集,提取貓的圖象特征信息,最后和目標(biāo)貓圖像進(jìn)行預(yù)測(cè),并和傳統(tǒng)的圖像分類算法進(jìn)行對(duì)比,預(yù)測(cè)的準(zhǔn)確率有很大的提升。
參考文獻(xiàn):
[1] 楊錚, 吳陳沭, 劉云浩. 位置計(jì)算: 無(wú)線網(wǎng)絡(luò)定位與可定位性[M]. 北京: 清華大學(xué)出版社, 2014.
[2] 丁士折. 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)[M]. 哈爾濱: 哈爾濱工程大學(xué)出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
[7] Carpenter G A, Grossberg S. A massively parallel architecture for aself-organizing neural pattern recognition machine[J]. Computer visiongraphics, and image processing, 1987, 37(1): 54-115.
[8] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//Proceedings of the ACM International Conference on Multimedia. ACM, 2014: 675-678.