李航 厲丹 朱晨 姚瑤 張麗娜
摘要:卷積神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡與深度學習相結合,從而實現(xiàn)深度學習的方法。其具有良好的容錯性、自適應性以及較強的自學習能力,還具有自動提取特征、權值共享以及輸入圖像與網(wǎng)絡結構結合良好等優(yōu)勢?;诰矸e神經(jīng)網(wǎng)絡和深度學習的圖像識別系統(tǒng),首先對不同的圖像進行采集,將采集的得到的結果作為訓練集和測試集。通過卷積神經(jīng)網(wǎng)絡對采集結果的訓練,得到用來識別的各類特征,識別的結果可以得到圖像的類別信息。
關鍵詞:卷積層神經(jīng)網(wǎng)絡;深度學習;圖像識別;圖像分類;Alexnet構架
中圖分類號:TP183 文獻標識碼:A
文章編號:1009-3044(2020)10-0196-02
隨著科學技術的飛速發(fā)展,圖像識別技術在社會各領域得以應用。圖形識別技術可以作為一項基礎技術應用于如工業(yè)零件分類、人臉識別以及手勢識別等。當前的圖像識別也是作為一項十分熱門的技術被大眾所廣泛討論。
深度學習是機器學習的一個新的熱門研究方向,其旨在模仿人類的學習模式,通過對輸入樣本的訓練與測試,由簡及深地提取特征來區(qū)分樣本。通過深度學習來進行圖像識別也是如此,通過對于圖像樣本的訓練和測試,對樣本進行分類。本文討論深度學習應用在圖像識別這一課題。
1卷積神經(jīng)網(wǎng)絡
1.1卷積神經(jīng)網(wǎng)絡結構
卷積神經(jīng)網(wǎng)絡與普通神經(jīng)網(wǎng)絡非常的相似也具有可學習的權重和偏置常量的神經(jīng)元組成,每個神經(jīng)元都接收一些輸人,并做一些點積計算,輸出是每個分類的分數(shù),普通神經(jīng)網(wǎng)絡里的一些計算技巧到這里依舊適用,卷積神經(jīng)網(wǎng)絡由輸出層、卷積層、池化層、全連接層組成。
輸入層是對于整個神經(jīng)網(wǎng)絡的一個輸入,通常為一張圖片的像素矩陣。其中,在CNN層次結構中,對于黑白圖片的輸入為一張二維神經(jīng)元,而對于RGB格式的圖片,輸人為一張三維神經(jīng)元。
卷積層是卷積神經(jīng)網(wǎng)絡中最為重要和關鍵的一層。卷積神經(jīng)網(wǎng)絡中的卷積層由若干的卷積單元所組成。卷積層中的輸入只是上一層神經(jīng)網(wǎng)絡的一小部分,卷積層將輸入分為一個又一個小區(qū)域例如3*3、5*5進行特征提取。第一次的卷積是對低層次的、簡單的特征如線條和邊角等進行提取,之后逐層不斷地提取和壓縮,最后以得到較為高層次的特征。換言之,也就是說對于之前所提取出原始的特征進行逐漸地壓縮、提煉。這樣使我們最后提取到的更加有效、可靠??梢詫⒆詈筇崛〕龅奶卣饔脕矸诸悺>矸e層的正向傳播映射為:
全連接層在卷積神經(jīng)網(wǎng)絡中起到了“分類器”的作用,全連接層的每一個節(jié)點都與上一層每個節(jié)點連接,也就是把前一層的輸局部特征都綜合起來,變成全局特征,最后計算每一類的得分,進行分類。
2基于卷積神經(jīng)網(wǎng)絡的圖像識別系統(tǒng)
本文的基于卷積神經(jīng)網(wǎng)絡的圖片識別系統(tǒng)的實驗過程總體上可分為四點:A、數(shù)據(jù)集的準備:準備數(shù)據(jù)集,即為對物品進行拍攝整理或者搜集有關圖像的圖樣。B、計算機模擬訓練:將之前所收集的數(shù)據(jù)集在分作訓練集、測試集,對于數(shù)據(jù)集輸入進行訓練。C、進行圖像識別:基于卷積層的神經(jīng)網(wǎng)絡識別系統(tǒng)對于訓練集可生成圖像識別的模型,以此完成對于圖像的識別。D、輸出顯示:將圖像識別的輸出結果進行顯示。
2.1實驗數(shù)據(jù)集準備
本文將選取幾種常見的物體圖像進行圖片識別實驗。本次的數(shù)據(jù)集的樣本主要通過搜集圖片的方式來完成。通過搜集不同角度的、不同光線條件下的同一零件的圖片來準備數(shù)據(jù)集。對于圖片,也可以通過拍照的方式來獲取樣本進行訓練。我們可以通過自己拍的照片來制作圖片數(shù)據(jù)集文件來完成訓練集和測試集的準備。本文所采集的圖像部分樣本如圖所示:
2.2模型訓練
在本系統(tǒng)中是用的是Mexnet構架,Alexnet一共有八個權重層,分別是由5個卷積層和三個全連接層組成,每個卷積層和全連接層都會受到ReLU激活函數(shù)的作用,在第一個卷積層和第二個卷積層后面連接一個局部響應規(guī)范化層,最大池化層作用在第一個卷積層、第二個卷積層和第五個卷積層的輸出上。AlexNet在結構總拋棄了以往的“s”形激活函數(shù),傳統(tǒng)的“s”型激活函數(shù)有sigmoid函數(shù)和tanh函數(shù):
sigmoid函數(shù)具有飽和性,當輸人較大或者較小的時候,輸出的曲線接近平緩,此時梯度幾乎為0,會造成消失的梯度的問題,并且它的輸出均值不為0,可能會造成偏置轉移,會使得后一層的神經(jīng)元將上一層的輸出的非0均值的信號作為輸入,并且它的輸出范圍在0~1,沒有包含負信息,可能會損失一部分有用的信息。
tanh函數(shù)的輸出值的范圍為[-1,1],其輸出均值為0,并且包含了負信息,但是由于它也具有飽和特性,所以也會造成消失的梯度問題。
ReLU的形式為:f(x)=max(0,x),當輸入為正時,輸出值取其本身,此時關于輸入x的導數(shù)為1,是一個常數(shù),避免了消失的梯度問題,并且當輸入小于0時,輸出為0,引進了稀疏性,能夠加速訓練,但是由于其輸出均值也大于0,所以也會出現(xiàn)偏置轉移現(xiàn)象,并且由于當輸入小于0時,對應的神經(jīng)元輸出為0,梯度為0,對應的權重也就無法更新。Mexnet網(wǎng)絡結構圖如下:
2.3進行圖像識別
通過模擬訓練,系統(tǒng)得到了一個圖像識別的深度學習模型。部分識別結果如下圖4所示,其中(a)橡皮鴨的識別結果,(b)為招財貓的識別結果,(c)為茶杯的識別結果。本次實驗訓練集為1000,測試集為300,正確率可以穩(wěn)定在95%左右。
3總結與展望
本文所研討的是基于卷積層神經(jīng)網(wǎng)絡的圖像識別系統(tǒng)。通過對于圖像拍攝以及圖像搜集,準備數(shù)據(jù)集來進行模擬訓練進而實現(xiàn)對于圖像的識別。本系統(tǒng)所研討的方向有較大的應用價值,其可以作為一項基礎的技術在社會各領域都有一定的應用前景。但是有關圖像的種類我們所做的測試還不夠,還可以擴大訓練集。其次對于比較復雜特征的圖形識別做的研討還不夠,仍值得進一步研究、實驗。