索琰琰 吳昊 李嬈 馮成 孟令凱 苑海朝*(通訊作者) 河北農業(yè)大學理工學院
卷積神經網絡是一種新型的由深度學習和人工神經網絡相結合的學習方法,有較強的自學習能力以及較好的自適應性、容錯性、權值共享等優(yōu)點。
在前期,大多數(shù)卷積神經網絡的結構是相對簡單的。但隨著技術的進步,出現(xiàn)了一些典型的模型,比如:應用在圖像分類、手寫識別等相對于簡單計算機應用領域的LeNet-5模型[1];應用最新技術人臉識別的卷積神經網絡與深信度網絡(Deep Belief Network,DBN)[2]結合出的卷積深信度網絡 (Convolutional Deep Belief Network);在大量圖像分類領域取得顯著成就的AlexNet模型等等,它們都推動了卷積神經網絡的研究進程。
近幾年,卷積神經網絡仍處于火熱的研究中,一些優(yōu)化的網絡結構也在不斷的被提出,使得卷積神經網絡得到更深層次的研究。
卷積神經網絡主要由輸入層、池化層、卷積層、全連接層和輸出層五部分組成。將原始圖像輸入到卷積神經網絡的輸入層中,然后對圖像的特征圖層進行卷積操作,再通過非線性激勵函數(shù)計算得到特征圖。將特征圖經過下采樣層和卷積層的不斷相互傳遞處理后傳送到全連接層進行特征圖像的分辨,從而映射到數(shù)學特征模型上,如式1:
最后,通過對過擬合問題和損失函數(shù)的計算,得到輸出層的圖像。
局部感知法是卷積神經網絡減少數(shù)據(jù)參數(shù)數(shù)量的一種方法。從局部認知到全局認知是一般人對外界的認識的一種方法,在圖像處理領域也同樣適用,圖像的空間聯(lián)系也是和局部像素的聯(lián)系較為緊密相關的,但是如果間隔相距較遠,則和空間像素的聯(lián)系較弱。
所以,卷積神經網絡上的每個神經元只要對其進行局部感知就可以,之后全連接層將局部感知的參數(shù)信息進行綜合分析匯總,從而得到全局的信息參數(shù)。
相比較于局部感知方法,權值共享就有了較大的優(yōu)勢。權值共享網絡是由LeNet5模型提出來,原因是由于參數(shù)數(shù)量過多。
權值共享網絡首先將網絡的結構進行了簡化,進而降低了訓練參數(shù)的數(shù)目,從而有了更多應用空間。例如:一個神經有一個神經元需要100個信息參數(shù),那么這100個信息參數(shù)就相當于是一種提取方式,并且和位置無關。卷積神經網絡便可以在這100個參數(shù)中提取相應的特征,進而應用到圖像的其他部分。通俗的講,就是從大尺寸圖像中隨機提取一小部分,然后提取的這一小部分便可以通過學習,成為一個特征探測器,進而將其應用到圖像的任意地方,再通過和原始的圖像作卷積學習處理,從而獲得原始圖像的不同位置的不同特性值,大大提升了圖像的辨別率。
權值共享網絡中,通過觀察提取到的局部特征是不能滿足圖像處理要求的,所以還需要卷積核的幫助。每一個共享權值參數(shù)就是一個卷積核,多個卷積核協(xié)同處理便可以解決這一問題。
每一個卷積核在局部特征提取和權值共享后都會生成一幅圖像,多個卷積核就會形成多幅圖像,多幅圖像又可以看作是多個不同的通道[3]。如圖一所示,展示了4個卷積核也就是四個通道進行卷積操作的過程。在該過程中,4個通道上(i,j)處的卷積結果先進行相加,隨后再取函數(shù)值得到的值便是W1和W2位置(i,j)處的值。
圖一 4個卷積核的操作過程
簡單來說,遷移學習就是卷積神經網絡進行學習來提取特征,再經過卷積核的卷積學習訓練,把訓練好的特定數(shù)據(jù)成功運用其他領域上[4]。
其大致過程為先對收集好的實驗數(shù)據(jù)集合進行初始化,再通過卷積神經網絡的訓練和其他領域相關數(shù)據(jù)或者圖像特征進行提取,從而訓練成特定的卷積神經網絡或者分類器。
復用層訓練中卷積神經網絡利用BP算法進行監(jiān)督學習[5]。在訓練前,一般使用隨機的“小隨機數(shù)”對權值進行初始化,然后通過信息的正向傳播和反向傳播2個階段,從而完成整個復用層訓練過程。
在現(xiàn)實應用中,通常先使用多層卷積,隨后再使用全連接層進行多次訓練。通過一層層的卷積便可以讓卷積層數(shù)越來越大,進而學到的特征也會增多,從而使局部問題全局化,提高處理結果的真實性以及準確性。
新的學習模型、訓練方式以及學習理論的提出,使卷積神經網絡的應用更為廣闊[6]。比如,在圖像處理上,準確的提高了圖像分類的準確度(GoogLeNet);在連續(xù)的語音識別上,可以運用馬爾切夫模型,來壓縮模型的尺寸,深入透徹的分析卷積神經網絡的性能和體系結構,使其識別能力得到進一步的加強。
本文對卷積神經網絡的概念、特點、復用層訓練和應用領域進行了簡介,可以看出卷積神經網絡在語音識別、圖像處理、人臉識別等方面擁有廣闊的發(fā)展?jié)摿Α?/p>
當然,在本文的研究基礎之上仍存在一些問題需要進一步探究,例如如何實現(xiàn)卷積神經網絡系統(tǒng)結構的最佳優(yōu)化以及最優(yōu)樣本數(shù)量的選取,是進行卷積神經網絡更深入研究過程中無法避免的難題。這些問題在今后研究中將進行繼續(xù)探索。
[1] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[2] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006,18(7): 1527-1554.
[3] 劉海龍,李寶安,呂學強.等. 基于深度卷積神經網絡的圖像檢索算法研究[J]. 計算機應用研究. 2017, 34(12):3816-3819.
[4] 莊福振,羅平,何清,等. 遷移學習研究進展[J]. 軟件學報, 2015,26(1): 26-39.
[5] 常亮,鄧小明,周明全,等. 圖像理解中的卷積神經網絡[J]. 自動化學報, 2016, 42(9):1300-1312.
[6] 李彥冬,郝宗波,雷航. 卷積神經網絡研究綜述[J]. 計算機應用,2016, 36(9):2508-2515+2565.