高強 靳其兵 程勇
摘要:近些年來,深度學(xué)習(xí)得到了廣泛的關(guān)注,已經(jīng)成為計算機科學(xué)機器學(xué)習(xí)重要的領(lǐng)域和方向,深度學(xué)習(xí)已經(jīng)被引入到機器學(xué)習(xí)中,進而與人工智能這一最初的目標(biāo)更為接近。深度學(xué)習(xí)包括學(xué)習(xí)樣本數(shù)據(jù)在內(nèi),是一種表示層次和內(nèi)在規(guī)律。深度學(xué)習(xí)對于解釋聲音數(shù)據(jù)、圖像數(shù)據(jù)、文字?jǐn)?shù)據(jù)等幫助很大。使機器可以像人類一樣,具有很強的分析學(xué)習(xí)能力,這便是深度學(xué)習(xí)的目標(biāo)。通過深度學(xué)習(xí),機器可以對聲音、圖像以及文字等數(shù)據(jù)進行有效識別。該文中,筆者就基于卷積神經(jīng)網(wǎng)絡(luò)探討深度學(xué)習(xí)算法與應(yīng)用。
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);模式識別;算法;應(yīng)用
中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2015)13-0169-02
Abstract: in recent years, the depth of learning has been widely concerned, has already become the important research field and direction of the computer science and machine learning, depth of learning has been introduced into the machine learning, and artificial intelligence that initial goal closer. Deep learning, including learning sample data, is a kind of expression levels and inherent laws. Depth of learning for interpretation of sound data, image data, text data and other help. The machine can be like human beings, with a strong analysis of learning ability, this is the goal of deep learning. Through the depth of learning, the machine can effectively identify data such as sound, image and text.. In this paper, the author discusses the depth based learning algorithm and application based on convolutional neural network
Keywords: depth learning; convolution neural network; pattern recognition; algorithm; application
深度學(xué)習(xí)是一項比較復(fù)雜的機器學(xué)習(xí)算法,在圖像識別方面和語音識別方面,深度學(xué)習(xí)均取得了一定的效果,深度學(xué)習(xí)被人們看作是一種先進、新穎的技術(shù)。深度學(xué)習(xí)在個性化技術(shù)、語音、自然語言處理、機器翻譯、多媒體學(xué)習(xí)、機器學(xué)習(xí)、數(shù)據(jù)挖掘、搜索技術(shù)等諸多方面都取得了很好的成果。通過深度學(xué)習(xí),機器可以對人類活動進行模仿,例如思考活動和視聽活動等,從本質(zhì)上解決了復(fù)雜模式識別等難題,使人工智能技術(shù)等相關(guān)技術(shù)都在一定程度上獲得了進步,把各種實際應(yīng)用研究與深度學(xué)習(xí)有機結(jié)合起來是一項不可或缺的工作。下面,筆者在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)之上,對深度學(xué)習(xí)算法與應(yīng)用進行探討。
1 關(guān)于卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)事實上是多層感知器的一種變種,著名生物學(xué)家通過對貓的視覺皮層進行觀察而發(fā)展得來,在視覺皮層細胞里有比較復(fù)雜的結(jié)構(gòu),這些細胞對于視覺的輸入空間的子區(qū)域比較敏感,我們將其稱作感受野,用這樣的方式來對整個視野區(qū)域平鋪覆蓋。將這些細胞進行有效區(qū)分,將其分成復(fù)雜細胞和簡單細胞這兩種類型。復(fù)雜細胞的接受域更大,如果確切位置對復(fù)雜細胞進行刺激,則復(fù)雜細胞具有局部的不變性,而簡單細胞對于來自感受野范圍里邊緣刺激的模式產(chǎn)生最大程度響應(yīng)。
1.1 卷積神經(jīng)網(wǎng)絡(luò)的稀疏連接
BP神經(jīng)網(wǎng)絡(luò)里每一個神經(jīng)元節(jié)點都是一個線性的一維排列結(jié)構(gòu),層和層的各個神經(jīng)元節(jié)點之間都是全部連接。在卷積神經(jīng)網(wǎng)絡(luò)里,層和層之間神經(jīng)元節(jié)點并非全連接形式,對層間的局部空間相關(guān)性進行充分利用,進而將相鄰每一層神經(jīng)元節(jié)點與上層神經(jīng)元節(jié)點相連接,這便是局部連接。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從此得來。將輸入層設(shè)置為m-1層,在BP神經(jīng)網(wǎng)絡(luò)里,m-1層所有神經(jīng)元節(jié)點與m層神經(jīng)元節(jié)點相連接。在卷積神經(jīng)網(wǎng)絡(luò)里,m層神經(jīng)元節(jié)點和其相接近三個節(jié)點有效連接,這樣便從本質(zhì)上將神經(jīng)網(wǎng)絡(luò)架構(gòu)參數(shù)規(guī)模降低。
1.2 卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重共享
在卷積神經(jīng)網(wǎng)絡(luò)里,卷積層每一種卷積濾波器在整個感受野中進行重復(fù)作用,對于輸入圖像實時卷積,卷積結(jié)果會構(gòu)成輸入圖像特征圖,將圖像局部特征進行提取。每一個卷積濾波器實現(xiàn)相同參數(shù)共享,包括相同偏置頂以及權(quán)重矩陣。m層的特征圖像主要包括三個神經(jīng)元,將不同連接線之間權(quán)重參數(shù)實施共享,仍然可以運用梯度下降法來實施權(quán)重參數(shù)的共享,只要原有梯度下降法開展小小改進,共享連接參數(shù)的梯度之和就是共享權(quán)重梯度。共享權(quán)重的優(yōu)勢就是在提取圖像特征的過程中,不用對局部特征位置進行充分考慮,并且權(quán)重共享可以從本質(zhì)上降低卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)數(shù)量。
1.3 卷積神經(jīng)網(wǎng)絡(luò)的整體架構(gòu)
作為一種多層監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)中,池采樣層和卷積層是重要的模塊,該模塊有利于將卷積神經(jīng)網(wǎng)絡(luò)特征的提取功能實現(xiàn),通過運用梯度下降法,能夠?qū)p失函數(shù)最小化,進而實施網(wǎng)絡(luò)權(quán)重參數(shù)逐層反向調(diào)節(jié),通過不斷地迭代訓(xùn)練,將網(wǎng)絡(luò)精度實現(xiàn)。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法的應(yīng)用
深度學(xué)習(xí)從本質(zhì)上促進了機器學(xué)習(xí)的不斷發(fā)展,并且受到了世界各國研究人員的青睞,各個國家的高科技公司也越來越重視深度學(xué)習(xí)。在深度學(xué)習(xí)算法應(yīng)用的過程中,自然語言處理、圖像以及語音這三個領(lǐng)域是重要的研究領(lǐng)域。下面,就對這三個領(lǐng)域中,深度學(xué)習(xí)算法的應(yīng)用進行闡述。
2.1 自然語言處理領(lǐng)域的應(yīng)用
在深度學(xué)習(xí)應(yīng)用過程中,自然語言處理領(lǐng)域是十分重要的領(lǐng)域。經(jīng)過了數(shù)十年的時間,統(tǒng)計模型仍然是處理自然語言的主流方法,在統(tǒng)計方法模型中,人工神經(jīng)網(wǎng)絡(luò)是重要的模型,但是,人工神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域中并沒有引起充分的重視。最早運用神經(jīng)網(wǎng)絡(luò)而實施自然語言處理的標(biāo)志就是語言建模,美國NEC研究院,是最早在自然語言處理中應(yīng)用深度學(xué)習(xí)的機構(gòu),NEC研究院的研究人員從2008年開始,便通過多層一維卷積結(jié)構(gòu)以及將詞匯映射到一維矢量空間的方法,來對自然語言問題進行處理,例如詞性標(biāo)注、語義角色標(biāo)注、命名實體識別、分詞等問題。NEC研究人員通過進行同一個網(wǎng)絡(luò)模型進行構(gòu)建,進而將其用于解決四個不同問題之中,并且均取得了十分準(zhǔn)確和精確的結(jié)果。
2.2 圖像識別領(lǐng)域的應(yīng)用
在深度學(xué)習(xí)算法的應(yīng)用過程中,最早嘗試的領(lǐng)域就是圖像處理領(lǐng)域。1989年,加拿大的知名大學(xué)教授便和其同事共同研究,進而提出卷積神經(jīng)網(wǎng)絡(luò)這一概念。人們還將卷積神經(jīng)網(wǎng)絡(luò)稱之為CNN,卷積神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò)模型,該模型包括卷積層。通常情況下,一個卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)要包括兩個非線性的卷積層,這兩個非線性的卷積層主要通過訓(xùn)練而產(chǎn)生,兩個子采樣層是固定的,并且和一個全連接層相同,通常情況下,還包括五個以上的隱藏層數(shù)量。通過生物學(xué)家對于動物視覺模型的研究而設(shè)計了卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),特別是對動物視覺皮層里復(fù)雜細胞以及簡單細胞進行模擬,在小規(guī)模應(yīng)用的過程中,卷積神經(jīng)網(wǎng)絡(luò)取得了良好的效果。但是,該成果在很長一段時間都處于停滯狀態(tài),沒有重大的突破。原因就在于,一直無法取得在大尺寸圖像上應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的理想結(jié)果。例如對于自然圖像內(nèi)容的理解,由于自然圖像的像素很大,卷積神經(jīng)網(wǎng)絡(luò)無法對其進行很好地理解,這便導(dǎo)致其無法引起相關(guān)研究領(lǐng)域和研究人員的高度重視。一直到2012年,研究人員通過卷積神經(jīng)網(wǎng)絡(luò)模型在ImageNet問題中取得了良好的成果,這個時候,其對于圖像識別的程度更深,其研究工作也前進了一大步。
自從卷積神經(jīng)網(wǎng)絡(luò)問世以來,并沒有在圖像識別領(lǐng)域中取得進步,直至2012年,深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建才取得了一定的成果。這一成果的取得,得益于改進其算法,在網(wǎng)絡(luò)訓(xùn)練過程中,運用權(quán)重衰減的相關(guān)概念,從本質(zhì)上將權(quán)重幅度減小。再加上計算機計算能力不斷提升,計算機的GPU得到了快速發(fā)展,這便使其在訓(xùn)練的時候,可以收集比以前更多的訓(xùn)練數(shù)據(jù),使網(wǎng)絡(luò)能夠?qū)τ?xùn)練樣本進行更好地擬合。2012年,百度公司把與其相關(guān)的最新的技術(shù)成果,運用到自然圖像識別領(lǐng)域和人臉識別領(lǐng)域中,取得了成功,并且推出了與之相應(yīng)的產(chǎn)品?,F(xiàn)如今,深度學(xué)習(xí)的網(wǎng)絡(luò)模型已經(jīng)能夠?qū)σ话阕匀粓D像進行識別和理解,深度學(xué)習(xí)模型的構(gòu)建,不僅從本質(zhì)上將圖像識別精度提升,更有效避免了人工特征提取,由于人工特征提取工作需要消耗太多的時間,因此,深度學(xué)習(xí)模型的構(gòu)建從本質(zhì)上提升了在線運算的效率。此外,深度學(xué)習(xí)還有可能會成為主流的圖像識別技術(shù),進而取代機器學(xué)習(xí)和人工相結(jié)合的形式。
2.3 語音識別領(lǐng)域的應(yīng)用
在很長一段時間內(nèi),大多數(shù)語音識別系統(tǒng)都運用混合高斯模型,進而對每一個建模單元統(tǒng)計概率的模型進行有效描述,因為這樣的模型估計十分簡單,所以,為運用大模型數(shù)據(jù)實施訓(xùn)練提供了便利。混合高斯模型擁有訓(xùn)練算法,該算法具有較好的區(qū)分度,這便從本質(zhì)上為混合高斯模型可以被有效的訓(xùn)練提供保障,因此,混合高斯模型在一定時期內(nèi),在語音識別應(yīng)用領(lǐng)域中,具有很強的主導(dǎo)地位。但是,縱觀混合高斯模型的實質(zhì),我們會發(fā)現(xiàn),該模型其實是一種淺層學(xué)習(xí)網(wǎng)絡(luò)的建模,不能夠?qū)⑵涮卣鳡顟B(tài)空間分布充分地描述出來。同時,運用混合高斯模型建模需要幾十維的特征維數(shù),這便導(dǎo)致無法描述特征之間相關(guān)性。最后,雖然可以通過分度訓(xùn)練模擬得到一些模式分類之間區(qū)分性,但是,該模型的建模本質(zhì)就是似然概率的建模方式,所以,其效果十分有限。
在國際方面,谷歌運用深層神經(jīng)網(wǎng)絡(luò)來針對聲音開展建模,谷歌是最早突破深度神經(jīng)網(wǎng)絡(luò)工業(yè)化應(yīng)用領(lǐng)域的一個企業(yè),但是,谷歌所生產(chǎn)的產(chǎn)品里,只有四層至五層使用了深度神經(jīng)網(wǎng)絡(luò)架構(gòu)。和百度公司相比較,百度公司深度神經(jīng)網(wǎng)絡(luò)架構(gòu)達到了九層,正因為這樣的結(jié)構(gòu)差別,使在線學(xué)習(xí)過程中,運用深度神經(jīng)網(wǎng)絡(luò)計算難題,能夠很好地解決難題。這也使百度公司線上產(chǎn)品運用神經(jīng)網(wǎng)絡(luò)模型更加復(fù)雜,通過這樣的結(jié)構(gòu)差異核心,使百度公司對在線計算技術(shù)難題進行更好的解決。所以,百度公司的線上產(chǎn)品能夠運用的網(wǎng)絡(luò)模型更加復(fù)雜。這可以從本質(zhì)上幫助深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,對大規(guī)模語料數(shù)據(jù)進行拓展。
3 結(jié)束語
在機器學(xué)習(xí)領(lǐng)域中,深度學(xué)習(xí)是重要的分支領(lǐng)域。通常情況下,機器學(xué)習(xí)已經(jīng)成為了代替人工智能的概念。通過機器學(xué)習(xí)算法,能夠使計算機從大量的數(shù)據(jù)中,對潛在特征和規(guī)律進行學(xué)習(xí),以便對新樣本實施智能識別,還可以對未來的某件事情可能性進行預(yù)期。使機器像人類一樣思考,這已經(jīng)成為很多科學(xué)家的夢想,而深度學(xué)習(xí)的產(chǎn)生和發(fā)展,為實現(xiàn)這一夢想奠定了基礎(chǔ)。雖然現(xiàn)階段仍然是對深度學(xué)習(xí)開展研究的最初階段,但是,深度學(xué)習(xí)在數(shù)據(jù)挖掘、語音識別、圖像等諸多領(lǐng)域都取得了成功和進步,促進相關(guān)領(lǐng)域的進步和發(fā)展。
參考文獻:
[1] 蔡娟, 蔡堅勇, 廖曉東. 基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別初探[J]. 計算機系統(tǒng)應(yīng)用, 2015(4): 113-117.
[2] 譚文學(xué), 趙春江, 吳華瑞. 基于彈性動量深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的果體病理圖像識別[J]. 農(nóng)業(yè)機械學(xué)報, 2015(1): 20-25.
[3] 余永維, 殷國富, 殷鷹. 基于深度學(xué)習(xí)網(wǎng)絡(luò)的射線圖像缺陷識別方法[J]. 儀器儀表學(xué)報, 2014(9): 2012-2019.
[4] 余濱, 李紹滋, 徐素霞等. 深度學(xué)習(xí):開啟大數(shù)據(jù)時代的鑰匙[J]. 工程研究-跨學(xué)科視野中的工程, 2014(3): 233-243.
[5] 葛明濤, 王小麗, 潘立武. 基于多重卷積神經(jīng)網(wǎng)絡(luò)的大模式聯(lián)機手寫文字識別[J]. 現(xiàn)代電子技術(shù), 2014(20): 19-21+26.