国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)方法研究新進(jìn)展

2016-12-24 08:10劉帥師程曦郭文燕陳奇
智能系統(tǒng)學(xué)報(bào) 2016年5期
關(guān)鍵詞:編碼器信念卷積

劉帥師,程曦,郭文燕,陳奇

(長(zhǎng)春工業(yè)大學(xué) 電氣與電子工程學(xué)院,吉林 長(zhǎng)春 130000)

?

深度學(xué)習(xí)方法研究新進(jìn)展

劉帥師,程曦,郭文燕,陳奇

(長(zhǎng)春工業(yè)大學(xué) 電氣與電子工程學(xué)院,吉林 長(zhǎng)春 130000)

本文依據(jù)模型結(jié)構(gòu)對(duì)深度學(xué)習(xí)進(jìn)行了歸納和總結(jié),描述了不同模型的結(jié)構(gòu)和特點(diǎn)。首先介紹了深度學(xué)習(xí)的概念及意義,然后介紹了4種典型模型:卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機(jī)和堆疊自動(dòng)編碼器,并對(duì)近3年深度學(xué)習(xí)在語(yǔ)音處理、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及醫(yī)療應(yīng)用等方面的應(yīng)用現(xiàn)狀進(jìn)行介紹,最后對(duì)現(xiàn)有深度學(xué)習(xí)模型進(jìn)行了總結(jié),并且討論了未來(lái)所面臨的挑戰(zhàn)。

深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);深度信念網(wǎng)絡(luò);深度玻爾茲曼機(jī);堆疊自動(dòng)編碼器

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,屬于人工智能的新領(lǐng)域。深度學(xué)習(xí)的本質(zhì)是特征提取,即通過(guò)組合低層次的特征形成更加抽象的高層表示,以達(dá)到獲得最佳特征的目的[1]。它主要通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)模擬人的大腦的學(xué)習(xí)過(guò)程,希望實(shí)現(xiàn)對(duì)現(xiàn)實(shí)對(duì)象或數(shù)據(jù)(圖像、語(yǔ)音及文本等)的抽象表達(dá),整合特征抽取和分類(lèi)器到一個(gè)學(xué)習(xí)框架下[2]。目前,深度學(xué)習(xí)在許多領(lǐng)域取得了廣泛的關(guān)注,成為當(dāng)今的研究熱點(diǎn)。

2006年,機(jī)器學(xué)習(xí)大師Hinton等[3]在《科學(xué)》上發(fā)表的一篇論文,開(kāi)啟了深度學(xué)習(xí)的浪潮。他提出了深度信念網(wǎng)的概念,成功地利用貪心策略逐層訓(xùn)練由限制玻爾茲曼機(jī)組成的深層架構(gòu),解決了以往深度網(wǎng)絡(luò)訓(xùn)練困難的問(wèn)題。此后,Hinton、Lecun、Bengio等大量科研人員對(duì)深度學(xué)習(xí)的模型構(gòu)建、訓(xùn)練方式等做出了杰出的貢獻(xiàn)。文獻(xiàn)[4]對(duì)近幾年新興的深度學(xué)習(xí)的初始化方法、模型結(jié)構(gòu)、學(xué)習(xí)算法等進(jìn)行了詳細(xì)的分析。2014年余濱等[5]從訓(xùn)練方式的角度對(duì)深度學(xué)習(xí)進(jìn)行了總結(jié)。文獻(xiàn)[6]依據(jù)數(shù)據(jù)流向?qū)ι疃葘W(xué)習(xí)進(jìn)行不同分類(lèi),本文將重點(diǎn)放在模型結(jié)構(gòu),以深度學(xué)習(xí)的核心模型結(jié)構(gòu)而展開(kāi)。文獻(xiàn)[7]從深度學(xué)習(xí)結(jié)構(gòu)進(jìn)行展開(kāi),本文大量增加了近3年新的研究成果,因此能夠更準(zhǔn)確地反映該領(lǐng)域的最新研究進(jìn)展。

本文依據(jù)模型結(jié)構(gòu),著重介紹4種典型的深度學(xué)習(xí)模型,即卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機(jī)、堆疊自動(dòng)編碼器。下面對(duì)這些模型進(jìn)行描述。

1 深度學(xué)習(xí)典型模型

1.1 卷積神經(jīng)網(wǎng)絡(luò)

1.1.1 歷史

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)最早在20世紀(jì)80年代就已被提出,是由于在研究貓腦皮層時(shí)受到的啟發(fā)。它的典型模型LeNet-5[8]系統(tǒng),在MNIST上得到了0.9%的錯(cuò)誤率,并在20世紀(jì)90年代就已用于銀行的手寫(xiě)支票識(shí)別[7]。但是,由于在大尺寸圖像上沒(méi)有好的效果,一度被人忽視。隨著高效的GPU計(jì)算的興起,直到2012年Hinton在ImageNet問(wèn)題的成功,才使它在近幾年流行起來(lái)[9]。如今卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在圖像識(shí)別領(lǐng)域。由于該網(wǎng)絡(luò)避免了對(duì)圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了廣泛的應(yīng)用。

1.1.2 結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種。卷積神經(jīng)網(wǎng)絡(luò)的模型如圖1所示,它是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層與層之間神經(jīng)元采取全連接方式,而卷積神經(jīng)網(wǎng)絡(luò)采用稀疏連接方式,即每個(gè)特征圖上的神經(jīng)元只連接上一層的一個(gè)小區(qū)域的神經(jīng)元連接。

圖1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)的低隱含層是由卷積層和最大池采樣層交替組成,高層通常是全連接層作為分類(lèi)器使用。

首先,為了降低網(wǎng)絡(luò)的復(fù)雜性,卷積神經(jīng)網(wǎng)絡(luò)采用權(quán)重共享方式,即同一個(gè)特征圖,卷積核是一樣的[10];其次,對(duì)得到的特征輸入給一個(gè)非線性函數(shù),比如ReLU等;最后,再采取下采樣方法,比如最大池化等。下采樣的作用是把語(yǔ)義上相似的特征合并起來(lái),這是因?yàn)樾纬梢粋€(gè)主題的特征的相對(duì)位置不太一樣[1]。

1.1.3 訓(xùn)練方式

卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用有監(jiān)督訓(xùn)練方式。首先是向前傳播,即輸入X經(jīng)過(guò)卷積神經(jīng)網(wǎng)路后變?yōu)檩敵鯫,再將O與標(biāo)簽進(jìn)行比較,然后以向后傳播的方式,到將所得誤差傳播到每個(gè)節(jié)點(diǎn),根據(jù)權(quán)值更新公式,更新相應(yīng)的卷積核權(quán)值[4,6]。

此外,以卷積神經(jīng)網(wǎng)絡(luò)為核心的深度學(xué)習(xí)網(wǎng)絡(luò)還有3-D卷積神經(jīng)網(wǎng)絡(luò)(3-D convolutional neural networks,3D-CNN))[11], 光譜網(wǎng)絡(luò)(spectral networks,SN)[12],金字塔卷積神經(jīng)網(wǎng)絡(luò)(pyramid convolutional neural networks,PCNN)[13],多級(jí)金字塔卷積神經(jīng)網(wǎng)絡(luò)(multi level pyamid convolutional neural networks,MLPCNN)[14]等。

1.2 受限制玻爾茲曼機(jī)為核心的深度網(wǎng)絡(luò)

受限制玻爾茲曼機(jī)為核心的深度網(wǎng)絡(luò)有2種:深度信念網(wǎng)和深度玻爾茲曼機(jī)?,F(xiàn)簡(jiǎn)要分析二者的區(qū)別。

1.2.1 受限制玻爾茲曼機(jī)

受限制玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)是一類(lèi)無(wú)向圖模型[4],由可視層和隱含層組成,與玻爾茲曼機(jī)(Boltzmann machine,BM)不同,層內(nèi)無(wú)連接,層間有連接。這種結(jié)構(gòu)更易于計(jì)算隱含層單元與可視層單元的條件分布[5]。受限制玻爾茲曼機(jī)的訓(xùn)練方式通常采用對(duì)比散度方(contrastive divergence,CD)。常見(jiàn)的玻爾茲曼機(jī)的演變模型如圖2所示。

圖2 玻爾茲曼機(jī)演變模型

受限制玻爾茲曼機(jī)的演變模型有卷積受限制玻爾茲曼機(jī)(convolutional restricted Boltzmann machine,CRBM)[15]、稀疏受限制玻爾茲曼機(jī)(sparse restricted Boltzmann machine,SRBM)[16]、稀疏組受限制玻爾茲曼機(jī)(sparse group restricted Boltzmann machine,SGRBM)[17]、分類(lèi)受限制玻爾茲曼機(jī)(class restricted Boltzmann machine,CRBM)[18]等。更詳細(xì)的描述內(nèi)容參見(jiàn)文獻(xiàn)[19]。

1.2.2 深度信念網(wǎng)絡(luò)

深度信念網(wǎng)絡(luò)(deep belief networks,DBN)是由多個(gè)受限制玻爾茲曼機(jī)(RBM)疊加而成的深度網(wǎng)絡(luò)。深度信念網(wǎng)絡(luò)的典型結(jié)構(gòu)如圖3所示,它通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)來(lái)訓(xùn)練整個(gè)深度信念網(wǎng)絡(luò)[7]。預(yù)訓(xùn)練時(shí)用無(wú)標(biāo)簽數(shù)據(jù)單獨(dú)訓(xùn)練每一層受限制玻爾茲曼機(jī),通過(guò)自下而上的方式,將下層受限制玻爾茲曼機(jī)輸出作為上層受限制玻爾茲曼機(jī)輸入。當(dāng)預(yù)訓(xùn)練完成后,網(wǎng)絡(luò)會(huì)獲得一個(gè)較好的網(wǎng)絡(luò)初始值,但這還不是最優(yōu)的[20]。再采用有標(biāo)簽數(shù)據(jù)去訓(xùn)練網(wǎng)絡(luò),誤差自頂向下傳播,一般采用梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。深度信念網(wǎng)絡(luò)的出現(xiàn)是深度學(xué)習(xí)的轉(zhuǎn)折點(diǎn),目前深度信念網(wǎng)絡(luò)已應(yīng)用于語(yǔ)音、圖像處理等方面,尤其是在大數(shù)據(jù)方面[10]。

圖3 深度信念網(wǎng)絡(luò)典型結(jié)構(gòu)

深度信念網(wǎng)絡(luò)的變種模型有卷積深度信念網(wǎng)(convolutional deep belief networks,CDBN)[21]、稀疏深度信念網(wǎng)(sparse deep belief networks,SDBN)[22]、判別深度信念網(wǎng)(discriminative deep belief networks,DDBN)[23]等。

1.2.3 深度玻爾茲曼機(jī)

深度玻爾茲曼機(jī)(deep Boltzmann machine,DBM)與深度信念網(wǎng)絡(luò)相似,都是以受限制玻爾茲曼機(jī)疊加而成。但是,與深度信念網(wǎng)絡(luò)不同,層間均為無(wú)向連接,省略了由上至下的反饋參數(shù)調(diào)節(jié)。訓(xùn)練方式也與深度信念網(wǎng)絡(luò)相似,先采用無(wú)監(jiān)督預(yù)訓(xùn)練方法,得到初始權(quán)值,再運(yùn)用場(chǎng)均值算法,最后采用有監(jiān)督微方式進(jìn)行微調(diào)。

1.3 堆疊自動(dòng)編碼器

1.3.1 自動(dòng)編碼器

自動(dòng)編碼器(auto encoder,AE)由編碼器與解碼器組成,其原理如圖4所示。核心思想是將輸入信號(hào)進(jìn)行編碼,使用編碼之后的信號(hào)重建原始信號(hào),目的是讓重建信號(hào)與原始信號(hào)相比重建誤差最小[24]。編碼器將輸入數(shù)據(jù)映射到特征空間,解碼器將特征映射回?cái)?shù)據(jù)空間,完成對(duì)輸入數(shù)據(jù)的重建。

圖4 自動(dòng)編碼器原理圖

自動(dòng)編碼器演化的模型如圖5所示,自動(dòng)編碼器演化的模型有去噪自動(dòng)編碼器(denoising auto encoder,DAE)[25]、稀疏自動(dòng)編碼器(sparse auto encoder,SAE)[26]、收縮自動(dòng)編碼器(contractive auto encoder,CAE)[27]、卷積自動(dòng)編碼(convolutional auto encoder,CAE)[28]等。更詳細(xì)的描述內(nèi)容參見(jiàn)文獻(xiàn)[29-31]。

圖5 自動(dòng)編碼器的演變模型

1.3.2 堆疊自動(dòng)編碼器原理

堆疊自動(dòng)編碼器(stacked auto encoders,SAE)與深度信念網(wǎng)絡(luò)類(lèi)似,其結(jié)構(gòu)如圖6所示,都是由簡(jiǎn)單結(jié)構(gòu)疊加起來(lái)的深層網(wǎng)絡(luò)。簡(jiǎn)單來(lái)說(shuō),就是將DBN中的RBM替換成AE就得到了SAE。自動(dòng)編碼器的訓(xùn)練過(guò)程也是使用貪心逐層預(yù)訓(xùn)練算法,但因?yàn)槭峭ㄟ^(guò)重構(gòu)誤差來(lái)進(jìn)行訓(xùn)練,相比較而言比受限制玻爾茲曼機(jī)訓(xùn)練容易[7]。

以自動(dòng)編碼器及其變種模型的為核心的深度網(wǎng)絡(luò)稱之為深度自動(dòng)編碼(deep auto encoders,DAE)。文獻(xiàn)[32]對(duì)深度自動(dòng)編碼器進(jìn)行了詳細(xì)的描述。堆疊自動(dòng)編碼器就是一種典型的深度自動(dòng)編碼。類(lèi)似的還有堆疊去噪自動(dòng)編碼器(stacked denoising auto-encoders,SDAE)[25]、堆疊稀疏自動(dòng)編碼器(stacked sparse auto encoders,SSAE)[33]等。

圖6 堆疊自動(dòng)編碼器結(jié)構(gòu)

2 深度學(xué)習(xí)應(yīng)用2.1 語(yǔ)音處理

長(zhǎng)期以來(lái),語(yǔ)音識(shí)別技術(shù)普遍采用的是聲學(xué)模型混合高斯模型。但這種混合高斯模型本質(zhì)上是一種淺層網(wǎng)絡(luò)建模,不能充分描述特征的狀態(tài)空間分布[34]。2011年微軟[35]將深度學(xué)習(xí)引入語(yǔ)音識(shí)別領(lǐng)域,提出深度神經(jīng)網(wǎng)絡(luò)DNN,本質(zhì)上是把混合高斯模型替換成了深度神經(jīng)網(wǎng)絡(luò)模型大大提高識(shí)別率。該模型在Switchboard標(biāo)準(zhǔn)數(shù)據(jù)集上的識(shí)別錯(cuò)誤率比最低錯(cuò)誤率降低了33%。2014年Van等[36]在網(wǎng)絡(luò)音樂(lè)平臺(tái)Spotify使用深度卷積神經(jīng)網(wǎng)絡(luò)做基于內(nèi)容的音樂(lè)推薦,以及實(shí)現(xiàn)依靠音頻信號(hào)預(yù)測(cè)聽(tīng)眾的收聽(tīng)喜好,然后采用WMF(weighted matrix factorization)模型進(jìn)行評(píng)分預(yù)測(cè)。百度的深度學(xué)習(xí)語(yǔ)音識(shí)別系統(tǒng)DeepSpeech[37]可以在飯店等嘈雜環(huán)境下實(shí)現(xiàn)將近 81% 的辨識(shí)準(zhǔn)確率。2015年Chan等[38]提出了LAS( listen, attend and spell )系統(tǒng)。該系統(tǒng)利用金字塔式雙向的RNN網(wǎng)絡(luò)。不同于傳統(tǒng)的模型,不需要完整的端對(duì)端的CTC(connectionist temporal classification),實(shí)現(xiàn)跳過(guò)音素直接把語(yǔ)音識(shí)別為字符,合成了約4萬(wàn)小時(shí)音頻。當(dāng)不依賴語(yǔ)音詞典和語(yǔ)言模型時(shí)在谷歌語(yǔ)音搜索任務(wù)詞錯(cuò)率達(dá)到14.2%,當(dāng)結(jié)合語(yǔ)言模型時(shí)詞錯(cuò)率達(dá)到11.2%。

2.2 計(jì)算機(jī)視覺(jué)

2012年Hinton[39]和他的2個(gè)學(xué)生在著名的ImageNet問(wèn)題上用更深的卷積神經(jīng)網(wǎng)絡(luò)取得世界最好結(jié)果,贏得了冠軍,使得圖像識(shí)別大踏步前進(jìn)。隨后,深度學(xué)習(xí)在圖像處理方面取得突破性進(jìn)展,如物體定位[40]、臉部識(shí)別[41]和人體姿勢(shì)估計(jì)[42]等。2015年深海團(tuán)隊(duì)[43]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)3萬(wàn)個(gè)例子進(jìn)行121種浮游生物分類(lèi)。Denton等[44]利用卷積神經(jīng)網(wǎng)絡(luò)通過(guò)用戶的性別、年齡、城市和圖片等特征進(jìn)行整合。在Facebook上對(duì)用戶上傳的圖片進(jìn)行標(biāo)簽、分類(lèi)。

2.2.1 圖像語(yǔ)義分割

圖像包括很多層信息,例如這幅圖像是否有特定的物體(如汽車(chē))。所謂的圖像語(yǔ)義分割,就是描述圖片中包含哪些物體、包括街頭的場(chǎng)景分割、三維掃描、對(duì)3-D人體解剖分割定位等。因?yàn)槭腔谙袼胤诸?lèi)方法,所以這個(gè)問(wèn)題會(huì)帶來(lái)巨大的計(jì)算量。2015年Long等[45]提出了利用全卷積網(wǎng)絡(luò) (fully convolutional networks,FCN,)的概念去進(jìn)行圖像語(yǔ)義分割。同年Behnke等[46]提出了語(yǔ)義RGB-D感知器的概念,使得基于深度學(xué)習(xí)的圖像語(yǔ)義分割得到進(jìn)一步發(fā)展。

2.2.2 人臉識(shí)別

Linkface 開(kāi)發(fā)了基于深度學(xué)習(xí)的人臉檢測(cè)創(chuàng)新算法 。無(wú)論場(chǎng)景中是單人還是多人,是側(cè)臉、半遮擋還是模糊等情景中,均能進(jìn)行精準(zhǔn)檢測(cè)。據(jù)全球最具權(quán)威的人臉檢測(cè)評(píng)測(cè)平臺(tái) FDDB 最新數(shù)據(jù),Linkface 的人臉檢測(cè)算法達(dá)到了世界領(lǐng)先的水平。2014年Facebook開(kāi)發(fā)一種叫DeepFace[41]技術(shù)。其貢獻(xiàn)在于對(duì)人臉對(duì)齊和人臉表示環(huán)節(jié)的改進(jìn)。通過(guò)革新的3-D人臉建模勾勒出臉部特征,然后通過(guò)顏色過(guò)濾做出一個(gè)刻畫(huà)特定臉部元素的平面模型。Facebook 建立了一個(gè)來(lái)自于4 030個(gè)人的440萬(wàn)張標(biāo)簽化的人臉池,F(xiàn)acebook 稱這是迄今為止最大規(guī)模的人臉池。它是一個(gè)擁有9層的深度卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)有超過(guò)1.2億個(gè)參數(shù)。該技術(shù)在LFW數(shù)據(jù)集上取得了97.25%的平均精度,已經(jīng)接近人類(lèi)的識(shí)別水平。2015年Google提出FaceNet[47]進(jìn)行人臉驗(yàn)證。它直接學(xué)習(xí)圖像到歐式空間上點(diǎn)的映射,然后基于這個(gè)編碼再做人臉識(shí)別、人臉驗(yàn)證和人臉聚類(lèi)等。其中兩張圖像所對(duì)應(yīng)的特征歐式空間上的點(diǎn)之間的距離直接對(duì)應(yīng)著兩個(gè)圖像是否相似。FaceNet并沒(méi)有像DeepFace和DeepID那樣需要對(duì)齊。FaceNet得到最終表示后不用像DeepID那樣需要再訓(xùn)練模型進(jìn)行分類(lèi),直接計(jì)算距離就可以,簡(jiǎn)單而有效。在Youtube數(shù)據(jù)集上測(cè)試準(zhǔn)確率為95.12%。

目前,傳統(tǒng)人臉識(shí)別技術(shù)主要集中在可見(jiàn)光譜的范疇,對(duì)于跨模態(tài)人臉識(shí)別問(wèn)題尚無(wú)好的解決方法。2015年Sarfraz等[48]利用深度神經(jīng)網(wǎng)絡(luò),成功將紅外熱圖像與可見(jiàn)光圖像進(jìn)行匹配,實(shí)現(xiàn)了跨模態(tài)人臉匹配。該網(wǎng)絡(luò)可以在短短35 ms的時(shí)間內(nèi),能夠?qū)⒓t外熱圖像匹配到其可見(jiàn)光圖像,可以實(shí)現(xiàn)實(shí)時(shí)運(yùn)行。

2.2.3 表情識(shí)別

目前,大部分研究者把卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在表情識(shí)別上。例如,2013年Liu等[49]提出了構(gòu)建一個(gè)新的深層結(jié)構(gòu)(AU-aware deep networks,AUDN),基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,連接SVM做表情分類(lèi)器。2014年Ouellet等[50]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)電腦前的游戲玩家進(jìn)行實(shí)時(shí)表情識(shí)別。Song等[51]利用了一種5層卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了每幅圖像在服務(wù)器的預(yù)測(cè)時(shí)間為50 ms,每個(gè)圖像的往返時(shí)間小于100 ms,在智能手機(jī)上實(shí)現(xiàn)實(shí)時(shí)表情識(shí)別。Ijjina等[52]用Kinect深度傳感器得到的圖片作為表情識(shí)別的對(duì)象,并在卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行表情識(shí)別取得了較好的效果。Byeon等[53]使用3D卷積神經(jīng)網(wǎng)絡(luò)去識(shí)別視頻人臉表情。文獻(xiàn)[54]證明在實(shí)時(shí)表情識(shí)別系統(tǒng),卷積神經(jīng)網(wǎng)絡(luò)比深層神經(jīng)網(wǎng)絡(luò)具有更好的效果。

還有一部分研究者利用其他深度學(xué)習(xí)模型進(jìn)行表情識(shí)別。例如,McLaughlin等[55]提出一種基于深度信念網(wǎng)絡(luò)的實(shí)時(shí)表情識(shí)別系統(tǒng),但只能檢測(cè)4種表情。2013年He等[56]利用深度玻爾茲曼機(jī)對(duì)紅外熱圖像進(jìn)行表情識(shí)別。

此外,一些研究者們將多種深度學(xué)習(xí)模型結(jié)合起來(lái)進(jìn)行表情識(shí)別。例如,2014年LYU等[57]將深度信念網(wǎng)絡(luò)與自編碼器相結(jié)合來(lái)進(jìn)行識(shí)別。2015年Jung等[58]將卷積神經(jīng)網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)合起來(lái)。Kahou等[59]提出一種視頻表情識(shí)別系統(tǒng)EmoNets。卷積神經(jīng)網(wǎng)絡(luò)捕捉視頻信息,檢測(cè)人臉。深度信念網(wǎng)絡(luò)捕捉音頻信息,自編碼器捕捉人肢體行為。該理論贏得了2013 EmotiW 挑戰(zhàn)賽,在2014的數(shù)據(jù)集上準(zhǔn)確率達(dá)到47.67%。

2.3 自然語(yǔ)言處理

Sashihithlu等[60]采用遞歸自編碼方法(recursive auto encoders,RAE)來(lái)解決較為復(fù)雜的情感分析問(wèn)題。Johnson等[61]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)直接在詞袋模型(BoW)上用做文本分類(lèi)任務(wù)。2015年谷歌的Good等利用深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了字鏡頭(word lens)實(shí)時(shí)視頻翻譯性能和通話實(shí)時(shí)翻譯功能。它可以實(shí)現(xiàn)拿著手機(jī)攝像頭對(duì)著實(shí)物,實(shí)物中的文字就可被即時(shí)識(shí)別出,并被翻譯成目標(biāo)語(yǔ)言,目前該技術(shù)可支持20多種語(yǔ)言的即時(shí)視覺(jué)翻譯。更重要的是即使它在不聯(lián)網(wǎng)的狀態(tài)下也能進(jìn)行工作,所有深度學(xué)習(xí)的龐大計(jì)算都是在手機(jī)上完成的。李婷等[62]利用堆疊去噪自動(dòng)編碼器(stack denoising auto encoder,SDAE)識(shí)別盲文。

2.4 醫(yī)療應(yīng)用

Deep Genomics公司開(kāi)始把基因組和深度學(xué)習(xí)結(jié)合起來(lái),Deep Genomics 已經(jīng)推出了他們的第一款產(chǎn)品 SPIDEX。只需將測(cè)試結(jié)果和細(xì)胞類(lèi)型導(dǎo)入,SPIDEX 便可分析出某一變異對(duì) RNA 剪切的影響,并計(jì)算出該變異與疾病之間的關(guān)系。Koziol等[63]利用一種受限玻爾茲曼機(jī)用于肝細(xì)胞癌的分類(lèi)。2015年Fauw等[64]利用20多層的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)糖尿病視網(wǎng)膜病變的眼底圖像。

3 模型總結(jié)及面臨的挑戰(zhàn)

3.1 深度學(xué)習(xí)模型

本文對(duì)深度學(xué)習(xí)模型進(jìn)行分類(lèi)、概括,在此以模型的結(jié)構(gòu)為序,對(duì)深度學(xué)習(xí)模型進(jìn)行總結(jié)如表1~表3所示。

1)模型結(jié)構(gòu)。目前,大部分的深度學(xué)習(xí)模型都是以卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)、深度玻爾茲曼機(jī)、堆疊自動(dòng)編碼器等幾種基本模型為基礎(chǔ)演變而來(lái)。除此之外,還有像遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneural networks,RNN)[74]、深度凸形網(wǎng)絡(luò)(deep convex net,DCN)[75]等其他類(lèi)型的新型深度模型。

2)訓(xùn)練方式。深度學(xué)習(xí)模型的訓(xùn)練方式主要有有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)2種。訓(xùn)練方式因模型結(jié)構(gòu)而異,一般以卷積神經(jīng)網(wǎng)絡(luò)為核心的模型一般采取有監(jiān)督訓(xùn)練方式。而以受限制玻爾茲曼機(jī)與自動(dòng)編碼器為核心的模型,大部分采用無(wú)監(jiān)督學(xué)習(xí)方式預(yù)訓(xùn)練,配合有監(jiān)督微調(diào)模式進(jìn)行參數(shù)訓(xùn)練。

表1 典型深度學(xué)習(xí)模型

表2 玻爾茲曼機(jī)及其演化模型

表3 自動(dòng)編碼器及其演化模型

3)應(yīng)用領(lǐng)域。深度學(xué)習(xí)在語(yǔ)音處理、計(jì)算機(jī)視覺(jué)的應(yīng)用已十分廣泛,許多技術(shù)已用于商用。但是,在自然語(yǔ)言處理的應(yīng)用尚不成熟[1]。一些研究者嘗試用遞歸神經(jīng)網(wǎng)絡(luò)去解決這一問(wèn)題。文獻(xiàn)[74-78]對(duì)遞歸神經(jīng)網(wǎng)絡(luò)在文本生成和機(jī)器翻譯的應(yīng)用做出了詳細(xì)的描述。目前,遞歸神經(jīng)網(wǎng)絡(luò)的變種模型長(zhǎng)短時(shí)記憶模型 (long short-term memory,LSTM)被證明比傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)更加有效[79]。

3.2 面臨的挑戰(zhàn)

1)模型結(jié)構(gòu)創(chuàng)新。自Hinton提出深度學(xué)習(xí)的思想以來(lái),已經(jīng)涌現(xiàn)出大量的深度學(xué)習(xí)模型,然而大部分的模型的構(gòu)建依舊停留在以簡(jiǎn)單模型(如AE,RBM等)疊加而成的深度網(wǎng)絡(luò),或是幾種深度學(xué)習(xí)模型簡(jiǎn)單相疊加,來(lái)構(gòu)建深度學(xué)習(xí)模型。這種形式的模型往往不能發(fā)揮深度學(xué)習(xí)的優(yōu)勢(shì),是否存在其他有效的深度學(xué)習(xí)模型,是否可以讓深度學(xué)習(xí)與其他方法進(jìn)行融合,這是今后要研究的問(wèn)題。

2)訓(xùn)練方式的改進(jìn)。深度學(xué)習(xí)已經(jīng)在各個(gè)領(lǐng)域取得了突破性的成果,大部分深度學(xué)習(xí)模型均采用無(wú)監(jiān)督學(xué)習(xí)方式。但是,離完全的無(wú)監(jiān)督學(xué)習(xí)還有一定的距離。目前的深度學(xué)習(xí)模型在無(wú)監(jiān)督預(yù)訓(xùn)練后,仍然需要有監(jiān)督的微調(diào),并沒(méi)有做到完全意義上的無(wú)監(jiān)督學(xué)習(xí)。因此,如何做到完全意義上的無(wú)監(jiān)督學(xué)習(xí)是未來(lái)研究的重點(diǎn)。

3)減少訓(xùn)練時(shí)間。當(dāng)待解決的問(wèn)題過(guò)于復(fù)雜,使深度學(xué)習(xí)模型參數(shù)增加時(shí),會(huì)導(dǎo)致模型的訓(xùn)練時(shí)間逐漸上升,是否可以在不改變硬件性能的條件下,對(duì)算法進(jìn)行改進(jìn),在保證精度的同時(shí),提高訓(xùn)練速度。所以,減少訓(xùn)練時(shí)間,仍是深度學(xué)習(xí)需要努力的研究方向。

4)實(shí)現(xiàn)在線學(xué)習(xí)。目前,深度學(xué)習(xí)的算法大多采用無(wú)監(jiān)督預(yù)訓(xùn)練與有監(jiān)督微調(diào)配合的方式進(jìn)行。然而,一旦在線環(huán)境下引入全局微調(diào),會(huì)使結(jié)果陷入局部最小值。因此,這種訓(xùn)練算法不利于在線學(xué)習(xí)。是否可以改進(jìn)算法進(jìn)而將深度學(xué)習(xí)應(yīng)用于在線環(huán)境,這是未來(lái)要思考的問(wèn)題。

5)克服對(duì)抗樣本。通過(guò)稍微修改實(shí)際樣本,而構(gòu)造出的合成樣本,會(huì)使一個(gè)分類(lèi)器以高置信度認(rèn)為它們屬于錯(cuò)誤的分類(lèi),這就是深度學(xué)習(xí)對(duì)抗樣本問(wèn)題[80-82]。研究如何克服它們可以幫助我們避免潛在的安全問(wèn)題。然而,目前為止并沒(méi)有好的方法出現(xiàn)。一些研究人員嘗試使用常見(jiàn)的正則化方法(包括均化多重模型、均化圖像多采樣觀測(cè)等)去解決這一問(wèn)題,但是并沒(méi)有取得良好的進(jìn)展。因此,深度學(xué)習(xí)的對(duì)抗樣本問(wèn)題仍然是待解決的難題之一。

4 結(jié)束語(yǔ)

本文詳細(xì)描述了幾種典型的深度學(xué)習(xí)模型的構(gòu)造原理,以及訓(xùn)練方法。并且,對(duì)近3年深度學(xué)習(xí)在各個(gè)領(lǐng)域的應(yīng)用進(jìn)行了概括。最后,在現(xiàn)有深度學(xué)習(xí)模型的基礎(chǔ)上討論了深度學(xué)習(xí)面臨的挑戰(zhàn)。

深度學(xué)習(xí)自提出以來(lái)已經(jīng)在許多領(lǐng)域取得了突破性的進(jìn)展。但是,在深度學(xué)習(xí)實(shí)際應(yīng)用的過(guò)程中,往往為了要構(gòu)造合適的深度學(xué)習(xí)模型而大費(fèi)周章。因?yàn)槟壳暗纳疃葘W(xué)習(xí)模型大部分是為了解決某一特定問(wèn)題,而量身定做的。如果用于解決其他問(wèn)題,效果往往不盡如人意。今后研究者們能否通過(guò)改進(jìn)結(jié)構(gòu)與算法,研究出一種可以應(yīng)對(duì)大部分問(wèn)題深度學(xué)習(xí)算法,這是未來(lái)要思考的難題。

[1]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[2]林妙真. 基于深度學(xué)習(xí)的人臉識(shí)別研究[D]. 大連: 大連理工大學(xué), 2013. LIN Miaozhen. Research on face recognition based on deep learning[D]. Dalian, China: Dalian University of Technology, 2013.

[3]HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[4]劉建偉, 劉媛, 羅雄麟. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(7): 1921-1930, 1942. LIU Jianwei, LIU Yuan, LUO Xionglin. Research and development on deep learning[J]. Application research of computers, 2014, 31(7): 1921-1930, 1942.

[5]余濱, 李紹滋, 徐素霞, 等. 深度學(xué)習(xí): 開(kāi)啟大數(shù)據(jù)時(shí)代的鑰匙[J]. 工程研究-跨學(xué)科視野中的工程, 2014, 6(3): 233-243. YU Bin, LI Shaozi, XU Suxia, et al. Deep learning: a key of stepping into the era of big data[J]. Journal of engineering studies, 2014, 6(3): 233-243.

[6]尹寶才, 王文通, 王立春. 深度學(xué)習(xí)研究綜述[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2015, 41(1): 48-59. YIN Biaocai, WANG Wentong, WANG Lichun. Review of deep learning[J]. Journal of Beijing university of technology, 2015, 41(1): 48-59.

[7]張建明, 詹智財(cái), 成科揚(yáng), 等. 深度學(xué)習(xí)的研究與發(fā)展[J]. 江蘇大學(xué)學(xué)報(bào): 自然科學(xué)版, 2015, 36(2): 191-200. ZHANG Jianming, ZHAN Zhicai, CHENG Keyang, et al. Review on development of deep learning[J]. Journal of Jiangsu university: natural science editions, 2015, 36(2): 191-200.

[8]LECUN Y, JACKEL L D, BOTTOU L, et al. Learning algorithms for classification: a comparison on handwritten digit recognition[M]//OH J H, KWON C, CHO S. Neural Networks: The Statistical Mechanics Perspective. Singapore: World Scientific, 1995: 261-276.

[9]陳先昌. 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 杭州: 浙江工商大學(xué), 2014. CHEN Xianchang. Research on algorithm and application of deep learning based on convolutional neural network[D]. Hangzhou, China: Zhejiang Gongshang University, 2014.

[10]李衛(wèi). 深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D]. 武漢: 武漢理工大學(xué), 2014. LI Wei. The research and application of deep learning in image recognition[D]. Wuhan: Wuhan University of Technology, 2014.

[11]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221-231.

[12]BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[EB/OL].Eprint Arxiv: Arxiv,2013. [2014-10-10] http://120.52.73.79/arxiv.org/pdf/1312.6203v3.pdf.

[13]FAN Haoqiang, CAO Zhimin, JIANG Yuning, et al. Learning deep face representation[EB/OL]. Eprint Arxiv: Arxiv, 2014. [2014-10-10] http://120.52.73.80/arxiv.org/pdf/1403.2802v1.pdf.

[14]王冠皓, 徐軍. 基于多級(jí)金字塔卷積神經(jīng)網(wǎng)絡(luò)的快速特征表示方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8): 2492-2495. WANG Guanhao, XU Jun. Fast feature representation method based on multi-level pyramid convolution neural network[J]. Application research of computers, 2015, 32(8): 2492-2495.

[15]LEE H, GROSSE R, RANGANATH R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York, NY, USA, 2009: 609-616.

[16]LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2[C]//Advances in Neural Information Processing Systems 20: 21st Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2007: 873-880.

[17]羅恒. 基于協(xié)同過(guò)濾視角的受限玻爾茲曼機(jī)研究[D]. 上海: 上海交通大學(xué), 2011. LUO Heng. Restricted Boltzmann machines: a collaborative filtering perspective[D]. Shanghai, China: Shanghai Jiao Tong University, 2011.

[18]LAROCHELLE H, BENGIO Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 536-543.

[19]張春霞, 姬楠楠, 王冠偉. 受限波爾茲曼機(jī)[J]. 工程數(shù)學(xué)學(xué)報(bào), 2015, 32(2): 159-173. ZHANG Chunxia, JI Nannan, WANG Guanwei. Restricted Boltzmann machines[J]. Chinese journal of engineering mathematics, 2015, 32(2): 159-173.

[20]劉銀華. LBP和深度信念網(wǎng)絡(luò)在非限制條件下人臉識(shí)別研究[D]. 江門(mén): 五邑大學(xué), 2014. LIU Yinhua. The research of face recognition under unconstrained condition via LBP and deep belief network[D]. Jiangmen: Wuyi University, 2014.

[21]LEE H, GROSSE R, RANGANATH R, et al. Unsupervised learning of hierarchical representations with convolutional deep belief networks[J]. Communications of the ACM, 2011, 54(10): 95-103.

[22]HALKIAS X C, PARIS S, GLOTIN H. Sparse penalty in deep belief networks: using the mixed norm constraint[EB/OL]. [2014-05-08]. http://arxiv.org/pdf/1301.3533.pdf.

[23]LIU Yan, ZHOU Shusen, CHEN Qingcai. Discriminative deep belief networks for visual data classification[J]. Pattern recognition, 2011, 44(10/11): 2287-2296.

[24]鄭胤, 陳權(quán)崎, 章毓晉. 深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J]. 中國(guó)圖象圖形學(xué)報(bào), 2014, 19(2): 175-184. ZHENG Yin, CHEN Quanqi, ZHANG Yujin. Deep learning and its new progress in object and behavior recognition[J]. Journal of image and graphics, 2014, 19(2): 175-184.

[25]VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 1096-1103.

[26]BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Advances in Neural Information Processing Systems 19: 20th Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, 2006: 153-160.

[27]RIFAI S, VINCENT P, MULLER X, et al. Contractive auto-encoders: explicit invariance during feature extraction[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA, USA, 2011.

[28]MASCI J, MEIER U, CIREAN D, et al. Stacked convolutional auto-encoders for hierarchical feature extraction[C]//Proceedings of the 21st International Conference on Artificial Neural Networks, Part I. Berlin Heidelberg, Germany, 2011: 52-59.

[29]王雅思. 深度學(xué)習(xí)中的自編碼器的表達(dá)能力研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014. WANG Yasi. Representation ability research of auto-encoders in deep learning[D]. Harbin: Harbin Institute of Technology, 2014.

[30]李遠(yuǎn)豪. 基于深度自編碼器的人臉美麗吸引力預(yù)測(cè)研究[D]. 江門(mén): 五邑大學(xué), 2014. LI Yuanhao. A study for facial beauty attractiveness prediction based on deep autoencoder[D]. Jiangmen: Wuyi University, 2014.

[31]林洲漢. 基于自動(dòng)編碼機(jī)的高光譜圖像特征提取及分類(lèi)方法研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014. LIN Zhouhan. Hyperspectral image feature extraction and classification based on autoencoders[D]. Harbin: Harbin Institute of Technology, 2014.

[32]曲建嶺, 杜辰飛, 邸亞洲, 等. 深度自動(dòng)編碼器的研究與展望[J]. 計(jì)算機(jī)與現(xiàn)代化, 2014(8): 128-134. QU Jianling, DU Chenfei, DI Yazhou, et al. Research and prospect of deep auto-encoders[J]. Jisuanji yu xiandaihua, 2014(8): 128-134.

[33]林少飛, 盛惠興, 李慶武. 基于堆疊稀疏自動(dòng)編碼器的手寫(xiě)數(shù)字分類(lèi)[J]. 微處理機(jī), 2015(1): 47-51. LIN Shaofei, SHENG Huixing, LI Qingwu. Handwritten digital classification based on the stacked sparse autoencoders[J]. Microprocessors, 2015(1): 47-51.

[34]陳碩. 深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究[D]. 廣州: 華南理工大學(xué), 2013. CHEN Shuo. Research of deep learning neural networks applications in speech recognition[D]. Guangzhou, China: South China University of Technology, 2013.

[35]郭麗麗, 丁世飛. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué), 2015, 42(5): 28-33. GOU Lili, DING Shifei. Research progress on deep learning[J]. Computer science, 2015, 42(5): 28-33.

[36]VAN DEN OORD A, DIELEMAN S, SCHRAUWEN B. Deep content-based music recommendation[M]//Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, 2013: 2643-2651.

[37]HANNUN A, CASE C, CASPER J, et al. Deep speech: scaling up end-to-end speech recognition[EB/OL]. Eprint Arxiv: Arxiv, 2014.[2014-12-19] https://arxiv.org/pdf/1412.5567v2.pdf.

[38]余凱, 賈磊, 陳雨強(qiáng). 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1799-1804. YU Kai, JIA Lei, CHEN Yuqiang. Deep learning: yesterday, today, and tomorrow[J]. Journal of computer research and development, 2013, 50(9): 1799-1804.

[39]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 580-587.

[40]TAIGMAN Y, YANG Ming, RANZATO M A, et al. DeepFace: closing the gap to human-level performance in face verification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 1701-1708.

[41]TOSHEV A, SZEGEdY C. DeepPose: human pose estimation via deep neural networks[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, 2014: 1653-1660.

[42]DIELEMAN S. Classifying plankton with deep neural networks[EB/OL]. (2015-03-17)[2015-05-30]. http://benanne.github.io/2015/03/17/plankton.html.

[43]DENTON E, WESTON J, PALURI M, et al. User conditional hashtag prediction for images[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA, 2015: 1731-1740.

[44]LONG J, SHELHAMER E, DARRELL T Fully convolutional networks for semantic segmentation[J]. IEEE Conference on Computer Vision & Pattern Recognition. 2015, 79(10):1337-1342.

[45]SCHWARA M, SCHULZ H, BEHNKE S. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features[C]//Proceedings of the 2015IEEE International Conference on Robotics and Automation.Seattle, WA, 2015: 1329-1335.

[46]SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: A unified embedding for face recognition and clustering[C]// Computer Vision and Pattern Recognition (CVPR), Boston,USA,2015:815-823.

[47]SARFRAZ M S, STIEFELHAGEN R. Deep perceptual mapping for thermal to visible face recognition.[EB/OL] Eprint Arxiv: Arxiv,2015.[2015-12-23].http://120.52.73.80/arxiv.org/pdf/1507.02879v1.pdf.

[48]LIU Mengyi, LI Shaoxin, SHAN Shiguang, et al. Au-aware deep networks for facial expression recognition[C]//Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Shanghai, China, 2013: 1-6.

[49]OUELLET S. Real-time emotion recognition for gaming using deep convolutional network features[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-7-16].https://arxiv.org/pdf/1408.3750v1.pdf.

[50]SONG I, KIM H J, JEON P B. Deep learning for real-time robust facial expression recognition on a smartphone[C]//Proceedings of the 2014 IEEE International Conference on Consumer Electronics. Las Vegas, NV, 2014: 564-567.

[51]IJJINA E P, MOHAN C K. Facial expression recognition using kinect depth sensor and convolutional neural networks[C]//Proceedings of the 2014 13th International Conference on Machine Learning and Applications. Detroit, MI, 2014: 392-396.

[52]BYEON Y H, KWAK K C. Facial expression recognition using 3D convolutional neural network[J]. International journal of advanced computer science and applications, 2014, 5(12): 107-112.

[53]JUNG H, LEE S, PARK S, et al. Development of deep learning-based facial expression recognition system[C]// Frontiers of Computer Vision (FCV), 2015 21st Korea-Japan Joint Workshop on 2015:1-4.

[54]MCLAUGHLIN T, MAI L, BAYANBAT N. Emotionrecognition with deep-belief networks[EB/OL].2008 http://cs229.stanford.edu/proj2010/McLaughlinLeBayanbat-RecognizingEmotionsWithDeepBeliefNets.pdf.

[55]HE Shan, WANG Shanfei, LAN Wuwei, et al. Facial expression recognition using deep Boltzmann machine from thermal infrared images[C]//Proceedings of the 2013 Humaine Association Conference on Affective Computing and Intelligent Interaction. Geneva, 2013: 239-244.

[56]LV Yadan, FENG Zhiyong, XU Chao. Facial expression recognition via deep learning[C]//Proceedings of the 2014 International Conference on Smart Computing. Hong Kong, China, 2014: 303-308.

[57]JUNG H, LEE S, PARK S, et al. Deep temporal appearance-geometry network for facial expression recognition[EB/OL] .Eprint Arxiv: Arxiv,2015.[2015-6-5].http://120.52.73.75/arxiv.org/pdf/1503.01532v1.pdf.

[58]KAHOU S E, BOUTHILLIER X, LAMBLIN P et al. EmoNets: Multimodal deep learning approaches for emotion recognition in video[J]. Journal on Multimodal User Interfaces, 2015, 10(2):1-13.

[59]SASHIHITHLU S, SOMAN S S. Complex sentimentanalysis using recursive autoencoders[EB/OL]. Core.ac.Uk: CiteSeerX,2013.[2015-9-30].https://core.ac.uk/display/23426251.

[60]JOHNSON R, ZHANG Tong. Effective use of word order for text categorization with convolutional neural networks[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-10-10]. http://120.52.73.79/arxiv.org/pdf/1412.1058.pdf.

[61]李婷. 基于深度學(xué)習(xí)的盲文識(shí)別方法[J]. 計(jì)算機(jī)與現(xiàn)代化, 2015(6): 37-40. LI Ting. A deep learing method for braille recognition[J].Jisuanji yu xiandaihua, 2015(6): 37-40.

[62]KOZIOL J A, TAN E M, DAI Liping, et al. Restricted Boltzmann machines for classification of hepatocellular carcinoma[J]. Computational biology journal, 2014, 2014: 418069.

[63]FAUW J D. Detecting diabetic retinopathy in eye images[EB/OL]. 2015[2015-07-28]. http://jeffreydf.github.io/diabetic-retinopathy-detection.

[64]CUN Y L, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems 2. San Francisco, CA, USA, 1990: 396-404.

[65]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 22l-231.

[66]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

[67]SALAKHUTDINOV R, HINTON G E. Deep Boltzmann machines[C]//Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Clearwater, Florida, USA, 2009: 448-455.

[68]杜騫. 深度學(xué)習(xí)在圖像語(yǔ)義分類(lèi)中的應(yīng)用[D]. 武漢: 華中師范大學(xué), 2014. DU Qian. Application of deep learning in image semantic classification[D]. Wuhan: Central China Normal University, 2014.

[69]BENGIO Y. Learning deep architectures for AI[J]. Foundations and trendse in machine learning, 2009, 2(1): 1-127.

[70]HINTON G E, SEJNOWSKI T J. Learning and relearning in Boltzmann machines[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA, USA: MIT Press, 1986.

[71]SMOLENSKY P. Information processing in dynamical systems: foundations of harmony theory[M]//Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge, MA, USA: MIT Press, 1986.

[72]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.

[73]MIKOLOV T, KARAFIT M, BURGET L, et al. Recurrent neural network based language model[C]//Proceedings of the Interspeech 2010 11th Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan, 2010: 1045-1048.

[74]DENG Li, YU Dong. Deep convex net: a scalable architecture for speech pattern classification[C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association. Florence, Italy, 2011: 2296-2299.

[75]MIKOLOV T, KOMBRINK S, BURGET L. Extensions of recurrent neural network language model[C]//Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing.Prague, 2011: 5528-5531.

[76]LIU Shujie, YANG Nan, LI Mu, et al. A recursive recurrent neural network for statistical machine translation[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, Maryland, USA, 2014: 1491-1500.

[77]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[EB/OL]. 2014. [2014-10-12].http://120.52.73.79/arxiv.org/pdf/1409.3215v3.pdf.

[78]GRAVES A, MOHAMED A R, HINTON G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, 2013: 6645-6649.

[79]SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al.Intriguing properties of neural networks[EB/OL]. Eprint Arxiv: Arxiv,2014.[2014-10-12]. http://120.52.73.78/arxiv.org/pdf/1312.6199v4.pdf.

[80]NGUYEN A, YOSINSKI J, CLUNE J Deep neural networks are easily fooled: High confidence predictions for unrecognizable images[C]// Computer Vision and Pattern Recognition. IEEE, Boston,USA,2015:427-436.

[81]LIPTON Z C. (Deep learning’s deep flaws)’s deep flaws[EB/OL]. [2015-07-28]. http://www.kdnuggets.com/2015/01/deep-learning-flaws-universal-machine-learning.html.

劉帥師,女,1981年生,講師,博士,主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺(jué)。

程曦,男,1989年生,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)。

郭文燕,女,1991年生,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別、機(jī)器學(xué)習(xí)。

Progress report on new research in deep learning

LIU Shuaishi, CHENG Xi, GUO Wenyan, CHEN Qi

(College of Electrical and Electronic Engineering, Changchun University of Technology, Changchun 130000, China)

Deep learning has recently received widespread attention. Using a model structure, this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of different models. The paper firstly introduces the concept and significance of deep learning, and then reviews four typical models: a convolutional neural network; deep belief networks; the deep Boltzmann machine; and an automatic stacking encoder. The paper then concludes by reviewing the applications of deep learning as regards speech processing, computer vision, natural language processing, medical science, and other aspects. Finally, the existing deep learning model is summarized and future challenges discussed.

deep learning; convolutional neural network; deep belief networks; deep Boltzmann machine; automatic stacking encoder

2015-11-27.

日期:2016-07-15.

吉林省科技廳青年科研基金項(xiàng)目(20140520065JH,20140520076JH);長(zhǎng)春工業(yè)大學(xué)科學(xué)研究發(fā)展基金自然科學(xué)計(jì)劃項(xiàng)目(2010XN07).

. E-mail:劉帥師. E-mail:liu-shuaishi@126.com.

TP18

A

1673-4785(2016)05-0567-10

10.11992/tis.201511028

http://www.cnki.net/kcms/detail/23.1538.TP.20160715.1353.002.html

劉帥師,程曦,郭文燕,等.深度學(xué)習(xí)方法研究新進(jìn)展[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(5): 567-577.

英文引用格式:LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI transactions on intelligent systems, 2016,11(5):567-577.

猜你喜歡
編碼器信念卷積
融合CNN和Transformer編碼器的變聲語(yǔ)音鑒別與還原
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
為了信念
發(fā)光的信念
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
信念
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于雙增量碼道的絕對(duì)式編碼器設(shè)計(jì)
基于數(shù)字信號(hào)處理的脈沖編碼器
灵川县| 梧州市| 长丰县| 洛阳市| 新宁县| 新巴尔虎右旗| 韶山市| 神池县| 罗甸县| 喀喇沁旗| 营山县| 辉南县| 同心县| 武乡县| 吴江市| 郑州市| 崇州市| 深圳市| 定陶县| 铁岭县| 密云县| 左贡县| 海丰县| 东港市| 昌吉市| 剑阁县| 鄱阳县| 延吉市| 得荣县| 林西县| 盐边县| 元朗区| 菏泽市| 治多县| 武汉市| 客服| 克什克腾旗| 广安市| 甘洛县| 儋州市| 灌阳县|