聶振海 賈丹
摘 要:基于“深度神經(jīng)網(wǎng)絡(luò)”(DNN,深層神經(jīng)網(wǎng)絡(luò))的機(jī)器學(xué)習(xí)模型,已在語(yǔ)音識(shí)別、圖像識(shí)別和自然語(yǔ)言處理領(lǐng)域取得突破進(jìn)展。深度學(xué)習(xí)極大地拓展了機(jī)器學(xué)習(xí)研究領(lǐng)域,并推動(dòng)人工智能技術(shù)取得迅猛發(fā)展。深度學(xué)習(xí)通過多層人工神經(jīng)網(wǎng)絡(luò),從大量的訓(xùn)練數(shù)據(jù)集中無(wú)監(jiān)督學(xué)習(xí),不斷地歸納總結(jié)并可對(duì)新的數(shù)據(jù)樣本做出智能識(shí)別和準(zhǔn)確預(yù)測(cè)。
關(guān)鍵詞:深度學(xué)習(xí) ?人工神經(jīng)網(wǎng)絡(luò) ?機(jī)器學(xué)習(xí)
中圖分類號(hào):TP181 ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)10(c)-0224-02
20世紀(jì)80年代末,人工神經(jīng)網(wǎng)絡(luò)反向傳播算法(BP,反向傳播)發(fā)明,極大地?cái)U(kuò)展了機(jī)器學(xué)習(xí)的研究基礎(chǔ),繼而推進(jìn)基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)范疇。BP算法允許使用的人工神經(jīng)網(wǎng)絡(luò)模型,從大量的統(tǒng)計(jì)規(guī)律,預(yù)測(cè)未知事件的訓(xùn)練樣本的學(xué)習(xí)。根據(jù)對(duì)比的實(shí)驗(yàn)結(jié)果,基于人工規(guī)則的統(tǒng)計(jì)模型機(jī)器學(xué)習(xí)方法,結(jié)果表明具有相對(duì)優(yōu)越性?;谌斯ど窠?jīng)網(wǎng)絡(luò)BP算法,雖然被稱為多層感知器,但仍然是一個(gè)淺層的模型,只具有一個(gè)隱藏層節(jié)點(diǎn)。90年代以來(lái),眾多基于淺層模型的機(jī)器學(xué)習(xí)算法應(yīng)運(yùn)而生,如,支持向量機(jī)(SVM),Boosting,最大熵法(LR)等。這些模型的結(jié)構(gòu)通常只包含一個(gè)隱層節(jié)點(diǎn)(SVM,Boosting),或者不隱藏節(jié)點(diǎn)(LR)。在學(xué)術(shù)研究和工業(yè)應(yīng)用中證明:這些機(jī)器學(xué)習(xí)模型是一個(gè)巨大的成功。自2000年以來(lái),隨著IT行業(yè)的蓬勃發(fā)展,智能分析和大數(shù)據(jù)預(yù)測(cè)的技術(shù)在互聯(lián)網(wǎng)領(lǐng)域呈現(xiàn)出巨大的市場(chǎng)需求,基于淺層模型的機(jī)器學(xué)習(xí)算法獲得不斷應(yīng)用推廣。如,移動(dòng)應(yīng)用平臺(tái)的搜索廣告系統(tǒng),谷歌的AdWords廣告的點(diǎn)擊率估算,網(wǎng)絡(luò)搜索排序(如雅虎和Bing搜索引擎),垃圾郵件過濾系統(tǒng),社交媒體上的推薦系統(tǒng)內(nèi)容推廣。
傳統(tǒng)的機(jī)器學(xué)習(xí)模式是通過監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),人工控制采樣數(shù)據(jù)集的特征,淺層機(jī)器學(xué)習(xí)模型主要負(fù)責(zé)特征分類或預(yù)測(cè)。當(dāng)基于統(tǒng)計(jì)模型的特征提取時(shí),特征提取的好壞將成為決定整個(gè)系統(tǒng)性能優(yōu)劣的關(guān)鍵因素。深度學(xué)習(xí)對(duì)機(jī)器學(xué)習(xí)模型和大量的訓(xùn)練數(shù)據(jù)的本質(zhì)不同在于,即通過有許多隱藏的多層神經(jīng)網(wǎng)絡(luò)中無(wú)監(jiān)督學(xué)習(xí)出更多隱含的特征,從而提高對(duì)數(shù)據(jù)集的分類或預(yù)測(cè)的準(zhǔn)確性。深度學(xué)習(xí)模式不同于傳統(tǒng)的淺層學(xué)習(xí)模型:(1)機(jī)器模型結(jié)構(gòu)往往多于1層,通常有5層并隱含多層節(jié)點(diǎn);(2)強(qiáng)調(diào)無(wú)監(jiān)督學(xué)習(xí),通過逐層功能的重要性變換映射出樣品從原來(lái)特征空間改造成一個(gè)新的特征空間表示,使得分類或預(yù)測(cè)變得容易實(shí)現(xiàn)。利用大數(shù)據(jù)的特點(diǎn)來(lái)機(jī)器學(xué)習(xí),闡明了基于深度學(xué)習(xí)的方法對(duì)比基于人工特征提取規(guī)則的傳統(tǒng)淺層機(jī)器學(xué)習(xí)方法,更能深刻揭示出數(shù)據(jù)背后所隱含的豐富信息。
支持深度學(xué)習(xí)的基礎(chǔ),是因?yàn)槿祟惔竽X系統(tǒng)確實(shí)含有豐富的層次。2006年,多倫多大學(xué)的杰弗里·辛頓教授發(fā)表了1篇文章,介紹了傳統(tǒng)機(jī)器學(xué)習(xí)的突破,即深度學(xué)習(xí)。(1)基于人工神經(jīng)網(wǎng)絡(luò)隱層的學(xué)習(xí)能力優(yōu)異的特性,無(wú)監(jiān)督學(xué)習(xí)更能深刻獲取大數(shù)據(jù)的隱含信息,從而方便地對(duì)數(shù)據(jù)進(jìn)行可視化或分類處理;(2)深度學(xué)習(xí)的難度可以通過無(wú)監(jiān)督學(xué)習(xí)“逐層初始化”有效地克服。谷歌、Facebook等大數(shù)據(jù)頂尖的IT企業(yè)現(xiàn)在廣泛深入的進(jìn)入深度學(xué)習(xí)研究領(lǐng)域,在大數(shù)據(jù)時(shí)代,更復(fù)雜,更強(qiáng)大的模型往往更深刻地揭示出豐富的數(shù)據(jù)信息內(nèi)涵,并對(duì)未來(lái)或未知事件作出更準(zhǔn)確的預(yù)測(cè)。
1 語(yǔ)音識(shí)別
在語(yǔ)音識(shí)別領(lǐng)域,深度學(xué)習(xí)面臨的問題是海量數(shù)據(jù)信息處理問題。在其聲學(xué)建模部分,它通常面對(duì)10億級(jí)別以上的訓(xùn)練樣本。谷歌語(yǔ)音識(shí)別的研究小組發(fā)現(xiàn),比對(duì)訓(xùn)練DNN預(yù)測(cè)誤差和測(cè)試大致相等的樣本之后,預(yù)測(cè)誤差對(duì)訓(xùn)練樣本的通常模式將顯著小于測(cè)試樣品。由于大量的數(shù)據(jù)包含了豐富的信息層面,DNN大容量復(fù)雜的模型也是欠擬合狀態(tài)。
傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng),基于統(tǒng)計(jì)概率模型對(duì)每個(gè)建模單元描述時(shí),大多采用高斯混合模型(GMM)。這種模式適用于大量數(shù)據(jù)的訓(xùn)練,成熟的區(qū)分度技術(shù)支持。但是高斯混合模型本質(zhì)上是一種淺層網(wǎng)絡(luò)建模,不能完全描述出空間分布特性的狀態(tài)。GMM建模特征尺寸通常為幾十維,不能充分地描述特征之間的相關(guān)性。最后,GMM模型本質(zhì)上是一種可能性的概率模型,雖然區(qū)分度訓(xùn)練可以模擬并將一般模式類區(qū)分開來(lái),但效果一般?;谏窠?jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)深入徹底改變了原來(lái)的語(yǔ)音識(shí)別技術(shù)框架?;谏窠?jīng)網(wǎng)絡(luò)的深度可以充分地描述特征之間的相關(guān)性,它將語(yǔ)音設(shè)有多個(gè)連續(xù)的幀,多幀并在一起,構(gòu)成一個(gè)高維特征,神經(jīng)網(wǎng)絡(luò)的最終深度可用于模擬高維特征的訓(xùn)練。由于使用人腦的多層神經(jīng)網(wǎng)絡(luò)的仿真結(jié)果的深度,可以進(jìn)行逐步信息特征提取,最終形成理想模式的分類特征。其具體使用方法如下:在實(shí)際解碼處理中,使用傳統(tǒng)的統(tǒng)計(jì)語(yǔ)言模型,解碼器使用常規(guī)的動(dòng)態(tài)WFST譯碼器,采用傳統(tǒng)的HMM聲學(xué)模型的模型語(yǔ)音模型。當(dāng)聲音輸出分布模型計(jì)算,完全與神經(jīng)網(wǎng)絡(luò)的后驗(yàn)概率乘以先驗(yàn)概??率后輸出,以取代傳統(tǒng)的HMM模型輸出GMM的可能性概率。2011年,使用DNN技術(shù)的微軟語(yǔ)音識(shí)別研究組,相對(duì)于傳統(tǒng)的GMM語(yǔ)音識(shí)別系統(tǒng),執(zhí)行一個(gè)語(yǔ)音模型的語(yǔ)音識(shí)別系統(tǒng),其相對(duì)誤差的識(shí)別率下降25%,是語(yǔ)音識(shí)別領(lǐng)域的重大突破。
2 圖像識(shí)別
1989年,紐約大學(xué)教授揚(yáng)·LeCun公布的卷積神經(jīng)網(wǎng)絡(luò)CNN的研究。CNN具有一個(gè)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與深度,通常至少兩個(gè)非線性卷積層可訓(xùn)練,兩個(gè)非線性固定卷積層(池層)和一個(gè)完整的連接層,總共至少5個(gè)隱藏層。 CNN的結(jié)構(gòu)的靈感來(lái)自于著名的胡貝爾-威塞爾生物視覺模型,特別是模擬視皮層簡(jiǎn)單細(xì)胞V1和V2復(fù)雜的細(xì)胞行為層。一段時(shí)間以來(lái),CNN雖然對(duì)規(guī)模小的問題有比較好的效果,但對(duì)大規(guī)模高像素的圖像識(shí)別,如,高清晰度的自然圖像內(nèi)容的理解效果并不理想。2012年,杰弗里·辛頓在著名的ImageNet問題,利用更深層次的CNN獲得出更好的結(jié)果,并將錯(cuò)誤率的評(píng)測(cè)從26%降低到15%。辛頓的模型,該輸入圖像的像素是不介入任何人工特征提取干預(yù)。識(shí)別效率變得優(yōu)異的部分原因是因?yàn)閮?yōu)化的算法,從而防止過度擬合技術(shù),同時(shí)受益于硬件帶來(lái)GPU計(jì)算能力的提升和更多的訓(xùn)練數(shù)據(jù)集。深入學(xué)習(xí)將取代“人工特點(diǎn)+機(jī)器學(xué)習(xí)”的傳統(tǒng)模型,逐漸成為圖像識(shí)別的主流方法。
3 自然語(yǔ)言處理
深度學(xué)習(xí)的另一個(gè)應(yīng)用領(lǐng)域是自然語(yǔ)言處理(NLP)。加拿大蒙特利爾大學(xué)Yoshua Bengio教授,提議將詞映射到一個(gè)矢量表示空間用Embedding方法,然后用非線性神經(jīng)網(wǎng)絡(luò)模型來(lái)表示。在2008年,工業(yè)界成功使用結(jié)構(gòu)化和多維卷積解決嵌入詞性標(biāo)注,組塊,命名實(shí)體識(shí)別,語(yǔ)義角色標(biāo)注四種典型的NLP問題。相較于聲音和圖像,語(yǔ)言是人類獨(dú)有的創(chuàng)造性成果,全部符號(hào)的生成通過人類的大腦處理系統(tǒng),但人工神經(jīng)網(wǎng)絡(luò)模擬人腦的結(jié)構(gòu),在處理自然語(yǔ)言沒有顯示出明顯的優(yōu)勢(shì)。深度學(xué)習(xí)在自然語(yǔ)言處理方面廣泛的擴(kuò)展空間。
在大數(shù)據(jù)時(shí)代,深度學(xué)習(xí)已經(jīng)推進(jìn)機(jī)器學(xué)習(xí)研究的快速發(fā)展,引起學(xué)術(shù)界和工業(yè)界的充分重視。在實(shí)際應(yīng)用中,深度學(xué)習(xí)已經(jīng)在語(yǔ)音識(shí)別,圖像識(shí)別與自然語(yǔ)言處理方面取得了顯著的進(jìn)步,從而促進(jìn)人工智能的不斷發(fā)展。
參考文獻(xiàn)
[1] LeCun,Y.,Bengio,Y.and Hinton,G.E.(2015).Deep Learning.Nature,2015,521:436-444.
[2] Hinton,G.E.,Osindero,S.and Teh,Y.fast learning algorithm for deep belief nets[J].Neural Computation,2006(98):1527-1554.
[3] Hinton,G.E.and Salakhutdinov,R.R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(28):504-507.