摘要:深度學(xué)習(xí)作為當(dāng)今計(jì)算機(jī)智能產(chǎn)業(yè)中重要的一支,其在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言的處理方面已經(jīng)有了相當(dāng)規(guī)模的應(yīng)用。以深度學(xué)習(xí)技術(shù)在現(xiàn)實(shí)的具體應(yīng)用為目標(biāo)進(jìn)行分析研究,已經(jīng)成為當(dāng)代計(jì)算機(jī)技術(shù)中的熱門(mén)。本文通過(guò)分析逐層預(yù)訓(xùn)練后再用微調(diào)的深度學(xué)習(xí)貪婪層訓(xùn)練方法, 深入了解了深度學(xué)習(xí)深層結(jié)構(gòu)的特點(diǎn),同時(shí)涉獵時(shí)下最流行的五層深度網(wǎng)絡(luò)內(nèi)部組成。通過(guò)認(rèn)真研究相關(guān)內(nèi)容,展望了深度學(xué)習(xí)的未來(lái)前景。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);梯度下降;驗(yàn)證集;監(jiān)督學(xué)習(xí);貪婪層訓(xùn)練方法;深度學(xué)習(xí)
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一項(xiàng)新興內(nèi)容,經(jīng)過(guò)對(duì)大量經(jīng)驗(yàn)的總結(jié),實(shí)現(xiàn)了可以通過(guò)自動(dòng)學(xué)習(xí)的方法使計(jì)算機(jī)的算法得到提升,其在現(xiàn)實(shí)中的應(yīng)用,已經(jīng)從最初的人工神經(jīng)網(wǎng)絡(luò)的概念、人工神經(jīng)元的數(shù)學(xué)模型,發(fā)展到通過(guò)收集用戶的行為運(yùn)作,分析其行為模式,進(jìn)而生成信息過(guò)濾系統(tǒng)而了解使用者的興趣所在。國(guó)際上流行的貪婪逐層方法使深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)研究的一個(gè)新領(lǐng)域。對(duì)于數(shù)據(jù)信息的大需求量,決定了深度學(xué)習(xí)符合大數(shù)據(jù)時(shí)代的相關(guān)要求的特性。其應(yīng)用主要表現(xiàn)在:
1 深度學(xué)習(xí)在Supervised Learning(監(jiān)督學(xué)習(xí))中的應(yīng)用
這是一種非常繁瑣的提取方案,深度學(xué)習(xí)與普通機(jī)器學(xué)習(xí)的區(qū)別在于多個(gè)隱層,對(duì)每一層特征的歸納總結(jié)并非由人工完成,而是模擬人腦機(jī)能在分析大量信息基礎(chǔ)上習(xí)得的。作為機(jī)器學(xué)習(xí)非常流行的學(xué)習(xí)方法,監(jiān)督學(xué)習(xí)需要捕獲足夠數(shù)據(jù),且這些數(shù)據(jù)已經(jīng)將確定的結(jié)果標(biāo)簽化。通過(guò)這種方式來(lái)學(xué)習(xí)一個(gè)系統(tǒng)假設(shè)。例如要學(xué)習(xí)一個(gè)表情識(shí)別系統(tǒng),首先需要通過(guò)設(shè)備收集大量人臉表情圖像,而且每個(gè)圖案都具備該圖像對(duì)應(yīng)的表情詳細(xì)代表的結(jié)果標(biāo)簽。若系統(tǒng)假設(shè)是一類回歸問(wèn)題; 另外一類預(yù)測(cè)值只有很少的幾個(gè)離散取值,則我們把這種學(xué)習(xí)問(wèn)題叫做分類問(wèn)題。當(dāng)前最廣泛的機(jī)器學(xué)習(xí)問(wèn)題基本都可歸為分類問(wèn)題,監(jiān)督學(xué)習(xí)也可以歸為分類問(wèn)題的范疇。
1.1 對(duì)于降低梯度的問(wèn)題的解決方案
普通的學(xué)習(xí)訓(xùn)練方式包括:①=1\*GB3全批量梯度下降;②=2\*GB3隨機(jī)小批量梯度下降;③=3\*GB3隨機(jī)梯度下降,目的在于精確調(diào)整權(quán)向量,為每個(gè)指標(biāo)的重要程度計(jì)算一個(gè)最大變化量,人為使權(quán)重發(fā)生一個(gè)微弱的變化,而目標(biāo)函數(shù)通過(guò)升高或降低來(lái)調(diào)節(jié)權(quán)重。兩種方式的不同之處是:利用樣本的手段有所區(qū)別。全批量梯度下降算法將全部樣本的誤差計(jì)算出來(lái),進(jìn)而得到目標(biāo)函數(shù),每個(gè)指標(biāo)的重要程度沿最大變化量進(jìn)行反向移動(dòng),把學(xué)習(xí)率漸漸降低,對(duì)防止誤導(dǎo)結(jié)果方向是有效的。
1.2 訓(xùn)練集、驗(yàn)證集與測(cè)試集
訓(xùn)練在結(jié)束以后,可以用一種未投入訓(xùn)練的樣本集合檢驗(yàn)系統(tǒng)的學(xué)習(xí)成效。我們把投入訓(xùn)練的樣本集叫做訓(xùn)練集,訓(xùn)練結(jié)束后進(jìn)行測(cè)試,然后收集到所有測(cè)試成果,所有成果樣本的總稱為測(cè)試集。現(xiàn)在,訓(xùn)練方法得到了革新,將測(cè)試集投入訓(xùn)練,以檢驗(yàn)該模型的優(yōu)化程度。用投入的樣本依次更新該指標(biāo)在整體評(píng)價(jià)中的相對(duì)重要程度,以測(cè)試集代替樣本集對(duì)訓(xùn)練的效果進(jìn)行檢驗(yàn),如果產(chǎn)生最大效果,就要立刻中止更新。因?yàn)閰⑴c檢驗(yàn)的范例已經(jīng)進(jìn)行了學(xué)習(xí),已經(jīng)不再具備評(píng)估的功能,因此需要用驗(yàn)證集來(lái)進(jìn)行驗(yàn)證。訓(xùn)練集、驗(yàn)證集和測(cè)試集形成了樣本不可分割的組成部分。驗(yàn)證集的作用是通過(guò)算法判斷受評(píng)模塊是否達(dá)到最優(yōu);測(cè)試集的測(cè)試結(jié)果表現(xiàn)在受測(cè)模塊辨識(shí)新樣本的水平。
1.3 Classifier與深度學(xué)習(xí)的組成
線性Classifier是當(dāng)下便捷而實(shí)用的分類器,第一需要計(jì)算范例信息中各部分特征加權(quán)之和,如果這個(gè)結(jié)果大于限定值, input就要?jiǎng)澐值綄俚念惍?dāng)中,如果這個(gè)結(jié)果小于限定值,input就要?jiǎng)澐值搅硪活惍?dāng)中。圖形和人聲的處理相對(duì)復(fù)雜,使系統(tǒng)對(duì)物體的位置、方向、光線強(qiáng)度、腔調(diào)、地方語(yǔ)言等無(wú)關(guān)因素不敏感,然而又對(duì)微小差別產(chǎn)生應(yīng)激反應(yīng)。深度學(xué)習(xí)不用手工選擇良好的特征提取器,僅需接受普通訓(xùn)練就能完成自動(dòng)學(xué)習(xí)的過(guò)程,既能對(duì)微小的差別產(chǎn)生應(yīng)激反應(yīng),又能忽略非關(guān)鍵因素的干擾。
2 深度學(xué)習(xí)中建立多層神經(jīng)網(wǎng)絡(luò)的應(yīng)用
①=1\*GB3一層一層的建立單層神經(jīng)單位,每次只對(duì)一個(gè)單層訓(xùn)練;
②=2\*GB3全部單層逐一訓(xùn)練完成后,可以利用wakesleep算法優(yōu)化;
③=3\*GB3 認(rèn)識(shí)感知過(guò)程 ,與外部特征相匹配后生成各層的抽象表示,并生成權(quán)重;
④=4\*GB3生成過(guò)程,利用頂層表示和向下權(quán)重,生成底層的狀態(tài),同時(shí)即時(shí)更新規(guī)則。
3 深度學(xué)習(xí)應(yīng)用中的貪婪逐層方法
貪婪逐層方法的基本思想是:訓(xùn)練網(wǎng)絡(luò)的頻率是每次一層,第一次訓(xùn)練的時(shí)候,該網(wǎng)絡(luò)只能包含一個(gè)隱藏層,只有當(dāng)這個(gè)僅包含一個(gè)隱藏層的網(wǎng)絡(luò)受訓(xùn)結(jié)束后,才能將下一個(gè)訓(xùn)練目標(biāo)定為包含兩個(gè)隱藏層的網(wǎng)絡(luò),按這個(gè)規(guī)律進(jìn)行各層的訓(xùn)練。在各道工序中,需要固定好前面已經(jīng)訓(xùn)練好的一層,才可以增加下一層??梢栽诒O(jiān)督下進(jìn)行每一層的訓(xùn)練,然而業(yè)內(nèi)常用像autocoderHYPERLINK"http://www.so.com/link?url=http%3A%2F%2Fdict.youdao.com%2Fsearch%3Fq%3Dautocoder%26keyfrom%3Dhao360&q=%E8%87%AA%E5%8A%A8%E7%BC%96%E7%A0%81%E5%99%A8+%E8%8B%B1%E8%AF%AD&ts=1522330884&t=5dcc357b86d168ef385c280436b951d"\t"_blank"一類的無(wú)監(jiān)督方法。每一層訓(xùn)練成果中得到的權(quán)重,我們可以用這個(gè)權(quán)重還原全部的深度網(wǎng)絡(luò)的權(quán)重,最后以“微調(diào)”的方式調(diào)整整個(gè)網(wǎng)絡(luò)。貪婪逐層方法已經(jīng)在財(cái)務(wù)管理以及勞資管理系統(tǒng)中有出色表現(xiàn)。
4 結(jié)語(yǔ)
綜上所述,本文回顧了深度學(xué)習(xí)的發(fā)展歷程及應(yīng)用成就,詳細(xì)闡述了逐層預(yù)訓(xùn)練后再用微調(diào)的深度學(xué)習(xí)貪婪層訓(xùn)練方法,從生物學(xué)與仿生學(xué)的角度來(lái)說(shuō),深度學(xué)習(xí)通過(guò)模擬人體大腦神經(jīng)網(wǎng)絡(luò)中參與認(rèn)知學(xué)習(xí)部分,并以接近人體大腦的思維方式對(duì)相關(guān)信息做出說(shuō)明與判斷,從其智能化的角度來(lái)說(shuō),具有極大的市場(chǎng)應(yīng)用前景,然而由于其天生缺點(diǎn),其技術(shù)仍然需要在實(shí)踐中不斷改進(jìn),相信隨著計(jì)算機(jī)與仿生技術(shù)的進(jìn)步,深度學(xué)習(xí)在現(xiàn)實(shí)中的應(yīng)用將更加廣闊。
參考文獻(xiàn):
[1]Mitchell T.Machine learning[M].[S.l.]: Mc Graw Hill,1997.
[2]Alpaydin E.Introduction to machine learning[M].Cambridge:MITPress,2004.
[3]Samuel A L.Some studies in machine learning using game of checkers[J].IBM Journal of Research and Development,2000,44(1/2):206226.
作者簡(jiǎn)介:陳思宇(1997),男,河南西平人,2014級(jí)網(wǎng)絡(luò)工程專業(yè)在讀本科生。