孔峻
摘要
隨著科學(xué)技術(shù)水平的發(fā)展,大數(shù)據(jù)時(shí)代隨之而來(lái),使深度卷積神經(jīng)網(wǎng)絡(luò)具備更加豐富的網(wǎng)絡(luò)結(jié)構(gòu),與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,在特征表達(dá)與特征學(xué)習(xí)方面更具優(yōu)勢(shì)。以深度學(xué)習(xí)算法深度卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)所提出的計(jì)算機(jī)視覺(jué)領(lǐng)域在識(shí)別能力上取得了顯著成績(jī)。本文主要對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用進(jìn)行探討。
【關(guān)鍵詞】深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 計(jì)算機(jī)視覺(jué)應(yīng)用
在機(jī)器學(xué)習(xí)中,深度學(xué)習(xí)扮演著重要的角色,在目前的研究發(fā)展中獲得了顯著提升,并逐步成為眼下研究的熱點(diǎn)項(xiàng)目。在GeofferyHinton所發(fā)表的《Science》一文中,首次提出了深度學(xué)習(xí)這一概念,并以此理論為基礎(chǔ),發(fā)展出深度學(xué)習(xí),在圖像分類、語(yǔ)言識(shí)別、語(yǔ)言處理等方面都獲得了不俗的成績(jī),在學(xué)術(shù)界得到了廣泛關(guān)注。目前的卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建就是在物體識(shí)別、圖像分類中開(kāi)展起來(lái)的一項(xiàng)內(nèi)容,促進(jìn)互聯(lián)網(wǎng)領(lǐng)域中的企業(yè)開(kāi)發(fā)資源應(yīng)用,進(jìn)一步擴(kuò)大了對(duì)深度學(xué)習(xí)系統(tǒng)的研究規(guī)模。
1 深度卷積神經(jīng)網(wǎng)絡(luò)概述
在上世紀(jì)60年代,Wiesel與Hubel教授對(duì)貓的視覺(jué)皮層進(jìn)行研究,首次提出了“感受野”這一概念,而且還掌握了信息分層的處理機(jī)制,并以此獲得了很多醫(yī)學(xué)獎(jiǎng)項(xiàng)。到了90年代,Tokushima則是以“感受野”為基礎(chǔ),第一次提出了神經(jīng)認(rèn)知機(jī),這也是首次實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)。所謂的神經(jīng)認(rèn)知機(jī),是將視覺(jué)模式進(jìn)行分解,通過(guò)層階梯進(jìn)行連接,并對(duì)子模式的特征進(jìn)行處理,即使觀察對(duì)象發(fā)現(xiàn)細(xì)微的變形,模型也能夠?qū)⑵錅?zhǔn)確識(shí)別。隨后在90年代,LeCun在對(duì)手寫(xiě)數(shù)字識(shí)別進(jìn)行研究的過(guò)程中,提出了通過(guò)梯度反向傳播的訓(xùn)練方式進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型,這種大膽的想法,為機(jī)器學(xué)習(xí)提供了新思路,并逐步形成一股強(qiáng)勁的機(jī)器學(xué)習(xí)風(fēng)暴。
卷積神經(jīng)網(wǎng)一般是整理二維輸入的重要數(shù)據(jù),逐步建立人工多層神經(jīng)網(wǎng)絡(luò)。對(duì)于整體網(wǎng)絡(luò)來(lái)說(shuō),各層間都是由二維平面組成,而且在每個(gè)平面中,都有許多相對(duì)獨(dú)立的神經(jīng)元,相鄰的神經(jīng)元能夠在彼此間進(jìn)行連接,但如果兩個(gè)神經(jīng)元處于同一層次,則不能夠進(jìn)行連接。目前,神經(jīng)元網(wǎng)絡(luò)的發(fā)展正在進(jìn)入蓬勃階段,并逐漸成為語(yǔ)音分析、圖像識(shí)別的重要研究?jī)?nèi)容,隨著向更高領(lǐng)域?qū)W習(xí)的遞進(jìn),在應(yīng)用變化方面也更為豐富。從本質(zhì)來(lái)看,卷積神經(jīng)網(wǎng)是第一個(gè)成功研制的多層神經(jīng)網(wǎng)絡(luò),通過(guò)這種模型算法,能夠使多信號(hào)的輸入更加便捷。隨著學(xué)習(xí)深度的逐步增加,信息學(xué)習(xí)正成為一種熱潮,現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)能夠完美的應(yīng)用在語(yǔ)音識(shí)別、圖像識(shí)別、語(yǔ)音處理等多方面,并使機(jī)器學(xué)習(xí)向更深層次的方向發(fā)展。
2 深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用
2.1 池化操作
卷積層能夠?qū)μ卣鬟M(jìn)行搜集,并將這些特征移植到分類器中對(duì)其展開(kāi)尋訓(xùn)練,這樣能夠得到一個(gè)最終的分類計(jì)算結(jié)果,從理論角度來(lái)看,將卷積層所搜集的所有信息特征移植到分類器中,需要對(duì)其進(jìn)行一定量的計(jì)算,特別是針對(duì)大尺度的圖像分辨率。例如,如果輸入圖像樣本的大小為98×98,設(shè)卷積層通過(guò)200個(gè)6×6的卷積核對(duì)此圖像進(jìn)行操作運(yùn)算,一個(gè)卷積核能夠輸出一個(gè)(98-6+1)×(98-6+1)=8649維的向量特征,卷積層在最后則是輸出8649×200-1729800維的向量特征。如果將此結(jié)果輸入分類器中,訓(xùn)練時(shí)會(huì)消耗巨大的計(jì)算資源。但圖像屬于“靜態(tài)性”,也就是說(shuō),如果池化區(qū)域?yàn)閙×n,在得到最終的卷積后,將其特征分成m×n的多個(gè)獨(dú)立區(qū)域,對(duì)這些區(qū)域進(jìn)行操作,并得到一個(gè)特征圖。
在圖像中,局部領(lǐng)域由于其自身的特征,會(huì)在其他的領(lǐng)域中進(jìn)行使用,所以要對(duì)圖像局部領(lǐng)域特征進(jìn)行聚合統(tǒng)計(jì),這樣的操作方式就是所謂的池化操作。對(duì)于池化操作來(lái)說(shuō),若將連續(xù)范圍的圖像當(dāng)做操作的位置,則會(huì)在操作位置與神經(jīng)之間衍生出具有卷積特點(diǎn)的赤化應(yīng)用,這就會(huì)使得池化操作具有平移不變的特性,導(dǎo)致對(duì)分類器、相同特征進(jìn)行池化時(shí)持續(xù)輸出一樣的分類結(jié)果。將卷積后特征與分類結(jié)果進(jìn)行比對(duì),能夠?qū)ο蛄康墓ぷ骶S度起到減少的作用,減少了計(jì)算的工作負(fù)擔(dān),讓訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)了擴(kuò)展補(bǔ)充,防止其出現(xiàn)過(guò)強(qiáng)的擬合作用。
2.2 圖像分類
當(dāng)進(jìn)行圖像分析的過(guò)程中,通過(guò)對(duì)其進(jìn)行劃分,使得產(chǎn)生了不同類型的操作,這些都是圖像分類的一種。這種方式更注重圖像的整體性,要對(duì)每個(gè)圖像進(jìn)行確定,所以在目前的圖像分類計(jì)算操作中包含很多數(shù)據(jù)集所帶有的各類標(biāo)簽。像CIFAR-10/100、或者是Caltech-101/256,但在ImageNet中卻蘊(yùn)含了數(shù)量龐大的高分辨率標(biāo)簽圖像,圖像數(shù)量遠(yuǎn)遠(yuǎn)大于1400萬(wàn)張。在這其中,大部分的卷積神經(jīng)網(wǎng)絡(luò)模型基本都要依靠像圖像數(shù)據(jù)大小的錄入,在對(duì)圖像進(jìn)行剪切時(shí),圖像中的很多原始數(shù)據(jù)就會(huì)在這時(shí)丟失;如果對(duì)圖像的大小、長(zhǎng)寬比等進(jìn)行調(diào)整展開(kāi),防止圖像出現(xiàn)扭曲、變形等現(xiàn)象。還要考慮在輸入圖像大小時(shí),是否會(huì)對(duì)卷積層造成一定的約束作用,確保在輸入維度的過(guò)程中保持其固定。
自2012年開(kāi)始,每年都舉辦圖像分類競(jìng)賽,這也是對(duì)圖像分類算法進(jìn)行評(píng)估的重要賽事。2010年以及2011年的冠軍都是采用的圖像分類算法,主要以SIFT以及LBP為主,并通過(guò)這種方式對(duì)特征進(jìn)行提取,再將其應(yīng)用到分類器中進(jìn)行分類,最好的成績(jī)?yōu)?7.9%錯(cuò)誤率。在2012年的賽事中,對(duì)于圖像分類領(lǐng)域是極其重要的一年,因?yàn)樵谶@次比賽中,Alex提出了AlexNet,在圖像分類中應(yīng)用了深度學(xué)習(xí),將錯(cuò)誤率降低至16.3%,比第二名低了11%。將深度學(xué)習(xí)應(yīng)用于其中,并取得了不俗的成績(jī),使得深度學(xué)習(xí)模型方式正在圖像識(shí)別中得到了越來(lái)越多的推廣。而且,隨著新型神經(jīng)網(wǎng)絡(luò)模型的產(chǎn)生,在成績(jī)方面有不俗的成績(jī),使得該網(wǎng)絡(luò)模型在圖像學(xué)習(xí)中取得了質(zhì)的飛躍。
2.3 物體檢測(cè)
與圖像分類進(jìn)行對(duì)比,在計(jì)算機(jī)視覺(jué)領(lǐng)域中,物體檢測(cè)更加復(fù)雜,一張圖像中,物體類型可能出現(xiàn)不止一種,但都需要對(duì)每種類型圖像進(jìn)行單獨(dú)的定位與識(shí)別。所以,若想要真正有效的提升物體檢查的工作效果,需要對(duì)模型進(jìn)行更加深入的研究與學(xué)習(xí)。目前針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的物體模型檢測(cè)工作一般存在兩種問(wèn)題,其一是對(duì)在選擇區(qū)域進(jìn)行總結(jié)與分類,其二就是如何進(jìn)行選擇區(qū)域,這也從側(cè)面反映出物體檢查的難度要遠(yuǎn)超圖像分類的工作。對(duì)于問(wèn)題的解決措施來(lái)說(shuō),內(nèi)容步驟在復(fù)雜程度上更為繁瑣,對(duì)于模型標(biāo)準(zhǔn)提出了更多的要求。因此,要想物體檢測(cè)模型有更好的發(fā)展,不僅需要在網(wǎng)絡(luò)結(jié)構(gòu)上有所改進(jìn),還要進(jìn)一步優(yōu)化模型訓(xùn)練流程與訓(xùn)練方式,從而使物體檢測(cè)能夠更好的融入到實(shí)踐操作中。
2.4 姿態(tài)佑計(jì)
除了上述的圖像分類、物體檢測(cè)外,隨著網(wǎng)絡(luò)游戲的進(jìn)步,以及動(dòng)畫(huà)視頻受到越來(lái)越多人的歡迎,識(shí)別圖像中的姿態(tài)也是目前極為熱門(mén)的話題。在姿態(tài)檢測(cè)中,涉及面非常廣,其中最受矚目的就是姿態(tài)估計(jì),也是目前計(jì)算機(jī)視覺(jué)的熱點(diǎn)。能夠?qū)⑵溥\(yùn)用到追蹤人物、識(shí)別動(dòng)作等方面,在視頻監(jiān)控方面也有較好的應(yīng)用。
姿態(tài)估計(jì)就是對(duì)圖像中的人進(jìn)行識(shí)別,根據(jù)人身體部位的動(dòng)作,根據(jù)固定維數(shù)的坐標(biāo)來(lái)表示動(dòng)作,每個(gè)維度所展示的就是人體中關(guān)節(jié)的坐標(biāo),也就是說(shuō),人的姿態(tài)是通過(guò)“火柴人”變現(xiàn)出來(lái)的。傳統(tǒng)的表達(dá)方式由于是基于局部的模型構(gòu)建,所以在表達(dá)能力方面有所欠缺。新型的表達(dá)方式則是以深度學(xué)習(xí)為基礎(chǔ),對(duì)人體姿態(tài)進(jìn)行識(shí)別,克服了魯棒性。隨著引入深度神經(jīng)網(wǎng)絡(luò),此問(wèn)題得到了良好解決。
2.5 圖像分割
對(duì)于一張圖,可能有許多不同的物體,希望對(duì)每個(gè)像素點(diǎn)進(jìn)行預(yù)測(cè),明確其所屬的部分(背景,動(dòng)物,人等)。在過(guò)去一段時(shí)間,圖像閾值分割法是此領(lǐng)域最早使用的方法,之后逐漸衍生出基于模糊集、非Shannon熵的閾值法。但隨著深度學(xué)習(xí)應(yīng)用越來(lái)越廣泛,圖像分割領(lǐng)域得到了進(jìn)一步發(fā)展??茖W(xué)家先是使用分類網(wǎng)絡(luò),在保存了圖像分類訓(xùn)練所得數(shù)據(jù)的基礎(chǔ)上,通過(guò)修建得到圖像分割模型,將網(wǎng)絡(luò)深層特征與淺層特征相結(jié)合,利用反卷積層對(duì)原圖放大得到更加準(zhǔn)確的分割結(jié)果,我們將之稱為跳躍結(jié)構(gòu)。
3 結(jié)束語(yǔ)
綜上所述,深度學(xué)習(xí)是目前研究的熱點(diǎn)項(xiàng)目,在卷積神經(jīng)網(wǎng)絡(luò)中運(yùn)用卷積層,能夠?qū)W(wǎng)絡(luò)構(gòu)架中的學(xué)習(xí)內(nèi)容與特征進(jìn)行提取,將其作為研究中的助力,化繁從簡(jiǎn),減少不必要的復(fù)雜學(xué)習(xí)內(nèi)容。此外,在深度學(xué)習(xí)的應(yīng)用中,圖像分類、池化操作、物體檢測(cè)等得到了顯著提高,隨著其在應(yīng)用上的不斷推廣,以及相關(guān)人員的深入研究,會(huì)使深度學(xué)習(xí)取得更加顯著的成績(jī)。目前,在進(jìn)行的深度學(xué)習(xí)應(yīng)用中,只能夠進(jìn)行簡(jiǎn)單的推理計(jì)算,就能夠在圖像、語(yǔ)音等領(lǐng)域取得如此不俗的成績(jī),這也從側(cè)面反映出,若加大對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究力度,能夠在其他領(lǐng)域中發(fā)揮更大的作用,并逐步向人工智能的方向前進(jìn)。
參考文獻(xiàn)
[1]黃斌,盧金金,王建華等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2017(12).
[2]盧洪濤,張秦[J].深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2017(01).