夏長(zhǎng)林
摘要:隨著我國(guó)高新技術(shù)的快速發(fā)展,人工智能領(lǐng)域也得到推動(dòng),而圖像識(shí)別是人工智能領(lǐng)域的一個(gè)重要課題,其主要包括分類識(shí)別和特征提取兩大模塊;同時(shí)深度學(xué)習(xí)作為人工智能的重要研究方向,近年來取得了突飛猛進(jìn)的發(fā)展,它廣泛應(yīng)用在圖像識(shí)別、語(yǔ)音識(shí)別等眾多領(lǐng)域并獲得了巨大成功。該文就深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用進(jìn)行深入分析,主要從人臉識(shí)別、遙感圖像分類等諸多方面進(jìn)行闡述,其目的是為相關(guān)從業(yè)人員提供幫助,以此來推動(dòng)人工智能發(fā)展大潮中圖像識(shí)別領(lǐng)域的發(fā)展。
關(guān)鍵詞:深度學(xué)習(xí);圖像識(shí)別;應(yīng)用
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)33-0185-02
所謂深度學(xué)習(xí)主要是指通過構(gòu)建深層級(jí)別的神經(jīng)網(wǎng)絡(luò)來模擬人腦進(jìn)行分析,或者是模擬人腦進(jìn)行學(xué)習(xí)以及解釋相關(guān)數(shù)據(jù)信息。而圖像識(shí)別是指通過對(duì)圖像進(jìn)行處理、分析及理解,進(jìn)而實(shí)現(xiàn)識(shí)別各種不同模式的目標(biāo)和對(duì)象的目的。如今深度學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于圖像識(shí)別領(lǐng)域中,同時(shí)也獲得了令人矚目的成績(jī)和效果。為此筆者在本文中就深度學(xué)習(xí)的概念以及結(jié)構(gòu)優(yōu)勢(shì)進(jìn)行探討,同時(shí)也對(duì)深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用做出研究,希望可以為某些從業(yè)人員提供借鑒和參考依據(jù)。
1深度學(xué)習(xí)的概述
深度學(xué)習(xí)實(shí)質(zhì)上是一種機(jī)器學(xué)習(xí)的過程,也是人工智能領(lǐng)域中一個(gè)新的研究方向。深度學(xué)習(xí)的最終目的是學(xué)習(xí)樣本的內(nèi)在規(guī)律和表示層次,通過對(duì)所獲得的文字、聲音、圖像等數(shù)據(jù)信息進(jìn)行解釋,可以實(shí)現(xiàn)機(jī)器能夠像人一樣具有分析學(xué)習(xí)能力,從而使機(jī)器可以對(duì)文字、聲音、圖像等數(shù)據(jù)信息進(jìn)行識(shí)別。同時(shí)深度學(xué)習(xí)還是一個(gè)相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)算法,其已經(jīng)超過了先前的相關(guān)技術(shù),尤其是在語(yǔ)音和圖像識(shí)別等領(lǐng)域已經(jīng)取得了不錯(cuò)的效果。將深度學(xué)習(xí)應(yīng)用于圖像識(shí)別領(lǐng)域,可以有效解決很多復(fù)雜模式識(shí)別的難題,可以說深度學(xué)習(xí)有力推動(dòng)了圖像識(shí)別技術(shù)的快速發(fā)展和進(jìn)步。
2深度學(xué)習(xí)的深層結(jié)構(gòu)優(yōu)勢(shì)
深度學(xué)習(xí)的概念其實(shí)是來源于人工智能神經(jīng)網(wǎng)絡(luò)方面的研究,它在圖像識(shí)別系統(tǒng)中的應(yīng)用十分廣泛,它屬于一種包含多層感知器的結(jié)構(gòu),這也是它最大的優(yōu)勢(shì)。相關(guān)研究表明,如果針對(duì)特定任務(wù)的模型深度不夠,就會(huì)增加所需要的計(jì)算單元,因而也就需要更多的參數(shù)和訓(xùn)練樣本。此外,深度學(xué)習(xí)是基于大數(shù)據(jù)的自主學(xué)習(xí)過程,并不是通過手工設(shè)計(jì)來獲得相關(guān)數(shù)據(jù),即是通過組合低層來獲得更加直觀的表示方式,從而實(shí)現(xiàn)機(jī)器能夠代替人類學(xué)習(xí),其最終的目的是實(shí)現(xiàn)模擬人腦來進(jìn)行一系列的學(xué)習(xí)活動(dòng),相當(dāng)于機(jī)器模仿人類的一切學(xué)習(xí)活動(dòng)。由于深度學(xué)習(xí)從大數(shù)據(jù)自主學(xué)習(xí)可以獲得良好的特征,因而可以起到提高圖像識(shí)別系統(tǒng)性能的作用。
3聯(lián)合深度學(xué)習(xí)
早些年,一些計(jì)算機(jī)視覺研究人員將深度學(xué)習(xí)模型視為黑盒子,顯然這是不全面的觀點(diǎn)和看法。為此,相關(guān)研究人員提出了聯(lián)合深度學(xué)習(xí)的概念。首先,傳統(tǒng)的計(jì)算機(jī)視覺系統(tǒng)和深度學(xué)習(xí)模型之間往往存在關(guān)聯(lián)性,因此相關(guān)研究者利用二者的關(guān)聯(lián)性可以進(jìn)一步構(gòu)建出新的深度模型。其次,深度學(xué)習(xí)模型中的各個(gè)層與視覺系統(tǒng)中的若干模塊之間也是可以建立對(duì)應(yīng)關(guān)系的,倘若現(xiàn)有的深度學(xué)習(xí)模型與視覺系統(tǒng)之間存在這種對(duì)應(yīng)的缺失,則相關(guān)研究者可以在此啟發(fā)下構(gòu)建新的深度模型。
4深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用
(1)人臉識(shí)別
深度學(xué)習(xí)在圖像識(shí)別中應(yīng)用最多的就是人臉識(shí)別,而人臉識(shí)別最大的挑戰(zhàn)是如何將諸多因素引發(fā)的變化區(qū)分開來。能夠引發(fā)圖像識(shí)別變化的因素有很多,比如,光線、表情、身份等諸多因素,由這些因素產(chǎn)生的變化在分布的性質(zhì)上往往屬于非線性,同時(shí)這些變化也存在著極為復(fù)雜且多變的特征,所以很多時(shí)候借助傳統(tǒng)線性模型難以將其區(qū)分開來。而深度學(xué)習(xí)之所以被廣泛應(yīng)用于人臉識(shí)別,其最終目的就是為了實(shí)現(xiàn)多層非線性的變換,因?yàn)橥ㄟ^多層的非線性變換就能獲取新的特征,進(jìn)而有效區(qū)分由諸多因素引起的相關(guān)變化。
(2)遙感圖像分類
遙感圖像中包含著大量的數(shù)據(jù)信息,這些具有價(jià)值意義的數(shù)據(jù)被廣泛應(yīng)用于各行各業(yè)。遙感圖像數(shù)據(jù)具有兩大特征,一是由過于龐大的圖像數(shù)據(jù)所導(dǎo)致的信息冗余,二是由較低的圖像分辨率所導(dǎo)致的不同信息間的相互融合。因此,對(duì)遙感圖像分類較為困難,傳統(tǒng)的遙感圖像分類方法難以將有價(jià)值的信息準(zhǔn)確分離出來。如果將深度學(xué)習(xí)技術(shù)應(yīng)用于遙感圖像分類中,通過建立合適的深度學(xué)習(xí)模型,同時(shí)結(jié)合使用特定的優(yōu)化算法,則可以取得很好的分類效果,這已成為當(dāng)前遙感圖像分類技術(shù)的發(fā)展趨勢(shì)。
(3)ImageNet分類
深度學(xué)習(xí)在ImageNet分類中的應(yīng)用也十分廣泛,很多時(shí)候傳統(tǒng)的計(jì)算機(jī)視覺方法所獲得的數(shù)據(jù)往往存在較大誤差,在測(cè)試集上錯(cuò)誤率也是比較高的,而利用深度學(xué)習(xí)可以有效解決這些問題。如今ImageNet分類在深度學(xué)習(xí)中也變得越發(fā)重要,對(duì)于這種網(wǎng)絡(luò)結(jié)構(gòu)我們還可以稱之為AlexNet,相比傳統(tǒng)意義上的卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)具有以下優(yōu)勢(shì):第一,AlexNet主要是采取了Dropout的訓(xùn)練模式來進(jìn)行分類,將一些神經(jīng)元?dú)w置到零以此來實(shí)現(xiàn)模仿人類神經(jīng)元的目的,雖然這一訓(xùn)練的過程變得緩慢,但是可以得到更加魯棒的網(wǎng)絡(luò)模型L6);第二,AlexNet在一定程度上可以實(shí)現(xiàn)降低計(jì)算復(fù)雜度的目的,還可以得到具有稀疏性質(zhì)的神經(jīng)元輸出。
(4)交通圖像識(shí)別
隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,圖像識(shí)別技術(shù)在交通領(lǐng)域中的應(yīng)用也變得越來越廣。交通圖像識(shí)別技術(shù)通常被應(yīng)用于汽車的車牌識(shí)別、車道偏離預(yù)警以及交通標(biāo)識(shí)等諸多方面,為人們的日常出行提供了許多便利。同時(shí)交通圖像識(shí)別技術(shù)還被大量應(yīng)用于智能停車、收費(fèi)管理、交通控制等方面。近年來,相關(guān)研究人員嘗試將深度學(xué)習(xí)技術(shù)運(yùn)用到更深層次的交通圖像識(shí)別領(lǐng)域中,比如,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于交通標(biāo)志檢測(cè)領(lǐng)域,可以得到具有較強(qiáng)時(shí)效性和較高精確度的交通標(biāo)志檢測(cè)算法。基于深度學(xué)習(xí)的交通圖像識(shí)別技術(shù),為交通圖像識(shí)別領(lǐng)域的探索與創(chuàng)新提供了新的方法。
(5)字符圖像識(shí)別
字符圖像識(shí)別在郵政信件、電子簽名和支票等諸多領(lǐng)域被廣泛使用,也取得了較好的效果。但是早些年的字符圖像識(shí)別技術(shù)弊端在于,嚴(yán)重依賴人工對(duì)字符的預(yù)處理,顯然這樣的識(shí)別可靠性和識(shí)別效率較低。深度學(xué)習(xí)技術(shù)興起以后,一些研究人員開始利用深度學(xué)習(xí)技術(shù)來研究字符圖像識(shí)別,并在MNIST數(shù)據(jù)集上獲得了不錯(cuò)的成績(jī)和效果,將字符圖像識(shí)別的錯(cuò)誤率明顯降低,使得機(jī)器與人類觀察者之間的差距越來越小。
(6)視頻圖像分析
雖然深度學(xué)習(xí)在視頻圖像分析領(lǐng)域中也得到一些應(yīng)用,但是就目前應(yīng)用的情況來看依然處于起步階段。利用深度學(xué)習(xí)來描述視頻的靜態(tài)圖像特征是相對(duì)容易的,相應(yīng)的深度學(xué)習(xí)模型可以通過在ImageNet上學(xué)習(xí)獲得。而在深度學(xué)習(xí)中如何描述視頻的動(dòng)態(tài)特征則是一個(gè)難點(diǎn)。因?yàn)樵趥鹘y(tǒng)的視覺研究方法中,往往是通過光流估計(jì)、動(dòng)態(tài)紋理等進(jìn)行動(dòng)態(tài)特征的描述,然而深度模型卻難以體現(xiàn)出這些動(dòng)態(tài)特征的描述信息。解決此問題有三個(gè)方向:第一個(gè)方向是將視頻圖像視為三維圖像,并直接將其應(yīng)用于卷積網(wǎng)絡(luò)中,但是該方向的問題在于沒有考慮到空間維和時(shí)間維的差異性;第二個(gè)方向是進(jìn)行預(yù)處理,計(jì)算光流場(chǎng)或其他動(dòng)態(tài)特征的空間場(chǎng)分布,并以之作為卷積網(wǎng)絡(luò)的一個(gè)輸入通道;第三個(gè)方向是通過長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕捉長(zhǎng)期依賴性,從而實(shí)現(xiàn)對(duì)視頻圖像中復(fù)雜動(dòng)態(tài)的有效建模。
5結(jié)束語(yǔ)
綜上所述,深度學(xué)習(xí)如今已經(jīng)被廣泛應(yīng)用于各行各業(yè),也取得了令人矚目的成績(jī)和效果,尤其是在圖像識(shí)別領(lǐng)域中的應(yīng)用更是效果顯著。深度學(xué)習(xí)主要是指學(xué)習(xí)樣本的內(nèi)在規(guī)律以及表示層次,而它最終的目標(biāo)主要是為了讓機(jī)器能夠像人一樣具有分析和學(xué)習(xí)的能力,能夠精準(zhǔn)地對(duì)文字、圖像和聲音等數(shù)據(jù)進(jìn)行識(shí)別,同時(shí)深度學(xué)習(xí)還是一個(gè)相對(duì)復(fù)雜的機(jī)器學(xué)習(xí)算法。因此本文就深度學(xué)習(xí)在圖像識(shí)別中的應(yīng)用進(jìn)行研究,主要分析了它的深層結(jié)構(gòu)優(yōu)勢(shì)以及應(yīng)用范圍,最終的目的是為了推動(dòng)圖像識(shí)別領(lǐng)域快速發(fā)展。