,
(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)
場景識別是機(jī)器視覺領(lǐng)域一個(gè)極富挑戰(zhàn)性的課題,它的研究目標(biāo)是使計(jì)算機(jī)能夠?qū)D像或視頻進(jìn)行處理,自動(dòng)識別和理解圖像或視頻中的場景信息。如Google、Flickr、Facebook這些網(wǎng)站每天都要處理海量的圖像數(shù)據(jù),需要使用計(jì)算機(jī)對圖像進(jìn)行自動(dòng)地理解和分類,而場景識別技術(shù)在這項(xiàng)應(yīng)用中扮演著十分重要的角色。另外在自動(dòng)駕駛、道路交通[1]、機(jī)器人、視頻監(jiān)控等應(yīng)用領(lǐng)域,場景識別都有廣闊的應(yīng)用前景,因此場景識別技術(shù)開始變得越發(fā)重要。
由于場景識別技術(shù)的廣泛應(yīng)用前景,該課題一直吸引著許多關(guān)注,Li Fei-Fei和Pietro Perona[2]曾提出了使用視覺詞袋(bag of visual word,BOVW)模型與潛在狄利克雷分布(latent dirichlet allocation ,LDA)[3]模型結(jié)合的中層語義方法進(jìn)行場景識別;Aude Oliva和Antonio Torralba[4]強(qiáng)調(diào)了全局特征的重要性,提出使用全局特征進(jìn)行場景識別的空間信封模型(spatial envelope model);Lazebnik等人[5]則對傳統(tǒng)的視覺詞袋模型進(jìn)行優(yōu)化,加入空間信息,提出了空間金字塔匹配(spatial pyramid matching,SPM)方法;Bolei Zhou[6]等人等嘗試用深度學(xué)習(xí)技術(shù)解決場景識別問題,他們使用場景數(shù)據(jù)集訓(xùn)練的Places-CNN進(jìn)行場景識別,并且取得了不錯(cuò)的效果。國內(nèi)方面,江悅等人[7]使用改進(jìn)的空間金字塔匹配方法進(jìn)行場景識別;錢夔等人[8]將場景識別技術(shù)與機(jī)器人技術(shù)結(jié)合,并且取得了不錯(cuò)的實(shí)踐效果;任藝等人[9]則對傳統(tǒng)的潛在狄利克雷分布模型進(jìn)行改進(jìn),提高了場景識別的效率。
傳統(tǒng)的場景識別方法,一般使用底層特征或高層特征[10],這些的方法的優(yōu)點(diǎn)簡單易行,具有良好的邏輯性,符合人類的直觀認(rèn)知。但是當(dāng)所要處理的數(shù)據(jù)達(dá)到一定規(guī)模,場景分類達(dá)到一定數(shù)量時(shí),傳統(tǒng)的基于底層特征和高層特征就無法表示如此多的場景信息,而基于深度學(xué)習(xí)的方法卻十分適合處理這樣的問題。另一方面,深度學(xué)習(xí)方法的快速發(fā)展,正是得益于數(shù)據(jù)量的激增,因?yàn)樯疃染W(wǎng)絡(luò)一般需要大量的數(shù)據(jù)的予以訓(xùn)練,形成復(fù)雜且強(qiáng)大的網(wǎng)絡(luò)架構(gòu)。如今深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了許多的成功,2012年Alex Krizhevsky等人[11]使用深度學(xué)習(xí)網(wǎng)絡(luò)AlexNet參加大規(guī)模視覺識別挑戰(zhàn)賽(large scale visual recognition challenge),不僅取得了冠軍,而且刷新了賽事記錄。場景識別作為圖像領(lǐng)域一個(gè)極富挑戰(zhàn)性的課題,使用傳統(tǒng)方法解決該問題,逐漸面臨瓶頸,尤其在大規(guī)模數(shù)據(jù)集上面臨著更多問題。因此在場景識別問題上使用深度學(xué)習(xí)技術(shù)是一種不錯(cuò)的選擇,并且已經(jīng)得到了一些不錯(cuò)的成果。
在圖像場景識別領(lǐng)域使用深度學(xué)習(xí)方法仍然屬于起步階段,但是已經(jīng)成為未來發(fā)展的一個(gè)重要趨勢,文章通過介紹近年來在這項(xiàng)研究上的一些突出工作,力圖概述出這項(xiàng)研究的一些主要特點(diǎn),并且給出于一些相關(guān)的建議和展望。
場景識別按應(yīng)用場景進(jìn)行分類,可以分為室外場景識別和室內(nèi)場景識別,按其所使用的特征類型進(jìn)行分類,可以分為四類方法,即底層特征方法、中層語義方法、高層特征方法和學(xué)習(xí)特征方法。文章按照后者的順序介紹場景識別技術(shù)的大致發(fā)展情況和在圖像場景識別領(lǐng)域深度學(xué)習(xí)方法的應(yīng)用情況。
場景識別中的底層特征指的就是如GIST[4]、SIFT[12]、HOG[13]、CENTRIST[14]這些,描述圖像顏色、形狀、紋理等基本特性的基礎(chǔ)特征。底層特征的特點(diǎn)是形式簡單、容易獲取和計(jì)算。如GIST特征是一種典型的底層特征,它將場景視作一個(gè)有結(jié)構(gòu)和形狀物體,通過分析光譜信息,得到場景的自然程度和開放程度,以此來表示場景的整體信息。這種簡單的特征適合用于復(fù)雜度較低的室外場景識別,但是在一些前景目標(biāo)較多的場景當(dāng)中,很難取得很好的效果,另外由于特征簡單,但場景類別增多,底層特征缺乏足夠的場景信息來進(jìn)行場景的分類和識別。
中層語義方法本質(zhì)上不是一種特征,而是對特征進(jìn)行組合形成一種新的特征的方法,它的目標(biāo)是解決特征和語義之間存在的語義鴻溝[15]。該方法一般依賴視覺詞袋模型實(shí)現(xiàn),主要步驟是首先從圖像中提取具有代表性的局部或者全局特征用來描述該圖像;之后對這些特征進(jìn)行無監(jiān)督聚類,聚類形成的簇稱之為碼字(codebook),即視覺詞匯,由視覺詞匯構(gòu)成詞典;最后根據(jù)之前生成的詞典,訓(xùn)練分類器進(jìn)行識別。作為一種十分有效的場景識別方法[16],文獻(xiàn)[2]和文獻(xiàn)[17]均采用了這種方法。中層語義方法的主要缺點(diǎn)是忽略了空間信息,文獻(xiàn)[5]提出空間金字塔匹配來彌補(bǔ)這個(gè)缺點(diǎn),另外該方法的識別效果很大程度上取決于所選特征的性能。
高層特征是一種更復(fù)雜也更接近圖像語義的特征,它一般是在底層特征的基礎(chǔ)上組合構(gòu)建而成,相對于底層特征,高層特征更富有表現(xiàn)力,也能處理類別數(shù)較多的場景分類問題。如2010年Li等人[18]提出的OB(Object Bank)方法,將場景視作一些目標(biāo)的合集,以此來表示圖像的場景信息。高層特征更接近于圖像的真實(shí)語義,也包含更多的場景信息,但是高層特征一般維度較高,計(jì)算和提取也更為復(fù)雜,不過隨著運(yùn)算能力的提升和場景識別問題變得更加復(fù)雜,在場景識別問題上,高層特征的使用也將會是未來的發(fā)展趨勢之一。
學(xué)習(xí)特征就是指將圖像像素作為輸入,使用深度網(wǎng)絡(luò)或者其他類型神經(jīng)網(wǎng)絡(luò)對輸入進(jìn)行映射和轉(zhuǎn)換等一系列處理后,得到的一種“隱性”特征。這種隱性特征與傳統(tǒng)的手工設(shè)計(jì)的特征不同,傳統(tǒng)手工設(shè)計(jì)的特征可以稱之為“顯性”特征,顯示特征一般基于某些數(shù)學(xué)原理設(shè)計(jì)得到,其本質(zhì)和性質(zhì)可以通過數(shù)學(xué)推理得到,而隱性特征,完全由計(jì)算機(jī)通過大規(guī)模的數(shù)據(jù)訓(xùn)練得到,背后的原理和性質(zhì),很難用數(shù)學(xué)解釋。學(xué)習(xí)特征的主要提取和使用方式是通過深度學(xué)習(xí)方法進(jìn)行訓(xùn)練和使用,目前深度學(xué)習(xí)技術(shù)已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了極大的成功,如文獻(xiàn)[11]中將深度學(xué)習(xí)技術(shù)運(yùn)用在ImageNet數(shù)據(jù)集[19]上的圖像分類上,文獻(xiàn)[20]將深度卷積網(wǎng)絡(luò)運(yùn)用在目標(biāo)識別上,都取得很好的效果。在應(yīng)對大規(guī)模數(shù)據(jù)集時(shí),深度學(xué)習(xí)技術(shù)的優(yōu)勢更加明顯,深度學(xué)習(xí)網(wǎng)絡(luò),如深度卷積網(wǎng)絡(luò)(convolutional neural network,CNN),都是以數(shù)據(jù)為驅(qū)動(dòng)的網(wǎng)絡(luò),因?yàn)樯疃葘W(xué)習(xí)網(wǎng)絡(luò)需要大量的數(shù)據(jù)對其網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,所以數(shù)據(jù)量的增多也能提升網(wǎng)絡(luò)的性能,另一方面,深度學(xué)習(xí)網(wǎng)絡(luò)一般都具有復(fù)雜的結(jié)構(gòu),這使得它具有更強(qiáng)的分類的能力,能處理類別數(shù)較多的情況。
場景識別作為一個(gè)復(fù)雜的視覺分類識別問題,面臨著許多復(fù)雜的問題,特別是當(dāng)類別數(shù)和樣本數(shù)達(dá)到一定時(shí),傳統(tǒng)的底層、高層特征方法很難處理,而深度學(xué)習(xí)技術(shù)在視覺分類識別領(lǐng)域取得的成功,以及深度學(xué)習(xí)技術(shù)本身的優(yōu)點(diǎn),都表明場景識別未來的發(fā)展方向是加強(qiáng)對深度學(xué)習(xí)方法的使用。
深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺的各個(gè)領(lǐng)域都取得了不錯(cuò)的效果,將其運(yùn)用在場景識別領(lǐng)域,既是有益的嘗試,也是技術(shù)發(fā)展的趨勢。場景識別是一個(gè)復(fù)雜的問題,與目標(biāo)識別不同,它所要處理的主體是背景信息,但是前景中的目標(biāo)信息也是不可或缺的[21]。另外室內(nèi)和室外的場景識別也有不同的要求,需要針對具體問題進(jìn)行優(yōu)化。
2012年Alex Krizhevsky等人[11]提出AlexNet網(wǎng)絡(luò)架構(gòu),AlexNet是一種深度網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)總共有八層,其中前五層為卷積層,后三層為全連接層,其結(jié)構(gòu)如圖1所示。與之前的深度網(wǎng)絡(luò)比較,AlexNet擁有更多的網(wǎng)絡(luò)層,并且使用了Dropout[22]、Data augmentation、Local Responce Normalization技術(shù)來避免過擬合問題,在訓(xùn)練的時(shí)候使用多GPU訓(xùn)練方法來提高訓(xùn)練速度和效率,在2012年的大規(guī)模視覺識別挑戰(zhàn)賽(large scale visual recognition challenge)上以將上屆最好成績的錯(cuò)誤率幾乎減半的優(yōu)勢取得了冠軍,一舉奠定了深度網(wǎng)絡(luò)技術(shù)在圖像分類識別領(lǐng)域的領(lǐng)先地位。
圖1 AlexNet網(wǎng)絡(luò)
深度學(xué)習(xí)框架Caffe[23]在AlexNet的基礎(chǔ)上略微修改,并且在ImageNet[19]數(shù)據(jù)集上進(jìn)行訓(xùn)練,生成了自己的深度網(wǎng)絡(luò)模型,本文將這種網(wǎng)絡(luò)模型稱為ImageNet-CNN[6]。ImageNet-CNN在目標(biāo)識別領(lǐng)域取得了很好的效果。MIT的Zhou等人[6]認(rèn)為ImageNet數(shù)據(jù)集作為是一個(gè)以目標(biāo)為中心的數(shù)據(jù)集,即ImageNet中的圖像大多是以目標(biāo)為主體,因此使用ImageNet訓(xùn)練出來的網(wǎng)絡(luò)應(yīng)該更適合于與目標(biāo)識別相關(guān)的任務(wù)。Zhou等人提出了一個(gè)新的數(shù)據(jù)集Places[6],Places是一個(gè)大規(guī)模場景數(shù)據(jù)集,樣本數(shù)達(dá)到七百萬張,并且他們從Places數(shù)據(jù)集當(dāng)中抽取了205個(gè)場景類,總共2,448,873幅圖像作為訓(xùn)練集(training set), 訓(xùn)練了一個(gè)場景識別專用網(wǎng)絡(luò)Places-CNN[6]。
Places-CNN作為一個(gè)專門針對于場景識別任務(wù)設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)模型,其識別準(zhǔn)確率遠(yuǎn)超傳統(tǒng)的人工設(shè)計(jì)特征的方法,它的出現(xiàn)也為場景識別這一問題的解決提供了新的思路。場景識別作為一個(gè)新興的探索領(lǐng)域,研究者經(jīng)常會將目標(biāo)識別的方法或其他圖像識別領(lǐng)域的方法在場景識別領(lǐng)域上進(jìn)行嘗試。事實(shí)證明,有一部分方法取得了良好效果,但也有不少失敗的例子。Places-CNN使用專門的場景數(shù)據(jù)集進(jìn)行訓(xùn)練,并且取得了很好的效果。因此對于場景識別問題,應(yīng)該使用針對性的解決方案。
2014年Jeff Donahue等人提出了DeCAF[24]網(wǎng)絡(luò),DeCAF不同于傳統(tǒng)的深度網(wǎng)絡(luò),它具有極強(qiáng)的泛化性,可以同時(shí)適用于多種視覺識別任務(wù),而不需要大規(guī)模的重新訓(xùn)練。
DeCAF網(wǎng)絡(luò)使用Krizhevsky等人[11]在2012年提出的AlexNet網(wǎng)絡(luò)作為基礎(chǔ)的網(wǎng)絡(luò)框架,并且使用Krizhevsky等人的訓(xùn)練方法在大規(guī)模數(shù)據(jù)集ImageNet[19]上進(jìn)行訓(xùn)練,生成“基礎(chǔ)的”DeCAF網(wǎng)絡(luò)。在應(yīng)對具體的分類識別任務(wù)時(shí),再使用特定的任務(wù)數(shù)據(jù)集進(jìn)行訓(xùn)練,但是這種訓(xùn)練是小規(guī)模的,換言之,DeCAF網(wǎng)絡(luò)可以通過短時(shí)間的小規(guī)模訓(xùn)練,快速、靈活地適應(yīng)某一項(xiàng)具體任務(wù),而無需從頭開始進(jìn)行大規(guī)模的訓(xùn)練。因此DeCAF網(wǎng)絡(luò)是一種泛化性極強(qiáng),具有廣泛應(yīng)用范圍的深度網(wǎng)絡(luò)。DeCAF的訓(xùn)練方式與AlexNet基本相同,主要的兩處不同是在于,DeCAF并沒有使用AlexNet將輸入圖像裁剪到256*256像素大小的方法,而是忽略輸入圖像長寬比,將其拉伸至256*256。第二,DeCAF也拋棄了AlexNet使用數(shù)據(jù)擾動(dòng)(data augmentation)產(chǎn)生更多訓(xùn)練樣本的做法。另外為了提高網(wǎng)絡(luò)的泛化性和穩(wěn)定性,DeCAF還使用了Dropout和Mini-Batch技術(shù)。
DeCAF在網(wǎng)絡(luò)架構(gòu)上的創(chuàng)新有限,但是在訓(xùn)練和應(yīng)用方面,它所采用的分段訓(xùn)練方法,極大地提高了深度網(wǎng)絡(luò)的靈活性和適應(yīng)性,但是另一方面,由于沒有針對場景問題有足夠的優(yōu)化,其識別精度也只處于一般水平。
Khan等人[25]在2015年提出了一種使用深度學(xué)習(xí)特征的中層語義場景識別方法,deep un-structured convolutional activations(DUCA,下文簡稱DUCA)。DUCA是一種針對室內(nèi)場景識別的方法,其基本原理是用傳統(tǒng)的視覺詞袋[2](bag of visual word,BOVW)模型進(jìn)行室內(nèi)場景識別,但是選擇使用深度學(xué)習(xí)特征來描述圖像。
DUCA本質(zhì)是一種傳統(tǒng)場景識別方法使用深度學(xué)習(xí)特征的技術(shù),DUCA使用AlexNet[11]網(wǎng)絡(luò)提取深度學(xué)習(xí)特征。在視覺詞典方面,DUCA與傳統(tǒng)的詞袋模型有所不同,DUCA方法所使用的詞典由兩部分組成,有監(jiān)督的詞典和無監(jiān)督的詞典。對于有監(jiān)督的詞典,其詞典中所包含的“單詞”即場景表示塊(scene representative patches,下文簡稱SRPs),是由目標(biāo)數(shù)據(jù)集訓(xùn)練得到,這些SPRs有明確的語義,如廚房中的微波爐、浴室中的浴缸等。而無監(jiān)督詞典中的SPRs則是對場景訓(xùn)練集的圖像塊進(jìn)行訓(xùn)練得到,并不具有明確的語義,可能就是客廳中的任意的一個(gè)角落。而且不同于傳統(tǒng)的中層語義方法,DUCA對這些不具有明確語義的SPRs,并不使用無監(jiān)督的聚類方法進(jìn)行聚類,而是直接隨機(jī)分類。實(shí)驗(yàn)證明,這種處理方式不會對識別精度造成較大的影響,而且能夠降低大量的計(jì)算復(fù)雜度。使用兩種詞典的原因是因?yàn)橛斜O(jiān)督訓(xùn)練中的目標(biāo)數(shù)據(jù)無法覆蓋場景中的所有目標(biāo),而使用無監(jiān)督的詞典進(jìn)行補(bǔ)充,可以彌補(bǔ)這個(gè)缺陷,進(jìn)一步提高算法的識別率。
傳統(tǒng)的中層語義方法對于室內(nèi)場景識別十分有效,而DUCA創(chuàng)新性地在中層語義方法中使用深度學(xué)習(xí)特征,這種組合既保留了傳統(tǒng)方法的優(yōu)點(diǎn)、又發(fā)揮深度學(xué)習(xí)特征強(qiáng)大的描述能力,也給場景識別研究提供了新的方向。
2016年Limin Wang等人[26]提出Multi-Resolution CNNs(下文簡稱MR-CNNs)網(wǎng)絡(luò),MR-CNNs是一個(gè)專門用于處理場景識別問題的深度卷積網(wǎng)絡(luò),它是一個(gè)多組合網(wǎng)絡(luò)架構(gòu)。總的網(wǎng)絡(luò)由兩個(gè)相似的網(wǎng)絡(luò)組成而成,這兩個(gè)網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)都是BN-Inception[27],BN-Inception是GoogLeNet[28]的一種,但它的訓(xùn)練速度和識別率都比基礎(chǔ)的GoogLeNet高很多。兩個(gè)網(wǎng)絡(luò)中,網(wǎng)絡(luò)一使用224*224分辨率的訓(xùn)練樣本進(jìn)行訓(xùn)練,總共有13層,網(wǎng)絡(luò)二則使用336*336分辨率的樣本,層數(shù)也更多,總共有15層。網(wǎng)絡(luò)的輸出是兩個(gè)網(wǎng)絡(luò)輸出結(jié)果的算術(shù)平均。
MR-CNNs網(wǎng)絡(luò)比較之前的場景識別網(wǎng)絡(luò),具有更多的特點(diǎn)。第一它有更深的網(wǎng)絡(luò),經(jīng)典AlexNet[11]被廣泛運(yùn)用在包括場景識別在內(nèi)的視覺任務(wù)中,它的深度是8層,而MR-CNNs的淺層網(wǎng)絡(luò)都有13層;第二,MR-CNNs使用多分辨率的設(shè)計(jì),目的非常明確,研究者希望較淺且分辨率較低的那個(gè)網(wǎng)絡(luò)負(fù)責(zé)處理尺度較大的信息,如全局信息,而較深且分辨率較高的那個(gè)網(wǎng)絡(luò)能夠處理更加精細(xì)的細(xì)節(jié)信息,這種類似全局加局部的設(shè)計(jì)思路有利于網(wǎng)絡(luò)把握每一個(gè)有用的信息,也使得網(wǎng)絡(luò)可以同時(shí)適應(yīng)室內(nèi)和室外場景識別;第三,MR-CNNs在一個(gè)類別數(shù)和樣本數(shù)都更多的大規(guī)模場景數(shù)據(jù)集Places2[29]上進(jìn)行訓(xùn)練,而且他們注重訓(xùn)練的細(xì)節(jié),在訓(xùn)練過程中嘗試消除場景標(biāo)簽和樣本數(shù)據(jù)帶來的歧義,以此來提高訓(xùn)練的質(zhì)量。
文章使用Places[6]、SUN-397[30]、Scene-15[5]和MIT-67[31]數(shù)據(jù)集進(jìn)行對比。Places[6]數(shù)據(jù)集是一個(gè)專門面向場景識別的數(shù)據(jù)集,數(shù)據(jù)集包含205種場景分類,每個(gè)分類下的樣本數(shù)超過5000,是一個(gè)大規(guī)模場景數(shù)據(jù)集。SUN-397[30]是面向視覺識別任務(wù)的一個(gè)大規(guī)模通用數(shù)據(jù)集,總共包含397個(gè)分類,每個(gè)分類下的樣本數(shù)超過100,其中的樣本既有目標(biāo)為中心的圖像也有場景為中心的圖像。Scene-15[5]則是一個(gè)小規(guī)模場景數(shù)據(jù)集,總共包含15個(gè)場景分類,其中有13個(gè)是自然場景,兩個(gè)人造室外場景,分別是郊區(qū)和工廠,總共有4488幅圖像。MIT-67[31]則是一個(gè)專門面向室內(nèi)場景識別的數(shù)據(jù)集,數(shù)據(jù)集總共包含67個(gè)室內(nèi)場景類別,總樣本數(shù)為15620。
表1 Places-CNN與傳統(tǒng)方法對比
表1是Places-CNN與傳統(tǒng)的底層、高層特征方法在SUN-397數(shù)據(jù)集上的識別精度對比,結(jié)果說明Places-CNN的效果明顯好于傳統(tǒng)的底層、高層特征方法,而且兩者之間的差距十分之大。SUN-397是一個(gè)大規(guī)模數(shù)據(jù)集,傳統(tǒng)的底層、高層特征方法使用手工設(shè)計(jì)提取特征的方式,特征的特點(diǎn)是容易計(jì)算和提取,但是對于場景信息的描述能力不足,尤其是面對大規(guī)模數(shù)據(jù)集和場景類別較多的情況。而以數(shù)據(jù)為驅(qū)動(dòng)的深度學(xué)習(xí)方法,擁有更復(fù)雜的深度學(xué)習(xí)特征,這類特征具有極強(qiáng)的表示描述能力,可以處理大規(guī)模的數(shù)據(jù),面對場景類別數(shù)較多的情況,也毫無壓力。另外Places-CNN使用大規(guī)模場景數(shù)據(jù)集Places訓(xùn)練得到,對大規(guī)模數(shù)據(jù)的識別能力十分強(qiáng)大。
表2 各種深度學(xué)習(xí)方法在各場景數(shù)據(jù)集上的識別精度
表2是各種深度學(xué)習(xí)方法在各場景數(shù)據(jù)集上的識別精度對比,效果最好的是MR-CNNs和Places-CNN。ImageNet-CNN是一個(gè)主要用于目標(biāo)檢測識別的網(wǎng)絡(luò),并不是一個(gè)專門的場景識別網(wǎng)絡(luò),但是其效果也優(yōu)于傳統(tǒng)方法,這點(diǎn)也可以驗(yàn)證之前的結(jié)論,不過與其他網(wǎng)絡(luò)相比,它的識別精度是最差的。Places-CNN是一個(gè)場景識別網(wǎng)絡(luò),由于它是由大規(guī)模的場景數(shù)據(jù)集訓(xùn)練得到,因此也得到了不錯(cuò)的識別效果。DeCAF是一個(gè)泛化性強(qiáng)的多功能網(wǎng)絡(luò),由于并非是專門的場景識別網(wǎng)絡(luò),識別精度比較平庸。MR-CNNs是表格中識別精度最好的網(wǎng)絡(luò),原因在于首先它和Places-CNN一樣,使用了大規(guī)模的場景數(shù)據(jù)集進(jìn)行訓(xùn)練。第二,它使用了更先進(jìn)的GoogLeNet[28]作為基礎(chǔ)架構(gòu)和規(guī)模更大的Places2[29]作為訓(xùn)練集。第三,它使用的多分辨率網(wǎng)絡(luò)十分有效,可以同時(shí)捕捉全局的結(jié)構(gòu)信息和局部的細(xì)節(jié)信息。
表3 各種深度學(xué)習(xí)方法在室內(nèi)場景數(shù)據(jù)集上的識別精度
表3說明,在室內(nèi)場景數(shù)據(jù)集上,DUCA和MR-CNNs效果較好。在場景識別領(lǐng)域,室內(nèi)場景識別與室外場景識別雖然都是場景識別,但是由于室內(nèi)場景和室外場景圖像的構(gòu)成不同,室內(nèi)場景以大量的前景目標(biāo)為主體,而室外場景則一般由開闊的背景信息組成,因此它們具體的識別方法也有所不同。如何把握室內(nèi)場景中繁雜的前景目標(biāo)是識別的關(guān)鍵。DUCA使用視覺詞袋模型的方法來獲取圖像中局部細(xì)節(jié)和具體目標(biāo),是一種在室內(nèi)場景識別中比較常見且有效的方法,配合深度學(xué)習(xí)特征,更能捕捉到細(xì)節(jié)的特征,因此在MIT-67上取得不錯(cuò)的識別精度。MR-CNNs以此多分辨率結(jié)合的網(wǎng)絡(luò)設(shè)計(jì),在室內(nèi)場景識別上,甚至超越了DUCA方法,一部分原因在于MR-CNNs更強(qiáng)大的網(wǎng)絡(luò)架構(gòu),另一部分在于MR-CNNs同時(shí)兼顧了局部的細(xì)節(jié)信息和整體的結(jié)構(gòu)信息,這是遠(yuǎn)勝于DUCA所采用的視覺詞袋模型方法的一點(diǎn)。
文章介紹了在圖像場景識別領(lǐng)域,深度學(xué)習(xí)方法的應(yīng)用情況,總體而言,在場景識別領(lǐng)域使用深度學(xué)習(xí)方法的嘗試正處于起步階段。隨著大數(shù)據(jù)時(shí)代的來臨,以及場景識別問題本身復(fù)雜的特點(diǎn),傳統(tǒng)手工提取特征的方法遭遇瓶頸,深度學(xué)習(xí)方法將逐漸成為場景識別領(lǐng)域的主流方法。使用深度學(xué)習(xí)方法解決圖像場景識別問題,最初采用移植的方式,即在“新問題”上使用“舊網(wǎng)絡(luò)”,之后出現(xiàn)了大規(guī)模圖像場景數(shù)據(jù)集,該研究逐漸趨向?qū)I(yè)化,識別精度也有顯著提升??傊磥碓趫D像場景識別問題上,深度學(xué)習(xí)方法仍會是主流方法。以下給出該研究在未來可能的發(fā)展趨勢。
首先,深度學(xué)習(xí)方法在一段時(shí)間內(nèi)仍舊會是圖像場景識別的首選。這是場景識別問題本身特點(diǎn)和深度學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)點(diǎn)決定的。因?yàn)閳鼍白R別問題是一個(gè)復(fù)雜的問題,需要高維的特征進(jìn)行描述[33],而深度網(wǎng)絡(luò)能夠提供這樣的特征,另外深度網(wǎng)絡(luò)是以數(shù)據(jù)為驅(qū)動(dòng)的網(wǎng)絡(luò),能夠同時(shí)對成百上千的場景進(jìn)行分類。
第二,場景局部特征和整體特征的結(jié)合,以及多特征融合的方法將會是未來的重要研究方向。MR-CNN[26]網(wǎng)絡(luò)的成功說明了整體結(jié)構(gòu)信息和局部細(xì)節(jié)信息都足夠重要,多分辨率、多尺度的深度組合網(wǎng)絡(luò)能比較全面地獲取場景中有用的信息。之前的場景識別研究往往面臨著整體特征和局部特征的取舍,事實(shí)證明這兩類特征都很重要。如Herranz等人[34]用多尺度的深度網(wǎng)絡(luò)進(jìn)行場景識別,Guo等人[35]使用深度網(wǎng)絡(luò)同時(shí)獲取圖像的局部和整體特征,而馬寧等人[36]使用多特征融合的方法進(jìn)行室內(nèi)場景識別,這些多特征、多尺度的方法都取得了不錯(cuò)的效果,如何使用多特征和多尺度的方法來全面獲取場景中有效信息,將會是未來的一個(gè)重要研究方向。
第三,在圖像場景識別問題上使用深度學(xué)習(xí)方法的要點(diǎn)是注重細(xì)節(jié)。場景識別仍舊是一個(gè)新興課題,如何提升識別的精度,不僅在于對方法在結(jié)構(gòu)性上的調(diào)整,而且在于細(xì)節(jié)的處理,如場景數(shù)據(jù)集的優(yōu)化,因?yàn)閳鼍笆且环N主觀的認(rèn)知,所以人工標(biāo)注的場景數(shù)據(jù)往往具有標(biāo)簽?zāi):缘膯栴},如何解決這類細(xì)節(jié)問題,是提高識別率要解決的一個(gè)重要問題。
第四,在圖像識別領(lǐng)域使用深度學(xué)習(xí)方法,關(guān)鍵還是在于深度學(xué)習(xí)技術(shù)自身的發(fā)展和提高,實(shí)驗(yàn)證明,更好的網(wǎng)絡(luò)架構(gòu)能夠帶來更高的識別精度[37],這種提升是質(zhì)的變化,而研究者可以通過對圖像場景識別問題的深入研究,設(shè)計(jì)出更適合場景識別的深度網(wǎng)絡(luò)。
總之在圖像場景識別中使用深度學(xué)習(xí)方法將會是未來的趨勢,而這一技術(shù)也將與自動(dòng)駕駛、機(jī)器人等工程應(yīng)用深度結(jié)合,得到廣泛應(yīng)用和發(fā)展。
[1] Chen C Y, Choi W, Chandraker M. Atomic scenes for scalable traffic scene recognition in monocular videos[A]. IEEE Winter Conference on Applications of Computer Vision[C]. IEEE, 2016:1-9.
[2] Fei-Fei L, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[A]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. IEEE Computer Society, 2005:524-531.
[3] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
[4] Oliva A, Torralba A. Building the gist of a scene: the role of global image features in recognition.[J]. Progress in Brain Research, 2006, 155(2):23-36.
[5] Lazebnik S, Schmid C, Ponce J. Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories[A]. Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on[C]. IEEE, 2006:2169-2178.
[6] Zhou B, Garcia A L, Xiao J, et al. Learning Deep Features for Scene Recognition using Places Database[J]. Advances in Neural Information Processing Systems, 2014, 1:487-495.
[7] 江 悅, 王潤生, 王 程. 采用上下文金字塔特征的場景分類[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2010, 22(8):1366-1373.
[8] 錢 夔, 宋愛國, 章華濤,等. 基于自主發(fā)育神經(jīng)網(wǎng)絡(luò)的機(jī)器人室內(nèi)場景識別[J]. 機(jī)器人, 2013, 35(6):703-708.
[9] 任 藝, 尹四清, 李松陽. 基于LDA主題模型的圖像場景識別方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2017, 38(2):506-510.
[10] 李學(xué)龍, 史建華, 董永生,等. 場景圖像分類技術(shù)綜述[J]. 中國科學(xué):信息科學(xué), 2015, 45(7):827-848.
[11] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[A]. International Conference on Neural Information Processing Systems[C]. Curran Associates Inc. 2012:1097-1105.
[12] Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[13] Dalal N, Triggs B. Triggs, B: Histograms of Oriented Gradients for Human Detection[J]. CVPR 2005, 1(12):886-893.
[14] Wu J, Rehg J M. CENTRIST: A Visual Descriptor for Scene Categorization[J]. Submitted to IEEE Trans. PAMI. 2009:1489-1501.
[15] Song X, Jiang S, Herranz L, et al. Category co-occurrence modeling for large scale scene recognition[J]. Pattern Recognition, 2016, 59:98-111.
[16] 顧廣華, 韓晰瑛, 陳春霞,等. 圖像場景語義分類研究進(jìn)展綜述[J]. 系統(tǒng)工程與電子技術(shù), 2016, 38(4):936-948.
[17] Bosch A, Zisserman A, Mu, et al. Scene classification via pLSA[A]. Computer Vision - ECCV 2006, European Conference on Computer Vision, Graz, Austria, May 7-13, 2006, Proceedings. DBLP[C]. 2006:517-530.
[18] Li L J, Su H, Xing E P, et al. Object Bank: A High-Level Image Representation for Scene Classification & Semantic Feature Sparsification[A]. Advances in Neural Information Processing Systems 23:, Conference on Neural Information Processing Systems 2010[C]. Proceedings of A Meeting Held 6-9 December 2010, Vancouver, British Columbia, Canada. DBLP, 2010:1378-1386.
[19] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[J]. 2009:248-255.
[20] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. 2014:580-587.
[21] Sharma S, Tripp B. How Is Scene Recognition in a Convolutional Network Related to that in the Human Visual System[M]. Artificial Neural Networks and Machine Learning - ICANN 2016. Springer International Publishing, 2016.
[22] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4):págs. 212-223.
[23] Jia, Yangqing, Shelhamer, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014:675-678.
[24] Donahue J, Jia Y, Vinyals O, et al. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition[Z]. 2013, 50(1):I-647.
[25] Khan S, Hayat M, Bennamoun M, et al. A Discriminative Representation of Convolutional Features for Indoor Scene Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(7):3372-3383.
[26] Wang L, Guo S, Huang W, et al. Knowledge Guided Disambiguation for Large-Scale Scene Classification With Multi-Resolution CNNs[J]. IEEE Transactions on Image Processing, 2016, 26(4):2055-2068.
[27] Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. Computer Science, 2015.
[28] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[J]. Computer Vision and Pattern Recognition. IEEE, 2015:1-9.
[29] Zhou B, Khosla A, Lapedriza A, et al. Places: An Image Database for Deep Scene Understanding[J]. 2016.
[30] Xiao J, Hays J, Ehinger K A, et al. SUN database: Large-scale scene recognition from abbey to zoo[J]. Computer Vision and Pattern Recognition. IEEE, 2010:3485-3492.
[31] Quattoni A, Torralba A. Recognizing indoor scenes[A]. Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on[C]. IEEE, 2009:413-420.
[32] Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse coding for image classification[A]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. DBLP, 2009:1794-1801.
[33] Xie G S, Zhang X Y, Yan S, et al. Hybrid CNN and Dictionary-Based Models for Scene Recognition and Domain Adaptation[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2016, PP(99):1-1.
[34] Herranz L, Jiang S, Li X. Scene Recognition with CNNs: Objects, Scales and Dataset Bias[J]. Computer Vision and Pattern Recognition. IEEE, 2016:571-579.
[35] Guo S, Huang W, Wang L, et al. Locally Supervised Deep Hybrid Model for Scene Recognition[J]. IEEE Transactions on Image Processing, 2016, 26(2):808-820.
[36] 馬 寧, 陶 亮. 基于多特征融合的室內(nèi)場景識別[J]. 控制工程, 2016, 23(11):1845-1850.
[37] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.