李新葉,朱 婧,麻麗娜
1.華北電力大學(xué) 電子與通信工程系,河北 保定071003
2.華北電力大學(xué) 科技學(xué)院,河北 保定071003
場景識別是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)任務(wù)之一,近年來得到了廣泛關(guān)注。因其在圖像檢索、人機(jī)交互、自動駕駛、視覺監(jiān)控等多項(xiàng)應(yīng)用中發(fā)揮關(guān)鍵作用,幫助人們理解圖像,因而在計(jì)算機(jī)視覺領(lǐng)域扮演著重要的角色,越來越多的工作[1-3]對其進(jìn)行了研究。
現(xiàn)有的綜述[4-5]主要對基于手工特征的傳統(tǒng)場景識別法進(jìn)行研究,而手工特征在表達(dá)圖像語義方面能力有限,因此傳統(tǒng)場景識別法識別精度比較低。文獻(xiàn)[6]僅對早期(2016 年之前)少數(shù)基于深度學(xué)習(xí)的場景識別法進(jìn)行了簡單介紹,這些方法雖然較傳統(tǒng)方法有所提高,但識別準(zhǔn)確率仍不高。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多的研究工作開始利用深度學(xué)習(xí)方法解決場景識別任務(wù),并取得了顯著的效果,與之前的研究相比,識別率有了明顯提升。本文對近年來基于深度學(xué)習(xí)的場景識別方法進(jìn)行分析和比較,對各種方法的優(yōu)劣進(jìn)行總結(jié),為未來的場景識別研究提供幫助。
場景識別,即根據(jù)場景圖像中包含的內(nèi)容為場景圖像分配語義標(biāo)簽。與目標(biāo)識別不同,場景識別任務(wù)更為復(fù)雜,不僅要考慮目標(biāo)、背景、空間布局等信息,對圖像中存在的各種依賴關(guān)系進(jìn)行挖掘也十分重要。因此,場景識別仍然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。另外,場景識別還面臨著許多其他的問題,例如:場景圖像類內(nèi)變化大,類間相似度高;數(shù)據(jù)分布不均衡等,這些問題又一定程度上增加了場景識別的難度。
早期的場景識別任務(wù)主要研究利用各種底層特征表示圖像,例如,SIFT[7]、GIST[8]、HOG[9]、CENTRIST[10]等,操作簡單但語義表達(dá)能力有限。OB(Object Bank)[11]、詞袋模型(Bag-of-Words)[12]等基于語義的識別方法縮小了特征與語義之間的鴻溝,但是想要實(shí)現(xiàn)識別性能的進(jìn)一步提升非常困難。自AlexNet[13]開始,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的快速發(fā)展,人們開始利用深度學(xué)習(xí)方法進(jìn)行場景識別。利用深度學(xué)習(xí)方法進(jìn)行場景識別有以下優(yōu)勢:首先,CNN可以從輸入圖像中自動提取包含更多語義和結(jié)構(gòu)信息的特征,且經(jīng)過網(wǎng)絡(luò)結(jié)構(gòu)中的非線性變換后變得更具有判別力;其次,有研究[14]說明深度層次結(jié)構(gòu)能更好解釋場景中的空間分布。
在對近年來基于深度學(xué)習(xí)的場景識別方法進(jìn)行總結(jié)后,本文將它們大體分為以下四類:深度學(xué)習(xí)與視覺詞袋結(jié)合場景識別法、基于顯著部分的場景識別法、多層特征融合場景識別法、融合知識表示的場景識別法。
詞袋模型基于文本處理的思想,把圖像看作視覺詞匯的無序集合,對由圖像得到的圖像塊進(jìn)行特征提取并聚類,構(gòu)建視覺碼本表示圖像,在一些研究[15]中取得了不錯(cuò)的效果。利用深度特征代替?zhèn)鹘y(tǒng)詞袋模型中的手工特征是提高識別精度最直接的方法,該類方法的基本流程如圖1所示。
圖1 基于深度特征的視覺詞袋模型場景識別法
許多工作以此為基礎(chǔ),將深度學(xué)習(xí)與傳統(tǒng)視覺詞袋模型進(jìn)行了結(jié)合。文獻(xiàn)[16]在ImageNet 和Places 以及兩者混合的數(shù)據(jù)集上對CNN 模型進(jìn)行預(yù)訓(xùn)練,提取圖像塊特征,并對應(yīng)生成三種碼本表示圖像,涵蓋了目標(biāo)屬性及場景屬性。由訓(xùn)練混合數(shù)據(jù)集提取的特征中同時(shí)包含了這兩種信息,因此可針對不同的場景分類任務(wù)自適應(yīng)地提取共享碼本特征,與原始碼本特征結(jié)合,為場景識別提供更全面的圖像表示。這種方法避免了額外的碼本訓(xùn)練,提高了識別效率,但根據(jù)具體任務(wù)自適應(yīng)選擇子碼本的算法有待于進(jìn)一步改進(jìn)。文獻(xiàn)[17]將CNN全連接層特征FCR與中層局部表示MLR(Mid-level Local Representation)、卷積Fisher 向量CFV(Convolutional Fisher Vector)兩種字典表示結(jié)合描述圖像。其中,F(xiàn)CR提供了全局信息;MLR通過聚類生成了類間通用的字典和特定于某一類的字典對多尺度圖像輸入進(jìn)行操作,生成中層表示,挖掘局部信息;CFV 基于CNN最后一個(gè)卷積層,采用多尺度比例高斯混合模型訓(xùn)練策略生成Fisher矢量,增強(qiáng)了識別性能。該圖像表示由三部分組成,CNN 模型與另外兩種字典表示并沒有在一個(gè)統(tǒng)一的框架下進(jìn)行聯(lián)合訓(xùn)練,同時(shí),不可避免的,該方案具有一定的參數(shù)復(fù)雜性和時(shí)間復(fù)雜性。文獻(xiàn)[18]提出了一種弱監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu)PatchNet,該結(jié)構(gòu)設(shè)計(jì)采用了VGGNet16[19],以圖像塊為輸入,場景標(biāo)簽為輸出,分別在ImageNet 和Places 上進(jìn)行訓(xùn)練得到object-PatchNet和scene-PatchNet兩種模型,并由object-PatchNet提取的局部特征構(gòu)建碼本。識別過程中,scene-PatchNet 提取深度特征描述圖像塊,object-PatchNet 輸出的語義類別概率分布代替了傳統(tǒng)FV 編碼中的高斯混合模型,作為后驗(yàn)概率對圖像塊進(jìn)行整合,構(gòu)成了一種新的編碼機(jī)制
VSAD(Vector of Semantically Aggregated Descriptors),基于構(gòu)建的碼本表示圖像。
主題模型即在詞袋模型中引入主題元素,對視覺詞匯進(jìn)行二次抽象,是詞袋模型的一種擴(kuò)展。文獻(xiàn)[20]提出了一種局部類共享主題潛在狄利克雷分布來學(xué)習(xí)特定于類或類之間共享的主題,但該方法沒有考慮場景內(nèi)主題之間的相關(guān)性??紤]到這一點(diǎn),文獻(xiàn)[21]利用相關(guān)主題模型CTM(Correlated Topic Model)構(gòu)建了相關(guān)主題矢量表示,CTM 中的邏輯正態(tài)分布包含了主題之間的協(xié)方差計(jì)算,挖掘了主題之間的相關(guān)性。
相對于傳統(tǒng)詞袋模型而言,利用深度特征構(gòu)建碼本直接提高了場景識別精度,另外針對詞袋模型中固有的圖像表示方式缺乏空間信息的問題,CNN 可以自動提取空間特征,對這一問題進(jìn)行彌補(bǔ)。詞袋模型簡單易用,但仍有其自身的局限性:碼本的構(gòu)建過程需要根據(jù)要解決的具體任務(wù)進(jìn)行考量,不合適的碼本會在一定程度上對識別效果造成影響;結(jié)合了深度特征的視覺詞袋場景識別法仍然需要對大量的圖像塊特征進(jìn)行聚類處理,這在計(jì)算上造成了一定的負(fù)擔(dān)。
圖2 基于顯著目標(biāo)的場景識別法基本流程
人眼往往可以只根據(jù)圖像中最具代表性的部分判斷場景的類別,這一特性也激發(fā)了計(jì)算機(jī)視覺中利用顯著部分(顯著目標(biāo)、顯著區(qū)域及顯著形狀)提高識別準(zhǔn)確率的靈感。
一些研究[22-23]發(fā)現(xiàn)用于場景識別的CNN 可以定位出圖像中能提供有用信息的目標(biāo),即圖像中的顯著目標(biāo)對于提高識別精度作用更大,這類方法的基本流程如圖2 所示。文獻(xiàn)[24]中對于檢測到的每個(gè)目標(biāo),都有一個(gè)計(jì)數(shù)比率來表示目標(biāo)和場景類別之間的關(guān)聯(lián)強(qiáng)度,計(jì)數(shù)比率高的目標(biāo)在決定場景類別時(shí)貢獻(xiàn)更大。文獻(xiàn)[25]利用選擇搜索算法提取目標(biāo)塊并用CNN 模型提取特征后,為了選擇能代表場景類別的目標(biāo)塊,針對每一類圖像特征進(jìn)行光譜聚類并對每一簇訓(xùn)練一個(gè)二分類SVM,在測試階段將用訓(xùn)練好的SVM 來選擇有代表性的特征。文獻(xiàn)[26]提出了一種特征描述SDO(Semantic Descriptor with Objectness),將圖像塊送入CNN,由輸出向量計(jì)算目標(biāo)多項(xiàng)式分布,使用貝葉斯法則計(jì)算后驗(yàn)概率,利用目標(biāo)的共現(xiàn)模式在場景中選擇有判別力的目標(biāo)對圖像塊進(jìn)行篩選,并進(jìn)一步對Softmax輸出向量進(jìn)行降維。文獻(xiàn)[25-26]中采用的方案與基于詞袋模型的場景識別法面臨相同的問題,即都需要對大量的圖像塊進(jìn)行聚類和篩選操作,這對計(jì)算資源提出了挑戰(zhàn)。為了解決類似的問題,在計(jì)算時(shí)間和存儲空間上進(jìn)行優(yōu)化,文獻(xiàn)[27]提出顯著目標(biāo)共享的策略,對不同場景中的目標(biāo)模式進(jìn)行學(xué)習(xí)并將一些顯著目標(biāo)進(jìn)行共享,實(shí)驗(yàn)證明平均只需要四個(gè)關(guān)鍵目標(biāo)就足夠?qū)δ骋粓鼍邦悇e圖像進(jìn)行表示。該方法有效提高了識別效率,數(shù)據(jù)集很大時(shí)效果更為明顯。上述基于目標(biāo)塊的識別方法中首先實(shí)現(xiàn)了對大量圖像塊的顯著程度度量,對目標(biāo)進(jìn)行選擇的操作有效提高了場景圖像表示的判別性,增大了不同類別場景之間的可區(qū)分度。但是這些方法并沒有考慮不同場景的特殊屬性,即復(fù)雜場景與簡單場景的顯著目標(biāo)數(shù)量可能不同(例如室內(nèi)場景相對于自然場景而言場景構(gòu)成更復(fù)雜,顯著目標(biāo)數(shù)量也更多),相對固定的顯著目標(biāo)數(shù)量可能會在一些簡單場景中引入噪聲。從這一出發(fā)點(diǎn)進(jìn)行考量,文獻(xiàn)[28]提出了一種自適應(yīng)識別判別性目標(biāo)塊的方法Adi-Red,通過計(jì)算最后一個(gè)卷積層的所有激活映射的加權(quán)和得到判別映射圖,使用滑動窗口搜索映射圖的局部極大值,對高于設(shè)定閾值的部分進(jìn)行目標(biāo)選擇,使得顯著目標(biāo)塊的數(shù)量可以自適應(yīng)地變化,既不引入噪聲又不丟失重要信息。另外,該方法直接利用CNN 分類器提取目標(biāo)塊信息,無需經(jīng)過目標(biāo)檢測等操作,有效解決了傳統(tǒng)基于顯著目標(biāo)的場景識別法計(jì)算量大的問題。文獻(xiàn)[29]為場景圖像分配軟標(biāo)簽作為目標(biāo)分布表示,與多分辨率CNN 框架結(jié)合進(jìn)行場景識別。在基于顯著目標(biāo)的場景識別方法中,將局部目標(biāo)特征作為場景全局特征的補(bǔ)充有效提高了場景識別的準(zhǔn)確率,但也存在一些局限性。首先,目標(biāo)檢測的準(zhǔn)確度將會影響場景識別準(zhǔn)確度,一旦目標(biāo)識別有誤將造成場景識別率下降的連鎖后果;第二,在這類方法中,盡管利用了目標(biāo)共現(xiàn)等手段對目標(biāo)顯著度進(jìn)行度量,但這仍是一種orderless 式的特征聚合,沒有考慮目標(biāo)間的關(guān)系也是一種具有強(qiáng)判別性的因素,缺乏對場景基于目標(biāo)的結(jié)構(gòu)化表示的研究。
文獻(xiàn)[30]根據(jù)一幅圖像中目標(biāo)框的分布計(jì)算出場景中每個(gè)位置的目標(biāo)密度,提取目標(biāo)密度最高的一個(gè)區(qū)域作為顯著區(qū)域,利用幾種尺度下顯著區(qū)域的融合特征表示圖像進(jìn)行場景識別。該方法并未用到整幅圖像的全局特征,可能會造成信息丟失;另外,場景具有相對不受控制的結(jié)構(gòu),關(guān)鍵的辨別性識別線索可能分布在不同區(qū)域,只利用目標(biāo)最集中的區(qū)域作為顯著部分缺乏說服力。
此外,輪廓作為一種顯著形狀也被應(yīng)用到場景識別任務(wù)中。文獻(xiàn)[31]指出,人類可以從由輪廓構(gòu)成的線條圖準(zhǔn)確地分辨場景類別,并依此提出了一種基于中軸的輪廓顯著性測量方法,進(jìn)行局部分離、帶狀對稱和錐度的輪廓顯著性測量,選擇能提供更多信息的輪廓像素子集送入CNN中進(jìn)行場景識別。實(shí)驗(yàn)證明單獨(dú)利用線條圖進(jìn)行場景識別效果并不好,輪廓信息只能作為場景圖像的一種補(bǔ)充。
基于顯著部分的場景識別法中,最關(guān)鍵的部分在于如何得到更穩(wěn)健的補(bǔ)充信息(目標(biāo)特征、區(qū)域特征、形狀特征等),補(bǔ)充性特征提取有誤將影響最終的識別效果。
CNN 模型的每一層結(jié)構(gòu)都能學(xué)習(xí)到不同的特征,層次越深學(xué)到的特征越抽象也越具有判別力,將CNN多層特征進(jìn)行融合是一種常見的提高識別精度的方法。
文獻(xiàn)[32]用在Places 上預(yù)訓(xùn)練的CNN 模型提取場景圖像特征,連接最后兩個(gè)全連接層的輸出作為圖像表示,另外為了解決該操作造成的特征冗余,對特征進(jìn)行了選擇。與文獻(xiàn)[32]相同,文獻(xiàn)[33]同樣連接最后兩個(gè)全連接層的輸出表示圖像。以上兩種方法都集中在利用更為抽象的全連接層特征進(jìn)行圖像表示,忽視了卷積層中豐富的局部信息。
對于場景識別任務(wù)而言,需要從場景布局及細(xì)節(jié)信息兩方面進(jìn)行考慮。利用場景布局信息可以輕易對一些場景進(jìn)行區(qū)分(例如沙灘與教室的布局明顯不同);但在一些相似的場景類別中(例如餐廳與咖啡廳),細(xì)小的差異決定了最終的識別結(jié)果。全連接層特征對于區(qū)分以布局為主導(dǎo)的場景圖像效果較好,在細(xì)節(jié)處理上,卷積層特征往往能提供更多具體的信息。文獻(xiàn)[34]提出了一種局部卷積監(jiān)督層(LCS),通過繞過CNN 中的一個(gè)卷積層并直接連接到最終損失函數(shù)來增強(qiáng)局部卷積特性,并用Fisher 卷積矢量(Fisher Convolutional Vector,F(xiàn)CV)對局部信息進(jìn)行編碼,與全連接層特征相結(jié)合構(gòu)成LS-DHM 表示。文獻(xiàn)[35]提出了一種基于GoogleNet 的多級模型G-MS2F,針對GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)輔助損失函數(shù)的位置分為三部分并得到對應(yīng)卷積特征進(jìn)行融合。GoogleNet本身在增加網(wǎng)絡(luò)深度和寬度的同時(shí)就對參數(shù)和計(jì)算量進(jìn)行了控制,以此為結(jié)構(gòu)基礎(chǔ)的G-MS2F 模型在訓(xùn)練階段的模型復(fù)雜度并沒有增加,測試時(shí)由于要對三個(gè)階段的特征進(jìn)行單獨(dú)提取,因此該模型會具有一定的時(shí)間復(fù)雜度。文獻(xiàn)[36]提出了一個(gè)兩階段的深度特征融合識別法,首先,對預(yù)訓(xùn)練的CaffeNet 和VGG-VD-16 進(jìn)行操作,將卷積層和全連接層的信息進(jìn)行整合,在每一個(gè)池化層后插入一個(gè)分支CNN,分支CNN包括三部分:1×1卷積層、非線性激活函數(shù)ReLU 和全局平均池化層;其次,對操作完成的兩個(gè)CNN 進(jìn)行線性結(jié)合,生成一個(gè)復(fù)合CNN,提高識別性能。文獻(xiàn)[37]以在ImageNet上訓(xùn)練的18層ResNet為遷移學(xué)習(xí)模型基礎(chǔ),在殘差塊之間提取多個(gè)特征并進(jìn)行融合,融合向量直接與K 維輸出層相連。該方法得到的結(jié)果受數(shù)據(jù)增強(qiáng)操作影響較大。文獻(xiàn)[38]將特征圖經(jīng)可視化后發(fā)現(xiàn),如果場景的關(guān)鍵目標(biāo)太小,其特征會隨著網(wǎng)絡(luò)層數(shù)的加深而變得不明顯或消失,但在較低層卻比較完整,基于此現(xiàn)象,提出了一種多層集成網(wǎng)絡(luò)來提高關(guān)鍵目標(biāo)比較小的場景的識別率,在多個(gè)低層后增加分類器,利用多個(gè)低層特征進(jìn)行單獨(dú)預(yù)測,在網(wǎng)絡(luò)中進(jìn)行集成學(xué)習(xí)后做最終預(yù)測。增加分類器會影響深層網(wǎng)絡(luò)進(jìn)一步利用低層特征,因此設(shè)計(jì)了一條特征遷移路徑,使得低層特征也能跨過分類器直接送入深層。深層特征作為低層特征的補(bǔ)充,與其融合,確保低層特征可用來預(yù)測復(fù)雜場景。文獻(xiàn)[39]針對傳統(tǒng)的語義流形法在場景識別任務(wù)中的一些限制,提出了一種基于多尺度CNN 構(gòu)建語義流形的混合體系結(jié)構(gòu),對多個(gè)特征進(jìn)行融合。
在基于多層特征融合的場景識別法中,關(guān)鍵在于如何根據(jù)不同CNN 模型(例如VGGNet、GoogleNet、ResNet 等)的結(jié)構(gòu)特點(diǎn)來提取多層特征,特別要注意模型的參數(shù)復(fù)雜度和計(jì)算復(fù)雜度。
隨著深度學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺領(lǐng)域中各種視覺處理任務(wù)的效果都得到了巨大的提升,為了取得進(jìn)一步的突破,許多研究工作開始從人類視覺特性角度出發(fā),結(jié)合額外的知識表示進(jìn)行圖像處理。場景圖像中包含著豐富的知識信息,將這些知識融入到場景識別中將有效提高識別精度。
文獻(xiàn)[40]除了融合了保留空間布局的目標(biāo)語義特征(SOSF)和全局外觀特征(GAF)外,還加入了外觀上下文特征(CFA),提出了一種結(jié)合CNN層和LSTM層的混合深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在CNN中將兩個(gè)不同中間卷積層輸出分別送入兩組多向LSTM層,并將LSTM的輸出連接起來得到CFA。其作為目標(biāo)語義和全局特征的補(bǔ)充,提供了場景圖像多向上下文信息,保留了圖像的空間布局。
現(xiàn)有的僅依靠目標(biāo)特征及目標(biāo)共現(xiàn)模式進(jìn)行場景識別的方法能取得不錯(cuò)的效果,但也無法消除場景標(biāo)簽歧義的問題,不同的場景類別可能具有相似的目標(biāo)共現(xiàn)模式,因此必須加入更具有判別力的信息(例如目標(biāo)間關(guān)系)來解決這一問題。文獻(xiàn)[41]利用場景圖對圖像中各目標(biāo)之間的關(guān)系進(jìn)行挖掘。在構(gòu)建場景子圖時(shí),提出一個(gè)概率框架對目標(biāo)進(jìn)行選擇,并確定一個(gè)最優(yōu)目標(biāo)個(gè)數(shù)上限進(jìn)行構(gòu)建??紤]到即使是在同一類場景中目標(biāo)屬性和關(guān)系類型也是在不斷變化的,因此只定義了兩目標(biāo)間是否有關(guān)系而不關(guān)注關(guān)系類型。該方案采用一個(gè)目標(biāo)堆疊網(wǎng)絡(luò)將場景子圖中的目標(biāo)和關(guān)系映射到一個(gè)潛在語義表示空間,同時(shí)用另一個(gè)CNN 模型將整個(gè)圖像也映射到這個(gè)空間,通過對場景子圖特征和全局特征進(jìn)行迭代學(xué)習(xí),實(shí)現(xiàn)了二次增強(qiáng),最終利用增強(qiáng)后的全局表示進(jìn)行場景識別。該方法的缺點(diǎn)在于僅僅對目標(biāo)間關(guān)系進(jìn)行了初步表示,并沒有對關(guān)系類型進(jìn)行精確定義,也沒有采用高效的推理機(jī)制對圖中信息進(jìn)行處理。在現(xiàn)有的表示關(guān)系的方法中,圖結(jié)構(gòu)是最常見有效的一種。一個(gè)通用的圖模型通常由節(jié)點(diǎn)和邊兩種重要元素構(gòu)成,其中節(jié)點(diǎn)v 代表目標(biāo),邊e 代表關(guān)系,如圖3 所示。一些研究采用GRU(Gated Recurrent Unit)等模塊作為存儲器,傳遞并更新節(jié)點(diǎn)信息。另外,為了對這類圖數(shù)據(jù)進(jìn)行高效的學(xué)習(xí),文獻(xiàn)[42]提出了一種圖卷積網(wǎng)絡(luò)(Graph Convolutional Network),以圖結(jié)構(gòu)中節(jié)點(diǎn)的特征矩陣和圖的鄰接矩陣為輸入,每一個(gè)隱藏層都對應(yīng)一個(gè)特征矩陣表示各節(jié)點(diǎn)的特征,并利用傳播規(guī)則對信息進(jìn)行整合形成下一層更抽象的特征。圖結(jié)構(gòu)在計(jì)算機(jī)視覺多個(gè)任務(wù)中得到了應(yīng)用,例如目標(biāo)檢測[43-45]、場景圖生成[46]、多標(biāo)簽圖像識別[47]等,當(dāng)然圖的實(shí)例化方式、信息傳播機(jī)制等都高度依賴具體的任務(wù)域,要依具體任務(wù)而定。將上述思想應(yīng)用到由場景圖像構(gòu)建的圖結(jié)構(gòu)中能充分挖掘場景中目標(biāo)之間的關(guān)系以及相互影響,可以作為未來研究的一個(gè)關(guān)注點(diǎn)。但是這種做法內(nèi)存開銷比較大,如何在大型數(shù)據(jù)集上實(shí)現(xiàn)較好的識別效果有待于進(jìn)一步研究。
(1)ImageNet[48]:包含1 500萬張圖片,涵蓋2萬多個(gè)類別,是用于計(jì)算機(jī)視覺研究的大型數(shù)據(jù)庫。
(2)Places[49]:包含1 000萬張圖片,涵蓋包括室內(nèi)場景、自然場景、城市場景等在內(nèi)的434個(gè)類別。文獻(xiàn)[50]認(rèn)為在Places上預(yù)訓(xùn)練的CNN與在ImageNet上預(yù)訓(xùn)練的CNN相比可以學(xué)習(xí)到場景圖像中更多不同的特征。
(3)MIT Indoor67[51]:包含15 620張圖片,涵蓋67個(gè)室內(nèi)場景類別,每個(gè)場景類別至少包含100 張圖片,其中80張圖片用來訓(xùn)練,20張圖片用來測試。
(4)SUN397[52]:包含超過10 萬張圖片,涵蓋397 個(gè)室內(nèi)、室外場景類別,每個(gè)場景類別至少包含100 張圖片,其中50張圖片用來訓(xùn)練,50張圖片用來測試。
(5)Scene 15[53]:包含4 485 張灰度圖像,涵蓋包括室內(nèi)場景、室外場景在內(nèi)的15 個(gè)場景類別。每個(gè)類別包含200~400張圖片,其中100張圖片用來訓(xùn)練,其余用作測試。
(6)UIUC-Sports[54]:包含1 792 張圖片,涵蓋8 個(gè)體育活動場景類別,每個(gè)類別包含137~250 張圖片,其中70張圖片用來訓(xùn)練,60張圖片用來測試。
表1 中列出了各方法的特點(diǎn)以及同時(shí)解決的特定問題。
圖3 圖結(jié)構(gòu)表示
為了對上述各種方法進(jìn)行比較,本文整理了各種方法在MIT Indoor67、SUN397、Scene 15及其他數(shù)據(jù)集上的結(jié)果,其中以正確率(Accuracy)為評價(jià)指標(biāo)。注意,以下所列實(shí)驗(yàn)在MIT67、SUN397、Scene 15、UIUC-Sports數(shù)據(jù)集上進(jìn)行的訓(xùn)練集/測試集劃分均按標(biāo)準(zhǔn)進(jìn)行,即如第4章所述。對于Places205,訓(xùn)練集中共有2 448 873張圖像,每類5 000 到15 000 不等,對應(yīng)的,另外100 張圖像用來驗(yàn)證,200 張圖像用來測試。對于Places365,訓(xùn)練集共有1 803 460張圖像,每類3 068到5 000不等,另50張圖像用來驗(yàn)證,900張圖像用來測試;在文獻(xiàn)[40]中,GAF 直接由Place 數(shù)據(jù)集主頁上公布的預(yù)訓(xùn)練的VGG16模型中提取,訓(xùn)練 提取SOSF和CFA時(shí),每類隨機(jī)選擇100 張圖像進(jìn)行訓(xùn)練,100 張圖像進(jìn)行測試。結(jié)果比較如表2所示。
MIT Indoor67、SUN397、Scene 15數(shù)據(jù)集是場景識別任務(wù)中最常用的數(shù)據(jù)集。由表2可以發(fā)現(xiàn),在對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練時(shí),除了用到以目標(biāo)為中心的大型數(shù)據(jù)集ImageNet外,大多數(shù)方法都在大型場景數(shù)據(jù)集Places或其子集上對網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,這一步有利于卷積神經(jīng)網(wǎng)絡(luò)能針對場景圖像學(xué)習(xí)到更多豐富的特征。另外,通過表格可以看出,識別率較高的幾個(gè)方法中都采用了數(shù)據(jù)增強(qiáng)操作,特別是文獻(xiàn)[37]中效果提升最明顯,進(jìn)行數(shù)據(jù)增強(qiáng)一方面解決了數(shù)據(jù)量少的問題,一方面也有效防止了過擬合。從識別準(zhǔn)確率來看,除了利用目標(biāo)特征作為全局特征的補(bǔ)充特征外,結(jié)合有效的知識表示(例如文獻(xiàn)[40]中的圖像上下文特征)能有效幫助理解圖像、提高場景識別率。利用顯著性測量方法對場景中存在的目標(biāo)進(jìn)行選擇,目標(biāo)判別力越強(qiáng)越能代表一類場景,越能有效區(qū)分不同的場景類別,如文獻(xiàn)[26],達(dá)到了相對較高的識別率;在文獻(xiàn)[29]中,顯著目標(biāo)選擇作為多分辨率網(wǎng)絡(luò)結(jié)構(gòu)的補(bǔ)充,一定程度上解決了標(biāo)簽?zāi):膯栴},也幫助提升了識別效果;另外,文獻(xiàn)[41]在構(gòu)建場景子圖時(shí)也對目標(biāo)進(jìn)行了選擇。利用目標(biāo)集中的顯著區(qū)域或場景輪廓線條信息作為場景辨別性線索來進(jìn)行場景識別效果并不理想。從文獻(xiàn)[25,33,35]不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來看,在SUN397(混合場景)上能達(dá)到相對較高精度的方法在MIT67(室內(nèi)場景)上的效果卻不突出,說明識別效果與數(shù)據(jù)集有關(guān)。
表1 典型基于深度學(xué)習(xí)的場景識別方法比較
表2 實(shí)驗(yàn)結(jié)果比較(正確率) %
本文對最近的基于深度學(xué)習(xí)的場景識別方法進(jìn)行了總結(jié)與分析,盡管這些方法已經(jīng)取得了顯著的成果,但準(zhǔn)確率還有待于進(jìn)一步提高,未來仍然面臨著諸多挑戰(zhàn):
(1)隨著圖像數(shù)據(jù)的不斷增長,場景類別也在急劇增加,將不可避免地出現(xiàn)類別重疊的問題,導(dǎo)致場景標(biāo)簽?zāi):绾翁岣叽笠?guī)模場景識別的準(zhǔn)確率變得十分關(guān)鍵。
(2)與目標(biāo)識別不同,場景識別任務(wù)更為復(fù)雜,要考慮到圖像中的目標(biāo)、背景、空間布局以及內(nèi)在聯(lián)系,因此場景圖像中存在的類內(nèi)差異性和類間相似性問題也比目標(biāo)圖像的類內(nèi)差異性和類間相似性問題更復(fù)雜。
(3)場景圖像具有數(shù)據(jù)分布不均衡問題,一些場景類別樣本數(shù)據(jù)嚴(yán)重缺乏,如果不對這部分場景類別作特殊考慮將嚴(yán)重影響識別的精確度。
(4)室內(nèi)場景識別始終是場景識別任務(wù)中最具挑戰(zhàn)性的部分,一些在室外場景上能達(dá)到很好識別效果的場景識別模型在室內(nèi)場景數(shù)據(jù)集上的表現(xiàn)卻不盡如人意。室內(nèi)場景相比于室外場景而言,布局變化更大,目標(biāo)信息更豐富,且受光線、角度變化的影響較大,如何從室內(nèi)場景特性角度出發(fā)提高識別效果也是難點(diǎn)之一。
未來的研究趨勢可以從以下幾點(diǎn)考慮:
(1)針對場景圖像的類間相似問題,挖掘細(xì)節(jié)信息可以對不同場景類進(jìn)行區(qū)分,例如充分利用全連接層特征與卷積層特征的互補(bǔ)性,從場景整體布局和細(xì)節(jié)信息兩方面考慮。
利用顯著目標(biāo)進(jìn)行場景識別仍然是十分有效的方法,仍值得進(jìn)一步研究。但只利用目標(biāo)本身的特征及目標(biāo)共現(xiàn)模式也無法避免相似場景造成的歧義,結(jié)合更具判別力的信息(如目標(biāo)間關(guān)系)將緩解這一問題。結(jié)合圖結(jié)構(gòu)等豐富的知識表達(dá)工具,應(yīng)用視覺推理模型,充分挖掘場景內(nèi)部的各種聯(lián)系,將進(jìn)一步提高場景識別性能。
(2)對于場景圖像中存在的數(shù)據(jù)分布不均衡問題,特別是數(shù)據(jù)量小的類別,可能會出現(xiàn)過擬合,使得測試階段效果不好。數(shù)據(jù)增強(qiáng)是解決過擬合最有效的方法,在數(shù)據(jù)量小的類別中創(chuàng)造更多的數(shù)據(jù),使數(shù)據(jù)分布達(dá)到平衡,即可提高模型的識別效果。傳統(tǒng)的數(shù)據(jù)增強(qiáng)法包括:人工添加新數(shù)據(jù),但成本太高,不易實(shí)現(xiàn);另外,可以通過對圖像進(jìn)行平移、翻轉(zhuǎn)、裁剪、縮放等操作增加數(shù)據(jù),是相對簡單易實(shí)現(xiàn)的操作。除此之外,可以采用元學(xué)習(xí)法[55]進(jìn)行解決,通過將元學(xué)習(xí)者與學(xué)習(xí)者相結(jié)合,在其他額外的圖像訓(xùn)練集上訓(xùn)練產(chǎn)生額外訓(xùn)練樣例的“幻覺者”,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),并與正則化技術(shù)相結(jié)合,減少數(shù)據(jù)分布不均衡的影響。
(3)對于室內(nèi)場景識別問題,在全局特征的基礎(chǔ)上,除了要更充分利用目標(biāo)信息外,可以增加場景屬性作為補(bǔ)充信息進(jìn)一步增加不同類別圖像的可區(qū)分度。場景屬性作為場景的構(gòu)成元素之一,不僅能反映目標(biāo)等內(nèi)容信息,還能從其他角度(例如場景功能屬性等)對場景進(jìn)行區(qū)分。挖掘特定于場景的屬性信息將為場景識別提供有效的幫助。