劉雨桐,李志清,楊曉玲
在遙感技術(shù)研究中,不論是專業(yè)信息的提取、動(dòng)態(tài)變化預(yù)測,還是專題地圖制作以及遙感數(shù)據(jù)庫的建立都離不開遙感圖像的分類。如何高效、準(zhǔn)確地對(duì)遙感圖像進(jìn)行分類成為該領(lǐng)域的重要研究內(nèi)容。場景分類是學(xué)習(xí)將圖像映射到語義內(nèi)容標(biāo)簽的過程。遙感圖像分類根據(jù)不同的統(tǒng)計(jì)方法,可劃分為隨機(jī)統(tǒng)計(jì)法和模糊數(shù)學(xué)方法;根據(jù)不同層次的特征提取一般可分為低層特征處理和中層特征處理兩大主要方法;根據(jù)事先是否需要訓(xùn)練樣本,又可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)[1]和無監(jiān)督學(xué)習(xí)[2]三大類。低層的特征通常采用場景圖像的顏色[3]、方向梯度[4]、密度特征[5]、特征點(diǎn)[6]、變換域的紋理[7]等來描述。由于低層特征泛化性差,目前場景分類方法主要基于中層語義[8]建模。中層特征指基于統(tǒng)計(jì)分布的低層特征與語義的聯(lián)系,包括語義的屬性、對(duì)象和局部語義概念(如稀疏表示[9]和語義概率主題模型[10])等。目前采用中層語義來進(jìn)行分類最為廣泛的是基于視覺詞袋(Bag of Visual Words, BOVW)模型的方法[11],它將圖像視為文檔,即若干個(gè)沒有順序的“視覺詞匯”集合,根據(jù)場景的低層特征來提取出互相獨(dú)立的視覺詞匯,然后利用K-Means[12]等聚類算法合并詞義相近的視覺詞,構(gòu)成一個(gè)單詞表。中層語義場景分類能一定程度地緩解語義鴻溝問題,但基于語義對(duì)象組合變換的中層語義對(duì)于場景尺度的變化、傳感器的拍攝時(shí)空和角度的差異缺乏有效的處理措施。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型[13-14]在圖像分類任務(wù)上的應(yīng)用,大大提高了圖像分類精度。隨著ReLU(Rectified Linear Units)和dropout操作的出現(xiàn),以及大數(shù)據(jù)和GPU(Graphics Processing Unit)帶來的機(jī)遇,Alex在ImageNet圖像分類挑戰(zhàn)上提出的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)模型[15]贏得了2012屆ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽冠軍。與傳統(tǒng)的統(tǒng)計(jì)學(xué)方法相比,神經(jīng)網(wǎng)絡(luò)無需對(duì)概率模型作出假設(shè),具有極強(qiáng)的學(xué)習(xí)能力和容錯(cuò)能力,適用于空間模式識(shí)別的各種問題。CNN是針對(duì)圖像分類及識(shí)別任務(wù)而特別設(shè)計(jì)的多層神經(jīng)網(wǎng)絡(luò),是一種深度學(xué)習(xí)方法。CNN具有的局部感受野和權(quán)值共享特點(diǎn),能夠有效減少訓(xùn)練參數(shù)數(shù)目,子采樣(池化)特點(diǎn)能聚合對(duì)不同位置的特征,在降低特征維度的同時(shí)還能改善結(jié)果(不容易過擬合)。在識(shí)別位移、縮放以及其他形式扭曲不變性的二維圖像時(shí),CNN在同一特征映射面上進(jìn)行權(quán)值共享的特點(diǎn)使其能隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行并行學(xué)習(xí),這也成為CNN相對(duì)于神經(jīng)元全連接網(wǎng)絡(luò)的一大優(yōu)勢。
本文提出一種改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類方法:1)嵌入Inception模塊,在較高層使用不同尺度的卷積核進(jìn)行操作,通過擴(kuò)展網(wǎng)絡(luò)的寬度來加強(qiáng)網(wǎng)絡(luò)的特征提取能力。2)采用Maxout網(wǎng)絡(luò),并結(jié)合dropout操作來擬合不同的激活函數(shù),使模型在提高圖像分類精度的同時(shí),一定程度上降低過擬合的影響。在美國土地使用分類數(shù)據(jù)集(UCM_LandUse_21)上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,與當(dāng)今前沿遙感圖像分類方法相比,本文方法能取得更高的分類精度。
CNN是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),一般由輸入、特征提取層(多層)以及分類器組成,每層由多個(gè)二維相互獨(dú)立神經(jīng)元組成。網(wǎng)絡(luò)通過逐層的特征提取學(xué)習(xí)輸入圖像的高層特征,然后將其輸入到分類器中對(duì)結(jié)果進(jìn)行分類。圖1為一個(gè)對(duì)手寫體圖像進(jìn)行識(shí)別的CNN結(jié)構(gòu)LeNet-5的模型。
圖1 手寫體識(shí)別CNN結(jié)構(gòu)LeNet-5
卷積層是CNN的特征映射層,具有局部連接和權(quán)值共享的特征。這兩種特征降低了模型的復(fù)雜度,并使參數(shù)數(shù)量大幅減少。
下采樣(池化)層是CNN的特征提取層,它將輸入中的連續(xù)范圍作為池化區(qū)域,并且只對(duì)重復(fù)的隱藏單元輸出特征進(jìn)行池化,該操作使CNN具有平移不變性。實(shí)際上每個(gè)用來求局部平均和二次提取的卷積層后都緊跟一個(gè)下采樣層,這種兩次特征提取的結(jié)構(gòu)使CNN在對(duì)輸入樣本進(jìn)行識(shí)別時(shí)具有較高畸變?nèi)萑塘Α?/p>
全連接層將之前提取到的特征進(jìn)行綜合,使圖像特征信息由二維降為一維。
輸出層(Softmax神經(jīng)元層)解決線性多類的分類問題,使用Softmax方法進(jìn)行分類能在一定程度上提升網(wǎng)絡(luò)學(xué)習(xí)速度。Softmax函數(shù)中引入了K組參數(shù)(w,b),相當(dāng)于引入K個(gè)分隔超平面, maxP(Y=j|x(i),θ,b)為最終分類結(jié)果(其中:θ表示模型的可學(xué)習(xí)參數(shù))。假設(shè)函數(shù)如下:
(1)
K項(xiàng)概率密度分布為:
(2)
本文方法的結(jié)構(gòu)分為三個(gè)模塊。首先是圖片預(yù)處理,利用圖片生成器在訓(xùn)練時(shí)生成大量規(guī)定批次的數(shù)據(jù)來實(shí)時(shí)進(jìn)行數(shù)據(jù)提升。然后,其CNN用對(duì)每幅圖像進(jìn)行卷積操作,提取該圖像的特征。本文方法的卷積操作由三個(gè)卷積層(后接最大池化層)以及一個(gè)Inception模塊(后接最大池化層)組成,既有縱向的延伸,又有橫向的擴(kuò)展;而傳統(tǒng)CNN只有縱向到底加深。最后由Maxout網(wǎng)絡(luò)對(duì)卷積操作提取到的特征進(jìn)行全連接的處理后由分類器對(duì)遙感圖像進(jìn)行分類。改進(jìn)CNN整體模型如圖2所示。
傳統(tǒng)CNN改進(jìn)方法只強(qiáng)調(diào)通過加深網(wǎng)絡(luò)層數(shù)來提高網(wǎng)絡(luò)特征處理能力,然而單一尺度卷積核無法實(shí)現(xiàn)對(duì)多尺度特征的利用。本文方法在傳統(tǒng)CNN中嵌入結(jié)合Network in Network[15]思想的Inception結(jié)構(gòu)。該模塊先聚合輸入特征,然后利用其非線性變換能力對(duì)特征進(jìn)行再加工和濾波處理,以此實(shí)現(xiàn)多尺度特征的利用。
Inception結(jié)構(gòu)通過并聯(lián)不同尺度卷積核來增加網(wǎng)絡(luò)寬度,獲取遙感圖像中多種尺度特征,從而提高網(wǎng)絡(luò)特征提取能力。
本文方法嵌入的Inception結(jié)構(gòu)如圖3所示。值得一提的是只有當(dāng)Inception結(jié)構(gòu)所在層數(shù)越高、通道數(shù)越多時(shí),該方法才能取得更高的效率。因?yàn)楫?dāng)使用圖3中Inception模型結(jié)構(gòu)時(shí),其中的1×1卷積核將信息進(jìn)行壓縮后再聚合會(huì)帶來一定程度的信息損失,而模型底層主要提取的是細(xì)節(jié)特征,細(xì)節(jié)信息的細(xì)微損失很可能給整個(gè)模型的圖像特征學(xué)習(xí)帶來極大的影響。在對(duì)特征進(jìn)行3×3或5×5卷積前引入1×1卷積核則是為了與上一層的神經(jīng)元進(jìn)行全連接,使原本特征圖數(shù)量的連接數(shù)降低到1×1卷積的數(shù)量,從而提高模型的計(jì)算效率。
Maxout模型實(shí)際上是一個(gè)使用激活函數(shù)的簡單前饋網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)上在傳統(tǒng)多層感知機(jī)(Multi-Layer Perceptron,MLP)網(wǎng)絡(luò)隱含層前添加了一個(gè)隱隱含層,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。與常用激活函數(shù)(Sigmoid[16]、tanh[17]等)不同的是,Maxout網(wǎng)絡(luò)不僅可以學(xué)到隱層節(jié)點(diǎn)間的關(guān)系,還能學(xué)到每個(gè)隱層節(jié)點(diǎn)的激活函數(shù)。
圖2 改進(jìn)CNN結(jié)構(gòu)整體模型
圖3 Inception結(jié)構(gòu)
圖4 傳統(tǒng)MLP網(wǎng)絡(luò)模型和Maxout網(wǎng)絡(luò)模型
對(duì)于給定輸入x∈Rd(x表示上一層的狀態(tài)),Maxout函數(shù)在隱藏層實(shí)現(xiàn)功能為:
hi(x)=max(zij);j∈[1,k]
(3)
zij=xTW…ij+bij;W∈Rd×m×k,b∈Rm×k
(4)
其中:W和b是需要學(xué)習(xí)的參數(shù)矩陣;d表示輸入層節(jié)點(diǎn)的個(gè)數(shù);m表示隱含層節(jié)點(diǎn)數(shù)量;k指每個(gè)隱含層節(jié)點(diǎn)對(duì)應(yīng)的“隱隱含層”節(jié)點(diǎn)數(shù)。隱含層的Maxout節(jié)點(diǎn)輸入值為k個(gè)“隱隱含層”節(jié)點(diǎn)中的最大輸出值。
任意凸函數(shù)能被以任意精度的分段線性函數(shù)擬合,而“隱隱含層”的k個(gè)節(jié)點(diǎn)在不同取值范圍的最大輸出值有局部線性特征,可判定Maxout網(wǎng)絡(luò)能擬合任意凸函數(shù)。結(jié)合dropout操作可促進(jìn)Maxout網(wǎng)絡(luò)優(yōu)化,因?yàn)樵贛axout網(wǎng)絡(luò)中每個(gè)“隱隱含層”節(jié)點(diǎn)都對(duì)輸出進(jìn)行預(yù)測,但每個(gè)Maxout單元只學(xué)習(xí)該網(wǎng)絡(luò)預(yù)測的最大值,這使網(wǎng)絡(luò)每次都只能學(xué)到相同的預(yù)測。改變dropout操作的參數(shù)能決定輸入被映射在分段線性函數(shù)的哪一段,讓Maxout網(wǎng)絡(luò)在輸入處有更大的線性區(qū)域,從而保證Maxout單元學(xué)習(xí)到不同的輸出特征,同時(shí)減少M(fèi)axout單元最大化濾波器的變化。
UCM_LandUse_21數(shù)據(jù)集[18]為美國土地使用分類數(shù)據(jù)集,它包含21種土地使用場景類型,每種類型中有256×256×3尺寸的100幅場景圖(見圖5)。高光譜遙感圖像維數(shù)高、訓(xùn)練樣本有限以及場景混合度大等特點(diǎn)給該數(shù)據(jù)集的分類帶來了巨大的困難。遙感圖像的場景是以其使用功能定義來分類的,也就是說一幅圖像中存在多種土地覆蓋類型,所以分類難度比一般場景分類大。例如:圖5(t)中有圖5(f)、圖5(r),以及圖5(n)這三種土地覆蓋。
圖5 UCM_LandUse_21類遙感圖像場景示例
在用CNN對(duì)圖像進(jìn)行訓(xùn)練前,先對(duì)圖像進(jìn)行歸一化等預(yù)處理,將數(shù)據(jù)映射到輸出層的激活函數(shù)值域(0,1)區(qū)間內(nèi)。由于遙感圖像獲取難,訓(xùn)練數(shù)據(jù)有限,本文方法對(duì)歸一化后的數(shù)據(jù)進(jìn)行一系列的隨機(jī)變換(旋轉(zhuǎn)、移動(dòng)、縮放、翻轉(zhuǎn)等方式)來對(duì)模型訓(xùn)練樣本進(jìn)行擴(kuò)展。每次訓(xùn)練時(shí)數(shù)據(jù)生成器會(huì)無限生成數(shù)據(jù),直到達(dá)到規(guī)定的次數(shù)epoch為止。每個(gè)epoch將生成一個(gè)批次的圖像數(shù)據(jù)。進(jìn)行擴(kuò)展后的圖像數(shù)據(jù)有利于抑制過擬合,提高模型的泛化能力。
實(shí)驗(yàn)過程中隨機(jī)選取每類場景圖像數(shù)據(jù)的80%作為訓(xùn)練數(shù)據(jù),其余20%為測試數(shù)據(jù)。
本文方法所改進(jìn)的CNN網(wǎng)絡(luò)層結(jié)構(gòu)參數(shù)如表1所示。
表1 改進(jìn)CNN網(wǎng)絡(luò)參數(shù)
CNN在網(wǎng)絡(luò)中對(duì)從在底層提取到的線、角等特征進(jìn)行傳遞,并在網(wǎng)絡(luò)的高層開始識(shí)別更復(fù)雜的特征,該特性使CNN更擅長識(shí)別圖像中的物體。圖6為一張機(jī)場遙感圖像在本文方法所提模型中經(jīng)過各個(gè)卷積層特征處理后的部分結(jié)果,展示CNN在各個(gè)階段進(jìn)行圖像處理的情況。由圖6可見,在卷積操作下,圖像的背景激活度逐漸變小,模型在C1和C2層中提取到的基本上是顏色、邊緣等底層特征,在I3層呈現(xiàn)更多的是飛機(jī)等地標(biāo)性紋理特征,而在C4層卷積處理后所呈現(xiàn)的特征則已經(jīng)無法通過肉眼辨認(rèn)。
為分析本文方法的Inception模塊和Maxout模塊對(duì)分類效果的影響,本文對(duì)傳統(tǒng)CNN、加入Inception模塊的方法(In_CNN)、同時(shí)結(jié)合Inception模塊和Maxout網(wǎng)絡(luò)的方法(InM_CNN)以及在InM_CNN加入dropout操作后的本文方法在同樣的數(shù)據(jù)集UCM_LandUse_21進(jìn)行分類實(shí)驗(yàn)。圖7展現(xiàn)了這四種方法的正確率隨epoch的增加而變化,可見:傳統(tǒng)CNN的分類正確率最低;加入Inception模塊后的In_CNN正確率在一定程度上得到了提升;加入Maxout層后的InM_CNN,正確率雖然在epoch為400之前有明顯提高,但之后震蕩較大(過擬合),正確率下降了近6%;而本文方法一定程度上抑制了過擬合的影響,分類正確率在后期也能穩(wěn)步增長,達(dá)到了最好的分類效果。
由此可見,本文對(duì)CNN進(jìn)行的所有改進(jìn)都是合理有效的。
圖6 卷積層操作可視化
圖7 本文方法與另三種方法分類正確率對(duì)比
圖8的分類結(jié)果混淆矩陣直觀展現(xiàn)了在本文方法下每類場景的分類正確率以及該場景錯(cuò)判為其他場景的情況。圖8中的分類正確率為5次獨(dú)立重復(fù)實(shí)驗(yàn)后所得的平均值,總體分類正確率達(dá)到了93.45%。
由圖8可見本文方法對(duì)UCM_LandUse_21數(shù)據(jù)集中耕地、機(jī)場、叢林、高爾夫球場、立交橋等紋理差異小的場景分類準(zhǔn)確率較高,對(duì)建筑、港口、中等密集住宅區(qū)等分類準(zhǔn)確率較低,說明本文方法對(duì)存在二義性,即對(duì)紋理差異較小的圖像分類效果還有待改善。
為驗(yàn)證本文方法分類優(yōu)勢,通過UCM_LandUse_21數(shù)據(jù)集,將本文方法與近幾年具有代表性的幾種方法作對(duì)比。其分類結(jié)果如表2所示。
由表2可見,中層視覺詞典學(xué)習(xí)方法所得分類正確率高于以低層特征進(jìn)行學(xué)習(xí)的BOVW和支持向量機(jī)算法?;谏窠?jīng)網(wǎng)絡(luò)的算法(ConvNet、MNCC、基于多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(Multi-Scale Deep CNN, MS_DCNN)、本文方法)的分類正確率均較高,而中層特征混合了稀疏編碼后其分類正確率也得到了一定的提升,分類效果甚至超過了部分神經(jīng)網(wǎng)絡(luò)算法,但本文方法分類正確率明顯高于其他文獻(xiàn)所提方法,因此本文對(duì)傳統(tǒng)CNN的改進(jìn)使其圖像分類能力得到了顯著提升。
表2 不同方法對(duì)UCM_LandUse_21數(shù)據(jù)集的平均分類精度
圖8 UCM_LandUse_21場景分類混淆矩陣
表2中的MS_DCNN方法[24]同樣也以深度卷積神經(jīng)網(wǎng)絡(luò)為框架并且都利用了多尺度特征,不過該方法是在圖像預(yù)處理階段利用controlet變換對(duì)圖像進(jìn)行多尺度分解來獲得多尺度特征的,并未改變傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),而且MS_DCNN的分類精度最為接近本文方法,因此本文將該方法與本文方法訓(xùn)練過程中分類精度曲線的變化進(jìn)行對(duì)比。分類正確率的對(duì)比如圖9所示。
圖9 本文方法與MS_DCNN方法的分類正確率對(duì)比
可見,本文方法經(jīng)過較少的迭代次數(shù)就能達(dá)到80%以上的正確率,而MS_DCNN相對(duì)較慢;因此,從正確率的提升速度和最后的正確率來說,本文方法都優(yōu)于該方法。
本文方法通過改進(jìn)CNN模型直接對(duì)圖片進(jìn)行特征提取,通過Inception模塊的不同尺度卷積核來增加CNN網(wǎng)絡(luò)的寬度,從而提高網(wǎng)絡(luò)特征提取的能力,實(shí)現(xiàn)對(duì)多尺度特征的利用。Maxout網(wǎng)絡(luò)結(jié)合dropout操作可消除激活函數(shù)選擇的不確定性,減少參數(shù)確定帶來的計(jì)算步驟和抑制過擬合的影響。實(shí)驗(yàn)結(jié)果表明,本文對(duì)CNN的每項(xiàng)改進(jìn)都合理有效,并且本文在UCM_LandUse_21數(shù)據(jù)集上取得了較好的分類效果。如何減少本文方法對(duì)存在二義性的圖像的誤分率是下一步的研究方向。
參考文獻(xiàn)(References)
[1] 蔡月紅,朱倩, 孫萍, 等. 基于屬性選擇的半監(jiān)督短文本分類算法[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(4): 1015-1018.(CAI Y H, ZHU Q, SUN P, et al. Semi supervised short text categorization based on attribute selection [J]. Journal of Computer Applications, 2010, 30(4): 1015-1018.)
[2] 修馳, 宋柔. 基于無監(jiān)督學(xué)習(xí)的專業(yè)領(lǐng)域分詞歧義消解方法[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(3): 780-783.(XIU C, SONG R. Disambiguation of domain word segmentation based on unsupervised learning[J]. Journal of Computer Applications, 2013, 33(3): 780-783.)
[3] 張永庫, 李云峰, 孫勁光. 綜合顏色和形狀特征聚類的圖像檢索[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(12): 3549-3553.(ZHANG Y K, LI Y F, SUN J G. Image retrieval based on clustering according to color and shape features [J]. Journal of Computer Applications, 2014, 34(12): 3549-3553.)
[4] LI Z, HU D W, ZHOU Z T. Scene recognition combining structural and textural features[J]. Science China Information Sciences, 2013, 56(7): 1-14.
[5] ZHANG F, DU B, ZHANG L. Saliency-guided unsupervised feature learning for scene classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2014, 53(4): 2175-2184.
[6] ZHU X, MA C, LIU B, et al. Target classification using SIFT sequence scale invariants [J]. Journal of Systems Engineering and Electronics, 2012, 23(5): 633-639.
[7] AKOGLU L, TONG H, KOUTRA D. Graph based anomaly detection and description: a survey[J]. Data Mining and Knowledge Discovery, 2015, 29(3): 626-688.
[8] 吳航, 劉保真, 蘇衛(wèi)華, 等. 視覺地形分類的詞袋框架綜述[J]. 中國圖象圖形報(bào), 2016, 21(10): 1276-1288.(WU H, LIU B Z, SU W H, et al. Bag of words for visual terrain classification: a comprehensive study[J]. Journal of Image and Graphics, 2016, 21(10): 1276-1288.)
[9] LI E, DU P, SAMAT A, et al. Mid-level feature representation via sparse autoencoder for remotely sensed scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, 10(3): 1068-1081.
[10] SINGH A, PARMANAND, SAURABH. Survey on pLSA based scene classification techniques[C]// Proceedings of the 2014 5th International Conference on Confluence the Next Generation Information Technology Summit. Piscataway, NJ: IEEE, 2014: 555-560.
[11] ZHAO L J, TANG P, HUO L Z. Land-use scene classification using a concentric circle-structured multiscale bag-of-visual-words model[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2015, 7(12): 4620-4631.
[12] 傅德勝, 周辰. 基于密度的改進(jìn)K均值算法及實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(2): 432-434.(FU D S, ZHOU C. ImprovedK-means algorithm and its implementation based on density [J]. Journal of Computer Applications, 2011, 31(2): 432-434.)
[13] TURAGA S C, MURRAY J F, JAIN V, et al. Convolutional networks can learn to generate affinity graphs for image segmentation[J]. Neural Computation, 2010, 22(2): 511-538.
[14] PINTO N, DOUKHAN D, DICARLO J J, et al. A high-throughput screening approach to discovering good forms of biologically inspired visual representation[J]. PLoS Computational Biology, 2009, 5(11): e1000579.
[15] PANG Y, SUN M, JIANG X, et al. Convolution in convolution for network in network[J]. IEEE Transactions on Neural Networks & Learning Systems, 2016, PP(99): 1-11.
[16] 王朔琛, 汪西莉. 參數(shù)自適應(yīng)的半監(jiān)督復(fù)合核支持向量機(jī)圖像分類[J]. 計(jì)算機(jī)應(yīng)用, 2015, 35(10): 2974-2979.(WANG S C, WANG X L. Semi-supervised composite kernel support vector machine image classification with adaptive parameters[J]. Journal of Computer Applications, 2015, 35(10): 2974-2979.)
[17] 柴瑞敏, 曹振基. 基于改進(jìn)的稀疏深度信念網(wǎng)絡(luò)的人臉識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(7): 2179-2183.(CAI R M, CAO Z J. Face recognition algorithm based on improved sparse deep belief networks[J]. Application Research of Computers, 2015, 32(7): 2179-2183.)
[18] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C]// GIS 2010: Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM, 2010: 270-279.
[19] LU F X, HUANG J. Beyond bag of latent topics: spatial pyramid matching for scene category recognition[J]. Frontiers of Information Technology & Electronic Engineering, 2015, 16(10): 817-829.
[20] ZHANG F, DU B, ZHANG L. Saliency-guided unsupervised feature learning for scene classification[J]. IEEE Transactions on Geoscience & Remote Sensing, 2014, 53(4): 2175-2184.
[21] 劉揚(yáng), 付征葉, 鄭逢斌. 基于神經(jīng)認(rèn)知計(jì)算模型的高分辨率遙感圖像場景分類[J]. 系統(tǒng)工程與電子技術(shù), 2015, 37(11): 2623-2633.(LIU Y, FU Z Y, ZHENG F B. Scene classification of high-resolution remote sensing image based on multimedia neural cognitive computing[J]. Systems Engineering and Electronics, 2015, 37(11): 2623-2633.)
[22] NOGUEIRA K, MIRANDA W O, SANTOS J A D. Improving spatial feature representation from aerial scenes by using convolutional networks[C]// Proceedings of the 2015 28th SIBGRAPI Conference on Graphics, Patterns and Images. Piscataway, NJ: IEEE, 2015: 289-296.
[23] LI E, DU P, SAMAT A, et al. Mid-level feature representation via sparse autoencoder for remotely sensed scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, PP(99): 1-14.
[24] 許夙暉, 慕曉冬, 趙鵬, 等. 利用多尺度特征與深度網(wǎng)絡(luò)對(duì)遙感影像進(jìn)行場景分類[J]. 測繪學(xué)報(bào), 2016, 45(7): 834-840.(XU S H, MU X D, ZHAO P, et al. Scene classification of remote sensing image based on multi-scale feature and deep neural network[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(7): 834-840.)