李達 李琳 李想
摘 要: 遙感圖像空間分辨率低,如何更好地提取圖像特征成為提升分類性能的關(guān)鍵。文章提出了一種基于密集卷積網(wǎng)絡(luò)(DenseNets)的遙感圖像分類方法,針對遙感圖像樣本少,采用遷移學(xué)習(xí)方法,在ImageNet上進行預(yù)訓(xùn)練,獲得初始模型, 利用預(yù)訓(xùn)練模型在(UCM_LandUse_21)上訓(xùn)練,更新訓(xùn)練策略獲得最佳模型。結(jié)果表明,該方法比BOVW+SCK和SVM_LDA方法在分類精度上提高10%,比傳統(tǒng)CNN提升了約7%,比MS_DCNN提升5%。因此,該方法對于遙感圖像場景分類具有一定的價值。
關(guān)鍵詞: 遙感圖像分類; 密集卷積網(wǎng)絡(luò); 遷移學(xué)習(xí); 場景分類
中圖分類號:TP751.1 文獻標(biāo)志碼:A 文章編號:1006-8228(2018)10-60-04
Abstract: The spatial resolution of remote sensing images is low, so how to better extract image features has become the key to improve the classification performance. In this regard, this paper proposes a remote sensing image classification method based on densely connected convolutional networks (DenseNets). For the small number of remote sensing image samples, transfer learning method is adopted to conduct pre-training on ImageNet and obtain the initial model. And using the initial model conducts training on UCM_LandUse_21 with the training policy updated to obtain the best model. The results show that the method is 10% higher than BOVW+SCK and SVM_LDA in classification accuracy, 7% higher than traditional CNN and 5% higher than MS_DCNN. Therefore, the method proposed in this paper has certain value for remote sensing image scene classification.
Key words: remote sensing image classification; densely connected convolutional networks; transfer learning; scene classification
0 引言
近年來,伴隨“數(shù)字地球”等概念的提出,越來越多的民用場合,諸如精準(zhǔn)農(nóng)業(yè)[1],海洋遙感[2],巖礦物質(zhì)識別[3],越來越依賴于遙感圖像,精準(zhǔn)有效地對遙感圖像進行分類成為該領(lǐng)域的重要研究內(nèi)容,場景分類是一個學(xué)習(xí)如何將圖像映射到語意內(nèi)容標(biāo)簽的過程[4-9],目前采用的中層語意進行分類中應(yīng)用最廣泛的是BOVW[10]方法。
隨著深度學(xué)習(xí)理論的興起,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于圖像的分類任務(wù)[11],由清華大學(xué)的Zhuang Liu,康奈爾大學(xué)的Gao Huang以及Facebook AI Research的Laurens van der Maaten[12]共同提出的密集卷積網(wǎng)絡(luò)(DenseNnet),作為CVPR2017的oral,一經(jīng)提出便引發(fā)極大關(guān)注,Densenet在公開數(shù)據(jù)集ImageNet上取得了非常高的識別率和檢測效果,然而,目前將該網(wǎng)絡(luò)應(yīng)用于遙感圖像的分類還比較少。
本文嘗試結(jié)合遷移學(xué)習(xí)的思想,并借鑒由羅暢、王杰[13]等人提出的基于DCNN的遙感圖像分類方法,提出如下設(shè)計方法。
⑴ 在ImageNet數(shù)據(jù)集上,本文采用的是含有4個dense block DenseNet-BC,進行訓(xùn)練,并選擇表現(xiàn)較好的DenseNet-169作為預(yù)訓(xùn)練模型。
⑵ 將獲得的預(yù)訓(xùn)練的模型遷移至目標(biāo)數(shù)據(jù)集(UCM_LandUse_21)上進行訓(xùn)練,并優(yōu)化,調(diào)整相關(guān)參數(shù),獲得較為理想的模型。
經(jīng)過ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的DenseNet模型,能夠成功遷移至高分辨率遙感場景分類的部分原因在于:遙感圖像和基本光學(xué)圖像的基本視覺模塊(比如:邊,角)等是相同的。
1 用于預(yù)訓(xùn)練的DenseNet結(jié)構(gòu)
ZhuangLiu等人提出的DenseNet:用前饋的方式將每一層與其他所有層連接起來,相對于每一層,前面的所有層的feature maps 都會作為輸入;同理,這一層的feature map將會作為后面所有層的輸入,圖1是一個dense block的示意圖。
假設(shè)圖像輸入為x0,網(wǎng)絡(luò)有L層,每一層都包含有一個非線性變換,該非線性變換可以是BN,ReLU,Pooling,或者卷積層,假設(shè)第l層的輸出為x1,可以由以下公式來表征它們之間的關(guān)系:
將Hl定義為一個復(fù)函數(shù),其中包含HlBN,ReLU函數(shù)和一個3×3卷積。由于Desenet網(wǎng)絡(luò)是基于ResNet網(wǎng)絡(luò)做出的改進,但和ResNet所不同的是:DenseNet在特征(features)進入下一層之前,不做疊加,通過層間的連接進行特征的融合,所以,第L層將會有L個輸入,由之前的所有層的卷積模塊的特征圖組成,同樣由于該層的特征圖會流進后面的L-l層。因此,對于L層的網(wǎng)絡(luò),產(chǎn)生L(L+1)/2個連接,不同于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)所產(chǎn)生的L條連接。
1.1 DenseNet網(wǎng)絡(luò)的優(yōu)勢主要體現(xiàn)在以下幾個方面[12]
⑴ 更優(yōu)化的信息和梯度流動,每一層都和損失函數(shù)的梯度有直接連接,更關(guān)鍵的是,密集連接具有正則化的作用,可以減輕在小數(shù)據(jù)集上的過擬合。
⑵ 不是簡單的通過加深網(wǎng)絡(luò)層數(shù)[13]如ResNet,或者拓展單層的寬度[14](如GoogLeNet中的inception),來獲得新的網(wǎng)絡(luò)架構(gòu),而是通過feature的重用來獲得較高的參數(shù)利用率。
本文所采用的DenseNet包含了4個密集塊(denseNet blocks),基本結(jié)構(gòu)類似圖2所示。
1.2 采用預(yù)先訓(xùn)練的DenseNetImageNet169來初始化權(quán)重,網(wǎng)絡(luò)參數(shù)如下
model=densenet.DenseNet(input_shape=image_dim,
depth=169, nb_dense_block=4, growth_rate=32,
nb_filter=64,nb_layers_per_block=[6, 12, 32, 32],
bottleneck=True,reduction=0.5, dropout_rate=0.0,
weight_decay=1e-4,include_top=True,subsample_initial_block=True,
weights=None, input_tensor=None,
classes=21, activation='softmax')
輸入圖片為256×256×3 RGB圖像
DenseNet網(wǎng)絡(luò)考慮到通道合并后的輸入的chanel仍然很大,為了減少輸入的feature map數(shù)量,和降低維度,更好的融合各個通道的特征而采用了bottleneck layer,也即在每個dense block 的卷積前面加入了1×1的卷積操作,另外為了進一步壓縮參數(shù),在dense block之間又加進了Translation layer同樣是1×1的卷積操作。關(guān)于具體參數(shù)如何減少的過程,文獻[12]給出了詳細的說明。下圖展示了預(yù)訓(xùn)練模型DenseNet-169的具體參數(shù),引自文獻[12],如表1所示。
2 高分辨率遙感場景的分類實驗
UCM_LandUse_21數(shù)據(jù)集[14]為美國土地使用分類數(shù)據(jù)集,共包含21類帶標(biāo)簽的高分辨率遙感場景,每一類中又有100張256×256×3尺寸的圖像,圖像的分辨率為0.3米左右,其中部分的場景示例如圖3所示。
3 訓(xùn)練策略
梯度優(yōu)化采用的優(yōu)化器為rmsprop,初始化學(xué)習(xí)速率為0.001,權(quán)值衰減0.0005,當(dāng)測試集的loss持續(xù)10次不下降時,學(xué)習(xí)速率開始下降為lr*0.1,最小學(xué)習(xí)速率控制為0.5e-6。當(dāng)測試集的loss持續(xù)20次不下降時,停止訓(xùn)練,網(wǎng)絡(luò)總共經(jīng)過63 epoch訓(xùn)練,在43 epoch取得了最優(yōu)的模型,損失函數(shù)采用交叉熵。batch_size=10
4 實驗結(jié)果與分析
由于本次實驗的網(wǎng)絡(luò)結(jié)構(gòu)過于龐大,共有169層卷積層,細節(jié)的展示網(wǎng)絡(luò)的結(jié)構(gòu)存在難度,因此本文給出了分類正確率曲線,和分類結(jié)果混淆矩陣。
本次實驗過程隨機選取每類場景圖像數(shù)據(jù)集的80%作為訓(xùn)練數(shù)據(jù),余下20%用作測試數(shù)據(jù)也即訓(xùn)練集為80%,測試集為20%,圖4給出本次實驗的正確率曲線。
訓(xùn)練集上準(zhǔn)確率為:Accuracy:100.0 Error:0.0
測試集上準(zhǔn)確率為:Accuracy:96.9047619047619 Error:3.095238095238102
圖5給出了本次實驗的分類結(jié)果,混淆矩陣,更加直觀的展現(xiàn)了本文方法下每類場景的分類正確率以及將該場景錯分為其他場景的情況,圖5中的分類正確率為6次獨立重復(fù)實驗分類正確率的平均值,總體分類正確率穩(wěn)定在96%左右。
為了驗證本文方法的優(yōu)勢,將本文方法和近幾年具有代表性的幾種方法進行了對比,如表2,可以清楚的看到,劉雨桐[14]等人所采用的基于改進卷積神經(jīng)網(wǎng)絡(luò)的方法優(yōu)于基于MS_DCNN的方法,羅暢[13]DCNN_PCA方法更進一步提升了準(zhǔn)確率,而本文方法又高于前面兩種方法,因此本文方法有一定的貢獻。
5 結(jié)束語
本文充分利用DenseNet網(wǎng)絡(luò)在特征提取方面所具有的優(yōu)勢,為了更好的在遙感圖像數(shù)據(jù)集上進行應(yīng)用,本文借鑒了遷移學(xué)習(xí)[20]的思想,用DenseNet在大規(guī)模數(shù)據(jù)集ImageNet上進行訓(xùn)練,得到預(yù)訓(xùn)練模型DenseNet-ImageNet169,同時,為了使該模型能夠在本文的數(shù)據(jù)集上有較好的分類表現(xiàn),對網(wǎng)絡(luò)的參數(shù)做出了一些調(diào)整,比如優(yōu)化器采用了rmspop,損失函數(shù)采用了交叉熵模型。最實驗結(jié)果表明,本文對預(yù)訓(xùn)練模型做出的優(yōu)化在UCM_LandUse_21上取得了較好的分類效果。如何進一步使得本文方法有效的應(yīng)用與信息量更為豐富的高光譜遙感圖像上是下一步的研究方向。
參考文獻(References):
[1] Geveart C M,Tang J,Garcia-Haro F J and kooistraL.Combing hyperspectral UAV and multispectral formosat-2 imagery for precision agriculture applications,2014.
[2] 陸應(yīng)成,胡傳民,孫紹杰,張民偉,周楊,石靜,溫顏沙.海洋溢油與烴滲漏的光學(xué)遙感研究進展[J].遙感學(xué)報,2016.5:1259-1269
[3] 張成業(yè),秦其明,陳理,王楠,趙姍姍.高光譜遙感巖礦識別研究進展[J].光學(xué)精密工程,2015.8:2407-2418
[4] LI Z,HU D W,ZHOU Z T.Scene recognization combing structural and textural features[J]. Science China Information Sciences,2013.56(7):1-14
[5] ZHANG F,DU B,ZHANG L. Saliency-guided unsupervised feature learning for science classification[J].IEEE Taansactions on Geoscience&Remote; Sensing,2014.53(4):2175-2184
[6] ZHU X ,MA C,LIU B,et al.Target classification using SIFT sequence scale invariants[J]. Journal of Systems Engineering and Electronics,2012.23(5):633-639
[7] AKOGLU L,TONG H,KOUTRA D, Graph based anomaly dection and description: a survey[J]. Data Ming and Knowedge Discovery,2015.29(3):626-688
[8] 吳航,劉保真,蘇為華等.視覺地形分類的詞袋框架綜述[J].中國圖像圖形報,2016.21(10):1276-1288
[9] ROMERO A,GATTA C,CAMPS-VALLS G.Unsupervised dep feature extraction for remote sensing image clasification[J]. IEEE Trans.on Geoscience and Remote Sensing,2016.54(3):1349-1362
[10] ZHAO L J, TANG P, HUO L Z. Land-use scene classification using a concentric circle-structured multiscale bag-of-visual-words model[J].IEEE Journal of Selected Topics in Applied Earth Ob-servations & Remote Sensing,2015.7(12):4620-4631
[11] Krizhevsky A, Sutskever I, Hinton G E.ImageNet Clasification with Dep Convolutional Neural Net-works[C].The 26th Conference on Neural Information Procesing Systems,Nevada,US,2012.
[12] HUANG G, LIU Z, WEINBERGER K Q, et al. Densely connected convolutional networks[OL].http://arxiv.org/abs/1608.06993,2017.
[13] 羅暢,王潔,王世強,史通,任衛(wèi)華.基于泛化深度遷移特征的高分遙感場景分類[J].系統(tǒng)工程與電子技術(shù),2018.40(3):682-691
[14] 劉雨桐,李志清,楊曉玲.改進卷積神經(jīng)網(wǎng)絡(luò)在遙感圖像分類中的應(yīng)用[J].計算機應(yīng)用,2018.38(4):949-954
[15] YANG Y, NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C].//GIS 2010: Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York: ACM,2010:270-279
[16] ZHANG F, DU B, ZHANG L. Saliency-guidedunsupervised fea-ture learning for scene classification[J]. IEEE Transactions on Ge-oscience & Remote Sensing,2014.53(4):2175-2184
[17] 許夙暉,慕曉冬,趙鵬等.利用多尺度特征與深度網(wǎng)絡(luò)對遙感影像進行場景分類[J].測繪學(xué)報,2016.45(7):834-840