国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于非對稱全局卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像識別方法

2020-11-28 03:17徐風(fēng)孫萬硯
林業(yè)工程學(xué)報 2020年6期
關(guān)鍵詞:集上全局像素

徐風(fēng),孫萬硯

(南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,南京 210037)

遙感圖像的地物種類識別在土地資源管理、生態(tài)系統(tǒng)監(jiān)測和森林狀態(tài)評估等領(lǐng)域中起著基礎(chǔ)性作用,該任務(wù)的主要目的是通過對圖像特征的理解和分析,判斷出圖像中所包含的主要目標(biāo)類別信息,如農(nóng)作物、沙灘或森林等[1]。為提高遙感圖像地物種類識別的精度和效率,模式識別和機器學(xué)習(xí)等方法被廣泛應(yīng)用,并且取得了令人滿意的效果[2]。

近年來,隨著深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域的發(fā)展,使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)處理二維自然場景圖像已經(jīng)成為當(dāng)下最熱門的研究課題之一。相比傳統(tǒng)的手工特征和淺層學(xué)習(xí)特征,深度學(xué)習(xí)特征包含了特定的語義信息,同時具有可判別能力強、適用范圍廣、可學(xué)習(xí)能力凸出等優(yōu)勢[3-4]。廣大農(nóng)林科技工作者也將深度CNN特征用于遙感圖像的理解和分析任務(wù)中,如遙感圖像地物分類、遙感圖像質(zhì)量評價分析等[5-6]。

盡管經(jīng)典的深度CNN模型在一定程度上可以提升二維圖像的識別精度和效率,然而由于傳統(tǒng)卷積結(jié)構(gòu)存在局部性的特點,即單個卷積模塊每次只能提取到輸入圖像(特征圖)的局部信息(具有局部感受野)。因此,經(jīng)典的深度CNN模型很難在同層網(wǎng)絡(luò)結(jié)構(gòu)中獲取到輸入圖像(特征圖)的全局信息和長遠(yuǎn)依賴關(guān)系,而其已被證明是圖像識別的關(guān)鍵因素。雖然通過多個卷積模塊的疊加可以在一定程度上增大同層卷積結(jié)構(gòu)的局部感受野,但是這種簡單堆砌的結(jié)構(gòu)往往會造成深度CNN模型計算效率低下和難優(yōu)化等缺點。為更容易地獲取輸入圖像(特征圖)的全局信息和長遠(yuǎn)依賴關(guān)系,Wang等[7]提出了全局卷積神經(jīng)網(wǎng)絡(luò)(non-local convolutional neural network, Non-local CNN),并在二維自然場景圖像識別任務(wù)中取得了理想的效果。Non-local CNN主要基于全局卷積(non-local convolution, NC)結(jié)構(gòu),其首先計算輸入圖像(特征圖)中每個查詢值(Query)和所有關(guān)鍵值(Key)之間的相似對應(yīng)關(guān)系,并使用獲得的相似度作為每個Query的全局上下文表示;然后通過相似度的加權(quán)總和將所有Query和鍵(Value)聚合后作為加權(quán)特征;最終加權(quán)后的特征和殘差連接的和作為NC的輸出。Non-local CNN已經(jīng)被證明為是一種有效的全局上下文信息獲取機制,且被成功應(yīng)用于目標(biāo)追蹤、語義分割和圖像生成等任務(wù)中[8-9]。

雖然Non-local CNN可以被用來提取圖像(特征圖)的全局信息和長遠(yuǎn)依賴關(guān)系,但NC結(jié)構(gòu)本身需要較大的計算量,尤其對于一些高分辨率的遙感圖像,其所耗費的計算代價是巨大的。例如,對一張H×W×C(H和W表示對應(yīng)的高度和寬度、C表示維度)的圖像(特征圖),NC結(jié)構(gòu)所需要的時間和空間復(fù)雜度均為O[(H×W)×(H×W)]。因此,直接將NC用于遙感圖像的識別任務(wù)中是不可取的??紤]到部分種類遙感圖像內(nèi)部存在重復(fù)像素塊和目標(biāo)的特性,筆者認(rèn)為在實際遙感圖像識別任務(wù)中無須逐像素計算Query和鍵值對(Key-value)的對應(yīng)關(guān)系,只需部分關(guān)鍵的Key和Value對應(yīng)的像素即可。本研究中,為更高效地獲取遙感圖像的全局信息和長遠(yuǎn)依賴關(guān)系,筆者提出了一種非對稱的全局卷積 (unsymmetrical non-local convolution, UNC)結(jié)構(gòu),并應(yīng)用于深度CNN網(wǎng)絡(luò)中, 形成非對稱的全局卷積神經(jīng)網(wǎng)絡(luò)(unsymmetrical non-local convolutional neural network, UN CNN)。首先對經(jīng)典的全局卷積結(jié)構(gòu)中Key-value進行下采樣,以降低其對應(yīng)的圖像(特征圖)分辨率;然后將Query和經(jīng)過下采樣后的Key-value逐像素相乘,獲取輸入圖像(特征圖)的全局上下文表示和加權(quán)特征;最后將加權(quán)特征和殘差連接相加,作為UNC的輸出。和經(jīng)典的NC結(jié)構(gòu)相比,UNC的時間和空間復(fù)雜度降低為O[(H×W)×(H×W/r2)],其中,r為空間采樣率。本研究在RSSCN7、UCML、WHU-RS19和AID[10-13]4種遙感圖像地物識別數(shù)據(jù)集上進行實驗,驗證本研究方法的有效性和可行性。

1 數(shù)據(jù)處理與實驗方法

1.1 實驗數(shù)據(jù)

本研究中,將4種具有代表性的遙感圖像數(shù)據(jù)集作為實驗數(shù)據(jù),分別為RSSCN7、UCML、WHU-RS19和AID,這些數(shù)據(jù)集均已被證實了其可用性和有效性[14]。其中,RSSCN7包含7個不同類別,每類400張(400×400像素/張),共計2 800張;UCML包含21個不同類別,每類100張(256×256像素/張),共計2 100張;WHU-RS19包含19個不同類別,共計950張(600×600像素/張);AID包含30個不同類別,共計10 000張(600×600像素/張)。這些數(shù)據(jù)集中部分類別的遙感圖像如圖1所示,可發(fā)現(xiàn)在這些類別的遙感圖像中均存在重復(fù)像素塊或重復(fù)目標(biāo)。

圖1 實驗數(shù)據(jù)集中部分種類樣本圖像Fig. 1 Some kinds of sample images in the test data set

注:虛線表示殘差連接。圖2 全局卷積模塊和非對稱的全局卷積模塊Fig. 2 The non-local and unsymmetrical non-local convolution module

1.2 數(shù)據(jù)預(yù)處理

由于深度學(xué)習(xí)模型需要大量訓(xùn)練數(shù)據(jù)才能使模型最優(yōu)化,因此,圖像擴增作為一種最常見的數(shù)據(jù)預(yù)處理手段被應(yīng)用于多種以深度學(xué)習(xí)模型為基礎(chǔ)的計算機視覺任務(wù)中,并取得顯著成效[5-6]。本研究中,筆者采用與文獻(xiàn)[6]一致的數(shù)據(jù)擴增策略。首先,數(shù)據(jù)集中的圖片分別被水平、垂直和對角翻轉(zhuǎn)45°和135°;之后,被翻轉(zhuǎn)的圖像再經(jīng)過隨機旋轉(zhuǎn)作為實驗數(shù)據(jù)集,旋轉(zhuǎn)角度分別為45°,90°,135°和180°。數(shù)據(jù)擴增后的圖像被分為80%的訓(xùn)練集、10%的驗證集和10%的測試集。

1.3 實驗方法

相比自然場景的圖像,部分種類的遙感圖像存在重復(fù)像素塊或重復(fù)目標(biāo)。因此,經(jīng)典的NC結(jié)構(gòu)(圖2a)中逐像素計算Query和Key-value對應(yīng)關(guān)系的操作是不必要的,遙感圖像只需部分關(guān)鍵的Key和Value即可。為此,提出了一種UNC結(jié)構(gòu),使用下采樣操作降低Key-value對應(yīng)特征圖的分辨率,改進后的操作流程如圖2b所示。給定一張任意尺寸的遙感圖像(特征圖)X∈RH×W×C,首先,UNC對Key-value對應(yīng)的特征圖Xk,v進行池化操作,表示如下:

(1)

(2)

式中:W*表示可學(xué)習(xí)的特征嵌入映射;softmax(·)為特征歸一化函數(shù);f(X)為加權(quán)后的特征圖;C表示輸入圖像的像素數(shù)量。最后將加權(quán)特征和殘差連接相加,作為UNC的輸出,表示為:

(3)

和經(jīng)典的NC結(jié)構(gòu)相比,UNC結(jié)構(gòu)可以減少一些不必要的計算,降低模型對于內(nèi)存的需求。同時,和NC結(jié)構(gòu)的使用方法類似,UNC結(jié)構(gòu)是一種專門針對遙感圖像處理的通用CNN模塊,具有即插即用的特點,可以應(yīng)用于多種深度CNN模型的任意層中。為驗證UNC結(jié)構(gòu)的有效性,參考文獻(xiàn)[7]的方法,將UNC結(jié)構(gòu)和經(jīng)典的ResNet-18[15]網(wǎng)絡(luò)相結(jié)合,在ResNet-18的第4個階段(Block)之后添加UNC結(jié)構(gòu),形成UN CNN。相比原始的CNN結(jié)構(gòu),UN CNN只帶來少量參數(shù)的增加。因此,模型的整體時間和空間復(fù)雜度基本和CNN模型保持一致。

2 實驗與結(jié)果

2.1 實驗設(shè)置

所有實驗基于PyTorch深度學(xué)習(xí)平臺,該平臺具有良好的擴展性、模塊性和高效等特點,深受工業(yè)界和學(xué)術(shù)界歡迎,目前已經(jīng)是深度學(xué)習(xí)研究領(lǐng)域應(yīng)用最廣泛的框架之一。程序在Think Station P320圖形工作站上搭建,并使用4塊GeForce GTX 1080 Ti圖形處理器結(jié)合CUDA框架對圖像處理流程進行加速。所有深度學(xué)習(xí)模型均首先在ImageNet[14]數(shù)據(jù)集上進行預(yù)訓(xùn)練,然后在具體的遙感圖像數(shù)據(jù)集上微調(diào)。實驗輸入圖像尺寸為256×256像素,模型優(yōu)化使用隨機梯度下降優(yōu)化器,其動量設(shè)置為0.9,初始學(xué)習(xí)率設(shè)置為0.01,下降率設(shè)置為每1 000次迭代下降0.1,總迭代次數(shù)為 50 000 次,批量大小設(shè)置為16。為保證實驗結(jié)果的穩(wěn)定性,將每組實驗隨機運行5次,獲取的模型在測試集上的平均準(zhǔn)確率(accuracy,Acc)作為實驗的主要評價指標(biāo)。此外,為驗證本研究方法的高效性,將模型的浮點運算量(floating point operations,F(xiàn)LOPs)作為另一項評價指標(biāo)。

2.2 消融實驗

對于復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型,通過消融實驗?zāi)芸焖賹崿F(xiàn)對模型超參數(shù)和實驗?zāi)K的準(zhǔn)確定位,即尋找到CNN模型的最佳狀態(tài)[16]。在本研究中,通過在RSSCN7數(shù)據(jù)集上的消融實驗,主要可找出不同下采樣方案和采樣率對實驗結(jié)果的影響。

2.2.1 采樣方案對識別準(zhǔn)確率的影響

全局最大池化(global max pooling,GMP)和全局均值池化(global average pooling,GAP)是深度學(xué)習(xí)模型中最常用的2種全局池化函數(shù),可用于圖像和特征圖的下采樣操作中,以達(dá)到降低分辨率的目的[17]。因此,在第1組實驗中,主要探討不同池化函數(shù)對識別準(zhǔn)確率的影響。分別使用GMP和GAP對UNC結(jié)構(gòu)的Key-value對應(yīng)的特征圖進行下采樣,采樣后的輸出尺寸為8×8。在RSSCN7數(shù)據(jù)集上的實驗結(jié)果如表1所示。

表1 GMP和GAP對識別準(zhǔn)確率的影響Table 1 The effects of GMP and GAP on the recognition accuracy

從表1中可以看出,GMP和GAP均可提升模型的準(zhǔn)確率,對驗證集的準(zhǔn)確率可分別提升至96.89% 和97.02%,對測試集的準(zhǔn)確率可分別提升至96.32%和96.63%,因此,可以驗證UNC結(jié)構(gòu)的有效性。此外,相比GMP模型,GAP對模型準(zhǔn)確率的提升效果更明顯。在模型計算量方面,相比經(jīng)典的Non-local模型,GMP和GAP均可減少28.5 G的FLOPs。因此,可以驗證UNC結(jié)構(gòu)的高效性。在下述實驗中,均采用GAP作為UN CNN模型的下采樣方案。

2.2.2 采樣率對識別準(zhǔn)確率的影響

除了采樣方案,采樣率也是影響模型性能的重要因素之一,本節(jié)實驗主要探討采樣率對UNC結(jié)構(gòu)的影響。經(jīng)GAP下采樣后,特征圖的分辨率由原來的H×W×C變?yōu)閔×w×C,因此,采樣率可表示為r=H/h=W/w。r對UN CNN模型準(zhǔn)確率的影響在RSSCN7數(shù)據(jù)集上的實驗結(jié)果見表2。

表2 采樣率對識別準(zhǔn)確率的影響Table 2 The effect of sampling rate on the recognition accuracy

由表2可得出:1)UNC結(jié)構(gòu)的采樣率越低,模型參數(shù)量越少,越接近于傳統(tǒng)的深度CNN模型參數(shù)量;2)r=0.5時(輸出分辨率為8×8),模型在驗證集和測試集上的準(zhǔn)確率最高,分別達(dá)到97.02%和96.63%。在模型效率方面,UNC結(jié)構(gòu)最多可減少24.53%的參數(shù)以及整體49.1%的浮點運算量。

2.3 實驗結(jié)果

在最后的實驗中,采用GAP作為UN CNN模型的下采樣方案,其采樣率設(shè)置為0.5。分別在RSSCN7、UCML、WHU-RS19和AID[10-13]測試集上的實驗結(jié)果如表3所示。和當(dāng)前在這些遙感圖像地物識別數(shù)據(jù)集上對應(yīng)的最好識別方法相比,UN CNN均可取得較高的準(zhǔn)確率,進一步驗證了本研究方法的有效性和普適性。

表3 最終實驗準(zhǔn)確率

3 分析與討論

為更加直觀地比較本研究提出方法的有效性,對深度CNN結(jié)構(gòu)第4個階段之后的遙感圖像特征圖所對應(yīng)的Grad-CAM[23]進行可視化,結(jié)果如圖3所示,越明亮的區(qū)域表示該區(qū)域?qū)D像種類識別的貢獻(xiàn)越大。從圖3中可以看出,基于Non-local CNN的深度特征對應(yīng)的Grad-CAM特征響應(yīng)區(qū)域更大,表明有更多的區(qū)域參與該圖片的識別,可以證實NC結(jié)構(gòu)的有效性。此外,相比Non-local CNN和本研究提出的UN CNN模型對應(yīng)的特征,UN CNN對應(yīng)特征響應(yīng)區(qū)域的Grad-CAM并未減少,表明本研究模型可以在保證參與識別區(qū)域面積的前提下,降低模型的時間和空間復(fù)雜度。

圖3 不同深度CNN模型對應(yīng)特征圖的Grad-CAMFig. 3 Grad-CAM of feature maps corresponding to different deep CNN models

4 結(jié) 論

為解決全局卷積模塊引入計算量過大的問題,針對部分種類遙感圖像存在重復(fù)像素塊的特點,提出了一種非對稱的全局卷積神經(jīng)網(wǎng)絡(luò)模型。在4種公開遙感圖像數(shù)據(jù)集上的實驗結(jié)果驗證了方法的有效性和高效性。未來會考慮將UN CNN模型應(yīng)用于其他遙感圖像任務(wù)中,如高分辨率遙感圖像的語義分割、遙感圖像地物目標(biāo)檢測等。此外,在計算Query和Key-value對應(yīng)關(guān)系時,現(xiàn)有方法將不同Key-value對應(yīng)特征圖中的像素塊視作同等重要,但實際上,不同Query和同一個Query對應(yīng)的Key-value像素對于模型最終識別起著非同等重要的作用。因此,筆者也考慮基于自適應(yīng)卷積模塊的非對稱全局卷積,尤其在處理遙感圖像時,首先挑選出具有代表性的像素塊,從而減少模型的計算量,進一步提升模型的性能。

猜你喜歡
集上全局像素
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
像素前線之“幻影”2000
量子Navier-Stokes方程弱解的全局存在性
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
“像素”仙人掌
R語言在統(tǒng)計學(xué)教學(xué)中的運用
落子山東,意在全局
éVOLUTIONDIGAE Style de vie tactile
高像素不是全部
攀枝花市| 开化县| 正阳县| 施甸县| 莲花县| 汉中市| 武穴市| 镇沅| 辽宁省| 阿克苏市| 灌云县| 湖北省| 纳雍县| 察雅县| 策勒县| 海宁市| 富裕县| 河东区| 新疆| 丰台区| 崇明县| 泰宁县| 黑龙江省| 平顺县| 色达县| 长沙市| 巴林右旗| 敦化市| 龙门县| 敖汉旗| 赤水市| 江都市| 宁明县| 乐亭县| 邵武市| 广水市| 望谟县| 刚察县| 中江县| 利川市| 济南市|