王李祺 高翔 程蓉 譚秀輝 白艷萍
摘要:遙感場景分類任務中,面對遙感場景中類間相似性,類內(nèi)多樣性的挑戰(zhàn),直接應用卷積神經(jīng)網(wǎng)絡是局限的.現(xiàn)有的注意力機制在嵌入網(wǎng)絡末端位置時,增強卷積神經(jīng)網(wǎng)絡表達場景圖像的能力相較于嵌入其他位置時較弱.因此,提出基于注意卷積模塊(ACM)的MoblieNetv2模型框架,增強了注意力機制在卷積神經(jīng)網(wǎng)絡末端表達場景圖像的能力.首先通過主干網(wǎng)絡提取豐富的深度語義特征圖,然后將ACM嵌入主干網(wǎng)絡的末端,以此關注更加顯著的特征區(qū)域.嵌入的ACM模塊可以在不顯著增加網(wǎng)絡計算量的同時,有效地提高網(wǎng)絡分類性能.該模塊在嵌入CNN末端位置時相較于現(xiàn)有的注意力機制模塊有著較佳的性能.在RSSCN7和RSOD兩個公開的遙感場景數(shù)據(jù)集上,平均分類精度相較于MoblieNetv2分別提升2.42%和1.64%.實驗結(jié)果表明ACM相比于已有的注意力機制在網(wǎng)絡末端具有泛化性和更佳的分類精度.
關鍵詞:遙感圖像; 圖像分類; 卷積神經(jīng)網(wǎng)絡; 注意力機制; MoblieNetv2
中圖分類號:TP183文獻標志碼: A
Classification application of remote sensing image scene based on
the attention convolution module
WANG Li-qi GAO Xiang CHENG Rong TAN Xiu-hui BAI Yan-ping(1.School of Mathematics, North University of China, Taiyuan? 030051, China; 2.School of Information and Communication Engineering, North University of China, Taiyuan 030051, China)
Abstract:In the remote sensing scene classification task,facing the challenges of inter-class similarity and intra-class diversity in remote sensing scenes,the direct application of convolutional neural networks is limited.When the existing attention mechanism is embedded in the end position of the network,the ability of the convolutional neural network to express the scene image is weaker than when it is embedded in other positions.Therefore,a MoblieNetv2 model framework based on Attention Convolution Module (ACM) is proposed,which enhances the ability of the attention mechanism to express scene images at the end of the convolutional neural network.First,rich deep semantic feature maps are extracted through the backbone network,and then ACM is embedded at the end of the backbone network to focus on more salient feature regions.The embedded ACM module can effectively improve the network classification performance without significantly increasing the network computation.Compared with the existing attention mechanism module,this module has better performance when embedding the end position of CNN.On the two public remote sensing scene datasets,RSSCN7 and RSOD,the average classification accuracy is 2.42% and 1.64% higher than that of MoblieNetv2,respectively.The experimental results show that ACM has generalization and better classification accuracy at the end of the network than the existing attention mechanism.
Key words:remote sensing images; image classification; convolutional neural networks; attention mechanisms; MoblieNetv2
0引言
隨著遙感技術(shù)的快速發(fā)展,大型航天器相機已經(jīng)具備了捕捉高分辨率遙感圖像的能力,提供了豐富的地物信息[1].因此,遙感技術(shù)逐漸被廣泛應用于自然災害檢測、地理圖像檢索、城市規(guī)劃等領域[2].而遙感圖像場景分類作為遙感技術(shù)的核心之一,成為了當前遙感領域的熱點問題.
目前,從特征研究方法上看,遙感圖像場景分類主要分為三類:基于淺層特征的遙感圖像場景分類、基于中層特征的遙感圖像場景分類和基于深度學習的遙感圖像場景分類.
基于淺層特征的遙感圖像場景分類:在遙感場景分類早期,由于遙感圖像的分辨率和大小都很低,大多數(shù)方法都依賴于人工設計的特定特征提取器[3],如尺度不變特征變換(SIFT)[4]、紋理描述符(TD)[5]和方向梯度直方圖(HOG)[6]等.然而傳統(tǒng)手工特征過于依賴人工設計,且提取特征單一,無法應對當前遙感場景圖像的高分辨率和復雜性的特點.
基于中層特征的遙感圖像場景分類:為克服上述傳統(tǒng)手工特征的缺點,眾多學者通過特征編碼的方式對局部手工特征進行編碼,如視覺詞袋模型(BoVW)[7]等,以及無監(jiān)督學習的概率潛在語義分析(pLSA)[8]和隱含狄利克雷分布(LDA)[9]等.然而上述方法都使用各種手工的局部圖像描述符來表示場景信息,依舊缺乏良好的泛化和分類性能.
基于深度學習的遙感圖像場景分類:近年來,隨著卷積神經(jīng)網(wǎng)絡(CNN)的快速發(fā)展,遙感場景分類的性能顯著提升.章晨等[10]通過對ResNet網(wǎng)絡的殘差結(jié)構(gòu)增加跨緯度特征整合,提升了殘差網(wǎng)絡對于遙感場景分類的性能.C.Shi等[11]提出了一種基于分支特征融合(LCNN-BFF)的輕量級CNN分類方法,用于遙感場景分類.相較于單線性卷積結(jié)構(gòu),通過雙線性特征提取結(jié)構(gòu),提高場景分類性能.Chen.Wang等[12]提出了多分辨率塊特征(MRBF)用于遙感場景分類,由雙交叉模式(CDCP)和費舍爾向量(FV)構(gòu)建了一種統(tǒng)一有效的場景表示.然而由于遙感圖像面臨類內(nèi)多樣性、類間相似性的巨大挑戰(zhàn),直接應用CNN提取場景圖像特征是具有局限性的.
為解決上述問題,學者試圖通過引入注意力機制等方法,實現(xiàn)特征增強[13].注意力機制本質(zhì)來源于人類視覺機制,目前在圖像分類、圖像分割等視覺領域中表現(xiàn)出極佳的性能.李彥甫等[14]融合自注意力機制和殘差卷積網(wǎng)絡的遙感圖像分類方法,在最后3個瓶頸層中嵌入多頭自注意力模塊,挖掘圖像的全局結(jié)構(gòu)信息.徐從安等[15]提出一種基于雙重注意力機制的強鑒別性特征表示方法,通過通道和空間兩個注意模塊,增加圖像顯著性區(qū)域.J.Hu等[16]提出的SE模塊對不同的特征通道進行重新加權(quán),提升網(wǎng)絡表示圖像特征的性能.J.M.Haut等[17]設計了一種將視覺注意力機制集成到殘差網(wǎng)絡的方案.上述研究表明,引入注意力機制有效的增強了CNN提取特征的性能.
然而,目前對于注意力機制嵌入位置的探討尚未有系統(tǒng)性的研究.眾多學者已經(jīng)驗證了注意力機制與CNN結(jié)合可以取得優(yōu)越的效果,但現(xiàn)有的注意力機制在嵌入CNN末端時,其具有的增強網(wǎng)絡提取特征的能力相較于嵌入網(wǎng)絡初始層和中間層出現(xiàn)顯著退化.H.Wan等[3]對注意力機制嵌入位置進行比較,但沒有關注不同嵌入位置的注意力機制優(yōu)化問題.目前,適用于卷積神經(jīng)網(wǎng)絡不同位置的注意力機制模塊還有待研究.
基于上述內(nèi)容,本文將構(gòu)建的注意卷積模塊(ACM)嵌入到MoblieNetv2[18]中,提出基于ACM的MoblieNetv2模型,以提高遙感場景分類性能.主要貢獻如下:(1)提出ACM模塊和CNN模型框架,ACM在嵌入CNN模型末端時相較于現(xiàn)有的注意力機制取得了更加的分類效果,該模塊有效的適配網(wǎng)絡末端的結(jié)構(gòu);(2)在模型中引入了Hard-Sigmoid和Hard-Swish[19]兩個激活函數(shù),兩個激活函數(shù)相較于改進前的函數(shù)在計算量上得到大大縮減,使得本文提出的模型框架具有輕量和高效的特性.
1基于ACM的MobileNetv2模型框架
1.1整體模型框架
為了增強卷積神經(jīng)網(wǎng)絡提取場景圖像的顯著特征,本文在MobileNetv2作為主干網(wǎng)絡的框架中嵌入ACM.整體框架如圖1 所示.
首先進行主干網(wǎng)絡的特征提取階段,MobileNetV2是一個輕量高效的網(wǎng)絡結(jié)構(gòu),可以在整體框架獲取足夠特征圖的同時,保證框架的輕量性;其次將提取到的特征圖輸入注意卷積模塊中,關注特征圖中更顯著的特征區(qū)域,以此獲取更加精確的場景圖像表示特征;最后通過dropout層抑制網(wǎng)絡過擬合后,利用Adam優(yōu)化器進行場景分類.
1.2主干網(wǎng)絡
2018年,MoblieNetv2在 MoblieNetv1的基礎上被改進提出.作為一種輕量級卷積神經(jīng)網(wǎng)絡的衍生產(chǎn)物,MoblieNetv2同樣具有體積小、參數(shù)少和計算少的三大優(yōu)勢.MoblieNetv2通過引入線性瓶頸和反向殘差兩個結(jié)構(gòu),進一步壓縮了參數(shù)和計算,提高了性能.主干網(wǎng)絡結(jié)構(gòu)如表1所示.
1.2.1深度可分卷積
深度可分卷積是將標準的卷積運算轉(zhuǎn)化為深度卷積和點卷積兩個步驟,如圖2所示[20].
1.2.2線性瓶頸
為了解決卷積神經(jīng)網(wǎng)絡使用ReLu等激活函數(shù)引起的信息丟失問題,在MoblieNetv2中引入了線性瓶頸結(jié)構(gòu)(如圖3所示).ReLu激活函數(shù)可以將負輸入轉(zhuǎn)化為0進行輸出,而對正輸入進行一個線性變換操作.因此ReLu激活函數(shù),增加了網(wǎng)絡的稀疏性,降低了參數(shù)之間的相互依賴性,然而這個過程造成了特征通道出現(xiàn)較大的信息損失.線性瓶頸的本質(zhì)就是在點卷積層和批處理規(guī)范化層之后,將特征映射直接傳遞到下一個卷積層,而無需使用非線性激活函數(shù)[21].
1.2.3反向殘差
MoblieNetv2中的反向殘差結(jié)構(gòu)與ResNet中的殘差結(jié)構(gòu)截然相反,完整的反向殘差結(jié)構(gòu)先通過點卷積操作,將特征通道的數(shù)量擴展到初始通道數(shù)的n倍(MoblieNetv2中n的值是6),然后再進行深度卷積和點卷積操作.其中第二次點卷積操作,起到特征縮放的作用,將特征通道的數(shù)量縮放到初始通道數(shù),然后將得到的特征圖添加到初始特征圖中.在深度可分卷積結(jié)構(gòu)前加入點卷積擴展通道維數(shù),在高維空間中可以有效的提升深度卷積提取特征的能力.主干網(wǎng)絡結(jié)構(gòu)中,當步幅為1時使用反向殘差結(jié)構(gòu)(圖4(a)),步幅為2 時使用線性結(jié)構(gòu)(圖4(b))(即缺少了一個快捷鏈接).兩個結(jié)構(gòu)如圖4 所示.
1.3注意卷積模塊
圖5所示的ACM是一種新型的輕量級注意卷積模塊,該模塊相較于傳統(tǒng)的卷積注意力機制在嵌入網(wǎng)絡末端位置時可以取得更好的效果.其結(jié)合空間和通道注意力機制模塊的架構(gòu),借助CBAM[22]思想.首先構(gòu)建通道注意力塊和空間注意力塊,通道注意力塊中將輸入的特征圖F分別從高度和寬度兩個維度進行自適應全局最大池化和自適全局平均池化,得到兩個1*1*C的特征圖,再將它們分別送入一個兩層的神經(jīng)網(wǎng)絡(MLP).第一層是一個1*1的卷積和激活函數(shù),第二層是1*1的卷積.然后將輸出的特征進行加和操作后,通過激活函數(shù)操作生成最終的通道注意特征.最后,將通道注意特征和輸入特征F進行乘法操作,生成的特征圖將作為空間注意機制塊的輸入特征圖.
空間注意機制塊中將輸入的特征圖 分別做一個基于通道的自適應全局最大池化和自適全局平均池化,得到兩個H*W*1的特征圖,然后將兩個特征圖進行通道拼接,再經(jīng)過一個7*7的卷積和激活函數(shù)生成空間注意特征,最后將空間注意特征和 進行乘法操作,然后輸入1*1卷積獲取神經(jīng)網(wǎng)絡中的興趣流行.與此同時,在該卷積后添加一個BN層,以防止網(wǎng)絡的過擬合問題和增強網(wǎng)絡的泛化能力.
其次在ACM中引入了兩個新的激活函數(shù):Hard-Sigmoid和Hard-Swish.這兩個新型激活函數(shù),都來源于Sigmoid函數(shù),Sigmoid函數(shù)公式如下:
2實驗結(jié)果與分析
2.1數(shù)據(jù)集
RSSCN7數(shù)據(jù)集包含2 800張遙感圖像,這些圖像來自于7個典型的場景類別分別是草地、田地、工業(yè)、河流湖泊、森林、居民區(qū)和停車場,其中每個類別包含400張圖像,分別基于4個不同的尺度進行采樣.RSOD數(shù)據(jù)集共包含4個典型的場景類別分別是飛機場,儲油罐、立交橋和體育場,共有約1 000張遙感圖像.RSSCN7數(shù)據(jù)集和RSOD數(shù)據(jù)集分別如圖6、圖7所示.
2.2實驗設置
實驗在python3.9和pytorch1.4環(huán)境下進行,處理器型號為:i5-8300,顯卡型號為:GTX1050Ti,MoblieNetv2預訓練網(wǎng)絡基于ImageNet數(shù)據(jù)集,實驗中參數(shù)設置為epoch:50、batch size:16、初始學習率:0.000 1.實驗分析部分用分類精度、時間開銷作為評價指標.
2.3實驗分析
本實驗使用RSSCN7和RSOD兩個數(shù)據(jù)集,分別將兩個數(shù)據(jù)集按照訓練集40%、驗證集10%和測試集50%進行劃分.先用訓練集和驗證集對模型進行參數(shù)訓練,然后再通過測試集測試模型的分類效果.為了驗證本文提出的基于ACM的MobileNetv2模型框架在場景分類的優(yōu)越性,對MobileNetv2、MobileNetv2+CBAM和MobileNetv2+ACM進行對比實驗,分類精度和時間開銷見表2所示.
由表2可知,本文模型在RSSCN7和RSOD兩個數(shù)據(jù)集上均取得了最佳分類精度,分別達到90.64%和97.13%,相較于初始的MobileNetv2的88.22%和95.49%分別提升了2.42%和1.64%.實驗結(jié)果表明本文提出的基于ACM的MobileNetv2模型框架,盡管每次迭代的平均時間略有增加,但該模塊有效的增強了卷積神經(jīng)網(wǎng)絡提取特征的能力.同時通過在相同位置嵌入了CBAM進行的消融實驗結(jié)果表明,本文提出的ACM在RSSCN7和RSOD兩個數(shù)據(jù)集上分別比CBAM提高了2%和1.23%的分類精度,盡管增加了時間開銷,但顯著的分類性能提升依舊表明了ACM在卷積神經(jīng)網(wǎng)絡上增強特征的優(yōu)越能力.
圖8和圖9是本文MoblieNetv2-ACM分別在RSSCN7和RSOD數(shù)據(jù)集上的混淆矩陣.由圖8可知,在RSSCN7數(shù)據(jù)集上工業(yè)和停車場的分類精度分別只有77.5%和86.5%都低于整體分類精度.工業(yè)類別中誤分入停車場類別的占工業(yè)類別錯分總數(shù)的62.22%,而停車場類別誤分入工業(yè)類別的占停車場類別錯分總數(shù)的59.26%.由圖9可知,在ROSD數(shù)據(jù)集上儲油罐和立交橋分類精度略低于數(shù)據(jù)集整體精度.儲油罐類別的錯誤分類全部被分入了飛機場類別中,而飛機場類別中誤分入儲油罐類別的占飛機場類別錯分總數(shù)的80%.
為進一步驗證本模塊的分類有效性和優(yōu)越性,在RSSCN7數(shù)據(jù)集上對比現(xiàn)有的注意力機制和主流網(wǎng)絡框架,如:單頭注意力和使用多頭注意力的ViT,分類精度結(jié)果見表3所示.
由表3結(jié)果可知,MobileNetv2+ACM比ResNet50在分類精度上提高了1.59%.MobileNetv2作為輕量級移動網(wǎng)絡,在分類精度上通常低于主流的神經(jīng)網(wǎng)絡框架.結(jié)果表明本文提出的方法在不顯著增加網(wǎng)絡參數(shù)的同時,提高網(wǎng)絡分類精度.在RSSCN7數(shù)據(jù)集上MobileNetv2+ACM相較于使用多頭注意力的ViT和單頭注意力分類精度分別提高1%和2.5%,實驗結(jié)果表明本文提出模塊在分類精度上的優(yōu)越性.
驗證算法訓練收斂速度的測試,本文選取RSOD數(shù)據(jù)集上關于MobileNetv2和MobileNetv2+ACM的一個訓練精度和訓練收斂的速度對比,實驗結(jié)果見圖10所示.由圖10可知,最終迭代結(jié)束后的訓練精度,MobileNetv2+ACM略高于MobileNetv2,且在第5次迭代中就達到了一個較優(yōu)訓練精度.而MobileNetv2在第15次迭代后才能達到類似的一個訓練精度.結(jié)果表明:本文提出的MobileNetv2+ACM不僅在分類精度上達到一個更優(yōu)的結(jié)果,也加快了網(wǎng)絡訓練收斂的速度.
為驗證不同參數(shù)對實驗的影響,對batch size、dropout等參數(shù)設置實驗,測試模型的分類精度.表4展示的是兩個數(shù)據(jù)集上不同的batch size實驗,其中選取的batch size的大小分別為8、16和32.表5 展示的是兩個數(shù)據(jù)集上不同的dropout實驗,其中選取的dropout分別為0.2、0.4和0.6.
由表4可知,在RSSCN7數(shù)據(jù)集上,batch size為16時達到了最優(yōu)分類精度.在RSOD數(shù)據(jù)集上,batch size為32時達到了最優(yōu)分類精度.在訓練過程中,當采用較小的batch size時,梯度波動會增大,使得網(wǎng)絡不容易收斂;當batch size過大時,盡管會加快一次迭代的運算時間,但是會使得梯度變化不明顯,從而陷入局部最優(yōu)的困境.
由表5可知,在在RSSCN7數(shù)據(jù)集上,dropout為0.2時達到了最優(yōu)分類精度.在RSOD數(shù)據(jù)集上,dropout為0.4時達到了最優(yōu)分類精度.Dropout是訓練網(wǎng)絡過程中,對于神經(jīng)網(wǎng)絡單元,按照一定概率將其暫時從網(wǎng)絡中丟棄,可以有效的避免過擬合的問題.因此當dropout設置過小可能會導致網(wǎng)絡存在過擬合現(xiàn)象,過大則會造成信息嚴重丟失,影響分類性能.
為驗證新引入的Hard-Sigmoid和Hard-Swish兩個激活函數(shù)對ACM的分類精度和時間開銷的影響,通過對該模塊替換原始激活函數(shù)進行消融實驗,實驗結(jié)果見表6所示.
由表6可知,Hard-Sigmoid和Hard-Swish兩個新型激活函數(shù)組合在RSSCN7和RSOD兩個數(shù)據(jù)集上均取得了最優(yōu)分類精度.由Si+R和Si+H-S,H-Si+R和H-Si+H-S的對比表明,用Hard-Swish代替
ReLU可以有效的提高網(wǎng)絡分類精度,但會一定程度增加計算量.由Si+R和H-Si+R,Si+H-S和H-Si+H-S的對比表明,用Hard-Sigmoid代替Sigmoid可以在一定程度上降低激活函數(shù)計算量的同時小幅度的提升了網(wǎng)絡的分類精度.
3結(jié)論
本文提出一種基于ACM的MoblieNetv2模型框架,用于遙感場景分類.通過在MoblieNetv2中嵌入ACM,增強卷積網(wǎng)絡提取特征的顯著區(qū)域.ACM作為新穎的注意卷積模塊在增強通道信息和空間信息的同時,將特征圖反饋給后續(xù)的1*1的卷積層,進一步增強保留了該顯著區(qū)域.與此同時在注意卷積模塊中引入兩個性能較佳的激活函數(shù),一定程度上降低了該模塊的參數(shù)和計算量,提高了分類精度.在RSSCN7數(shù)據(jù)集和RSOD數(shù)據(jù)集中的實驗結(jié)果表明,該ACM模塊在不顯著增加網(wǎng)絡參數(shù)和計算量的同時,提高了網(wǎng)絡的訓練速度和分類精度.未來將設計一種更輕量級的注意卷積模塊和細粒度視覺的融合方法進一步降低計算量的同時,提高模型分類精度.
參考文獻
[1] Y.Li,Z.Zhu,J.G.Yu,et al.Learning deep cross-modal embedding networks for zero-shot remote sensing image scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,59(12):10 590-10 603.
[2] N.He,L.Fang,S.Li,et al.Remote sensing scene classification using multilayer stacked covariance pooling[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(12):6 899-6 910.
[3] H.Wan,J.Chen,Z.Huang,et al.Lightweight channel attention and multiscale feature fusion discrimination for remote sensing scene classification[J]. IEEE Access,2021,9:94 586-94 600.
[4] Lowe D.G..Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60:91-110.
[5] T.Ojala,M.Pietikainen,T.Maenpaa.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[6] N.Dalal,B.Triggs.Histograms of oriented gradients for human detection[J].IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005,1:886-893.
[7] Li Zhou,Zongtan Zhou,Dewen Hu.Scene classification using a multi resolution bag of features model[J].Pattern Recogn,2013,46(1):424-433.
[8] W.Luo,H.Li,G.Liu.Automatica annotation of multispectral satellite images using author-topic model[J]. IEEE Geoscience and Remote Sensing Letters,2012,9(4):634-638.
[9] C.Vduva,I.Gavt,M.Datcu.Latent dirichlet allocation for spatial analysis of satellite images[J].IEEE Transactions on Geoscience and Remote Sensing,2013,51(5):2 770-2 786.
[10] 章晨,夏凱,楊垠暉,等.改進殘差網(wǎng)絡的遙感圖像場景分類[J].測繪科學,2020,45(8):151-156.
[11] C.Shi,T.Wang,L.Wang.Branch feature fusion convolution network for remote sensing scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2020,13:5 194-5 210.
[12] Chen Wang,Wei Lin,Pengfei Tang.Multiple resolution block feature for remote-sensing scene classification[J].International Journal of Remote Sensing,2019,40(18):6 884-6 904.
[13] Li Q,Yan D,Wu W.Remote sensing image scene classification based on global self-attention module[J]. Remote Sens,2021,13:4 542.
[14] 李彥甫,范習健,楊緒兵,等.基于自注意力卷積網(wǎng)絡的遙感圖像分類[J].北京林業(yè)大學學報,2021,43(10):81-88.
[15] 徐從安,呂亞飛,張筱晗,等.基于雙重注意力機制的遙感圖像場景分類特征表示方法[J].電子與信息學報,2021,43(3):683-691.
[16] J.Hu,L.Shen,S.Albanie,et al.Squeeze-and-excitation networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2 011-2 023.
[17] J.M.Haut,R.Fernandez Beltran,M.E.Paoletti,et al.Remote sensing image superresolution using deep residual channel attention[J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(11):9 277-9 289.
[18] M.Sandler,A.Howard,M.Zhu,et al.MobileNetV2:Inverted residuals and linear bottlenecks[C]//IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City:Institute of Electrical and Electronics Engineers,2018:4 510-4 520.
[19] A.Howard,M.Sandler,B.Chen,et al.Searching for MobileNetV3[C]//International Conference on Computer Vision.Seoul:Institute of Electrical and Electronics Engineers,2019:1 314-1 324.
[20] A.Howard,M.Zhu,B.Chen,et al.MobileNets:Efficient convolutional neural networks for mobile vision applications[C]//Computer Vision and Pattern Recognition.Honolulu:Institute of Electrical and Electronics Engineers,2017:1 704-1 712.
[21] Yu D,Xu Q,Guo H,et al.An efficient and lightweight convolutional neural network for remote sensing image scene classification[J]. Sensors,2020,20:1 999.
[22] Woo S,Park J,Lee J Y,et al.CBAM:Convolutional block attention module[C]//European Conference on Computer Vision.Munich:Springer Nature Switzerland,2018:3-19.
[23] Ramachandran,Prajit,Barret Zoph,et al.Searching for activation functions[DB/OL].https://doi.org/10.48550/arXiv.1710.05941,2017-10-27.
【責任編輯:蔣亞儒】