国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于中、高層特征融合的高分辨率遙感圖像場景分類

2020-06-23 08:51:08趙春暉馬博博
沈陽大學學報(自然科學版) 2020年3期
關鍵詞:高分辨率高層分類器

趙春暉, 馬博博

(哈爾濱工程大學 信息與通信工程學院, 黑龍江 哈爾濱 150001)

近年來,隨著航空航天以及衛(wèi)星遙感技術的突破,遙感圖像的質量不斷提高,數量也不斷增加,影像的空間分辨率有了顯著的改善,遙感影像的場景分類方法也在不斷地更新進步[1].目前該領域的學術研究主要集中于高光譜遙感圖像分類和高分辨率遙感圖像分類.高光譜圖像的空間分辨率低但是光譜信息豐富,所以分類方法主要集中在對像元的分類,劃分、識別出圖像中不同區(qū)域的類別.而高分辨率遙感圖像的空間分辨率高,空間地物的紋理與幾何特征等明顯增多,目標更為清晰,因此大量高分辨率遙感圖像被應用于國土規(guī)劃、工程建設及搶險救災等領域.高分辨率遙感圖像包含豐富的場景語義信息,地物的多樣性、空間分布的復雜性提高了數據集的類間相似性和類內多樣性,給分類任務帶來諸多挑戰(zhàn)[2].

在業(yè)界,對于場景分類的方法主要是基于對影像特征提取的分類.常用的方法有3種:

① 提取高分辨率影像的手工特征作為低層局部特征;

② 對局部特征進行編碼,得到能夠描述高分辨率影像的中層全局特征;

③ 利用卷積神經網絡來提取高分辨率影像的高層特征.

傳統(tǒng)的分類方法中,低層手工特征包括光譜特征、紋理特征、結構特征等.常用的光譜特征包括圖像的灰度值、灰度值均值、灰度值方差.紋理特征包括不變紋理指數、Gabor濾波器、共生矩陣等[3].針對圖像的結構特征,在早期可見光圖像的分類識別中利用了SIFT特征,并且SIFT特征對噪聲、光照、目標遮擋、雜物場景有較好的魯棒性,有了這些優(yōu)點,SIFT也能夠對高分辨率遙感圖像的特點進行有效表達.中層特征的獲得是通過對高分辨率影像的低層手工特征進行編碼,經過編碼得到的全局特征能夠作為高分辨率影像的中層特征.常用的方法有稀疏編碼、視覺詞袋模型(BOVW)[4].高層特征指的是利用深度神經網絡對圖像進行特征提取得到的特征.近年來隨著人工智能的發(fā)展,深度學習也推動了計算機視覺領域的發(fā)展.自從AlexNet獲得成功后,有不少學者將深層的卷積神經網絡用于高分辨率影像的處理,并且獲得了較好的結果.卷積神經網絡在圖像分類任務中一般被設計為端到端的模型,可以利用多層次的網絡,多個卷積核對圖像特征進行提取,代替了煩瑣的人工特征.得益于多層結構和多卷積核,模型可以從高分辨率影像中提取更抽象、更有區(qū)分性的高層特征,從而得到更好的分類結果[5].但隨著網絡的加深,網絡的參數也同時增加,需要大量的帶標簽的樣本來訓練模型調整參數.然而在高分辨率遙感圖像場景分類任務中缺乏帶標簽的數據樣本,且制作標簽需要耗費大量人力和時間.針對這個問題,可以利用遷移學習的方法將在大數據下訓練好的模型遷移到小數據集上,通過遷移學習的方法可以大大提高深度網絡模型的泛化能力[6].

本文提出基于BOVW算法提取高分辨率遙感圖像的中層特征,以及通過遷移學習的方法利用預訓練的CNN提取圖像的高層特征.然后將上述提取到的特征進行線性融合作為輸入,利用不同核函數的支持向量機(SVM)進行分類,得到分類結果.

1 本文方法

針對高分辨率遙感圖像地物的復雜性高, 傳統(tǒng)分類方法提取的低、中層特征不能夠有效地表達圖像的場景語義, 從而導致分類精度低的問題, 本文采用BOVW算法先提取圖像的SIFT局部描述子, 接著用K-means算法對所提取的局部特征進行聚類, 再對樣本統(tǒng)計特征直方圖, 得到的特征矩陣可以作為圖像的中層特征. 然后通過利用ImageNet[7]數據集預訓練的AlexNet[8]、Vgg-16[9]、Vgg-19卷積神經網絡模型遷移到高分辨率遙感圖像數據集, 來提取圖像的高層特征. 將得到的中、高層特征融合輸入到帶有徑向基核函數、直方圖交叉核函數的支持向量機中, 得到分類結果.

1.1 提取圖像中層特征

在圖像場景分類任務中,針對圖像特征的提取,有很多經典的方法.在本文中,樣本中層特征通過提取樣本圖像的低層特征(SIFT),再利用BOVW算法對其進行編碼得到.

1.1.1 提取低層特征

本文中BOVW算法選用的人工特征為SIFT特征.SIFT特征的提取過程如下.

1) 尺度空間極值檢測:通過高斯微分函數來識別潛在的對于尺度和旋轉不變的興趣點.

2) 關鍵點定位:利用一個擬合精細的模型確定位置和尺度.通過穩(wěn)定性確定關鍵點.

3) 方向確定:基于圖像局部的梯度方向,分配給每個關鍵點位置一個或多個方向.所有后面的對圖像數據的操作都相對于關鍵點的方向、尺度和位置進行變換,從而提供對于這些變換的不變性.

4) 關鍵點描述:在每個關鍵點周圍的鄰域內,在選定的尺度上測量圖像局部的梯度.這些梯度被變換成一種表示,這種表示允許比較大的局部形狀的變形和光照變化.

1.1.2 對低層特征編碼

利用SIFT特征提取算法從每張圖片中提取特征點.假設數據集為M張高分辨率遙感圖像,每張圖片是256像素×256像素大小,算法中步長為將圖片分成16像素×16像素的小patch,這樣就有961個小patch,在每個小patch上都進行SIFT提取關鍵點,每個小patch上有一個關鍵點,這樣就有961個關鍵點,也就是每張圖片最終變成了961個128維的向量(SIFT特征點是128維的),也就是961×128大小的一個矩陣.

然后利用K-means[10]聚類算法對數據集提取的N個SIFT特征進行聚類,構建詞匯表.K-means算法是一種根據所提特征的特點,判別其特征相似性,利用距離的思想來對特征記性聚類.它不需要人工標簽,屬于一種無監(jiān)督的聚類方法.

K-means算法的主要步驟如下.

1) 首先輸入N個特征樣本,并且預先設定分出的種類數K,隨機從N個特征樣本中選取K個點當作第一次聚類的中心點.

2) 再依次將所有的N個特征樣本到K個聚類中心的距離(歐氏距離)計算出來.

表示fl(i,j)與fl(a,b)之間的距離.根據得到的歐式距離,將計算的特征判定為離它最近的距離中心所屬的類別中.

3) 在新的聚類簇中計算均值,重新獲得聚類中心.當聚類中心的變化小于設定閾值,或者達到最大迭代次數,此時得到聚類結果.否則,需要重復上述步驟.

在BOVW算法中通常把K-means算法中的聚類中心叫做視覺單詞,碼本的長度也就為聚類中心的個數K.將所有視覺單詞進行組合構成視覺詞典,利用視覺詞典對所有的數據集圖像進行直方圖統(tǒng)計,也就是看每張圖片中的961個關鍵點與哪個聚類中心的歐式距離最小(最相似),然后在最近的那個聚類中心所代表的1~K之間的視覺單詞次數上加1.樣本的直方圖統(tǒng)計如圖1所示.最終得到K×M大小的矩陣.得到的特征矩陣被當作圖像的中層特征,可以輸入到SVM分類器進行分類.

圖1圖像的詞頻直方圖
Fig.1Wordfrequencyhistogramofimage

1.2 提取圖像高層特征

隨著人工智能的發(fā)展,深度學習在計算機視覺領域的表現(xiàn)越來越出色.誤差的反向傳播是深度學習的基礎,網絡模型通過反向傳播求解梯度,更新網絡參數.得到的多層網絡模型能夠自動提取高層語義特征.

卷積神經網絡是深度學習算法中最為常用的一種網絡.其基本結構包含卷積層、池化層、全連接層.卷積層采用卷積核對樣本圖像進行特征提取,捕獲局部信息,隨著層數加深提取到的特征逐漸由邊緣、紋理過渡到含有語義的高層特征[11].為了提高網絡模型的非線性,在卷積層提取完特征之后會連接一個激活層.激活層由一個非線性函數構成,卷積得到的特征圖再經過激活函數之后能夠得到更好的非線性.常用的激活函數有ReLU及其變體.在本文網絡中,采用ReLU激活函數

ReLU(x)=max(0,x)

(2)

能夠有效避免梯度消失的現(xiàn)象.

通過卷積層之后,特征的維度通常會較大,隨著網絡加深,容易發(fā)生過擬合.因此在卷積層操作之后要進行池化操作.池化層根據特征圖的局部統(tǒng)計信息進行下采樣,在保留有用信息的同時減小特征圖大小.常用的池化操作有最大池化和平均池化.最大池化是在特征圖的局部區(qū)域選最大的值作為輸出,此方法可在一定程度上增加模型的非線性.平均池化是計算局部區(qū)域的均值作為輸出.全連接層將最后的特征圖像經過變換,轉換為一個一維的特征圖像.轉換之后的特征圖有助于分類器對特征進行分類和統(tǒng)計.以Vgg-16為例,其包含輸入層、13個卷積層、5個最大池化層、3個全連接層,以及輸出層.圖2為Vgg-16網絡模型結構示意圖.

圖2 Vgg-16結構Fig.2 Architecture of Vgg-16

1.3 特征融合

在本文中,針對單一特征對樣本表達能力不足的問題,采用特征融合的分類算法.利用BOVW算法提取樣本中層語義特征.當聚類中心K為1 000時,得到的中層語義特征維度為1 000.然后利用CNN提取樣本的高層語義特征,本文選擇提取網絡模型第2個全連接層(FC7)的輸出作為高層特征.

特征融合是將多種特征用某種對應關系來轉換成一個新特征.即

高層特征向量圖和融合特征向量圖如圖3所示.

(a) FC7層輸出的高層特征響應(b) 融合特征響應

圖3高層特征響應和融合特征響應
Fig.3Highlevelfeatureresponseandfusionfeatureresponse

1.4 SVM分類器

SVM是一種以統(tǒng)計學習理論為基礎的機器學習方法. SVM在滿足置信風險和經驗風險比值的同時, 追求分類器更高的泛化能力, 同時保證算法的復雜度不會過于繁重[12]. 這就使得在小樣本的情況下也能使分類結果得到保證. SVM本身具有正則化項可以防止分類器陷入過擬合. 隨著研究的深入, 已將SVM與核方法聯(lián)合使用, 來解決線性不可分的問題. 其可以描述為如下優(yōu)化問題:

(4)

約束條件為

yi(ωxi-b)≥1-ξi,ξi≥0,i=1,…,n.

(5)

式中:ω為與超平面垂直的向量;C為懲罰因子;xi為輸入樣本;b為偏置項;ξi為稀疏變量;yi的值為1或-1,表示數據點所屬類別.常用的核函數有線性核函數

k(x,xi)=(xTxi);

(6)

多項式核函數

k(x,xi)=[(xTxi)+1]q;

(7)

徑向基核(RBF)函數

(8)

直方圖交叉核(HIK)

(9)

本文選用了徑向基核函數的SVM和直方圖交叉核函數的SVM作為最終的分類器.

2 實驗與結果分析

為了驗證本文方法的有效性,分別選用不同的K-means聚類中心、預訓練網絡模型(AlexNet,Vgg-16,Vgg-19)、以及帶有不同核函數的SVM分類器進行實驗.

2.1 數據集

本文采用的數據集為UC Merced數據集,該數據集是遙感圖像分類領域利用較多的數據集,有21個不同的場景類別,圖像是可見光RGB高分辨率影像.每個類別包含了100張大小為256像素×256像素的圖像,它們的地空分辨率為每個像素0.3 m[13].數據集包含美國東部如邁阿密、波士頓等多個地區(qū),圖像分別為:田野、飛機、棒球場、海濱、建筑物、灌木叢、高密度民房、森林、高速路、高爾夫球場、小碼頭、路口、中密度民房、移動民房、高架橋、停車場、河流、跑道、低密度民房、儲罐以及網球場.數據集有共2 100張圖片.

試驗環(huán)境為:CPU Intel(R) Xeon(R) Gold 5118;內存18G;GPU Titan V;顯存12G;操作系統(tǒng) Windows 10.利用MatConvNet深度學習框架,仿真語言選用MATLAB.

2.2 評價指標

本文采用總體分類精度和混淆矩陣來評價場景分類方法的性能.

總體分類精度的定義為

式中:N為數據集樣本的總數量;Z為系統(tǒng)判斷正確的樣本數量.

混淆矩陣是一種更直觀的評價指標,能夠通過矩陣形式的表達,清晰地看出類別之間的錯誤情況[14].在混淆矩陣中,數據樣本的真實標簽為矩陣的行,分類系統(tǒng)的判別標簽用矩陣的列來表示.在矩陣中任意一個元素amn代表真實標簽為m類別,預測標簽為n類別所占m類別樣本的比例.

2.3 實驗結果

為了驗證本文方法的有效性,充分討論參數、網絡模型、不同核函數的SVM分類器對結果的影響,且本文對2種單一方法進行對比,即只用通過BOVW算法對局部特征進行編碼得到的中層特征作為分類器的輸入、只用卷積神經網絡提取高層特征作為分類器的輸入、利用BOVW提取的中層特征融合CNN提取的高層特征輸入到分類器進行分類.對于數據集,本文隨機選用30%的圖像作為訓練樣本,其余70%的圖像作為測試樣本.

首先在BOVW算法中,在提取圖像局部特征SIFT時,設置patch大小為16像素×16像素,步長為4像素.由于K-means算法在聚類SIFT特征形成視覺單詞時,聚類中心K需要先驗知識得到,所以本文分別設置聚類中心K的值為500、1 000、1 500、1 800,最大迭代次數為100.將BOVW算法編碼得到的中層語義特征分別輸入到帶有徑向基核函數的SVM分類器和帶有直方圖交叉核函數的SVM分類器當中.得到的總體分類精度結果如表1所示.

表1 不同K值的總體分類精度P

從表1可以看到,在提取中層語義特征中,最后的總體分類精度受到聚類中心K值的影響較大,隨著K值的增大,精度P隨之增大.但K值為1 500時,總體分類精度P趨于平穩(wěn).再將K值增加到1 800時,總體分類精度有所下降.這是因為根據聚類中心K值所構建的視覺詞袋,在K值小的時候不能夠詳細地描述圖像信息,使得精度P過低,當K值過大時,視覺詞袋對圖像的描述過度解析造成分類精度P的下降,且K值越大計算量越大,耗費時間越長.在后續(xù)試驗中將固定K值為1 000.

當K為1 000時,經過HIK-SVM分類器得到的混淆矩陣如圖4所示.從圖中可以看出對于類間相似性高的類別:棒球場和高爾夫球場以及稀疏住宅區(qū)容易發(fā)生混淆.這是因為這幾類共有屬性較多,類間相似性高,導致提取的特征相似性較大,所以分類效果不佳.

在利用CNN提取樣本高層特征時,本文分別利用經過ImageNet預訓練的AlexNet、Vgg-16、Vgg-19 3種不同的網絡作為樣本圖像高層特征的提取器,提取模型第2個全連接層(FC7)的輸出作為高層特征.在實驗中,設置網絡模型參數batch-size為32,學習率為0.000 1,采用隨機梯度下降(SGD)的方法來更新網絡參數.以Vgg-16模型的訓練過程為例(圖5),從圖5中可以看出在經過110個epoch訓練之后,網絡模型已經基本收斂,因此設置模型訓練的迭代次數epoch為110.另外2個模型經過110個epoch也基本收斂.

利用CNN提取高層特征進行分類得到的總體分類精度如表2所示.從表2可以看出通過CNN提取的高層特征進行分類的分類結果明顯高于利用BOVW算法的分類精度.因為CNN經過多層網絡提取的特征提更能表達圖像的語義,分類精度更高.

圖4 K=1 000時BOVW得到的混淆矩陣Fig.4 Confusion matrix of BOVW at K=1 000

圖5 Vgg-16訓練過程Fig.5 Training process of Vgg-16

表2 利用不同CNN模型提取的高層特征得到的總體分類精度P

混淆矩陣以Vgg-16為例(圖6),從圖中可以看出每一類的精度較BOVW算法都有所提高,但是對于建筑物、密集居民區(qū)、網球場這些類間相似性高的類別,其分類結果仍然較低,精度有待提高.

本文所提算法在實驗中,提取CNN的第2層全連接層(FC7)的輸出最為高層特征,提取K=1 000時的視覺詞袋特征作為中層特征.通過串聯(lián)中、高層特征輸入到SVM分類器,得到分類結果如表3所示.由表3中可以看出以Vgg-16作為高層特征提取模型,HIK-SVM作為分類器得到的總體分類精度最高.

表3 中高層融合特征的總體分類精度P

本文算法與其他方法對比如表4所示,從表中可以看出本文所提方法結果好于其他算法.總體分類精度達到了92.95%.

表4 不同方法的總體分類精度P

以Vgg-16作為高層特征提取模型、HIK-SVM作為分類器得到的混淆矩陣如圖7所示,從圖中可以看出, 本文所提方法在一些類別的分類

精確度已經達到100%.對于容易混淆的類別,本文方法的精確度也有所提升.

3 結 論

本文提出了一種視覺詞袋模型結合卷積神經網絡的高分辨率遙感圖像場景分類方法.首先利用BOVW算法提取高分辨率遙感圖像樣本中層特征,然后利用CNN提取圖像樣本的高層特征.通過中、高層特征的融合,豐富圖像的語義表達,最后將融合的特征作為輸入,利用SVM分類器進行分類.該方法能夠解決低、中層特征對圖像語義表達欠缺的問題.通過實驗可以看出所提方法的總體精確度均高于單一使用中層或高層特征的算法.驗證了方法的有效性.

但是,本文所提出的方法也存在一些不足.對于類間差異非常小的類別,在分類結果上仍然不是非常準確.這也是分類任務的最大難題,在今后的工作中要把類間相似性高、類內差異性大的問題當作重點研究.來提升分類效果.

猜你喜歡
高分辨率高層分類器
高層動態(tài)
高分辨率合成孔徑雷達圖像解譯系統(tǒng)
雷達學報(2020年3期)2020-07-13 02:27:16
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
某超限高層結構設計
江西建材(2018年4期)2018-04-10 12:36:56
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
高分辨率對地觀測系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
高層樓宇滅火裝備
太空探索(2015年9期)2015-07-12 12:54:45
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
遏制暴力傷醫(yī)高層發(fā)力
新晃| 昭觉县| 陆河县| 罗田县| 兴安盟| 碌曲县| 大悟县| 西城区| 开平市| 延安市| 舟山市| 天峨县| 崇礼县| 马鞍山市| 临澧县| 太白县| 马边| 青铜峡市| 崇礼县| 买车| 西安市| 全南县| 大庆市| 阜新| 泸西县| 英山县| 漳州市| 肃宁县| 岚皋县| 桑植县| 门头沟区| 资源县| 沽源县| 威海市| 思茅市| 舟山市| 慈利县| 云浮市| 巴南区| 枣阳市| 邹城市|