黃素琴
(廣東省國土資源測繪院, 廣東 廣州 510500)
高光譜遙感影像蘊含著豐富的地物信息,可為地礦深層勘探、土地資源監(jiān)管、農(nóng)業(yè)生產(chǎn)規(guī)劃提供重要的數(shù)據(jù)[1]。由于遙感圖像數(shù)量巨大,在進行調(diào)取應用時需要對其分類檢索,從而匹配到具有相似或相同特征的檢索圖像,從最初的基于文本的圖像檢索方法發(fā)展至目前的基于內(nèi)容的圖像檢索技術(shù),遙感影像的檢索精度和效率上有了較大提升[2]。
在遙感圖像檢索方法上,很多學者均提出了自己的見解和觀點,最開始的全局特征提取到目前主流的融合局部特征的提取,這大大提升了檢索效率、縮短了檢索時間[3-4]。卷積神經(jīng)網(wǎng)絡(luò)不僅具有強大的特征提取能力,還具有很強的分類能力,是目前在各領(lǐng)域最常用的一種深度學習方法,具有局部連接、權(quán)值共享、空間采樣等特征,在圖像分類和目標識別等工作中得到廣泛應用[5-8]。但是,檢索出來的圖像如何展現(xiàn)給用戶又是一個問題,每一個檢索到的圖像與查詢圖像之間肯定存在一定的關(guān)聯(lián),且關(guān)聯(lián)度是互不相同的,需要采用一種方法來對檢索到的圖像進行排序,然后依次推薦給用戶,從而提高用戶的檢索效率,距離權(quán)重算法可實現(xiàn)這一目的,且在測繪領(lǐng)域已有一定的應用[9-10],也為遙感圖像分類檢索提供了新的方向。
本文基于卷積神經(jīng)網(wǎng)絡(luò)和距離權(quán)重,提出了一種新的遙感圖像分類檢索方法,以期能為提升遙感圖像的檢索效果提供借鑒。
基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)是通過輸入圖像,經(jīng)過對輸入圖像特征的提取,在檢索圖像庫中尋找與之查詢圖像的顏色、紋理、布局等具有相似特征的圖像,并將其推薦給用戶的一種檢索方法,具體檢索流程見圖1。在基于內(nèi)容的圖像檢索流程中,最重要的一步就是對圖像進行特征提取,并準確、高效地建立圖像庫與對應特征之間的索引關(guān)系,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被證明是一種能夠提取更為抽象圖像特征的深度學習方法,其可以通過抽象學習來提取圖像的全連接層和卷積層特征,從而實現(xiàn)強大的表征能力,但在檢索精度上還有待進一步提高。因此,本文在卷積神經(jīng)網(wǎng)絡(luò)方法基礎(chǔ)上,提出了一種基于距離權(quán)重(Distance Weighted,DW)的卷積神經(jīng)網(wǎng)絡(luò)圖像檢索方法。
卷積神經(jīng)網(wǎng)絡(luò)作為一種深度學習方法,開始于20世紀80~90年代,并在21世紀得到快速發(fā)展,在圖像分類、目標識別等領(lǐng)域得到較為廣泛的應用。卷積神經(jīng)網(wǎng)絡(luò)包括特征提取層和特征映射層兩層基本結(jié)構(gòu),根據(jù)功能劃分,又可以將其細分為輸入層、卷積層、下采用層(池化層)、全連接層和輸出層,見圖2。輸入層的主要作用是獲得原始圖像信息并轉(zhuǎn)化為像素矩陣,最后將數(shù)據(jù)傳遞給卷積層;卷積層的主要作用是利用卷積核對像素數(shù)據(jù)進行卷積操作,同時利用非線性函數(shù)對輸出結(jié)果進行特征提取;池化層的作用是對卷積層處理過后的特征再進行二次特征提取,降低特征圖像分辨率的同時還能提高特征的尺度不變性;全連接層的主要作用是將二維的特征向量轉(zhuǎn)化為一維特征向量,為輸出層提供更好分類的數(shù)據(jù);輸出層的主要作用就是對目標數(shù)據(jù)庫進行分類處理,并將結(jié)果推薦給用戶。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
距離權(quán)重是利用某單元特征值與周圍毗鄰單元特征值之間的函數(shù)關(guān)系,根據(jù)兩單元之間的距離來反推該單元的特征值,距被估點越遠的特征所起作用越小。卷積神經(jīng)網(wǎng)絡(luò)輸出層利用Softmax函數(shù)作為輸出,并將輸出轉(zhuǎn)化為每個類的對應概率值pi
(1)
式中,an表示輸出層中輸入的N個向量。
當查詢圖像q輸入到微調(diào)模型中后,可得到下緩存圖像對應的每個類的概率值pq,從而得到每張檢索圖像r對應的權(quán)重值wr
(2)
式中,k表示圖像r的類。
那么,查詢圖像q與檢索圖像r之間的距離權(quán)重就可以表示為
dw(q,r)=w×d(q,r)
(3)
式中,d(q,r)表示常用距離,本文取歐氏距離。
基于CNN-DW的圖像分類檢索流程主要分為兩個部分,一是離線部分,二是在線部分,其檢索流程示意見圖3。
圖3 CNN-DW檢索流程
2.3.1離線部分
離線部分主要分為三個步驟:(1)利用經(jīng)過訓練的CNN模型對具有相應標記的數(shù)據(jù)庫進行微調(diào);(2)利用微調(diào)后的CNN模型對檢索到的圖像進行特征提取和標記工作;(3)根據(jù)特征提取結(jié)果,建立特征向量和具有相似特征的類標簽檢索數(shù)據(jù)集。
2.3.2在線部分
在線部分分為四個步驟:(1)用戶將需要查詢的圖像輸入到CNN模型中,利用計算機程序計算CNN特征值和對應的類概率;(2)計算檢索圖像與查詢圖像之間的距離權(quán)重;(3)按距離權(quán)重的大小進行圖像排序;(4)按排序結(jié)果依次進行圖像檢索,得到檢索結(jié)果。
試驗數(shù)據(jù)為一個高分辨率的公開數(shù)據(jù)集,數(shù)據(jù)集包括飛機、棒球場、籃球場、海灘、橋、墓地、叢林等共計38類,每類又包含800張圖像,每張圖像的大小為256×256,數(shù)據(jù)集總共包含38×800=30 400張高分辨率遙感圖像,圖像的最高分辨率為0.06 m,圖像的最低分辨率為4.69 m,該數(shù)據(jù)集具有尺度高、分辨率高、高類內(nèi)多樣性和類間相似性等諸多特點,是一個理想的可用于測繪研究的遙感圖像數(shù)據(jù)集。
CNN訓練在MS Windows 10系統(tǒng)中的MATLAB R2016上進行,使用的工具包為matconvnet,處理器型號為Intel i7-7700,內(nèi)存大小為16 GB,CPU型號為NvidiaGe Force GTX 1080 8GB。學習率設(shè)為0.001,動量大小設(shè)為0.9,初始權(quán)重值設(shè)為0.000 5,采用自適應矩估計(Adam)優(yōu)化算法來更新權(quán)重。CNN特征選用Fc6、Fc7和PooL5,對應的維數(shù)分別為4 096、4 096和1×1×2 048。
采用平均查準率(Mean Average Precision, MAP)和平均歸一化檢索秩(Average Normalized Modified Retrieval Rank, ANMRR)兩個參數(shù)來對CNN-DW檢索方法的檢索效果進行評價。
平均查準率的計算公式為
(4)
式中,PM表示平均查準率;N表示查詢圖像數(shù)量;APi表示第i張圖像的加權(quán)類別值。PM值越大,表明圖像檢索的精度越高。
平均歸一化檢索秩計算公式為:
(5)
式中,RA表示平均歸一化檢索秩;Q表示查詢圖像;RN(Qq)表示歸一化后的檢索秩。RA值介于0~1之間,RA越小,表明同類性更好,檢索性能越佳。
隨機選取兩張圖像作為查詢圖像,對比分析了利用CNN法和利用CNN-DW的檢索結(jié)果,見圖4。從圖4中可以看到:對于圖4(a)的圖像1,僅采用CNN法時,只檢索出4張相同類的圖像,另有五張為不相關(guān)圖像,而采用CNN-DW檢索后,共檢索出9張相同類圖像;對于圖4(b)的圖像2,僅采用CNN法時,只檢索出3張相同類圖像,另有6張為不相關(guān)圖像,而采用CNN-DW檢索后,共檢索出6張相同類圖像,另有3張為不相關(guān)圖像??梢?當采用加權(quán)距離的遙感圖像神經(jīng)網(wǎng)絡(luò)檢索法的檢索效果較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)檢索法有較為明顯的提升。
對兩種檢索方法在不同特征下的所有38類MAP值進行求解,然后得到每一特征下的平均MAP值,見圖5。從圖5中可以看到:在3個CNN特征中,采用PooL5特征的檢索精度最高,其次為Fc7,最差的為Fc6;相同特征下,采用CNN-DW檢索方法的檢索精度較傳統(tǒng)CNN檢索法有較大幅度提高,CNN法在三個特征下的平均MAP值為60%,而CNN-DW檢索方法在三個特征下的平均MAP值達到91.7%,可見,采用加權(quán)距離檢索后,神經(jīng)網(wǎng)絡(luò)檢索法的檢索精度得到有效提升,這主要是因為在僅使用CNN檢索時,對建筑物、存儲倉和網(wǎng)球場等類的檢索性能較差,當采用加權(quán)距離檢索后,對籃球場、護理中心、游泳池等類的檢索性能有較大幅度提升,從而使整體檢索效果顯著加強。
圖5 CNN和CNN-DW檢索MAP值對比
為了進一步驗證CNN-DW檢索方法性能的優(yōu)越性,對兩種方法在不同訓練集大小(5~100張)下的檢索效果進行了對比(特征均選用PooL5),結(jié)果見圖6。從圖6中可以看到:隨著訓練集圖像數(shù)量的增加,CNN法的平均查準率和平均歸一化檢索秩基本保持不變,PM值為68%,RA值為0.33,而采用CNN-DW檢索時,平均查準率隨訓練集數(shù)量增加而逐漸增大,當訓練集數(shù)量為20張時,PM值就能達到90%以上,平均歸一化檢索秩隨訓練集數(shù)量增加而逐漸減小,當訓練集數(shù)量為30張時,RA值就低于0.05??梢?隨著訓練集數(shù)量的提高,CNN-DW檢索方法的檢索性能會逐漸提升,而且較傳統(tǒng)CNN檢索方法而言,只需要更少數(shù)量的訓練集就能達到良好的檢索效果。
圖6 訓練集大小對檢索效果的影響
針對高光譜遙感圖像檢索分類問題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和距離權(quán)重的圖像檢索方法(CNN-DW法),并將其檢索流程劃分為離線部分和在線部分,通過圖像檢索試驗,證明了CNN-DW檢索法較傳統(tǒng)CNN檢索法的分類檢索效果有顯著提升,前者的平均MAP值高達91.7%,而且CNN-DW法的檢索性能會隨著訓練集數(shù)量的增大而逐漸提升,相較于CNN法僅需要更少數(shù)量的訓練集就能達到良好的檢索效果。