史迪超,黎慧斌,李亭諭,史曉明
(1.中國地質(zhì)大學(武漢)地理與信息工程學院,湖北 武漢 430074;2.廣東省國土資源技術(shù)中心,廣東 廣州 510075;3.湖北省航測遙感院,湖北 武漢 430074)
全民所有自然資源資產(chǎn)清查是一項摸清全民所有土地、礦產(chǎn)、森林、草原、濕地和海洋等自然資源資產(chǎn)底數(shù)的基礎(chǔ)工作。遙感影像以其信息量豐富、現(xiàn)勢性好、實用性強、量測方便等特點,成為全民所有自然資源資產(chǎn)清查工作中的一項重要基礎(chǔ)數(shù)據(jù),在實物量屬性清查、地類等因子內(nèi)業(yè)核查、經(jīng)濟價值核查等階段發(fā)揮著重要作用。時序影像是提高遙感影像自然資源資產(chǎn)清查單元解譯精度的關(guān)鍵,然而同一地區(qū)不同時相的遙感影像同名點的空間位置存在差異,不能直接使用,時序影像智能匹配是遙感影像在全民所有自然資源資產(chǎn)清查工作中規(guī)?;瘧玫?基礎(chǔ)。
常見的影像匹配包括立體匹配和二維匹配,立體匹配是根據(jù)不同視點的影像找到對應匹配點,進而重建三維場景[1];二維匹配是在不同時相或不同傳感器的影像間識別同名匹配點,從而實現(xiàn)同一地區(qū)影像間的空間坐標同化。時序影像匹配屬于二維匹配,具體步驟為:①檢測提取影像空間不變特征;②構(gòu)建特征描述符,并根據(jù)相似性提取時序匹配點對;③根據(jù)基準影像與待匹配影像之間的畸變特點確定幾何變換模型;④對影像進行坐標變換與插值。其中,提取更多的影像空間不變特征和構(gòu)建信息豐富的描述符是時序影像精準匹配的關(guān)鍵。對于影像空間不變特征的提取,傳統(tǒng)方法首先提取兩幅影像間的不變特征,再進行影像空間匹配[2];De C E[3]、CHEN Q S[4]和Reddy B S[5]等則利用傅里葉梅林變換分別將圖像配準擴展到了旋轉(zhuǎn)、平移、縮放等情況,但這些方法處理平坦地形時獲得的正確匹配點較少,匹配效果不佳。因此 ,本文提出了一種基于計算機視覺顧及地形梯度特征的時序影像匹配方法,已應用于自然資源資產(chǎn)清查工作中,并取得了良好效果。
視覺對特征定位和特征描述具有先天優(yōu)勢,首先關(guān)注大范圍場景(中高級語義)信息,視野感知范圍大、信息量多,形成高級語義;然后隨著注意力集中、視野縮小,信息密度降低,形狀、位置等低級特征形成區(qū)域的主要描述[6]。高級語義與低級語義相結(jié)合形成完整的視覺描述,CNN提取高級語義,SIFT獲取低級語義,語義融合形成視覺的CNN-SIFT描述符。以時序影像同名點對描述為例,同名點對提取是空間場景信息(中高級特征信息)和內(nèi)部結(jié)構(gòu)信息(梯度信息)綜合比對衡量的結(jié)果。受視野感知的啟發(fā),特征點區(qū)域分為注意力區(qū)和關(guān)聯(lián)區(qū),如圖1所示。其中,CNN提取關(guān)聯(lián)區(qū)的高級特征,SIFT提取注意力區(qū)的局部特征,再根據(jù)不同的感受野進行自適應權(quán)重分配,以提高描述符在影像匹配中的能力。
圖1 視野感知區(qū)域劃分示意圖
深層次孿生網(wǎng)絡(luò)能根據(jù)樣本相似性標簽訓練,分支網(wǎng)絡(luò)可作為特征提取器單獨使用。本文設(shè)計了一個時序影像特征提取的孿生網(wǎng)絡(luò)感知模型,用于提取魯棒的影像神經(jīng)網(wǎng)絡(luò)相似度特征。
1.2.1 孿生網(wǎng)絡(luò)視野特征結(jié)構(gòu)
孿生網(wǎng)絡(luò)構(gòu)建結(jié)構(gòu)相似的雙重分支網(wǎng)絡(luò),使正樣本相關(guān)性盡可能高,負樣本相關(guān)性盡可能低。本文選用AlexNET網(wǎng)絡(luò),如圖2所示,左右支路具有相同的網(wǎng)絡(luò)結(jié)構(gòu),并共享權(quán)值。根據(jù)對應匹配特性將樣本影像塊分為正、負樣本,正樣本代表對應特征點的時序影像塊,負樣本代表誤匹配或隨機分配影像塊。加入激活函數(shù)非線性單元,使該神經(jīng)網(wǎng)絡(luò)能進行有效的深度特征學習,實現(xiàn)非線性特征映射。對比度損失函數(shù)使訓練中負樣本距離度量增加,正樣本距離度量降低。在測試過程中,選取RGB局部影像塊樣本X1、X2分別輸入分支網(wǎng)絡(luò),再采用分支網(wǎng)絡(luò)特征Gw(X1)、Gw(X2)的相似性度量創(chuàng)建損失函數(shù),并利用歐氏距離判別,分支網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)與傳統(tǒng)的AlexNet參數(shù)相似。卷積層后加入采用雙曲正切單元(Tanh)的激活層,通過全連接層控制分支網(wǎng)絡(luò)提取的特征維數(shù)。
圖2 孿生網(wǎng)絡(luò)結(jié)構(gòu)示意圖
1.2.2 SIFT特征分析
SIFT匹配后仍有大量錯誤匹配點對,且經(jīng)過模糊處理和降采樣后提取的平坦地區(qū)匹配點較少,為了得到精確匹配點集,通常采用GMS、RANSAC等方法進行二次篩選。GMS基于正確匹配點附近存在較多匹配點支持的思想,認為匹配后每個匹配點鄰域內(nèi)匹配點數(shù)超過閾值則為匹配正確,此時梯度平坦地區(qū)的匹配點會因分布稀疏而被剔除。RANSAC算法則從初始點集中隨機選取內(nèi)點擬合數(shù)學模型,其余點作為驗證,符合模型則加入內(nèi)點,迭代后選擇內(nèi)點最多的模型。該方法沒有考慮點的空間分布,平坦地區(qū)匹配點由于數(shù)量少被選為初始內(nèi)點的概率較小,且因沒有相似點支持而被淘汰。這些算法容易漏掉平坦地區(qū)的匹配點,不能全面反映地形總體特征;且目前已有的低、高級特征融合描述符局限于固定權(quán)重比[7-8],限制了匹配精度的提高。因此,本文提出了基于視覺感知的孿生網(wǎng)絡(luò)與顧及梯度的SIFT自適應融合描述符,能增加平坦地區(qū)的匹配點,實現(xiàn)精確高效的時序影像匹配。
1.2.3 自適應權(quán)重分配策略
CNN-SIFT描述符的構(gòu)建采用了神經(jīng)網(wǎng)絡(luò)特征與SIFT描述符的加權(quán)融合策略,注意力區(qū)提供低級特征信息,關(guān)聯(lián)區(qū)提供中高級特征信息。
SIFT算法在差分金字塔層間檢測極值點,在對應的高斯金字塔影像上構(gòu)建描述符。本文采取4×4的鄰域構(gòu)建描述符[9],每個子區(qū)域的半徑為3σ_oct,對應的表達式為:
式中,S為子層數(shù);s為高斯金字塔影像所在的層數(shù)。
針對不同尺度的特征點,其映射在原圖上的范圍為D×D。D的表達式為:
式中,0為金字塔的組數(shù)。
本文將注意力區(qū)與關(guān)聯(lián)區(qū)的面積比值作為描述子加權(quán)融合的權(quán)值。不同SIFT特征點所在的尺度空間不同,因此其映射在原圖的范圍也不同。本文根據(jù)特征點尺度自適應設(shè)定動態(tài)權(quán)值,CNN-SIFT描述符可表示為:
式中,S1為SIFT特征點映射的原圖面積;S2為神經(jīng)網(wǎng)絡(luò)樣本面積;D1為SIFT描述符;D2為CNN描述符。若SIFT映射區(qū)域大于CNN提取區(qū)域,則以CNN特征作為最終的CNN-SIFT特征。
神經(jīng)網(wǎng)絡(luò)模型的學習能力依賴于訓練數(shù)據(jù)集的質(zhì)量和數(shù)量[9],構(gòu)建準確、可分的樣本集是模型擬合的 關(guān)鍵。本文選取時序影像構(gòu)建初始正負樣本集,如圖3所示,首先檢測時序影像特征點,構(gòu)建特征描述符,并采用空間位置自適應分塊策略處理影像;然后選取雙向最鄰近匹配策略匹配影像塊,正樣本由匹配的特征點對裁剪影像塊構(gòu)成,負樣本由正樣本打亂后非同名特征點對的影像塊構(gòu)成,正負樣本比例為1∶1;最后通過人工二次篩選保證樣本集的正確性。
圖3 樣本集制作流程圖
首先分別對輸入的基準影像和參考影像進行SIFT特征點位提取,并根據(jù)輸入影像尺寸與SIFT相應保留N個特征點位;再對特征點位計算SIFT描述符,提取局部影像塊,并將影像塊輸入對應分支網(wǎng)絡(luò)進行CNN特征提取,N的取值決定了CNN視野范圍;然后對SIFT特征與CNN特征進行基于空間注意力模型的自適應權(quán)值融合,構(gòu)建完整的CNN-SIFT描述符;最后將特征點對應的CNN-SIFT描述符輸入描述符匹配器(最鄰近搜索庫)中進行匹配,并根據(jù)匹配點選取影像轉(zhuǎn)換模型,進行影像匹配。雖然描述符描述能力的提升減少了誤匹配率,增加了匹配點位的個數(shù),但仍存在異常點位。因此,本文對CNN-SIFT描述符獲取的初始匹配結(jié)果進行優(yōu)化,根據(jù)CNN-SIFT描述符進行一階多項式擬合誤差分析,迭代刪除單點誤差較大的特征點;并以“橫縱掃描線”的思想分析偏移點位的灰度曲線特征,增加點集中的可用點。對于高分辨率遙感影像匹配來說,均勻分布的特征點是保證影像匹配質(zhì)量的前提條件[7]?;诟窬W(wǎng)劃分的思想,本文在影像單個網(wǎng)格內(nèi)利用圖像信息熵、特征點與格網(wǎng)中心的歐式距離進行綜合評判,以保留網(wǎng)格內(nèi)的最優(yōu)特征點,改善點集的空間分布。
1)SIFT-PATCH訓練數(shù)據(jù)集。為了驗證CNN-SIFT描述符在影像匹配中的有效性以及視野擴張的效果,本文基于2 m分辨率的全色影像和8 m分辨率的多光譜影像,制作了128×128、180×180、256×256三個SIFT-PATCH數(shù)據(jù)集,覆蓋建筑、農(nóng)田、道路、水域等典型地物,如圖4所示,顧及時序影像水色變化,加入了多水色的正負樣本。本文采用樣本尺度、旋轉(zhuǎn)、亮度變化等方法提高網(wǎng)絡(luò)能力,得到增強后的網(wǎng)絡(luò)訓練集,樣本數(shù)量為20萬,正負樣本各占一半。
2)測試數(shù)據(jù)。本文選取4組影像數(shù)據(jù)驗證CNNSIFT的魯棒性,分別記為P-A、P-B、P-C、P-D,具體參數(shù)如圖4所示。
圖4 實驗影像數(shù)據(jù)
實驗采用Intel Xeon Scalable Silver 4210 CPU和Nvidia RTX 2080Ti服務器,神經(jīng)網(wǎng)絡(luò)在深度學習平臺Tensorflow上進行訓練。
本文采用均方根誤差、正確匹配點對數(shù)、正確匹配率和同名點覆蓋度進行評價。
均方根誤差用以衡量影像配準控制點的精準度。其計算公式為:
式中,(x r,yr)為待匹配影像特征點坐標;為基準影像特征點根據(jù)多項式模型預測的點坐標;N為匹配點數(shù)量。
正確匹配點對數(shù)為單點均方根值小于一定閾值(本文選取兩像素為有效閾值)的匹配點對數(shù)量,是限制匹配精度的關(guān)鍵因素,證明了描述符的魯棒性以及匹配策略中幾何約束的正確性。
正確匹配率用以評價描述符的穩(wěn)定性,其值越高,描述符描述能力越強,計算公式為:
式中,CR為正確匹配率;Nreal為匹配結(jié)果中正確匹配點對數(shù)量;Ncors為所有匹配點對數(shù)量。
同名點覆蓋度[8]用以評價匹配點對的均勻分布情況,計算公式為:
式中,N為匹配區(qū)域被劃分的網(wǎng)格數(shù);Nmatch為存在特征點的網(wǎng)格數(shù)。
3.4.1 神經(jīng)網(wǎng)絡(luò)特征維度對比實驗
基于SIFT-PATCH數(shù)據(jù)集,通過對比實驗,綜合描述符在后期匹配中的檢索速度,本文選取神經(jīng)網(wǎng)絡(luò)全連接層特征維度為128維。
3.4.2 CNN-SIFT自適應權(quán)重評價實驗
CNN-SIFT描述符是對CNN描述符和SIFT描述符的動態(tài)加權(quán)融合,固定特征權(quán)重與自適應權(quán)重的對比結(jié)果如圖5a、5b所示,其中特征權(quán)重比是指SIFT描述符占完整描述符的權(quán)重比例。實驗結(jié)果表明,不同特征影像的特征權(quán)重比最優(yōu)區(qū)間不同,固定特征權(quán)重的描述符難以適應復雜地形,而自適應權(quán)重策略則可通過權(quán)重的調(diào)整,利用SIFT描述符保證位置的精確度,利用CNN描述符保證匹配的準確率,使匹配結(jié)果始終處于最優(yōu)范圍區(qū)間。
圖5 CNN-SIFT權(quán)值分配和視野擴張對比實驗圖
3.4.3 視野擴張對比實驗
特征點SIFT描述符在平坦地區(qū)梯度特征相似,誤匹配率較高;然而隨著視野擴張,描述符中包含田埂和岸線等輪廓特征時,視覺特征可分性大幅提高。CNN-SIFT描述符處理富含水域的P-D組影像時,選取視野128×128、180×180、256×256的關(guān)聯(lián)區(qū)范圍進行實驗,以驗證視野對影像匹配的影響。實驗結(jié)果如圖5c~5f所示,可以看出,單純的湖泊水體可供描述符提取的特征有限;但隨著視野關(guān)聯(lián)區(qū)面積的增大,可提取的差異特征增多,正確匹配率上升。綜合正確點數(shù)量、正確匹配率以及覆蓋度的變化規(guī)律,本文選擇180×180為最優(yōu)視野范圍。
本文在P-A、P-B、P-C、P-D四組影像上選取SIFT描述符、CNN描述符(視野128×128)、CNNSIFT描述符(視野180×180)進行對比實驗;采用正確匹配點對數(shù)和正確匹配率作為評判匹配能力的指標,以分析描述符結(jié)構(gòu)和地形特征對正確匹配的影響;利用覆蓋度和算法耗時來評價SIFT、CNN和CNN-SIFT描述符的匹配質(zhì)量和性能。
3.5.1 描述符內(nèi)部結(jié)構(gòu)對匹配的影響
P-A、P-B、P-C三組實驗的具體結(jié)果如表1所示,可以看出,與SIFT描述符相比,CNN-SIFT描述符的正確匹配點對數(shù)平均增加了41.32%,正確匹配率增加了13.63%。
表1 各分辨率影像匹配結(jié)果表
在正確匹配點對數(shù)量方面,CNN-SIFT描述符匹配點對最多,SIFT次之,CNN最少。CNN描述符受限于網(wǎng)絡(luò)池化,神經(jīng)網(wǎng)絡(luò)提供特征點區(qū)域大,范圍準確性、精確定位能力弱。正樣本場景空間相似,負樣本區(qū)分度較高,空間位置相近的相似影像塊限制了神經(jīng)網(wǎng)絡(luò)的精確定位。CNN描述符為抽象層次的中高級特征,屬于匹配的強約束條件,為特征點提供局部范圍約束,能更準確地定位特征點所在區(qū)域。SIFT描述符屬于梯度描述符,能反映小距離尺度的低級結(jié)構(gòu)特征,獲取空間距離相近的精確匹配點位。CNN-SIFT描述符融合了高級特征與低級特征,同時具有抽象的場景區(qū)分能力和鄰近點位判別能力,能始終保持匹配的正確性,獲取優(yōu)于CNN 描述符和SIFT 描述符的匹配結(jié)果。
在正確匹配率方面,SIFT描述符的正確匹配率偏低,存在一些局部特征相似但空間距離偏移量較大的點對,說明SIFT描述符的能力不足;CNN描述符在P-B與P-C中取得了優(yōu)于SIFT描述符的正確匹配率,在P-A 中略遜于SIFT描述符。其原因在于,在P-A 圖像對中,部分點位空間位置接近,CNN描述符獲得準確的大范圍匹配區(qū)域后,小范圍內(nèi)具有多個點位,但CNN定位精度不足,導致匹配正確率下降;而P-B與P-C的特征點密度低于P-A,促使CNN的正確匹配率有一定提升。在3組實驗中,CNN-SIFT描述符均獲得高于SIFT 描述符10%以上的正確匹配率。
3.5.2 平坦地形對匹配的影響
農(nóng)田和湖泊地區(qū)地勢平坦是影像匹配的難點[10],為了驗證CNN-SIFT描述符在平坦地區(qū)的匹配能力,本文設(shè)計了P-D實驗(平坦湖泊地區(qū)影像匹配),效果如圖6所示。隨著CNN-SIFT描述符視野范圍的擴張,產(chǎn)生了湖泊輪廓的堤岸匹配點以及SIFT描述符也無法獲取的湖汊水體匹配點(圖6a、6b)。平坦匹配點的增加使得正確匹配點對數(shù)和匹配率大幅提升,與SIFT描述符相比,平坦地區(qū)匹配率提高了19.20%。CNN-SIFT描述符也存在少量誤匹配,如圖6c所示的平原區(qū)塊田匹配點,其原因在于:①誤匹配特征點所在的高斯圖像尺度過大(過?。瑢е旅枋龇麢?quán)值過高,造成匹配;②存在特征相近的局部影像塊,使得描述符無法區(qū)分。通過擴張視野能有效解決該問題,如圖6d所示。
圖6 部分匹配結(jié)果實例圖
3.5.3 匹配質(zhì)量與性能分析
匹配點分布均勻是確保高質(zhì)量影像匹配的關(guān)鍵,同 名點覆蓋度定量表征了匹配點空間分布的均勻程度。CNN-SIFT描述符獲得了最高的同名點覆蓋度和正確匹配率,如圖7a所示,SIFT部分根據(jù)局部特征產(chǎn)生大量特征點,CNN部分根據(jù)視覺可分抑制密度過高的重復匹配點,二者自適應融合能有效調(diào)劑匹配點的合理分布,使正確匹配點的平均同名點覆蓋度比SIFT描述符高9%以上。
神經(jīng)網(wǎng)絡(luò)描述符匹配的主要耗時為CNN計算,感受野越大,計算速度越慢,如圖7b所示。因此,自適應的依區(qū)域地形梯度、并行分塊處理能顯著提升描述符匹配性能。本文改進了單線程模式,GPU并行模式和多線程計算使資源得到充分利用,極大提升了CNNSIFT描述符影像匹配的效率,能滿足自然資源資產(chǎn)清查實際工作的要求。
圖7 影像匹配結(jié)果性能分析圖
本文構(gòu)建了基于視野感知的CNN-SIFT描述符,將影像特征提取轉(zhuǎn)換為相似度學習,采用孿生網(wǎng)絡(luò)提取中高級特征,增強了描述符的視覺可分性,提高了時序影像正確匹配率。本文首先驗證了CNN-SIFT描述符能涵蓋高中低級特征,正確匹配點數(shù)和匹配率均顯著優(yōu)于其他兩種描述符;然后驗證了CNN-SIFT描述符的匹配能力,自適應增強視野感知能有效處理平坦地形匹配的難點問題;最后驗證了CNN-SIFT描述符的匹配性能,同名點覆蓋度體現(xiàn)匹配質(zhì)量高, GPU分塊并行運算解決了耗時瓶頸,綜合作用使得CNN-SIFT描述符性能全面優(yōu)于其他兩種描述符。描述符匹配能力來自于視覺可分的中高級特征和地形可分的梯度特征,CNN描述符在視野范圍較大時匹配率較高,SIFT描述符在地形復雜、梯度特征為主時匹配率較高,CNN-SIFT描述符依地形自適應調(diào)整視野感知范圍和描述符權(quán)重,能同時提升影像正確匹配率與匹配速度。利用CNN-SIFT描述符匹配技術(shù)制作的高分辨遙感影像能滿足全民所有自然資源資產(chǎn)清查實際工作的要求,為其他衛(wèi)星影像進行大范圍批量正射影像生產(chǎn)提供借鑒。