陶 超,陰紫薇,朱 慶,李海峰
1.中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083;2.中南大學(xué)有色金屬成礦預(yù)測與地質(zhì)環(huán)境監(jiān)測教育部重點實驗室,湖南 長沙 410083; 3.西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756
近20年來,隨著大量遙感衛(wèi)星相繼成功發(fā)射,標(biāo)志著地球空間數(shù)據(jù)獲取新紀(jì)元的來臨。目前,我國已實現(xiàn)60~70顆遙感衛(wèi)星同時在軌工作,每天獲取的數(shù)據(jù)量達(dá)到數(shù)百個TB,數(shù)據(jù)總規(guī)模已接近100 PB[1],這些都表明遙感大數(shù)據(jù)時代已然來臨[2-5]。然而,與遙感影像數(shù)據(jù)獲取能力形成鮮明對比的是,當(dāng)前遙感信息自動化處理能力依然十分低下,其現(xiàn)狀可描述為:“data-rich but analysis-poor”[6],即“大數(shù)據(jù),小知識”。因此,如何有效利用遙感大數(shù)據(jù)準(zhǔn)確獲取所需要的信息,實現(xiàn)從數(shù)據(jù)到地學(xué)知識的智能轉(zhuǎn)化是目前亟待解決的問題,其背后關(guān)鍵技術(shù)與理論瓶頸“遙感影像智能解譯”依然是國內(nèi)外遙感領(lǐng)域共同面臨的開放科學(xué)問題。
針對該問題,目前國內(nèi)外相關(guān)領(lǐng)域研究學(xué)者開展了大量的研究工作,結(jié)合當(dāng)前研究進(jìn)展和狀況,主要體現(xiàn)以下兩個發(fā)展特征:
(1)在解譯對象方面,早期遙感影像智能解譯主要關(guān)注像素[7]和目標(biāo)[8]這兩類對象。但隨著影像空間分辨率的不斷提高,由于像素或目標(biāo)只包含較低層次的局部地物信息,通過該類解譯手段無法獲得與人類認(rèn)知更為吻合的場景級語義信息(如工業(yè)區(qū)、商業(yè)區(qū)、學(xué)校等)。為滿足更高層次的遙感地物解譯需求,跨越從低層次圖像特征到高層次場景語義特征之間的“語義鴻溝”,結(jié)合更大解譯單元內(nèi)的上下文信息進(jìn)行場景級影像分類已成為當(dāng)前熱點研究問題[9]。
(2)在模型算法方面,由于傳統(tǒng)手工特征結(jié)合監(jiān)督分類的解譯方式存在依賴啟發(fā)性專業(yè)知識、泛化能力較弱等問題,以深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動方法[10]憑借其強大的特征學(xué)習(xí)和多層次表達(dá)能力,在遙感影像智能解譯領(lǐng)域已得到廣泛關(guān)注,并取得了令人印象深刻的結(jié)果[11-13]。但深度學(xué)習(xí)方法依賴海量的標(biāo)注數(shù)據(jù),而數(shù)據(jù)集的收集和人工標(biāo)注需要耗費大量的人力成本,這一矛盾也使得該類方法在大區(qū)域、復(fù)雜場景下的遙感影像解譯任務(wù)中(如全球制圖[14])仍然面臨諸多挑戰(zhàn)。
機器學(xué)習(xí)范式-自監(jiān)督學(xué)習(xí)已在機器學(xué)習(xí)領(lǐng)域漸受關(guān)注[15],目前已在自然語言處理[16]、自然圖像分析[17]等領(lǐng)域嶄露頭角,甚至在某些細(xì)分任務(wù)中的表現(xiàn)性能已超越監(jiān)督學(xué)習(xí)方法[18-19]。其主要思想是通過人工設(shè)計的自監(jiān)督學(xué)習(xí)信號從海量無標(biāo)注數(shù)據(jù)中挖掘自身的監(jiān)督信息構(gòu)成偽標(biāo)簽,從而替代傳統(tǒng)人工標(biāo)注數(shù)據(jù)來驅(qū)動模型進(jìn)行全局特征學(xué)習(xí),然后再通過特征遷移或域適配的方式完成具體的目標(biāo)任務(wù)。這種“全局通用特征學(xué)習(xí)-局部特定任務(wù)遷移”的學(xué)習(xí)機制,可以大大降低對標(biāo)注數(shù)據(jù)的依賴,具有解決大尺度遙感應(yīng)用(如全球地表覆蓋,全球環(huán)境監(jiān)測)中由于標(biāo)注樣本貧乏導(dǎo)致的解譯瓶頸問題的潛力。鑒于此,本文概述了以深度學(xué)習(xí)為代表的監(jiān)督學(xué)習(xí)方法在遙感影像智能解譯領(lǐng)域的主要研究進(jìn)展,并對該類方法存在的問題和背后原因進(jìn)行了深層次剖析。在此基礎(chǔ)上,介紹了自監(jiān)督學(xué)習(xí)范式的定義和常用方法,并分析了自監(jiān)督學(xué)習(xí)范式相對傳統(tǒng)監(jiān)督學(xué)習(xí)范式在遙感影像智能解譯任務(wù)中的優(yōu)勢和應(yīng)用潛力,最后歸納了建立自監(jiān)督學(xué)習(xí)驅(qū)動的遙感影像智能解譯框架涉及的主要研究問題,以期推動自監(jiān)督學(xué)習(xí)技術(shù)在遙感影像智能解譯領(lǐng)域的發(fā)展與應(yīng)用。
對應(yīng)于人類認(rèn)知遙感影像時思考“影像中存在哪些地物目標(biāo)?”“這些地物目標(biāo)在哪里?”“這些地物目標(biāo)聯(lián)合起來展現(xiàn)什么樣的場景?”層層遞進(jìn)的理解方式,也對應(yīng)于從單一到全面的理解內(nèi)容,遙感影像智能解譯可分為像素級理解、目標(biāo)級理解和場景級理解3個層次,如圖1所示。
圖1 遙感影像智能解譯涉及的主要任務(wù)
盡管這3種方式可認(rèn)為是從不同層次、不同角度來理解遙感影像,但從信息提取的角度來看,它們本質(zhì)上都屬于一個模式識別與分類問題,采用監(jiān)督學(xué)習(xí)方式是目前解決該問題最主流也最具代表性的研究方向[20]。在監(jiān)督學(xué)習(xí)過程中,這3種理解方式分別以像素、目標(biāo)和場景作為最小的學(xué)習(xí)單元,然后通過大量的標(biāo)注樣本來進(jìn)行特征表示和分類器訓(xùn)練,以此建立從輸入影像數(shù)據(jù)x到其對應(yīng)標(biāo)簽y之間的函數(shù)映射關(guān)系f(x)用于后續(xù)未知樣本的分類與預(yù)測,具體流程可抽象為數(shù)據(jù)集標(biāo)注、監(jiān)督模型構(gòu)建、損失函數(shù)定義和最優(yōu)化學(xué)習(xí)4部分,其形式化數(shù)學(xué)描述表述如下
(1)
式中,f(x;w)表示監(jiān)督學(xué)習(xí)模型;w表示模型的參數(shù);f(x;w)本質(zhì)上用于描述本文將采用什么樣的特征和模型來表示并擬合數(shù)據(jù),以建立數(shù)據(jù)到真實標(biāo)簽的函數(shù)映射關(guān)系;L表示損失函數(shù),本質(zhì)上描述監(jiān)督學(xué)習(xí)模型f(x;w)在什么度量標(biāo)準(zhǔn)下以什么形式逼近真實標(biāo)簽y,主要解決模型預(yù)測值與真實標(biāo)簽之間差異度量的問題;min表示最優(yōu)化求解器,主要解決在損失函數(shù)L的意義下如何通過調(diào)節(jié)模型參數(shù)w以縮小模型預(yù)測值與真實標(biāo)簽差異的問題,它可以是隨機梯度法、進(jìn)化算法等;D={(xi,yi)|i=1,2,…,N}表示人工標(biāo)注數(shù)據(jù)集,其作用是給模型提供可學(xué)習(xí)的樣本和可驗證的真實標(biāo)簽。在監(jiān)督學(xué)習(xí)過程中,真實標(biāo)簽至關(guān)重要,它為模型學(xué)習(xí)提供了逼近的標(biāo)準(zhǔn)。
在深度學(xué)習(xí)方法出現(xiàn)之前,常用的監(jiān)督學(xué)習(xí)范式將監(jiān)督模型學(xué)習(xí)分解為遙感地物目標(biāo)特征描述和分類器學(xué)習(xí)兩個獨立的模塊,然后分別進(jìn)行優(yōu)化,如圖2所示。在特征描述方面,該階段常用的特征多為手工特征,包括底層特征和中層特征兩大類。底層特征可進(jìn)一步細(xì)分為光譜特征、紋理特征、形狀特征及局部不變特征4類,代表性方法包括歸一化植被指數(shù)[21]、Gabor紋理[22]、形態(tài)學(xué)剖面[23]、形態(tài)學(xué)房屋指數(shù)[24]、Harris角點[25]、SIFT特征[26]等。為縮小視覺上的“語義鴻溝”,中層特征表達(dá)方法也在遙感影像智能解譯領(lǐng)域得到了快速發(fā)展,其主要思想為,通過對底層特征進(jìn)行特征編碼以獲得對尺度、旋轉(zhuǎn)、光照等影像變化更為穩(wěn)健的特征表達(dá)。常用的中層特征編碼方法包括視覺詞袋模型[27]、狄利克雷多主題模型[28]、概率潛在語義模型[29]、層次貝葉斯模型[30]等。在分類器方面,遙感領(lǐng)域研究學(xué)者對此研究并不多,一般直接使用機器學(xué)習(xí)領(lǐng)域較為成熟的分類器,包括支持向量機[31]、隨機森林[32]、概率圖模型[33]等。
圖2 手工特征階段的監(jiān)督學(xué)習(xí)范式
這一階段采用手工特征結(jié)合監(jiān)督分類進(jìn)行機器解譯很大程度上緩解了人工目視解譯的壓力,但是仍然存在兩點不足:
(1)從特征描述的角度來看,手工設(shè)計特征費時費力,需要啟發(fā)式專業(yè)知識,且特征可分性依賴于經(jīng)驗上的參數(shù)設(shè)置,受主觀因素影響大。
(2)從模型優(yōu)化的角度來看,該階段將遙感地物目標(biāo)特征提取和分類器學(xué)習(xí)視為兩個獨立的模塊,然后分別進(jìn)行優(yōu)化,容易收斂到局部最優(yōu)解。
近年來,隨著大規(guī)模標(biāo)注數(shù)據(jù)的發(fā)布和高性能計算的普及,以深度學(xué)習(xí)為代表的數(shù)據(jù)驅(qū)動方法憑借其強大的特征學(xué)習(xí)和多層次表達(dá)能力,在遙感影像智能解譯領(lǐng)域已得到廣泛關(guān)注,并取得了令人印象深刻的結(jié)果。深度學(xué)習(xí)以數(shù)據(jù)驅(qū)動的形式來學(xué)習(xí)特征,并通過“端對端”的方式將特征學(xué)習(xí)與分類器優(yōu)化嵌入同一個框架下進(jìn)行聯(lián)合優(yōu)化,是其在遙感影像解譯任務(wù)上較傳統(tǒng)方法表現(xiàn)更優(yōu)的關(guān)鍵原因,如圖3所示。下面分別從場景分類、語義分割、目標(biāo)識別3個方面介紹深度學(xué)習(xí)方法在遙感影像智能解譯領(lǐng)域的主要工作進(jìn)展。
圖3 特征學(xué)習(xí)階段的監(jiān)督學(xué)習(xí)范式
1.3.1 場景分類
遙感影像場景分類側(cè)重于影像內(nèi)容的整體理解,即可理解為一個圖像級分類問題。早期基于深度學(xué)習(xí)遙感影像場景分類工作的主要思路為:直接使用在大規(guī)模自然圖像數(shù)據(jù)集(如ImageNet[34])預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為特征提取器,然后對網(wǎng)絡(luò)進(jìn)行微調(diào)以一種遷移學(xué)習(xí)的思想完成遙感場景分類。這種“拿來主義”思想雖然在一些同樣只包含RGB 3個波段的航空遙感場景分類數(shù)據(jù)集上(如UC Merced、AID等)表現(xiàn)出較好的分類效果[35-36],但因微調(diào)過程中存在的數(shù)據(jù)通道數(shù)與網(wǎng)絡(luò)結(jié)構(gòu)固化等問題,導(dǎo)致無法充分利用遙感數(shù)據(jù)豐富的光譜特征,也無法根據(jù)遙感場景分類任務(wù)特點優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。針對這一問題,許多研究學(xué)者選擇結(jié)合遙感影像及場景分類特點對網(wǎng)絡(luò)結(jié)構(gòu)或目標(biāo)函數(shù)進(jìn)行再設(shè)計,然后從頭訓(xùn)練整個網(wǎng)絡(luò)。如文獻(xiàn)[37]針對遙感影像場景分類中各類地物尺度差異大的問題,提出了一個包含固定規(guī)模網(wǎng)絡(luò)和可變規(guī)模網(wǎng)絡(luò)的雙重分支結(jié)構(gòu),從而實現(xiàn)在多尺度上對遙感場景進(jìn)行訓(xùn)練和學(xué)習(xí)。針對影像場景中多類地物目標(biāo)共存的問題,文獻(xiàn)[38]將注意力遞歸卷積網(wǎng)絡(luò)用于場景分類,這種循環(huán)注意結(jié)構(gòu)可以自適應(yīng)地選擇并關(guān)注關(guān)鍵區(qū)域的信息并丟棄非關(guān)鍵信息,進(jìn)一步提升了分類性能。文獻(xiàn)[39]研究發(fā)現(xiàn)對于包含豐富光譜信息的哨兵影像,使用所有光譜信息從頭訓(xùn)練改進(jìn)的ResNet網(wǎng)絡(luò)模型比預(yù)訓(xùn)練模型表現(xiàn)更優(yōu)。另外,為改善遙感場景類內(nèi)差異大和類間差異小帶來的細(xì)粒度場景分類精度低的問題,文獻(xiàn)[40]通過引入深度度量學(xué)習(xí)方法建立新的特征空間,目標(biāo)是在新的特征空間中聚集同類場景并拉遠(yuǎn)不同類場景之間的距離以提升分類精度。
1.3.2 語義分割
遙感影像語義分割旨在為影像中每一個像素分配一個土地覆蓋標(biāo)簽,即可理解為一個像素級分類問題。文獻(xiàn)[41]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)突破了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到語義分割領(lǐng)域的限制。全卷積神經(jīng)網(wǎng)絡(luò)一般采用編碼器-解碼器的框架結(jié)構(gòu),其中編碼器一般定義為一個下采樣網(wǎng)絡(luò),主要用于學(xué)習(xí)多層次的語義特征。而解碼器一般定義為一個上采樣網(wǎng)絡(luò),主要用于將編碼器學(xué)習(xí)到的語義特征映射到原始分辨率的像素空間用于像素級分類。目前在遙感領(lǐng)域,研究學(xué)者結(jié)合遙感影像特點對FCN進(jìn)行了大量改進(jìn),如針對遙感地物類別豐富多樣、邊界復(fù)雜這一特點,文獻(xiàn)[42]通過設(shè)計反卷積和跳躍連接來改進(jìn)解碼器以改善遙感地物邊緣細(xì)節(jié)提取效果;文獻(xiàn)[43]通過減小空洞卷積的擴展因子以聚合局部特征以解決FCN方法提取的地物邊緣細(xì)節(jié)模糊的問題。針對復(fù)雜遙感場景中地物多尺度問題,文獻(xiàn)[44]提出利用門控卷積結(jié)構(gòu)(gated convolutional neural network,GCNN)完成不同層次特征圖之間的信息傳播以實現(xiàn)多尺度特征融合;文獻(xiàn)[45]基于分組卷積的設(shè)計思想提出一種高效帶空洞的空間金字塔網(wǎng)絡(luò)完成遙感地物要素多尺度信息提取;文獻(xiàn)[46]則結(jié)合空洞卷積和通道注意力機制實現(xiàn)自適應(yīng)多尺度的語義分割。另外針對FCN由于固定感受野而無法自適應(yīng)捕捉不同地物間長遠(yuǎn)程依賴關(guān)系的問題,研究學(xué)者們利用遞歸神經(jīng)網(wǎng)絡(luò)、自注意力機制等方法對遙感地物長遠(yuǎn)程上下文關(guān)系進(jìn)行建模以進(jìn)一步改善語義分割精度[47-49]
1.3.3 目標(biāo)識別
遙感影像目標(biāo)識別側(cè)重于分析和描述影像中地物目標(biāo)的類別和其所處的位置,即可理解為一個對象級分類問題。目前基于深度學(xué)習(xí)的遙感影像自動地物識別方法主要可分為兩大類:
(1)以R-CNN[50]、Fast-RCNN[51]、Faster-RCNN[52]等為代表的基于建議區(qū)域的目標(biāo)識別方法。該類方法首先通過選擇性搜索算法或區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)提取一組建議區(qū)域,然后在建議區(qū)域內(nèi)通過深度神經(jīng)網(wǎng)絡(luò)提取目標(biāo)候選區(qū)域的特征,最后利用這些特征進(jìn)行目標(biāo)識別以及目標(biāo)真實邊界的回歸。由于遙感影像背景復(fù)雜,算法給出的建議區(qū)域可能存在大量的噪聲,而過多的噪聲將會混淆物體信息、模糊目標(biāo)的邊界細(xì)節(jié),進(jìn)而導(dǎo)致漏檢并增加虛景。針對該問題,大量研究[53-54]發(fā)現(xiàn)在Faster-RCNN框架中引入空間注意力和通道注意力模塊能更好地捕捉復(fù)雜背景下的物體特征,提高目標(biāo)識別算法的穩(wěn)健性。
(2)以文獻(xiàn)[55—56]為代表的基于冋歸的目標(biāo)識別方法。該類方法丟棄第一類方法中建議區(qū)域生成的思想,而直接通過構(gòu)造一個回歸網(wǎng)絡(luò)來完成目標(biāo)識別和定位,因此,較第一類方法在速度上有了較大的提升。另外,針對遙感影像目標(biāo)具有任意角度的特點,文獻(xiàn)[57]提出在回歸預(yù)測目標(biāo)位置的同時,也對目標(biāo)的角度信息進(jìn)行估計,可提供更準(zhǔn)確的目標(biāo)位置定位。針對密集小目標(biāo)檢測問題,文獻(xiàn)[58]通過對YOLO網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn),加密了最后預(yù)測輸出的柵格數(shù)量,以改善小目標(biāo)和密集目標(biāo)群的檢測。
盡管監(jiān)督學(xué)習(xí)是目前解決遙感影像解譯問題最為主流的方法,但如何利用遙感影像數(shù)據(jù)完成大區(qū)域、復(fù)雜場景下影像智能解譯任務(wù)仍然是一個世界性、開放性難題,要想從實質(zhì)上推進(jìn)遙感智能解譯的發(fā)展,必須要認(rèn)識到監(jiān)督學(xué)習(xí)范式存在的不足和局限性,如圖4所示。
圖4 監(jiān)督學(xué)習(xí)范式在遙感解譯中存在的瓶頸問題
(1)從數(shù)據(jù)層面上來看,深度神經(jīng)網(wǎng)絡(luò)的成功在于它在擬合大規(guī)模樣本的同時不會大幅犧牲泛化能力,但在遙感影像解譯領(lǐng)域,構(gòu)建一個大規(guī)模、高質(zhì)量、完備的遙感場景分類數(shù)據(jù)集面臨著諸多挑戰(zhàn):首先從時間上來看,一個訓(xùn)練樣本只能代表一個時間截面的采樣,而遙感影像解譯對象是全球性、高度動態(tài)變化的,其特征隨氣象,氣候,光照,季節(jié),衛(wèi)星成像條件等變化而變化,這種時間異質(zhì)性對樣本標(biāo)注的質(zhì)量、規(guī)模和完備性提出了更高的要求。其次從空間上來看,由于氣候光照條件的差異,不同區(qū)域的地物類別分布存在天然的異質(zhì)性(如湖南地區(qū)多耕地而寧夏地區(qū)多草地)。這種空間異質(zhì)性導(dǎo)致在監(jiān)督學(xué)習(xí)過程中,無論在訓(xùn)練集內(nèi)部還是訓(xùn)練集和測試集之間都極易出現(xiàn)樣本類別不平衡現(xiàn)象[59-60],進(jìn)而引發(fā)“過學(xué)習(xí)”或“欠學(xué)習(xí)”問題,最終導(dǎo)致在應(yīng)用上的失效。
(2)從學(xué)習(xí)機制上來看,目前以監(jiān)督學(xué)習(xí)為主流的深度學(xué)習(xí)方法在有限樣本上進(jìn)行訓(xùn)練學(xué)習(xí),由于樣本的封閉性和樣本特征的動態(tài)變化性很容易導(dǎo)致方法性能的崩塌。雖然通過加大標(biāo)注樣本的數(shù)目可以緩解這一問題,但由于獲取高質(zhì)量數(shù)據(jù)標(biāo)注成本極高,且難以滿足樣本的時間動態(tài)性,因此,這一矛盾從原理上決定了監(jiān)督學(xué)習(xí)范式的先天不足。其次,監(jiān)督學(xué)習(xí)主要依靠人工標(biāo)注提供的語義支持作為唯一的學(xué)習(xí)信號進(jìn)行模型學(xué)習(xí),如果將人類的標(biāo)注作為一種知識先驗,那么在標(biāo)注的過程中實際上已經(jīng)給機器做了知識的限定。但對于海量遙感數(shù)據(jù)而言,其內(nèi)蘊信息理論上應(yīng)該比稀疏標(biāo)簽所提供的語義信息豐富得多,因此過分依賴于人工標(biāo)注,將使得學(xué)習(xí)得到的模型存在“歸納偏置”的風(fēng)險。
要有效解決上述問題,需要引入一種新的機器學(xué)習(xí)范式:這種新范式可以高效靈活地利用海量無標(biāo)簽遙感影像進(jìn)行自主學(xué)習(xí),由于無須引入樣本標(biāo)簽,使得無限制、全球性、多時態(tài)遙感影像的學(xué)習(xí)成為可能,也可避免監(jiān)督學(xué)習(xí)中常見的數(shù)據(jù)類別不平衡問題。同時也希望這種新范式的學(xué)習(xí)能力能夠優(yōu)于傳統(tǒng)的無監(jiān)督學(xué)習(xí),它能夠建立并利用有效的學(xué)習(xí)信號驅(qū)動模型學(xué)習(xí),以保證學(xué)習(xí)得到的特征和目標(biāo)任務(wù)有很好的關(guān)聯(lián)。此外也希望這種新的學(xué)習(xí)機制能夠利用多樣化的特征學(xué)習(xí)信號進(jìn)行學(xué)習(xí),從而起到比監(jiān)督學(xué)習(xí)僅利用真實標(biāo)簽提供的語義支持作為唯一的學(xué)習(xí)信號更好的特征學(xué)習(xí)效果。
自監(jiān)督學(xué)習(xí)是近年來興起的一種新的機器學(xué)習(xí)范式[61],它與監(jiān)督學(xué)習(xí)方法的核心差異在于自監(jiān)督學(xué)習(xí)通過人工設(shè)計的自監(jiān)督學(xué)習(xí)信號從海量無標(biāo)注數(shù)據(jù)中挖掘自身的監(jiān)督信息構(gòu)成偽標(biāo)簽,從而替代傳統(tǒng)人工標(biāo)注數(shù)據(jù)來驅(qū)動模型進(jìn)行特征學(xué)習(xí)。目前常用的自監(jiān)督學(xué)習(xí)方法可分為生成型和對比型兩大類。
2.1.1 生成型自監(jiān)督學(xué)習(xí)方法
生成型自監(jiān)督學(xué)習(xí)方法的基本思想為通過還原人為破壞后的圖像來達(dá)到特征學(xué)習(xí)的目的,其背后的動機為一旦模型能夠完全還原原始圖像,則說明模型已學(xué)習(xí)到能夠刻畫原始圖像的關(guān)鍵特征。基于該思想的自監(jiān)督學(xué)習(xí)信號構(gòu)建方法包括圖像修復(fù)、圖像上色等。
圖5 圖像修復(fù)自監(jiān)督學(xué)習(xí)信號構(gòu)建
圖像上色自監(jiān)督學(xué)習(xí)信號構(gòu)建[64-65]的設(shè)計動機為不同物體的語義與其顏色間可能有較強的關(guān)聯(lián)性,比如天空是藍(lán)色,草地是綠色,斑馬是黑白相間的,因此只有模型可以理解圖像中的語義信息才有可能給圖像中的不同區(qū)域上正確的顏色。其一般流程如圖6所示,用輸入灰度圖像對應(yīng)的彩色圖像作為學(xué)習(xí)的標(biāo)簽,通過最小化灰度圖像和對應(yīng)彩色圖像間的色彩重建損失迫使模型學(xué)習(xí)建立從“是什么”到“上什么顏色”之間的映射關(guān)系。
圖6 圖像上色自監(jiān)督學(xué)習(xí)信號構(gòu)建示意圖
2.1.2 對比型自監(jiān)督學(xué)習(xí)方法
對比型自監(jiān)督學(xué)習(xí)方法的核心思想為將同一圖像不同視圖表示(正樣本對)拉近并將不同圖像的視圖表示(負(fù)樣本對)拉遠(yuǎn),從而達(dá)到學(xué)習(xí)兼具不變性和可區(qū)分性特征表達(dá)的目的,其實現(xiàn)流程主要包含兩個步驟,如圖7所示。
圖7 對比型自監(jiān)督學(xué)習(xí)方法主要流程
(1)對于每一個無標(biāo)簽數(shù)據(jù)x,引入數(shù)據(jù)增強技術(shù)構(gòu)建正樣本對(x,x+),其中x+=T(x)通過對數(shù)據(jù)x施加隨機數(shù)據(jù)變換T(·)得到(如隨機裁剪、縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、隨機噪聲、隨機顏色失真等)。
(2)構(gòu)建如式(2)定義的對比損失函數(shù),并通過最小化該損失函數(shù),達(dá)到拉近正樣本間的距離同時拉遠(yuǎn)負(fù)樣本間的距離的目的,以此來強化學(xué)習(xí)得到特征的不變性和可區(qū)分性。
L=-Ex·
(2)
目前大量研究表明,在對比自監(jiān)督學(xué)習(xí)過程中構(gòu)建合理的正樣本對并包含足夠多、足夠難的負(fù)樣本對是提升對比學(xué)習(xí)性能的關(guān)鍵。對此,文獻(xiàn)[66]通過維持一個大的負(fù)樣本隊列并采用動量對比學(xué)習(xí)的機制來更新負(fù)樣本編碼器,巧妙地將一個學(xué)習(xí)批次能夠容納的負(fù)樣本數(shù)量和模型batch size大小進(jìn)行解耦。文獻(xiàn)[67]則認(rèn)為,在對比學(xué)習(xí)過程僅僅通過增加負(fù)樣本對數(shù)目并不能保證性能穩(wěn)定上升,提出通過在特征空間進(jìn)行特征混合的形式,產(chǎn)生更難的分類樣本來提升對比學(xué)習(xí)能力。另外,文獻(xiàn)[68]發(fā)現(xiàn),采用多種數(shù)據(jù)變換組合的形式構(gòu)建正樣本對比實用單一數(shù)據(jù)變換更有益于提升對比學(xué)習(xí)性能。
自監(jiān)督學(xué)習(xí)技術(shù)已在自然圖像分析任務(wù)中取得了階段性成果,甚至在某些細(xì)分任務(wù)中(如圖片分類,醫(yī)學(xué)圖像分割、目標(biāo)跟蹤)的表現(xiàn)性能已經(jīng)接近甚至超過監(jiān)督學(xué)習(xí)方法,但目前在遙感領(lǐng)域卻鮮有研究。自監(jiān)督學(xué)習(xí)技術(shù)對遙感影像智能解譯研究有獨到意義:從數(shù)據(jù)層面來看,由于最近全球?qū)Φ赜^測系統(tǒng)的快速發(fā)展,多時相、全球覆蓋的遙感影像變得唾手可得,這為在遙感領(lǐng)域開展自監(jiān)督學(xué)習(xí)研究提供了強大的數(shù)據(jù)支撐。從理論與方法層面來看,相對于傳統(tǒng)的監(jiān)督學(xué)習(xí)范式,自監(jiān)督學(xué)習(xí)既能夠低成本地利用海量無標(biāo)注遙感數(shù)據(jù)驅(qū)動模型學(xué)習(xí),也能夠靈活地利用多樣化的特征學(xué)習(xí)信號充分挖掘海量遙感數(shù)據(jù)的內(nèi)蘊信息,因此具備解決當(dāng)前有監(jiān)督的遙感影像解譯方法面臨的瓶頸問題的潛力。但要想真正實現(xiàn)自監(jiān)督學(xué)習(xí)驅(qū)動的遙感影像智能解譯框架,并突破當(dāng)前監(jiān)督學(xué)習(xí)范式在遙感解譯過程中面臨的瓶頸問題,本文認(rèn)為應(yīng)圍繞以下3個關(guān)鍵問題開展研究工作,如圖8所示。
圖8 自監(jiān)督學(xué)習(xí)驅(qū)動的遙感影像智能解譯主要研究內(nèi)容
2.2.1 面向自監(jiān)督學(xué)習(xí)的超大規(guī)模遙感樣本數(shù)據(jù)集高效構(gòu)建問題
與監(jiān)督學(xué)習(xí)相比,自監(jiān)督學(xué)習(xí)的核心優(yōu)勢在于能夠低成本地利用海量無標(biāo)注數(shù)據(jù)驅(qū)動模型學(xué)習(xí),但文獻(xiàn)[69]表明自監(jiān)督學(xué)習(xí)方法能否學(xué)習(xí)到有價值的圖像表征與自監(jiān)督學(xué)習(xí)數(shù)據(jù)集包含樣本類別的豐富性和多樣性有密切關(guān)系。因此,期望用于自監(jiān)督學(xué)習(xí)的遙感數(shù)據(jù)集具有:在內(nèi)容上能夠涵蓋類別豐富、類內(nèi)多樣的遙感場景要素;在時空上能夠涵蓋多季節(jié)、多氣候以及多尺度;在波譜上能夠涵蓋多個遙感成像傳感器。理論上來講,當(dāng)數(shù)據(jù)集達(dá)到千萬甚至更大規(guī)模的時候,上述特性應(yīng)該都能夠得到較好的滿足,但背后存在的關(guān)鍵問題在于如何自動采集大規(guī)模、高質(zhì)量的遙感樣本。盡管傳統(tǒng)格網(wǎng)采樣的辦法簡單直接,但由于遙感地物通常不可能完全按照規(guī)則格網(wǎng)劃分,導(dǎo)致該方法通常會存在采集的樣本沒有包含明顯或完整的地物語義內(nèi)容、甚至多種地物語義混雜等問題。如果在格網(wǎng)采樣的基礎(chǔ)上進(jìn)行人工過濾無疑又違背了自監(jiān)督學(xué)習(xí)無須過多人工干預(yù)的初衷。因此采用何種策略才能實現(xiàn)高質(zhì)量樣本自動采集和冗余樣本快速清洗,是保證面向遙感智能解譯的自監(jiān)督學(xué)習(xí)理論與方法研究有效開展的基礎(chǔ)問題。
針對上述問題,本文認(rèn)為可綜合以下3個途徑完成超大規(guī)模遙感樣本數(shù)據(jù)集高效構(gòu)建工作:①充分利用已有豐富的地理國情監(jiān)測、三調(diào)等重大工程積累的樣本數(shù)據(jù)和成果進(jìn)行引導(dǎo)式采樣。以文獻(xiàn)[70]發(fā)布的全球地表覆蓋制圖為例,其空間分辨率10 m,共包含10個一級類,可用于直接指導(dǎo)林地、草地、河流湖泊、山體等變化較為緩慢的地物樣本采集。②借助OpenStreetMap(OSM)等眾源地理數(shù)據(jù)進(jìn)行引導(dǎo)采樣。近年來眾源地理數(shù)據(jù)發(fā)展迅速,其數(shù)據(jù)量大、信息豐富、成本低廉以及現(xiàn)勢性強的特點使其相比于傳統(tǒng)地理數(shù)據(jù)有很大的優(yōu)勢,其所提供的路網(wǎng)、建筑物等豐富地物屬性與標(biāo)記可為自動化采樣提供位置與語義信息,從而可極大程度上提高采樣效率[71]。③利用現(xiàn)有人工標(biāo)注數(shù)據(jù)集訓(xùn)練自動采樣模型。盡管當(dāng)前基于深度學(xué)習(xí)的目標(biāo)識別算法還不能做到全目標(biāo)精準(zhǔn)識別,但對于如機場、港口、停車場等人工構(gòu)筑物已能達(dá)到較高的目標(biāo)檢測識別精度[72],因此可考慮采用機器模型完成上述類別的地物自動采樣。另外,需要注意的是自監(jiān)督學(xué)習(xí)研究并不需要樣本標(biāo)簽,其采樣的主要目標(biāo)是希望采集的樣本能夠包含明顯的地物語義信息,因此采樣過程中存在一些類別錯誤也是可以容忍的。
2.2.2 自監(jiān)督學(xué)習(xí)信號與遙感特征表示能力的內(nèi)在關(guān)系問題
自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)的核心差異在于,其通過人工設(shè)計的自監(jiān)督學(xué)習(xí)信號從海量無標(biāo)注數(shù)據(jù)中挖掘關(guān)聯(lián)信息構(gòu)成偽標(biāo)簽,從而替代人工標(biāo)注來驅(qū)動模型進(jìn)行特征學(xué)習(xí)。因此,一個很自然的問題是,在遙感影像解譯目標(biāo)任務(wù)已知的情況下,什么樣的學(xué)習(xí)信號提供的偽標(biāo)簽才能起到替代真實標(biāo)簽效果。此外,相對于監(jiān)督學(xué)習(xí)僅利用真實標(biāo)簽提供的語義支持作為唯一的特征學(xué)習(xí)信號,自監(jiān)督學(xué)習(xí)可以通過設(shè)計多樣化的學(xué)習(xí)信號進(jìn)行特征學(xué)習(xí)是其優(yōu)勢。但學(xué)習(xí)信號與特征表示能力的內(nèi)在關(guān)系目前并不清楚:設(shè)計與遙感解譯目標(biāo)任務(wù)相關(guān)的自監(jiān)督學(xué)習(xí)信號是否對提升特征可分性有幫助?什么樣的自監(jiān)督信號在什么條件下有助于捕捉高維遙感數(shù)據(jù)內(nèi)在不變特征?為回答上述問題,摸清自監(jiān)督學(xué)習(xí)信號與遙感特征表示能力的內(nèi)在關(guān)系,是建立有效自監(jiān)督遙感解譯框架的核心研究問題。
針對上述問題,本文認(rèn)為可從特征“可分性”和“不變性”這兩個基本原則入手,結(jié)合先驗知識和遙感數(shù)據(jù)自身特點,開展契合遙感影像解譯任務(wù)的自監(jiān)督學(xué)習(xí)信號構(gòu)建方法研究,探索自監(jiān)督學(xué)習(xí)信號在特征“可分性”和“不變性”兩方面對特征學(xué)習(xí)性能的影響。在特征可分性方面,盡管當(dāng)前主流的自監(jiān)督對比學(xué)習(xí)方法特征已經(jīng)能夠提供一個較好的可分性特征學(xué)習(xí)框架[73-74],但將其應(yīng)用于遙感領(lǐng)域時還應(yīng)充分考慮遙感數(shù)據(jù)自身特點,才能充分發(fā)揮海量遙感數(shù)據(jù)驅(qū)動和自監(jiān)督學(xué)習(xí)技術(shù)的雙重優(yōu)勢。比如,遙感時間序列間隱含了很強的時空自相似性,利用這一特點,可以假設(shè)相隔距離和時相接近的地物特征應(yīng)該是相似的,而相隔距離和時相較遠(yuǎn)的地物特征是不相似的,然后以此作為依據(jù)構(gòu)建正負(fù)樣本對進(jìn)行自監(jiān)督對比學(xué)習(xí)。另外,對于同一區(qū)域可以獲取不同視角、不同波譜、不同模態(tài)的數(shù)據(jù),盡管在視覺上這些數(shù)據(jù)間存在很大差異,但從語義角度來看它們都屬于同一地物對象不同視圖表達(dá)[75],其背后隱含的“語義一致性和關(guān)聯(lián)性”約束也可從特征不變性角度啟發(fā)相應(yīng)的自監(jiān)督學(xué)習(xí)信號設(shè)計。此外,對于海量遙感數(shù)據(jù)而言,其內(nèi)蘊信息理論上應(yīng)該比稀疏標(biāo)簽所提供的語義信息豐富得多,那么是否可以通過設(shè)計多個自監(jiān)督學(xué)習(xí)信號從不同角度挖掘數(shù)據(jù)內(nèi)蘊特征,從而起到比監(jiān)督學(xué)習(xí)僅利用真實標(biāo)簽作為唯一學(xué)習(xí)信號更好的特征學(xué)習(xí)效果,也是值得重點關(guān)注的研究問題。
2.2.3 自監(jiān)督學(xué)習(xí)特征有效遷移問題
通過使用超大規(guī)模的無標(biāo)注數(shù)據(jù)集并設(shè)計有效的自監(jiān)督學(xué)習(xí)信號,自監(jiān)督學(xué)習(xí)理論上可以學(xué)習(xí)得到一種全局的知識表征,但如何保證這種知識表征能夠有效地遷移到目標(biāo)任務(wù)目前尚不清楚。具體而言,由于不同的自監(jiān)督學(xué)習(xí)信號設(shè)計的出發(fā)點不一樣,導(dǎo)致學(xué)習(xí)得到的特征與遙感解譯目標(biāo)任務(wù)關(guān)聯(lián)度也會不一樣。如果將特征看成一種知識,有的可能與目標(biāo)任務(wù)直接相關(guān),有的可能只是間接相關(guān),這就意味著他們對于指導(dǎo)遙感解譯模型學(xué)習(xí)的效果也是不一樣的,如果采用統(tǒng)一的特征遷移策略可能會造成無效遷移甚至是負(fù)遷移進(jìn)而損害模型的泛化性能。因此,對于不同類型的特征,采用何種遷移策略才能發(fā)揮其最佳效果,是建立有效自監(jiān)督遙感解譯框架的另一個核心研究問題。
對于與遙感解譯目標(biāo)任務(wù)強相關(guān)的自監(jiān)督學(xué)習(xí)特征,理論上來講可直接采用傳統(tǒng)微調(diào)的方式實現(xiàn)自監(jiān)督學(xué)習(xí)特征到目標(biāo)任務(wù)的遷移。但存在的問題是:由于遙感影像解譯是一個開放性任務(wù),自監(jiān)督學(xué)習(xí)訓(xùn)練集和目標(biāo)任務(wù)數(shù)據(jù)集可能來自于不同傳感器,但傳統(tǒng)微調(diào)遷移方法是建立在同構(gòu)網(wǎng)絡(luò)框架下的,因此無法根據(jù)數(shù)據(jù)集的變化靈活調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),這將導(dǎo)致豐富的光譜特征沒有被充分利用(從RGB航空遙感影像遷移到多光譜遙感影像)或反之信息丟失(如從多光譜遙感影像遷移到RGB航空遙感影像)的問題。針對該問題,本文認(rèn)為可借鑒機器學(xué)習(xí)中知識蒸餾技術(shù)[76]方法,實現(xiàn)強關(guān)聯(lián)的自監(jiān)督特征有效遷移,其基本思路為,將已學(xué)習(xí)得到的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)作為老師網(wǎng)絡(luò),然后通過老師網(wǎng)絡(luò)提供高置信度的偽標(biāo)簽來指導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)(與目標(biāo)任務(wù)數(shù)據(jù)集適配的網(wǎng)絡(luò)結(jié)構(gòu)),從而達(dá)到在不同傳感器條件下自監(jiān)督學(xué)習(xí)特征有效遷移的目的。但由于自監(jiān)督學(xué)習(xí)信號的多樣性,某些學(xué)習(xí)得到的特征可能僅具有一定的“不變性”而不具備很好的“可分性”,這意味著如果仍采用上述遷移方法,可能會由于該類型特征無法提供高質(zhì)量的偽標(biāo)簽,進(jìn)而導(dǎo)致無效遷移甚至是負(fù)遷移。針對該問題,本文認(rèn)為可采用特征圖相似性保持的弱關(guān)聯(lián)特征遷移方法[77],其設(shè)計動機為:如果自監(jiān)督學(xué)習(xí)得到的特征具有較強的不變性,那么兩個相關(guān)數(shù)據(jù)在已訓(xùn)練的自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)中應(yīng)該有高度相似的激活特征圖。因此為保證該類型特征能夠有效遷移,特征遷移的目標(biāo)可定義為引導(dǎo)目標(biāo)網(wǎng)絡(luò)趨向于對這兩個輸入也同樣產(chǎn)生高度相似的激活特征圖。此外,對于兩種不同類型的自監(jiān)督學(xué)習(xí)特征,如何充分發(fā)揮各自的互補優(yōu)勢,以實現(xiàn)多類型自監(jiān)督學(xué)習(xí)特征從已訓(xùn)練自監(jiān)督學(xué)習(xí)模型到遙感影像解譯模型的集成遷移也是一個非常值得研究的問題。
雖然近年來遙感對地觀測數(shù)據(jù)呈現(xiàn)爆炸式增長,但這些遙感數(shù)據(jù)大部分都是未經(jīng)標(biāo)注的,因此無法直接利用這些數(shù)據(jù)以監(jiān)督學(xué)習(xí)范式來訓(xùn)練一個高精度的遙感影像解譯模型。雖然本領(lǐng)域已公開發(fā)布了很多帶標(biāo)注的遙感影像數(shù)據(jù)集[78-80],但由于遙感數(shù)據(jù)自身時空異質(zhì)性的原因,導(dǎo)致無論從體量還是質(zhì)量上來看,現(xiàn)有公開數(shù)據(jù)集都無法支撐學(xué)習(xí)得到一個具有良好遷移泛化性能的遙感解譯模型。
在這一背景下,本文分別從數(shù)據(jù)需求和學(xué)習(xí)機制兩個層面,深入分析了當(dāng)前監(jiān)督學(xué)習(xí)范式在遙感影像解譯任務(wù)上存在的不足和局限性,并指出相對于傳統(tǒng)的監(jiān)督學(xué)習(xí)范式,自監(jiān)督學(xué)習(xí)既能夠低成本地利用海量無標(biāo)注遙感數(shù)據(jù)驅(qū)動模型學(xué)習(xí),也能夠充分利用多樣化的特征學(xué)習(xí)信號挖掘遙感數(shù)據(jù)豐富的內(nèi)蘊信息,因此在遙感影像智能解譯任務(wù)上具有更好的應(yīng)用潛力。在此基礎(chǔ)上,分別從面向自監(jiān)督學(xué)習(xí)的超大規(guī)模遙感數(shù)據(jù)集高效構(gòu)建、自監(jiān)督學(xué)習(xí)信號與遙感影像表征的內(nèi)在關(guān)系、自監(jiān)督學(xué)習(xí)特征有效遷移機制3個方面,歸納梳理了建立自監(jiān)督的遙感影像智能解譯框架涉及的3個關(guān)鍵研究問題,并給出相應(yīng)的解決思路和方案,以期為數(shù)據(jù)源極大豐富條件下開展遙感影像智能解譯研究提供新的視角。