王 威 郭 浩 王 妍 安居白
(大連海事大學信息科學技術學院 大連 116026)
隨著遙感圖像的越來越多元化,單一分辨率的缺點也逐步體現(xiàn)出來,存在著低分辨率遙感圖像混合像元解析能力差、分類精度低,高分辨率遙感圖像范圍小、帶寬窄、分類處理時間長、同時相廣覆蓋高分辨率數(shù)據(jù)獲取困難等實際問題?,F(xiàn)在的研究大多都是針對單一分辨率的SAR 圖像進行分類的[1~7],而單一的SAR 圖像根據(jù)傳感器以及掃描模式的不同,會有各自不同的特點。所以,對于多分辨率遙感圖像的復合分類研究也顯得尤為重要,尤其是分辨率差異較大的圖像。
如果僅使用高分辨率圖像進行分類,雖然分類精度較高,但是分類區(qū)域范圍較??;而僅使用低分辨率圖像進行分類,雖然分類范圍廣,但是分類精度較低。而在復合分類過程中所使用的高分辨率遙感圖像僅需要對目標區(qū)域局部覆蓋,降低了對高分辨率遙感圖像覆蓋范圍的要求,克服了高分辨率遙感圖像在空間覆蓋范圍、重訪周期、價格等方面的約束,而在克服這些約束的同時,又可以提高低分辨率圖像的分類精度,也就是說復合分類可以在保證分類精度的同時擴大分類范圍。
復合分類方法的核心思想是用高分辨率圖像來指導低分辨率圖像的分類,主要流程為:首先將高分辨率圖像輸入模型中進行訓練,然后將低分辨率圖像作為待分類圖像輸入到訓練好的模型中進行最終分類。
對于復合分類,目前主要有三種方法:1)基于經典監(jiān)督分類的復合分類方法[8];2)基于參數(shù)退化模型的復合分類方法[9~11];3)基于似然退化分析的復合分類方法[13~15]。DeFries 等提出了基于TM 數(shù)據(jù)與AVHRR 數(shù)據(jù)的全球地表分類方法[8],這種方法由于是不涉及算法層面的分類,對于低分辨率混合類別像元的問題無法解決,分類精度不能保證。Rokhmatuloh 等利用22 景超高分辨率的QuickBird數(shù)據(jù)輔助MODIS 數(shù)據(jù)預測亞洲地區(qū)樹木覆蓋比例,采用退化樹技術建立MODIS 植被指數(shù)與樹木百分比之間的關系模型[9],該方法要事先假設一定的退化模型,分類精度受到該模型描述方式的影響較大。清華大學遙感實驗室首次提出一種新型復合分類算法,利用高低分辨率圖像的交集區(qū)域,依據(jù)其多對一的對應關系得到各類別的似然度分布,并將其擬合成似然函數(shù),指導低分辨率圖像進行分類,該方法與其他分類算法缺乏內在聯(lián)系,并沒有將此空間對應關系應用于合適的分類算法,同時并沒有考慮多特征對分類精度的影響,約束了一些特征的分類能力,影響到最終的分類結果。本文提出了一種將條件隨機場模型應用于復合分類的方法。CRF算法目前主要應用于分詞、詞性標注等領域,并取得了很好的效果,由于CRF 算法本身的一些特性比較符合復合分類的特點,本文將條件隨機場模型應用于復合分類之中,并取得了理想的效果。
本文首先提取了8組特征,每組特征有40個樣本,分別對應不同分辨率的重疊區(qū)域,對這些樣本進行條件隨機場訓練及分類,根據(jù)分類后不同特征對應的Kappa系數(shù)及ROC曲線,選取出效果較好的Gabor 特征作為模型的輸入數(shù)據(jù),然后將圖像進行分層級處理,將分辨率降低后的高分辨率圖像輸入到條件隨機場模型中進行訓練,再將低分辨率圖像中與高分辨率圖像重合的區(qū)域作為待分類圖像輸入到訓練好的模型中進行分類。通過與傳統(tǒng)復合分類方法的KAPPA 系數(shù)進行分析、比較,可以證明本文方法可以有效提高海冰的分類精度,得到有效的分類。最后再對低分辨率圖像的整幅圖像進行分類得到最終分類結果。
本文選取了兩組SAR海冰數(shù)據(jù),一組是來自南極的數(shù)據(jù),另外一組是來自渤海的數(shù)據(jù)。其中南極數(shù)據(jù)的測試地點位于南極(Antarctic)普里茲灣(Prydz Bay)附近海域地區(qū),其中一景為寬幅掃描模式(SCWA)下的的Radarsat-2 圖像,其分辨率為100m,拍攝于2013 年3 月13 日,選用了其中HH 極化方式的圖像;另一景為精細模式(F6F)下的Radarsat-2 圖像,其分辨率為8m,拍攝于2013 年3 月13 日,選用了其中HH 極化方式的圖像。兩景數(shù)據(jù)的其他信息包括圖像具體的地理位置坐標及覆蓋范圍等如表1 所示,兩景數(shù)據(jù)相對地理位置如圖1所示。
表1 南極數(shù)據(jù)基本信息
表2 渤海數(shù)據(jù)基本信息
第二組渤海數(shù)據(jù)的測試地點位于渤海北部靠近遼寧省附近渤海灣(Bohai Bay)沿岸海域地區(qū),其中一景為帶寬模式(WSM)下的ASAR 數(shù)據(jù),其分辨率為150m,拍攝于2009 年1 月14 日02:07:18;另一景為精細模式(F6F)下的Radarsat-2 圖像,其分辨率為8m,拍攝于2009 年1 月13 日22:01:51,選用了其中HH 極化方式的圖像。兩景數(shù)據(jù)的其他信息包括圖像具體的地理位置坐標及覆蓋范圍等如表2所示,兩景數(shù)據(jù)相對地理位置如圖2所示。
圖1 兩景南極數(shù)據(jù)的相對位置
圖2 兩景渤海數(shù)據(jù)的相對位置
對于高分辨率差異的SAR海冰圖像來說,由于數(shù)據(jù)來源不同,極化方式存在差異,所以本文將使用紋理特征來進行復合分類。為了選擇有效的紋理特征對海冰進行復合分類,本文選取了8 種紋理特征對第一組南極數(shù)據(jù)進行分類效果對比,這8 種紋理特征分別為均值、對比度、熵、方差、不一致性、角二階矩、相關性、Gabor特征。
特征篩選的具體流程如下:
1)在分辨率不同的兩景數(shù)據(jù)中各截取20 組重合的區(qū)域作為樣本。并對所有的樣本提取出上述8種紋理特征。
2)將每幅高分辨率圖像所對應的8 組特征圖(一共160 幅)作為訓練樣本進行條件隨機場的訓練。
3)用上述訓練以后的條件隨機場模型分別對每幅與高分辨率圖像重合的低分辨率圖像進行分類得到分類結果。
4)求出每組特征的分類結果的Kappa 系數(shù),再對每組特征所對應的20 個Kappa 系數(shù)求平均值。結果如表3所示。
5)計算出每幅分類圖像中不同冰型的準確率和召回率,并求出它們的平均值作為這幅圖像的準確率和召回率。再求出每組特征的準確率和召回率的平均值,并求出它們的F1 值用來綜合評估分類效果,結果如表4 所示。其中每組特征所對應的不同冰型的F1 值如表5 所示。F1 值的計算公式如下所示:
F1值=2*正確率*召回率/(正確率+召回率)
6)綜合評估第四步和第五步的結果,選取最適合的特征值。
表3 8種特征所對應的Kappa系數(shù)
表4 8種特征所對應的分類結果對比
表5 8種特征所對應的不同冰型的F1值
經過實驗對比發(fā)現(xiàn):在使用不同特征進行分類后所得出的Kappa系數(shù)中,均值、對比度和Gabor這三種特征的表現(xiàn)最好,Kappa 系數(shù)最高,分類效果最好;而通過對表4 的分析可以發(fā)現(xiàn)均值、相關性和Gabor 特征在準確率和召回率的表現(xiàn)中最好。綜合表3 和表4,可以選出均值和Gabor 這兩個特征,而在表5 中我們可以看出,均值在海水的分類上效果很好,但對于海冰的分類效果較差,而本文主要是對不同冰型的分類,Gabor 特征可以滿足本文需求,所以最終本文選擇了Gabor 紋理特征來進行分類。
本文使用條件隨機場分類器來進行復合分類,可以有效地克服傳統(tǒng)復合分類方法中的一些缺點。并提出了一種結合金字塔分層方法的CRF 算法,可以有效地提高復合分類的準確率并大幅降低分類時間。
條件隨機場(CRF)由Lafferty 等于2001 年提出,結合了最大熵模型和隱馬爾可夫模型的特點,是一種無向圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。條件隨機場是給定一組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型,其特點是假設輸出隨機變量構成馬爾可夫隨機場。條件隨機場可以用于不同的預測問題,它是由輸入序列對輸出序列預測的判別模型,形式為對數(shù)線性模型,其學習方法通常是極大似然估計或正則化的極大似然估計。
傳統(tǒng)的復合分類方法都存在其本身的一些不足之處。
DeFries 等提出了一種將高分辨率圖像進行分類,再按照一個低分辨率像素對應的多個高分辨率像素中所占比例大的類別作為低分辨率像素的類別的方法,而這種方法不涉及算法層面,對混合像元的解析能力較差,忽略了低分辨率數(shù)據(jù)本身的一些特征。
圖3 正確分類和分類結果圖
圖3 中,圖(a)是真值圖,圖(b)是上述方法的分類效果圖,可以看出這種方法對于海水中一些比較獨立的碎冰和靠近海水的超薄冰分類效果較差,這是其方法本身的缺陷造成的,僅僅用像素的多對一來進行分類,很容易就造成了邊緣上的錯分,對于混合像元的分類能力較差,這也是這種不涉及算法層面的方法的共同缺陷。
目前的復合分類方法還有很多是基于概率統(tǒng)計的方法來對SAR 海冰圖像進行分類的。而對海冰這種聚集性比較強,連接性比較高的圖像進行分類,僅對每個像素點本身進行獨立的概率分析與分類,而忽略其相鄰像素的影響的話,是會受限于圖片本身和噪聲影響的。
圖4 正確分類和分類結果圖
圖4(a)是真值圖,(b)是一種基于概率統(tǒng)計方法的分類效果圖,可以看出這種方法在上圖這種海水較多的數(shù)據(jù)中,分類效果很差,這是由于在這景數(shù)據(jù)中海水占了極大部分,而超薄冰和海水在像素上差異不大,在分類時,基于概率統(tǒng)計的分類器就將其中一部分超薄冰錯分成了海水。這也是這種基于概率統(tǒng)計的分和分類方法中比較常見的錯分。
對于這些錯分,本文選擇使用條件隨機場模型來對SAR海冰圖像進行復合分類,這種方法可以有效解決這些錯誤分類。對于復合分類來說,不同分辨率的圖像,就算是相同的區(qū)域,它們也存在著像素數(shù)目的不同,又由于其數(shù)據(jù)來源不同,極化方式、紋理等都存在各種不同,我們還要解決高低分辨率圖像中的不同分辨率圖像的相關性問題。
條件隨機場模型是一種無向圖模型,它可以對對每個像素點進行標簽標注,由于它是給每個像素點進行標簽化,同時每個像素點的分類可以由周圍的像素點所影響,它的這種分類方式可以將不同分辨率圖像中不同像素值的影響降到最低;條件隨機場的整體概率分析特征使得可以整體理解圖像內容,也就可以將不同分辨率圖像的數(shù)據(jù)量的不同的影響降低;它捕獲多標簽間的語義關聯(lián),由于這種關聯(lián)它可以將不同分辨率圖像的紋理、顏色、位置和邊緣的差異影響降到最低。
條件隨機場算法可以很好地解決復合分類中關于不同分辨率圖像差異的種種問題,本文也就將條件隨機場算法應用于了復合分類之中。
對于SAR 數(shù)據(jù)來說,其數(shù)據(jù)量過大,每一小塊范圍都有大量的像素點,我們要采取普通的條件隨機場算法來進行分類的話,如果每個像素點只受其周圍8 個像素點所影響分類的話,對于一景SAR 數(shù)據(jù)來說太少,其分類精度將會大大降低,而如果每個像素點受周圍大量像素點所影響分類的話,雖然分類精度會有所提高,但分類時間將會極大提高,降低分類效率。
而分層級方法可以解決此類問題。將圖像進行下采樣降低分辨率后,對于每個待分類像素點來說,它由若干個原圖的小像素點構成,而這個像素點的分類也會受周圍更多的像素點的影響(若分層后的每個像素點由9 個原圖的小像素點構成的話,每個待分類像素點的分類可以看成由周圍8*9+8=80 個像素點所影響),這樣就可以在提高分類精度的同時保持較低的分類時間。
在圖片較小的情況下,使用傳統(tǒng)的復合分類方法的確不會有太大影響,可當對本文中這種100m乃至150m 分辨率這種覆蓋范圍特別廣的圖像來說,速度就太慢了,所以本文使用了CRF 算法結合分層級的方法來進行復合分類,這樣可以有效提高最終分類的效率和精度。
結合分層級方法的條件隨機場算法模型如圖5。
圖5 結合分層級方法的條件隨機場算法模型
設X,Y 均為隨即變量序列,若在給定隨機變量序列Y 的條件下,隨機變量序列X 的條件概率分布如式(1)所定義:
其中,Y 表示輸入觀測序列,X表示對應的輸出標記序列。對于圖片來說,X 為待分類像素點,Y 為X 周圍像素點的分類,Y 中的小像素點表示下采樣前的像素點,這樣就可以理解為每一個待分類像素點X的分類結果由下采樣前的80個小像素點所影響。
本文算法的實現(xiàn)步驟如下。
1)在分辨率較低的圖像中截取出與分辨率較高的圖像重合的區(qū)域,并分別對兩幅圖像進行特征提取。
2)對每幅圖像進行分層操作,下采樣降低其分辨率,得到分層級后的圖像。
3)將分辨率降低后的高分辨率圖像作為訓練樣本輸入到條件隨機場中進行訓練。
4)將分辨率較低的圖像作為待分類圖像輸入訓練好的CRF分類器中進行分類,得到分類結果。
5)將分類結果進行兩次上采樣,并用高斯內核卷積對每次上采樣后的新增像素進行賦值,得到最終分類結果。
6)通過與使用傳統(tǒng)復合分類方法得到的分類結果進行Kappa 系數(shù)的對比,發(fā)現(xiàn)本文算法是優(yōu)于其他分類算法的,最后將低分辨率圖像的整幅圖輸入到訓練好的分類器中得到最終分類結果。
本文首先對兩景南極數(shù)據(jù)進行實驗測試。首先,我們在100m分辨率的圖像中截取出與8m分辨率圖像重疊的區(qū)域,并將截取完的圖像均勻裁剪成25 幅小圖像,其中厚冰較多的區(qū)域有9 幅,薄冰較多的區(qū)域有8幅,超薄冰較多的區(qū)域有3幅,海水較多的區(qū)域有5幅。然后提取這所有26幅圖像的Gabor 特征,并將特征圖進行分層級處理,下采樣兩次,最后得到的這25幅小圖像每幅圖像約有88*56的像素,并將這些小圖像作為待分類圖像,將分層級處理后的8m分辨率圖像作為訓練圖像。
本文分別用三組傳統(tǒng)的復合分類方法和本文提出的方法進行實驗對比。其中,三種傳統(tǒng)復合分類方法如下。
方法一:首先,將高分辨率圖像進行分類,再按照一個低分辨率像素對應的多個高分辨率像素中所占比例大的類別作為低分辨率像素的類別[8]。
方法二:在高低分辨率圖像的解析結果之間采用某種應用參數(shù)的線性或非線性的退化模型,利用訓練區(qū)域對參數(shù)進行估計,得到退化模型后基于高分辨率圖像的分類結果以及該退化模型實現(xiàn)對低分辨率圖像的大范圍分類[9]。
方法三:利用高低分辨率圖像的交集區(qū)域,依據(jù)其多對一的對應關系得到各類別的似然度分布,并將其擬合成似然函數(shù),利用該似然函數(shù)指導低分辨率圖像進行分類。
圖6 為其中一部分樣本的分類結果。其中第一行數(shù)據(jù)為厚冰較多的區(qū)域,第二行數(shù)據(jù)為薄冰較多的區(qū)域,第三行數(shù)據(jù)為超薄冰較多的區(qū)域,第四行數(shù)據(jù)為海水較多的區(qū)域。表6 為每種區(qū)域的所有圖像對應的平均Kappa 系數(shù)的比較??梢詮姆诸惤Y果和Kappa 系數(shù)表中看出,本文方法在大多數(shù)情況下的分類結果是優(yōu)于傳統(tǒng)的復合分類方法的。
圖6 分類結果圖
在用重合區(qū)域的圖像進行分類對比后,我們可以基本證明本文算法分類準確性是高于傳統(tǒng)的復合分類方法的,接下來我們將兩景數(shù)據(jù)中低分辨率的整幅圖像輸入到用高分辨率圖像訓練好的模型中進行最終分類,南極數(shù)據(jù)的分類結果如圖7,渤海數(shù)據(jù)的分類結果如圖8。
表6 每種方法所對應的Kappa系數(shù)
圖7 南極數(shù)據(jù)100m分辨率的最終分類結果
圖8 渤海數(shù)據(jù)150m分辨率的最終分類結果
提出了將條件隨機場算法應用于SAR 海冰圖像高分辨率差異的復合分類中。將采用分層級方法后的CRF 方法與傳統(tǒng)的復合分類進行比較,從Kappa 系數(shù)上進行對比。結果表明,采用了分層級方法后的CRF方法Kappa系數(shù)較高,分類精度優(yōu)于另外幾種算法。在隨后的研究中,將對更多景SAR數(shù)據(jù)進行實驗,并選擇更多特征進行組合分析,選取更好的特征組合。