謝濤,任佳昊,王超
(1.南京信息工程大學 遙感與測繪工程學院,南京 210044;2.南京信息工程大學 電子與信息工程學院,南京 210044)
遙感影像數(shù)據(jù)受大氣密度、云層變化的影響,常存在云層遮蓋區(qū),會對其他大氣產(chǎn)品和陸地產(chǎn)品生成造成不利影響[1-2]。因此,云檢測產(chǎn)品的主要作用是作為其他大氣產(chǎn)品和陸地產(chǎn)品反演的輔助數(shù)據(jù),同時也是目前很多云檢測研究的檢驗依據(jù)[3-4],其主要任務(wù)就是區(qū)分有云(包括部分有云)像元和晴空(或基本晴空)像元[5]。本文的目的是在已有的云檢測產(chǎn)品的基礎(chǔ)上,對其進行升尺度處理,盡可能地保證升尺度后產(chǎn)品的精度,為其他不同尺度云參數(shù)和定量產(chǎn)品反演提供可靠的輔助數(shù)據(jù)。
近年來,研究者們對衛(wèi)星數(shù)據(jù)的云檢測展開了一系列研究,以EOS/MODIS和風云衛(wèi)星等數(shù)據(jù)為代表的云檢測產(chǎn)品被廣泛使用[6]。
盡管如此,當前現(xiàn)有可獲取的云檢測產(chǎn)品通常存在尺度單一的局限,無法滿足全球或不同區(qū)域尺度的氣象、水文和生態(tài)等研究[7];此外,隨著高分辨率遙感技術(shù)的發(fā)展,現(xiàn)有的云檢測產(chǎn)品一直在朝著高分辨率的趨勢發(fā)展,而當進行某些全球或者大洲級研究,高分辨率成為一種負擔時,就會缺乏相應的粗分辨率產(chǎn)品作為支撐[8];最后,目前尚缺乏針對云檢測產(chǎn)品的升尺度方法及精度評價方法。因此,有必要圍繞這些問題展開研究,以提供高精度、高可靠的云檢測升尺度產(chǎn)品。
圍繞遙感數(shù)據(jù)的升尺度方法,學者們已經(jīng)取得了一系列的成果。根據(jù)對聚合窗口中類別值處理方式的不同,常見方法有眾數(shù)聚合法、隨機抽樣法。但這兩種方法都存在著一定的缺陷,沒有考慮到數(shù)據(jù)中不同類別之間存在著的空間結(jié)構(gòu)關(guān)系,會造成升尺度后產(chǎn)品中對應類別的空間結(jié)構(gòu)發(fā)生變化。比如眾數(shù)聚合法會導致弱勢類別的減少甚至消失,隨機抽樣法會使空間結(jié)構(gòu)趨于離散[9-10]。在精度評價方面,由于僅有升尺度前產(chǎn)品,缺乏升尺度標準結(jié)果作為參照,因此通常僅通過比例變化來判斷升尺度結(jié)果的優(yōu)劣[11]。這種指標雖然在一定程度上能夠評判升尺度后結(jié)果相對原數(shù)據(jù)各類別的占比變化情況,但比例是否變化無法直接反映升尺度結(jié)果的精度及可靠性。
鑒于此,本文提出了一種迭代聚類方法,詣在能夠更好地保持升尺度前后各類別的空間結(jié)構(gòu)一致性。在此基礎(chǔ)上,基于歐式距離(Euclidean distance,ED)提出了兩種新的度量方法,分別為類內(nèi)歐氏距離(inner class ED,ICE)和類間歐氏距離(ED between classes,EBC)的精度評價方法,并結(jié)合占比法、相似度、互信息和均方根誤差對眾數(shù)聚合、隨機抽樣和迭代聚類法的性能進行綜合評估。結(jié)果表明,本文提出的迭代聚類法可行有效,在總體和單類精度中均顯著優(yōu)于其他對比方法。
國際地圈生物圈計劃(international geo-biosphere program,IGBP)云檢測網(wǎng)格產(chǎn)品中每個網(wǎng)格的數(shù)值代表是否有云的4級可信度:云、可能是云、可能是晴空和晴空。其數(shù)據(jù)的存儲方式是按照8位二進制bit位進行存儲定義[12],每比特位所代表的含義如表1所示。
表1 云檢測數(shù)組bit位存放內(nèi)容的具體內(nèi)容
在本文的升尺度算法研究中,會對原始數(shù)據(jù)進行8位二進制化預處理,主要用到前3位bit位,共分為5類:000(無效值)、001(有云)、011(可能有云)、101(可能晴空)、111(晴空)。
聚類法是一種無監(jiān)督的分類方法,其中最常用的是劃分聚類算法,有EM 算法、k-medoids 算法、k-means算法、CLARA 算法、CLARANS 算法等[13-16]。劃分聚類算法的優(yōu)點是簡單快捷,針對原始數(shù)據(jù),先設(shè)定好聚類中心或者聚類數(shù)目,然后選取一種迭代方法進行反復的迭代對初始分組進行改進,減小誤差。然而,一方面劃分聚類算法難以直接應用到升尺度中;另一方面,聚類后對各個聚類中心的定義難以與原始數(shù)據(jù)中的類別進行對應。在本文中,針對以上兩點,依據(jù)云檢測數(shù)據(jù)的特性,將劃分聚類算法的特點運用到了升尺度算法中,設(shè)計了一種迭代聚類法。
采用所提出的迭代聚類方法對云檢測數(shù)據(jù)進行升尺度的流程如圖1所示。
圖1 迭代聚類法流程圖
實現(xiàn)步驟如下所示。
步驟1:統(tǒng)計所有5×5窗口內(nèi)0的像素個數(shù),若數(shù)量大于等于13個,則該窗口被判定為無效,并不參與后續(xù)計算。
步驟2:對剩余5×5窗口內(nèi)的每個像素進行8位二進制化處理。
步驟3:先保留8位二進制數(shù)的前3位(第0、1、2位)且第一位不為0條件下的3位數(shù)字001、011、101、111,對應十進制標簽為1、3、5、7。
步驟4:將任意一個窗口作為一個樣本,統(tǒng)計該窗口內(nèi)具有1、3、5、7標簽的像素個數(shù),并構(gòu)建直方圖,作為該樣本的特征空間;遍歷所有步驟1處理后剩余的窗口,可得到等待進行迭代聚類的所有樣本集合D,以及每個樣本所對應的特征空間。此時,迭代聚類尋優(yōu)模型輸入是D={xi,i∈1,2,…,m},其中xi是第i個樣本所代表的特征向量,m為樣本個數(shù)。
步驟5:從D中隨機選擇4個樣本作為初始的4個質(zhì)心μj,j∈1,2,3,4。設(shè)定輸出簇劃分C初始化為Ct=?,t∈1,2,3,4。
步驟8:重復步驟6~步驟7,直到所有的4個質(zhì)心向量都沒有發(fā)生變化,即模型收斂得最優(yōu)解后,可以得到初步的4種分類結(jié)果Ct={C1,C2,C3,C4}。但此時還不知道4類樣本分別對應的3位二進制數(shù)。
步驟9:統(tǒng)計這4種分類結(jié)果中所有像素所對應的升尺度前的窗口內(nèi)的像素均值,按照從小到大的順序進行排列后,則分別對應001、011、101、111,可得到初始的云檢測結(jié)果。
步驟10:在步驟8的基礎(chǔ)上,對8位二進制中的后5位bit位在5×5聚合窗口中采用眾數(shù)聚合規(guī)則進行決策,與步驟2~步驟9得到的前3位組合后轉(zhuǎn)為十進制,得到最終的分類結(jié)果。
為了在無真實參考數(shù)據(jù)條件下對不同升尺度方案進行有效的定量分析,本文設(shè)計了兩種精度評價指標ICE、EBC。其依據(jù)在于:每個升尺度后像素都可以看成由5×5窗口內(nèi)的混合像元而來,因此每個像素實際可以看成一個5×5的圖像,因此計算兩個窗口之間的歐氏距離,能夠反映被賦予相同類別標簽像素之間的關(guān)聯(lián)程度,也可以反映被賦予不同類別標簽像素之間的差異大小。
升尺度之后,屬于同一類別像素之間的歐氏距離越小,則每個類別像素之間的聯(lián)系就越緊密,升尺度結(jié)果中各個類別的劃分就越準確。ICE的具體步驟如下。
步驟1:在升尺度結(jié)果基礎(chǔ)之上,以全部屬于“有云”的像素為例,遍歷計算每兩個“有云”像素之間的ED,得到“有云”像素之間的平均相似程度ICEcloud-cloud。依次類推,獲得所有類別的內(nèi)部像素ICExxx-xxx。
步驟2:對全部類別的ICExxx-xxx求均值,得到類內(nèi)可分性精度指標,如式(1)所示。
(1)
步驟3:進而求得加權(quán)類內(nèi)可分性指標,其中Pi為升尺度結(jié)果中類別i所占比例,如式(2)所示。
(2)
升尺度之后,不同類別的像素之間的歐氏距離越大,則不同類別之間的區(qū)別就越大,升尺度結(jié)果中各個類別的劃分就越準確。EBC的具體步驟如下。
步驟1:在升尺度結(jié)果基礎(chǔ)之上,以全部屬于“有云”的像素為例,遍歷計算每個“有云”像素與其他非“有云”像素之間的ED,得到“有云”與其他類別像素的平均相似程度EBCcloud-other。依次類推,獲得全部類別與其他類別之間的EBCxxx-other。
步驟2:對全部類別的EBCxxx-other求均值,得到類間可分性精度指標,如式(3)所示。
(3)
步驟3:進而求得加權(quán)類間可分性指標,其中Pi為升尺度結(jié)果中類別i所占比例,如式(4)所示。
(4)
本文以風云三號D(FY-3D)氣象衛(wèi)星的云檢測產(chǎn)品為實驗數(shù)據(jù)。該產(chǎn)品其采用了中等分辨率光譜成像儀(medium resolution spectral imager,MERSI)數(shù)據(jù),空間分辨率為5 km,存儲為HDF格式,大小為7 200像素×3 600像素,數(shù)據(jù)覆蓋全球。共對3組實驗數(shù)據(jù)進行實驗,產(chǎn)品拍攝時間分為2019年的3月21日、3月23日和3月27日。
采用5×5的聚合窗口,分別采用眾數(shù)聚合(方案一)[17]、隨機抽樣(方案二)[18]、本文提出的迭代聚類法3種方案進行實驗。由于全球結(jié)果圖不利于細節(jié)展示,因此僅展示局部區(qū)域的原圖及對應3種方案的升尺度結(jié)果圖,如圖2至圖4所示。
圖2 2019年3月21日局部圖及升尺度結(jié)果
圖3 2019年3月23日局部圖及升尺度結(jié)果
圖4 2019年3月27日局部圖及升尺度結(jié)果
通過目視分析可以看出,本文提出的迭代聚類(方案三)在整體上要優(yōu)于方案一和方案二。分別對圖2、圖3和圖4進行分析,方案三的各個類別在空間結(jié)構(gòu)的保留程度上都要優(yōu)于其他兩種方案。升尺度后,方案一會造成小眾類別的結(jié)構(gòu)遭到減少和破環(huán)。因為算法的隨機性,方案二雖然較好地保持了整體的空間格局,卻會造成整體的分類變得不連續(xù),破壞了單類別的結(jié)構(gòu)。
為了能夠定量分析3種方案的優(yōu)劣,通過占比法精確度(percent accuracy,PA)指標[19]和本文提出的ICE、EBC指標進行升尺度后的單類和總體評價。此外,為了驗證所提出評價指標的有效性,從整體上分別對3種方案進行了相似度、互信息和均方根誤差的評價。其中,占比法是在對云檢測數(shù)據(jù)進行升尺度處理前后進行。理想的升尺度算法應不改變每個類別像素所占比例。占比法評價結(jié)果如表2至表4所示。
表2 2019年3月21日年數(shù)據(jù)占比法評價結(jié)果
表3 2019年3月23日年數(shù)據(jù)占比法評價結(jié)果
表4 2019年3月27日年數(shù)據(jù)占比法評價結(jié)果
從占比法的評價結(jié)果來看,不論是總體精度、加權(quán)總體精度還是各個類別的單類精度,3個方案的精度都很高,且數(shù)據(jù)比較接近。這是因為全球范圍的云檢測數(shù)據(jù)量大,很難從比例變化上去評判不同升尺度方案的好壞,也不能反映升尺度后數(shù)據(jù)的結(jié)構(gòu)完整度。采用ICS指標的評價結(jié)果如表5至表7所示。
表5 2019年3月21日年數(shù)據(jù)ICE評價結(jié)果
表6 2019年3月23日年數(shù)據(jù)ICE評價結(jié)果
表7 2019年3月27日年數(shù)據(jù)ICE評價結(jié)果
從表5、表6和表7中的數(shù)據(jù)結(jié)果可以看出,非加權(quán)類內(nèi)可分性精度指標的表現(xiàn)形式為:方案三>方案一>方案二(“>”代表優(yōu)于)。加權(quán)類內(nèi)可分性精度指標的表現(xiàn)形式:方案三>方案一>方案二。從單類精度的角度,方案三的精度也都要優(yōu)于其他兩個方案。結(jié)合目視分析結(jié)果和ICE來看,方案二采用的隨機抽樣原則使得單個類別在空間結(jié)構(gòu)上變得不連貫,要明顯弱于其他兩個方案。方案三因為沒有局限在聚合窗口中的類別值,而是以每個聚合窗口作為樣本空間進行整體上的迭代聚類,不存在考慮類別優(yōu)先級使得優(yōu)勢類別占優(yōu),弱勢類別占劣的情況,從而在ICE中精度也要高于方案一。
采用EBC指標的精度評價結(jié)果如表8至表10所示。
表8 2019年3月21日年數(shù)據(jù)EBC評價結(jié)果
表9 2019年3月23日年數(shù)據(jù)EBC評價結(jié)果
表10 2019年3月27日年數(shù)據(jù)EBC評價結(jié)果
從表8、表9和表10中的數(shù)據(jù)結(jié)果可以看出,非加權(quán)類間可分性精度指標的表現(xiàn)形式為:方案三>方案一>方案二(“>”代表優(yōu)于)。加權(quán)類間可分性精度指標的表現(xiàn)形式:方案一>方案三>方案二。從單類精度的角度來看,方案一在優(yōu)先級較高的兩類(有云和可能有云)的精度都要高于其他兩種方案,而在優(yōu)先級別較低的兩類(可能晴空和晴空),方案三的精度要高于其他兩種方案。我們分析是因為方案一采用了眾數(shù)聚合的規(guī)則,能很好地保護優(yōu)先級高的兩類的空間結(jié)構(gòu)保留度,相反會破壞優(yōu)先級低的兩類空間結(jié)構(gòu)保留程度,而且在本實驗中,優(yōu)先級高的兩類相比于其他兩類的占比都要遠高于其他兩類,所以在EBC中呈現(xiàn)的結(jié)果來看,方案一在非加權(quán)類間可分性精度要低于方案三,而在加權(quán)類間可分性精度卻要高于方案三。
對3種方案的相似度、互信息和均方根誤差的綜合評價見圖5。
圖5 3組數(shù)據(jù)的綜合評價結(jié)果
由圖5的3組實驗數(shù)據(jù)可知,在整體性能評價上,方案三 >方案一 >方案二(“>”代表優(yōu)于),與ICE和EBC的評價結(jié)論一致,證明了本文設(shè)計的兩種精度評價指標的有效性。
云檢測產(chǎn)品數(shù)據(jù)升尺度方法中,眾數(shù)聚合法存在眾數(shù)情況下弱勢類別的減少甚至消失導致類別空間結(jié)構(gòu)變化的問題,隨機抽樣法存在會使空間結(jié)構(gòu)趨于離散的問題。針對以上問題,本文設(shè)計了一種迭代聚類法。在此基礎(chǔ)上,因為缺少真實參考數(shù)據(jù)作為對比,為對升尺度后的結(jié)果進行有效評價,設(shè)計了兩種精度評價指標,分別為基于類內(nèi)歐氏距離和類間歐氏距離的精度評價方法。實驗證明,所設(shè)計的迭代聚類法在類內(nèi)歐氏距離中達到0.263(越小越好),低于眾數(shù)聚合法3%,低于隨機抽樣法近10%;在類間歐氏距離中達到0.908(越大越好),高于眾數(shù)聚合法約0.05%,高于隨機抽樣法近6%。