田 晨,張金龍,董世元,張乃祥
(1.蘇州市水利水務(wù)信息調(diào)度指揮中心,江蘇 蘇州 215011;2.蘇州中科藍(lán)迪軟件技術(shù)有限公司,江蘇 蘇州 215163)
面向?qū)ο蟮姆诸惙椒ㄔ絹碓蕉嗟膽?yīng)用于陸域地物分類中,但在水環(huán)境地物識別領(lǐng)域面向?qū)ο笫欠襁m用等問題現(xiàn)有研究資料較少[1-5]。因此,本文利用Sentinel-2 遙感圖像數(shù)據(jù),以江蘇省蘇州市陽澄湖為研究區(qū)域,設(shè)計了基于像素和面向?qū)ο蟮膬煞N藍(lán)藻提取方法,其中基于像素的藍(lán)藻提取方法,直接利用支持向量機(jī)進(jìn)行藍(lán)藻提取;面向?qū)ο蟮姆诸惙椒?,則是先采用簡單線性迭代聚類(SLIC)算法對遙感數(shù)據(jù)進(jìn)行分割形成超像素對象,然后以對象為最小研究單元利用支持向量機(jī)進(jìn)行藍(lán)藻目標(biāo)提取。利用多精度評價指標(biāo)和實(shí)際應(yīng)用情況,對比基于像素方法和面向?qū)ο蟮姆诸惙椒ㄔ谒h(huán)境藍(lán)藻提取領(lǐng)域的優(yōu)缺點(diǎn),為水環(huán)境監(jiān)測與治理提供技術(shù)參考。最后利用面向?qū)ο蟮姆诸惙椒?,?020—2021年的陽澄湖藍(lán)藻進(jìn)行自動提取,并分析陽澄湖藍(lán)藻聚集特點(diǎn)。
陽澄湖位于江蘇省蘇州市北部,119°51'32"~120°36'10"E,30°55'40"~30°32'58"N 之間,陽澄湖東西最大寬度約8 km,南北長17 km,占地約120 km2。陽澄湖由于富營養(yǎng)化引起的藍(lán)藻爆發(fā)是影響水生態(tài)安全、生物多樣化的重要因素,嚴(yán)重威脅了蘇州市、昆山市飲用水的安全[11]。
本文利用Sentinel-2 數(shù)據(jù)進(jìn)行陽澄湖的水生植被提取,考慮到水環(huán)境治理需求,選用Sentinel-2 空間分辨率為10 m的波段數(shù)據(jù),分別為可見光波段的Band2(496.6 nm)、Band3(560.0 nm)、Band4(664.5 nm),近紅外波段的Band8(835.1 nm)。Sentinel-2可通過網(wǎng)站(https://scihub.copernicus.eu/dhus/#/home)進(jìn)行下載,將下載的L1C數(shù)據(jù),利用官方推薦的Sen2cor軟件對其進(jìn)行大氣校正,可得到10 m 分辨率的反射率數(shù)據(jù)。經(jīng)陽澄湖實(shí)地踏勘以及文獻(xiàn)調(diào)研[6],藍(lán)藻爆發(fā)主要集中在7—10月份之間,因此本文主要針對2020年、2021年的7—10月份遙感數(shù)據(jù)進(jìn)行藍(lán)藻監(jiān)測。獲取的無云或少云的覆蓋陽澄湖Sentinel-2 數(shù)據(jù),2020 年共計8景,2021年共計5景。
參考前人針對藍(lán)藻信息提取方面的研究,發(fā)現(xiàn)應(yīng)用光譜特征可以直接將水體和水生植被進(jìn)行區(qū)分,但藍(lán)藻和其他挺水植物光譜曲線接近,部分還存在同譜異物的情況,另外在藍(lán)藻聚集程度較低的區(qū)域,難以將水體和藍(lán)藻進(jìn)行有效區(qū)分。本文選取在植被、藍(lán)藻有較好表征能力的NDVI,以及能夠更好區(qū)分水體和植被的NDWI 作為分類參考依據(jù)。特征變量為:Band2、Band3、Band4、Band8、NDVI、NDWI。其中NDVI、NDWI具體計算方法詳見表1。
表1 特征變量概述
研究區(qū)域內(nèi)藍(lán)藻分布較為復(fù)雜,本研究結(jié)合實(shí)地踏勘結(jié)果對圖像數(shù)據(jù)進(jìn)行目視解譯。根據(jù)研究需要,將陽澄湖湖區(qū)范圍內(nèi)地物類型分為水體、藍(lán)藻、其他植物、云4種類型。
選用對于樣本數(shù)量依賴性小且應(yīng)用廣泛的支持向量機(jī)(SVM)算法[1-2],作為藍(lán)藻識別模型基礎(chǔ)算法。SVM屬于監(jiān)督學(xué)習(xí)的一種,算法核心思想是:在特征空間上建立一個可以劃分不同類別并且?guī)缀伍g隔最大的最優(yōu)超平面。其優(yōu)點(diǎn)是:可以進(jìn)行小樣本學(xué)習(xí),不涉及概率測度及大數(shù)定律,簡化分類和回歸的運(yùn)算過程;在訓(xùn)練過程中利用少數(shù)支持向量,可以捕捉關(guān)鍵樣本,避開冗余信息和少量的錯識別信息,模型具有較好的魯棒性[8]。
本文選用在常用超像元分割算法中精度較高的簡單線性迭代聚類(SLIC)算法,該算法由Radhakrishna Achanta 等在2011 年提出,在醫(yī)學(xué)圖像上能夠清晰分割超像元,算法核心是檢索鄰域范圍內(nèi)的相似像元作為一個分割單元[7]。
遙感圖像與傳統(tǒng)數(shù)字圖像不同,傳統(tǒng)圖像分辨率高且邊界明顯,遙感圖像分辨率低,但光譜信息豐富。為整合遙感數(shù)據(jù)的光譜信息,參考遙感時空融合算法中的光譜相似性度量以及距離度量計算方法,以此來評價像元之間的相似性[10-11]。
在模型精度評估過程中,利用定量化指標(biāo)評估識別模型精度。利用精確率Precision評價各類別識別精度,召回率Recall 評價各類別正確識別召回情況,F(xiàn)1-Score和Kappa系數(shù)評價每期總體分類精度。
精確率Precision計算方法:
式中,TP為正確分類的數(shù)量,F(xiàn)P為將其他地物誤識別為某一類別的數(shù)量。
召回率Recall計算方法:
式中,F(xiàn)N為某一類地物誤識別為其他地物的數(shù)量。
F1-Score(F1),能夠綜合精確率和召回率2個指標(biāo),計算方法:
Kappa系數(shù)計算方法:
式中,Acc 為準(zhǔn)確率,即為正確分類的總數(shù)量與樣本總數(shù)的比值。Pe具體計算方式為:
式中,a為真實(shí)樣本數(shù)量;b為預(yù)測得到的樣本數(shù)量;n為總數(shù)量。
本文研究路線如圖1所示。
圖1 技術(shù)路線
圖2展示了SLIC算法設(shè)定超像元個數(shù)S為1 000、3 000 時得到的超像元劃分結(jié)果,從圖中可直觀地看出超像元聚類同一類地物對陽澄湖圖像進(jìn)行分割。經(jīng)測試,超像元數(shù)量S設(shè)置為2×105個,即每個超像元包含原始數(shù)據(jù)約18個像元,每個分割對象單元內(nèi)地物類別較為單一。
圖2 SLIC超像元分割
SVM 和SLIC-SVM 各類別的精確率、召回率、F1-Score 如表2所示,整體來看:水體、云識別精度最高,準(zhǔn)確率、召回率、F1-Score 都在96%以上;其他植被和藍(lán)藻的識別精度稍低,但也基本保持在90%以上。對比不同地物類別可以看出:水體SVM方法的精確率高于SLIC-SVM,后者相較于前者約低于5%,兩種分類方案召回率相差不大,均接近100%;厚云的SVM和SLIC-SVM的精確率較為一致,接近于100%,但后者相較于前者召回率低4%;藍(lán)藻的識別精確率和召回率兩個實(shí)驗(yàn)方案相差不大,分別在96%和98%左右;其他植被識別中SVM 和SLIC-SVM 兩者的精確率相差不大,均在99%左右,但方案二SLIC-SVM低于前者約8%。對比不同識別方案,SVM的識別結(jié)果優(yōu)于SLIC-SVM,水體和云有明顯的識別特征可實(shí)現(xiàn)高精度分類,藍(lán)藻、其他植被分布情況較為復(fù)雜分類結(jié)果相對較差,但識別精確率和召回率也能保持在90%以上,其中SVM 和SLIC-SVM 其他植被識別精度差異最大。
表2 SVM、SLIC-SVM在不同類別分類精確率和召回率的對比/%
2021-08-26遙感圖像數(shù)據(jù)藍(lán)藻爆發(fā)范圍較大,利用基于像素方法和面向?qū)ο蠓椒▽λ{(lán)藻進(jìn)行提取,兩種方法Kappa系數(shù)分別為:80.44%、82.84%,SLIC-SVM算法精度高于SVM 算法。精確率藍(lán)藻最高在93%以上,水體次之,其他植被最低在79%以上,召回率水體最高在97%以上、其他植被次之、藍(lán)藻最低在72%以上。
圖3b 為利用利用指數(shù)-閾值方法,并結(jié)合人工標(biāo)注的藍(lán)藻提取成果,圖3c、d 分別展示了SVM 和SLIC-SVM的分類結(jié)果,可以從第一行看出3種方法提取的藍(lán)藻信息整體分布情況一致。在第二行細(xì)節(jié)展示中,人工標(biāo)注成果存在一定的主觀性,如左下角藍(lán)藻濃度聚集程度較低,但標(biāo)注有藍(lán)藻存在如圖3b左下角藍(lán)藻標(biāo)識區(qū)域,而其他濃度聚集程度低區(qū)域未標(biāo)注如圖3b左側(cè)區(qū)域;SVM算法在藍(lán)藻聚集程度較高的區(qū)域?qū)⑺{(lán)藻誤識別為其他植被。利用SLIC-SVM方法分類時,由于前期進(jìn)行了超像元分割,抵消了部分由于藍(lán)藻聚集程度過高而導(dǎo)致反射率高,造成將藍(lán)藻、水體及其他植被誤識別的問題,從而提高了藍(lán)藻識別精度。
圖3 2021年8月26日識別結(jié)果對比
圖4展示了2020年8月1日的SVM 和SLIC-SVM的分類成果,第一行展示了陽澄湖整體分類結(jié)果,可以發(fā)現(xiàn)圖4bSVM 和圖4cSLIC-SVM 的識別藍(lán)藻區(qū)域分布基本一致,第二行對比了差異明顯的陽澄湖中湖區(qū)域,觀察到藍(lán)藻零星出現(xiàn)的區(qū)域,由于SILV-SVM 進(jìn)行了超像素分割,將零星分布的藍(lán)藻合并為超像元,藍(lán)藻和其他植被片狀呈現(xiàn),有較好的目視效果,但精度稍差,尤其對于零星分布較多的藍(lán)藻,被超像元分割為藍(lán)藻或水體,抹除細(xì)小地物的紋理信息;SVM 是基于逐像元進(jìn)行分類識別,因此最大程度上保留了原始數(shù)據(jù)包含的光譜分類信息,能夠保持較高的識別精度,但是識別成果易受原始數(shù)據(jù)噪點(diǎn)影響出現(xiàn)碎斑。
圖4 2020年8月1日識別成果對比
通過1.2 節(jié)分析可知,基于支持向量機(jī)構(gòu)建面向?qū)ο蟮乃{(lán)藻提取方法在藍(lán)藻大范圍聚集爆發(fā)情況下,具有較好的應(yīng)用效果。選取2020—2021 年有藍(lán)藻爆發(fā)且無云的Sentinel-2 圖像數(shù)據(jù),進(jìn)行藍(lán)藻信息提取,共計提取8 期藍(lán)藻空間分布成果圖如圖5 所示。在陽澄湖湖體范圍內(nèi),藍(lán)藻爆發(fā)區(qū)域主要集中于陽澄西湖北部,陽澄西湖南部、陽澄中湖北部有藍(lán)藻零星分布,陽澄東湖基本無藍(lán)藻。因此在陽澄湖水環(huán)境藍(lán)藻治理過程中,應(yīng)當(dāng)以陽澄西湖藍(lán)藻治理打撈為主。
圖5 2020-2021年藍(lán)藻空間分布情況
本文以江蘇省蘇州市陽澄湖為研究區(qū)域,利用Sentinel-2 遙感圖像數(shù)據(jù)對藍(lán)藻信息進(jìn)行提取。依托支持向量機(jī)分類算法,結(jié)合SLIC超像元分割方法對遙感數(shù)據(jù)進(jìn)行分割實(shí)現(xiàn)面向?qū)ο蟮姆诸惙椒?。對比傳統(tǒng)像素和面向?qū)ο蟮? 種分類思想在水環(huán)境監(jiān)測中的優(yōu)缺點(diǎn),得到以下結(jié)論:
1)傳統(tǒng)像素的分類思想,其優(yōu)點(diǎn)是:在地物破碎程度高,紋理邊界不清晰的情況下精度較高,如2020 年8 月1 日的分類結(jié)果,藍(lán)藻零星分散于水體、其他植被中;其缺點(diǎn)表現(xiàn),雖然像素級的分類方法能夠反映各個像元的特征,以2021年數(shù)據(jù)為例,得到的結(jié)果細(xì)碎化程度高,椒鹽程度明顯,且易受原始數(shù)據(jù)噪聲的影響。
2)面向?qū)ο蟮姆诸愃枷耄鋬?yōu)點(diǎn)是,能夠消除類別之間特征接近和原始數(shù)據(jù)噪聲的問題,解決像素級分類結(jié)果的碎斑問題,且藍(lán)藻識別結(jié)果邊界清晰;其缺點(diǎn)也較為明顯,在水環(huán)境中,植被空間紋理不明顯,例如2020年的分類結(jié)果,利用分割算法難以真正的劃分有效邊界。
3)相較于傳統(tǒng)的指數(shù)-閾值分類方法,使用機(jī)器學(xué)習(xí)方法進(jìn)行藍(lán)藻信息提取,避免了人為調(diào)節(jié)閾值的主觀判斷,利用機(jī)器學(xué)習(xí)方法提取藍(lán)藻信息,其結(jié)果具備較強(qiáng)的客觀性。
4)陽澄湖藍(lán)藻空間分布情況,本文獲取了2020—2021 年的Sentinel-2 數(shù)據(jù),并進(jìn)行藍(lán)藻信息提取,發(fā)現(xiàn)陽澄湖藍(lán)藻爆發(fā)區(qū)域主要集中于陽澄西湖北部,且藍(lán)藻爆發(fā)較為頻繁。
綜上所述,近年來較為流行的面向?qū)ο蠓诸惙椒ǎR別結(jié)果邊界清晰,但用于地物離散度較高的區(qū)域,精細(xì)地物易被鄰近大塊地物概化,但同時能抵消部分“椒鹽噪聲”的影響。在藍(lán)藻信息提取過程中,面向?qū)ο蟮姆诸惙椒ㄈ菀缀雎孕〔糠志奂乃{(lán)藻,但對于零星的圖像噪聲有較好的抑制性。