馬騰耀,肖鵬峰**,張學(xué)良,段洪濤,邱銀國
(1:南京大學(xué)地理與海洋科學(xué)學(xué)院,自然資源部國土衛(wèi)星遙感應(yīng)用重點實驗室,江蘇省地理信息技術(shù)重點實驗室,南京 210023) (2:中國科學(xué)院南京地理與湖泊研究所,中國科學(xué)院流域地理學(xué)重點實驗室,南京 210008)
湖泊和水庫作為中國大部分地區(qū)的主要飲用水源,許多處于富營養(yǎng)化狀態(tài),存在藍藻水華暴發(fā)風(fēng)險[1-2]. 據(jù)《2020年中國生態(tài)環(huán)境狀況公報》顯示,110個重點監(jiān)測湖泊中,6個呈重度或中度富營養(yǎng)化、26個呈輕度富營養(yǎng)化[3]. 一方面,藍藻暴發(fā)會導(dǎo)致水體含氧量減少,不僅使水生植物窒息,還使魚類等其他生物的多樣性大大降低[4]. 另一方面,當水體中包含藻類毒素時,將威脅當?shù)鼐用竦娘嬎踩?;此外在藍藻消亡時會散發(fā)惡臭,對生態(tài)環(huán)境造成了惡劣影響[5-6]. 鑒于藍藻對人類的生產(chǎn)生活影響巨大,如果能對藍藻的時空變化進行動態(tài)監(jiān)測,實現(xiàn)在暴發(fā)前有所預(yù)防、暴發(fā)時及時打撈、暴發(fā)后精準評估,可有效減輕藍藻的危害.
目前常用的監(jiān)測方法有基于站點的藍藻監(jiān)測[7-8]、基于遙感的藍藻識別[9-10]和反演[9,11]. 基于站點的藍藻監(jiān)測,雖能準確獲取諸多水質(zhì)參數(shù),但耗時耗力,難以滿足大范圍藍藻變化監(jiān)測的需求[12]. 基于遙感的藍藻識別是利用數(shù)字圖像處理方法,從遙感圖像中提取藍藻范圍的過程. 藍藻識別方法有:近紅外波段閾值法[13];近紅外波段與紅波段的差值法或比值法[13-14];歸一化植被指數(shù)(NDVI)、增強型植被指數(shù)(EVI)及浮游藻類指數(shù)(FAI)等指數(shù)類方法[15-16];區(qū)域生長、大津算法等圖像分割方法[17];支持向量機、隨機森林等圖像分類方法[18]. 基于遙感的藍藻反演是利用遙感和實測數(shù)據(jù),通過構(gòu)建藍藻參數(shù)與遙感反射率的經(jīng)驗或半經(jīng)驗?zāi)P蚚19-20]或生物光學(xué)模型[21],從遙感圖像中獲取藍藻參數(shù). 其中,葉綠素a和藻藍素是最常用的藍藻反演參數(shù)[21-22].
藍藻的變化極為迅速,這對于高時間和高空間分辨率難以兼顧的衛(wèi)星傳感器來說,不能滿足藍藻的變化監(jiān)測需求[23]. 目前可通過水下探針傳感器或視頻監(jiān)控實現(xiàn)湖泊水環(huán)境的實時監(jiān)測[24]. 尤其是湖泊的視頻監(jiān)控網(wǎng)絡(luò)能夠提供實時的視頻圖像,可以較高頻率監(jiān)測藍藻的時空動態(tài)變化[25]. 研發(fā)的基于攝像機的水環(huán)境高光譜實時監(jiān)測與反演系統(tǒng),推動了藍藻變化監(jiān)測技術(shù)的不斷進步[26-27]. 本文以環(huán)湖視頻監(jiān)控網(wǎng)絡(luò)為數(shù)據(jù)源,發(fā)展一種基于視頻圖像的自動化藍藻識別和動態(tài)監(jiān)測方法. 研究成果將為湖泊藍藻監(jiān)測提供一種實時、連續(xù)、動態(tài)的技術(shù)方案,作為“天-空-地”協(xié)同觀測體系的地面監(jiān)測環(huán)節(jié),能夠及時掌握湖泊沿岸藍藻水華的空間分布和動態(tài)變化,實現(xiàn)對重點區(qū)域的藍藻監(jiān)測[28].
巢湖(31°25′~31°43′N,117°16′~117°50′E)位于安徽省中部,北接肥東縣,西鄰合肥市和肥西縣,東至巢湖市,南靠廬江縣(圖1). 巢湖平均水深2.89 m,水面面積約785.4 km2[29]. 巢湖水系發(fā)源于大別山區(qū)東麓和浮槎山區(qū)東南麓,共有大小河流35條從四周呈放射狀注入巢湖,其中來自西、北、南三面的河流量占比在90%以上,最后經(jīng)東部唯一出口河流——裕溪河并入長江干流[30].
圖1 研究區(qū)位置圖Fig.1 Location of the study area
巢湖流域?qū)儆诒眮啛釒駶櫦撅L(fēng)氣候. 冬季偏北風(fēng)來自高緯大陸,空氣干燥寒冷;夏季東南風(fēng)來自東南沿海,溫度高且濕度大. 多年平均氣溫為16℃,平均相對濕度為76%,平均年降水量為1178.3 mm. 流域降水主要集中在夏、秋季節(jié),其中6、7月的降水量占年降水量的30%~40%[31].
隨著工業(yè)化、城鎮(zhèn)化的發(fā)展,氮磷污染物排放量不斷增加,巢湖水體的富營養(yǎng)化嚴重. 每年由南淝河、十五里河和派河輸入巢湖的污染物占全湖60%以上,導(dǎo)致湖體營養(yǎng)鹽超標,存在藍藻暴發(fā)風(fēng)險[32]. 此外,夏季溫度高適宜浮游藻類生長,在東南沿海暖濕氣流的支配下,巢湖藍藻在空間分布上呈現(xiàn)由東南向西北逐漸增加的趨勢[30].
本文使用的視頻圖像源于環(huán)巢湖視頻監(jiān)控網(wǎng)絡(luò)的33個功能攝像機. 攝像機均勻分布于環(huán)巢湖沿岸,而且大部分位于河流入湖口等重要水域(圖1),具有較強的空間代表性. 攝像機可變焦距,通過調(diào)整P(Pan,水平)、T(Tilt,俯仰)、Z(Zoom,縮放)3個姿態(tài)參數(shù),能實現(xiàn)攝像機對周邊水域的巡視. 為便于藍藻監(jiān)測,設(shè)置每臺攝像機在白天每隔1小時自動調(diào)整至指定姿態(tài)參數(shù),使視角內(nèi)僅含藍藻和水體,避免無關(guān)要素的干擾. 單臺攝像機覆蓋面積約為800~1000 m2. 視頻圖像采集過程中充分考慮光照強度、天氣狀態(tài)、藍藻形態(tài)等影響因素,在各攝像機中收集藍藻暴發(fā)時的圖像,盡量使獲取的藍藻圖像更全面. 分別在上午(8:00—11:00)、中午(11:00—14:00)、下午(14:00—17:00)3個時段內(nèi)進行圖像采集,共獲得2020年8—10月圖像679張. 其中上午圖像260張,中午圖像113張,下午圖像306張. 藍藻暴發(fā)較頻繁的攝像點位獲取圖像較多,每處攝像機獲取圖像在10~50張;剩余攝像點位藍藻水華發(fā)生頻率低,每處攝像機獲取的圖像在10張以下. 由于采集圖像的軟件不能并行操作,同一攝像機每天獲取圖像的時間并不一致. 單幀圖像的大小為1920列×1080行,圖像由紅、綠、藍3波段組成.
巢湖管理局下設(shè)7個漁政站,自巢湖市城南的臥牛站開始,沿順時針方向分布有高林站、白山站、三河站、義城站、長臨站、中廟站,33個攝像機由各漁政站管理,每一漁政站覆蓋4~7處攝像機(圖2). 以漁政站作為統(tǒng)計單元,對其轄區(qū)水域的藍藻識別結(jié)果進行動態(tài)分析,可實現(xiàn)巢湖沿岸藍藻水華的動態(tài)監(jiān)測.
圖2 巢湖沿岸的部分監(jiān)控攝像機Fig.2 Some cameras in the shoreside of Lake Chaohu
不同攝像機的觀測角度不同、所處的光照強度和成像條件也不同,在復(fù)雜外部環(huán)境的影響下,視頻圖像表現(xiàn)出藍藻與陰影水體、渾濁水體難區(qū)分和藍藻的異質(zhì)性高等諸多問題. 由于這些復(fù)雜成像條件的存在,給視頻圖像的藍藻識別和監(jiān)測帶來了極大挑戰(zhàn). 為克服不同攝像頭的觀測角度不一致、光照強度和背景條件不一致等諸多挑戰(zhàn),本文將從藍藻與水體的混淆程度和藍藻異質(zhì)性兩方面進行表征分析,研究其對藍藻識別的影響. 藍藻與水體的混淆程度分析是在藍藻圖像、陰影水體圖像和渾濁水體圖像中挑選樣本(像元),觀測各類型樣本的直方圖分布特征. 藍藻異質(zhì)性分析是比較直接在圖像中挑選藍藻、水體樣本(像元)和將這些樣本及所在圖像按顏色分成不同類型后樣本的直方圖分布差異. 根據(jù)對這兩部分內(nèi)容的分析,確定了本文藍藻識別與監(jiān)測的基本思路.
首先,當風(fēng)力較強時,湖水會產(chǎn)生波浪,與波浪的垂直方向上亮度值呈現(xiàn)高、低依次排列,陰影水體(亮度值低的區(qū)域)表現(xiàn)出與藍藻相似的特征. 而且風(fēng)力對湖水的攪動使水體變渾濁,導(dǎo)致陰影水體、渾濁水體會對藍藻識別造成干擾(圖3).
圖3 風(fēng)力作用對圖像光譜特征的影響Fig.3 Effect of wind force on images spectral characteristics
為分析藍藻與陰影水體、渾濁水體的混淆程度,本文選取了陰影水體461個樣本(像元)、渾濁水體505個樣本(像元)、藍藻497個樣本(像元)進行對比. 分別比較了陰影水體樣本、渾濁水體樣本與藍藻樣本的分布特征(圖4),發(fā)現(xiàn)它們在分布上有較多的重疊,說明樣本的可分離性差,難以準確識別藍藻.
圖4 藍藻與陰影水體、渾濁水體樣本的亮度值分布(上:藍藻與陰影水體,下:藍藻與渾濁水體)Fig.4 Lightness distribution of cyanobacteria, shadow water, and turbid water samples
其次,視頻圖像中的藍藻具有強異質(zhì)性. 受藍藻自身特性和環(huán)境條件的綜合影響,藍藻在視頻圖像中呈現(xiàn)不同的顏色,主要包括墨綠色、青色、綠色、黃色和灰色5種顏色,分別記為BG型、C型、G型、Y型、GR型圖像(圖5).
圖5 相近時段內(nèi)5種不同類型的藍藻圖像Fig.5 Five types of cyanobacteria images on similar time
為分析強異質(zhì)性條件下藍藻和水體的亮度值差異,以人機交互方式從100張典型圖像中選取10463個樣本(像元)進行分析,其中藍藻樣本4509個,水體樣本5954個. 樣本的亮度值分布特征圖顯示:紅、藍波段中藍藻的亮度值稍低于水體的亮度值,綠波段藍藻和水體的亮度值較為接近(圖6).
圖6 藍藻和水體樣本的亮度值分布Fig.6 Lightness distribution of cyanobacteria and water samples
由圖6可以看出,如果直接選取樣本進行藍藻識別很難將圖像中的藍藻與水體進行區(qū)分. 為解決藍藻的異質(zhì)性問題,本文通過人工判別的方式對這100張圖像進行顏色劃分,并將選好的樣本歸入BG型、C型、G型、Y型和GR型5類,分析各類型圖像的亮度值分布特征(圖7).
圖7顯示不同類型圖像中藍藻和水體樣本的亮度值分布差異較大. 紅、藍波段的藍藻和水體樣本亮度值分布在不同類型圖像中均出現(xiàn)了明顯的“階梯式”分布. 同一類型圖像中藍藻樣本在不同波段的分布特征差異較大. 除GR型圖像外,其余各類型圖像均有2個波段的藍藻亮度值分布接近,且與另一波段有明顯區(qū)別. GR型圖像3個波段的藍藻亮度分布區(qū)間則比較接近. 總體上,利用顏色對圖像類型進行劃分后,可將藍藻、水體樣本的亮度分布限制在較小區(qū)間內(nèi),增大了藍藻與水體的區(qū)分度. 說明在設(shè)計藍藻識別算法時可先劃分圖像類型,然后分不同的類型進行識別,以此解決藍藻的異質(zhì)性問題.
圖7 5種類型圖像的藍藻和水體樣本的亮度值分布Fig.7 Lightness distribution of cyanobacteria and water samples from five kinds of images
本文使用的視頻圖像僅有紅、綠、藍3波段. 使用綠波段進行表征分析和后續(xù)藍藻識別,是在缺少近紅外波段時,可作為重要的替代波段,同時在輸入卷積神經(jīng)網(wǎng)絡(luò)時,綠波段具有較豐富的空間信息,有助于區(qū)分藍藻與陰影水體、渾濁水體.
視頻圖像的藍藻識別方法包括兩部分. 首先,基于多尺度深度網(wǎng)絡(luò)進行圖像粗粒度分類,估算圖像的藍藻覆蓋率以區(qū)分藍藻與陰影水體、渾濁水體. 其次,利用顏色對圖像類型進行劃分,再基于隨機森林分別對不同類型圖像進行藍藻精細化識別.
2.2.1 基于多尺度深度網(wǎng)絡(luò)的圖像粗粒度分類 本文借鑒VGG分類網(wǎng)絡(luò)的思路,形成多尺度深度網(wǎng)絡(luò)框架[33]. 首先,以分塊后的樣本圖像為基準,通過對該樣本的空間范圍進行規(guī)則化“生長”或“壓縮”,獲得不同視域范圍的多張圖像. 然后將這些圖像重采樣至與基準圖像相同的尺度,合并成為多尺度特征. 最后將多尺度樣本輸入卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練. 多尺度體現(xiàn)在輸入網(wǎng)絡(luò)的訓(xùn)練樣本是多個尺度特征的綜合疊加(圖8).
圖8 基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類示意Fig.8 Schematic diagram of image classification based on multiscale convolutional neural network classification
以人工篩選的方式從679張圖像中選取67張各類典型藍藻圖像制作深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本. 其中,上午(8:00—11:00)圖像31張、中午(11:00—14:00)圖像7張、下午(14:00—17:00)圖像29張. 以40行×40列作為分塊基準,單張圖像可分成1296個樣本(圖像塊,下同). 然后對樣本進行標記. 因分塊較大會遺漏小區(qū)域的藍藻,圖像藍藻覆蓋率被低估,從而直接被判定為水體圖像,本文在樣本標記時刻意偏向于藍藻. 若藍藻所占面積大于1/4,該樣本為藍藻,標記為1;否則為水體,標記為0. 剔除掉不適合作為訓(xùn)練數(shù)據(jù)的圖像塊后,最終形成65762個樣本,并按6∶ 4的比例隨機分成訓(xùn)練集(39363個樣本)和測試集(26399個樣本).
表1 各類型圖像的訓(xùn)練樣本
網(wǎng)絡(luò)訓(xùn)練在PyTorch環(huán)境中進行. 將訓(xùn)練集樣本分批次投入網(wǎng)絡(luò),每次投入500個樣本,79次可完成一個循環(huán). 學(xué)習(xí)率參數(shù)設(shè)置為0.001,并隨迭代次數(shù)的增加而減??;沖量參數(shù)采用經(jīng)驗值0.9. 共設(shè)置了3000次循環(huán)過程,根據(jù)交叉熵損失函數(shù)計算損失值.
基于訓(xùn)練好的模型,對所有圖像進行推測. 根據(jù)推測結(jié)果統(tǒng)計每張圖像的藍藻圖像塊占比,估算每張圖像的藍藻覆蓋率. 再基于藍藻覆蓋率的數(shù)值,將圖像劃分成3種類型. 第一類是藍藻覆蓋率小于5%的圖像,圖像內(nèi)以水體為主,包含渾濁水體、陰影水體等情形;第二類是藍藻覆蓋率大于等于5%且小于90%的圖像,圖像中藍藻和水體共存;第三類是藍藻覆蓋率大于等于90%的圖像,圖像中以藍藻為主.
2.2.2 基于隨機森林的藍藻精細化識別 本文將低藍藻覆蓋率圖像作為水體圖像,針對高、中藍藻覆蓋率圖像分別劃分圖像類型,將圖像分為BG、C、G、Y和GR 5種類型. 首先,計算待分類圖像3個波段的亮度均值,并進行兩兩差分. 然后,求取3個差分值的最小值和最大值,據(jù)此劃分圖像類型. GR型圖像的3個差分值均比較小,可設(shè)定最大閾值threshold1首先進行區(qū)分. 其余類型圖像由3波段中差分最小值波段的剩余波段決定. BG型圖像和G型圖像均由綠波段決定,通過設(shè)定綠波段閾值threshold2區(qū)分兩者. 完成圖像類型劃分后,因此將中、高藍藻覆蓋率圖像按類型歸并,最后共形成5類圖像.
隨機森林是一種集成學(xué)習(xí)方法,其作用機制是從所有特征中隨機抽取適量特征構(gòu)建指定數(shù)量的決策樹,多棵決策樹投票決定最終的分類結(jié)果[34]. 由于其較高的分類精度和較快的處理速度已得到廣泛應(yīng)用[35]. 本文使用機器學(xué)習(xí)包Scikit-learn中的Random Forest Classifier函數(shù)構(gòu)建隨機森林[36],需要設(shè)置決策樹個數(shù)和訓(xùn)練每棵決策樹的特征個數(shù)2個重要參數(shù). 將每棵決策樹的特征個數(shù)設(shè)定為2和3,將決策樹個數(shù)的上限設(shè)定為150棵.
本文使用116張圖像來選取隨機森林的訓(xùn)練樣本,其中BG型和C型圖像各17張、G型圖像34張、Y型和GR型圖像各24張. 以人機交互方式選取各類型的訓(xùn)練樣本(表1). 針對上述5種類型圖像,分別使用各自樣本訓(xùn)練隨機森林模型,統(tǒng)計隨決策樹個數(shù)增加時平均袋外數(shù)據(jù)的變化.
由于單個攝像頭的觀測范圍有限,本文以漁政站為單位對巢湖水域視頻圖像進行統(tǒng)計分析,實現(xiàn)巢湖沿岸水域的藍藻動態(tài)監(jiān)測. 首先,獲取各攝像頭視角內(nèi)的日均藍藻覆蓋率. 對各漁政站轄區(qū)所有攝像頭的日均藍藻覆蓋率進行統(tǒng)計,獲取漁政站轄區(qū)水域日均藍藻覆蓋率. 由此判定當日漁政站沿岸水域是否暴發(fā)藍藻水華以及暴發(fā)的程度. 其次,將日均藍藻覆蓋率作為衡量指標,設(shè)定閾值判定當日是否發(fā)生藍藻水華. 考慮到藍藻覆蓋率估算時的誤差,本文將發(fā)生藍藻水華的閾值設(shè)定為5%. 若日均藍藻覆蓋率大于5%時,則認為發(fā)生藍藻水華. 統(tǒng)計每月藍藻覆蓋率大于5%的天數(shù),再除以當月有效觀測天數(shù),即可獲得月均藍藻暴發(fā)頻率,以此分析藍藻暴發(fā)比較嚴重的月份.
本文采用F1測度進行精度評價,包括準確率(Precision)、召回率(Recall)、F1分數(shù)(F1-score)和總體精度(OA)4個指標[37]. 準確率指識別結(jié)果中藍藻被正確識別的比例,記為P. 召回率指所有藍藻樣本中藍藻被正確識別的比例,記為R. F1分數(shù)是準確率和召回率的協(xié)調(diào)平均值,記為F1. 總體精度指所有驗證樣本(藍藻、水體)被正確識別的比例,記為OA,各指標的計算公式如下:
P=TP/(TP+FP)
(1)
R=TP/(TP+FN)
(2)
F1=2P×R/(P+R)
(3)
OA=(TP+TN)/(TP+TN+FP+FN)
(4)
式中,TP指藍藻被正確識別的樣本數(shù),TN指水體被正確識別的樣本數(shù),F(xiàn)P指水體被識別為藍藻的樣本數(shù),F(xiàn)N指藍藻被識別為水體的樣本數(shù).
本文采用圖像粗粒度分類和精細化識別相結(jié)合的方法進行藍藻識別. 首先,基于多尺度深度神經(jīng)網(wǎng)絡(luò)進行藍藻粗粒度分類. 神經(jīng)網(wǎng)絡(luò)開始訓(xùn)練時損失值為0.673,迭代1300次后接近于0. 將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對所有圖像進行藍藻覆蓋率估算,并將圖像分成高、中、低藍藻覆蓋率3種類型. 然后,利用顏色對高、中藍藻覆蓋率圖像進行類型劃分,再基于隨機森林分別對不同類型圖像進行藍藻精細化識別. 經(jīng)多次測試,高、中藍藻覆蓋率圖像的threshold1設(shè)定為10最優(yōu),高藍藻覆蓋率圖像的threshold2設(shè)定為135,中等藍藻覆蓋率圖像的threshold2設(shè)置為133.5時最優(yōu). 隨機森林使用50棵決策樹、每棵決策樹中隨機抽選特征個數(shù)為2時,分類效果最優(yōu). 基于本文提出的藍藻識別模型,對2020年8-10月環(huán)巢湖視頻監(jiān)控網(wǎng)絡(luò)的679張圖像進行藍藻識別.
為驗證本文模型的優(yōu)勢,利用未參與訓(xùn)練的295張圖像對藍藻識別結(jié)果進行精度評價. 同時,還加入了對照組實驗. 將所有訓(xùn)練樣本合并后訓(xùn)練單個隨機森林分類器,記為模型A;對訓(xùn)練樣本所在圖像僅進行圖像粗粒度分類,分為高、中、低藍藻覆蓋率3種圖像,分別訓(xùn)練各自的隨機森林分類器,記為模型B. 基于相同的驗證樣本和基分類器,比較模型A、模型B和本文模型的藍藻識別結(jié)果的精度.
以規(guī)則抽樣的方式選取驗證樣本. 在每張圖像中選取9個像元及其8鄰域的像元作為驗證樣本. 每張圖像共選取81個樣本(像元),所有圖像共計23895個樣本(像元). 驗證樣本的標注以人機交互方式進行. 驗證樣本共包括藍藻樣本10814個(像元)、水體樣本13081個(像元).
圖9為5張不同類型圖像的藍藻識別結(jié)果. 在BG型圖像中,對于左半部分亮度值較暗區(qū)域,模型A、B的結(jié)果中有許多藍藻未被檢測出來,本文模型識別的藍藻范圍更加完整. 在C型圖像中,水體呈青灰色,與青色的藍藻容易混淆,模型A、B的結(jié)果出現(xiàn)大量的誤判現(xiàn)象,而本文模型受影響較小. 在G型圖像中,本文模型識別的藍藻范圍與實際的藍藻水華更接近. 在Y型圖像中,由于光照強度不均,在圖像右上區(qū)域模型A、B的誤判區(qū)域較多,本文模型可減輕光照不均的影響. 在GR型圖像中,藍藻與水體亮度值分布接近,本文模型可獲得更完整的藍藻范圍.
圖9 3種模型在不同顏色圖像上的藍藻識別結(jié)果Fig.9 Cyanobacteria recognition results of three models on different types of images
在不同覆蓋率圖像的藍藻識別中,本文模型均取得較好效果(圖10). 低藍藻覆蓋率圖像包含了大量的陰影區(qū)域,模型A的識別結(jié)果中該區(qū)域被誤判為藍藻,而模型B和本文模型則沒有. 中藍藻覆蓋率圖像中,3種模型均可將藍藻大致范圍識別出來,但本文模型的識別結(jié)果中藍藻范圍更加完整,藍藻內(nèi)部的“空洞”較少. 相比模型A、B,在高藍藻覆蓋率圖像中本文模型識別的藍藻范圍與真實情況更接近,尤其是在該圖像的左下角和右部,誤判現(xiàn)象更少.
圖10 3種模型在不同藍藻覆蓋率圖像上的藍藻識別結(jié)果Fig.10 Cyanobacteria recognition results of three models on different cyanobacteria coverage images
表2為精度評價結(jié)果. 本文模型中藍藻樣本被正確識別的個數(shù)(TP)為7653個,在3種模型中精度最高. 模型B和本文模型中水體樣本被識別為藍藻(FP)的個數(shù)分別比模型A少121和65個,這說明基于藍藻覆蓋率估算的圖像粗粒度分類方法發(fā)揮了作用,使陰影水體、渾濁水體與藍藻的混淆減少. 此外本文模型中藍藻樣本被識別為水體(FN)的個數(shù)是三者中最少的,說明在藍藻識別中利用顏色區(qū)分圖像的類型,降低藍藻異質(zhì)性的策略是有效的.
表2 3種模型的藍藻識別結(jié)果精度比較
在4個評價指標中,本文模型有3個指標(召回率、F1分數(shù)、總體精度)是3種模型中最高的. 從模型A到模型B,再到本文模型,F(xiàn)1分數(shù)和總體精度的值呈逐漸增加的趨勢,說明通過劃分圖像類型,能夠減少藍藻與陰影水體、渾濁水體的混淆,降低圖像中藍藻異質(zhì)性,提高藍藻識別的精度;也說明先圖像粗粒度分類、后藍藻精細化識別的方法優(yōu)勢顯著.
各漁政站沿岸水域的日均藍藻覆蓋率變化趨勢顯示, 7個漁政站沿岸水域均發(fā)生不同程度的藍藻水華(圖11). 在8月17日和9月20日前后,臥牛站有兩次較大的藍藻水華事件,日均藍藻覆蓋率峰值超過70%. 高林站沿岸水域的藍藻覆蓋率始終處于較低水平,僅在9月5日左右發(fā)生一次小規(guī)模的藍藻水華,當日藍藻覆蓋率為40%. 白山站在9月7日至10月13日期間有持續(xù)性的藍藻水華事件,但日均藍藻覆蓋率總體偏低,未引發(fā)大面積的藍藻水華. 三河站沿岸水域9月份內(nèi)藍藻水華比較嚴重,包括3次持續(xù)時間長、覆蓋范圍廣的藍藻事件;此外在8月和10月也有少量的藍藻出現(xiàn). 義城站的藍藻暴發(fā)程度也較為嚴重,在8-10月暴發(fā)了4次大規(guī)模的藍藻水華. 在8月30日和9月26日開始的2次藍藻水華持續(xù)時間較長,日均藍藻覆蓋率達80%以上. 長臨站沿岸水域每次藍藻暴發(fā)的持續(xù)時間短,但暴發(fā)強度高. 中廟站沿岸水域的藍藻水華處于中等水平,8-10月的大部分時間暴發(fā)了藍藻水華,但日均藍藻覆蓋率較低. 從月份的角度來看,藍藻水華主要發(fā)生在8-9月份,日均藍藻覆蓋率大多處于較高水平. 10月份日均藍藻覆蓋率持續(xù)走低,直至藍藻消退.
據(jù)此可知,藍藻暴發(fā)比較嚴重的水域在西巢湖沿岸的三河站、義城站和長臨站. 位于東巢湖西岸的中廟站沿岸水域,雖然藍藻暴發(fā)程度不高,但持續(xù)時間比較長,也造成了較大影響. 位于東巢湖的臥牛站、高林站和白山站的藍藻暴發(fā)程度較弱,偶有藍藻發(fā)生. 研究表明,巢湖藍藻暴發(fā)區(qū)域主要集中在西巢湖沿岸和東巢湖的西岸,這與遙感圖像藍藻識別獲得的巢湖沿岸藍藻空間分布范圍基本一致[1,30].
在藍藻暴發(fā)頻率方面,三河站、義城站、長臨站和中廟站沿岸水域8-10月均處于較高水平;高林站和白山站沿岸水域在各月份均比較低(表3). 西巢湖沿岸水域的藍藻暴發(fā)頻率比東巢湖整體偏高. 總體來看,各漁政站沿岸水域的藍藻暴發(fā)頻率最高的月份是9月,其中三河站、義城站和中廟站沿岸水域的暴發(fā)頻率達80%以上. 8-10月各漁政站沿岸水域的藍藻暴發(fā)頻率呈現(xiàn)先增加后降低的趨勢. 8月份中廟站沿岸水域的藍藻暴發(fā)頻率為100%,比真實藍藻暴發(fā)頻率高. 這是因為該漁政站8月份的統(tǒng)計天數(shù)不完整導(dǎo)致的. 在將來的藍藻動態(tài)監(jiān)測中,將進行更全面地統(tǒng)計,獲得更準確的藍藻暴發(fā)頻率.
表3 各漁政站觀測的月均藍藻暴發(fā)頻率
圖11 各漁政站觀測的日均藍藻覆蓋率變化趨勢Fig.11 Change trends of the daily average cyanobacteria coverage of each station observation
在多種外部環(huán)境因素的作用下,藍藻表征具有多樣性,這使得藍藻識別的精度具有不確定性. 因此有必要分析在不同外部環(huán)境條件下藍藻識別的精度. 本文基于295張驗證圖像(23895個樣本像元),分別從不同觀測時間、不同觀測角度和不同天氣狀況對藍藻識別的精度進行分析(圖12). 其中,按觀測時間分為8:00—11:00、11:00—14:00、14:00—17:00 3類圖像;按觀測角度分為朝東、朝南、朝西、朝北4類圖像;按天氣狀況分為晴、大風(fēng)和薄霧3類圖像.
圖12a顯示各時段圖像的藍藻識別精度比較接近. 準確率P在0.87~0.91之間;召回率R在0.69~0.71之間;F1分數(shù)和總體精度OA均在0.8以上,8:00—11:00的總體精度為0.9. 以上數(shù)據(jù)說明,本文藍藻識別模型在各時段內(nèi)的藍藻識別結(jié)果均比較穩(wěn)定,而8:00—11:00總體精度達到最高水平,識別效果最佳,模型更為適用. 總體上,本文藍藻識別模型不受觀測時間變化的影響.
圖12b顯示4種觀測角度下藍藻的識別精度表現(xiàn)出明顯的差異. 其中,觀測角度朝西和朝南圖像的藍藻識別精度最高,F(xiàn)1約為0.84,OA約為0.9;觀測角度朝東的圖像的精度次之,F(xiàn)1和OA均約為0.8;觀測角度朝北的圖像準確率P最高,為0.92,但召回率R僅有0.6,低于平均水平. 觀察圖像發(fā)現(xiàn),朝北觀測的攝像機位于稀疏林地居多,導(dǎo)致拍攝圖像中包含樹木陰影,部分藍藻未被有效識別;同時,朝北觀測的攝像機數(shù)量有限(5處),整體精度較低,具體原因有待進一步研究. 在模型的后續(xù)改進中,可綜合考慮觀測角度的差異,提高藍藻識別的精度.
圖12 不同環(huán)境條件下的藍藻識別精度Fig.12 Accuracy of cyanobacterial blooms recognition under different environmental conditions
圖12c顯示不同天氣狀況下的藍藻識別結(jié)果存在較大差異. 晴空條件下F1和OA均在0.87以上,藍藻識別結(jié)果比較理想;但在惡劣天氣下,仍有較大局限. 大風(fēng)情況下F1僅為0.6,OA為0.8.OA高是因為大風(fēng)情況下,藍藻發(fā)生頻率低,而水體識別準確高,導(dǎo)致總體精度較高. 薄霧情況下P值較高,為0.91,其他精度指標均比較低,這是因為薄霧條件下藍藻特征不明顯的區(qū)域未能有效識別. 總體上,對藍藻識別模型影響最大的外部環(huán)境條件是天氣因素,處于大風(fēng)、薄霧天氣下藍藻識別精度比晴空條件下約低20%. 如何在惡劣天氣中有效提高藍藻識別精度將是后續(xù)研究的重點.
視頻監(jiān)控網(wǎng)絡(luò)作為巢湖“天-空-地”協(xié)同觀測平臺的地面監(jiān)測環(huán)節(jié),能夠及時掌握湖泊沿岸藍藻水華的空間分布和動態(tài)變化,實現(xiàn)對重點區(qū)域的藍藻監(jiān)測,在巢湖藍藻治理實踐中可發(fā)揮重要作用[28]. 本文以環(huán)巢湖視頻監(jiān)控網(wǎng)絡(luò)為支撐,發(fā)展了一種基于視頻圖像的自動化藍藻識別和動態(tài)監(jiān)測方法. 研究成果已在巢湖開展應(yīng)用,研發(fā)的視頻圖像藍藻監(jiān)測系統(tǒng)部署于巢湖藍藻水華監(jiān)測預(yù)警與模擬分析平臺,在巢湖管理局進行業(yè)務(wù)化運行,并具有較大的推廣潛力.
多點位視頻監(jiān)控的有機組合能夠有效描述巢湖藍藻水華特征. 因為單個攝像機拍攝的視頻圖像范圍較小,不能代表巢湖沿岸藍藻水華的整體水平,所以本文以漁政站為單位開展藍藻水華的實時監(jiān)測. 每一漁政站內(nèi)包含4~6個攝像機,統(tǒng)計各攝像機的平均藍藻覆蓋水平,可使監(jiān)測結(jié)果代表巢湖沿岸水域的藍藻水華程度,在攝像機數(shù)量有限時,是一種好的解決途徑. 在成本允許的情況下,可提高視頻監(jiān)控網(wǎng)絡(luò)的分布密度,使監(jiān)測結(jié)果更能代表巢湖的藍藻水平;同時攝像機中可配置近紅外波段,以提高藍藻識別的能力,更好地為藍藻識別與動態(tài)監(jiān)測服務(wù).
總體而言,本文提出模型取得了較好的藍藻識別效果. 在此基礎(chǔ)上,可以進一步確定巢湖藍藻暴發(fā)相對頻繁的區(qū)域和時間,掌握藍藻暴發(fā)的規(guī)律. 巢湖“天-空-地”協(xié)同觀測平臺為湖泊治理提供了一種有效解決方案,可為管理層決策提供依據(jù),使藍藻治理更具有針對性. 因此,應(yīng)重視視頻監(jiān)控在藍藻治理中的作用,并基于“天-空-地”協(xié)同觀測平臺建立長效的藍藻監(jiān)測機制,為湖泊環(huán)境管理服務(wù).
為克服不同攝像頭的觀測角度不一致、光照強度和背景條件不一致等諸多挑戰(zhàn),針對復(fù)雜成像環(huán)境引起的視頻圖像藍藻與渾濁水體和陰影水體難區(qū)分、藍藻異質(zhì)性強等諸多難題,本文提出了一種視頻圖像藍藻識別方法,通過模型集成有效提高了識別的精度,具有一定的方法創(chuàng)新,可為湖泊藍藻的動態(tài)監(jiān)測提供助力,為制定藍藻打撈與治理方案提供科學(xué)支撐. 本文提出的藍藻識別模型中,多尺度深度神經(jīng)網(wǎng)絡(luò)可以準確估算圖像的藍藻覆蓋率,實現(xiàn)藍藻與渾濁水體、陰影水體的區(qū)分,解決不同背景條件對藍藻識別的影響;基于隨機森林的藍藻精細化識別可以在一定程度上克服藍藻的異質(zhì)性;采用先圖像粗粒度分類、后藍藻精細化識別的方法能有效提高藍藻識別的精度.
對2020年8-10月巢湖沿岸水域藍藻動態(tài)監(jiān)測的結(jié)果表明,西巢湖沿岸的藍藻暴發(fā)程度普遍比東巢湖嚴重,在8-10月西巢湖沿岸水域藍藻常處于較高水平. 在藍藻暴發(fā)頻率方面,西巢湖沿岸的月均藍藻暴發(fā)頻率比東巢湖高,9月份藍藻暴發(fā)最為頻繁. 整體來看,8-10月巢湖沿岸水域的日均藍藻覆蓋率和月均藍藻暴發(fā)頻率均呈現(xiàn)先升高后降低的趨勢.