陳年浩,陸 昊,饒文昕,劉 彤,錢 新
(南京大學(xué)環(huán)境學(xué)院污染控制與資源化研究國家重點實驗室,南京 210023)
跨流域調(diào)水作為控制湖泊富營養(yǎng)化問題的有力措施,在水質(zhì)改善和富營養(yǎng)化控制過程中發(fā)揮積極作用[1-2]的同時,會挾帶引水區(qū)及流經(jīng)通道的營養(yǎng)鹽和污染物等直接進(jìn)入受水湖泊[3],進(jìn)而對流域水生態(tài)環(huán)境產(chǎn)生復(fù)雜影響。望虞河引江濟(jì)太工程是太湖流域綜合治理骨干工程之一,通過引長江水入太湖優(yōu)化流域水資源配置。當(dāng)前關(guān)于引江濟(jì)太工程對受水區(qū)貢湖及太湖全湖的水質(zhì)影響有較多研究[4~6],調(diào)水是否造成太湖總磷濃度反彈尚有爭議[7],但調(diào)水過程中引入了一定量的磷進(jìn)入太湖已被證實。磷是導(dǎo)致水體富營養(yǎng)化的重要元素之一[8],相比于顆粒態(tài)磷,溶解態(tài)磷更易被生物利用[9],耿雪等[10]指出應(yīng)以溶解態(tài)總磷和溶解態(tài)無機(jī)磷來考量太湖表層水體磷的生物有效性?,F(xiàn)有研究多關(guān)注總磷,鮮有關(guān)注不同形態(tài)的磷的遷移,當(dāng)前太湖藍(lán)藻暴發(fā)的風(fēng)險依然較高,在未來規(guī)劃引水水量增加的情況下,摸清引江濟(jì)太不同形態(tài)的入湖磷通量具有重要現(xiàn)實意義。
一直以來,自動站駐測和人工巡測均只監(jiān)測總磷而不區(qū)分磷形態(tài),導(dǎo)致不同形態(tài)的磷通量無從計算。如何利用現(xiàn)有監(jiān)測項目的歷史數(shù)據(jù)反演不同形態(tài)的磷成為關(guān)鍵,傳統(tǒng)的統(tǒng)計模型難以充分解釋磷形態(tài)與總磷及其他環(huán)境因子的復(fù)雜非線性關(guān)系,隨著大數(shù)據(jù)科學(xué)和人工智能的迅猛發(fā)展,機(jī)器學(xué)習(xí)的理論和方法在環(huán)境科學(xué)領(lǐng)域已得到廣泛應(yīng)用,其中隨機(jī)森林(Random forest,RF)簡單易實現(xiàn)、計算開銷小,在很多現(xiàn)實任務(wù)中展現(xiàn)出強(qiáng)大的性能[11],尤其適用于小樣本、高維數(shù)據(jù)集。在水環(huán)境領(lǐng)域中,隨機(jī)森林已成功應(yīng)用于湖庫的葉綠素a模擬與預(yù)測[12]及地下水硝酸鹽污染的預(yù)測[13]、流域懸浮泥沙的評估[14]等。
本研究以引江濟(jì)太工程的望虞河-太湖為研究對象,利用現(xiàn)有監(jiān)測項目,包括水質(zhì)自動監(jiān)測站的常規(guī)監(jiān)測項目和氣象站的觀測項目的歷史數(shù)據(jù),通過隨機(jī)森林模型建立一種溶解態(tài)磷反演方法,并根據(jù)模型結(jié)果反演多年來望虞河引江濟(jì)太的入湖溶解態(tài)磷和顆粒態(tài)磷通量,以期填補(bǔ)歷史監(jiān)測數(shù)據(jù)空缺,為制定兼顧太湖水質(zhì)控制和生態(tài)改善的引江濟(jì)太優(yōu)化方案提供參考和支撐。
望虞河位于江蘇省無錫市和蘇州市境內(nèi)(31°27′N ~ 31°47′N,120°25′E ~ 120°51′E),南起貢湖灣沙墩口,在耿涇口入長江,總長60.8 km,是連接太湖和長江距離最短的流域性河道,引江濟(jì)太工程在望虞河入江和入湖處分別通過常熟樞紐和望亭樞紐工程進(jìn)行水利調(diào)度。望虞河流域?qū)俚湫推皆泳W(wǎng)區(qū),兩岸支流口門眾多,東岸支流已全部閘控,西岸仍有口門開敞。西岸地區(qū)人口密集、經(jīng)濟(jì)發(fā)達(dá),污染負(fù)荷排放壓力較大,對引水水質(zhì)有不利影響[15]。
在望虞河-太湖布設(shè)17個采樣點(圖1),其中WY1和WY9分別與常熟樞紐和望亭立交樞紐重合,并位于樞紐閘內(nèi),引水入湖時WY9可代表望虞河入湖水質(zhì),TH2位于錫東水源地。分別于2021年引水期、排水期和關(guān)閘期的不同工況下開展現(xiàn)場環(huán)境監(jiān)測,其中引水期2次,排水期1次,關(guān)閘期3次,共計6次。
圖1 研究區(qū)域及采樣點分布示意Fig.1 Study area and sampling sites
為保證模型在模擬與反演溶解態(tài)磷濃度時具有相同的輸入變量,每個采樣點通過JFEAAQ-177多參數(shù)水質(zhì)儀原位監(jiān)測pH、水溫(WT)、溶解氧(DO)、電導(dǎo)率(EC)、濁度(FTU),通過1.5 L采水器采集水面下0.3 ~ 0.5 m水樣裝于潤洗過的500 mL PET瓶中,水樣4℃冷藏保存,運回實驗室。采用高錳酸鉀氧化分光光度法測定高錳酸鹽指數(shù)(CODMn),納氏試劑分光光度法測定氨氮(NH3-N),堿性過硫酸鉀紫外分光光度法測定總氮(TN),鉬酸銨分光光度法測定總磷(TP)和溶解態(tài)總磷(DTP),顆粒態(tài)磷(PP)為TP與DTP之差。同步收集采樣期間的氣象數(shù)據(jù),包括大氣壓(AP)、風(fēng)向(WD)、風(fēng)速(WS)和相對濕度(RH)。
隨機(jī)森林由Breiman[16]在2001年正式提出,在以CART(Classification and Regression Tree)決策樹為基學(xué)習(xí)器構(gòu)建Bagging[17]集成的基礎(chǔ)上,融合Ho[18]的隨機(jī)子空間(random subspace)思想,進(jìn)一步在決策樹的訓(xùn)練過程中引入隨機(jī)屬性選擇,關(guān)于隨機(jī)森林的算法原理本文不再贅述。在Bagging的采樣過程中,未出現(xiàn)在采樣數(shù)據(jù)集的數(shù)據(jù)稱為袋外(Out-of-bag,OOB)數(shù)據(jù),通過計算袋外數(shù)據(jù)的誤差(OOB error)可估算模型的誤差。研究表明,OOB error是RF模型泛化準(zhǔn)確率的無偏估計[19],在某些情況下比交叉驗證的效果更好[20]。
根據(jù)望虞河的逐月出入湖水量(太湖流域管理局)和入湖斷面WY9(無錫312國道橋自動監(jiān)測站)的TP以及反演的DTP,通過濃度與水量相乘即可計算望虞河出入湖的TP通量和DTP通量,PP通量為兩者之差。
10個水質(zhì)參數(shù)和4個氣象參數(shù)的描述性統(tǒng)計特征如表1所示,17個點位的DTP濃度為0.007 ~ 0.166 mg/L,平均值為0.042 mg/L,占TP的比例在8% ~ 98%之間,平均值為51%,可見DTP占TP的比例極差較大,與TP不存在簡單的線性關(guān)系。變量間的Pearson相關(guān)性特征如圖2所示,總磷、濁度和風(fēng)向與DTP呈顯著相關(guān),總磷還與溶解氧、總氮和濁度呈顯著相關(guān),其他變量間存在不同程度的相關(guān)性。
表1 水質(zhì)和氣象參數(shù)描述性統(tǒng)計Tab.1 Descriptive statistics of water quality and meteorological parameters
圖2 參數(shù)間的相關(guān)性特征Fig.2 Correlation characteristics of water quality and meteorological parameters
本研究數(shù)據(jù)集較小(102組),按8∶2的比例隨機(jī)劃分訓(xùn)練集和測試集,劃分后訓(xùn)練集共有數(shù)據(jù)81組,測試集21組。
基于拆分的訓(xùn)練集,輸出變量設(shè)置為DTP,其余13個參數(shù)作為輸入變量。隨機(jī)森林中有兩個顯著影響模型性能和運行效率的超參數(shù),需要在開始學(xué)習(xí)過程之前人為設(shè)置:①ntree:指定隨機(jī)森林所包含的決策樹數(shù)量;②mtry:指定決策樹節(jié)點隨機(jī)選取的屬性個數(shù)。
首先優(yōu)化mtry,將1到自變量(屬性)個數(shù)之間的所有整數(shù)賦值給mtry,觀察每個取值下模型的OOB error,OOB error最小時的mtry值為最佳值。然后優(yōu)化ntree,觀察模型內(nèi)誤差隨決策樹數(shù)量變化的情況,根據(jù)奧卡姆剃刀(Occam’s razor)原理,選擇使模型誤差穩(wěn)定時的最小樹數(shù)量。
采用后向變量終止法進(jìn)行變量篩選,即先將全部變量選入模型,每次擬合刪除重要性最低的預(yù)測變量,觀察模型性能是否有提升,若有提升,剔除該變量,余下變量重新擬合模型,重復(fù)上述步驟,直到模型性能下降或無明顯提升為止。變量重要性通過殘差平方和來度量,節(jié)點純度(node purity)增加等同于殘差平方和的減少,IncNodePurity即increase in node purity,代表了每個變量對分類樹每個節(jié)點上觀測值的異質(zhì)性的影響,該值越大表示該變量的重要性越大。
選用相關(guān)系數(shù)(R2)、均方根誤差(Root Mean Squared Error,RMSE)和納什效率系數(shù)(Nash-Sutcliffe Efficiency,NSE)評估模型性能和泛化能力。R2和NSE越接近1,RMSE越小表示模型性能越好。
本研究所有的數(shù)據(jù)分析與加工和模型構(gòu)建工作在基于R4.1.2的RStudio軟件中實現(xiàn)。
超參數(shù)mtry遍歷1到13(輸入變量個數(shù))的模型OOB error和模型內(nèi)誤差隨決策樹數(shù)量變化的結(jié)果如圖3所示,可確定最佳的超參數(shù)組合為mtry=8和ntree=700。按最佳超參數(shù)組合代入訓(xùn)練集中的81組數(shù)據(jù)訓(xùn)練模型。
圖3 RF模型的超參數(shù)(mtry和ntree)尋優(yōu)Fig.3 The determination of optimal hyperparameters (mtry and ntree)for RF model
不同水質(zhì)參數(shù)對預(yù)測DTP濃度的重要性如圖4所示,總磷(TP)、風(fēng)向(WD)、濁度(FTU)、水溫(WT)、pH和溶解氧(DO)是重要性排序靠前的6個變量。
總磷涵蓋了各種形態(tài)的磷,水體中總磷主要以顆粒態(tài)磷的形式存在[21],水體中的磷主要以懸浮顆粒物為媒介進(jìn)行輸送,較高的濁度意味著水體中有更多的懸浮物等不溶性顆粒,進(jìn)而影響磷的賦存形態(tài)及含量。水溫對沉積物中營養(yǎng)物質(zhì)的釋放速率和釋放量及生物對磷的吸收和利用效率等均有重要影響[22],pH同樣影響沉積物中營養(yǎng)物質(zhì)的釋放[22],合適的pH還有利于藻類生長[23],因而水溫和pH是水體中磷循環(huán)的重要影響因素。溶解氧則是影響底泥沉積物磷素釋放[24]和微生物生長的重要因素。風(fēng)場通過水面風(fēng)擾動產(chǎn)生的剪切力對水體濁度產(chǎn)生影響,是泥沙再懸浮和遷移的關(guān)鍵[25],風(fēng)速重要性較低可能是因為輸入變量中已有濁度,通過部分依賴圖分析發(fā)現(xiàn)當(dāng)風(fēng)向為東風(fēng)(90°附近)時對模型輸出結(jié)果影響最大,這可能和變量本身分布特征及流域盛行風(fēng)向有關(guān)。
圖4 輸入變量的重要性排序Fig.4 The importance ranking of input variables
上述訓(xùn)練好的模型命名為RF#1,在RF#1中剔除重要性最低的輸入變量RH,生成的模型為RF#2,再剔除WS的模型為RF#3,3個模型的性能如表2所示。
表2 RF模型性能比較Tab.2 Comparison of RF model performance
剔除RH后,模型在訓(xùn)練集和測試集上的表現(xiàn)均有一定程度的提升,在測試集上的性能提升更為明顯。進(jìn)一步剔除WS后,盡管模型在訓(xùn)練集的表現(xiàn)有輕微提升,但在測試集上的性能幾乎沒有變化,訓(xùn)練集和測試集的性能差異增大,會增加模型過擬合的風(fēng)險。因此綜合比選后選擇RF#2作為最終模型,其模擬結(jié)果如圖5所示。
圖5 最終模型的模擬結(jié)果Fig.5 Simulation results of the final RF model
結(jié)合表2及圖5可見,模型RF#2的擬合效果良好,但當(dāng)DTP濃度較高時,模擬值與實測值偏差較大。產(chǎn)生高值低估有如下原因:一是目前樣本量有限,DTP濃度高值(大于0.1 mg/L)較少,導(dǎo)致最終訓(xùn)練出的模型傾向于低值端。二是隨機(jī)森林不能夠做出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這可能導(dǎo)致在某些噪音比較大的樣本集上隨機(jī)森林容易陷入過擬合,也是模型在測試集上的表現(xiàn)不如訓(xùn)練集的原因。
通過隨機(jī)森林模型反演的入湖磷通量計算結(jié)果如圖6所示。2010~2021年,望虞河入湖的DTP通量為8.44~73.14 t,占TP通量的比例為39.5%~57.6%,12年累計407.11 t,占TP通量的44.1%;PP通量為8.17~111.11 t,12年累計通量515.28 t,占TP通量的55.9%。望虞河入湖的磷以顆粒態(tài)磷為主,但近年來入湖DTP通量占TP通量的比例有升高的趨勢。
圖6 望虞河溶解態(tài)磷和顆粒態(tài)磷入湖通量Fig.6 DTP fluxes and PP fluxes of Wangyu River into Taihu Lake
根據(jù)水利部太湖流域管理局發(fā)布的《太湖健康狀況報告》(2010 ~ 2018年),2010 ~ 2018年太湖全湖累計入湖磷通量為19260 t,同期望虞河入湖TP通量占比不足5%。結(jié)合貢湖年均蓄水量[7]和巡測的TP數(shù)據(jù)計算貢湖的蓄磷量,2010 ~ 2021年,貢湖的蓄磷量為13.86 ~ 23.17 t,平均值為20.76 t。望虞河年均入湖的TP通量是貢湖蓄磷量的3.9倍,最高可達(dá)9.1倍,其中易被生物利用的DTP年均入湖通量是貢湖蓄磷量的1.6倍,最高可達(dá)3.6倍,這將極大地促進(jìn)灣內(nèi)藍(lán)藻生長。無法被吸收的DTP則會和PP一起進(jìn)入沉積物中,最高可達(dá)貢湖灣水體蓄磷量5.5倍,平均2.1倍的PP通量進(jìn)入貢湖灣后,將大量沉積在灣內(nèi),成為灣內(nèi)磷的重要內(nèi)源和長期來源,在受到風(fēng)浪等外力因素的擾動及藻類生物泵吸作用的影響時,向上覆水釋放蓄積的磷,有較高的釋放風(fēng)險。
由此可見引江濟(jì)太帶來的磷通量對太湖全湖影響較小,但對貢湖灣形成復(fù)合的高負(fù)荷磷素沖擊。近年來貢湖灣有向藻型湖區(qū)轉(zhuǎn)化的趨勢,灣內(nèi)有錫東、沙渚和金墅灣3個水源地,調(diào)水引致的磷輸入對太湖磷循環(huán)及水環(huán)境的影響需要引起足夠的重視并進(jìn)一步采取措施保障水源地供水安全。
(1)本研究以望虞河-太湖為研究對象,基于隨機(jī)森林的機(jī)器學(xué)習(xí)模型,利用現(xiàn)有監(jiān)測項目的歷史數(shù)據(jù)建立了反演DTP濃度的方法,最終模型的R2、RMSE、NSE分別為0.690、0.0110和0.651,具有良好的擬合和泛化性能,為歷史DTP濃度數(shù)據(jù)的反演提供了新思路。
(2)本研究10個水質(zhì)參數(shù)和4個氣象參數(shù)間存在不同程度的相關(guān)性,其中總磷、風(fēng)向、濁度、水溫、pH和溶解氧是本研究隨機(jī)森林模型中的重要預(yù)測因子,這些參數(shù)直接或間接地影響水體中磷的賦存形態(tài)、含量及循環(huán)過程。
(3)2010 ~ 2021年,望虞河入湖的DTP通量為8.44 ~ 73.14 t,PP通量為8.17 ~ 111.11 t,累計通量占TP通量的比例分別為44.1%和55.9%。望虞河年均入湖的TP通量是貢湖蓄磷量的3.9倍,DTP通量是1.6倍,對直接受水區(qū)形成復(fù)合的高負(fù)荷磷素沖擊,引江濟(jì)太調(diào)水引致的磷輸入對貢湖磷循環(huán)及水環(huán)境的影響需要引起足夠的重視。
(4)本研究通過隨機(jī)森林估算出不同形態(tài)的入湖磷通量,可為研究引江濟(jì)太工程對太湖磷循環(huán)及水質(zhì)的長期影響提供關(guān)鍵數(shù)據(jù),并為優(yōu)化引江濟(jì)太引水方案提供技術(shù)支持。