国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的水質(zhì)監(jiān)測指標預(yù)測

2022-05-18 06:17:38李旭杰花思洋黃鳳辰
江蘇水利 2022年5期
關(guān)鍵詞:因變量回歸方程線性

李旭杰,史 靈,花思洋,孫 穎,黃鳳辰

(1.河海大學(xué)海洋與近海工程研究院,江蘇 南通 226300;2.河海大學(xué)計算機與信息學(xué)院,江蘇 南京 210098;3.鈦能科技股份有限公司,江蘇 南京 211806;4.江蘇開放大學(xué)信息工程學(xué)院,江蘇 南京 210017)

1 概 述

本文以江蘇省南京市秦淮新河為代表站進行研究。秦淮新河屬秦淮河水系,起于河定橋經(jīng)西善橋至金勝村入江口,總長16.8 km,是下游入江分洪道的一條重要通道[1]。選取2020年6月至2021年6月的水質(zhì)監(jiān)測各類監(jiān)測指標數(shù)據(jù),利用Pearson相關(guān)系數(shù)對指標間進行相關(guān)性分析,得到各監(jiān)測指標間的相關(guān)系數(shù),對變量關(guān)系間的強弱進行有效度量,對影響水質(zhì)的主導(dǎo)因素進行識別,然后采用多元線性回歸算法進一步分析水質(zhì)指標間的統(tǒng)計關(guān)系[2],確定變量之間的因果關(guān)系,并對多元線性回歸算法的可信程度進行檢驗。根據(jù)符合評價標準的多元回歸方程,通過隨機森林模型用自變量指標對因變量指標做出進一步預(yù)測,若之后監(jiān)測到的水質(zhì)指標值與預(yù)測值相比有較大差異,則可以說明該河段水質(zhì)有較大變化,可起到預(yù)警作用[3],能夠?qū)λ|(zhì)可能出現(xiàn)的問題進行有效預(yù)防,構(gòu)建一個高效的水質(zhì)監(jiān)測預(yù)測模型,能夠為秦淮新河的水環(huán)境保護提供科學(xué)指導(dǎo)依據(jù)。

2 國內(nèi)外研究現(xiàn)狀

傳統(tǒng)的水質(zhì)監(jiān)測一般是進行人工操作,這種監(jiān)測方法不能及時、準確地獲得水質(zhì)不斷變化的動態(tài)數(shù)據(jù)。而通過各類監(jiān)測水質(zhì)指標的傳感器實現(xiàn)對水體中的COD、NH3-N、pH值等進行在線精確監(jiān)測,能有效提升水質(zhì)監(jiān)測效率,避免手工測定的耗時費力甚至不精確的一系列缺陷,結(jié)合計算機以及通信等技術(shù)手段,可以對所采集到的數(shù)據(jù)進行分析處理,為進一步產(chǎn)生和研究數(shù)據(jù)奠定基礎(chǔ)。

2017年,鄭德論[4]通過監(jiān)測汕頭湖溝中上游河段水體的水質(zhì)狀況,采用單因子評價方法確定該河段水體的主要污染物。2018年,湯云[5]針對閩江流域的多項水質(zhì)指標監(jiān)測數(shù)據(jù),利用小波分解、遺傳算法改進的BP神經(jīng)網(wǎng)絡(luò)方法,分析閩江流域內(nèi)水質(zhì)時空分布特征并解析污染源,構(gòu)建基于小波分解和遺傳算法改進的BP 神經(jīng)網(wǎng)絡(luò)的水質(zhì)預(yù)測模型。2019年,楊娜等[6]以雄安新區(qū)白洋淀水質(zhì)為研究對象,用灰色聚類分析法并結(jié)合變異系數(shù)法賦權(quán),對其水質(zhì)進行分級與評價,為白洋淀的綜合治理提供更加客觀科學(xué)依據(jù)。2020年,秦?zé)o雙等[7]對蓬溪縣主要地表水體進行水質(zhì)現(xiàn)狀分析,采用主成分分析法確定了主要污染因子。2021年,國內(nèi)楊志民[8]針對契爺石水庫進行水質(zhì)監(jiān)測,采用綜合水質(zhì)評價法和模糊綜合評價法對水庫水質(zhì)進行綜合評價。

水質(zhì)自動監(jiān)測在我國出現(xiàn)的時間較晚,尚處于起步階段。就現(xiàn)階段而言,我國水質(zhì)監(jiān)測較國外尚存在一定的差距。目前對水質(zhì)監(jiān)測數(shù)據(jù)的自動采集研究比較多,集中在對水質(zhì)的在線自動監(jiān)測上,而對于水質(zhì)監(jiān)測所采集到的數(shù)據(jù)進行分析處理的研究還不多,此方面研究有待拓展。本文對水質(zhì)監(jiān)測數(shù)據(jù)進行分析,構(gòu)建水質(zhì)監(jiān)測指標預(yù)測模型,提供一定水質(zhì)監(jiān)測的科學(xué)依據(jù)。

3 水質(zhì)監(jiān)測指標預(yù)測模型構(gòu)建

構(gòu)建水質(zhì)監(jiān)測指標預(yù)測模型體系,采用統(tǒng)計分析方法,包括相關(guān)性分析以及多元回歸分析,結(jié)合隨機森林模型,對水質(zhì)監(jiān)測指標進行主導(dǎo)性因素指標的相關(guān)預(yù)測,構(gòu)建預(yù)測模型見圖1。對獲取水質(zhì)監(jiān)測項目監(jiān)測過程中所用的各類監(jiān)測指標數(shù)據(jù)進行清洗,剔除無效、異常數(shù)據(jù)。無效、異常數(shù)據(jù)主要指超過各類水質(zhì)監(jiān)測指標傳感器的測量范圍內(nèi)的異常數(shù)據(jù)。

圖1 水質(zhì)監(jiān)測指標預(yù)測模型

3.1 水質(zhì)監(jiān)測指標相關(guān)性分析

利用相關(guān)系數(shù)對各類水質(zhì)監(jiān)測指標進行相關(guān)性分析,常見的相關(guān)系數(shù)主要有Pearson 相關(guān)系數(shù)、Spearman 相關(guān)系數(shù)以及Kendall 秩相關(guān)系數(shù),其中Pearson相關(guān)系數(shù)適用于衡量線性相關(guān)關(guān)系,針對其適用性,本文采用Pearson相關(guān)系數(shù)來對6類水質(zhì)監(jiān)測指標進行相關(guān)程度強弱的度量,定義其公式為

式中:n為樣本量;xi和yi分別為2個監(jiān)測指標的變量值;xˉ和yˉ分別為xi和yi樣本的平均值。

圖2是6類水質(zhì)監(jiān)測指標間Pearson相關(guān)系數(shù)矩陣熱力圖,根據(jù)熱力圖顏色的深淺分別可以得到各監(jiān)測指標間的相關(guān)程度強弱。其中,CODcr表示化學(xué)需氧量,NH3-N 為氨氮,DO 為溶解氧,WT 為水溫,TURB為濁度。

圖2 Pearson相關(guān)系數(shù)矩陣熱力

Pearson相關(guān)系數(shù)矩陣如表1所示。其中,Pearson相關(guān)系數(shù)的絕對值結(jié)果越接近于1表示變量之間的相關(guān)性越強,結(jié)果越接近于0 表示變量之間的相關(guān)性越弱。其絕對值結(jié)果在0~0.3 之間,呈現(xiàn)弱相關(guān)性;在0.3~0.5之間,呈現(xiàn)低相關(guān)性;在0.5~0.8之間,呈現(xiàn)顯著相關(guān)性;在0.8~1之間,呈現(xiàn)高度相關(guān)性[9]。根據(jù)表1的分析結(jié)果可以得出高度相關(guān)的變量有兩對,一對是WT 和DO,2 個監(jiān)測指標間的Pearson 相關(guān)系數(shù)為-0.8965,明顯呈現(xiàn)高度負相關(guān)性;另一對是CODcr指標和NH3-N 指標,它們的相關(guān)系數(shù)為0.9478,明顯呈現(xiàn)高度正相關(guān)性。

表1 Pearson相關(guān)系數(shù)矩陣

然后,采用顯著性檢驗的方法對Pearson相關(guān)系數(shù)進行檢驗,驗證各監(jiān)測指標間的相關(guān)性非偶然因素引起,所得結(jié)果能夠代表總體指標數(shù)據(jù)上的相關(guān)程度。在本文中,顯著性檢驗的P值均小于選定的顯著性水平0.05,故變量之間的相關(guān)性都通過顯著性檢驗,顯著性檢驗結(jié)果P值列于表2。

表2 Pearson相關(guān)系數(shù)顯著性檢驗結(jié)果P值

3.2 多元線性回歸算法

相關(guān)性分析是回歸分析的基礎(chǔ)和前提,而回歸分析則是認識變量間相關(guān)程度的具體形式。采用構(gòu)建多元線性回歸方程的方法可進一步得到監(jiān)測指標間相關(guān)程度的具體形式。本文通過回歸方程的形式,進一步分析水質(zhì)指標間的統(tǒng)計關(guān)系。

利用多元回歸算法,設(shè)因變量為y,k個自變量分別為x1,x2,…,xk,描述因變量y如何依賴自變量x1,x2,…,xk和誤差項ε的方程。多元線性回歸方程可表示如下:

式中:β0,β1,β2,…,βk是模型的參數(shù),ε為誤差項,式(2)表明y是x1,x2,…,xk的線性函數(shù)加上誤差項ε。誤差項反映了除x1,x2,…,xk與y的線性關(guān)系之外的隨機因素對y的影響,是不能由x1,x2,…,xk與y之間的線性關(guān)系所解釋的變異性[10]。

對得到的多元線性回歸方程,剔除回歸系數(shù)異常以及不顯著的自變量,此時的多元線性回歸方程可得以成立?;貧w系數(shù)反映的是回歸方程中表示自變量x對因變量y影響大小的參數(shù),異?;貧w系數(shù)為回歸系數(shù)的正負號與Pearson 相關(guān)系數(shù)相反的數(shù)值,不顯著的回歸系數(shù)是指不符合回歸系數(shù)檢驗的數(shù)值。根據(jù)高度相關(guān)的變量對可得到2個多元線性回歸方程為

3.3 隨機森林模型

構(gòu)建多元線性回歸方程后,對整個數(shù)據(jù)集進行拆分,得到訓(xùn)練集和測試集:訓(xùn)練集用于訓(xùn)練隨機森林回歸模型,測試集用于模型預(yù)測效果的評估。在本文中,取測試集樣本數(shù)為數(shù)據(jù)集總樣本數(shù)的25%。建立隨機森林回歸模型,采用5 折交叉驗證方法利用訓(xùn)練集對模型進行訓(xùn)練。相關(guān)參數(shù)設(shè)置隨機值random_state=0,通過5折交叉驗證尋找到模型的最佳參數(shù),不重復(fù)抽樣將原始數(shù)據(jù)隨機分成5份;每次挑選其中1 份作為測試集,剩余4 份作為訓(xùn)練集用作模型訓(xùn)練;重復(fù)該步驟5 次,使得每個子集擁有一次作為測試集的機會,其余機會作為訓(xùn)練集;計算5組測試結(jié)果的平均值作為模型的準確率[11-12]。

基于上述方法,針對CODcr指標的預(yù)測模型可得到?jīng)Q策樹的數(shù)量n_estimators=50,樹的最大深度max_depth=7;針對DO 指標的預(yù)測模型得到?jīng)Q策樹的數(shù)量n_estimators=150,樹的最大深度max_depth=6。然后,利用測試集對隨機森林回歸模型進行預(yù)測效果評價,可求得該隨機森林回歸模型的3 種評價指標的值分別為:均方根誤差RMSE=0.2883、平均絕對誤差MAE= 0.1813、確定系數(shù)R2=0.9831。當(dāng)隨機森林回歸模型的確定系數(shù)R2已經(jīng)達到最接近于1,則停止對隨機森林回歸模型的參數(shù)繼續(xù)調(diào)整。根據(jù)訓(xùn)練得到的最佳隨機森林回歸模型,利用水質(zhì)監(jiān)測指標中自變量監(jiān)測指標對因變量指標進行預(yù)測。

4 實驗結(jié)果分析

根據(jù)隨機森林模型,得到根據(jù)水質(zhì)監(jiān)測指標中的自變量指標對因變量指標的預(yù)測,由水質(zhì)監(jiān)測指標的相關(guān)性分析以及通過構(gòu)建多元線性回歸方程,得到高度相關(guān)的變量對及其因果關(guān)系。由訓(xùn)練結(jié)果得到相應(yīng)的隨機森林回歸模型預(yù)測值與水質(zhì)監(jiān)測指標中的因變量指標實際值對比圖。其中,化學(xué)需氧量監(jiān)測指標實際值與預(yù)測值的對比圖,見圖3,溶解氧監(jiān)測指標實際值與預(yù)測值的對比圖,見圖4。圖3~4 中因變量水質(zhì)監(jiān)測指標的實際值為藍色線,因變量水質(zhì)監(jiān)測指標的預(yù)測值為黃色線。從圖3~4中明顯可見因變量水質(zhì)監(jiān)測指標的預(yù)測值和實際值幾乎重合,有效說明本文提出的基于隨機森林回歸模型的水質(zhì)監(jiān)測指標預(yù)測方法能夠?qū)崿F(xiàn)因變量水質(zhì)監(jiān)測指標的準確預(yù)測。

圖3 COD監(jiān)測指標對比

圖4 DO監(jiān)測指標對比

5 結(jié) 語

近年來我國水質(zhì)監(jiān)測發(fā)展迅速,對水質(zhì)狀況進行監(jiān)測時往往監(jiān)測的指標種類眾多,監(jiān)測成本較高且信息量巨大,難以從中提取有效信息,對數(shù)據(jù)進行有效分析勢在必行。為有效降低監(jiān)測成本,對監(jiān)測指標項目進行合理降維,利用Pearson相關(guān)系數(shù)對指標間進行相關(guān)性分析,對變量關(guān)系間的強弱進行有效度量,但由于并未對變量之間的關(guān)系進行固化形成模型,無法利用這種關(guān)系對數(shù)據(jù)進行預(yù)測,需要進一步進行回歸分析,在實際應(yīng)用中一個參數(shù)指標往往受到多個參數(shù)指標的影響,多元線性回歸算法易于實施,具有較大的應(yīng)用前景。

在水質(zhì)監(jiān)測對各類指標進行監(jiān)測的實踐中,利用多元線性回歸得到高度相關(guān)的監(jiān)測指標間統(tǒng)計方程,可以準確得知自變量指標和因變量指標之間的關(guān)系,對因變量指標進行有效預(yù)測可減低監(jiān)測成本。利用隨機森林模型中的回歸模型對監(jiān)測指標進行預(yù)測,相對于其他模型而言,隨機森林回歸模型具有預(yù)測準確度高、泛化能力強的優(yōu)勢。實驗結(jié)果也能夠有效表明隨機森林回歸模型可利用因變量水質(zhì)監(jiān)測指標實現(xiàn)對自變量水質(zhì)監(jiān)測指標的準確預(yù)測,隨機森林回歸模型在水質(zhì)監(jiān)測指標分析預(yù)測的應(yīng)用研究具有重要意義。

猜你喜歡
因變量回歸方程線性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
調(diào)整有限因變量混合模型在藥物經(jīng)濟學(xué)健康效用量表映射中的運用
中國藥房(2022年7期)2022-04-14 00:34:30
采用直線回歸方程預(yù)測桑癭蚊防治適期
線性回歸方程的求解與應(yīng)用
線性回歸方程要點導(dǎo)學(xué)
走進回歸分析,讓回歸方程不再是你高考的絆腳石
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
二階線性微分方程的解法
偏最小二乘回歸方法
回歸分析中應(yīng)正確使用r、R、R23種符號
澄迈县| 尚志市| 天祝| 天镇县| 景洪市| 六安市| 香格里拉县| 丰城市| 保靖县| 措勤县| 会同县| 镇安县| 临汾市| 山东省| 宜兰市| 兴隆县| 微博| 福海县| 岳普湖县| 墨江| 尉犁县| 营山县| 吴旗县| 赫章县| 正阳县| 东安县| 交口县| 若尔盖县| 沅陵县| 鸡东县| 澄城县| 兴国县| 钦州市| 库尔勒市| 嵊泗县| 色达县| 孝义市| 东丰县| 山西省| 西贡区| 三台县|