摘 要:黃河水沙通量的變化規(guī)律對(duì)沿黃流域的環(huán)境治理、氣候變化和人民生活具有深遠(yuǎn)的影響。文章以黃河某水文站2016—2021年的水位、水流量與含沙量的實(shí)際監(jiān)測(cè)數(shù)據(jù)為研究對(duì)象,對(duì)該水文站水沙通量的變化規(guī)律進(jìn)行挖掘和分析;以此應(yīng)用機(jī)器學(xué)習(xí)中的時(shí)間序列分析算法構(gòu)建了一種可對(duì)黃河水沙通量趨勢(shì)預(yù)測(cè)的時(shí)間序列模型SARIMAX,通過(guò)對(duì)模型的參數(shù)優(yōu)化和顯著性檢驗(yàn)分析,確定了黃河水沙通量預(yù)測(cè)的最優(yōu)時(shí)間序列模型SARIMAX(0,1,1,12),對(duì)該水文站未來(lái)兩年的黃河水沙通量進(jìn)行了分析預(yù)測(cè),為黃河水文環(huán)境的保護(hù)和黃河水域“調(diào)水調(diào)沙”等工作提供準(zhǔn)確的參考依據(jù)。
關(guān)鍵詞:時(shí)間序列模型;ARIMA;水沙通量;機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)20-0159-06
Research on the Analysis of Yellow River Water and Sediment Monitoring Data Based on Time Series Model
LI Changsheng, LIU Sujun, LIU Zongcheng, LIU Xiaolong
(Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China)
Abstract: The variation law of water and sediment flux in the Yellow River has a profound impact on environmental governance, climate change, and people's lives along the Yellow River basin. This paper takes the actual monitoring data of water level, water flow rate, and sediment concentration at a hydrological station on the Yellow River from 2016 to 2021 as the research object, and explores and analyzes the variation law in water and sediment flux at the hydrological station. A Time Series Analysis algorithm in Machine Learning is applied to construct a Time Series Model SARIMAX that can predict the trend of Yellow River water and sediment flux. Through parameter optimization and significance testing analysis of the model, the optimal Time Series Model SARIMAX (0, 1, 1, 12) for predicting Yellow River water and sediment flux is determined. The Yellow River water and sediment flux of the hydrological station in the next two years is analyzed and predicted, providing accurate reference for the protection of the Yellow River hydrological environment and the work of “water and sediment transfer” in the Yellow River water area.
Keywords: Time Series Model; ARIMA; water and sediment flux; Machine Learning
0 引 言
黃河是中華民族的母親河。研究黃河水沙通量的變化規(guī)律對(duì)沿黃流域的環(huán)境治理、氣候變化和人民生活具有深遠(yuǎn)的影響,同時(shí)也對(duì)優(yōu)化黃河流域水資源分配、協(xié)調(diào)人地關(guān)系、調(diào)水調(diào)沙、防洪減災(zāi)等方面都具有重要的理論指導(dǎo)意義。
近年來(lái)在黃河水、沙、環(huán)境問(wèn)題的研究方面,褚言皓等人利用最優(yōu)遙感反演算法,基于小時(shí)分辨率特征開(kāi)展了GOCI遙感影像研究,研究了黃河水域懸浮泥沙時(shí)空動(dòng)態(tài)特征和驅(qū)動(dòng)機(jī)制[1];王俊杰等人對(duì)水沙時(shí)間序列的變異性進(jìn)行了分析,通過(guò)滑動(dòng)T檢驗(yàn)、曼尼-肯德?tīng)枡z驗(yàn)法、5a滑動(dòng)平均法等,研究了水沙通量的趨勢(shì)[2];劉明等挖掘了水文站“調(diào)水調(diào)沙”期間黃河入海泥沙中Pb元素含量及其同位素組成的變化特征,并通過(guò)對(duì)利津水文站懸浮泥沙分析、小浪底水庫(kù)表層沉積物分析、物質(zhì)來(lái)源及對(duì)“調(diào)水調(diào)沙”過(guò)程的影響[3]等。
這些關(guān)于黃河水、沙、環(huán)境的統(tǒng)計(jì)分析方法雖然在技術(shù)方法上取得了一定的進(jìn)步,但大多數(shù)研究缺少對(duì)黃河水域水沙通量的突變性、季節(jié)性和周期性的分析,或采用單變量時(shí)序預(yù)測(cè)模型未能充分考慮水沙通量的周期性變化和“調(diào)水調(diào)沙”措施等環(huán)境因素影響。因此本文旨在基于黃河流域水沙通量的實(shí)際歷史監(jiān)測(cè)數(shù)據(jù)的多因素相關(guān)性和時(shí)序相關(guān)性分析,首先,利用機(jī)器學(xué)習(xí)算法從水文站的水沙通量的突變性、季節(jié)性和周期性三個(gè)方面,分別應(yīng)用水沙通量時(shí)序關(guān)系圖、季節(jié)性分解的局部回歸方法(STL)、水沙通量自相關(guān)系數(shù)(ACF)對(duì)水沙通量的變化進(jìn)行了分析,挖掘了該水文站水沙通量的變化規(guī)律;其次,基于時(shí)間序列分析算法構(gòu)建了該水文站水沙通量的時(shí)間序列模型SARIMAX,并通過(guò)網(wǎng)格搜索算法對(duì)SARIMAX模型的參數(shù)進(jìn)行了優(yōu)化,確定了最優(yōu)模型SARIMAX(0,1,1,12);最后,根據(jù)該模型對(duì)未來(lái)兩年的黃河水沙通量進(jìn)行了分析預(yù)測(cè),使水文站既能及時(shí)掌握水沙通量的動(dòng)態(tài)變化情況,又能最大限度地減少監(jiān)測(cè)成本資源。
1 水沙通量的探索性數(shù)據(jù)分析
1.1 數(shù)據(jù)概述
本文數(shù)據(jù)集來(lái)源于“2023年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽E題[4]”中黃河小浪底水庫(kù)下游某水文站近6年(2016—2021年)的實(shí)際監(jiān)測(cè)數(shù)據(jù),為確保數(shù)據(jù)的準(zhǔn)確性和完整性,首先對(duì)該水文站近6年的實(shí)際監(jiān)測(cè)數(shù)據(jù)進(jìn)行清洗、預(yù)處理,通過(guò)后向插值方法填充缺失數(shù)據(jù),構(gòu)建了黃河水沙流浪的時(shí)間序列數(shù)據(jù)集,數(shù)據(jù)信息表如表1所示。
1.2 含沙量與時(shí)間、水位、水流量的定性分析
對(duì)于水文站實(shí)際監(jiān)測(cè)數(shù)據(jù)中的含沙量與時(shí)間、水位、水流量的定性分析,本文應(yīng)用斯皮爾曼(Spearman)相關(guān)系數(shù)[5]對(duì)含沙量、時(shí)間、水位、水流量的關(guān)系進(jìn)行定性分析,結(jié)果如圖1所示。
由于斯皮爾曼相關(guān)系數(shù)評(píng)估的是兩個(gè)連續(xù)變量之間的單調(diào)關(guān)系,通過(guò)斯皮爾曼相關(guān)系數(shù)可以對(duì)含沙量、時(shí)間、水位、水流量進(jìn)行相關(guān)性分析,發(fā)現(xiàn)含沙量的變化與水流量,水位,時(shí)間都成正相關(guān),且與水流量的相關(guān)度最強(qiáng),與水位的相關(guān)度次之,含沙量與時(shí)間也有微弱的正相關(guān)性。
1.3 含沙量與時(shí)間、水位和水流量的定量分析
針對(duì)含沙量與時(shí)間、水位、水流量的具體大小變化趨勢(shì)的關(guān)系,本文先以“newT(T)”“水位(Sw)”“水流量(Sl)”作為自變量,以“含沙量(Hsl)”作為因變量,通過(guò)多元線(xiàn)性回歸分析方法[6]對(duì)含沙量與時(shí)間、水位、水流量進(jìn)行了定量分析,并構(gòu)建了其關(guān)系式為:
(1)
其中,C為擬合關(guān)系是常數(shù)項(xiàng)。根據(jù)數(shù)據(jù)集的擬合計(jì)算,分別得到其擬合系數(shù)和常數(shù)項(xiàng)的取值為:a=0.682 72,b=-0.004 58,c=0.000 6,C=-25.710 63。然后通過(guò)回歸模型的性能指標(biāo),均方誤差MSE,根均方誤差RMSE,平均絕對(duì)誤差MAE和擬合優(yōu)度R2的評(píng)估分析,驗(yàn)證了本文所構(gòu)建的含沙量與時(shí)間、水位、水流量的多元線(xiàn)性回歸模型是可行的。評(píng)估如表2所示。
1.4 年總水流量和年總排沙量的估算
要估算該水文站近6年的年總水流量和年總排沙量,首先要計(jì)算出每一個(gè)檢測(cè)時(shí)間點(diǎn)的排沙量(即:排沙量=水流量·含沙量),公式為:
(2)
然后,因?yàn)樵紮z測(cè)數(shù)據(jù)集中缺失值,填充后的數(shù)據(jù)集上各時(shí)刻點(diǎn)的監(jiān)測(cè)數(shù)據(jù)仍然是離散型數(shù)值,要計(jì)算年總量,需以時(shí)間作為自變量,分別對(duì)水流量和排沙量做積分求和計(jì)算。最終得到每一年的年總水流量和年總排沙量。結(jié)果如表3所示。
1.5 水沙通量的變化規(guī)律分析
對(duì)近6年該水文站水沙通量的變化規(guī)律分析方面,本文從該水文站水沙通量在時(shí)間維度上的突變性,季節(jié)性和周期性變化規(guī)律進(jìn)行了分析。
1.5.1 突變性分析
首先通過(guò)Python語(yǔ)言繪制水沙通量的時(shí)序圖[7]對(duì)水沙通量近6年(72個(gè)月)內(nèi)各時(shí)間點(diǎn)上的突變性進(jìn)行了整體時(shí)序趨勢(shì)分析,水沙通量時(shí)序突變性如圖2所示。
通過(guò)對(duì)水沙通量時(shí)序圖的觀(guān)察發(fā)現(xiàn),該水文站的水沙通量在2016年3月,2016年7月,2019年6556N0iQnlgBo+bsyU6y15w==月,2019年9月,2020年3月,2020年11月,2021年3月,2021年7月,2021年8月,2021年9月這些時(shí)間點(diǎn)上發(fā)生了明顯的變化,特別是在2021年8月的水沙通量的突變性最為顯著。
1.5.2 季節(jié)性分析
對(duì)于該水文站水沙通量的季節(jié)性變化規(guī)律,本文通過(guò)應(yīng)用季節(jié)性分解的局部回歸方法[8](STL)來(lái)分解水沙通量的時(shí)間序列數(shù)據(jù),來(lái)觀(guān)察并分析了該水文站的水沙通量的季節(jié)性變化趨勢(shì),如圖3所示。
1.5.3 周期性分析
對(duì)于該水文站的水沙通量周期性變化的分析,本文應(yīng)用變量自相關(guān)函數(shù)(ACF)分析方法[9]進(jìn)行了分析,如圖4所示。通過(guò)自相關(guān)函數(shù)(ACF)分析發(fā)現(xiàn),該水文站的水沙通量與時(shí)間呈現(xiàn)極大的相關(guān)性,波峰與波谷的變化,極大值都很好的體現(xiàn)這種周期性,因此該水文站的水沙通量存在周期性變化趨勢(shì)。
2 基于模型的黃河水沙監(jiān)測(cè)數(shù)據(jù)分析
為了能及時(shí)掌握該水文站水沙通量的動(dòng)態(tài)變化情況,又能最大限度地減少監(jiān)測(cè)成本資源,本文基于時(shí)間序列算法SARIMA構(gòu)建了一種對(duì)黃河水域未來(lái)兩年的水沙通量進(jìn)行預(yù)測(cè)的時(shí)間序列模型(SARIMAX),并通過(guò)平均絕對(duì)誤差MAE、平均絕對(duì)誤差百分比MAPE、均方誤差MSE、根均方誤差RMSE等指標(biāo)對(duì)所構(gòu)建的SARIMAX模型進(jìn)行了性能評(píng)估分析。
2.1 構(gòu)建SARIMAX模型
SARIMAX模型[10]是在差分移動(dòng)自回歸模型(ARIMA)的基礎(chǔ)上加上季節(jié)(S)和外部因素(X)對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行分析的模型。其計(jì)算公式為:
(3)
其中,為非季節(jié)性自回歸滯后多項(xiàng)式,捕獲非季節(jié)性自回歸元素。為非季節(jié)性自回歸滯后多項(xiàng)式,捕獲非季節(jié)性自回歸元素。為時(shí)序數(shù)據(jù)d階差分;季節(jié)性D階差分:提供了時(shí)序平穩(wěn)化功能。為季節(jié)性移動(dòng)平均滯后多項(xiàng)式。
SARIMAX(p,d,q,s)模型意味著時(shí)序被差分了d次,且序列中的每個(gè)觀(guān)測(cè)值都是用過(guò)去的p個(gè)觀(guān)測(cè)值和q個(gè)殘差的線(xiàn)性組合表示的。
SARIMAX模型構(gòu)建步驟:
1)數(shù)據(jù)預(yù)處理。對(duì)原始數(shù)據(jù)集清洗,去噪,并對(duì)缺失值作插值處理。
2)序列平穩(wěn)化。為了滿(mǎn)足模型假設(shè),檢查序列的平穩(wěn)性并執(zhí)行相關(guān)轉(zhuǎn)換。
3)確定差分d值。為了使序列平穩(wěn),將執(zhí)行差分操作的次數(shù)確定為d值。
4)相關(guān)性分析(ACF,PACF)參數(shù)優(yōu)化。網(wǎng)格搜索算法優(yōu)化SARIMAX模型的參數(shù)。
5)確定p值和q值。從上一步的ACF和PACF圖中讀取p和q的值。
6)SARIMAX模型擬合。根據(jù)前面的參數(shù)值和計(jì)算結(jié)果,擬合SARIMAX模型。
7)模型驗(yàn)證與評(píng)估。在驗(yàn)證集上計(jì)算MAPE,通過(guò)分析MAPE值來(lái)檢驗(yàn)?zāi)P偷男阅堋?/p>
8)預(yù)測(cè)。以12個(gè)月為一個(gè)周期,預(yù)測(cè)未來(lái)兩年(24個(gè)月)的值。
對(duì)于SARIMAX(p,d,q,s)模型的實(shí)現(xiàn),本文通過(guò)設(shè)計(jì)Python程序,利用機(jī)器學(xué)習(xí)算法中的statsmodels庫(kù)中的SARIMAX函數(shù),對(duì)近6年該水文站的水沙通量的時(shí)間序列進(jìn)行了訓(xùn)練,構(gòu)建了水沙通量的時(shí)間序列模型SARIMAX模型。
2.2 模型參數(shù)優(yōu)化與性能評(píng)估
為提高SARIMAX模型的預(yù)測(cè)性能,本文對(duì)時(shí)序模型SARIMAX中的參數(shù)p,d,q,s進(jìn)行了優(yōu)化[11-12],通過(guò)網(wǎng)格搜索算法,對(duì)時(shí)序數(shù)據(jù)本身的滯后數(shù)p值和預(yù)測(cè)誤差的滯后值q進(jìn)行了搜索優(yōu)化,最小的AIC值為780.24,對(duì)SARIMAX模型中的seasonal order參數(shù)網(wǎng)格搜索了最佳的季節(jié)性SARIMA的(p,d,q,s)值為(0,1,1,12),確定了分析該水沙通量的最佳的時(shí)間序列模型:SARIMAX(0,1,1,12)。所構(gòu)建的SARIMAX模型相關(guān)參數(shù)及模型的顯著性檢驗(yàn)結(jié)果如表4、表5所示。
其中,權(quán)重列為每個(gè)變量的權(quán)重值;P>|z|列為對(duì)每個(gè)變量系數(shù)的檢驗(yàn)。每個(gè)變量的P值均小于0.05,所以在0.05的顯著性水平下,模型中每個(gè)變量的系數(shù)通過(guò)顯著性檢驗(yàn)。將模型SARIMAX(0,1,1,12)在驗(yàn)證集上進(jìn)一步驗(yàn)證分析,發(fā)現(xiàn)模型的平均絕對(duì)百分比誤差(MAPE)降到17.4%,即準(zhǔn)確率達(dá)到了82.6%。所以此模型對(duì)水沙通量值的預(yù)測(cè)是可行并有效的。
為了進(jìn)一步評(píng)估SARIMAX(0,1,1,12)模型的性能,本文在原始數(shù)據(jù)集中2016—2021年間的水沙通量對(duì)模型進(jìn)行驗(yàn)證性分析:首先以2016—2020年的水沙通量監(jiān)測(cè)數(shù)據(jù)訓(xùn)練模型,預(yù)測(cè)2021年12個(gè)月的水沙通量情況,然后,通過(guò)對(duì)2021年實(shí)際的水沙通量監(jiān)測(cè)數(shù)據(jù)和模型預(yù)測(cè)值進(jìn)行比較分析如圖5所示;發(fā)現(xiàn)SARIMAX(0,1,1,12)模型的擬合優(yōu)度R2為0.89,此時(shí)的平均絕對(duì)百分比誤差(MAPE)降到18.12%得出,該模型對(duì)黃河水文站的水沙通量的預(yù)測(cè)具有較高的準(zhǔn)確性。
3 SARIMAX模型預(yù)測(cè)未來(lái)兩年的水沙通量
通過(guò)前面確定的最優(yōu)模型SARIMAX(0,1,1,12),本文以該水文站2016—2021年間水沙監(jiān)測(cè)數(shù)據(jù)作為訓(xùn)練集,對(duì)SARIMAX(0,1,1,12)模型進(jìn)行訓(xùn)練,然后以該水文站2022—2024年未知的水沙通量作為預(yù)oGhNX/5Pa4DC8oq4wluNL0sG0hTnBOBPiFyOwKJRbGQ=測(cè)值,設(shè)置SARIMAX模型的預(yù)測(cè)位移量(steps)值為24,即對(duì)2022—2024年24個(gè)月內(nèi)的水沙通量數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如圖6所示。
從圖5中2022—2024年兩年內(nèi)的水沙通量預(yù)測(cè)結(jié)果可以發(fā)現(xiàn),本文所構(gòu)建的SARIMAX(0,1,1,12)模型預(yù)測(cè)的水沙通量值均落在了置信區(qū)間[0.025,0.975]內(nèi),說(shuō)明該預(yù)測(cè)結(jié)果是具有較高的可信度。綜上分析研究得出,該模型的預(yù)測(cè)值對(duì)優(yōu)化黃河流域水資源分配、協(xié)調(diào)人地關(guān)系、調(diào)水調(diào)沙、防洪減災(zāi)等方面都具有實(shí)質(zhì)的理論指導(dǎo)意義。
4 結(jié) 論
本文通過(guò)分析黃河某水文站2016—2021年間的水位、水流量與含沙量的實(shí)際監(jiān)測(cè)數(shù)據(jù),研究了該水文站水沙通量的變化規(guī)律及其周期特性;由此應(yīng)用了機(jī)器學(xué)習(xí)算法中的時(shí)間序列分析算法構(gòu)建了一種對(duì)黃河水文站的水沙通量變化的預(yù)測(cè)模型SARIMAX(0,1,1,12)。通過(guò)對(duì)該模型的參數(shù)優(yōu)化和顯著性檢驗(yàn)分析,得出該模型對(duì)黃河水沙通量的變化趨勢(shì)的預(yù)測(cè)具有較高的準(zhǔn)確性,其預(yù)測(cè)結(jié)果可為黃河水文環(huán)境的保護(hù)和黃河水域“調(diào)沙調(diào)水”等工作提供準(zhǔn)確的參考依據(jù)。
參考文獻(xiàn):
[1] 褚言皓,吳文娟,李鵬,等.黃河口懸浮泥沙時(shí)空動(dòng)態(tài)及其驅(qū)動(dòng)機(jī)制 [J].海洋學(xué)報(bào),2022,44(6):150-163.
[2] 王俊杰,拾兵,巴彥斌.近70年黃河入海水沙通量演變特征 [J].水土保持研究,2020,27(3):57-62+69.
[3] 劉明,楊雅迪,畢乃雙,等.2015年調(diào)水調(diào)沙期間黃河懸浮顆粒Pb及其穩(wěn)定同位素組成變化 [J].中國(guó)環(huán)境科學(xué),2019,39(7):3009-3017.
[4] 全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽組委會(huì).2023全國(guó)大學(xué)生數(shù)學(xué)建模E題[EB/OL].[2023-09-26].https://www.mcm.edu.cn.
[5] 魏光瓊.級(jí)相關(guān)在綜合評(píng)估法評(píng)標(biāo)中的應(yīng)用 [J].工程建設(shè)與設(shè)計(jì),2014(9):156-160.
[6] 肖曉華,胡依,李貝.基于多元線(xiàn)性回歸的高校大學(xué)生專(zhuān)業(yè)認(rèn)同現(xiàn)狀及影響因素研究[J].中國(guó)高等醫(yī)學(xué)教育,2020(3):26-27.
[7] 彭維湘.時(shí)間序列中DF單位根檢驗(yàn)存在的問(wèn)題及方法改進(jìn) [J].統(tǒng)計(jì)與決策,2022,38(21):53-56.
[8] 宋長(zhǎng)鳴,徐娟,項(xiàng)朝陽(yáng).基于時(shí)間序列分解視角的蔬菜價(jià)格波動(dòng)原因探析 [J].統(tǒng)計(jì)與決策,2014(3):106-108.
[9] 蔣水華,李典慶,周創(chuàng)兵,等.考慮自相關(guān)函數(shù)影響的邊坡可靠度分析 [J].巖土工程學(xué)報(bào),2014,36(3):508-518.
[10] 周鑫,李燕,曾永輝,等.基于SARIMAX-SVR的光伏發(fā)電功率預(yù)測(cè) [J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2024,36(5):1-8.
[11] 李國(guó)棟,周揚(yáng),李凱.基于SARIMAX-XGBoost模型的區(qū)域能耗預(yù)測(cè) [J].電力信息與通信技術(shù),2022,20(3):26-33.
[12] 鄒銀先,褚學(xué)偉,段先前,等.不同時(shí)間序列模型在巖溶山區(qū)礦井涌水量預(yù)測(cè)中的應(yīng)用 [J].中國(guó)巖溶,2023,42(6):1237-1246.
作者簡(jiǎn)介:李長(zhǎng)生(1990.08—),男,漢族,甘肅武威人,講師,碩士,研究方向:數(shù)據(jù)挖掘、數(shù)據(jù)可視化。