摘 要:對水沙通量變化趨勢的預(yù)測是沿黃河流域環(huán)境治理的基礎(chǔ)。鑒于監(jiān)測技術(shù)限制,采集到的含沙量數(shù)據(jù)相較于水流量數(shù)據(jù)通常存在大量缺失值,影響對水沙通量變化的精準評估。針對此問題,文章分別采用最鄰近、線性、二次樣條、三次樣條插值方法進行數(shù)據(jù)補值,并對比插值擬合誤差。實驗結(jié)果表明,采用三次樣條插值法進行插值曲線擬合誤差最小,經(jīng)過插值處理后的數(shù)據(jù)能更好地預(yù)測未來水沙通量的變化趨勢。
關(guān)鍵詞:大數(shù)據(jù)處理;樣條插值;時間序列;趨勢預(yù)測
中圖分類號:TP391 文獻標識碼:A 文章編號:2096-4706(2024)20-0145-04
Time Series Prediction Algorithm of Water and Sediment Flux Based on Spline Interpolation
ZHANG Ying, YANG Tingyao
(Guangdong Preschool Normal College In Maoming, Maoming 525000, China)
Abstract: The prediction of the variation trend of water and sediment flux is the basis of environmental governance along the Yellow River Basin. In view of the monitoring technology, the collected sediment flux data usually has a large number of missing values compared with the water flux data, which affects the accurate assessment of the variation of water and sediment flux. To solve this problem, the Nearest Neighbor, Linear, Quadratic Spline and Cubic Spline Interpolation methods are used to supplement the data, and the fitting error of the interpolation is compared. The experimental results show that the Cubic Spline Interpolation method is used to minimize the curve error, and the data after interpolation can better predict the future variation trend of water and sediment flux.
Keywords: Big Data processing; Spline Interpolation; time series; trend prediction
0 引 言
水沙通量[1-2]是指單位時間內(nèi)通過河道某一斷面的泥沙量,對其未來變化趨勢預(yù)測的目的是了解未來河流中泥沙的運移情況,為河流管理提供科學(xué)指導(dǎo)。時間序列[3]預(yù)測算法是基于對歷史時間序列數(shù)據(jù)規(guī)律的挖掘,對未來時間序列規(guī)律進行預(yù)測。
本文利用黃河某水文站近6年不同時刻水流量與沙流量的實際監(jiān)測數(shù)據(jù),使用4種插值方法對空缺的監(jiān)測數(shù)據(jù)進行補值,通過擬合曲線圖與誤差分析判斷最優(yōu)的插值方法,并將處理后的數(shù)據(jù)轉(zhuǎn)換成時間序列數(shù)據(jù),基于時間序列模型對水沙通量未來趨勢進行預(yù)測并分析。
1 樣條插值方法
已知待插值函數(shù)數(shù)據(jù)處的函數(shù)值為f(x0),f(x1),…,f(xn),將相鄰兩節(jié)點進行分段,獲得n個插值分段區(qū)間,在各分段區(qū)間內(nèi)使用ɑ次多項式Si(x)插值,使其滿足插值條件的ɑ-1階平滑性:
(1)
(2)
三次樣條插值[4-5]是根據(jù)已知的數(shù)據(jù)點分割為若干段,利用每段數(shù)據(jù)擬合一個三次的插值函數(shù),以此計算出空缺的數(shù)據(jù)點函數(shù)值,得到完整的序列數(shù)據(jù)。該插值方法能實現(xiàn)各分段函數(shù)平滑銜接,適用于填充具有周期性和規(guī)律性的離散數(shù)據(jù)。
已知數(shù)據(jù)集有n+1個數(shù)據(jù)點,則數(shù)據(jù)可以分割得到n個區(qū)間:
對上方每個區(qū)間擬合三次函數(shù),共得到n個三次函數(shù):G(x1),G(x2),…,G(xn-1)。其中,每段的三次函數(shù)定義如下:
(3)
其中,xi表示數(shù)據(jù)集中的第i個數(shù)據(jù)點,i = 1,2,…,n。每個區(qū)間一一對應(yīng)的三次函數(shù)G(x)定義如下:
(4)
其中,方程滿足G(x) = yi,i = 0,1,2,…,n。
在滿足各分段函數(shù)的光滑銜接的條件下,求解方程的系數(shù),通過各段得到的三次插值函數(shù)對空缺值進行補值。
2 基于樣條插值的數(shù)據(jù)預(yù)處理
2.1 實驗數(shù)據(jù)
本文數(shù)據(jù)采用位于小浪底水庫下游黃河某水文站近6年的水位、水流量與含沙量的實際監(jiān)測數(shù)據(jù)。該數(shù)據(jù)集包括2016—2021年共6年間每天不同時刻的水流量和含沙量數(shù)據(jù)值,用于對水沙通量趨勢進行預(yù)測。原始監(jiān)測數(shù)據(jù)由年、月、日、時間、水位、水流量、含沙量共7個特征數(shù)據(jù)列組成。水沙通量為單位時間的含沙量,計算式為:
水沙通量=水流量×含沙量 (5)
實驗數(shù)據(jù)通過每天監(jiān)測采集得到,時間間隔為4小時。其中,2016年1月1日監(jiān)測的數(shù)據(jù)結(jié)構(gòu)如表1所示,含沙量有5個時刻的數(shù)據(jù)是空缺的。
該數(shù)據(jù)集跨度了6年的時間,每年監(jiān)測數(shù)據(jù)情況如表2所示。
由表2可知,每年水流量、含沙量的整體監(jiān)測次數(shù)比較穩(wěn)定,且相較于水流量數(shù)據(jù),監(jiān)測數(shù)據(jù)中的含沙量數(shù)據(jù)存在大量空缺值。若直接對空缺值進行刪除處理,會丟失大量采集到的水流量數(shù)據(jù),且無法準確地對黃河水沙通量歷史數(shù)據(jù)進行最大程度的信息挖掘?;跀?shù)據(jù)特性,考慮對含沙量數(shù)據(jù)進行插值補充,進而獲取完整的水沙通量數(shù)據(jù),再建立水沙通量的時間序列預(yù)測模型。
2.2 數(shù)據(jù)處理
黃河水域含沙量數(shù)據(jù)插值處理的步驟如下:
1)將原始數(shù)據(jù)中的年、月、日、時間這4個特征列信息轉(zhuǎn)換成時序數(shù)據(jù),獲得“時刻—含沙量”實驗數(shù)據(jù)。
2)分別對含沙量實驗數(shù)據(jù)進行最鄰近插值、線性插值、二次樣條插值、三次樣條插值。
3)利用插值擬合曲線均方根誤差和擬合曲線效果,對四種插值方法進行效果評價,選擇最優(yōu)的插值方法對含沙量空缺值進行插值處理。
4)利用水流量數(shù)據(jù)與插值后的含沙量數(shù)據(jù),計算得到水沙通量數(shù)據(jù)。
5)分析水沙通量時間序列數(shù)據(jù)的連續(xù)性及等間距性,按月份生成水沙通量時間序列數(shù)據(jù)。
2.3 插值結(jié)果對比
分別利用表3中4種插值方式,對實驗數(shù)據(jù)中空缺是含沙量進行插值。通過計算每種插值方法所得的6年數(shù)據(jù)插值結(jié)果與實際數(shù)據(jù)的擬合均方根誤差,取6年所得的均方根誤差的平均值作為插值方法的評價準則,從擬合均方根誤差和擬合曲線兩個角度分析各個插值方法的效果。
表3中展示了近5年數(shù)據(jù)分別采用最鄰近、線性、二次樣條、三次樣條進行插值后的擬合誤差??芍?,擬合數(shù)據(jù)中三次樣條插值方法效果都最優(yōu),二次樣條插值方法次之,最鄰近插值效果最差。圖1為2016年數(shù)據(jù)使用4種插值方法的擬合曲線圖及三次樣條插值擬合曲線的片段圖,由圖分析,使用三次樣條插值方法進行補植后,可以獲取更加連續(xù)光滑的時間序列數(shù)據(jù)。
3 時間序列預(yù)測模型
3.1 時間序列分析
基于三次樣條插值的黃河水沙通量時間預(yù)測模型[6-8],主要從時序數(shù)據(jù)的平穩(wěn)性和隨機性兩個角度進行時間序列分析:
1)時間序列平穩(wěn)性?;跀?shù)據(jù)處理得到的月水沙通量時序數(shù)據(jù),繪制時間序列的時序圖和自相關(guān)圖可以查看時間序列平穩(wěn)性。月水沙通量時序數(shù)據(jù)具有明顯的季節(jié)性和年周期性,并整體呈下降趨勢。由原始數(shù)據(jù)自相關(guān)圖體現(xiàn)數(shù)據(jù)有非平穩(wěn)性特性,使用季節(jié)差分是序列數(shù)據(jù)平穩(wěn)化,由差分后的自相關(guān)圖體現(xiàn)差分后的時間序列自相關(guān)圖無拖尾現(xiàn)象,接近于平穩(wěn),可以用于建立季節(jié)性ARIMA模型。
2)單位根和隨機性檢驗。通過單位根檢驗判斷季節(jié)差分后時間序列的穩(wěn)定性,訓(xùn)練模型原始序列的單位根檢驗的pValue值為0.000 867 1,單位根檢驗統(tǒng)計量對應(yīng)的P值顯著小于0.05,由此可以判斷季節(jié)差分后實驗數(shù)據(jù)為平穩(wěn)序列。
通過Python的statsmodels庫內(nèi)部acorr_ljungbox函數(shù)進行檢測時間序列是否為隨機性序列,檢測結(jié)果計算得到的P值為0.000 008,遠遠小于0.05,可知處理后的實驗數(shù)據(jù)是平穩(wěn)非隨機性序列,可用于時間序列模型。
3.2 季節(jié)性ARIMA模型
時間序列預(yù)測模型的原理是從數(shù)據(jù)序列數(shù)據(jù)中挖掘出隨機變量隨時間變化的趨勢,并對未來的數(shù)據(jù)做出預(yù)測[9-10]。通過分析,水沙通量數(shù)據(jù)屬于季節(jié)性的時間序列,故采用季節(jié)性ARIMA模型,即ARIMA(p,d,q)×(P,D,Q)S。其中,S表示季節(jié)周期,p、q表示自回歸和移動平均階數(shù),d表示差分階數(shù),P、Q表示季節(jié)性自回歸和移動平均階數(shù),D表示季節(jié)差分階數(shù)。實驗研究的月度水沙通量數(shù)據(jù)屬于平穩(wěn)季節(jié)性序列,因此季節(jié)周期s = 12,且差分階數(shù)d = 1。
3.3 結(jié)果分析與趨勢預(yù)測
本文使用Python軟件,對數(shù)據(jù)進行插值處理并轉(zhuǎn)換成月度數(shù)據(jù),構(gòu)建基于水沙通量的時間序列預(yù)測模型,預(yù)測黃河流域水沙通量未來的變化趨勢。采用處理后的差分數(shù)據(jù)訓(xùn)練ARIMA模型,讀取AIC值進行模型定階,確定最優(yōu)的P值和q值。其中,實驗過程中p、q兩個參數(shù)分別從0、1、2中任意取值,分別計算ARIMA(p,1,q)中所有組合的AIC值,選擇AIC值最小的組合作為模型最優(yōu)參數(shù)。
本實驗使用網(wǎng)格搜索方法為模型定階,利用定義的三元參數(shù)自動化不同組合對ARIMA模型進行訓(xùn)練和評估。經(jīng)試驗,模型ARIMA(1,1,1)×(1,1,1)12計算得到的AIC值最小,應(yīng)用ARIMA(1,1,1)模型對未來兩年的水沙通量進行預(yù)測,預(yù)測結(jié)果如圖2所示。
圖2繪制的是水通沙量歷史趨勢與未來預(yù)測趨勢,藍色線條是插值補全后2016年至2021年水沙通量的歷史趨勢,橙色線條是基于歷史數(shù)據(jù)建立時間序列預(yù)測模型對2022年至2023年水沙通量未來趨勢的預(yù)測。對圖2進行分析可知,插值處理后的數(shù)據(jù)能更好體現(xiàn)水沙通量的歷史趨勢,基于三次樣條插值處理后的數(shù)據(jù),能用于時間序列預(yù)測模型對水沙通量變化規(guī)律進行預(yù)測,預(yù)測結(jié)果顯示未來兩年的水沙通量依然具有季節(jié)性變化規(guī)律,但整體呈下降趨勢,與歷史數(shù)據(jù)呈同一規(guī)律變化。圖3為水通沙量實際趨勢與預(yù)測趨勢對比圖,由歷史曲線與預(yù)測曲線擬合圖可知,基于樣條插值的時間序列預(yù)測算法對水沙通量趨勢預(yù)測的結(jié)果與實際趨勢一致,算法能對未來趨勢做出準確的預(yù)測,并為評估水沙通量整體變化趨勢做出有效決策。
4 結(jié) 論
本文對黃河水域監(jiān)測數(shù)據(jù)中的空缺值進行了插值與分析,基于不同插值方法的插值結(jié)果繪制擬合曲線進行可視化對比分析,并計算各均方根誤差進行對比,利用時間序列預(yù)測算法進行了檢驗。結(jié)果表明,三次樣條插值方法對具有曲線規(guī)律的空缺數(shù)據(jù)集插值效果最優(yōu)。將樣條插值的水沙通量時間序列預(yù)測算法應(yīng)用在其他大數(shù)據(jù)處理上,既能保證原始數(shù)據(jù)不受影響的情況下,又能最大程度獲取數(shù)據(jù)信息,使得時間序列預(yù)測模型具有更好的算法性能。
參考文獻:
[1] 王俊杰,拾兵,巴彥斌.近70年黃河入海水沙通量演變特征 [J].水土保持研究,2020,27(3):57-62+69.
[2] 左書華,楊春松,付桂,等.長江口入海水沙通量變化及其影響分析 [J].海洋地質(zhì)前沿,2022,38(11):56-64.
[3] 李文,陳佳偉,劉瑞雪,等.張量時間序列預(yù)測T-Transformer模型 [J].計算機工程與應(yīng)用,2023,59(11):57-62.
[4] 唐錦萍.三次樣條插值及其在第一類積分方程求解中的應(yīng)用 [J].大學(xué)數(shù)學(xué),2022,38(1):5-10.
[5] 吳碩琳,李亞娟,鄧重陽.基于PIA的非均勻三次B樣條曲線Hermite插值 [J].計算機學(xué)報,2023,46(11):2463-2475.
[6] 解建倉,王玥,雷社平,等.基于ARIMA模型的大壩安全監(jiān)測數(shù)據(jù)分析與預(yù)測 [J].人民黃河,2018,40(10):131-134.
[7] 周坤,許云飛,祁浩偉.基于改進ARIMA的新能源發(fā)電短期動態(tài)調(diào)度模型 [J].電腦與信息技術(shù),2024,32(1):56-61.
[8] 屠立峰,包騰飛,李月嬌,等.基于分形插值的ARIMA大壩預(yù)警模型 [J].三峽大學(xué)學(xué)報:自然科學(xué)版,2015,37(1):29-32.
[9] 殷文祥.時間序列概率預(yù)測分析研究 [D].北京:北京郵電大學(xué),2023.
[10] 郭佳俊.季節(jié)性時間序列調(diào)整與預(yù)測研究 [D].咸陽:西北農(nóng)林科技大學(xué),2023.
作者簡介:張穎(1995—),女,漢族,廣東茂名人,助教,碩士,研究方向:數(shù)據(jù)挖掘、機器學(xué)習(xí);楊廷堯(1990—),男,漢族,黑龍江牡丹江人,高級會計師,碩士,研究方向:大數(shù)據(jù)、會計學(xué)。