于詢鵬,仇東山,曹美
(1.濟(jì)南市水文中心,山東 濟(jì)南 250014;2.濟(jì)南眾聯(lián)電子科技有限公司,山東 濟(jì)南 250100)
濟(jì)南城區(qū)泉水噴涌點(diǎn)主要包含趵突泉泉群、黑虎泉泉群、五龍?zhí)度骸⒄渲槿核拇笕?,泉水可持續(xù)噴涌是濟(jì)南作為旅游城市以及生態(tài)文明城市建設(shè)重要的體現(xiàn)。濟(jì)南市水文中心自2010 年承擔(dān)濟(jì)南市四大泉群水位流量監(jiān)測任務(wù),目前已積累了大量的泉水監(jiān)測數(shù)據(jù)。文章利用機(jī)器學(xué)習(xí)方法對四大泉群水位流量進(jìn)行回歸分析,并評價(jià)分析多種算法對回歸數(shù)據(jù)的可靠性和準(zhǔn)確性,以得出最優(yōu)的回歸方程式,便于進(jìn)行泉群出水量的預(yù)測。
目前機(jī)器學(xué)習(xí)算法主要包括有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)。前者主要應(yīng)用在分類和回歸任務(wù),后者主要應(yīng)用在聚類任務(wù),針對泉群地下水位和流量回歸分析屬于典型的有監(jiān)督學(xué)習(xí)。目前,傳統(tǒng)的水文流量推算是根據(jù)實(shí)測水位流量數(shù)據(jù)進(jìn)行簡單的曲線擬合,但擬合精度較差,通過機(jī)器學(xué)習(xí)可極大提高擬合精度和效率。本文分別通過機(jī)器學(xué)習(xí)的線性回歸、梯度下降、嶺回歸、水文模型等算法對歷史樣本數(shù)據(jù)進(jìn)行分析,并比較各算法預(yù)測成果的優(yōu)劣。
數(shù)據(jù)分析平臺(tái)采用Python 編程語言,開發(fā)環(huán)境采用Anaconda Jupyter notebook,機(jī)器算法使用Scikit-learn(sklearn)、Numpy 和Pandas 等分析庫,圖形庫選用Seaborn、matplotlib。
自2010 年開始進(jìn)行四大泉群的流量監(jiān)測,所有樣本數(shù)據(jù)選用2010—2021 年12 年的監(jiān)測數(shù)據(jù),實(shí)測水位流量數(shù)據(jù)期間的趵突泉地下水位選用濟(jì)南城鄉(xiāng)水務(wù)局趵突泉地下水位觀測井遙測數(shù)據(jù),樣本數(shù)據(jù)采集曲線見圖1、圖2。
圖1 趵突泉、黑虎泉地下水位數(shù)據(jù)
圖2 趵突泉地下水位與泉群日流量實(shí)測數(shù)據(jù)
由圖1、圖2 可知,水位數(shù)據(jù)分別在高中低水位都有分布,樣本數(shù)據(jù)選擇合理,實(shí)測流量數(shù)據(jù)與趵突泉地下水位呈明顯的線性分布。本次趵突泉、黑虎泉地下水位數(shù)據(jù)樣本量4 320個(gè),實(shí)測流量數(shù)據(jù)樣本量544個(gè),趵突泉地下水位分布區(qū)間27.16~30.18 m,平均水位28.30 m,黑虎泉地下水位分布區(qū)間27.12~30.46 m,平均水位28.27 m,四大泉群總出水流量數(shù)據(jù)分布區(qū)間0.14~4.59 m3/s,日出水量分別為1.24~39.6 萬m3,平均日出水量16.3 萬m3。
從實(shí)測數(shù)據(jù)樣本中分別選取趵突泉地下水位和泉群總出水流量作為相關(guān)性分析變量,使用Seaborn 庫中的API 函數(shù)regplot 進(jìn)行相關(guān)分析,見圖3。
圖3 趵突泉水位與泉群出水流量實(shí)測數(shù)據(jù)
通過計(jì)算可知,趵突泉水位與泉群流量相關(guān)系數(shù)為0.952 6,趵突泉水位與黑虎泉水位相關(guān)系數(shù)為0.966 8。從樣本數(shù)據(jù)散點(diǎn)圖和相關(guān)性計(jì)算結(jié)果可以看出趵突泉地下水位與泉群流量以及趵突泉與黑虎泉具有高度正相關(guān)性,兩者的相關(guān)系數(shù)分別達(dá)到0.95 和0.96 以上,可以進(jìn)行回歸預(yù)測分析。
整合自2010 年7 月至2021 年10 月之間所有的實(shí)測數(shù)據(jù),根據(jù)實(shí)測日期讀取相同日期對應(yīng)的趵突泉地下水位,分別計(jì)算每個(gè)測次泉群各個(gè)出水?dāng)嗝娉鏊髁?,合?jì)為四大泉群總出水流量,個(gè)別缺測斷面數(shù)據(jù)使用相同水位下的實(shí)測值填充,樣本數(shù)據(jù)整合結(jié)果見表1。
表1 樣本數(shù)據(jù)整合結(jié)果表 m3/s
假設(shè)趵突泉地下水位與泉群總出水流量的線性方程為y=β0+β1x+ε,其中x 為因變量趵突泉水位,y 為自變量泉群總流量,β0為截距,β1為權(quán)重系數(shù),ε 為誤差項(xiàng),實(shí)測樣本數(shù)據(jù)利用最小二乘法擬合期望值,使每個(gè)實(shí)測流量點(diǎn)到擬合直線的離差平方和最小,并通過推導(dǎo)求出β0、β1的估計(jì)值,方程式如下:
分別從sklearn 庫中導(dǎo)入回歸分析所用的函數(shù)庫,并使用sklearn 庫中的函數(shù)對擬合直線進(jìn)行MSE(均方差)、R-square(確定系數(shù))的計(jì)算,以確實(shí)各種回歸模型的優(yōu)劣,本數(shù)據(jù)分析使用以下sklearn 庫。
1)劃分訓(xùn)練集及測試集:from sklearn.model_selection import train_test_split。
2)數(shù)據(jù)歸一化處理:from sklearn.preprocessing import StandardScaler。
3)線性正規(guī)方程:from sklearn.linear_model import LinearRegressio。
4)嶺回歸:from sklearn.linear_model import Ridge。
5)梯度下降:from sklearn.linear_model import SGDRegressor。
此外,通過把資料整編率定的水文模型lnQ=0.167+1.015 ln(ΔZ)納入到評估體系中,其中ΔZ為因變量,是泉群斷流趵突泉水位線的高程差,初步確定為26.7 m。把實(shí)測流量樣本數(shù)據(jù)分割為訓(xùn)練集和測試集,其中測試集分割為總樣本數(shù)的20%,分別把測試集數(shù)據(jù)代入到各個(gè)回歸模型中,并返回回歸方程,把測試集數(shù)據(jù)導(dǎo)入模型預(yù)測函數(shù),并生成預(yù)測值,最后,把預(yù)測值與實(shí)測值進(jìn)行平均誤差、MSE(均方差)、R2(確定系數(shù))計(jì)算,來評估各個(gè)回歸模型的擬合效果。各回歸模型預(yù)測評估結(jié)果見表2。
表2 各回歸模型預(yù)測評估結(jié)果表
根據(jù)以上各回歸模型預(yù)測評估結(jié)果可以看出,平均誤差、均方差、確定系數(shù)(R2)都相差不大,但從確定系數(shù)(R2)來評估各模型優(yōu)劣,線性正規(guī)方程擬合效果最好,分別用測試集和各模型的預(yù)測值進(jìn)行回歸曲線模擬。
其中中高水?dāng)M合較好,低水預(yù)測值較實(shí)測值偏高,主要是因?yàn)樵诘退诟鞒鏊當(dāng)嗝媪髁亢苄?,受系統(tǒng)誤差、隨機(jī)誤差影響較明顯,并且黑虎泉白石橋斷面受下游船閘蓄防水影響較大。
根據(jù)2010—2021 年趵突泉水位時(shí)間序列,同時(shí)把水位曲線和根據(jù)實(shí)測水位預(yù)測泉群流量放置在一張圖上,見圖4,可直觀顯示各次實(shí)測流量與預(yù)測流量的比較,整體預(yù)測曲線擬合較好。
圖4 水位曲線與實(shí)測水位預(yù)測泉群流量擬合圖
通過以上數(shù)據(jù)分析可以得出:趵突泉地下水位與四大泉群總流量具有高度線性相關(guān)性。通過機(jī)器學(xué)習(xí)對原始實(shí)測資料回歸分析,計(jì)算出趵突泉水位和泉群流量的線性方程式,模型庫可在實(shí)際工作中通過數(shù)據(jù)接口實(shí)時(shí)讀取遠(yuǎn)端數(shù)據(jù)庫趵突泉地下水位信息,快捷高效計(jì)算出泉群出水流量,便于水位流量預(yù)測分析以及泉水利用。此外,隨著高中低水位實(shí)測流量頻次的不斷增加,可實(shí)時(shí)導(dǎo)入進(jìn)預(yù)測分析模型,逐步提高回歸模型預(yù)測準(zhǔn)確度。