蘇 仁,旦木仁加甫
(1.新疆巴音郭楞水文勘測局,新疆 庫爾勒 841000;2.新疆水文局,新疆 烏魯木齊 830000)
每年年初,政府水行政主管部門要求提供河流汛期(4—9月)來水定性預報成果,由于新疆河流汛期來水集中度高(如黃水溝汛期來水占年水量的77%)、變幅大、隨機性強,加之水文站網(wǎng)密度又稀少,導致預報精度不高。本文采用K-均值聚類分析和逐步回歸周期分析技術(shù),用黃水溝水文站歷年汛期逐月流量建立預報模型,對建模期外的次年汛期逐月流量進行定性預報,確保有效提高預報精度。
K-均值聚類分析技術(shù)常用于樣本數(shù)據(jù)的聚類分型,該技術(shù)主要特點是對大樣本資料指定聚類數(shù)并實現(xiàn)快速聚類,可由SPSS統(tǒng)計軟件實現(xiàn)聚類分型:按指定的聚類數(shù)和距離最近原則對樣本數(shù)據(jù)進行初始聚類分型,再進行迭代計算,直到達到聚類終止條件時的分型即為最終聚類成果。把各樣本數(shù)據(jù)聚類分型值按時間順序排列,即為用于定性預報的類型值序列。
用逐步回歸周期分析技術(shù)進行定性預報:對統(tǒng)計年限為n的類型值序列Y(t)(t為時間),取m為n/2的整數(shù),k=2、3、…、m+1,采用周期均值疊加法得到m個周期(長度為不同k),把每個周期的振幅值排列為m個長度為n的序列;然后用逐步回歸法對Y(t)與m個周期序列進行回歸分析,通過最終引進和剔除雙重檢驗的各周期序列就是Y(t)不同長度k的周期。預報模型為:
Y(t)=A+∑Ai×Xi(t)+ξ(t)
(1)
式中,i—周期總數(shù);A、Ai—常數(shù)項和回歸系數(shù);Xi(t)—Y(t)通過統(tǒng)計檢驗的不同長度k的周期;ξ(t)—噪聲項。
將通過統(tǒng)計檢驗的各周期振幅外延值代入(1)式,便計得相應(yīng)的類隸屬定性預報值。
對黃水溝水文站1955—2019年汛期逐月流量過程進行K-均值聚類分析:根據(jù)表1所建的SPSS數(shù)據(jù)文件,依次單擊菜單“分析→分類→K-均值聚類分析”,在彈出的K-均值聚類分析對話框中把逐月流量和相應(yīng)年份分別選入變量和個案標記依據(jù)列表框,選擇“迭代與分類”方法,設(shè)置“聚類數(shù)”為2;在迭代對話框中,設(shè)置迭代聚類上限為20,迭代聚類終止條件(即收斂標準)為0.01;在保存、統(tǒng)計量對話框中分別選用“聚類成員”、“每個個案的聚類信息”,其余均選用默認選項。最后通過4次迭代達到了聚類終止條件。
表1 黃水溝水文站汛期(4—9月)逐月流量過程
SPSS輸出的統(tǒng)計分析結(jié)果如下。
(1)初始聚類中心
SPSS系統(tǒng)自動指定的2個初始類中心點見表2,其代表性不是最好,需要通過迭代過程尋找更好的類中心點來代替初始類中心點。
表2 初始聚類中心
(2)迭代歷史記錄
2個類中心每次迭代時的變化記錄見表3,第4次迭代后2個類中心點變化均接近或小于指定的收斂準則(0.01),達到聚類結(jié)果的要求,聚類分析結(jié)束。
表3 迭代歷史記錄
(3)K-均值聚類分析的類成員
黃水溝水文站汛期(4—9月)逐月流量過程聚類成果見表4,分1、2兩類,Y(t)列是類型值序列。
表4 黃水溝水文站汛期(4—9月)逐月流量過程聚類成果
(4)最終聚類中心
2個類的最終聚類中心見表5,可見,第1類各指標數(shù)值相對來講較高,第2類較低。
由于黃水溝水文站汛期(4—9月)水量占年水量比例高達77%,集中度高,所以汛期水量與年水量的豐枯性是相對一致或同步的,由表5可見,類1、2多年平均年徑流量分別是4.718×108m3和2.603×108m3,與黃水溝水文站多年平均年徑流量2.993×108m3相比,類1年徑流量顯著偏豐,類2則顯著偏枯,所以可以明確:類1汛期(4—9月)逐月流量過程呈現(xiàn)正常偏豐的特點,類2則呈現(xiàn)正常偏枯的特點。
表5 最終聚類中心
(5)類成員樣本數(shù)
表6顯示2個類的類成員樣本數(shù)情況,其中,第1類有12個汛期(4—9月)流量過程樣本,第2類有53個。
表6 每個聚類中的樣本數(shù)
用逐步回歸周期分析技術(shù)從表4類型值序列Y(t)中計得6個周期,見表7,其中X1(t)、X2(t)、X3(t)、X4(t)、X5(t)、X6(t)分別是長度為29、21、17、13、30、18年的第一、二、三、四、五、六周期序列(樣本容量n均為65),表內(nèi)數(shù)值即為相應(yīng)振幅。Y(t)具體預報模型為:
表7 逐步回歸周期分析及擬合計算成果表
Y′(t)=A+∑Ai×Xi(t)
(2)
式中,Y′(t)是Y(t)的擬合值,i=1、2、…、6時,模型常數(shù)項和回歸系數(shù)依序為:A=-3.2232,A1=0.5720,A2=0.5392,A3=0.4310,A4=0.5908,A5=0.3243,A6=0.3181。
F檢驗:n=65、信度α=0.001時,F(xiàn)=43.06>F(0.001)=4.40,通過相應(yīng)信度的F檢驗,說明模型回歸系數(shù)Ai為0的假設(shè)不成立,有統(tǒng)計學意義。
表7中W(t)是黃水溝水文站1955—2019年類型值序列Y(t)與相應(yīng)擬合值Y′(t)之間的相對誤差,其中Y′(t)由(2)式計得;若|W(t)|≤20%為合格,由表7可見,在65年擬合檢驗期內(nèi),僅1996、2007、2019年不合格,其它年份均合格,合格率高達95.4%,說明擬合的非常好,式(1)中ξ(t)已很平穩(wěn),計得的6個周期是有效的。
對Y(t)序列,取t為2020年時,對應(yīng)6個周期的外延振幅依次是2、1.67、2、1.8、2和1.67,代入預報模型(2)式得Y′(2020)=1.92,與類型值1相差很大,而與類型值2十分接近,表明黃水溝水文站2020年汛期(4—9月)逐月流量過程大概率地屬于類型值序列中的第2類,即呈現(xiàn)正常偏枯特點的可能性較大。表8是2020年汛期逐月流量實況與類隸屬的判斷,可見,2020年各月平均流量與類1、2流量均值相比,僅4月與類1相近,其余5個月與類2相近,表明呈現(xiàn)正常偏枯特點的定性預報總體正確。
表8 2020年汛期(4—9月)逐月流量實況與類隸屬的判斷 單位:m3/s
(1)僅用黃水溝水文站本站歷年汛期逐月流量過程分型與建模,并對次年汛期來水類隸屬進行定性預報,既不受河流汛期來水集中度高、變幅大、隨機性強的影響,又規(guī)避了水文站網(wǎng)稀少現(xiàn)狀的制約。
(2)類型值預報模型通過了信度為0.001的F檢驗,說明有統(tǒng)計學意義。
(3)|W(t)|≤20%為合格時,在65年擬合檢驗期內(nèi),合格率高達95.4%,擬合很好,表明計得的6個周期是有效的。
(4)從2020年汛期逐月流量實況與類隸屬的判斷來看,僅4月定性預報不合格,其余5個月均合格,表明定性預報總體正確,本文所述聚類分型與類型值預報的技術(shù)適用于長期水文定性預報。