蔣仲廉 劉培豪 鐘 誠 余 珍 李 博
(武漢理工大學(xué)國家水運安全工程技術(shù)研究中心1) 武漢 430063) (武漢理工大學(xué)交通學(xué)院2) 武漢 430063) (長江航道規(guī)劃設(shè)計研究院3) 武漢 430040) (武漢工程職業(yè)技術(shù)學(xué)院4) 武漢 430415)
水位數(shù)據(jù)在水運工程中具有重要作用.在水位觀測中,由于一些儀器故障或人為原因,水位數(shù)據(jù)的完整性難以得到有效保障[1].在現(xiàn)有的水位數(shù)據(jù)修復(fù)方法中,線性插值方法,如拉格朗日插值法、牛頓插值法、Hermite插值法、三次樣條插值法等[2]是較為常用的方法.此外,還有基于潮汐學(xué)理論的潮汐調(diào)和方法,通過潮汐的正余弦函數(shù)分解,對其多階導(dǎo)進行平滑修正,在感潮河段的潮位分析中得到了廣泛應(yīng)用.在水位時間序列相關(guān)關(guān)系上,唐巖等通過余水位的空間相關(guān)性,對潮高模型進行了精化修復(fù)[3].
內(nèi)河航道由于受地形、天氣、匯流及分流等眾多因素的影響,其季節(jié)性、周期性等特征變化幅度較大,故上述方法在內(nèi)河水位數(shù)據(jù)修復(fù)、預(yù)測中的適用性有待進一步提升.水位數(shù)據(jù)本質(zhì)上屬于時間序列數(shù)據(jù),時間序列是將某種統(tǒng)計指標的數(shù)值,按時間先后順序排列所形成的數(shù)列,時間序列分析就是從時間序列數(shù)據(jù)的分析中尋找其所具有的時序性和規(guī)律性,根據(jù)時間序列所反映出來的發(fā)展過程、方向和趨勢,進行類推或延伸,借以預(yù)測下一段時間可能達到的水平,其數(shù)據(jù)本身已經(jīng)為建模提供了足夠的信息量,因而,時序分析方法可在內(nèi)河水位預(yù)測上能取得較好的效果[4-5].
指數(shù)平滑法是生產(chǎn)預(yù)測中常用的一種時間序列分析預(yù)測法,作為趨勢外推法的一種,指數(shù)平滑法不同于一般的移動平均法(ARIMA).移動平均法中,近期資料對預(yù)測結(jié)果的影響要大于遠期資料,且越近期的資料對結(jié)果影響越大[6].而指數(shù)平滑法在此基礎(chǔ)上,對各期的數(shù)據(jù)按一定的規(guī)律賦予權(quán)數(shù),越近期的數(shù)據(jù),權(quán)重越大;而對于遠期的數(shù)據(jù),則僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠離,賦予它們逐漸收斂為零的權(quán)數(shù).
基于上述分析,本文提出一種基于改進指數(shù)平滑法的內(nèi)河水位預(yù)測方法.在修復(fù)過程中,對指數(shù)平滑法的單向預(yù)測過程進行了改進,引入正反雙向預(yù)測,并對正反向結(jié)果進行加權(quán)求和,最終實現(xiàn)內(nèi)河航道水位預(yù)測.通過長江中游水位站日均水位數(shù)據(jù)驗證,結(jié)果表明本文方法穩(wěn)定可靠,可有效實現(xiàn)長江等內(nèi)河干線航道水位數(shù)據(jù)修復(fù)與預(yù)測.
根據(jù)平滑次數(shù)不同,指數(shù)平滑預(yù)測分為一次指數(shù)平滑預(yù)測、二次指數(shù)平滑預(yù)測和三次指數(shù)平滑預(yù)測.它們的基本原理都是預(yù)測值是對以前觀測值的加權(quán)和,且對不同的數(shù)據(jù)給予不同的權(quán),新數(shù)據(jù)給較大的權(quán),舊數(shù)據(jù)給較小的權(quán).基本公式為
St,1=αyt+(1-α)St-1,1
(1)
St,2=αSt,1+(1-α)St-1,2
(2)
St,3=αSt,2+(1-α)St-1,3
(3)
式中:St為t時刻的平滑值;yt為t時刻的實際值;St,1、St,2、St,3分別為一次、二次和三次指數(shù)平滑值;α為平滑系數(shù),取值范圍[0,1].設(shè)次數(shù)為3,則三次指數(shù)平滑預(yù)測的表達式為
yt+m=at+btm+ctm2
(4)
式中:yt+m為第t+m時刻的預(yù)測值;at,bt,ct均為t時刻的參數(shù),其值為
at=3St,1-3St,2+St,3
(5)
(6)
(7)
將指數(shù)平滑法用于缺失數(shù)據(jù)修復(fù)時,通常采用單向的修復(fù)方法.本文在單向指數(shù)平滑方法基礎(chǔ)上,充分利用缺失點前后趨勢,對待修復(fù)數(shù)據(jù)進行正反雙向預(yù)測,并通過正反向預(yù)測結(jié)果進行加權(quán)平均,實現(xiàn)預(yù)測結(jié)果修正,提高預(yù)測精度.雙向指數(shù)平滑法的預(yù)測流程見圖1.
圖1 雙向指數(shù)平滑法流程圖
指數(shù)平滑法的計算中,平滑系數(shù)α的取值十分重要,它反映了不同時期的歷史數(shù)據(jù)對指數(shù)平滑值的影響.平滑系數(shù)α的取值范圍在0~1,平滑系數(shù)越大,近期實際值對本期平滑值的影響越大.α的取值依賴與時間序列的平穩(wěn)性,當時間序列呈平穩(wěn)趨勢時,α取值較小,反之,時間序列有較大波動時α取值增大.
時間序列的平穩(wěn)性檢驗常用辦法有ADF均方根檢驗方法.取長江安慶段2016年水位數(shù)據(jù)進行ADF均方根檢驗,其結(jié)果見表1.
表1 均方根檢驗結(jié)果表
在ADF檢驗結(jié)果中,0為非穩(wěn)定序列,1為穩(wěn)定序列.其中原始數(shù)據(jù)檢驗結(jié)果表明原始水位序列并非平穩(wěn)數(shù)據(jù),一階差分及二階差分結(jié)果均通過ADF檢驗,表明數(shù)據(jù)在部分區(qū)間段內(nèi)有抖動情況,但抖動程度并不劇烈.由水位序列數(shù)據(jù)特性分析,應(yīng)選取較小的平滑系數(shù)[7].分別取平滑系數(shù)α=0.2,0.3和0.4進行試算[8],對安慶段2016年水位數(shù)據(jù)進行擬合,擬合情況見圖2.在長江中下游段,其水位抖動不劇烈的情況下,α取值0.3時有較好的擬合結(jié)果.
圖2 平滑系數(shù)擬合曲線
初始值的估算對于指數(shù)平滑法最終結(jié)果具有較大影響.初始值的選取方法主要有兩種,對于已有樣本的平均及擬合[9].當樣本數(shù)據(jù)量較大時,擬合方法更為精確,其具體過程如下.
對于缺失部分,首先獲取其對應(yīng)的歷史數(shù)據(jù),然后根據(jù)式(4),對前三個已知數(shù)據(jù)進行擬合.此時,t= 0,將m= 1,2,3代入,用實際水位代替預(yù)測值,即
a0+b0+c0=y1
a0+2b0+4c0=y2
a0+3b0+9c0=y3
(8)
求解上述方程組得出a0,b0,c0,再將a0,b0,c0代入式(5)~(7),結(jié)合數(shù)據(jù)特征選取適當?shù)钠交禂?shù)α,解方程組即可得出初始值S0,1,S0,2,S0,3.
由于時間序列特性,水位數(shù)據(jù)序列中任意數(shù)據(jù)前后數(shù)據(jù)均與該數(shù)據(jù)存有一定的相關(guān)關(guān)系.常用的單向預(yù)測方法可有效利用正向相關(guān)關(guān)系對數(shù)據(jù)進行預(yù)測,而反向關(guān)系經(jīng)常被忽略.為充分利用已知數(shù)據(jù),提高預(yù)測精度,由缺失部分之后的數(shù)據(jù)對丟失數(shù)據(jù)進行反向預(yù)測,并對雙向預(yù)測結(jié)果進行加權(quán)求和.雙向預(yù)測過程如下.
設(shè)有水位數(shù)據(jù)序列x={x1,x2,…,xn},其中待修復(fù)數(shù)據(jù)點為xk,正向預(yù)測為以{x1,x2,…,xk-1}為預(yù)測數(shù)據(jù)集,由指數(shù)平滑公式得到正向預(yù)測結(jié)果yl,以{xn,xn-1,…,xk+1}為數(shù)據(jù)集,對待修復(fù)點進行反向預(yù)測,可得預(yù)測結(jié)果yr.
yr=ar+brm+crm2
(10)
yl=al+blm′+clm′2
(11)
對正反向預(yù)測結(jié)果進行加權(quán)求和,采用均值求和方式,最終預(yù)測結(jié)果表達為
(12)
為驗證基于雙向指數(shù)平滑法的水位數(shù)據(jù)修復(fù)方法的有效性,以長江安慶段2016年7—8月水位數(shù)據(jù)為樣本進行驗證.其中水位數(shù)據(jù)為每日上午8時的實測水位,見圖3.
圖3 安慶水位示意圖(2016年7-8月)
以前15個水位數(shù)據(jù)為已知數(shù)據(jù),假設(shè)之后的一段數(shù)據(jù)為水位數(shù)據(jù)的連續(xù)缺失段.同時通過二次曲線擬合法得到三次指數(shù)平滑法的初始值分別為S0,1=12.995 0,S0,2=12.416 7,S0,3=11.675.反向預(yù)測的平滑系數(shù)選擇方法類似,此處不再贅述.在MATLAB平臺上,采用三次指數(shù)平滑法的雙向預(yù)測模型,取正反雙向預(yù)測值的平均值作為修正,對不同長度的缺失段數(shù)據(jù)進行驗證.實驗結(jié)果見圖4~7.
圖4 缺失2個點時修復(fù)結(jié)果
圖5 缺失3個點時修復(fù)結(jié)果
圖6 缺失4個點時修復(fù)結(jié)果
為驗證實驗結(jié)果,引入均方根誤差(RMSE)、平均百分比誤差(MAPE)以及模型決定系數(shù)(R2)對實驗結(jié)果進行評價,其中均方根誤差表示模型輸出的平均誤差,百分比誤差表示輸出的百分比誤差,決定系數(shù)代表模型的擬合好壞程度,其值越高,模型的擬合程度越好.
評價指標具體公式為
(13)
(14)
式中:Xobs為原始水位數(shù)據(jù);Xmodel為模型預(yù)測數(shù)據(jù).以下分別以連續(xù)缺失三個數(shù)據(jù)和五個數(shù)據(jù)為例,取安慶段和南京段足量水位數(shù)據(jù)進行雙向修復(fù)實驗,其結(jié)果由三類評價指標進行評價,見表2.
表2 修復(fù)結(jié)果
由表2可知,基于雙向平滑指數(shù)的水位數(shù)據(jù)修復(fù)方法,在修復(fù)精度上,比正向及反向的單向方法均有提升;隨著連續(xù)修復(fù)點數(shù)的增加,精度提升的數(shù)值逐漸增大.在修復(fù)點數(shù)為3時,均方跟誤差約減少0.05 m,百分比誤差降低0.5%.在修復(fù)點數(shù)增加至5時,均方跟誤差降低約0.1米,百分比誤差降低約1%,在模型擬合精度上均有所提升.
指數(shù)平滑法作為常用的數(shù)據(jù)修復(fù)方法之一,對于受多種因素共同影響的復(fù)雜時間序列,直接從數(shù)據(jù)本身分析其變化趨勢,具有簡單易行的優(yōu)點.對于三次指數(shù)平滑預(yù)測方法進行改進的基礎(chǔ)上,將其應(yīng)用于內(nèi)河水位數(shù)據(jù)修復(fù);通過雙向預(yù)測方法,對結(jié)果進行修正,有效地提高了水位數(shù)據(jù)修復(fù)精度.
實驗結(jié)果表明:基于雙向指數(shù)平滑的水位數(shù)據(jù)算法對內(nèi)河水位數(shù)據(jù)的修復(fù)結(jié)果良好,精度較單向指數(shù)平滑法有較大提升;對于多點修復(fù)與預(yù)測,方雙向指數(shù)平滑方法具有較強的適應(yīng)性.目前,雙向方法的求和權(quán)重采用了平均值求和的方法;根據(jù)正、反向預(yù)測的擬合優(yōu)劣程度,是否有更好的權(quán)重求取方法,將是未來深化研究的方向之一.