黃偉建 張麗娜 黃遠 程瑤
摘 ?要: 根據(jù)已監(jiān)測到的水質(zhì)數(shù)據(jù)進行預測一直是河流水質(zhì)管理的重要組成部分,其中河流營養(yǎng)鹽濃度是影響水質(zhì)的根本因素。文中研究RBF神經(jīng)網(wǎng)絡在河流營養(yǎng)鹽濃度預測中的適用性,并與傳統(tǒng)的時間序列預測模型:ARIMA進行比較。以朱衣河為研究對象,對河流營養(yǎng)鹽主要成分之一的磷酸鹽濃度進行預測。通過采集到的時間序列數(shù)據(jù)對兩種預測模型進行仿真,并通過平均誤差和均方誤差的比較,證明基于RBF神經(jīng)網(wǎng)絡的時間序列預測模型具有較強的預測精度和良好的推廣價值能力,在河流營養(yǎng)鹽預測中有較高的實用性。
關(guān)鍵詞: RBF神經(jīng)網(wǎng)絡; 營養(yǎng)鹽濃度; 磷酸鹽濃度預測; ARIMA; 仿真模型; 誤差分析
中圖分類號: TN711?34; TP39 ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)20?0156?04
Application of RBF neural network in river nutritive salt prediction
HUANG Weijian1, ZHANG Lina1, HUANG Yuan1, CHENG Yao2
(1. School of Information and Electrical Engineering, Hebei University of Engineering, Handan 056038, China;
2. School of Water Resources and Hydropower, Hebei University of Engineering, Handan 056038, China)
Abstract: River nutritive salt concentration is a fundamental factor affecting water quality. The applicability of RBF neural network in river nutrient concentration prediction is studied and compared with traditional time series prediction model: ARIMA. Taking Zhuyi River as the research object, the phosphate concentration is predicted, which is one of the main components of river nutritive salt. The simulation test of the two prediction models was carried out with the collected data of time series. By comparing average error with mean square error, it is proved that the time series prediction model based on RBF neural network has high prediction accuracy, high romotional value and better applicability in prediction of river nutritive salt.
Keywords: RBF neural network; nutritive salt concentration; phosphate concentration prediction; ARIMA; simulation model; error analysis
0 ?引 ?言
隨著大數(shù)據(jù)分析技術(shù)的不斷成熟,人們發(fā)現(xiàn)時間序列預測方法應用性極強,它不涉及數(shù)據(jù)產(chǎn)生的背景,任何可用時間序列表示的信息,均可用時間序列分析理論進行預測[1]。因此,有學者將時間序列預測方法中ARIMA預測模型(自回歸積分滑動平均模型)應用到水質(zhì)預測中,發(fā)現(xiàn)該模型既考慮了水質(zhì)數(shù)據(jù)的隨機波動的干擾性,又考慮了數(shù)據(jù)在時間序列上的依存性[2]。由于ARIMA預測模型通常適用于存在線性關(guān)系的數(shù)據(jù),而河流營養(yǎng)鹽濃度數(shù)據(jù)雖然有著時間上的依存性,但卻是一種非線性時序數(shù)據(jù)。因此,ARIMA預測模型得到的預測結(jié)果并不理想。
為克服該缺陷,進一步提高預測精度,有學者發(fā)現(xiàn)將可以逼近任意非線性函數(shù)的人工神經(jīng)網(wǎng)絡技術(shù)與時間序列進行結(jié)合的預測模型,可以達到較高的預測精度[3];而且人工神經(jīng)網(wǎng)絡對任意函數(shù)具有自組織、自學習的能力,同時隱含層神經(jīng)元采用了激活函數(shù),使其具有非線性映射功能,可以逼近任意非線性函數(shù)[4]。其中,徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡除具有極強的非線性映射能力,還有良好的泛化能力,網(wǎng)絡結(jié)構(gòu)簡單,學習速度比一般網(wǎng)絡快等優(yōu)勢[5],在其他領(lǐng)域也得到了廣泛的應用[6?9]。故本文采用基于RBF神經(jīng)網(wǎng)絡的時間序列預測模型,對影響朱衣河水質(zhì)的磷酸鹽濃度數(shù)據(jù)進行預測,以期得到精確度較高的預測結(jié)果,為水質(zhì)管理決策提供數(shù)據(jù)依據(jù)。
1 ?RBF神經(jīng)網(wǎng)絡
1.1 ?RBF網(wǎng)絡
徑向基函數(shù)(RBF)網(wǎng)絡是一種向前網(wǎng)絡,它以函數(shù)逼近理論為基礎(chǔ),能夠逼近任意非線性的函數(shù),同時具有很好的泛化能力和較快的學習速度。RBF神經(jīng)網(wǎng)絡由輸入層、隱含層、輸出層組成。輸入層由輸入節(jié)點組成,只傳遞輸入信號到隱含層;隱含層由神經(jīng)元的變換函數(shù),如高斯函數(shù)、格林函數(shù)等輻射狀作用函數(shù)構(gòu)成,其中隱含層節(jié)點數(shù)由問題的實際需求來確定;輸出層是對輸入的響應,由輸入節(jié)點組成。
RBF網(wǎng)絡的主要思想是:將輸入數(shù)據(jù)直接映射到隱含層空間,用徑向基函數(shù)作為隱單元的“基”構(gòu)成隱含層的空間,在此空間對輸入數(shù)據(jù)進行變換,將在低維空間中的非線性數(shù)據(jù)變換為高維空間內(nèi)線性可分。這種非線性的映射關(guān)系,通過徑向基函數(shù)的中心點來確定。輸出層則是通過隱含層的線性映射得到的,即網(wǎng)絡的輸出是隱含層神經(jīng)單元輸出的線性加權(quán)和。具體結(jié)構(gòu)如圖1所示。
由上述RBF網(wǎng)絡的原理可知,RBF網(wǎng)絡主要涉及三種可調(diào)參數(shù):RBF的中心向量[ci]、偏值[σi]、隱含層到輸出層的權(quán)重[wik]。其中,RBF的中心[ci]的選取對網(wǎng)絡性能至關(guān)重要,中心太近,會產(chǎn)生近似線性相關(guān);中心太遠,產(chǎn)生的網(wǎng)絡會過大。根據(jù)這三種參數(shù)的確定,可以將RBF網(wǎng)絡劃分為很多種學習方法,最常見的是:隨機選取中心法、自組織選取中心法、有監(jiān)督選取中心法和正交最小二乘法(OLS)。本文采用基于OLS算法的RBF神經(jīng)網(wǎng)絡,OLS算法能夠有效地自動選擇中心,從而避免網(wǎng)絡規(guī)模過大和隨機選擇中心帶來的數(shù)值病態(tài)問題,同時有過程簡單、學習速率高等優(yōu)點[10]。
1.2 ?時間序列的RBF神經(jīng)網(wǎng)絡預測
基于RBF神經(jīng)網(wǎng)絡的時間序列預測模型,最主要的是需要確定好訓練樣本的輸入和輸出。為預測時間序列y(i)的值,以[X(i)=[y(i-n),y(i-n+1),…,y(i-1)]T]作為輸入,n為歷史數(shù)據(jù)長度,代表過去n天的歷史數(shù)據(jù)。因此網(wǎng)絡結(jié)構(gòu)[11]可以表示為[y(i)=f(y(i-n),y(i-n+1),…,y(i-1))]。
由于時間序列有一定的復雜性,而且序列數(shù)據(jù)前后的關(guān)聯(lián)程度大不相同。因此,采用不同的歷史數(shù)據(jù)長度的預測模型,結(jié)果大相徑庭。本文分別采用不同的歷史數(shù)據(jù)長度,選取其中預測結(jié)果均方誤差最小的歷史數(shù)據(jù)長度,提高模型的預測性能。
2 ?實驗過程
根據(jù)監(jiān)測到的朱衣河連續(xù)325天的磷酸鹽濃度數(shù)據(jù),取前300天數(shù)據(jù)作為訓練樣本,后25天濃度作為預測驗證數(shù)據(jù)。
2.1 ?ARIMA預測過程
1) 先對數(shù)據(jù)清洗,錯誤及空缺數(shù)據(jù)采用前5天均值填補。然后將數(shù)據(jù)歸一化預處理,并對數(shù)據(jù)進行平穩(wěn)性檢驗,得到原始序列的自相關(guān)和偏相關(guān)圖,如圖2所示。
根據(jù)圖2可知,原始序列并不平穩(wěn),自我相關(guān)性極高,且呈下降趨勢。因此,對原始序列進行一階差分處理,使磷酸鹽濃度序列基本平穩(wěn),得到的一階自相關(guān)圖和偏相關(guān)圖,如圖3所示。
2) 模型定階。ARIMA模型一般需要確定三個參數(shù)(p,d,q),p為自回歸項,d為差分階數(shù),q為移動平均項數(shù)。由步驟1)可知,d=1時,磷酸鹽濃度時間序列變?yōu)槠椒€(wěn)。p,q的取值則根據(jù)逐步試探法來確定,得到磷酸鹽濃度最有預測模型參數(shù)為ARIMA(8,1,9)。
3) 模型檢驗。估計的參數(shù)全部通過顯著性檢驗,同時判斷殘差序列為白噪聲,因此認為模型可以較好地擬合數(shù)據(jù)。
4) 進行預測。將朱衣河前300天的磷酸鹽濃度數(shù)據(jù)作為訓練樣本,預測300天之后25天的濃度數(shù)據(jù)。
2.2 ?RBF預測過程
1) 數(shù)據(jù)預處理。對原始數(shù)據(jù)進行歸一化處理。
2) 輸入輸出設(shè)計。本文經(jīng)過多次嘗試采用不同的歷史數(shù)據(jù)長度的預測模型,最終確定選取歷史數(shù)據(jù)長度為14的預測模型,即由n,n+1,…,n+13天的數(shù)據(jù)作為輸入,第n+14天的數(shù)據(jù)作為輸出。
3) 選擇傳遞函數(shù)。RBF神經(jīng)網(wǎng)絡的預測模型需要確定隱含層傳遞函數(shù)。由于高斯函數(shù)是最常用的傳遞函數(shù),而且具有徑向?qū)ΨQ、形式簡單、光滑性好等優(yōu)點,故本文選取高斯函數(shù)為隱含層傳遞函數(shù),隱含層到輸出層選擇線性函數(shù)。
4) 參數(shù)設(shè)計。本預測模型需要設(shè)計的參數(shù)主要包括:網(wǎng)絡訓練的目標誤差DF,隱含層神經(jīng)元的數(shù)目MN以及分布系數(shù)Spread的大小。RBF神經(jīng)網(wǎng)絡的目標誤差決定隱含層神經(jīng)元的數(shù)目,目標誤差越小,所需神經(jīng)元數(shù)目越多。分布系數(shù)Spread的大小關(guān)乎函數(shù)近似平滑度,Spread越大越平滑,但Spread太大需要大量的神經(jīng)元來適應快速變化,從而導致預測誤差過大。本模型先將Spread設(shè)置為1,以1為步長依次遞增至50。經(jīng)過多次試驗,本模型設(shè)置DF=0.001,MN=125,Spread=44。
5) 訓練樣本。對樣本進行訓練,具體訓練情況如圖4所示。
6) 進行預測。采用步驟5)得到的參數(shù),預測301~325天的濃度數(shù)據(jù)。由于模型采用的是一步預測法,即每次預測一天的數(shù)據(jù),在預測第i天的濃度時,以i-14,i-13,…,i-1作為輸入;在預測第i+1天的濃度時,需將之前預測到的第i天濃度也作為輸入的一部分。
2.3 ?實驗結(jié)果
經(jīng)過兩種預測模型分別得到25天的磷酸鹽濃度預測數(shù)據(jù),將兩種預測數(shù)據(jù)與實際數(shù)據(jù)進行對比可得到圖5所示的對比圖。
[8] 于巖,陳鴻昶,于洪濤.基于RBF神經(jīng)網(wǎng)絡的微博用戶興趣預測模型[J].計算機應用研究,2015,32(12):3555?3559.
YU Yan, CHEN Hongchang, YU Hongtao. User interest prediction model based on RBF neural network [J]. Journal of computer applications, 2015, 32(12): 3555?3559.
[9] 李瑞,張悟移.基于RBF神經(jīng)網(wǎng)絡的物流業(yè)能源需求預測[J].資源科學,2016,38(3):450?460.
LI Rui, ZHANG Wuyi. Prediction of energy demand in logistics industry based on RBF neural network [J]. Resources science, 2016, 38(3): 450?460.
[10] 單東,許新征.基于徑向基神經(jīng)網(wǎng)絡和正則化極限學習機的多標簽學習模型[J].模式識別與人工智能,2017,30(9):833?840.
SHAN Dong, XU Xinzheng. Multi?label learning model based on radial basis neural network and regularized limit learning machine[J]. Pattern recognition & artificial intelligence, 2017, 30(9): 833?840.
[11] 周志青,鄒國防,王磊,等.基于ARIMA/RBF?NN的時間序列水質(zhì)預測模型研究[J].科技通報,2017,33(9):236?240.
ZHOU Zhiqing, ZOU Guofang, WANG Lei, et al. Time series water quality prediction model based on ARIMA/RBF?NN [J]. Bulletin of science and technology, 2017, 33(9): 236?240.