袁紅春,黃俊豪,趙彥濤
基于PCA-NARX神經(jīng)網(wǎng)絡的溶解氧預測
袁紅春,黃俊豪*,趙彥濤
上海海洋大學 信息學院, 上海 201306
溶解氧是水產(chǎn)養(yǎng)殖中的一項重要水質(zhì)參數(shù),為了準確掌握溶解氧的變化趨勢,提出了基于PCA-NARX神經(jīng)網(wǎng)絡的溶解氧預測模型。通過主成分分析法提取的主成分變量作為網(wǎng)絡輸入,優(yōu)化了網(wǎng)絡結構,并根據(jù)漁業(yè)養(yǎng)殖用水溶解氧標準,進行了NAR、NARX模型對溶解氧的短期(64 h)預測實驗對比,仿真結果表明:PCA-NARX模型在16 h內(nèi)均方根誤差(RMSE)最??;32、48 h內(nèi),NAR模型與PCA-NARX模型預測精度基本一致;總體64 h之內(nèi),PCA-NARX模型相對于NAR、NARX模型具有更好的泛化能力,對溶解氧的預測性能較好。
溶解氧預測; NARX神經(jīng)網(wǎng)絡; 主成分分析
溶解氧(Dissolved oxygen,DO)在水體中的含量能夠反映出水體的污染程度、生物的生長狀況,是衡量水質(zhì)優(yōu)劣的重要指標之一[1],國內(nèi)外相關文獻表明溶解氧的含量受到多種因素的影響,如水溫、pH值、生物種類等,同時直接或者間接影響著養(yǎng)殖生物的生長[2,3],相關漁業(yè)水質(zhì)標準[4]也對漁業(yè)養(yǎng)殖用水的溶解氧在24 h中,16 h以上水溶解氧含量必須大于5 mg/L,任何時候不得低于3 mg的規(guī)定。因此,在水產(chǎn)養(yǎng)殖過程中監(jiān)測水溶解氧的含量,預測其變化趨勢對水產(chǎn)養(yǎng)殖有重要意義[5,6]。
近年來對溶解氧的預測方法主要有時間序列預測、支持向量機、組合預測、人工神經(jīng)網(wǎng)絡等,典型的有:孫國紅等[7]采用時間序列預測方法對不同的水環(huán)境中溶解氧含量進行預測,由于在不同的水環(huán)境中,溶解氧的變化受到多種因素影響,時間序列模型只考慮了預測變量與自身歷史變化之間的關系,缺乏對相關影響因子的考慮,從而準確性較差;劉雙印等[8]采用支持向量機預測方法,構建了基于LSSVR的溶解氧在線預測模型,但是存在著算法復雜程度高、最佳訓練參數(shù)的確定困難,易陷入局部最優(yōu)解的問題[9,10];吳慧英等[11]采用組合預測模型對溶解氧進行預測,實質(zhì)上為兩種常規(guī)預測模型的組合改進,缺點是執(zhí)行過程較為復雜;由于神經(jīng)網(wǎng)絡具有自學習、自組織,并行處理信息和處理非線性信息的能力,能夠挖掘數(shù)據(jù)背后的很難用數(shù)學式描述的非線性特征,彌補了傳統(tǒng)時間序列模型的不足,從而被廣泛應用于溶解氧預測問題[12,13]。
NARX(Nonlinear auto regressive models with exogenous inputs)即非線性有源自回歸模型,是一種應用廣泛的動態(tài)神經(jīng)網(wǎng)絡模型,Cadenas等[14]應用NARX模型對風速變化進行短期預測,Guzman等[15]運用NARX模型對密西西比地區(qū)地下水位進行長時間時間序列預測,蔡磊[16]等應用NARX模型對磁暴時SYM-H指數(shù)進行預測,并取得了不錯的效果。本文采用基于主成分分析法(PCA)優(yōu)化網(wǎng)絡輸入變量的NARX神經(jīng)網(wǎng)絡預測模型,即PCA-NARX神經(jīng)網(wǎng)絡模型,并結合相關專家經(jīng)驗與國家養(yǎng)殖用水標準,對溶解氧在短期(64 h內(nèi))含量變化進行時間序列預測。
NARX網(wǎng)絡被稱為有外部輸入的非線性自回歸模型,屬于動態(tài)遞歸神經(jīng)網(wǎng)絡,相當于具有輸入延時的BP網(wǎng)絡加上輸出到輸入的延時反饋連接[16],NARX網(wǎng)絡主要由輸入層、隱層、輸出層及輸出到輸入的延時構成,其網(wǎng)絡結構如圖1所示,由于輸出層不斷將包含歷史的輸出數(shù)據(jù)反饋到輸入層,從而使NARX網(wǎng)絡具有記憶能力,相比于傳統(tǒng)回歸神經(jīng)網(wǎng)絡包含更長時間的網(wǎng)絡歷史狀態(tài)和實時狀態(tài)信息。
圖1 NARX網(wǎng)絡模型
假設()、()分別為網(wǎng)絡在時刻的外部輸入和輸出,為輸入數(shù)據(jù)的個數(shù),為反饋時延的階數(shù),則對于網(wǎng)絡時刻的輸入()={1,2,...,I},對應的反饋輸入為()={(1),(2),...,()},隱層第個神經(jīng)元的輸出
式中為隱層節(jié)點的激勵函數(shù),I為第個輸入的值,w是個輸入與第個隱含層神經(jīng)元之間的連接權值,b是第個隱層神經(jīng)元的閾值。網(wǎng)絡的輸出為
式中為隱層神經(jīng)元的個數(shù),w為第個隱含神經(jīng)元與輸出神經(jīng)元之間的連接權值,b為輸出神經(jīng)元的閾值。
1.2.1 輸入變量的選擇主成分分析法(Principal Components Analysis, PCA)是一種數(shù)據(jù)壓縮和特征提取的多變量統(tǒng)計分析技術,本模型使用PCA對網(wǎng)絡的外部輸入變量進行降維,通過構造變量的一系列線性組合形成新變量,新的變量比原始數(shù)據(jù)維度更低,而且在彼此不相關的前提下反映原始數(shù)據(jù)的信息。通過PCA選擇的主成分變量作為NARX網(wǎng)絡的輸入,既減少了輸入變量的維數(shù),又消除了由于輸入變量的相關性不同對網(wǎng)絡輸出結果造成的影響,從而簡化了網(wǎng)絡的結構,提高了網(wǎng)絡收斂性和穩(wěn)定性。PCA主要過程如下
2) 根據(jù)公式(4)建立相關系數(shù)矩陣R×m。
3) 求相關系數(shù)矩陣的特征根1≥2≥≥、特征向量1,2,…,u,并計算貢獻率、累計貢獻率。
主成分F的貢獻率e為:
累計貢獻率為:
本文選取累計貢獻率90%以上的主成分變量為網(wǎng)絡的輸入,從而將網(wǎng)絡輸入維數(shù)由降為。
4)獲得主成分矩陣。個樣本對應個主成分變量構成的矩陣為:
5)A×p=Z×mU×p(7)
式中U×p為[1,2,…,u]。
1.2.2 性能評價指標預測模型性能評價是判斷模型預測性能的關鍵,評價NARX模型性能的主要指標有均方根誤差()、相關系數(shù)()、誤差自相關系數(shù)(),用于判定預測值與實際輸出值之間的偏差;用于判定兩者的相關性,用于判定預測值與誤差之間的相關程度,三者計算公式分別為:
1.2.3 訓練過程
圖2 PCA-NARX神經(jīng)網(wǎng)絡流程
圖2是本文用于溶解氧預測的PCA-NARX 神經(jīng)網(wǎng)絡流程圖。原始樣本包括預測目標溶解氧數(shù)據(jù)、相關因子數(shù)據(jù)(本文所涉及的水溫、酸堿度、氧化還原電位、鹽度,濁度和海水比重共6項參數(shù))。首先將原始樣本數(shù)據(jù)進行預處理工作,包括數(shù)據(jù)歸一化、異常數(shù)據(jù)處理;相關因子數(shù)據(jù)經(jīng)過PCA分析后,剔除非主成分變量。將得到的主成分變量與預測變量合并為樣本數(shù)據(jù)集,將樣本數(shù)據(jù)集分為訓練集、驗證集,測試集三部分用于網(wǎng)絡訓練;訓練過程采L-M(Levenberg-Marquardt)算法,該算法是使用最為廣泛的非線性最小二乘算法,在中小規(guī)模的神經(jīng)網(wǎng)絡中,訓練速度較快。網(wǎng)絡訓練過程中,每一次網(wǎng)絡訓練結束之后比較、與的值,訓練初期,數(shù)值波動較為劇烈,后期趨于平穩(wěn),整體值逐漸增加,逐漸減小,在訓練過程中反復調(diào)整隱層單元個數(shù)和延遲階數(shù),假設min()為訓練中第次循環(huán)前最小,定義的訓練終止的判斷函數(shù)如下:
當<0.001時,認為網(wǎng)絡的收斂已經(jīng)接近極限,訓練可以終止。訓練結束之后,使用測試樣本檢驗網(wǎng)絡的性能。
本文用于預測溶解氧的數(shù)據(jù)來源于課題組位于上海海洋大學校內(nèi)養(yǎng)殖基地池塘2016年4月5日~25日的水質(zhì)監(jiān)測數(shù)據(jù),由AP-2000型多參數(shù)水質(zhì)儀探測到的水溫(TEMP)、酸堿度(pH)、氧化還原電位(ORP)、溶解氧(DO)、鹽度(SAL)、濁度(TDS)和海水比重(SSG)共7項參數(shù)。每三分鐘獲取一組數(shù)據(jù),共9600組。根據(jù)長時間監(jiān)測數(shù)據(jù)表明,每小時內(nèi)各項參數(shù)指標浮動范圍很小[12],因此可以小時為單位,計算每小時各項參數(shù)的平均值,得到共計480組數(shù)據(jù)(表1)。
表1 樣本數(shù)據(jù)
2.2.1 缺失數(shù)據(jù)的處理對前后時間間隔不大的缺失水質(zhì)數(shù)據(jù),可以采用如(12)式線性插值法對其進行修復處理。
式中X和X+1分別為時刻和時刻水質(zhì)參數(shù),X為時刻水質(zhì)的參數(shù)。對于缺失時間跨度較大的數(shù)據(jù),可以采用天氣類型相同或者相近的臨近日期時間刻度相同的數(shù)據(jù)進行補全處理。
根據(jù)1.2.1描述的PCA提取主成分的方法,對除溶解氧之外的6項參數(shù)進行PCA主成分提取,計算特征值與貢獻率,結果見表2。
表2 成分分析
表3 主成分數(shù)據(jù)
經(jīng)過PCA提取的前三個主成分貢獻率分別為46.474%、33.218%和19.324%,圖3展示了前三個成分的累積貢獻率累計曲線,累計貢獻率為99.016%,大于90%,說明三個主成分變量能夠反映原始數(shù)據(jù)提供的絕大部分信息,因此主成分個數(shù)確定為3。根式(7)算出主成分矩陣,通過PCA分析將網(wǎng)絡的輸入由6維降低為3維,優(yōu)化了網(wǎng)絡的輸入,得到的主成分變量1,2,3部分數(shù)據(jù)如表3。
將2.3章得到的主成分數(shù)據(jù)與原始的溶解氧數(shù)據(jù)合并,采用公式(14)進行歸一化至[0.1,0.9]區(qū)間內(nèi),以消除不同量綱和數(shù)量級對網(wǎng)絡訓練的影響。
得到連續(xù)480 h(三個主成分變量和溶解氧)480組數(shù)據(jù)樣本集,3項主成分為NARX網(wǎng)絡的外部輸入,下一時刻溶解氧的值為輸出,取樣本的70%為訓練集,用于網(wǎng)絡訓練,15%為驗證集,驗證網(wǎng)絡歸一化程度,防止網(wǎng)絡過擬合,15%為測試集,用于預測性能進行測試。用Matlab建立PCA-NARX網(wǎng)絡,選擇trainlm函數(shù)為訓練函數(shù),其中,反復調(diào)整隱層個數(shù)和延遲階數(shù),對比均方根誤差、自相關系數(shù)和誤差自相關系數(shù),結果表明隱層個數(shù)為11延遲階數(shù)為2的預測效果最佳。
結合相關專家經(jīng)驗與漁業(yè)用水標準,為了驗證PCA-NARX網(wǎng)絡的預測效果,本文使用訓練好的PCA-NARX溶解氧預測模型對2016年4月26日起連續(xù)64 h之內(nèi)的水溶解氧含量進行預測,并與真實的數(shù)據(jù)進行對比,結果如圖3所示。從圖3可以看出,除溶解氧變化峰值與谷值處有略大誤差,整體64 h內(nèi)PCA-NARX神經(jīng)網(wǎng)絡模型得到的水溶解氧(DO)預測輸出與實際值有較好的吻合。本文采用相同結構的NAR、NARX神經(jīng)網(wǎng)絡模型對溶解氧進行同時間段的預測性能比較,預測曲線如圖4所示,三種網(wǎng)絡預測模型均方根誤差(RMSE)如表4所示。
圖3 PCA-NARX神經(jīng)網(wǎng)絡64 h溶解氧預測
圖4 NARX、PCA-NARX、NAR溶解氧預測
表4 RMSE統(tǒng)計
從圖4三種網(wǎng)絡預測曲線情況來看,NARX網(wǎng)絡在1~10、25~35時段出現(xiàn)較大誤差;NAR網(wǎng)絡在溶解氧峰值、谷值處出現(xiàn)較大誤差;整體上1~64 h內(nèi),PCA-NARX預測性能最優(yōu)。從表4所示三種網(wǎng)絡預測RMSE來看,PCA-NARX網(wǎng)絡在1~16、1~48 h的RMSE均小于NAR與NARX網(wǎng)絡,1~32 h略小于NAR模型,但總體64 h內(nèi),PCA-NARX網(wǎng)絡對溶解氧的預測性能優(yōu)于NARX、NAR神經(jīng)網(wǎng)絡模型,具有更高的預測精度、更優(yōu)的泛化能力。
本文采用PCA-NARX神經(jīng)網(wǎng)絡模型對水溶解氧進行時間序列預測,并與NAR、NARX網(wǎng)絡模型在16、32、48、64 h內(nèi)預測精度對比。結果表明,PCA-NARX模型在16 h內(nèi)的均方根誤差(RMSE)較NAR模型減少40.65%,較NARX模型減少55.37%;32、48 h內(nèi),NAR模型與PCA-NARX模型預測精度基本一致;總體上64 h之內(nèi)的預測精度,PCA-NARX神經(jīng)網(wǎng)絡具有更小的均方根誤差。PCA-NARX相對于傳統(tǒng)NARX模型優(yōu)化了網(wǎng)絡輸入變量,具有更優(yōu)秀的泛化能力,同時又兼顧了NAR模型對預測周期性變化的優(yōu)勢,為水環(huán)境質(zhì)量監(jiān)測、漁業(yè)用水安全管理領域,提供了一個更高精度的水溶解氧預測模型。
[1] Segura-Noguera M, Cruzado A, Blasco D. The biogeochemistry of nutrients, dissolved oxygen and chlorophyll a in the Catalan Sea (NW Mediterranean Sea)[J]. Scientia Marina, 2016,80:39-56
[2] 黃歲樑,臧常娟,杜勝藍,等.pH、溶解氧、葉綠素a之間相關性研究Ⅰ:養(yǎng)殖水體[J].環(huán)境工程學報,2011,5(6):1201-1208
[3] Lipizer M, Partescano E, Rabitti A,. Qualified temperature, salinity and dissolved oxygen climatologies in a changing Adriatic Sea[J]. Ocean Science, 2014,10(5):771-797
[4] 國家環(huán)境保護局.GB11607-1989.漁業(yè)水質(zhì)標準[S].北京:中國標準出版社,1989
[5] 管崇武,劉晃,宋紅橋,等.涌浪機在對蝦養(yǎng)殖中的增氧作用[J].農(nóng)業(yè)工程學報,2012,28(9):208-212
[6] Missaghi S, Hondzo M, Herb W. Prediction of lake water temperature, dissolved oxygen, and fish habitat under changing climate[J]. Climatic Change, 2017,141(4):747-757
[7] 孫國紅,沈躍,徐應明,等.基于Box-Jenkins方法的黃河水質(zhì)時間序列分析與預測[J].農(nóng)業(yè)環(huán)境科學學報,2011,30(9):1888-1895
[8] 劉雙印,徐龍琴,李道亮,等.基于時間相似數(shù)據(jù)的支持向量機水質(zhì)溶解氧在線預測[J].農(nóng)業(yè)工程學報,2014,30(3):155-162
[9] Tan GH, Yan JZ, Gao C,Prediction of water quality time series data based on least squares support vector machine[J]. Procedia Engineering, 2012,31:1194-1199
[10] Lü JK, Wang X, Zou W. A hybrid approach of support vector machine with differential evolution optimization for water quality prediction[J]. Journal of Convergence Information Technology, 2013,8(2):1158-1163
[11] 吳慧英,楊日劍,張穎,等.基于PCA-SVR的池塘DO預測模型[J].安徽大學學報(自然科學版),2016,40(6):103-108
[12] 袁紅春,潘金晶.改進遞歸最小二乘RBF神經(jīng)網(wǎng)絡溶解氧預測[J].傳感器與微系統(tǒng),2016,35(10):20-23
[13] 宦娟,劉星橋.基于K-means聚類和ELM神經(jīng)網(wǎng)絡的養(yǎng)殖水質(zhì)溶解氧預測[J].農(nóng)業(yè)工程學報,2016,32(17):174-181
[14] Cadenas E, Rivera W, Campos-Amezcua R,. Wind speed forecasting using the NARX model, case: La Mata, Oaxaca, Mexico[J]. Neural Computing & Applications, 2016,27(8):2417-2428
[15] Guzman SM, Paz JO, Tagert MLM. The Use of NARX Neural Networks to Forecast Daily Groundwater Levels[J]. Water Resources Management, 2017,31(5):1591-1603
[16] 蔡磊,馬淑英,蔡紅濤,等.利用NARX神經(jīng)網(wǎng)絡由IMF與太陽風預測暴時SYM-H指數(shù)[J].中國科學(技術科 學),2010,40(1):77-84
Prediction of Dissolved Oxygen Based on PCA-NARX Neural Network
YUAN Hong-chun, HUANG Jun-hao*, ZHAO Yan-tao
201306,
Dissolved oxygen is an important aquatic parameter. In order to accurately grasp the trend of the dissolved oxygen accurately, the dissolved oxygen prediction model based on the PCA-NARX neural network is developed in this paper. The principal component variables extracted by principal components analysis (PCA) are used as exogenous inputs and the network structure was optimized,and short-term (64 h) prediction experiments of dissolved oxygen by NAR and NARX models were compared according to the standards of dissolved oxygen in fishery and aquaculture water. Simulation results show that the PCA-NARX model has a minimum root mean square error (RMSE) within 16 h,the prediction accuracy of the NAR model and the PCA-NARX model is basically the same within 32, 48 h. In addition, the comparisons with other models show that PCA-NARX neural network has better nonlinear fitting ability and superior in dissolved oxygen prediction based on the RMSE in short term (64 h). In total, within 64 h, PCA-NARX model has better generalization ability than the NAR and NARX model and better prediction performance for dissolved oxygen.
Prediction of dissolved oxygen; NARX neural network; principal component analysis
TP389.1
A
1000-2324(2019)05-0902-06
10.3969/j.issn.1000-2324.2019.05.037
2018-03-04
2018-04-28
國家自然科學基金(41776142);上海市科學技術委員會技術支撐(14391901400)
袁紅春(1971-),男,博士,教授,主要從事專家系統(tǒng)、智能計算、智能信息處理等工作. E-mail:hcyuan@shou.edu.cn
Author for correspondence. E-mail:451222454@qq.com