吳慧英,楊日劍,張 穎,蒙語樺
(湖南大學 土木工程學院,湖南 長沙 410000)
?
基于PCA-SVR的池塘DO預測模型
吳慧英,楊日劍,張 穎,蒙語樺
(湖南大學 土木工程學院,湖南 長沙 410000)
為解決傳統(tǒng)水質(zhì)預測模型泛化能力低、預測精度差等問題,提出了基于主成分分析和支持向量機相結(jié)合的養(yǎng)殖池塘溶解氧預測模型.該模型通過主成分分析篩選反映池塘水體溶解氧信息的關(guān)鍵指標,減少模型輸入變量,采用支持向量機算法建立水質(zhì)預測模型,并用于長沙市喬口鎮(zhèn)與望城區(qū)池塘養(yǎng)殖溶解氧預測中.結(jié)果表明,該模型預測精度高,同時具有很強的泛化能力與適應數(shù)據(jù)變化的能力,可用于池塘溶解氧預測.
主成分分析;支持向量機;水質(zhì)預測;養(yǎng)殖池塘
溶解氧濃度是養(yǎng)殖區(qū)域水環(huán)境規(guī)劃和現(xiàn)代漁業(yè)健康養(yǎng)殖精準化管理的重要基礎性工作,準確的溶解氧預測對養(yǎng)殖水質(zhì)科學化調(diào)控、防范水質(zhì)惡化和控制水產(chǎn)品疾病爆發(fā)具有十分重要的經(jīng)濟價值和現(xiàn)實意義[1].目前常用的水質(zhì)預測方法有指數(shù)平滑法[2]、專家評估法[3]、多元回歸法[4]、灰色模型法[5-6]等.然而這些方法只適用于樣本數(shù)量較大、維數(shù)較低和線性程度較高的水質(zhì)預測,對于非線性、高維數(shù)和小樣本水質(zhì)數(shù)據(jù)預測效果不佳.神經(jīng)網(wǎng)絡法具有較好的非線性預測能力,但也容易出現(xiàn)局部極值、過學習等問題[7-8].支持向量機是基于VC維和結(jié)構(gòu)風險最小原理的一種新型機器學習方法,不僅適用于非線性問題,還能夠克服傳統(tǒng)智能算法出現(xiàn)的過學習、小樣本時泛化能力差等多方面的缺點[9].
池塘養(yǎng)殖中溶解氧濃度預測需要多種水質(zhì)指標作為輸入變量,但變量過多,會造成一定的信息重疊,同時造成計算復雜,易陷入局部優(yōu)化問題,使預測結(jié)果準確性下降.針對這些問題,筆者提出采用主成分分析與支持向量機相結(jié)合的方法進行養(yǎng)殖水質(zhì)預測,主成分分析法能夠從眾多水質(zhì)指標中篩選出能夠反映水質(zhì)主要情況的關(guān)鍵性指標,剔除偽指標,然后將選取的主要水質(zhì)指標作為輸入樣本建立支持向量機水質(zhì)預測模型,并以養(yǎng)殖水體為例進行水質(zhì)預測,該方法收斂速度快,預測精度較高.
1.1 主成分分析法
由于影響?zhàn)B殖池塘水質(zhì)的評價指標較多,且每個指標都能在一定程度上反應水體的部分信息,同時指標之間也存在相關(guān)或重疊的關(guān)系,這樣就導致在用多元統(tǒng)計方法進行多變量問題求解時,增加問題的復雜性及求解的計算量,還有可能導致問題求解精度下降.在實踐中人們希望盡可能地減少變量的個數(shù),用更少的變量反映盡可能多的信息,而主成分分析方法(principal component analysis,簡稱PCA)正是一種將多維因子納入同一系統(tǒng)進行定量化研究且理論比較完善的多元統(tǒng)計分析方法,在解決很多實際問題時已取得較好效果[10].
主成分分析法的基本思想是指采用降低維數(shù)的方法,在失去很少信息的前提下,將各種原始變量轉(zhuǎn)化為幾個指標(稱之為主成分)之間的線性組合,剩下的信息稱之為原始變量[11].這樣在數(shù)據(jù)指標較多的水質(zhì)評價研究中,就可以把復雜的多維問題轉(zhuǎn)化成低維問題且最大程度地保留原始數(shù)據(jù)信息.主成分分析法的主要步驟為:
(1) 數(shù)據(jù)標準化.設有n個樣本,每個樣本有m項指標,對樣本進行標準化為
(1)
其中:zij為標準化后的指標值,xj是第j項指標數(shù)據(jù)的平均值,sj是第j項指標數(shù)據(jù)的標準差.
(2) 計算相關(guān)矩陣.對標準化的數(shù)據(jù)進行相關(guān)分析,計算相關(guān)矩陣R
(2)
(4) 計算主成分y
(3)
1.2 支持向量機預測方法
支持向量機是建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小化原理基礎上的一種新的機器學習算法[10,12-15].該算法根據(jù)有限的樣本信息采用非線性映射Φ把數(shù)據(jù)映射到一個高維特征空間中去,使得樣本在高維空間中進行線性回歸.由泛函模型可知,只要存在一種滿足Mercer條件的函數(shù)K(xi,xj),K(xi,xj)=Φ(xi)×Φ(xj),就與某一空間中的內(nèi)積相對應,這樣監(jiān)測數(shù)據(jù)在高維空間內(nèi)積可轉(zhuǎn)換為核函數(shù)內(nèi)積,使計算工作量大大減少.因此該非線性函數(shù)可構(gòu)造為
(4)
由式(4)可知,無需知道非線性映射Φ,而只要找到一個核函數(shù),就可以通過該核函數(shù)進行非線性處理,對于函數(shù)的回歸問題,其估計函數(shù)就是核函數(shù)的線性組合.
1.3 養(yǎng)殖池塘組合預測模型的建立
基于主成分分析的支持向量機池塘養(yǎng)殖溶解氧組合預測模型原理是將參加水質(zhì)預測的水質(zhì)指標進行主成分分析,篩選出影響池塘養(yǎng)殖溶解氧濃度的關(guān)鍵指標作為支持向量機的輸入向量,降低預測維數(shù),然后通過預測樣本訓練此模型,使不同的輸入向量得到相應的輸出值,從而建立一種水質(zhì)預測結(jié)果與實際值的非線性映射關(guān)系,經(jīng)過學習達到一定精度后,該非線性預測模型可成為養(yǎng)殖水體水質(zhì)組合預測的有效工具.具體步驟為:
(1) 選擇影響池塘溶解氧濃度關(guān)鍵指標.由于影響?zhàn)B殖水體溶解氧濃度的因素較多,關(guān)系較為復雜,對初始水質(zhì)指標進行主成分分析,篩選出養(yǎng)殖水體溶解氧關(guān)鍵指標.
(2) 數(shù)據(jù)歸一化.以主成分分析篩選的關(guān)鍵指標作為預測模型輸入變量,采用最大-最小值法對變量進行歸一化處理,消除指標量綱之間影響.
(3) 建立支持向量機預測模型.選擇合適的SVR核函數(shù)和模型參數(shù),通過對訓練樣本進行訓練構(gòu)造預測模型,并分析擬合誤差,當模型精度達到預定要求時就完成相應的預測建模.以測試樣本對模型進行檢驗,驗證其泛化性能.
2.1 研究區(qū)域及監(jiān)測指標的選取
喬口鎮(zhèn)地理位置獨特,四面環(huán)水(湘江、柳林江、撇洪河、團頭湖),養(yǎng)殖水面廣闊,除面積為8 000多畝的團頭湖外,另有青草湖、南湖、湛湖等大小湖泊池塘近20 000畝,是望城區(qū)“百里水產(chǎn)走廊”的核心區(qū),因此,準確預測喬口鎮(zhèn)池塘養(yǎng)殖水質(zhì)為當?shù)厣a(chǎn)與管理提供可靠依據(jù),具有重要意義.
影響池塘溶解氧因素眾多,十分復雜,主要包括氣壓、溫度、光強、人工增壓、池塘中氧氣的消耗等,但上述影響因素在一定條件下具體到某一池塘監(jiān)測斷面時可認為是不變的[16],而該課題在以國家“十二五”科技支撐項目“村鎮(zhèn)環(huán)境監(jiān)測與應用示范”基礎上,綜合考慮各指標在線監(jiān)測可能性的情況下,選擇總磷、總氮、氨氮、硝酸鹽、亞硝酸鹽、化學需要量、溫度、SS、電導率等指標作為輸入變量進行分析,溶解氧為輸出變量.
2.2 池塘養(yǎng)殖水質(zhì)關(guān)鍵指標篩選
為消除數(shù)據(jù)間的多重共線性,提高預測速度,采用主成分分析法對養(yǎng)殖水質(zhì)進行分析,篩選影響溶解氧值的關(guān)鍵指標.按照主成分分析法的步驟采用MATLAB軟件對養(yǎng)殖水體水質(zhì)指標進行篩選,因水質(zhì)數(shù)據(jù)間的非線性較強,采用正態(tài)標準化方式進行數(shù)據(jù)預處理,以此標準化數(shù)據(jù)為基礎得到主成分特征值與貢獻率,如表1所示.
表1 特征值與累計方差貢獻率
由表1可知,前3個成分的累計方差貢獻率達到88.76%,符合累計方差貢獻率大于等于 85% 作為提取主成分的原則,因此,可確定前3個因子代替原變量.
根據(jù)特征值及特征向量,計算各水質(zhì)指標的主成分荷載,計算結(jié)果如表 2所示.
表2 主成分載荷矩陣
從表2可知,第1主成分中總磷和總氮的相關(guān)系數(shù)較高,絕對值超過了0.9,第2主成分中化學需氧量與溶解氧相關(guān)系數(shù)較其他水質(zhì)指標高,絕對值超過0.65,第3主成分中起主要影響的為溫度,其相關(guān)系數(shù)絕對值為0.723.結(jié)合水體實際情況,筆者選用總氮、總磷、化學需氧量和溫度作為影響水質(zhì)溶解氧的關(guān)鍵指標,并以此為構(gòu)建支持向量機預測型的輸入樣本.
2.3 支持向量機預測模型
根據(jù)主成分分析法選擇的影響?zhàn)B殖水質(zhì)關(guān)鍵指標,以養(yǎng)殖水體最不利斷面連續(xù)15 d(2015年1月18日至2月1日)共30組的監(jiān)測數(shù)據(jù)為基礎,并將數(shù)據(jù)分割成兩部分.以1月18日至1月28日數(shù)據(jù)為訓練樣本,建立預測模型;以1月29日至2月1日為測試樣本,驗證所建模型的準確性及推廣能力,并與傳統(tǒng)的SVR模型和BP神經(jīng)網(wǎng)絡模型進行比較,驗證模型的優(yōu)越性.各方法的預測結(jié)果見表3.
表3 溶解氧預測結(jié)果
由表3可知,在訓練樣本較小時,PCA-SVR模型預測值較SVR模型和人工神經(jīng)網(wǎng)絡模型更接近實際值,預測效果更好.
為進一步分析對比PCA-SVR、SVR和BP神經(jīng)網(wǎng)絡三種預測模型效果,必須選擇一套客觀科學的評價指標對預測效果進行全方位的綜合性衡量和評價,使得預測效果更加直接,更加可靠.按照預測效果評價原則和慣例,采用均方誤差(MSE)、平均絕對百分比誤差(MAPE)和均方百分比誤差(MSPE)作為評價指標,評價結(jié)果見表4.
表4 三種模型誤差對比
由表4可知,BP神經(jīng)網(wǎng)絡模型的均方誤差、平均絕對百分比誤差和均方百分比誤差分別為9.58%,7.85%和24.18%,SVR模型的均方誤差、平均絕對百分比誤差和均方百分比誤差分別為2.40%,19.39%,35.18%,而PCA-SVR模型的均方誤差、平均絕對百分比誤差和均方百分比誤差最小,分別為4.78%,3.43%,10.86%,說明無論是相對誤差、平均絕對百分比誤差還是均方百分比誤差PCA-SVR模型都比SVR模型和BP神經(jīng)網(wǎng)絡模型精度高,主要原因是人工神經(jīng)網(wǎng)絡模型只是建立局部優(yōu)化的基礎上,容易造成局部極值,使訓練失敗,傳統(tǒng)的SVR模型由于指標數(shù)多,維數(shù)大,干擾大,造成信息過度重疊,預測精度降低,而PCA-SVR模型通過主成分分析保留了影響溶解氧濃度的關(guān)鍵信息,同時剔除了增加運算時間和干擾預測性能的噪聲數(shù)據(jù),因此預測精度高,泛化能力強.
2.4 預測應用
將預測模型應用到長沙市某池塘養(yǎng)殖水體中,預測水體中溶解氧未來變化趨勢,以進一步驗證該模型的普適性和精確性,步驟與上述類似,首先進行主成分分析,選擇影響溶解氧的關(guān)鍵指標作為輸入變量,考慮數(shù)據(jù)的可在線監(jiān)測性,主要選擇pH、BOD、COD、總磷、總氮、氨氮、硝態(tài)氮、亞硝態(tài)氮、溶解氧等指標進行分析,主成分分析結(jié)果列于表5.
表5 溶解氧影響系數(shù)
從表5可知,第1主成分中BOD5和COD的相關(guān)系數(shù)較高,絕對值超過了0.3;第2主成分中總磷與氨氮相關(guān)系數(shù)較其他水質(zhì)指標高,絕對值超過0.1.因此結(jié)合水體實際情況,選用BOD5、COD、總磷和氨氮作為預測型的輸入樣本.
根據(jù)主成分分析法選擇的輸入變量,以該水體最不利斷面連續(xù)15 d的30組監(jiān)測數(shù)據(jù)為基礎,以前11 d的22組數(shù)據(jù)為訓練樣本,建立預測模型;對最后4 d的8組數(shù)據(jù)進行預測對比,進一步驗證所建模型的準確性和適用性,預測結(jié)果列于表6.
由表6可知,PCA-SVR模型預測值與實際值接近,預測精度較高,最大相對誤差僅為13.49%,而絕大部分誤差精度在10%以內(nèi),滿足實際應用需求.因此,基于PCA-SVR的溶解氧預測模型能夠較準確地預測池塘養(yǎng)殖水體溶解氧數(shù)據(jù)變化情況,具有使用價值.
表6 預測結(jié)果對比
作者將主成分分析與支持向量機結(jié)合進行養(yǎng)殖水質(zhì)預測,主成分分析提取影響?zhàn)B殖水體溶解氧濃度的關(guān)鍵指標,可以降低模型輸入變量維數(shù),提高模型的訓練速度,從而提高水質(zhì)預測的實時性,而支持向量機預測模型具有預測精度高,泛化能力強,抗噪性能強等優(yōu)點.通過與傳統(tǒng)SVR模型和BP神經(jīng)網(wǎng)絡模型預測結(jié)果的對比分析可以看出,筆者文中提出的PCA-SVR預測方法得到令人滿意的結(jié)果,是預測水質(zhì)較理想方法,可以用于實際生產(chǎn).
[1] 劉雙印,徐龍琴,李振波,等.基于PCA-MCAFA-LSSVM的養(yǎng)殖水質(zhì)pH值預測模型[J].農(nóng)業(yè)機械學報,2014,45 (5):239-246.
[2] 李燕斌,張久菊,肖俊明.基于指數(shù)平滑法的灰色預測模型[J].中原工學院學報,2015,26 (4):1-4.
[3] 李昌鑄,王麗云.特爾斐專家評估法在公路橋梁評價中的應用[J].中國公路學報,1993,6 (2):47-53.
[4] 湯志成,孫涵.最優(yōu)化因子處理及加權(quán)多重回歸模型[J].氣象學報,1992,50 (4):514-517.
[5] 張秀芝,王靜,張雨山,等.基于GM(1,1)灰色模型預測沿海城市用水量——以大連市為例[J].海洋技術(shù)學報,2014,33 (2):47-51.
[6] DELLANA S,WEST D.Predictive modeling for wastewater application:linear approaches[J].Environmental Modeling and Software,2009,24 (1):96-106.
[7] ?MER FARUK D.A hybrid neural network and ARIMA model for water quality time series prediction[J].Engineering Applications of Artificial Intelligence,2010,23 (4):586-594.
[8] PALANI S,LIONG S Y,TKALICH P.An efficient self-organizing RBF neural network memory structures for basin water quality forecasting[J].International Journal of Forecasting,2011,27 (3):777-803.
[9] 李黎武,施周.基于小波支持向量機的城市用水量非線性組合預測[J].中國給水排水,2010,26 (1):54-57.
[10] 庫路巴依,白云鵬,王玲.主成分分析法在水庫水質(zhì)綜合評價中的應用[EB/OL].北京:中國科技論文在線 [2008-02-28].http://www.paper.edu.cn/releasepaper/content/200802-357.
[11] ZHANG X,WU J,SONG B.Application of principal component analysis in groundwater quality assessment [C]// Water Resource and Environmental Protection (ISWREP),2011 International Symposium on IEEE,2011:177-183.
[12] 宋來洲,白明華,李健.微濾分離膜在城市污水深度處理中的應用[J].安全與環(huán)境學報,2004,4 (5):12-15.
[13] 王紅瑞,劉曉紅,唐奇,等.基于小波變換的支持向量機水文過程預測[J].清華大學學報 (自然科學版),2010,50 (9):1378-1382.
[14] 張土喬,俞亭超.提高支持向量機洪水峰值預報精度研究[J].水力發(fā)電學報,2005,24 (2):35-39.
[15] 劉雙印,徐龍琴,李道亮,等.基于時間相似數(shù)據(jù)的支持向量機水質(zhì)溶解氧在線預測[J].農(nóng)業(yè)工程學報,2014,30 (3):155-162.
[16] 郭連喜,鄧長輝.基于模糊神經(jīng)網(wǎng)絡的池塘溶解氧預測模型[J].水產(chǎn)學報,2006,30 (2):225-229.
(責任編輯 于 敏)
Forecasting model for DO of pond water quality based on PCA-SVR
WU Huiying,YANG Rijian,ZHANG Ying,MENG Yuhua
(College of Civil Engineering College,Hunan University,Changsha 410000,China)
In order to solve the problem of low prediction accuracy and poor generalization ability of the traditional forecasting methods in water quality,this paper proposed forecasting model for DO value of pond water quality based on PCA-SVR.The model picks key indicators which can reflect DO condition of pond water environment by the principal component analysis,reduce the model input variables,uses support vector machine algorithm for establishing water quality prediction model and adapts it to pond aquaculture water of Qiaokou town and Wang cheng district,Changsha.The application examples show that the model prediction has strong generalization ability and adaptability to change of data and functions,meanwhile has high prediction precision,it can be used to forecast aquaculture water dissolved oxygen quality.
principal component analysis;support vector machine;water quality forecast;pond aquaculture water
10.3969/j.issn.1000-2162.2016.06.017
2015-08-28
“十二五”國家科技支撐項目(2012BAJ24B03)
吳慧英(1967-),女,湖南長沙人,湖南大學副教授,研究生導師.
TV213
A
1000-2162(2016)06-0103-06