錢云,梁艷春,翟天放,劉洪志,時小虎
(1.吉林大學計算機科學與技術學院,吉林長春130012;2.北華大學電氣信息工程學院,吉林吉林132021;3.吉林省水利科學研究院,吉林長春130022;4.吉林省計算中心吉林省計算機技術研究所,吉林長春130012)
進化支持向量機模型及其在水質評估中的應用
錢云1,2,梁艷春1,翟天放3,劉洪志4,時小虎1
(1.吉林大學計算機科學與技術學院,吉林長春130012;2.北華大學電氣信息工程學院,吉林吉林132021;3.吉林省水利科學研究院,吉林長春130022;4.吉林省計算中心吉林省計算機技術研究所,吉林長春130012)
水質評估模型是進行水質規(guī)劃、環(huán)境水污染控制和環(huán)境管理的有效工具。利用遺傳算法(GA)對支持向量機(SVM)分類算法的徑向基核函數(shù)參數(shù)σ和錯分懲罰因子C進行組合優(yōu)化,建立進化支持向量機模型,并將該模型應用于水質評估中。將該模型分別應用于松花江松原段、松花江哈爾濱段、黃河甘肅段和吉林樺甸關門砬子水庫的真實數(shù)據(jù)上進行測試。實驗結果表明,提出的進化支持向量機水質評估模型在分類精度和泛化能力上較經(jīng)典SVM方法都有所提高,表明了該方法的有效性。
水質評估模型;支持向量機(SVM);遺傳算法(GA);徑向基核函數(shù);懲罰因子
水是工業(yè)的血液、農(nóng)業(yè)的命脈,隨著世界人口的不斷增長和經(jīng)濟的飛速發(fā)展,人類對水資源的需求量不斷增加,工業(yè)廢水和生活廢水的排量與日俱增,對受納水體的環(huán)境質量造成嚴重威脅,治理壓力越來越大。2006年我國檢測的7大水系的197條河流的408個斷面中,Ⅰ類至Ⅲ類水質斷面占46%,Ⅳ、Ⅴ類占28%,超Ⅴ類占26%,地表水資源污染十分嚴重。
水質評估是以水域水質監(jiān)測指標為基礎,按照一定的評估標準對水環(huán)境水質進行評估,能夠準確反映水域水質狀況和水體污染情況,達到提前預測預警的目的。傳統(tǒng)的水質評估方法主要有單因子評價法[1]、加權均值指數(shù)法[2]和內梅羅污染指數(shù)分析法[3]等。由于這些方法在水質評估中存在很多缺陷,往往導致評估結果與實際水質狀況差距較大,因此很難滿足水質評估的實際要求。如單因子指數(shù)法只能反映各個水質參數(shù)的污染程度,不能反映水資源整體污染狀況,評估精度極低。加權均值指數(shù)法克服了參數(shù)多少不同的影響,但權值的確定存在不合理和主觀性。內梅羅指數(shù)法只考慮單因子污染指數(shù)的平均值和最高值,過分強調最大濃度污染因子對水資源的影響,忽視了某些濃度小而危害大的污染因子,對水資源水質評價靈敏性不夠高,難以區(qū)分水資源污染程度的差別。因而,人們在評價水資源污染狀況時,試圖尋找可以考慮多種水質指標且客觀反映水質污染狀況的方法。于是基于啟發(fā)式的各種智能方法被廣泛應用于水質評估領域,如基于主成分分析的方法[4?5]、基于信息熵的方法[6]、基于聚類的方法[7]和人工神經(jīng)網(wǎng)絡方法[8?11]等。這些方法多是基于統(tǒng)計學理論,要求被研究的樣本規(guī)模充分大,而在實際問題中往往無法滿足,導致了水質評估性能不能令人滿意。支持向量機(support vector ma?chine,SVM)方法與傳統(tǒng)智能方法相比,不是僅僅以經(jīng)驗風險最小化為目標,而是以結構風險最小化為目標,僅以經(jīng)驗風險最小為約束條件,因此SVM方法特別適合于小樣本分類,并具有全局尋優(yōu)和泛化能力強等優(yōu)點[12]。目前已有一些學者采用SVM方法進行水質污染預測與評價[13?14],并且取得了很好效果。但由于傳統(tǒng)SVM算法的參數(shù)選取多是依賴經(jīng)驗或人工反復嘗試,通常很難選擇到最佳的參數(shù)組合,存在分類效果因人而異、參數(shù)選擇時間長等缺點,這在一定程度上限制了其應用和發(fā)展。
本文SVM的參數(shù)選擇過程中引入遺傳算法(genetic algorithms,GA),利用其較強的全局搜索能力進行參數(shù)優(yōu)化,建立了一種進化SVM模型,并將所提出的模型應用于水質評估。為驗證方法的有效性,將該模型分別應用于松花江松原段、松花江哈爾濱段、黃河甘肅段和吉林樺甸關門砬子水庫的真實數(shù)據(jù)上進行測試。實驗結果表明,建立的進化SVM水質評估模型在分類精度和泛化能力上較經(jīng)典SVM方法和BP神經(jīng)網(wǎng)絡方法都有所提高。
1.1 SVM方法
SVM方法是20世紀90年代由Vapnik提出的,是建立在統(tǒng)計學習理論基礎上的一種新方法[12]。其優(yōu)化目標為結構風險最小化,能依靠有限樣本信息實現(xiàn)模型復雜性和學習能力之間最佳折中。由于SVM方法適用于小樣本分類問題,并具有全局最優(yōu)性能和較好的泛化能力,因而在模式分類[15]和預測分析[16]等方面得到了廣泛應用。
SVM的基本理論是從二分類的問題提出的。設樣本集{xi,yi},x∈Rd,i=1,2,…,n,其中n為樣本個數(shù);d為樣本向量xi的維數(shù);yi∈{-1,1},代表分類類別。如果數(shù)據(jù)為線性可分的,則存在超平面將2組數(shù)據(jù)分開,如圖1所示。
圖1 最優(yōu)超平面示意圖Fig.1 Sketch diagram of optimal hyperplane
設超平面為
式中:x是超平面上的點,w是超平面的法向量,b是截距。顯然,這樣的超平面有無窮多,而希望找到距離2類樣本點最遠的那個,即所謂的“最優(yōu)超平面”。分別約束2類點中距離該平面最近的點(支持向量)滿足w·x-b=1和w·x-b=-1,于是求解最優(yōu)超平面問題轉化為如下有約束優(yōu)化問題:
式中:N為樣本總個數(shù)。通過一系列求解,最終可以得到最優(yōu)超平面為
式中:αi為引入的Lagrange乘子。進一步,通過引入軟間隔概念,即在約束條件中加入松弛因子,可允許少量樣本被錯分,于是上述優(yōu)化問題變?yōu)?/p>
式中:ξi為需優(yōu)化的松弛因子,C是常量,為懲罰因子。另一方面,當樣本為非線性可分時,假定有某一高維空間,當樣本由原始低維空間映射到該高維空間(映射函數(shù)為Y=Φ(X))后樣本為線性可分,則可以在高維空間中求解得到最優(yōu)超平面,即
為避免低維空間到高維空間映射的復雜運算,用低維空間的核函數(shù)代替高維空間中的內積運算,即若有K(x,y)=Φ(x)·Φ(y),得到的超平面為
在SVM中,核函數(shù)的選取對算法的效果有重要影響,常用的核函數(shù)類型主要有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和Sigmoid核函數(shù)等,其中最為常用的是徑向基核函數(shù),其形式為
1.2 進化SVM模型
懲罰系數(shù)C和核函數(shù)中的參數(shù),如徑向基中的寬度σ的選取是SVM算法中較為關鍵的問題。但是如何選取最佳的SVM參數(shù)一直沒有一個統(tǒng)一的方法,這在很大程度上限制了它的實際應用。本文采用GA方法進行SVM的參數(shù)選取,即懲罰系數(shù)C和徑向基函數(shù)寬度σ的選取。主要過程如下:
1)編碼。在對SVM 2個參數(shù)的組合進行優(yōu)化時,RBF核函數(shù)參數(shù)σ和懲罰因子C取值范圍采用二進制編碼,編碼分別為m1位和m2位的二進制串,將m1+m2位二進制編碼組合就得到個體染色體基因串,個體染色體基因串結構如圖2所示。
圖2 染色體結構Fig.2 Structure of chromosome
2)適應度評價函數(shù)。本文采用5折交叉驗證法進行訓練,即將訓練樣本分成5份,每次隨機選擇4份進行訓練,另外1份用作驗證集。GA的適應度通過驗證集的誤差進行定義,即
式中:ε是一個比較小的數(shù),防止分母為零。
3)選擇操作。本文采用基于排序的選擇方案,按照適應度值對種群內的全部P個個體進行排序,第i個個體被選擇的概率為
式中:c為排序第1的個體的選擇概率,其選擇需滿足
4)交叉和變異操作。在選擇操作中用于繁殖下一代的個體中,對2個不同染色體相同位置上的基因以交叉概率pc進行交換,從而產(chǎn)生新的染色體。變異算子以一定的變異概率pm隨機改變字符串某個位置上的值,隨機將二進制編碼基因串某個位置0變?yōu)?,或將1變?yōu)?。交叉概率pc和變異概率pm按照文獻[17]的算法進行選擇,使pc和pm能夠隨適應度自動改變。
算法的流程如圖3所示。
圖3 進化SVM流程Fig.3 Flowchart of evolutionary SVM
2.1 實驗數(shù)據(jù)
本文的實驗數(shù)據(jù)來自松花江松原段、松花江哈爾濱段、黃河甘肅段和吉林樺甸關門砬子水庫日常水質監(jiān)測數(shù)據(jù),主要水質監(jiān)測項目有pH、溶解氧(dissolved oxygen,DO)、高錳酸鹽指數(shù)(permanga?nate index,PI)、化學需氧量(chemical oxygen de?mand,COD)、生化需氧量(biochemical oxygen de?mand,BOD)、氨氮、總磷(total phosphorus,TP)、總氮(total phosphorus,TN)、揮發(fā)酚(volatile phenol,VP)、石油類和大腸種群等。剔出由于各種原因造成的缺失數(shù)據(jù),其樣本數(shù)、監(jiān)測位置和監(jiān)測項目詳細信息如表1所示。其中松花江松原段選擇2002年至2006年連續(xù)5年的每年豐水期、平水期和枯水期3個時段的水質監(jiān)測數(shù)據(jù);松花江哈爾濱段選擇2012年2月至10月連續(xù)9個月的4個斷面、2個監(jiān)測點,每月1次的水質監(jiān)測數(shù)據(jù);黃河甘肅段選擇2010年全年18個監(jiān)測斷面,每月1次的水質監(jiān)測數(shù)據(jù);吉林樺甸關門砬子水庫選擇2014年7月到2015年8月每天6次水質監(jiān)測數(shù)據(jù)。水質評價執(zhí)行地面水環(huán)境質量標準GB3838?2002,水質級別執(zhí)行5級標準[18]。
表1 實驗數(shù)據(jù)詳細信息Table 1 The detailed information of the experimental data
2.2 進化SVM的參數(shù)選擇
本文選取每組數(shù)據(jù)源中2/3的數(shù)據(jù)作為訓練樣本,1/3的數(shù)據(jù)作為測試樣本,訓練過程采用5折交叉驗證。水質監(jiān)測指標作為輸入向量,水質級別作為輸出向量,核函數(shù)選用常用的RBF函數(shù)。采用1.2節(jié)提出的方法對SVM的參數(shù)進行尋優(yōu),4個數(shù)據(jù)集的進化代數(shù)與適應度關系曲線分別如圖4~7所示,當懲罰因子C、RBF核函數(shù)參數(shù)σ和交叉確認準確率分別取表2中的數(shù)值時,SVM分類精度和泛化能力最佳。
圖4 松花江松原段GA適應度曲線Fig.4 GA fitness curves on Songyuan section,Songhua River
圖5 松花江黑龍江段GA適應度曲線Fig.5 GA fitness curves on Heilongjiang section,Song?hua River
圖6 黃河甘肅段GA適應度曲線Fig.6 GA fitness curves on Gansu section,Yellow River
圖7 樺甸關門砬子水庫GA適應度曲線Fig.7 GA fitness curves on HuaDian Guanmenlazi dam
表2 最佳參數(shù)Table 2 The optimal parameters
2.3 水質評價結果
為驗證本文方法的有效性,將其結果與經(jīng)典SVM的結果進行了比較。經(jīng)典SVM選擇目前被廣泛使用的臺灣大學林智仁教授開發(fā)的免費軟件包LIBSVM[19]進行計算。算法中的主要參數(shù)均采用默認值,即懲罰因子C=1,RBF核函數(shù)參數(shù)σ取樣本數(shù)據(jù)屬性數(shù)的倒數(shù)。進化SVM算法中的懲罰因子C和RBF核函數(shù)參數(shù)σ按表2取值。水質評估結果如表3所示。由表3可以看出,進化SVM水質評價模型的識別精度較經(jīng)典SVM水質評價模型分別提高16.7%、12.5%、33.3%和6.7%,較BP神經(jīng)網(wǎng)絡方法分別提高7.7%、0%、1.7%和40.9%,這說明本文方法具有良好的分類精度和泛化性能。
表3 水質評價結果Table 3 The results of water quality assessment%
本文建立的進化SVM模型采用的對SVM的懲罰因子C和RBF核函數(shù)參數(shù)σ進行參數(shù)優(yōu)化,對比經(jīng)典SVM方法具有一定的優(yōu)勢。將其應用于水質評估問題中,實驗結果表明該方法可獲得較傳統(tǒng)算法更好的精度。本文為水質綜合評估提供了一條新途徑,對及時掌握流域水污染狀況和水文特征具有重要意義。
[1]朱靈峰,王燕,王陽陽,等.基于單因子指數(shù)法的海浪河水質評價[J].江蘇農(nóng)業(yè)科學,2012,40(3):326?327.ZHU Lingfeng,WANG Yan,WANG Yangyang,et al.Wa?ter quality assessment of Hailang River using single factor index method[J].Journal of Jiangsu Agricultural Sciences,2012,40(3):326?327.
[2]張龍江.水質評價的模糊綜合評判——加權平均復合模型應用[J].環(huán)境工程,2001,19(6):53?55.ZHANG Longjiang.Application of fuzzy comprehensive judgement and weighted average models to water quality as?sessment[J].Environmental Engineering,2001,19(6):53?55.
[3]錢天鳴,余波.內梅羅污染指數(shù)在運河水質評價中的應用[J].環(huán)境污染與防治,1999,21(增刊):67?68,71.QIAN Tianming,YU Bo.Application of the canal water quality evaluation using Nemerow pollution index[J].Envi? ronmental Pollution&Control,1999,21(S):67?68,71.
[4]張召躍,王海燕,朱靈峰,等.主成分分析法在水節(jié)霉生長水體水質評價中的應用[J].環(huán)境工程學報,2011,5(5):1035?1040.ZHANG Zhaoyue,WANG Haiyan,ZHU Lingfeng,et al.Application of principal component analysis in quality evalu?ation of water body with Leptomitus lacreus growth[J].Chi?nese Journal of Environmental Engineering,2011,5(5):1035?1040.
[5]李鳳超,劉存歧,管越強,等.應用多元分析方法評價白洋淀水質現(xiàn)狀[J].河北大學學報:自然科學版,2006,26(4):405?410.LI Fengchao,LIU Cunqi,GUAN Yueqiang,et al.Evalua?ting current water quality of Baiyangdian Lake by using multi?variate analysis[J].Journal of Hebei University:Nat?ural Science Edition,2006,26(4):405?410.
[6]LIU L,ZHOU J Z,AN X L,et al.Using fuzzy theory and information entropy for water quality assessment in Three Gorges region,China[J].Expert Systems with Applica?tions,2010,37(3):2517?2521.
[7]張萌,倪樂意,謝平,等.基于聚類和多重評價法的河流質量評價研究[J].環(huán)境科學與技術,2009,32(12):178?185.ZHANG Meng,NI Leyi,XIE Ping,et al.Water quality as?sessment of a large river based on multiple assessment meth?od and cluster analysis[J].Environmental Science&Tech?nology,2009,32(12):178?185.
[8]WEN C G,LEE C S.A neural network approach to multiob?jective optimization for water quality management in a river basin[J].Water Resources Research,1998,34(3):427?436.
[9]黃勝偉,董曼玲.自適應變步長BP神經(jīng)網(wǎng)絡在水質評價中的應用[J].水利學報,2002,(10):119?123.HUANG Shengwei,DONG Manling.Application of adaptive variable step size BP network to evaluate water quality[J].Journal of Hydraulic Engineering,2002,(10):119?123.
[10]羅定貴,王學軍,郭青.基于MATLAB實現(xiàn)的ANN方法在地下水質評價中的應用[J].北京大學學報:自然科學版,2004,40(2):296?302.LUO Dinggui,WANG Xuejun,GUO Qing.The application of ANN realized by MATLAB to underground water quality assessment[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2004,40(2):296?302.
[11]曹艷龍,汪西莉,周兆永.基于BP神經(jīng)網(wǎng)絡的渭河水質評價方法[J].計算機工程與設計,2008,29(22):5910?5912,5916.CAO Yanlong,WANG Xili,ZHOU Zhaoyong.Water qual?ity assessment method of Wei river based on BP neural net?work[J].Computer Engineering and Design,2008,29(22):5910?5912,5916.
[12]VAPNIK V.The nature of statistical learning theory[M].New York:Springer Verlag,1995:267?290.
[13]XIANG Y R,JIANG L Z.Water quality prediction using LS?SVM with particle swarm optimization[C]//Second In?ternational Workshop Discovery and Data Mining.Moscow,Russia,2009:901?904.
[14]SINGH K P,BASANT N,GUPTA S.Support vector ma?chines in water quality management[J].Analytica Chimica Acta,2011,703(2):152?162.
[15]張艷秋,王蔚.利用遺傳算法優(yōu)化的支持向量機垃圾郵件分類[J].計算機應用,2009,29(10):2755?2757.ZHANG Yanqiu,WANG Wei.E?mail classification by SVM optimized with genetic algorithm[J].Journal of Com?puter Applications,2009,29(10):2755?2757.
[16]SAINI L M,AGGARWAL S K,KUMAR A.Parameter op?timisation using genetic algorithm for support vector ma?chine?based price?forecasting model in National electricity market[J].IET Generation,Transmission&Distribution,2010,4(1):36?49.
[17]SRINIVAS M,PATNAIK L M.Adaptive probabilities of crossover and mutation in genetic algorithm[J].IEEE Transactions on Systems Man and Cybernetics,1994,24(4):656?667.
[18]中國環(huán)境科學研究院.GB3838_2002地表水環(huán)境質量標準[S].北京:中國環(huán)境科學出版社,2002.China Environmental Science Research Institute.GB3838_ 2002 The surface water environment quality standard[S].Beijing:China Environmental Science Press,2002.
[19]CHANG C C,LIN C J.LIBSVM:a library for support vec?tor machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):27.
Evolutionary support vector machine model and its application in water quality assessment
QIAN Yun1,2,LIANG Yanchun1,ZHAI Tianfang3,LIU Hongzhi4,SHI Xiaohu1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.College of Electrical and Information Engineering,Beihua University,Jilin 132021,China;3.Jilin Water Resources Research Institute,Changchun 130022,China;4.Computing Center of Jilin Province,Computer Technology Research Institute of Jilin Province,Changchun 130012,China)
A water quality assessment model is an effective tool for water quality planning,environmental water pol?lution control and environment management.In this paper,an evolutionary support vector machine(SVM)model is developed by using genetic algorithm(GA)to combine and optimize the radial basis kernel function parameter σ and error penalty factor C of a SVM algorithm.This model is then extended to water quality assessment.To test the effectiveness of the proposed method,it is applied to a simulation on real data of the Songyuan and Harbin sections of the Songhua River,the Gansu section of the Yellow River,and the Jilin Huadian Guanmenlizi water reservoir.Simulation results show that,compared with the classical SVM method,the classification accuracy and generaliza?tion ability of the evolutionary support vector machine model for water quality assessment are improved.
water quality assessment model;support vector machine(SVM);genetic algorithms(GA);radial ba?sis kernel function;penalty factor
錢云,女,1972年生,副教授,主要研究方向為智能計算及應用。發(fā)表學術論文10余篇,其中被SCI檢索2篇。
梁艷春,男,1953年生,教授。主要研究方向為智能計算、文本挖掘、生物信息學。發(fā)表學術論文300余篇,其中被SCI檢索100余篇。
翟天放,男,1980年生,工程師,主要研究方向為水利信息化。
TP391.4
A
1673?4785(2015)05?0684?06
10.11992/tis.201410018
http://www.cnki.net/kcms/detail/23.1538.tp.20150930.1556.022.html
錢云,梁艷春,翟天放,等.進化支持向量機模型及其在水質評估中的應用[J].智能系統(tǒng)學報,2015,10(5):684?689.
英文引用格式:QIAN Yun,LIANG Yanchun,ZHAI Tianfang,et al.Evolutionary support vector machine model and its application in water quality assessment[J].CAAI Transactions on Intelligent Systems,2015,10(5):684?689.
2014?10?14.
日期:2015?09?30.
吉林省科技發(fā)展計劃項目(20130206003SF).
時小虎.E?mail:shixh@jlu.edu.cn.