趙立杰, 王 月, 郭 爍
(沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142)
近年來,隨著污水排放標(biāo)準(zhǔn)的不斷提高,我國對污水處理操作和運行自動化提出了更高要求?;钚晕勰喾ㄊ俏鬯幚磉^程中被廣泛采用的方法,其利用活性污泥中的微生物群體,吸附、氧化、分解污水中有機(jī)物,經(jīng)過硝化、反硝化、釋磷和吸磷等生化反應(yīng)去除氮磷污染物,使出水水質(zhì)滿足排放指標(biāo)要求[1-2]。
污水處理過程是一個典型的非線性、多變量、大滯后、非平穩(wěn)、時變系統(tǒng)[2],其關(guān)鍵水質(zhì)參數(shù)的檢測和控制是污水處理廠穩(wěn)定、高效運行的重要前提。5日生物需氧量(five-day biochemical oxygen demand,BOD5)和出水氨氮質(zhì)量濃度等,都是污水處理過程中的重要評價指標(biāo)。傳統(tǒng)的測量方法耗時長、精度不高,在線監(jiān)測設(shè)備價格昂貴、維護(hù)困難,因此將軟測量技術(shù)應(yīng)用于污水處理過程,建立出水水質(zhì)關(guān)鍵參數(shù)的軟測量模型,是解決這一難題的有效途徑[3]。
軟測量模型建立的方法主要有3種,即基于機(jī)理的、基于知識的和基于數(shù)據(jù)驅(qū)動的方法。污水處理過程內(nèi)部機(jī)理復(fù)雜,且在這個過程中會產(chǎn)生大量數(shù)據(jù),因此當(dāng)前在污水處理過程中應(yīng)用較為廣泛的是基于數(shù)據(jù)驅(qū)動的建模方法。該方法不需要過程的先驗知識,使用過程數(shù)據(jù)來建立輸入輸出模型。傳統(tǒng)的數(shù)據(jù)驅(qū)動軟測量建模方法主要包括多種統(tǒng)計推斷技術(shù)和機(jī)器學(xué)習(xí)技術(shù),例如將主成分分析(PCA)與回歸模型相結(jié)合的主成分回歸(PCR)、偏最小二乘(PLS)回歸、支持向量機(jī)(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)[4-8]。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線性映射能力,它能逼近任意非線性函數(shù),對復(fù)雜系統(tǒng)進(jìn)行精確建模,因此在污水處理過程建模研究中得到廣泛應(yīng)用[9]。
隨機(jī)配置網(wǎng)絡(luò)(stochastic configuration networks, SCN)是Wang等[10]提出的一類隨機(jī)化學(xué)習(xí)模型, SCN模型人工干預(yù)少、學(xué)習(xí)速度快。在解決回歸問題上取得了良好的性能。 但SCN模型中輸出權(quán)重由于采樣觀測原因, 最小二乘解析解可能存在奇異問題。 從而使輸出權(quán)值不穩(wěn)定, 出現(xiàn)過擬合。 因此一些改進(jìn)后的SCN模型被提出, 如L1正則、L2正則、偏最小二乘的隨機(jī)配置網(wǎng)絡(luò)[11-13]。 上述改進(jìn)后的模型既保留了傳統(tǒng)SCN的良好逼近性, 又改善了模型過擬合問題, 提高了模型泛化能力和預(yù)報精度。
然而,由于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練基于經(jīng)驗風(fēng)險最小化原則,容易產(chǎn)生過擬合和局部優(yōu)化問題。另外單模型單個神經(jīng)網(wǎng)絡(luò)模型的性能是不穩(wěn)定的,自適應(yīng)能力差。污水處理過程的工藝復(fù)雜,影響重要出水參數(shù)測量的因素眾多,數(shù)據(jù)的維數(shù)高,這無疑增加了數(shù)據(jù)驅(qū)動建模方法的難度。因此,學(xué)者們通過各種技術(shù)方法,例如集成方法、正則化方法等,來努力提高泛化能力和穩(wěn)定性。在上述技術(shù)中,集成方法似乎相當(dāng)有效[14]。
集成學(xué)習(xí)是通過訓(xùn)練多個學(xué)習(xí)器,使用一定的策略將學(xué)習(xí)器結(jié)合來完成學(xué)習(xí)任務(wù)。其中最常見的方法有Bagging,Boosting,Stacking等。這些集成方法也被廣泛應(yīng)用于軟測量中,并在不同領(lǐng)域發(fā)揮作用。文獻(xiàn)[15]提出了一種基于改進(jìn) Bagging算法的高斯過程集成軟測量建模方法。該方法以高斯過程回歸算法作為基學(xué)習(xí)器的學(xué)習(xí)算法,采用Bagging算法建立高斯過程集成軟測量模型。文獻(xiàn)[16]提出了基于AdaBoost的BP神經(jīng)網(wǎng)絡(luò)算法,并將該方法應(yīng)用于短期風(fēng)速預(yù)測。還有一些學(xué)者采用負(fù)相關(guān)(negative correlation learning, NCL)算法進(jìn)行集成,文獻(xiàn)[17]以隨機(jī)配置網(wǎng)絡(luò)(SCNs)作為基本學(xué)習(xí)器模型,用負(fù)相關(guān)學(xué)習(xí)策略來評估輸出權(quán)重。在污水處理領(lǐng)域,文獻(xiàn)[18]以模糊聚類-極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)為子模型,采用信息熵的元學(xué)習(xí)機(jī)制進(jìn)行集成。因此和單一模型相比,集成模型具有更好的預(yù)測精度。
為了提高水質(zhì)軟測量模型的泛化性,本文采用AdaBoost.RT集成算法對L2-SCN進(jìn)行集成,以某污水處理廠的過程數(shù)據(jù)為例,對出水BOD5、NH4-N進(jìn)行預(yù)報。將預(yù)測結(jié)果與化驗值進(jìn)行對比,結(jié)果表明該集成模型具有良好的精度和泛化性。
文獻(xiàn)[11]在隨機(jī)配置網(wǎng)絡(luò)基礎(chǔ)上提出帶有L2范數(shù)正則化的隨機(jī)配置網(wǎng)絡(luò),改善輸出權(quán)重最小二乘解析解的代數(shù)屬性。其中將L2范數(shù)作為輸出懲罰項,輸出權(quán)重β由懲罰項和誤差項共同決定。
(1)
式中:J為損失函數(shù);N為樣本數(shù);β為SCN模型參數(shù);l為某種損失函數(shù)(例如,均方誤差);r為由標(biāo)量懲罰系數(shù);α≥0表示加權(quán)的正則化項。
加入L2范數(shù)正則化后,可以約束β的范圍,降低過擬合風(fēng)險。訓(xùn)練樣本{(xn,yn),n=1,2,…,N},其中,xn∈d,yn∈m。X∈N×d和Y∈N×m分別代表輸入和輸出矩陣,eL-1,q(X)∈N×m代表誤差矩陣,其中每一列為
eL-1,q(X)=[eL-1,q(x1),…,eL-1,q(xN)]T∈N。
(2)
式中,q=1,2,…,m。對于輸入數(shù)據(jù)X,第L個隱含節(jié)點gL的輸出為
(3)
隱含層輸出矩陣HL=[h1,h2,…,hL],定義一組變量ξL,q(q=1,2,…,m),
(4)
正值ξL,q越大,輸入權(quán)值配置效果越好。輸出權(quán)重矩陣β=[β1,β2,…,βL]T∈l×m確定為
(5)
AdaBoost(adaptive Boosting)是Boosting中最具代表性的算法。Schapire在1990年提出Boosting算法[19],也稱提升算法,是集成學(xué)習(xí)的重要手段,能提高任意學(xué)習(xí)算法精度。之后Freund和Schapire在將其改進(jìn)為AdaBoost算法,是一種迭代算法[20]。AdaBoost.RT算法[21]與傳統(tǒng)的集成算法Adaboost相比,主要區(qū)別在于引進(jìn)了固定閾值φ,通過與訓(xùn)練誤差的對比,確定權(quán)值更新的方式。其原理是調(diào)整樣本的權(quán)重分布和弱預(yù)報器的權(quán)重。在起始狀態(tài),每樣本的權(quán)重相同,開始訓(xùn)練一個弱預(yù)報器,根據(jù)訓(xùn)練誤差來確定其權(quán)重,對于預(yù)誤差相對較大的樣本,相應(yīng)增加其權(quán)重。在下一輪迭代訓(xùn)練中,對于誤差較大樣本給予更多地關(guān)注,并相應(yīng)降低誤差較小樣本的權(quán)重,從而得到新的樣本分布。同時,根據(jù)弱預(yù)報器的預(yù)報誤差,對弱預(yù)報器賦予相應(yīng)的權(quán)重。預(yù)報誤差越小,權(quán)重越大,反之權(quán)重越小。經(jīng)過n次迭代,得到t個弱預(yù)報器及其相應(yīng)的權(quán)向量。根據(jù)它們的權(quán)重,t個弱預(yù)報器組合成一個強(qiáng)預(yù)報器。
基于集成的L2-SCN網(wǎng)絡(luò)水質(zhì)預(yù)測模型算法的具體計算過程如下。
1) 將數(shù)據(jù)樣本分為訓(xùn)練樣本和測試樣本,然后初始化訓(xùn)練樣本數(shù)據(jù)權(quán)重。初始化權(quán)重公式為
(6)
式中:Dt(i)為初始化權(quán)重,i=1,2,…,m;m為訓(xùn)練樣本個數(shù),其中誤差率εt=0,閾值φ(0<φ<1),迭代次數(shù)為T。
2) 當(dāng)t (7) 根據(jù)相對誤差計算誤差率 (8) 3) 更新權(quán)重。 (9) 式中,Zt是歸一化因子。 4) 輸出預(yù)測結(jié)果。由T輪的訓(xùn)練后得到,如式(10)。 (10) 結(jié)構(gòu)簡圖如圖1所示。 圖1 集成L2-SCN結(jié)構(gòu)Fig.1 Structure of ensemble L2-SCN 本文所用污水處理過程數(shù)據(jù)來自沈陽市某污水處理廠, 采樣周期以d為單位, 共包含365個樣本, 每個樣本包含17個輸入變量和2個輸出變量, 其中輸入變量包括進(jìn)水COD質(zhì)量濃度、進(jìn)水SS質(zhì)量濃度、進(jìn)水pH值、進(jìn)水氨氮質(zhì)量濃度、進(jìn)水流量、配水計量槽COD質(zhì)量濃度、配水計量槽懸浮物質(zhì)量濃度、回流污泥流量、缺氧池氧化還原電位、好氧池氧化還原電位、曝氣池曝氣流量、缺氧池中溶解氧質(zhì)量濃度、好氧池中溶解氧質(zhì)量濃度、生化池污泥體積、生化池pH值、生化池中混合液懸浮固體質(zhì)量濃度、出水SS質(zhì)量濃度作為模型的輸入變量, 輸出變量包括出水BOD5質(zhì)量濃度、出水氨氮質(zhì)量濃度。 數(shù)據(jù)集分為2組, 訓(xùn)練集和測試集, 訓(xùn)練集包括305個樣本,X1∈305×17,Y1∈305×2, 測試集包括60個樣本,X2∈60×17,Y2∈60×2。 基于上述數(shù)據(jù)分別建立了SCN、LassoSCN、L2SCN、PLSSCN、AdaBoost.RT-SCN、AdaBoost.RT-LassoSCN、AdaBoost.RT-L2SCN、AdaBoost.RT-PLSSCN污水水質(zhì)模型。 實驗中,設(shè)置誤差容忍度為0.1,隨機(jī)配置最大次數(shù)Tmax為200,最大隱含節(jié)點個數(shù)Lmax從10開始每隔20增加到210,之后每隔30增加到300。隨機(jī)權(quán)重范圍λ為{0.5,1.0,5.0,10.0,…,250.0},正則化系數(shù)為0.2,閾值φ=0.1。實驗獨立重復(fù)運行20次。根據(jù)預(yù)測的均方根誤差(root mean square error, RMSE)評估模型。RMSE的計算公式如下: (11) 表1、表2列出不同隱藏節(jié)點設(shè)置下,不同建模方法預(yù)測的出水BOD5、NH4-N的RMSE統(tǒng)計均值。從表中可以看出,隨著隱藏節(jié)點的增加,SCN模型測試均方根誤差隨著隱藏節(jié)點的增加而變大,說明SCN在隱藏節(jié)點較大時,模型過擬合泛化性差。本文用AdaBoost.RT改進(jìn)的SCN模型測試均方根誤差始終小于SCN模型的均方根誤差,相比SCN模型有一定提升,說明集成SCN模型是一個可行的方法,在一定程度上可以防止過擬合現(xiàn)象發(fā)生。LassoSCN、L2SCN、PLSSCN模型隨著隱藏節(jié)點的增加,均方根誤差趨于穩(wěn)定,集成后的模型均方根誤差也始終低于單一模型,使模型的預(yù)測誤差變小,提高了模型的預(yù)測性能。 表1 出水BOD5的測試均方根誤差對比Table 1 Comparison of test root mean square error of effluent BOD5 表2 出水NH4-N的測試均方根誤差對比Table 2 Comparison of test root mean square error of effluent NH4-N SCN,LassoSCN,L2-SCN,PLSSCN模型和集成后的各個模型污水出水BOD5、NH4-N預(yù)測值與真實值的擬合曲線如圖2~圖5所示,可以看出集成后的模型預(yù)測能夠更好地擬合真實值。與單一模型相比,集成模型預(yù)測結(jié)果更好,預(yù)報更接近真實值。 (a) BOD5預(yù)測曲線(b) NH4-N預(yù)測曲線 (a) BOD5預(yù)測曲線(b) NH4-N預(yù)測曲線 (a) BOD5預(yù)測曲線(b) NH4-N預(yù)測曲線 (a) BOD5預(yù)測曲線(b) NH4-N預(yù)測曲線 為了更好地驗證集成L2-SCN模型的性能,本文與AdaBoost.RT-RVFL、AdaBoost.RT-BP建模方法進(jìn)行了實驗對比,經(jīng)多次實驗對不同隱藏節(jié)點進(jìn)行建模,均方根誤差和平均絕對誤差作為評價指標(biāo),公式如下: (12) 經(jīng)多次實驗,選取每個模型均方根誤差和平均絕對誤最小值進(jìn)行對比,如表3所示。從表3中可以看出,在BOD5、NH4-N預(yù)測上,集成L2-SCN模型表現(xiàn)更好,均方根誤差和絕對誤差均最小,預(yù)測效果稍好于其他集成SCN模型,通過上述實驗對比可以得出,集成L2-SCN模型在出水水質(zhì)BOD5、NH4-N的預(yù)測上有更好的表現(xiàn)。 表3 不同建模方法的測試均方根誤差對比Table 3 Comparison of test root mean square error of different modeling methods 由于污水處理關(guān)鍵水質(zhì)參數(shù)BOD5、NH4-N難以準(zhǔn)確實時檢測,單一模型難以獲得良好的預(yù)測精度,因此將AdaBoost.RT算法和L2正則隨機(jī)配置網(wǎng)絡(luò)相結(jié)合進(jìn)行建模預(yù)測,以某污水處理廠真實數(shù)據(jù)建模仿真,得出以下結(jié)論。 1) 與單一SCN模型相比較,將AdaBoost.RT集成算法與SCN相結(jié)合,在一定程度上可以克制過擬合的風(fēng)險,且集成模型預(yù)測精度優(yōu)于任意單一的預(yù)測模型。 2) 建立的集成L2-SCN模型,對比同等條件下其他集成模型的預(yù)測效果,均方根誤差和平均絕對誤差都較小,預(yù)測模型泛化能力和擬合精度均有一定提高,在污水水質(zhì)預(yù)報上更具有優(yōu)勢。3 仿真實驗
3.1 設(shè)計與方法
3.2 結(jié)果與分析
4 結(jié) 論