国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

預(yù)測造紙廢水出水指標(biāo)的隨機(jī)森林建模方法

2019-09-11 06:49:34劉鴻斌
中國造紙 2019年8期
關(guān)鍵詞:決策樹建模變量

辛 辰 劉鴻斌,2,*

(1.南京林業(yè)大學(xué)林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇南京,210037;2.華南理工大學(xué)制漿造紙工程國家重點(diǎn)實驗室,廣東廣州,510640)

在造紙廢水處理工藝中,往往需要根據(jù)出水指標(biāo)來及時調(diào)整工藝條件,達(dá)到對污水的安全排放。然而考慮到造紙廢水處理過程中大多包含具有時變性與復(fù)雜性的化學(xué)過程,傳統(tǒng)化學(xué)成分檢測儀表存在價格高昂、維護(hù)成本高以及檢測不靈敏等缺點(diǎn)。近年來,基于數(shù)據(jù)驅(qū)動的軟測量建模方法可通過建立輸入與輸出數(shù)據(jù)的關(guān)系來完成易測變量對難測變量的預(yù)測[1],也可以對造紙廢水處理過程中出現(xiàn)的故障進(jìn)行檢測[2],因而得到廣泛的應(yīng)用。

常見的軟測量建模方法有人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)、支持向量回歸(Support Vector Regression,SVR)、偏最小二乘法(Partial Least Squares,PLS)[3]。PLS具有克服變量相關(guān)性和噪聲干擾等優(yōu)點(diǎn),因此PLS在工業(yè)生產(chǎn)過程中應(yīng)用較廣,但該方法屬于線性方法,對于具備典型非線性特征的造紙廢水處理過程,其預(yù)測精度明顯下降?;诖耍瑮詈频热薣4]在PLS的基礎(chǔ)上研究改進(jìn)得到了遞歸偏最小二乘法(RPLS),有效地提高了模型的預(yù)測精度。ANN模型的工作方式類似于人腦神經(jīng)元處理信息的方式[5],Zeng等人[6]提出將ANN預(yù)測模型應(yīng)用于造紙廢水處理過程。李曉東等人[7]利用ANN模型對城市廢水排放量進(jìn)行了預(yù)測研究。雖然ANN對于預(yù)測過程中的非線性特征具備較強(qiáng)的解釋能力,但該方法也存在一定的缺點(diǎn)。如為了得到最好的網(wǎng)絡(luò)結(jié)構(gòu),需要通過大量的排列組合去尋優(yōu);網(wǎng)絡(luò)權(quán)值在線調(diào)整比較困難,可能出現(xiàn)訓(xùn)練過早結(jié)束,權(quán)值衰退現(xiàn)象[8];此外,模型的過擬合問題也難以避免[9]。相比ANN模型,SVR模型在輸入數(shù)據(jù)中有選擇的尋找有限向量,比ANN對全體樣本迭代計算速度快[10]。汪瑤等人[11]通過粒子群優(yōu)化算法對SVR模型進(jìn)行參數(shù)優(yōu)化,優(yōu)化后的模型相比ANN模型預(yù)測精度顯著提高。張世峰等人[12]以溶解氧為控制對象,提出一種支持向量機(jī)(SVM)與PID結(jié)合的復(fù)合控制系統(tǒng)。支持向量機(jī)模型除了可以用于預(yù)測真實數(shù)據(jù)外,還可以在已知故障分類下預(yù)測數(shù)據(jù)的故障類型[13]。但當(dāng)樣本離散程度較高且樣本數(shù)過少時,模型難以有效還原總體的全部信息,預(yù)測精度不高[14]。

隨機(jī)森林(Random Forest,RF)模型是由Leo Breiman與Adele Cutler在2001年提出的一種統(tǒng)計學(xué)習(xí)模型[15],是一種結(jié)合Bagging和隨機(jī)選擇特征的高效新型的組合方法,廣泛用于樣本數(shù)據(jù)的分類和回歸預(yù)測。相比于上述機(jī)器學(xué)習(xí)模型,RF模型泛化能力更強(qiáng),在不結(jié)合其他優(yōu)化方法的前提下仍有較高的預(yù)測精度,且建模過程中需要調(diào)整的參數(shù)較少。RF模型在金融學(xué)、生物學(xué)、醫(yī)學(xué)、電力通信領(lǐng)域中有著廣泛的應(yīng)用[16-18],但在廢水出水指標(biāo)預(yù)測方面并未得到應(yīng)用。因此,本課題應(yīng)用RF模型對出水化學(xué)需氧量(COD)與出水固形物含量(SS)進(jìn)行預(yù)測并分析預(yù)測效果,同時對比了ANN、SVR、PLS方法的預(yù)測效果。

1 RF模型建模原理和評價指標(biāo)

1.1 建模原理

RF模型由K棵決策樹{h=(X,θK),K=1,2,…,k}組成,其中{θK,K=1,2,…,k}是一個隨機(jī)變量序列。當(dāng)模型用于分類時,RF模型中的決策樹使用分類樹(一般使用C4.5),最終通過少數(shù)服從多數(shù)的原則決定分類結(jié)果,當(dāng)模型用于回歸預(yù)測時,決策樹使用回歸樹(一般用CART),最終將所有決策樹輸出值的平均值作為預(yù)測結(jié)果[15]。RF模型最大的優(yōu)勢便是其多樣性,依照集成學(xué)理論來說,基學(xué)習(xí)器的多樣性越強(qiáng),其泛化能力就越好。RF模型的隨機(jī)思想主要體現(xiàn)在以下兩方面。

(1)Bagging思想[15]

在原始訓(xùn)練集中,利用Bootstrap抽樣方法有放回地抽取若干個大小相同的數(shù)據(jù)集樣本。原始訓(xùn)練集中每個樣本未被抽到的概率為(1-1/N)N,所以當(dāng)N足夠大時,(1-1/N)N將收斂于1/e≈0.368。這部分占比接近37%的數(shù)據(jù)即為袋外數(shù)據(jù),使用這些袋外數(shù)據(jù)可以對已有模型進(jìn)行檢驗。于是,每棵決策樹對應(yīng)一個誤差率,即OOB(out-of-bag)誤差率,根據(jù)誤差率可進(jìn)一步優(yōu)化模型。

(2)隨機(jī)特征思想[19]

為保證RF模型的隨機(jī)性最大化,每棵樹在節(jié)點(diǎn)分裂的過程中,都會從所有特征中選出最優(yōu)特征作為參考指標(biāo)。對于RF模型而言,如果選擇過少的特征,則會導(dǎo)致模型的精度降低。如果選擇的特征過多,則會弱化模型在分裂節(jié)點(diǎn)處的隨機(jī)性[20]。本課題采用基尼指數(shù)(Gini)[21]作為選擇依據(jù)選出最佳特征數(shù)。

1.2 RF模型的建模步驟

(1)在原始訓(xùn)練集S中,通過Bootstrap重抽樣的方法取出n個數(shù)據(jù)集樣本,然后將每個數(shù)據(jù)集樣本分為抽中樣本即袋內(nèi)數(shù)據(jù)(in-bag)和未被抽中樣本即袋外數(shù)據(jù)(out-of-bag)。

(2)從樣本的所有屬性中隨機(jī)抽取m個屬性,根據(jù)Gini指標(biāo)進(jìn)行節(jié)點(diǎn)分裂,用袋內(nèi)數(shù)據(jù)訓(xùn)練構(gòu)建CART樹。在構(gòu)建的過程中不進(jìn)行修剪,使得每一棵CART樹充分地生長。

(3)用未參與建模的袋外數(shù)據(jù)去檢驗對應(yīng)的CART樹,通過袋外數(shù)據(jù)的預(yù)測誤差確定最佳決策樹數(shù)量。

(4)利用建好的模型去預(yù)測測試集中的新數(shù)據(jù),將所有CART樹的預(yù)測結(jié)果平均值作為最終的預(yù)測結(jié)果。

RF模型建模流程圖如圖1所示。

1.3 預(yù)測模型的性能評價指標(biāo)

實驗引入相關(guān)系數(shù)(r)、平均絕對百分比誤差(MAPE)與均方根誤差(RMSE)作為模型評價指標(biāo),通過對比其他預(yù)測模型,發(fā)現(xiàn)RF模型在預(yù)測性能方面有明顯優(yōu)勢。其中r越大,MAPE與RMSE越小,表明模型的預(yù)測效果越好,對應(yīng)的計算公式如公式(1)所示。

圖1 隨機(jī)森林建模流程

式中,yt為測量值,為模型預(yù)測值分別為yt與的平均值。

2 實驗過程與結(jié)果

2.1 造紙廢水?dāng)?shù)據(jù)分析

實驗通過利用如圖2所示的某造紙廢水處理廠的170組樣本數(shù)據(jù)進(jìn)行研究,每組數(shù)據(jù)包括8個變量,分別為:廢水總流量Q、進(jìn)水懸浮固形物含量SSin、溫度T、進(jìn)水化學(xué)需氧量CODin、pH值、溶解氧含量DO、出水化學(xué)需氧量CODeff、出水懸浮固形物含量SSeff。將CODeff、SSeff作為預(yù)測模型的輸出變量,Q、SSin、CODin、pH值、T、DO作為輸入變量。按照時間先后的順序,將前120組數(shù)據(jù)作為訓(xùn)練集樣本,后50組數(shù)據(jù)作為測試樣本,建立RF回歸模型,確立預(yù)測變量與其影響變量之間的非線性關(guān)系。

圖2 造紙廢水處理過程數(shù)據(jù)

2.2 RF模型及其對比模型的建立

2.2.1 RF模型的建立

建模的主要函數(shù)為R語言中randomForest包中的randomForest函數(shù)。該函數(shù)中需要尋優(yōu)的主要參數(shù)有2個,分別為決策樹的棵數(shù)n_tree與樹節(jié)點(diǎn)的變量個數(shù)m_try,其默認(rèn)參數(shù)分別為n_tree=500,m_try=M/3(M為變量總個數(shù))。參數(shù)的可調(diào)范圍分別為n_tree∈[1,500],m_try∈[1,M]。考慮到較少的決策樹使得模型效果無法完全發(fā)揮,模型錯誤率偏高,而較多的決策樹則會提升模型復(fù)雜程度,使得模型訓(xùn)練與預(yù)測速度下降,并有可能出現(xiàn)輕微的過擬合現(xiàn)象。本課題通過調(diào)用R語言自帶函數(shù)plot對模型錯誤率與決策樹數(shù)量的關(guān)系可視化處理如圖3所示。由圖3可知,RF模型中樹的棵數(shù)n_tree取200時,OOB(out-of-bag)誤差波動已經(jīng)趨于穩(wěn)定,即實驗可以選用n_tree=200。選出最優(yōu)決策樹棵數(shù)后繼續(xù)做了補(bǔ)充驗證實驗,即不斷增加決策樹的棵數(shù)到500棵并觀察模型預(yù)測效果。結(jié)果表明,模型預(yù)測效果變化不明顯甚至有輕微下降的趨勢,證明了決策樹最優(yōu)棵數(shù)為200。樹節(jié)點(diǎn)預(yù)選的變量數(shù)m_try根據(jù)基尼指數(shù)選取最優(yōu)值,基尼指數(shù)越大表明樣本屬于某類的不確定性就越大。因為本次實驗數(shù)據(jù)的變量個數(shù)較少,所以依次計算了不同變量數(shù)對應(yīng)的基尼指數(shù),基尼指數(shù)最小時對應(yīng)的節(jié)點(diǎn)變量數(shù)為m_try=4。為了進(jìn)一步驗證所選的節(jié)點(diǎn)變量數(shù)為最優(yōu)變量數(shù),后續(xù)補(bǔ)充實驗分別用m_try=1、m_try=2、m_try=3、m_try=5、m_try=6進(jìn)行建模,觀察模型最后的預(yù)測效果即相關(guān)系數(shù)(r)、平均絕對百分比誤差(MAPE)與均方根誤差(RMSE)等指標(biāo),結(jié)果同樣表明當(dāng)m_try=4時,預(yù)測效果最好。

圖3 模型錯誤率與決策樹數(shù)量關(guān)系圖

2.2.2 對比模型的建立

建立3種對比模型前先需要將數(shù)據(jù)標(biāo)準(zhǔn)化處理,之后用前120組數(shù)據(jù)進(jìn)行建模,后50組數(shù)據(jù)用來檢驗預(yù)測效果。SVR模型所利用的主要程序包為R語言中的rminer包,其中模型參數(shù)選用SVM。ANN模型建模所利用的程序包主要為AMORE包。通過大量的實驗選出構(gòu)建模型的最佳參數(shù)為:模型的網(wǎng)絡(luò)總層數(shù)為3層,包含1個輸入層、1個隱含層和1個輸出層,其中輸入層節(jié)點(diǎn)數(shù)為6,隱含層節(jié)點(diǎn)數(shù)為2,輸出層節(jié)點(diǎn)數(shù)為1,隱含層采用tansig激活函數(shù),輸出層采用purelin激活函數(shù)。根據(jù)赤池信息量準(zhǔn)則,PLS模型最終選擇了3個與預(yù)測變量相關(guān)度最大的自變量作為輸入變量,分別為CODin、SSin、DO。

2.3 結(jié)果與討論

經(jīng)過模型的建立及后續(xù)的優(yōu)化后,表1列出了RF模型與其他3種模型的預(yù)測結(jié)果。對測試集CODeff的預(yù)測效果進(jìn)行比較,相關(guān)性方面,RF模型對應(yīng)的r為 0.7954,ANN、SVR、PLS,對應(yīng)的r分別為0.6936、0.7183、0.7305;誤差方面,RF模型對應(yīng)的RMSE與MAPE最小,分別為4.2471和5.2606,相比于ANN、SVR、PLS,其RMSE與MAPE分別降低了19.18%和7.55%、19.20%和15.75%、12.06%和7.67%。對測試集SSeff的預(yù)測效果進(jìn)行比較,相關(guān)性方面,RF模型對應(yīng)的r為0.8551,ANN、SVR、PLS對應(yīng)的r分別為0.6538、0.6882、0.7408;誤差方面,RF模型對應(yīng)的RMSE與MAPE最小,分別為0.6687和 2.0633,相比于 ANN、SVR、PLS,其RMSE與MAPE分別降低了20.69%和26.21%、17.03%和29.83%、17.35%和28.60%。

表1 不同模型對CODeff和出水SSeff的預(yù)測結(jié)果

總體而言,RF模型在預(yù)測精準(zhǔn)度方面都優(yōu)于其他3種常用的回歸預(yù)測模型,圖4為RF模型對CODeff和SSeff的預(yù)測效果圖。

RF模型比其他3種模型預(yù)測效果好的主要原因在于RF模型的泛化能力更強(qiáng),實驗中所用到的RF模型包含200棵決策樹,而每棵決策樹的生長只利用了訓(xùn)練集中的一部分樣本,同時只抽取樣本屬性中的部分屬性。采用該方法極大地提高了決策樹的多樣性,弱化了各棵決策樹的相關(guān)性。同時,RF模型需要調(diào)整的主要參數(shù)只有2個,即決策樹的棵數(shù)與樹節(jié)點(diǎn)預(yù)選的變量個數(shù),且易于尋找最優(yōu)參數(shù)。

圖4 RF模型對SSeff和CODeff的預(yù)測結(jié)果

相比之下,雖然ANN模型具有較強(qiáng)的非線性擬合能力,但在構(gòu)建模型的過程中,所要考慮的參數(shù)種類過多,在初始值、動量因子、網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)個數(shù)等參數(shù)方面沒有統(tǒng)一規(guī)范的尋優(yōu)方法,嘗試通過原理推導(dǎo)或?qū)嶒灲Y(jié)果比較進(jìn)行尋找最優(yōu)參數(shù)是一件耗時費(fèi)力的工作,往往會出現(xiàn)訓(xùn)練集預(yù)測效果較好,但測試集預(yù)測效果時好時壞的情況,容易出現(xiàn)過擬合現(xiàn)象,模型的泛化能力一般。SVR雖然相比于ANN過擬合現(xiàn)象得到了弱化,但根據(jù)實驗預(yù)測效果來看并不是很理想,想要進(jìn)一步提升預(yù)測效果還需要在原始模型上增添優(yōu)化函數(shù)。PLS模型預(yù)測效果雖然比ANN模型與SVR模型好,但其線性模型的本質(zhì)限制了它進(jìn)一步優(yōu)化的空間,且實驗結(jié)果證明PLS模型只適合選擇3個自變量作為輸入變量,并不能充分地利用收集到的數(shù)據(jù)所蘊(yùn)含的信息。

ANN、SVR、PLS在進(jìn)行預(yù)測前,也都需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,實驗中統(tǒng)一用z-score方法標(biāo)準(zhǔn)化,目的就是為了在建模過程中讓不同的自變量具有相同的尺度,對因變量的影響程度基本相同。RF模型與上述3種方法相比省去了這一步驟,因為每棵決策樹的生成過程都是依次用到部分自變量,所以不同尺度的自變量之間互不影響。

3 結(jié)論

本課題分別采用隨機(jī)森林(RF)模型、偏最小二乘(PLS)模型、支持向量回歸(SVR)模型與人工神經(jīng)網(wǎng)絡(luò)(ANN)模型對造紙廢水中的CODeff與SSeff指標(biāo)進(jìn)行了回歸預(yù)測。

3.1 通過與其他3種模型的預(yù)測結(jié)果比較得出:基于隨機(jī)森林回歸模型的預(yù)測效果最好,預(yù)測值與真實值之間不僅相關(guān)性更高,且誤差更小,泛化能力更強(qiáng)。

3.2 隨機(jī)森林回歸模型相比其他3種模型,數(shù)據(jù)無需標(biāo)準(zhǔn)化處理,尋找最優(yōu)參數(shù)時所要調(diào)整的參數(shù)較少且容易尋優(yōu),易于進(jìn)一步的推廣。

猜你喜歡
決策樹建模變量
抓住不變量解題
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運(yùn)動”為例
也談分離變量
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
基于PSS/E的風(fēng)電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
不對稱半橋變換器的建模與仿真
基于決策樹的出租車乘客出行目的識別
SL(3,3n)和SU(3,3n)的第一Cartan不變量
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
玛沁县| 交城县| 合川市| 昌都县| 石河子市| 宜川县| 榕江县| 富裕县| 东乌| 通城县| 新竹市| 昌乐县| 巴青县| 长宁区| 兴仁县| 武安市| 镶黄旗| 鄂州市| 长丰县| 临邑县| 宝兴县| 红原县| 平江县| 沂源县| 新化县| 扎兰屯市| 扶风县| 波密县| 阳江市| 荥阳市| 普陀区| 宣汉县| 万安县| 湾仔区| 京山县| 孝义市| 永新县| 奉节县| 道孚县| 开平市| 衡阳市|