基于隨機(jī)森林算法的水華預(yù)警模型

2018-09-10 08:50劉云翔吳浩

人民黃河 2018年8期

劉云翔吳浩

摘要：針對(duì)湖泊水華預(yù)警模型中的數(shù)據(jù)具有噪聲較復(fù)雜和非線性的特點(diǎn)，而傳統(tǒng)預(yù)警方法難以解決穩(wěn)健性差和過(guò)度擬合等問(wèn)題，采用機(jī)器學(xué)習(xí)分類算法——隨機(jī)森林，根據(jù)葉綠素a的濃度判斷水華是否發(fā)生，選取水溫（T）、pH值、氮磷比（TN：TP）、化學(xué)需氧量（COD）、總氮（TN）、總磷（TP）作為影響因子，構(gòu)建基于隨機(jī)森林分類算法的穩(wěn)健性較好、泛化性能強(qiáng)、實(shí)用性強(qiáng)的水華預(yù)警模型。選取太湖西半湖作為研究區(qū)域進(jìn)行實(shí)例分析，結(jié)果表明：該模型預(yù)測(cè)精度達(dá)到91.67%，泛化誤差小，能夠有效進(jìn)行短期預(yù)測(cè)；在水華發(fā)生的各個(gè)影響因子中，總磷和總氮是相對(duì)重要的影響因子。

關(guān)鍵詞：隨機(jī)森林；CART決策樹(shù)；水華；預(yù)警模型；太湖

中圖分類號(hào)：X52； TP39

文獻(xiàn)標(biāo)志碼：A

doi：10.3969/j.issn.1000-1379.2018.08.018

水華是淡水水體中藻類繁殖聚集到一定程度的一種自然現(xiàn)象，目前已成為全球性的水環(huán)境污染問(wèn)題之一，并且隨著經(jīng)濟(jì)的快速發(fā)展和人類活動(dòng)范圍的急劇擴(kuò)大而越來(lái)越嚴(yán)重。我國(guó)多數(shù)江河湖泊和水庫(kù)有不同程度的水華現(xiàn)象。利用有效的方法預(yù)測(cè)水華的發(fā)生并進(jìn)行預(yù)警，有利于有針對(duì)性地采取預(yù)防措施。為了解決水體水華預(yù)警問(wèn)題，國(guó)內(nèi)外學(xué)者從不同角度、采取不同方法進(jìn)行了研究，如多變量統(tǒng)計(jì)回歸、模糊數(shù)學(xué)、遺傳算法和神經(jīng)網(wǎng)絡(luò)方法等，不過(guò)這些方法各有不足，建立的預(yù)測(cè)模型存在不同的問(wèn)題。

把水華暴發(fā)的影響因子作為輸人變量，以葉綠素a的濃度為輸出變量，構(gòu)建水華預(yù)測(cè)模型，可以判斷水體是否發(fā)生水華，進(jìn)行短期預(yù)測(cè)。這種通過(guò)分析已有的水體水質(zhì)、水文等數(shù)據(jù)來(lái)判斷水華是否發(fā)生，是一個(gè)典型的分類問(wèn)題，因此可以采用決策樹(shù)算法生成水華預(yù)警模型。決策樹(shù)算法具有模型簡(jiǎn)單和規(guī)則提取簡(jiǎn)單的特點(diǎn)，其中CART算法是決策樹(shù)算法中的經(jīng)典算法，但基于傳統(tǒng)CART算法生成的水華預(yù)測(cè)模型在進(jìn)行判斷時(shí)，依然存在準(zhǔn)確率不高、易過(guò)度擬合等問(wèn)題。隨機(jī)森林是一種基于CART算法的組合分類器，能夠提高分類正確率并解決過(guò)度擬合問(wèn)題，因此筆者基于隨機(jī)森林算法建立水華預(yù)警模型，對(duì)水體水華是否發(fā)生進(jìn)行預(yù)測(cè)。

1 研究方法

1.1 隨機(jī)森林算法原理

隨機(jī)森林算法是一種具有監(jiān)督性的數(shù)據(jù)挖掘算法，隨機(jī)森林是一種利用大量CART決策樹(shù)形成的分類器。把當(dāng)前樣本集的所有屬性的GINI指數(shù)計(jì)算出來(lái)，對(duì)所有屬性的GINI指數(shù)進(jìn)行排序，選擇GINI指數(shù)最小的屬性作為CART決策樹(shù)的根節(jié)點(diǎn)，然后以該屬性的GINI指數(shù)為分割閾值將樣本集分割成兩部分。在生成CART決策樹(shù)的過(guò)程中要充分利用二叉樹(shù)，在分割后的子集上不斷遞歸重復(fù)上述操作，使得最終生成的非葉子節(jié)點(diǎn)都具有左有兩個(gè)分支，直到所有葉子節(jié)點(diǎn)中樣本的類別基本屬于同一類，或者沒(méi)有下一個(gè)分裂屬性為止。

GINI指數(shù)反映數(shù)據(jù)分區(qū)E的不純凈程度，定義如下：式中：pi=|Ci|/|E|，為E中的樣本屬于類Ci的概率，|Ci|為E中屬于Ci的數(shù)量；m為樣本分類數(shù)。

當(dāng)屬性A將訓(xùn)練樣本集E劃分成E1和E2后，E的GINI指數(shù)公式為式中：|Ei|/|E|為樣本集中樣本屬于第j（j=1，2）個(gè)子集的概率。

隨機(jī)森林是由許多沒(méi)有經(jīng)過(guò)剪枝的CART分類樹(shù){h（x，@k）|k|=l，2，…}（x為輸入變量，@k為服從獨(dú)立同分布的隨機(jī)向量）形成的一種組合分類模型。隨機(jī)森林的構(gòu)建具有兩種隨機(jī)化思想：一是根據(jù)bootstrap重抽樣創(chuàng)建k個(gè)隨機(jī)向量@1、@2、@3、@4，再將每個(gè)隨機(jī)向量@i變?yōu)橐粋€(gè)無(wú)剪枝的決策樹(shù)h（x，@i）（簡(jiǎn)稱hi（x）），得到k棵決策樹(shù)序列{h1（x），h2（x），…，hk（X）}，每棵決策樹(shù)之間沒(méi)有任何關(guān)聯(lián)，第k棵樹(shù)的形成流程見(jiàn)圖1：二是在生成決策樹(shù)時(shí)，選擇的屬性也是隨機(jī)生成的，需要在所有的屬性集中等概率隨機(jī)選擇特征屬性值，構(gòu)成特征屬性子集，再利用這些特征屬性子集中的特征屬性構(gòu)成需要的決策樹(shù)。形成的大量決策樹(shù)組合在一起稱為隨機(jī)森林，簡(jiǎn)稱RF。假設(shè)y為輸出變量，由（x，y）所構(gòu)成的樣本數(shù)據(jù)集稱為原始樣本數(shù)據(jù)集。最終的分類結(jié)果由上述序列中所有決策樹(shù)的分類結(jié)果綜合決定，本文采用的是最簡(jiǎn)單的投票決定法，輸入變量x的類別為得票數(shù)最多的類別。最終的分類結(jié)果可用公式表示如下：式中：H（x）表示組合分類器模型；hi為第i個(gè)決策樹(shù)分類模型；I（·）為示性函數(shù)（示性函數(shù)是指使集合中有該數(shù)值為1，沒(méi)有則為0）；argmax表示其后表達(dá)式取得最大值時(shí)對(duì)應(yīng)的變量x、y取值。

1.2 隨機(jī)森林算法模型的建立

隨機(jī)森林算法模型建立的步驟如下。

（1）用bootstrap方法從原始數(shù)據(jù)中選取k個(gè)不同的樣本集數(shù)據(jù)，每個(gè)樣本集是每棵決策樹(shù)的訓(xùn)練數(shù)據(jù)，且每個(gè)樣本集的樣本數(shù)量與原始數(shù)據(jù)集相等。

（2）用選取的k個(gè)樣本集構(gòu)建k個(gè)未剪枝的決策樹(shù)。在生成每棵決策樹(shù)的過(guò)程中，為了生成決策樹(shù)的節(jié)點(diǎn)，需要從原始數(shù)據(jù)集中的所有M個(gè)特征屬性中等概率選出m個(gè)（m≤M）特征屬性作為候選特征屬性。利用隨機(jī)選出的m個(gè)候選特征屬性構(gòu)建決策樹(shù)，并且使每棵樹(shù)不進(jìn)行剪枝地完整生長(zhǎng)，得到k棵完整的決策樹(shù)，每棵決策樹(shù)都對(duì)輸出變量做出分類，最終得到k個(gè)分類結(jié)果。

（3）根據(jù)得到的k種分類結(jié)果，對(duì)輸出變量的最終分類進(jìn)行投票，得票最多的類別為輸出變量的最終類別。1.300B估計(jì)和屬性變量重要性

采用bootsrap重抽樣方法生成k個(gè)數(shù)據(jù)集時(shí)，在原始數(shù)據(jù)中將有近37%的樣本可能沒(méi)有被選中，這些樣本稱為Out-Of-Bag（OOB）數(shù)據(jù)。隨機(jī)森林的每棵樹(shù)都有一個(gè)OOB誤差估計(jì)，取所有樹(shù)OOB誤差估計(jì)的平均值作為模型的泛化誤差估計(jì)，用來(lái)檢驗(yàn)?zāi)Ｐ偷姆诸愋阅?。大量試?yàn)表明，只要樹(shù)的數(shù)量足夠大，OOB誤差與交叉驗(yàn)證得到的誤差就相差不大。對(duì)于生成的隨機(jī)森林模型，給其中某一個(gè)特征屬性增加噪聲，獲取增加噪聲前后的OOB準(zhǔn)確率，用來(lái)檢驗(yàn)?zāi)Ｐ托阅?，增加噪聲后OOB值的減小幅度越大，這個(gè)特征屬性就越有用。

2 實(shí)例應(yīng)用

2.1 研究區(qū)域和數(shù)據(jù)來(lái)源

選取太湖西半湖作為研究區(qū)域，該地區(qū)曾多次暴發(fā)水華。研究所用水質(zhì)數(shù)據(jù)來(lái)源于太湖水華在線監(jiān)測(cè)基站。將葉綠素a的濃度作為判斷水華發(fā)生的標(biāo)準(zhǔn)：大于0.003mg/L，表示有發(fā)生水華的可能性，需要進(jìn)行預(yù)防：小于0.003mg/L，表示水環(huán)境狀況良好，水華暴發(fā)的可能性不大。把水華是否發(fā)生作為隨機(jī)森林模型的輸出變量，將水溫（T）、pH值、氮磷比（TN：TP）、化學(xué)需氧量（COD）、總氮（TN）、總磷（TP）等水質(zhì)水文數(shù)據(jù)和輸出變量一起構(gòu)成原始數(shù)據(jù)集。共有124組原始樣本數(shù)據(jù)（見(jiàn)表1，表中只列出一小部分），將其中前100組樣本用于建立水華預(yù)測(cè)模型，后24組樣本用于檢驗(yàn)?zāi)Ｐ偷姆诸愋阅堋?/p>

2.2 模型分類性能評(píng)價(jià)標(biāo)準(zhǔn)

采用總體分類準(zhǔn)確率（Acc）來(lái)評(píng)估RF模型的分類性能。Acc為最終分類預(yù)測(cè)值與真實(shí)值（實(shí)測(cè)值）的比值，其值越大表示模型的分類性能越好，計(jì)算公式為式中：Tp為正確分類的樣本數(shù)；TN為總樣本數(shù)。

2.3 隨機(jī)森林模型的構(gòu)建

采用RandomForest（）函數(shù)來(lái)構(gòu)造基于RF算法的水華預(yù)測(cè)模型，該函數(shù)有2個(gè)主要參數(shù)ntree和mtry，其中：ntree表示樹(shù)的數(shù)量，其值越大表示過(guò)擬合的可能性越小，一般取100，經(jīng)計(jì)算可以得到OOB誤差與ntree的關(guān)系，見(jiàn)圖2：mtry表示待選特征屬性的個(gè)數(shù)，取值一般為所有特征屬性個(gè)數(shù)的平方根，本研究特征屬性個(gè)數(shù)為6，所以mtry的取值為2。由圖2可知，當(dāng)ntree>80時(shí)OOB誤差趨于穩(wěn)定，表明隨機(jī)森林模型的分類性能較高。由文獻(xiàn)可知，當(dāng)ntree為100左有時(shí)，RF的分類性能與支持向量機(jī)相當(dāng)，所以把ntree的值設(shè)為100，mtry的值設(shè)為2。用原始數(shù)據(jù)集的前100組數(shù)據(jù)進(jìn)行訓(xùn)練，得到隨機(jī)森林水華預(yù)警模型，把后24組數(shù)據(jù)作為測(cè)試數(shù)據(jù)輸入隨機(jī)森林模型，對(duì)這24組數(shù)據(jù)進(jìn)行分類判定，最終的分類準(zhǔn)確率為22/24，而支持向量機(jī)的分類準(zhǔn)確率為21/24，說(shuō)明隨機(jī)森林水華預(yù)警模型行之有效。

另外利用隨機(jī)森林預(yù)警模型還可以對(duì)水華影響因子的相對(duì)重要性進(jìn)行比較，以獲得太湖水華發(fā)生各影響因子的重要程度，結(jié)果見(jiàn)圖3。由圖3可知，在所有影響水華發(fā)生的因子中，TP濃度的相對(duì)重要性較高，其次是TN濃度，所以為預(yù)防水華暴發(fā)，要特別注意TP濃度和TN濃度。

3 結(jié)語(yǔ)

隨機(jī)森林模型不需要先設(shè)定屬性的權(quán)重、怎樣去分類，模型需設(shè)置的參數(shù)少，計(jì)算過(guò)程簡(jiǎn)單、計(jì)算量較小，適合平臺(tái)廣泛，是一種快捷有效的機(jī)器學(xué)習(xí)模型?；跈C(jī)器學(xué)習(xí)算法——隨機(jī)森林，把影響水華發(fā)生的6個(gè)因子作為隨機(jī)森林的輸人變量、把葉綠素a的濃度作為輸出變量，建立水華預(yù)警模型。測(cè)試結(jié)果表明，其最終分類準(zhǔn)確率達(dá)到了91.67%，與支持向量機(jī)模型的分類性能相當(dāng)，能夠解決其他算法穩(wěn)健性不足和過(guò)擬合等問(wèn)題，能保證預(yù)測(cè)正確率且可以分析影響水華暴發(fā)的主要因子，為水環(huán)境管理提供理論支持。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于隨機(jī)森林算法的水華預(yù)警模型