劉云翔 吳浩
摘要:針對(duì)湖泊水華預(yù)警模型中的數(shù)據(jù)具有噪聲較復(fù)雜和非線性的特點(diǎn),而傳統(tǒng)預(yù)警方法難以解決穩(wěn)健性差和過(guò)度擬合等問(wèn)題,采用機(jī)器學(xué)習(xí)分類算法——隨機(jī)森林,根據(jù)葉綠素a的濃度判斷水華是否發(fā)生,選取水溫(T)、pH值、氮磷比(TN:TP)、化學(xué)需氧量(COD)、總氮(TN)、總磷(TP)作為影響因子,構(gòu)建基于隨機(jī)森林分類算法的穩(wěn)健性較好、泛化性能強(qiáng)、實(shí)用性強(qiáng)的水華預(yù)警模型。選取太湖西半湖作為研究區(qū)域進(jìn)行實(shí)例分析,結(jié)果表明:該模型預(yù)測(cè)精度達(dá)到91.67%,泛化誤差小,能夠有效進(jìn)行短期預(yù)測(cè);在水華發(fā)生的各個(gè)影響因子中,總磷和總氮是相對(duì)重要的影響因子。
關(guān)鍵詞:隨機(jī)森林;CART決策樹(shù);水華;預(yù)警模型;太湖
中圖分類號(hào):X52; TP39
文獻(xiàn)標(biāo)志碼:A
doi:10.3969/j.issn.1000-1379.2018.08.018
水華是淡水水體中藻類繁殖聚集到一定程度的一種自然現(xiàn)象,目前已成為全球性的水環(huán)境污染問(wèn)題之一,并且隨著經(jīng)濟(jì)的快速發(fā)展和人類活動(dòng)范圍的急劇擴(kuò)大而越來(lái)越嚴(yán)重。我國(guó)多數(shù)江河湖泊和水庫(kù)有不同程度的水華現(xiàn)象。利用有效的方法預(yù)測(cè)水華的發(fā)生并進(jìn)行預(yù)警,有利于有針對(duì)性地采取預(yù)防措施。為了解決水體水華預(yù)警問(wèn)題,國(guó)內(nèi)外學(xué)者從不同角度、采取不同方法進(jìn)行了研究,如多變量統(tǒng)計(jì)回歸、模糊數(shù)學(xué)、遺傳算法和神經(jīng)網(wǎng)絡(luò)方法等,不過(guò)這些方法各有不足,建立的預(yù)測(cè)模型存在不同的問(wèn)題。
把水華暴發(fā)的影響因子作為輸人變量,以葉綠素a的濃度為輸出變量,構(gòu)建水華預(yù)測(cè)模型,可以判斷水體是否發(fā)生水華,進(jìn)行短期預(yù)測(cè)。這種通過(guò)分析已有的水體水質(zhì)、水文等數(shù)據(jù)來(lái)判斷水華是否發(fā)生,是一個(gè)典型的分類問(wèn)題,因此可以采用決策樹(shù)算法生成水華預(yù)警模型。決策樹(shù)算法具有模型簡(jiǎn)單和規(guī)則提取簡(jiǎn)單的特點(diǎn),其中CART算法是決策樹(shù)算法中的經(jīng)典算法,但基于傳統(tǒng)CART算法生成的水華預(yù)測(cè)模型在進(jìn)行判斷時(shí),依然存在準(zhǔn)確率不高、易過(guò)度擬合等問(wèn)題。隨機(jī)森林是一種基于CART算法的組合分類器,能夠提高分類正確率并解決過(guò)度擬合問(wèn)題,因此筆者基于隨機(jī)森林算法建立水華預(yù)警模型,對(duì)水體水華是否發(fā)生進(jìn)行預(yù)測(cè)。
1 研究方法
1.1 隨機(jī)森林算法原理
隨機(jī)森林算法是一種具有監(jiān)督性的數(shù)據(jù)挖掘算法,隨機(jī)森林是一種利用大量CART決策樹(shù)形成的分類器。把當(dāng)前樣本集的所有屬性的GINI指數(shù)計(jì)算出來(lái),對(duì)所有屬性的GINI指數(shù)進(jìn)行排序,選擇GINI指數(shù)最小的屬性作為CART決策樹(shù)的根節(jié)點(diǎn),然后以該屬性的GINI指數(shù)為分割閾值將樣本集分割成兩部分。在生成CART決策樹(shù)的過(guò)程中要充分利用二叉樹(shù),在分割后的子集上不斷遞歸重復(fù)上述操作,使得最終生成的非葉子節(jié)點(diǎn)都具有左有兩個(gè)分支,直到所有葉子節(jié)點(diǎn)中樣本的類別基本屬于同一類,或者沒(méi)有下一個(gè)分裂屬性為止。
GINI指數(shù)反映數(shù)據(jù)分區(qū)E的不純凈程度,定義如下:式中:pi=|Ci|/|E|,為E中的樣本屬于類Ci的概率,|Ci|為E中屬于Ci的數(shù)量;m為樣本分類數(shù)。
當(dāng)屬性A將訓(xùn)練樣本集E劃分成E1和E2后,E的GINI指數(shù)公式為式中:|Ei|/|E|為樣本集中樣本屬于第j(j=1,2)個(gè)子集的概率。
隨機(jī)森林是由許多沒(méi)有經(jīng)過(guò)剪枝的CART分類樹(shù){h(x,@k)|k|=l,2,…}(x為輸入變量,@k為服從獨(dú)立同分布的隨機(jī)向量)形成的一種組合分類模型。隨機(jī)森林的構(gòu)建具有兩種隨機(jī)化思想:一是根據(jù)bootstrap重抽樣創(chuàng)建k個(gè)隨機(jī)向量@1、@2、@3、@4,再將每個(gè)隨機(jī)向量@i變?yōu)橐粋€(gè)無(wú)剪枝的決策樹(shù)h(x,@i)(簡(jiǎn)稱hi(x)),得到k棵決策樹(shù)序列{h1(x),h2(x),…,hk(X)},每棵決策樹(shù)之間沒(méi)有任何關(guān)聯(lián),第k棵樹(shù)的形成流程見(jiàn)圖1:二是在生成決策樹(shù)時(shí),選擇的屬性也是隨機(jī)生成的,需要在所有的屬性集中等概率隨機(jī)選擇特征屬性值,構(gòu)成特征屬性子集,再利用這些特征屬性子集中的特征屬性構(gòu)成需要的決策樹(shù)。形成的大量決策樹(shù)組合在一起稱為隨機(jī)森林,簡(jiǎn)稱RF。假設(shè)y為輸出變量,由(x,y)所構(gòu)成的樣本數(shù)據(jù)集稱為原始樣本數(shù)據(jù)集。最終的分類結(jié)果由上述序列中所有決策樹(shù)的分類結(jié)果綜合決定,本文采用的是最簡(jiǎn)單的投票決定法,輸入變量x的類別為得票數(shù)最多的類別。最終的分類結(jié)果可用公式表示如下:式中:H(x)表示組合分類器模型;hi為第i個(gè)決策樹(shù)分類模型;I(·)為示性函數(shù)(示性函數(shù)是指使集合中有該數(shù)值為1,沒(méi)有則為0);argmax表示其后表達(dá)式取得最大值時(shí)對(duì)應(yīng)的變量x、y取值。
1.2 隨機(jī)森林算法模型的建立
隨機(jī)森林算法模型建立的步驟如下。
(1)用bootstrap方法從原始數(shù)據(jù)中選取k個(gè)不同的樣本集數(shù)據(jù),每個(gè)樣本集是每棵決策樹(shù)的訓(xùn)練數(shù)據(jù),且每個(gè)樣本集的樣本數(shù)量與原始數(shù)據(jù)集相等。
(2)用選取的k個(gè)樣本集構(gòu)建k個(gè)未剪枝的決策樹(shù)。在生成每棵決策樹(shù)的過(guò)程中,為了生成決策樹(shù)的節(jié)點(diǎn),需要從原始數(shù)據(jù)集中的所有M個(gè)特征屬性中等概率選出m個(gè)(m≤M)特征屬性作為候選特征屬性。利用隨機(jī)選出的m個(gè)候選特征屬性構(gòu)建決策樹(shù),并且使每棵樹(shù)不進(jìn)行剪枝地完整生長(zhǎng),得到k棵完整的決策樹(shù),每棵決策樹(shù)都對(duì)輸出變量做出分類,最終得到k個(gè)分類結(jié)果。
(3)根據(jù)得到的k種分類結(jié)果,對(duì)輸出變量的最終分類進(jìn)行投票,得票最多的類別為輸出變量的最終類別。1.300B估計(jì)和屬性變量重要性
采用bootsrap重抽樣方法生成k個(gè)數(shù)據(jù)集時(shí),在原始數(shù)據(jù)中將有近37%的樣本可能沒(méi)有被選中,這些樣本稱為Out-Of-Bag(OOB)數(shù)據(jù)。隨機(jī)森林的每棵樹(shù)都有一個(gè)OOB誤差估計(jì),取所有樹(shù)OOB誤差估計(jì)的平均值作為模型的泛化誤差估計(jì),用來(lái)檢驗(yàn)?zāi)P偷姆诸愋阅?。大量試?yàn)表明,只要樹(shù)的數(shù)量足夠大,OOB誤差與交叉驗(yàn)證得到的誤差就相差不大。對(duì)于生成的隨機(jī)森林模型,給其中某一個(gè)特征屬性增加噪聲,獲取增加噪聲前后的OOB準(zhǔn)確率,用來(lái)檢驗(yàn)?zāi)P托阅?,增加噪聲后OOB值的減小幅度越大,這個(gè)特征屬性就越有用。
2 實(shí)例應(yīng)用
2.1 研究區(qū)域和數(shù)據(jù)來(lái)源
選取太湖西半湖作為研究區(qū)域,該地區(qū)曾多次暴發(fā)水華。研究所用水質(zhì)數(shù)據(jù)來(lái)源于太湖水華在線監(jiān)測(cè)基站。將葉綠素a的濃度作為判斷水華發(fā)生的標(biāo)準(zhǔn):大于0.003mg/L,表示有發(fā)生水華的可能性,需要進(jìn)行預(yù)防:小于0.003mg/L,表示水環(huán)境狀況良好,水華暴發(fā)的可能性不大。把水華是否發(fā)生作為隨機(jī)森林模型的輸出變量,將水溫(T)、pH值、氮磷比(TN:TP)、化學(xué)需氧量(COD)、總氮(TN)、總磷(TP)等水質(zhì)水文數(shù)據(jù)和輸出變量一起構(gòu)成原始數(shù)據(jù)集。共有124組原始樣本數(shù)據(jù)(見(jiàn)表1,表中只列出一小部分),將其中前100組樣本用于建立水華預(yù)測(cè)模型,后24組樣本用于檢驗(yàn)?zāi)P偷姆诸愋阅堋?/p>
2.2 模型分類性能評(píng)價(jià)標(biāo)準(zhǔn)
采用總體分類準(zhǔn)確率(Acc)來(lái)評(píng)估RF模型的分類性能。Acc為最終分類預(yù)測(cè)值與真實(shí)值(實(shí)測(cè)值)的比值,其值越大表示模型的分類性能越好,計(jì)算公式為式中:Tp為正確分類的樣本數(shù);TN為總樣本數(shù)。
2.3 隨機(jī)森林模型的構(gòu)建
采用RandomForest()函數(shù)來(lái)構(gòu)造基于RF算法的水華預(yù)測(cè)模型,該函數(shù)有2個(gè)主要參數(shù)ntree和mtry,其中:ntree表示樹(shù)的數(shù)量,其值越大表示過(guò)擬合的可能性越小,一般取100,經(jīng)計(jì)算可以得到OOB誤差與ntree的關(guān)系,見(jiàn)圖2:mtry表示待選特征屬性的個(gè)數(shù),取值一般為所有特征屬性個(gè)數(shù)的平方根,本研究特征屬性個(gè)數(shù)為6,所以mtry的取值為2。由圖2可知,當(dāng)ntree>80時(shí)OOB誤差趨于穩(wěn)定,表明隨機(jī)森林模型的分類性能較高。由文獻(xiàn)可知,當(dāng)ntree為100左有時(shí),RF的分類性能與支持向量機(jī)相當(dāng),所以把ntree的值設(shè)為100,mtry的值設(shè)為2。用原始數(shù)據(jù)集的前100組數(shù)據(jù)進(jìn)行訓(xùn)練,得到隨機(jī)森林水華預(yù)警模型,把后24組數(shù)據(jù)作為測(cè)試數(shù)據(jù)輸入隨機(jī)森林模型,對(duì)這24組數(shù)據(jù)進(jìn)行分類判定,最終的分類準(zhǔn)確率為22/24,而支持向量機(jī)的分類準(zhǔn)確率為21/24,說(shuō)明隨機(jī)森林水華預(yù)警模型行之有效。
另外利用隨機(jī)森林預(yù)警模型還可以對(duì)水華影響因子的相對(duì)重要性進(jìn)行比較,以獲得太湖水華發(fā)生各影響因子的重要程度,結(jié)果見(jiàn)圖3。由圖3可知,在所有影響水華發(fā)生的因子中,TP濃度的相對(duì)重要性較高,其次是TN濃度,所以為預(yù)防水華暴發(fā),要特別注意TP濃度和TN濃度。
3 結(jié)語(yǔ)
隨機(jī)森林模型不需要先設(shè)定屬性的權(quán)重、怎樣去分類,模型需設(shè)置的參數(shù)少,計(jì)算過(guò)程簡(jiǎn)單、計(jì)算量較小,適合平臺(tái)廣泛,是一種快捷有效的機(jī)器學(xué)習(xí)模型?;跈C(jī)器學(xué)習(xí)算法——隨機(jī)森林,把影響水華發(fā)生的6個(gè)因子作為隨機(jī)森林的輸人變量、把葉綠素a的濃度作為輸出變量,建立水華預(yù)警模型。測(cè)試結(jié)果表明,其最終分類準(zhǔn)確率達(dá)到了91.67%,與支持向量機(jī)模型的分類性能相當(dāng),能夠解決其他算法穩(wěn)健性不足和過(guò)擬合等問(wèn)題,能保證預(yù)測(cè)正確率且可以分析影響水華暴發(fā)的主要因子,為水環(huán)境管理提供理論支持。