国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)隨機(jī)森林的城市污水處理過(guò)程運(yùn)行數(shù)據(jù)清洗方法

2021-05-26 01:13韓紅桂趙子凡伍小龍楊士恒
關(guān)鍵詞:離群小室城市污水

韓紅桂, 趙子凡, 伍小龍, 楊士恒, 何 政, 趙 楠

(1.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124; 2.計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100124;3.北京城市排水集團(tuán)有限責(zé)任公司, 北京 100044)

城市污水處理數(shù)據(jù)是實(shí)現(xiàn)污水處理過(guò)程運(yùn)行狀態(tài)監(jiān)測(cè)、操作優(yōu)化控制以及故障診斷等環(huán)節(jié)的重要依據(jù),是提高城市污水處理效率和運(yùn)營(yíng)監(jiān)管水平的信息基礎(chǔ). 由于城市污水處理過(guò)程運(yùn)行環(huán)境復(fù)雜,多處于泥水混合狀態(tài),具有腐蝕性強(qiáng)、干擾多等特點(diǎn),檢測(cè)設(shè)備獲取的數(shù)據(jù)受污染嚴(yán)重,易出現(xiàn)缺失、離群等異?,F(xiàn)象,這為城市污水處理過(guò)程數(shù)據(jù)的分析、處理和運(yùn)用帶來(lái)困擾. 如何獲取高質(zhì)量數(shù)據(jù)、降低異常數(shù)據(jù)影響已成為污水處理過(guò)程數(shù)據(jù)應(yīng)用面臨的挑戰(zhàn). 為此,城市污水處理廠通常在數(shù)據(jù)應(yīng)用過(guò)程中采用數(shù)據(jù)清洗方法,識(shí)別異常數(shù)據(jù)特征,并對(duì)異常數(shù)據(jù)進(jìn)行剔除和補(bǔ)償,保證數(shù)據(jù)的可信度. 然而,城市污水處理過(guò)程數(shù)據(jù)存在異常特征多樣,包括離群數(shù)據(jù)、重復(fù)數(shù)據(jù)和缺失數(shù)據(jù)等,異常數(shù)據(jù)難以被識(shí)別和重新補(bǔ)償,導(dǎo)致數(shù)據(jù)清洗效果不理想.

針對(duì)異常數(shù)據(jù)特征難以識(shí)別的問(wèn)題,基于概率分布的異常數(shù)據(jù)識(shí)別方法被廣泛應(yīng)用. 該方法主要通過(guò)分析污水處理過(guò)程數(shù)據(jù)的分布特性,給定正常數(shù)據(jù)置信區(qū)間,當(dāng)數(shù)據(jù)超出置信區(qū)間時(shí)則判定為異常數(shù)據(jù)[1-2]. 該方法主要適用于變量數(shù)據(jù)存在可辨識(shí)的分布特性,如高斯分布、泊松分布等[3],但污水處理數(shù)據(jù)采集受進(jìn)水波動(dòng)、工況變化影響,往往不完全服從單一的分布特性,導(dǎo)致基于概率分布的分析方法無(wú)法準(zhǔn)確判別異常數(shù)據(jù)的存在. 為了提高異常數(shù)據(jù)識(shí)別精度,一類聚類算法通過(guò)對(duì)比數(shù)據(jù)或數(shù)組之間的相似,分析數(shù)據(jù)存在的離群特征,能夠判別數(shù)據(jù)異常. 例如,費(fèi)歡等[4]采用K均值聚類算法計(jì)算數(shù)據(jù)點(diǎn)的聚類中心,并定義異常數(shù)據(jù)離群距離,判定遠(yuǎn)離聚類中心的數(shù)據(jù)為異常數(shù)據(jù);黃艷國(guó)等[5]設(shè)計(jì)了改進(jìn)的模糊C均值聚類異常值識(shí)別方法,在模糊C均值聚類算法的基礎(chǔ)上加入歷史先驗(yàn)數(shù)據(jù)進(jìn)行初始聚類中心的優(yōu)化,用非整數(shù)單位化方法對(duì)異常值描述;Chen等[6]提出一種改進(jìn)K均值聚類算法進(jìn)行異常數(shù)據(jù)識(shí)別,通過(guò)最大距離選取初始聚類中心,引入信息熵計(jì)算各個(gè)屬性的權(quán)重,計(jì)算各樣本數(shù)據(jù)的加權(quán)歐氏距離,并依據(jù)距離對(duì)比判定異常數(shù)據(jù). 雖然聚類算法依據(jù)樣本數(shù)據(jù)點(diǎn)的距離計(jì)算識(shí)別異常數(shù)據(jù),克服了概率分布方法需要尋找特定概率分布的特性,提高了異常值識(shí)別的正確率,但當(dāng)數(shù)據(jù)密度大且差異大時(shí),基于聚類算法的異常數(shù)據(jù)識(shí)別方法僅能找出數(shù)據(jù)的全局離群點(diǎn),而難以識(shí)別局部數(shù)據(jù)的離群特征. 為此,Breunig等[7]提出了局部離群因子(local outlier factor,LOF)算法,計(jì)算鄰近數(shù)據(jù)間距離,根據(jù)數(shù)據(jù)相對(duì)于周圍鄰域的孤立程度,確定異常數(shù)據(jù)[7]. 該算法雖然解決了基于聚類算法的異常數(shù)據(jù)識(shí)別方法易忽略數(shù)據(jù)局部異常問(wèn)題,但通過(guò)反復(fù)計(jì)算鄰域距離和密度確定異常數(shù)據(jù),計(jì)算量大,異常數(shù)據(jù)剔除效率差.

針對(duì)異常數(shù)據(jù)識(shí)別后剔除和補(bǔ)償,城市污水處理廠通常采用格拉布斯檢驗(yàn)方法補(bǔ)償異常數(shù)據(jù). 該方法主要通過(guò)依次檢驗(yàn)數(shù)據(jù)中的最值是否屬于離群值,并用檢驗(yàn)后數(shù)據(jù)集的中位數(shù)、平均數(shù)或眾數(shù)代替[8-9],但該方法用固定數(shù)值代替異常數(shù)據(jù),與真實(shí)數(shù)據(jù)仍然存在顯著差距. 李攀宏等[10]提出了一種雙重插值方法,用線性插值方法估計(jì)參數(shù),再用拉格朗日線性插值獲得待插值數(shù)據(jù)的校正值,從而獲得異常數(shù)據(jù)補(bǔ)償值,但污水處理過(guò)程變量變化成非線性時(shí)變特征,當(dāng)數(shù)據(jù)變化劇烈時(shí),線性插值往往不能準(zhǔn)確補(bǔ)償異常值;劉峻清等[11]提出了一種周期時(shí)間序列的數(shù)據(jù)補(bǔ)償算法,用時(shí)間序列分解將污水處理數(shù)據(jù)劃分為趨勢(shì)項(xiàng)、周期項(xiàng)和殘余項(xiàng),用異常值剔除前的趨勢(shì)項(xiàng)與周期項(xiàng)之和代替異常值. 該方法能夠擬合多種工況下變量數(shù)據(jù)的變化趨勢(shì),并在趨勢(shì)內(nèi)插值補(bǔ)償異常值,但該方法過(guò)于依賴異常數(shù)據(jù)隨時(shí)間的變化值,對(duì)存在復(fù)雜變化且連續(xù)異常的數(shù)據(jù)補(bǔ)償效果較差. 為此,Purwar等[12]在近鄰算法研究中給出了處理連續(xù)異常數(shù)據(jù)的補(bǔ)償方案,該方案在完整數(shù)據(jù)集中使用樣本距離計(jì)算數(shù)據(jù)間的相似度,以若干個(gè)最相似完整樣本的均值連續(xù)補(bǔ)償異常值;李國(guó)和等[13]提出一種基于聚類的遞歸充填方法,使用同類簇的均值對(duì)連續(xù)缺失數(shù)據(jù)進(jìn)行預(yù)填充,并運(yùn)用同類簇的均值修正異常數(shù)據(jù)補(bǔ)償值. 但上述方法過(guò)于依賴異常數(shù)據(jù)近鄰域的數(shù)據(jù)質(zhì)量,無(wú)法針對(duì)數(shù)據(jù)集中任意連續(xù)或間斷性異常數(shù)據(jù)進(jìn)行準(zhǔn)確補(bǔ)償. 為了解決該問(wèn)題,Zhang等[14]利用T-S模糊神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)段任意異常值的補(bǔ)償,該方法通過(guò)真實(shí)數(shù)據(jù)模擬變量數(shù)據(jù)變化的趨勢(shì),并利用在線學(xué)習(xí)算法和檢測(cè)數(shù)據(jù)不斷校正網(wǎng)絡(luò)參數(shù),確保數(shù)據(jù)集中任意段異常數(shù)據(jù)補(bǔ)償?shù)臏?zhǔn)確性;Peng等[15]提出一種基于反向傳播神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)清洗方法,用遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)初始權(quán)值的閾值進(jìn)行優(yōu)化,并借助其他相關(guān)變量的有效數(shù)據(jù),獲得精度較高的異常數(shù)據(jù)補(bǔ)償值. 然而,T-S模糊神經(jīng)網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)在進(jìn)行異常數(shù)據(jù)補(bǔ)償前,需要確保訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)的有效,因此還需要其他異常數(shù)據(jù)識(shí)別方法輔助判別數(shù)據(jù)的有效性. 此外,實(shí)際污水處理數(shù)據(jù)中,異常數(shù)據(jù)不僅包含單個(gè)變量的連續(xù)異?;蜷g斷異常特征,而且還包含多個(gè)變量數(shù)據(jù)的同步或異步等多種異常特征的混合類型,而現(xiàn)有的異常數(shù)據(jù)補(bǔ)償方法還無(wú)法針對(duì)混合類型的異常數(shù)據(jù)進(jìn)行有效補(bǔ)償.

通過(guò)對(duì)上述問(wèn)題的分析,文中提出了一種基于改進(jìn)隨機(jī)森林的數(shù)據(jù)清洗方法,實(shí)現(xiàn)對(duì)混合類型污水異常數(shù)據(jù)的清洗. 首先,設(shè)計(jì)了一個(gè)基于孤立森林異常數(shù)據(jù)識(shí)別模型對(duì)污水?dāng)?shù)據(jù)的離群點(diǎn)進(jìn)行識(shí)別并剔除;其次,建立了一種改進(jìn)型隨機(jī)森林回歸模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)變化趨勢(shì)的擬合預(yù)測(cè);最后,用改進(jìn)的隨機(jī)森林方法對(duì)剔除后的數(shù)據(jù)集進(jìn)行補(bǔ)償. 文中提出的隨機(jī)森林算法不僅實(shí)現(xiàn)異常數(shù)據(jù)的快速識(shí)別,同時(shí)能夠針對(duì)混合類型的異常數(shù)據(jù)進(jìn)行任意補(bǔ)償. 綜合實(shí)驗(yàn)表明,基于改進(jìn)隨機(jī)森林的數(shù)據(jù)清洗方法能夠有效清洗混合類型異常數(shù)據(jù),提高城市污水處理過(guò)程數(shù)據(jù)的質(zhì)量.

1 污水異常數(shù)據(jù)

1.1 污水運(yùn)行數(shù)據(jù)特點(diǎn)

城市污水處理過(guò)程是一個(gè)復(fù)雜的工業(yè)過(guò)程,運(yùn)行數(shù)據(jù)是從現(xiàn)場(chǎng)傳感器采集到,通過(guò)在線監(jiān)測(cè)設(shè)備局域網(wǎng)儲(chǔ)存到服務(wù)器中的數(shù)據(jù),為污水處理過(guò)程狀態(tài)估計(jì)和性能分析提供依據(jù). 然而,城市污水處理過(guò)程數(shù)據(jù)出現(xiàn)異?,F(xiàn)象頻率高,易影響數(shù)據(jù)的處理和使用,常見(jiàn)的異常數(shù)據(jù)特點(diǎn)如下:

1) 數(shù)據(jù)缺失嚴(yán)重. 受到檢測(cè)設(shè)備機(jī)械或數(shù)據(jù)傳輸故障影響,城市污水處理數(shù)據(jù)易存在丟包現(xiàn)象,導(dǎo)致數(shù)據(jù)存在連續(xù)或間斷性缺失;此外,人為的誤操作會(huì)導(dǎo)致數(shù)據(jù)的格式化、誤分區(qū)、誤刪除等,易引發(fā)數(shù)據(jù)文件丟失.

2) 數(shù)據(jù)離群度高. 城市污水處理過(guò)程具有腐蝕性、時(shí)變性等特點(diǎn),導(dǎo)致設(shè)備在線檢測(cè)的結(jié)果易出現(xiàn)較大偏差;同時(shí)局限于當(dāng)前污水處理參數(shù)檢測(cè)技術(shù),當(dāng)變量波動(dòng)范圍大時(shí),易出現(xiàn)超量程或漂移等現(xiàn)象,導(dǎo)致數(shù)據(jù)離群度較高.

3) 數(shù)據(jù)異常隨機(jī)性大. 根據(jù)城市污水處理過(guò)程機(jī)理分析可知,污水處理過(guò)程變量存在相關(guān)性,但變量數(shù)據(jù)發(fā)生異?,F(xiàn)象相互獨(dú)立,不同時(shí)間隨機(jī)發(fā)生異常,往往在同一檢測(cè)時(shí)段存在單個(gè)或幾個(gè)變量的異常,且異常特征不同(連續(xù)或者間斷性異常).

1.2 污水異常數(shù)據(jù)分類

通過(guò)對(duì)污水原始數(shù)據(jù)分析可知,污水異常數(shù)據(jù)主要分為以下3類:離群數(shù)據(jù)、重復(fù)數(shù)據(jù)和缺失數(shù)據(jù). 離群數(shù)據(jù)是明顯偏離其余數(shù)值的數(shù)據(jù);重復(fù)數(shù)據(jù)為多個(gè)時(shí)刻出現(xiàn)同一數(shù)值的數(shù)據(jù),根據(jù)污水處理過(guò)程動(dòng)態(tài)特性,該類數(shù)據(jù)被判定為異常數(shù)據(jù);缺失數(shù)據(jù)是某時(shí)刻沒(méi)有采集到的數(shù)據(jù)或出現(xiàn)數(shù)據(jù)空缺. 而污水?dāng)?shù)據(jù)變量、參數(shù)眾多,異常數(shù)據(jù)不以單一類型出現(xiàn),往往是以多種異常特征同時(shí)出現(xiàn). 當(dāng)前對(duì)污水?dāng)?shù)據(jù)清洗研究局限于針對(duì)單一類型異常數(shù)據(jù)的清洗方法,尚沒(méi)有針對(duì)不同類型混合的異常數(shù)據(jù)清洗方法,當(dāng)沿用傳統(tǒng)的概率分布、聚類算法以及智能算法等對(duì)不同類型混合的異常數(shù)據(jù)清洗時(shí),效果仍然難以滿足污水處理過(guò)程對(duì)數(shù)據(jù)質(zhì)量的要求. 因此本文提出一種基于改進(jìn)隨機(jī)森林的數(shù)據(jù)清洗方法,以實(shí)現(xiàn)對(duì)不同類型混合的異常數(shù)據(jù)進(jìn)行清洗.

2 異常數(shù)據(jù)剔除

2.1 孤立森林異常數(shù)據(jù)識(shí)別模型

為了快速準(zhǔn)確識(shí)別異常數(shù)據(jù),文中構(gòu)建了基于孤立森林(isolation forest,IF)的異常數(shù)據(jù)識(shí)別模型. IF是一種決策樹(shù)集成學(xué)習(xí)方法,IF算法首先對(duì)已知且連續(xù)時(shí)間的數(shù)據(jù)集進(jìn)行隨機(jī)劃分,然后通過(guò)利用異常數(shù)據(jù)和正常數(shù)據(jù)的差異性,實(shí)現(xiàn)快速準(zhǔn)確的識(shí)別. 與基于距離的異常識(shí)別算法相比,IF算法不需要經(jīng)過(guò)距離或密度計(jì)算來(lái)識(shí)別異常數(shù)據(jù),具有較低的計(jì)算復(fù)雜度[16-17]. IF模型由a棵隔離樹(shù)組成,如圖1所示,算法步驟如下.

圖1 孤立森林模型Fig.1 Isolated forest model

步驟1從訓(xùn)練數(shù)據(jù)矩陣X中隨機(jī)抽取一個(gè)子樣本矩陣Xz,作為第b棵樹(shù)根節(jié)點(diǎn)的集合,其中b=1, 2, 3,…,a,a為根節(jié)點(diǎn)的個(gè)數(shù),訓(xùn)練數(shù)據(jù)矩陣X、子樣本矩陣Xz用公式表示為

X=[x1,x2,x3,…,xn]

(1)

Xz=[x1,x2,x3,…,xnz]

(2)

式中:X為m×n維的矩陣,n為變量的個(gè)數(shù),m為單一變量包含數(shù)據(jù)樣本的個(gè)數(shù);u為樣本個(gè)數(shù),u=mn;Xz為mz×nz維的矩陣,nz為變量的個(gè)數(shù),mz為單一變量包含數(shù)據(jù)樣本的個(gè)數(shù),0

步驟2對(duì)Xz進(jìn)行二叉分割:從Xz隨機(jī)抽取一個(gè)列向量xj,j∈{1, 2, 3,…,mz},從列向量xj的集合里隨機(jī)選擇一個(gè)切割點(diǎn)T,如式

T=min (xj)+(max (xj)-min (xj))r

(3)

所示. 式中r為0到1之間的一個(gè)隨機(jī)數(shù). 若Xz(i,j)

步驟3記錄Xleft和Xright所在節(jié)點(diǎn)的路徑長(zhǎng)度hn,hn是從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)經(jīng)過(guò)邊的數(shù)量. 若hn大于等于樹(shù)高h(yuǎn)max或節(jié)點(diǎn)中的集合個(gè)數(shù)小于等于mz,則停止訓(xùn)練,完成單棵隔離樹(shù)的構(gòu)建;否則對(duì)Xleft和Xright再進(jìn)行二叉劃分,重復(fù)步驟3. 樹(shù)高h(yuǎn)max為

hmax=lbu

(4)

步驟4如果b

IF對(duì)X中數(shù)據(jù)劃分隔離,正常數(shù)據(jù)需要經(jīng)過(guò)多次劃分隔離,處在高密度區(qū)域;異常數(shù)據(jù)需要經(jīng)過(guò)少數(shù)劃分隔離,處于低密度區(qū)域.

2.2 異常數(shù)據(jù)剔除

數(shù)據(jù)經(jīng)過(guò)IF模型計(jì)算后形成不同的高低密度區(qū)域,通過(guò)計(jì)算數(shù)據(jù)異常值評(píng)分反映數(shù)據(jù)所在密度區(qū)域,并對(duì)評(píng)分高的數(shù)據(jù)進(jìn)行剔除. IF模型輸出xij的路徑長(zhǎng)度為hij,xij為矩陣X中的元素,通過(guò)hij計(jì)算xij的異常值分?jǐn)?shù),公式為

(5)

(6)

式中:C(u)為X中所有數(shù)據(jù)的平均路徑長(zhǎng)度;ξ為歐拉常數(shù);E(hij)為數(shù)據(jù)xij在a棵隔離樹(shù)中的平均路徑長(zhǎng)度. 當(dāng)S(hij,u)的值趨近于0.5時(shí),表明該數(shù)據(jù)無(wú)明顯異常狀態(tài);當(dāng)S(hij,u) 的值趨近于1,表明該數(shù)據(jù)是異常值. 得到每個(gè)數(shù)據(jù)的異常值分?jǐn)?shù)后,結(jié)合數(shù)據(jù)存在等值和缺失特性,將下列3種數(shù)據(jù)從X中剔除:

1) 將X中異常值分?jǐn)?shù)S(hij,u)大于0.75的xij剔除,用0代替;

2) 將X中缺失的數(shù)據(jù)用0代替;

3) 將X中連續(xù)c1個(gè)及以上具有相同數(shù)值的xij剔除,用0代替.

2.3 混合缺失數(shù)據(jù)模式

異常數(shù)據(jù)經(jīng)過(guò)剔除后形成不同的數(shù)據(jù)缺失,根據(jù)缺失數(shù)據(jù)的分布不同將缺失數(shù)據(jù)劃分為不同模式,為選取合適的缺失值處理方法提供參考依據(jù). 將X中3種異常數(shù)據(jù)剔除后,從中獲得3種缺失數(shù)據(jù)模式:間斷數(shù)據(jù)缺失模式、連續(xù)數(shù)據(jù)缺失模式和水平數(shù)據(jù)缺失模式.

1) 間斷數(shù)據(jù)缺失模式:缺失值在數(shù)據(jù)集中隨機(jī)分布的缺失現(xiàn)象,如公式

xc=[x1,0,x3…,xt,0,xt+2,…,xm]T

(7)

所示. 式中:xc為X的列向量,c∈{1, 2, 3,…,n}.

2) 連續(xù)數(shù)據(jù)缺失模式:在某個(gè)屬性中,出現(xiàn)連續(xù)多個(gè)值缺失的現(xiàn)象,如公式

(8)

所示. 式中:xp為X的列向量,p∈{1, 2, 3,…,n},lp?m.

3) 水平數(shù)據(jù)缺失模式:在某一時(shí)刻,多個(gè)變量同時(shí)出現(xiàn)缺失的現(xiàn)象,如公式

(9)

所示. 式中:Xq為X中q個(gè)列向量組成的矩陣,q∈{2, 3, 4,…,n}.

剔除X中的異常數(shù)據(jù)后,缺失數(shù)據(jù)將以上述3種缺失模式共同出現(xiàn),統(tǒng)稱為混合類型缺失數(shù)據(jù)模式,可表示為

(10)

式中:Xh為X中q個(gè)列向量組成的矩陣,q∈{2,3,4,…,n},lp?m.

針對(duì)不同缺失數(shù)據(jù)模式,選擇合適方法處理可以提高數(shù)據(jù)清洗的效率,但目前仍然缺少一種用于混合類型缺失數(shù)據(jù)模式的數(shù)據(jù)清洗方法.

3 改進(jìn)隨機(jī)森林?jǐn)?shù)據(jù)回歸模型

3.1 隨機(jī)森林回歸原理

為了實(shí)現(xiàn)混合類型缺失數(shù)據(jù)模式的清洗,本文采用改進(jìn)的隨機(jī)森林算法進(jìn)行混合類型缺失數(shù)據(jù)的補(bǔ)償. 其中隨機(jī)森林(random forest,RF)回歸是一種回歸樹(shù)集成學(xué)習(xí)方法,具有避免過(guò)擬合、非線性數(shù)據(jù)擬合能力強(qiáng)等優(yōu)點(diǎn),對(duì)輸入變量個(gè)數(shù)和數(shù)據(jù)間耦合性不敏感,且對(duì)數(shù)據(jù)的適應(yīng)能力強(qiáng)[18-19]. 該算法的RF回歸模型是由l棵回歸樹(shù)構(gòu)成的組合模型,如圖2所示. 當(dāng)輸入數(shù)據(jù)集D經(jīng)過(guò)回歸樹(shù)劃分至葉子節(jié)點(diǎn)內(nèi),取l棵回歸樹(shù)葉子結(jié)點(diǎn)的平均結(jié)果作為隨機(jī)森林預(yù)測(cè)值y. 算法不僅具有多棵回歸樹(shù)建立過(guò)程的隨機(jī)性,同時(shí)還保證樹(shù)與樹(shù)之間的獨(dú)立性,增強(qiáng)了模型的泛化能力. 具體算法如下.

圖2 隨機(jī)森林回歸模型Fig.2 Model of random forest regression

步驟1從訓(xùn)練矩陣D中有放回隨機(jī)抽取一個(gè)子樣本矩陣Dz,作為第v棵回歸樹(shù)根節(jié)點(diǎn)的訓(xùn)練樣本,v=1, 2, 3,…,l,Dz與D樣本大小相同,都是md×nd維的矩陣,nd是變量的個(gè)數(shù),md是單一變量包含數(shù)據(jù)樣本的個(gè)數(shù),表示為

D=[x1,x2,x3,…,xnd]

(11)

Dz=[xz1,xz2,xz3,…,xznd]

(12)

步驟2對(duì)Dz進(jìn)行分枝生長(zhǎng),從Dz中無(wú)放回隨機(jī)抽取w個(gè)(w?nd)變量,從抽取的每個(gè)變量中隨機(jī)抽取e個(gè)值得到切割點(diǎn)矩陣Xcut,表示為

Xcut=[x1,x2,…,xw]

(13)

式中Xcut為e×w維的矩陣.xkf是Xcut中的元素,k=1, 2, 3,…,e,f=1, 2, 3,…,w. 計(jì)算Xcut集合內(nèi)的最優(yōu)切割C(xkf):

(14)

(15)

(16)

式中:Rleft(k,f)為經(jīng)xkf切分后的左子樹(shù)集合;Rright(k,f)為經(jīng)xkf切分后的右子樹(shù)集合;Q1和Q2分別為Rleft(k,f)和Rright(k,f)中樣本數(shù)量. 篩選出最小C(xkf)值對(duì)應(yīng)的切割點(diǎn)xkf,若Dz(g,f)

步驟3分別記錄Dleft和Dright所在節(jié)點(diǎn)路徑長(zhǎng)度hd和樣本大小s,如果Dleft和Dright的hd達(dá)到樹(shù)高或s小于設(shè)定閾值,則停止對(duì)該節(jié)點(diǎn)的分枝生長(zhǎng),否則對(duì)子樹(shù)節(jié)點(diǎn)繼續(xù)分枝生長(zhǎng).

步驟4重復(fù)以上步驟,完成l棵回歸樹(shù)的構(gòu)建,組成隨機(jī)森林回歸模型.

(17)

3.2 改進(jìn)的隨機(jī)森林回歸模型

為了適應(yīng)混合型缺失數(shù)據(jù)的補(bǔ)償,對(duì)RF算法進(jìn)行了改進(jìn),得到適應(yīng)能力強(qiáng)的改進(jìn)型隨機(jī)森林(improved random forest,IRF)算法. 首先對(duì)剔除異常數(shù)據(jù)的X進(jìn)行線性插值,再通過(guò)矩陣變換得到含有目標(biāo)補(bǔ)償變量的填充矩陣;然后用RF回歸模型對(duì)填充矩陣進(jìn)行預(yù)測(cè),利用集成思想進(jìn)行tb次輸出,取結(jié)果均值為補(bǔ)償值,提高了輸出結(jié)果的精度,完成混合類型缺失數(shù)據(jù)的補(bǔ)償. IRF具體方法如下.

步驟1用線性插值法對(duì)X中的缺失值進(jìn)行插值得到矩陣R,表示為

R=[x′1,x′2,x′3,…,x′n]

(18)

式中:R與X樣本大小相同,為m×n維的矩陣,n為變量的個(gè)數(shù),m是單一變量包含數(shù)據(jù)樣本的個(gè)數(shù).

步驟2取X中第i列為目標(biāo)填充列,R中除第i列外剩余n-1列為相關(guān)變量列,形成填充矩陣Rfill,i=1, 2,3,…,n,表示為

Rfill=[x′1,x′2,x′3,…,xi,…x′n]

(19)

步驟3從D中有放回隨機(jī)抽取一個(gè)訓(xùn)練矩陣Dzv,完成RF回歸模型的建立.

步驟4以Rfill中相關(guān)變量列為輸入,目標(biāo)填充列為輸出對(duì)第i列的缺失值進(jìn)行預(yù)測(cè),得到第t次預(yù)測(cè)值y(t),t=1, 2, 3,…,tb.

步驟5若t

(20)

步驟6若i

4 實(shí)驗(yàn)與分析

實(shí)驗(yàn)數(shù)據(jù)選取2020年6月北京市某污水廠處理過(guò)程的真實(shí)數(shù)據(jù),首先對(duì)處理過(guò)程的8種關(guān)鍵變量數(shù)據(jù)變化分析,結(jié)果如圖3所示.

圖3 變量數(shù)據(jù)曲線Fig.3 Variable data curve

從圖3中可以看出B池缺氧末硝態(tài)氮、B池一好氧前DO、進(jìn)水小室pH、進(jìn)水小室SS、B池缺氧前ORP五個(gè)變量趨勢(shì)變化不穩(wěn)定,含較大的噪聲,數(shù)據(jù)質(zhì)量相對(duì)較低. 數(shù)據(jù)清洗實(shí)驗(yàn)數(shù)據(jù)選取該5種變量,每個(gè)變量選取500組數(shù)據(jù)、300組IF訓(xùn)練數(shù)據(jù)、150組補(bǔ)償訓(xùn)練數(shù)據(jù)和100組測(cè)試數(shù)據(jù). 具體數(shù)據(jù)清洗實(shí)驗(yàn)如下.

4.1 混合類型異常數(shù)據(jù)

為了證明IRF數(shù)據(jù)清洗方法的效果,實(shí)驗(yàn)分別對(duì)間斷缺失數(shù)據(jù)、間斷缺失混合連續(xù)缺失數(shù)據(jù)、間斷缺失混合連續(xù)缺失和水平缺失數(shù)據(jù)3種數(shù)據(jù)情況做了數(shù)據(jù)補(bǔ)償,通過(guò)均方根誤差RMSE、平均絕對(duì)誤差MAE、確定系數(shù)R[20-21]分析數(shù)據(jù)清洗結(jié)果準(zhǔn)確性,R可以表示2個(gè)曲線的擬合程度. 計(jì)算公式分別為

(21)

(22)

(23)

式中:N為樣本總數(shù);yi為實(shí)際值;ypi為預(yù)測(cè)值;ya為樣本平均值. 對(duì)500組測(cè)試數(shù)據(jù)集中隨機(jī)插入15組間斷異常數(shù)據(jù)和10組連續(xù)異常數(shù)據(jù). 通過(guò)IF算法對(duì)異常數(shù)據(jù)識(shí)別并剔除,構(gòu)成含5%缺失值的混合類型缺失數(shù)據(jù)集,結(jié)果如圖4所示.

圖4 缺失數(shù)據(jù)分布Fig.4 Missing data distribution map

為便于觀察缺失數(shù)據(jù)的分布,將數(shù)據(jù)歸一化處理后,剔除異常點(diǎn)并用0代替. 圖4表示了剔除25組數(shù)據(jù)后的實(shí)驗(yàn)數(shù)據(jù)分布,并在圖中對(duì)25組缺失值的位置進(jìn)行了標(biāo)記. 其中進(jìn)水小室SS數(shù)據(jù)中包含7組連續(xù)缺失值和2組間斷缺失值;B池缺氧前ORP數(shù)據(jù)中包含3組連續(xù)缺失值和2組間斷缺失值;B池缺氧末硝態(tài)氮數(shù)據(jù)、B池一好氧前DO數(shù)據(jù)、進(jìn)水小室pH數(shù)據(jù)分別包含了3組、3組、5組間斷缺失值. 其中在第51個(gè)樣本進(jìn)水小室SS、進(jìn)水小室pH、B池缺氧末硝態(tài)氮3個(gè)變量數(shù)據(jù)同時(shí)缺失. 剔除以上25組數(shù)據(jù)后構(gòu)成混合類型缺失數(shù)據(jù)集,比較IRF、BP、SVM在混合類型缺失數(shù)據(jù)集下的數(shù)據(jù)補(bǔ)償能力.

4.2 間斷缺失數(shù)據(jù)清洗

從圖4中可以看出B池一好氧前DO中含有3組間斷缺失數(shù)據(jù),分別比較IRF、BP、SVM對(duì)間斷缺失數(shù)的補(bǔ)償能力,結(jié)果如圖5、6所示.

圖5是在B池一好氧前DO實(shí)驗(yàn)中IRF、SVM、BP的補(bǔ)償值預(yù)測(cè)結(jié)果,圖6表示IRF、SVM、BP在實(shí)驗(yàn)中的誤差結(jié)果. 從圖5中得出IRF、SVM補(bǔ)償值預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)趨勢(shì)擬合程度相差無(wú)幾,并且都優(yōu)于BP算法的擬合結(jié)果;從圖6中看出BP算法的結(jié)果誤差波動(dòng)幅度較大,IRF和SVM的結(jié)果誤差波動(dòng)幅度較小,在小范圍內(nèi)穩(wěn)定變化,均小于BP的誤差變化幅度. 所以IRF和SVM都可以很好地對(duì)間斷缺失數(shù)據(jù)進(jìn)行補(bǔ)償.

圖5 DO預(yù)測(cè)結(jié)果Fig.5 Predicted results of DO

圖6 DO測(cè)量誤差Fig.6 Measurement error of DO

4.3 間斷缺失混合連續(xù)缺失數(shù)據(jù)清洗

從圖4中可以看出B池缺氧前ORP中含有2組間斷缺失數(shù)據(jù)和3組連續(xù)缺失數(shù)據(jù),形成間斷缺失混合連續(xù)缺失的數(shù)據(jù). 分別比較 IRF、BP、SVM在間斷缺失混合連續(xù)缺失數(shù)據(jù)下的補(bǔ)償能力,結(jié)果如圖7、8所示.

圖7是B池缺氧前ORP中IRF、SVM、BP的數(shù)據(jù)補(bǔ)償值預(yù)測(cè)結(jié)果,圖8表示 IRF、SVM、BP在實(shí)驗(yàn)中的誤差. 從圖7中觀察到BP補(bǔ)償值波動(dòng)幅度大,擬合誤差也較大,SVM和IRF相對(duì)穩(wěn)定,可以擬合實(shí)際數(shù)據(jù)的趨勢(shì). 從圖8中可以看出SVM和IRF的誤差都在小范圍內(nèi)波動(dòng),但I(xiàn)RF的誤差波動(dòng)明顯小于 SVM. 所以IRF對(duì)于間斷缺失混合連續(xù)缺失數(shù)據(jù)的補(bǔ)償效果更好.

圖7 ORP預(yù)測(cè)結(jié)果Fig.7 Predicted results of ORP

圖8 ORP測(cè)量誤差Fig.8 Measurement error of ORP

4.4 混合缺失數(shù)據(jù)補(bǔ)償

從圖4中可以看出進(jìn)水小室SS、進(jìn)水小室pH、B池缺氧末硝態(tài)氮含有水平缺失模式數(shù)據(jù),進(jìn)水小室SS數(shù)據(jù)中含有間斷缺失混合連續(xù)缺失數(shù)據(jù),進(jìn)水小室pH、B池缺氧末硝態(tài)氮中含有間斷缺失數(shù)據(jù),以上變量形成3種缺失模式混合的缺失數(shù)據(jù),分別比較IRF、BP、SVM在間斷缺失混合連續(xù)缺失和水平缺失數(shù)據(jù)的補(bǔ)償能力,結(jié)果如圖9、10所示.

圖9表示IRF、SVM、BP在B池缺氧末硝態(tài)氮、進(jìn)水小室SS、進(jìn)水小室PH的補(bǔ)償值預(yù)測(cè)結(jié)果,圖10表示IRF、SVM、BP在3組實(shí)驗(yàn)中的誤差結(jié)果. 從圖9中可以看出在間斷缺失混合連續(xù)缺失和水平缺失數(shù)據(jù)下, IRF、SVM與實(shí)際趨勢(shì)的擬合效果均優(yōu)于BP;從圖10可以看出IRF在進(jìn)水小室SS和進(jìn)水小室PH的補(bǔ)償值預(yù)測(cè)實(shí)驗(yàn)中,誤差幅度變化明顯小于SVM,在B池缺氧末硝態(tài)氮補(bǔ)償值預(yù)測(cè)實(shí)驗(yàn)中,IRF誤差幅度變化與SVM近似,但在第37時(shí)刻和第52時(shí)刻附近IRF誤差明顯更小,所以在間斷缺失混合連續(xù)缺失和水平缺失數(shù)據(jù)的補(bǔ)償值預(yù)測(cè)試中,IRF具有更好的穩(wěn)定性和準(zhǔn)確性,對(duì)這種混合缺失數(shù)據(jù)集補(bǔ)償效果更好,數(shù)據(jù)適應(yīng)能力更強(qiáng).

圖9 預(yù)測(cè)結(jié)果Fig.9 Predicted results

圖10 誤差結(jié)果Fig.10 Error results

4.5 結(jié)果分析

從上述3組實(shí)驗(yàn)結(jié)果可以看出,在混合類型缺失數(shù)據(jù)集中,IRF相對(duì)于SVM、BP具有更小的誤差波動(dòng)和更好的擬合趨勢(shì). 分別計(jì)算3種數(shù)據(jù)清洗算法的MAE、RMSE、R和時(shí)間ts,如表1所示. 從表1中可以看出在MAE的指標(biāo)評(píng)價(jià)中,IRF對(duì)B池一好氧前DO、B池缺氧前ORP、B池缺氧末硝態(tài)氮、進(jìn)水小室SS和進(jìn)水小室PH數(shù)據(jù)清洗結(jié)果的 MAE更小,平均補(bǔ)償效果更好;在RMSE和R的指標(biāo)評(píng)價(jià)中, SVM在B池一好氧前DO實(shí)驗(yàn)中的RMSE更小、R更大,對(duì)間斷缺失數(shù)據(jù)的補(bǔ)償精確度更高、趨勢(shì)擬合性更好,IRF在B池缺氧末硝態(tài)氮、B池缺氧前ORP、進(jìn)水小室SS、進(jìn)水小室PH實(shí)驗(yàn)中具有更小的RMSE和更大的R,所以在不同缺失類型混合的數(shù)據(jù)集中,IRF的補(bǔ)償效果優(yōu)于SVM和BP算法,具有更高的精確度和更好的趨勢(shì)擬合性. 綜上所述,在混合類型缺失數(shù)據(jù)集中,IRF綜合清洗效果比SVM、BP更為精確,數(shù)據(jù)的清洗效果更好. 更適用于混合類型的缺失數(shù)據(jù)清洗的問(wèn)題中.

表1 實(shí)驗(yàn)結(jié)果對(duì)比

5 結(jié)論

針對(duì)城市污水處理運(yùn)行過(guò)程中出現(xiàn)混合異常數(shù)據(jù)的問(wèn)題,本文提出了一種基于改進(jìn)型隨機(jī)森林?jǐn)?shù)據(jù)清洗方法. 先用IF算法識(shí)別離群數(shù)據(jù);再剔除離群數(shù)據(jù)、重復(fù)數(shù)據(jù)和缺失數(shù)據(jù),得到混合類型缺失數(shù)據(jù)集;最后用IRF算法對(duì)混合類型缺失數(shù)據(jù)集進(jìn)行補(bǔ)償. 取實(shí)際污水?dāng)?shù)據(jù)驗(yàn)證IRF數(shù)據(jù)清洗算法的有效性,得到以下結(jié)論:

1) IF算實(shí)現(xiàn)了對(duì)污水?dāng)?shù)據(jù)中離群數(shù)據(jù)的剔除.

2) 在混合類型缺失數(shù)據(jù)集中,IRF算法相對(duì)于其他算法具有更好的清洗效果,適用于混合類型異常數(shù)據(jù)的清洗.

猜你喜歡
離群小室城市污水
城市污水管網(wǎng)建設(shè)管理存在的問(wèn)題和解決辦法
基于相關(guān)子空間的高維離群數(shù)據(jù)檢測(cè)算法
卜算子·靜夜思
探究城市污水處理工程中MBR工藝系統(tǒng)設(shè)計(jì)
隨感
日媒勸“灰小子”早日放開(kāi)公主
日本公主的準(zhǔn)婆家靠譜嗎?
城市污水處理與環(huán)境保護(hù)問(wèn)題研究
近荷獨(dú)坐
候鳥(niǎo)
资阳市| 重庆市| 安西县| 和平区| 万全县| 拉萨市| 松溪县| 景宁| 武义县| 东乡族自治县| 湘阴县| 玛曲县| 曲沃县| 上杭县| 宜宾县| 大理市| 中西区| 乾安县| 铜山县| 汉川市| 那坡县| 茂名市| 龙南县| 盖州市| 凤冈县| 和平县| 七台河市| 吉林省| 遵义市| 石渠县| 滨海县| 忻州市| 英德市| 凉山| 磐石市| 米易县| 于田县| 凉城县| 阿城市| 朝阳县| 津南区|