楊 楠,李亞平,薛 軍,李吉生,趙 飛,侯 鑫,沈有建
(1.中國人民大學(xué) ,北京 100872;2.生態(tài)環(huán)境部固體廢物與化學(xué)品管理技術(shù)中心,北京100029;3.太原市環(huán)境監(jiān)控中心 ;山西 太原 030009;4.北京市保生源科技有限公司,北京 100080)
生活垃圾的焚燒已經(jīng)成為許多國家和地區(qū)處理城市生活垃圾的主要方式,并且經(jīng)過焚燒后的熱能可以用于發(fā)電,目前國內(nèi)有40%的垃圾焚燒企業(yè)采用循環(huán)流化床工藝。北京保生源科技有限公司采用物聯(lián)網(wǎng)技術(shù),針對某企業(yè)采用的循環(huán)流化床工藝?yán)贌a(chǎn)過程進行了規(guī)定排放物的定點檢測,獲取了一段生產(chǎn)運行時間段的監(jiān)控數(shù)據(jù)。針對這些數(shù)據(jù)需要進行各個變量的影響關(guān)系的分析,獲取哪些數(shù)據(jù)是影響排放指標(biāo)的重要因素。在污染物的影響因素相關(guān)性分析中,普遍采用層次分析法(AHP)、回歸分析法、因子分析法、方差分析法、主成分分析法等。這些方法雖然都可以進行因變量與自變量關(guān)系分析,但其局限性也很明顯[4]。而Pearson關(guān)聯(lián)理論以其簡單和不受兩變量的位置和尺度的影響,同時模型較為成熟,是許多關(guān)聯(lián)分析的選擇方法之一[1]。另外,灰色關(guān)聯(lián)理論以其對數(shù)據(jù)要求低,計算量小,對樣本數(shù)量和特征無明確限制和要求等優(yōu)點,也為廣大研究者所重視。因此,有采用灰色理論的算法模型研究[8]和灰色關(guān)聯(lián)理論在城市污水處理影響因素分析中的應(yīng)用[9];以及灰色關(guān)聯(lián)度和Pearson相關(guān)系數(shù)的應(yīng)用比較研究[10]?;谏鲜鲈?,本文根據(jù)通過物聯(lián)網(wǎng)采集的某垃圾焚燒企業(yè)的實際排放數(shù)據(jù),在上述兩個理論的基礎(chǔ)上,進行影響因素之間的關(guān)聯(lián)分析研究。主要采用的研究方法是:(1)確定排放指標(biāo)和影響因子序列。排放指標(biāo)是指我們所關(guān)心的因變量,而影響因子序列是監(jiān)測到的可能對排放指標(biāo)起到影響的數(shù)據(jù),而其中大部分影響因子數(shù)據(jù)是可以在生產(chǎn)過程中人為調(diào)控的參數(shù)。(2)采用關(guān)聯(lián)分析方法計算所有監(jiān)測數(shù)據(jù)之間的關(guān)聯(lián)度矩陣,針對每個指標(biāo)將其影響因子特征序列按照關(guān)聯(lián)度大小進行排序;(3)為每個指標(biāo)序列選擇排列靠前的N個影響因子序列進行多元回歸分析,之后根據(jù)回歸結(jié)果,計算回歸效果。(4)在Pearson關(guān)聯(lián)分析方法和灰色關(guān)聯(lián)分析方法下,比較各個指標(biāo)的回歸效果,得出關(guān)聯(lián)分析結(jié)論。
論文的組織結(jié)構(gòu)如下,第二節(jié)主要介紹本文中的兩個主要的關(guān)聯(lián)分析方法:Pearson關(guān)聯(lián)分析方法和灰色關(guān)聯(lián)分析方法;第三節(jié)是針對實際數(shù)據(jù)的分析過程和關(guān)聯(lián)矩陣的計算,以及各個排放指標(biāo)序列和該序列下影響因子序列的關(guān)聯(lián)度的排序;第四節(jié)是針對各個排放指標(biāo)序列下,選擇Top-N個影響因子條件下的多元回歸分析;第五節(jié)是分析過程和結(jié)論。
本文中主要使用兩個關(guān)聯(lián)分析方法,即Pearson關(guān)聯(lián)分析方法和灰色關(guān)聯(lián)分析方法。下面先介紹這兩種的分析方法的理論基礎(chǔ)知識。
Pearson 相關(guān)系數(shù)方法的優(yōu)點在于原理簡單,且不受兩個變量的位置和尺度變化的影響,容易程序化。Pearson 相關(guān)系數(shù)本質(zhì)上是一種線性相關(guān)系數(shù),需要滿足以下條件[3]:(1)兩變量均應(yīng)由測量得到的連續(xù)變量;(2)兩變量均來自正態(tài)分布,或接近正態(tài)的單峰對稱分布的總體;(3)變量必須是成對的數(shù)據(jù);(4)兩變量間為線性關(guān)系。
2.1.1 Pearson相關(guān)系數(shù)
Pearson是一個介于-1和1之間的值,用來描述兩組線性的數(shù)據(jù)一同變化移動的趨勢。當(dāng)兩個變量的線性關(guān)系增強時,相關(guān)系數(shù)趨于1或-1。當(dāng)一個變量變大,而另一個變量也變大時,表明它們之間是正相關(guān)的,相關(guān)系數(shù)大于0;如果一個變量增大,而另一個變量卻減少,表明它們之間是負(fù)相關(guān)的,相關(guān)系數(shù)小于0。如果相關(guān)系數(shù)等于0,表明它們之間不存在相關(guān)關(guān)系。
用數(shù)學(xué)公式表示,Pearson相關(guān)系數(shù)等于兩個變量的協(xié)方差除以兩個變量的標(biāo)準(zhǔn)差。
其中E是數(shù)學(xué)期望,cov表示協(xié)方差,σ表示標(biāo)準(zhǔn)差。
灰色關(guān)聯(lián)分析是一種多因素統(tǒng)計分析方法,它以各因素樣本數(shù)據(jù)為依據(jù),通過灰色關(guān)聯(lián)度反映樣本兩因素間的關(guān)聯(lián)情況[4]。與其他相關(guān)性分析方法(如因子分析、主成分分析、方差分析等)相比,灰色關(guān)聯(lián)分析方法往往對數(shù)據(jù)要求低,計算量小,對樣本數(shù)量和特征無明確限制和要求,分析效果也更好[2,4]。
灰色關(guān)聯(lián)度在研究因素間的關(guān)聯(lián)程度時,對樣本容量和分布規(guī)律沒有過分要求、原理簡單、易于程序化等。根據(jù)文獻[2,4],列出灰色關(guān)聯(lián)公理,具體如下。
假設(shè):
條件1,0<γ(X0,Xk)≤1,γ(X0,Xk)?X0=Xk
則稱γ(X0,Xi)為X0與Xi的灰色關(guān)聯(lián)度。其中:
2.2.1 灰色關(guān)聯(lián)度的計算步驟
步驟1,確定反映系統(tǒng)行為特征的參考數(shù)列和影響因子序列;步驟2,對數(shù)列進行無量綱化;
一般對于實際問題中各因素的物理意義、數(shù)據(jù)量綱和數(shù)量級不同,分析中難以得出正確的結(jié)論,所以需要無量綱化。采用第一數(shù)值點或均值除以全體系列數(shù)值稱為求初值像,采用均值方法稱為均值像,本研究采用每個數(shù)據(jù)點除以均值進行數(shù)據(jù)的無量綱化處理:
步驟3,求 X0 與 Xi 初值像(或均值像)對應(yīng)分量之差的絕對值序列,即:
對于上述的關(guān)聯(lián)系數(shù)公式中,早期灰色理論研究學(xué)者通常取ε=0.5。但隨著灰色系統(tǒng)理論的深入發(fā)展,越來越多的學(xué)者在灰色理論的實際應(yīng)用中發(fā)現(xiàn)ε=0.5的不足。如對于分辨系數(shù)ε=0.5 的不合理性[5-6],申卯興等[5]經(jīng)過數(shù)學(xué)推導(dǎo)和論證,得出分辨系數(shù)ε=0.05 時更符合實際,并能提高灰色關(guān)聯(lián)分析的分辨率,且得到了眾多學(xué)者的支持。因此,本文中取分辨系數(shù)ε=0.05。
步驟6,計算灰色關(guān)聯(lián)度矩陣:
本小節(jié)中,采用某垃圾焚燒企業(yè)的排放監(jiān)控數(shù)據(jù)作為分析的基礎(chǔ)。排放量是按照《生活垃圾焚燒污染控制標(biāo)準(zhǔn)》[7]進行采集的,主要的排放量有5個,分別是:二氧化硫、氮氧化物、煙塵、一氧化碳、氯化氫。與其相關(guān)的影響因素共有13個,分別是:活性炭風(fēng)機1#、活性炭風(fēng)機2#、噴石灰粉羅茨風(fēng)機、活性炭羅茨風(fēng)機1#、活性炭羅茨風(fēng)機2#、干粉風(fēng)機、給煤機、給料機1#、給料機2#、引風(fēng)機、灰塵輸送機、布袋出塵壓差、二次風(fēng)機。為了便于以后各個數(shù)據(jù)變量的表示,5個排放量分別用Y1,Y2,…,Y5表示,13個影響因素變量分別用X1,X2,…,X13表示,其對應(yīng)關(guān)系如表1所示。表2所示是某企業(yè)某生產(chǎn)線的監(jiān)控數(shù)據(jù)的格式。
表1 各個變量對應(yīng)符號表
表2 企業(yè)排放數(shù)據(jù)表
該表格的時間跨度為約3個月(2019.6.1~2019.9.24),每小時一個數(shù)據(jù),一共是2752條記錄。根據(jù)上述數(shù)據(jù),對任何兩個參數(shù)之間分別進行Pearson關(guān)聯(lián)度和灰色關(guān)聯(lián)度的計算,得到如圖1所示的Pearson關(guān)聯(lián)矩陣和圖2所示的灰色關(guān)聯(lián)矩陣。
圖1 Pearson關(guān)聯(lián)矩陣
這兩個圖反映了監(jiān)控數(shù)據(jù)兩兩之間的關(guān)聯(lián)度,顏色表示其關(guān)聯(lián)度的大小。圖1的Pearson關(guān)聯(lián)矩陣中,關(guān)聯(lián)度的范圍在-1.0 1.0之間,當(dāng)關(guān)聯(lián)度接近0,表示沒有關(guān)聯(lián),接近-1.0是負(fù)相關(guān),接近1.0是正相關(guān)。圖2的灰色關(guān)聯(lián)矩陣中,關(guān)聯(lián)度的范圍在0.0 1.0之間,當(dāng)關(guān)聯(lián)度接近0,表示沒有關(guān)聯(lián),接近1.0是正相關(guān)。因此,灰色關(guān)聯(lián)分析不含負(fù)相關(guān)的關(guān)系。
圖2 灰色關(guān)聯(lián)矩陣
根據(jù)得到監(jiān)控數(shù)據(jù)的關(guān)聯(lián)度矩陣,我們可以針對每個排放量,對于其影響因子序列按照關(guān)聯(lián)度進行排序。我們選擇N=5個排在前面的影響因子序列參加多元回歸分析。
表3是Pearson關(guān)聯(lián)矩陣條件下,選擇參與回歸分析的各個影響因子序列,表4是灰色關(guān)聯(lián)矩陣條件下,選擇參與回歸分析的各個影響因子序列。每個表列出了關(guān)心排放量對應(yīng)的影響因子排在前5項的值,其中每個表項是影響因子變量和對應(yīng)的關(guān)聯(lián)度值。
表3 Pearson關(guān)聯(lián)理論下的影響因子關(guān)聯(lián)度排序
表4 灰色關(guān)聯(lián)理論下的影響因子關(guān)聯(lián)度排序
從上述兩個表格可以看出,Pearson理論下的排放量對應(yīng)的影響因子序列的排序和灰色理論下的數(shù)據(jù)是不一樣的。因此,后面的多元回歸分析中的因變量在兩個理論下也是不同的。
根據(jù)表3和表4選擇的影響因子,對每個排放量進行多元回歸分析,分析結(jié)果如下。
表5 Pearson關(guān)聯(lián)理論下的回歸結(jié)果
表6 灰色關(guān)聯(lián)理論下的回歸結(jié)果
每個表項中包含多元回歸的結(jié)果,格式為:截距 +[參數(shù)1參數(shù)2參數(shù)3參數(shù)4參數(shù)5]X。參數(shù)i表示參與回歸的第i個影響因子變量對應(yīng)的參數(shù)。
回歸效果的評價指標(biāo)有很多方法,例如,有均方誤差(MSE),均方根誤差(RMSE),平均絕對誤差(MAE),R平方(R-Squared)。這里,我們選擇了常用的R-Squared和RMSE兩個回歸評價函數(shù)。
4.3.1 R-squared決定系數(shù)
R-squared的取值范圍位于[0,1]之間,反映模型對樣本數(shù)據(jù)的擬合程度。值越大,擬合效果越好。
4.3.2 均方根誤差RMSE(Root Mean Squared Error)
均方誤差是線性模型擬合過程中,最小化誤差平方和(SSE)代價函數(shù)的平均值,用于衡量觀測值與真實值之間的偏差。
其中,X是觀測值,h是真實值,n是樣本數(shù)。RMES反映了測量數(shù)據(jù)偏離真實值的程度,值越小,表示測量精度越高,因此可用RMES作為評定這一測量過程精度的標(biāo)準(zhǔn)。
下面我們針對兩種關(guān)聯(lián)方法下得到的多元回歸模型的效果進行檢驗,針對兩種情況下的回歸模型計算在監(jiān)控數(shù)據(jù)序列下的R-squared和RMSE值,得到表7和表8。對應(yīng)的兩個理論下的回歸效果用圖3的柱狀圖表示。
表7 Pearson關(guān)聯(lián)理論下的回歸效果
表8 灰色關(guān)聯(lián)理論下的回歸效果
下面我們針對兩種關(guān)聯(lián)方法下得到的多元回歸模型的效果進行分析。從圖3(a)的柱狀圖分析看,不論是Pearson理論或者是灰色關(guān)聯(lián)理論,氮氧化物和影響因素之間的關(guān)聯(lián)度最大。二氧化硫和一氧化碳和影響因素之間存在一定關(guān)聯(lián)性,而煙塵和氯化氫和影響因素之間關(guān)聯(lián)性最小。從圖3(b)的柱狀圖分析看二氧化硫和一氧化碳的回歸誤差較大,氮氧化物較小,而煙塵和氯化氫最小。
因此,綜合分析的結(jié)果,氮氧化物關(guān)聯(lián)度最大,回歸效果也是最好的。而我們通過表5和表6的回歸結(jié)果進一步的分析,在Pearson理論下,氮氧化物和給料機#2和給料機/#1關(guān)聯(lián)度最大;而灰色理論下,氮氧化物和給煤機和二次風(fēng)機關(guān)聯(lián)度最大。
開展本項目的研究是具有非常重要的意義的,針對生產(chǎn)線的排放監(jiān)控點的數(shù)據(jù)采集,可以了解到企業(yè)生產(chǎn)的行為。通過發(fā)現(xiàn)行為特征序列和影響因子序列的相關(guān)性,并建立相關(guān)性的回歸模型,可以為企業(yè)提供如何減排的第一手信息。使得我們可以科學(xué)地、準(zhǔn)確地控制影響因子參數(shù),減少污染物的排放。