盧鵬,何杰,彭叢笑
(1.西南交通大學(xué)峨眉校區(qū)基礎(chǔ)課部,四川峨眉614202;2.西南交通大學(xué)土木工程學(xué)院,成都610031;3.四川理工學(xué)院建筑工程學(xué)院,四川自貢643000)
基于偏最小二乘法的PM2.5相關(guān)因素分析研究
盧鵬1,何杰2,彭叢笑3
(1.西南交通大學(xué)峨眉校區(qū)基礎(chǔ)課部,四川峨眉614202;2.西南交通大學(xué)土木工程學(xué)院,成都610031;3.四川理工學(xué)院建筑工程學(xué)院,四川自貢643000)
利用偏最小二乘法,主要分析了PM2.5(含量)與SO2、NO2和CO等指標(biāo)的關(guān)聯(lián)度以及具體的關(guān)系式,并對(duì)距離分析和典型分析得到的結(jié)果進(jìn)行了對(duì)比分析。最后在結(jié)果的基礎(chǔ)上,分析了PM2.5(含量)與SO2、NO2和CO等指標(biāo)的具體函數(shù)表達(dá)式,為如何更好的控制、治理該污染物提供了依據(jù)。
距離分析;典型分析;偏最小二乘分析
細(xì)顆粒物已經(jīng)被列為了影響我國(guó)各城市空氣質(zhì)量的主要大氣污染物之一,其不僅影響氣候、城市能見(jiàn)度,同時(shí)對(duì)人體的健康有巨大的影響,這主要是因?yàn)榧?xì)顆粒物(PM2.5)能夠被人吸入呼吸系統(tǒng),甚至能穿透肺細(xì)胞而進(jìn)入血液循環(huán),最終對(duì)人體健康造成影響。鑒于此,我國(guó)已經(jīng)將細(xì)顆粒物(PM2.5)作為了首要污染物,對(duì)其做深入的研究有利于制定有效的控制治理方案。PM2.5的主要來(lái)源有兩個(gè)方面[1],即自然源與人為源,且主要成分包括水溶性離子、顆粒有機(jī)物和微量元素等。有相關(guān)學(xué)術(shù)研究[2-4]認(rèn)為:AQI監(jiān)測(cè)指標(biāo)中的SO2、NO2和CO在一定的條件下能通過(guò)化學(xué)反應(yīng)生成PM2.5。基于此,本文以西安市各地區(qū)所采集的數(shù)據(jù)[5]進(jìn)行分析,分析的主要內(nèi)容包括PM2.5(含量)與SO2、NO2和CO等指標(biāo)的關(guān)聯(lián)度以及具體的關(guān)系式。
為了分析PM2.5(含量)與SO2、NO2和CO等指標(biāo)之間的相關(guān)程度和關(guān)系,本文首先采用距離分析法進(jìn)行分析各指標(biāo)之間的相關(guān)性與獨(dú)立性。為進(jìn)一步深層次研究各指標(biāo)之間的相關(guān)性,在考慮兩組變量相關(guān)性時(shí),同時(shí)考慮其他變量的影響,于是采用典型相關(guān)分析方法進(jìn)行分析,得到更加合理的相關(guān)性關(guān)系。考慮到偏最小二乘回歸能夠提供一種多對(duì)多線(xiàn)性回歸模型的方法,該方法集中了主成分分析、典型相關(guān)性分析和線(xiàn)性回歸分析方法的特點(diǎn),不僅能提供一個(gè)更為合理的回歸模型,同時(shí)還能夠完成一些類(lèi)似于主成分分析和典型相關(guān)分析的研究?jī)?nèi)容,提供一些更豐富、深入的信息。所以本文采用偏最小二乘回歸分析方法建立PM2.5與其他各指標(biāo)的關(guān)系模型,利用MATLAB等數(shù)學(xué)工具就可以獲得偏最小二乘回歸分析模型中的各參數(shù)值,然后對(duì)計(jì)算結(jié)果進(jìn)行檢驗(yàn)。
1.1 距離分析
采用Person相關(guān)系數(shù)統(tǒng)一的表征相關(guān)程度[6],兩組變量X和Y的Person相關(guān)系數(shù)計(jì)算:
1.2 深入分析
在距離相關(guān)分析的基礎(chǔ)上,考慮到采用距離相關(guān)分析[7]僅能得到兩組變量之間簡(jiǎn)單的相關(guān)系數(shù),這樣的結(jié)果不能抓住問(wèn)題的本質(zhì),如果能夠采用類(lèi)似于主成分的思想,分別找出兩組變量的各自的某個(gè)線(xiàn)性組合,討論線(xiàn)性組合之間的相關(guān)關(guān)系,會(huì)使結(jié)果更加符合實(shí)際情況?;诖?,本文采用典型相關(guān)分析對(duì)6個(gè)指標(biāo)做進(jìn)一步的相關(guān)與獨(dú)立分析,這種方法更加便捷且能突顯問(wèn)題的本質(zhì)。
首先研究任意兩組指標(biāo)隨機(jī)變量之間的相關(guān)關(guān)系,第一組指標(biāo)X共5個(gè)(包含:SO2、NO2、可吸入顆粒物、CO、O3),第二組指標(biāo)為Y(包含:PM2.5),可用復(fù)相關(guān)系數(shù)。其思想是先將每一組指標(biāo)隨機(jī)變量作線(xiàn)性組合,成為兩個(gè)隨機(jī)變量,式中,P表示5個(gè)指標(biāo),q表示1個(gè)指標(biāo)。
由于u,v與投影向量c,γ有關(guān),所以相關(guān)系數(shù)矩陣ryu與c,γ有關(guān),ryu=ryu(c,γ)。取在cT∑xxc=1,γT∑
YYγ=1的條件下使ryu達(dá)到最大的c,γ作為投影向量,得到的相關(guān)系數(shù)為復(fù)相關(guān)系數(shù),
將兩組變量的協(xié)方差矩陣分塊得:
此時(shí)
典型相關(guān)系數(shù)計(jì)算結(jié)果檢驗(yàn)公式參考文獻(xiàn)[8]。
1.3 偏最小二乘回歸分析
由分析結(jié)果可知,PM2.5與其他4個(gè)指標(biāo)具有較強(qiáng)的相關(guān)性,所以采用偏最小二乘法[9]建立PM2.5與其他4個(gè)指標(biāo)(SO2、NO2、可吸入顆粒物、CO,將指標(biāo)編號(hào)為1-4)之間的關(guān)系模型。
用xmi(i表示時(shí)間,m表示指標(biāo)編號(hào))表示實(shí)測(cè)的AQI[10]監(jiān)測(cè)指標(biāo)濃度值;yi表示實(shí)測(cè)PM2.5濃度值。4個(gè)指標(biāo)濃度的數(shù)據(jù)陣記為A=(aij)238×4,實(shí)測(cè)PM2.5濃度的數(shù)據(jù)矩陣記為B=(bij)238×1,即為:
具體的求解流程:
(1)分別提取兩變量組的第一對(duì)成分,并使之相關(guān)性達(dá)到最大。
(2)建立γ1,…,γp對(duì)u1的回歸及x1,…,xm對(duì)u1的回歸。
(3)用殘差陣A1和B1代替A和B,重復(fù)以上步驟。
(4)設(shè)n×m數(shù)據(jù)陣A的秩為r≤min(n-1,m),則存在個(gè)成分u1,u2,…,ur,使得
(5)p個(gè)因變量的偏最小二乘回歸方程式為
2.1 距離分析實(shí)驗(yàn)結(jié)果
將西安市各地區(qū)采集的數(shù)據(jù),經(jīng)過(guò)處理后代入(1)式進(jìn)行計(jì)算,得到6個(gè)指標(biāo)的相關(guān)系數(shù)矩陣(表1)。
表1指標(biāo)的相關(guān)性系數(shù)表
由表1可知,PM2.5與其他5個(gè)指標(biāo)之間具有較強(qiáng)的相關(guān)性,除O3是負(fù)相關(guān),其他各指標(biāo)對(duì)PM2.5均為正相關(guān),且相關(guān)系數(shù)均大于0.7,這說(shuō)明PM2.5濃度變化與其他5個(gè)指標(biāo)密切相關(guān)。
分析O3與其他指標(biāo)的相關(guān)系數(shù)可以發(fā)現(xiàn),O3與其他指標(biāo)的相關(guān)性較弱,且大部分是負(fù)相關(guān),說(shuō)明其他指標(biāo)對(duì)O3濃度的變化影響不大。
2.2 典型分析實(shí)驗(yàn)結(jié)果
將處理后的數(shù)據(jù)代入編好的程序式進(jìn)行計(jì)算,可以得到6個(gè)指標(biāo)的典型相關(guān)系數(shù)及檢驗(yàn)表(表2)。
表2典型相關(guān)系數(shù)
由表2可知,2個(gè)典型相關(guān)系數(shù)均較高,表明PM2.5與其他5個(gè)指標(biāo)之間密切相關(guān)。但要確定典型變量相關(guān)性的顯著程度,尚需要進(jìn)行相關(guān)系數(shù)χ2統(tǒng)計(jì)量檢驗(yàn)[11],具體做法是:比較統(tǒng)計(jì)量χ2計(jì)算值與臨界值的大小,據(jù)比較結(jié)果判定典型變量相關(guān)性的顯著程度,結(jié)果見(jiàn)表3。
表3相關(guān)系數(shù)檢驗(yàn)表
從表3知這兩對(duì)典型變量均值通過(guò)了χ2統(tǒng)計(jì)量檢驗(yàn),表明相應(yīng)典型變量之間相關(guān)關(guān)系顯著,能夠用其他5個(gè)指標(biāo)來(lái)分析PM2.5的變換。因此表4的第一組相關(guān)性系數(shù)是可靠的。
表4結(jié)構(gòu)分析(相關(guān)系數(shù))
表5給出了兩種分析方法的計(jì)算結(jié)果,可以看出兩種分析方法分析結(jié)果較為一致,典型相關(guān)性分析表明:可吸入顆粒物與PM2.5密切相關(guān),相關(guān)性達(dá)到0.9966,O3與PM2.5不相關(guān)。
表5兩種相關(guān)性分析結(jié)果對(duì)比表
典型相關(guān)分析考慮了更多的成分影響,典型相關(guān)性分析比簡(jiǎn)單的距離相關(guān)性分析更適合于研究PM2.5與其他5個(gè)指標(biāo)的相關(guān)性。
3.1 實(shí)驗(yàn)結(jié)果
將標(biāo)準(zhǔn)化后的數(shù)據(jù)代入編寫(xiě)好的偏最小二乘回歸程序[12],得到的實(shí)驗(yàn)結(jié)果包括PM2.5與4個(gè)指標(biāo)之間的相關(guān)系數(shù)矩陣(表6)、回歸方程和回歸系數(shù)直方圖(圖1)。
PM2.5與4個(gè)指標(biāo)之間的偏最小二乘回歸方程:
表6相關(guān)系數(shù)矩陣
圖1回歸系數(shù)直方圖
3.2 實(shí)驗(yàn)結(jié)果的分析及驗(yàn)證
根據(jù)偏最小二乘法回歸模型的求解及回歸系數(shù)圖(圖1)可以觀(guān)察到,可吸入顆粒物和CO指標(biāo)對(duì)PM2.5濃度指標(biāo)存在較大的正相關(guān)性。即它在空氣中的含量成分越多,PM2.5含量也就越多。SO2和NO2對(duì)PM2.5存在較小的正相關(guān)。
為了考察偏最小二乘法回歸方程的模型精度[13],以(^yi,yi)為坐標(biāo)值,對(duì)所有的樣本點(diǎn)繪制預(yù)測(cè)圖。^yi是PM2.5指標(biāo)在第i個(gè)樣本點(diǎn)(yi)的預(yù)測(cè)值。在預(yù)測(cè)圖上,如果所有點(diǎn)都能在圖的對(duì)角線(xiàn)附近均勻分布,則方程的擬合值與原值差異很小,這個(gè)方程的擬合效果就令人滿(mǎn)意。圖2為PM2.5濃度預(yù)測(cè)圖,圖3為PM2.5實(shí)測(cè)與預(yù)測(cè)值析線(xiàn)圖,圖4為PM2.5實(shí)測(cè)與預(yù)測(cè)值百分比分析圖。
圖2 PM2.5濃度預(yù)測(cè)圖
圖3 PM2.5實(shí)測(cè)與預(yù)測(cè)值折線(xiàn)圖
圖4實(shí)測(cè)與預(yù)測(cè)值百分比分析圖
由圖2可知,所有點(diǎn)都在圖的對(duì)角線(xiàn)附近均勻分布,由圖3和圖4可知擬合值與原值差異很小,這些方程的擬合效果令人滿(mǎn)意。故偏最小二乘法回歸分析PM2.5污染物濃度的效果較好。
建立的PM2.5與SO2、NO2、可吸入顆粒物和CO四種指標(biāo)的數(shù)學(xué)模型,能夠很好的反映PM2.5與各指標(biāo)的相關(guān)關(guān)系。
本文利用兩種相關(guān)分析方法,分析了PM2.5含量與SO2、NO2、可吸入顆粒物、CO以及O3含量之間的相關(guān)性,并對(duì)比分析了這兩種方法的結(jié)果,最終確定了PM2.5與這5個(gè)指標(biāo)之間的相關(guān)性。
在此基礎(chǔ)上,進(jìn)一步分析了PM2.5與這些指標(biāo)之間的具體關(guān)系,簡(jiǎn)單的回歸分析無(wú)法體現(xiàn)PM2.5與多指標(biāo)間的相互依賴(lài)關(guān)系,并且回歸分析的結(jié)果較差,不能反映PM2.5與其他監(jiān)測(cè)指標(biāo)間的關(guān)系。因此,采用了偏最小二乘回歸分析法,該方法能夠提供一種多對(duì)多線(xiàn)性回歸模型的方法,且在模型建立過(guò)程中集中了主成分分析、典型相關(guān)性分析和線(xiàn)性回歸分析的方法和特點(diǎn),因此在分析結(jié)果中,除了可以提供一個(gè)更為合理的回歸模型外,還可以同時(shí)完成一些類(lèi)似于主成分分析和典型相關(guān)分析的研究?jī)?nèi)容,比純粹的運(yùn)用灰色關(guān)聯(lián)度分析[14-15]得到的結(jié)果更為可信,同時(shí)也提供一些更豐富、深入的信息。最后通過(guò)將實(shí)際值與預(yù)測(cè)值進(jìn)行對(duì)比,檢驗(yàn)了該關(guān)系式具有一定的可行性。
[1]王帥,杜麗等.國(guó)內(nèi)外環(huán)境空氣質(zhì)量指數(shù)分析和比較[J].中國(guó)環(huán)境監(jiān)測(cè),2013,29(6):58-65.
[2]盧鵬,何杰.PM 2.5的時(shí)間分布與演變擴(kuò)散研究[J].西南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2014,40(1):66-71.
[3]鄭永杰,劉佳,田景芝.齊齊哈爾市大氣細(xì)粒子PM 2.5單顆粒研究[J].安全與環(huán)境學(xué)報(bào),2014,14(1):273-277.
[4]皮帥帥,程金平.上海市霾與非霾期間PM 2.5中水溶性陽(yáng)離子污染特征對(duì)比[J].上海交通大學(xué)學(xué)報(bào):農(nóng)業(yè)科學(xué)版,2014,32(3):27-32.
[5]李勇,宋慧.西安市空氣PM 2.5問(wèn)題研究[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2014,31(2):233-237.
[6]司守奎,孫璽清.數(shù)學(xué)建模算法與應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2012.5.
[7]韓忠庚.數(shù)學(xué)建模方法及其應(yīng)用(第二版)[M].北京:高等教育出版社,2009.
[8]張文彤.SPSS統(tǒng)計(jì)分析高級(jí)教程[M].北京:高等教育出版社,2013.
[9]姜啟源,謝金星,葉俊.數(shù)學(xué)模型[M].4版.北京:高等教育出版社,2011.
[10]白愛(ài)民.AQI vs API—新老空氣質(zhì)量標(biāo)準(zhǔn)之對(duì)比[J].環(huán)境工程學(xué)報(bào),2013,32(6):95-97.
[11]盛驟.概率論與數(shù)理統(tǒng)計(jì)[M].4版.北京:高等教育出版社,2008.
[12]王桂增,葉昊.主元分析與偏最小二乘法[M].北京:清華大學(xué)出版,2012.
[13]歐陽(yáng)俊強(qiáng).長(zhǎng)春市環(huán)保局大氣污染模擬系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].吉林:吉林大學(xué),2013.
[14]周穎璇.基于灰色關(guān)聯(lián)度分析法的PM 2.5影響因素分析[J].管理觀(guān)察,2014,15(5):14-16.
[15]毛毳,孫宇.空氣中PM 2.5濃度的灰色預(yù)測(cè)與關(guān)聯(lián)因素分析[J].寧夏大學(xué)學(xué)報(bào):自然科學(xué)版,2014,35(3):284-288.
Analysis and Research on Correlative Factors of PM2.5 Based on Partial Least Square Method
LU Peng1,HE Jie2,PENG Congxiao3
(1.Emei Campus,Southwest Jiaotong University,Emei614202,China;2.School of Civil Engineering,Southwest Jiaotong University,Chengdu,610031,China;3.School of Architecture and Engineering,Sichuan University of Science&Engineering,Zigong 643000,China)
by using partial least squaresmethod,the relevancy of PM2.5(content)and sulfur dioxide(SO2),nitrogen dioxide(NO2),correlationmonoxide(CO)and other indicators aswell as the specific relationships ismainly analyzed,and the results obtained by distance analysis and typical analysis are compared and analyzed.Finally,based on the results,specific function expressions of PM2.5(content)and sulfur dioxide(SO2),nitrogen dioxide(NO2),monoxide(CO)and other indicators are analyzed,which provides a basis for that how to better control and govern the pollutants.
distance analysis;typical analysis;partial least squares analysis
O213
A
1673-1549(2015)01-0071-05
10.11863/j.suse.2015.01.17
2014-11-13
中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2682014BR039)
盧鵬(1983-),男,四川貢貢人,講師,主要從事數(shù)學(xué)建模理論與方法,粗糙集理論與應(yīng)用方面的研究,(E-mail)1983lupeng@163.com
四川輕化工大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年1期