王翠云 ,胡學(xué)平,相旭東
(安慶師范學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,安徽 安慶246133)
PM2.5影響因素的主成分回歸分析與預(yù)測(cè)
王翠云 ,胡學(xué)平,相旭東
(安慶師范學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,安徽 安慶246133)
應(yīng)用主成分分析和多元回歸分析法對(duì)空氣質(zhì)量指數(shù)(AQI)進(jìn)行分析,首先對(duì)數(shù)據(jù)進(jìn)行Alpha可靠性分析、主成分分析得到兩個(gè)主成分變量,進(jìn)而對(duì)它們和PM2.5濃度進(jìn)行多元回歸分析,并且進(jìn)行顯著性檢驗(yàn),發(fā)現(xiàn)PM2.5與這兩個(gè)主成分變量具有線性回歸關(guān)系,最終得到一個(gè)1-α的置信區(qū)間,從而結(jié)合實(shí)際提出一些降低PM2.5濃度的對(duì)策。
PM2.5;Alpha可靠性分析;主成分分析;多元回歸分析
近年來,空氣質(zhì)量不斷下降,作為最能代表空氣質(zhì)量的PM2.5指數(shù),被人們廣泛關(guān)注。影響PM2.5指數(shù)的因素有很多,要分析這一問題必需降維,而主成分回歸模型是一種降維模型,被普遍應(yīng)用于各行各業(yè)的學(xué)術(shù)分析以及科學(xué)研究。降維后的變量線性無關(guān),所代表的信息不會(huì)彼此重復(fù),且?guī)缀醮砣吭夹畔ⅲ@也是它在很多研究領(lǐng)域中得到應(yīng)用的根本原因。如程毛林[1]利用主成分的線性及非線性回歸模型對(duì)經(jīng)濟(jì)增長(zhǎng)的邊際效應(yīng)和彈性效應(yīng)做了具體分析,對(duì)經(jīng)濟(jì)學(xué)的效應(yīng)分析有一定的參考作用;蔣云波等人[2]對(duì)上市公司的績(jī)效評(píng)價(jià)建立了主成分模型,得到了71家IT行業(yè)上市公司的模型結(jié)果,即績(jī)效評(píng)價(jià),這種績(jī)效評(píng)價(jià)方法為其他行業(yè)公司提供了很好的參考;何暢[3]則通過應(yīng)用主成分分析法找出影響CPI指數(shù)的主要影響因素,這為下一步通過時(shí)間序列方法來解析CPI指數(shù)與宏觀經(jīng)濟(jì)走勢(shì)之間的緊密聯(lián)系以及進(jìn)一步為國家或者個(gè)人的預(yù)判起到了很好的鋪墊作用。
本文利用主成份分析和多元回歸分析法,對(duì)某市2013年1月1日到5月31日的AQI數(shù)據(jù)進(jìn)行分析,通過探究O3-1h,O3-8h,CO,PM10,SO2,NO2,T等7項(xiàng)主要指標(biāo)與PM2.5之間的關(guān)系,獲得一個(gè)多元回歸方程。從而根據(jù)某一時(shí)刻的上述各項(xiàng)數(shù)據(jù)來預(yù)測(cè)PM2.5的濃度及其未來變化趨勢(shì)。先分析Alpha可靠性。
假設(shè)I) 模型只考慮PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2,T有相關(guān)關(guān)系。
假設(shè)II) 假設(shè)O3-1h,O3-8h,CO,PM10,SO2,NO2,T對(duì)PM2.5的影響無多重共線性。
所提供的樣本并不能直接說明PM2.5濃度只與O3-1h,O3-8h,CO,PM10,SO2,NO2,T這7個(gè)變量有相關(guān)關(guān)系,那么這些數(shù)據(jù)對(duì)于PM2.5的分析是否可靠性,則需要用Alpha可靠性分析進(jìn)一步度量。由SPSS軟件對(duì)本文數(shù)據(jù)進(jìn)行Alpha可靠性分析結(jié)果如表1所示。
表1 相關(guān)矩陣
由表1中各個(gè)變量的相關(guān)矩陣,可見V1與V2的相關(guān)程度最密切(r=0.952)。Cronbachα系數(shù)[4]即通過所得數(shù)據(jù)表取得真分?jǐn)?shù)的概率,它也是對(duì)數(shù)據(jù)以及一切項(xiàng)目的評(píng)定成績(jī)的相關(guān)系數(shù)的平方。由表2可知,在數(shù)據(jù)的信度檢驗(yàn)中,Cronbachα系數(shù)為0.757,開方為0.87,可信度很高,此AQI數(shù)據(jù)可靠,可以用來對(duì)PM2.5進(jìn)行分析以及預(yù)測(cè)。下面給出具體的過程。
主成分分析[5]是確定研究問題、選定變量后,確定幾個(gè)線性無關(guān)且包含極可能多原始變量信息的新變量來替換原始變量。設(shè)X1,X2,X3,…,Xp為影響PM2.5的p個(gè)隨機(jī)自變量,記X=(X1,X2,…,Xp),協(xié)方差矩為∑=(σji)p×p=E[X-E(X)][X-E(X)]T。記∑的特征值為λ1≥λ2≥…≥λp≥0及其相應(yīng)的正交單位化特征向量為e1,e2,…,ep,則由文獻(xiàn)[6]可知:
X的第i個(gè)主成分為
Yi=eiTX=e1iX1+e2iX2+…+epiXp,i=1,2,…,p,且有
由以上分析知PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2,T這7指標(biāo)之間有著相關(guān)關(guān)系,然而,這些樣品的某些觀測(cè)指標(biāo)和其所屬類型沒有必然的邏輯關(guān)系,因此通過SPSS軟件用主成分分析的方法來分析這7個(gè)指標(biāo)對(duì)PM2.5的影響。
令V1:變量O3-1h;V2:變量O3-8h;V3:變量CO;V4:變量PM10;V5:變量SO2;V6:變量NO2;V7:變量T;Y:變量PM2.5
表3 總方差解釋
表4 主成分矩陣
表3分析了每個(gè)主成分的特征根及其代表原始信息的能力, 特征根大于1的主成分變量一般是SPSS軟件保留的,本表中特征根大于1的主成分有2個(gè),它們共代表了原始信息的84.74%,已足夠起到對(duì)影響PM2.5的因素進(jìn)行分析及對(duì)PM2.5濃度進(jìn)行預(yù)測(cè)的作用,因此本文只保留了2個(gè)主成分。由表4給出了這兩個(gè)主成分的各個(gè)系數(shù),因此可以得到這兩個(gè)主成分的表達(dá)式如下。
第一主成分變量:
由表3可知,第一主成分含有所有原變量48.6%的信息量。而它與變量O3-1h成正比例,即當(dāng)O3-1h含量每增加1單位時(shí),第一主成分變量會(huì)相應(yīng)增加0.212單位;同理,當(dāng)O3-8h含量每變化1單位時(shí),它會(huì)相應(yīng)變化0.089單位;依此類推,當(dāng)溫度T增加1度時(shí),第一主成分變量反而會(huì)減少0.051單位??梢?,PM10對(duì)第一主成分的影響最大,而溫度T對(duì)它影響最小,且成反比例變化。
第二主成分變量:
同理,由表3可知,第一及第二主成分含有所有原變量84.7%的信息量,且由主成分分析法的根本可知這兩個(gè)主成分無線性相關(guān)性。因而第二主成分變量分別與O3-1h,O3-8h,PM10,T這4個(gè)影響因素呈正相關(guān)關(guān)系,而與CO,SO2,NO2這3個(gè)影響因素呈反比例關(guān)系,且它受O3-8h影響最大,受NO2的影響最小。
前節(jié)已將原始7個(gè)自變量通過“濃縮”為Y1,Y2這兩個(gè)主成分變量,降低了分析和解決問題的難度。下面則需要檢驗(yàn)Y和Y1,Y2之間是否具有線性關(guān)系,然后再通過SPSS對(duì)它們做多元線性回歸分析。首先,作Y和Y1,Y2的線性圖和散點(diǎn)圖,分別如圖1、圖2。
由圖1和圖2分析可知: Y和Y1,Y2之間具有明顯的線性趨勢(shì)。
因此,接著用SPSS對(duì)Y和Y1,Y2進(jìn)行多元線性回歸分析[7],結(jié)果如表5。
表5 方差分析
表6 模型總結(jié)
表7 回歸系數(shù)
由方差分析表5可知,回歸方程的臨界顯著性水平SignificanceF也小于0.000 1,因而是極高度顯著地。由表7給出的回歸方程的各回歸系數(shù)可得線性回歸分析結(jié)果為
Y1,Y2代入可得下式:
12.428V3*+12.905V4*+12.692V5*+
12.406V6*-0.561V7*
由于所有的多元回歸系數(shù),例如3.086,1.395等,都是去除所分析變量和其他自變量對(duì)Y的公共影響后,分析變量對(duì)Y的邊際影響,因此,PM2.5與O3-1h,O3-8h,CO,PM10,SO2,NO2這6個(gè)變量都成正相關(guān),顯然PM10對(duì)PM2.5濃度的相關(guān)性最大,其系數(shù)為12.905,因此在預(yù)防PM2.5對(duì)大氣的影響之前,首先需要控制對(duì)PM10的排放;其次,CO,SO2對(duì)PM2.5的相關(guān)性次之,則O3-8h最小,最小并不代表可以任其在大氣中排放,這4個(gè)因素的濃度增加會(huì)使PM2.5濃度呈正相關(guān)的變大,進(jìn)而影響空氣質(zhì)量;最后溫度T與PM2.5濃度呈負(fù)相關(guān)關(guān)系。因此,濕度、溫度、壓強(qiáng)、O3-1h,O3-8h等影響因素的濃度不同,它們對(duì)大氣環(huán)境中PM2.5的濃度的影響也不同。因此,為了減少空氣中可吸入顆粒物的濃度,首先需要減少石油及煤炭等的燃燒,提高其利用率,嚴(yán)格控制并盡量減少生活中SO2,PM10及CO的排放量,并且能適當(dāng)?shù)恼{(diào)節(jié)城市溫度等外界條件,或者在天氣寒冷的時(shí)候做好對(duì)PM2.5濃度升高的準(zhǔn)備,從而降低PM2.5對(duì)市民的生活、城市的發(fā)展可能造成的惡劣影響。
通過P值檢驗(yàn)法[8],由第2節(jié)的多元線性回歸分析的SPSS計(jì)算結(jié)果可得回歸方程檢驗(yàn)的P值為0.000α,因而回歸方程是極高度顯著的;再由Y1,Y2的檢驗(yàn)結(jié)果, P值分別為0.000,0.125,可知兩個(gè)解釋變量Y1,Y2的作用都是顯著的,所得回歸方程可以用來預(yù)測(cè)。下面來對(duì)其進(jìn)行預(yù)測(cè)。
當(dāng)給定解釋變量的一組取值(v01,…,v07)時(shí),根據(jù)主成分方程可計(jì)算求得y01,y02,進(jìn)而由回歸方程可得Y的一個(gè)回歸值:
它是對(duì)PM2.5:
y0=91.269+13.799y01+0.173y02+ε0
的一個(gè)點(diǎn)估計(jì),所以y0的置信度為1-α的預(yù)測(cè)區(qū)間為
注 N為樣本數(shù)目,p=2,
[1]程毛林. 基于主成分回歸模型的經(jīng)濟(jì)增長(zhǎng)因素分析[J]. 運(yùn)籌與管理, 2012, 21(1): 175-179.
[2]蔣云波, 陳維政. 上市公司績(jī)效評(píng)價(jià)模型構(gòu)建研究[J]. 西南石油大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2010, 3(5): 73-78.
[3]何暢. CPI指數(shù)的主成分分析及對(duì)經(jīng)濟(jì)走勢(shì)的影響[J]. 山西財(cái)經(jīng)大學(xué)學(xué)報(bào), 2011, 33(3): 47-53.
[4]郭惠昕, 戴娟, 唐蒲華, 等. 基于隨機(jī)集的不完整信息可靠性分析方法[J]. 機(jī)械科學(xué)與技術(shù), 2011, 30(2): 290-296.
[5]楊淑菊. 主成分分析在學(xué)生成績(jī)?cè)u(píng)價(jià)中的應(yīng)用[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2012, 42(16): 103-112.
[6]梅長(zhǎng)林, 周家良. 實(shí)用統(tǒng)計(jì)方法[M]. 上海: 科學(xué)出版社, 2002: 53-60.
[7]張建同, 孫昌言. 以Excel和SPSS為工具的管理統(tǒng)計(jì)[M]. 北京: 清華大學(xué)出版社, 2005:18-24.
[8]姚菊香, 王盤興, 鮑學(xué)俊, 等. 相關(guān)系數(shù)顯著性檢驗(yàn)的幾何意義[J]. 南京氣象學(xué)院學(xué)報(bào), 2007, 30(4): 566-570.
Analyzing and Forecasting the Influence Factor of PM2.5 Based on Principal Component Regression
WANG Cui-yun, HU Xue-ping, XIANG Xu-dong
(School of Mathematics and Conputation Science,Anqing Teachers College, Anqing 246133, China )
By investigating the AQI data with Principal component analysis and Multivariate regression analysis, We get two kinds of statistical extrapolate and analysis results regarding the value of PM2.5. First, by means of Alpha reliability analysis and principal component analysis, we get two principal components. Then we analyze them and PM2.5 by multivariate regression analysis and we give it a test of significance. The testing provides strong evidence to suggest that there is indeed a significant linear regression correlation between them. A confidence interval about the value of PM2.5 is obstained. Some methods to reduce the PM2.5 can be put forward.
PM2.5, Alpha reliability analysis, principal component analysis, multivariate regression analysis
2015-04-01
安徽省高校自然科學(xué)基金重點(diǎn)項(xiàng)目(KJ2013A179)。
王翠云,女,河南信陽人,安慶師范學(xué)院經(jīng)濟(jì)與管理學(xué)院碩士研究生,研究方向?yàn)楣芾斫y(tǒng)計(jì)與企業(yè)發(fā)展;胡學(xué)平,男,安徽宿松人,博士,安慶師范學(xué)院數(shù)學(xué)與計(jì)算科學(xué)學(xué)院教授,研究方向?yàn)殡S機(jī)過程及應(yīng)用。
時(shí)間:2016-1-5 13:01 網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/34.1150.N.20160105.1301.007.html
F126.1
A
1007-4260(2015)04-0024-04
10.13757/j.cnki.cn34-1150/n.2015.04.007