唐珊珊 田翔華 李慧 何凌琴 王溶鮮
摘要:主成分分析是一種重要的數(shù)據(jù)分析方法,對多變量數(shù)據(jù)降維提取主成分是研究影響事物變化因素的重要手段。本文對主成分分析的相關(guān)知識進行歸納總結(jié),在R語言的基礎(chǔ)上使用此分析方法對某市2010年1月1日到2014年12月31日PM2.5數(shù)據(jù)進行處理,提出PM2.5的季節(jié)變化趨勢和相關(guān)自然天氣影響因素。
關(guān)鍵詞:主成分分析;R語言;PM2.5
中圖分類號:TP311.5 文獻標識碼:A
文章編號:1009-3044(2019)31-0241-02
1概述
隨著科學(xué)技術(shù)進步,人們生活節(jié)奏加快的同時,人類的生存環(huán)境和自身的健康程度與社會發(fā)展存在很大聯(lián)系?,F(xiàn)如今,空氣中的PM2.5濃度是廣受關(guān)注的研究重點。PM2.5只是地球大氣成分中含量很少的組分,但它對空氣質(zhì)量和能見度等有重要的影響。PM2.5產(chǎn)生的主要來源是工業(yè)生產(chǎn)、汽車尾氣排放過程中經(jīng)過燃燒而排放的殘留物,大多含有重金屬等有毒物質(zhì)。本文運用主成分分析方法對影響某市PM2.5的自然天氣數(shù)據(jù)進行分析處理,對數(shù)據(jù)進行降維,提取主成分,分析相關(guān)因素,為處理PM2.5提供一定的信息和依據(jù)。
2相關(guān)知識
2.1主成分分析原理
主成分分析是通過降維技術(shù)把多個變量化成少數(shù)幾個主成分的方法,這些主成分能夠反映原始變量的絕大部分信息。所謂降維就是把具有相關(guān)性的變量數(shù)目減少,用較小的變量來取代原先的變量。
(1)將彼此相關(guān)的指標變量轉(zhuǎn)化為彼此不相關(guān)的指標變量;
(2)將個數(shù)較多的指標變量轉(zhuǎn)化為個數(shù)較少的指標變量;
(3)將意義單一的指標變量轉(zhuǎn)化為意義綜合的指標變量;
在用主成分分析法進行因子求解時,我們最多可以得到與變量個數(shù)一樣多的因子。在求解時,需對因子的大小進行排列,對其進行取舍,保留大因子,拋棄小因子。在一般的行為研究中,我們常常用到的保留因子的判斷方法有兩個:特征值大于1法與碎石圖法。
2.2算法步驟
(1)數(shù)據(jù)處理
將原始數(shù)據(jù)按行排列組成矩陣x。
(2)數(shù)據(jù)標準化
對x進行數(shù)據(jù)標準化,使其均值變?yōu)榱?,方差變?yōu)?。
3實例分析
3.1數(shù)據(jù)集簡介
Bering PM2.5 Data數(shù)據(jù)集來自加州大學(xué)歐文分校(univer-sity of CaliforniaIrvine)提出的用于機器學(xué)習(xí)的UCI數(shù)據(jù)庫,數(shù)據(jù)的時間段為2010年1月1日至2014年12月31日,缺失數(shù)據(jù)表示為NA。
數(shù)據(jù)集有13個變量,分別為:NO:序號、year:年、month:月、day:日、hour:小時數(shù)、pm2.5:PM2.5濃度(ug/m~3)、DEWP:露點、TEMP:溫度、PRES:壓力(hpa)、cbwd:組合風(fēng)向、1ws:累計風(fēng)速(m/s)、Is:積雪累積小時數(shù)、Ir:累積的降雨時間
3.2數(shù)據(jù)分析
通過R語言進行數(shù)據(jù)處理,繪制時序圖如圖1所示。橫軸為PM2.5濃度值,縱軸為時間(小時),分析PM2.5的季節(jié)變化特征。
(1)通過表1,可以可知前8個主成分的累計貢獻率就包含了原來13個指標的96.77%的信息,即能夠解釋96.77%的方差,可以舍去另外兩個成分,達到降維目的。
(2)loadings=TRUE,則結(jié)果列出了loadings(載荷)的內(nèi)容,它實際上是主成分對于原始變量month,day,hour,DEWP,TEMP,PRES,1ws,Is,Ir,Cbwd的系數(shù),也是特征值對應(yīng)的特征向量,它們是線性無關(guān)的單位向量。第1列表示第1主成分z1的得分系數(shù),依次類推。據(jù)此可以寫出由標準化變量所表達的前8個主成分的關(guān)系式,即:ZI=0.147 month-0.559 DEWP-0.560TEMP+0.543 PRES-0.1911ws;Z2、Z3、Z4、Z5、Z6、Z7、Z8以此類推。
(3)在各主成分的表達式中,各標準化指標前面的系數(shù)與該主成分所對應(yīng)的特征值之平方根的乘積是該主成分與該指標之間的相關(guān)系數(shù)。系數(shù)的絕對值越大,說明該主成分受該指標的影響也越大。因此,決定第1主成分ZI大小的主要為DEWP、TEMP和PRES;決定第2主成分z2大小的主要為hour、1ws和Cbwd;決定第3主成分z3大小的主要為month、day和Is;決定第4主成分大小的主要為day和Ir;決定第5主成分大小的主要為day和Ir;決定第6主成分大小的主要為month和Is;決定第7主成分大小的主要為hour;決定第8主成分大小的主要為1ws和Cbwd。
(4)前4個特征值均大于1,第5、6、7個接近于1,第9和10個遠小于1。特征值越大,它所對應(yīng)的主成分變量包含的信息就越多。由碎石圖可以看出,在前3個主成分及第8和9個主成分之后,圖線變化趨于平穩(wěn)。因此可以選擇前三個以及第八和第九個主成分做分析。
4結(jié)論
本文采用主成分分析方法對某市PM2.5數(shù)據(jù)集進行分析處理,用5個主成分代替原來13個變量,描述影響某市PM2.5的相關(guān)因素。其結(jié)論如下:
(1)從時序圖可以看出,某市PM2.5有明顯的季節(jié)趨勢,在每年十一月到次年二月PM2.5明顯高于其他月份。
(2)根據(jù)分析結(jié)果,PM2.5與季節(jié)、月份、小時、積雪累積小時數(shù)、累積的降雨時間有很大關(guān)聯(lián)。
(3)在影響PM2.5的因素中,積雪累計小時數(shù)貢獻率較大,應(yīng)及時清理地面殘留的積雪,能夠有效降低積雪對PM2.5的貢獻率,對于改善空氣質(zhì)量有一定的影響作用。