李妍琳,石小平,胡錫健
(新疆大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,新疆 烏魯木齊 830046)
隨著我國(guó)城鎮(zhèn)化和工業(yè)化的快速推進(jìn)、能源消耗量的持續(xù)增加,大氣污染問題已成為社會(huì)各界普遍關(guān)注的熱點(diǎn).大氣污染防治面臨著嚴(yán)峻考驗(yàn),尤其是對(duì)汾渭平原的大氣污染防治,已成為當(dāng)?shù)丨h(huán)境質(zhì)量改善工作的重點(diǎn)和難點(diǎn).汾渭平原的能源結(jié)構(gòu)以煤為主,煤炭在能源消費(fèi)中占約90%,遠(yuǎn)高于全國(guó)的平均水平(60%).從地理位置來看,汾渭平原北起山西省代縣,南抵陜西省秦嶺山脈,西至陜西省寶雞市,呈東北-西南方向分布,受山脈阻擋和背風(fēng)坡氣流下沉作用的影響,該地區(qū)容易形成反氣旋式的氣流停滯區(qū),在污染階段地面輻合形式明顯,污染物輻合后被困,不易擴(kuò)散.近年來汾渭平原的大氣污染事件頻發(fā),已經(jīng)引起國(guó)家和社會(huì)的高度重視,但眾多學(xué)者對(duì)空氣質(zhì)量狀況的研究,主要集中在中國(guó)東部地區(qū),尤其是京津冀、長(zhǎng)三角和珠三角等傳統(tǒng)的空氣污染重點(diǎn)治理區(qū)域,對(duì)西部地區(qū)的研究相對(duì)較少.汾渭平原的生態(tài)環(huán)境有惡化趨勢(shì),大氣污染防治壓力驟增.2018年7月,國(guó)務(wù)院印發(fā)《打贏藍(lán)天保衛(wèi)戰(zhàn)三年行動(dòng)計(jì)劃》,汾渭平原被納入環(huán)境污染三大重點(diǎn)防控區(qū)域之一[1].
現(xiàn)今,基于各個(gè)地方的空氣質(zhì)量情況,我國(guó)建立了空氣污染指數(shù)(API)、空氣質(zhì)量指數(shù)(AQI)及各類污染物指標(biāo)數(shù)據(jù)的監(jiān)測(cè)發(fā)布平臺(tái).由于京津冀地區(qū)的地理位置原因,其空氣質(zhì)量問題一直是政府關(guān)注的重點(diǎn).汾渭平原緊鄰京津冀地區(qū),是京津冀地區(qū)的南部屏障,各級(jí)政府非常重視本地的環(huán)保工作.PM2.5濃度偏高對(duì)環(huán)境和人體健康有著不可忽視的影響,楚德見等[2]分析了PM2.5對(duì)高層建筑中人們生活環(huán)境的影響.因此,需要對(duì)汾渭平原空氣質(zhì)量數(shù)據(jù)做更為科學(xué)及系統(tǒng)化的分析,以期對(duì)汾渭平原的空氣質(zhì)量改善提供更好的科學(xué)依據(jù).
由于空氣質(zhì)量數(shù)據(jù)在時(shí)間尺度上有明顯的函數(shù)特征,而且累計(jì)數(shù)據(jù)是從2013年至今,已達(dá)到上億條,這對(duì)分析空氣質(zhì)量精細(xì)化奠定了堅(jiān)實(shí)的基礎(chǔ),面對(duì)如此龐大的數(shù)據(jù)集,常采用插值或平滑方法將離散的空氣質(zhì)量數(shù)據(jù)擬合成曲線,運(yùn)用函數(shù)型數(shù)據(jù)分析(Functional Data Analysis)方法分析.Ramsay[3]于1982年率先提出這種全新的數(shù)據(jù)分析思路.Ramsay和Sliverman[4?5]對(duì)函數(shù)型數(shù)據(jù)做了進(jìn)一步詳細(xì)的描述并講述了諸多關(guān)于FDA的應(yīng)用.與傳統(tǒng)方法相比,函數(shù)型數(shù)據(jù)分析方法不僅在處理高維觀測(cè)數(shù)據(jù)上能給出更加合理的直觀解釋,而且在分析數(shù)據(jù)時(shí)能保留更多的數(shù)據(jù)信息,從而得到更精確的分析結(jié)果.函數(shù)型主成分分析作為函數(shù)型數(shù)據(jù)分析的有力工具,得到了眾多學(xué)者的廣泛應(yīng)用[6],與傳統(tǒng)多元主成分分析相比,函數(shù)型主成分分析展現(xiàn)出了更大的優(yōu)越性,并且能夠提取更多的重要數(shù)據(jù)信息.目前,國(guó)內(nèi)很多學(xué)者對(duì)該方法都進(jìn)行了研究,吳京旺等[7]將該方法應(yīng)用到了金融領(lǐng)域中;唐裔等[8]運(yùn)用函數(shù)型主成分方法分析了我國(guó)城市人口的變化差異.在對(duì)空氣質(zhì)量數(shù)據(jù)的研究中,梁銀雙等[9]運(yùn)用函數(shù)型主成分分析方法對(duì)京津冀地區(qū)PM2.5污染特征進(jìn)行了分析,并且得到了較好的結(jié)果.目前還沒有學(xué)者利用函數(shù)型數(shù)據(jù)方法對(duì)汾渭平原地區(qū)的空氣質(zhì)量進(jìn)行研究.本文以汾渭平原11個(gè)城市的空氣質(zhì)量問題為研究重點(diǎn),采用傅里葉基函數(shù),選取各城市2019年1月1日至2019年12月31日的PM2.5濃度數(shù)據(jù)作為研究數(shù)據(jù),將汾渭平原地區(qū)11個(gè)城市2019年的PM2.5濃度離散數(shù)據(jù)轉(zhuǎn)化為連續(xù)的函數(shù)型數(shù)據(jù),應(yīng)用函數(shù)型主成分分析尋找主成分指標(biāo),刻畫各城市PM2.5濃度隨時(shí)間的變化規(guī)律.
本文選取汾渭平原(包括河南的洛陽、三門峽,陜西的西安、咸陽、寶雞、銅川、渭南,但不含楊凌,山西的呂梁、晉中、臨汾、運(yùn)城)11個(gè)城市作為研究對(duì)象,整理了2019年汾渭平原地區(qū)11個(gè)城市的7項(xiàng)空氣質(zhì)量數(shù)據(jù)(PM2.5、PM10.0、SO2、NO2、O3和CO的監(jiān)測(cè)數(shù)據(jù)及空氣質(zhì)量指數(shù)(AQI)),數(shù)據(jù)來自中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái).圖1為2019年汾渭平原地區(qū)11個(gè)城市PM2.5濃度變化折線圖.
圖1 2019年汾渭平原地區(qū)11個(gè)城市PM2.5濃度變化折線圖Fig 1 Line graph of PM2.5 concentration changes in 11 cities in the Fenwei Plain in 2019
作為傳統(tǒng)主成分分析的一種推廣,函數(shù)型主成分分析將多元主成分分析技術(shù)與函數(shù)型數(shù)據(jù)分析相結(jié)合,在面臨更大的“維數(shù)災(zāi)難”時(shí),可以得到更加精確的分析結(jié)果.
1.2.1 曲線擬合
假定有n個(gè)觀測(cè)樣本,每個(gè)樣本有N對(duì)數(shù)據(jù)序列,第i個(gè)樣本的數(shù)據(jù)序列為(t1,xi1),(t2,xi2),···,(tN,xiN),將離散點(diǎn)對(duì)擬合成函數(shù)形式xi(t),此時(shí)的xi(t)滿足xi(tj)=xij+?i.采用基函數(shù)方法擬合數(shù)據(jù)序列,利用傅里葉基函數(shù)展開,選擇一組基函數(shù)Φ(t)={φ1(t),φ2(t),···,φK(t)}的線性組合來估計(jì)函數(shù)xi(t)的值:
其中:xi(t)為第i個(gè)樣本的曲線擬合,φk(t)為第k個(gè)基函數(shù),cik為對(duì)應(yīng)的系數(shù).通過最小二乘法得到系數(shù)的估計(jì)值,從而擬合曲線xi(t).
1.2.2 函數(shù)型主成分分析原理
假設(shè)已經(jīng)得到擬合曲線xi(t)(t ∈T,i=1,···,n).各個(gè)函數(shù)曲線的主成分得分為:
其中:β(t)為權(quán)重函數(shù).
從而,求解第一主成分就變成了求解如下帶有約束條件的優(yōu)化問題:
通過求解這個(gè)優(yōu)化問題,就得到了第一主成分β1(t).
同理,可求得第k個(gè)主成分,在滿足前k?1個(gè)主成分權(quán)重函數(shù)相互垂直的基礎(chǔ)上,求解上述優(yōu)化問題,即
這個(gè)優(yōu)化問題的求解與傳統(tǒng)的主成分分析的方法類似,通過擬合曲線的協(xié)方差函數(shù)矩陣,求解函數(shù)型主成分的權(quán)函數(shù)β(t).記協(xié)方差函數(shù)為:
那么權(quán)重矩陣β(t)滿足特征方程:
定義積分變換:
這里的V 為協(xié)方差算子,它將權(quán)重函數(shù)以協(xié)方差函數(shù)ν(s,t)為內(nèi)核做積分變換,則
類比傳統(tǒng)的主成分分析,同樣使用特征值的累計(jì)貢獻(xiàn)率來衡量主成分的占比:
一般累計(jì)貢獻(xiàn)率要求不小于85%.
1.2.3 函數(shù)型主成分分析原理
設(shè)函數(shù)xi(t)的基函數(shù)展開式如(1)式,令函數(shù)向量X(t)=(x1(t),x2(t),···,xn(t))′,Φ(t)=(φ1(t),φ2(t),···,φK(t))′,則所有曲線的基函數(shù)展開式為X=CΦ,協(xié)方差函數(shù)的矩陣形式為
現(xiàn)假定特征函數(shù)β(t)的基函數(shù)展開式為:
其中:b=(b1,b2,···,bk)′,則上式可寫成矩陣形式β(t)=Φ(s)′b,從而得
本文選取汾渭平原11個(gè)城市2019年的空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù),采用傅里葉樣條基函數(shù)擬合,并基于R語言編程[10]繪制出函數(shù)化的PM2.5濃度變化曲線,如圖2所示.
從圖2可以看出,原始數(shù)據(jù)經(jīng)過傅里葉樣條基函數(shù)處理后得到了光滑函數(shù)曲線,反映2019年汾渭平原11個(gè)城市的PM2.5濃度變化趨勢(shì).圖像顯示PM2.5濃度有一定的季節(jié)性和周期性變化特征.總體上PM2.5濃度表現(xiàn)為冬季濃度高于另外三個(gè)季節(jié),1 月、2月、12月的PM2.5濃度值都較大,達(dá)到最高峰值;夏季濃度最低,6―7月的PM2.5濃度值均在0~50μg/m3,屬于良好的空氣狀態(tài).PM2.5濃度有這樣的變化動(dòng)態(tài)主要原因是冬季處于采暖期,隨著氣溫的回升和雨季的到來,大氣污染物排放量逐漸減少,大氣對(duì)PM2.5的稀釋和濕沉降能力增強(qiáng),PM2.5濃度逐漸下降.
圖2 2019年汾渭平原地區(qū)11個(gè)城市PM2.5濃度變化曲線Fig 2 Concentration curve of PM2.5 in 11 cities in the Fenwei Plain in 2019
采用傅里葉基函數(shù)擬合得到2019年汾渭平原11個(gè)城市的PM2.5濃度均值曲線以及標(biāo)準(zhǔn)差曲線圖,如圖3所示.由均值曲線可以看出2019年汾渭平原的PM2.5濃度大約在1月份處于最高水平,最高峰在220 μg/m3左右.5―10月的PM2.5濃度達(dá)到良好狀態(tài).2―3月,11―12月PM2.5濃度處于輕中度污染.由標(biāo)準(zhǔn)差曲線可以看出1―2月的PM2.5濃度變化差異最大,緊接著是4月、11―12月、5―10月PM2.5濃度變化差異最小.
圖3 2019年汾渭平原11個(gè)城市PM2.5濃度均值曲線和標(biāo)準(zhǔn)差曲線Fig 3 The mean curve and standard deviation curve of PM2.5 concentration in 11 cities in Fenwei Plain in 2019
利用前面所述的函數(shù)型主成分分析方法,實(shí)現(xiàn)汾渭平原11個(gè)城市的PM2.5濃度變化的實(shí)證分析.根據(jù)表1的結(jié)果顯示,前四個(gè)主成分的方差累計(jì)貢獻(xiàn)率達(dá)到96.4%,對(duì)全部數(shù)據(jù)已經(jīng)達(dá)到相當(dāng)全面的解釋效果,因此在這里選用前四個(gè)主成分來分析汾渭平原PM2.5濃度的整體變化模式.圖4為前四個(gè)主成分偏離均值的效果圖.實(shí)線為11個(gè)城市的PM2.5濃度變化的均值函數(shù),圖中“+”“?”表示在均值的基礎(chǔ)上加、減主成分的常數(shù)倍數(shù).
表1 函數(shù)型主成分分析的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率Tab 1 Contribution rate and cumulative contribution rate of functional principal component analysis
圖4 前四個(gè)函數(shù)型主成分權(quán)重函數(shù)Fig 4 The first four functional principal component weight functions
從圖4可以看出,第一個(gè)函數(shù)型主成分顯示2019年P(guān)M2.5濃度曲線在1―2 月、11―12月份的變化顯著,主要描述汾渭平原地區(qū)氣候溫度對(duì)PM2.5濃度變化的影響.從汾渭平原采暖期與非采暖期的大氣污染狀況來看,由于1月,11―12 月為采暖期,PM2.5濃度明顯偏離均值,故第二主成分主要描述汾渭平原地區(qū)采暖期與非采暖期對(duì)PM2.5濃度變化的影響.第三個(gè)函數(shù)型主成分顯示2019年P(guān)M2.5濃度曲線在3―4月份的變化顯著,主要描述汾渭平原地區(qū)濕度對(duì)PM2.5濃度變化的影響.第四函數(shù)型主成分顯示2019年P(guān)M2.5濃度曲線在10月份前后的變化顯著,主要描述汾渭平原地區(qū)南北部PM2.5濃度變化差異.
圖5是函數(shù)型主成分分析的第一和第二主成分得分圖,圖中左下角區(qū)域的第一、第二主成分得分都為負(fù),而且值都很小,表明這些地區(qū)的PM2.5濃度全年相對(duì)較低,是汾渭平原地區(qū)空氣質(zhì)量最好的地方;右上角區(qū)域的第一、第二主成分得分都為正,尤其是咸陽市,第一、第二主成分得分都很大,這表明該市的PM2.5濃度全年都較高,是汾渭平原地區(qū)空氣質(zhì)量最差的城市,其次是臨汾市,該市PM2.5濃度在采暖期波動(dòng)最大;中間區(qū)域的第一、第二主成分得分均接近0,表明這些地方的PM2.5濃度接近汾渭平原地區(qū)的平均水平,空氣質(zhì)量居中.因此,對(duì)汾渭平原地區(qū)PM2.5濃度曲線的函數(shù)型主成分分析,可以很好地解釋PM2.5濃度的變化形式,根據(jù)第一、第二主成分得分圖,可將11個(gè)城市按照空氣質(zhì)量的不同狀況,由好到差分為三類:呂梁、晉中、銅川為一類,洛陽、三門峽、寶雞、渭南為一類,運(yùn)城、西安、臨汾、咸陽為一類.綜上所述,汾渭平原地區(qū)的PM2.5濃度變化有明顯的氣候特征和地域特征.
圖5 第一和第二主成分得分圖Fig 5 First and second principal component score plot
本文對(duì)汾渭平原大氣污染進(jìn)行分析,根據(jù)數(shù)據(jù)高維性、復(fù)雜性的特征,結(jié)合函數(shù)型分析方法,采用傅里葉基函數(shù)生成PM2.5濃度曲線,運(yùn)用函數(shù)型主成分分析方法,對(duì)汾渭平原地區(qū)PM2.5濃度數(shù)據(jù)進(jìn)行分析,結(jié)果表明:
(1)汾渭平原地區(qū)11個(gè)城市的PM2.5濃度受季節(jié)、氣候條件影響較大.冬季的空氣質(zhì)量相對(duì)較差,PM2.5濃度偏高,尤其是臨汾市最高PM2.5濃度達(dá)到400 μg/m3左右.故氣候溫度是導(dǎo)致PM2.5濃度差異的首要因素.
(2)汾渭平原地區(qū)11個(gè)城市的PM2.5濃度在采暖期和非采暖期有較大差別.采暖期的PM2.5濃度明顯高于非采暖期,尤其是咸陽市的空氣質(zhì)量,受供暖影響較大.
(3)由于汾渭平原地理位置的復(fù)雜性,河谷平原的PM2.5濃度明顯高于兩側(cè)山地,且呈現(xiàn)出向兩側(cè)山地遞減趨勢(shì).其中運(yùn)城市和渭南市平原地區(qū)的PM2.5污染嚴(yán)重,這樣極易形成連片的高污染區(qū)域.
(4)大數(shù)據(jù)時(shí)代面對(duì)實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)這樣龐大的數(shù)據(jù)集,函數(shù)型數(shù)據(jù)分析已成為行之有效的數(shù)據(jù)處理工具.將空氣質(zhì)量數(shù)據(jù)函數(shù)化,可以直觀展現(xiàn)數(shù)據(jù)本身的變化,避免重要信息的丟失,從而使分析更加全面準(zhǔn)確.
新疆大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文)2021年6期