張琦錦,郭映映,李素文*,牟福生*
(1 淮北師范大學(xué)物理與電子信息學(xué)院,安徽 淮北 235000;2 污染物敏感材料與環(huán)境修復(fù)安徽省重點(diǎn)實(shí)驗(yàn)室,安徽 淮北 235000)
隨著國家工業(yè)化發(fā)展,排放的污染氣體對(duì)空氣質(zhì)量和氣候變化都產(chǎn)生了重要影響。SO2是大氣中常見的痕量氣體,不僅危害人體健康,而且對(duì)酸雨形成、生態(tài)環(huán)境也有巨大影響[1-3]。因此預(yù)測(cè)SO2濃度變化趨勢(shì)的研究對(duì)國家政府制定污染預(yù)防和控制等相關(guān)政策具有重要意義[4-5]。
近年來,污染氣體預(yù)測(cè)建模方面的研究已成為國內(nèi)外研究的熱點(diǎn)。國際上Park等[6]利用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了顆粒物濃度的估算,Luna等[7]在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上利用向量機(jī)研究了大氣層O3濃度。國內(nèi)陳柳等[8]在反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上結(jié)合小波分析預(yù)測(cè)SO2濃度變化趨勢(shì),黃鴻等[9]基于深度學(xué)習(xí)和極限學(xué)習(xí)對(duì)大氣中SO2濃度進(jìn)行了預(yù)測(cè),司志娟等[10]利用灰色徑向基(RBF)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了空氣質(zhì)量指數(shù)變化趨勢(shì)。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型具有收斂速度快、分類能力好、搜索能力強(qiáng)等優(yōu)點(diǎn)。但是傳統(tǒng)的網(wǎng)絡(luò)模型偏向于用線性回歸算法篩選數(shù)據(jù),忽略了無關(guān)線性參數(shù)的影響,使得預(yù)測(cè)過程中產(chǎn)生數(shù)據(jù)病態(tài)的現(xiàn)象,降低了預(yù)測(cè)結(jié)果的準(zhǔn)確性。而主成分分析(PCA)算法是對(duì)多種變量進(jìn)行成分降維的統(tǒng)計(jì)方法[11]。因此,本文結(jié)合PCA算法和RBF神經(jīng)網(wǎng)絡(luò),構(gòu)建了PCA-RBF預(yù)測(cè)模型,利用該模型對(duì)北京大興地區(qū)某天的SO2濃度值進(jìn)行預(yù)測(cè)并保留,將其作為下一天預(yù)測(cè)模型的輸入?yún)?shù)。以此不斷地將預(yù)測(cè)濃度值向前延伸并進(jìn)行連續(xù)的預(yù)測(cè)和分析,從而實(shí)現(xiàn)SO2濃度值的滾動(dòng)預(yù)測(cè)。
PCA核心思想就是通過借助正交變換求解輸入變量的相關(guān)矩陣,并根據(jù)相關(guān)矩陣對(duì)應(yīng)的特征值得到累計(jì)方差貢獻(xiàn)率,從而得到原變量的主成分參數(shù),這些參數(shù)能概括還原輸入變量原有的信息[12]。本研究利用PCA算法對(duì)輸入的氣象數(shù)據(jù)進(jìn)行成分降維,將求解的成分按照特征值的大小排序,得出氣象參數(shù)的累計(jì)貢獻(xiàn)率。按照累計(jì)貢獻(xiàn)率高于80%的原則,對(duì)氣象參數(shù)進(jìn)行成分劃分,將SO2同組成分參量作為預(yù)測(cè)模型的輸入樣本,以減少無關(guān)參量的影響,提高模型預(yù)測(cè)精度,并減少模型運(yùn)行時(shí)間。
PCA-RBF神經(jīng)網(wǎng)絡(luò)分為輸入、隱含和輸出三層(圖1),各層中包含多個(gè)神經(jīng)節(jié)點(diǎn),同層神經(jīng)節(jié)點(diǎn)之間不存在連接,只有相鄰層次的神經(jīng)節(jié)點(diǎn)相互連接,其基礎(chǔ)是隱含層內(nèi)部空間的基[13]。PCA-RBF網(wǎng)絡(luò)模型過程如下:
圖1 PCA-RBF網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 PCA-RBF network model architecture
1)PCA對(duì)輸入的參數(shù)進(jìn)行成分降維,并求解輸入氣象數(shù)據(jù)的相關(guān)矩陣、特征值和累計(jì)貢獻(xiàn)率。
2)對(duì)氣象參數(shù)進(jìn)行成分劃分,保留SO2同組成分的氣象參數(shù),作為網(wǎng)絡(luò)輸入樣本。
3)神經(jīng)網(wǎng)絡(luò)對(duì)輸入氣象參數(shù)進(jìn)行歸納分組,確定模型內(nèi)部基的中心向量。
4)輸入層將樣本映射到隱空間,隱含層把接收的信號(hào)進(jìn)行模式轉(zhuǎn)換,改變信號(hào)的線性狀態(tài),得到輸出結(jié)果,即模型內(nèi)部基的激活函數(shù)φi,其計(jì)算公式為
式中x表示輸入氣象數(shù)據(jù),ai表示模型內(nèi)部基的中心向量,bi表示模型內(nèi)部基的寬度,n表示隱含層神經(jīng)節(jié)點(diǎn)的個(gè)數(shù)。
5)求解模型權(quán)值,對(duì)隱藏層輸出信號(hào)進(jìn)行加權(quán)變化。權(quán)值w的求解公式為
式中h表示中心向量的數(shù)目,amax表示中心的最大值,xp表示第p個(gè)輸入樣本。
6)對(duì)輸入的數(shù)據(jù)權(quán)值加權(quán),輸出層輸出結(jié)果,結(jié)束學(xué)習(xí)。
以北京大興地區(qū)SO2濃度為研究目標(biāo),選取的時(shí)間段是2019年9月1日至2020年10月31日。實(shí)驗(yàn)數(shù)據(jù)來源于中國氣象數(shù)據(jù)網(wǎng),網(wǎng)絡(luò)模型的輸入數(shù)據(jù)包括氣象參數(shù)(降水量、平均水氣壓、日照時(shí)數(shù)、氣壓最值、氣溫最值、最小相對(duì)濕度、最大風(fēng)速和最大風(fēng)速的風(fēng)向等)和空氣質(zhì)量參數(shù)(NO2、PM2.5、PM10、SO2、CO和O3),采用均值法補(bǔ)全丟失的數(shù)據(jù)[14]。
數(shù)據(jù)中不同氣象參數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)SO2濃度的影響存在差異,為消除無關(guān)參數(shù)對(duì)預(yù)測(cè)結(jié)果的影響,通過逐步回歸方法篩選出與SO2呈相關(guān)性的氣象因子,具體結(jié)果如表1所示。表中皮爾遜相關(guān)性系數(shù)的正負(fù)僅示意正負(fù)相關(guān),其絕對(duì)值越接近1,相關(guān)性就越好。參量中NO2的皮爾遜系數(shù)值為0.636,表明NO2與SO2相關(guān)性最高,最大風(fēng)速風(fēng)向的皮爾遜系數(shù)值為0.07,表明最大風(fēng)速的風(fēng)向與SO2相關(guān)性最低。通過逐步回歸分析模型的處理,與SO2在0.01顯著水平下呈正相關(guān)的參數(shù)有5個(gè)(氣溫最低值、NO2、CO、PM10、PM2.5);與SO2在0.01顯著水平下呈負(fù)相關(guān)的參數(shù)有5個(gè)(O3、極大風(fēng)速、氣壓最低值、氣溫最高值、最小相對(duì)濕度);與SO2在0.05顯著水平下呈負(fù)相關(guān)的參數(shù)僅1個(gè)(最大風(fēng)速的風(fēng)向)。
表1 SO2與氣象參數(shù)逐步回歸分析Table 1 Stepwise regression analysis between SO2 and meteorological parameters
將經(jīng)過逐步回歸分析篩選的輸入數(shù)據(jù)劃分為兩部分:訓(xùn)練神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)和測(cè)試神經(jīng)網(wǎng)絡(luò)結(jié)果數(shù)據(jù)。其中以2020年10月氣象參數(shù)作為測(cè)試數(shù)據(jù),其余時(shí)間段的氣象參數(shù)作為訓(xùn)練集輸入到預(yù)測(cè)模型[15]。氣象數(shù)據(jù)中大數(shù)值數(shù)據(jù)會(huì)導(dǎo)致小數(shù)值數(shù)據(jù)的影響被忽略,所以對(duì)各種氣象數(shù)據(jù)進(jìn)行歸一化處理,使得氣象數(shù)據(jù)的數(shù)值范圍控制在0~1內(nèi)[16]。氣象參數(shù)歸一化后的數(shù)值mi的計(jì)算公式為
式中ni為氣象數(shù)據(jù)的輸入數(shù)值。
應(yīng)用matlab對(duì)歸一化后的氣象參數(shù)進(jìn)行主成分降維,根據(jù)相關(guān)矩陣得到對(duì)應(yīng)特征值和累計(jì)方差貢獻(xiàn)率,如表2所示。表中前四種主成分的累計(jì)貢獻(xiàn)率是80.44%,按照標(biāo)準(zhǔn)80%的原則,前四個(gè)主成分可作為基礎(chǔ)成分代替原有數(shù)據(jù)。因此經(jīng)PCA篩選的參數(shù)分為四個(gè)主成分,這四個(gè)主成分能概括還原輸入?yún)?shù)的信息。
表2 總貢獻(xiàn)率及初始特征值Table 2 Total contribution rate and initial eigenvalue
參數(shù)相關(guān)矩陣如表3所示。其中第一主成分中極大風(fēng)速、CO、NO2、PM10、PM2.5、SO2的數(shù)值分別為0.587、0.893、0.856、0.682、0.830、0.744;第二主成分中最低氣壓、最高氣溫、最小相對(duì)濕度、O3的數(shù)值為0.827、0.823、0.660、0.732;第三主成分中日照時(shí)數(shù)的數(shù)值為0.662;第四主成分中最大風(fēng)速的風(fēng)向數(shù)值為0.672。因此第一主成分的參數(shù)包括極大風(fēng)速、CO、NO2、PM10、PM2.5、SO2;第二主成分的參數(shù)包括最低氣壓、最高氣溫、最小相對(duì)濕度、O3;第三主成分的參數(shù)是日照時(shí)數(shù);第四主成分的參數(shù)是最大風(fēng)速的風(fēng)向。其中與SO2同一主成分的是極大風(fēng)速、PM2.5、PM10、CO、NO2,所以將第一主成分的參數(shù)作為PCA-RBF預(yù)測(cè)模型的輸入量。
表3 氣象參數(shù)相關(guān)矩陣Table 3 Correlation matrix of meteorological parameters
利用北京大興地區(qū)2019年9月1日至2020年10月31日參數(shù)作為神經(jīng)網(wǎng)絡(luò)樣本,其中2019年9月1日至2020年9月31日共一年的氣象數(shù)據(jù)作為訓(xùn)練樣本,2020年10月1日至2020年10月31日共31天的氣象數(shù)據(jù)作為測(cè)試樣本。預(yù)測(cè)過程是先利用訓(xùn)練樣本對(duì)10月1日的SO2濃度進(jìn)行預(yù)測(cè),將預(yù)測(cè)的結(jié)果作為第二天的輸入量,以此類推,完成SO2濃度的滾動(dòng)預(yù)測(cè)。
選用期望值與預(yù)測(cè)值的誤差Ferror和相關(guān)系數(shù)R2兩個(gè)指標(biāo)對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行判斷。兩個(gè)指標(biāo)的數(shù)學(xué)表達(dá)式分別為
由于預(yù)測(cè)模型是對(duì)未知參數(shù)進(jìn)行估算,期望值與預(yù)測(cè)值的誤差越小,表明預(yù)測(cè)值越接近期望值。通過RBF神經(jīng)網(wǎng)絡(luò)和PCA-RBF神經(jīng)網(wǎng)絡(luò)的期望值與預(yù)測(cè)值誤差曲線(圖2)可以看出,構(gòu)建的RBF神經(jīng)網(wǎng)絡(luò)的期望值與預(yù)測(cè)值誤差范圍為0~0.2 μg·m-3,而PCA-RBF網(wǎng)絡(luò)模型的誤差變化幅度小,期望值與預(yù)測(cè)值誤差范圍為0~0.03 μg·m-3。因此,相對(duì)于RBF預(yù)測(cè)模型,PCA-RBF預(yù)測(cè)模型的期望值與預(yù)測(cè)值誤差更小。
圖2 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差對(duì)比Fig.2 Neural network prediction error comparison
圖3 (a)和(b)分別顯示了兩個(gè)預(yù)測(cè)模型PCA-RBF和RBF的期望值曲線和預(yù)測(cè)值曲線的對(duì)比結(jié)果。通過比對(duì)期望值和預(yù)測(cè)值的相關(guān)系數(shù)R2的大小判斷預(yù)測(cè)效果[17]。RBF和PCA-RBF兩個(gè)模型的期望值和預(yù)測(cè)值的相關(guān)系數(shù)R2分別為0.9758和0.9989。對(duì)比表明PCA-RBF網(wǎng)絡(luò)模型中期望值與預(yù)測(cè)值相關(guān)系數(shù)大,期望值和預(yù)測(cè)值更為接近。
圖3 PCA-RBF和RBF網(wǎng)絡(luò)模型的預(yù)測(cè)值和期望值結(jié)果圖。(a)PCA-RBF;(b)RBFFig.3 Comparison of predicted and expected values of PCA-RBF and RBF network models.(a)PCA-RBF;(b)RBF
以北京大興地區(qū)2019年9月1日至2020年10月31日的氣象數(shù)據(jù)和空氣質(zhì)量參數(shù)作為基礎(chǔ),利用逐步回歸法篩選出與SO2呈相關(guān)性的氣象因子作為輸入樣本。結(jié)果顯示:最高氣壓、NO2、CO、PM10、PM2.5、O3、氣溫最值、極大風(fēng)速、最小相對(duì)濕度與SO2在0.01顯著性水平上相關(guān);最大風(fēng)速的風(fēng)向與SO2在0.05顯著性水平上相關(guān)。構(gòu)建了PCA-RBF預(yù)測(cè)模型,與RBF預(yù)測(cè)模型相比,PCA-RBF預(yù)測(cè)模型去除了無關(guān)參數(shù)的影響、減少了網(wǎng)絡(luò)結(jié)構(gòu)的輸入變量、降低了算法計(jì)算成本。對(duì)比兩個(gè)預(yù)測(cè)模型的誤差和相關(guān)系數(shù),結(jié)果顯示PCA-RBF模型期望值和預(yù)測(cè)值的誤差和相關(guān)系數(shù)分別為0.03 μg·m-3和0.9989,表明PCA-RBF神經(jīng)網(wǎng)絡(luò)能精確地預(yù)測(cè)SO2濃度變化趨勢(shì),可為進(jìn)一步解決空氣污染問題提供技術(shù)支持。