錢坤 張克凡
[摘 ? ?要] 大數(shù)據(jù)融合是將多種數(shù)據(jù)來(lái)源中的數(shù)據(jù)進(jìn)行統(tǒng)一提取、融合,形成一個(gè)合適的數(shù)據(jù)集。以大數(shù)據(jù)的視角,運(yùn)用大數(shù)據(jù)相關(guān)理論對(duì)傳統(tǒng)問(wèn)題進(jìn)行研究,更能把握事物發(fā)展背后的規(guī)律,為決策提供支持。在通信領(lǐng)域,空氣質(zhì)量對(duì)信號(hào)傳播效率和強(qiáng)度,以及通信計(jì)算服務(wù)器運(yùn)行環(huán)境均有不可忽視的影響。本文研究寧波市每日的空氣質(zhì)量指數(shù)AQI以及六類主要污染物數(shù)據(jù),運(yùn)用大數(shù)據(jù)分析理論,對(duì)寧波空氣質(zhì)量進(jìn)行分析預(yù)測(cè),并挑選出最適合寧波的空氣質(zhì)量預(yù)測(cè)模型,預(yù)測(cè)出未來(lái)5天寧波的空氣質(zhì)量指數(shù)。
[關(guān)鍵詞] 大數(shù)據(jù)分析;空氣質(zhì)量;通信;SARIMA;LSTM
doi : 10 . 3969 / j . issn . 1673 - 0194. 2023. 11. 051
[中圖分類號(hào)] TP315 ? ?[文獻(xiàn)標(biāo)識(shí)碼] ?A ? ? ?[文章編號(hào)] ?1673 - 0194(2023)11- 0178- 05
0 ? ? ?引 ? ?言
如今,大數(shù)據(jù)理念和技術(shù)的普及程度呈持續(xù)上升的趨勢(shì),國(guó)務(wù)院發(fā)布的《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》指出,“數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)的核心引擎”??諝赓|(zhì)量不僅在環(huán)境保護(hù)領(lǐng)域占據(jù)重要的地位,同時(shí)對(duì)經(jīng)濟(jì)發(fā)展也有重要的影響,例如在空氣質(zhì)量長(zhǎng)期較差的情況下,居民相關(guān)疾病發(fā)病率會(huì)上升,在一定程度上阻礙經(jīng)濟(jì)發(fā)展。在通信領(lǐng)域,空氣質(zhì)量同樣是重要影響因素:當(dāng)霧霾較嚴(yán)重時(shí),由于空氣中顆粒物濃度較高,波的衍射現(xiàn)象發(fā)生的概率隨之上升,信號(hào)的傳播方向就更容易發(fā)生改變。此外,由于空氣中介質(zhì)濃度較高,信號(hào)強(qiáng)度通過(guò)介質(zhì)時(shí)衰減程度較高,對(duì)日常生產(chǎn)生活也產(chǎn)生了消極影響。
寧波作為長(zhǎng)三角城市圈內(nèi)的重要城市,其經(jīng)濟(jì)與社會(huì)地位舉足輕重。在大數(shù)據(jù)融合的背景下,建立相應(yīng)的數(shù)理統(tǒng)計(jì)模型,對(duì)寧波市空氣質(zhì)量進(jìn)行分析預(yù)測(cè),研究其空氣質(zhì)量變化的背后原因及規(guī)律,不僅能夠在環(huán)境保護(hù)方面提供建議,而且有助于規(guī)劃城市發(fā)展道路,優(yōu)化經(jīng)濟(jì)發(fā)展政策。
空氣質(zhì)量指數(shù)(AQI)是對(duì)當(dāng)?shù)乜諝赓|(zhì)量的描述,是根據(jù) PM2.5、PM10、NO2、CO、SO2 和 O3 等六個(gè)空氣質(zhì)量指標(biāo)的濃度計(jì)算得到的。其計(jì)算公式如下:
式中:I為空氣質(zhì)量指數(shù) AQI,Ih和It分別為 AQI 值上下限,Ch和Ct分別為污染物濃度上下限,C為該污染物當(dāng)前濃度。空氣質(zhì)量指數(shù) AQI 的取值等于上述六種污染物計(jì)算出的 6個(gè)I值的最大值。
本文選?。玻埃保茨辏痹拢比罩粒玻埃玻材辏冈拢玻等諏幉ㄊ忻咳盏目諝赓|(zhì)量指數(shù)AQI以及六類主要污染物數(shù)據(jù)。首先對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,若數(shù)據(jù)存在缺失值,則需要通過(guò)相應(yīng)算法進(jìn)行插補(bǔ)。其次,文章通過(guò)相關(guān)性分析研究各指標(biāo)之間的關(guān)聯(lián),并利用SARIMA模型與LSTM模型對(duì)寧波市未來(lái)空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè),篩選出最優(yōu)模型。
在進(jìn)行SARIMA模型定階時(shí),與傳統(tǒng)的利用ACF與PACF圖不同,文章將網(wǎng)格搜索法引入SARIMA模型中,設(shè)定SARIMA模型的6個(gè)參數(shù)的最大值,通過(guò)網(wǎng)格搜索,依據(jù)AIC準(zhǔn)則自動(dòng)求得最優(yōu)參數(shù),節(jié)省時(shí)間的同時(shí)提高了模型預(yù)測(cè)的準(zhǔn)確度。在擬合LSTM模型時(shí),本文利用Adam算法優(yōu)化替代了傳統(tǒng)的參數(shù)尋找模式,提升了模型運(yùn)行效率和準(zhǔn)確性。
1 ? ? 數(shù)據(jù)來(lái)源及方法介紹
1.1 ? 數(shù)據(jù)來(lái)源
寧波是長(zhǎng)三角城市圈內(nèi)的重要城市,其經(jīng)濟(jì)與社會(huì)地位舉足輕重??諝赓|(zhì)量是影響城市發(fā)展的重要指標(biāo),研究并預(yù)測(cè)未來(lái)寧波的空氣質(zhì)量指數(shù)有重大現(xiàn)實(shí)意義。本文選取2014年1月1日至2022年8月25日寧波市每日的空氣質(zhì)量指數(shù)AQI以及六類主要污染物:PM2.5、PM10、SO2、CO、NO2 和 O3 的濃度數(shù)據(jù)(單位:μg/m3)。所有數(shù)據(jù)均摘自空氣質(zhì)量在線分析平臺(tái)(www.aqistudy.cn)。
1.2 ? 相關(guān)性分析
相關(guān)性分析是判斷變量之間的相關(guān)程度,由相關(guān)系數(shù)進(jìn)行衡量:相關(guān)系數(shù)值在0.8~1之間時(shí),變量極強(qiáng)相關(guān);相關(guān)系數(shù)值在0.6~0.8時(shí),變量強(qiáng)相關(guān);相關(guān)系數(shù)值在0.4~0.6時(shí),變量中等強(qiáng)度相關(guān);相關(guān)系數(shù)值在0.2~0.4時(shí),變量弱相關(guān);相關(guān)系數(shù)值在0~0.2時(shí),變量極弱相關(guān)或不相關(guān)。
兩變量X與Y之間的相關(guān)系數(shù)ρXY計(jì)算公式如下:
式中cov(X,Y)為變量X與變量Y之間的協(xié)方差,σX和σY分別為變量X與變量Y的標(biāo)準(zhǔn)差,μX和μY分別為變量X與變量Y的均值。
1.3 ? SARIMA模型
SARIMA模型由基礎(chǔ)的ARIMA模型衍生而來(lái),是在原有的ARIMA模型中增加季節(jié)參數(shù)得到。SARIMA的一般形式如下:
Φp(L)Ap(Ls)ΔdΔsDyt=Θq(L)BQ(Ls)εt(3)
其中yt為當(dāng)前數(shù)據(jù),εt為當(dāng)前誤差,(P,Q,p,q)分別為季節(jié)與非季節(jié)AR和MA參數(shù),(D,d)分別表示季節(jié)和非季節(jié)性差分次數(shù)。在本研究中,將分別把yt定義為六類主要污染物濃度的取值。
1.4 ? LSTM模型
LSTM是一種自循環(huán)的神經(jīng)網(wǎng)絡(luò),能夠?qū)⒅皩W(xué)習(xí)到的參數(shù)權(quán)重引入下一次的學(xué)習(xí)中,并進(jìn)行優(yōu)化。 LSTM由一系列LSTM單元組成,其結(jié)構(gòu)如圖1所示。
2 ? ? ?數(shù)據(jù)預(yù)處理
本文采用的寧波 2014 年 1 月 1 日至 2022 年 8 月 25 日的空氣質(zhì)量指數(shù)(AQI)及各污染物濃度的數(shù)據(jù)是從空氣質(zhì)量在線分析平臺(tái)(www.aqistudy.cn)摘錄所得,其每日 AQI及各種污染物的濃度數(shù)據(jù)是根據(jù)當(dāng)天寧波市內(nèi) 9 個(gè)氣象觀測(cè)點(diǎn)觀測(cè)的每小時(shí)實(shí)際數(shù)據(jù),經(jīng)過(guò)計(jì)算并對(duì)其求平均值所得,所以既存在數(shù)據(jù)觀測(cè)記錄時(shí)數(shù)據(jù)丟失,也存在計(jì)算過(guò)程中選取的算法導(dǎo)致數(shù)據(jù)缺失的情況。因此,在對(duì)數(shù)據(jù)進(jìn)行分析前,必須檢測(cè)數(shù)據(jù)是否完整,若存在缺失值,必須使用相應(yīng)方法對(duì)其進(jìn)行插補(bǔ)。由于本文數(shù)據(jù)集中各指標(biāo)之間可能存在較強(qiáng)的線性關(guān)系,文章利用mice函數(shù)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)缺失值的檢測(cè)與插補(bǔ),檢測(cè)結(jié)果如圖2所示。根據(jù)圖2結(jié)果,數(shù)據(jù)集不存在缺失值,可以進(jìn)行下一步分析。
3 ? ? ?基本數(shù)據(jù)分析
3.1 ? 相關(guān)性分析
文章根據(jù)變量?jī)蓛芍g的相關(guān)系數(shù),作出寧波空氣質(zhì)量的各指標(biāo)相關(guān)系數(shù)圖,結(jié)果如圖3所示。通過(guò)分析各指標(biāo)之間的相關(guān)系數(shù)可以提前找出各指標(biāo)之間的關(guān)聯(lián),并有針對(duì)性地在之后的研究分析中著重討論該部分。根據(jù)圖3數(shù)據(jù)可以看出,空氣質(zhì)量指數(shù)AQI與O3的相關(guān)系數(shù)為0.32,說(shuō)明AQI與該類主要污染物有一定的相關(guān)性,但相關(guān)性不強(qiáng),屬于弱相關(guān);AQI與其余五類污染物相關(guān)性更低,因此可認(rèn)為與其不相關(guān)。此外,SO2與CO的相關(guān)系數(shù)達(dá)到了0.51,屬于中等強(qiáng)度相關(guān),因此該兩類污染物的變化很可能是同步的。
4 ? ? ?空氣質(zhì)量預(yù)測(cè)
對(duì)城市未來(lái)空氣質(zhì)量指數(shù)預(yù)測(cè)有相當(dāng)重要的現(xiàn)實(shí)意義,根據(jù)預(yù)測(cè)結(jié)果,若當(dāng)?shù)乜諝赓|(zhì)量指數(shù)在未來(lái)一段時(shí)間內(nèi)呈持續(xù)下降趨勢(shì),則相關(guān)部門機(jī)構(gòu)需要制定相應(yīng)對(duì)策,來(lái)應(yīng)對(duì)空氣質(zhì)量的變化。預(yù)測(cè)未來(lái)空氣質(zhì)量,能夠?yàn)闆Q策部門提供相應(yīng)的建議。
本文聚焦2014年1月1日至2022年8月25日的空氣質(zhì)量指數(shù)AQI這一指標(biāo),將其構(gòu)建為時(shí)間序列,對(duì)其分別建立SARIMA模型與LSTM模型,預(yù)測(cè)其未來(lái)的變化,并挑選出準(zhǔn)確率更高、穩(wěn)定性更強(qiáng)的模型。
4.1 ? SARIMA模型
SARIMA模型是在非季節(jié)的ARIMA(p,d,q)模型中加入了時(shí)間參數(shù),構(gòu)建了SARIMA(p,d,q)(P,D,Q)[T]模型,其中(P,D,Q)為季節(jié)參數(shù),T為時(shí)間序列的周期。構(gòu)建2014年1月1日至2022年8月25日的寧波市空氣質(zhì)量指數(shù)AQI的時(shí)間序列后,需對(duì)其進(jìn)行季節(jié)性分解,判斷其是否存在季節(jié)性,若存在,則需建立SARIMA模型,若不存在,建立ARIMA模型即可,季節(jié)性分解結(jié)果如圖4所示。圖4中seasonal圖展示的是該時(shí)間序列的季節(jié)性趨勢(shì),從結(jié)果可以看出,寧波市空氣質(zhì)量指數(shù)AQI存在較強(qiáng)的季節(jié)性,而且大致以12月為周期,因此令參數(shù)T=12。trend圖體現(xiàn)了時(shí)間序列的趨勢(shì)性,若序列存在趨勢(shì)性,則需要對(duì)其進(jìn)行差分運(yùn)算,使數(shù)據(jù)平穩(wěn)化。從圖中結(jié)果可看出,數(shù)據(jù)大致存在遞減的趨勢(shì),為確定序列平穩(wěn)性,還需對(duì)其進(jìn)行ADF檢驗(yàn)。經(jīng)ADF檢驗(yàn)后,其統(tǒng)計(jì)量p值為0.00,小于顯著性水平0.05的閾值,因此序列是平穩(wěn)的,無(wú)須對(duì)其進(jìn)行差分運(yùn)算,模型參數(shù)d為0。
由于SARIMA模型存在6個(gè)參數(shù),若通過(guò)ACF和PACF圖進(jìn)行模型定階效率低下,而且準(zhǔn)確度較低。因此,本文選擇通過(guò)網(wǎng)格搜索法,基于AIC和BIC準(zhǔn)則,讓模型自動(dòng)搜尋參數(shù),進(jìn)行模型的定階。在本研究中,選取參數(shù)(p,q)最大值為5,參數(shù)(P,Q)最大值為2,參數(shù)D值為1,利用網(wǎng)格搜索法和AIC、BIC準(zhǔn)則進(jìn)行模型定階,得到最優(yōu)SARIMA模型為SARIMA(3,0,3)(1,1,1)。本文將前80%數(shù)據(jù)設(shè)置為訓(xùn)練集,后20%數(shù)據(jù)設(shè)置為測(cè)試集,檢驗(yàn)該模型在測(cè)試集上的預(yù)測(cè)情況,其結(jié)果如圖5所示。從圖中可以看出,該模型的預(yù)測(cè)值與真實(shí)值較為相似,因此可以作為寧波市空氣質(zhì)量指數(shù)AQI的預(yù)測(cè)模型。對(duì)未來(lái)5日的寧波市AQI進(jìn)行預(yù)測(cè),其結(jié)果如表1所示。
4.2 ? LSTM模型
在使用SARIMA模型對(duì)寧波市空氣質(zhì)量指數(shù)AQI進(jìn)行預(yù)測(cè)之后,為選取合適的預(yù)測(cè)模型,本文還利用LSTM模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。與SARIMA建模過(guò)程相同,本文同樣將前80%數(shù)據(jù)設(shè)置為訓(xùn)練集,將后20%數(shù)據(jù)設(shè)置為測(cè)試集,利用訓(xùn)練集數(shù)據(jù)擬合LSTM模型,并判斷其在訓(xùn)練集上的預(yù)測(cè)準(zhǔn)確度。由于LSTM模型中選取合適的參數(shù)較為困難,本文利用Adam算法對(duì)參數(shù)選取進(jìn)行優(yōu)化,自動(dòng)計(jì)算出最優(yōu)參數(shù)。經(jīng)LSTM模型擬合,其在測(cè)試集上的預(yù)測(cè)值如圖6所示。從圖中結(jié)果可以看出,LSTM模型的預(yù)測(cè)值和真實(shí)值較為相似,而且相對(duì)于SARIMA模型,其對(duì)真實(shí)值的擬合程度更高,因此在預(yù)測(cè)寧波未來(lái)空氣質(zhì)量指數(shù)時(shí),選用LSTM模型更為合適,對(duì)未來(lái)5天的空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè),結(jié)果如表2所示。
5 ? ? ?結(jié)束語(yǔ)
經(jīng)過(guò)對(duì)寧波市空氣質(zhì)量指數(shù)AQI以及其余六類污染物的分析,結(jié)果發(fā)現(xiàn)寧波市AQI與當(dāng)?shù)兀希车南嚓P(guān)性相較于其余五類污染物更大,因此其空氣質(zhì)量主要受當(dāng)?shù)兀希碀舛扔绊?,但是其兩者之間的相關(guān)性屬于弱相關(guān),因此還存在本文未研究的指標(biāo)對(duì)空氣質(zhì)量產(chǎn)生了更大的影響。在空氣質(zhì)量預(yù)測(cè)階段,本文選取了SARIMA模型,在原有ARIMA模型的基礎(chǔ)上加入了季節(jié)性參數(shù),增加了模型擬合和預(yù)測(cè)的準(zhǔn)確性。此外,本文還選用了LSTM模型進(jìn)行數(shù)據(jù)擬合,并與SARIMA模型進(jìn)行對(duì)比,結(jié)果發(fā)現(xiàn)LSTM模型預(yù)測(cè)準(zhǔn)確性更好,適合對(duì)寧波市未來(lái)的空氣質(zhì)量進(jìn)行預(yù)測(cè)。在大數(shù)據(jù)的視角下對(duì)傳統(tǒng)問(wèn)題進(jìn)行研究,能夠更加準(zhǔn)確、更加系統(tǒng)地對(duì)數(shù)據(jù)變化規(guī)律和原因進(jìn)行探究把握,以數(shù)學(xué)的方式將問(wèn)題發(fā)展的趨勢(shì)一目了然地展現(xiàn)出來(lái),為解決問(wèn)題提供良好建議。同時(shí),本文也存在一些不足之處,例如在研究各指標(biāo)之間的關(guān)系時(shí),僅僅使用了相關(guān)性分析,還沒(méi)有進(jìn)行更深層的研究,在時(shí)間序列預(yù)測(cè)時(shí),也只使用了單變量時(shí)間序列預(yù)測(cè),希望能在日后工作中繼續(xù)深入探討。
主要參考文獻(xiàn)
[1]張冬雯,趙琪,許云峰,等.基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型的空氣質(zhì)量預(yù)測(cè)[J].河北科技大學(xué)學(xué)報(bào),2020(1):67-75.
[2]鄭洋洋,白艷萍,續(xù)婷.基于SARIMA-SVR組合模型的空氣質(zhì)量指數(shù)預(yù)測(cè)[J].河北工業(yè)科技,2019,36(6):436-441.
[3]謝放尖,李文青,牟瑩瑩,等.寧波青奧期間污染減排對(duì)空氣質(zhì)量影響研究[J].環(huán)境科學(xué)與管理,2016,41(11):94-98.
[4]馬麗娜,劉思強(qiáng),陸小梅.定西市安定區(qū)手足口?。樱粒遥桑停令A(yù)測(cè)模型研究[J].中國(guó)公共衛(wèi)生管理,2021,37(1):59-61.
[5]馬明駿,趙海心,姜孝謨,等.基于LSTM-WPHM模型的風(fēng)機(jī)軸承故障報(bào)警與壽命預(yù)測(cè)方法[J].風(fēng)機(jī)技術(shù),2022,64(3):63-71.