国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RF-Kmeans-LIBSVM 的烏魯木齊市顆粒物濃度預(yù)測研究

2022-09-02 09:20:24李愛英
環(huán)境保護科學(xué) 2022年4期
關(guān)鍵詞:顆粒物聚類預(yù)測

李愛英

(新疆維吾爾自治區(qū)環(huán)境工程評估中心,新疆 烏魯木齊 830016)

近年來,空氣污染已經(jīng)成為了公眾所熱議的話題,尤其是對于發(fā)達城市而言,其影響的人群更多更廣。中國空氣污染狀況呈現(xiàn)出冬半年較嚴重,夏半年較輕,北方地區(qū)較嚴重,南方地區(qū)較輕的分布特征[1]。為了遏制空氣污染的進一步惡化,相關(guān)部門采取了一系列高效的空氣污染防治措施并取得了不錯的效果[2],即便如此,仍然不能放緩空氣污染防治的腳步,氣象部門應(yīng)不斷規(guī)范污染預(yù)報預(yù)警信息的發(fā)布,加強氣象災(zāi)害的防御工作,以便帶來不必要的損失。

空氣污染帶來的危害不僅局限于人體健康方面,其對氣候、植物以及生態(tài)系統(tǒng)也會產(chǎn)生影響[3?7]。大氣污染給人體健康帶來的危害是多方面的,主要會造成生理機能障礙和呼吸系統(tǒng)疾病,人體眼睛與鼻子等器官中的粘膜組織受到污染氣體的刺激也會引發(fā)患病。大氣污染物,尤其是二氧化硫、氟化物等對植物的危害也是十分嚴重的,當污染物濃度很高時,會對植物產(chǎn)生急性危害,使植物葉表面產(chǎn)生傷斑,或者直接使葉片枯萎而脫落;當污染物濃度不高時,會對植物產(chǎn)生慢性危害,盡管表面上危害癥狀并不明顯,但實際上植物的生理機能已受到了侵襲,進而使得產(chǎn)量下降,品質(zhì)變差。除此之外,大氣污染還能對氣候產(chǎn)生影響,可以減少到達地面的太陽輻射量,二氧化硫經(jīng)過氧化會形成硫酸,伴隨自然降雨落到地面,破壞建筑物和農(nóng)作物。

由于空氣污染會給居民的生產(chǎn)生活帶來不便,因此對于空氣質(zhì)量的準確預(yù)報就非常重要。目前國內(nèi)的學(xué)者們在空氣污染物濃度預(yù)測方面做了諸多嘗試,其主要方法有數(shù)值預(yù)報和統(tǒng)計預(yù)報。相比于數(shù)值預(yù)報,統(tǒng)計預(yù)報無需考慮復(fù)雜多樣的化學(xué)物理過程,模型的構(gòu)建過程比較簡單,使用起來也更加方便,尤其是近年來一些機器學(xué)習(xí)算法在環(huán)境和氣象預(yù)測領(lǐng)域表現(xiàn)優(yōu)異[8?13],使得統(tǒng)計預(yù)報方法的應(yīng)用越來越廣泛。李龍等[14]利用最小二乘支持向量機對PM2.5濃度做了預(yù)測,研究發(fā)現(xiàn)引入綜合氣象指數(shù)可以使得預(yù)測結(jié)果的誤差降低約30%,此外還發(fā)現(xiàn)了PM2.5濃度與住院率、醫(yī)院門診量高度相關(guān);劉杰等[15]構(gòu)建了包括機器學(xué)習(xí)算法在內(nèi)的4 種模型對PM2.5質(zhì)量濃度進行了預(yù)測,通過對比研究,發(fā)現(xiàn)支持向量機可以更好地捕捉到PM2.5質(zhì)量濃度與預(yù)報因子之間的非線性關(guān)系,整體的預(yù)測準確度更高,可作為首選方法;李勇等[16]將小波分析與BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合對PM10濃度進行了預(yù)測,發(fā)現(xiàn)結(jié)合后的模型比傳統(tǒng)的BP 模型預(yù)測精度更高;梁澤等[17]利用經(jīng)遺傳算法優(yōu)化的徑向基神經(jīng)網(wǎng)絡(luò)模型預(yù)測了北京市24 小時的平均PM2.5濃度值,結(jié)果發(fā)現(xiàn)該模型預(yù)測性能良好且無需輸入地理位置信息與氣象等數(shù)據(jù),依賴變量少且預(yù)測準確率高(R2高達75%),能夠?qū)Χ喾N時空情境下的城市空氣污染物濃度進行預(yù)測;為了提高多變天氣情況下PM2.5濃度的預(yù)測準確率,李芬等[18]對天氣類型進行聚類與識別,基于LSTM 算法構(gòu)建了不同天氣類型下的PM2.5濃度預(yù)測模型,研究發(fā)現(xiàn)該方法比傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)與支持向量機方法效果更好。本文利用空氣質(zhì)量監(jiān)測數(shù)據(jù)(包括SO2、NO2、O3、CO、PM10和PM2.5)與氣象數(shù)據(jù),基于RF-Kmeans-LIBSVM算法建立PM2.5與PM10日均濃度的預(yù)報模型,為相關(guān)部門制定決策提供理論依據(jù)。

1 資料與方法

1.1 數(shù)據(jù)來源

空氣污染物濃度監(jiān)測數(shù)據(jù)來源于環(huán)境監(jiān)測站,氣象數(shù)據(jù)來自天氣后報網(wǎng)站(http://www.tianqihoubao.com/),選取烏魯木齊市的逐日數(shù)據(jù),時間段為北京時間2015 年1 月1 日~2020 年12 月31 日,空氣污染物濃度監(jiān)測數(shù)據(jù)包括的要素為:SO2、NO2、O3、CO、PM10和PM2.5這6 種污染物的日均濃度值;氣象數(shù)據(jù)包括的要素為:風(fēng)向和風(fēng)速、天氣狀況、最高和最低氣溫。首先對數(shù)據(jù)進行質(zhì)量控制,將序列中亂碼和缺失的數(shù)據(jù)進行識別與剔除,采用相鄰非缺失值線性插值的方法進行訂正。為了消除不同量綱單位之間的差異,在建立模型之前需要使用公式(1)將所選數(shù)據(jù)歸一化到指定區(qū)間(0,1)內(nèi)。

式中,Xn代表經(jīng)歸一化處理之后的數(shù)據(jù),X代表經(jīng)歸一化處理之前的數(shù)據(jù),Xmax代表樣本數(shù)據(jù)中的最大值,Xmin代表樣本數(shù)據(jù)中的最小值。

1.2 研究方法

1.2.1 RF 重要性評估 隨機森林算法(RF)[19?22]是由LEO Breiman 教授提出的,該算法能夠?qū)μ卣髯兞康闹匾赃M行評估,在非線性問題中表現(xiàn)優(yōu)異,付旭東[23]使用RF 重要性評估的方法結(jié)合機器學(xué)習(xí)預(yù)測模型有效提高了風(fēng)場預(yù)報的準確率。使用RF 算法篩選出重要變量的思想是看每個特征對隨機森林中每棵決策樹的貢獻程度,然后取該特征貢獻的平均值,最后依據(jù)貢獻值大小對每個特征進行排序。通常情況下,可以通過基尼系數(shù)對各個因子的貢獻大小進行衡量。

1.2.2 K-Means 聚類分析 K-Means 算法[24]作為應(yīng)用最為廣泛的聚類分析算法之一,是一種非常典型的基于距離的硬聚類算法,認為對象之間的距離

越小,相似性就越大。K-Means 聚類是基于樣本集合劃分的聚類算法,它將樣本集合劃分為K個子集,構(gòu)成K個類,將n個樣本分到K個類中,每個樣本到其所屬類的中心距離最小,每個樣本僅屬于一個類。K-Means 聚類算法的實現(xiàn)過程,見圖1。

圖1 K-Means 聚類算法的實現(xiàn)流程

1.2.3 LIBSVM 回歸預(yù)測 LIBSVM 是由林智仁副教授設(shè)計發(fā)明的,如今已經(jīng)被廣泛應(yīng)用于回歸擬合問題[25?26]。傳統(tǒng)支持向量機預(yù)測模型有一個明顯的缺點,就是只能依靠經(jīng)驗和對比實驗來進行選取核函數(shù)以及其他參數(shù),而LIBSVM 的出現(xiàn)則克服了這一缺陷。相對于傳統(tǒng)支持向量機(SVM)模型,LIBSVM 的很多參數(shù)都是默認的,涉及到的參數(shù)調(diào)節(jié)更少,合理利用這些設(shè)置好的默認參數(shù)可用來解決許多問題,LIBSVM 還在傳統(tǒng)SVM 的基礎(chǔ)上提供了一種用于交互檢驗的新功能。

1.2.4 誤差評價指標 選用平均絕對誤差(MAE)、均方根誤差(RMSE)和預(yù)報準確率(P)3 個誤差評價指標對PM2.5和PM10濃度的預(yù)測結(jié)果進行檢驗,每種誤差評價指標的計算過程,見式(2~4):

2 實例分析

2.1 基于RF 的預(yù)報因子重要性評估

本文在構(gòu)建PM2.5和PM10濃度預(yù)報模型時,除了考慮前日的6 種污染物濃度值和AQI 指數(shù)對次日PM2.5和PM10濃度的影響外,還考慮了預(yù)測日的最高氣溫、最低氣溫、風(fēng)速、風(fēng)向和天氣狀況等。為了減小濃度的突然波動對預(yù)測結(jié)果的影響,這里采用滑動平均法對污染物濃度進行3 d 滑動平均處理。將預(yù)測日的天氣狀況進行分類,分為晴、陰、多云、霧、雨、雪和雨夾雪等7 種天氣類型,并將以上7 種天氣類型分別用數(shù)字1~7 表示;風(fēng)向用角度值表示。顆粒物濃度預(yù)報中預(yù)報因子的變量符號及其物理意義,見表1。其中,X表示輸入變量,Y表示輸出變量。

表1 顆粒物物濃度預(yù)測中預(yù)報因子的變量符號及其物理意義

顆粒物濃度預(yù)測中影響PM2.5和PM10濃度的因子重要性評分,見圖2。

圖2 烏魯木齊市顆粒物預(yù)報中各預(yù)報因子的重要性評分

對于PM2.5而言,排名在前3 位的預(yù)報因子依次為前日的PM2.5濃度、前日的CO 濃度和預(yù)測日的天氣狀況;對于PM10而言,排名在前3 位的預(yù)報因子依次為前日的PM10濃度、預(yù)測日的天氣狀況和前日的O3濃度??偟膩碚f,當以某種顆粒物濃度作為輸出變量時,前日的該顆粒物濃度對預(yù)報結(jié)果的貢獻最大,預(yù)測日的天氣狀況也是一個不容忽視的預(yù)報因子。

2.2 基于K-Means 的顆粒物濃度聚類

對于PM2.5而言,選擇重要性評分最高的2 個因子進行聚類運算,它們分別為前日的PM2.5濃度和前日的CO 濃度;對于PM10而言,重要性評分最高的因子為前日的PM10濃度,預(yù)測日的天氣狀況與前日的O3濃度緊隨其后且兩者的評分大小相差不大,考慮到天氣狀況的數(shù)據(jù)是通過定性分析轉(zhuǎn)化而來的,數(shù)據(jù)精度不高,因此選擇前日的PM10濃度和前日的O3濃度進行聚類運算。經(jīng)試驗發(fā)現(xiàn),當K值<2 或>7 時,PM2.5模型的訓(xùn)練誤差會明顯增大,當K值<3 或>8 時,PM10模型的訓(xùn)練誤差會明顯增大,因此,從2~8 依次設(shè)置K值,利用SPSS軟件進行聚類分析,可得到不同K值下的聚類數(shù)據(jù)與質(zhì)心,經(jīng)過多次統(tǒng)計嘗試發(fā)現(xiàn)當PM2.5和PM10都被分為4 個類別時預(yù)測效果最好。K=4 時顆粒物的數(shù)據(jù)樣本聚類結(jié)果,將PM2.5和PM10各自分為4 個類別,針對每個類別的數(shù)據(jù)分別建立模型,見圖3。

圖3 數(shù)據(jù)樣本聚類結(jié)果

經(jīng)聚類分析后基本能夠?qū)⒉煌瑵舛确秶念w粒物濃度值分開,分為4 類,然后針對每一類分別構(gòu)建預(yù)報模型,減少數(shù)據(jù)的樣本差異給預(yù)報結(jié)果帶來的干擾,降低模型的過擬合程度,提高預(yù)測精度,見表2。

表2 聚類結(jié)果

2.3 預(yù)測模型的構(gòu)建與檢驗

利用LIBSVM 的回歸原理構(gòu)建大氣顆粒物濃度預(yù)報模型。將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)又各自包含輸入數(shù)據(jù)與輸出數(shù)據(jù)。選取2015 年1 月1 日~2019 年12 月31 的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2020 年1 月1 日~2020 年12 月31 日的數(shù)據(jù)作為測試數(shù)據(jù),以此來構(gòu)建基于LIBSVM 的顆粒物濃度預(yù)報模型。

(1)調(diào)入數(shù)據(jù),對數(shù)據(jù)進行歸一化處理。

(2)利用RF-Kmeans 算法對顆粒物數(shù)據(jù)進行聚類運算,將PM2.5和PM10分別分成4 種不同類別。

(3)采用LIBSVM 算法對各個類別的模型分別進行訓(xùn)練。

(4)將測試數(shù)據(jù)中的輸入數(shù)據(jù)輸入到已經(jīng)訓(xùn)練好的預(yù)報模型中,輸出經(jīng)模型預(yù)報的顆粒物濃度數(shù)據(jù)。

(5)反歸一化,得到空氣顆粒物濃度預(yù)報值的最終結(jié)果。

(6)對模型輸出的空氣顆粒物濃度預(yù)報結(jié)果進行誤差分析,評價模型的泛化能力。

根據(jù)以上建模步驟,給出了不同顆粒物濃度序列的RF-Kmeans-LIBSVM 預(yù)測結(jié)果,見圖4 和5。

圖4 不同類別PM2.5 濃度序列的預(yù)測結(jié)果

圖5 不同類別PM10 濃度序列的預(yù)測結(jié)果

總體上,顆粒物的預(yù)測值能夠較好地反映出真實值的變化趨勢。從預(yù)測值與真實值之間的相關(guān)程度來看,無論是PM2.5還是PM10,相關(guān)系數(shù)都在0.54 以上:對于PM2.5來說,第一類為0.83,第二類為0.69,第三類為0.54,第四類為0.73;對于PM10來說,第一類為0.81,第二類為0.67,第三類為0.55,第四類為0.66;這說明預(yù)測值與真實值之間有較高的正相關(guān)關(guān)系。

為了驗證該模型的泛化能力,本文采用未經(jīng)聚類分析的傳統(tǒng)LIBSVM 模型對顆粒物濃度進行預(yù)測,為了更加直觀地對比模型優(yōu)化前后的整體預(yù)測效果,首先將聚類分析后得到的顆粒物預(yù)測數(shù)據(jù)按照時間的先后順序進行整合,得到整體的顆粒物濃度序列預(yù)測結(jié)果,再對實際監(jiān)測值和預(yù)測值之間進行相關(guān)性分析。若實際監(jiān)測值與預(yù)測值之間相差較小,則在相關(guān)性分析圖中呈現(xiàn)為收斂,即相關(guān)性較好,反之則呈現(xiàn)為發(fā)散,相關(guān)性較差。各圖中的折線圖表示PM2.5和PM10實際即監(jiān)測值與預(yù)測值的對比效果圖,散點圖表示實際監(jiān)測值與預(yù)測值之間的相關(guān)性分析圖,預(yù)測結(jié)果見,圖6~9。

圖6 LIBSVM 模型的PM2.5 濃度預(yù)測結(jié)果

圖7 RF-KMeans-LIBSVM 模型的PM2.5 濃度預(yù)測結(jié)果

圖8 LIBSVM 模型的PM10 濃度預(yù)測結(jié)果

圖9 RF-KMeans-LIBSVM 模型的PM10 濃度預(yù)測結(jié)果

圖中可以看出,顆粒物的預(yù)測值能夠較好地反映真實值的大小及變化趨勢,預(yù)測值與真實值之間的相關(guān)程度較高,對PM2.5而言,LIBSVM 模型的相關(guān)系數(shù)為0.961,RF-Kmeans-LIBSVM 模型的相關(guān)系數(shù)為0.975;對PM10而言,LIBSVM 模型的相關(guān)系數(shù)為0.906,RF-Kmeans-LIBSVM 模型的相關(guān)系數(shù)為0.919。

相對于傳統(tǒng)的LIBSVM 預(yù)測方法,經(jīng)聚類分析優(yōu)化之后的RF-Kmeans-LIBSVM 預(yù)測方法的各項誤差評價指標得到明顯提升,說明RF-Kmeans 聚類方法能夠為模型提供相似度較高的訓(xùn)練樣本,從而提高訓(xùn)練效率,進而使得模型的泛化能力得到顯著提高,見表3。

表3 不同模型預(yù)測性能的比較

從預(yù)測整體效果方面看,本方法通過聚類分析對模型實現(xiàn)了優(yōu)化,在對PM2.5的預(yù)測中,MAE、RMSE 分別下降了33.1%和26.5%,準確率提高了7.4%;在對PM10的預(yù)測中,MAE、RMSE 分別下降了15.7%和12.7%,準確率提高了3.3%,表明了該方法能夠大幅度地提高LIBSVM 模型對大氣顆粒物濃度的預(yù)測性能,具有一定的實用價值,可為顆粒物質(zhì)量濃度的預(yù)測業(yè)務(wù)提供參考。

3 結(jié)論

本研究基于烏魯木齊市2015~2020 年的空氣污染資料與氣象資料,利用RF-Kmeans 的聚類方法對空氣顆粒物數(shù)據(jù)進行分型,結(jié)合支持向量機回歸模型對PM2.5和PM10質(zhì)量濃度分別進行了預(yù)報,主要結(jié)論如下。

一是在所選預(yù)報因子中,前日的PM2.5濃度對預(yù)測日PM2.5濃度預(yù)測的貢獻最大,其次是前日的CO 濃度和預(yù)測日的天氣狀況,前日的PM10濃度對預(yù)測日PM10濃度預(yù)測的貢獻最大,其次是預(yù)測日的天氣狀況和前日的O3濃度。

二是使用RF-Kmeans 聚類方法將顆粒物濃度數(shù)據(jù)分成相似度較高的若干類,針對每一類分別構(gòu)建預(yù)測模型,并用各類顆粒物濃度數(shù)據(jù)訓(xùn)練各類模型,不僅可以提高模型的訓(xùn)練速度, 還可以提高模型對此類數(shù)據(jù)的泛化能力,提高模型的預(yù)測準確率。

三是相對于傳統(tǒng)支持向量機預(yù)測模型,該預(yù)測方法對PM2.5預(yù)測結(jié)果的MAE、RMSE 分別下降了33.1%和26.5%,對PM10預(yù)測結(jié)果的MAE、RMSE分別下降了15.7% 和12.7%。可將該方法推廣至烏魯木齊市空氣質(zhì)量預(yù)報業(yè)務(wù)中,為空氣質(zhì)量業(yè)務(wù)化預(yù)報提供技術(shù)支撐。

猜你喜歡
顆粒物聚類預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
南平市細顆粒物潛在來源分析
不必預(yù)測未來,只需把握現(xiàn)在
基于改進的遺傳算法的模糊聚類算法
錯流旋轉(zhuǎn)填料床脫除細顆粒物研究
化工進展(2015年3期)2015-11-11 09:18:15
多層介質(zhì)阻擋放電處理柴油機尾氣顆粒物
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
都江堰市| 梧州市| 淄博市| 马山县| 临高县| 长岛县| 萨嘎县| 新昌县| 礼泉县| 锦州市| 惠东县| 东光县| 石台县| 西和县| 大冶市| 额敏县| 苍南县| 望奎县| 杨浦区| 崇礼县| 和硕县| 那曲县| 永川市| 邓州市| 穆棱市| 辽宁省| 博客| 道孚县| 那坡县| 瑞金市| 赫章县| 紫云| 大竹县| 巴南区| 扎赉特旗| 北海市| 布尔津县| 锡林浩特市| 新野县| 巢湖市| 乌拉特前旗|