国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的上海市空氣質(zhì)量預(yù)測(cè)方法研究

2022-08-25 09:56郭進(jìn)利
軟件導(dǎo)刊 2022年8期
關(guān)鍵詞:空氣質(zhì)量向量神經(jīng)網(wǎng)絡(luò)

張 勤,郭進(jìn)利

(上海理工大學(xué)管理學(xué)院,上海 200093)

0 引言

中共中央總書記、國(guó)家主席、中央軍委主席習(xí)近平在2018 年全國(guó)生態(tài)環(huán)境保護(hù)大會(huì)上強(qiáng)調(diào),要堅(jiān)決打好污染防治攻堅(jiān)戰(zhàn),推動(dòng)生態(tài)文明建設(shè)邁上新臺(tái)階[1]??諝馐堑厍虼髿鈱又械臍怏w混合,也是人類賴以生存的自然資源之一。21 世紀(jì)以來(lái),空氣污染已成為人類面臨的重大課題。因此,建立全面且準(zhǔn)確的空氣質(zhì)量預(yù)測(cè)模型極為重要,這既可為市民出行提供建議,也能夠在一定程度上幫助相關(guān)部門作決策。

在已有研究中,各領(lǐng)域?qū)W者以各自的角度通過(guò)不同的方法分析影響空氣質(zhì)量的主要因素,并對(duì)其進(jìn)行預(yù)測(cè)。研究方法也多種多樣,從線性回歸、時(shí)間序列模型,到近年來(lái)比較熱門的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,都較為常用。胡玉筱等[2]采用高斯煙羽模型仿真西安市PM2.5 的擴(kuò)散規(guī)律后,結(jié)合氣象因素?cái)?shù)據(jù)構(gòu)造多元線性回歸模型以進(jìn)行PM2.5的演變預(yù)測(cè);王建書等[3]借助ARIMA 模型對(duì)蘇州市空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè);楊思琪等[4]基于隨機(jī)森林算法的分類與回歸功能,采用交叉驗(yàn)證法構(gòu)建空氣質(zhì)量預(yù)測(cè)模型;郭慶春等[5]應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)大氣污染,得到空氣污染指數(shù)API 的非線性時(shí)間序列神經(jīng)網(wǎng)絡(luò)模型;程蓉等[6]基于神經(jīng)隨機(jī)森林算法構(gòu)建一個(gè)局部空氣質(zhì)量預(yù)測(cè)模型;李翔[7]構(gòu)建GAB 迭代算法和模糊BP 神經(jīng)網(wǎng)絡(luò)組合預(yù)測(cè)模型;康兵兵等[8]提出深度棧式自編碼模型,選擇PM2.5、PM10等氣象因素?cái)?shù)據(jù)作為樣本,建立最優(yōu)空氣預(yù)測(cè)模型。

近年來(lái),機(jī)器學(xué)習(xí)研究備受關(guān)注,并已成為人工智能的核心研究領(lǐng)域之一。但在對(duì)空氣質(zhì)量或者氣象因子濃度進(jìn)行預(yù)測(cè)時(shí),絕大多數(shù)專家學(xué)者往往只應(yīng)用一種機(jī)器學(xué)習(xí)算法,而在空氣污染及其相關(guān)問(wèn)題上鮮少有文章對(duì)幾類機(jī)器學(xué)習(xí)算法進(jìn)行同一維度上的比較分析。鑒于空氣污染物濃度的非線性特征,本文考慮采用較熱門的幾類機(jī)器學(xué)習(xí)方法對(duì)上海市空氣質(zhì)量等級(jí)進(jìn)行預(yù)測(cè)[9],分別構(gòu)建基于BP 神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、支持向量機(jī)算法的上海市空氣質(zhì)量預(yù)測(cè)模型。其中,設(shè)置2016 年1 月1 日-2020年12 月31 日上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練集和測(cè)試集對(duì)模 型進(jìn)行訓(xùn)練,2021 年1 月1 日-2021 年3 月31 日相關(guān)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù)集以檢驗(yàn)?zāi)P陀行?,將前一日的PM2.5、PM10、O3、SO2、NO2、CO 共6 項(xiàng)氣象因素?cái)?shù)據(jù)、前日空氣質(zhì)量指數(shù)及相關(guān)數(shù)據(jù)作為輸入變量,當(dāng)日空氣質(zhì)量指數(shù)數(shù)據(jù)作為輸出變量,最終將3 者的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。本文所構(gòu)建的3 個(gè)模型能夠?yàn)槭忻裉峁┐稳湛諝赓|(zhì)量為“優(yōu)”“良”“輕度污染”“中度污染”“重度污染”或者“重污染”的預(yù)警報(bào)告。

1 方法與框架

1.1 機(jī)器學(xué)習(xí)分類算法

本研究選取目前預(yù)測(cè)及分類問(wèn)題中應(yīng)用較廣泛且準(zhǔn)確度較高的BP 神經(jīng)網(wǎng)絡(luò)、決策樹以及支持向量機(jī)模型構(gòu)建上海市空氣質(zhì)量預(yù)測(cè)模型。

1.1.1 BP神經(jīng)網(wǎng)絡(luò)

在預(yù)測(cè)問(wèn)題中,BP 神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)算法之一。它是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)采用誤差逆?zhèn)鞑ニ惴?,也稱BP 算法,即信號(hào)是前向傳播的,而誤差是反向傳播的[10]。正向傳播時(shí),輸入數(shù)據(jù)通過(guò)第一層輸入層進(jìn)入網(wǎng)絡(luò),依次經(jīng)過(guò)隱含層,最后到達(dá)輸出層得到模擬輸出值。若模擬輸出值與期望輸出值不同,則將其誤差平方和作為神經(jīng)網(wǎng)絡(luò)的誤差并轉(zhuǎn)至第二個(gè)過(guò)程,即誤差反向傳播過(guò)程。誤差反向傳播時(shí),誤差將按原路反傳并分?jǐn)偨o各層的所有單元,進(jìn)而得到各層各神經(jīng)元的誤差信號(hào),該信號(hào)是更新各單元權(quán)值的依據(jù)[11]。上述信號(hào)正向傳播和誤差反向傳播兩個(gè)過(guò)程不斷循環(huán)進(jìn)行以逼近期望輸出,直到誤差減少到允許的程度或者訓(xùn)練次數(shù)達(dá)到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)[12]。

在本研究中,利用訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)對(duì)2021 年1-3 月每日空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)后,根據(jù)空氣質(zhì)量指數(shù)分級(jí)表對(duì)輸出值進(jìn)行分類,得到最終預(yù)測(cè)分類結(jié)果。

1.1.2 CART決策樹

決策樹方法被廣泛應(yīng)用于分類、預(yù)測(cè)等領(lǐng)域,它通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),在每個(gè)節(jié)點(diǎn)上選擇出最優(yōu)屬性進(jìn)行分類[13]。決策樹算法包括ID3 算法、C4.5 算法、CART 算法等。前兩者用于分類,基于CART 算法構(gòu)建的決策樹不僅可以用于分類還可用于回歸。ID3 算法使用信息增益選擇特征,C4.5算法的特征選擇準(zhǔn)則為信息增益比,而CART 決策樹在進(jìn)行分類時(shí),選擇基尼系數(shù)作為特征選擇的原則[14]。

本研究主要使用基于CART 算法的決策樹對(duì)上海市空氣質(zhì)量評(píng)價(jià)進(jìn)行預(yù)測(cè)分類。

1.1.3 支持向量機(jī)

支持向量機(jī)(Support Vector Machine,SVM)作為一種分類算法,主要用于解決二分類問(wèn)題,其基本思想是求解一個(gè)能夠正確劃分訓(xùn)練數(shù)據(jù)集且最大化幾何間隔的分離超平面。在實(shí)際應(yīng)用中,往往需要解決多分類問(wèn)題,若將該算法推廣到多分類問(wèn)題,即訓(xùn)練樣本集為X={(x1,y1),(x2,y2),…,(xN,yN)},類標(biāo)簽yn∈{1,2,…,M},n=1,2,…,N時(shí),支持向量機(jī)所使用的基本方法有所不同[15]。本文主要涉及兩類方法,分別為一對(duì)一分類方法(也稱為成對(duì)分類方法)和一對(duì)多分類方法。

一對(duì)一分類方法指在任意兩個(gè)類別之間構(gòu)造一個(gè)支持向量機(jī)分類器。因此,若類標(biāo)簽集合中有M 個(gè)元素,則需要構(gòu)造M(M-1)/2 個(gè)分類器。對(duì)未知的測(cè)試樣本進(jìn)行分類時(shí),這些構(gòu)造好的分類器會(huì)依次對(duì)該樣本進(jìn)行分類,該過(guò)程可以視為每個(gè)分類器對(duì)分類結(jié)果進(jìn)行一次投票,最終將票數(shù)最多的類別作為該未知樣本的類別[16]。

一對(duì)多分類方法指按序依次將某個(gè)類別的樣本歸為一類,其余樣本歸為另一類[17]。因此,若類標(biāo)簽集合中有M 個(gè)元素,則需要構(gòu)造M 個(gè)支持向量機(jī)分類器。對(duì)未知的測(cè)試樣本進(jìn)行分類時(shí),這些構(gòu)造好的M 個(gè)分類器會(huì)依次對(duì)該樣本進(jìn)行分類并得出對(duì)應(yīng)的分類函數(shù)值,其中具有最大分類函數(shù)值的類別即為該未知樣本的類別。該方法的主要缺點(diǎn)是訓(xùn)練和測(cè)試速度較慢且當(dāng)測(cè)試樣本不屬于這M個(gè)類別時(shí),則會(huì)被錯(cuò)誤分類[18]。

基于一對(duì)一及一對(duì)多分類方法、線性核以及高斯核函數(shù),本研究共建立4 個(gè)支持向量機(jī)模型并對(duì)其進(jìn)行訓(xùn)練,將訓(xùn)練好的模型在待預(yù)測(cè)樣本集上進(jìn)行預(yù)測(cè)。

1.2 研究框架

為有效預(yù)測(cè)空氣質(zhì)量,本文提出基于3 類機(jī)器學(xué)習(xí)算法的上海市空氣質(zhì)量預(yù)測(cè)模型。本文研究框架如圖1所示。

首先,以上海市空氣質(zhì)量為研究對(duì)象獲取2016 年1 月1 日-2021 年3 月31 日的PM2.5、PM10、O3、SO2、NO2、CO 這6項(xiàng)氣象因素?cái)?shù)據(jù)和空氣質(zhì)量評(píng)價(jià)結(jié)果;然后,對(duì)數(shù)據(jù)集進(jìn)行劃分,設(shè)置2016 年1 月1 日-2020 年12 月31 日上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練集和測(cè)試集,2021 年1 月1 日-2021年3 月31 日相關(guān)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù)集以檢驗(yàn)?zāi)P陀行?;接著,?duì)各模型調(diào)參后分別進(jìn)行訓(xùn)練;最后,利用訓(xùn)練好的基于不同算法的預(yù)測(cè)模型對(duì)檢驗(yàn)集上的上海市空氣質(zhì)量數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。

Fig.1 Research framework圖1 研究框架

2 實(shí)證分析

2.1 數(shù)據(jù)來(lái)源與處理

2.1.1 樣本數(shù)據(jù)時(shí)間確定

上海市人大常委會(huì)于第二十六次會(huì)議表決通過(guò)的《上海市煙花爆竹安全管理?xiàng)l例(修訂草案)》明確提出,禁止在外環(huán)線以內(nèi)區(qū)域、外環(huán)線以外8 類場(chǎng)所燃放煙花爆竹;在禁放區(qū)域內(nèi)不得經(jīng)營(yíng)、儲(chǔ)存、運(yùn)輸煙花爆竹,并且該條例于2016年元旦起實(shí)施。

因此,為保證樣本的可靠性和一致性,本文采集的樣本觀測(cè)數(shù)據(jù)均為2016年1月1日及以后。

2.1.2 數(shù)據(jù)來(lái)源

本文從上海市生態(tài)環(huán)境局(https://sthj.sh.gov.cn/)選取上海市2016 年1 月1 日-2021 年3 月31 日的細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、臭氧(O3)、二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)這6 種重要的空氣質(zhì)量指標(biāo)、空氣質(zhì)量指數(shù)(Air Quality Index)以及每日的質(zhì)量評(píng)價(jià)結(jié)果。其中,本文將2016 年1 月1 日-2020 年12 月31 日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將2021 年1 月1 日-2021 年3 月31 日的數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù),以檢驗(yàn)所建模型的有效性和準(zhǔn)確性。

本文將前一日的PM2.5、PM10、O3、SO2、NO2、CO 這6 種重要的空氣質(zhì)量指標(biāo)和前一日的空氣質(zhì)量指數(shù)作為輸入變量,將相應(yīng)的每日質(zhì)量評(píng)價(jià)結(jié)果作為待預(yù)測(cè)的輸出變量。

2.1.3 因變量預(yù)處理

本文將空氣質(zhì)量評(píng)價(jià)作為待處理因變量,根據(jù)空氣污染指數(shù)AQI將空氣質(zhì)量分為6個(gè)等級(jí)[19],如表1所示。

Table 1 Air pollution index and corresponding air quality grade表1 空氣污染指數(shù)及對(duì)應(yīng)的空氣質(zhì)量等級(jí)

根據(jù)表1,將所選的1 914 組樣本分為6 組,其中空氣質(zhì)量評(píng)價(jià)=1(優(yōu))的天數(shù)為524 個(gè),占比27.38%;空氣質(zhì)量評(píng)價(jià)=2(良)的天數(shù)為1 080 個(gè),占比56.43%;空氣質(zhì)量評(píng)價(jià)=3(輕度污染)的天數(shù)為265 個(gè),占比13.85%;空氣質(zhì)量評(píng)價(jià)=4(中度污染)的天數(shù)為38 個(gè),占比1.99%;空氣質(zhì)量評(píng)價(jià)=5(重度污染)的天數(shù)為7 個(gè),占比0.37%;無(wú)空氣質(zhì)量評(píng)價(jià)=6(重污染)的數(shù)據(jù)樣本。

2.2 基于BP神經(jīng)網(wǎng)絡(luò)的上海市空氣質(zhì)量預(yù)測(cè)

本文采用3 層BP 神經(jīng)網(wǎng)絡(luò)模型,即隱含層層數(shù)為1。將PM2.5、PM10、O3、SO2、NO2、CO 這6 項(xiàng)空氣質(zhì)量指標(biāo)以及前日空氣質(zhì)量指數(shù)數(shù)據(jù)作為BP 神經(jīng)網(wǎng)絡(luò)模型的7 個(gè)輸入層變量,當(dāng)日空氣質(zhì)量指數(shù)作為該模型的輸出變量。根據(jù)經(jīng)驗(yàn)公式確定隱含層節(jié)點(diǎn)個(gè)數(shù),其中n 為輸入層節(jié)點(diǎn)個(gè)數(shù),q為輸出層節(jié)點(diǎn)個(gè)數(shù),a為1~10的整數(shù),m為隱含層節(jié)點(diǎn)個(gè)數(shù)[20]。因此,m 的取值范圍為3~13。

本研究將2016 年1 月至2020 年12 月上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練樣本,利用Matlab 軟件作為實(shí)驗(yàn)平臺(tái),設(shè)置訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分比例為70∶15∶15,訓(xùn)練函數(shù)為L(zhǎng)evenberg-Marquardt 函數(shù),性能函數(shù)為MSE,最大訓(xùn)練次數(shù)為1 000。

為確定隱含層節(jié)點(diǎn)數(shù),采用試湊法對(duì)不同隱含層節(jié)點(diǎn)數(shù)進(jìn)行逐一判斷。對(duì)基于不同隱含層節(jié)點(diǎn)數(shù)的11 個(gè)BP 神經(jīng)網(wǎng)絡(luò)模型分別訓(xùn)練3 次,并計(jì)算該11 個(gè)模型3 次訓(xùn)練過(guò)程的均方誤差的平均值。結(jié)果發(fā)現(xiàn),當(dāng)隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為13 時(shí),其平均相對(duì)誤差最小。因此,本文構(gòu)建的BP 神經(jīng)網(wǎng)絡(luò)模型的隱含層節(jié)點(diǎn)個(gè)數(shù)為13。

利用訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)對(duì)2021 年1-3 月每日空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)后,根據(jù)空氣質(zhì)量指數(shù)分級(jí)表對(duì)輸出值進(jìn)行分類,得到最終預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)測(cè)試集混淆矩陣如表2 所示。由于在2021 年1-3 月期間,上海市空氣質(zhì)量評(píng)價(jià)結(jié)果及各模型預(yù)測(cè)結(jié)果僅存在“優(yōu)”“良”“輕度污染”“中度污染”4 種情況,因此在后續(xù)模型建立及混淆矩陣中,僅考慮這4類空氣質(zhì)量評(píng)價(jià)結(jié)果。

Table 2 Confusion matrix of prediction results based on BPNN表2 BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的混淆矩陣

由表2 可以看出,BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)為1,而真實(shí)情況也為1 的有7 次;預(yù)測(cè)為2,真實(shí)情況為1 的有20 次;預(yù)測(cè)為1,真實(shí)情況為2 的有1 次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有55 次;預(yù)測(cè)為3,而真實(shí)情況為2 的有4 次;預(yù)測(cè)為1,而真實(shí)情況為3 的有1 次;預(yù)測(cè)為2,真實(shí)情況為3 的有1 次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

綜上,在90 組待預(yù)測(cè)數(shù)據(jù)中存在62 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致,因此該模型總體預(yù)測(cè)準(zhǔn)確率為68.89%。

2.3 基于CART決策樹的上海市空氣質(zhì)量預(yù)測(cè)

利用Matlab 中Classification Learner 模塊下的決策樹算法,采用10 折交叉驗(yàn)證,設(shè)置輸入變量為前一日的6 項(xiàng)空氣質(zhì)量指標(biāo)以及前一日的空氣質(zhì)量評(píng)價(jià)等級(jí),包括“1=空氣質(zhì)量為優(yōu)”、“2=空氣質(zhì)量為良”、“3=輕度污染”、“4=中度污染”、“5=重度污染”,設(shè)置輸出變量為當(dāng)日空氣質(zhì)量評(píng)價(jià)等級(jí),對(duì)決策樹模型進(jìn)行訓(xùn)練,訓(xùn)練時(shí)長(zhǎng)為4.087 7s。利用訓(xùn)練好的模型對(duì)2021 年1 月至3 月的樣本數(shù)據(jù)集進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果對(duì)應(yīng)的混淆矩陣見(jiàn)如表3所示。

Table 3 Confusion matrix of prediction results based on decision tree表3 決策樹算法預(yù)測(cè)結(jié)果的混淆矩陣

由表3 可以看出,決策樹算法預(yù)測(cè)為1,而真實(shí)情況也為1 的有13 次;預(yù)測(cè)為2,真實(shí)情況為1 的有13 次;預(yù)測(cè)為3,真實(shí)情況為1 的有1 次;預(yù)測(cè)為1,真實(shí)情況為2 的有3次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有54 次;預(yù)測(cè)為3,真實(shí)情況為2 的有3 次;預(yù)測(cè)為2,真實(shí)情況為3 的有2 次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

綜上,在90 組預(yù)測(cè)數(shù)據(jù)中存在67 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致,因此該模型總體預(yù)測(cè)準(zhǔn)確率為74.44%。

2.4 基于支持向量機(jī)的上海市空氣質(zhì)量預(yù)測(cè)

基于Matlab 中Classification Learner 工具箱的支持向量機(jī)算法,采用10 折交叉驗(yàn)證,分別將線性核和高斯核作為核函數(shù),這是因?yàn)楹撕瘮?shù)及參數(shù)選取很大程度上能夠決定支持向量機(jī)性能優(yōu)劣。分別基于一對(duì)一分類方法及一對(duì)多分類方法的支持向量機(jī)模型進(jìn)行訓(xùn)練后,將訓(xùn)練好的模型在待預(yù)測(cè)樣本集上進(jìn)行預(yù)測(cè)。這4 類模型訓(xùn)練時(shí)間以及對(duì)訓(xùn)練數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率如表4所示。

Table 4 Model training time and training accuracy表4 模型訓(xùn)練時(shí)間及訓(xùn)練準(zhǔn)確率

由表4 可知,構(gòu)建一個(gè)基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)模型所需要的訓(xùn)練時(shí)間最長(zhǎng),為10.883s,但該模型的訓(xùn)練準(zhǔn)確率最差,為59.9%;構(gòu)建一個(gè)基于高斯核函數(shù)和一對(duì)一分類方法的支持向量機(jī)模型所需的訓(xùn)練時(shí)間最短,然而該模型訓(xùn)練準(zhǔn)確率最優(yōu),為61.3%。

4 個(gè)基于不同核函數(shù)及不同分類方法的支持向量機(jī)模型輸出的混淆矩陣如表5—表8所示。

Table 5 Confusion matrix of SVM based on linear kernel and oneagainst-one classification method表5 基于線性核及一對(duì)一分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表5 可以看出,基于線性核及一對(duì)一分類方法的支持向量機(jī)預(yù)測(cè)為1,而真實(shí)情況也為1 的有19 次;預(yù)測(cè)為2,真實(shí)情況為1 的有8 次;預(yù)測(cè)為1,真實(shí)情況為2 的有8次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有52 次;預(yù)測(cè)為2,真實(shí)情況為3的有2次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

綜上,在90 組預(yù)測(cè)數(shù)據(jù)中存在71 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致,因此該模型總體預(yù)測(cè)準(zhǔn)確率為78.89%。

Table 6 Confusion matrix of SVM based on linear kernel and oneagainst-all classification method表6 基于線性核以及一對(duì)多分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表6 可以看出,基于線性核及一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)為1,而真實(shí)情況也為1 的有19 次;預(yù)測(cè)為2,真實(shí)情況為1 的有8 次;預(yù)測(cè)為1,真實(shí)情況為2 的有7次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有53 次;預(yù)測(cè)為2,真實(shí)情況為3的有2次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

綜上,在90 組預(yù)測(cè)數(shù)據(jù)中存在72 組數(shù)據(jù)的預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致,因此該模型的總體預(yù)測(cè)準(zhǔn)確率為80%。

由表7 可以看出,基于高斯核及一對(duì)一分類方法的支持向量機(jī)預(yù)測(cè)為1,而真實(shí)情況也為1 的有14 次;預(yù)測(cè)為2,真實(shí)情況為1 的有13 次;預(yù)測(cè)為1,真實(shí)情況為2 的有3次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有57 次;預(yù)測(cè)為2,真實(shí)情況為3的有2次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

Table 7 Confusion matrix of SVM based on Gauss kernel and oneagainst-one classification method表7 基于高斯核及一對(duì)一分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

綜上,在90 組預(yù)測(cè)數(shù)據(jù)中存在71 組數(shù)據(jù)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致,因此該模型的總體預(yù)測(cè)準(zhǔn)確率為78.89%。

Table 8 Confusion matrix of SVM based on Gauss kernel and oneagainst-all classification method表8 基于高斯核以及一對(duì)多分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表8 可以看出,基于高斯核以及一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)為1,而真實(shí)情況也為1 的有16 次;預(yù)測(cè)為2,真實(shí)情況為1 的有11 次;預(yù)測(cè)為1,真實(shí)情況為2 的有6次;預(yù)測(cè)為2,而真實(shí)情況也為2 的有54 次;預(yù)測(cè)為2,真實(shí)情況為3的有2次;預(yù)測(cè)為2,真實(shí)情況為4的有1次。

綜上,在90 組預(yù)測(cè)數(shù)據(jù)中存在70 組數(shù)據(jù)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致,因此該模型的總體預(yù)測(cè)準(zhǔn)確率為77.78%。

2.5 模型預(yù)測(cè)結(jié)果對(duì)比及分析

將基于3 類機(jī)器學(xué)習(xí)算法的6 個(gè)上海市空氣質(zhì)量模型的預(yù)測(cè)結(jié)果綜合后,如表9所示。

Table 9 Air pollution level prediction results of each model表9 各模型的空氣質(zhì)量等級(jí)預(yù)測(cè)結(jié)果

從表9 中可以看出,在真實(shí)樣本中,存在1 個(gè)“4=空氣質(zhì)量為中度污染”的數(shù)據(jù),而6 個(gè)模型的預(yù)測(cè)結(jié)果中均不存在“4=空氣質(zhì)量為中度污染”的預(yù)測(cè)結(jié)果。結(jié)合表2—表8 可以發(fā)現(xiàn),當(dāng)空氣質(zhì)量為良時(shí),預(yù)測(cè)值和真實(shí)值的重合度高,這是因?yàn)閰⑴c機(jī)器學(xué)習(xí)訓(xùn)練和測(cè)試的數(shù)據(jù)集中有56.43%的樣本空氣質(zhì)量等級(jí)為良。同時(shí),“空氣質(zhì)量為優(yōu)”占27.38%,“空氣質(zhì)量為輕度污染”“空氣質(zhì)量為中度污染”“空氣質(zhì)量為重度污染”的樣本類型共占16.21%,由于后幾類樣本的數(shù)據(jù)較少,因此構(gòu)建的機(jī)器學(xué)習(xí)模型對(duì)其預(yù)測(cè)能力較弱,這也會(huì)對(duì)模型的整體預(yù)測(cè)精度產(chǎn)生影響,說(shuō)明樣本的選取會(huì)對(duì)模型預(yù)測(cè)效果產(chǎn)生一定影響。

利用3 種機(jī)器學(xué)習(xí)方法對(duì)于2021 年1-3 月上海市空氣質(zhì)量評(píng)價(jià)進(jìn)行預(yù)測(cè)得到的預(yù)測(cè)結(jié)果如表10所示。

Table 10 Comparison of prediction results of each method表10 各類方法的預(yù)測(cè)結(jié)果對(duì)比

由表10 可知,基于3 類機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測(cè)模型預(yù)測(cè)精度都較高,均達(dá)68%以上,這說(shuō)明利用機(jī)器學(xué)習(xí)方法進(jìn)行上海市空氣質(zhì)量預(yù)測(cè)是有效的。其中,4 類基于不同核函數(shù)和分類方法的支持向量機(jī)的預(yù)測(cè)精度最高,其中,基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)準(zhǔn)確率最高,為80.00%,基于高斯核函數(shù)和一對(duì)多分類方法的支持向量機(jī)準(zhǔn)確率相對(duì)于其它3 類支持向量機(jī)模型預(yù)測(cè)效果較差,預(yù)測(cè)準(zhǔn)確率為77.78%。除支持向量機(jī)模型外,CART 決策樹的預(yù)測(cè)準(zhǔn)確率為74.44%,BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果最差,僅為68.89%。

3 研究結(jié)論與建議

3.1 結(jié)論

本文通過(guò)對(duì)2016 年1 月1 日-2020 年12 月31 日空氣質(zhì)量數(shù)據(jù)的分析,得到以下結(jié)論:

(1)將前一日的6 項(xiàng)空氣質(zhì)量指標(biāo)數(shù)據(jù)和空氣質(zhì)量指數(shù)作為機(jī)器學(xué)習(xí)模型的輸入變量,可以很好地預(yù)測(cè)當(dāng)日空氣質(zhì)量評(píng)價(jià)結(jié)果,其中支持向量機(jī)的預(yù)測(cè)精度最高,CART決策樹次之,預(yù)測(cè)準(zhǔn)確率最差的是BP 神經(jīng)網(wǎng)絡(luò),為68.89%。這也證明了在上海市空氣質(zhì)量評(píng)價(jià)結(jié)果預(yù)測(cè)問(wèn)題上,支持向量機(jī)的預(yù)測(cè)能力要優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)及CART決策樹。

(2)在4 類基于不同核函數(shù)和分類方法的支持向量機(jī)模型中,基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)準(zhǔn)確率最高,為80.00%,基于高斯核函數(shù)和一對(duì)多分類方法的支持向量機(jī)準(zhǔn)確率相對(duì)于其它3 類支持向量機(jī)模型預(yù)測(cè)效果較差,預(yù)測(cè)準(zhǔn)確率為77.78%。

(3)當(dāng)空氣質(zhì)量為良時(shí),本文所構(gòu)建模型的預(yù)測(cè)值和真實(shí)值重合度高。在真實(shí)樣本中,存在1 個(gè)“空氣質(zhì)量為中度污染”的數(shù)據(jù),而6 個(gè)模型的預(yù)測(cè)結(jié)果中均不存在“4=空氣質(zhì)量為中度污染”的預(yù)測(cè)結(jié)果。因此,樣本量會(huì)對(duì)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果產(chǎn)生一定影響。

(4)本文構(gòu)建的機(jī)器學(xué)習(xí)模型是以每日上海市空氣質(zhì)量等級(jí)為預(yù)測(cè)對(duì)象,而空氣質(zhì)量指數(shù)存在一定的季節(jié)變化特征。今后還需在擴(kuò)大樣本量的同時(shí),基于四季分別建立預(yù)測(cè)模型。

(5)本文針對(duì)空氣質(zhì)量評(píng)價(jià)結(jié)果的預(yù)測(cè)僅考慮了細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、臭氧(O3)、二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)這6 項(xiàng)空氣質(zhì)量指標(biāo)。今后還需考慮污染源排放、人類活動(dòng)、區(qū)域環(huán)境等更多可能會(huì)對(duì)當(dāng)?shù)乜諝赓|(zhì)量產(chǎn)生影響的因素。

3.2 建議

為解決上海市空氣污染問(wèn)題,本文提出以下建議:①建立全方位管理機(jī)制,聯(lián)合政府、技術(shù)、環(huán)保行政等多個(gè)有關(guān)部門對(duì)空氣污染問(wèn)題進(jìn)行有效管理和監(jiān)控的同時(shí),深化完善加強(qiáng)大氣污染聯(lián)防聯(lián)控工作機(jī)制;②充分利用現(xiàn)有的研究基礎(chǔ),結(jié)合各領(lǐng)域、各行業(yè)的知識(shí)和技術(shù)針對(duì)空氣質(zhì)量和空氣污染問(wèn)題建立有效的預(yù)警系統(tǒng)。

猜你喜歡
空氣質(zhì)量向量神經(jīng)網(wǎng)絡(luò)
向量的分解
聚焦“向量與三角”創(chuàng)新題
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
“空氣質(zhì)量發(fā)布”APP上線
車內(nèi)空氣質(zhì)量標(biāo)準(zhǔn)進(jìn)展
重視車內(nèi)空氣質(zhì)量工作 制造更環(huán)保、更清潔、更健康的汽車
開展“大氣污染執(zhí)法年”行動(dòng) 加快推動(dòng)空氣質(zhì)量改善
向量垂直在解析幾何中的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
向量五種“變身” 玩轉(zhuǎn)圓錐曲線