基于機(jī)器學(xué)習(xí)的上海市空氣質(zhì)量預(yù)測(cè)方法研究

2022-08-25 09:56郭進(jìn)利

軟件導(dǎo)刊 2022年8期

關(guān)鍵詞：空氣質(zhì)量向量神經(jīng)網(wǎng)絡(luò)

張勤，郭進(jìn)利

（上海理工大學(xué)管理學(xué)院，上海 200093）

0 引言

中共中央總書記、國(guó)家主席、中央軍委主席習(xí)近平在2018 年全國(guó)生態(tài)環(huán)境保護(hù)大會(huì)上強(qiáng)調(diào)，要堅(jiān)決打好污染防治攻堅(jiān)戰(zhàn)，推動(dòng)生態(tài)文明建設(shè)邁上新臺(tái)階［1］?？諝馐堑厍虼髿鈱又械臍怏w混合，也是人類賴以生存的自然資源之一。21 世紀(jì)以來(lái)，空氣污染已成為人類面臨的重大課題。因此，建立全面且準(zhǔn)確的空氣質(zhì)量預(yù)測(cè)模型極為重要，這既可為市民出行提供建議，也能夠在一定程度上幫助相關(guān)部門作決策。

在已有研究中，各領(lǐng)域?qū)W者以各自的角度通過(guò)不同的方法分析影響空氣質(zhì)量的主要因素，并對(duì)其進(jìn)行預(yù)測(cè)。研究方法也多種多樣，從線性回歸、時(shí)間序列模型，到近年來(lái)比較熱門的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等，都較為常用。胡玉筱等［2］采用高斯煙羽模型仿真西安市PM2.5 的擴(kuò)散規(guī)律后，結(jié)合氣象因素?cái)?shù)據(jù)構(gòu)造多元線性回歸模型以進(jìn)行PM2.5的演變預(yù)測(cè)；王建書等［3］借助ARIMA 模型對(duì)蘇州市空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)；楊思琪等［4］基于隨機(jī)森林算法的分類與回歸功能，采用交叉驗(yàn)證法構(gòu)建空氣質(zhì)量預(yù)測(cè)模型；郭慶春等［5］應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)大氣污染，得到空氣污染指數(shù)API 的非線性時(shí)間序列神經(jīng)網(wǎng)絡(luò)模型；程蓉等［6］基于神經(jīng)隨機(jī)森林算法構(gòu)建一個(gè)局部空氣質(zhì)量預(yù)測(cè)模型；李翔［7］構(gòu)建GAB 迭代算法和模糊BP 神經(jīng)網(wǎng)絡(luò)組合預(yù)測(cè)模型；康兵兵等［8］提出深度棧式自編碼模型，選擇PM2.5、PM10等氣象因素?cái)?shù)據(jù)作為樣本，建立最優(yōu)空氣預(yù)測(cè)模型。

近年來(lái)，機(jī)器學(xué)習(xí)研究備受關(guān)注，并已成為人工智能的核心研究領(lǐng)域之一。但在對(duì)空氣質(zhì)量或者氣象因子濃度進(jìn)行預(yù)測(cè)時(shí)，絕大多數(shù)專家學(xué)者往往只應(yīng)用一種機(jī)器學(xué)習(xí)算法，而在空氣污染及其相關(guān)問(wèn)題上鮮少有文章對(duì)幾類機(jī)器學(xué)習(xí)算法進(jìn)行同一維度上的比較分析。鑒于空氣污染物濃度的非線性特征，本文考慮采用較熱門的幾類機(jī)器學(xué)習(xí)方法對(duì)上海市空氣質(zhì)量等級(jí)進(jìn)行預(yù)測(cè)［9］，分別構(gòu)建基于BP 神經(jīng)網(wǎng)絡(luò)算法、決策樹算法、支持向量機(jī)算法的上海市空氣質(zhì)量預(yù)測(cè)模型。其中，設(shè)置2016 年1 月1 日-2020年12 月31 日上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練集和測(cè)試集對(duì)模型進(jìn)行訓(xùn)練，2021 年1 月1 日-2021 年3 月31 日相關(guān)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù)集以檢驗(yàn)?zāi)Ｐ陀行?，將前一日的PM2.5、PM10、O3、SO2、NO2、CO 共6 項(xiàng)氣象因素?cái)?shù)據(jù)、前日空氣質(zhì)量指數(shù)及相關(guān)數(shù)據(jù)作為輸入變量，當(dāng)日空氣質(zhì)量指數(shù)數(shù)據(jù)作為輸出變量，最終將3 者的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比。本文所構(gòu)建的3 個(gè)模型能夠?yàn)槭忻裉峁┐稳湛諝赓|(zhì)量為“優(yōu)”“良”“輕度污染”“中度污染”“重度污染”或者“重污染”的預(yù)警報(bào)告。

1 方法與框架

1.1 機(jī)器學(xué)習(xí)分類算法

本研究選取目前預(yù)測(cè)及分類問(wèn)題中應(yīng)用較廣泛且準(zhǔn)確度較高的BP 神經(jīng)網(wǎng)絡(luò)、決策樹以及支持向量機(jī)模型構(gòu)建上海市空氣質(zhì)量預(yù)測(cè)模型。

1.1.1 BP神經(jīng)網(wǎng)絡(luò)

在預(yù)測(cè)問(wèn)題中，BP 神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最廣泛的機(jī)器學(xué)習(xí)算法之一。它是一種多層前饋神經(jīng)網(wǎng)絡(luò)，該網(wǎng)絡(luò)采用誤差逆?zhèn)鞑ニ惴?，也稱BP 算法，即信號(hào)是前向傳播的，而誤差是反向傳播的［10］。正向傳播時(shí)，輸入數(shù)據(jù)通過(guò)第一層輸入層進(jìn)入網(wǎng)絡(luò)，依次經(jīng)過(guò)隱含層，最后到達(dá)輸出層得到模擬輸出值。若模擬輸出值與期望輸出值不同，則將其誤差平方和作為神經(jīng)網(wǎng)絡(luò)的誤差并轉(zhuǎn)至第二個(gè)過(guò)程，即誤差反向傳播過(guò)程。誤差反向傳播時(shí)，誤差將按原路反傳并分?jǐn)偨o各層的所有單元，進(jìn)而得到各層各神經(jīng)元的誤差信號(hào)，該信號(hào)是更新各單元權(quán)值的依據(jù)［11］。上述信號(hào)正向傳播和誤差反向傳播兩個(gè)過(guò)程不斷循環(huán)進(jìn)行以逼近期望輸出，直到誤差減少到允許的程度或者訓(xùn)練次數(shù)達(dá)到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)［12］。

在本研究中，利用訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)對(duì)2021 年1-3 月每日空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)后，根據(jù)空氣質(zhì)量指數(shù)分級(jí)表對(duì)輸出值進(jìn)行分類，得到最終預(yù)測(cè)分類結(jié)果。

1.1.2 CART決策樹

決策樹方法被廣泛應(yīng)用于分類、預(yù)測(cè)等領(lǐng)域，它通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí)，在每個(gè)節(jié)點(diǎn)上選擇出最優(yōu)屬性進(jìn)行分類［13］。決策樹算法包括ID3 算法、C4.5 算法、CART 算法等。前兩者用于分類，基于CART 算法構(gòu)建的決策樹不僅可以用于分類還可用于回歸。ID3 算法使用信息增益選擇特征，C4.5算法的特征選擇準(zhǔn)則為信息增益比，而CART 決策樹在進(jìn)行分類時(shí)，選擇基尼系數(shù)作為特征選擇的原則［14］。

本研究主要使用基于CART 算法的決策樹對(duì)上海市空氣質(zhì)量評(píng)價(jià)進(jìn)行預(yù)測(cè)分類。

1.1.3 支持向量機(jī)

支持向量機(jī)（Support Vector Machine，SVM）作為一種分類算法，主要用于解決二分類問(wèn)題，其基本思想是求解一個(gè)能夠正確劃分訓(xùn)練數(shù)據(jù)集且最大化幾何間隔的分離超平面。在實(shí)際應(yīng)用中，往往需要解決多分類問(wèn)題，若將該算法推廣到多分類問(wèn)題，即訓(xùn)練樣本集為X={(x1，y1)，(x2，y2)，…，(xN，yN)}，類標(biāo)簽yn∈{1，2，…，M}，n=1，2，…，N時(shí)，支持向量機(jī)所使用的基本方法有所不同［15］。本文主要涉及兩類方法，分別為一對(duì)一分類方法（也稱為成對(duì)分類方法）和一對(duì)多分類方法。

一對(duì)一分類方法指在任意兩個(gè)類別之間構(gòu)造一個(gè)支持向量機(jī)分類器。因此，若類標(biāo)簽集合中有M 個(gè)元素，則需要構(gòu)造M（M-1）/2 個(gè)分類器。對(duì)未知的測(cè)試樣本進(jìn)行分類時(shí)，這些構(gòu)造好的分類器會(huì)依次對(duì)該樣本進(jìn)行分類，該過(guò)程可以視為每個(gè)分類器對(duì)分類結(jié)果進(jìn)行一次投票，最終將票數(shù)最多的類別作為該未知樣本的類別［16］。

一對(duì)多分類方法指按序依次將某個(gè)類別的樣本歸為一類，其余樣本歸為另一類［17］。因此，若類標(biāo)簽集合中有M 個(gè)元素，則需要構(gòu)造M 個(gè)支持向量機(jī)分類器。對(duì)未知的測(cè)試樣本進(jìn)行分類時(shí)，這些構(gòu)造好的M 個(gè)分類器會(huì)依次對(duì)該樣本進(jìn)行分類并得出對(duì)應(yīng)的分類函數(shù)值，其中具有最大分類函數(shù)值的類別即為該未知樣本的類別。該方法的主要缺點(diǎn)是訓(xùn)練和測(cè)試速度較慢且當(dāng)測(cè)試樣本不屬于這M個(gè)類別時(shí)，則會(huì)被錯(cuò)誤分類［18］。

基于一對(duì)一及一對(duì)多分類方法、線性核以及高斯核函數(shù)，本研究共建立4 個(gè)支持向量機(jī)模型并對(duì)其進(jìn)行訓(xùn)練，將訓(xùn)練好的模型在待預(yù)測(cè)樣本集上進(jìn)行預(yù)測(cè)。

1.2 研究框架

為有效預(yù)測(cè)空氣質(zhì)量，本文提出基于3 類機(jī)器學(xué)習(xí)算法的上海市空氣質(zhì)量預(yù)測(cè)模型。本文研究框架如圖1所示。

首先，以上海市空氣質(zhì)量為研究對(duì)象獲取2016 年1 月1 日-2021 年3 月31 日的PM2.5、PM10、O3、SO2、NO2、CO 這6項(xiàng)氣象因素?cái)?shù)據(jù)和空氣質(zhì)量評(píng)價(jià)結(jié)果；然后，對(duì)數(shù)據(jù)集進(jìn)行劃分，設(shè)置2016 年1 月1 日-2020 年12 月31 日上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練集和測(cè)試集，2021 年1 月1 日-2021年3 月31 日相關(guān)數(shù)據(jù)作為檢驗(yàn)數(shù)據(jù)集以檢驗(yàn)?zāi)Ｐ陀行?；接著，?duì)各模型調(diào)參后分別進(jìn)行訓(xùn)練；最后，利用訓(xùn)練好的基于不同算法的預(yù)測(cè)模型對(duì)檢驗(yàn)集上的上海市空氣質(zhì)量數(shù)據(jù)進(jìn)行預(yù)測(cè)分類。

Fig.1 Research framework圖1 研究框架

2 實(shí)證分析

2.1 數(shù)據(jù)來(lái)源與處理

2.1.1 樣本數(shù)據(jù)時(shí)間確定

上海市人大常委會(huì)于第二十六次會(huì)議表決通過(guò)的《上海市煙花爆竹安全管理?xiàng)l例（修訂草案）》明確提出，禁止在外環(huán)線以內(nèi)區(qū)域、外環(huán)線以外8 類場(chǎng)所燃放煙花爆竹；在禁放區(qū)域內(nèi)不得經(jīng)營(yíng)、儲(chǔ)存、運(yùn)輸煙花爆竹，并且該條例于2016年元旦起實(shí)施。

因此，為保證樣本的可靠性和一致性，本文采集的樣本觀測(cè)數(shù)據(jù)均為2016年1月1日及以后。

2.1.2 數(shù)據(jù)來(lái)源

本文從上海市生態(tài)環(huán)境局（https：//sthj.sh.gov.cn/）選取上海市2016 年1 月1 日-2021 年3 月31 日的細(xì)顆粒物（PM2.5）、可吸入顆粒物（PM10）、臭氧（O3）、二氧化硫（SO2）、二氧化氮（NO2）、一氧化碳（CO）這6 種重要的空氣質(zhì)量指標(biāo)、空氣質(zhì)量指數(shù)（Air Quality Index）以及每日的質(zhì)量評(píng)價(jià)結(jié)果。其中，本文將2016 年1 月1 日-2020 年12 月31 日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，將2021 年1 月1 日-2021 年3 月31 日的數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)，以檢驗(yàn)所建模型的有效性和準(zhǔn)確性。

本文將前一日的PM2.5、PM10、O3、SO2、NO2、CO 這6 種重要的空氣質(zhì)量指標(biāo)和前一日的空氣質(zhì)量指數(shù)作為輸入變量，將相應(yīng)的每日質(zhì)量評(píng)價(jià)結(jié)果作為待預(yù)測(cè)的輸出變量。

2.1.3 因變量預(yù)處理

本文將空氣質(zhì)量評(píng)價(jià)作為待處理因變量，根據(jù)空氣污染指數(shù)AQI將空氣質(zhì)量分為6個(gè)等級(jí)［19］，如表1所示。

Table 1 Air pollution index and corresponding air quality grade表1 空氣污染指數(shù)及對(duì)應(yīng)的空氣質(zhì)量等級(jí)

根據(jù)表1，將所選的1 914 組樣本分為6 組，其中空氣質(zhì)量評(píng)價(jià)=1（優(yōu)）的天數(shù)為524 個(gè)，占比27.38%；空氣質(zhì)量評(píng)價(jià)=2（良）的天數(shù)為1 080 個(gè)，占比56.43%；空氣質(zhì)量評(píng)價(jià)=3（輕度污染）的天數(shù)為265 個(gè)，占比13.85%；空氣質(zhì)量評(píng)價(jià)=4（中度污染）的天數(shù)為38 個(gè)，占比1.99%；空氣質(zhì)量評(píng)價(jià)=5（重度污染）的天數(shù)為7 個(gè)，占比0.37%；無(wú)空氣質(zhì)量評(píng)價(jià)=6（重污染）的數(shù)據(jù)樣本。

2.2 基于BP神經(jīng)網(wǎng)絡(luò)的上海市空氣質(zhì)量預(yù)測(cè)

本文采用3 層BP 神經(jīng)網(wǎng)絡(luò)模型，即隱含層層數(shù)為1。將PM2.5、PM10、O3、SO2、NO2、CO 這6 項(xiàng)空氣質(zhì)量指標(biāo)以及前日空氣質(zhì)量指數(shù)數(shù)據(jù)作為BP 神經(jīng)網(wǎng)絡(luò)模型的7 個(gè)輸入層變量，當(dāng)日空氣質(zhì)量指數(shù)作為該模型的輸出變量。根據(jù)經(jīng)驗(yàn)公式確定隱含層節(jié)點(diǎn)個(gè)數(shù)，其中n 為輸入層節(jié)點(diǎn)個(gè)數(shù)，q為輸出層節(jié)點(diǎn)個(gè)數(shù)，a為1～10的整數(shù)，m為隱含層節(jié)點(diǎn)個(gè)數(shù)［20］。因此，m 的取值范圍為3～13。

本研究將2016 年1 月至2020 年12 月上海市空氣質(zhì)量數(shù)據(jù)作為訓(xùn)練樣本，利用Matlab 軟件作為實(shí)驗(yàn)平臺(tái)，設(shè)置訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分比例為70∶15∶15，訓(xùn)練函數(shù)為L(zhǎng)evenberg-Marquardt 函數(shù)，性能函數(shù)為MSE，最大訓(xùn)練次數(shù)為1 000。

為確定隱含層節(jié)點(diǎn)數(shù)，采用試湊法對(duì)不同隱含層節(jié)點(diǎn)數(shù)進(jìn)行逐一判斷。對(duì)基于不同隱含層節(jié)點(diǎn)數(shù)的11 個(gè)BP 神經(jīng)網(wǎng)絡(luò)模型分別訓(xùn)練3 次，并計(jì)算該11 個(gè)模型3 次訓(xùn)練過(guò)程的均方誤差的平均值。結(jié)果發(fā)現(xiàn)，當(dāng)隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為13 時(shí)，其平均相對(duì)誤差最小。因此，本文構(gòu)建的BP 神經(jīng)網(wǎng)絡(luò)模型的隱含層節(jié)點(diǎn)個(gè)數(shù)為13。

利用訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)對(duì)2021 年1-3 月每日空氣質(zhì)量指數(shù)進(jìn)行預(yù)測(cè)后，根據(jù)空氣質(zhì)量指數(shù)分級(jí)表對(duì)輸出值進(jìn)行分類，得到最終預(yù)測(cè)結(jié)果。神經(jīng)網(wǎng)絡(luò)測(cè)試集混淆矩陣如表2 所示。由于在2021 年1-3 月期間，上海市空氣質(zhì)量評(píng)價(jià)結(jié)果及各模型預(yù)測(cè)結(jié)果僅存在“優(yōu)”“良”“輕度污染”“中度污染”4 種情況，因此在后續(xù)模型建立及混淆矩陣中，僅考慮這4類空氣質(zhì)量評(píng)價(jià)結(jié)果。

Table 2 Confusion matrix of prediction results based on BPNN表2 BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的混淆矩陣

由表2 可以看出，BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)為1，而真實(shí)情況也為1 的有7 次；預(yù)測(cè)為2，真實(shí)情況為1 的有20 次；預(yù)測(cè)為1，真實(shí)情況為2 的有1 次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有55 次；預(yù)測(cè)為3，而真實(shí)情況為2 的有4 次；預(yù)測(cè)為1，而真實(shí)情況為3 的有1 次；預(yù)測(cè)為2，真實(shí)情況為3 的有1 次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

綜上，在90 組待預(yù)測(cè)數(shù)據(jù)中存在62 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致，因此該模型總體預(yù)測(cè)準(zhǔn)確率為68.89%。

2.3 基于CART決策樹的上海市空氣質(zhì)量預(yù)測(cè)

利用Matlab 中Classification Learner 模塊下的決策樹算法，采用10 折交叉驗(yàn)證，設(shè)置輸入變量為前一日的6 項(xiàng)空氣質(zhì)量指標(biāo)以及前一日的空氣質(zhì)量評(píng)價(jià)等級(jí)，包括“1=空氣質(zhì)量為優(yōu)”、“2=空氣質(zhì)量為良”、“3=輕度污染”、“4=中度污染”、“5=重度污染”，設(shè)置輸出變量為當(dāng)日空氣質(zhì)量評(píng)價(jià)等級(jí)，對(duì)決策樹模型進(jìn)行訓(xùn)練，訓(xùn)練時(shí)長(zhǎng)為4.087 7s。利用訓(xùn)練好的模型對(duì)2021 年1 月至3 月的樣本數(shù)據(jù)集進(jìn)行預(yù)測(cè)，預(yù)測(cè)結(jié)果對(duì)應(yīng)的混淆矩陣見(jiàn)如表3所示。

Table 3 Confusion matrix of prediction results based on decision tree表3 決策樹算法預(yù)測(cè)結(jié)果的混淆矩陣

由表3 可以看出，決策樹算法預(yù)測(cè)為1，而真實(shí)情況也為1 的有13 次；預(yù)測(cè)為2，真實(shí)情況為1 的有13 次；預(yù)測(cè)為3，真實(shí)情況為1 的有1 次；預(yù)測(cè)為1，真實(shí)情況為2 的有3次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有54 次；預(yù)測(cè)為3，真實(shí)情況為2 的有3 次；預(yù)測(cè)為2，真實(shí)情況為3 的有2 次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

綜上，在90 組預(yù)測(cè)數(shù)據(jù)中存在67 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致，因此該模型總體預(yù)測(cè)準(zhǔn)確率為74.44%。

2.4 基于支持向量機(jī)的上海市空氣質(zhì)量預(yù)測(cè)

基于Matlab 中Classification Learner 工具箱的支持向量機(jī)算法，采用10 折交叉驗(yàn)證，分別將線性核和高斯核作為核函數(shù)，這是因?yàn)楹撕瘮?shù)及參數(shù)選取很大程度上能夠決定支持向量機(jī)性能優(yōu)劣。分別基于一對(duì)一分類方法及一對(duì)多分類方法的支持向量機(jī)模型進(jìn)行訓(xùn)練后，將訓(xùn)練好的模型在待預(yù)測(cè)樣本集上進(jìn)行預(yù)測(cè)。這4 類模型訓(xùn)練時(shí)間以及對(duì)訓(xùn)練數(shù)據(jù)集的預(yù)測(cè)準(zhǔn)確率如表4所示。

Table 4 Model training time and training accuracy表4 模型訓(xùn)練時(shí)間及訓(xùn)練準(zhǔn)確率

由表4 可知，構(gòu)建一個(gè)基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)模型所需要的訓(xùn)練時(shí)間最長(zhǎng)，為10.883s，但該模型的訓(xùn)練準(zhǔn)確率最差，為59.9%；構(gòu)建一個(gè)基于高斯核函數(shù)和一對(duì)一分類方法的支持向量機(jī)模型所需的訓(xùn)練時(shí)間最短，然而該模型訓(xùn)練準(zhǔn)確率最優(yōu)，為61.3%。

4 個(gè)基于不同核函數(shù)及不同分類方法的支持向量機(jī)模型輸出的混淆矩陣如表5—表8所示。

Table 5 Confusion matrix of SVM based on linear kernel and oneagainst-one classification method表5 基于線性核及一對(duì)一分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表5 可以看出，基于線性核及一對(duì)一分類方法的支持向量機(jī)預(yù)測(cè)為1，而真實(shí)情況也為1 的有19 次；預(yù)測(cè)為2，真實(shí)情況為1 的有8 次；預(yù)測(cè)為1，真實(shí)情況為2 的有8次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有52 次；預(yù)測(cè)為2，真實(shí)情況為3的有2次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

綜上，在90 組預(yù)測(cè)數(shù)據(jù)中存在71 組數(shù)據(jù)的預(yù)測(cè)結(jié)果與真實(shí)結(jié)果一致，因此該模型總體預(yù)測(cè)準(zhǔn)確率為78.89%。

Table 6 Confusion matrix of SVM based on linear kernel and oneagainst-all classification method表6 基于線性核以及一對(duì)多分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表6 可以看出，基于線性核及一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)為1，而真實(shí)情況也為1 的有19 次；預(yù)測(cè)為2，真實(shí)情況為1 的有8 次；預(yù)測(cè)為1，真實(shí)情況為2 的有7次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有53 次；預(yù)測(cè)為2，真實(shí)情況為3的有2次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

綜上，在90 組預(yù)測(cè)數(shù)據(jù)中存在72 組數(shù)據(jù)的預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致，因此該模型的總體預(yù)測(cè)準(zhǔn)確率為80%。

由表7 可以看出，基于高斯核及一對(duì)一分類方法的支持向量機(jī)預(yù)測(cè)為1，而真實(shí)情況也為1 的有14 次；預(yù)測(cè)為2，真實(shí)情況為1 的有13 次；預(yù)測(cè)為1，真實(shí)情況為2 的有3次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有57 次；預(yù)測(cè)為2，真實(shí)情況為3的有2次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

Table 7 Confusion matrix of SVM based on Gauss kernel and oneagainst-one classification method表7 基于高斯核及一對(duì)一分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

綜上，在90 組預(yù)測(cè)數(shù)據(jù)中存在71 組數(shù)據(jù)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致，因此該模型的總體預(yù)測(cè)準(zhǔn)確率為78.89%。

Table 8 Confusion matrix of SVM based on Gauss kernel and oneagainst-all classification method表8 基于高斯核以及一對(duì)多分類方法的SVM預(yù)測(cè)結(jié)果混淆矩陣

由表8 可以看出，基于高斯核以及一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)為1，而真實(shí)情況也為1 的有16 次；預(yù)測(cè)為2，真實(shí)情況為1 的有11 次；預(yù)測(cè)為1，真實(shí)情況為2 的有6次；預(yù)測(cè)為2，而真實(shí)情況也為2 的有54 次；預(yù)測(cè)為2，真實(shí)情況為3的有2次；預(yù)測(cè)為2，真實(shí)情況為4的有1次。

綜上，在90 組預(yù)測(cè)數(shù)據(jù)中存在70 組數(shù)據(jù)預(yù)測(cè)結(jié)果和真實(shí)結(jié)果一致，因此該模型的總體預(yù)測(cè)準(zhǔn)確率為77.78%。

2.5 模型預(yù)測(cè)結(jié)果對(duì)比及分析

將基于3 類機(jī)器學(xué)習(xí)算法的6 個(gè)上海市空氣質(zhì)量模型的預(yù)測(cè)結(jié)果綜合后，如表9所示。

Table 9 Air pollution level prediction results of each model表9 各模型的空氣質(zhì)量等級(jí)預(yù)測(cè)結(jié)果

從表9 中可以看出，在真實(shí)樣本中，存在1 個(gè)“4=空氣質(zhì)量為中度污染”的數(shù)據(jù)，而6 個(gè)模型的預(yù)測(cè)結(jié)果中均不存在“4=空氣質(zhì)量為中度污染”的預(yù)測(cè)結(jié)果。結(jié)合表2—表8 可以發(fā)現(xiàn)，當(dāng)空氣質(zhì)量為良時(shí)，預(yù)測(cè)值和真實(shí)值的重合度高，這是因?yàn)閰⑴c機(jī)器學(xué)習(xí)訓(xùn)練和測(cè)試的數(shù)據(jù)集中有56.43%的樣本空氣質(zhì)量等級(jí)為良。同時(shí)，“空氣質(zhì)量為優(yōu)”占27.38%，“空氣質(zhì)量為輕度污染”“空氣質(zhì)量為中度污染”“空氣質(zhì)量為重度污染”的樣本類型共占16.21%，由于后幾類樣本的數(shù)據(jù)較少，因此構(gòu)建的機(jī)器學(xué)習(xí)模型對(duì)其預(yù)測(cè)能力較弱，這也會(huì)對(duì)模型的整體預(yù)測(cè)精度產(chǎn)生影響，說(shuō)明樣本的選取會(huì)對(duì)模型預(yù)測(cè)效果產(chǎn)生一定影響。

利用3 種機(jī)器學(xué)習(xí)方法對(duì)于2021 年1-3 月上海市空氣質(zhì)量評(píng)價(jià)進(jìn)行預(yù)測(cè)得到的預(yù)測(cè)結(jié)果如表10所示。

Table 10 Comparison of prediction results of each method表10 各類方法的預(yù)測(cè)結(jié)果對(duì)比

由表10 可知，基于3 類機(jī)器學(xué)習(xí)算法構(gòu)建的預(yù)測(cè)模型預(yù)測(cè)精度都較高，均達(dá)68%以上，這說(shuō)明利用機(jī)器學(xué)習(xí)方法進(jìn)行上海市空氣質(zhì)量預(yù)測(cè)是有效的。其中，4 類基于不同核函數(shù)和分類方法的支持向量機(jī)的預(yù)測(cè)精度最高，其中，基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)準(zhǔn)確率最高，為80.00%，基于高斯核函數(shù)和一對(duì)多分類方法的支持向量機(jī)準(zhǔn)確率相對(duì)于其它3 類支持向量機(jī)模型預(yù)測(cè)效果較差，預(yù)測(cè)準(zhǔn)確率為77.78%。除支持向量機(jī)模型外，CART 決策樹的預(yù)測(cè)準(zhǔn)確率為74.44%，BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果最差，僅為68.89%。

3 研究結(jié)論與建議

3.1 結(jié)論

本文通過(guò)對(duì)2016 年1 月1 日-2020 年12 月31 日空氣質(zhì)量數(shù)據(jù)的分析，得到以下結(jié)論：

（1）將前一日的6 項(xiàng)空氣質(zhì)量指標(biāo)數(shù)據(jù)和空氣質(zhì)量指數(shù)作為機(jī)器學(xué)習(xí)模型的輸入變量，可以很好地預(yù)測(cè)當(dāng)日空氣質(zhì)量評(píng)價(jià)結(jié)果，其中支持向量機(jī)的預(yù)測(cè)精度最高，CART決策樹次之，預(yù)測(cè)準(zhǔn)確率最差的是BP 神經(jīng)網(wǎng)絡(luò)，為68.89%。這也證明了在上海市空氣質(zhì)量評(píng)價(jià)結(jié)果預(yù)測(cè)問(wèn)題上，支持向量機(jī)的預(yù)測(cè)能力要優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)及CART決策樹。

（2）在4 類基于不同核函數(shù)和分類方法的支持向量機(jī)模型中，基于線性核函數(shù)和一對(duì)多分類方法的支持向量機(jī)預(yù)測(cè)準(zhǔn)確率最高，為80.00%，基于高斯核函數(shù)和一對(duì)多分類方法的支持向量機(jī)準(zhǔn)確率相對(duì)于其它3 類支持向量機(jī)模型預(yù)測(cè)效果較差，預(yù)測(cè)準(zhǔn)確率為77.78%。

（3）當(dāng)空氣質(zhì)量為良時(shí)，本文所構(gòu)建模型的預(yù)測(cè)值和真實(shí)值重合度高。在真實(shí)樣本中，存在1 個(gè)“空氣質(zhì)量為中度污染”的數(shù)據(jù)，而6 個(gè)模型的預(yù)測(cè)結(jié)果中均不存在“4=空氣質(zhì)量為中度污染”的預(yù)測(cè)結(jié)果。因此，樣本量會(huì)對(duì)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果產(chǎn)生一定影響。

（4）本文構(gòu)建的機(jī)器學(xué)習(xí)模型是以每日上海市空氣質(zhì)量等級(jí)為預(yù)測(cè)對(duì)象，而空氣質(zhì)量指數(shù)存在一定的季節(jié)變化特征。今后還需在擴(kuò)大樣本量的同時(shí)，基于四季分別建立預(yù)測(cè)模型。

（5）本文針對(duì)空氣質(zhì)量評(píng)價(jià)結(jié)果的預(yù)測(cè)僅考慮了細(xì)顆粒物（PM2.5）、可吸入顆粒物（PM10）、臭氧（O3）、二氧化硫（SO2）、二氧化氮（NO2）、一氧化碳（CO）這6 項(xiàng)空氣質(zhì)量指標(biāo)。今后還需考慮污染源排放、人類活動(dòng)、區(qū)域環(huán)境等更多可能會(huì)對(duì)當(dāng)?shù)乜諝赓|(zhì)量產(chǎn)生影響的因素。

3.2 建議

為解決上海市空氣污染問(wèn)題，本文提出以下建議：①建立全方位管理機(jī)制，聯(lián)合政府、技術(shù)、環(huán)保行政等多個(gè)有關(guān)部門對(duì)空氣污染問(wèn)題進(jìn)行有效管理和監(jiān)控的同時(shí)，深化完善加強(qiáng)大氣污染聯(lián)防聯(lián)控工作機(jī)制；②充分利用現(xiàn)有的研究基礎(chǔ)，結(jié)合各領(lǐng)域、各行業(yè)的知識(shí)和技術(shù)針對(duì)空氣質(zhì)量和空氣污染問(wèn)題建立有效的預(yù)警系統(tǒng)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡