陳嘉昊,劉 佳
(北京信息科技大學(xué),北京 100192)
基于數(shù)據(jù)挖掘的霧霾預(yù)測和分析
陳嘉昊1,劉 佳2
(北京信息科技大學(xué),北京 100192)
近幾年我國很多地區(qū)出現(xiàn)的嚴(yán)重霧霾天氣給人們的生活造成了巨大影響。根據(jù)互聯(lián)網(wǎng)上北京近年的空氣質(zhì)量和氣象數(shù)據(jù),對霧霾的發(fā)生進(jìn)行預(yù)測,并分析各因素在霧霾預(yù)測中的作用。建立包括BP神經(jīng)網(wǎng)絡(luò)在內(nèi)的多種分類模型,通過交叉驗(yàn)證的方式訓(xùn)練模型并得到預(yù)測結(jié)果。選取不同屬性組進(jìn)行分類,結(jié)合ROC曲線、準(zhǔn)確率等評價標(biāo)準(zhǔn),分析不同屬性組對霧霾天氣的影響,從而得出供暖、交通等與霧霾天氣的關(guān)系。該工作可為霧霾的防治提供理論支持。
霧霾;BP神經(jīng)網(wǎng)絡(luò);分類器;數(shù)據(jù)挖掘
近年來霧霾嚴(yán)重影響了人們的日常生活。眾所周知,霧霾天氣的形成,既有氣象原因,也與污染氣體排放、地形等因素密切相關(guān)。就北京而言,冬季燃煤供暖消費(fèi)巨大,機(jī)動車保有量持續(xù)上升,是重要的污染來源。2015年柴靜在《蒼穹之下》之中指出“北京的污染源之中最大的就是來自機(jī)動車”,而中科院大氣物理研究所某課題組曾對外公布了一組數(shù)據(jù):三大主要PM2.5的來源是土壤粉塵(15%)、燃煤(18%)、生物質(zhì)燃燒(12%),然而機(jī)動車尾氣只占4%。各污染因素對霧霾的產(chǎn)生起多大作用,特別是機(jī)動車尾氣和供暖對霧霾的影響哪個更大,一直是一個飽受爭議的話題。近年來已經(jīng)有不少學(xué)者運(yùn)用多種非線性的模型對霧霾天氣進(jìn)行了預(yù)測和分析,但是對于上述爭議性話題還沒有系統(tǒng)的分析研究。本文基于網(wǎng)絡(luò)數(shù)據(jù),通過數(shù)據(jù)挖掘方法,對霧霾的成因,特別是機(jī)動車尾氣和供暖污染對霧霾天氣形成的影響做出分析和評估。
本文提出了一種新方法,基于多種分類算法對霧霾氣象數(shù)據(jù)進(jìn)行預(yù)測分析,通過計算不同屬性組的分類準(zhǔn)確率、ROC(Receiver Operating characteristic Curve)曲線等,對霧霾的不同成因做出評價,分析出機(jī)動車尾氣和供暖廢氣對霧霾天氣的形成的影響。本方法選取與機(jī)動車尾氣、供暖、天氣相關(guān)的屬性分別構(gòu)成三個屬性組,首先用BP神經(jīng)網(wǎng)絡(luò)作為分類器,通過交叉驗(yàn)證對霧霾天氣進(jìn)行預(yù)測,并畫出不同屬性組的ROC曲線,對各屬性組對分類的影響進(jìn)行評估,然后用C4.5、RIPPER、k近鄰、SVM、隨機(jī)森林等多種分類算法進(jìn)行分類預(yù)測,并對分類結(jié)果的正確率、ROC曲線面積等進(jìn)行分析。經(jīng)過以上過程分析得出結(jié)論:北京市機(jī)動車尾氣和燃煤供暖對霧霾天氣的影響較大,且作用相當(dāng)。
近年來已經(jīng)有不少學(xué)者運(yùn)用非線性的分析預(yù)測方式對霧霾天氣進(jìn)行了預(yù)測,其中,運(yùn)用神經(jīng)網(wǎng)絡(luò)方法對進(jìn)行霧霾預(yù)測并構(gòu)建模型,該方法適用于對非線性特征對象的的分析和預(yù)測,以及網(wǎng)絡(luò)具有自學(xué)習(xí)的能力和魯棒性好的特點(diǎn)。艾洪福和石瑩等[1]運(yùn)用了BP神經(jīng)網(wǎng)絡(luò),在對網(wǎng)絡(luò)中間隱層的連接權(quán)和閾值進(jìn)行修正,使得在霧霾天氣指標(biāo)比較單一的情況下,仍能保持網(wǎng)絡(luò)預(yù)測分析的準(zhǔn)確性;馬楚焱、祖健、付清盼和羅凌霄等[2]設(shè)計了基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)優(yōu)化了在網(wǎng)絡(luò)訓(xùn)練過程中局部極小化和平坦區(qū)域問題,提高了霧霾空氣能見度預(yù)測模型的有效性。
相關(guān)的文獻(xiàn)中也有不少運(yùn)用數(shù)理統(tǒng)計和數(shù)據(jù)擬合的方法進(jìn)行霧霾天氣的研究。侯瓊煌和楊航[3]等對二氧化硫和煙塵的排放量以及環(huán)境污染總治理投資建立了時間序列的預(yù)測模型,并運(yùn)用對所有時間序列都適用的三次指數(shù)平滑法進(jìn)行霧霾趨勢預(yù)測。楊文光、林連海和田立勤[4]等使用離散小波分析將二氧化硫和煙塵排放量分解到高頻和低頻兩個頻道,對上述的兩個頻道分別建立周期函數(shù)并用Fourier曲線的周期特性進(jìn)行擬合,得到了較高的預(yù)測效果。付倩嬈[5]等通過多元線性回歸模型,采用在線更新的預(yù)測方式根據(jù)當(dāng)天檢測結(jié)果,不斷更新模型,在無需大量預(yù)測數(shù)據(jù)的前提下,及時反映當(dāng)前霧霾情況的變化。
但是對于各污染因素對霧霾的產(chǎn)生起多大作用,特別是機(jī)動車尾氣和供暖對霧霾的影響哪個更大等爭議性話題還沒有系統(tǒng)的分析研究。
本研究根據(jù)中國天氣后報網(wǎng)和中國環(huán)境監(jiān)測網(wǎng)站的600組天氣數(shù)據(jù)數(shù)據(jù),用多種分類算法對霧霾天氣進(jìn)行預(yù)測分析,通過計算不同屬性組的分類準(zhǔn)確率、ROC曲線等,對霧霾的不同成因做出評價,分析出機(jī)動車尾氣和供暖廢氣對霧霾天氣的影響。第3部分對本研究應(yīng)用的各種分類算法和評估方法進(jìn)行了介紹,第4部分給出了本研究的數(shù)據(jù)分析和處理過程,第5部分為方法的實(shí)驗(yàn)結(jié)果及分析。
3.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種利用誤差反向傳播訓(xùn)練的前饋型網(wǎng)絡(luò),是迄今為止應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)。BP網(wǎng)絡(luò)目前廣泛應(yīng)用于函數(shù)逼近、模式識別、數(shù)據(jù)挖掘、系統(tǒng)辨識與自動控制等領(lǐng)域。BP算法實(shí)際上就是求取網(wǎng)絡(luò)總誤差函數(shù)的最小值問題,具體采用“最速下降法”,按誤差函數(shù)的負(fù)梯度方向進(jìn)行權(quán)系數(shù)的修正。具體學(xué)習(xí)算法包括兩大類過程:其一是輸入信號的正向傳播過程。其二是輸出誤差信號的反向傳播過程。逐層遞歸的計算是網(wǎng)絡(luò)的輸出值和期望輸出值的誤差,根據(jù)此誤差調(diào)整網(wǎng)絡(luò)連接權(quán)值和神經(jīng)元的閾值[6]。
3.2 決策樹(Decision Tree)
決策樹(Decision Tree)是一種預(yù)測模型,它包括決策結(jié)點(diǎn),分支和葉節(jié)點(diǎn)三個部分。其中,決策節(jié)點(diǎn)代表一個測試,通過代表待分類樣本的某個屬性,在該屬性上的不同測試結(jié)果代表一個分支,分支代表每個決策節(jié)點(diǎn)的不同取值。每個葉節(jié)點(diǎn)存放某個類別的標(biāo)簽,表示一種可能的分類結(jié)果。決策樹對未知樣本的分類過程是,自決策樹根節(jié)點(diǎn)開始,自上而下沿某個分支向下搜索,直到到達(dá)葉節(jié)點(diǎn),葉節(jié)點(diǎn)的分類標(biāo)簽就是該未知樣本的類別。
3.3 基于規(guī)則的分類器
基于規(guī)則的分類器是一種通過使用一組判斷規(guī)則來對記錄進(jìn)行分類的技術(shù)。其中重要的算法為IREP算法和RIPPER算法。RIPPER算法是一個優(yōu)化版本的JPip,其中JRip分類器實(shí)現(xiàn)了命題規(guī)則學(xué)習(xí),重復(fù)增量修枝(RIPPER)算法生成一條規(guī)則,隨機(jī)地將沒有覆蓋的實(shí)例分成生長集合和修剪集合,規(guī)則集合中的每一個規(guī)則是由兩個替代規(guī)則和修訂規(guī)則生成[7]。
3.4 基于實(shí)例的算法
基于實(shí)例的算法是推遲對訓(xùn)練數(shù)據(jù)建模,直到需要對未知樣本進(jìn)行分類才進(jìn)行建模。其中,IBK分類器是一種K-最近鄰分類器。IBK可用多種不同的搜索算法來加快最近鄰任務(wù)。在樣本中有比較多的噪點(diǎn)時,通過IBK算法就能解決一個鄰居分類效果較差,出現(xiàn)誤差較多的情況,此情況下IBK算法就成了一個較優(yōu)的分類器選項(xiàng)。Kstar分類器在最近鄰分類器的基礎(chǔ)上對樣本間距離的確定進(jìn)行提升,使用的是熵的距離函數(shù)[7]。
3.5 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)分類器是一種監(jiān)督式學(xué)習(xí)方法,廣泛地應(yīng)用于統(tǒng)計分類以及回歸分析。SVM的特點(diǎn)是能夠同時求取最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣,因此支持向量機(jī)也被稱為最大邊緣分類器。支持向量機(jī)技術(shù)具有堅實(shí)的統(tǒng)計學(xué)理論基礎(chǔ)。SVM可以很好地用于高維數(shù)據(jù),避免維數(shù)災(zāi)難。
3.6 集成學(xué)習(xí)
集成學(xué)習(xí)(Ensemble Learning)就是通過聚集多個分類器的預(yù)測結(jié)果來提高分類準(zhǔn)確率,集成的方式由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器(Base Classifier),然后通過每個基分類器的預(yù)測的投票來進(jìn)行分類。例如,裝袋(Bagging)、提升(Boosting)和隨機(jī)森林(Random Forest)算法。
3.7 分類模型評估
分類模型能夠正確預(yù)測先前沒有見過的樣本,分類標(biāo)簽?zāi)芰樵u估一個分離器性能的一個最為普遍的以及最為成熟的一個方法。在平衡的數(shù)據(jù)集中,它將每個類別看做同等重要,提高了分類的置信度。對于一個二元分類問題,預(yù)測可能產(chǎn)生四種不同的結(jié)果,如表1所示。
表1 二元預(yù)測的不同結(jié)果
真陽性率(True Positive Rate)是TP除以真實(shí)類別為yes的總數(shù)(TP+FN),TPR=TP/(TP+FN);假陽性率(False Positive Rate)是FP除以真實(shí)類別為no的總數(shù)(FP+TN),即TPR=FP/(FP+TN);綜合準(zhǔn)確率是正確分類總數(shù)除以全體分類總數(shù)[準(zhǔn)確率=(TP+TN)/(TP+TN+FP+FN)]。
接受者操作特征(ROC)曲線是顯示分類器真陽性和假陽性率之間折中的一種圖形化表示方法。在ROC曲線中,X軸為假陽性率,Y軸為真陽性率,曲線的每個點(diǎn)對應(yīng)某個分類器歸納模型。ROC曲線下方的面積(AUC)提供了另一種評估模型的平均值性能的方法。如果模型是完美的,則它的ROC曲線下方的面積等于1,當(dāng)AUC的值在0.8以上能表示分類器的性能能夠?qū)ξ粗獢?shù)據(jù)做比較準(zhǔn)確的預(yù)測[8]。
4.1 數(shù)據(jù)收集與處理
本研究采用的霧霾天氣數(shù)據(jù)來自中國天氣后報網(wǎng)和中國環(huán)境監(jiān)測網(wǎng)站共600組數(shù)據(jù)作為霧霾仿真數(shù)據(jù)(如表2所示)。
通過對冬季燃煤供暖和機(jī)動車尾氣排放污染物詳盡的調(diào)查和分析,把以上數(shù)據(jù)分成三個霧霾氣象數(shù)據(jù)的屬性組。燃煤供暖屬性組的數(shù)據(jù)為溫度(T)、最高和最低溫度(TM,Tm)、濕度(H)、平均風(fēng)速(V)、最大持續(xù)風(fēng)速(VM)、NO2、SO2和平均能見度(VV)。機(jī)動車尾氣排放屬性組的數(shù)據(jù)為溫度(T)、最高和最低溫度(TM,Tm)、濕度(H)、平均風(fēng)速(V)、最大持續(xù)風(fēng)速(VM)、CO、O3和平均能見度(VV)。對以上兩個屬性組本實(shí)驗(yàn)增加了一個參照組用來作對照實(shí)驗(yàn),在對比中更能反應(yīng)出實(shí)驗(yàn)屬性分組的客觀性和科學(xué)性。
4.2 基于BP神經(jīng)網(wǎng)絡(luò)的霧霾預(yù)測
基于BP神經(jīng)網(wǎng)絡(luò)的霧霾天氣預(yù)測,主要利用了網(wǎng)絡(luò)本身良好的非線性處理能力,通過擬合訓(xùn)練數(shù)據(jù)關(guān)系進(jìn)行分類。然后通過ROC曲線對不同屬性組對霧霾的影響程度進(jìn)行分析。具體流程如下:
對600組霧霾天氣數(shù)據(jù)進(jìn)行歸一化處理。消除霧霾屬性中數(shù)據(jù)的量綱差別。將處理過的數(shù)據(jù)按照三折的交叉驗(yàn)證處理方法分成網(wǎng)絡(luò)訓(xùn)練組和網(wǎng)絡(luò)預(yù)測組兩部分。構(gòu)建一個三層BP神經(jīng)網(wǎng)絡(luò),輸入結(jié)點(diǎn)與屬性個數(shù)相同,隱層節(jié)點(diǎn)數(shù)利用隱層節(jié)點(diǎn)計算公式得出燃煤供暖、機(jī)動車尾氣和參照組分別為4、3和2個節(jié)點(diǎn),輸出層結(jié)點(diǎn)數(shù)為1。進(jìn)行對三個霧霾屬性組樣本進(jìn)行分別訓(xùn)練。
畫出ROC曲線(Receiver Operating characteristic Curve),根據(jù)ROC曲線形狀,以及線下面積(AUC)定性和定量評價不同屬性組對霧霾天氣的影響。通過多次實(shí)驗(yàn),對分類正確率和ROC曲線的線下面積取平均值。
4.3 基于其他分類算法的分析
首先,基于C4.5決策樹算法進(jìn)行分類。霧霾數(shù)據(jù)是具有離散屬性和連續(xù)屬性的多元數(shù)據(jù),可用C4.5算法進(jìn)行分類。針對三個屬性組,分別運(yùn)用二分法創(chuàng)建決策樹,為決策樹創(chuàng)建新節(jié)點(diǎn)對其進(jìn)行擴(kuò)展,使用信息增益率(GainRatio)篩選屬性作為劃分訓(xùn)練記錄的測試條件。
第二步,運(yùn)用RIPPER算法進(jìn)行分類。這是一種基于規(guī)則的分類算法。在設(shè)計算法開始時把規(guī)則表R置為空,運(yùn)用函數(shù)Learn-One-Rule提取類別y覆蓋當(dāng)前屬性訓(xùn)練記錄集的最佳規(guī)則。
第三步,運(yùn)用K-近鄰和Kstar算法進(jìn)行分類,這是兩個基于實(shí)例的分類算法。在每一個測試樣本集中對每一個測試樣本,使用熵的距離函數(shù)計算該樣本與所有訓(xùn)練樣本之間的距離,通過進(jìn)一步修改距離權(quán)重,進(jìn)一步降低距離較大分布點(diǎn)的干擾;通過擴(kuò)大近鄰學(xué)習(xí)的節(jié)點(diǎn)范圍,從原來的一個相鄰的節(jié)點(diǎn)單位(k=1)擴(kuò)大到八個節(jié)點(diǎn)單位(K=8),降低異常點(diǎn)的干擾,以確定其最近鄰的集合。
第四步,運(yùn)用基于支持向量機(jī)分類器的序列最小化算法(SMO)。該算法在傳統(tǒng)支持向量機(jī)的基礎(chǔ)上使用高斯核的核函數(shù),使屬性數(shù)據(jù)映射到高維,避免了在對多維的霧霾屬性數(shù)據(jù)進(jìn)行分類處理時出現(xiàn)線性不可分情況,提升了分類器對多維的天氣數(shù)據(jù)的魯棒性。
第五步,在集成學(xué)習(xí)中,本文采用了三個不同的集成學(xué)習(xí)算法對三個屬性組進(jìn)行數(shù)據(jù)分析和預(yù)測。首先對每一個屬性組原始的天氣數(shù)據(jù)樣本進(jìn)行隨機(jī)抽取。依據(jù)均勻概率分布從原始數(shù)據(jù)集中又放回的抽取,使每一個自助樣本集和原始數(shù)據(jù)集一樣大,確保每一個自助樣本集包含原始數(shù)據(jù)集中60%以上的數(shù)據(jù)。選擇對應(yīng)抽取完成的自助數(shù)據(jù)集逐一構(gòu)建分類器。分類器對單個預(yù)測值進(jìn)行多數(shù)表決,得票最高的類別指派給測試樣本。應(yīng)用提升算法中的AdaBoost算法,對屬性組中離群點(diǎn)數(shù)據(jù)賦予更高的權(quán)值,從最初單個變量權(quán)值為0.0017增加到0.0167降低對組中其他數(shù)據(jù)的誤差影響。采取隨機(jī)森林的集成學(xué)習(xí)算法。此類算法在最初基于單個決策樹的單個分類器算法上,集成多棵決策樹進(jìn)行預(yù)測。
表2 原始天氣屬性類別
表3 三組霧霾屬性組示例(燃煤供暖排放屬性組)
表4 三組霧霾屬性組示例(汽車尾氣排放屬性組)
表5 三組霧霾屬性組示例(參照屬性數(shù)據(jù)組)
5.1 數(shù)據(jù)采集與處理
本研究采用的霧霾天氣數(shù)據(jù)來自中國天氣后報網(wǎng)和中國環(huán)境監(jiān)測網(wǎng)站發(fā)布的2014~2016年每年的秋冬春三個季節(jié)霧霾易發(fā)的五個月作為環(huán)境監(jiān)測數(shù)據(jù)。經(jīng)過屬性組的篩選,共600組數(shù)據(jù)作為霧霾仿真數(shù)據(jù)(如表6所示)。
通過對冬季燃煤供暖和汽車尾氣排放污染物詳盡的調(diào)查和分析,把以上數(shù)據(jù)分成三個霧霾氣象數(shù)據(jù)的屬性組。對以上兩個屬性組本實(shí)驗(yàn)增加了一個參照組用來作對照實(shí)驗(yàn),在對比中更能反應(yīng)出實(shí)驗(yàn)屬性分組的客觀性和科學(xué)性。天氣數(shù)據(jù)在數(shù)據(jù)分布上基本符合統(tǒng)計學(xué)中的高斯分布,反映了屬性組中數(shù)據(jù)平衡性,表明實(shí)驗(yàn)數(shù)據(jù)客觀真實(shí)有說服力。
國際上對煙霧的能見度定義為不足1km,薄霧的能見度為1km~2km,霧霾的能見度為2km~5km劃分標(biāo)準(zhǔn)編輯。因此依照國際標(biāo)準(zhǔn)對平均能見度數(shù)據(jù)進(jìn)行歸一化處理(部分?jǐn)?shù)據(jù)處理后的部分?jǐn)?shù)據(jù)如表10所示)。
5.2 基于BP神經(jīng)網(wǎng)絡(luò)的分類
將網(wǎng)絡(luò)的學(xué)習(xí)率調(diào)整為0.01,誤差設(shè)定為0.001。經(jīng)過網(wǎng)絡(luò)對其中相關(guān)參數(shù)、節(jié)點(diǎn)的權(quán)值和閾值在網(wǎng)絡(luò)訓(xùn)練中進(jìn)行優(yōu)化后,用MATLAB軟件對網(wǎng)絡(luò)進(jìn)行仿真,基于ROC曲線和其線下面積AUC對三個屬性組進(jìn)行分析,部分仿真圖表如圖1所示。由圖可知,燃煤供暖和機(jī)動車尾氣排放這兩個屬性組的AUC數(shù)值大致相同,且都要大于參照組AUC數(shù)值,因此可得出燃煤供暖排放和機(jī)動車尾氣排放這兩個因素對霧霾天氣有較大影響,并且作用大致相當(dāng)。
表6 原始天氣數(shù)據(jù)
表8 汽車尾氣排放屬性組
表9 參照屬性數(shù)據(jù)組
表10 對平均能見度處理后的部分?jǐn)?shù)據(jù)
圖1 三個屬性組的仿真結(jié)果圖
5.3 基于其他分類算法的研究
根據(jù)這八種分類器算法的分類結(jié)果做出定量與定性的分析,構(gòu)建了對霧霾數(shù)據(jù)樣本的分類混淆矩陣,矩陣的數(shù)據(jù)如表11~表13所示,表格中的每個元素均是實(shí)例的計數(shù)值,a和b的值代表平均能見度歸一化之后的結(jié)果。從下列屬性組中樣本的分類結(jié)果分布情況上看,依照混淆矩陣的判別分類器分類效果方法,主對角線上的分類樣本數(shù)目之和遠(yuǎn)大于副對角線上之和,因此采用這八種分類器是符合霧霾數(shù)據(jù)的特征,體現(xiàn)了設(shè)計算法的實(shí)效性,對屬性組對霧霾天氣的影響具有較高的支持作用。
針對600組霧霾數(shù)據(jù),分成三個屬性組進(jìn)行分類算法的分析預(yù)測。每種算法的預(yù)測結(jié)果運(yùn)用正確率和AUC數(shù)值進(jìn)行評價。
對分類器的分類正確率和ROC曲線的線下面積分別進(jìn)行了數(shù)據(jù)統(tǒng)計與分析。燃煤供暖、機(jī)動車尾氣排放和參照組的正確率均值分別為84.2915、84.2075和79.2913;燃煤供暖、機(jī)動車尾氣排放和參照組的AUC均值分別為0.8959、0.8898和0.8291。由數(shù)據(jù)可知燃煤供暖和機(jī)動車尾氣排放這兩個屬性組的分類正確率和AUC數(shù)值大致相同,且都要大于參照組分類正確率和AUC數(shù)值,因此可得出燃煤供暖排放和機(jī)動車尾氣排放這兩個因素對霧霾天氣有較大影響,并且作用大致相當(dāng)。
表11 燃煤供暖屬性組混淆矩陣數(shù)據(jù)
表12 汽車尾氣屬性組混淆矩陣數(shù)據(jù)
表13 參照組屬性組混淆矩陣數(shù)據(jù)
表14 分類算法的評估結(jié)果
表15 分類器算法結(jié)果的統(tǒng)計分析
本方法選取與機(jī)動車尾氣、供暖、天氣相關(guān)的屬性分別構(gòu)成三個屬性組,首先用BP神經(jīng)網(wǎng)絡(luò)作為分類器,通過交叉驗(yàn)證對霧霾天氣進(jìn)行預(yù)測,并構(gòu)建出不同屬性組的ROC曲線,對各屬性組對分類的影響進(jìn)行評估,然后用C4.5、RIPPER、k近鄰、SVM、隨機(jī)森林等多種分類算法進(jìn)行分類預(yù)測,并對分類結(jié)果的正確率、ROC曲線面積等進(jìn)行分析。通過數(shù)據(jù)挖掘方法,基于客觀數(shù)據(jù),對具有爭議的污染因素:機(jī)動車尾氣和燃煤供暖對霧霾的作用大小進(jìn)行了定量分析。經(jīng)過以上過程分析得出結(jié)論:北京市機(jī)動車尾氣和燃煤供暖對霧霾天氣的影響較大,且作用相當(dāng),可為相關(guān)部門政策的制定和霧霾的防治提供理論依據(jù)。
由于霾天氣能見度的不僅僅與大氣污染物有關(guān),還受到某些氣象條件的影響:例如,降雨降雪、大氣壓強(qiáng)、混合層高度;以及在光化學(xué)反應(yīng)晝夜差異,大氣上空流邊界層發(fā)展的大氣穩(wěn)定性[9]等。未來工作中,會通過更全面地考慮影響因素來提高預(yù)測和分析的準(zhǔn)確性。
[1] 艾洪福,石瑩.基于BP神經(jīng)網(wǎng)絡(luò)的霧霾天氣預(yù)測研究[J].計算機(jī)仿真,2015:01,32(1):402-405.
[2] 馬楚焱,祖健,付清盼,羅凌霄.基于遺傳神經(jīng)網(wǎng)絡(luò)模型的空氣能見度預(yù)測[J].環(huán)境工程學(xué)報(2015)04:9(4):1905-1910.
[3] 侯瓊煌,楊航.基于三次指數(shù)平滑模型的霧霾天氣預(yù)測[J].環(huán)境保護(hù)科學(xué)(2014:40)06:73-77.
[4] 楊文光,林連海,田立勤.基于小波分析的霧霾天氣分析與預(yù)測[J].2016:34,3:166-170.
[5] 付倩嬈.基于多元線性回歸的霧霾預(yù)測方法研究[J].2016,6:43(6A):526-528.
[6] 陳雯柏.人工神經(jīng)網(wǎng)絡(luò)原理與實(shí)踐[M].西安電子科技大學(xué)出版社.
[7] 袁梅宇.數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)WEKA應(yīng)用技術(shù)與實(shí)踐[M].清華大學(xué)出版社.
[8] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社.
[9] 呂效譜,成海容,王祖武,張帆.中國大范圍霧霾期間大氣污染特征分析[J].湖南科技大學(xué)學(xué)報(自然科學(xué)版)2013:9,28(3):104-110.
Fog and haze forecasting and analysis based on data mining
CHEN Jia-hao1, LIU Jia2
TP29
:A
1009-0134(2017)06-0150-06
2017-05-27
國家自然科學(xué)基金(61501464)
陳嘉昊(1996 -),男,本科,研究方向?yàn)閿?shù)據(jù)挖掘和模式識別。