陳星燦 徐冰
摘要:在對2017年A地地區(qū)氣象數(shù)據(jù)進(jìn)行對比分析后發(fā)現(xiàn)影響A地地區(qū)霾等級(jí)的主要因素有以下七個(gè):氣溫、氣壓、相對濕度、露點(diǎn)溫度、地面U風(fēng)、地面V風(fēng)以及PM2.5濃度。上述的七項(xiàng)主要因素是影響A地區(qū)霾等級(jí)的屬性特征,將霾的等級(jí)劃分當(dāng)作標(biāo)志量,以此來構(gòu)建樣本集合,再用KNN數(shù)據(jù)挖掘算法來構(gòu)建劃分霾等級(jí)的預(yù)報(bào)分類器,從而進(jìn)行試驗(yàn)。得到如下結(jié)論:當(dāng)K=3時(shí)該分類器的預(yù)報(bào)效果最佳,準(zhǔn)確度高達(dá)88.2%?;谠撍惴?gòu)建的KNN模型預(yù)報(bào)無霾時(shí)準(zhǔn)確度很高,達(dá)91.8%,且對于霧霾的空報(bào)率也較低,但對霾等級(jí)的預(yù)報(bào)精確度還有待改善。
關(guān)鍵詞:數(shù)據(jù)挖掘;KNN;霾;預(yù)報(bào)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)09-0003-02
霾的定義簡而言之就是在空氣中懸浮的微粒,這些微粒主要由煙、塵等物質(zhì)形成,在區(qū)域空氣中形成渾濁現(xiàn)象,空氣中的能見度低于10千米。隨著城市和工業(yè)的不斷發(fā)展霧霾現(xiàn)象日益頻繁,嚴(yán)重影響著人們的生產(chǎn)生活活動(dòng)。因此,對霾等級(jí)的預(yù)報(bào)也尤為重要。根據(jù)相關(guān)研究數(shù)據(jù)可知,氣候因素在很大程度上能夠影響到霾的發(fā)生。從近年來對霾進(jìn)行預(yù)報(bào)的方式來看,主要有兩種預(yù)報(bào)方式:數(shù)值預(yù)報(bào)和模式輸出統(tǒng)計(jì)預(yù)報(bào)。在運(yùn)用數(shù)值預(yù)報(bào)方法進(jìn)行計(jì)算時(shí),方法通過對大氣污染和大氣氣象要素的變化過程進(jìn)行模擬。但此類方法受不確定因素較多,在日常業(yè)務(wù)化預(yù)報(bào)中有較大的局限。在查閱陳亦君、毛宇清、鄭峰等人做的相關(guān)實(shí)驗(yàn)的基礎(chǔ)上,得出以下結(jié)論:氣溶膠的濃度嚴(yán)重影響著霾程度的大小。但是,目前同時(shí)采用數(shù)值天氣預(yù)報(bào)模式和環(huán)境模式的兩類輸出結(jié)果的相關(guān)試驗(yàn)研究還較少。因此,在本次研究中,為了更好地對霾等級(jí)進(jìn)行預(yù)測,將數(shù)值天氣預(yù)報(bào)模式和環(huán)境模式這樣兩種方法結(jié)合在一起,從而能夠保證霾預(yù)報(bào)模型能夠?qū)崟r(shí)對霾進(jìn)行動(dòng)態(tài)預(yù)報(bào),并采用KNN數(shù)據(jù)挖掘算法對霾等級(jí)進(jìn)行分類。
為了保證研究結(jié)果真實(shí)可靠,在本次研究中將A地作為研究的對象,將2017年A地13個(gè)區(qū)的資料作為研究數(shù)據(jù),其中包括這個(gè)13個(gè)區(qū)的溫度、氣壓、濕度、風(fēng)以及能見度、PM2.5含量等氣象要素,要買數(shù)據(jù)采取的數(shù)據(jù)頻為3h/次。
隨著科技的發(fā)展,數(shù)據(jù)挖掘算法也廣泛應(yīng)用于氣象學(xué)中。本文在調(diào)研黃穎等實(shí)驗(yàn)的基礎(chǔ)上決定使用KNN數(shù)據(jù)挖掘算法。KNN是一種非參數(shù)化監(jiān)督算法,又叫作“K近鄰算法"。在KNN數(shù)據(jù)挖掘算法下,對不同對象的分類處理主要根據(jù)對象間不同特征值的距離進(jìn)行劃分,一直在這種算法下,能夠保持挖掘結(jié)果的精準(zhǔn)度高、受異常數(shù)值的影響。
當(dāng)前數(shù)值天氣預(yù)報(bào)解釋仍廣泛采用建立回歸預(yù)報(bào)方程的方法,但由于大氣運(yùn)動(dòng)具有混沌性和非線性特征,因此采用回歸方程的方法較為復(fù)雜。KNN算法的思路是:根據(jù)客觀性、規(guī)律性,其結(jié)果也應(yīng)具有相似性。數(shù)值天氣預(yù)報(bào)解釋使用到KNN算法時(shí),直接以歷史天氣個(gè)例樣本做訓(xùn)練集,并將天氣學(xué)預(yù)報(bào)思路和數(shù)值預(yù)報(bào)結(jié)果進(jìn)行融合,就可避開建立回歸預(yù)報(bào)方程帶來的弊端。
1 實(shí)驗(yàn)分析
1.1 KNN中屬性變量選取
根據(jù)上面的分析,充分證明了能見度變化的復(fù)雜性。通過每個(gè)因素分別于可見度進(jìn)行了相關(guān)性分析可知,對能見度影響最大的因素是風(fēng)速和風(fēng)向,因此KNN分類集中將風(fēng)分解u、v兩個(gè)分量。除了濕度和能見度以外,氣溫和氣壓也是能夠代表氣候情況的兩個(gè)因素,特別是對空氣活動(dòng)和天氣系統(tǒng)的檢測發(fā)揮非常重要的作用,因此也被選入到訓(xùn)練屬性集中。
1.2 K參數(shù)的選取
KNN算法的準(zhǔn)確度很大程度上受K值的影響。一般來講,K值的選取一般為大小適中的奇數(shù)。交叉驗(yàn)證(Crossvalidation)又稱為循環(huán)估計(jì)法,它的操作過程是將樣本整體分化為較小的子集,對每一個(gè)自己進(jìn)行分別驗(yàn)證。通常采用先分析一個(gè)子集,再用其他子集進(jìn)行驗(yàn)證。交叉驗(yàn)證通常用來評估統(tǒng)計(jì)分析、訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集的泛化能力。本文的K值由交叉驗(yàn)證方式來確定。表2給出了K分別取3、5和7時(shí)的分類準(zhǔn)確率。結(jié)果表明:當(dāng)K=3、5或7時(shí),交叉檢驗(yàn)準(zhǔn)確率均在80%以上,且K=3時(shí)的分類準(zhǔn)確率明顯高于K=5或7時(shí)的結(jié)果。因此,本文中的KNN模型的K值選為3。
1.3 KNN分類器的準(zhǔn)確率分析
在表3中,詳細(xì)地展示了運(yùn)用KNN分類器對霾進(jìn)行分類交叉檢驗(yàn)后的結(jié)果。由表可知:
(1)當(dāng)無霾時(shí),預(yù)報(bào)準(zhǔn)確率高達(dá)91.8%;輕微霾漏報(bào)率為6.9%,其他霾概等級(jí)漏報(bào)率均<1%。
(2)當(dāng)輕微霾時(shí),空報(bào)率為16.1%,預(yù)報(bào)正確率達(dá)67.4%,輕度霾漏報(bào)率為11.2%,中、重度霾漏報(bào)率均<5%。
(3)當(dāng)輕度霾時(shí),空報(bào)率為4.7%,預(yù)報(bào)正確率為59.8%。中、重度霾漏報(bào)率分別為10.4%和3.7%。
(4)當(dāng)中度霾時(shí),空率僅為1.4%,預(yù)報(bào)正確率為53.4%,實(shí)況情況還要略低。
(5)當(dāng)重度霾時(shí),空報(bào)率為2.6%,預(yù)報(bào)正確率為60.4%。
結(jié)合以上觀點(diǎn)可以看出,KNN分類器的使用可靠性更高,在有霾情況下的空報(bào)率和漏報(bào)率很低,對霧霾登記的預(yù)報(bào)相對準(zhǔn)確。雖然對于相鄰霾等級(jí)的區(qū)分仍存在誤差,但是誤差在可接受范圍內(nèi)。因此所構(gòu)建的KNN分類器具有較強(qiáng)的實(shí)用性。
2 基于KNN算法的實(shí)際業(yè)務(wù)預(yù)報(bào)系統(tǒng)
本研究使用Python編寫KNN算法來搭建霾等級(jí)預(yù)報(bào)系統(tǒng)。圖2所展示的是A地區(qū)的三個(gè)基本站在72小時(shí)內(nèi),每間隔三小時(shí)進(jìn)行一次實(shí)況數(shù)據(jù)收集和霾預(yù)報(bào)。圖2a表示在25個(gè)觀測時(shí)次中,霾等級(jí)程度均各不相同,在最終預(yù)報(bào)出的19個(gè)時(shí)次中,對霧霾的有無進(jìn)行預(yù)報(bào)準(zhǔn)確率高達(dá)76%。而在B站點(diǎn)和C站點(diǎn)中,雖然能夠預(yù)測出有無霾,準(zhǔn)確率分別為64%和84%,但實(shí)在對買等級(jí)進(jìn)行化劃分時(shí),精準(zhǔn)度略有欠缺。
3 結(jié)論
本文研究了基于KNN算法的霾等級(jí)預(yù)報(bào)分級(jí)的方法,得到如下結(jié)論:
(1)溫度、氣壓、相對濕度、溫度、U風(fēng)、V風(fēng)以及PM2.5濃度等7變量構(gòu)成了霾預(yù)報(bào)的KNN分類器的特征屬性,并且選霾的等級(jí)為標(biāo)志項(xiàng)。
(2)根據(jù)KNN分類器分別K=3、5或7的實(shí)驗(yàn)結(jié)果證明A地地區(qū)13個(gè)站點(diǎn)的交叉檢驗(yàn)準(zhǔn)確率分別:88.2%、85.8%、84.7%,K=3時(shí)的分類準(zhǔn)確率較高。在對無霾天氣進(jìn)行預(yù)報(bào)時(shí)準(zhǔn)確率保持在91.8%,雖然存在漏報(bào)的概念,但是概率數(shù)據(jù)相對降低。
(3)由于監(jiān)測資料的有限,訓(xùn)練樣本集只選取了2017年的分析數(shù)據(jù),在一定程度上影響了預(yù)報(bào)準(zhǔn)確率。而且, 目前是將BREMPS的結(jié)果直接運(yùn)用到了KNN霾分類算法預(yù)報(bào)中,預(yù)報(bào)的準(zhǔn)確度存在一定風(fēng)險(xiǎn),為了進(jìn)一步提升KNN霾分類算法的預(yù)報(bào)準(zhǔn)確度,會(huì)在日后的研究中通過對PM 2.5濃度資料不斷積累,達(dá)到一定程度后,可以運(yùn)用在BREMPS的預(yù)報(bào)結(jié)果修正上。因此,未來對KNN霾分類算法KNN霾分類算法的準(zhǔn)確率仍然有進(jìn)一步提升的空間。
參考文獻(xiàn):
[1] 溫榮坤.基于偏微積分分類數(shù)學(xué)模型的關(guān)聯(lián)挖掘改進(jìn)技術(shù)[J/OL].現(xiàn)代電子技術(shù),2018(13):95-99.
[2] 潘燕.關(guān)聯(lián)規(guī)則下的數(shù)據(jù)挖掘算法分析[J].信息記錄材料,2018(07):212-213.
[3] 米保全.數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)管理中的應(yīng)用[J/OL].軟件導(dǎo)刊,2018(8):1-4.
[4] 嚴(yán)嘉維,張琛,李成蹊,等.基于Hadoop的可信計(jì)算平臺(tái)日志分析模型[J/OL].軟件導(dǎo)刊,2018.
[5] 孫金鑫.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則的研究[J].智能計(jì)算機(jī)與應(yīng)用,2018,8(03):132-135.
[6] 熊亞軍,徐敬,孫兆彬,等.基于數(shù)據(jù)挖掘算法和數(shù)值模擬技術(shù)的大氣污染減排效果評估[J/OL].環(huán)境科學(xué)學(xué)報(bào),2019,39(1):116-125.
[7] 李博.APRIORI數(shù)據(jù)挖掘算法在商務(wù)智能中的應(yīng)用[J].電腦迷,2018(07):155-156.
[8] 查道貴,許彩芳,楊秋菊.基于數(shù)據(jù)挖掘的民間藝術(shù)資料管理系統(tǒng)設(shè)計(jì)[J].長春師范大學(xué)學(xué)報(bào),2018(06):101-106.
[9] 關(guān)翠玲.數(shù)據(jù)挖掘技術(shù)在高校思想政治教育中的運(yùn)用[J].微型電腦應(yīng)用,2018,34(06):50-52.
【通聯(lián)編輯:代影】