廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 雷 寶
基于大數(shù)據(jù)的探索性空氣質(zhì)量數(shù)據(jù)分析
廣東工業(yè)大學(xué)自動(dòng)化學(xué)院 雷 寶
隨著城市工業(yè)化的不斷推進(jìn),城市空氣污染越來越嚴(yán)重,至今已經(jīng)變成了一個(gè)全球性的問題。開展城市空氣質(zhì)量監(jiān)測、數(shù)據(jù)分析及可視化的研究能夠全面地掌握城市空氣污染源的排放數(shù)據(jù)和城市空氣質(zhì)量的等級(jí)分布狀況,可以對(duì)影響城市空氣質(zhì)量的因素有著更加全面的了解和掌握,從而能夠?qū)Τ鞘锌諝馕廴具M(jìn)行有效的治理。本文利用大數(shù)據(jù)可視化技術(shù),對(duì)時(shí)空序列的空氣質(zhì)量數(shù)據(jù)進(jìn)行了探索性分析。通過探索和分析這些監(jiān)測數(shù)據(jù),結(jié)果表明人類的活動(dòng)對(duì)環(huán)境空氣質(zhì)量有著消極影響。還發(fā)現(xiàn)天氣也會(huì)影響空氣質(zhì)量,當(dāng)溫度下降時(shí),空氣質(zhì)量呈現(xiàn)好轉(zhuǎn)的趨勢。分析結(jié)果可用于研究環(huán)境空氣質(zhì)量的時(shí)空分布及其動(dòng)態(tài)變化。
空氣質(zhì)量;大數(shù)據(jù);可視化;探索性數(shù)據(jù)分析
近年來我國地區(qū)城市空氣污染加劇,其中城市大氣污染的主要表現(xiàn)是霧霾污染,這引起了普通民眾和科學(xué)界的廣泛關(guān)注??諝馕廴緦?duì)城市居民的健康風(fēng)險(xiǎn)、以及造成的經(jīng)濟(jì)損失都是無法估量的??諝馕廴局饕ㄟ^三條途徑危害人體[1]:一是人體接觸到污染物后受到傷害,二是食用了含有大氣污染物的食物和水,三是吸入污染的空氣??諝馕廴具€會(huì)危害生物的生存和發(fā)育,也會(huì)腐蝕儀器、設(shè)備和建筑物等,此外臭氧層破壞、酸雨腐蝕和全球氣候變暖等現(xiàn)象也和空氣污染息息相關(guān)。世界衛(wèi)生組織和聯(lián)合國環(huán)境組織發(fā)表的一份報(bào)告指出:“空氣污染已成為全世界城市居民生活中一個(gè)無法逃避的現(xiàn)實(shí)[6]。”城市工業(yè)化的發(fā)展,在為人類創(chuàng)造巨大財(cái)富的同時(shí),也將大量的有害物質(zhì)排放到大氣之中,從而對(duì)人類和環(huán)境帶來了巨大災(zāi)難。
1977年,在美國約翰?懷爾德杜克(John Wilder Tukey)的《探索性數(shù)據(jù)分析》一書中,探索性數(shù)據(jù)分析第一次被系統(tǒng)地論述。他的主要觀點(diǎn)是[8]:探索性數(shù)據(jù)分析(EDA)與驗(yàn)證性數(shù)據(jù)分析(Confirmatory Data Analysis)有所不同:前者注重于對(duì)數(shù)據(jù)進(jìn)行概括性的描述,不受數(shù)據(jù)模型和科研假設(shè)的限制,而后者只注重對(duì)數(shù)據(jù)模型和研究假設(shè)的驗(yàn)證。他認(rèn)為統(tǒng)計(jì)分析應(yīng)該充分利用探索性數(shù)據(jù)分析的優(yōu)勢,從而發(fā)現(xiàn)新的理論假設(shè)和數(shù)據(jù)模型,而不應(yīng)該僅僅重視模型和假設(shè)的驗(yàn)證[8]。大數(shù)據(jù)時(shí)代已經(jīng)來臨,每天我們都能夠通過各種渠道和方式收集到海量的各種混亂,非結(jié)構(gòu)化及多媒體數(shù)據(jù)。如何找出這些數(shù)據(jù)中的規(guī)則、分析數(shù)據(jù)模型和提出理論假設(shè)已經(jīng)成為新的挑戰(zhàn)。
大數(shù)據(jù)時(shí)代來臨,使得數(shù)據(jù)行業(yè)展現(xiàn)出蓬勃的發(fā)展趨勢,傳統(tǒng)的數(shù)據(jù)可視化手段已經(jīng)不能滿足數(shù)據(jù)行業(yè)的需求,大數(shù)據(jù)可視化技術(shù)開始涌現(xiàn)。大數(shù)據(jù)可視化技術(shù)主要是希望通過可視分析的方式來探索大數(shù)據(jù)中的不易被發(fā)現(xiàn)的有價(jià)值的信息。
大數(shù)據(jù)可視化技術(shù)充分地將計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力有效的整合在一起,從而使人能夠快速地、精確地洞察大數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律。就目前而言,對(duì)于大數(shù)據(jù)可視化技術(shù)的研究仍然比較初步,對(duì)于這一研究領(lǐng)域的理論、方法和技術(shù)體系至今尚未形成[3]。
目前,大數(shù)據(jù)可視化的主要研究領(lǐng)域包括文本可視化、網(wǎng)絡(luò)可視化、時(shí)空數(shù)據(jù)可視化、多維數(shù)據(jù)可視化[7]。
大數(shù)據(jù)可視化流程如圖1所示。首先需要將原始數(shù)據(jù)導(dǎo)入大數(shù)據(jù)平臺(tái)上,之后,對(duì)大數(shù)據(jù)平臺(tái)上的大批量數(shù)據(jù)進(jìn)行優(yōu)化存儲(chǔ)。為了提高數(shù)據(jù)訪問時(shí)的效率,將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫Hive中,通過Hive的分區(qū)等功能來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)優(yōu)化。然后通過JDBC的方式訪問Hive中的數(shù)據(jù),經(jīng)過簡單的數(shù)據(jù)格式轉(zhuǎn)換后使用可視化工具完成在web端的可視化。
圖1 大數(shù)據(jù)可視化流程
空氣質(zhì)量指數(shù)(AQI)是反應(yīng)環(huán)境空氣質(zhì)量好壞的無量綱指數(shù),其數(shù)值越大,說明空氣污染狀況越嚴(yán)重,對(duì)人體危害就越大??諝赓|(zhì)量指數(shù)的大小取決于空氣中污染物的濃度水平。但空氣污染是一個(gè)復(fù)雜現(xiàn)象,污染物濃度在特定時(shí)間和地點(diǎn)受到許多因素的影響[4]。固定和移動(dòng)源的人為排放量是影響空氣質(zhì)量的主要因素之一,包括車輛尾氣排放,工業(yè)污染,生活和暖氣,垃圾焚燒等。除了這些因素外,城市發(fā)展密度,地形和天氣也將影響空氣質(zhì)量。目前,城市空氣質(zhì)量監(jiān)測網(wǎng)監(jiān)測的主要污染物有:SO2,NO2,CO,O3,PM10,PM2.5??諝赓|(zhì)量指數(shù)(AQI)用于測量空氣污染程度。首先根據(jù)六種污染物的濃度及其相應(yīng)的較低和較高的標(biāo)準(zhǔn)濃度值計(jì)算各個(gè)指標(biāo)。然后將最大的子指標(biāo)值確定為空氣質(zhì)量指數(shù)(AQI)。當(dāng)AQI>50時(shí),具有最大子指標(biāo)值的相應(yīng)污染物被認(rèn)為是主要污染物。AQI及其等級(jí)如表1所示:
表1 空氣質(zhì)量指數(shù)及相關(guān)信息
實(shí)驗(yàn)數(shù)據(jù)來自于廣州市的11個(gè)環(huán)境監(jiān)測站,包括有廣州市2016年的全年日??諝赓|(zhì)量監(jiān)測數(shù)據(jù)以及廣州地區(qū)的氣象數(shù)據(jù)。該數(shù)據(jù)是從青悅開放環(huán)境數(shù)據(jù)中心下載(https://wat.epmap.org/)。部分?jǐn)?shù)據(jù)如表2所示。
表2 廣州空氣質(zhì)量數(shù)據(jù)
3.3.1 空氣質(zhì)量分布趨勢
實(shí)驗(yàn)數(shù)據(jù)的時(shí)間范圍是從2016年1月到2016年11月。通過對(duì)這些時(shí)空序列的空氣質(zhì)量數(shù)據(jù)進(jìn)行分析,我們可以發(fā)現(xiàn)空氣污染的分布和發(fā)展趨勢。圖2是幾個(gè)監(jiān)測站一年內(nèi)空氣質(zhì)量指數(shù)AQI的變化趨勢。從圖中可以看出2016年的1月初與4月初的時(shí)候空氣污染明顯加重,4、5、6、7月空氣質(zhì)量相對(duì)較好、且較穩(wěn)定。從圖3可以看出森林公園監(jiān)測站的全年空氣質(zhì)量比其他三個(gè)站點(diǎn)要好,這也證明了人類活動(dòng)對(duì)環(huán)境空氣質(zhì)量的負(fù)面影響。
圖2 2016年空氣質(zhì)量指數(shù)(AQI)的變化趨勢
圖3 2016年四個(gè)監(jiān)測站空氣質(zhì)量類別為優(yōu)的天數(shù)
3.3.2 天氣對(duì)空氣質(zhì)量的影響
在大家的認(rèn)知中,天氣的變化是會(huì)對(duì)空氣質(zhì)量有一定影響的,因此我們分析了氣溫對(duì)空氣質(zhì)量的影響變化。如圖4、圖5所示,它們展示的是空氣質(zhì)量指數(shù)、pm2.5指數(shù)、SO2指數(shù)和NO2指數(shù)和氣溫的變化情況。從圖中可以看出氣溫的變化在一定程度上影響著空氣質(zhì)量。隨著氣溫的降低,空氣質(zhì)量指數(shù)、pm2.5指數(shù)、SO2指數(shù)和NO2指數(shù)有著下降的趨勢,這說明空氣質(zhì)量好轉(zhuǎn)。
圖4 2016年1月空氣質(zhì)量指數(shù)和氣溫的變化趨勢
圖5 2016年1月pm2.5、SO2、NO2和氣溫的變化曲線
在本文中,收集了2016年廣州市日常環(huán)境空氣質(zhì)量數(shù)據(jù)以及氣象數(shù)據(jù)。在大數(shù)據(jù)的時(shí)代背景下,利用大數(shù)據(jù)可視化技術(shù),對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行了探索性分析,嘗試著去找出空氣質(zhì)量數(shù)據(jù)的時(shí)空分布趨勢和隱藏模式。通過相關(guān)分析,試圖去解釋天氣和人類活動(dòng)對(duì)環(huán)境空氣質(zhì)量的影響。通過探索和分析這些監(jiān)測數(shù)據(jù),結(jié)果表明人類的活動(dòng)對(duì)環(huán)境空氣質(zhì)量有著消極影響。還發(fā)現(xiàn)天氣也會(huì)影響空氣質(zhì)量,當(dāng)溫度下降時(shí),空氣質(zhì)量呈現(xiàn)好轉(zhuǎn)的趨勢。最后要感謝青悅開放環(huán)境數(shù)據(jù)中心給予的支持與幫助。
[1]王德敏.空氣污染數(shù)據(jù)可視化方法研究及可視化系統(tǒng)實(shí)現(xiàn)[D].山東大學(xué),2012.
[2]Zhang R M,Zou X J,Gu B J,et al.Research of time series data based on exploratory analysis[J].Journal of System Simulation,2006.
[3]王瑞松.大數(shù)據(jù)環(huán)境下時(shí)空多維數(shù)據(jù)可視化研究[D].計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2016.
[4]HeHctor Jorquera,Wilfredo Palma,JoseH Tapia.An intervention analysis of quality data at Santiago,Chile[J].Atmospheric Environment 2000,34:4073-4084.
[5]Zhang yannan.Visualization Research of environment monitoring spatial and temporal data based on R language[D].Dissertation of wuhan university2016.(In Chinese).
[6]武裝,覃愛明.基于大數(shù)據(jù)的空氣質(zhì)量數(shù)據(jù)可視化[J].廣角鏡,2015,3: 249-251.
[7]Intel IT Center.“Big Data Visualization:Turning Big Data Into Big Insights”White Paper,March 2013,pp.1-14.
[8]天善智能.說說什么是探索式數(shù)據(jù)分析、驗(yàn)證性數(shù)據(jù)分析[OL].http://www.36dsj.com/archives/42301,2016.