徐楚原
(墨爾本大學(xué) 工程與信息技術(shù)學(xué)院 信息技術(shù)碩士人工智能方向,澳大利亞墨爾本 VIC 3010)
世界已跨入由數(shù)據(jù)主導(dǎo)的“大時代”,生態(tài)環(huán)境部辦公廳印發(fā)的《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》(環(huán)辦廳〔2016〕23號)中明確提出,要在未來五年內(nèi)整合匯總?cè)珖魇?、市、縣的環(huán)境質(zhì)量監(jiān)測、污染物排放、環(huán)境風(fēng)險評估,以及自然生態(tài)、環(huán)境執(zhí)法監(jiān)察等全部數(shù)據(jù),通過對這些數(shù)據(jù)的挖掘分析,構(gòu)建“互聯(lián)網(wǎng)+”綠色生態(tài),使環(huán)境數(shù)據(jù)互聯(lián)互通并且開放、共享,實現(xiàn)生態(tài)環(huán)境的“綜合決策科學(xué)化、監(jiān)管精準(zhǔn)化、公共服務(wù)便民化”目標(biāo)。
大數(shù)據(jù)技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,為結(jié)構(gòu)各異、來源于眾多部門和領(lǐng)域的海量觀測數(shù)據(jù)提供了更加科學(xué)和高效的收集與分析手段。一般認(rèn)為,生態(tài)環(huán)境大數(shù)據(jù)是為環(huán)保決策提供有效服務(wù)的技術(shù)、應(yīng)用及數(shù)據(jù)集的總稱,是對所匯總、集成的各類環(huán)境數(shù)據(jù)進行深入探究,并與其他相關(guān)數(shù)據(jù)關(guān)聯(lián)分析后的產(chǎn)品。通過算法模型對采集、存儲的數(shù)據(jù)進行分析,再以可視化方式展示結(jié)果,支持對環(huán)境質(zhì)量的評估及規(guī)劃,還能對未來生態(tài)環(huán)境的重大風(fēng)險進行預(yù)測預(yù)報,為決策提供科學(xué)依據(jù)。
(1)多維度:生態(tài)大數(shù)據(jù)是“空天地一體”的多維海量數(shù)據(jù),由生態(tài)環(huán)境、社會經(jīng)濟、氣象、國土、水利、農(nóng)業(yè)、林業(yè)和交通等不同領(lǐng)域或部門提供,反映自然生態(tài)和社會現(xiàn)象。
(2)高復(fù)雜:數(shù)據(jù)類型、來源、格式多樣且復(fù)雜,使得感知、理解、收集、表達和計算分析等數(shù)據(jù)技術(shù)面臨極大考驗。
(3)不確定:生態(tài)環(huán)境數(shù)據(jù)來源于不同部門,數(shù)據(jù)采集則是通過傳感器、智能手機或是社交網(wǎng)絡(luò)等不同感知工具,導(dǎo)致數(shù)據(jù)格式多樣化,而各部門數(shù)據(jù)的共享程度較低,即使同一指標(biāo)數(shù)據(jù)也會不一致、不完整或存在錯誤。
(4)應(yīng)用價值高:生態(tài)大數(shù)據(jù)是連續(xù)觀測的流式數(shù)據(jù),具有時空異質(zhì)性,通過云端將歷史數(shù)據(jù)和動態(tài)新數(shù)據(jù)實時進行清理、集成、建模,挖掘出有用部分并導(dǎo)出為可視化結(jié)果,能為決策提供極為有用的信息。例如借助大數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)挖掘技術(shù)和云平臺,能提高排放清單建立、環(huán)境質(zhì)量模擬的速度和準(zhǔn)確性,有助于制定最優(yōu)化減排方案[1]。
1.2.1 采集技術(shù)
生態(tài)大數(shù)據(jù)采集體系中的氣象監(jiān)測遙感技術(shù)由3.5萬多個氣象站點組成,涵蓋百余種數(shù)據(jù)來源,常見的是空氣、地形、地表、土壤、降水、水質(zhì)、濕度等數(shù)據(jù)。此外,我國也已開始構(gòu)建生態(tài)遙感大數(shù)據(jù),創(chuàng)新應(yīng)用衛(wèi)星遙感、物聯(lián)網(wǎng)芯片、RFID、視頻感知、生物傳感器、光學(xué)傳感器、化學(xué)傳感器等技術(shù)開展全天候環(huán)境質(zhì)量監(jiān)測,如表1所示。
表1 生態(tài)環(huán)境大數(shù)據(jù)采集體系
1.2.2 處理技術(shù)
將原本標(biāo)準(zhǔn)化的計算流程及數(shù)據(jù)處理交由平臺在云端運算、集成統(tǒng)計分析,利用大數(shù)據(jù)技術(shù)優(yōu)化處理速度,實時提供評價以供生態(tài)研究人員在關(guān)鍵時刻做出判斷和決策,如表2所示。
表2 大數(shù)據(jù)處理技術(shù)
1.2.3 技術(shù)應(yīng)用
(1)監(jiān)測評價。整合多個數(shù)據(jù)源平臺,集中處理數(shù)據(jù)的交換和分析,借助網(wǎng)格監(jiān)控及云計算支持,構(gòu)建全景化環(huán)境質(zhì)量監(jiān)測、評價格局。
(2)模擬預(yù)測。通過神經(jīng)網(wǎng)絡(luò)模型進行機器學(xué)習(xí),利用氣象條件、空氣質(zhì)量、道路結(jié)構(gòu)等數(shù)據(jù)構(gòu)建精準(zhǔn)預(yù)測未來72 h 內(nèi)的空氣質(zhì)量、空氣污染物、細顆粒度等指標(biāo)的大氣污染物時空分布模擬預(yù)測模型。區(qū)域水文環(huán)境風(fēng)險評估預(yù)警系統(tǒng),則用于模擬預(yù)測長江水利、三峽水庫及渤海海域的水質(zhì)指標(biāo)和水污染事故。
(3)優(yōu)化管理。大數(shù)據(jù)技術(shù)從所有生態(tài)環(huán)境流通鏈條中獲取的監(jiān)測信息來對污染溯源,已成熟應(yīng)用于水污染和大氣污染防控、監(jiān)管領(lǐng)域。通過監(jiān)測河道污染物的遷移擴散、堆積異常、線性趨勢等信息,從關(guān)聯(lián)數(shù)據(jù)中查找污染源頭,即可對城市的水環(huán)境質(zhì)量進行精準(zhǔn)管控。
1.2.4 潛在價值
(1)數(shù)據(jù)感知層面。催生了多套生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò),能提供包括環(huán)境和生態(tài)的長期多維數(shù)據(jù),如中國科學(xué)院植物研究所建立的網(wǎng)站(iPlant)。
(2)商用層面。由互聯(lián)網(wǎng)企業(yè)為政府部門、研究機構(gòu)判斷環(huán)境現(xiàn)狀及分析未來趨勢提供最先進的存儲設(shè)備、搜索服務(wù)和信息技術(shù)支持,如惠普、谷歌、微軟等美國企業(yè)。
(3)政府監(jiān)管層面。依托數(shù)據(jù)高速傳輸技術(shù),利用視頻監(jiān)控、無人機紅外相機等設(shè)備。我國構(gòu)建的生態(tài)環(huán)境監(jiān)管網(wǎng)絡(luò)系統(tǒng)已涵蓋大氣、水和土壤等領(lǐng)域。
機器學(xué)習(xí)(Machine Learning,ML)是人工智能核心技術(shù),涉及系統(tǒng)辨識、逼近理論、優(yōu)化理論、統(tǒng)計學(xué)、計算機科學(xué)、腦科學(xué)、神經(jīng)網(wǎng)絡(luò)等眾多領(lǐng)域,也是一門新興發(fā)展的學(xué)科。主要研究讓計算機模仿人類學(xué)習(xí)行為來獲取新知識、新技能,重組已有知識結(jié)構(gòu),不斷完善機器自身性能[2]。
傳統(tǒng)ML 是通過經(jīng)驗沉淀來改善系統(tǒng)自身性能,如今ML 大多是借助數(shù)據(jù)來改善系統(tǒng)自身性能,通過相應(yīng)算法從樣本觀測中找出規(guī)律并據(jù)此對無法觀測的數(shù)據(jù)進行預(yù)測,典型ML 就是利用已知數(shù)據(jù)來標(biāo)注未知數(shù)據(jù)的過程。
2.2.1 機器學(xué)習(xí)的方法
生態(tài)大數(shù)據(jù)包含數(shù)據(jù)的采集、存儲和預(yù)處理,以及特征處理、模型構(gòu)建、數(shù)據(jù)可視化等,機器學(xué)習(xí)則通過分類、聚類、回歸、協(xié)同過濾、關(guān)聯(lián)規(guī)則等方法,深入挖掘數(shù)據(jù)價值并進行精準(zhǔn)預(yù)測,進而實現(xiàn)數(shù)據(jù)生態(tài)的良性循環(huán)。如將各種與霧霾相關(guān)的氣候特征轉(zhuǎn)換到具有機器語義特征的空間,機器模擬人類大腦神經(jīng)連接結(jié)構(gòu)進行自動學(xué)習(xí),得出層次化的氣候特性表達,不斷提高系統(tǒng)對霧霾預(yù)報的精準(zhǔn)度。
2.2.2 大數(shù)據(jù)實踐應(yīng)用
① 應(yīng)用場景:打造“督察、執(zhí)法、應(yīng)急指揮”全景監(jiān)管平臺,構(gòu)建集“實時監(jiān)控數(shù)據(jù)形勢診斷、預(yù)警預(yù)報和會商決策”于一體的多維時空數(shù)據(jù)治理和生態(tài)環(huán)境預(yù)警會商綜合體系。
② 構(gòu)筑前提:借助物聯(lián)網(wǎng)、衛(wèi)星遙感、低空航測(視頻監(jiān)控、無人機紅外攝影)等技術(shù),基于現(xiàn)有空氣和水環(huán)境質(zhì)量監(jiān)測網(wǎng)絡(luò),建立“空天地一體”數(shù)據(jù)感知智能系統(tǒng)。
③ 技術(shù)難點:智能感知、分布式集群、云計算、ML、專業(yè)化模型等相關(guān)技術(shù)、方法在生態(tài)環(huán)境領(lǐng)域的應(yīng)用。例如,使用Hadoop的分布式文件系統(tǒng)(HDFS)和分布式數(shù)據(jù)庫(MapReduce)批量處理環(huán)境大數(shù)據(jù);利用決策樹、貝葉斯、回歸模型、關(guān)聯(lián)規(guī)則、ML 等各種算法模型關(guān)聯(lián)分析和深度挖掘海量數(shù)據(jù)。
④ 建設(shè)基礎(chǔ):以生態(tài)空間數(shù)據(jù)及環(huán)境業(yè)務(wù)數(shù)據(jù)為中心,建立多源異構(gòu)大數(shù)據(jù)集成及存儲系統(tǒng)。針對非結(jié)構(gòu)化大數(shù)據(jù)的多樣性及結(jié)構(gòu)化數(shù)據(jù)的異構(gòu)、異源特性,實現(xiàn)多源數(shù)據(jù)空間和時間的融合,解決數(shù)據(jù)的高效存儲與清洗問題。
ML 技術(shù)與生態(tài)環(huán)境領(lǐng)域的結(jié)合發(fā)揮了大數(shù)據(jù)優(yōu)勢,提高各類數(shù)據(jù)模型的模擬精準(zhǔn)度,已在污染溯源、環(huán)境質(zhì)量預(yù)報預(yù)警及監(jiān)管等領(lǐng)域得到廣泛應(yīng)用。以下工作是ML 在生態(tài)大數(shù)據(jù)中的應(yīng)用關(guān)鍵。
(1)確定主體目標(biāo):大數(shù)據(jù)既可能是元數(shù)據(jù),也可能是宏觀理論概念,還可能是多學(xué)科交叉的過程,具有非常寬泛的可研究范圍,因此,確定具體的研究主體及研究目標(biāo)是非常重要和必要的。
(2)明確研究尺度:大數(shù)據(jù)在不同領(lǐng)域有不同的研究尺度,這使本就龐大、復(fù)雜的信息數(shù)據(jù)更加冗雜。如,氣象學(xué)家以分鐘、小時和天為單位來衡量天氣的變化情況,而生態(tài)學(xué)家則以年、萬年為單位關(guān)注物種在不同時空的演變……因此,一開始就必須規(guī)定好研究的尺度[3]。
(3)建立標(biāo)準(zhǔn)規(guī)范:目前,國內(nèi)外都缺少統(tǒng)一的生態(tài)大數(shù)據(jù)采集、存儲標(biāo)準(zhǔn),阻礙了數(shù)據(jù)的有效交換與共享。為推進生態(tài)環(huán)境管理的規(guī)范、健康發(fā)展,就需要建立科學(xué)、完善的生態(tài)環(huán)境大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系。
加強跨部門、跨領(lǐng)域數(shù)據(jù)共享與融通的研究,保證數(shù)據(jù)的及時、有效、完整和連續(xù)性;推動數(shù)據(jù)處理算法、軟件、工具的研究和開發(fā)應(yīng)用,提高數(shù)據(jù)處理效能;通過循環(huán)迭代優(yōu)化算法,不斷提高預(yù)測/預(yù)警/預(yù)報準(zhǔn)確率;構(gòu)建生態(tài)數(shù)據(jù)網(wǎng)絡(luò)服務(wù)基礎(chǔ)架構(gòu),共享解決方案,開放數(shù)據(jù)標(biāo)準(zhǔn)、代碼及來源,改進數(shù)據(jù)共享工作流程。
基于現(xiàn)有的生態(tài)監(jiān)測網(wǎng)絡(luò),以生態(tài)環(huán)境質(zhì)量改善為核心,加大監(jiān)測密度,擴展監(jiān)測范圍,構(gòu)建“空天地一體”智能監(jiān)測/監(jiān)控體系,實現(xiàn)重點領(lǐng)域自動監(jiān)測全覆蓋,以便及時發(fā)現(xiàn)區(qū)域內(nèi)的違法行為,為生態(tài)環(huán)境規(guī)劃、評估及監(jiān)管提供強有力的支持;
加強數(shù)據(jù)資源整體規(guī)劃,建立“標(biāo)準(zhǔn)統(tǒng)一、動態(tài)更新、應(yīng)用共享”的生態(tài)環(huán)境信息資源目錄,完善大數(shù)據(jù)治理體系,建設(shè)架構(gòu)開放的生態(tài)環(huán)境主題數(shù)據(jù)庫及云平臺,提升對數(shù)據(jù)資源的規(guī)劃、采集、服務(wù)等綜合管理應(yīng)用能力。
3.3.1 預(yù)警分析
全面掌握環(huán)境質(zhì)量變化情況,建立、健全監(jiān)測預(yù)警標(biāo)準(zhǔn),綜合統(tǒng)計分析環(huán)境現(xiàn)狀及變化趨勢。
3.3.2 形勢分析
建立生態(tài)環(huán)境與經(jīng)濟形勢關(guān)聯(lián)指數(shù),分析、識別環(huán)境質(zhì)量變化的主要影響因素。
3.3.3 生態(tài)環(huán)境事件舉報與輿情監(jiān)控
通過網(wǎng)絡(luò)輿情采集分析技術(shù)和公眾環(huán)保移動應(yīng)用(包括提供電子公共服務(wù)平臺、互聯(lián)網(wǎng)服務(wù)平臺等),讓輿情監(jiān)控由被動變主動。
3.3.4 管理支撐
在農(nóng)業(yè)面源污染整治、入河/海排污口排查、黑臭水體整治、河道非法采砂整治、非法碼頭整治、企業(yè)關(guān)改搬遷等領(lǐng)域應(yīng)用ML 和大數(shù)據(jù)感知等方法和技術(shù),有益于完善督察、執(zhí)法、管理手段,提高生態(tài)環(huán)境保護的工作效能[4]。
未來研究中,以機器學(xué)習(xí)技術(shù)對生態(tài)大數(shù)據(jù)的質(zhì)量進行評估,同時輔以傳統(tǒng)的收集方法,將能獲得有代表性的信息數(shù)據(jù)。此外,利用另一個平臺的數(shù)據(jù)來對抽樣調(diào)查所收集的目標(biāo)信息進行驗證測試,就能進一步判斷預(yù)測結(jié)論的穩(wěn)健性。
機器學(xué)習(xí)構(gòu)建的各類數(shù)據(jù)模型讓大數(shù)據(jù)的優(yōu)勢得到充分發(fā)揮。通過對生態(tài)環(huán)境海量數(shù)據(jù)所蘊藏價值的深度挖掘,將其應(yīng)用于生態(tài)環(huán)境眾多領(lǐng)域,可實現(xiàn)精準(zhǔn)的長時段全流程預(yù)測、預(yù)報和預(yù)警。有理由相信,在生態(tài)大數(shù)據(jù)建設(shè)中應(yīng)用ML 技術(shù),必將推動我國生態(tài)環(huán)境治理體系的現(xiàn)代化建設(shè)進程,有效防控和減少環(huán)境破壞,促進國民經(jīng)濟的健康、可持續(xù)發(fā)展。