謝穎斯
(廣東省環(huán)境科學(xué)研究院,廣東 廣州 510000)
生態(tài)環(huán)境信息化是當(dāng)今環(huán)境保護(hù)的重要手段,也是中國(guó)政府信息化建設(shè)的關(guān)鍵[1]。自生態(tài)環(huán)境信息化工作開(kāi)展以來(lái),全國(guó)各級(jí)環(huán)保部門先后就不同生態(tài)環(huán)境業(yè)務(wù)建設(shè)信息系統(tǒng),推動(dòng)信息公開(kāi),在提高環(huán)保政務(wù)服務(wù)水平的同時(shí),接受社會(huì)公眾監(jiān)督。但在信息化工作逐步推進(jìn)的過(guò)程中,因欠缺系統(tǒng)統(tǒng)籌規(guī)劃,各部門之間缺乏充分的溝通與交流,不同業(yè)務(wù)的信息系統(tǒng)獨(dú)立、分散,甚至重復(fù)建設(shè)[2]。由于沒(méi)有制定統(tǒng)一的建設(shè)標(biāo)準(zhǔn),導(dǎo)致各類業(yè)務(wù)數(shù)據(jù)相互割裂、質(zhì)量參差,長(zhǎng)此以來(lái)使得大量數(shù)據(jù)可利用價(jià)值低下,不利于數(shù)據(jù)的后續(xù)更新與長(zhǎng)遠(yuǎn)開(kāi)發(fā)利用,造成資源浪費(fèi)[3-4]。
隨著“大數(shù)據(jù)”理念及相關(guān)技術(shù)的普及,國(guó)務(wù)院也非常重視其在政務(wù)信息化建設(shè)中的作用和兩者相互促進(jìn)發(fā)展的成效[5],相關(guān)部門就各領(lǐng)域頒布多項(xiàng)大數(shù)據(jù)治理政策文件,大數(shù)據(jù)治理發(fā)展環(huán)境日益完善[6]。生態(tài)環(huán)境作為與民眾息息相關(guān)的一部分,也需建設(shè)智能、集成的生態(tài)環(huán)境大數(shù)據(jù)資源中心,進(jìn)一步提升對(duì)環(huán)境污染統(tǒng)一監(jiān)測(cè)、環(huán)保業(yè)務(wù)統(tǒng)一監(jiān)管和數(shù)據(jù)分析應(yīng)用的能力[7]。因此,建立一套長(zhǎng)效的生態(tài)環(huán)境數(shù)據(jù)整合與開(kāi)發(fā)利用的治理機(jī)制顯得尤為重要[8]。而這首要的基礎(chǔ),是要基于生態(tài)環(huán)境數(shù)據(jù)的特點(diǎn),打通每個(gè)業(yè)務(wù)系統(tǒng)之間的壁壘并彼此建立聯(lián)系,將這些“信息孤島”連成一體,建立專門集成儲(chǔ)存生態(tài)環(huán)境信息的數(shù)據(jù)倉(cāng)庫(kù)。
生態(tài)環(huán)境業(yè)務(wù)種類多,各信息系統(tǒng)中集合了污染源監(jiān)管、環(huán)境質(zhì)量監(jiān)測(cè)、環(huán)境信用許可、環(huán)境應(yīng)急管理等不同方面與類型的信息,涉及水、大氣、土壤、噪聲、輻射等方面。除了以污染源名稱、地理坐標(biāo)、污染源總量為典型的結(jié)構(gòu)化數(shù)據(jù)外,還包含了各類業(yè)務(wù)申報(bào)和審批文檔、監(jiān)測(cè)視頻、現(xiàn)場(chǎng)圖片等非結(jié)構(gòu)化數(shù)據(jù)。大部分業(yè)務(wù)持續(xù)運(yùn)作,數(shù)據(jù)持續(xù)更新,數(shù)據(jù)體量持續(xù)增大。
不同業(yè)務(wù)系統(tǒng)之間建設(shè)標(biāo)準(zhǔn)不同,從數(shù)據(jù)庫(kù)選型、運(yùn)行環(huán)境、數(shù)據(jù)模型,到字段命名、字段類型、數(shù)據(jù)驗(yàn)證等,都沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),基本數(shù)據(jù)字典目錄如行政區(qū)劃、國(guó)民經(jīng)濟(jì)行業(yè)分類、污染物種類等采用過(guò)時(shí)數(shù)據(jù)或非官方標(biāo)準(zhǔn)目錄的情況非常常見(jiàn)。大部分系統(tǒng)在日常前端數(shù)據(jù)錄入時(shí)沒(méi)有做好數(shù)據(jù)校驗(yàn),相當(dāng)一部分異常、無(wú)效、重復(fù)、不完整的數(shù)據(jù)進(jìn)入系統(tǒng)數(shù)據(jù)庫(kù),更有一部分使用范圍小、更新頻率低的系統(tǒng)在建設(shè)時(shí)從簡(jiǎn),對(duì)數(shù)據(jù)的處理直接采用“收集—展示”方式,沒(méi)有對(duì)數(shù)據(jù)庫(kù)進(jìn)行嚴(yán)謹(jǐn)?shù)脑O(shè)計(jì)。
多數(shù)信息系統(tǒng)的作用皆為有空間屬性的實(shí)體業(yè)務(wù)對(duì)象(各行政區(qū)、流域、污染源等)在特定時(shí)間點(diǎn)的業(yè)務(wù)流程記錄或信息歸檔,各系統(tǒng)的實(shí)體業(yè)務(wù)對(duì)象基本存在相互交叉、重疊的情況。但由于各業(yè)務(wù)系統(tǒng)分散建設(shè),系統(tǒng)間數(shù)據(jù)呈碎片化,數(shù)據(jù)除了在自身所在系統(tǒng)內(nèi),沒(méi)有可分析利用的空間,多業(yè)務(wù)聯(lián)合分析統(tǒng)計(jì)的難度大增。結(jié)合前述兩點(diǎn),海量數(shù)據(jù)以離散、毫無(wú)關(guān)聯(lián)的方式保存于各個(gè)數(shù)據(jù)庫(kù)中,數(shù)據(jù)價(jià)值大打折扣,加上“僵尸系統(tǒng)”和“失效數(shù)據(jù)”的大量存在,造成了資源的極大損失。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。與存儲(chǔ)操作性數(shù)據(jù)的傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)不同,它側(cè)重于數(shù)據(jù)分析與決策支持。生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)建設(shè)過(guò)程主要如下。
信息探究關(guān)鍵在于2個(gè)方面:一是梳理業(yè)務(wù)邏輯與流程,界定主要分析維度;二是理清各業(yè)務(wù)系統(tǒng)里的數(shù)據(jù)狀況,包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)模型設(shè)計(jì)特點(diǎn)、各數(shù)據(jù)表以及每個(gè)字段的含義等,確定進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和數(shù)據(jù)入倉(cāng)標(biāo)準(zhǔn)與策略。
同時(shí),正確參照國(guó)家現(xiàn)有的《環(huán)境信息元數(shù)據(jù)規(guī)范》,遵循共享性、唯一性、穩(wěn)定性、可擴(kuò)展性、前瞻性、可行性原則建立數(shù)據(jù)標(biāo)準(zhǔn)。對(duì)行政區(qū)劃代碼、國(guó)民經(jīng)濟(jì)行業(yè)分類、污染物名錄等建立唯一的公共字典目錄,并與各業(yè)務(wù)系統(tǒng)自身的字典目錄建立映射,為多業(yè)務(wù)聯(lián)動(dòng)提供前提。
根據(jù)生態(tài)環(huán)境業(yè)務(wù)數(shù)據(jù)的特點(diǎn),構(gòu)建“實(shí)體—時(shí)間—事件”模型,如圖1所示。
圖1 “實(shí)體—時(shí)間—事件”模型ER圖
“實(shí)體”指具有空間屬性,且有業(yè)務(wù)管理或統(tǒng)計(jì)需求的業(yè)務(wù)單元,按照實(shí)體之間的空間包含關(guān)系,可以確定其層級(jí)結(jié)構(gòu)并分類。由于大多數(shù)實(shí)體涉及多個(gè)業(yè)務(wù),因此在構(gòu)建實(shí)體關(guān)系結(jié)構(gòu)時(shí)引入“主數(shù)據(jù)”概念。實(shí)體關(guān)系結(jié)構(gòu)示例如圖2所示,實(shí)線表示實(shí)體的從屬關(guān)系,由實(shí)體數(shù)據(jù)的業(yè)務(wù)關(guān)系與地理坐標(biāo)信息確定;虛線表示相等關(guān)系,需要不同業(yè)務(wù)的同類實(shí)體數(shù)據(jù)比對(duì)后確定,如圖中的4個(gè)固定污染源就都表示相同的業(yè)務(wù)單元。這種定義實(shí)體關(guān)系的方法,縱向看同時(shí)兼容了多種層級(jí)關(guān)系,橫向看避免了復(fù)雜耗時(shí)的實(shí)體去重合并工作,而且還能由多個(gè)業(yè)務(wù)系統(tǒng)來(lái)對(duì)實(shí)體數(shù)據(jù)進(jìn)行查漏補(bǔ)缺,并保留各業(yè)務(wù)下側(cè)重不同的實(shí)體擴(kuò)展信息,還能掌握實(shí)體參與各業(yè)務(wù)期間改名、易地的情況。
“時(shí)間”是實(shí)體業(yè)務(wù)對(duì)象在具體業(yè)務(wù)發(fā)生時(shí)的重要標(biāo)記,根據(jù)各業(yè)務(wù)發(fā)生頻率可分為年、季度、月、日、小時(shí)等多個(gè)類別。
圖2 實(shí)體關(guān)系結(jié)構(gòu)示例
“事件”即實(shí)體在特定時(shí)間內(nèi)發(fā)生的業(yè)務(wù)內(nèi)容,如某排污單位的排污許可證審批或某空氣質(zhì)量監(jiān)測(cè)點(diǎn)監(jiān)測(cè)一次空氣質(zhì)量,都可以作為事件看待。事件可按生態(tài)環(huán)境核心業(yè)務(wù)種類、業(yè)務(wù)負(fù)責(zé)部門等分別進(jìn)行分類。
“實(shí)體—時(shí)間—事件”模型的建立,也定義了生態(tài)環(huán)境信息的3個(gè)基本維度,如圖3所示,除了能適應(yīng)現(xiàn)有業(yè)務(wù),也能兼容未來(lái)新增業(yè)務(wù)的接入。
圖3 環(huán)境信息的3個(gè)基本維度
建立數(shù)據(jù)分層模型,對(duì)生態(tài)環(huán)境數(shù)據(jù)進(jìn)行歸納整理。這里將數(shù)據(jù)倉(cāng)庫(kù)分為3層:ODS層(操作性數(shù)據(jù)層)、DW層(數(shù)據(jù)倉(cāng)庫(kù)層)和DM層(數(shù)據(jù)集市層)[9],設(shè)計(jì)合適的ETL(抽取—轉(zhuǎn)換—加載)過(guò)程,將各業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)經(jīng)過(guò)“加工”后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中。數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫(kù)到實(shí)際應(yīng)用的流向示意圖如圖4所示,實(shí)際工作中需建立自動(dòng)化的調(diào)度策略,用于定期有序執(zhí)行ETL作業(yè)流程,以保證數(shù)據(jù)倉(cāng)庫(kù)的時(shí)效性。
ODS層是直接對(duì)接各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)的一層,是數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)之間的一個(gè)隔離,其數(shù)據(jù)庫(kù)結(jié)構(gòu)與業(yè)務(wù)數(shù)據(jù)庫(kù)基本保持一致。數(shù)據(jù)源中的數(shù)據(jù)經(jīng)過(guò)篩選,去除無(wú)效、異常、重復(fù)的部分后裝入本層。每個(gè)業(yè)務(wù)所用字典目錄與數(shù)據(jù)倉(cāng)庫(kù)公共字典目錄的映射也于本層建立。
DW層為整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心部分,上述數(shù)據(jù)模型于本層實(shí)裝。ODS層中的數(shù)據(jù)按照所建立的數(shù)據(jù)模型重構(gòu)后加載到本層。DW層的數(shù)據(jù)通常只允許增加,不允許修改或刪除,實(shí)際過(guò)程中也需要定期對(duì)本層數(shù)據(jù)進(jìn)行質(zhì)量評(píng)審,以保證數(shù)據(jù)倉(cāng)庫(kù)的準(zhǔn)確性。
DM層中的各個(gè)數(shù)據(jù)庫(kù)用于存儲(chǔ)基于數(shù)據(jù)倉(cāng)庫(kù)中的整合數(shù)據(jù),根據(jù)特定需求匯總成某一專題的數(shù)據(jù)。每一個(gè)數(shù)據(jù)集市都可以看作是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它一般是面向特定的部門、業(yè)務(wù)或主題。
數(shù)據(jù)集市中的專題數(shù)據(jù),可直接用于構(gòu)建專題。由于數(shù)據(jù)最終直接來(lái)源于現(xiàn)有業(yè)務(wù)數(shù)據(jù)庫(kù),使得構(gòu)建應(yīng)用時(shí)省去了數(shù)據(jù)收集等步驟,避免了重復(fù)建設(shè)業(yè)務(wù)系統(tǒng)的弊端,也保證了數(shù)據(jù)與現(xiàn)有業(yè)務(wù)歷史數(shù)據(jù)的一致性。同時(shí),各業(yè)務(wù)的數(shù)據(jù)也能夠按需進(jìn)行關(guān)聯(lián)分析,大大提高了現(xiàn)有數(shù)據(jù)資源的可用性與價(jià)值。
圖4 數(shù)據(jù)分層及過(guò)程策略
生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,提供面向應(yīng)用分析的集成化數(shù)據(jù)存儲(chǔ)環(huán)境,為解決生態(tài)環(huán)境數(shù)據(jù)現(xiàn)狀問(wèn)題提供了整合方法與思路。后續(xù)可基于此快速構(gòu)建生態(tài)環(huán)境管理專題庫(kù)和應(yīng)用庫(kù),并結(jié)合數(shù)據(jù)挖掘等技術(shù),有效提高生態(tài)環(huán)境信息資源的利用價(jià)值和效率,進(jìn)一步提升對(duì)生態(tài)環(huán)境業(yè)務(wù)綜合管理、智能分析應(yīng)用以及綜合決策等信息系統(tǒng)建設(shè)的支撐能力。
然而,現(xiàn)階段生態(tài)環(huán)境數(shù)據(jù)治理大部分還處于重點(diǎn)業(yè)務(wù)數(shù)據(jù)資源的基礎(chǔ)性治理階段,業(yè)務(wù)數(shù)據(jù)尚未完整匯聚整合,多級(jí)數(shù)據(jù)共享通道有待全面打通,數(shù)據(jù)資產(chǎn)構(gòu)建仍需進(jìn)一步體系化。因此,如何利用生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)技術(shù)結(jié)合生態(tài)環(huán)境歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)為智慧環(huán)保提供數(shù)據(jù)服務(wù)支撐,還需要進(jìn)一步的探索。