国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生態(tài)環(huán)境信息的數(shù)據(jù)倉(cāng)庫(kù)模型構(gòu)建

2022-12-09 09:13謝穎斯
科技與創(chuàng)新 2022年23期
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)實(shí)體數(shù)據(jù)庫(kù)

謝穎斯

(廣東省環(huán)境科學(xué)研究院,廣東 廣州 510000)

生態(tài)環(huán)境信息化是當(dāng)今環(huán)境保護(hù)的重要手段,也是中國(guó)政府信息化建設(shè)的關(guān)鍵[1]。自生態(tài)環(huán)境信息化工作開(kāi)展以來(lái),全國(guó)各級(jí)環(huán)保部門先后就不同生態(tài)環(huán)境業(yè)務(wù)建設(shè)信息系統(tǒng),推動(dòng)信息公開(kāi),在提高環(huán)保政務(wù)服務(wù)水平的同時(shí),接受社會(huì)公眾監(jiān)督。但在信息化工作逐步推進(jìn)的過(guò)程中,因欠缺系統(tǒng)統(tǒng)籌規(guī)劃,各部門之間缺乏充分的溝通與交流,不同業(yè)務(wù)的信息系統(tǒng)獨(dú)立、分散,甚至重復(fù)建設(shè)[2]。由于沒(méi)有制定統(tǒng)一的建設(shè)標(biāo)準(zhǔn),導(dǎo)致各類業(yè)務(wù)數(shù)據(jù)相互割裂、質(zhì)量參差,長(zhǎng)此以來(lái)使得大量數(shù)據(jù)可利用價(jià)值低下,不利于數(shù)據(jù)的后續(xù)更新與長(zhǎng)遠(yuǎn)開(kāi)發(fā)利用,造成資源浪費(fèi)[3-4]。

隨著“大數(shù)據(jù)”理念及相關(guān)技術(shù)的普及,國(guó)務(wù)院也非常重視其在政務(wù)信息化建設(shè)中的作用和兩者相互促進(jìn)發(fā)展的成效[5],相關(guān)部門就各領(lǐng)域頒布多項(xiàng)大數(shù)據(jù)治理政策文件,大數(shù)據(jù)治理發(fā)展環(huán)境日益完善[6]。生態(tài)環(huán)境作為與民眾息息相關(guān)的一部分,也需建設(shè)智能、集成的生態(tài)環(huán)境大數(shù)據(jù)資源中心,進(jìn)一步提升對(duì)環(huán)境污染統(tǒng)一監(jiān)測(cè)、環(huán)保業(yè)務(wù)統(tǒng)一監(jiān)管和數(shù)據(jù)分析應(yīng)用的能力[7]。因此,建立一套長(zhǎng)效的生態(tài)環(huán)境數(shù)據(jù)整合與開(kāi)發(fā)利用的治理機(jī)制顯得尤為重要[8]。而這首要的基礎(chǔ),是要基于生態(tài)環(huán)境數(shù)據(jù)的特點(diǎn),打通每個(gè)業(yè)務(wù)系統(tǒng)之間的壁壘并彼此建立聯(lián)系,將這些“信息孤島”連成一體,建立專門集成儲(chǔ)存生態(tài)環(huán)境信息的數(shù)據(jù)倉(cāng)庫(kù)。

1 生態(tài)環(huán)境數(shù)據(jù)特點(diǎn)與現(xiàn)狀

1.1 數(shù)據(jù)種類多、規(guī)模龐大

生態(tài)環(huán)境業(yè)務(wù)種類多,各信息系統(tǒng)中集合了污染源監(jiān)管、環(huán)境質(zhì)量監(jiān)測(cè)、環(huán)境信用許可、環(huán)境應(yīng)急管理等不同方面與類型的信息,涉及水、大氣、土壤、噪聲、輻射等方面。除了以污染源名稱、地理坐標(biāo)、污染源總量為典型的結(jié)構(gòu)化數(shù)據(jù)外,還包含了各類業(yè)務(wù)申報(bào)和審批文檔、監(jiān)測(cè)視頻、現(xiàn)場(chǎng)圖片等非結(jié)構(gòu)化數(shù)據(jù)。大部分業(yè)務(wù)持續(xù)運(yùn)作,數(shù)據(jù)持續(xù)更新,數(shù)據(jù)體量持續(xù)增大。

1.2 數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量不高

不同業(yè)務(wù)系統(tǒng)之間建設(shè)標(biāo)準(zhǔn)不同,從數(shù)據(jù)庫(kù)選型、運(yùn)行環(huán)境、數(shù)據(jù)模型,到字段命名、字段類型、數(shù)據(jù)驗(yàn)證等,都沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),基本數(shù)據(jù)字典目錄如行政區(qū)劃、國(guó)民經(jīng)濟(jì)行業(yè)分類、污染物種類等采用過(guò)時(shí)數(shù)據(jù)或非官方標(biāo)準(zhǔn)目錄的情況非常常見(jiàn)。大部分系統(tǒng)在日常前端數(shù)據(jù)錄入時(shí)沒(méi)有做好數(shù)據(jù)校驗(yàn),相當(dāng)一部分異常、無(wú)效、重復(fù)、不完整的數(shù)據(jù)進(jìn)入系統(tǒng)數(shù)據(jù)庫(kù),更有一部分使用范圍小、更新頻率低的系統(tǒng)在建設(shè)時(shí)從簡(jiǎn),對(duì)數(shù)據(jù)的處理直接采用“收集—展示”方式,沒(méi)有對(duì)數(shù)據(jù)庫(kù)進(jìn)行嚴(yán)謹(jǐn)?shù)脑O(shè)計(jì)。

1.3 業(yè)務(wù)實(shí)體對(duì)象重疊,數(shù)據(jù)關(guān)聯(lián)性差

多數(shù)信息系統(tǒng)的作用皆為有空間屬性的實(shí)體業(yè)務(wù)對(duì)象(各行政區(qū)、流域、污染源等)在特定時(shí)間點(diǎn)的業(yè)務(wù)流程記錄或信息歸檔,各系統(tǒng)的實(shí)體業(yè)務(wù)對(duì)象基本存在相互交叉、重疊的情況。但由于各業(yè)務(wù)系統(tǒng)分散建設(shè),系統(tǒng)間數(shù)據(jù)呈碎片化,數(shù)據(jù)除了在自身所在系統(tǒng)內(nèi),沒(méi)有可分析利用的空間,多業(yè)務(wù)聯(lián)合分析統(tǒng)計(jì)的難度大增。結(jié)合前述兩點(diǎn),海量數(shù)據(jù)以離散、毫無(wú)關(guān)聯(lián)的方式保存于各個(gè)數(shù)據(jù)庫(kù)中,數(shù)據(jù)價(jià)值大打折扣,加上“僵尸系統(tǒng)”和“失效數(shù)據(jù)”的大量存在,造成了資源的極大損失。

2 數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、不可更新的、隨時(shí)間不斷變化的數(shù)據(jù)集合。與存儲(chǔ)操作性數(shù)據(jù)的傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)不同,它側(cè)重于數(shù)據(jù)分析與決策支持。生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)建設(shè)過(guò)程主要如下。

2.1 信息探究與標(biāo)準(zhǔn)建立

信息探究關(guān)鍵在于2個(gè)方面:一是梳理業(yè)務(wù)邏輯與流程,界定主要分析維度;二是理清各業(yè)務(wù)系統(tǒng)里的數(shù)據(jù)狀況,包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)模型設(shè)計(jì)特點(diǎn)、各數(shù)據(jù)表以及每個(gè)字段的含義等,確定進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容和數(shù)據(jù)入倉(cāng)標(biāo)準(zhǔn)與策略。

同時(shí),正確參照國(guó)家現(xiàn)有的《環(huán)境信息元數(shù)據(jù)規(guī)范》,遵循共享性、唯一性、穩(wěn)定性、可擴(kuò)展性、前瞻性、可行性原則建立數(shù)據(jù)標(biāo)準(zhǔn)。對(duì)行政區(qū)劃代碼、國(guó)民經(jīng)濟(jì)行業(yè)分類、污染物名錄等建立唯一的公共字典目錄,并與各業(yè)務(wù)系統(tǒng)自身的字典目錄建立映射,為多業(yè)務(wù)聯(lián)動(dòng)提供前提。

2.2 建立數(shù)據(jù)模型

根據(jù)生態(tài)環(huán)境業(yè)務(wù)數(shù)據(jù)的特點(diǎn),構(gòu)建“實(shí)體—時(shí)間—事件”模型,如圖1所示。

圖1 “實(shí)體—時(shí)間—事件”模型ER圖

“實(shí)體”指具有空間屬性,且有業(yè)務(wù)管理或統(tǒng)計(jì)需求的業(yè)務(wù)單元,按照實(shí)體之間的空間包含關(guān)系,可以確定其層級(jí)結(jié)構(gòu)并分類。由于大多數(shù)實(shí)體涉及多個(gè)業(yè)務(wù),因此在構(gòu)建實(shí)體關(guān)系結(jié)構(gòu)時(shí)引入“主數(shù)據(jù)”概念。實(shí)體關(guān)系結(jié)構(gòu)示例如圖2所示,實(shí)線表示實(shí)體的從屬關(guān)系,由實(shí)體數(shù)據(jù)的業(yè)務(wù)關(guān)系與地理坐標(biāo)信息確定;虛線表示相等關(guān)系,需要不同業(yè)務(wù)的同類實(shí)體數(shù)據(jù)比對(duì)后確定,如圖中的4個(gè)固定污染源就都表示相同的業(yè)務(wù)單元。這種定義實(shí)體關(guān)系的方法,縱向看同時(shí)兼容了多種層級(jí)關(guān)系,橫向看避免了復(fù)雜耗時(shí)的實(shí)體去重合并工作,而且還能由多個(gè)業(yè)務(wù)系統(tǒng)來(lái)對(duì)實(shí)體數(shù)據(jù)進(jìn)行查漏補(bǔ)缺,并保留各業(yè)務(wù)下側(cè)重不同的實(shí)體擴(kuò)展信息,還能掌握實(shí)體參與各業(yè)務(wù)期間改名、易地的情況。

“時(shí)間”是實(shí)體業(yè)務(wù)對(duì)象在具體業(yè)務(wù)發(fā)生時(shí)的重要標(biāo)記,根據(jù)各業(yè)務(wù)發(fā)生頻率可分為年、季度、月、日、小時(shí)等多個(gè)類別。

圖2 實(shí)體關(guān)系結(jié)構(gòu)示例

“事件”即實(shí)體在特定時(shí)間內(nèi)發(fā)生的業(yè)務(wù)內(nèi)容,如某排污單位的排污許可證審批或某空氣質(zhì)量監(jiān)測(cè)點(diǎn)監(jiān)測(cè)一次空氣質(zhì)量,都可以作為事件看待。事件可按生態(tài)環(huán)境核心業(yè)務(wù)種類、業(yè)務(wù)負(fù)責(zé)部門等分別進(jìn)行分類。

“實(shí)體—時(shí)間—事件”模型的建立,也定義了生態(tài)環(huán)境信息的3個(gè)基本維度,如圖3所示,除了能適應(yīng)現(xiàn)有業(yè)務(wù),也能兼容未來(lái)新增業(yè)務(wù)的接入。

圖3 環(huán)境信息的3個(gè)基本維度

2.3 數(shù)據(jù)倉(cāng)庫(kù)分層架構(gòu)

建立數(shù)據(jù)分層模型,對(duì)生態(tài)環(huán)境數(shù)據(jù)進(jìn)行歸納整理。這里將數(shù)據(jù)倉(cāng)庫(kù)分為3層:ODS層(操作性數(shù)據(jù)層)、DW層(數(shù)據(jù)倉(cāng)庫(kù)層)和DM層(數(shù)據(jù)集市層)[9],設(shè)計(jì)合適的ETL(抽取—轉(zhuǎn)換—加載)過(guò)程,將各業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)經(jīng)過(guò)“加工”后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中。數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫(kù)到實(shí)際應(yīng)用的流向示意圖如圖4所示,實(shí)際工作中需建立自動(dòng)化的調(diào)度策略,用于定期有序執(zhí)行ETL作業(yè)流程,以保證數(shù)據(jù)倉(cāng)庫(kù)的時(shí)效性。

ODS層是直接對(duì)接各個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)的一層,是數(shù)據(jù)源與數(shù)據(jù)倉(cāng)庫(kù)之間的一個(gè)隔離,其數(shù)據(jù)庫(kù)結(jié)構(gòu)與業(yè)務(wù)數(shù)據(jù)庫(kù)基本保持一致。數(shù)據(jù)源中的數(shù)據(jù)經(jīng)過(guò)篩選,去除無(wú)效、異常、重復(fù)的部分后裝入本層。每個(gè)業(yè)務(wù)所用字典目錄與數(shù)據(jù)倉(cāng)庫(kù)公共字典目錄的映射也于本層建立。

DW層為整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心部分,上述數(shù)據(jù)模型于本層實(shí)裝。ODS層中的數(shù)據(jù)按照所建立的數(shù)據(jù)模型重構(gòu)后加載到本層。DW層的數(shù)據(jù)通常只允許增加,不允許修改或刪除,實(shí)際過(guò)程中也需要定期對(duì)本層數(shù)據(jù)進(jìn)行質(zhì)量評(píng)審,以保證數(shù)據(jù)倉(cāng)庫(kù)的準(zhǔn)確性。

DM層中的各個(gè)數(shù)據(jù)庫(kù)用于存儲(chǔ)基于數(shù)據(jù)倉(cāng)庫(kù)中的整合數(shù)據(jù),根據(jù)特定需求匯總成某一專題的數(shù)據(jù)。每一個(gè)數(shù)據(jù)集市都可以看作是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它一般是面向特定的部門、業(yè)務(wù)或主題。

數(shù)據(jù)集市中的專題數(shù)據(jù),可直接用于構(gòu)建專題。由于數(shù)據(jù)最終直接來(lái)源于現(xiàn)有業(yè)務(wù)數(shù)據(jù)庫(kù),使得構(gòu)建應(yīng)用時(shí)省去了數(shù)據(jù)收集等步驟,避免了重復(fù)建設(shè)業(yè)務(wù)系統(tǒng)的弊端,也保證了數(shù)據(jù)與現(xiàn)有業(yè)務(wù)歷史數(shù)據(jù)的一致性。同時(shí),各業(yè)務(wù)的數(shù)據(jù)也能夠按需進(jìn)行關(guān)聯(lián)分析,大大提高了現(xiàn)有數(shù)據(jù)資源的可用性與價(jià)值。

圖4 數(shù)據(jù)分層及過(guò)程策略

3 總結(jié)與展望

生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建,提供面向應(yīng)用分析的集成化數(shù)據(jù)存儲(chǔ)環(huán)境,為解決生態(tài)環(huán)境數(shù)據(jù)現(xiàn)狀問(wèn)題提供了整合方法與思路。后續(xù)可基于此快速構(gòu)建生態(tài)環(huán)境管理專題庫(kù)和應(yīng)用庫(kù),并結(jié)合數(shù)據(jù)挖掘等技術(shù),有效提高生態(tài)環(huán)境信息資源的利用價(jià)值和效率,進(jìn)一步提升對(duì)生態(tài)環(huán)境業(yè)務(wù)綜合管理、智能分析應(yīng)用以及綜合決策等信息系統(tǒng)建設(shè)的支撐能力。

然而,現(xiàn)階段生態(tài)環(huán)境數(shù)據(jù)治理大部分還處于重點(diǎn)業(yè)務(wù)數(shù)據(jù)資源的基礎(chǔ)性治理階段,業(yè)務(wù)數(shù)據(jù)尚未完整匯聚整合,多級(jí)數(shù)據(jù)共享通道有待全面打通,數(shù)據(jù)資產(chǎn)構(gòu)建仍需進(jìn)一步體系化。因此,如何利用生態(tài)環(huán)境信息數(shù)據(jù)倉(cāng)庫(kù)技術(shù)結(jié)合生態(tài)環(huán)境歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)為智慧環(huán)保提供數(shù)據(jù)服務(wù)支撐,還需要進(jìn)一步的探索。

猜你喜歡
數(shù)據(jù)倉(cāng)庫(kù)實(shí)體數(shù)據(jù)庫(kù)
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傾斜解決方案研究
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體書店步入復(fù)興期?
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
數(shù)據(jù)庫(kù)
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
集安市| 崇左市| 桃源县| 襄樊市| 克什克腾旗| 青龙| 梧州市| 道真| 阿城市| 加查县| 北辰区| 南安市| 昌乐县| 江山市| 武夷山市| 营山县| 沙坪坝区| 察雅县| 罗定市| 泉州市| 滦平县| 青海省| 衡阳市| 溧水县| 元江| 封丘县| 中卫市| 濮阳市| 黔南| 沭阳县| 金昌市| 朝阳区| 静安区| 资兴市| 营山县| 锦屏县| 昭通市| 海晏县| 云阳县| 德阳市| 安达市|