劉冰
摘 要 為充分把握國家實施大數(shù)據(jù)戰(zhàn)略,加強頂層設計和統(tǒng)籌管理,全面建立以省級政務云為基礎、以大數(shù)據(jù)資源管理為核心、以大數(shù)據(jù)示范應用為主導、以大數(shù)據(jù)安全體系為保障的大數(shù)據(jù)總體框架,初步構(gòu)建數(shù)據(jù)匯集存儲、開放共享、示范應用的大數(shù)據(jù)生態(tài)體系。通過建設資源中心,加快推進省級“數(shù)字政府”建設,釋放大數(shù)據(jù)紅利,提升政府治理能力,助推全省數(shù)字經(jīng)濟發(fā)展與轉(zhuǎn)型升級。
關鍵詞 大數(shù)據(jù)資源;建設研究;大數(shù)據(jù)紅利
1建設目標
充分利用云計算、大數(shù)據(jù)、人工智能等技術(shù),打造“12345”數(shù)據(jù)資源中心框架體系?!?”平臺:建設統(tǒng)一的數(shù)據(jù)資源中心軟件平臺?!?”類數(shù)據(jù)資源:匯聚形成兩類數(shù)據(jù)資源,一是數(shù)據(jù)湖,從外部數(shù)據(jù)源落地到數(shù)據(jù)資源中心的統(tǒng)一數(shù)據(jù)存儲空間;二是數(shù)據(jù)庫,用于存放經(jīng)過一系列清洗、轉(zhuǎn)換、加載、治理步驟后的高質(zhì)量的政務數(shù)據(jù)資源,其數(shù)據(jù)來源主要來自于數(shù)據(jù)湖?!?”級互聯(lián)互通:形成覆蓋上聯(lián)國家、下接市(州)、橫向連接省級部門的三級互聯(lián)互通模式?!?”大能力:數(shù)據(jù)承載能力、數(shù)據(jù)管理能力、數(shù)據(jù)服務能力、數(shù)據(jù)應用能力,構(gòu)建全省數(shù)據(jù)資源的核心樞紐,推進實現(xiàn)跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務的協(xié)同管理和服務。“5”項管理:實現(xiàn)數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全管理[1]。
2總體設計
2.1 總體框架
資源中心體系架構(gòu)為“4+3”框架形式,即基礎設施層、數(shù)據(jù)支撐層、數(shù)據(jù)資源層(數(shù)據(jù)匯聚中心)、數(shù)據(jù)管理層(數(shù)據(jù)管理中心)四個橫向?qū)哟螢橹黧w,標準規(guī)范、安全保障和運維保障三個縱向體系為支撐。①基礎設施層。依托四川省政務云平臺軟硬件、網(wǎng)絡資源等基礎設施,為資源中心提供計算、存儲、網(wǎng)絡、安全等基礎保障。②數(shù)據(jù)支撐層。數(shù)據(jù)支撐層包括大數(shù)據(jù)基礎支撐平臺(并行計算、分布式存儲等)、數(shù)據(jù)集成平臺(ETL、爬蟲等工具)、數(shù)據(jù)共享開放平臺、數(shù)據(jù)治理平臺等。③數(shù)據(jù)資源層(數(shù)據(jù)匯聚中心)。數(shù)據(jù)資源的建設范圍將覆蓋政務數(shù)據(jù)、社會數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等。數(shù)據(jù)資源層重點規(guī)劃建設數(shù)據(jù)湖和數(shù)據(jù)庫,數(shù)據(jù)湖是以大數(shù)據(jù)存儲和計算能力為支撐、融合匯聚多領域數(shù)據(jù),形成數(shù)據(jù)資源原始庫。數(shù)據(jù)庫是在數(shù)據(jù)治理的基礎上形成標準數(shù)據(jù)資源,構(gòu)建人口庫、法人庫、自然資源和空間地理庫、電子證照庫、社會信用庫等五大基礎庫,宏觀經(jīng)濟、政務服務、醫(yī)療健康、生態(tài)環(huán)境等重點領域主題庫以及對接共享部門建設的專題庫。④數(shù)據(jù)管理層(數(shù)據(jù)管理中心)。數(shù)據(jù)管理層以數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)安全管理等為一體全方位的數(shù)據(jù)管控和調(diào)度體系。
2.2 技術(shù)架構(gòu)
技術(shù)架構(gòu)主要從數(shù)據(jù)資源的全生命周期管理搭建平臺的技術(shù)架構(gòu)體系,涉及數(shù)據(jù)采集、數(shù)據(jù)治理、數(shù)據(jù)存儲等不同技術(shù)層面。基于大數(shù)據(jù)支撐平臺數(shù)據(jù)處理環(huán)境,無縫集成了Hadoop生態(tài)中大量工具,提供PB級海量數(shù)據(jù)存儲、查詢、分析和挖掘能力。具有如下關鍵特性:①靈活性:可以存儲任意類型的數(shù)據(jù)并可以使用多種不同的處理框架對數(shù)據(jù)進行處理,如批處理、交互式SQL、文本查詢、機器學習和統(tǒng)計分析計算;②集成化:快速建立并快速運行于一個完整的包裝好的基于Apache Hadoop的系統(tǒng);③安全性:方便處理和控制敏感的數(shù)據(jù),提供多租戶的運行保護機制;④可擴展:為廣泛的應用提供運行設施,并隨著業(yè)務成長支持靈活彈性擴展;⑤高可用:可以應對多任務高負載的應用場景,保證集群的穩(wěn)定;⑥兼容性:擴充和利用現(xiàn)有的基礎架構(gòu),保護投資;⑦開放性:受益于高速的創(chuàng)新,并且無須受制于專有供應商的鎖定。
3建設內(nèi)容
依據(jù)“4+3”總體框架形式,資源中心建設主要包括數(shù)據(jù)管理層、數(shù)據(jù)資源層、數(shù)據(jù)支撐層、基礎設施層四個橫向內(nèi)容,以及三個縱向(標準規(guī)范、安全保障和運維保障)支撐體系。
3.1 數(shù)據(jù)管理層
數(shù)據(jù)管理層是定位數(shù)據(jù)資源的管理調(diào)度中心,其構(gòu)建在
數(shù)據(jù)資源層之上,主要用來實現(xiàn)對數(shù)據(jù)資源的全生命周期管控。數(shù)據(jù)資源的管理包括數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)調(diào)度管理、數(shù)據(jù)安全管理等。
3.2 數(shù)據(jù)資源層
融合匯聚政務數(shù)據(jù)資源、社會數(shù)據(jù)資源和互聯(lián)網(wǎng)數(shù)據(jù)資源,構(gòu)建互聯(lián)互通、共享協(xié)作的全省大數(shù)據(jù)資源中心。數(shù)據(jù)資源層主要規(guī)劃建設數(shù)據(jù)湖和數(shù)據(jù)庫。數(shù)據(jù)湖是一個存儲政務數(shù)據(jù)、社會數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等多源異構(gòu)原始數(shù)據(jù)的大型倉庫;數(shù)據(jù)庫重點建設五大基礎庫、主題庫、專題庫。
3.3 數(shù)據(jù)支撐層
(1)大數(shù)據(jù)基礎支撐平臺。大數(shù)據(jù)基礎支撐系統(tǒng)定位于大數(shù)據(jù)技術(shù)組件集成環(huán)境,采用現(xiàn)有主流的大數(shù)據(jù)架構(gòu),無縫集成Hadoop生態(tài)中大量工具,提供PB級海量數(shù)據(jù)存儲、查詢、分析和挖掘能力,用以支撐未來各類政府領域、社會行業(yè)、互聯(lián)網(wǎng)的結(jié)構(gòu)化、非結(jié)構(gòu)化大數(shù)據(jù)存儲和計算需求。大數(shù)據(jù)基礎支撐系統(tǒng)包含業(yè)界流行的基于開源Hadoop及其生態(tài)組件構(gòu)建的核心,還需要具備很多支撐政府級業(yè)務的高級管理特性。
(2)數(shù)據(jù)集成平臺。數(shù)據(jù)集成平臺是實現(xiàn)數(shù)據(jù)采集匯聚能力的統(tǒng)一集成平臺,平臺提供前置機、部門業(yè)務備份庫、庫表數(shù)據(jù)傳輸、數(shù)據(jù)文件上報或?qū)搿⒔涌诜占傻榷喾N方式的數(shù)據(jù)采集。其中前置機、部門業(yè)務備份庫、庫表數(shù)據(jù)傳輸三類情景采用ETL方式來實現(xiàn)。數(shù)據(jù)文件上報或?qū)氩捎梦募蟼鞴δ軐崿F(xiàn)。接口服務集成要集成到服務管理平臺中。
(3)數(shù)據(jù)共享開放平臺。數(shù)據(jù)共享開放平臺是政務數(shù)據(jù)資源的交換和匯聚通道以及對外開放的載體,數(shù)據(jù)共享能夠縱向?qū)崿F(xiàn)國省市跨層級、跨地域的數(shù)據(jù)共享交換能力,橫向解決業(yè)務系統(tǒng)之間和跨部門的數(shù)據(jù)資源共享交換;數(shù)據(jù)開放將對外提供各類數(shù)據(jù)的下載及使用。
(4)數(shù)據(jù)治理平臺。數(shù)據(jù)治理平臺是通過建立數(shù)據(jù)質(zhì)量評估模型,定義數(shù)據(jù)檢測評估規(guī)則,對匯聚的數(shù)據(jù)進行數(shù)據(jù)質(zhì)量檢測,形成數(shù)據(jù)質(zhì)量報告,進而對具備質(zhì)量改進權(quán)限的數(shù)據(jù)進行清洗加工、融合比對、數(shù)據(jù)標簽、數(shù)據(jù)加密、數(shù)據(jù)脫敏、數(shù)據(jù)溯源等處理。主要包括數(shù)據(jù)質(zhì)量檢驗檢測、數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加密脫敏、數(shù)據(jù)溯源等功能模塊。
3.4 基礎設施層
基于四川省政務云平臺軟硬件、網(wǎng)絡資源等基礎設施,在政務云上建立資源中心運行所需的專享物理資源池,通過在專享資源上創(chuàng)建云主機的方式控制和管理專享資源,專屬物理資源基礎設施,為數(shù)據(jù)資源中心提供計算、存儲、網(wǎng)絡、安全等基礎保障。
3.5 三個支撐體系
資源中心建設以標準規(guī)范、安全保障和運維保障三個縱向體系為支撐。
參考文獻
[1] 賀劍武.基于大數(shù)據(jù)分析技術(shù)的旅游智慧平臺設計[J].現(xiàn)代電子技術(shù),2020,43(14):183-186.