周志凱 宋肖紅
(杭州數(shù)政科技有限公司 浙江省杭州市 310012)
隨著信息技術(shù)從IT 時代發(fā)展到DT 時代,信息技術(shù)與經(jīng)濟社會的交匯融合引發(fā)了數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源,2020年更是將數(shù)據(jù)明確列為第五大生產(chǎn)要素,與土地、勞動力、資本、技術(shù)等傳統(tǒng)要素并列為要素之一。政府作為數(shù)據(jù)要素的最大擁有者,推進政務(wù)大數(shù)據(jù)的開放共享,提升社會數(shù)據(jù)資源價值,無論是企業(yè)還是社會公眾,都對其抱有很大的期待,這必然對政務(wù)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量和規(guī)范性,提出了更高的要求。如何利用現(xiàn)有的技術(shù),探索建立統(tǒng)一的數(shù)據(jù)管理制度,提高數(shù)據(jù)質(zhì)量和規(guī)范性,將是政務(wù)大數(shù)據(jù)治理面臨的挑戰(zhàn)。
近年來,為實現(xiàn)對政務(wù)數(shù)據(jù)資源的有效管理和應(yīng)用,黨和國家的政策文件中陸續(xù)對政府?dāng)?shù)據(jù)治理工作提出了一系列相關(guān)要求,各地政府也紛紛制定并發(fā)布政府?dāng)?shù)據(jù)治理的相關(guān)政策規(guī)范,2010年至今,全國31 個?。ㄗ灾螀^(qū)、直轄市)共出臺了125 份省級政府層面與政府?dāng)?shù)據(jù)治理直接相關(guān)的政策文件,截至2019年底,我國31 個?。ㄗ灾螀^(qū)、直轄市)中,已有22 個省份設(shè)立專門的數(shù)據(jù)管理機構(gòu)。
政府政策文件的支撐,專門數(shù)據(jù)管理機構(gòu)的設(shè)立,為政務(wù)大數(shù)據(jù)治理奠定了良好的基礎(chǔ),基于政府各業(yè)務(wù)部門的數(shù)據(jù),本研究從數(shù)據(jù)規(guī)范的通用性和數(shù)據(jù)業(yè)務(wù)屬性的專有性出發(fā),結(jié)合政府?dāng)?shù)據(jù)資源開放共享的需求,充分考慮到數(shù)據(jù)治理的通用性、易用性、擴展性,以及業(yè)務(wù)屬性的針對性,構(gòu)建以政府元數(shù)據(jù)集為紐帶的通用規(guī)則集和業(yè)務(wù)規(guī)則集,實現(xiàn)了治理規(guī)則針對不同主題數(shù)據(jù)集的靈活適配,為政府治理、數(shù)字政府提供數(shù)據(jù)支撐。
基于政務(wù)大數(shù)據(jù)的特點和治理現(xiàn)狀,各個業(yè)務(wù)部門的數(shù)據(jù)歸集到大數(shù)據(jù)中心,形成海量、多源、多類型的政務(wù)大數(shù)據(jù)庫,然而,由于政府各個業(yè)務(wù)部門業(yè)務(wù)規(guī)范和數(shù)據(jù)標準的不同,單一的數(shù)據(jù)治理規(guī)則已不滿足政務(wù)大數(shù)據(jù)治理的需求,鑒于此,需要針對不同業(yè)務(wù)需求,個性化的定制治理規(guī)則,精準匹配,進行數(shù)據(jù)治理。
在構(gòu)建政務(wù)大數(shù)據(jù)治理規(guī)則體系的過程中,首先,我們依托數(shù)據(jù)歸集中心各業(yè)務(wù)部門的數(shù)據(jù)源,經(jīng)過整合、關(guān)聯(lián)、提取等一系列操作,形成部門元數(shù)據(jù)集合,并根據(jù)其業(yè)務(wù)屬性、數(shù)據(jù)屬性進行打標,集合形成分類元數(shù)據(jù)集,同一類別的元數(shù)據(jù)集包含相似的業(yè)務(wù)或數(shù)據(jù)屬性,具有相似的數(shù)據(jù)治理需求;其次,根據(jù)各業(yè)務(wù)部門數(shù)據(jù)源數(shù)據(jù)庫的存儲要求,以及數(shù)據(jù)庫通用的數(shù)據(jù)規(guī)范要求,去重、分析、整合,凝練出政務(wù)大數(shù)據(jù)可以通用的數(shù)據(jù)庫規(guī)范集,數(shù)據(jù)庫規(guī)范集普遍適用于各業(yè)務(wù)部門的數(shù)據(jù)治理需求,具有普適性;再次,根據(jù)各業(yè)務(wù)部門的業(yè)務(wù)規(guī)范,分類梳理,匯集成帶有業(yè)務(wù)專用性的數(shù)據(jù)庫可使用的業(yè)務(wù)規(guī)范集,業(yè)務(wù)規(guī)范集具有業(yè)務(wù)屬性,針對性的適用于不同的業(yè)務(wù)數(shù)據(jù)項;最后,將分類元數(shù)據(jù)集、數(shù)據(jù)庫規(guī)范集、業(yè)務(wù)規(guī)范集結(jié)合起來,互相關(guān)聯(lián),形成通用規(guī)則集和業(yè)務(wù)規(guī)則集,構(gòu)成政務(wù)大數(shù)據(jù)治理規(guī)則中心,并可根據(jù)歸集中心數(shù)據(jù)的增加和業(yè)務(wù)的擴充而擴充完善。政務(wù)大數(shù)據(jù)治理規(guī)則形成模式如圖1所示。
圖1:政務(wù)大數(shù)據(jù)治理規(guī)則形成模式
圖2:政務(wù)大數(shù)據(jù)治理規(guī)則體系
政務(wù)大數(shù)據(jù)治理規(guī)則包含通用規(guī)則集和業(yè)務(wù)規(guī)則集,結(jié)合規(guī)則與元數(shù)據(jù)的關(guān)聯(lián)關(guān)系集(即規(guī)則元數(shù)據(jù)集),共同形成政務(wù)大數(shù)據(jù)規(guī)則體系,可以靈活、快速、精準的對待治理的數(shù)據(jù)集進行配置,有針對性的進行數(shù)據(jù)治理。
2.2.1 通用規(guī)則集
圖3:政務(wù)大數(shù)據(jù)治理規(guī)則的應(yīng)用
通用規(guī)則集根據(jù)數(shù)據(jù)庫的存儲、使用等規(guī)范,整合提取具有普適性的規(guī)則集合而成,通用規(guī)則不包含明確的業(yè)務(wù)屬性,普遍適用于各業(yè)務(wù)部門的數(shù)據(jù)項,一般從完整性、準確性、規(guī)范性、唯一性、一致性、關(guān)聯(lián)性等六個方面出發(fā),作用于所有數(shù)據(jù)項,保證數(shù)據(jù)項符合基礎(chǔ)的治理規(guī)范,是最基礎(chǔ)最廣泛的治理規(guī)則集合。
完整性 Completeness:完整性主要校驗數(shù)據(jù)項內(nèi)容是否完整,即數(shù)據(jù)項是否缺失。包括對數(shù)據(jù)項的非空檢驗等規(guī)則。
準確性 Accuracy:準確性用于度量數(shù)據(jù)項內(nèi)容是否準確,即數(shù)據(jù)項內(nèi)容是否與其對應(yīng)的客觀實體的特征相一致。包括對數(shù)據(jù)項的數(shù)值異常檢驗、空格檢驗等規(guī)則。
規(guī)范性 Conformity:規(guī)范性關(guān)注數(shù)據(jù)項內(nèi)容是否規(guī)范,即數(shù)據(jù)是否滿足用戶定義的規(guī)范或在一定的值域字典范圍內(nèi)。包括對數(shù)據(jù)項的格式規(guī)范檢驗、值域字典檢驗、編碼規(guī)范檢驗等規(guī)則。
唯一性 Uniqueness:唯一性用于檢查數(shù)據(jù)記錄是否唯一,即數(shù)據(jù)是否存在重復(fù)記錄。包括對數(shù)據(jù)記錄的主鍵重復(fù)檢驗、整條記錄重復(fù)檢驗等規(guī)則。
一致性 Consistency:一致性用于校核數(shù)據(jù)上下文是否一致,即數(shù)據(jù)表同一的不同屬性值或不同記錄的同一屬性格式規(guī)范是否一致。包括對同一數(shù)據(jù)記錄不同數(shù)據(jù)項的一致性檢驗、同一數(shù)據(jù)項不同記錄的一致性檢驗等規(guī)則。
關(guān)聯(lián)性 Integration:關(guān)聯(lián)性用于校核關(guān)聯(lián)數(shù)據(jù)是否符合規(guī)定,即有關(guān)聯(lián)的不同數(shù)據(jù)源中同一實體的同一屬性的值是否一致。包括數(shù)據(jù)記錄關(guān)聯(lián)數(shù)據(jù)項的存在檢驗、關(guān)聯(lián)數(shù)據(jù)的一致性檢驗等規(guī)則。
2.2.2 業(yè)務(wù)規(guī)則集
業(yè)務(wù)規(guī)則集根據(jù)各個業(yè)務(wù)部門各個業(yè)務(wù)的業(yè)務(wù)規(guī)范分析梳理而成,業(yè)務(wù)規(guī)則具有較強的業(yè)務(wù)屬性,一般與業(yè)務(wù)部門的具體業(yè)務(wù)數(shù)據(jù)項相關(guān)聯(lián),具有專項性。業(yè)務(wù)規(guī)則集根據(jù)元數(shù)據(jù)的屬性分類,一般從編碼、字典、長度、格式、數(shù)值范圍、特殊字符、業(yè)務(wù)邏輯等七個方面分析梳理,基本涵蓋各業(yè)務(wù)元數(shù)據(jù)數(shù)據(jù)治理的需求。
2.2.3 規(guī)則元數(shù)據(jù)集
規(guī)則元數(shù)據(jù)集根據(jù)各業(yè)務(wù)部門歸集的數(shù)據(jù)整合、分類、提取而成,是通用規(guī)則集和業(yè)務(wù)規(guī)則集梳理的基礎(chǔ),是規(guī)則與數(shù)據(jù)項關(guān)聯(lián)關(guān)系的集合,在數(shù)據(jù)治理流程中對實現(xiàn)規(guī)則與數(shù)據(jù)項精準配置起到關(guān)鍵作用。規(guī)則元數(shù)據(jù)集包含元數(shù)據(jù)項業(yè)務(wù)部門類別,元數(shù)據(jù)項業(yè)務(wù)屬性分類,元數(shù)據(jù)項與通用規(guī)則、業(yè)務(wù)規(guī)則的關(guān)聯(lián)關(guān)系等信息。
通用規(guī)則集、業(yè)務(wù)規(guī)則集構(gòu)成政務(wù)大數(shù)據(jù)治理規(guī)則中心,與規(guī)則元數(shù)據(jù)集一起,形成政務(wù)大數(shù)據(jù)治理規(guī)則體系,具體如圖2所示。
政務(wù)大數(shù)據(jù)治理規(guī)則體系在政務(wù)大數(shù)據(jù)治理中起關(guān)鍵作用,將政府各業(yè)務(wù)部門歸集到大數(shù)據(jù)中心的數(shù)據(jù),依據(jù)治理規(guī)則中心的規(guī)則組件和各主題數(shù)據(jù)標準中心質(zhì)量標準的要求,靈活配置滿足其需求的規(guī)則,并根據(jù)治理任務(wù)中心的治理任務(wù)和調(diào)度任務(wù)設(shè)置,對其執(zhí)行離線或流式數(shù)據(jù)治理任務(wù),從而得到符合數(shù)據(jù)規(guī)范的規(guī)范數(shù)據(jù),政務(wù)大數(shù)據(jù)治理規(guī)則體系在政務(wù)大數(shù)據(jù)治理流程中的應(yīng)用如圖3所示。
基于政務(wù)大數(shù)據(jù)治理規(guī)則體系的治理規(guī)則中心,將通用性和個性化的規(guī)則整合分類,囊括了各個主題不同的數(shù)據(jù)治理需求,并可隨著歸集中心數(shù)據(jù)項的完善而擴充完善,實現(xiàn)治理規(guī)則的統(tǒng)一管理、靈活配置,并以其具備通用性、易用性、可擴展性,使數(shù)據(jù)治理規(guī)則配置有據(jù)可循,有據(jù)可依,統(tǒng)一協(xié)調(diào),精準適配,避免了人為的不一致和重復(fù)開發(fā),在政務(wù)大數(shù)據(jù)治理過程中作為不可或缺的一環(huán),發(fā)揮著其重要作用。
隨著數(shù)字政府的不斷推進,政務(wù)大數(shù)據(jù)治理受到越來越多的關(guān)注,是政府治理、數(shù)字政府的基礎(chǔ),本文從政務(wù)大數(shù)據(jù)治理的現(xiàn)狀出發(fā),結(jié)合政務(wù)大數(shù)據(jù)的特點,依托信息技術(shù)和政務(wù)大數(shù)據(jù)治理的政策、機構(gòu)基礎(chǔ),構(gòu)建形成以政府元數(shù)據(jù)集為紐帶的通用規(guī)則集和業(yè)務(wù)規(guī)則集,形成政務(wù)大數(shù)據(jù)治理規(guī)則體系,并應(yīng)用于浙江省大數(shù)據(jù)治理平臺,為全省“最多跑一次”改革提供了基礎(chǔ)數(shù)據(jù)支撐服務(wù)。