練海榮 孫曉寧 張未來
(蘇州龍石信息科技有限公司,蘇州 215000)
現(xiàn)階段,我國數(shù)字政府的基礎建設取得了較大的進展,伴隨著基礎庫、交換平臺、資源目錄、城市大腦等數(shù)字政府支撐平臺的深化應用,數(shù)據(jù)量快速增長,數(shù)據(jù)量的增長必然帶來數(shù)據(jù)質量管理的問題。本文通過對政務數(shù)據(jù)質量管理體系和工作機制的研究,提出現(xiàn)狀評估、問題溯源、質量修復、考核評價的四步走解決方案,結合管理制度、工作指南和考核標準,以及基于智能化的數(shù)據(jù)探索技術,明晰政務數(shù)據(jù)質量管理的架構、流程、機制、評價指標、規(guī)章制度等工作內容[1],建立健全數(shù)據(jù)質量管控機制,指導數(shù)據(jù)質量提升,通過數(shù)據(jù)質量管理激活數(shù)據(jù)資源價值[2],為數(shù)字政府建設提供良好的數(shù)據(jù)支撐。
從2014年大數(shù)據(jù)首次寫入政府工作報告以來,我國的大數(shù)據(jù)蓬勃發(fā)展,技術產業(yè)和應用創(chuàng)新不斷邁向新高度,融合應用不斷深化[3]。在2020年發(fā)布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》文件中明確規(guī)定,要加快培育數(shù)據(jù)要素市場,推進政府數(shù)據(jù)開放共享、提升社會數(shù)據(jù)資源價值、加強數(shù)據(jù)資源整合和安全保護,探索建立統(tǒng)一規(guī)范的數(shù)據(jù)管理制度,提高數(shù)據(jù)質量和規(guī)范性。數(shù)據(jù)作為當前社會經濟發(fā)展的基礎性要素,其地位得到了前所未有的重視。我國政務大數(shù)據(jù)的發(fā)展大致經歷了以下幾個階段。
2012年,國家發(fā)展和改革委員會印發(fā)《“十二五”國家政務信息化工程建設規(guī)劃》(簡稱《規(guī)劃》),《規(guī)劃》要求深化國家基礎信息資源開發(fā)利用,提出了人口信息資源庫、法人單位信息資源庫、空間地理信息資源庫、宏觀經濟信息資源庫、文化信息資源庫的建設目標,并依法向政務部門和社會開放。2014年,“大數(shù)據(jù)”首次寫入政府工作報告,大數(shù)據(jù)開始成為國內社會各界關注的熱點。
數(shù)據(jù)匯聚階段以2015年印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》(簡稱《綱要》)為標志,《綱要》提出了我國大數(shù)據(jù)整體發(fā)展的頂層規(guī)劃和統(tǒng)籌布局,并明確數(shù)據(jù)已成為國家基礎性戰(zhàn)略資源,規(guī)劃了政府數(shù)據(jù)資源共享開放工程、國家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程、政府治理大數(shù)據(jù)工程等十大任務。
2016年國務院印發(fā)《政務信息資源共享管理暫行辦法》(國發(fā)〔2016〕51號)、2017年國務院辦公廳關于印發(fā)《政務信息系統(tǒng)整合共享實施方案》(國辦發(fā)〔2017〕39號),以及國家發(fā)展和改革委員會、中共中央網絡安全和信息化委員會辦公室聯(lián)合印發(fā)《政務信息資源目錄編制指南(試行)》(發(fā)改高技〔2017〕1272號),對我國政務信息資源的開放共享提供了指導方向。自此,政務信息資源的開放共享進入推廣應用階段。
經過多年建設,大數(shù)據(jù)技術框架和基礎設施已基本成熟,大數(shù)據(jù)的應用逐步向上層應用聚焦,國家的大數(shù)據(jù)戰(zhàn)略也逐步走向深化階段,國家、地方陸續(xù)出臺了促進大數(shù)據(jù)產業(yè)發(fā)展的規(guī)劃、行動和指導意見,大數(shù)據(jù)與實體經濟深度融合。另一方面,相關的大數(shù)據(jù)管理職能部門也相繼成立,專門負責對大數(shù)據(jù)發(fā)展進行統(tǒng)一管理和規(guī)劃。大數(shù)據(jù)的應用在之前互聯(lián)網、營銷、廣告等領域的基礎上逐步向工業(yè)、政務、電信、交通、金融、醫(yī)療、教育等領域廣泛落地,涌現(xiàn)了一批大數(shù)據(jù)典型應用[3]。
2020年,中共中央、國務院發(fā)布《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》(簡稱《意見》)?!兑庖姟访鞔_提出了土地、勞動力、資本、技術、數(shù)據(jù)5個要素領域的改革方向和具體舉措,以構建更加完善的要素市場化配置體制機制。數(shù)據(jù)要素化,數(shù)據(jù)要素市場化、價值化和資產化是下一階段的發(fā)展目標。
無論是智慧城市建設還是數(shù)字政府建設,其關鍵因素都在于政務數(shù)據(jù)。政務數(shù)據(jù)的發(fā)展從數(shù)據(jù)匯聚、數(shù)據(jù)共享到現(xiàn)階段的深化應用,數(shù)據(jù)已成為數(shù)字政府建設的關鍵因素。但是多年來,由于機構變動、職能調整以及信息化的快速發(fā)展等因素,政務數(shù)據(jù)在快速發(fā)展和應用的過程中,數(shù)據(jù)質量管理機制尚未形成,數(shù)據(jù)質量參差不齊,無法滿足高速發(fā)展的數(shù)據(jù)應用需求。
在實際數(shù)據(jù)應用的過程中,從數(shù)據(jù)規(guī)劃和生產,到數(shù)據(jù)的融合和增強,再到最后的歸檔和消除,數(shù)據(jù)質量問題在數(shù)據(jù)生命周期的任何環(huán)節(jié)都會出現(xiàn),例如數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)共享、數(shù)據(jù)分析應用等。結合政務行業(yè)現(xiàn)狀,總結以下幾個主要問題。
長期以來,數(shù)據(jù)被定義為業(yè)務系統(tǒng)的附屬品,數(shù)據(jù)所能帶來的價值尚未得到充分肯定。這也導致了我國的信息化發(fā)展一直側重于應用系統(tǒng)建設而忽略數(shù)據(jù)建設,數(shù)據(jù)應用僅僅停留在統(tǒng)計、分析和展示層面,缺少深層次的應用價值挖掘,進而導致了在整個信息化建設進程中,數(shù)據(jù)質量一直未得到重視,數(shù)據(jù)質量文化建設不到位。
在之前政務數(shù)據(jù)的發(fā)展階段中,政務信息化建設由各個業(yè)務部門自發(fā)開展,以支撐本部門業(yè)務流轉為主要目標。直到近幾年,隨著大數(shù)據(jù)管理職能部門的成立,政務數(shù)據(jù)才轉為專門的職能部門負責,但是在管理機制和權責方面尚未形成成熟的體系,主要體現(xiàn)在頂層規(guī)劃、標準體系、評價體系、考核體系等方面的欠缺。尤其是數(shù)據(jù)質量管控相對滯后,管控工作片段化,沒有形成完整的數(shù)據(jù)質量管控體系和全面的數(shù)據(jù)質量保障機制,從而制約數(shù)據(jù)資產價值的充分發(fā)揮[4]。
隨著大數(shù)據(jù)的蓬勃發(fā)展,政務數(shù)據(jù)在類型、數(shù)量、增速等方面的特點顯著增強。數(shù)據(jù)庫規(guī)模的不斷增加、不同數(shù)據(jù)源之間的關系愈加復雜、數(shù)據(jù)處理的實時性要求越來越高,這些因素給數(shù)據(jù)質量管理工作增加了困難,非自動化的方法、普通腳本監(jiān)測的方式已無法滿足數(shù)據(jù)質量管理的要求,尤其是在面對復雜業(yè)務和海量數(shù)據(jù)的情況下,缺少必要的技術手段來進行數(shù)據(jù)質量管理工作。
我國的政務大數(shù)據(jù)在經歷了數(shù)據(jù)交換、數(shù)據(jù)匯聚和數(shù)據(jù)共享等基礎建設工作之后,已經逐步向數(shù)據(jù)質量、數(shù)據(jù)生態(tài)和數(shù)據(jù)價值方面轉變。在政務領域,以數(shù)據(jù)利用和共享為核心、以優(yōu)化政務服務為目標的跨部門、跨系統(tǒng)的協(xié)同不斷增多,對數(shù)據(jù)質量的要求也越來越高,數(shù)據(jù)質量管理成為一項復雜的系統(tǒng)工程。亟需建立科學、合理、系統(tǒng)的工作機制,以此來提升數(shù)據(jù)的準確性、一致性、完整性、規(guī)范性、時效性和可訪問性[5],最終使政務數(shù)據(jù)作為數(shù)字政府和數(shù)字經濟的核心資產來管理和應用。基于政務數(shù)據(jù)行業(yè)現(xiàn)狀和實踐經驗,本文對政務數(shù)據(jù)質量的管理工作提出了以下幾點認識。
針對目前數(shù)據(jù)質量管理機制不健全、管理責權不清晰等問題,在當前數(shù)據(jù)質量管理工作中亟需健全管理機制,界定管理權責、制定統(tǒng)一標準、落實評估考核是當前提升數(shù)據(jù)質量的第一要務。在國家和地方相關政策和管理辦法的基礎上,設計和制定切實可行的數(shù)據(jù)質量工作方案、工作流程、角色和職責以及考核體系,建立相應的組織架構和管理制度,本著實事求是、突出重點、有錯必糾的原則有序推進數(shù)據(jù)質量提升工作。管理體系是整個數(shù)據(jù)質量工作的重點和基礎,必須為數(shù)據(jù)管理方、數(shù)據(jù)應用方、數(shù)據(jù)提供方建立標準和指導方針,保障數(shù)據(jù)質量管理工作有法可依、有章可循,以此來推動數(shù)據(jù)質量管理工作的不斷進步。
數(shù)據(jù)質量管理工作需要提升全體質量意識,形成數(shù)據(jù)質量常態(tài)化治理的文化。管理部門制定數(shù)據(jù)質量管理體系并進行培訓宣貫,通過數(shù)據(jù)質量管理體系的貫徹,數(shù)據(jù)應用方積極反饋問題,數(shù)據(jù)責任方積極主動配合管理部門進行問題整改,逐步形成數(shù)據(jù)質量的良性生態(tài)。
數(shù)據(jù)質量問題的解決越靠后,成本越高,因此數(shù)據(jù)質量管理解決問題必須前移。在數(shù)字政府基礎庫和主題庫的建設過程中,數(shù)據(jù)來源于不同的業(yè)務部門,主要的質量問題也集中在業(yè)務源頭,只有通過對問題進行根因分析,通過優(yōu)化業(yè)務系統(tǒng)、業(yè)務規(guī)則、業(yè)務流程等手段從源頭解決問題,才能達到標本兼治的效果。因此,在整個數(shù)據(jù)質量管理工作中,必須以源頭數(shù)據(jù)質量管控為主要手段,存量問題數(shù)據(jù)派發(fā)至業(yè)務源頭進行修正,同時找到產生問題的根本原因,從根源解決問題,避免增量問題數(shù)據(jù)的持續(xù)出現(xiàn)。
在當下政務數(shù)據(jù)快速增長的階段,有限的時間和資源無法糾正每個數(shù)據(jù)并分析和改進數(shù)據(jù)質量。因此,數(shù)據(jù)質量管理工作必須有明確的目標,應從滿足應用需求的角度出發(fā),評估數(shù)據(jù)并確定優(yōu)先級,聚焦關鍵數(shù)據(jù),讓數(shù)據(jù)質量管理工作投入產出比最大化。
聚焦關鍵數(shù)據(jù)并不意味著忽略其他問題,而是應該按照業(yè)務優(yōu)先級的原則,采用PDCA(Plan、Do、Check、Act)的工作方式,分批次、分步驟地解決問題,構建常態(tài)化的、循序漸進的工作方案,逐步實現(xiàn)數(shù)據(jù)質量管理的目標。
政務數(shù)據(jù)質量管理工作涉及部門多、業(yè)務多,須從指標定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估幾個方面建立問題處理的閉環(huán)機制。從業(yè)務、技術、管理多個維度出發(fā)定義評測指標,由工具自動發(fā)現(xiàn)問題并及時通知到責任人,跟蹤問題整改進度,通過相應的質量問題督辦和考核機制,保證數(shù)據(jù)質量問題閉環(huán)管理。
在實際工作中,將數(shù)據(jù)質量指標納入部門高質量發(fā)展的考核體系,考核結果不僅僅是簡單的排名表,更要注重激勵先進和鞭策后進??己嗽u價是促進數(shù)據(jù)質量提升的主要驅動力,也是統(tǒng)籌推進全局數(shù)據(jù)質量提升的重要環(huán)節(jié)。
在相關理論依據(jù)和行業(yè)研究的基礎上,針對政務數(shù)據(jù)質量,本文提出現(xiàn)狀評估、問題溯源、質量修復和考核評價四步走的解決方案。在不影響現(xiàn)有數(shù)據(jù)共享交換流程的基礎上,形成數(shù)據(jù)匯聚與質量提升的雙循環(huán),獨立運轉,相互監(jiān)督,相互促進。并結合大數(shù)據(jù)技術和機器學習算法,深度挖掘數(shù)據(jù)質量問題,快速定位根本原因,通過工單派發(fā)工作方式,將問題數(shù)據(jù)派發(fā)到責任人,定時督辦和考核,實現(xiàn)數(shù)據(jù)質量管理可控、可管和可追蹤。同時,采用PDCA工作方式,不斷循環(huán)重復數(shù)據(jù)質量工作過程,直至數(shù)據(jù)質量達到既定目標。
工作的第一步是對當前數(shù)據(jù)質量管理工作的現(xiàn)狀進行評估,評估的內容包括定義數(shù)據(jù)質量管理目標、識別關鍵數(shù)據(jù)、確定質量標準、評估數(shù)據(jù)質量水平、評估數(shù)據(jù)質量改進的成本,并發(fā)布數(shù)據(jù)質量管理工作的基線報告。
4.1.1 定義數(shù)據(jù)質量管理目標
數(shù)據(jù)質量管理工作首先要明確所要達到的目標,包括數(shù)據(jù)應用目標、質量提升目標、流程改進目標以及績效考核目標,為后續(xù)工作指定方向。
4.1.2 識別關鍵數(shù)據(jù)
數(shù)據(jù)質量管理工作需要聚焦于關鍵數(shù)據(jù)[6],根據(jù)業(yè)務影響和業(yè)務需求來確定數(shù)據(jù)質量的管理范圍,識別數(shù)據(jù)干系人,干系人需要包括數(shù)據(jù)提供者、數(shù)據(jù)應用者、數(shù)據(jù)管理者等,并確定數(shù)據(jù)利益相關方如何使用數(shù)據(jù)以及對數(shù)據(jù)質量的期望。通過調研的方式了解部門業(yè)務需求和應用需求,并確定支持這些業(yè)務和應用所需要的數(shù)據(jù),以及數(shù)據(jù)應用的頻率,形成數(shù)據(jù)/業(yè)務流程圖、數(shù)據(jù)/應用流程圖以及數(shù)據(jù)全生命周期圖,進而識別數(shù)據(jù)價值和成本。在綜合考慮業(yè)務需求、業(yè)務影響等因素的前提下,對數(shù)據(jù)質量管理工作進行優(yōu)先級排序,確定關鍵數(shù)據(jù)。這不僅僅為后續(xù)的原因分析提供幫助,也可以使部門對數(shù)據(jù)現(xiàn)狀有一個更加全面、直觀的理解和認識。
4.1.3 確定質量標準
結合數(shù)據(jù)質量目標和識別的關鍵數(shù)據(jù),分析和設計數(shù)據(jù)質量評價指標。在國家標準、行業(yè)標準和地方標準的指導下,結合管理規(guī)范、工作流程、數(shù)據(jù)存儲、業(yè)務規(guī)范等因素,制定數(shù)據(jù)質量評價指標。在此階段,可以充分調動各個部門的業(yè)務專家和技術人員共同參與指標的制定,保障數(shù)據(jù)質量指標的完整性和合理性,同時也與業(yè)務部門在數(shù)據(jù)質量標準上達成共識。
數(shù)據(jù)質量評價指標的設計以《GB/T 36344-2018 信息技術 數(shù)據(jù)質量評價指標》為指導,需涵蓋數(shù)據(jù)內容的規(guī)范性、完整性、準確性、一致性、時效性和可訪問性六大類指標框架,以及數(shù)據(jù)使用維度的可理解性、可追溯性、安全性、可用性、易用性、穩(wěn)定性、適配性、完善性[7],基于此細分二級指標和三級指標,包括空值檢查、數(shù)據(jù)缺失檢查、唯一性檢查、值域檢查、邏輯關系檢查、格式規(guī)范性檢查、引用完整性檢查、一致性檢查、時效性檢查、更新頻率檢查、交叉比對檢查、波動性檢查等。
數(shù)據(jù)質量評價指標的制定在數(shù)據(jù)質量管理工作中具有很大的挑戰(zhàn)性,尤其是在面對海量數(shù)據(jù)和復雜業(yè)務規(guī)則的情況下,如何能夠有效地識別問題數(shù)據(jù)是評價指標定義的難點。在此,可以使用智能推薦相關算法,基于在實踐中積累的規(guī)則庫自動匹配相關規(guī)則。例如,根據(jù)數(shù)據(jù)內容中的身份證號碼、統(tǒng)一社會信用代碼、郵政編碼、手機號碼、郵箱地址等識別出對應的質量評價指標,字段之間可以采用相關性分析技術,識別出字段之間的邏輯關系規(guī)則。規(guī)則的自動化探索技術大大降低了制定評價指標工作的難度。
4.1.4 評估數(shù)據(jù)質量水平
圍繞已確定的數(shù)據(jù)范圍和評價指標,從相關數(shù)據(jù)源提取數(shù)據(jù),利用技術工具完成數(shù)據(jù)質量初始評估,并記錄問題的級別和類型。
復雜業(yè)務規(guī)則的執(zhí)行需要大量計算和分析,手動的腳本監(jiān)測已無法滿足海量數(shù)據(jù)實時監(jiān)測的要求。因此,在此階段需要充分使用大數(shù)據(jù)分析技術才能滿足海量數(shù)據(jù)質量監(jiān)測要求,可以充分利用聚類分析、近鄰分析、關聯(lián)分析、屬性分析等數(shù)據(jù)分析模型和算法進行異常數(shù)據(jù)自動識別,也可以利用正態(tài)性檢驗、函數(shù)相關性等統(tǒng)計分析方法。
4.1.5 評估數(shù)據(jù)質量改進的成本
針對發(fā)現(xiàn)的每一類問題進行根因分析,識別每個缺陷產生的根本原因。產生問題的原因眾多,數(shù)據(jù)流通過程中的任何一個環(huán)節(jié)都可能產生質量問題。因此,需要透過表面現(xiàn)象不斷追蹤,直至定位的問題產生的根本原因,進而制定改進流程和評估改進成本??紤]修復成本時,需將當前數(shù)據(jù)和歷史數(shù)據(jù)區(qū)別對待,數(shù)據(jù)的新鮮度是決定數(shù)據(jù)價值的一個因素,是否需要修復歷史數(shù)據(jù)需要綜合考慮修復成本。此步驟可以使用因果圖或魚骨圖等技術來支撐根本原因分析。
4.1.6 發(fā)布數(shù)據(jù)質量管理工作的基線報告
通過數(shù)據(jù)質量評估報告的發(fā)布,讓數(shù)據(jù)干系人充分了解當前的數(shù)據(jù)質量水平。質量評估報告是對評估的結果分析和解釋,通過圖形化、統(tǒng)計報表等方式讓數(shù)據(jù)干系人直觀了解,主要包括如下幾個部分。
(1)數(shù)據(jù)評估范圍。
(2)數(shù)據(jù)評估方法。
(3)數(shù)據(jù)評估標準。
(4)數(shù)據(jù)質量的當前水平,包括組織架構、規(guī)章制度、質量缺陷和對應的根本原因。
(5)當前水平與質量目標之間的差距分析。
(6)質量改進的建議。報告中從缺陷改正、流程優(yōu)化等方面給出改進方法和實施路線,并結合業(yè)務/數(shù)據(jù)流程圖、應用/數(shù)據(jù)流程圖以及數(shù)據(jù)全生命周期圖確定所影響的范圍。
在智慧城市和數(shù)字政府建設進程中,無論是基礎庫建設還是專題庫建設,數(shù)據(jù)來源錯綜復雜,數(shù)據(jù)經過多環(huán)節(jié)、多流程加工處理之后,實現(xiàn)“一數(shù)一源”的問題定位變成了難點。問題數(shù)據(jù)發(fā)現(xiàn)之后,需要將問題數(shù)據(jù)定位到來源部門甚至是業(yè)務部門的業(yè)務辦理人員,才能完成問題修復。例如,六大基礎庫之一的法人信息基礎庫,其中的基本信息來源于行政審批局、市場監(jiān)管局、民政局、總工會等部門。因此,可以采用“誰提供誰負責、誰登記誰負責”的策略,結合數(shù)據(jù)分級分類定義數(shù)據(jù)的唯一來源,對于多個部門提供的相同信息,通過權威字段的定義,來確定部門的數(shù)據(jù)權力范圍和數(shù)據(jù)質量責任。通過技術手段,在表級別、字段級別精確定義數(shù)據(jù)來源,依據(jù)工單派發(fā)的方式,將問題數(shù)據(jù)及時通知到責任人,實現(xiàn)“一數(shù)一源”的管理。
數(shù)據(jù)責任部門在接收到問題數(shù)據(jù)之后,需在源頭業(yè)務端進行問題修復。修復之后的數(shù)據(jù)通過現(xiàn)有的數(shù)據(jù)交換和共享流程重新進行數(shù)據(jù)更新,保證在數(shù)據(jù)生命周期中各個環(huán)節(jié)的問題都能得到及時修正,并通過復評測以確認修正結果是否滿足要求,直至該問題關閉。在數(shù)據(jù)修復過程中,數(shù)據(jù)管理部門有責任對數(shù)據(jù)提供部門提供指導和幫助,包括提供統(tǒng)一的支撐工具、問題數(shù)據(jù)的解釋以及工作流程的說明等。
依據(jù)數(shù)據(jù)質量管理制度和考核體系,數(shù)據(jù)管理部門負責對數(shù)據(jù)質量工作進行考核評價??己嗽u價體系需要能夠客觀、合理、科學地反映數(shù)據(jù)質量管理工作的實際情況,須從新增問題數(shù)、修復問題數(shù)、未修復問題數(shù)、問題修復及時性、數(shù)據(jù)是否按照約定頻率更新等維度進行考核評價,評價結果可以通過運營門戶、內部通報等方式定期發(fā)布,以此來督辦數(shù)據(jù)質量管理工作,提高數(shù)據(jù)干系人的數(shù)據(jù)質量意識。
針對政務數(shù)據(jù)質量管理工作,本文提出了現(xiàn)狀評估、問題溯源、質量修復和考核評價四步走的解決方案,以滿足業(yè)務需求為目標,以考核評價為驅動力,突出源頭數(shù)據(jù)質量管控,建立指標定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估的閉環(huán)工作機制,并采用PDCA的工作方法,逐步提升數(shù)據(jù)質量水平,直至達到預期的數(shù)據(jù)質量目標。同時,在當前海量數(shù)據(jù)和復雜數(shù)據(jù)的背景下,強調利用大數(shù)據(jù)、機器學習等技術進行質量評價指標的定義和數(shù)據(jù)異常點的探索,實現(xiàn)數(shù)據(jù)質量管理的自動化和智能化。
政務數(shù)據(jù)質量是當前數(shù)字政府建設和數(shù)據(jù)共享開放的前提條件,是實現(xiàn)數(shù)據(jù)資產化的必要保障,本文提出的四步走解決方案,已在實踐中驗證了其有效性,對政務數(shù)據(jù)質量管理工作具有借鑒意義。