廣東電網(wǎng)有限責(zé)任公司廣州供電局 王嘉延 梁雪青 杜舒明 趙小凡
為了響應(yīng)智能電網(wǎng)關(guān)于數(shù)據(jù)治理的建設(shè),進一步提升電網(wǎng)公司的數(shù)據(jù)質(zhì)量,推動。從組織架構(gòu),制定規(guī)范制定,數(shù)據(jù)建模,數(shù)據(jù)采集,數(shù)據(jù)流轉(zhuǎn)監(jiān)控,問題跟蹤管理,認責(zé)機制,數(shù)據(jù)質(zhì)量評價體系等多維度全方面,從頂層而基層單位,從線上到線下覆蓋整個數(shù)據(jù)生命周期,建立一套數(shù)據(jù)質(zhì)量管理體系。經(jīng)過總結(jié)歸納高頻數(shù)據(jù)質(zhì)量問題,提出整改方案,對高頻及重點數(shù)據(jù)重點在線監(jiān)控,保證企業(yè)內(nèi)部數(shù)據(jù)質(zhì)量,為數(shù)據(jù)向外延展打好基礎(chǔ)。通過建立一套數(shù)據(jù)質(zhì)量管理體系,直接提升企業(yè)數(shù)據(jù)的應(yīng)用價值,為智能電網(wǎng)的建設(shè)提供支撐。
2020年電網(wǎng)公司雖順利完成了年度主數(shù)據(jù)質(zhì)量考核任務(wù),在主數(shù)據(jù)協(xié)同三方一致性方面,18類主數(shù)據(jù)一致性指標(biāo)均達到考核標(biāo)準(zhǔn),總體一致性指標(biāo)高達99.5%。數(shù)據(jù)質(zhì)量問題仍然突出,數(shù)據(jù)報表和指標(biāo)的可信度不高,數(shù)據(jù)應(yīng)用難以實用化。
主要表現(xiàn)的數(shù)據(jù)質(zhì)量問題[1]:
(1)數(shù)據(jù)準(zhǔn)確性問題突出,典型的問題案例包括:客戶信息有效性不高、停電數(shù)據(jù)不一致、變壓器臺賬信息異常等。(2)站線變戶增量數(shù)據(jù)問題持續(xù)擴大,站線變戶數(shù)據(jù)不一致問題每周都在增加。(3)數(shù)據(jù)多源導(dǎo)致重復(fù)性數(shù)據(jù)量多,源端系統(tǒng)和數(shù)據(jù)平臺數(shù)據(jù)匹配時效性有待提高。
數(shù)據(jù)質(zhì)量問題無法杜絕,主要有幾個方面:(1)部分業(yè)務(wù)人員數(shù)據(jù)資產(chǎn)管理意識淡薄,存在數(shù)據(jù)錄入不規(guī)范、不嚴(yán)謹?shù)默F(xiàn)象,導(dǎo)致數(shù)據(jù)增量問題難以杜絕,數(shù)據(jù)準(zhǔn)確性不高。(2)業(yè)務(wù)流程存在漏洞,線上和線下業(yè)務(wù)沒有無縫對接。(3)協(xié)同服務(wù)接口缺陷,導(dǎo)致系統(tǒng)間的數(shù)據(jù)一致性問題。(4)業(yè)務(wù)人員對電子化移交數(shù)據(jù)處理不及時。(5)主數(shù)據(jù)治理還未實現(xiàn)對系統(tǒng)主數(shù)據(jù)規(guī)范化、自動化、可視化的實時監(jiān)控。
本文研究數(shù)據(jù)中心數(shù)據(jù)質(zhì)量提升的方法,為數(shù)據(jù)中心在大數(shù)據(jù)流量的壓力下,摒除“噪音數(shù)據(jù)”的干擾,增加數(shù)據(jù)的可靠性,挖掘數(shù)據(jù)中心海量數(shù)據(jù)價值,為相關(guān)部門領(lǐng)導(dǎo)和業(yè)務(wù)部門主管提供可以支撐決策的有效數(shù)據(jù),釋放數(shù)據(jù)價值。
目前為止,最權(quán)威的標(biāo)準(zhǔn)是由全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會提出的數(shù)據(jù)質(zhì)量評價指標(biāo)(GB/T36344-2018 ICS 35.24.01)[2],它包含以下幾個方面:
規(guī)范性:指的是數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。完整性:指的是按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。準(zhǔn)確性:指的是數(shù)據(jù)準(zhǔn)確表示其所描述的真實實體(實際對象)真實值的程度。一致性:指的是數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)無矛盾的程度。時效性:指的是數(shù)據(jù)是否及時傳遞??稍L問性:指的是數(shù)據(jù)能被訪問的程度。
廣州局在開展大數(shù)據(jù)平臺的建設(shè)工作中,總結(jié)數(shù)據(jù)運維工作中的數(shù)據(jù)問題,提煉了數(shù)據(jù)治理方面的工作經(jīng)驗,形成了數(shù)據(jù)質(zhì)量管理的四項基本原則:
從企業(yè)層面規(guī)化數(shù)據(jù)管理范疇,發(fā)揮業(yè)務(wù)部門和數(shù)字化部門在數(shù)據(jù)管理方面的作用,保證大數(shù)據(jù)平臺從源端系統(tǒng)抽取的原始數(shù)據(jù)實現(xiàn)多渠道,全方位覆蓋,支撐到下游所有應(yīng)用。
加強數(shù)字化部和平臺廠商的工作協(xié)調(diào)性,確保源端系統(tǒng)到大數(shù)據(jù)平臺,再到下游系統(tǒng)整個數(shù)據(jù)鏈路中,上游數(shù)據(jù),平臺數(shù)據(jù),下游數(shù)據(jù)三個環(huán)節(jié)數(shù)據(jù)一致。
對于源端系統(tǒng)的增量數(shù)據(jù)進行嚴(yán)格的把控,特別是對新增業(yè)務(wù)對象的數(shù)據(jù)進行影響范圍及風(fēng)險性分析,避免增量數(shù)據(jù)對存量數(shù)據(jù)的數(shù)據(jù)質(zhì)量產(chǎn)生消極影響。
首先保證源端最新數(shù)據(jù)及時更新到大數(shù)據(jù)平臺和下游系統(tǒng),對于出現(xiàn)的數(shù)據(jù)質(zhì)量問題,及早發(fā)現(xiàn),高效解決的原則,提升數(shù)據(jù)質(zhì)量的可靠性,避免臟數(shù)據(jù)或者錯誤數(shù)據(jù)對下游業(yè)務(wù)的影響。
廣州局大數(shù)據(jù)平臺作為信息中心的主要數(shù)據(jù)存儲平臺,上游對接源端系統(tǒng),把系統(tǒng)源端的全量數(shù)據(jù)通過Sqoop抽取,增量數(shù)據(jù)通過Ogg進程同步采集并存儲到大數(shù)據(jù)平臺的ODM層,對全量數(shù)據(jù)與增量數(shù)據(jù)進行合并處理,實現(xiàn)各系統(tǒng)數(shù)據(jù)融合,針對不同類別的下游系統(tǒng)通過授權(quán),SFTP文件,Kafka的方式下發(fā),最終滿足各個下游應(yīng)用數(shù)據(jù)需求,起到了數(shù)據(jù)承載、存儲、傳輸?shù)臄?shù)據(jù)中樞的作用。如圖1所示
圖1 大數(shù)據(jù)平臺架構(gòu)圖Fig.1 Big data platform architecture diagram
上游源端系統(tǒng)主要包括:業(yè)務(wù)管理系統(tǒng)、試驗院、調(diào)控中心、計量中心、移動應(yīng)用、業(yè)務(wù)應(yīng)用這6大類總計47個源端系統(tǒng)。
下游支撐包括:基建部、生技部、運檢中心、審計部、市場部、客戶中心、計量中心等主要部門對應(yīng)的63個應(yīng)用系統(tǒng)。
數(shù)據(jù)質(zhì)量問題歸納起來總結(jié)為三個因素:技術(shù)因素、業(yè)務(wù)因素、管理因素。
技術(shù)因素:因為歷史原因,錄入數(shù)據(jù)的規(guī)則不統(tǒng)一,數(shù)據(jù)庫規(guī)則設(shè)計不合理,數(shù)據(jù)采集過程中的采集失敗,數(shù)據(jù)丟失,數(shù)據(jù)格式轉(zhuǎn)換失敗。
業(yè)務(wù)因素:業(yè)務(wù)系統(tǒng)煙囪式林立,過去十多年中,廣州局為了業(yè)務(wù)需要建設(shè)了一批信息化系統(tǒng)來解決業(yè)務(wù)問題,導(dǎo)致了如今信息化整合的痛點和困難。業(yè)務(wù)流程的變更也是常見引起數(shù)據(jù)質(zhì)量問題的因素。
管理因素:業(yè)務(wù)人員數(shù)據(jù)意識淡薄,缺乏一整套有效的數(shù)據(jù)質(zhì)量保障機制和問題處理機制,數(shù)據(jù)質(zhì)量問題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒有一個統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問題無法形成閉環(huán)。
針對上面三個主要因素,任何單一的處理手段很難保證數(shù)據(jù)質(zhì)量得以提升,需企業(yè)由頂層到基層,從管理,業(yè)務(wù),技術(shù)多角度,協(xié)同配合建立一套數(shù)據(jù)質(zhì)量管理體系,從制度規(guī)范,數(shù)據(jù)架構(gòu),數(shù)據(jù)模型,數(shù)據(jù)標(biāo)準(zhǔn)的制定,數(shù)據(jù)流轉(zhuǎn)監(jiān)控,增量數(shù)據(jù)和存量數(shù)據(jù)的管理,數(shù)據(jù)問題的追蹤機制,數(shù)據(jù)質(zhì)量考核和整改多維度協(xié)同制定解決方案。
按照時間線可以分為事前預(yù)防,事中監(jiān)控,事后完善三個階段。
事前預(yù)防,從源頭規(guī)范數(shù)據(jù)的采集,保證數(shù)據(jù)的完整性和規(guī)范性。從三個方面著手:(1)設(shè)置跨職能的組織機構(gòu)負責(zé)數(shù)據(jù)質(zhì)量問題,制定數(shù)據(jù)質(zhì)量提升的線上和線下的規(guī)范制度。(2)業(yè)務(wù)團隊和技術(shù)團隊對業(yè)務(wù)系統(tǒng)及大數(shù)據(jù)平臺建立非冗余、穩(wěn)定的數(shù)據(jù)模型。(3)制定標(biāo)準(zhǔn)的業(yè)務(wù)定義,數(shù)據(jù)錄入標(biāo)準(zhǔn),數(shù)據(jù)校驗標(biāo)準(zhǔn),系統(tǒng)中進行控制和約束。
事中監(jiān)控是指數(shù)據(jù)進入流轉(zhuǎn)環(huán)節(jié),通過數(shù)據(jù)監(jiān)控實時發(fā)現(xiàn)處理數(shù)據(jù)問題,對數(shù)據(jù)的準(zhǔn)確性和一致性提供保證措施。從三個方面著手:(1)建立從源端到平臺再到下游系統(tǒng)的數(shù)據(jù)流轉(zhuǎn)監(jiān)控系統(tǒng),預(yù)警和提示數(shù)據(jù)錯誤的流程節(jié)點。(2)制定并執(zhí)行穩(wěn)增量,減存量的數(shù)據(jù)管理方案。(3)數(shù)據(jù)問題的追蹤解決機制,從線上發(fā)現(xiàn)到線下實施快速解決數(shù)據(jù)問題。
事后完善,是階段性的總結(jié)數(shù)據(jù)質(zhì)量工作,根據(jù)暴露的數(shù)據(jù)質(zhì)量問題建立數(shù)據(jù)質(zhì)量考核評價體系,分類,歸納總結(jié)數(shù)據(jù)問題,針對共性的數(shù)據(jù)問題提出整改方案,進一步提升數(shù)據(jù)的可靠性。如圖2所示
圖2 基礎(chǔ)設(shè)施檢測監(jiān)測數(shù)據(jù)元數(shù)據(jù)管理Fig.2 Metadata management of infrastructure inspection and monitoring data
圖2 數(shù)據(jù)質(zhì)量問題管理體系圖Fig.2 Data quality problem management system diagram
設(shè)置跨職能的組織機構(gòu)負責(zé)數(shù)據(jù)質(zhì)量問題,制定關(guān)于數(shù)據(jù)方面的規(guī)章制度包括數(shù)據(jù)質(zhì)量管理政策,數(shù)據(jù)質(zhì)量實施細則,業(yè)務(wù)部門和數(shù)字化部門的職責(zé)分工,技術(shù)類的數(shù)據(jù)規(guī)范。從組織架構(gòu)及分工,管理規(guī)范,技術(shù)規(guī)范多方面打造數(shù)據(jù)質(zhì)量制度規(guī)范體系,數(shù)字化部門和業(yè)務(wù)部門一起構(gòu)建符合業(yè)務(wù)場景的業(yè)務(wù)規(guī)則。上線專門的數(shù)據(jù)治理平臺,比如企業(yè)級元數(shù)據(jù)管理系統(tǒng),數(shù)據(jù)質(zhì)量分析系統(tǒng)等,將相關(guān)的制度規(guī)范和職責(zé)要求固化在系統(tǒng)中進行控制,并在流轉(zhuǎn)的各個環(huán)節(jié)由相應(yīng)的組織和角色負責(zé),實施認責(zé)機制。
數(shù)據(jù)模型是源端系統(tǒng)的數(shù)據(jù)結(jié)構(gòu),也是數(shù)據(jù)質(zhì)量提升的關(guān)鍵,簡潔穩(wěn)定的數(shù)據(jù)模型能有效降低數(shù)據(jù)加工,整合,降低出現(xiàn)數(shù)據(jù)問題的風(fēng)險。對于源端的所有業(yè)務(wù)系統(tǒng)要注意進行相關(guān)性分析,降低重復(fù),無效的數(shù)據(jù)量,降低數(shù)據(jù)的維護成本及數(shù)據(jù)在流轉(zhuǎn)環(huán)節(jié)出現(xiàn)問題。信息部門對各業(yè)務(wù)規(guī)則的數(shù)據(jù),以數(shù)字化部門和下游業(yè)務(wù)需求團隊充當(dāng)客戶的角色,對每個具體的業(yè)務(wù)場景為單元進行歸納,通過漏斗法等技術(shù)手段甄選“核心數(shù)據(jù)元素”,降低核心數(shù)據(jù)量,對部門之間需要協(xié)同的數(shù)據(jù)進行相關(guān)性分析,減少相關(guān)性高,重復(fù)出現(xiàn)的數(shù)據(jù),從建模層面煒核心數(shù)據(jù)“瘦身”。
同時要建立一套完整的數(shù)據(jù)校驗規(guī)則,從“數(shù)據(jù)入口”著手,在各服務(wù)渠道錄入數(shù)據(jù)時進行外部校驗或者借助第三方數(shù)據(jù)供應(yīng)商進行數(shù)據(jù)校驗,減少因多頭錄入導(dǎo)致的協(xié)同數(shù)據(jù)質(zhì)量問題,管好業(yè)務(wù)系統(tǒng)源頭數(shù)據(jù)質(zhì)量,完善各專業(yè)協(xié)調(diào)系統(tǒng)接口的業(yè)務(wù)標(biāo)準(zhǔn)和數(shù)據(jù)標(biāo)準(zhǔn),確保新增數(shù)據(jù)的完整性。對各業(yè)務(wù)部門新提出的業(yè)務(wù)協(xié)同需求,進行統(tǒng)一設(shè)計開發(fā),納入業(yè)務(wù)協(xié)同統(tǒng)一管理。
經(jīng)過事前制度規(guī)范建設(shè),數(shù)據(jù)建模,數(shù)據(jù)標(biāo)準(zhǔn)的制定,從數(shù)據(jù)源頭控制數(shù)據(jù)質(zhì)量,進入了數(shù)據(jù)從源端到下游整個流轉(zhuǎn)的監(jiān)控就顯得十分重要,同時也是監(jiān)測事前的落實情況及查漏補缺的重要手段。建議數(shù)據(jù)流轉(zhuǎn)在線監(jiān)控平臺,結(jié)合元數(shù)據(jù)管理系統(tǒng),暴露元數(shù)據(jù)變更未考慮到歷史數(shù)據(jù)的處理、數(shù)據(jù)轉(zhuǎn)換不全等各種流程設(shè)計錯誤、數(shù)據(jù)處理邏輯有缺陷等問題。
數(shù)據(jù)流轉(zhuǎn)監(jiān)控需要包含三個方面,數(shù)據(jù)及流轉(zhuǎn)環(huán)節(jié)的規(guī)劃,數(shù)據(jù)變更的記載,異常地發(fā)現(xiàn)告警,反饋。(1)對需要監(jiān)測的數(shù)據(jù)和流轉(zhuǎn)環(huán)節(jié)進行規(guī)劃,將事前制定的組織結(jié)構(gòu)負責(zé)人,技術(shù)規(guī)范融入到監(jiān)測范疇中,組織分析各領(lǐng)域的數(shù)據(jù)質(zhì)量問題,監(jiān)測報告涉及數(shù)據(jù)建模的數(shù)據(jù)結(jié)構(gòu)變化情況,數(shù)據(jù)分布情況,涉及數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)空缺和數(shù)據(jù)格式不匹配等情況,及數(shù)據(jù)對業(yè)務(wù)服務(wù)的滿足情況等。(2)在數(shù)據(jù)流轉(zhuǎn)過程中,源端數(shù)據(jù)的變更是最易發(fā)生問題的地方,首先要堅持數(shù)據(jù)邏輯變化可監(jiān)控的原則,盡量不在SQL等不可監(jiān)控的位置改變數(shù)據(jù)邏輯,導(dǎo)致數(shù)據(jù)變更不可追溯。其次對于引起數(shù)據(jù)變更的腳本要記錄在監(jiān)測系統(tǒng)中對應(yīng)的節(jié)點中,定位責(zé)任人,真正做到每個數(shù)據(jù)節(jié)點數(shù)據(jù)變化可追溯。(3)引入告警,反饋機制,以線上監(jiān)控線下實施雙重管道提升效率,通過企業(yè)微信、電話、短信或者是微信小程序的方式將告警內(nèi)容通知到節(jié)點責(zé)任人,責(zé)任人根據(jù)告警信息來回應(yīng)異常具體情況及是否已解決,異常問題記錄入系統(tǒng),為數(shù)據(jù)問題的跟蹤,整改計劃提供支撐。從而保證數(shù)據(jù)的準(zhǔn)確性和一致性,做到數(shù)據(jù)的可見可控,實現(xiàn)數(shù)據(jù)從源端到平臺再到下游應(yīng)用的全生命周期管理。
建立數(shù)據(jù)問題相應(yīng)的規(guī)范與制度,形成規(guī)范性的文檔指引系統(tǒng)運維人員進行標(biāo)準(zhǔn)化的實施管理,再通過線上數(shù)據(jù)流轉(zhuǎn)監(jiān)控系統(tǒng)查找問題根源,支撐需要落實的線下實施內(nèi)容。組建專題研究團隊,制定相關(guān)規(guī)則腳本,固化到數(shù)據(jù)質(zhì)量平臺,對問題數(shù)據(jù)進行分析,將數(shù)據(jù)質(zhì)量情況每天通報給對應(yīng)的數(shù)據(jù)責(zé)任人,歸納總結(jié)同類型問題實現(xiàn)問題解決機制,現(xiàn)實大數(shù)據(jù)平臺運行調(diào)度完整的閉環(huán)。
定期對系統(tǒng)開展全面的數(shù)據(jù)治理狀況評估,從問題率、解決率、解決時效等方面建立評價指標(biāo),通過系統(tǒng)記錄并跟蹤需要整改的數(shù)據(jù)問題,要求按期整改優(yōu)化,從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個方面建立相應(yīng)的管理及認責(zé)機制,建立相應(yīng)的質(zhì)量問題評估KPI。保證數(shù)據(jù)質(zhì)量問題全過程的管理。并根據(jù)常見,高頻的數(shù)據(jù)質(zhì)量問題,聯(lián)合業(yè)務(wù)部門,數(shù)據(jù)質(zhì)量相關(guān)負責(zé)人進行會議溝通,制定出短期,長期的整改計劃,充分利用監(jiān)控平臺,逐步實現(xiàn)業(yè)務(wù)指標(biāo)從系統(tǒng)自動抽取,通過運營監(jiān)控手段對數(shù)據(jù)質(zhì)量情況進行監(jiān)控和通報,督促、推進數(shù)據(jù)問題整改。
通過對不同階段數(shù)據(jù)的規(guī)范,分類處理,做到事前預(yù)防、事中監(jiān)控、事后改善,能從根本上解決數(shù)據(jù)質(zhì)量問題,為企業(yè)發(fā)揮數(shù)據(jù)價值掃除障礙。
數(shù)據(jù)質(zhì)量治理過程是個過程繁瑣,專業(yè)性強,跨部門跨職能需要高度協(xié)調(diào)配合的困難工作,組織架構(gòu)上建立專項工作領(lǐng)導(dǎo)小組及工作小組。制定科學(xué)數(shù)據(jù)質(zhì)量提升方案,開展共享模型設(shè)計開發(fā)工作,對數(shù)據(jù)進行統(tǒng)一的清洗、整合,支撐各業(yè)務(wù)領(lǐng)域運管和報表應(yīng)用,實現(xiàn)數(shù)據(jù)分析資源的共享復(fù)用以及數(shù)據(jù)質(zhì)量的集中管控。借助數(shù)據(jù)質(zhì)量平臺、數(shù)據(jù)流轉(zhuǎn)監(jiān)控平臺完成自動質(zhì)量監(jiān)控管理,及時發(fā)現(xiàn)問題,減少數(shù)據(jù)問題影響的范圍。針對問題數(shù)據(jù)形成一整套處理機制,制定數(shù)據(jù)質(zhì)量提升管理考核規(guī)則,完整數(shù)據(jù)質(zhì)量的閉環(huán)管理。