中國華電集團(tuán)有限公司廣東分公司 俞利鋒 馮佳峰
近些年,華電集團(tuán)提出了從戰(zhàn)略層面推動“數(shù)字華電”建設(shè),打造具有華電特色的“傳統(tǒng)產(chǎn)業(yè)+互聯(lián)網(wǎng)”競爭新優(yōu)勢。隨著數(shù)據(jù)清洗技術(shù)越來越廣泛的關(guān)注和深入的研究。數(shù)據(jù)生命周期的各個階段都會發(fā)生數(shù)據(jù)質(zhì)量問題,大致可以從數(shù)據(jù)源、數(shù)據(jù)組織結(jié)構(gòu)進(jìn)行分類研究。首先,這需要在設(shè)計數(shù)據(jù)庫模式時定義數(shù)據(jù)規(guī)則,盡管數(shù)據(jù)庫產(chǎn)品自身提供相應(yīng)機(jī)制保證數(shù)據(jù)質(zhì)量,依然不能保證進(jìn)入數(shù)據(jù)庫的數(shù)據(jù)完全符合業(yè)務(wù)需求。其次是數(shù)據(jù)庫設(shè)計并不能盡善盡美。第三,數(shù)據(jù)庫操作往往是應(yīng)用程序的效率瓶頸,在數(shù)據(jù)庫之中進(jìn)行完整性驗證會導(dǎo)致應(yīng)用程序性能下降,大量數(shù)據(jù)的插入、修改等操作需要更多的時間。第二種數(shù)據(jù)解決方案由自應(yīng)用程序?qū)嵤?,這是一種高通過邏輯層的事務(wù)操作完整地插入記錄,后者指對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行監(jiān)管控制,清除不滿足要求的數(shù)據(jù)。在各類數(shù)據(jù)分忻工具中,ETL[1]工具往往具有數(shù)據(jù)審核與數(shù)據(jù)清洗功能,但是這些工具只適用于特定的數(shù)據(jù)庫系統(tǒng),處理一些普遍的數(shù)據(jù)質(zhì)量問題,在數(shù)據(jù)集成時解決異構(gòu)數(shù)據(jù)的問題。有一些開源的ETL框架不屬于任何數(shù)據(jù)庫系統(tǒng),就會發(fā)生數(shù)據(jù)異?;蛘卟荒芮逑吹膯栴}。
目前,國內(nèi)的人工智能數(shù)據(jù)清洗技術(shù)研究,缺乏規(guī)模性組織和研究成果,缺乏針對我國信息化特點(diǎn)的數(shù)據(jù)質(zhì)量研究。在企業(yè)項目建設(shè)過程中,數(shù)據(jù)集成環(huán)境比國外復(fù)雜,據(jù)調(diào)查,72%的企業(yè)存在相似重復(fù)數(shù)據(jù),60%的企業(yè)存在不完整數(shù)據(jù)[2]。
鑒于以上問題,本文設(shè)計了結(jié)合發(fā)電企業(yè)的實(shí)際情況,選擇和企業(yè)戰(zhàn)略、部門管理相關(guān)指標(biāo)作為基礎(chǔ),對數(shù)據(jù)成熟度進(jìn)行評估,并且實(shí)現(xiàn)集中抽取,從而實(shí)現(xiàn)編碼、標(biāo)準(zhǔn)、數(shù)據(jù)及模型的統(tǒng)一管理,避免出現(xiàn)數(shù)據(jù)多頭管理及沖突,將數(shù)據(jù)冗余進(jìn)行消除,實(shí)現(xiàn)數(shù)據(jù)集中管理、共享的目的。逐漸實(shí)現(xiàn)事前防范、事后管理及集中監(jiān)控的閉環(huán)管理,對企業(yè)級數(shù)據(jù)質(zhì)量管理規(guī)范、制度的創(chuàng)建,從而對高價值數(shù)據(jù)屬性的識別,保證能夠提高數(shù)據(jù)質(zhì)量,使其支撐業(yè)務(wù)運(yùn)營及經(jīng)營分析。
隨著業(yè)務(wù)的快速發(fā)展以及IT 系統(tǒng)的不斷建設(shè),公司所面臨的數(shù)據(jù)環(huán)境越來越復(fù)雜。在數(shù)據(jù)應(yīng)用過程中逐步暴露出數(shù)據(jù)缺失、重復(fù)、分散、延時、質(zhì)量較差等一系列問題。
缺乏全局視角的主數(shù)據(jù)視圖,各業(yè)務(wù)領(lǐng)域主數(shù)據(jù)分散在各應(yīng)用系統(tǒng)中,各系統(tǒng)相互獨(dú)立,各自維護(hù)一套自己的數(shù)據(jù)結(jié)構(gòu),缺少統(tǒng)一和共享;系統(tǒng)建立時,業(yè)務(wù)單位主要考慮本業(yè)務(wù)領(lǐng)域應(yīng)用和業(yè)務(wù)范圍內(nèi)的數(shù)據(jù),對于跨部門、跨系統(tǒng)的數(shù)據(jù)管理職責(zé)沒有定義;各領(lǐng)域業(yè)務(wù)利用各自系統(tǒng)或人工收集導(dǎo)入方式開展數(shù)據(jù)統(tǒng)計分析工作,主數(shù)據(jù)分散在各應(yīng)用系統(tǒng)中;數(shù)據(jù)掌握在各個業(yè)務(wù)部門手中,存在數(shù)據(jù)壁壘,數(shù)據(jù)共享交換較為困難。
指標(biāo)和維度無統(tǒng)一定義、規(guī)范和管控:各部門指標(biāo)和維度無統(tǒng)一定義、規(guī)范和管控,重復(fù)統(tǒng)計和不一致現(xiàn)象較為突出。
各部門根據(jù)管理和上報需要各自定義指標(biāo)和維度,重復(fù)統(tǒng)計現(xiàn)象較為突出;指標(biāo)數(shù)據(jù)各自表述,同一指標(biāo)的管理口徑、統(tǒng)計口徑不一致,但指標(biāo)名稱相同;基本維度信息各部門獨(dú)自定義,同樣的維度,各部門對其分類,規(guī)則定義不一致;沒有主數(shù)據(jù)相關(guān)的業(yè)務(wù)流程,相同的主數(shù)據(jù)新增或變更時不考慮其它部門。各系統(tǒng)之前缺少統(tǒng)一的數(shù)據(jù)規(guī)范,接口交互標(biāo)準(zhǔn)不統(tǒng)一。
數(shù)據(jù)中心建設(shè)是一項系統(tǒng)工程,數(shù)據(jù)治理更是一項長期艱巨的工作,需要自上而下統(tǒng)一思想、堅定落實(shí)、長效管理。
公司采用數(shù)據(jù)管控先進(jìn)理念與成熟方法,從短期、中期和長期分步有序?qū)崿F(xiàn)數(shù)字化、智慧化經(jīng)營管理的角度,通過全面評估公司數(shù)據(jù)管控成熟度,制定提升目標(biāo)和行動計劃,支持公司建立企業(yè)級的數(shù)據(jù)資產(chǎn)管控體系及支撐平臺,從根源上解決目前在各業(yè)務(wù)領(lǐng)域存在的數(shù)據(jù)問題。以數(shù)據(jù)中心為核心,以數(shù)據(jù)治理為基礎(chǔ),提升公司在業(yè)務(wù)發(fā)展中數(shù)據(jù)支撐能力,增強(qiáng)公司在行業(yè)競爭中的核心能力。
在規(guī)劃部分通過對區(qū)域的業(yè)務(wù)和系統(tǒng)調(diào)研,了解區(qū)域目前的數(shù)據(jù)使用情況,根據(jù)行業(yè)數(shù)據(jù)治理成熟度模型[3]評估方法論量化打分,了解企業(yè)當(dāng)前所處數(shù)據(jù)治理的極端,據(jù)此規(guī)劃未來3年數(shù)據(jù)平臺建設(shè)和數(shù)據(jù)治理路徑;通過全面的調(diào)研,確定數(shù)據(jù)治理的主體流程和規(guī)范,通過對具體業(yè)務(wù)主題的深入調(diào)研,確定詳細(xì)的執(zhí)行標(biāo)準(zhǔn)和方法。
建立企業(yè)級數(shù)據(jù)中心是對公司跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)進(jìn)行整合,并滿足公司不同部門的數(shù)據(jù)訪問和數(shù)據(jù)分析需求,技術(shù)架構(gòu)設(shè)計的總體目標(biāo)就是為企業(yè)級數(shù)據(jù)中心提供技術(shù)、數(shù)據(jù)及管理能力上的規(guī)劃和支持。
系統(tǒng)接入數(shù)據(jù)方式多樣化,包括關(guān)系型數(shù)據(jù)庫數(shù)據(jù)、實(shí)時數(shù)據(jù)、文件數(shù)據(jù)、圖片數(shù)據(jù)、日志數(shù)據(jù)、音視頻等。面對多種數(shù)據(jù)接入的需求,數(shù)據(jù)平臺提供多種針對性的接入方式以及工具。
基于行業(yè)的通用標(biāo)準(zhǔn),公司數(shù)據(jù)治理的架構(gòu):
數(shù)據(jù)標(biāo)準(zhǔn)定義。在數(shù)據(jù)資產(chǎn)盤點(diǎn)過程中,對數(shù)據(jù)資產(chǎn)進(jìn)行業(yè)務(wù)、技術(shù)和管理定義并獲得對口部門的確認(rèn),從中挑選必須訂立數(shù)據(jù)標(biāo)準(zhǔn)的資產(chǎn)項,開展數(shù)據(jù)標(biāo)準(zhǔn)編制工作,并最終發(fā)布。
數(shù)據(jù)質(zhì)量規(guī)范編制。在數(shù)據(jù)資產(chǎn)盤點(diǎn)過程中,基于數(shù)據(jù)定義及規(guī)則,與業(yè)務(wù)部門共同商定基礎(chǔ)質(zhì)量要求,編制數(shù)據(jù)質(zhì)量規(guī)范。
元數(shù)據(jù)登記。采集相關(guān)系統(tǒng)的元數(shù)據(jù)信息,包括表、字段、代碼等信息,與數(shù)據(jù)資產(chǎn)建立關(guān)聯(lián)關(guān)系,形成數(shù)據(jù)分布地圖。
數(shù)據(jù)資產(chǎn)盤點(diǎn)。本期數(shù)據(jù)資產(chǎn)目錄范圍:設(shè)備主數(shù)據(jù),物料,財務(wù)指標(biāo),形成資產(chǎn)目錄清單。通過業(yè)務(wù)調(diào)研、技術(shù)調(diào)研,開展資產(chǎn)盤點(diǎn),完成數(shù)據(jù)資產(chǎn)目錄及數(shù)據(jù)資產(chǎn)管理方法。
主數(shù)據(jù)管理體系。遵循行業(yè)規(guī)范指引,梳理主數(shù)據(jù)分類,合并數(shù)據(jù)資產(chǎn)項,明確主數(shù)據(jù)歸口部門,建立主數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和管控流程。
數(shù)據(jù)資產(chǎn)管理體系架構(gòu)。構(gòu)建公司數(shù)據(jù)資產(chǎn)管理體系,制定組織架構(gòu)、認(rèn)責(zé)機(jī)制、數(shù)據(jù)管理辦法、數(shù)據(jù)標(biāo)準(zhǔn)管理辦法和流程、數(shù)據(jù)質(zhì)量管理辦法和流程、元數(shù)據(jù)管理辦法和流程、數(shù)據(jù)管控平臺建設(shè)方案等。
數(shù)據(jù)整合及模型。目前公司以生產(chǎn)經(jīng)營和過程數(shù)據(jù)為基礎(chǔ),建立了關(guān)系型數(shù)據(jù)庫,覆蓋公司主要信息系統(tǒng),并且建立了實(shí)時數(shù)據(jù)庫,覆蓋公司生產(chǎn)、設(shè)備、安環(huán)、能源所有實(shí)時數(shù)據(jù)源。關(guān)系型數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫的數(shù)據(jù)沒有經(jīng)過很好的數(shù)據(jù)整合,在使用時產(chǎn)生大量重復(fù)數(shù)據(jù),數(shù)據(jù)不一致的情況。在數(shù)據(jù)整合基礎(chǔ)上建設(shè)企業(yè)級數(shù)據(jù)倉庫,加強(qiáng)數(shù)據(jù)深度收集和管理,挖掘數(shù)據(jù)價值,破解數(shù)據(jù)密碼,并逐步形成完整的報表體系,輔助各級領(lǐng)導(dǎo)和管理人員及時掌握業(yè)務(wù)運(yùn)營情況,并基于數(shù)據(jù)進(jìn)行精準(zhǔn)決策。
技術(shù)架構(gòu)設(shè)計與規(guī)劃。深入開展系統(tǒng)集成和多系統(tǒng)協(xié)同應(yīng)用,基本消除信息孤島,提升系統(tǒng)集成共享水平;推進(jìn)全局業(yè)務(wù)流程優(yōu)化和主要信息系統(tǒng)的集成,發(fā)揮協(xié)同增值效應(yīng),逐步消除信息孤島。
培訓(xùn)和宣貫。完成匯報材料及培訓(xùn)課件的編制工作,并開展培訓(xùn)和宣貫。
上述十項主要服務(wù)工作,以及貫穿始終的項目管理、培訓(xùn)宣貫,即相互獨(dú)立、又相互支持,部分工作可并行執(zhí)行。
在數(shù)據(jù)倉庫規(guī)劃階段,借鑒行業(yè)數(shù)倉建設(shè)經(jīng)驗結(jié)合公司數(shù)據(jù)現(xiàn)狀和長遠(yuǎn)規(guī)劃作為工作的指導(dǎo),確保數(shù)據(jù)倉庫規(guī)劃成果的完整性、全面性、發(fā)展性、先進(jìn)性及可操作性。
公司的企業(yè)級數(shù)據(jù)倉庫的架構(gòu)設(shè)計,結(jié)合公司的各個業(yè)務(wù)部門和IT 部門的需求及應(yīng)用現(xiàn)狀,綜合考慮數(shù)據(jù)交換平臺、數(shù)據(jù)準(zhǔn)備區(qū)、操作型數(shù)據(jù)存儲、基礎(chǔ)數(shù)據(jù)模型、數(shù)據(jù)挖掘、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量等組件之間的關(guān)系和實(shí)施方法,并就其中將會使用到的關(guān)鍵技術(shù)提供支持[4]。
結(jié)合公司的數(shù)據(jù)倉庫架構(gòu)規(guī)劃的需求,公司數(shù)據(jù)倉庫的建設(shè)采用長期的循序漸進(jìn)的過程,通過不斷創(chuàng)新、修復(fù)、完善的過程,伴隨著應(yīng)用系統(tǒng)的發(fā)展而發(fā)展。根據(jù)公司的業(yè)務(wù)特點(diǎn)以及行業(yè)內(nèi)系統(tǒng)建設(shè)的現(xiàn)狀和未來發(fā)展藍(lán)圖,全力打造一個可擴(kuò)展的、高可用性的、安全的、高效的、跨部門的可以快速處理海量數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng)。
吸取市場數(shù)倉建設(shè)經(jīng)驗,結(jié)合公司的業(yè)務(wù)現(xiàn)狀和長遠(yuǎn)規(guī)劃,公司的整體數(shù)倉架構(gòu)。架構(gòu)分為六個主要部分,分別是:數(shù)據(jù)源、獲取層、集成層、應(yīng)用層、大數(shù)據(jù)環(huán)境、數(shù)據(jù)管控。下面分別描述這六個部分。
數(shù)據(jù)源:數(shù)據(jù)源層主要內(nèi)容和功能有各類結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)、非結(jié)構(gòu)化的視頻、圖片和文檔、半結(jié)構(gòu)化的其它文件,是數(shù)據(jù)治理的基礎(chǔ)。
獲取層:獲取層又稱之為數(shù)據(jù)接口層,數(shù)據(jù)接口層主要完成批量數(shù)據(jù)的獲取,準(zhǔn)實(shí)時數(shù)據(jù)的同步,其它形態(tài)數(shù)據(jù)源數(shù)據(jù)的接入。
集成層:數(shù)據(jù)整合層。數(shù)據(jù)整合層主要完成企業(yè)數(shù)據(jù)模型的構(gòu)建,能夠涵蓋公司業(yè)務(wù)的各個層面,包括交易數(shù)據(jù)、主數(shù)據(jù)和參考數(shù)據(jù),為整個企業(yè)級的數(shù)據(jù)集成提供一個完整的一致的邏輯視圖。
交付層:交付層是數(shù)據(jù)倉庫的最終數(shù)據(jù)應(yīng)用價值的體現(xiàn)所在,提供業(yè)務(wù)人員直接的數(shù)據(jù)應(yīng)用,在公司的數(shù)據(jù)倉庫架構(gòu)中,交付層主要內(nèi)容和功能有統(tǒng)一報表、KPI、自主分析、數(shù)據(jù)挖掘等應(yīng)用。
大數(shù)據(jù)環(huán)境:大數(shù)據(jù)環(huán)境結(jié)合了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一的處理、訪問與管理。
數(shù)據(jù)管控:數(shù)據(jù)管控又叫數(shù)據(jù)治理或數(shù)據(jù)管理,數(shù)據(jù)管控主要的功能與組成有數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)。
數(shù)據(jù)挖掘其實(shí)就是從大量繁雜的數(shù)據(jù)中找出數(shù)據(jù)的密碼,剖析數(shù)據(jù)本質(zhì),提升數(shù)據(jù)價值。主要依據(jù)業(yè)務(wù)管理要求,以業(yè)務(wù)驅(qū)動模型建設(shè),以模型數(shù)據(jù)反饋業(yè)務(wù)決策。
預(yù)測算法一般情況下,預(yù)測要借助分類或估值才能發(fā)揮效果。具體來說就是利用人工智能的手段探索未知領(lǐng)域發(fā)生的各種結(jié)果。檢測的目的就是利用時間以及空間驗證模型的準(zhǔn)確性,分析未知領(lǐng)域事件發(fā)生的可能性。
聚類算法[5]就是對各類的數(shù)據(jù)進(jìn)行歸集,將同源以及不同源的數(shù)據(jù)放在一個池子里進(jìn)行分析,通過建模的手段達(dá)到數(shù)據(jù)最大化應(yīng)用。
借助數(shù)據(jù)挖掘的手段,公司的信息化已經(jīng)有了很大的進(jìn)步,不僅僅是傳統(tǒng)的以人為本的分析方法,而是真的打通了各個環(huán)節(jié),能夠使內(nèi)部的管理工作更加高效,打通了管理數(shù)據(jù)以及生產(chǎn)數(shù)據(jù)的壁壘,實(shí)現(xiàn)數(shù)據(jù)閉環(huán),讓數(shù)據(jù)產(chǎn)生價值。
第一階段:數(shù)字化轉(zhuǎn)型建設(shè)階段
與數(shù)字華電相適應(yīng),應(yīng)用互聯(lián)網(wǎng)+、物聯(lián)網(wǎng)、移動技術(shù)、云服務(wù)和大數(shù)據(jù)等前沿技術(shù),實(shí)現(xiàn)以大數(shù)據(jù)為核心的數(shù)字區(qū)域管控模式,構(gòu)建公司數(shù)字管控平臺,實(shí)現(xiàn)區(qū)域的生產(chǎn)、營銷、管理等中心建設(shè),完成區(qū)域數(shù)字化轉(zhuǎn)型的頂層建設(shè),實(shí)現(xiàn)區(qū)域的數(shù)字、信息一體化。
同時,推進(jìn)區(qū)域數(shù)字電廠、燃?xì)夥植际健耙粡S多站”、新能源“遠(yuǎn)程集控”項目,推進(jìn)基層企業(yè)數(shù)字化轉(zhuǎn)型。
第二階段:智能化應(yīng)用賦能階段
與集團(tuán)公司智能化戰(zhàn)略管控要求相適應(yīng),利用人工智能、大數(shù)據(jù)等先進(jìn)的信息技術(shù),先進(jìn)的控制技術(shù),以及機(jī)器人、智能終端等硬件設(shè)備賦能數(shù)字生產(chǎn)、數(shù)字營銷、數(shù)字管理,完善綜合能源互聯(lián)網(wǎng)生態(tài),通過數(shù)字技術(shù)引領(lǐng)企業(yè)擴(kuò)展管控能力,深入挖掘各類用戶的綜合能源服務(wù)需求,利用互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等先進(jìn)技術(shù),積極開展能效診斷、節(jié)能優(yōu)化、能源托管等綜合能效服務(wù),實(shí)現(xiàn)上下游產(chǎn)業(yè)鏈的資源最優(yōu)化配置,開展互聯(lián)網(wǎng)+綜合能源服務(wù)項目,增加客戶粘性,提升市場占有率。
數(shù)據(jù)治理實(shí)施步驟:基于企業(yè)愿景和規(guī)劃,以及數(shù)據(jù)治理目標(biāo)和原則,圍繞數(shù)據(jù)治理的六大要素,把數(shù)據(jù)轉(zhuǎn)變?yōu)檎系?、可信任的和安全的信息。在治理和管理?shù)據(jù)中,將人員能力、技術(shù)發(fā)展、企業(yè)規(guī)劃等因素有機(jī)融合。
數(shù)據(jù)標(biāo)準(zhǔn)管理:數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)是一項長期的、涉及面廣的基礎(chǔ)設(shè)施項目,需要在時間和人力等生產(chǎn)資源上有意識、有計劃的、持續(xù)的投入。數(shù)據(jù)標(biāo)準(zhǔn)的總體規(guī)劃目的是根據(jù)企業(yè)的戰(zhàn)略目標(biāo)和實(shí)際情況,確立數(shù)據(jù)標(biāo)準(zhǔn)化的價值和最終目標(biāo),并為達(dá)到最終目標(biāo)訂立行動計劃和資源調(diào)配。
數(shù)據(jù)質(zhì)量規(guī)范編制:數(shù)據(jù)質(zhì)量管理包含組織架構(gòu)、管理流程、管理工具、技術(shù)平臺等方面。
所謂數(shù)據(jù)質(zhì)量規(guī)范,即數(shù)據(jù)質(zhì)量校驗規(guī)則,是指判斷數(shù)據(jù)項在系統(tǒng)落地字段中所存儲的真實(shí)數(shù)據(jù)是否符合特定要求。數(shù)據(jù)質(zhì)量要求在有相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)時以數(shù)據(jù)標(biāo)準(zhǔn)為準(zhǔn);在未制定數(shù)據(jù)標(biāo)準(zhǔn)時以監(jiān)管要求、業(yè)務(wù)要求為準(zhǔn)。根據(jù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)制定詳細(xì)的數(shù)據(jù)質(zhì)量規(guī)則。
元數(shù)據(jù)登記:元數(shù)據(jù)管理[6]成為一項重要功能,讓數(shù)據(jù)的管理者,無論在任何時間任何地點(diǎn),都對數(shù)據(jù)具有絕佳的掌控能力,讓元數(shù)據(jù)更好的為企業(yè)分析決策打下基礎(chǔ)。