張世超,楊乘勝,朱海東,趙竟,趙航,張庭玉
(1.中國華電集團(tuán)有限公司,北京 100031;2.南京華盾電力信息安全測評有限公司,江蘇 南京 210000)
當(dāng)前國內(nèi)關(guān)于數(shù)據(jù)資產(chǎn)管理的理論和實(shí)踐還處于初始階段,工業(yè)領(lǐng)域數(shù)據(jù)資產(chǎn)管理實(shí)力及能力參差不齊,企業(yè)往往對其自身的數(shù)據(jù)資產(chǎn)類別和數(shù)量都缺乏全面了解[1]。在數(shù)字化轉(zhuǎn)型的背景下,多數(shù)企業(yè)正面臨如何優(yōu)化數(shù)據(jù)的集成、共享、應(yīng)用和管理等方面的問題,在數(shù)據(jù)管理、應(yīng)用方面的體系構(gòu)建還有待進(jìn)一步完善[2]。
中國信息通信研究院發(fā)布的《2018工業(yè)企業(yè)數(shù)據(jù)資產(chǎn)管理現(xiàn)狀調(diào)研報(bào)告》對我國工業(yè)企業(yè)的數(shù)據(jù)資產(chǎn)管理現(xiàn)狀從組織制度方面、信息化能力方面、數(shù)據(jù)監(jiān)管方面做了初步的評估工作,其結(jié)論為國內(nèi)工業(yè)企業(yè)大部分剛剛站在企業(yè)數(shù)據(jù)資產(chǎn)管理這條起跑線上,重要性認(rèn)識(shí)已經(jīng)基本到位,目前正在計(jì)劃或開展相關(guān)的活動(dòng)[3]。
行業(yè)內(nèi)專家已開始探討電力企業(yè)數(shù)據(jù)管理,在前期研究中,已有學(xué)者引入先進(jìn)技術(shù)如泛在物聯(lián)網(wǎng)技術(shù)、知識(shí)圖譜技術(shù)來管理數(shù)據(jù)的全生命周期,以期挖掘更多的數(shù)據(jù)價(jià)值[4]。目前未明確發(fā)布符合電力數(shù)據(jù)特點(diǎn)的整體數(shù)據(jù)解決方案,在數(shù)據(jù)運(yùn)維方面大多沿用傳統(tǒng)的技術(shù)運(yùn)維方案,對于數(shù)據(jù)退役,大型電力企業(yè)執(zhí)行的是公文管理中對公文存儲(chǔ)時(shí)間相關(guān)規(guī)定,對于數(shù)據(jù)的全生命周期管理鮮有制定或形成專門的辦法規(guī)定。
綜上,企業(yè)亟需建立一套集存儲(chǔ)、統(tǒng)計(jì)、分析、展示于一體的統(tǒng)一數(shù)據(jù)中心,形成符合企業(yè)實(shí)際的數(shù)據(jù)資產(chǎn)管理體系[5],打通各個(gè)系統(tǒng)之間的壁壘,及時(shí)有效的反映企業(yè)整體生產(chǎn)和經(jīng)營狀況,實(shí)現(xiàn)信息化、智能化管理,切實(shí)提高工作效率和增強(qiáng)數(shù)據(jù)輔助決策能力[6]。
企業(yè)為了明確將數(shù)據(jù)作為公司核心資產(chǎn)的理念,需要摸清公司數(shù)據(jù)管理能力現(xiàn)狀,發(fā)現(xiàn)數(shù)據(jù)管理工作中的薄弱環(huán)節(jié),嚴(yán)格依照國標(biāo)、行標(biāo),對企業(yè)數(shù)據(jù)資產(chǎn)全生命周期業(yè)務(wù)范圍進(jìn)行成熟度評估。通過數(shù)據(jù)資產(chǎn)清單梳理、數(shù)據(jù)需求調(diào)研分析、信息系統(tǒng)數(shù)據(jù)共享分析等評估實(shí)踐[7],發(fā)現(xiàn)企業(yè)數(shù)據(jù)管理方面存在的問題和不足。
目前企業(yè)內(nèi)各業(yè)務(wù)部門的信息化系統(tǒng)較為分散,數(shù)據(jù)互通能力不高,存在數(shù)據(jù)孤島現(xiàn)象。管理層和決策層難以在第一時(shí)間掌握總體經(jīng)營情況,各個(gè)部門之間的部分生產(chǎn)、經(jīng)營等關(guān)聯(lián)數(shù)據(jù)的交互產(chǎn)生滯后效應(yīng),給數(shù)據(jù)的挖掘、分析等工作造成巨大阻力,導(dǎo)致大量數(shù)據(jù)難以被有效利用,數(shù)據(jù)價(jià)值難以兌現(xiàn)[8]。此外,各個(gè)業(yè)務(wù)系統(tǒng)相對獨(dú)立,存在重復(fù)開發(fā)的情況,維護(hù)過程耗費(fèi)大量人力成本。系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)存在不統(tǒng)一、不規(guī)范等情況,系統(tǒng)間數(shù)據(jù)存在冗余且較為散亂,導(dǎo)致數(shù)據(jù)資產(chǎn)管理存在一定的困難,造成數(shù)據(jù)資源的浪費(fèi)。
發(fā)電企業(yè)亟需建立數(shù)據(jù)的匯集中心,以促進(jìn)各部門、各區(qū)域公司數(shù)據(jù)的充分共享,推進(jìn)信息資源的整合對接[9]。統(tǒng)一處理采集、存儲(chǔ)、分析與經(jīng)濟(jì)運(yùn)行相關(guān)的數(shù)據(jù),支撐經(jīng)濟(jì)運(yùn)行業(yè)務(wù);采集風(fēng)、光、水、火等綜合能源相關(guān)數(shù)據(jù)信息,實(shí)現(xiàn)區(qū)域能源結(jié)構(gòu)性優(yōu)化[10];支持?jǐn)?shù)據(jù)分析及戰(zhàn)略經(jīng)營性項(xiàng)目,實(shí)時(shí)反映企業(yè)的整體運(yùn)行狀態(tài),為企業(yè)領(lǐng)導(dǎo)提供及時(shí)、可靠、準(zhǔn)確的數(shù)據(jù)分析,助力領(lǐng)導(dǎo)準(zhǔn)確、及時(shí)地把握和調(diào)整企業(yè)發(fā)展方向;將大數(shù)據(jù)分析、人工智能、機(jī)器學(xué)習(xí)等新一代信息化技術(shù)融入數(shù)據(jù)中心,提供經(jīng)濟(jì)運(yùn)行預(yù)測、優(yōu)化算法方面的各項(xiàng)服務(wù),真正滿足營銷管理信息化體系的總體要求,充分發(fā)揮數(shù)字化作用[11]。數(shù)據(jù)的共享服務(wù)應(yīng)用如下圖所示。
圖1 數(shù)據(jù)資產(chǎn)共享服務(wù)應(yīng)用Fig.1 Data asset sharing service application
在已有業(yè)務(wù)建模成果基礎(chǔ)上,進(jìn)一步擴(kuò)展數(shù)據(jù)模型,擴(kuò)展數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,實(shí)現(xiàn)企業(yè)范圍內(nèi)數(shù)據(jù)的唯一性與共享性,持續(xù)改進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。
模型設(shè)計(jì)具體需求包括:
(1)設(shè)計(jì)并逐步完善統(tǒng)一的共享交換數(shù)據(jù)模型,為企業(yè)的信息化應(yīng)用之間數(shù)據(jù)的共享交換提供統(tǒng)一信息視圖。
(2)在共享交換模型基礎(chǔ)上設(shè)計(jì)并逐步完善統(tǒng)一的數(shù)據(jù)倉庫模型,以支撐專業(yè)輔助決策和綜合分析等高級應(yīng)用。
(3)在共享交換數(shù)據(jù)模型與數(shù)據(jù)倉庫模型基礎(chǔ)上,建立全企業(yè)需要進(jìn)行信息交互的全局?jǐn)?shù)據(jù)模型架構(gòu)。
為建設(shè)符合電力行業(yè)業(yè)務(wù)特色的企業(yè)數(shù)據(jù)模型,需大量、深入的研究學(xué)習(xí)國際上開放、成熟的電網(wǎng)企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)體系成果:包括IEC CIM的理論研究[12-15]、國際電網(wǎng)企業(yè)CIM應(yīng)用項(xiàng)目的研究[16]等,遵循“模型統(tǒng)一化、接口標(biāo)準(zhǔn)化、管控規(guī)范化、應(yīng)用持續(xù)化”的四化建設(shè)原則,最終形成公共信息模型(PE_CIM)數(shù)據(jù)倉庫模型和全局?jǐn)?shù)據(jù)模型。
數(shù)據(jù)中心通過將存儲(chǔ)的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,打通各個(gè)系統(tǒng)之間的信息孤島,形成一套全面、強(qiáng)力的數(shù)據(jù)挖掘分析體系,全面助力電力企業(yè)數(shù)據(jù)集成和整合。
為了滿足新時(shí)代營銷管理需求,大數(shù)據(jù)和人工智能技術(shù)被應(yīng)用到營銷決策的預(yù)測,比如合同盈利預(yù)測、電廠的日負(fù)荷預(yù)測,日前節(jié)點(diǎn)和實(shí)時(shí)節(jié)點(diǎn)電價(jià)預(yù)測[17]。這些數(shù)據(jù)的預(yù)測可以有效助力決策者進(jìn)行科學(xué)、合理和及時(shí)決策,完成基于公司數(shù)據(jù)資產(chǎn)的經(jīng)濟(jì)運(yùn)行優(yōu)化。
這里以商業(yè)盈利模型為例,步驟包括采集當(dāng)前合同用戶成交信息;將用戶合同數(shù)據(jù)輸入至已訓(xùn)練好的迭代決策樹算法模型中,獲取盈利結(jié)果。所述迭代決策樹算法模型采用下述方法訓(xùn)練獲?。翰杉脩艉贤山粩?shù)據(jù);利用原始數(shù)據(jù)構(gòu)建訓(xùn)練集;采用訓(xùn)練集訓(xùn)練迭代決策樹算法模型;本發(fā)明采用訓(xùn)練完成的模型對用戶當(dāng)前的合同是否盈利進(jìn)行預(yù)測,該方法診斷對數(shù)據(jù)特征值數(shù)量有較低要求,同時(shí)提高了診斷的準(zhǔn)確率。
迭代決策樹算法模型生成步驟如下:
步驟A,對于每組合同正收益數(shù)據(jù),y值設(shè)定為M1,對于每個(gè)負(fù)收益合同,其y值設(shè)定為M2,x值是由合同信息提取的特征值組成的N維向量,形成訓(xùn)練集:
D={(x1,y1),(x2,y2),……,(xN,yN)}
(1)
步驟B,對數(shù)據(jù)集進(jìn)行切分變量j和切分點(diǎn)s的求解:
假設(shè)得到一對切分變量j和切分點(diǎn)s,會(huì)將整個(gè)輸入空間劃分為兩個(gè)區(qū)域:
R1(j,s)={x|x(j)≤s}
(2)
R2(j,s)={x|x(j)>s}
(3)
根據(jù)下列原則遍歷所有切分變量j和切分點(diǎn)s,求解得到最優(yōu)的一組結(jié)果:
(4)
對于固定的一組切分變量j和切分點(diǎn)s,得到屬于這個(gè)劃分區(qū)域的兩個(gè)區(qū)域值:
(5)
(6)
步驟C,重復(fù)調(diào)用步驟B,直到滿足停止條件,得到一個(gè)完整的回歸樹:
(7)
步驟D,將上述形成的回歸樹對訓(xùn)練集的預(yù)測結(jié)果和真實(shí)值相減得到殘差,再將殘差作為更新的y值,得到更新的訓(xùn)練集:
D={(x1,y1),(x2,y2),……,(xN,yN)}
(8)
重復(fù)調(diào)用步驟B、步驟C,迭代生成回歸樹,直到滿足殘差數(shù)組小于設(shè)定值。流程如下圖所示:
圖2 回歸樹生成流程圖Fig.2 Flowchart of regression tree generation
根據(jù)訓(xùn)練完成的決策樹模型,將需要預(yù)測用戶交易合同的信息作為輸入,通過決策樹模型的訓(xùn)練,將最終該合同是否盈利的預(yù)測結(jié)果輸出。
下面介紹電廠負(fù)荷預(yù)測的數(shù)據(jù)分析的管理體系方法。這里使用統(tǒng)計(jì)學(xué)ARIMA模型進(jìn)行電廠負(fù)荷預(yù)測。針對電廠每日負(fù)荷數(shù)據(jù)建立模型,對未來時(shí)間段電廠負(fù)荷進(jìn)行預(yù)測,采用標(biāo)注的電力負(fù)荷數(shù)據(jù)格式(每15min一個(gè)采樣點(diǎn),每日包含96個(gè)采樣點(diǎn),量綱為MW)。
在ARIMA模型搭建中,分為三個(gè)步驟。首先對數(shù)據(jù)集進(jìn)行預(yù)處理和預(yù)分析,之后對模型參數(shù)進(jìn)行評估,建立模型,最后通過建立的模型求得預(yù)測的結(jié)果。在數(shù)據(jù)預(yù)處理階段,通過數(shù)據(jù)可視化,可初步判斷該模型是否平穩(wěn)[18]。如果序列的均值和方差不隨時(shí)間發(fā)生明顯變化,可通過白噪聲檢驗(yàn),則序列平穩(wěn),未來時(shí)刻信息對于往期數(shù)據(jù)依賴性沒有明顯變化,適用于時(shí)間序列預(yù)測[19]。在模型參數(shù)評估階段,根據(jù)選定的ARIMA模型,對三個(gè)參數(shù)p,q,d進(jìn)行評估取值。如果初始序列平穩(wěn),則d為0,否則對序列進(jìn)行差分運(yùn)算,每進(jìn)行一次運(yùn)算d值加一,直到序列平穩(wěn)為止。參數(shù)p,q通過序列的自相關(guān)圖和偏自相關(guān)圖確定,先根據(jù)其圖像的n階截尾或拖尾初步選定p,q,然后通過AIC,BIC值進(jìn)行驗(yàn)證,選取最合適的p,q值。根據(jù)選定的參數(shù)建立的模型,對后一天序列值進(jìn)行預(yù)測。ARIMA模型的優(yōu)點(diǎn)為建模需要?dú)v史數(shù)據(jù)少,預(yù)測結(jié)果良好,缺點(diǎn)是要實(shí)時(shí)更新模型進(jìn)行預(yù)測,否則后期誤差較大,大量數(shù)據(jù)對模型增益少。下面進(jìn)行模型搭建:
2201天負(fù)荷數(shù)據(jù)如下圖,可以看出數(shù)據(jù)整體趨勢較為平穩(wěn),但是仍然有隨著時(shí)間點(diǎn)推移,整體向上波動(dòng)的趨勢:
圖3 負(fù)荷數(shù)據(jù)趨勢圖Fig.3 Load data trend plot
如果需要預(yù)測最后一天的短期負(fù)荷,本方法通過之前十天的負(fù)荷數(shù)據(jù)建模,真實(shí)負(fù)荷數(shù)據(jù)如下,并且可以觀察到計(jì)算出的均值和方差波動(dòng),介于本方法數(shù)據(jù)具有周期性(一天產(chǎn)生96個(gè)時(shí)間點(diǎn)),均值和方差均滑動(dòng)計(jì)算:
圖4 負(fù)荷數(shù)據(jù)的均值和方差Fig.4 Mean and variance of load data
對該數(shù)據(jù)進(jìn)行取對數(shù)平穩(wěn)化和第一次差分運(yùn)算后結(jié)果如下圖,可以看出一階差分后數(shù)據(jù)是平穩(wěn)序列,均值和方差都基本不變,由此推測此ARIMA模型的參數(shù)d為1。
圖5 一階差分后的均值和方差Fig.5 Means and variances after first-order differences
下面,對這十天數(shù)據(jù)建立自相關(guān)和偏自相關(guān)圖,為了方便觀察,圖表只截取了前100條信息。可以看出自相關(guān)圖拖尾,偏自相關(guān)圖二階截尾,推測該模型p,q參數(shù)分別為2,0。
最后通過AIC和BIC準(zhǔn)則驗(yàn)證所得參數(shù)是否為范圍內(nèi)的最優(yōu)解,經(jīng)驗(yàn)證,p,q,d分別為2,0,1時(shí),AIC,BIC最小,結(jié)果最優(yōu),和之前結(jié)果一致。通過獲得的參數(shù)建立模型,對未來時(shí)間點(diǎn)負(fù)荷進(jìn)行預(yù)測。
最后通過獲得的ARIMA模型,進(jìn)行一天的負(fù)荷數(shù)據(jù)預(yù)測,得到輸出結(jié)果。
下面介紹節(jié)點(diǎn)電價(jià)預(yù)測的數(shù)據(jù)分析的管理體系方法。針對節(jié)點(diǎn)電價(jià)周期波動(dòng)、數(shù)據(jù)量龐大的特點(diǎn),數(shù)據(jù)中心采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來實(shí)現(xiàn)對新一日節(jié)點(diǎn)電價(jià)的預(yù)測,神經(jīng)元單元采用長短期記憶(LSTM)模型[20]。人工神經(jīng)網(wǎng)絡(luò)是連接神經(jīng)元的分層結(jié)構(gòu), RNN是它是一類為處理時(shí)態(tài)數(shù)據(jù)而定制的神經(jīng)網(wǎng)絡(luò)。RNN的神經(jīng)元具有單元狀態(tài)記憶,并且輸入根據(jù)該內(nèi)部狀態(tài)進(jìn)行處理,存在重復(fù)出現(xiàn)的“tanh”層模塊,允許它們保留信息。LSTM模型可以增強(qiáng)這種保留信息的時(shí)間,從而增加保留信息的信息量,契合節(jié)點(diǎn)電價(jià)的數(shù)據(jù)特性[21]。
該方法用于節(jié)點(diǎn)電價(jià)的基本思想是使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)讀取一個(gè)時(shí)間序列的節(jié)點(diǎn)電價(jià)的數(shù)據(jù),將這組數(shù)據(jù)的信息壓縮到一個(gè)固定維度的編碼中,再使用另一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)讀取這個(gè)編碼,將其解碼為目標(biāo)時(shí)間段內(nèi)的電價(jià)數(shù)據(jù)。
第一步,獲取訓(xùn)練測試數(shù)據(jù)集。每組數(shù)據(jù)為一個(gè)元組,包含當(dāng)日的時(shí)間和對應(yīng)的數(shù)據(jù),類似結(jié)構(gòu)“(08:00,354.2)”。我們需要稍微清理原始數(shù)據(jù),主要涉及將所有原始數(shù)據(jù)轉(zhuǎn)化為上述格式,保留時(shí)間去除日期,電價(jià)統(tǒng)一保留一位小數(shù)。取兩千天數(shù)據(jù),形成數(shù)據(jù)集。
第二步,劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集,并將訓(xùn)練數(shù)據(jù)帶入RNN模型,通過softmax模型將數(shù)據(jù)歸一化,從而可以得到任意一個(gè)時(shí)間點(diǎn)任意電價(jià)的概率表示。
第三步,訓(xùn)練完成模型,并通過測試集檢驗(yàn)?zāi)P蜏?zhǔn)確率。帶入需要預(yù)測的時(shí)間點(diǎn),得出預(yù)測的節(jié)點(diǎn)電價(jià)。
數(shù)據(jù)中心建設(shè)秉承設(shè)計(jì)合理、完整擴(kuò)展、資源隔離的總體原則進(jìn)行數(shù)據(jù)架構(gòu)設(shè)計(jì)[22],主要包含數(shù)據(jù)源、數(shù)據(jù)集成、數(shù)據(jù)湖、數(shù)據(jù)主題庫、數(shù)據(jù)應(yīng)用庫、數(shù)據(jù)服務(wù)、資產(chǎn)管理。數(shù)據(jù)架構(gòu)如下圖所示:
圖6 負(fù)荷數(shù)據(jù)自相關(guān)和偏自相關(guān)圖Fig.6 Load data autocorrelation and partial autocorrelation plots
(1)數(shù)據(jù)源
數(shù)據(jù)源部分主要是指大數(shù)據(jù)中心的上游系統(tǒng)數(shù)據(jù)庫,按數(shù)據(jù)類型可分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)及物聯(lián)網(wǎng)網(wǎng)關(guān)數(shù)據(jù)等,最終目標(biāo)是實(shí)現(xiàn)客戶方全域數(shù)據(jù)的匯集和資產(chǎn)沉淀[23]。
(2)數(shù)據(jù)集成
數(shù)據(jù)集成主要是指將源端數(shù)據(jù)通過各種數(shù)據(jù)集成技術(shù)完成數(shù)據(jù)集成上云,將源端數(shù)據(jù)集成到數(shù)據(jù)湖貼源區(qū)[24]。結(jié)構(gòu)化數(shù)據(jù)集成主要采用數(shù)據(jù)中臺(tái)提供的離線數(shù)據(jù)集成平臺(tái)來完成,對于互聯(lián)網(wǎng)數(shù)據(jù)可以采用數(shù)據(jù)中臺(tái)子產(chǎn)品互聯(lián)網(wǎng)采集平臺(tái)實(shí)現(xiàn)采集。另外,對于物聯(lián)網(wǎng)網(wǎng)關(guān)數(shù)據(jù)、實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)等可采用實(shí)時(shí)計(jì)算平臺(tái)的實(shí)時(shí)采集功能實(shí)現(xiàn)實(shí)時(shí)采集。
(3)數(shù)據(jù)湖
數(shù)據(jù)湖是數(shù)據(jù)資產(chǎn)中心的核心部分,是建立在基礎(chǔ)資源層之上的利用大數(shù)據(jù)中心的海量存儲(chǔ)空間和運(yùn)算能力對數(shù)據(jù)進(jìn)行存儲(chǔ)和標(biāo)準(zhǔn)化處理,為主題庫的建設(shè)奠定良好的數(shù)據(jù)基礎(chǔ)[25]。同時(shí)為跨部門數(shù)據(jù)交換提供統(tǒng)一的數(shù)據(jù)交換空間,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一、讓數(shù)據(jù)資源成體系,逐步建設(shè)可監(jiān)管、可統(tǒng)籌的數(shù)據(jù)共享開放體系[26]。
(4)主題庫
將采集和整理后的業(yè)務(wù)數(shù)據(jù),按照業(yè)務(wù)主體進(jìn)行歸集,建立相應(yīng)的主題庫,隨著原始業(yè)務(wù)數(shù)據(jù)的逐步豐富,不斷豐富主體的各維度數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)資產(chǎn)化積累[27]。
(5)應(yīng)用庫
面向上層業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù)需要進(jìn)行數(shù)據(jù)加工及存儲(chǔ)。數(shù)據(jù)加工主要采取可視化批量數(shù)據(jù)計(jì)算,對于實(shí)時(shí)性要求比較高的數(shù)據(jù)需求可以通過實(shí)時(shí)計(jì)算通道實(shí)現(xiàn)穩(wěn)定低延遲的實(shí)時(shí)數(shù)據(jù)加工、消費(fèi)。
(6)數(shù)據(jù)服務(wù)
具備敏捷資產(chǎn)服務(wù)化與價(jià)值化能力。主要的數(shù)據(jù)服務(wù)模式包括數(shù)據(jù)API服務(wù)、數(shù)據(jù)脫敏服務(wù)等,將數(shù)據(jù)資產(chǎn)在安全受控的前提下對不同的消費(fèi)主體進(jìn)行開放與服務(wù),實(shí)現(xiàn)對服務(wù)體系的整體管控,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的對外運(yùn)營[28]。
(7)數(shù)據(jù)資產(chǎn)管理
資產(chǎn)集約化管理、治理。由數(shù)據(jù)標(biāo)準(zhǔn)、標(biāo)簽管理、數(shù)據(jù)質(zhì)量、資產(chǎn)管理四部分構(gòu)成,基于統(tǒng)一的元數(shù)據(jù)體系提供全域數(shù)據(jù)標(biāo)準(zhǔn)化處理、數(shù)據(jù)資產(chǎn)化、質(zhì)量治理等服務(wù),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的一體化管理。
技術(shù)架構(gòu)以支撐數(shù)據(jù)中心的功能架構(gòu)為目標(biāo),基于業(yè)界大型企業(yè)普遍使用的分布式大數(shù)據(jù)基礎(chǔ)架構(gòu),在采用多樣化采集技術(shù)、分布式存儲(chǔ)及資源調(diào)度基礎(chǔ)上[29],融合搜索引擎、離線計(jì)算、NoSQL、內(nèi)存計(jì)算、圖計(jì)算、高效分析引擎,解決數(shù)據(jù)存儲(chǔ)、計(jì)算、分析問題?;贏mbari的二次封裝,實(shí)現(xiàn)對大數(shù)據(jù)基礎(chǔ)平臺(tái)的管理、配置、運(yùn)維一體化。極力打造簡單可視的涵蓋一站式的智能數(shù)據(jù)生產(chǎn)引擎。
技術(shù)架構(gòu)以數(shù)據(jù)為基礎(chǔ),以全鏈路加工為核心,提供數(shù)據(jù)匯聚、研發(fā)、治理、服務(wù)等多種功能[30]。既能滿足平臺(tái)用戶的數(shù)據(jù)需求,又能為上層應(yīng)用提供各種解決方案,整體技術(shù)架構(gòu)如下圖所示:
圖7 數(shù)據(jù)中心技術(shù)架構(gòu)Fig.7 Technical architecture diagram of data center
數(shù)據(jù)中心基于業(yè)界先進(jìn)的分布式基礎(chǔ)架構(gòu),以Hadoop技術(shù)體系作為多樣化數(shù)據(jù)的存儲(chǔ)與計(jì)算,利用Hive構(gòu)建離線數(shù)據(jù)計(jì)算,利用Presto提升在線數(shù)據(jù)分析效率,基于ElasticSearch實(shí)現(xiàn)全文檢索高效性[31]。集成與整合Flume、Kafka、Flink組件,在封裝的基礎(chǔ)上實(shí)現(xiàn)流式數(shù)據(jù)的采集與動(dòng)態(tài)計(jì)算功能[32]。采用Ambari對Apache Hadoop統(tǒng)一管控,進(jìn)行接口擴(kuò)展、界面封裝,實(shí)現(xiàn)大數(shù)據(jù)引擎的可視化監(jiān)控、管理、配置,集中管理系統(tǒng)日志及接口服務(wù)。
本文研究了發(fā)電企業(yè)數(shù)據(jù)資產(chǎn)管理的問題。結(jié)合發(fā)電企業(yè)的數(shù)據(jù)現(xiàn)狀,為解決企業(yè)數(shù)據(jù)治理的需求,構(gòu)建了電力企業(yè)數(shù)據(jù)資產(chǎn)管理體系。從組織體系建立、職能體系建立、數(shù)據(jù)中心搭建三個(gè)方面闡述為了達(dá)到數(shù)據(jù)治理“共建、共治、共享”的目標(biāo),對數(shù)據(jù)資產(chǎn)管理的總體流程進(jìn)行規(guī)劃。通過數(shù)據(jù)中心對企業(yè)數(shù)據(jù)實(shí)現(xiàn)統(tǒng)一管理,使得跨系統(tǒng)、跨業(yè)務(wù)、跨部門的不同類型的海量數(shù)據(jù)得到有效管理[33-34]、治理,有效提高了各部門間數(shù)據(jù)共享效率,為企業(yè)高質(zhì)量發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。