徐 琳 張克銘 鄭 欽 路亞俊 樊 想
(中能融合智慧科技有限公司,北京 100013)
隨著“雙碳”目標的提出,政府對能源監(jiān)管的要求日益加強,為此各城市陸續(xù)開始建設能源數(shù)據(jù)中心,以實現(xiàn)對城市能源的監(jiān)管[1]。城市能源數(shù)據(jù)中心逐步接入了能源行業(yè)海量數(shù)據(jù),能源數(shù)據(jù)質(zhì)量評估與修復工作更加重要[2-4]。但因能源采集設備故障、數(shù)據(jù)傳輸通道故障等,能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量依然偏低。
許多學者對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估與修復做了大量研究。王躍晟等[5]提出了一種基于Shapelets 的能源數(shù)據(jù)評估與修復方法,采用能源時間特征矩陣對能源數(shù)據(jù)進行分析。張凱等[6]提出了一種基于K-means 聚類的能源數(shù)據(jù)修復方法,采用異常特征K-means 聚類和神經(jīng)網(wǎng)絡對能源數(shù)據(jù)進行分析。俞娜燕等[7]提出了一種基于高斯過程回歸的能源數(shù)據(jù)評估方法,針對高斯過程評估數(shù)據(jù)質(zhì)量問題,通過粒子濾波方法對能源數(shù)據(jù)進行修復。徐飛陽等[8]中,提出了一種基于同步相量的能源數(shù)據(jù)評估修復方法,對能源數(shù)據(jù)缺失的產(chǎn)生機理進行分析與錯誤校準。由此可見,能源數(shù)據(jù)分析與修復方法多樣。但上述方法僅對單類數(shù)據(jù)進行修復與評估,不能滿足能源數(shù)據(jù)中心多源異構(gòu)的海量能源數(shù)據(jù)評估與修復的需求。
針對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量低、異常數(shù)據(jù)修復困難的問題,本研究提出了一種能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估與修復方法。該方法采用Strong-Wang 框架搭建能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估維度,并引入數(shù)據(jù)質(zhì)量改進全生命周期的概念對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)進行評估與修復。
本研究所述的能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估研究框架主要包括構(gòu)建數(shù)據(jù)質(zhì)量評估框架、構(gòu)建數(shù)據(jù)質(zhì)量評估標準和數(shù)據(jù)質(zhì)量全生命周期管理三部分內(nèi)容。
能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量的維度是指能源行業(yè)中結(jié)構(gòu)化數(shù)據(jù)可觀測的特性。Strong-Wang 框架是國際上通用的數(shù)據(jù)質(zhì)量評估維度框架,通過內(nèi)在的數(shù)據(jù)質(zhì)量、場景數(shù)據(jù)質(zhì)量、表達數(shù)據(jù)質(zhì)量、訪問數(shù)據(jù)質(zhì)量來描述質(zhì)量的評估得分[9-10]。因此,本研究采用Strong-Wang框架構(gòu)建能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估架構(gòu)。根據(jù)Strong-Wang 框架規(guī)則,能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量規(guī)則類型分為單個數(shù)據(jù)、多行數(shù)據(jù)、多列數(shù)據(jù)、多業(yè)務數(shù)據(jù)四類監(jiān)測規(guī)則。數(shù)據(jù)質(zhì)量評估框架如圖1 所示。由圖1 可知,能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)完整性檢測為空值檢測和邏輯檢測;能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)準確性檢查為范圍約束;能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)有效性檢測為格式檢查;能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)及時性檢查為數(shù)據(jù)采集及時檢查;能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)一致檢查為一致約束、外鍵約束和關(guān)聯(lián)約束;能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)唯一檢查為主鍵約束檢查。
圖1 能源行業(yè)數(shù)據(jù)質(zhì)量評估框架
能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)評估規(guī)則集合La表示為式(1)。
式中:na為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)評估規(guī)則數(shù)量;la1、la2、lana為不同能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)評估規(guī)則。
元數(shù)據(jù)是指描述能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)并為其提供數(shù)據(jù)質(zhì)量評估資源的信息數(shù)據(jù)。元數(shù)據(jù)可識別能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)的資源,并對其進行質(zhì)量評價與管理能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)在使用過程中產(chǎn)生的變化,從而實現(xiàn)能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估資源的有效查找、發(fā)現(xiàn)和一體化管理等功能。因此,本研究采用元數(shù)據(jù)構(gòu)建數(shù)據(jù)質(zhì)量評估標準。
層次分析法(Analytic Hierarchy Process, AHP)是一種能源行業(yè)數(shù)據(jù)結(jié)構(gòu)層次分析方法,該方法將與能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)分析決策相關(guān)的數(shù)據(jù)設定為總體目標,并將總體目標分解成不同的層級。在每個能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)子層級上,將評價標準分解為不同的層次結(jié)構(gòu),并采用求解能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)矩陣的方法,對每個層級進行定性分析和定量分析,再通過每個層級上增加不同的權(quán)重,匯總形成能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)整體的定性分析與定量分析結(jié)果[11-13]。
根據(jù)表2 構(gòu)建能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)判斷矩陣B,表示為式(2)。
式中:m、n分別為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估判斷矩陣的縱、橫維度;b11、b12、…、b1n為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)橫維度的比較結(jié)果;bm1、bm2…、bmn為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)縱維度的比較結(jié)果。
計算能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)判斷矩陣各行的向量平方根,并進行歸一化處理,得到能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)評價權(quán)重W,表示為式(3)。
式中:nd為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)指標權(quán)重的數(shù)量;wi為不同能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)評估指標權(quán)重。
能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估一致性監(jiān)測ka表示為式(4)。
式中:ne為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)一致性的唯一非零特征根值;δmax為能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)判斷矩陣的最大特征根。
戴明環(huán)方法是一種數(shù)據(jù)質(zhì)量全生命周期管理方法,該方法通過“計劃-執(zhí)行-檢查-處理”四個階段對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量進行管理[14-16]。
線性插值方法是一種能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復方法,該方法將缺失數(shù)據(jù)鄰近已知正常數(shù)據(jù)用插值方法連接,然后對插值的曲線進行計算,從而獲得異常數(shù)據(jù)的預估值[17]。該方法具有速度快、效率高的特點,因此,本研究采用線性插值方法對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)進行修復。
異常數(shù)據(jù)修復值ja滿足式(5)。
式中:js和jb分別為異常數(shù)據(jù)前后鄰近的已知正常數(shù)據(jù)值;a為異常數(shù)據(jù)點;s和b分別為異常數(shù)據(jù)前后鄰近的已知正常數(shù)據(jù)點。
為驗證文中所提能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估的有效性,在我國某城市能源數(shù)據(jù)中心進行實際應用。該區(qū)域的能源數(shù)據(jù)包括電、水、氣、熱、煤和油數(shù)據(jù),接入的數(shù)據(jù)單位為32.5萬戶。文中能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估與修復工具采用python 開發(fā),程序部署在城市能源中心機房,服務器采用的中央處理器為英特爾至強E2200,服務器數(shù)量為4臺,運行的主頻為2.8 GHz,服務器內(nèi)存為128 GB,服務器硬盤為64 TB,服務器的操作系統(tǒng)為Linux。與文中方法進行對照試驗的是云網(wǎng)融合數(shù)據(jù)質(zhì)量評估方法[18]。
3.2.1 能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估準確率分析。選擇能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)為1萬、2萬、5萬、8 萬、10 萬、15 萬、20 萬條,分別采用文中所提層次分析法與云網(wǎng)融合的能源中心數(shù)據(jù)質(zhì)量評估方法比較數(shù)據(jù)質(zhì)量評估準確率,其數(shù)據(jù)質(zhì)量評估準確率結(jié)果見表1。
表1 能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估準確率
由表1 可知,文中所提層次分析法平均能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估準確率為99.67%,層次分析方法對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)按層級進行分解,并進行評估,評估的準確率高于云網(wǎng)融合方法評估準確率94.78%。因此,文中所提層次分析法數(shù)據(jù)質(zhì)量評估準確率更高。
3.2.2 能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率。選擇能源行業(yè)結(jié)構(gòu)化異常數(shù)據(jù)為1 000、2 000、3 000、5 000、8 000、10 000 條,分別采用文中所提戴明環(huán)方法與云網(wǎng)融合的能源中心數(shù)據(jù)質(zhì)量修復方法比較數(shù)據(jù)修復準確率,能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率如圖2所示。
圖2 能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率
由圖2 可知,文中所提戴明環(huán)方法平均能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率為98.57%,云網(wǎng)融合方法的平均能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率為94.13%。因此,文中所提方法平均能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)修復準確率高于云網(wǎng)融合方法。
本研究針對能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量低、異常數(shù)據(jù)修復困難等問題,提出了一種能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)質(zhì)量評估與修復方法。該方法通過Strong-Wang 框架和元數(shù)據(jù)建立了數(shù)據(jù)質(zhì)量框架與評估標準,實現(xiàn)了能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)的生命周期評估與修復,提高了能源行業(yè)結(jié)構(gòu)化數(shù)據(jù)的管理水平。
下一步將結(jié)合碳排放計量分析數(shù)據(jù),對該評估與修復方法做進一步研究。