李冰若,鐘 彬
(1.國網(wǎng)上海市電力公司市北供電公司,上海 200122;2.國網(wǎng)上海市電力公司,上海 200122)
隨著當(dāng)前智能化信息時代的發(fā)展,打破了數(shù)字符號的界限,社會高度信息化,數(shù)據(jù)作為一種記錄符號,逐漸形成由語句、位置等多源數(shù)據(jù)構(gòu)成的大數(shù)據(jù)模式,且數(shù)據(jù)量規(guī)模呈指數(shù)級增長[1]。這雖然推動了數(shù)據(jù)的自動化與智能化進(jìn)程,但卻使數(shù)據(jù)之間的邏輯關(guān)系越來越復(fù)雜。在大數(shù)據(jù)時代中,數(shù)據(jù)是制定決策的重要參考依據(jù),數(shù)據(jù)質(zhì)量對決策的最終效用起著至關(guān)重要的作用[2]。
海量數(shù)據(jù)內(nèi)摻雜的問題數(shù)據(jù)不斷降低數(shù)據(jù)質(zhì)量,使之演變?yōu)楦鱾€領(lǐng)域亟待解決的問題,研發(fā)出適用于不同領(lǐng)域的數(shù)據(jù)質(zhì)量控制技術(shù)。例如:王娟等[3]與周琦等[4]分別就政府開放數(shù)據(jù)與全球地理信息數(shù)據(jù),應(yīng)用演化博弈理論與分布式并行處理技術(shù),準(zhǔn)確且有效地控制數(shù)據(jù)質(zhì)量。隨著可持續(xù)發(fā)展戰(zhàn)略目標(biāo)的提出與落實,在社會生產(chǎn)生活中占據(jù)著核心地位的電力行業(yè),亟需向智能化、信息化以及節(jié)能化方向轉(zhuǎn)型。除大數(shù)據(jù)時代本身給電力行業(yè)帶來的海量數(shù)據(jù)外,龐大的電網(wǎng)覆蓋規(guī)模與用戶量也加劇了數(shù)據(jù)量,為保證數(shù)據(jù)質(zhì)量增加了巨大的難度。因此,面向電力統(tǒng)計大數(shù)據(jù),設(shè)計可視化的質(zhì)量控制方法??梢暬夹g(shù)因大數(shù)據(jù)時代興起,在數(shù)據(jù)質(zhì)量控制方面具有一定的應(yīng)用價值,有助于保障所用數(shù)據(jù)準(zhǔn)確可靠、實時有效。
假設(shè)電力統(tǒng)計大數(shù)據(jù)集合是{G1,G2,…,GM},其中,M表示數(shù)據(jù)量,各數(shù)據(jù)對應(yīng)的先驗概率集合與離散概率函數(shù)集合分別是{q1,q2,…,qM}、{f1(y),f2(y),…,fM(y)},采用貝葉斯公式,解得電力數(shù)據(jù)Gj的后驗概率p(Gj):
(1)
式中:j=1,2,…,M;qj、fj(y)分別為數(shù)據(jù)Gj的先驗概率與離散概率函數(shù)。
選取N個數(shù)據(jù)樣本,得到下列對應(yīng)觀測數(shù)據(jù)的矩陣形式:
(2)
該矩陣中,元素g*表示數(shù)據(jù)樣本的觀測結(jié)果。
采用下列計算公式求解出各觀測數(shù)據(jù)的總均值向量:
(3)
推導(dǎo)出各數(shù)據(jù)樣本的均值向量概率運算式,如下所示:
(4)
式中:j=1,2,…,N。
由此得出任意數(shù)據(jù)樣本的類內(nèi)離差矩陣元素計算公式,如下所示:
(5)
采用下列形式解得所有數(shù)據(jù)樣本的總類內(nèi)離差矩陣元素:
(6)
引入數(shù)據(jù)變量gh,建立其對應(yīng)的類內(nèi)離差矩陣與總類內(nèi)離差矩陣,分別如下所示:
(7)
(8)
若方程組(9)成立,則為達(dá)成質(zhì)量控制目標(biāo)而引入數(shù)據(jù)變量gh的實現(xiàn)形式如式(10)所示:
(9)
(10)
若控制數(shù)據(jù)質(zhì)量時需去除數(shù)據(jù)變量gh,則其實現(xiàn)形式如下所示:
(11)
大數(shù)據(jù)時代讓電力統(tǒng)計數(shù)據(jù)演變成了更復(fù)雜、更具層次性的高維數(shù)據(jù)結(jié)構(gòu),以往的單向數(shù)據(jù)可視化表現(xiàn)形式無法滿足此類數(shù)據(jù)結(jié)構(gòu)的可視化需求?;陔娏y(tǒng)計大數(shù)據(jù)質(zhì)量控制算法,結(jié)合地理信息系統(tǒng)技術(shù)與Web端口[5-6],構(gòu)建出由Web端口連接地理信息系統(tǒng)中各組成部分的平臺,實現(xiàn)電力統(tǒng)計大數(shù)據(jù)質(zhì)量的可視化交互控制。平臺的基本架構(gòu)如圖1所示。
圖1 可視化實現(xiàn)平臺架構(gòu)圖
視覺通道作為實現(xiàn)可視化的主要環(huán)節(jié),也是控制數(shù)據(jù)標(biāo)識的一種表現(xiàn)模式。不同的視覺通道用于呈現(xiàn)不同的統(tǒng)計大數(shù)據(jù)。根據(jù)可視化的數(shù)據(jù)標(biāo)識性質(zhì),可將其分為定性、定量、分組等三種,各類數(shù)據(jù)標(biāo)識的具體屬性與應(yīng)用的視覺通道如表1所示。
表1 電力統(tǒng)計大數(shù)據(jù)類別
在地理信息系統(tǒng)技術(shù)與Web端口構(gòu)成的可視化實現(xiàn)平臺上,融入B/S架構(gòu)[7],組建出由設(shè)計工具模塊、組件設(shè)計模塊以及表現(xiàn)模塊組成的可視化實現(xiàn)單元,如圖2所示。
圖2 可視化實現(xiàn)單元架構(gòu)圖
在可視化交互控制平臺上,建立卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),有效處理與連通可視化單元各模塊之間的邏輯關(guān)系,減小可視化控制過程中產(chǎn)生的數(shù)據(jù)誤差。
神經(jīng)網(wǎng)絡(luò)的前兩層分別是數(shù)據(jù)特征的提取層與展示層,在輸入層提取數(shù)據(jù)子塊后,形成一組適用于電力統(tǒng)計大數(shù)據(jù)結(jié)構(gòu)的高維數(shù)據(jù)向量;第三層網(wǎng)絡(luò)為非線性映射層,用于獲取高維數(shù)據(jù)向量的映射向量;第四層網(wǎng)絡(luò)是重構(gòu)層,利用求和與加權(quán)平均等運算法則[8-9],得到經(jīng)過控制的數(shù)據(jù)塊,在輸出層輸出最終的控制結(jié)果。
假設(shè)除輸入層與輸出層外的網(wǎng)絡(luò)層分別是U1、U2、U3、U4,各層均含有m個網(wǎng)絡(luò)節(jié)點,分別是x1,x2,…,xm,網(wǎng)絡(luò)層對應(yīng)的可學(xué)習(xí)權(quán)值與偏置分別為a1m、a2m、a3m、a4m以及b1、b2、b3、b4,則該卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的界定公式如下所示:
(12)
若各卷積層均含有n個大小為Xi(i=1,2,3,4)的卷積核,則通過下列計算公式求解出神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的運算復(fù)雜度:
(13)
為縮短網(wǎng)絡(luò)訓(xùn)練時長,提升質(zhì)量控制精準(zhǔn)度,在網(wǎng)絡(luò)的非線性映射層前后,分別添加特征縮小網(wǎng)絡(luò)層與擴(kuò)展層,構(gòu)建出六層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)。
各網(wǎng)絡(luò)層的具體設(shè)計內(nèi)容如下所述:
(1)提取層與展示層:卷積運算網(wǎng)絡(luò)層的卷積核與提取到的數(shù)據(jù)子塊,并轉(zhuǎn)化為高維數(shù)據(jù)特征向量。由于Sigmoid非線性激活函數(shù)[10]能夠在負(fù)數(shù)部分存在多個可學(xué)習(xí)參數(shù),故將其作為兩個網(wǎng)絡(luò)層的激活函數(shù),以防止節(jié)點在學(xué)習(xí)時不被激活,使網(wǎng)絡(luò)參數(shù)作用都得到最大程度發(fā)揮。提取層與展示層的計算表達(dá)式分別如下所示:
U1=Sigmoid×a1m(x1+x2+…+xm)+b1
(14)
U2=Sigmoid×a2m(x1+x2+…+xm)+b2
(15)
(2)縮小層:因前兩層得到的高維數(shù)據(jù)向量維度過大,會大幅增加非線性映射的運算開銷,故添設(shè)縮小層。利用1×1×1卷積核縮小展示層的輸出特征,降低映射復(fù)雜度[11-12]。該層的卷積核數(shù)量需小于n,由計算表達(dá)式(14)、式(15),推導(dǎo)出如下的縮小層U′求解公式:
(16)
(3)非線性映射層:為確保在少量參數(shù)下也能感知域大小,避免過擬合,界定各網(wǎng)絡(luò)層的輸入通道個數(shù)相同并呈卷積疊加。則非線性映射層的計算形式為下列等式:
U3=Sigmoid×a3m(x1+x2+…+xm)+b3
(17)
(4)擴(kuò)展層:該層是縮小層的逆操作階段,若直接采用降低后的數(shù)據(jù)維度進(jìn)行處理,極有可能形成控制誤差。故通過擴(kuò)展層提高數(shù)據(jù)維度,利用1×1×1卷積核通過下式完成該網(wǎng)絡(luò)層的邏輯處理:
(18)
(5)重構(gòu)層:作為卷積神經(jīng)網(wǎng)絡(luò)的最后一層,重構(gòu)層卷積核的主要作用是組合數(shù)據(jù)特征、平均濾波、得到輸出數(shù)據(jù)。網(wǎng)絡(luò)輸出結(jié)果的推演表達(dá)式如下:
U4=Sigmoid×a4m(x1+x2+…+xm)+b4
(19)
可視化單元利用開發(fā)工具調(diào)用設(shè)計的組件與控件后,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)逐層的邏輯處理與連通,通過表現(xiàn)模塊將輸出結(jié)果呈現(xiàn)給用戶。
基于控制方法的研究目標(biāo),分別從控制后數(shù)據(jù)的準(zhǔn)確性、實時性、一致性以及完整性四個方面,綜合評價可視化控制統(tǒng)計大數(shù)據(jù)質(zhì)量的有效性與優(yōu)越性。各指數(shù)類評估指標(biāo)的數(shù)值越大,數(shù)據(jù)質(zhì)量越好,控制效果越理想,具體內(nèi)容如下所述:
(1)準(zhǔn)確性(accuracy):該指標(biāo)用于判定數(shù)據(jù)控制結(jié)果是否存在異常狀況。假設(shè)總數(shù)據(jù)量有Sz個,若控制過程中產(chǎn)生Sl個錯誤數(shù)據(jù),則準(zhǔn)確性評估指標(biāo)的計算公式如下所示:
(20)
式中:r為修正因子。
(2)實時性(timeliness):該指標(biāo)根據(jù)數(shù)據(jù)控制的延時時長與數(shù)據(jù)量,判定方法時效性。若有St個數(shù)據(jù)被延時控制,完成電力數(shù)據(jù)控制的所需小時數(shù)為t,則實時性評估指標(biāo)式如下:
(21)
(3)一致性(consistence):該指標(biāo)描述各電力數(shù)據(jù)間的邏輯關(guān)聯(lián)強(qiáng)度。當(dāng)不符合外鍵、等值依賴、邏輯、等值一致、存在一致等約束條件的數(shù)據(jù)量分別是Sk1、Sk2、Sk3、Sk4、Sk5時,一致性評估指標(biāo)由下列表達(dá)式解得:
(22)
(4)完整性(integrity):該指標(biāo)反映控制后是否有缺失字段信息的電力統(tǒng)計數(shù)據(jù)。若缺失信息的數(shù)據(jù)量是Sd個,則完整性評估指標(biāo)的求解式如下所示:
(23)
因時間限制,僅從某市的統(tǒng)計年鑒數(shù)據(jù)中,選取某一天中12個時段的電能價格、總產(chǎn)值、電力能耗等三種電力統(tǒng)計大數(shù)據(jù)作為實驗對象。為減小數(shù)據(jù)自身所帶來的負(fù)面影響,設(shè)定因變量為電能價格,自變量為總產(chǎn)值與電力能耗,采用最小二乘估計法與數(shù)據(jù)回歸分析法,去除高相關(guān)度與無法解釋因變量的數(shù)據(jù)元素?;谔幚砗蟮慕y(tǒng)計數(shù)據(jù)建立可視化控制仿真模型,模擬本文方法對電能價格、總產(chǎn)值以及電力能耗等三類統(tǒng)計數(shù)據(jù)質(zhì)量的控制情況。在無異常情況的初始數(shù)據(jù)中,各添加5個問題數(shù)據(jù),以檢驗方法控制性能。各數(shù)據(jù)質(zhì)量控制的仿真結(jié)果如圖3所示。
圖3 不同統(tǒng)計數(shù)據(jù)的質(zhì)量控制示意圖
通過對比控制方法應(yīng)用前后的數(shù)據(jù)值走勢情況可以看出,本文方法基于設(shè)計的貝葉斯統(tǒng)計大數(shù)據(jù)質(zhì)量控制算法,在B/S架構(gòu)上結(jié)合地理信息系統(tǒng)技術(shù)與Web端口,可視化交互控制了統(tǒng)計數(shù)據(jù),利用含有六層結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),有效處理與連通了可視化單元各模塊之間的關(guān)系邏輯,使各類別包含的大部分問題數(shù)據(jù)均得以有效去除。
就控制后電能價格、總產(chǎn)值、電力能耗等數(shù)據(jù)的準(zhǔn)確性、實時性、一致性以及完整性等指標(biāo)值,更客觀、更全面地評價演化博弈論、并行處理以及本文方法的數(shù)據(jù)質(zhì)量控制能力。各方法指標(biāo)實驗結(jié)果對比情況如圖4所示。
圖4 各方法評估指標(biāo)比對圖
從三種方法的指標(biāo)值比對結(jié)果可以看出,本文方法的各指標(biāo)值均處于較高水平。這說明該方法在網(wǎng)絡(luò)的非線性映射層前后,分別添加特征縮小網(wǎng)絡(luò)層與擴(kuò)展層,通過六層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的可視化控制,減小了數(shù)據(jù)誤差,故較演化博弈論與并行處理的數(shù)據(jù)質(zhì)量控制方法,賦予數(shù)據(jù)更高的準(zhǔn)確性、一致性、完整性以及實時性,進(jìn)一步提升了數(shù)據(jù)質(zhì)量。
日新月異的信息技術(shù)大力推動著社會上各個領(lǐng)域的信息化建設(shè)進(jìn)程,尤其是電力行業(yè)的智慧電網(wǎng)建設(shè)中,不斷涌現(xiàn)出了大量的智能信息管控系統(tǒng),在實現(xiàn)自動化管理的同時,節(jié)省電力運維成本。大數(shù)據(jù)時代的數(shù)據(jù)產(chǎn)生源頭較多且結(jié)構(gòu)多樣,大規(guī)模的數(shù)據(jù)傳輸、存儲處理,極易發(fā)生數(shù)據(jù)錯誤、缺失、冗余等問題,令數(shù)據(jù)質(zhì)量降低甚至失效,影響科學(xué)、精準(zhǔn)地制定用電決策。因此,針對電力統(tǒng)計大數(shù)據(jù),提出數(shù)據(jù)質(zhì)量的可視化控制方法,及時發(fā)現(xiàn)數(shù)據(jù)問題并予以改善。為更精準(zhǔn)地把控電力運行狀態(tài),增長電力企業(yè)的經(jīng)濟(jì)效益,存在以下幾個方面有待改進(jìn):應(yīng)根據(jù)電力統(tǒng)計大數(shù)據(jù)屬性,建立針對性控制條件,提升可視化控制的綜合性;需采用機(jī)器學(xué)習(xí)等錯誤數(shù)據(jù)修復(fù)技術(shù),更理想地處理問題數(shù)據(jù),增加數(shù)據(jù)質(zhì)量;應(yīng)嘗試采用超高清可視分析技術(shù),強(qiáng)化用戶的可視化控制體驗感。