国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

流計(jì)算與內(nèi)存計(jì)算架構(gòu)下的運(yùn)營(yíng)狀態(tài)監(jiān)測(cè)分析

2017-12-14 05:35:56趙永彬王佳楠
計(jì)算機(jī)應(yīng)用 2017年10期
關(guān)鍵詞:用電量內(nèi)存用電

趙永彬,陳 碩,劉 明,王佳楠,賁 馳

(1.國(guó)網(wǎng)遼寧省電力有限公司 信息通信調(diào)度監(jiān)控中心,沈陽(yáng) 110004; 2.中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168;3.中國(guó)科學(xué)院大學(xué),北京 100049; 4.國(guó)家電網(wǎng)公司 東北電力調(diào)控分中心,沈陽(yáng) 110180) (*通信作者電子郵箱258098970@qq.com)

流計(jì)算與內(nèi)存計(jì)算架構(gòu)下的運(yùn)營(yíng)狀態(tài)監(jiān)測(cè)分析

趙永彬1,陳 碩1*,劉 明1,王佳楠2,3,賁 馳4

(1.國(guó)網(wǎng)遼寧省電力有限公司 信息通信調(diào)度監(jiān)控中心,沈陽(yáng) 110004; 2.中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168;3.中國(guó)科學(xué)院大學(xué),北京 100049; 4.國(guó)家電網(wǎng)公司 東北電力調(diào)控分中心,沈陽(yáng) 110180) (*通信作者電子郵箱258098970@qq.com)

為滿(mǎn)足對(duì)電網(wǎng)實(shí)時(shí)運(yùn)營(yíng)狀態(tài)分析過(guò)程中對(duì)用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)等大規(guī)模實(shí)時(shí)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析處理的需求,實(shí)現(xiàn)對(duì)電網(wǎng)運(yùn)營(yíng)決策提供快速準(zhǔn)確的數(shù)據(jù)分析支持,提出一種流計(jì)算與內(nèi)存計(jì)算相結(jié)合的大規(guī)模數(shù)據(jù)分析處理的系統(tǒng)架構(gòu)。將經(jīng)過(guò)時(shí)間窗劃分的用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行離散傅里葉變換(DFT),實(shí)現(xiàn)對(duì)異常用電行為評(píng)價(jià)指標(biāo)的構(gòu)建;將基于抽樣統(tǒng)計(jì)分析構(gòu)造出的用戶(hù)用電行為特征,采用K-Means聚類(lèi)算法實(shí)現(xiàn)對(duì)用戶(hù)用電行為類(lèi)別的劃分。從實(shí)際業(yè)務(wù)系統(tǒng)中抽取實(shí)驗(yàn)數(shù)據(jù),驗(yàn)證了提出的異常用電行為和用戶(hù)用電分析評(píng)價(jià)指標(biāo)的準(zhǔn)確性。同時(shí),在實(shí)驗(yàn)數(shù)據(jù)集上與傳統(tǒng)的數(shù)據(jù)處理策略進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明流計(jì)算與內(nèi)存計(jì)算相結(jié)合的系統(tǒng)架構(gòu)在大規(guī)模數(shù)據(jù)分析處理方面更具優(yōu)勢(shì)。

流計(jì)算;內(nèi)存計(jì)算;特征構(gòu)建;異常監(jiān)測(cè);行為劃分

0 引言

對(duì)于電網(wǎng)企業(yè)運(yùn)營(yíng)狀態(tài)的描述,通常需要對(duì)企業(yè)的眾多業(yè)務(wù)領(lǐng)域中各維度的數(shù)據(jù)進(jìn)行全流程的監(jiān)測(cè)分析,從而實(shí)時(shí)、精準(zhǔn)地獲得企業(yè)當(dāng)前的業(yè)務(wù)情況[1]?,F(xiàn)如今,電網(wǎng)運(yùn)營(yíng)監(jiān)控中心的建設(shè)正朝著規(guī)模化、集中化、統(tǒng)一化、自動(dòng)化的趨勢(shì)發(fā)展,如何對(duì)包含上千萬(wàn)用戶(hù)的各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)進(jìn)行集成,高效處理分析每小時(shí)產(chǎn)生的多達(dá)上百GB的數(shù)據(jù),成為提高運(yùn)營(yíng)監(jiān)測(cè)水平的關(guān)鍵問(wèn)題。同時(shí),傳統(tǒng)依靠專(zhuān)家經(jīng)驗(yàn)建立起的指標(biāo)型異常監(jiān)測(cè)手段往往不能滿(mǎn)足更為豐富的業(yè)務(wù)場(chǎng)景,因此如何建立準(zhǔn)確可靠的分析預(yù)測(cè)模型,為運(yùn)營(yíng)決策的制定提供可靠的支持,也成為當(dāng)前電網(wǎng)企業(yè)運(yùn)營(yíng)狀態(tài)監(jiān)測(cè)分析的主要研究方向[2]。

當(dāng)前運(yùn)營(yíng)監(jiān)測(cè)系統(tǒng)中所采用的傳統(tǒng)分布式數(shù)據(jù)提取工具和批處理離線數(shù)據(jù)分析平臺(tái)存在實(shí)時(shí)性較差的性能短板[3],已無(wú)法適應(yīng)當(dāng)前實(shí)時(shí)監(jiān)測(cè)分析的業(yè)務(wù)需求。電力能源數(shù)據(jù)分析平臺(tái)的建設(shè),正不斷朝著規(guī)模化、云平臺(tái)化、集成化的趨勢(shì)發(fā)展,其研究方向的重點(diǎn)較多地體現(xiàn)在對(duì)業(yè)務(wù)積累數(shù)據(jù)價(jià)值的挖掘上[4],缺少一種對(duì)實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)進(jìn)行快速分析處理實(shí)現(xiàn)運(yùn)營(yíng)狀態(tài)實(shí)時(shí)監(jiān)控的策略。內(nèi)存計(jì)算框架的普及,進(jìn)一步加速了大規(guī)模數(shù)據(jù)的分析處理[5],但其仍然無(wú)法滿(mǎn)足對(duì)大規(guī)模實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)的分析需求。

考慮到實(shí)際運(yùn)營(yíng)監(jiān)測(cè)過(guò)程中的數(shù)據(jù)規(guī)模與實(shí)時(shí)性需求,本文采用了將STORM分布式流計(jì)算框架[6]與SAP HANA內(nèi)存計(jì)算平臺(tái)[7]相結(jié)合的方式,作為實(shí)時(shí)數(shù)據(jù)監(jiān)測(cè)分析的系統(tǒng)架構(gòu)。并以用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)為例,通過(guò)時(shí)間窗劃分、離散傅里葉變換(Discrete Fourier Transform, DFT)、K-Means聚類(lèi)算法等數(shù)據(jù)分析手段建立起異常用電行為識(shí)別和用戶(hù)用電類(lèi)型分析的分析評(píng)價(jià)模型。最后,基于實(shí)際的電量業(yè)務(wù)數(shù)據(jù),評(píng)價(jià)異常監(jiān)測(cè)與用戶(hù)分析算法的計(jì)算結(jié)果,并比較采用流計(jì)算與內(nèi)存計(jì)算相結(jié)合的系統(tǒng)架構(gòu)相對(duì)于傳統(tǒng)數(shù)據(jù)分析平臺(tái)的性能優(yōu)勢(shì)。

1 異常用電與用戶(hù)特征的評(píng)價(jià)指標(biāo)

在電網(wǎng)企業(yè)運(yùn)營(yíng)狀態(tài)的分析中,根據(jù)用戶(hù)的實(shí)時(shí)用電量數(shù)據(jù),可以針對(duì)用戶(hù)的用電情況建立起全方位的評(píng)價(jià)指標(biāo)。通過(guò)分析用戶(hù)實(shí)時(shí)用電量的波動(dòng)情況,可以對(duì)用戶(hù)的異常用電行為進(jìn)行監(jiān)測(cè)。通過(guò)提取用戶(hù)高峰期用電特征,對(duì)所有用戶(hù)行為進(jìn)行聚類(lèi)分析,即可實(shí)現(xiàn)對(duì)用戶(hù)類(lèi)型的劃分。

1.1 異常用電行為的評(píng)價(jià)指標(biāo)

用戶(hù)的異常用電行為通常根據(jù)其實(shí)時(shí)用電量的波動(dòng)情況進(jìn)行衡量。為實(shí)現(xiàn)對(duì)用戶(hù)異常用電行為的及時(shí)發(fā)現(xiàn)并發(fā)出報(bào)警,在實(shí)際的運(yùn)營(yíng)監(jiān)測(cè)過(guò)程中,需要以較短的分析時(shí)間間隔對(duì)用戶(hù)的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對(duì)用戶(hù)異常用電行為的實(shí)時(shí)監(jiān)測(cè)。

因此,本文選擇以5 min為一個(gè)時(shí)間窗,為避免噪聲數(shù)據(jù)和缺失值的影響,對(duì)每個(gè)用戶(hù)各時(shí)間窗內(nèi)的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行等距抽樣,對(duì)每個(gè)時(shí)間窗內(nèi)保留50個(gè)數(shù)據(jù)點(diǎn)。基于各時(shí)間窗內(nèi)數(shù)據(jù)點(diǎn)的分析計(jì)算結(jié)果,實(shí)現(xiàn)對(duì)每個(gè)用戶(hù)各時(shí)間窗對(duì)應(yīng)時(shí)段用電行為的異常情況進(jìn)行判定。

為實(shí)現(xiàn)對(duì)時(shí)間窗內(nèi)離散數(shù)據(jù)點(diǎn)的波動(dòng)情況進(jìn)行更為準(zhǔn)確直觀的評(píng)價(jià),本文對(duì)時(shí)間窗內(nèi)用戶(hù)實(shí)時(shí)用電量的離散抽樣點(diǎn)進(jìn)行DFT,其具體定義[8]如下:

對(duì)于時(shí)間窗內(nèi)N(0≤n≤N-1)個(gè)實(shí)時(shí)用電量數(shù)據(jù)構(gòu)成的有限長(zhǎng)序列x(n),它的離散傅里葉變換x(k)仍為一個(gè)長(zhǎng)度為N(0≤k≤N-1)的頻域有限長(zhǎng)序列。則有:

(1)

基于DFT的計(jì)算結(jié)果,分別設(shè)置頻率閾值W和比重閾值A(chǔ),計(jì)算所有大于頻率閾值的頻域分量對(duì)應(yīng)的權(quán)重分量在所有分量中的占比,即:

(2)

其中:k為頻域分量wi大于W的分量數(shù);n為所有的頻域分量數(shù);ai為wi所對(duì)應(yīng)的幅值。將計(jì)算結(jié)果與比重閾值A(chǔ)進(jìn)行比較,即可時(shí)間對(duì)異常用電行為的監(jiān)測(cè)。本文將頻域閾值W選置為30π,將比重閾值A(chǔ)置為0.2。

1.2 用戶(hù)用電特征的評(píng)價(jià)指標(biāo)

用戶(hù)用電類(lèi)型的特征向量,可以通過(guò)用電高峰時(shí)段中一個(gè)小時(shí)內(nèi)等距劃分出的多個(gè)時(shí)間段的用電量均值和方差進(jìn)行描述。本文以每?jī)蓚€(gè)時(shí)間窗,即每10 min計(jì)算用戶(hù)實(shí)時(shí)用電量的均值和方差,構(gòu)造如下形式的12維特征向量。

X=[m1,m2,…,m6,v1,v2,…,v6]T

(3)

其中:mk(1≤k≤6)為各時(shí)間段內(nèi)用戶(hù)用電量的均值;vk(1≤k≤6)為各時(shí)間段內(nèi)用戶(hù)用電量的方差。

(4)

其中:n為每個(gè)時(shí)間段內(nèi)的實(shí)時(shí)用電量樣本數(shù),根據(jù)異常用電行為監(jiān)測(cè)過(guò)程中的抽樣結(jié)果,可得n=100。

基于構(gòu)造的用戶(hù)用電行為特征向量,將其代入K-Means聚類(lèi)算法,獲得平方差準(zhǔn)則最小的k個(gè)聚類(lèi)簇,即可劃分出每個(gè)用戶(hù)用電行為所對(duì)應(yīng)的類(lèi)別,其計(jì)算過(guò)程[9]如下:

第1步 設(shè)整體樣本為n,從整體樣本中任意抽取k個(gè)對(duì)象作為初始簇的中心,記為mi(i=1,2,…,k)。

第2步 分別計(jì)算每個(gè)數(shù)據(jù)點(diǎn)p到k個(gè)簇中心的距離d(p,m),即:

d(i,j)=

其中:i=(xi1,xi2,…,xiq)和j=(xj1,xj2,…,xjq)為q維數(shù)據(jù)點(diǎn)。

第3步 找到對(duì)象p的最小距離,將p劃分到與mi相同的簇中。

第4步 將所有的對(duì)象進(jìn)行計(jì)算,根據(jù)每個(gè)新簇內(nèi)的數(shù)據(jù)點(diǎn),計(jì)算出新簇的簇中心。

(6)

其中:mk代表第k個(gè)簇的中心;N代表該簇的數(shù)據(jù)點(diǎn)數(shù)。

第5步 重復(fù)上述計(jì)算過(guò)程,直到每個(gè)聚類(lèi)簇中心位置變化量的平方和小于指定的收斂閾值,停止計(jì)算,獲得最終聚類(lèi)結(jié)果。

2 數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè)分析系統(tǒng)的實(shí)現(xiàn)

對(duì)電網(wǎng)運(yùn)營(yíng)狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè)分析的過(guò)程,通常需要經(jīng)過(guò)包括數(shù)據(jù)的抽取、數(shù)據(jù)的清洗、數(shù)據(jù)的整合、數(shù)據(jù)的實(shí)時(shí)計(jì)算、數(shù)據(jù)的階段性分析、數(shù)據(jù)的展示以及數(shù)據(jù)的存儲(chǔ)在內(nèi)的7個(gè)數(shù)據(jù)處理階段。

2.1 數(shù)據(jù)處理流程與系統(tǒng)架構(gòu)劃分

為滿(mǎn)足對(duì)電網(wǎng)企業(yè)運(yùn)營(yíng)狀態(tài)實(shí)時(shí)監(jiān)測(cè)分析過(guò)程中高實(shí)時(shí)性與大吞吐量的性能要求,本文采用了如圖1所示的流計(jì)算與內(nèi)存計(jì)算技術(shù)相結(jié)合的系統(tǒng)架構(gòu),以滿(mǎn)足電網(wǎng)企業(yè)各業(yè)務(wù)類(lèi)型數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)分析需求。

在使用用戶(hù)的實(shí)時(shí)用電量數(shù)據(jù)實(shí)現(xiàn)對(duì)異常用電行為的監(jiān)測(cè)和用戶(hù)用電行為的分析時(shí),共需要經(jīng)過(guò)以下9個(gè)數(shù)據(jù)處理和分析過(guò)程:

1)將用電量數(shù)據(jù)加入消息隊(duì)列,作為流計(jì)算的數(shù)據(jù)源;

2)針對(duì)噪聲值完成數(shù)據(jù)清洗等預(yù)處理操作;

3)根據(jù)區(qū)域、用電等級(jí)等數(shù)據(jù)特征進(jìn)行數(shù)據(jù)分類(lèi);

4)對(duì)各時(shí)間窗內(nèi)的實(shí)時(shí)用電量記錄進(jìn)行等距抽??;

5)對(duì)抽樣結(jié)果調(diào)用離散傅里葉變換實(shí)現(xiàn)異常監(jiān)測(cè);

6)基于流計(jì)算結(jié)果,構(gòu)造用戶(hù)用電行為的特征向量;

7)調(diào)用K-Means聚類(lèi)算法實(shí)現(xiàn)用電行為的分析;

8)讀取內(nèi)存數(shù)據(jù)庫(kù)中的結(jié)果實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)展示;

9)將監(jiān)測(cè)分析的結(jié)果作為歷史數(shù)據(jù)寫(xiě)入磁盤(pán)。

其中:第2)~4)步的數(shù)據(jù)預(yù)處理過(guò)程由流計(jì)算層實(shí)現(xiàn);第5)~7)步的數(shù)據(jù)分析計(jì)算過(guò)程由內(nèi)存計(jì)算層實(shí)現(xiàn)。

圖1 系統(tǒng)總體架構(gòu)

2.2 基于Kafka并行化數(shù)據(jù)接入

Kafka憑借其基于話題的分布式消息隊(duì)列特性[10]與大多數(shù)分布式流計(jì)算系統(tǒng)均有著良好的性能兼容性。故將其作為數(shù)據(jù)接口層中消息隊(duì)列的實(shí)現(xiàn)方案,用以對(duì)數(shù)據(jù)源進(jìn)行分發(fā)、產(chǎn)生穩(wěn)定的數(shù)據(jù)源。

Kafka將接收到的數(shù)據(jù)根據(jù)其所屬的業(yè)務(wù)系統(tǒng)和對(duì)應(yīng)的業(yè)務(wù)類(lèi)型分發(fā)進(jìn)多個(gè)話題,每個(gè)話題則成為一種類(lèi)型的數(shù)據(jù)源,如定義用戶(hù)實(shí)時(shí)用電量“話題”。話題中的數(shù)據(jù)存儲(chǔ)進(jìn)由如圖2所示的多個(gè)分區(qū)隊(duì)列,為應(yīng)用程序提供并發(fā)讀取每個(gè)分區(qū)隊(duì)列數(shù)據(jù)的方式,以提高數(shù)據(jù)的讀取效率。

圖2 Kafka話題的分區(qū)隊(duì)列邏輯圖

2.3 基于Storm完成數(shù)據(jù)預(yù)處理

憑借其如圖3所示的Master-Worker分布式系統(tǒng)架構(gòu)[11],Storm具備大吞吐量、可擴(kuò)展性、高容錯(cuò)性、高可靠性和易操作性的性能優(yōu)勢(shì),符合大規(guī)模用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)的處理需求,故將其作為流計(jì)算層的實(shí)現(xiàn)方案。

圖3 Storm集群架構(gòu)

Storm將數(shù)據(jù)流處理過(guò)程抽象為如圖4所示的處理邏輯單元組合[12],通過(guò)定義Spout和Bolt分別實(shí)現(xiàn)數(shù)據(jù)流過(guò)程中對(duì)應(yīng)數(shù)據(jù)源操作和各階段數(shù)據(jù)處理操作;同時(shí),配置各處理邏輯單元間的數(shù)據(jù)流向關(guān)系,實(shí)現(xiàn)數(shù)據(jù)處理邏輯的高效復(fù)用,提高數(shù)據(jù)處理效率[13]。

圖4 Storm內(nèi)部處理邏輯圖

整個(gè)數(shù)據(jù)預(yù)處理階段的數(shù)據(jù)操作可劃分為數(shù)據(jù)讀取、數(shù)據(jù)清洗、數(shù)據(jù)分類(lèi)、數(shù)據(jù)抽樣四個(gè)步驟,每個(gè)步驟與其對(duì)應(yīng)的處理邏輯單元數(shù)量如表1所示。

表1 數(shù)據(jù)處理操作及其對(duì)應(yīng)邏輯單元數(shù)

2.4 基于SAP HANA加速數(shù)據(jù)分析

SAP HANA是一款由SAP公司開(kāi)發(fā)的基于內(nèi)存技術(shù)實(shí)現(xiàn)高效數(shù)據(jù)處理的分析平臺(tái)[14],其系統(tǒng)架構(gòu)如圖5所示。其內(nèi)存計(jì)算引擎與內(nèi)存關(guān)系引擎相結(jié)合的架構(gòu)優(yōu)勢(shì)[15],降低了數(shù)據(jù)分析處理過(guò)程中的讀寫(xiě)開(kāi)銷(xiāo),滿(mǎn)足對(duì)數(shù)據(jù)進(jìn)行高效分析計(jì)算的目的,因此將其作為內(nèi)存計(jì)算層的實(shí)現(xiàn)方案。

圖5 內(nèi)存計(jì)算模塊邏輯架構(gòu)

將經(jīng)過(guò)Storm完成數(shù)據(jù)合并、清洗、時(shí)間窗劃分等一系列預(yù)處理操作后,將預(yù)處理后的結(jié)果數(shù)據(jù)加入SAP HANA的內(nèi)存關(guān)系數(shù)據(jù)庫(kù)中,作為后續(xù)分析計(jì)算過(guò)程中的數(shù)據(jù)源。

SAP HANA提供了便捷的數(shù)據(jù)建模方式,在滿(mǎn)足各類(lèi)型數(shù)據(jù)集成需求的同時(shí),為每條數(shù)據(jù)定義處理操作即可實(shí)現(xiàn)DFT計(jì)算和K-Means聚類(lèi)分析等處理過(guò)程。使用其內(nèi)置的預(yù)測(cè)分析算法庫(kù)(Prediction and Analysis Library,PAL)即可實(shí)現(xiàn)對(duì)常用聚類(lèi)分類(lèi)算法的調(diào)用。

2.5 基于內(nèi)存關(guān)系引擎定制存儲(chǔ)模式

SAP HANA的內(nèi)存關(guān)系引擎提供了行式存儲(chǔ)和列式存儲(chǔ)兩種存儲(chǔ)模式。根據(jù)不同類(lèi)型的數(shù)據(jù)對(duì)應(yīng)的讀寫(xiě)需求,選擇合適的存儲(chǔ)模式[16],實(shí)現(xiàn)最優(yōu)的讀寫(xiě)效率。

1)行式存儲(chǔ)。適用于需要讀取數(shù)據(jù)記錄全部字段的數(shù)據(jù)分析操作,同時(shí)基于索引提高數(shù)據(jù)的查詢(xún)效率,用于存儲(chǔ)完成預(yù)處理后進(jìn)行數(shù)據(jù)分析的中間結(jié)果。

2)列式存儲(chǔ)。無(wú)需額外索引,提供較高效率的數(shù)據(jù)壓縮方法,適用于需要分別訪問(wèn)單個(gè)屬性的數(shù)據(jù)記錄,用于存儲(chǔ)提供給展示層的最終結(jié)果。

為實(shí)現(xiàn)高效的分析,完成數(shù)據(jù)預(yù)處理過(guò)程后的待分析數(shù)據(jù)通常選用行式存儲(chǔ)方式。為加快數(shù)據(jù)的查找讀取,對(duì)于數(shù)據(jù)分析結(jié)果則通常采用列式存儲(chǔ)方式。

3 實(shí)驗(yàn)結(jié)果分析與平臺(tái)性能對(duì)比

本文采用的實(shí)驗(yàn)環(huán)境是由包含一個(gè)Nimbus節(jié)點(diǎn)和四個(gè)Supervisor節(jié)點(diǎn)共計(jì)五臺(tái)PC構(gòu)成的Storm集群。每臺(tái)PC均配備Intel Core I5 6500處理器和8 GB內(nèi)存的計(jì)算存儲(chǔ)資源。集群中還部署了Kafka和SAP HANA平臺(tái)。

3.1 異常用電實(shí)時(shí)監(jiān)測(cè)的實(shí)驗(yàn)結(jié)果

本文將某電力公司在2015年6月10日用電高峰時(shí)段中1 000萬(wàn)條用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)按產(chǎn)生時(shí)間順序依次寫(xiě)入Kafka分布式消息隊(duì)列,作為本次實(shí)驗(yàn)的數(shù)據(jù)源;并分別就異常用電行為監(jiān)測(cè)的準(zhǔn)確性和數(shù)據(jù)處理平臺(tái)計(jì)算的實(shí)時(shí)性?xún)蓚€(gè)指標(biāo)進(jìn)行實(shí)驗(yàn)測(cè)試。

異常用電行為實(shí)時(shí)監(jiān)測(cè)的準(zhǔn)確性由準(zhǔn)確率Precision和召回率Recall指標(biāo)衡量,其計(jì)算公式如下:

Precision=TP/(TP+FP)

Recall=TP/(TP+FN)

其中:TP表示識(shí)別為正樣本即異常用電行為的數(shù)據(jù)中識(shí)別正確的數(shù)量;FP表示識(shí)別為正樣本的數(shù)據(jù)中識(shí)別錯(cuò)誤的數(shù)量;FN表示所有識(shí)別為負(fù)樣本的數(shù)據(jù)中標(biāo)注錯(cuò)誤的數(shù)量,即實(shí)際為異常用電行為卻未被識(shí)別的樣本數(shù)量。

將原始數(shù)據(jù)經(jīng)由Storm流計(jì)算系統(tǒng)完成噪聲過(guò)濾、分類(lèi)合并、時(shí)間窗劃分及抽樣等一系列預(yù)處理操作,轉(zhuǎn)換為各用戶(hù)在不同時(shí)間窗內(nèi)的用電量記錄數(shù)據(jù),并在SAP HANA中完成離散傅里葉變換(DFT)及異常用電行為評(píng)價(jià)指標(biāo)的計(jì)算,根據(jù)所設(shè)置的閾值對(duì)異常用電行為進(jìn)行識(shí)別。

結(jié)合電量業(yè)務(wù)系統(tǒng)中已有的異常用電記錄,可以得到對(duì)實(shí)驗(yàn)數(shù)據(jù)集中1 268個(gè)異常用電行為實(shí)時(shí)監(jiān)測(cè)記錄識(shí)別結(jié)果的準(zhǔn)確率Precision=82.7%,召回率Recall=96.8%。實(shí)驗(yàn)結(jié)果表明,本文采用的DFT方法能夠監(jiān)測(cè)出對(duì)絕大多數(shù)異常用電行為,但監(jiān)測(cè)結(jié)果正確率的進(jìn)一步提高還需依靠更精確的特征分析算法和專(zhuān)家運(yùn)營(yíng)決策共同實(shí)現(xiàn)。

通過(guò)統(tǒng)計(jì)表2中各處理策略在處理不同規(guī)模數(shù)據(jù)時(shí)的時(shí)間開(kāi)銷(xiāo),實(shí)現(xiàn)對(duì)異常狀態(tài)監(jiān)控的處理實(shí)時(shí)性進(jìn)行全面比較。實(shí)驗(yàn)分別在不同平臺(tái)架構(gòu)下設(shè)計(jì)了相同功能的處理程序,并以每100萬(wàn)條數(shù)據(jù)為一個(gè)數(shù)據(jù)量梯度,測(cè)試了10個(gè)數(shù)據(jù)量級(jí)下各處理平臺(tái)對(duì)應(yīng)的時(shí)間開(kāi)銷(xiāo)。在每個(gè)數(shù)據(jù)量級(jí)下分別進(jìn)行三次測(cè)試,對(duì)所獲得時(shí)間開(kāi)銷(xiāo)測(cè)試結(jié)果取平均,獲得最終的實(shí)驗(yàn)分析結(jié)果。

表2 數(shù)據(jù)處理平臺(tái)的實(shí)現(xiàn)方式

從圖6所示的實(shí)驗(yàn)結(jié)果可知,將流計(jì)算和內(nèi)存計(jì)算技術(shù)相結(jié)合的系統(tǒng)架構(gòu)既具備了分布式流處理系統(tǒng)高吞吐量的性能優(yōu)勢(shì),也具備了內(nèi)存計(jì)算系統(tǒng)的低讀寫(xiě)開(kāi)銷(xiāo),能夠較好地滿(mǎn)足大規(guī)模數(shù)據(jù)實(shí)時(shí)處理的性能需求。

圖6 各實(shí)現(xiàn)方式的處理耗時(shí)對(duì)比

3.2 用戶(hù)用電行為分析的實(shí)驗(yàn)結(jié)果

基于流計(jì)算過(guò)程中得到的數(shù)據(jù)抽樣結(jié)果,對(duì)每?jī)蓚€(gè)時(shí)間窗內(nèi)的數(shù)據(jù)記錄計(jì)算其均值和方差,構(gòu)成用戶(hù)用電行為的特征向量進(jìn)行K-Means聚類(lèi)分析。其中設(shè)置K-Means算法的類(lèi)別數(shù)K=5,迭代輪次n=1 000,收斂閾值α=1.0。

將K-Means算法所得到的各用戶(hù)類(lèi)型標(biāo)簽與業(yè)務(wù)系統(tǒng)中記錄的用戶(hù)用電等級(jí)進(jìn)行比對(duì)。由表3中所示的比對(duì)結(jié)果可知,由K-Means得到的各類(lèi)別用戶(hù)數(shù)與用戶(hù)實(shí)際用電等級(jí)數(shù)量分布基本相同。

表3 聚類(lèi)標(biāo)注與實(shí)際用電等級(jí)對(duì)比

為驗(yàn)證流計(jì)算和內(nèi)存計(jì)算技術(shù)結(jié)合的系統(tǒng)架構(gòu)對(duì)數(shù)據(jù)分析性能的優(yōu)化情況,將SAP HANA的PAL算法庫(kù)中提供的K-Means算法模型與Hadoop的Mahout算法庫(kù)以及Spark的MLlib算法庫(kù)所提供的K-Means算法模型進(jìn)行性能比較。分別統(tǒng)計(jì)數(shù)據(jù)處理過(guò)程中的計(jì)算時(shí)間占比與讀寫(xiě)時(shí)間占比,并將3次測(cè)試結(jié)果取平均得到如表4所示的結(jié)果。

表4 數(shù)據(jù)分析過(guò)程的算法開(kāi)銷(xiāo) s

由處理性能對(duì)比結(jié)果可知,相對(duì)于Hadoop將中間結(jié)果寫(xiě)入硬盤(pán)的策略,SAP HANA的內(nèi)存計(jì)算引擎顯著降低了數(shù)據(jù)迭代分析過(guò)程的讀寫(xiě)開(kāi)銷(xiāo)。與同為內(nèi)存計(jì)算引擎的Spark計(jì)算框架相比,SAP HANA自帶的內(nèi)存數(shù)據(jù)庫(kù)進(jìn)一步加速了待分析數(shù)據(jù)的讀取過(guò)程。盡管內(nèi)存資源在系統(tǒng)中仍較為寶貴,但SAP HANA等內(nèi)存計(jì)算平臺(tái)更適用于較大規(guī)模數(shù)據(jù)的階段性實(shí)時(shí)迭代分析。

4 結(jié)語(yǔ)

針對(duì)電網(wǎng)企業(yè)運(yùn)營(yíng)狀態(tài)的分析,電量數(shù)據(jù)已成為最為直接有效的特征依據(jù)。兼具高吞吐量與高實(shí)時(shí)性的優(yōu)勢(shì),流計(jì)算與內(nèi)存技術(shù)相結(jié)合已逐漸成為面向企業(yè)大規(guī)模數(shù)據(jù)和高實(shí)時(shí)需求的解決思路。本文基于用戶(hù)實(shí)時(shí)用電量數(shù)據(jù)實(shí)現(xiàn)對(duì)用戶(hù)異常用電的監(jiān)測(cè)以及用電行為的分析,結(jié)合流計(jì)算滿(mǎn)足了數(shù)據(jù)的大規(guī)模實(shí)時(shí)處理的需求,采用內(nèi)存技術(shù)進(jìn)一步提升了系統(tǒng)的計(jì)算性能和讀寫(xiě)效率,為分析和監(jiān)控提供高實(shí)時(shí)性、大吞吐量的性能保證。同時(shí),為電力企業(yè)后續(xù)的大規(guī)模實(shí)時(shí)數(shù)據(jù)分析提供了一種可靠高效的借鑒思路。

References)

[1] 蔡勇.數(shù)據(jù)挖掘技術(shù)在電網(wǎng)運(yùn)營(yíng)監(jiān)控平臺(tái)建設(shè)中的研究與應(yīng)用[D]. 上海: 上海交通大學(xué), 2012: 5-6. (CAI Y. Research and application of data mining technology in grid operational monitoring platform [D]. Shanghai: Shanghai Jiao Tong University, 2012: 5-6.)

[2] 陳云.分布式電力大數(shù)據(jù)計(jì)算分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D]. 成都: 電子科技大學(xué), 2016. (CHEN Y. The design and implementation of the distributed computing and analysis platform for power system [D]. Chengdu: University of Electronic Science and Technology of China, 2016.)

[3] 程學(xué)旗, 靳小龍, 王元卓, 等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014, 25(9): 1889-1908. (CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology [J]. Journal of Software, 2014, 25(9): 1889-1908.)

[4] 李洋, 何寶靈, 劉海濤, 等.面向全球能源互聯(lián)網(wǎng)的分布式電源云服務(wù)與大數(shù)據(jù)分析平臺(tái)研究[J]. 電力信息與通信技術(shù), 2016(3): 30-36. (LI Y, HE B L, LIU H T, et al. Research on distributed generation cloud service and big data analysis platform for global energy interconnection [J]. Electric Power Information and Communication Technology, 2016(3): 30-36.)

[5] 程敏.基于PostgreSQL和Spark的可擴(kuò)展大數(shù)據(jù)分析平臺(tái)[D]. 北京: 中國(guó)科學(xué)院大學(xué), 2016. (CHEN M. Scalable big data analysis platform based on Postgre SQL and Spark [D]. Beijing: University of Chinese Academy of Sciences, 2016.)

[6] Apache Software Foundation. Storm documentation [EB/OL]. [2016- 05- 23]. http://storm.apache.org/releases/1.0.3/index.html.

[7] SAP Corporation. SAP HANA introduction [EB/OL]. [2016- 06- 14]. https://www.sap.com/china/product/technology-platform/hana.html.

[8] 熊元新, 陳允平.離散傅里葉變換的定義研究[J]. 武漢大學(xué)學(xué)報(bào) (工學(xué)版), 2006, 39(1): 89-91. (XIONG Y X, CHEN Y P. Research on definition of discrete Fourier transform [J]. Engineering Journal of Wuhan University, 2006, 39(1): 89-91.)

[9] LIKAS A, VLASSIS N, J. VERBEEK J. The globalk-means clustering algorithm [J]. Pattern Recognition, 2003, 36(2): 451-461.

[10] Apache Software Foundation. Kafka introduction [EB/OL]. [2016- 07- 08]. http://kafka.apache.org/intro.

[11] 王銘坤, 袁少光, 朱永利, 等.基于Storm的海量數(shù)據(jù)實(shí)時(shí)聚類(lèi)[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(11): 3078-3081. (WANG M K, YUAN S G, ZHU Y L, et al. Real-time clustering for massive data using Storm [J]. Journal of Computer Applications, 2014, 34(11): 3078-3081.)

[12] 李一辰, 李緒志, 閻鎮(zhèn).實(shí)時(shí)流計(jì)算在航天地面數(shù)據(jù)處理系統(tǒng)中的應(yīng)用[J]. 微電子學(xué)與計(jì)算機(jī), 2014, 31(9): 15-19. (LI Y C, LI X Z, YAN Z. Real-time stream computing in aerospace system’s data disposing [J]. Microelectronics amp; Computer, 2014, 31(9): 15-19.)

[13] 孫大為, 張廣艷, 鄭緯民.大數(shù)據(jù)流式計(jì)算: 關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J]. 軟件學(xué)報(bào), 2014, 25(4): 839-862. (SUN D W, ZHANG G Y, ZHENG W M. Big data stream computing: technologies and instances [J]. Journal of Software, 2014, 25(4): 839-862.)

[14] 嵇智源, 潘巍.面向大數(shù)據(jù)的內(nèi)存數(shù)據(jù)管理研究現(xiàn)狀與展望[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(10): 3549-3506. (JI Z Y, PAN W. Present research status and prospects of in-memory data management in big data era [J]. Computer Engineering and Design, 2014, 35(10): 3549-3506.)

[15] 黃嵐, 孫珂, 陳曉竹, 等.內(nèi)存集群計(jì)算: 交互式數(shù)據(jù)分析[J]. 華東師范大學(xué)學(xué)報(bào) (自然科學(xué)版), 2014(5): 216-227. (HUANG L, SUN K, CHEN X Z, et al. In-memory cluster computing: Interactive data analysis [J]. Journal of East China Normal University (Natural Science), 2014(5): 216-227.)

[16] 張延松, 王珊, 周烜.內(nèi)存數(shù)據(jù)倉(cāng)庫(kù)集群技術(shù)研究[J]. 華東師范大學(xué)學(xué)報(bào) (自然科學(xué)版), 2014(5): 117-132. (ZHANG Y S, WANG S, ZHOU X. Research on in-memory data warehouse cluster technologies [J]. Journal of East China Normal University (Natural Science), 2014(5): 117-132.)

Monitoringandanalysisofoperationstatusunderarchitectureofstreamcomputingandmemorycomputing

ZHAO Yongbin1, CHEN Shuo1*, LIU Ming1, WANG Jianan2,3, BEN Chi4

(1.Informationamp;TelecommunicationBranch,StateGridLiaoningElectricPowerCompany,ShenyangLiaoning110004,China;2.ShenyangInstituteofComputingTechnology,ChineseAcademyofSciences,ShenyangLiaoning110168,China;3.UniversityofChineseAcademyofSciences,Beijing100049,China;4.ElectricPowerControlNortheastBranchCenter,StateGridCorporationofChina,ShenyangLiaoning110180,China)

In real-time operation state analysis of power grid, in order to meet the requirements of real-time analysis and processing of large-scale real-time data, such as real-time electricity consumption data, and provide fast and accurate data analysis support for power grid operation decision, the system architecture for large-scale data analysis and processing based on stream computing and memory computing was proposed. The Discrete Fourier Transform (DFT) was used to construct abnormal electricity behavior evaluation index based on the real-time electricity consumption data of the users by time window. TheK-Means clustering algorithm was used to classify the users’ electricity behavior based on the characteristics of user electricity behavior constructed by sampling statistical analysis. The accuracy of the proposed evaluation indicators of abnormal behavior and user electricity behavior was verified by the experimental data extracted from the actual business system. At the same time, compared with the traditional data processing strategy, the system architecture combined with stream computing and memory computing has good performance in large-scale data analysis and processing.

stream computing; memory computing; feature construction; anomaly detection; behavior partition

2017- 05- 02;

2017- 07- 11。

遼寧電力公司科技項(xiàng)目(SGLNXT00DKJS1600242)。

趙永彬(1975—),男,遼寧沈陽(yáng)人,高級(jí)工程師,碩士,主要研究方向:智能電網(wǎng)、Web工程、信息集成; 陳碩(1983—),男,遼寧沈陽(yáng)人,高級(jí)工程師,博士,主要研究方向:智能電網(wǎng)、Web工程、信息集成; 劉明(1979—),男,遼寧沈陽(yáng)人,高級(jí)會(huì)計(jì)師,碩士,主要研究方向:電力信息; 王佳楠(1993—),男,河南洛陽(yáng)人,碩士研究生,主要研究方向:智能電網(wǎng)、電網(wǎng)大數(shù)據(jù); 賁馳(1965—),女,遼寧沈陽(yáng)人,高級(jí)工程師,主要研究方向:電量采集與計(jì)費(fèi)統(tǒng)計(jì)。

1001- 9081(2017)10- 3029- 05

10.11772/j.issn.1001- 9081.2017.10.3029

TP39

A

This work is partially supported by the Science and Technology of Liaoning Electric Power Company (SGLNXT00DKJS1600242).

ZHAOYongbin, born in 1975, M. S., senior engineer. His research interests include smart grid, Web engineering, information integration.

CHENShuo, born in 1983, Ph. D., senior engineer. His research interests include smart grid, Web engineering, information integration.

LIUMing, born in 1979, M. S., senior accountant. His research interests include electric power information.

WANGJianan, born in 1993, M. S. candidate. His research interests include smart grid, grid big data.

BENChi, born in 1965, senior engineer. Her research interests include power collection and billing statistics.

猜你喜歡
用電量內(nèi)存用電
用電安全
02 國(guó)家能源局:1~7月全社會(huì)用電量同比增長(zhǎng)3.4%
01 國(guó)家能源局:3月份全社會(huì)用電量同比增長(zhǎng)3.5%
用煤用電用氣保障工作的通知
安全用電知識(shí)多
“春夏秋冬”的內(nèi)存
用電安全要注意
1~10月全社會(huì)用電量累計(jì)56552億千瓦時(shí)同比增長(zhǎng)8.7%
2014年全社會(huì)用電量
基于內(nèi)存的地理信息訪問(wèn)技術(shù)
吴旗县| 广平县| 舟曲县| 武夷山市| 香港 | 禄丰县| 剑河县| 辽源市| 兴业县| 景泰县| 偏关县| 吉首市| 乐亭县| 嘉义县| 冀州市| 金寨县| 广昌县| 金华市| 定南县| 怀安县| 和静县| 临高县| 开封县| 根河市| 镇原县| 新余市| 尉犁县| 余姚市| 独山县| 彰武县| 荥阳市| 江城| 扎兰屯市| 德兴市| 赤水市| 乃东县| 宜川县| 凭祥市| 江西省| 九台市| 洛川县|