面向新型電力系統(tǒng)的電力大數(shù)據(jù)副本管理算法

2022-01-13 14:20丁斌袁博鄭煥坤邢志坤王帆

電測(cè)與儀表 2022年1期

丁斌，袁博，鄭煥坤，邢志坤，王帆

(1.國(guó)網(wǎng)河北省電力有限公司雄安新區(qū)供電公司，河北保定 071700；2.華北電力大學(xué)，河北保定 071000)

0 引言

隨著新型電力系統(tǒng)建設(shè)的不斷加快，源網(wǎng)荷儲(chǔ)負(fù)荷控制類業(yè)務(wù)迅速發(fā)展，用電數(shù)據(jù)信息呈指數(shù)增長(zhǎng)[1-2]，數(shù)據(jù)分析和處理在未來新型電力系統(tǒng)建設(shè)過程中發(fā)揮的作用越來越重要[3-4]。對(duì)于相對(duì)固定的電力基礎(chǔ)設(shè)施[5]，底層網(wǎng)絡(luò)架構(gòu)不能隨意更改，因此，依托現(xiàn)有電力數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)架構(gòu)，滿足未來電力業(yè)務(wù)對(duì)低時(shí)延數(shù)據(jù)處理的需求，對(duì)未來新型電力系統(tǒng)發(fā)展提出了更大的挑戰(zhàn)[6-7]。針對(duì)帶寬和數(shù)據(jù)中心(DC)位置分布受限的問題目前主要采用任務(wù)調(diào)度和數(shù)據(jù)副本管理兩種策略進(jìn)行解決[8]。但由于電力業(yè)務(wù)類型多樣，應(yīng)用場(chǎng)景多元化，數(shù)據(jù)處理差異性大，單純采用任務(wù)調(diào)度進(jìn)行數(shù)據(jù)之間的協(xié)調(diào)處理存在一定的困難，盡管通過數(shù)據(jù)副本管理能夠有效感知底層數(shù)據(jù)業(yè)務(wù)類型，為應(yīng)用程序提供底層支持[9]，但目前大部分采用集中數(shù)據(jù)處理方式，許多電力數(shù)據(jù)應(yīng)用程序由于帶寬不足或延遲較長(zhǎng)而導(dǎo)致效率低下[10-11]。因此，在數(shù)據(jù)并行計(jì)算框架下，基于數(shù)據(jù)中心的位置分布開發(fā)自適應(yīng)存儲(chǔ)管理是解決電力大數(shù)據(jù)處理問題的一種可行的、較好的解決方案。

在分布式數(shù)據(jù)中心，優(yōu)化副本管理是除任務(wù)調(diào)度之外的另一重要解決方案，廣泛應(yīng)用于移動(dòng)網(wǎng)絡(luò)、節(jié)能管理、視頻業(yè)務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域工作，虛擬機(jī)管理[12]。為了解決副本管理中的布局問題，文獻(xiàn)[13]提出了一種基于K-List算法的調(diào)度機(jī)制，在保持低存儲(chǔ)成本的同時(shí)優(yōu)化文本訪問延遲。文獻(xiàn)[14]提出了一種基于拓?fù)涓兄膯l(fā)式算法，通過分析研究和實(shí)驗(yàn)來識(shí)別DCs中MapReduce的性能問題，并構(gòu)建了一種最優(yōu)副本數(shù)據(jù)管理方案，最小化數(shù)據(jù)訪問成本。文獻(xiàn)[15]提出了一種核奇異值分解稀疏算法，以提高電力行業(yè)智能電能表數(shù)據(jù)壓縮比和分類精度，降低數(shù)據(jù)存儲(chǔ)容量。文獻(xiàn)[16]基于多線程和最大流量，提出了一種處理異構(gòu)存儲(chǔ)架構(gòu)的最優(yōu)副本選擇算法，并與黑箱方式下的最大流量算法進(jìn)行了比較，降低大量不必要的流計(jì)算，實(shí)現(xiàn)了更少的響應(yīng)延遲。為了減少數(shù)據(jù)可用時(shí)間和數(shù)據(jù)訪問時(shí)間，文獻(xiàn)[17]開發(fā)了復(fù)制算法，該算法使用多個(gè)標(biāo)準(zhǔn)對(duì)副本的選擇和放置進(jìn)行決策。該算法考慮了多個(gè)參數(shù)，如存儲(chǔ)容量、帶寬和分布式站點(diǎn)的通信成本。

然而，上述這些研究大多集中在通用領(lǐng)域的數(shù)據(jù)優(yōu)化上，針對(duì)分布式電力大數(shù)據(jù)系統(tǒng)的存儲(chǔ)優(yōu)化管理研究較少，無(wú)法有效地應(yīng)用電力大數(shù)據(jù)存儲(chǔ)。對(duì)此，提出了一種基于隨機(jī)配置網(wǎng)絡(luò)(Stochastic Configuration Network，SCN)的自適應(yīng)副本管理系統(tǒng)(Prediction-based Adaptive Replica Management System，PARMS)充分考慮網(wǎng)絡(luò)流量和數(shù)據(jù)中心(Data Center，DC)的地理分布，構(gòu)建電力大數(shù)據(jù)自適應(yīng)副本管理模型。同時(shí)，提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測(cè)方法，有效完成數(shù)據(jù)庫(kù)網(wǎng)絡(luò)資源的實(shí)時(shí)評(píng)估。為有效提升電力大數(shù)據(jù)副本管理效率降低數(shù)據(jù)處理延時(shí)，提出了一種面向新型電力系統(tǒng)的數(shù)據(jù)存儲(chǔ)和選擇的副本管理算法，實(shí)現(xiàn)電力大數(shù)據(jù)副本的靈活存儲(chǔ)和最優(yōu)選擇。最后，在相應(yīng)省公司開展試點(diǎn)驗(yàn)證，該算法能夠有效地處理電力大數(shù)據(jù)存儲(chǔ)，降低數(shù)據(jù)處理延時(shí)。

1 基于隨機(jī)配置網(wǎng)絡(luò)的電力大數(shù)據(jù)自適應(yīng)副本管理系統(tǒng)

電力大數(shù)據(jù)處理中心采用標(biāo)準(zhǔn)的分層結(jié)構(gòu)，遵循嚴(yán)格的數(shù)據(jù)分層，各數(shù)據(jù)中心通過專用高速數(shù)據(jù)鏈路進(jìn)行連接。數(shù)據(jù)計(jì)算和資源存儲(chǔ)的異構(gòu)性導(dǎo)致各數(shù)據(jù)中心之間的網(wǎng)絡(luò)拓?fù)浜蛶捪鄬?duì)穩(wěn)定。大功率數(shù)據(jù)處理任務(wù)對(duì)數(shù)據(jù)中心(Data Center，DC)的計(jì)算和存儲(chǔ)容量提出更大的挑戰(zhàn)，大量不同容量的設(shè)備不斷部署到中心，導(dǎo)致計(jì)算或存儲(chǔ)服務(wù)器的性能存在明顯的異構(gòu)性。為了在相對(duì)固定的分布式數(shù)據(jù)中心上實(shí)現(xiàn)電力大數(shù)據(jù)的低延遲處理，提出了一種基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型，如圖1所示。集群中的跟蹤守護(hù)進(jìn)程和線程監(jiān)視系統(tǒng)為GaExUnit收集運(yùn)行信息；GaExUnit對(duì)日志進(jìn)行再處理，轉(zhuǎn)發(fā)給智能分析系統(tǒng)進(jìn)行分析。根據(jù)智能分析系統(tǒng)的輸出，GaExUnit中的副本管理組件運(yùn)行算法來優(yōu)化副本的放置和選擇，而優(yōu)化器執(zhí)行最優(yōu)指令。

圖1 基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型Fig.1 An adaptive replica management model based on randomly configured network

2 基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測(cè)模型

為有效應(yīng)對(duì)大量不同類型底層終端電力設(shè)備接入，對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量的沖擊、降低副本管理負(fù)擔(dān)，提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測(cè)模型，基于網(wǎng)絡(luò)容量對(duì)底層設(shè)備進(jìn)行分類，為副本和系統(tǒng)管理提供底層設(shè)備流量數(shù)據(jù)指標(biāo)，同時(shí)依托深度學(xué)習(xí)模型和計(jì)算任務(wù)的應(yīng)用信息，采用網(wǎng)絡(luò)流量負(fù)載預(yù)測(cè)框架為副本管理提供近期可能的網(wǎng)絡(luò)流量[18-19]。

2.1 基于C-means聚類的底層設(shè)備分類

針對(duì)計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器的異構(gòu)性能所導(dǎo)致的可擴(kuò)展性問題，采用基于模糊C-means的聚類算法將計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器劃分為不同的邏輯組。

電力大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)可以簡(jiǎn)單地描述為一個(gè)有向圖G=(V,E)，其中頂點(diǎn)集合V=CN∪SN，CN={cn1,...,cni,...,cnnc}表示計(jì)算節(jié)點(diǎn)，SN={sn1,...,sni,...,snnc}表示數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)(也稱數(shù)據(jù)節(jié)點(diǎn))，E表示節(jié)點(diǎn)之間的傳輸網(wǎng)絡(luò)鏈路。假設(shè)系統(tǒng)中有n個(gè)計(jì)算節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)具有決定節(jié)點(diǎn)CPU速度、IPOS性能的屬性。pfi,k(1≤k≤np,k∈N)為第i個(gè)節(jié)點(diǎn)的第k個(gè)屬性。因此，第i個(gè)節(jié)點(diǎn)的所有屬性都可以表示為一個(gè)向量。

PFi=(λ1pfi,1,...,λkpfi,k,...,λppfi,np),PFi∈Rnp

(1)

式中λ是第j個(gè)屬性的系數(shù)，它將屬性值的各個(gè)范圍歸一化為0～1。

將n個(gè)計(jì)算節(jié)點(diǎn)或存儲(chǔ)節(jié)點(diǎn)的所有屬性疊加，得到一個(gè)矩陣：

PF=(λkpfi,k),PFi∈Rnp

(2)

PF作為聚類算法的輸入。它的輸出是：

(3)

式中LCT或LST的下標(biāo)表示節(jié)點(diǎn)集群，表示節(jié)點(diǎn)集群處理數(shù)據(jù)的能力。

2.2 基于SCN的網(wǎng)絡(luò)流量預(yù)測(cè)模型

近年來，一些研究人員在基于數(shù)據(jù)并行計(jì)算的大數(shù)據(jù)處理系統(tǒng)中，采用應(yīng)用級(jí)數(shù)據(jù)訪問模式進(jìn)行流量預(yù)測(cè)，取得了比傳統(tǒng)預(yù)測(cè)算法更好的性能，與其他大數(shù)據(jù)處理平臺(tái)相比，DC架構(gòu)、數(shù)據(jù)采集方式以及電力大數(shù)據(jù)處理任務(wù)的執(zhí)行得到有效規(guī)范。對(duì)此提出了一種基于SCN的網(wǎng)絡(luò)流量預(yù)測(cè)模型，預(yù)測(cè)未來一段時(shí)間內(nèi)的網(wǎng)絡(luò)流量，如圖2所示。

該模型主要由以下三部分組成：

(1)基于操作員執(zhí)行時(shí)間擬合的SCN模型；

(2)從數(shù)據(jù)并行計(jì)算應(yīng)用中提取DAG信息并計(jì)算出每個(gè)階段的流量大??；

(3)對(duì)作業(yè)執(zhí)行日志的時(shí)間序列分析，以找出作業(yè)執(zhí)行順序的某些模式。

圖2 網(wǎng)絡(luò)流量預(yù)測(cè)模型Fig.2 Network traffic prediction model

定義1:任務(wù)描述符，工作節(jié)點(diǎn)執(zhí)行的計(jì)算任務(wù)的描述符，記為：

TRC=〈IS,DT,Pri,WCID,JCID,CPU,Mem,OP〉

(4)

式中IS為整數(shù)表示的輸入大小計(jì)算任務(wù);DT為 CSG收集的數(shù)據(jù)的類型分類;Pri為調(diào)度因子,用于計(jì)算資源分配的CPU和Mem調(diào)度器;WCID為聚類算法的聚類數(shù)目;JCID為一個(gè)計(jì)算任務(wù)是處理器密集型、內(nèi)存密集型還是輸入輸出(I/O)密集型；OP為數(shù)據(jù)的操作符號(hào)。

定義2:任務(wù)事件，操作符的描述符和需處理的數(shù)據(jù)量，記為enk。與 DCFs作為事件提供的運(yùn)營(yíng)商相關(guān)的事件ε={enk}的集合，k=1,…,ne。enk可以由元組{OP,IS}表示，元組由操作符OP和輸入數(shù)據(jù)IS的大小組成。在任務(wù)處理過程中一次運(yùn)行的任務(wù)事件的狀態(tài)為RTE(EN)，其中EN由任務(wù)事件組成，其持續(xù)時(shí)間表示為EN={(enk,tk)}。特別是，當(dāng)任務(wù)事件完成時(shí)，tk值為零或?yàn)榭?。在時(shí)間t工作節(jié)點(diǎn)cni的狀態(tài)可以表示為:

Si,t=RTE(i，(enk,tk,i),…,(ennc,tnc,i))

(5)

式中變量值在一段時(shí)間內(nèi)的變化情況計(jì)算如下：

ΔSi,Δt=(Si,tΘSi,t‘),t=(RTE(i,(en1,Δti,1),…,(enne,Δti,ne)))

(6)

式中 Δt表示完成任務(wù)事件的剩余時(shí)間。

根據(jù)上述定義和公式，我們現(xiàn)在介紹基于SCN的擬合模型。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法或其他深度學(xué)習(xí)模型相比，SCN在實(shí)現(xiàn)可靠預(yù)測(cè)結(jié)果的同時(shí)，對(duì)系統(tǒng)引入的開銷很小，系統(tǒng)輸入和輸出模型可近似表示為：

Xi,t=(t,TE,ΔSi,ΔT),Yi,t=tTE

(7)

作為我們預(yù)測(cè)框架的第二部分。除了為擬合模型提供操作日志，它還輸出一個(gè)三元組(源、目標(biāo)、流量大小)?；谶@些信息，使用SCN模型來預(yù)測(cè)流量接入網(wǎng)絡(luò)的時(shí)間。為了挖掘電力行業(yè)中的某些潛在的周期性，我們采用簡(jiǎn)單但高效的序列模式挖掘算法，作為網(wǎng)絡(luò)流量預(yù)測(cè)框架的第三部分。

3 面向新型電力系統(tǒng)的電力大數(shù)據(jù)存儲(chǔ)的副本管理算法

作為云存儲(chǔ)軟件系統(tǒng)的重要組成部分，副本管理技術(shù)在提高并發(fā)訪問、數(shù)據(jù)的可靠性和可用性方面發(fā)揮著非常重要的作用。副本管理包括副本生成、副本刪除、副本存儲(chǔ)和副本選擇[20]，由于副本的存儲(chǔ)方式和管理策略對(duì)于未來新型電力系統(tǒng)大數(shù)據(jù)存儲(chǔ)產(chǎn)生的影響相對(duì)較大，對(duì)此文中著重對(duì)這兩部分進(jìn)行研究，并給出了對(duì)應(yīng)的算法。

3.1 基于電力大數(shù)據(jù)的動(dòng)態(tài)副本存儲(chǔ)算法

在電力大數(shù)據(jù)系統(tǒng)中，相對(duì)固定的分布式控制系統(tǒng)之間的數(shù)據(jù)并行計(jì)算存在一些潛在模式或一定的周期性[21-22]。不同應(yīng)用程序的數(shù)據(jù)訪問頻率差異性較大，導(dǎo)致數(shù)據(jù)塊的冷熱程度不同。因此，我們需要通過考慮副本因素和存儲(chǔ)位置，針對(duì)副本存儲(chǔ)以及如何選擇副本做出最佳決策。

具有相同訪問頻率的數(shù)據(jù)塊可能具有不同的流行度，并根據(jù)不同的計(jì)算任務(wù)而變化。每個(gè)數(shù)據(jù)塊及其副本都與記錄其訪問流行度的時(shí)間戳隊(duì)列相關(guān)聯(lián)。數(shù)據(jù)塊流行度可表示為：

(8)

式中heatt+1(bi)為數(shù)據(jù)塊bi在時(shí)刻t+1訪問流行度的更新值；衰減函數(shù)log2(eλ(Tt+1-Tt))-2表示副本的訪問流行度隨時(shí)間的變化，冷卻系數(shù)λ、k和f與k∈(0,1)和f∈(-1,1)的系數(shù)一致；Rt為在時(shí)刻t的訪問次數(shù)；Ft為從SEQS開始的一段時(shí)間內(nèi)I/O事件的預(yù)測(cè)序列中可能出現(xiàn)的訪問次數(shù)；Z為歸一化因子。

通過使用最大似然估計(jì)，訪問因子被分配給SEQS的歷史日志中的每個(gè)數(shù)據(jù)塊。訪問因子和流行度之間的關(guān)系可表示為：

(9)

式中Rep(bi)為數(shù)據(jù)塊bi的訪問因子；heatT(bi)為bi在T時(shí)刻的訪問流行度；網(wǎng)絡(luò)數(shù)據(jù)塊評(píng)估參數(shù)θ∈Θ可表示為：

(10)

基于上述研究的網(wǎng)絡(luò)流量預(yù)測(cè)模型和數(shù)據(jù)塊流行度，提出了一種動(dòng)態(tài)副本存儲(chǔ)算法，通過優(yōu)化分布式控制系統(tǒng)之間的網(wǎng)絡(luò)傳輸來提高系統(tǒng)吞吐量和數(shù)據(jù)傳輸速率，具體算法流程如圖3所示。

圖3 基于電力大數(shù)據(jù)的動(dòng)態(tài)副本存儲(chǔ)算法Fig.3 Dynamic replica storage algorithm based on power big data

3.2 面向電力大數(shù)據(jù)云存儲(chǔ)的副本選擇算法

在副本存儲(chǔ)之后，選擇最佳副本滿足數(shù)據(jù)處理需求的實(shí)時(shí)性，面對(duì)不同的應(yīng)用場(chǎng)景是一個(gè)具有挑戰(zhàn)性的問題。為了衡量副本的可維護(hù)性，我們選擇了三個(gè)重要指標(biāo)：響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載和可靠性。根據(jù)給定計(jì)算任務(wù)的數(shù)據(jù)訪問的服務(wù)質(zhì)量(QoS)要求進(jìn)行加權(quán)，即：w=(w1,w2,w3)w1+w2+w3=1(0

(1)選擇矩陣:副本選擇的可能性，表示為PM。假設(shè)給定計(jì)算任務(wù)的n個(gè)計(jì)算節(jié)點(diǎn)請(qǐng)求集合RC={rc1,rc2,...,rcnrs}和m個(gè)數(shù)據(jù)節(jié)點(diǎn)將副本保存為數(shù)據(jù)集RS={rs1,rs2,...,rsnrs}。n個(gè)計(jì)算節(jié)點(diǎn)的PM和m個(gè)數(shù)據(jù)塊副本可表示為：

PM=RCtRS=(pmi,j)nrc×nrs

(11)

式中pmi,j=1表示計(jì)算節(jié)點(diǎn)rci通過數(shù)據(jù)節(jié)點(diǎn)j請(qǐng)求副本rsj，pmi,j=0表示不請(qǐng)求副本訪問(1≤i≤nrc,1≤j≤nrs)。

(2)響應(yīng)時(shí)間QoS1:節(jié)點(diǎn)間數(shù)據(jù)傳輸?shù)男阅苤饕晒?jié)點(diǎn)間網(wǎng)絡(luò)傳輸容量決定。vi,j主要受整個(gè)NT的網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運(yùn)行狀態(tài)以及存儲(chǔ)服務(wù)器L的IPOS影響，具體表達(dá)式如下：

(12)

式中a′,β′和γ′分別為NT網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運(yùn)行狀態(tài)和存儲(chǔ)服務(wù)器L的IPOS對(duì)應(yīng)的影響因子。

因此響應(yīng)時(shí)間的指標(biāo)矩陣可以表示為：

QoS1←(vi,j)

(13)

(3)網(wǎng)絡(luò)流量負(fù)載QoS2:節(jié)點(diǎn)間的網(wǎng)絡(luò)流量負(fù)載也是副本選擇的一個(gè)重要因素。nli,j是網(wǎng)絡(luò)流量負(fù)載評(píng)估指標(biāo)，由當(dāng)前網(wǎng)絡(luò)流量負(fù)載 (KNL)和擬合模型fτ預(yù)測(cè)的未來網(wǎng)絡(luò)流量負(fù)載荷(FNL)決定：

(14)

式中μ(0≤μ≤1)網(wǎng)絡(luò)流量負(fù)載系數(shù)，是通過檢查歷史數(shù)據(jù)設(shè)置的。因此，網(wǎng)絡(luò)流量負(fù)載指標(biāo)評(píng)估矩陣QoS2如下：

QoS2=(nli,j)nrc×nrs

(15)

(16)

因此，可靠性的指標(biāo)評(píng)估矩陣QoS3可表示為：

(17)

(5)目標(biāo)函數(shù)的構(gòu)建:不同的PMnrc×nrs值，具有的不同副本選擇可能性?；诟北具x擇矩陣PMnrc×nrs和響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載、可靠性的指標(biāo)評(píng)估矩陣QoS1、QoS2、QoS3構(gòu)建對(duì)應(yīng)的目標(biāo)函數(shù)F1、F2、F3，具體表達(dá)形式如下：

(18)

式中e是全1的向量，PM等價(jià)于PMnrc×nrs，F(xiàn)1(PM)、F2(PM)和F3(PM)分別為基于PMnrc×nrs的QoS1、QoS2和QoS3的值。

當(dāng)PM一定時(shí)，每個(gè)目標(biāo)函數(shù)達(dá)到最優(yōu)時(shí)為最佳副本選擇策略。同時(shí)，基于不同的應(yīng)用場(chǎng)景可設(shè)置對(duì)應(yīng)的響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載和可靠性的指標(biāo)權(quán)重wi(i=1,2,3)。從而構(gòu)建副本選擇的總體目標(biāo)函數(shù)。

F(PM)=F1(w1⊙PM)+F2(w2⊙PM)+

F3(w3⊙PM)

(19)

這里有W=(wi,j)nrc×3，wj=(wi,j)nrc×1,(j=1,2,3)。因此，副本選擇策略的最優(yōu)解決方案是找到使目標(biāo)函數(shù)F(PM)最大的最優(yōu)副本選擇矩陣PMoptimal，為解決上述問題，提出了一種面向電力大數(shù)據(jù)云存儲(chǔ)的副本選擇算法，具體流程如圖4所示。

圖4 面向電力大數(shù)據(jù)云存儲(chǔ)的副本選擇算法Fig.4 Replica selection algorithm orienting power big data cloud storage

4 仿真結(jié)果

為了驗(yàn)證所提的電力大數(shù)據(jù)副本管理策略的性能優(yōu)勢(shì)，選擇某電力公司的數(shù)據(jù)平臺(tái)進(jìn)行仿真實(shí)驗(yàn)，首先基于實(shí)驗(yàn)環(huán)境設(shè)置仿真參數(shù)，然后，對(duì)所提出的整體電力大數(shù)據(jù)副本管理系統(tǒng)(PARMS)進(jìn)行仿真，驗(yàn)證其在提高數(shù)據(jù)副本管理效率方面的優(yōu)勢(shì)，之后，分別對(duì)分布管理系統(tǒng)中所提出的動(dòng)態(tài)副本存儲(chǔ)算法和選擇算法進(jìn)行仿真，驗(yàn)證其性能優(yōu)勢(shì)。

4.1 仿真參數(shù)設(shè)置

基于分布式電力大數(shù)據(jù)處理系統(tǒng)進(jìn)行算法仿真。采用通用的延遲感知任務(wù)調(diào)度策略[23-25]來跨地區(qū)的分布式控制系統(tǒng)調(diào)度數(shù)據(jù)并行計(jì)算任務(wù)。表1為仿真過程中地理分散的分布式控制系統(tǒng)節(jié)點(diǎn)之間的可用帶寬,其中，L1為總部，L2為省分公司，L3為市分公司。

表1 分布式控制中心可用帶寬Tab.1 Available bandwidth of distributed control center

仿真過程中的數(shù)據(jù)中心的處理任務(wù)主要包括實(shí)時(shí)線損計(jì)算、用戶用電行為分析、用電異常監(jiān)測(cè)報(bào)警等電力大數(shù)據(jù)系統(tǒng)中的常規(guī)任務(wù)或數(shù)據(jù)挖掘程序。實(shí)驗(yàn)平臺(tái)用于計(jì)算任務(wù)的數(shù)據(jù)量約為550 G，來自電力大數(shù)據(jù)系統(tǒng)中不同地理分布的云系統(tǒng)，一些開放數(shù)據(jù)集也被引入PARMS系統(tǒng)進(jìn)行測(cè)試，如表2所示。

表2 地理分布任務(wù)分配Tab.2 Geographical distribution of tasks

4.2 副本管理策略性能評(píng)估

實(shí)驗(yàn)評(píng)估了通過所提出的副本管理策略減少的地理分布式控制系統(tǒng)上的讀取延遲。圖5為不同副本管理策略的數(shù)讀取時(shí)間。從節(jié)點(diǎn)間延遲的測(cè)量數(shù)據(jù)來看，所提的動(dòng)態(tài)副本處理策略(PARMS)明顯優(yōu)于傳統(tǒng)固定動(dòng)態(tài)分配方式(PARMS-hdfs)以及沒有進(jìn)行副本處理的方式(PARMS-N)。同時(shí)我們的副本管理策略實(shí)現(xiàn)了更好的性能，盡管讀取時(shí)間仍以線性速率增長(zhǎng)。然而，這對(duì)于數(shù)據(jù)傳輸是不可避免的，因?yàn)樗艿骄W(wǎng)絡(luò)帶寬和磁盤傳輸速率的限制?？傮w而言，我們的算法在地理分布的分布式控制系統(tǒng)中的數(shù)據(jù)訪問方面取得了明顯的效果，更適用于跨區(qū)域分散的分布式控制系統(tǒng)進(jìn)行電力大數(shù)據(jù)處理。

圖5 三種副本管理策略的不同大小數(shù)據(jù)的讀取時(shí)間分析Fig.5 Reading time of different size data of three replica management strategies

利用網(wǎng)絡(luò)流量的預(yù)測(cè)信息，PARMS可以優(yōu)化副本的放置和選擇，以提高效率。圖6為地理分布的分布式控制系統(tǒng)中任務(wù)完成時(shí)間。這表明與其他系統(tǒng)相比，所提出的副本管理系統(tǒng)更能處理電力大數(shù)據(jù)，使用PARMS進(jìn)行優(yōu)化后，作業(yè)完成時(shí)間減少了11.82%～12.56%。

圖6 不同副本管理策略下系統(tǒng)內(nèi)三種任務(wù)的平均完成時(shí)間Fig.6 Average completion time of the three tasks in the system under different replica management strategies

4.3 動(dòng)態(tài)副本存儲(chǔ)算法性能評(píng)估

這部分旨在通過使用副本存儲(chǔ)策略和數(shù)據(jù)節(jié)點(diǎn)分類來評(píng)估分布式計(jì)算任務(wù)的執(zhí)行結(jié)果。通過任務(wù)平均執(zhí)行時(shí)間對(duì)仿真結(jié)果進(jìn)行評(píng)估。在實(shí)驗(yàn)中，數(shù)據(jù)節(jié)點(diǎn)被分為三個(gè)邏輯存儲(chǔ)區(qū)域，LST1、LST2和LST3(下標(biāo)值越小，其關(guān)聯(lián)節(jié)點(diǎn)的性能越好)。如圖7所示，所提出的動(dòng)態(tài)副本存儲(chǔ)策略比固定副本策略執(zhí)行作業(yè)的花費(fèi)的平均運(yùn)行時(shí)間要少。

圖7 不同副本存儲(chǔ)策略任務(wù)處理時(shí)延對(duì)比Fig.7 Comparison of task processing latency with different replica placement strategies

4.4 副本選擇算法性能評(píng)估

該實(shí)驗(yàn)驗(yàn)證了副本選擇策略是否能夠滿足跨地理分布式 DC之間數(shù)據(jù)處理的多樣性數(shù)據(jù)訪問需求，分析了算法在系統(tǒng)運(yùn)行時(shí)間內(nèi)各時(shí)間段的網(wǎng)絡(luò)資源利用的波動(dòng)情況，數(shù)據(jù)庫(kù)默認(rèn)的副本選擇策略表示為df-RS，相關(guān)基于QoS的策略表示為mr-QoS，文中提出的基于QoS的策略表示為QoS-RS。如圖8所示。顯然QoS-RS比df-RS和mr-QoS具有更好的網(wǎng)絡(luò)利用率。

圖8 副本選擇策略的性能Fig.8 Performance of replica selection strategy

5 結(jié)束語(yǔ)

隨著新型電力系統(tǒng)的快速發(fā)展，電力大數(shù)據(jù)的實(shí)時(shí)處理變得越來越重要。為了在有限帶寬和相對(duì)固定的底層基礎(chǔ)設(shè)施條件下實(shí)現(xiàn)低延遲處理，文中設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于地理分布的電力大數(shù)據(jù)存儲(chǔ)的自適應(yīng)副本管理系統(tǒng)PARMS。設(shè)計(jì)了高效的副本管理方法來優(yōu)化副本的放置和選擇。在CSG的電力公司平臺(tái)上進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，所述的副本管理策略能夠在一定程度上解決網(wǎng)絡(luò)傳輸瓶頸，提高分布式電力大數(shù)據(jù)系統(tǒng)的計(jì)算吞吐量。使用PARMS時(shí)，地理分布的分布式控制系統(tǒng)的作業(yè)完成時(shí)間平均減少了12.19%。未來的工作將為PARMS開發(fā)自適應(yīng)副本生成和刪除機(jī)制，并進(jìn)一步將副本管理策略與地理分布任務(wù)調(diào)度相結(jié)合。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡