丁斌,袁博,鄭煥坤,邢志坤,王帆
(1.國(guó)網(wǎng)河北省電力有限公司雄安新區(qū)供電公司,河北 保定 071700;2.華北電力大學(xué),河北 保定 071000)
隨著新型電力系統(tǒng)建設(shè)的不斷加快,源網(wǎng)荷儲(chǔ)負(fù)荷控制類業(yè)務(wù)迅速發(fā)展,用電數(shù)據(jù)信息呈指數(shù)增長(zhǎng)[1-2],數(shù)據(jù)分析和處理在未來新型電力系統(tǒng)建設(shè)過程中發(fā)揮的作用越來越重要[3-4]。對(duì)于相對(duì)固定的電力基礎(chǔ)設(shè)施[5],底層網(wǎng)絡(luò)架構(gòu)不能隨意更改,因此,依托現(xiàn)有電力數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò)架構(gòu),滿足未來電力業(yè)務(wù)對(duì)低時(shí)延數(shù)據(jù)處理的需求,對(duì)未來新型電力系統(tǒng)發(fā)展提出了更大的挑戰(zhàn)[6-7]。針對(duì)帶寬和數(shù)據(jù)中心(DC)位置分布受限的問題目前主要采用任務(wù)調(diào)度和數(shù)據(jù)副本管理兩種策略進(jìn)行解決[8]。但由于電力業(yè)務(wù)類型多樣,應(yīng)用場(chǎng)景多元化,數(shù)據(jù)處理差異性大,單純采用任務(wù)調(diào)度進(jìn)行數(shù)據(jù)之間的協(xié)調(diào)處理存在一定的困難,盡管通過數(shù)據(jù)副本管理能夠有效感知底層數(shù)據(jù)業(yè)務(wù)類型,為應(yīng)用程序提供底層支持[9],但目前大部分采用集中數(shù)據(jù)處理方式,許多電力數(shù)據(jù)應(yīng)用程序由于帶寬不足或延遲較長(zhǎng)而導(dǎo)致效率低下[10-11]。因此,在數(shù)據(jù)并行計(jì)算框架下,基于數(shù)據(jù)中心的位置分布開發(fā)自適應(yīng)存儲(chǔ)管理是解決電力大數(shù)據(jù)處理問題的一種可行的、較好的解決方案。
在分布式數(shù)據(jù)中心,優(yōu)化副本管理是除任務(wù)調(diào)度之外的另一重要解決方案,廣泛應(yīng)用于移動(dòng)網(wǎng)絡(luò)、節(jié)能管理、視頻業(yè)務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域工作,虛擬機(jī)管理[12]。為了解決副本管理中的布局問題,文獻(xiàn)[13]提出了一種基于K-List算法的調(diào)度機(jī)制,在保持低存儲(chǔ)成本的同時(shí)優(yōu)化文本訪問延遲。文獻(xiàn)[14]提出了一種基于拓?fù)涓兄膯l(fā)式算法,通過分析研究和實(shí)驗(yàn)來識(shí)別DCs中MapReduce的性能問題,并構(gòu)建了一種最優(yōu)副本數(shù)據(jù)管理方案,最小化數(shù)據(jù)訪問成本。文獻(xiàn)[15]提出了一種核奇異值分解稀疏算法,以提高電力行業(yè)智能電能表數(shù)據(jù)壓縮比和分類精度,降低數(shù)據(jù)存儲(chǔ)容量。文獻(xiàn)[16]基于多線程和最大流量,提出了一種處理異構(gòu)存儲(chǔ)架構(gòu)的最優(yōu)副本選擇算法,并與黑箱方式下的最大流量算法進(jìn)行了比較,降低大量不必要的流計(jì)算,實(shí)現(xiàn)了更少的響應(yīng)延遲。為了減少數(shù)據(jù)可用時(shí)間和數(shù)據(jù)訪問時(shí)間,文獻(xiàn)[17]開發(fā)了復(fù)制算法,該算法使用多個(gè)標(biāo)準(zhǔn)對(duì)副本的選擇和放置進(jìn)行決策。該算法考慮了多個(gè)參數(shù),如存儲(chǔ)容量、帶寬和分布式站點(diǎn)的通信成本。
然而,上述這些研究大多集中在通用領(lǐng)域的數(shù)據(jù)優(yōu)化上,針對(duì)分布式電力大數(shù)據(jù)系統(tǒng)的存儲(chǔ)優(yōu)化管理研究較少,無(wú)法有效地應(yīng)用電力大數(shù)據(jù)存儲(chǔ)。對(duì)此,提出了一種基于隨機(jī)配置網(wǎng)絡(luò)(Stochastic Configuration Network,SCN)的自適應(yīng)副本管理系統(tǒng)(Prediction-based Adaptive Replica Management System,PARMS)充分考慮網(wǎng)絡(luò)流量和數(shù)據(jù)中心(Data Center,DC)的地理分布,構(gòu)建電力大數(shù)據(jù)自適應(yīng)副本管理模型。同時(shí),提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測(cè)方法,有效完成數(shù)據(jù)庫(kù)網(wǎng)絡(luò)資源的實(shí)時(shí)評(píng)估。為有效提升電力大數(shù)據(jù)副本管理效率降低數(shù)據(jù)處理延時(shí),提出了一種面向新型電力系統(tǒng)的數(shù)據(jù)存儲(chǔ)和選擇的副本管理算法,實(shí)現(xiàn)電力大數(shù)據(jù)副本的靈活存儲(chǔ)和最優(yōu)選擇。最后,在相應(yīng)省公司開展試點(diǎn)驗(yàn)證,該算法能夠有效地處理電力大數(shù)據(jù)存儲(chǔ),降低數(shù)據(jù)處理延時(shí)。
電力大數(shù)據(jù)處理中心采用標(biāo)準(zhǔn)的分層結(jié)構(gòu),遵循嚴(yán)格的數(shù)據(jù)分層,各數(shù)據(jù)中心通過專用高速數(shù)據(jù)鏈路進(jìn)行連接。數(shù)據(jù)計(jì)算和資源存儲(chǔ)的異構(gòu)性導(dǎo)致各數(shù)據(jù)中心之間的網(wǎng)絡(luò)拓?fù)浜蛶捪鄬?duì)穩(wěn)定。大功率數(shù)據(jù)處理任務(wù)對(duì)數(shù)據(jù)中心(Data Center,DC)的計(jì)算和存儲(chǔ)容量提出更大的挑戰(zhàn),大量不同容量的設(shè)備不斷部署到中心,導(dǎo)致計(jì)算或存儲(chǔ)服務(wù)器的性能存在明顯的異構(gòu)性。為了在相對(duì)固定的分布式數(shù)據(jù)中心上實(shí)現(xiàn)電力大數(shù)據(jù)的低延遲處理,提出了一種基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型,如圖1所示。集群中的跟蹤守護(hù)進(jìn)程和線程監(jiān)視系統(tǒng)為GaExUnit收集運(yùn)行信息;GaExUnit對(duì)日志進(jìn)行再處理,轉(zhuǎn)發(fā)給智能分析系統(tǒng)進(jìn)行分析。根據(jù)智能分析系統(tǒng)的輸出,GaExUnit中的副本管理組件運(yùn)行算法來優(yōu)化副本的放置和選擇,而優(yōu)化器執(zhí)行最優(yōu)指令。
圖1 基于隨機(jī)配置網(wǎng)絡(luò)的自適應(yīng)副本管理模型Fig.1 An adaptive replica management model based on randomly configured network
為有效應(yīng)對(duì)大量不同類型底層終端電力設(shè)備接入,對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量的沖擊、降低副本管理負(fù)擔(dān),提出了一種基于C-means聚類的底層設(shè)備分類網(wǎng)絡(luò)流量預(yù)測(cè)模型,基于網(wǎng)絡(luò)容量對(duì)底層設(shè)備進(jìn)行分類,為副本和系統(tǒng)管理提供底層設(shè)備流量數(shù)據(jù)指標(biāo),同時(shí)依托深度學(xué)習(xí)模型和計(jì)算任務(wù)的應(yīng)用信息,采用網(wǎng)絡(luò)流量負(fù)載預(yù)測(cè)框架為副本管理提供近期可能的網(wǎng)絡(luò)流量[18-19]。
針對(duì)計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器的異構(gòu)性能所導(dǎo)致的可擴(kuò)展性問題,采用基于模糊C-means的聚類算法將計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器劃分為不同的邏輯組。
電力大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)可以簡(jiǎn)單地描述為一個(gè)有向圖G=(V,E),其中頂點(diǎn)集合V=CN∪SN,CN={cn1,...,cni,...,cnnc}表示計(jì)算節(jié)點(diǎn),SN={sn1,...,sni,...,snnc}表示數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)(也稱數(shù)據(jù)節(jié)點(diǎn)),E表示節(jié)點(diǎn)之間的傳輸網(wǎng)絡(luò)鏈路。假設(shè)系統(tǒng)中有n個(gè)計(jì)算節(jié)點(diǎn)或數(shù)據(jù)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)具有決定節(jié)點(diǎn)CPU速度、IPOS性能的屬性。pfi,k(1≤k≤np,k∈N)為第i個(gè)節(jié)點(diǎn)的第k個(gè)屬性。因此,第i個(gè)節(jié)點(diǎn)的所有屬性都可以表示為一個(gè)向量。
PFi=(λ1pfi,1,...,λkpfi,k,...,λppfi,np),PFi∈Rnp
(1)
式中λ是第j個(gè)屬性的系數(shù),它將屬性值的各個(gè)范圍歸一化為0~1。
將n個(gè)計(jì)算節(jié)點(diǎn)或存儲(chǔ)節(jié)點(diǎn)的所有屬性疊加,得到一個(gè)矩陣:
PF=(λkpfi,k),PFi∈Rnp
(2)
PF作為聚類算法的輸入。它的輸出是:
(3)
式中LCT或LST的下標(biāo)表示節(jié)點(diǎn)集群,表示節(jié)點(diǎn)集群處理數(shù)據(jù)的能力。
近年來,一些研究人員在基于數(shù)據(jù)并行計(jì)算的大數(shù)據(jù)處理系統(tǒng)中,采用應(yīng)用級(jí)數(shù)據(jù)訪問模式進(jìn)行流量預(yù)測(cè),取得了比傳統(tǒng)預(yù)測(cè)算法更好的性能,與其他大數(shù)據(jù)處理平臺(tái)相比,DC架構(gòu)、數(shù)據(jù)采集方式以及電力大數(shù)據(jù)處理任務(wù)的執(zhí)行得到有效規(guī)范。對(duì)此提出了一種基于SCN的網(wǎng)絡(luò)流量預(yù)測(cè)模型,預(yù)測(cè)未來一段時(shí)間內(nèi)的網(wǎng)絡(luò)流量,如圖2所示。
該模型主要由以下三部分組成:
(1)基于操作員執(zhí)行時(shí)間擬合的SCN模型;
(2)從數(shù)據(jù)并行計(jì)算應(yīng)用中提取DAG信息并計(jì)算出每個(gè)階段的流量大??;
(3)對(duì)作業(yè)執(zhí)行日志的時(shí)間序列分析,以找出作業(yè)執(zhí)行順序的某些模式。
圖2 網(wǎng)絡(luò)流量預(yù)測(cè)模型Fig.2 Network traffic prediction model
定義1:任務(wù)描述符,工作節(jié)點(diǎn)執(zhí)行的計(jì)算任務(wù)的描述符,記為:
TRC=〈IS,DT,Pri,WCID,JCID,CPU,Mem,OP〉
(4)
式中IS為整數(shù)表示的輸入大小計(jì)算任務(wù);DT為 CSG收集的數(shù)據(jù)的類型分類;Pri為調(diào)度因子,用于計(jì)算資源分配的CPU和Mem調(diào)度器;WCID為聚類算法的聚類數(shù)目;JCID為一個(gè)計(jì)算任務(wù)是處理器密集型、內(nèi)存密集型還是輸入輸出(I/O)密集型;OP為數(shù)據(jù)的操作符號(hào)。
定義2:任務(wù)事件,操作符的描述符和需處理的數(shù)據(jù)量,記為enk。與 DCFs作為事件提供的運(yùn)營(yíng)商相關(guān)的事件ε={enk}的集合,k=1,…,ne。enk可以由元組{OP,IS}表示,元組由操作符OP和輸入數(shù)據(jù)IS的大小組成。在任務(wù)處理過程中一次運(yùn)行的任務(wù)事件的狀態(tài)為RTE(EN),其中EN由任務(wù)事件組成,其持續(xù)時(shí)間表示為EN={(enk,tk)}。特別是,當(dāng)任務(wù)事件完成時(shí),tk值為零或?yàn)榭?。在時(shí)間t工作節(jié)點(diǎn)cni的狀態(tài)可以表示為:
Si,t=RTE(i,(enk,tk,i),…,(ennc,tnc,i))
(5)
式中變量值在一段時(shí)間內(nèi)的變化情況計(jì)算如下:
ΔSi,Δt=(Si,tΘSi,t‘),t=(RTE(i,(en1,Δti,1),…,(enne,Δti,ne)))
(6)
式中 Δt表示完成任務(wù)事件的剩余時(shí)間。
根據(jù)上述定義和公式,我們現(xiàn)在介紹基于SCN的擬合模型。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法或其他深度學(xué)習(xí)模型相比,SCN在實(shí)現(xiàn)可靠預(yù)測(cè)結(jié)果的同時(shí),對(duì)系統(tǒng)引入的開銷很小,系統(tǒng)輸入和輸出模型可近似表示為:
Xi,t=(t,TE,ΔSi,ΔT),Yi,t=tTE
(7)
作為我們預(yù)測(cè)框架的第二部分。除了為擬合模型提供操作日志,它還輸出一個(gè)三元組(源、目標(biāo)、流量大小)?;谶@些信息,使用SCN模型來預(yù)測(cè)流量接入網(wǎng)絡(luò)的時(shí)間。為了挖掘電力行業(yè)中的某些潛在的周期性,我們采用簡(jiǎn)單但高效的序列模式挖掘算法,作為網(wǎng)絡(luò)流量預(yù)測(cè)框架的第三部分。
作為云存儲(chǔ)軟件系統(tǒng)的重要組成部分,副本管理技術(shù)在提高并發(fā)訪問、數(shù)據(jù)的可靠性和可用性方面發(fā)揮著非常重要的作用。副本管理包括副本生成、副本刪除、副本存儲(chǔ)和副本選擇[20],由于副本的存儲(chǔ)方式和管理策略對(duì)于未來新型電力系統(tǒng)大數(shù)據(jù)存儲(chǔ)產(chǎn)生的影響相對(duì)較大,對(duì)此文中著重對(duì)這兩部分進(jìn)行研究,并給出了對(duì)應(yīng)的算法。
在電力大數(shù)據(jù)系統(tǒng)中,相對(duì)固定的分布式控制系統(tǒng)之間的數(shù)據(jù)并行計(jì)算存在一些潛在模式或一定的周期性[21-22]。不同應(yīng)用程序的數(shù)據(jù)訪問頻率差異性較大,導(dǎo)致數(shù)據(jù)塊的冷熱程度不同。因此,我們需要通過考慮副本因素和存儲(chǔ)位置,針對(duì)副本存儲(chǔ)以及如何選擇副本做出最佳決策。
具有相同訪問頻率的數(shù)據(jù)塊可能具有不同的流行度,并根據(jù)不同的計(jì)算任務(wù)而變化。每個(gè)數(shù)據(jù)塊及其副本都與記錄其訪問流行度的時(shí)間戳隊(duì)列相關(guān)聯(lián)。數(shù)據(jù)塊流行度可表示為:
(8)
式中heatt+1(bi)為數(shù)據(jù)塊bi在時(shí)刻t+1訪問流行度的更新值;衰減函數(shù)log2(eλ(Tt+1-Tt))-2表示副本的訪問流行度隨時(shí)間的變化,冷卻系數(shù)λ、k和f與k∈(0,1)和f∈(-1,1)的系數(shù)一致;Rt為在時(shí)刻t的訪問次數(shù);Ft為從SEQS開始的一段時(shí)間內(nèi)I/O事件的預(yù)測(cè)序列中可能出現(xiàn)的訪問次數(shù);Z為歸一化因子。
通過使用最大似然估計(jì),訪問因子被分配給SEQS的歷史日志中的每個(gè)數(shù)據(jù)塊。訪問因子和流行度之間的關(guān)系可表示為:
(9)
式中Rep(bi)為數(shù)據(jù)塊bi的訪問因子;heatT(bi)為bi在T時(shí)刻的訪問流行度;網(wǎng)絡(luò)數(shù)據(jù)塊評(píng)估參數(shù)θ∈Θ可表示為:
(10)
基于上述研究的網(wǎng)絡(luò)流量預(yù)測(cè)模型和數(shù)據(jù)塊流行度,提出了一種動(dòng)態(tài)副本存儲(chǔ)算法,通過優(yōu)化分布式控制系統(tǒng)之間的網(wǎng)絡(luò)傳輸來提高系統(tǒng)吞吐量和數(shù)據(jù)傳輸速率,具體算法流程如圖3所示。
圖3 基于電力大數(shù)據(jù)的動(dòng)態(tài)副本存儲(chǔ)算法Fig.3 Dynamic replica storage algorithm based on power big data
在副本存儲(chǔ)之后,選擇最佳副本滿足數(shù)據(jù)處理需求的實(shí)時(shí)性,面對(duì)不同的應(yīng)用場(chǎng)景是一個(gè)具有挑戰(zhàn)性的問題。為了衡量副本的可維護(hù)性,我們選擇了三個(gè)重要指標(biāo): 響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載和可靠性。根據(jù)給定計(jì)算任務(wù)的數(shù)據(jù)訪問的服務(wù)質(zhì)量(QoS)要求進(jìn)行加權(quán),即:w=(w1,w2,w3)w1+w2+w3=1(0 (1)選擇矩陣:副本選擇的可能性,表示為PM。假設(shè)給定計(jì)算任務(wù)的n個(gè)計(jì)算節(jié)點(diǎn)請(qǐng)求集合RC={rc1,rc2,...,rcnrs}和m個(gè)數(shù)據(jù)節(jié)點(diǎn)將副本保存為數(shù)據(jù)集RS={rs1,rs2,...,rsnrs}。n個(gè)計(jì)算節(jié)點(diǎn)的PM和m個(gè)數(shù)據(jù)塊副本可表示為: PM=RCtRS=(pmi,j)nrc×nrs (11) 式中pmi,j=1表示計(jì)算節(jié)點(diǎn)rci通過數(shù)據(jù)節(jié)點(diǎn)j請(qǐng)求副本rsj,pmi,j=0表示不請(qǐng)求副本訪問(1≤i≤nrc,1≤j≤nrs)。 (2)響應(yīng)時(shí)間QoS1:節(jié)點(diǎn)間數(shù)據(jù)傳輸?shù)男阅苤饕晒?jié)點(diǎn)間網(wǎng)絡(luò)傳輸容量決定。vi,j主要受整個(gè)NT的網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運(yùn)行狀態(tài)以及存儲(chǔ)服務(wù)器L的IPOS影響,具體表達(dá)式如下: (12) 式中a′,β′和γ′分別為NT網(wǎng)絡(luò)歷史參數(shù)、網(wǎng)絡(luò)NV的運(yùn)行狀態(tài)和存儲(chǔ)服務(wù)器L的IPOS對(duì)應(yīng)的影響因子。 因此響應(yīng)時(shí)間的指標(biāo)矩陣可以表示為: QoS1←(vi,j) (13) (3)網(wǎng)絡(luò)流量負(fù)載QoS2:節(jié)點(diǎn)間的網(wǎng)絡(luò)流量負(fù)載也是副本選擇的一個(gè)重要因素。nli,j是網(wǎng)絡(luò)流量負(fù)載評(píng)估指標(biāo),由當(dāng)前網(wǎng)絡(luò)流量負(fù)載 (KNL)和擬合模型fτ預(yù)測(cè)的未來網(wǎng)絡(luò)流量負(fù)載荷(FNL)決定: (14) 式中μ(0≤μ≤1)網(wǎng)絡(luò)流量負(fù)載系數(shù),是通過檢查歷史數(shù)據(jù)設(shè)置的。因此,網(wǎng)絡(luò)流量負(fù)載指標(biāo)評(píng)估矩陣QoS2如下: QoS2=(nli,j)nrc×nrs (15) (16) 因此,可靠性的指標(biāo)評(píng)估矩陣QoS3可表示為: (17) (5)目標(biāo)函數(shù)的構(gòu)建:不同的PMnrc×nrs值,具有的不同副本選擇可能性?;诟北具x擇矩陣PMnrc×nrs和響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載、可靠性的指標(biāo)評(píng)估矩陣QoS1、QoS2、QoS3構(gòu)建對(duì)應(yīng)的目標(biāo)函數(shù)F1、F2、F3,具體表達(dá)形式如下: (18) 式中e是全1的向量,PM等價(jià)于PMnrc×nrs,F(xiàn)1(PM)、F2(PM)和F3(PM)分別為基于PMnrc×nrs的QoS1、QoS2和QoS3的值。 當(dāng)PM一定時(shí),每個(gè)目標(biāo)函數(shù)達(dá)到最優(yōu)時(shí)為最佳副本選擇策略。同時(shí),基于不同的應(yīng)用場(chǎng)景可設(shè)置對(duì)應(yīng)的響應(yīng)時(shí)間、網(wǎng)絡(luò)流量負(fù)載和可靠性的指標(biāo)權(quán)重wi(i=1,2,3)。從而構(gòu)建副本選擇的總體目標(biāo)函數(shù)。 F(PM)=F1(w1⊙PM)+F2(w2⊙PM)+ F3(w3⊙PM) (19) 這里有W=(wi,j)nrc×3,wj=(wi,j)nrc×1,(j=1,2,3)。因此,副本選擇策略的最優(yōu)解決方案是找到使目標(biāo)函數(shù)F(PM)最大的最優(yōu)副本選擇矩陣PMoptimal,為解決上述問題,提出了一種面向電力大數(shù)據(jù)云存儲(chǔ)的副本選擇算法,具體流程如圖4所示。 圖4 面向電力大數(shù)據(jù)云存儲(chǔ)的副本選擇算法Fig.4 Replica selection algorithm orienting power big data cloud storage 為了驗(yàn)證所提的電力大數(shù)據(jù)副本管理策略的性能優(yōu)勢(shì),選擇某電力公司的數(shù)據(jù)平臺(tái)進(jìn)行仿真實(shí)驗(yàn),首先基于實(shí)驗(yàn)環(huán)境設(shè)置仿真參數(shù),然后,對(duì)所提出的整體電力大數(shù)據(jù)副本管理系統(tǒng)(PARMS)進(jìn)行仿真,驗(yàn)證其在提高數(shù)據(jù)副本管理效率方面的優(yōu)勢(shì),之后,分別對(duì)分布管理系統(tǒng)中所提出的動(dòng)態(tài)副本存儲(chǔ)算法和選擇算法進(jìn)行仿真,驗(yàn)證其性能優(yōu)勢(shì)。 基于分布式電力大數(shù)據(jù)處理系統(tǒng)進(jìn)行算法仿真。采用通用的延遲感知任務(wù)調(diào)度策略[23-25]來跨地區(qū)的分布式控制系統(tǒng)調(diào)度數(shù)據(jù)并行計(jì)算任務(wù)。表1為仿真過程中地理分散的分布式控制系統(tǒng)節(jié)點(diǎn)之間的可用帶寬,其中,L1為總部,L2為省分公司,L3為市分公司。 表1 分布式控制中心可用帶寬Tab.1 Available bandwidth of distributed control center 仿真過程中的數(shù)據(jù)中心的處理任務(wù)主要包括實(shí)時(shí)線損計(jì)算、用戶用電行為分析、用電異常監(jiān)測(cè)報(bào)警等電力大數(shù)據(jù)系統(tǒng)中的常規(guī)任務(wù)或數(shù)據(jù)挖掘程序。實(shí)驗(yàn)平臺(tái)用于計(jì)算任務(wù)的數(shù)據(jù)量約為550 G,來自電力大數(shù)據(jù)系統(tǒng)中不同地理分布的云系統(tǒng),一些開放數(shù)據(jù)集也被引入PARMS系統(tǒng)進(jìn)行測(cè)試,如表2所示。 表2 地理分布任務(wù)分配Tab.2 Geographical distribution of tasks 實(shí)驗(yàn)評(píng)估了通過所提出的副本管理策略減少的地理分布式控制系統(tǒng)上的讀取延遲。圖5為不同副本管理策略的數(shù)讀取時(shí)間。從節(jié)點(diǎn)間延遲的測(cè)量數(shù)據(jù)來看,所提的動(dòng)態(tài)副本處理策略(PARMS)明顯優(yōu)于傳統(tǒng)固定動(dòng)態(tài)分配方式(PARMS-hdfs)以及沒有進(jìn)行副本處理的方式(PARMS-N)。同時(shí)我們的副本管理策略實(shí)現(xiàn)了更好的性能,盡管讀取時(shí)間仍以線性速率增長(zhǎng)。然而,這對(duì)于數(shù)據(jù)傳輸是不可避免的,因?yàn)樗艿骄W(wǎng)絡(luò)帶寬和磁盤傳輸速率的限制??傮w而言,我們的算法在地理分布的分布式控制系統(tǒng)中的數(shù)據(jù)訪問方面取得了明顯的效果,更適用于跨區(qū)域分散的分布式控制系統(tǒng)進(jìn)行電力大數(shù)據(jù)處理。 圖5 三種副本管理策略的不同大小數(shù)據(jù)的 讀取時(shí)間分析Fig.5 Reading time of different size data of three replica management strategies 利用網(wǎng)絡(luò)流量的預(yù)測(cè)信息,PARMS可以優(yōu)化副本的放置和選擇,以提高效率。圖6為 地理分布的分布式控制系統(tǒng)中任務(wù)完成時(shí)間。這表明與其他系統(tǒng)相比,所提出的副本管理系統(tǒng)更能處理電力大數(shù)據(jù),使用PARMS進(jìn)行優(yōu)化后,作業(yè)完成時(shí)間減少了11.82%~12.56%。 圖6 不同副本管理策略下系統(tǒng)內(nèi)三種 任務(wù)的平均完成時(shí)間Fig.6 Average completion time of the three tasks in the system under different replica management strategies 這部分旨在通過使用副本存儲(chǔ)策略和數(shù)據(jù)節(jié)點(diǎn)分類來評(píng)估分布式計(jì)算任務(wù)的執(zhí)行結(jié)果。通過任務(wù)平均執(zhí)行時(shí)間對(duì)仿真結(jié)果進(jìn)行評(píng)估。在實(shí)驗(yàn)中,數(shù)據(jù)節(jié)點(diǎn)被分為三個(gè)邏輯存儲(chǔ)區(qū)域,LST1、LST2和LST3(下標(biāo)值越小,其關(guān)聯(lián)節(jié)點(diǎn)的性能越好)。如圖7所示,所提出的動(dòng)態(tài)副本存儲(chǔ)策略比固定副本策略執(zhí)行作業(yè)的花費(fèi)的平均運(yùn)行時(shí)間要少。 圖7 不同副本存儲(chǔ)策略任務(wù)處理時(shí)延對(duì)比Fig.7 Comparison of task processing latency with different replica placement strategies 該實(shí)驗(yàn)驗(yàn)證了副本選擇策略是否能夠滿足跨地理分布式 DC之間數(shù)據(jù)處理的多樣性數(shù)據(jù)訪問需求,分析了算法在系統(tǒng)運(yùn)行時(shí)間內(nèi)各時(shí)間段的網(wǎng)絡(luò)資源利用的波動(dòng)情況,數(shù)據(jù)庫(kù)默認(rèn)的副本選擇策略表示為df-RS,相關(guān)基于QoS的策略表示為mr-QoS,文中提出的基于QoS的策略表示為QoS-RS。如圖8所示。顯然QoS-RS比df-RS和mr-QoS具有更好的網(wǎng)絡(luò)利用率。 圖8 副本選擇策略的性能Fig.8 Performance of replica selection strategy 隨著新型電力系統(tǒng)的快速發(fā)展,電力大數(shù)據(jù)的實(shí)時(shí)處理變得越來越重要。為了在有限帶寬和相對(duì)固定的底層基礎(chǔ)設(shè)施條件下實(shí)現(xiàn)低延遲處理,文中設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)用于地理分布的電力大數(shù)據(jù)存儲(chǔ)的自適應(yīng)副本管理系統(tǒng)PARMS。設(shè)計(jì)了高效的副本管理方法來優(yōu)化副本的放置和選擇。在CSG的電力公司平臺(tái)上進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所述的副本管理策略能夠在一定程度上解決網(wǎng)絡(luò)傳輸瓶頸,提高分布式電力大數(shù)據(jù)系統(tǒng)的計(jì)算吞吐量。使用PARMS時(shí),地理分布的分布式控制系統(tǒng)的作業(yè)完成時(shí)間平均減少了12.19%。未來的工作將為PARMS開發(fā)自適應(yīng)副本生成和刪除機(jī)制,并進(jìn)一步將副本管理策略與地理分布任務(wù)調(diào)度相結(jié)合。4 仿真結(jié)果
4.1 仿真參數(shù)設(shè)置
4.2 副本管理策略性能評(píng)估
4.3 動(dòng)態(tài)副本存儲(chǔ)算法性能評(píng)估
4.4 副本選擇算法性能評(píng)估
5 結(jié)束語(yǔ)