鄧賢添(廣東電網(wǎng)有限責任公司江門新會供電局,廣東 江門 529100)
基于分布式技術的電力大數(shù)據(jù)高性能處理中的應用研究
鄧賢添
(廣東電網(wǎng)有限責任公司江門新會供電局,廣東 江門 529100)
分布式技術應用屬于新興技術,是基于網(wǎng)絡應用所開發(fā)的一項技術,可以提供效果良好的網(wǎng)絡應用開發(fā)模式,此項技術實現(xiàn)了高效率及大規(guī)模和組件化的分布式程序的開發(fā)。Internet技術水平持續(xù)提升,隨之人們對網(wǎng)絡應用系統(tǒng)有了更高的要求及需求。
分布式技術;電力大數(shù)據(jù);高性能處理
分布式應用技術誕生至今,由最初兩層應用模式發(fā)展到具有應用層及業(yè)務邏輯與數(shù)據(jù)層的三層模式,再到目前的多層體系結構模式總共經(jīng)歷了三個發(fā)展階段。為了有效處理電力數(shù)據(jù)分析系統(tǒng)處于大數(shù)據(jù)時代下所出現(xiàn)的性能及可伸縮性的瓶頸問題,以便充分適應于各方面生產(chǎn)及營銷等各種系統(tǒng)的要求,著眼于云計算技術各方面優(yōu)勢,提出了基于云計算的電力大數(shù)據(jù)分析系統(tǒng)體系結構和主要技術。
近年來,數(shù)字信息化發(fā)展飛速,各類信息資源更是持續(xù)暴漲。人類在享受信息化所帶來的便捷時則也造成全球數(shù)字信息資源飛速增長。按照國際數(shù)據(jù)統(tǒng)計資料顯示,截止2014年底全球數(shù)據(jù)量已經(jīng)超過了2.0ZB,還會每年以50%增長速度不斷上升。大量數(shù)據(jù)浪潮不斷涌入,社會各界也相繼開始了數(shù)據(jù)化進程。學術界及政府和商業(yè)界也都參與其中,無一幸免的進入大數(shù)據(jù)時代。國內(nèi)電力工業(yè)是全球第二大經(jīng)濟體能源支撐體系,則進入大數(shù)據(jù)時代無可厚非。
大數(shù)據(jù)概念在業(yè)內(nèi)并無統(tǒng)一定義,引用IDC基于信息基礎設備推進研究會中對其的描述,就是大數(shù)據(jù)自身具備大量數(shù)據(jù)體及諸多數(shù)據(jù)類型和極快的數(shù)據(jù)處理,加上其價值密度偏低的這四方面特征,屬于一個海量數(shù)據(jù)集合,這也是業(yè)界所一致認同的。大數(shù)據(jù)也就是不能在規(guī)定時間之內(nèi)采用傳統(tǒng)數(shù)據(jù)庫軟件工具對相關內(nèi)容施以獲得及管理與處理的大數(shù)據(jù)集合。如圖1所示,CORBA調用模型簡視圖。
著眼于大數(shù)據(jù)來講,電力大數(shù)據(jù)屬于能源改革過程中電力工業(yè)技術改革的關鍵過程,并不是簡單的技術。電力大數(shù)據(jù)不只是技術發(fā)展和進步,是關乎到總體電力系統(tǒng)處于大數(shù)據(jù)時代而面臨的發(fā)展理念及管理機制與技術路線變革問題,這也是智能化電力系統(tǒng)處于大數(shù)據(jù)時代下其自身價值形態(tài)提升。
圖1 CORBA調用模型簡視圖
本文只對極具代表性的網(wǎng)絡計算及云計算和志愿計算這三類分布式計算進行分析和比較。網(wǎng)絡計算思路屬于聚合分布主要資源,可以支持虛擬組織,以提供更高層次的服務,其網(wǎng)絡拓撲結構較為穩(wěn)定,參與者只需完成相關任務則就可以退出系統(tǒng)。而志愿計算節(jié)點登出/入系統(tǒng)任意性較強,盡管提升的靈活性會出現(xiàn)相關任務并未完成就沒有音信的狀況,不過在未能完成任務時則會涉及到此節(jié)點信譽度,下次分配任務時系統(tǒng)會對此節(jié)點的信任度降低則縮減任務分配量。
網(wǎng)絡計算及云計算與志愿計算等均可支持異構資源,但是以理念上來講確實各不相同。網(wǎng)絡關鍵是經(jīng)過中間件進行屏蔽異構系統(tǒng),并且對用戶透明,把實際過程交于中間件來有效執(zhí)行。云計算可以有效確保用戶方面實現(xiàn)按需分配,也就是運用服務就像是日常生活中用水電一樣,但是異構方面則是利用鏡像執(zhí)行,或者是采用服務機制解決此問題。志愿計算異構性影響較小,具體來講則是只要志愿者能夠返回結果即可,利用機型及系統(tǒng)等方面不同并沒有特別的要求。
云計算及網(wǎng)絡計算與志愿計算相比而言則分布式技術可以說是被進一步應用,降低了參與者的各方面工作,只要選用期望運用的類型和付費類型,其余兩類計算方式均是需要對總體系統(tǒng)運行進行相關設定。并且,云計算能夠把較為集中的資源用作執(zhí)行較為分散的應用,網(wǎng)絡計算及志愿計算均是需要對分散資源進行聚合,再執(zhí)行較大型應用。
志愿計算則主要是體現(xiàn)分布式計算靈活性,也就是采用網(wǎng)絡間的閑置資源把分割好的任務交于各個子志愿者執(zhí)行,再施以整合且提交任務,該過程的實現(xiàn)不需要網(wǎng)絡計算中的數(shù)據(jù)中心,更不需要云計算中諸多云終端,只是需要假定服務器及host,從而進行調度,這和以往傳統(tǒng)式分布式計算理念非常類似。
圖2基于云計算的大電力數(shù)據(jù)分析系統(tǒng)體系構架簡視圖
電力大數(shù)據(jù)及互聯(lián)網(wǎng)大數(shù)據(jù)這兩者的區(qū)別主要是:第一,互聯(lián)網(wǎng)場景下的典型大數(shù)據(jù)應用均需順序掃描數(shù)據(jù)集,所以分布式并行大數(shù)據(jù)分析系統(tǒng)Hive等都沒有提供良好的索引。電力大數(shù)據(jù)分析時則多維區(qū)域查詢非常多,因為沒有對應索引則會造成訪問出眾多不需要的數(shù)據(jù),這也降低了查詢執(zhí)行功能。這時也就需要對多維區(qū)域查詢特征而設計適宜的索引構架及機制;第二,互聯(lián)網(wǎng)大數(shù)據(jù)典型特征就是一次寫多次讀。對于這種數(shù)據(jù)特征來講則分布式文件系統(tǒng)都沒有提供數(shù)據(jù)改寫機制,僅僅是經(jīng)過全部覆蓋數(shù)據(jù)方式間接實現(xiàn)改寫數(shù)據(jù)。電力大數(shù)據(jù)業(yè)務場景下會存在諸多數(shù)據(jù)改寫語句,覆蓋數(shù)據(jù)的方式執(zhí)行查詢時則會造成執(zhí)行效率偏低。所以應提供良好的數(shù)據(jù)改寫機制;第三,互聯(lián)網(wǎng)企業(yè)按照自身業(yè)務需求設計大數(shù)據(jù)查詢語言,比如HQL僅是SQL的子集,電力數(shù)據(jù)分析系統(tǒng)大都是采用標準SQL語言所編寫的,這也是需要人力及時間來達到數(shù)以萬計的SQL語句翻譯,形成等價的HQL語言翻譯,從而翻譯成正常的HQL語言,提升遺留應用遷移速度,達到電力數(shù)據(jù)分析業(yè)務無縫平滑遷移。
通常為了能夠適應智能電網(wǎng)對電力大數(shù)據(jù)分析的需求及要求,則針對性的對電力大數(shù)據(jù)和業(yè)務邏輯典型特征進行分析,并且有效結合云計算技術先進技術和行業(yè)部署經(jīng)驗,最終研發(fā)出基于云計算的電力大數(shù)據(jù)分析系統(tǒng)。此系統(tǒng)是基于分布式并行計算構架,利用Hive為數(shù)據(jù)分析軟件,針對于電力大數(shù)據(jù)各方面特征而開發(fā)的基于網(wǎng)絡文件多維索引,基于查詢重寫的SQL至HQL自動化翻譯工具及支持數(shù)據(jù)更新的儲存模型,這些都充分提升了Hive性能及易用性。此系統(tǒng)也已經(jīng)成功運用在國內(nèi)諸多電力用電信息采集系統(tǒng)中,充分提升了系統(tǒng)性能,降低系統(tǒng)運行成本。電力大數(shù)據(jù)分析系統(tǒng)體系構架主要是包括分布式文件系統(tǒng)模塊、Hadoop、Hive、監(jiān)控工具和運行調度工具這幾個方面。如圖2所示,基于云計算的大電力數(shù)據(jù)分析系統(tǒng)體系構架簡視圖。
圖3 性能測試對比柱狀圖
某供電企業(yè)采用電信息采集領域,處理目前用電信息采集系統(tǒng)爆發(fā)式增長的大量采集數(shù)據(jù)儲存及查詢與統(tǒng)計計算等方面性能所出現(xiàn)的瓶頸問題,利用分布式并行計算平臺來完成傳統(tǒng)式基于Oracle數(shù)據(jù)庫平臺用電信息采集系統(tǒng)技術構架最優(yōu)化及性能提升。
案例試驗中是利用某供電公司用電信息采集系統(tǒng)三個月內(nèi)的真實數(shù)據(jù),其中涉及到19張業(yè)務表,總共是6.39億的數(shù)據(jù),測試兩類不同技術下的低壓數(shù)據(jù)完整率統(tǒng)計及終端通信流量統(tǒng)計,加上低壓日常電量計算及用戶負荷查詢這四類用電信息采集業(yè)務解決。
最終測試顯示分布式并行計算平臺1/8硬件投入時其性能提升大約7倍,不只是驗證了通過Oracle數(shù)據(jù)庫平臺轉化為分布式并行計算平臺有著極高的可行性,這也顯示了分布式并行計算平臺所呈現(xiàn)的優(yōu)勢。如圖3所示,性能測試對比柱狀圖。
以往傳統(tǒng)式網(wǎng)絡應用程序均是傳輸層協(xié)議上直接編程,此類編程方式極為復雜且不能適應于較大規(guī)模多用戶大型應用系統(tǒng),加上此系統(tǒng)不能拓展,此時分布式應用技術也就應運而生。本文就分布式技術在電力大數(shù)據(jù)高性能處理方面進行了分析,對幾種分布式計算進行了比較,結合電力大數(shù)據(jù)特征及云計算技術的發(fā)展,分析了基于云計算的電力大數(shù)據(jù)系統(tǒng),以便提升國內(nèi)基于分布式技術的電力大數(shù)據(jù)高性能處理水平。
[1]王放.解析分布式計算的應用[J].電腦編程技巧與維護,2013(09).
[2]賀宗春,承德寶.分布式技術在智能數(shù)字調度系統(tǒng)中的應用[J].電子技術,2014(17).
[3]張冬萍,雷博,高凱.分布式技術在數(shù)據(jù)庫開發(fā)中的應用[J].吐哈油氣,2014 (11).
[4]鄧靈,陳亮,葉仲和.分布式技術及其應用概述[J].計算機時代,2014(21).
[5]衡星辰,周力.分布式技術在電力大數(shù)據(jù)高性能處理中的應用[J].電力信息與通信技術,2014(20).
TM769
A