李穎杰
(深圳供電局有限公司,廣東 深圳 518000)
隨著智能電網(wǎng)建設(shè)的持續(xù)發(fā)展,國家電網(wǎng)已經(jīng)創(chuàng)建了4 種數(shù)據(jù)中心平臺,分別為結(jié)構(gòu)化、海量歷史、非結(jié)構(gòu)化、電網(wǎng)空間,實現(xiàn)大量大數(shù)據(jù)資源的積累,支撐了企業(yè)數(shù)據(jù)的融合與共享。文獻[1]研究過程中提出了智能電網(wǎng)為大數(shù)據(jù)應(yīng)用的主要領(lǐng)域,并且提出基于智能電網(wǎng)的路線圖與技術(shù)框架?,F(xiàn)代國家電網(wǎng)公司積累大量數(shù)據(jù)資源,為數(shù)據(jù)的分析決策提供了良好條件,但是還存在跨類型海量數(shù)據(jù)分析不足、數(shù)據(jù)存儲分散等問題。大數(shù)據(jù)為分析決策主要手段,備受工業(yè)界與學(xué)術(shù)界的重視。因此,對電力大數(shù)據(jù)智能化分析挖掘框架的設(shè)計具有重要意義。
對于國家電網(wǎng)公司4 個數(shù)據(jù)中心與外部數(shù)據(jù)源多源異構(gòu)大數(shù)據(jù),通過驗證層、服務(wù)層、特征分析層與數(shù)據(jù)源層創(chuàng)建電力大數(shù)據(jù)智能化高效分析挖掘技術(shù)框架。電力大數(shù)據(jù)在整體技術(shù)框架中,利用基于內(nèi)存計算數(shù)據(jù)分析、數(shù)據(jù)特征分析等技術(shù),通過傳統(tǒng)電力數(shù)據(jù)分析轉(zhuǎn)變到高性能交互式分析,最后構(gòu)成電力大數(shù)據(jù)并行化分析服務(wù)體系,利用超短期母線負荷預(yù)測驗證技術(shù)的效果[2],圖1 為總體技術(shù)框架。
圖1 總體技術(shù)框架
數(shù)據(jù)層能夠?qū)﹄娏?shù)據(jù)來源進行描述,主要包括氣象、移動、社交等外部數(shù)據(jù)以及國家電網(wǎng)數(shù)據(jù)中心半結(jié)構(gòu)化、結(jié)構(gòu)化與地理信息空間數(shù)據(jù)。
特征分析層能夠?qū)μ崛?shù)據(jù)的特征方法、數(shù)據(jù)并行化分析框架和數(shù)據(jù)模型創(chuàng)建的方法進行描述。
服務(wù)層能夠通過服務(wù)接口和架構(gòu)創(chuàng)建分布式的服務(wù)體系。
應(yīng)用層利用超短期母線負荷的預(yù)測,通過調(diào)用相應(yīng)接口對負荷大數(shù)據(jù)實時分析[3]。
數(shù)據(jù)挖掘指的是通過數(shù)據(jù)分析工具、通過海量數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)與模型的關(guān)系的建模過程,利用模型與數(shù)據(jù)關(guān)系能夠?qū)I(yè)務(wù)發(fā)展趨勢進行預(yù)測,從而尋找數(shù)據(jù)之間的關(guān)系,并且發(fā)現(xiàn)業(yè)務(wù)忽略因素,對全新業(yè)務(wù)強點進行拓展。
跨行業(yè)數(shù)據(jù)挖掘標準流程GRIS-DM 指的是各個行業(yè)數(shù)據(jù)挖掘標準過程化、綜合性的展現(xiàn),屬于能夠利用不斷完善、實踐的動態(tài)化過程,其中包括數(shù)據(jù)理論、商業(yè)理解、創(chuàng)建模型等階段[4],圖2 為跨行業(yè)數(shù)據(jù)挖掘的標準流程。
圖2 跨行業(yè)數(shù)據(jù)挖掘的標準流程
圖3 為電力市場需求分析的功能結(jié)構(gòu),市場管理能夠通過各個渠道得出市場信息的分析、分類和統(tǒng)計,跟蹤分析指標情況及時發(fā)現(xiàn)問題,從而利用相關(guān)策略進行解決。通過潛力分析得到潛在拓展項目,制定措施,對拓展項目效果進行分析,對良好市場拓展效果進行保證。通過市場分析得到市場發(fā)展的規(guī)律,利用各預(yù)測模型得出預(yù)測結(jié)果,以此為市場拓展、電網(wǎng)的運行提供參考依據(jù)[5-6]。圖4 為電力市場需求的分析過程。
圖3 電力市場需求分析的功能結(jié)構(gòu)
圖4 電力市場需求的分析過程
電力大數(shù)據(jù)智能分析的核心就是實現(xiàn)客戶分析,能夠?qū)蛻纛愋团c需求進行掌握,通過用電情況、客戶性質(zhì)制定專屬的營銷方案,提高用電服務(wù)??蛻舴治龅墓δ馨ü收媳P尢幚?、客戶咨詢和客戶受理等情況分析[7]。圖5 為客戶分析的功能結(jié)構(gòu)。
圖5 客戶分析的功能結(jié)構(gòu)
故障保修處理的情況:根據(jù)供電單位、時間、故障的類型緯度,對故障保修數(shù)量、處理完成率、保修比重、滿意率、回訪率等進行分析[8]。以下為客戶分析代碼:
為了滿足智能分析挖掘、大數(shù)據(jù)技術(shù)的數(shù)據(jù)分析需求,文中基于分布式分析框架,對面向內(nèi)存數(shù)據(jù)分析優(yōu)化技術(shù)進行分析。首先,對數(shù)據(jù)傳輸算法進行優(yōu)化,利用分析中間結(jié)果自動歸并結(jié)果,劃分分析結(jié)果,有效節(jié)約成本,使分析速度得到提高。另外,以不同業(yè)務(wù)場景數(shù)據(jù)源表大小、數(shù)據(jù)分析情況、中間表大小具有不同的統(tǒng)計信息,基于CBO 對最優(yōu)執(zhí)行計劃進行選擇。在計劃任務(wù)線執(zhí)行的過程中,以業(yè)務(wù)場景查詢條件過濾數(shù)據(jù)源,統(tǒng)一計算數(shù)據(jù),提高大數(shù)據(jù)的運算效率[9],圖6 為多源數(shù)據(jù)過濾和性能優(yōu)化。
圖6 多源數(shù)據(jù)過濾和性能優(yōu)化
通過算法的分析和統(tǒng)計進行研究,利用主流開源挖掘與計算法庫進行開發(fā),從而對數(shù)據(jù)并行化的分析框架進行分析。算法并行化技術(shù)能夠促進分析算法與統(tǒng)計算法的并行化,利用迭代計算與內(nèi)存計算中Spark 的功能,在Spark 中運行統(tǒng)計算法與并行分析算法,實現(xiàn)數(shù)據(jù)分析挖掘的功能[10]。
通過主節(jié)點、數(shù)據(jù)資源、工作節(jié)點等管理器對主節(jié)點數(shù)據(jù)分析的請求進行描述,實現(xiàn)算法并行化任務(wù)調(diào)用,分析工作節(jié)點運行數(shù)據(jù)。設(shè)計的框架能夠提供實現(xiàn)數(shù)據(jù)并行化的分析結(jié)構(gòu),在需要對不同應(yīng)用實現(xiàn)數(shù)據(jù)并行化的功能時,能夠?qū)Υ丝蚣艿氖褂眠M行統(tǒng)一,不需要重復(fù)編寫代碼。在算法并行化執(zhí)行過程中,利用向量化技術(shù)進行處理,并且利用算法可行化的向量化處理,使其對應(yīng)Spark 的RDD,通過Spark 并行化框架進行并行化計算[11]。
針對越來越嚴重的大數(shù)據(jù)安全風(fēng)險、攻擊手段、網(wǎng)絡(luò)入侵,通過數(shù)據(jù)審計、銷毀、隱私保護等技術(shù)的應(yīng)用,能夠使大數(shù)據(jù)安全技術(shù)解決識別過程中存在的問題,從而在全過程監(jiān)控中對大數(shù)據(jù)進行收集。
權(quán)限管理:利用用戶權(quán)限對分析結(jié)果與原始數(shù)據(jù)進行控制[12]。
隱私保護:通過隱私保護技術(shù)對數(shù)據(jù)處理,避免對原始數(shù)據(jù)來源進行識別。
接入安全:在傳統(tǒng)安全接入方案中使用數(shù)據(jù)收集終端、業(yè)務(wù)應(yīng)用系統(tǒng)中的網(wǎng)絡(luò)、主機、訪問控制等安全技術(shù)實現(xiàn)合法性訪問。
存儲安全:將同態(tài)加密算法應(yīng)用到存儲層中,通過Hadoop 文件對控制列表的執(zhí)行、讀寫進行訪問和自定義用戶組策略控制文件權(quán)限[13]。
大數(shù)據(jù)中心數(shù)據(jù)計算利用內(nèi)存計算與流計算結(jié)合,使時效性數(shù)據(jù)計算需求得到滿足。流計算實時處理需求,實現(xiàn)在線統(tǒng)計分析、預(yù)警與過濾等,比如電表數(shù)據(jù)分析與查詢,方便人機交互。在數(shù)據(jù)計算方面,使用內(nèi)存計算與流計算技術(shù)。傳統(tǒng)數(shù)據(jù)庫技術(shù)在對海量數(shù)據(jù)處理的過程中,無法實現(xiàn)良好的水平擴展性,而且現(xiàn)有技術(shù)無法使因為磁盤I/O 導(dǎo)致的性能瓶頸問題得到解決,消除磁盤瓶頸和并行計算技術(shù)結(jié)合,能夠?qū)崿F(xiàn)高實時高響應(yīng)的計算,使系統(tǒng)并發(fā)訪問能力得到提高。
文中基于某電力公司,將大數(shù)據(jù)模型預(yù)測和數(shù)據(jù)分析對用戶的用電信息進行收集,結(jié)合國民經(jīng)濟、調(diào)整產(chǎn)業(yè)結(jié)構(gòu)、調(diào)整水平創(chuàng)建數(shù)據(jù)挖掘模型,預(yù)測各周期用電負荷曲線、空間分布、負荷時間等,以此提供給電能調(diào)配、電網(wǎng)規(guī)劃等決策支持[14]。圖7 為月度負荷的預(yù)測界面。
圖7 月度負荷的預(yù)測界面
電力公司通過用電負荷、電網(wǎng)設(shè)備臺賬等數(shù)據(jù)和數(shù)據(jù)挖掘、分布式計算等技術(shù),并與氣象信息、產(chǎn)業(yè)值相互結(jié)合,實現(xiàn)日負荷、月負荷的聚類模型,預(yù)測下階段用電負荷情況。利用未來用電量、負荷曲線、負荷時間、電力需求量、空間分布的預(yù)測,提前掌握用戶未來的用電需求量,從而保證用戶的正常用電,實現(xiàn)電網(wǎng)平穩(wěn)運行與削峰填谷。利用數(shù)據(jù)分析能夠為公司設(shè)備檢修、電網(wǎng)規(guī)劃、電能調(diào)配等提供決策,使電力生產(chǎn)轉(zhuǎn)變?yōu)榭蛻糁攸c,使企業(yè)社會形象與供電服務(wù)滿意度得到提高[15-16]。
在智能電網(wǎng)不斷發(fā)展的過程中,積累了大量數(shù)據(jù)中心、業(yè)務(wù)系統(tǒng)的數(shù)據(jù),嚴重影響了系統(tǒng)的計算速度、建設(shè)模式和分析能力,卻為數(shù)據(jù)分析帶來了豐富的條件。文中深入研究了電力大數(shù)據(jù)智能化高效分析挖掘技術(shù)框架,通過假設(shè)校驗、數(shù)據(jù)統(tǒng)計的層次提升到并行計算、全數(shù)據(jù)處理、智能算法等層次分析傳統(tǒng)電力數(shù)據(jù),分析數(shù)據(jù)挖掘分析算法的并行化設(shè)計,以此提高挖掘電力業(yè)務(wù)數(shù)據(jù)的價值。