国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop 平臺的電力大數(shù)據聚類算法研究

2021-01-29 03:06李俊艷鄭州電力高等專科學校
數(shù)碼世界 2020年12期
關鍵詞:分布式計算用電數(shù)據挖掘

李俊艷 鄭州電力高等專科學校

隨著社會信息化程度的不斷提高,數(shù)字化信息量呈現(xiàn)爆炸式增長,互聯(lián)網信息化進入極速增長期。國際互聯(lián)網數(shù)據公司IDC統(tǒng)計全球數(shù)據以每年50%的速度增長。電力工業(yè)是國家基礎能源的重要組成部分,麥肯錫從大數(shù)據應用在各行各業(yè)的發(fā)展等方面研究闡述對人類生活等方面產生的意義。2012年達沃斯世界經濟論壇上大數(shù)據成為會議熱點,探討如何利用數(shù)據產生良好社會效益。2013年電機工程學會發(fā)布《中國電力大數(shù)據發(fā)展白皮書》,重新定義了電力大數(shù)據的特征,以期推動大數(shù)據更加廣泛的應用到電力工業(yè)領域。隨著智能電表普及,SCADA系統(tǒng)部署完善,電力工業(yè)數(shù)字信息化程度大幅提高,電力企業(yè)信息化建設從80年代財務電算化信息化建設到大規(guī)模企業(yè)信息化建設,計算機技術在電力行業(yè)中得到廣泛應用。電力大數(shù)據的使用在電力行業(yè)各環(huán)節(jié)都有體現(xiàn),本文使用R語言與Hadoop分布式計算平臺相結合,提高數(shù)據分析速度。通過分析不同用戶用電特征,對用戶進行針對性電力營銷策略。

1 數(shù)據挖掘技術研究

數(shù)據采集技術的快速發(fā)展使得數(shù)據可在短時間內完成海量積累,數(shù)據挖掘技術是智能系統(tǒng)理論研究的重要課題。通過人工智能等技術從海量歷史數(shù)據中獲取有價值知識,目前數(shù)據庫儲存數(shù)據量日益增多,通過數(shù)據挖掘技術可獲取數(shù)據中隱含的有價值的信息。研究通過數(shù)據挖掘技術預測電力負荷,為更合理的進行電力調度提供技術支撐。

數(shù)據挖掘技術聚類分析是將海量大數(shù)據劃分為互斥組,沃爾瑪購物車分析中發(fā)現(xiàn),將啤酒和尿不濕放在一起銷售可提高銷量。阿里巴巴成立大數(shù)據團隊,分析客戶購物習慣。聚類分析是大數(shù)據挖掘分析的一種重要方式,很多聚類算法被收錄在大數(shù)據分析軟件中。麥肯錫公司發(fā)布大數(shù)據報告后,隨著技術的進步,數(shù)據從GB級發(fā)展到PB級。傳統(tǒng)數(shù)據處理方式在大數(shù)據處理速度上不能滿足實際需求,分布式計算平臺Hadoop因其低成本,高性價比等特性成為企業(yè)大數(shù)據平臺首選解決方案。隨著智能電表在用戶側普及,電力大數(shù)據在電網應用得到發(fā)展。

隨著社會高度信息化,每天有大量來自商業(yè)、生活等各方面的數(shù)據注入計算機網絡,數(shù)據爆炸式增長,如何從海量大數(shù)據中挖掘出具有實際價值的信息,為企業(yè)提供決策支撐成為企業(yè)的迫切需要。數(shù)據挖掘可用于任何數(shù)據集合,對包含有多種不同數(shù)據類型的數(shù)據集合同樣適用。數(shù)據挖掘技術根據處理的數(shù)據類型有很多模式,包括回歸分析,聚類分析等。數(shù)據挖掘技術涉及多個學科領域,包括數(shù)據庫技術、神經網絡等多門學科知識。數(shù)據分析處理過程包括數(shù)據收集、數(shù)據處理和結果展示幾步,在進行數(shù)據收集的過程中,由于各種原因可能造成屬性值缺失,數(shù)據重復等問題,很多數(shù)據不具有參考價值,需要在分析數(shù)據前把可能影響數(shù)據分析結果的無用信息清洗掉,以便得到最準確的分析結果。聚類是根據特定規(guī)則,把數(shù)據集中特征相似的數(shù)據劃分到同一組,特征差異較大的數(shù)據劃分到不同的組,是一種常見的數(shù)據分析方法。數(shù)據在完成分析處理之后,通常以圖形化、圖表化等直觀的方式展示給用戶。

2 Hadoop平臺分析

Hadoop是Doug Cutting等人受谷歌實驗室論文MapReduce:Simplified Data Processing on Large Clusters啟發(fā)開發(fā)出來的一套分布式計算框架,因其靈活性、開源性等特征,用戶能夠非常快速地在Hadoop分布式平臺上運行自己開發(fā)的用于處理大數(shù)據的應用程序,被行業(yè)內很多互聯(lián)網公司使用。

Hadoop是一個可以對大規(guī)模數(shù)據集進行分布式快速處理的軟件框架,它以并行的方式工作,實現(xiàn)數(shù)據的快速高效處理。Hadoop配置在一個集群上,當啟動Hadoop集群時,分布于集群各個節(jié)點的一組進程開始運行。Hadoop平臺的核心包括分布式計算框架MapReduce和文件系統(tǒng)HDFS等。MapReduce采用“分而治之”的形式,把大規(guī)模數(shù)據劃分成多個數(shù)據塊,把各個數(shù)據塊分配到不同的節(jié)點進行處理,最后把所有節(jié)點的處理結果進行整合,得到最終的結果。分布式文件系統(tǒng)HDFS主要用于Hadoop中數(shù)據文件的管理,其存儲可靠性高、數(shù)據吞吐量大、規(guī)??蓴U展性強、系統(tǒng)容錯能力強和網絡堵塞概率低等特性,為大規(guī)模數(shù)據的存儲提供了良好的保障,是處理大規(guī)模數(shù)據集的合適平臺。

3 用戶負荷聚類算法

電力數(shù)據具有體量大的特點,電力數(shù)據采集方式有很多,在不同環(huán)節(jié)產生海量電力大數(shù)據,通過對這些數(shù)據分析,可以更好的為用戶提供服務。智能電表的大規(guī)模普及使得對用戶用電負荷數(shù)據采集變的非常方便,本文針對電力大數(shù)據在用戶用電側電力負荷數(shù)據研究,分析用戶的用電行為特性,更合理地分配調度電力資源。

電力數(shù)據在收集、傳輸過程中,由于種種原因,最終從數(shù)據源導出后通常會產生部分數(shù)據重復,數(shù)據屬性值缺失等問題,在數(shù)據分析之前,需要對原始數(shù)據中可能引發(fā)不良影響的元數(shù)據進行清洗,包括分析數(shù)據、缺失值處理、異常值處理、去重處理、噪音數(shù)據處理等步驟。從數(shù)據源中獲取的用戶負荷數(shù)據含有時間屬性,智能電表采集數(shù)據的頻率為每15分鐘一次,通過查看采集在數(shù)據,發(fā)現(xiàn)存在用戶數(shù)據負荷數(shù)值缺失等情況。

電力用戶負荷曲線是時間序列格式,屬性在不同時間點,屬性值按照一定的順序線性展示,具有非平穩(wěn)性,波動幅度隨時間變化。用電負荷曲線很大程度上體現(xiàn)了用戶日常用電習慣,包括負荷種類,計量機電等分類方式。本文涉及用電負荷按時間周期分類方式,采用用戶日負荷曲線,二維空間坐標系中Y軸表示用戶用電負荷,X軸表示數(shù)據采集時間。時間序列分析算法采用傳統(tǒng)靜態(tài)數(shù)據聚類算法無法勝任。

凝聚式層次聚類算法在電力行業(yè)用電負荷預測中也有應用,采用層次結構作為算法輸出結果,將數(shù)據集中節(jié)點當做簇,層次聚類算法通常利用樹狀圖的形式展示結果。基于歐式距離的聚類算法將負荷曲線點間的幾何平均距離作為對象相似性判斷標準,易造成用電負荷劇烈不準確。本文通過將DTW聚類算法應用于云計算平臺,對電力大數(shù)據進行聚類。

4 實驗結果分析

電力大數(shù)據與Hadoop結合已有很多應用,研究通過運用HDFS存儲智能電網數(shù)據,對電力數(shù)據分析預測,本文對電力用戶負荷數(shù)據進行聚類分析,通過Hadoop平臺進行分布式計算,快速得出結果,提高數(shù)據分析的時效性。

實驗采用主機服務器搭建Hadoop集群實驗,在Cent0S系統(tǒng)解壓下載好的JDK,為使集群中NameNode節(jié)點通信方便,本文采用JournalNode方式,節(jié)點用作其他服務。主備NameNode節(jié)點切換方式為手動自動,實驗采用簡單手動切換模式。安裝R語言及相關R包完成實驗環(huán)境搭設。在R語言控制臺可進行數(shù)據分析。通過比較序列時間維度拉升操作,使用DTW算法找到時間序列匹配模式。DTW層次聚類法具有較高準確性,但執(zhí)行時需生成鄰近矩陣,如直接對電力大數(shù)據應用DTW層次聚類算法時間復雜度高,通過借鑒Srinath對亞馬遜客戶數(shù)據聚類分析法得出DTW層次聚類算法。

DTW層析聚類算法需通過構建時間序列點距離矩陣,首先對從全部電力負荷數(shù)據中隨機抽樣,將電力負荷數(shù)據部署到Hadoop集群的HDFS上,計算完整的負荷數(shù)據與抽樣數(shù)據聚類中心DTW距離,對數(shù)據排列歸并得到負荷數(shù)據聚類結果。方案解決了對大數(shù)據進行DTW層次聚類分析高復雜度的不足,數(shù)據使用廣東省某一區(qū)域電網大用戶工作日的日負荷曲線數(shù)據,通過使用DTW層次聚類算法分析歷史數(shù)據得到用戶用電負荷特征,縱坐標為負荷值,橫坐標為96個采集點。負荷曲線特點體現(xiàn)為平均負荷值較大,工作時間從凌晨至早上;平均復合值適中,一天出現(xiàn)三個波峰;除了固定時段平均負荷值出現(xiàn)波谷以外,全天都維持比較高的功率。

5 結語

在全球信息化時代浪潮下,如何利用大數(shù)據技術為生活帶來更大效益成為當下熱門課題。本文對電力大數(shù)據挖掘進行深入研究,對用戶電力負荷曲線聚類算法對比提出Hadoop平臺分析解決方案。將DTW層次聚類算法應用于Hadoop分布式計算平臺對電力大數(shù)據分析,能夠提高聚類分析結果的準確性和時效性。

猜你喜歡
分布式計算用電數(shù)據挖掘
改進支持向量機在特征數(shù)據挖掘中的智能應用
探討人工智能與數(shù)據挖掘發(fā)展趨勢
基于事故數(shù)據挖掘的AEB路口測試場景
用電安全要注意
軟件工程領域中的異常數(shù)據挖掘算法
基于云計算的大數(shù)據處理與分析綜述
基于云計算的移動學習平臺設計與實現(xiàn)
云計算中MapReduce分布式并行處理框架的研究與搭建
學習用電小知識