謝珍貴,陳振宇
(1.福建水利電力職業(yè)技術(shù)學(xué)院電力工程系,福建 永安 366000;2.廣東財(cái)經(jīng)大學(xué)信息學(xué)院,廣東 廣州 510320)
一個(gè)基于物聯(lián)網(wǎng)—云計(jì)算—大數(shù)據(jù)開發(fā)的巨大產(chǎn)業(yè)鏈即將形成,一個(gè)新的推動世界經(jīng)濟(jì)發(fā)展的科技革命將會誕生,國際經(jīng)濟(jì)即將進(jìn)入一個(gè)新的發(fā)展階段.自2008年《自然》雜志推出一期名為“大數(shù)據(jù)”的封面文章,詳細(xì)講述了“數(shù)據(jù)”在數(shù)學(xué)、物理、生物以及社會經(jīng)濟(jì)中所扮演愈加重要的角色以來,美國政府在2009年由總統(tǒng)科學(xué)技術(shù)顧問委員會、能源部、國防部、參議院和數(shù)十所大學(xué)的著名教授醞釀,在2012年4月發(fā)表了“大數(shù)據(jù)開發(fā)計(jì)劃(Big data research and development initiative)”,很快在國際上掀起了新一輪信息革命的熱潮[1].在全球經(jīng)濟(jì)經(jīng)歷了近10年危機(jī)的情況下,經(jīng)過多年的醞釀,信息處理技術(shù)和各行業(yè)企業(yè)信息化程度已經(jīng)達(dá)到一定高度,在世界經(jīng)濟(jì)面臨何處去、如何突破困境的拷問時(shí),大數(shù)據(jù)開發(fā)將給世界經(jīng)濟(jì)復(fù)蘇帶來一線曙光,許多經(jīng)濟(jì)學(xué)家將它稱為“大數(shù)據(jù)時(shí)代”的到來.2013年11月,我國首個(gè)行業(yè)——電力行業(yè)發(fā)布了《中國電力大數(shù)據(jù)發(fā)展白皮書》[2].中國電力出版社策劃總編肖蘭在發(fā)布儀式上評價(jià)說:“《中國電力大數(shù)據(jù)發(fā)展白皮書》是我國首個(gè)行業(yè)大數(shù)據(jù)白皮書,首次提出了電力大數(shù)據(jù)的定義和特征.”電力信息化專委會作為我國唯一的電力行業(yè)信息化專業(yè)協(xié)會,充分聽取了行業(yè)內(nèi)外專家意見,完善了白皮書編制思路,對推動我國電力大數(shù)據(jù)事業(yè)的發(fā)展、實(shí)現(xiàn)我國電力科學(xué)跨越具有極大的現(xiàn)實(shí)意義.
電力系統(tǒng)的數(shù)據(jù)已告別以往數(shù)據(jù)類型較為單一、增長較為緩慢的時(shí)代,隨著SG-ERP 和智能電網(wǎng)建設(shè)的開展和深入,數(shù)據(jù)量以幾何級數(shù)增長,數(shù)據(jù)來源也更加復(fù)雜和多樣(結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化).如何充分利用這些巨量的多樣化數(shù)據(jù),對其進(jìn)行深入分析以便提供大量的高附加值服務(wù),需要應(yīng)用大數(shù)據(jù)的理念與技術(shù).
在電力行業(yè),隨著堅(jiān)強(qiáng)智能電網(wǎng)建設(shè)以及“三集五大”管理體系的決策部署,企業(yè)信息化程度不斷提高,數(shù)據(jù)量正在迅速膨脹,數(shù)據(jù)類型逐漸多樣化,電力大數(shù)據(jù)的環(huán)境正在形成.但在數(shù)據(jù)采集方面存在不足,如采集的數(shù)據(jù)質(zhì)量不高,采集過程不夠規(guī)范,采集數(shù)據(jù)重復(fù),管控相對滯后等.為了后續(xù)工作的更加有效,有必要在源頭上對要采集的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范,避免重復(fù)、遺漏現(xiàn)象的發(fā)生,提高后續(xù)對數(shù)據(jù)處理的效率.
針對上述問題,應(yīng)對策略是建立統(tǒng)一的數(shù)據(jù)質(zhì)量評價(jià)指標(biāo)體系,甚至是數(shù)據(jù)質(zhì)量評價(jià)模型[3],分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的主要影響因素,按照數(shù)據(jù)的一致性、準(zhǔn)確性、完整性、及時(shí)性4 個(gè)關(guān)鍵特性建立數(shù)據(jù)質(zhì)量評價(jià)指標(biāo),夯實(shí)數(shù)據(jù)基礎(chǔ),提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)的準(zhǔn)確、及時(shí)、有效和可信,為數(shù)據(jù)的集成和挖掘應(yīng)用提供有力保障.同時(shí),局部數(shù)據(jù)與全局?jǐn)?shù)據(jù)、非共享與共享數(shù)據(jù)應(yīng)實(shí)行分級管理,切實(shí)做好數(shù)據(jù)備份、災(zāi)難恢復(fù)等工作機(jī)制,實(shí)現(xiàn)實(shí)時(shí)監(jiān)控、在線考評,強(qiáng)化數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)事前監(jiān)測、事中控制、事后評價(jià)、問題整改,提高決策分析依據(jù)的準(zhǔn)確性和實(shí)用性.
電力大數(shù)據(jù)具有4V 特點(diǎn),即Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型多)、Velocity(處理速度快)和Value(價(jià)值密度低).除了數(shù)據(jù)量龐大之外,第二個(gè)特點(diǎn)就是數(shù)據(jù)類型多,不但有結(jié)構(gòu)化數(shù)據(jù),還有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù);不但有數(shù)值、文本、圖形信息,還有音頻、視頻等信息.據(jù)IDC 公司統(tǒng)計(jì),2011年全球數(shù)據(jù)總量的75﹪來自于非結(jié)構(gòu)化數(shù)據(jù),至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例超過75﹪.
針對如此海量、復(fù)雜的電力數(shù)據(jù)信息,應(yīng)對的策略是通過構(gòu)建NoSQL 數(shù)據(jù)庫[4]、HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)及實(shí)時(shí)數(shù)據(jù)庫等3 種存儲方式,從存儲結(jié)構(gòu)上初步實(shí)現(xiàn)信息與應(yīng)用系統(tǒng)的分類、融合、互動,做到信息、能量與業(yè)務(wù)流的高度一體化,并根據(jù)信息處理的技術(shù)要求來提高數(shù)據(jù)的存儲管理能力[5].
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫具有非常好的通用性和非常高的穩(wěn)定性.毫無疑問,對于絕大多數(shù)的應(yīng)用來說它都是最有效的解決方案,特別是在處理傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)方面.但在處理大容量、非結(jié)構(gòu)化數(shù)據(jù)上,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫顯得不足.這說明單純使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已無法適應(yīng)大數(shù)據(jù)時(shí)代的要求.NoSQL 數(shù)據(jù)庫屬于非關(guān)系型、分布式數(shù)據(jù)存儲系統(tǒng),它讓數(shù)據(jù)庫具備了非關(guān)系、可水平擴(kuò)展、可分布和開源等特點(diǎn).NoSQL數(shù)據(jù)庫可通過集成分布式系統(tǒng)、集群、分區(qū)等技術(shù)實(shí)現(xiàn)分布式存儲,以Key -Value 數(shù)據(jù)格式、面向文檔方式以及圖數(shù)據(jù)方式存儲,具有極高的并發(fā)讀寫性能、良好的查詢性能和彈性的擴(kuò)展能力.由于未來數(shù)據(jù)發(fā)展趨勢是半結(jié)構(gòu)化數(shù)據(jù)(電子郵件、XML 等)和非結(jié)構(gòu)化數(shù)據(jù)(文檔、圖片、視頻等)占用的比重越來越高,針對每秒數(shù)萬次的讀寫請求,NoSQL 數(shù)據(jù)庫應(yīng)付自如.從結(jié)構(gòu)上看,NoSQL 數(shù)據(jù)存儲系統(tǒng)有兩種架構(gòu):master -slave 結(jié)構(gòu)和P2P 環(huán)形結(jié)構(gòu).Master - Slave 結(jié)構(gòu)的系統(tǒng)設(shè)計(jì)簡單,可控性好,通常采用基于水平分區(qū)實(shí)現(xiàn)數(shù)據(jù)分布,將master 節(jié)點(diǎn)和slave 節(jié)點(diǎn)的功能分開,以減輕節(jié)點(diǎn)的功能負(fù)載,由master節(jié)點(diǎn)維護(hù)其管理的slave 節(jié)點(diǎn),但master 中心節(jié)點(diǎn)易成為瓶頸.P2P 環(huán)形結(jié)構(gòu)的系統(tǒng)無中心節(jié)點(diǎn),各節(jié)點(diǎn)平等,自協(xié)調(diào)性好,擴(kuò)展方便,基于Hash 分布數(shù)據(jù),負(fù)載均衡性好,但不利于支持范圍查詢,并且系統(tǒng)設(shè)計(jì)復(fù)雜,可控性較差.由于上述兩種體系結(jié)構(gòu)有很大差別,它們所采用的支持技術(shù)也不同,導(dǎo)致了不同體系結(jié)構(gòu)的系統(tǒng)所支持功能也有一定的局限性.Cloudy 為用戶提供了一個(gè)可配置采用master-slave 或DHT 體系結(jié)構(gòu)的Demo 系統(tǒng).在電力系統(tǒng)中,支持?jǐn)?shù)據(jù)存儲系統(tǒng)的體系結(jié)構(gòu)應(yīng)結(jié)合P2P 分布式結(jié)構(gòu)和master -slave 集中式結(jié)構(gòu)兩者的優(yōu)勢,如Chord 和master-slave 的結(jié)合、CAN 與master -slave 的結(jié)合等,側(cè)重采用面向組件的靈活可配置的體系結(jié)構(gòu),結(jié)合兩者的優(yōu)勢,綜合考慮數(shù)據(jù)存儲的全局性和局部性.
HDFS 是一個(gè)分布式文件系統(tǒng).HDFS 有高容錯(cuò)性特點(diǎn),可以部署在低廉的硬件上.HDFS 放寬了POSIX 的要求,這樣可實(shí)現(xiàn)以流的形式訪問文件系統(tǒng)中的數(shù)據(jù),提供高吞吐量,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序.在時(shí)效性要求較高的場合,可以使用實(shí)時(shí)數(shù)據(jù)庫提高對數(shù)據(jù)的處理速度.必須對系統(tǒng)中的大數(shù)據(jù)根據(jù)性能和分析處理的要求進(jìn)行分類存儲:對核心業(yè)務(wù)數(shù)據(jù)使用傳統(tǒng)的并行數(shù)據(jù)倉庫系統(tǒng);對非結(jié)構(gòu)化的數(shù)據(jù)采用NoSQL 數(shù)據(jù)庫系統(tǒng),對大量的歷史和非結(jié)構(gòu)化數(shù)據(jù)采用HDFS 分布式文件系統(tǒng);對處理速度與時(shí)效性要求高的數(shù)據(jù)采用實(shí)時(shí)數(shù)據(jù)庫系統(tǒng).
未來智能電網(wǎng)要求貫通發(fā)電、輸電、變電、配電、用電、調(diào)度等多個(gè)環(huán)節(jié),實(shí)現(xiàn)信息的全面采集、流暢傳輸和高效處理,支撐電力流、信息流、業(yè)務(wù)流的高度一體化.目前電力系統(tǒng)中仍存在監(jiān)測監(jiān)控、能量管理、配電管理、市場運(yùn)營等各類信息系統(tǒng),它們之間有些相互獨(dú)立,數(shù)據(jù)信息不能共享[6].同時(shí),傳統(tǒng)數(shù)據(jù)分析以結(jié)構(gòu)化數(shù)據(jù)分析為主,業(yè)務(wù)分析更是以被動式信息接受為主.大數(shù)據(jù)時(shí)代下,隨著數(shù)據(jù)的累積和增加,可做的分析和對比也越來越多.通過對大量數(shù)據(jù)進(jìn)行分析,揭示數(shù)據(jù)之間隱藏的關(guān)系、模式和趨勢,通過結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的融合關(guān)聯(lián)分析,實(shí)現(xiàn)文本分析、數(shù)據(jù)挖掘、圖形分析、空間分析等數(shù)據(jù)分析模式,為決策者提供不同角度、不同形式的分析判斷依據(jù).
因此,首要措施是實(shí)現(xiàn)大規(guī)模多源異構(gòu)信息的整合,解決系統(tǒng)間信息孤島的現(xiàn)象,同時(shí)加強(qiáng)對不同信息的分類分析和處理能力.
規(guī)范采集數(shù)據(jù)的源頭,提高采集數(shù)據(jù)的質(zhì)量,實(shí)際上就解決了數(shù)據(jù)的大量冗余,保證了數(shù)據(jù)的唯一性;建立分級、分類的存儲系統(tǒng),實(shí)際上就對原數(shù)據(jù)進(jìn)行了分類預(yù)處理.借助于云計(jì)算平臺,實(shí)現(xiàn)對數(shù)據(jù)的抽取、轉(zhuǎn)換,比如通過MapReduce 的編程模型對輸入的數(shù)據(jù)按行并行處理,對每個(gè)文件的每一行數(shù)據(jù)進(jìn)行操作.在MapReduce 的操作函數(shù)中加入對數(shù)據(jù)格式的檢查,實(shí)現(xiàn)數(shù)據(jù)的不完整處理、不一致處理以及噪音處理,完成數(shù)據(jù)清洗,實(shí)現(xiàn)數(shù)據(jù)不一致轉(zhuǎn)換、數(shù)據(jù)粒度轉(zhuǎn)換和商務(wù)規(guī)則計(jì)算[7-9].MapReduce 中的數(shù)據(jù)轉(zhuǎn)換模塊(ETL)在沒有大型并行數(shù)據(jù)庫時(shí)也可以提高其對數(shù)據(jù)的并行訪問速度,降低系統(tǒng)操作成本和對大型數(shù)據(jù)庫的維護(hù)成本.在處理過程中,無需關(guān)注數(shù)據(jù)分散、任務(wù)分配、數(shù)據(jù)收集等子任務(wù),可在不熟悉分布式系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)分布式數(shù)據(jù)處理.
面對海量的圖片、視頻等智能電網(wǎng)數(shù)據(jù),如何在有限的屏幕空間下,以一種直觀、容易理解的可視化方式展現(xiàn)給用戶,也是一項(xiàng)非常有挑戰(zhàn)性的工作.可視化方法已被證明為一種解決大規(guī)模數(shù)據(jù)分析的有效方法,并在實(shí)踐中得到廣泛應(yīng)用.它是通過一系列復(fù)雜的算法將數(shù)據(jù)繪制成高精度、高分辨率的圖片,并提供交互工具,有效利用人的視覺系統(tǒng),并允許實(shí)時(shí)改變數(shù)據(jù)處理和算法參數(shù),對數(shù)據(jù)進(jìn)行觀察和定性及定量分析,通過可視化算法的可擴(kuò)展性、并行圖像合成算法、重要信息的提取和顯示等技術(shù)來實(shí)現(xiàn)對該類型數(shù)據(jù)的處理.
根據(jù)上述數(shù)據(jù)采集、存儲、處理的思想,借助于云計(jì)算平臺,可實(shí)現(xiàn)對數(shù)據(jù)的集中處理,構(gòu)建該系統(tǒng)的模型如圖1所示.
圖1 數(shù)據(jù)采集、存儲、處理模型
如何駕馭大數(shù)據(jù),如何在海量數(shù)據(jù)中挖掘有價(jià)值的信息是重點(diǎn).因此,企業(yè)應(yīng)專注于數(shù)據(jù)中隱藏的價(jià)值,通過應(yīng)用大數(shù)據(jù)技術(shù)分析,充分挖掘數(shù)據(jù)的核心價(jià)值,不斷優(yōu)化業(yè)務(wù)流程,降低管理成本,輔助企業(yè)做出科學(xué)的決策,為企業(yè)的持續(xù)創(chuàng)新與發(fā)展積蓄力量.
目前電網(wǎng)的業(yè)務(wù)數(shù)據(jù)大致分為3 類:
一是電力企業(yè)生產(chǎn)數(shù)據(jù),如發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù).對于電力企業(yè)的生產(chǎn)數(shù)據(jù),可以通過一定的關(guān)聯(lián)規(guī)則,采用新型挖掘技術(shù)獲取信息.這在檢測故障、恢復(fù)電網(wǎng)運(yùn)行穩(wěn)定方面,以往的研究中也取得過較好的成果.如文獻(xiàn)[10]中,采用基于FP-T 的多層關(guān)聯(lián)規(guī)則并發(fā)挖掘技術(shù),利用混沌與分形數(shù)據(jù)、約簡的基本原理,實(shí)現(xiàn)電力系統(tǒng)高頻暫態(tài)波形的特征識別等.文獻(xiàn)[11]采用智能多代理技術(shù),借助廣域量測系統(tǒng)(WAMS),實(shí)現(xiàn)對大電力系統(tǒng)故障的快速分析、診斷,提高了廣域電網(wǎng)運(yùn)行的穩(wěn)定性;同時(shí),可利用最新數(shù)據(jù)挖掘技術(shù),在線計(jì)算輸送功率極限,實(shí)時(shí)考慮電壓等因素對功率極限的影響,從而合理設(shè)置系統(tǒng)輸出功率,有效平衡系統(tǒng)的安全性和經(jīng)濟(jì)性.
二是電力企業(yè)運(yùn)營數(shù)據(jù),如交易電價(jià)、售電量、用電客戶等方面的數(shù)據(jù).在電力營銷環(huán)節(jié),針對“大營銷”體系建設(shè),以客戶和市場為導(dǎo)向,借助于客戶服務(wù)、計(jì)量檢定配送業(yè)務(wù)屬地化管理的營銷管理體系和24 小時(shí)面向客戶的營銷服務(wù)系統(tǒng),通過數(shù)據(jù)分析改善服務(wù)模式,提高營銷能力和服務(wù)質(zhì)量.同時(shí),以分析型數(shù)據(jù)為基礎(chǔ),優(yōu)化現(xiàn)有營銷組織模式,科學(xué)配置計(jì)量、收費(fèi)和服務(wù)資源,構(gòu)建營銷稽查數(shù)據(jù)監(jiān)控分析模型.建立各種針對營銷的系統(tǒng)性算法模型庫,發(fā)現(xiàn)數(shù)據(jù)中存在的隱藏關(guān)系,為各級決策者提供多維、直觀、全面的分析預(yù)測數(shù)據(jù).
三是電力企業(yè)管理數(shù)據(jù),如ERP、一體化平臺、協(xié)同辦公等方面的數(shù)據(jù).如能充分利用這些來自配電、用電、客戶、天氣等數(shù)據(jù),經(jīng)過一定規(guī)則的轉(zhuǎn)換、整合,按照電力交易數(shù)據(jù)、氣候數(shù)據(jù)與客戶家庭年齡結(jié)構(gòu)、生活習(xí)慣等因素融合分析,了解客戶的用電行為,滿足客戶的差異化需求,通過探尋深層需求開辟新的增值業(yè)務(wù)空間,可以提供大量的高附加值服務(wù).這些增值服務(wù)將有利于電網(wǎng)安全檢測與控制(包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測),有利于電力企業(yè)進(jìn)行精細(xì)化運(yùn)營管理,實(shí)現(xiàn)更科學(xué)的需求管理.
[1]徐立,田文盛.大數(shù)據(jù)開發(fā)將引發(fā)新一輪信息革命[N].人民郵電,2012 -06 -22 (7).
[2]李勝永.掀起新一輪電力信息化高潮[N].中國電力報(bào),2013 -12 -05(7).
[3]張磊.油田數(shù)據(jù)質(zhì)量監(jiān)督與控制模型研究[D].大慶:東北石油大學(xué)碩士論文,2010.
[4]高丹丹.基于NoSQL 的電力系統(tǒng)大數(shù)據(jù)管理[J].科技創(chuàng)新導(dǎo)報(bào),2014(6):190.
[5]曹軍威,萬宇鑫,涂國煜,等.智能電網(wǎng)信息系統(tǒng)體系結(jié)構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2013,36(1):143 -167.
[6]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927 -935.
[7]曲朝陽,朱莉,張士林.基于Hadoop 的廣域測量系統(tǒng)數(shù)據(jù)處理[J].電力系統(tǒng)自動化,2013,37(4):92-96.
[8]曲朝陽,陳帥,楊帆,等.基于云計(jì)算技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性約簡方法[J].電力系統(tǒng)自動化,2014,38(8):67 -71.
[9]胡牧,李勇,孔震,等.數(shù)據(jù)拓?fù)浼捌湓陔娋W(wǎng)數(shù)據(jù)處理分析中的應(yīng)用[J].電力系統(tǒng)自動化,2013,37(3):83-86.
[10]何友全.數(shù)據(jù)挖掘方法及其在電力系統(tǒng)故障診斷中的應(yīng)用研究[D].成都:西南交通大學(xué)博士論文,2004.
[11]陳振宇.基于MAS 的廣域故障診斷及保護(hù)系統(tǒng)的研究[D].廣州:華南理工大學(xué)博士論文,2009.