肖偉
(國(guó)網(wǎng)湖南省電力有限公司邵陽(yáng)供電分公司,湖南 邵陽(yáng) 422000)
就實(shí)際狀況而言,當(dāng)前電力企業(yè)的數(shù)據(jù)源通常來(lái)自于電能使用以及電力生產(chǎn)過(guò)程中的調(diào)度、用電、配電、變電、輸電以及發(fā)電等不同環(huán)節(jié);從總體上來(lái)看,一般能夠劃分成三大類;其中包括:(1)電力企業(yè)日常管理過(guò)程中的相關(guān)數(shù)據(jù);(2)電力企業(yè)日常營(yíng)銷過(guò)程中的相關(guān)數(shù)據(jù),包括用電客戶、售電量以及交易電價(jià)等不同方面的數(shù)據(jù);(3)電網(wǎng)日常運(yùn)行過(guò)程中與設(shè)備監(jiān)測(cè)或者監(jiān)測(cè)過(guò)程中產(chǎn)生的相關(guān)數(shù)據(jù)。借助各種智能終端設(shè)備,如智能電表等能夠收集電力系統(tǒng)日常運(yùn)行過(guò)程中相關(guān)的實(shí)時(shí)數(shù)據(jù)信息,并能夠自動(dòng)對(duì)收集的電力大數(shù)據(jù)實(shí)施全面的分析、處理與管理,從而實(shí)現(xiàn)電網(wǎng)實(shí)時(shí)監(jiān)控的目標(biāo)。
大數(shù)據(jù)集成及管理技術(shù)能夠顯著提高電力企業(yè)的運(yùn)營(yíng)效率并優(yōu)化客戶體驗(yàn)。對(duì)于電力企業(yè)而言,運(yùn)營(yíng)效率主要涉及支撐功能優(yōu)化、資產(chǎn)管理、需求預(yù)測(cè)、產(chǎn)品與網(wǎng)絡(luò)管理以及收益保證等方面的內(nèi)容。而通過(guò)大數(shù)據(jù)集成及管理技術(shù)對(duì)客戶關(guān)系進(jìn)行優(yōu)化、定制優(yōu)惠服務(wù)政策、創(chuàng)新主動(dòng)營(yíng)銷策略,能夠優(yōu)化客戶體驗(yàn)[1]。以實(shí)際案例來(lái)看,某電力公司使用大數(shù)據(jù)集成及管理技術(shù)發(fā)現(xiàn),當(dāng)停電之后,若是恢復(fù)供電的實(shí)踐可以比用戶預(yù)期的時(shí)間提前十分鐘,則客戶反饋的滿意度最高;但是,如果電力系統(tǒng)恢復(fù)供電的時(shí)間比用戶預(yù)期的時(shí)間早兩個(gè)多小時(shí),則會(huì)降低客戶的滿意度。而客戶滿意度直接決定了客戶的留存率。事實(shí)說(shuō)明,電力企業(yè)使用大數(shù)據(jù)集成及管理技術(shù)能夠降低客戶的流失率,從而降低成本損失[2]。
用電客戶可以通過(guò)永洪一站式大數(shù)據(jù)分析平臺(tái),把大量詳細(xì)的數(shù)據(jù)信息上報(bào)給電力企業(yè)業(yè)務(wù)部門,之后由業(yè)務(wù)部門自動(dòng)完成數(shù)據(jù)分析、管理、應(yīng)用等工作。通過(guò)對(duì)電能信息采集、電能計(jì)量、電費(fèi)管理、客戶服務(wù)、市場(chǎng)和綜合管理、新興業(yè)務(wù)以及有序用電等不同方面的分析,企業(yè)管理人員能夠全面掌握電力營(yíng)銷服務(wù)工作落實(shí)的實(shí)時(shí)狀況,從而有效監(jiān)測(cè)營(yíng)銷稽查工作指標(biāo)、新興業(yè)務(wù)工作質(zhì)量指標(biāo)、有效用電落實(shí)、能效管理成效、智能電表、電費(fèi)管理以及客戶服務(wù)等各項(xiàng)營(yíng)銷服務(wù)工作實(shí)施狀況[3]。
(1)電力系統(tǒng)安全智能預(yù)警廣泛應(yīng)用在電力調(diào)控中心中,能夠?qū)︻A(yù)案過(guò)程進(jìn)行科學(xué)評(píng)估。而面對(duì)人們對(duì)于電能需求的進(jìn)一步增加,傳統(tǒng)預(yù)警方式已經(jīng)無(wú)法滿足電力系統(tǒng)發(fā)展需求。隨著大數(shù)據(jù)技術(shù)的應(yīng)用,其能夠借助數(shù)據(jù)分類處理以及儲(chǔ)存技術(shù),進(jìn)一步提高數(shù)據(jù)處理的時(shí)效性;同時(shí)還能夠構(gòu)建先進(jìn)的智能預(yù)警系統(tǒng),從而實(shí)現(xiàn)全網(wǎng)的一體化方針,并能夠?qū)Ω鞣N類型的故障問(wèn)題實(shí)施定位與追蹤,還能夠?qū)﹄娋W(wǎng)運(yùn)行安全實(shí)施合理科學(xué)的評(píng)估,為當(dāng)前電力調(diào)控系統(tǒng)的全面發(fā)展奠定了良好的基礎(chǔ)[4]。(2)廣域源荷互動(dòng)的優(yōu)化調(diào)度在當(dāng)前電網(wǎng)調(diào)控系統(tǒng)之中,在風(fēng)電、光伏等間歇性新能源的并網(wǎng)容量超過(guò)一定的比例之后,若是單單依靠發(fā)電機(jī)組對(duì)電網(wǎng)實(shí)時(shí)調(diào)控,則很難保持用電平衡狀態(tài),且無(wú)法發(fā)揮電網(wǎng)調(diào)控的真正作用。而隨著大數(shù)據(jù)技術(shù)在電力調(diào)控中應(yīng)用深度與廣度的提高,使得具備海量數(shù)據(jù)的需求量可被控制資源信息也被慢慢應(yīng)用到電網(wǎng)調(diào)控計(jì)劃方案中,并可以借助大數(shù)據(jù)處理技術(shù),對(duì)電力系統(tǒng)日常運(yùn)行過(guò)程中的調(diào)控運(yùn)行信息實(shí)施在線處理與實(shí)時(shí)儲(chǔ)存,切實(shí)提高了電網(wǎng)的調(diào)控能力,從而實(shí)現(xiàn)了資源的優(yōu)化配置[5]。
針對(duì)當(dāng)前電力調(diào)控系統(tǒng)具備的安全性要求高、高效訪問(wèn)、多種類以及數(shù)據(jù)大容量等特征,筆者結(jié)合相關(guān)工作經(jīng)驗(yàn),將研究對(duì)象定位以調(diào)控海量數(shù)據(jù)管理為中心的數(shù)據(jù)集成及管理技術(shù);具體包括研究滿足智能電網(wǎng)大容量、多種類數(shù)據(jù)存儲(chǔ)需求的不同數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)以及研究分布式存儲(chǔ)與管理技術(shù)。
電力調(diào)控大數(shù)據(jù)往往包括模型數(shù)據(jù)、歷史數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù);語(yǔ)音數(shù)據(jù)、DTS教案、波形文件、電網(wǎng)綜合故障報(bào)告、CASE斷面等非結(jié)構(gòu)化數(shù)據(jù)以及高頻變化的時(shí)間序列數(shù)據(jù)。不同的業(yè)務(wù)對(duì)數(shù)據(jù)訪問(wèn)性能的要求也存在差別。一個(gè)數(shù)據(jù)一般不能滿足全部需求;因此,應(yīng)當(dāng)研究將不同種類數(shù)據(jù)庫(kù)技術(shù)相結(jié)合的數(shù)據(jù)庫(kù)管理技術(shù),使其能夠適應(yīng)各類特點(diǎn)與場(chǎng)景,相互補(bǔ)充。數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)關(guān)鍵在于保證使用高效、科學(xué)、正確的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),確保不同種類的運(yùn)行數(shù)據(jù)能夠正確劃分到與之對(duì)應(yīng)類型的數(shù)據(jù)庫(kù)中,符合相對(duì)應(yīng)的設(shè)計(jì)原則;這樣就能夠最大限度對(duì)程序應(yīng)用的有關(guān)工作進(jìn)行簡(jiǎn)化,包括代碼、報(bào)表以及查詢等。電力調(diào)控系統(tǒng)中的數(shù)據(jù)類型大致可以劃分成四大類,其中有文檔資料、基礎(chǔ)數(shù)據(jù)、電網(wǎng)模型以及運(yùn)行數(shù)據(jù);這些數(shù)據(jù)都存儲(chǔ)在分布式文件庫(kù)、關(guān)系數(shù)據(jù)庫(kù)以及時(shí)序數(shù)據(jù)庫(kù)中[7]。
2.2.1 Hadoop系統(tǒng)結(jié)構(gòu)
在分布式系統(tǒng)中,Hadoop是一個(gè)基礎(chǔ)結(jié)構(gòu);其實(shí)現(xiàn)了分布式的文件系統(tǒng)(下文簡(jiǎn)稱為HDFS)。HDFS可以為巨量數(shù)據(jù)提供存儲(chǔ)空間,其是Hadoop結(jié)構(gòu)中至關(guān)重要的一項(xiàng)核心設(shè)計(jì)。
HDFS具有諸多優(yōu)點(diǎn),其中包括:(1)能夠通過(guò)用流的形式對(duì)文件系統(tǒng)中的數(shù)據(jù)進(jìn)行訪問(wèn);(2)其提供了高吞吐量,從而實(shí)現(xiàn)了應(yīng)用程序數(shù)據(jù)的訪問(wèn);(3)具有較高的容錯(cuò)性。
除HDFS之外,對(duì)于Hadoop結(jié)構(gòu)而言,其核心設(shè)計(jì)還包括MapReduce。
2.2.2 Hive工具
Hive是以Hadoop為基礎(chǔ)的一種數(shù)據(jù)倉(cāng)庫(kù)工具;Hive日常運(yùn)行過(guò)程中需要得到Spark、TEZ、MapReduce的支持,同時(shí)使用HDFS當(dāng)作是數(shù)據(jù)存儲(chǔ)。其主要優(yōu)勢(shì)在于:(1)支持?jǐn)?shù)據(jù)的優(yōu)化與挖掘;(2)支持?jǐn)U展與輸入格式的耦合;(3)能夠提供與SQL相似的查詢功能,并當(dāng)作是標(biāo)準(zhǔn)的分析工具;(4)能夠在不用的文件或者數(shù)據(jù)格式上直接進(jìn)行查詢;(5)兼容maps、lists以及sturcts等不用種類結(jié)構(gòu)化數(shù)據(jù)。
針對(duì)大量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)問(wèn)題,MapReduce在及時(shí)解決SQL查詢問(wèn)題方面,難度較大。這是由于Hive的操作接口通常使用SQL語(yǔ)法,提供了快速開發(fā)的能力,省去了編寫MapReduce的程序,大幅降低了開發(fā)技術(shù)人員的學(xué)習(xí)成本,并使Hive的功能得到一定的擴(kuò)展。
2.2.3 HBase數(shù)據(jù)庫(kù)
作為開源數(shù)據(jù)庫(kù)的一種,HBase主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化的數(shù)據(jù),其主要特征包括面向列以及分布式。HBase通常是以Hadoop分布式文件系統(tǒng)為基礎(chǔ),從而實(shí)現(xiàn)了讀寫數(shù)據(jù)的實(shí)時(shí)性,具有較高的可靠性。而HBase的優(yōu)點(diǎn)在于:(1)不含有確定的索引,能夠自動(dòng)分區(qū),并可以自動(dòng)處理新節(jié)點(diǎn)或者線性擴(kuò)展,具有較高的容錯(cuò)率;(2)因?yàn)槭且訦DFS文件系統(tǒng)為末班,所以具備高并發(fā)讀寫操作功能;(3)能夠?qū)?shù)據(jù)進(jìn)行自動(dòng)切分,顯著提高數(shù)據(jù)存儲(chǔ)的水平可伸縮性;(4)列動(dòng)態(tài)數(shù)據(jù)增加,同時(shí)只有在存儲(chǔ)數(shù)據(jù)之后,空間容量才會(huì)變化。而其缺點(diǎn)也十分明顯,包括:(5)當(dāng)HRegion在進(jìn)行分裂或者壓縮的過(guò)程中,會(huì)出現(xiàn)暫時(shí)性讀寫堵塞的現(xiàn)象;(6)不具備條件查詢功能,智能通過(guò)RowKey進(jìn)行查詢。
2.3.1 電力調(diào)控大數(shù)據(jù)系統(tǒng)中分結(jié)構(gòu)化類型數(shù)據(jù)的存儲(chǔ)
針對(duì)前文所述的非結(jié)構(gòu)化類型的數(shù)據(jù),這些數(shù)據(jù)除必須的存儲(chǔ)之外,部分?jǐn)?shù)據(jù)還要求能夠進(jìn)行數(shù)據(jù)備份或者數(shù)據(jù)共享。基于此,需要利用HDFS分布式文件系統(tǒng)來(lái)對(duì)這類非結(jié)構(gòu)化類型的數(shù)據(jù)進(jìn)行存儲(chǔ)。其一方面能夠切實(shí)滿足巨量數(shù)據(jù)存儲(chǔ)的實(shí)際需求,另一方面也可以提供較高的吞吐量來(lái)對(duì)這部分非結(jié)構(gòu)化類型的數(shù)據(jù)進(jìn)行訪問(wèn)。
2.3.2 電力調(diào)控大數(shù)據(jù)系統(tǒng)統(tǒng)一數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)
對(duì)于電力調(diào)控大數(shù)據(jù)系統(tǒng)而言,其所包含的數(shù)據(jù)倉(cāng)庫(kù)通過(guò)需要借助HDFS分布式文件系統(tǒng)進(jìn)行存儲(chǔ),同時(shí)通過(guò)Hive工具實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中相關(guān)數(shù)據(jù)的管理與查詢。這是因?yàn)镠DFS文件系統(tǒng)可以實(shí)現(xiàn)巨量數(shù)據(jù)的存儲(chǔ),同時(shí)使用Hive如同使用普通的關(guān)系型數(shù)據(jù)庫(kù)相同,數(shù)據(jù)操作十分便捷。
2.3.3 電力調(diào)控大數(shù)據(jù)系統(tǒng)的指標(biāo)管控應(yīng)用相關(guān)數(shù)據(jù)
就當(dāng)前實(shí)際狀況而言,電力調(diào)控大數(shù)據(jù)指標(biāo)一般涉及同業(yè)對(duì)標(biāo)指標(biāo)、專業(yè)管理指標(biāo)、關(guān)鍵績(jī)效指標(biāo)以及電網(wǎng)運(yùn)行分析指標(biāo)等。指標(biāo)定義的數(shù)據(jù)通長(zhǎng)包括業(yè)務(wù)處室、計(jì)算周期、計(jì)算公式以及維度等方面,存儲(chǔ)對(duì)象一般為MySQL數(shù)據(jù)庫(kù),其優(yōu)勢(shì)在于查詢效率較高。指標(biāo)計(jì)算所涉及的分鐘級(jí)量測(cè)數(shù)據(jù)往往存儲(chǔ)最近一年內(nèi)的全部數(shù)據(jù)。量測(cè)數(shù)據(jù)的典型特征就是數(shù)據(jù)量大,同時(shí)指標(biāo)計(jì)算應(yīng)當(dāng)對(duì)量測(cè)數(shù)據(jù)實(shí)施查詢操作。基于此,一般需要通過(guò)HBase數(shù)據(jù)庫(kù)對(duì)量測(cè)數(shù)據(jù)進(jìn)行儲(chǔ)存。這是由于HBase數(shù)據(jù)庫(kù)是以HDFS文件系統(tǒng)為基礎(chǔ),具有存儲(chǔ)巨量數(shù)據(jù)的功能。不僅如此,HBase數(shù)據(jù)庫(kù)和Hive工具相比,前者數(shù)據(jù)查詢的效率顯著高于后者[8]。
綜上所述,筆者結(jié)合實(shí)際工作經(jīng)驗(yàn)并查閱相關(guān)資料,對(duì)電力調(diào)控大數(shù)據(jù)集成及管理技術(shù)展開詳細(xì)論述。首先分析了大數(shù)據(jù)集成及管理技術(shù)的重要作用;然后,闡述了電力調(diào)控大數(shù)據(jù)集成及管理技術(shù)中電力調(diào)控大數(shù)據(jù)的存儲(chǔ)需求;接著詳細(xì)討論了電力調(diào)控大數(shù)據(jù)集成及管理技術(shù)中幾個(gè)關(guān)鍵基礎(chǔ);最后,介紹了不同類型數(shù)據(jù)的對(duì)應(yīng)存儲(chǔ)方法。望通過(guò)本文的探究,給同行一些啟發(fā)與參考。