孫豐杰,王承民,謝 寧
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
智能電網(wǎng)是利用現(xiàn)代網(wǎng)絡(luò)信息技術(shù)等實(shí)現(xiàn)電網(wǎng)設(shè)備間的數(shù)據(jù)信息交換,從而實(shí)現(xiàn)電網(wǎng)實(shí)時(shí)自動(dòng)化控制、智能調(diào)節(jié)、在線決策分析等功能的新型電網(wǎng)[1]。
智能電網(wǎng)的建設(shè)積累了海量數(shù)據(jù)資源,目前電力公司“用數(shù)據(jù)管理企業(yè),用信息驅(qū)動(dòng)業(yè)務(wù)”的需求日益迫切。而智能電網(wǎng)大數(shù)據(jù)具有4V特征,即數(shù)量大(Volume)、種類多(Variety)、速度快(Velocity)、價(jià)值密度低(Value)。傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)難以滿足需求,因此學(xué)者們提出了一系列大數(shù)據(jù)挖掘算法。
關(guān)聯(lián)規(guī)則挖掘算法由Agrawal等在文獻(xiàn)[2]中首先提出,該方法從大量歷史數(shù)據(jù)中尋找頻繁項(xiàng)或?qū)傩灾g的關(guān)聯(lián)性。現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法主要是Apriori算法及頻繁模式樹FP-Tree(Frequent Pattern-Tree)算法[3-4]。Apriori算法的主要缺點(diǎn)是需要尋找大量的侯選項(xiàng)目集,當(dāng)數(shù)據(jù)庫較大時(shí),存在組合爆炸問題,同時(shí),Apriori算法需要多次掃描數(shù)據(jù)庫,增加了計(jì)算的負(fù)擔(dān)。
針對(duì)Apriori算法的缺點(diǎn),J. Han提出了利用FP-Tree產(chǎn)生頻繁項(xiàng)集的方法[5-6]。FP-Tree算法將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到FP-Tree上,然后從初始后綴模式開始,構(gòu)造條件模式基,再形成條件FP-Tree,并遞歸地在該樹上進(jìn)行挖掘,其主要優(yōu)點(diǎn)體現(xiàn)在:不需要產(chǎn)生候選項(xiàng),僅需要構(gòu)造FP-Tree和條件FP-Tree,通過遞歸地訪問FP-Tree產(chǎn)生頻繁模式;對(duì)事務(wù)數(shù)據(jù)庫僅需2次遍歷,第1次遍歷產(chǎn)生頻繁1-項(xiàng)集,第2次遍歷用于創(chuàng)建FP-Tree,從而極大地降低了訪問數(shù)據(jù)庫的次數(shù)。FP-Tree算法存在的主要問題為:挖掘過程中需要不斷遞歸地生成“樹”,增加了時(shí)空復(fù)雜度;FP-Tree和條件FP-Tree每次都需要雙向遍歷數(shù)據(jù)庫,因此難以處理數(shù)據(jù)庫更新、維護(hù)問題。
鑒于目前FP-Tree關(guān)聯(lián)規(guī)則挖掘算法存在的問題,本文將提供頻繁項(xiàng)集的數(shù)據(jù)壓縮到FP-network上,通過形成關(guān)聯(lián)矩陣,進(jìn)行計(jì)算機(jī)存儲(chǔ)和挖掘。本文方法繼承了FP-Tree模型無需產(chǎn)生候選項(xiàng)以及不重復(fù)掃描數(shù)據(jù)庫的優(yōu)點(diǎn),同時(shí)克服了FP-Tree模型生成復(fù)雜及更新、維護(hù)困難的缺點(diǎn),特別適用于智能電網(wǎng)大型數(shù)據(jù)庫,挖掘智能電網(wǎng)中的復(fù)雜規(guī)律。
電力系統(tǒng)的數(shù)據(jù)庫通常是事務(wù)和項(xiàng)目之間的關(guān)聯(lián),如表1所示的事務(wù)數(shù)據(jù)庫,其中第1列為事務(wù)編號(hào),第2列為項(xiàng)目集合,即事務(wù)包含哪些項(xiàng)目,項(xiàng)目集合為{I1,I2,I3,I4,I5}。
表1 事務(wù)數(shù)據(jù)庫列表Table 1 Transaction database table
根據(jù)表1,建立傳統(tǒng)的FP-Tree模型如圖1所示。由圖1可見,樹的生成過程十分復(fù)雜。此外,圖1所示的FP-Tree模型將提供頻繁項(xiàng)的數(shù)據(jù)庫壓縮到一個(gè)有向樹狀圖上,所以存在維護(hù)、更新困難的缺點(diǎn)。為了避免這些缺點(diǎn),本文提出了無向的FP-network模型。
圖1 FP-Tree示意圖Fig.1 Schematic diagram of FP-Tree
首先定義以下概念。
a. 弧容量:掃描事務(wù)數(shù)據(jù)庫,第i條弧出現(xiàn)的次數(shù),記作ai。
b. 節(jié)點(diǎn)頻數(shù):掃描事務(wù)數(shù)據(jù)庫,節(jié)點(diǎn)j出現(xiàn)的次數(shù),記為fj。
c. 節(jié)點(diǎn)負(fù)容量:掃描每條事務(wù),節(jié)點(diǎn)j最后被掃描的次數(shù),記為nj。
以表1為例,建立FP-network模型的過程為如下。
a. 將各個(gè)項(xiàng)目作為網(wǎng)絡(luò)中的節(jié)點(diǎn),將每個(gè)事物作為網(wǎng)絡(luò)中的路徑。
c. 按照上述原則依次掃描其他事務(wù),所建立的FP-network如圖2所示。
圖2 FP-network示意圖Fig.2 Schematic diagram of FP-network
圖2所示的FP-network有以下特點(diǎn)。
a. 不同于FP-Tree,F(xiàn)P-network是無向圖,且同一項(xiàng)目對(duì)應(yīng)圖中唯一節(jié)點(diǎn)(FP-Tree中同一項(xiàng)目可能對(duì)應(yīng)多個(gè)節(jié)點(diǎn))。
b. 弧容量之和等于所有節(jié)點(diǎn)頻數(shù)與節(jié)點(diǎn)負(fù)容量的和,即:
(1)
其中,n為弧的數(shù)目;m為節(jié)點(diǎn)數(shù)目。
c. FP-network可能會(huì)將某些事務(wù)數(shù)量擴(kuò)大。如對(duì)于項(xiàng)目I5而言,有2個(gè)事務(wù)與其相關(guān)聯(lián),分別為{I1,I2,I3,I5}和{I1,I2,I5}。但是圖2中,節(jié)點(diǎn)I5可以找到4條路徑,分別為{I1,I2,I3,I5}、{I1,I2,I5}、{I1,I3,I5}、{I2,I5},而后2條路徑實(shí)際上并不存在。
為了避免上述網(wǎng)絡(luò)圖形式的缺點(diǎn),F(xiàn)P-network的計(jì)算機(jī)存儲(chǔ)采取事務(wù)(路徑)-項(xiàng)目(節(jié)點(diǎn))關(guān)聯(lián)矩陣表示方式,即T=f(B,I)。仍以表1為例,有:
其中,T為事務(wù)集合;I為項(xiàng)目集合;矩陣B為事務(wù)-項(xiàng)目關(guān)聯(lián)矩陣,其元素bij(i=1,2…,9;j=1,2,…,5)可以定義為:對(duì)于事務(wù)i,如果與項(xiàng)目j相關(guān)聯(lián),則bij=1 ,否則bij=0。對(duì)于大數(shù)據(jù)而言,通常事務(wù)數(shù)目遠(yuǎn)大于項(xiàng)目數(shù)目,因此生成關(guān)聯(lián)矩陣的時(shí)間復(fù)雜度近似為O(事務(wù)數(shù)目),并且對(duì)數(shù)據(jù)庫的存儲(chǔ)可以轉(zhuǎn)換為存儲(chǔ)矩陣布爾矩陣B和I,極大地節(jié)省了內(nèi)存。
利用FP-network算法可以方便地實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的挖掘,具體步驟如下。
a. 給定最小支持度閾值Smin。
b. 掃描數(shù)據(jù)庫,如果fj c. 從nk為非零的第k個(gè)節(jié)點(diǎn)開始挖掘。 d. 只保留矩陣B中bik=1的節(jié)點(diǎn)k所有路徑集合I(I={i丨bik=1}),僅保留節(jié)點(diǎn)k之前的節(jié)點(diǎn)信息,形成新的矩陣B、I。 e. 如果|nk|≥Smin,則節(jié)點(diǎn)k作為一個(gè)頻繁項(xiàng)集的元素之一,否則不進(jìn)行任何處理。刪去此節(jié)點(diǎn)信息,形成新的矩陣B、I。轉(zhuǎn)到步驟b,此過程持續(xù)至所有nk為非零的節(jié)點(diǎn)挖掘完為止。 如表1示例,取Smin為2,因I1—I5的節(jié)點(diǎn)頻數(shù)均不小于2,故保留所有節(jié)點(diǎn)信息。首先從節(jié)點(diǎn)I3開始挖掘,矩陣B對(duì)應(yīng)節(jié)點(diǎn)I3的列為第3列,其中元素為1的是第3、5、6、7、8、9行,保留這些信息得到新的矩陣。 將I3作為一個(gè)頻繁項(xiàng)集的元素,并得到新的矩陣: 則I2也作為此頻繁項(xiàng)集的元素;再重復(fù)一次,可得此頻繁項(xiàng)集為{I1,I2,I3},且其所有子集(包括一項(xiàng)和兩項(xiàng))也是頻繁項(xiàng)集。 同理從節(jié)點(diǎn)I4進(jìn)行挖掘,其頻繁項(xiàng)集為{I2,I4};從節(jié)點(diǎn)I5進(jìn)行挖掘,其頻繁項(xiàng)集為{I1,I2,I5}。至此,挖掘結(jié)束,所挖掘出來的頻繁項(xiàng)集及其所有子集構(gòu)成了頻繁項(xiàng)集的集合。 FP-Tree模型的一個(gè)關(guān)鍵缺點(diǎn)是維護(hù)和更新困難,因?yàn)楫?dāng)新數(shù)據(jù)加入、原數(shù)據(jù)庫更新或者改變支持度閾值時(shí),F(xiàn)P-Tree算法需要重新掃描數(shù)據(jù)庫來生成FP-Tree和條件FP-Tree。但是FP-network模型不存在這個(gè)問題,因?yàn)镕P-network是以關(guān)聯(lián)矩陣的形式保存的,而事務(wù)-項(xiàng)目關(guān)聯(lián)矩陣中節(jié)點(diǎn)的順序是任意的。例如,若調(diào)換節(jié)點(diǎn)I5和I1的順序,可以將上述事務(wù)-項(xiàng)目關(guān)聯(lián)矩陣做如下調(diào)整: 所產(chǎn)生的FP-network如圖3所示。 圖3 更新后的FP-network示意圖Fig.3 Schematic diagram of updated FP-network 上述FP-network的關(guān)聯(lián)規(guī)則挖掘首先從I3進(jìn)行挖掘,得到頻繁項(xiàng)目模式為{I2,I3,I1};然后,從節(jié)點(diǎn)I4開始挖掘,得到頻繁項(xiàng)集為{I2,I4};最后從節(jié)點(diǎn)I1進(jìn)行挖掘,得到頻繁項(xiàng)目模式為{I5,I2,I1}。至此挖掘結(jié)束,F(xiàn)P-network不需要重新掃描數(shù)據(jù)庫,只需要對(duì)矩陣進(jìn)行操作,但仍然與上述結(jié)果相同。這說明FP-network模型與節(jié)點(diǎn)的排列順序無關(guān),克服了FP-Tree算法更新維護(hù)困難的缺點(diǎn): a. 添加新的事務(wù)數(shù)據(jù)時(shí),只需在矩陣B增加新的第j行和第i列,并改變相應(yīng)的fj、nj; b. 改變支持度閾值Smin時(shí),無需對(duì)矩陣進(jìn)行任何處理,可直接在原矩陣上進(jìn)行關(guān)聯(lián)規(guī)則挖掘。 綜上所述,F(xiàn)P-network算法與目前主要的關(guān)聯(lián)規(guī)則挖掘算法Apriori、FP-Tree的比較如表2所示。 表2 關(guān)聯(lián)規(guī)則挖掘算法的比較Table 2 Comparison among association mining algorithms 為了進(jìn)一步驗(yàn)證所提FP-network算法的優(yōu)越性以及展示FP-network算法如何應(yīng)用于智能電網(wǎng)大數(shù)據(jù)分析,本文采用操作系統(tǒng)為Windows 10、內(nèi)存為4 GB、CPU為Intel(R)Core(TM)i5-4430CPU@3.00GHz的實(shí)驗(yàn)環(huán)境,借助Anaconda平臺(tái),使用python語言開發(fā),實(shí)現(xiàn)Apriori、FP-Tree、FP-network算法的實(shí)驗(yàn)測(cè)試。 以關(guān)聯(lián)規(guī)則挖掘在輸電線路故障分析領(lǐng)域的應(yīng)用為例進(jìn)行算例分析。采用某省電力公司大數(shù)據(jù)平臺(tái)提供的輸電線路故障信息,原始信息系統(tǒng)數(shù)據(jù)量龐大,達(dá)到TB級(jí),但由于價(jià)值密度低,所以對(duì)2010 —2017年線路故障歷史數(shù)據(jù)進(jìn)行預(yù)處理(除噪、清洗、過濾等),得到1 276條有效信息,形成線路典型故障事務(wù)數(shù)據(jù)庫,其中部分樣本如表3所示。為滿足算法測(cè)試需求,復(fù)制真實(shí)事務(wù)信息,可得到包含12 760條信息和127 600條信息的事務(wù)數(shù)據(jù)庫。 對(duì)于數(shù)據(jù)庫的“時(shí)間”屬性,需要進(jìn)行離散處理,鑒于實(shí)際分析需要,可忽略年份信息:T1表示春季(3—5月);T2表示夏季(6—8月);T3表示秋季(9—11月);T4表示冬季(12月至次年2月)。其他屬性本身就是離散變量,定義了一系列字母變量來代替,預(yù)處理后的結(jié)果如表4所示。 在相同的實(shí)驗(yàn)環(huán)境下,取Smin=0.5%,分別測(cè)試Apriori、FP-Tree、FP-network算法在不同數(shù)據(jù)庫規(guī)模下的運(yùn)行速率,結(jié)果如圖4所示。 由于圖4可見,F(xiàn)P-network算法的運(yùn)行速率要優(yōu)于其他2種算法,且數(shù)據(jù)庫規(guī)模越大,其他2種算法,尤其是Apriori的運(yùn)行時(shí)間呈指數(shù)增長(zhǎng),使得FP-network優(yōu)勢(shì)更加明顯。 表3 線路典型故障事務(wù)數(shù)據(jù)庫Table 3 Transaction database of typical line faults 表4 預(yù)處理后的事務(wù)數(shù)據(jù)表Table 4 Transaction database after preprocessing 圖4 不同數(shù)據(jù)庫規(guī)模下的算法執(zhí)行時(shí)間Fig.4 Executive time of algorithms with different database scales 圖5 不同最小支持度下的算法執(zhí)行時(shí)間Fig.5 Executive time of algorithm with different min_sups 改變支持度不會(huì)改變事務(wù)數(shù)據(jù)庫的規(guī)模,但是會(huì)改變頻繁項(xiàng)集的規(guī)模。采用包含127 600條信息的數(shù)據(jù)庫測(cè)試不同支持度下的算法性能不同最小支持度下的算法執(zhí)行時(shí)間,結(jié)果如圖5所示。由圖可見:在不同支持度下,F(xiàn)P-network算法的運(yùn)行速率均優(yōu)于另外2種算法;調(diào)低最小支持度(min_sup)后,3種算法的執(zhí)行時(shí)間都有所增加,F(xiàn)P-network算法與其他2種算法的差距愈加明顯。此外,F(xiàn)P-network算法可以較好地應(yīng)對(duì)支持度的變化,運(yùn)行速率變化幅度較小。 空間復(fù)雜度是對(duì)算法在運(yùn)行過程中臨時(shí)占用存儲(chǔ)空間大小的量度,包括程序代碼所占用的空間、輸入數(shù)據(jù)所占用的空間和輔助變量所占用的空間。其中,輸入數(shù)據(jù)所占用的空間不隨算法的不同而改變;程序代碼所占用的空間與算法書寫的長(zhǎng)短成正比。對(duì)于Apriori、FP-Tree、FP-network算法而言,存儲(chǔ)算法本身的空間僅kB級(jí),相較MB、GB級(jí)的數(shù)據(jù)庫其差異可忽略不計(jì);算法空間復(fù)雜度的對(duì)比重點(diǎn)在于輔助變量所占用的空間。利用memory_profiler模塊,監(jiān)控算法執(zhí)行過程中所占用的最大內(nèi)存,結(jié)果如圖6所示。 圖6 不同數(shù)據(jù)庫規(guī)模下算法執(zhí)行過程中占用的最大內(nèi)存Fig.6 Maximum memory in execution of algorithms with different database scales 由圖6可見,Apriori算法需要存儲(chǔ)大量候選集,F(xiàn)P-Tree算法需要存儲(chǔ)條件樹,并需要進(jìn)出棧操作,占用內(nèi)存較大,F(xiàn)P-network算法占用內(nèi)存空間遠(yuǎn)小于這2種算法,特別是在數(shù)據(jù)庫規(guī)模較大時(shí)優(yōu)勢(shì)更加明顯。綜上所述,F(xiàn)P-network算法在處理大型數(shù)據(jù)庫或強(qiáng)實(shí)時(shí)性問題時(shí)性能優(yōu)勢(shì)明顯,適合電力系統(tǒng)大數(shù)據(jù)分析。因此,取Smin=0.5%,對(duì)故障信息數(shù)據(jù)庫進(jìn)行分析,得到所有頻繁項(xiàng)集,進(jìn)一步挖掘關(guān)聯(lián)規(guī)則,結(jié)果如圖7所示,圖中連線的粗細(xì)表示關(guān)聯(lián)程度的強(qiáng)弱。 圖7 關(guān)聯(lián)規(guī)則挖掘結(jié)果圖Fig.7 Results of association rules mining 如圖7所示,得到的關(guān)聯(lián)規(guī)則有上百條,但是并非所有的關(guān)聯(lián)規(guī)則都是有價(jià)值的。有些規(guī)則關(guān)聯(lián)性十分弱,有些關(guān)聯(lián)性并沒有實(shí)際的意義。通過計(jì)算規(guī)則置信度(如式(2)所示),篩選出置信度不低于75%的規(guī)則,得到部分結(jié)果如表5所示。 (2) 其中,support(·)表示支持度。 表5 關(guān)聯(lián)規(guī)則挖掘結(jié)果Table 5 Results of association rules mining 結(jié)合實(shí)際電力知識(shí)背景,利用上述挖掘結(jié)果可以分析該省的線路故障情況,找到電網(wǎng)中存在的薄弱環(huán)節(jié),并針對(duì)這些薄弱環(huán)節(jié)提出改進(jìn)措施和方案: a. 從規(guī)則1可知,該省中部地區(qū)220kV線路在3—5月份因?yàn)閷?dǎo)線及地線舞動(dòng)造成嚴(yán)重影響,因此應(yīng)做好春季線路舞動(dòng)預(yù)防措施; 圖8 智能電網(wǎng)“數(shù)據(jù)系統(tǒng)業(yè)務(wù)”圖Fig.8 Diagram of “Big data-System-Business” in smart grid b. 從規(guī)則2可知,該省南部地區(qū)在6 —8月因外力破壞(如違規(guī)施工)造成導(dǎo)線及地線故障較多,因此相關(guān)部門要采取措施杜絕違規(guī)施工; c. 從規(guī)則3可知,該省500kV的線路故障大多是絕緣子故障,主要集中在中部地區(qū)的12月至次年2月,因此檢修部門可以在冬季有針對(duì)性地對(duì)中部地區(qū)多加巡查; d. 從規(guī)則4可知,該省東部地區(qū)的110kV線路故障大多數(shù)是導(dǎo)線及地線故障,因此相關(guān)部門要優(yōu)化脆弱地區(qū)的線路布局等; e. 從規(guī)則5可知,該省線路覆冰故障主要集中在3—5月份,并以中部地區(qū)的500kV線路居多,因此中部地區(qū)應(yīng)在該月份加強(qiáng)對(duì)500kV線路的監(jiān)測(cè),及時(shí)對(duì)覆冰進(jìn)行融化處理。 如第3節(jié)所示,F(xiàn)P-network可以挖掘多維屬性間的關(guān)聯(lián)規(guī)則,除輸電線路故障分析領(lǐng)域外,其在智能電網(wǎng)中的應(yīng)用十分廣泛。智能電網(wǎng)大數(shù)據(jù)的來源大致可分為電網(wǎng)外部和電網(wǎng)內(nèi)部2類。電網(wǎng)外部的數(shù)據(jù)來源包括但不限于互聯(lián)網(wǎng)信息系統(tǒng)、充電設(shè)施管理系統(tǒng)、氣象監(jiān)測(cè)系統(tǒng)、地理信息系統(tǒng)(GIS)等;電網(wǎng)內(nèi)部的數(shù)據(jù)來源主要包括用電信息采集系統(tǒng)、設(shè)備運(yùn)維管理系統(tǒng)(PMS)、企業(yè)資源計(jì)劃(ERP)系統(tǒng)、SCADA系統(tǒng)、D5000系統(tǒng)、95589客服系統(tǒng)、營(yíng)銷系統(tǒng)等[7-8]。不同的系統(tǒng)存儲(chǔ)著不同的數(shù)據(jù)信息,同時(shí)也對(duì)應(yīng)著不同的業(yè)務(wù)部門和業(yè)務(wù)需求。 因此,本文將智能電網(wǎng)中常用的數(shù)據(jù)和信息系統(tǒng)進(jìn)行了梳理,建立“數(shù)據(jù)-系統(tǒng)-業(yè)務(wù)”體系,如圖8所示。通過圖8所示體系,數(shù)據(jù)的來源和流向一目了然,既可以利用數(shù)據(jù)來驅(qū)動(dòng)業(yè)務(wù)發(fā)展,也可以基于業(yè)務(wù)流程和需求進(jìn)行數(shù)據(jù)挖掘分析。因此基于智能電網(wǎng)“數(shù)據(jù)-系統(tǒng)-業(yè)務(wù)”體系,F(xiàn)P-network算法在智能電網(wǎng)中的應(yīng)用可以根據(jù)業(yè)務(wù)需求分為三大類[9]:面向用戶服務(wù)、面向電力公司管理、面向政府決策。本文限于篇幅,著重介紹以下應(yīng)用[10-14]。 a. 用戶用電行為分析。 配用電環(huán)節(jié)要做到智能化,需要基于海量用戶用電特征數(shù)據(jù),如用電類別、時(shí)間、客戶、行業(yè)、電壓等級(jí)、氣象、峰谷負(fù)荷等進(jìn)行分析。通過FP-network算法挖掘不同用電行為特征間的關(guān)聯(lián)規(guī)則,描述用電行為模式,實(shí)現(xiàn)面向用戶服務(wù)的用電管理、有序用電,面向電力公司的臺(tái)區(qū)負(fù)荷預(yù)測(cè)、用電調(diào)度,面向政府的工業(yè)發(fā)展趨勢(shì)預(yù)測(cè)、電價(jià)制定等高級(jí)應(yīng)用。 b. 電力系統(tǒng)故障分析。 電力系統(tǒng)的故障數(shù)據(jù)由用電信息采集系統(tǒng)、PMS、檢修運(yùn)維系統(tǒng)、ERP系統(tǒng)、GIS、氣象信息系統(tǒng)(MIS)等組成,通常包括故障時(shí)間、地點(diǎn)、天氣、故障類型、故障元件、損失、保護(hù)開關(guān)動(dòng)作、恢復(fù)時(shí)間等一系列屬性,通過FP-network充分挖掘歷史數(shù)據(jù)多維屬性間的關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)故障產(chǎn)生的規(guī)律,用于識(shí)別電網(wǎng)的薄弱環(huán)節(jié)、制訂檢修計(jì)劃以及故障預(yù)警等,避免類似故障的再發(fā)生。 圖9 FP-network在故障分析應(yīng)用的流程圖Fig.9 Flowchart of FP-network application in fault analysis c. 電力市場(chǎng)營(yíng)銷策略。 電力公司營(yíng)銷的數(shù)據(jù)庫由售電量、交易電價(jià)、用戶種類、氣象信息、客戶關(guān)系、客戶滿意度等所組成,應(yīng)用FT-network,描述各種影響電量銷售的外部因素與售電量、交易電價(jià)等之間的關(guān)聯(lián)特征,可以進(jìn)行需求預(yù)測(cè)、銷售及收入預(yù)測(cè),掌握營(yíng)銷業(yè)務(wù)重點(diǎn)工作,為電力市場(chǎng)營(yíng)銷提供輔助的決策信息。 d. 風(fēng)光運(yùn)行優(yōu)化。 通過對(duì)風(fēng)光發(fā)電系統(tǒng)歷史運(yùn)行數(shù)據(jù)的分析,可得特定工況下氣象數(shù)據(jù)(風(fēng)速、光照強(qiáng)度、溫度等)與機(jī)組性能間的關(guān)聯(lián)關(guān)系,從而對(duì)機(jī)組性能(可靠性、經(jīng)濟(jì)性、安全性等)進(jìn)行客觀、正確評(píng)估,輔助實(shí)現(xiàn)風(fēng)電準(zhǔn)確預(yù)測(cè)、風(fēng)電場(chǎng)規(guī)劃、制訂出力調(diào)度計(jì)劃等。 FP-network在智能電網(wǎng)的應(yīng)用流程的步驟主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則分析及結(jié)果展示。其中,數(shù)據(jù)預(yù)處理包括噪聲清洗、數(shù)據(jù)離散化處理、缺失值填補(bǔ)等。圖9以電力系統(tǒng)故障分析為例說明應(yīng)用的具體流程。 鑒于智能電網(wǎng)大數(shù)據(jù)發(fā)展的需要和目前關(guān)聯(lián)規(guī)則挖掘算法存在的缺點(diǎn),本文建立了適合智能電網(wǎng)應(yīng)用的FP-network模型。所得到的主要結(jié)論如下: a. FP-network模型與FP-Tree模型相類似,將關(guān)聯(lián)規(guī)則挖掘所需要的數(shù)據(jù)壓縮到一個(gè)圖上,但是FP-network圖擴(kuò)大了存儲(chǔ)的事務(wù)規(guī)模,實(shí)際挖掘時(shí)需要以矩陣形式進(jìn)行存儲(chǔ); b. 與FP-Tree模型相同,F(xiàn)P-network模型同樣只能處理分類變量(即離散變量),因此需要預(yù)先對(duì)事務(wù)數(shù)據(jù)進(jìn)行離散化; c. FP-network模型只需掃描1次原數(shù)據(jù)庫,且以矩陣形式存儲(chǔ),尤其對(duì)于智能電網(wǎng)大型數(shù)據(jù)庫而言,大幅降低了時(shí)間和空間的復(fù)雜度; d. FP-network模型方便被挖掘數(shù)據(jù)的更新和維護(hù),因此提高了關(guān)聯(lián)規(guī)則挖掘算法的效率; e. FP-network模型適合挖掘智能電網(wǎng)大數(shù)據(jù),應(yīng)用范圍包括但不限于故障分析、營(yíng)銷策略制訂、用電負(fù)荷研究、風(fēng)電運(yùn)行優(yōu)化等。 參考文獻(xiàn): [1] 彭小圣,鄧迪元,程時(shí)杰,等. 面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2015,35(3):503-511. PENG Xiaosheng,DENG Diyuan,CHENG Shijie,et al. Key technologies of electric power big data and its application prospects in smart grid[J]. Proceedings of the CSEE,2015,35(3):503-511. [2] 宋亞奇,周國(guó)亮,朱永利. 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J]. 電網(wǎng)技術(shù),2013,37(4):927-935. SONG Yaqi,ZHOU Guoliang,ZHU Yongli. Present status and challenges of big data processing in smart grid[J]. Power System Technology,2013,37(4):927-935. [3] AGRAWAL R,IMIELISKI T,SWAMI A. Mining association rules between sets of items in large databases[J]. Acm Sigmod Record,1993,22(2):207-216. [4] HAN T,KAMBER M. Data mining:concepts and techniques[M]. Beijing:Higher Education Press,2001:143-177. [5] SAVASMR A,OMICCINSKI E,NAVATHC S. An efficient algorithm for mining association rules[C]∥The 21th International Conference on VLDB. Zurich,Switzerland:Morgan Kaufmann Publishers Inc.,1995:432-444. [6] HAN J,PEI J,YIN Y. Mining frequent patterns without candidate generation[C]∥The 2000 ACM SIGMOD on Management of Data(SIGMOD 2000). Dallas,Texas,USA:ACM,2000:1-12. [7] TSENGV S,SHIE B E,WU C,et al. Efficient algorithms for mining high utility item sets from transactional databases[J]. IEEE Tran-sactions on Knowledge and Data Engineering(TKDE),2013,25(8):1772-1786. [8] 王守相,葛磊蛟,王凱. 智能配電系統(tǒng)的內(nèi)涵及其關(guān)鍵技術(shù)[J]. 電力自動(dòng)化設(shè)備,2016,36(6):1-6. WANG Shouxiang,GE Leijiao,WANG Kai. Main contents and key technologies of smart distribution system[J]. Electric Power Automation Equipment,2016,36(6):1-6. [9] 張東霞,苗新,劉麗平,等. 智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2015,35(1):2-12. ZHANG Dongxia,MIAO Xin,LIU Liping,et al. Research on deve-lopment strategy for smart grid big data[J]. Proceedings of the CSEE,2015,35(1):2-12. [10] 薛振宇,胡航海,宋毅,等. 基于大數(shù)據(jù)分析的縣公司綜合評(píng)價(jià)策略[J]. 電力自動(dòng)化設(shè)備,2017,37(9):199-204. XUE Zhenyu,HU Hanghai,SONG Yi,et al. Comprehensive evaluation based on big data analysis for county electric power company[J]. Electric Power Automation Equipment,2017,37(9):199-204. [11] 郝然,艾芊,肖斐. 基于多元大數(shù)據(jù)平臺(tái)的用電行為分析構(gòu)架研究[J]. 電力自動(dòng)化設(shè)備,2017,37(8):20-27. HAO Ran,AI Qian,XIAO Fei. Architecture based on multivariate big data platform for analyzing electricity consumption behavior[J]. Electric Power Automation Equipment,2017,37(9):20-27. [12] 葛磊蛟,王守相,瞿海妮. 智能配用電大數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)[J]. 電力自動(dòng)化設(shè)備,2016,36(6):194-202. GE Leijiao,WANG Shouxiang,ZHAI Haini. Design of storage framework for big data of SPDU[J]. Electric Power Automation Equipment,2016,36(6):194-202. [13] 徐青山,王文帝,林章歲,等. 面向行業(yè)大數(shù)據(jù)特征挖掘的電力經(jīng)理指數(shù)指標(biāo)體系的建立與應(yīng)用[J]. 電力自動(dòng)化設(shè)備,2015,25(7):15-21. XU Qingshan,WANG Wendi,LIN Zhangsui,et al. Establishment and application of EMI indicator system orienting to massive industrial data mining[J]. Electric Power Automation Equipment,2015,25(7):15-21. [14] 王德文,孫志偉. 電力用戶側(cè)大數(shù)據(jù)分析與并行負(fù)荷預(yù)測(cè)[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2015,35(3):527-537. WANG Dewen,SUN Zhiwei. Big data analysis and parallel load forecasting of electric power user side[J]. Proceedings of the CSEE,2015,35(3):527-537.2 關(guān)聯(lián)規(guī)則挖掘算法的比較
3 算例分析
4 在智能電網(wǎng)中的其他應(yīng)用
5 結(jié)論