夏洪濤,施永益,宋國超
(國網(wǎng)浙江省電力公司,浙江 杭州 310073)
Apriori改進算法及其在電網(wǎng)運營數(shù)據(jù)關(guān)聯(lián)性測算研究
夏洪濤,施永益,宋國超
(國網(wǎng)浙江省電力公司,浙江 杭州 310073)
針對傳統(tǒng)關(guān)聯(lián)性分析Apriori算法需要頻繁掃描數(shù)據(jù)庫的缺陷,提出一種改進型Apriori算法,只需對數(shù)據(jù)庫進行一次掃描,有效提高了計算效率。針對電網(wǎng)企業(yè)運營狀況評價標(biāo)準(zhǔn),將所得數(shù)據(jù)分為結(jié)果型數(shù)據(jù)和驅(qū)動型數(shù)據(jù),采用關(guān)聯(lián)算法計算結(jié)果型數(shù)據(jù)和驅(qū)動型數(shù)據(jù)的關(guān)聯(lián)關(guān)系,并采用傳統(tǒng)皮爾遜系數(shù)驗證分析結(jié)果。試驗結(jié)果證明本算法可以有效得出對結(jié)果型數(shù)據(jù)影響較大的數(shù)據(jù),有助于對企業(yè)運營狀況進行管理和決策。
關(guān)聯(lián)分析;電網(wǎng)企業(yè)運營;數(shù)據(jù)挖掘;Apriori算法
隨著電力行業(yè)的信息化發(fā)展,電網(wǎng)企業(yè)運營所產(chǎn)生的數(shù)據(jù)也得到了大量增加。對電力大數(shù)據(jù)進行研究對電能資源的優(yōu)化配置、能源效率水平的提升、電網(wǎng)企業(yè)運營情況的改善有重要意義[1]。電力大數(shù)據(jù)在電網(wǎng)運營方面的價值在于挖掘運營數(shù)據(jù)之間的關(guān)系和規(guī)律,以滿足企業(yè)電力生產(chǎn)和經(jīng)營管理的需要;構(gòu)建能夠反應(yīng)企業(yè)運行狀況的核心指標(biāo)和能夠支撐核心指標(biāo)提升的關(guān)聯(lián)性指標(biāo)[2]。數(shù)據(jù)挖掘作為從大數(shù)據(jù)中提取有效信息的方法,被越來越多的應(yīng)用在各行各業(yè),主要指的是發(fā)現(xiàn)數(shù)據(jù)庫中的隱藏信息和潛在模式[3]。作為數(shù)據(jù)挖掘最重要的分支之一,關(guān)聯(lián)規(guī)則挖掘可以找出數(shù)據(jù)間的相關(guān)性關(guān)系,其核心思想是基于頻集理論的遞推方法,識別出數(shù)據(jù)集中特定項目集之間的關(guān)聯(lián)關(guān)系和頻繁項等潛在模式[4]。電網(wǎng)企業(yè)運營過程中會產(chǎn)生眾多數(shù)據(jù)項,對該組數(shù)據(jù)進行關(guān)聯(lián)性分析,以找出對關(guān)鍵數(shù)據(jù)影響最大的數(shù)據(jù),從而通過控制基礎(chǔ)變化數(shù)據(jù)來引導(dǎo)關(guān)鍵數(shù)據(jù)的變化,以實現(xiàn)管理層根據(jù)具體的企業(yè)運行狀況對企業(yè)營運進行指導(dǎo)的目的[5]。
關(guān)聯(lián)規(guī)則最早的應(yīng)用是由Agrawal 和Srikan在1994年提出[6]。隨后,關(guān)聯(lián)性規(guī)則不僅在商業(yè)數(shù)據(jù)分析中扮演了重要角色,也逐漸在眾多領(lǐng)域內(nèi)成功的挖掘出數(shù)據(jù)的潛在模型和關(guān)系[7-8]。
Apriori算法是挖掘關(guān)聯(lián)規(guī)則的常見重要算法,主要通過預(yù)定義數(shù)據(jù)組之間的最小支持度和最小置信度值,篩選出數(shù)據(jù)組滿足閾值條件的頻繁項,并根據(jù)頻繁項之間的支持度和置信度,對數(shù)據(jù)組之間的關(guān)聯(lián)關(guān)系進行進一步的量化[9]。雖然經(jīng)典Apriori算法的表現(xiàn)比不上現(xiàn)有的最新深度優(yōu)先搜索方法,但是其仍然被認為是最重要的關(guān)聯(lián)性挖掘算法。因為Apriori算法基本思想是尋找給定數(shù)據(jù)集中所有頻繁項,這種通用的思想和操作辦法可以應(yīng)用在任何數(shù)據(jù)庫中的關(guān)聯(lián)性挖掘中。而深度優(yōu)先搜索算法則既受到所構(gòu)建FP-tree的結(jié)構(gòu)復(fù)雜性制約,又受到記錄節(jié)點的物理存儲消耗的限制[10]。
近年來也有許多國內(nèi)外學(xué)者在此方面進行了大量的研究工作[11-15]。本文通過總結(jié)上述已有關(guān)聯(lián)規(guī)則Apriori算法的優(yōu)點,提出一種改進型Aprioris算法,從三個方面提高了算法效率:(1)避免了頻繁掃描數(shù)據(jù)庫;(2)縮減了候選集項的數(shù)量;(3)加速了聯(lián)合和修改的過程。并將其應(yīng)用在電網(wǎng)企業(yè)運營數(shù)據(jù)關(guān)聯(lián)性分析中,對比現(xiàn)有Apriori算法,本文所提出算法有較高的效率。并且為了驗證本算法所得數(shù)據(jù)庫中項目之間的相關(guān)性,對比現(xiàn)有灰色關(guān)聯(lián)度算法和經(jīng)驗分析法,驗證了本算法在提取影響電力企業(yè)運營過程中關(guān)鍵數(shù)據(jù)的有效性。
關(guān)聯(lián)規(guī)則來源各實物之間的關(guān)系,可以從數(shù)據(jù)庫中找出其中的頻繁模式項。Apriori算法的基本思想如下:首先第一次掃描數(shù)據(jù)庫,統(tǒng)計得出1-頻繁項目集L1,其次第二次掃描數(shù)據(jù)庫,根據(jù)統(tǒng)計得出與所得項目集L1相關(guān)的2-頻繁項目集L2,以此類推,第k次掃描數(shù)據(jù)庫,統(tǒng)計得出k-頻繁項目集Lk。其次通過掃描事物數(shù)據(jù)庫D進而剪枝Ck,刪除子集不在Lk-1中的k-候選項目集。
本文的主要創(chuàng)新點如下:(1)提出了一個新的搜索策略用以加速搜索頻繁項集;(2)通過壓縮向量結(jié)構(gòu)減少了物理存儲的消耗。
為了避免頻繁掃描數(shù)據(jù)庫,本文提出了以下方法:僅對數(shù)據(jù)庫進行一次掃描,對每一個項目得到事物項標(biāo)識(TID);計算所有項在Lk-1中出現(xiàn)的次數(shù),刪除小于k-1的項,將剩余項保存為候選集Ck;在事物標(biāo)識集Lk-1和L1下,分別計算候選集Ck的支持度;當(dāng)?shù)螖?shù)達到|Lk|≤k時,停止算法迭代。
通過上述算法,不僅限制了候選集項,也節(jié)省了計算候選集項支持度的時間。
為了清晰表示本文所提算法,采用偽代碼形式將本文所提改進型Apriori算法進行描述。
結(jié)合某電網(wǎng)公司具體運營數(shù)據(jù)進行分析,首先將企業(yè)運行指標(biāo)按照分為結(jié)果型數(shù)據(jù)和驅(qū)動型數(shù)據(jù),針對利潤總額、資產(chǎn)總額、購電成本、單位資產(chǎn)售電量、電網(wǎng)投資、交流線路長度等55項具體指標(biāo),以利潤總額等評價指標(biāo)為結(jié)果型數(shù)據(jù),選取基礎(chǔ)資源、市場狀況等為驅(qū)動型數(shù)據(jù),
參考平衡記分卡理論[16],對企業(yè)運行狀況體系進行分類,主要可分為:基礎(chǔ)資源、市場狀況、運營指標(biāo)、評價指標(biāo)四類。各類選取十項基礎(chǔ)數(shù)據(jù),可得指標(biāo)分類圖,具體如圖1所示。
圖1 電網(wǎng)企業(yè)運營指標(biāo)分布
設(shè)利潤總額為關(guān)鍵指標(biāo),根據(jù)某年1月到12月的具體數(shù)值計算其變化率,同時計算其他指標(biāo)的變化率,可得基礎(chǔ)項目集X={x1,x2,…,xi},其中i=11,xi={s2,s3,…,s40}為候選集。首先對數(shù)據(jù)進行無量綱化處理[16]:
式中:max(X)和min(X)分別表示項目集X的最大值和最小值。通過改進Apriori算法,挖掘候選集xi中的頻繁項,部分樣本數(shù)據(jù)如表1,計算結(jié)果如表2。從表2可以看出,以各項目變化率為項目集時,與利潤總額相關(guān)性較高的項目分別為:電網(wǎng)檢修運營成本,購電成本,流動資金率,售電量和主營利潤率。由于預(yù)先設(shè)定閾值為0.8,故相關(guān)性小于0.8的項目忽略不計。
如表2所示,經(jīng)過頻繁項計算,得到對利潤總額支持度80%以上的項目。為進一步驗證所得結(jié)果正確性,采用皮爾遜積矩相關(guān)系數(shù)分析[18-19]為對比算法。從皮爾遜相關(guān)系數(shù)平面高層計算結(jié)果可以看出,相關(guān)性較大的數(shù)據(jù)項較為集中。其中,強相關(guān)的項目有購電成本與售電量,相關(guān)性為0.916;流動資金周轉(zhuǎn)率與主營業(yè)務(wù)利潤率,相關(guān)性為0.831;利潤總額與輸配電單位供電成本,相關(guān)性為-0.851等。其中與利潤總額有關(guān)的項目,按強相關(guān)性排序分別為:售電量,購電成本,主營利潤率,此結(jié)果與本文所提出改進型Apriori算法運行結(jié)果基本相同。
表1 部分樣本數(shù)據(jù)
時間利潤總額/萬元購電成本/萬元售電量/億(kW·h)主營業(yè)務(wù)利潤率/%12月41341.9213487139.19254.94.9511月75632.7212346784.81252.895.6510月57810.7511259301.28241.65.49月-40805.6110163115.85290.085.48月57950.228850473.00305.775.787月44743.597574493.07266.165.76月65215.906331644.69265.925.855月52673.575191343.83257.595.734月55837.304069695.57270.245.923月54636.142898861.85177.846.282月53667.502208220.28224.626.151月53636.471187264.43278.317.83
表2 頻繁項和其支持度結(jié)果展示
項 目支持度電網(wǎng)檢修運維成本0.957購電成本0.952流動資金率0.851售電量0.840主營利潤率0.831
采用改進Apriori算法,在保證計算結(jié)果的前提下提高了計算效率,并且應(yīng)用在電網(wǎng)企業(yè)運營數(shù)據(jù)分析中。結(jié)合相關(guān)數(shù)據(jù)處理得到了對企業(yè)運營評價指標(biāo)相關(guān)性較大的指標(biāo),并且根據(jù)傳統(tǒng)皮爾遜積距相關(guān)系數(shù)進行了結(jié)果對比。試驗結(jié)果證明本文所提算法所得結(jié)果較傳統(tǒng)算法更全面,可以通過基礎(chǔ)變化數(shù)據(jù)對企業(yè)運營的評價指標(biāo)數(shù)據(jù)進行分析。
[1]中國電力企業(yè)聯(lián)合會規(guī)劃發(fā)展部. 2016年電力供需形勢分析預(yù)測與建議[J]. 中國電力企業(yè)管理, 2016(4).
[2]魏 曼. 基于知識管理的發(fā)電企業(yè)績效評估研究[D]. 華北電力大學(xué)(保定) 華北電力大學(xué), 2013.
[3]崔 妍,包志強. 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計算機應(yīng)用研究, 2016, 33(2):330-334.
[4]錢宇華, 成紅紅, 梁新彥,等. 大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量研究綜述[J]. 數(shù)據(jù)采集與處理, 2015(6):1147-1159.
[5]劉福炎. 基于投資關(guān)聯(lián)性分析的配電網(wǎng)投資效益評價體系研究[J]. 浙江電力,2016,(03):68-71.
[6]Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databases[C]// International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc. 1994:487-499.
[7]Karimi-Majd A M, Mahootchi M. A new data mining methodology for generating new service ideas[M]. Springer-Verlag New York, Inc. 2015.
[8]Wang J, Li H, Huang J, et al. Association rules mining based analysis of consequential alarm sequences in chemical processes[J]. Journal of Loss Prevention in the Process Industries, 2016(41):178-185.
[9]Borgelt C. Frequent item set mining[J]. Wiley Interdisciplinary Reviews Data Mining amp; Knowledge Discovery, 2012, 2(6):437-456.
[10]Bhandari A, Gupta A, Das D. Improvised Apriori algorithm using frequent pattern tree for real time applications in data mining [J]. Procedia Computer Science, 2015(46):644-651.
[11]Toivonen H.Sampling Large Databases for Association Rules (Proc Vldb, 2000), pp.134-145.
[12]Song W, Yang B, Xu Z. Index-BitTableFI: An improved algorithm for mining frequent itemsets[J]. Knowledge-Based Systems, 2008, 21(6):507-513.
[13]Bhaskar R, Laxman S, Thakurta A. Discovering frequent patterns in sensitive data[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, Dc, Usa, July. DBLP, 2010:4503-512.
[14]Zhao G, Liu Y. An efficient bittable based frequent itemsets mining algorithm[J]. Journal of Shandong University(Natural Science),2015,50(5):23-29.
[15]蔡志江,胡亞平.基于多目標(biāo)多元非線性規(guī)劃模型的電力負荷預(yù)測方案設(shè)計[J]. 電力科技與環(huán)保,2013,29(4):5-7.
[16]He, Yongxiu, Xiong, et al. Risk transmission assessment of electricity price chain in China based;on ISM and ECM[J]. International Journal of Electrical Power amp; Energy Systems, 2013, 46(1):274-282.
[17]李玲玉, 郭亞軍, 易平濤. 無量綱化方法的選取原則[J]. 系統(tǒng)管理學(xué)報, 2016(6):1040-1045.
[18]王 涓, 吳旭鳴, 王愛鳳. 應(yīng)用皮爾遜相關(guān)系數(shù)算法查找異常電能表用戶[J]. 電力需求側(cè)管理, 2014(2):52-54.
[19]張鴻鵠,張 剛,韓永軍,等.大規(guī)模新能源并網(wǎng)后用戶參與調(diào)峰及系統(tǒng)仿真[J]. 電力科技與環(huán)保,2015,31(4):1-5.
Research on relative data relativity of the operation of power grid enterprise based on Apriori improved algorithm
ProposeanimprovedApriorialgorithm,onlyascanofthedatabase,effectivelyimprovethecomputationalefficiency,forthetraditionalApriorialgorithmrequiresfrequentscanningofthedatabasedefects.Accordingtotheevaluationstandardoftheoperationstatusofthegridenterprise,theobtaineddataisdividedintotheresultdataandthedrivingdata,andthecorrelationrelationbetweentheresultdataandthedrivingdataiscalculatedbytheproposedalgorithm,andthetraditionalPearsoncoefficientisusedtoverifytheanalysisresult.Theexperimentalresultsshowthattheproposedalgorithmcaneffectivelyobtainthedatawhichhasgreatinfluenceontheresultdata,whichcanhelptomanageandmaketheoperationoftheenterprise.
correlationanalysis;powergridoperation;datamining;Apriorialgorithm
TM933
B
1674-8069(2017)06-058-03
國家電網(wǎng)浙江省電力公司科技項目(5211JY15001V);國家電網(wǎng)公司科技項目(5211011600RJ)
2017-07-08;
2017-08-17
夏洪濤(1977-),男,博士,高級工程師,研究方向為計算機。E-mail: yizhongyangping@126.com