顧 虹,楊 波,張 璐,潘行健,林子滟
(國網(wǎng)浙江德清縣供電有限公司,浙江湖州 313200)
配網(wǎng)工程是構(gòu)建電網(wǎng)的重要部分,也是直接與廣大用戶相連接的末端服務(wù)管理部分[1]。合理利用內(nèi)部審計來強化配網(wǎng)工程項目精益化管理,是規(guī)范生產(chǎn)經(jīng)營管理的主要方式之一[2]。而隨著電網(wǎng)審計管理精度的提升,傳統(tǒng)模式已無法滿足當前配網(wǎng)工程數(shù)據(jù)處理控制的需求,故需及時更新數(shù)據(jù)管理技術(shù)以提高工作效率[3]。
模糊聚類算法是數(shù)據(jù)挖掘模型中的常用算法,其中使用最為廣泛的為k 均值聚類(k-means)算法[4]與模糊c 均值法[5-6],二者主要通過對比不同集群的相似度來實現(xiàn)數(shù)據(jù)分析。當前,大部分數(shù)據(jù)挖掘聚類算法均是基于對象間的差異函數(shù)來進行聚類的[7-8]。然而,若考慮研究對象的屬性變量再進行聚類,可獲得更多的聚類信息。
可同時構(gòu)造被指定對象與其屬性變量到同質(zhì)塊最優(yōu)劃分的聚類算法,這種聚類算法被稱為塊聚類。其數(shù)據(jù)處理過程用來構(gòu)造一個數(shù)據(jù)矩陣,其中I是行中n個對象的集合,J是列中m個屬性變量的集合。然后將集合I分成s簇,再把集合J分成t簇。
塊聚類算法的原理是通過重新排列s×t同質(zhì)塊中的行和列,找到數(shù)據(jù)矩陣的概要。研究員Duffy 與Quiroz[9]首次提出了該種聚類算法方式,并將其命名為塊聚類;而Govaert 及Nadif[10]在此基礎(chǔ)上設(shè)計了一種基于塊混合模型的塊分類期望最大化(Expection Maximization,EM)算法(塊CEM);之后又研究了基于模糊c 均值劃分的塊模糊c 均值法(塊FCM)[11]。文中基于模糊k 均值方法提出了塊模糊k 值(塊FKM)算法。
聚類分析中的一項重要技術(shù)是聚類混合[12],在考慮塊CEM 算法之前,需先引入一個塊混合模型。假設(shè)數(shù)據(jù)集X=(x1,…,xn)是由混合分布生成,則:
其中,Z是集合I到s簇的劃分,W是集合J到t簇的劃分。α是概率密度函數(shù)的一個參數(shù),其目標是找到一個最優(yōu)的分區(qū)對(z,w)。設(shè)xi是從第k個簇抽樣的向量,則其概率密度函數(shù)是確定的。同時由于zi與wj固定后的隨機變量是獨立的,因此樣本X的概率密度函數(shù)可表示為:
從而獲得塊混合模型為:
由z、w、可生成一個數(shù)據(jù)集X。為了同時處理數(shù)據(jù)與屬性變量的劃分,需要完成對數(shù)似然準則f(X;θ)的顯性表達式。所以使用分類似然法[13],通過最大化以下分類對數(shù)似然函數(shù)提出了區(qū)塊CEM:
對于最大化分類對數(shù)似然函數(shù)Lc(z,w;θ),首先需確定w和q的參數(shù)值,然后再確定參數(shù)z與p。當w及q固定時,對數(shù)似然函數(shù)Lc(z,w;θ)可表示為:
求解z固定的完全最大似然函數(shù)Lc(z,w;θ)就相當于最大化Lc(z,θ|w),故可通過應(yīng)用于混合模型的CEM 算法來實現(xiàn)。算法的具體步驟如下:
1)令r=1,2 ≤s≤n,2 ≤t≤m,并給出初始值z(0)、w(0)和θ(0)。
2)由z(r)、w(r)、θ(r)計算z(r+1)、w(r+1)、θ(r+1):
①從z(r)、p(r)及α(r)中得到數(shù)據(jù)(u1,…,un),采用CEM 計算z(r+1)、p(r+1)和α(r);
②從w(r)、q(r)、α(r)中獲取數(shù)據(jù)(v1,…,vm),且使用CEM 計算w(r+1)、q(r+1)和α(r+1)。
3)重復步驟2),直至數(shù)據(jù)收斂。
自從Ruspini[14]在聚類中使用模糊c 均值劃分以來,模糊聚類得到了廣泛的研究與應(yīng)用?;趬K混合模型及模糊c 均值劃分,Govaert 與Nadif 提出了塊FCM 作為一種新的塊聚類方法,塊混合模型可以表示為:
其中,θ=(p,q,α)。而Hathaway[15]對EM 做出了另一種解釋:
式(7)中,c與d分別表示觀測值及屬性的模糊劃分。Govaert 和Nadif 擴展了上述函數(shù),提出了具有以下目標函數(shù)的塊模糊c 均值方法(塊FCM):
假設(shè)概率密度函數(shù)?kl為一個充分統(tǒng)計的實值函數(shù)所定義的量[15]。則式(8)可表示為:
當d和q固定時,有:
固定d與q后,最大化Fc(c,d,θ) 等效于最大化Fc(c,θ|d)。則該準則的最大化可被視為與經(jīng)典混合模型相關(guān)聯(lián)對數(shù)似然函數(shù)最大化的EM算法,當c和p固定時,同樣可獲得:
Fc(d,θ|c)的最大化可視為應(yīng)用于經(jīng)典混合模型的EM 算法,因此能將塊FCM 算法總結(jié)如下:
1)令r=1,2 ≤s≤n,2 ≤t≤m,并給出初始值c、d和θ。
2)由c(r)、d(r)、θ(r))計算c(r+1)、d(r+1)、θ(r+1):
①從c(r)、p(r)與α(r)中獲取數(shù)據(jù)(u1,…,un),并使用EM 計算c(r+1)、p(r+1)及α(r+0.5);
②從d(r)、q(r)、α(r+0.5)中得到數(shù)據(jù)(v1,…,vm),再使用EM 計算d(r+1)、q(r+1)和α(r+0.5)。
3)重復步驟2),直至數(shù)據(jù)收斂。
令Y={y1,…,yI}為一組待分類數(shù)據(jù),使每個數(shù)據(jù)均由一組A1,…,AJ屬性進行定義。而屬性Aj描述了由表示的值域,其中Lj是屬性Aj的類別數(shù)。假設(shè)vk=(vk1,…,vkJ)是第k個星系團的質(zhì)心,每個分量vkj=(vkj1,…,vkjLj),k=1,…,K,j=1,…,J。則Sadjad 使用了以下公式來匹配相異測度:
隨后,引入模糊k 值模式分塊聚類的概念,并提出塊FKM 模型。塊FKM 聚類算法旨在最小化以下目標函數(shù):
式(15)中,若j=1,…,k,有;而當t=1,…,l,則有。X是具有n個觀測值和d種屬性的數(shù)據(jù)組,Y則是X的轉(zhuǎn)置。
對于m1>1、m2>1、μij∈[0,1]、σij∈[0,1],塊FKM的更新公式如下:
塊FKM 算法步驟如下:
1)令r=1,ε>0,2 ≤k≤n,2 ≤l≤d,且給出初始值μ(0)、σ(0);
2)由μ(r-1)、σ(r-1)、v(r-1)和w(r-1)計算出μ(r)、σ(r)、v(r)和w(r);
3)比較μ(r)、σ(r)和μ(r-1)、σ(r-1),若‖μ(r)-μ(r-1)‖+‖σ(r)-σ(r-1)‖<ε,則停止;否則,令r=r+1,并返回步驟2)。
利用真實工程數(shù)據(jù)給出的部分數(shù)值及數(shù)據(jù)集進行實驗,原始數(shù)據(jù)集具有10 個觀察值及9 個屬性,具體如圖1 所示。塊FKM 與塊FCM 均將數(shù)據(jù)集分類為如圖2 所示的數(shù)據(jù)集,且分塊結(jié)果一致。
圖1 原始數(shù)據(jù)集
圖2 塊變換修正后的數(shù)據(jù)集
經(jīng)過計算迭代次數(shù)的平均值,發(fā)現(xiàn)FKM 區(qū)塊的平均凈指數(shù)約為5 倍,而FCM 區(qū)塊的平均凈指數(shù)超過20 倍。對比可知,未經(jīng)模糊算法優(yōu)化的CEM 分類值效率更低。因此,所提出的改進k 值塊模糊算法FKM 比c 值塊模糊算法FCM 更節(jié)省時間。
為比較FKM 塊與FCM 塊在進行類別區(qū)分時的準確性,對配網(wǎng)工程成本數(shù)據(jù)進行了簡單的分類。即將其分為直接材料成本、直接人工成本、變動制造費用成本及固定制造費用成本。將101 個成本實例代入模型進行聚類,再將聚類數(shù)固定為4,來分別實現(xiàn)這兩個算法。為了對比分析文中提出的改進k 均值塊模糊算法的效果,采用了2 類和4 類兩種不同屬性的聚類數(shù)。
表1 列出了配網(wǎng)工程承包數(shù)據(jù)集屬性聚類結(jié)果,并解釋了兩種算法對屬性2 及屬性4 的聚類結(jié)果。從對成本類別的聚類結(jié)果可以看出,塊FKM 的精度顯著高于塊FCM。且在實例的聚類中,屬性的聚類數(shù)越大,特征越穩(wěn)定[16-17]。
表1 配網(wǎng)工程成本數(shù)據(jù)集屬性聚類結(jié)果
文中提出了改進k 均值塊模糊算法FKM,其可同時構(gòu)造聚類對象并進行屬性變量到同構(gòu)塊的最優(yōu)劃分。將所提出的區(qū)塊FKM 與區(qū)塊FCM 的數(shù)值數(shù)據(jù)集和真實數(shù)據(jù)集進行了比較。實驗與對比分析結(jié)果表明,該方法具有較好的準確性及有效性。
在配網(wǎng)工程中深度應(yīng)用海量數(shù)據(jù)并構(gòu)建多種類別的數(shù)據(jù)高效處理模型時,仍需注意以下幾個方面:1)動態(tài)獲取主要數(shù)據(jù),建立數(shù)據(jù)信息變化感知機制;2)基于歷年工程海量數(shù)據(jù)的信息挖掘結(jié)果,深度分析數(shù)據(jù)走向趨勢;3)綜合利用數(shù)據(jù)感知模塊,構(gòu)建新型數(shù)據(jù)挖掘模糊聚類體系。最終融合嵌入投資預算編報鏈路打造“流程閉環(huán)、共建共享”的基建工程內(nèi)控機制,從而創(chuàng)新拓展建設(shè)成果,構(gòu)建配網(wǎng)工程數(shù)據(jù)挖掘體系應(yīng)用。