張鴻雁
(晉中學(xué)院 信息技術(shù)與工程系,山西 晉中 030619)
聚類是一個(gè)過程,就是把一個(gè)大的數(shù)據(jù)劃分成多個(gè)類簇,同一類別中的數(shù)據(jù)互相相似,而不同類別的數(shù)據(jù)會(huì)有較大的不同。K 均值聚類算法是當(dāng)前數(shù)據(jù)分析最常使用的方法,特點(diǎn)是算法操作簡單,適用于大規(guī)模的數(shù)據(jù)采集和結(jié)果分析[1]。在如今大數(shù)據(jù)信息時(shí)代下,對(duì)電力信息的數(shù)據(jù)分析也越來越重要,它能夠?qū)υS多行業(yè)形成產(chǎn)業(yè)鏈結(jié)構(gòu),加速經(jīng)濟(jì)的發(fā)展[2]。基于聚類算法的優(yōu)勢(shì),將其應(yīng)用于電源運(yùn)行狀態(tài)數(shù)據(jù)分析中,通過對(duì)電源運(yùn)行狀態(tài)數(shù)據(jù)的分類與分析,更有利于掌握電源運(yùn)行狀態(tài)。
采集數(shù)據(jù)樣本是電源運(yùn)行狀態(tài)分析的前提,采集的數(shù)據(jù)樣本質(zhì)量對(duì)分析結(jié)果有著至關(guān)重要的影響。電源運(yùn)行狀態(tài)數(shù)據(jù)采集系統(tǒng)平均15 min 會(huì)采集一次數(shù)據(jù),根據(jù)系統(tǒng)內(nèi)采集到的數(shù)據(jù)信息,進(jìn)行簡單的數(shù)據(jù)分析。但在電力信息系統(tǒng)里,不可能所有的信息都能在樣本里出現(xiàn),采集和運(yùn)輸過程會(huì)受到多個(gè)因素的影響,可能造成異常數(shù)據(jù)。
數(shù)據(jù)樣本采集完成后,需要對(duì)缺失的數(shù)據(jù)值進(jìn)行處理。需要找到缺失值所對(duì)應(yīng)的時(shí)間,根據(jù)前后兩天同一時(shí)間內(nèi)的前后兩組數(shù)據(jù),在大數(shù)據(jù)庫里找到與缺失樣本最為相似的樣本,根據(jù)電源運(yùn)行狀態(tài)樣本數(shù)據(jù)的平均值、中值或是眾數(shù),進(jìn)行變量模擬,來預(yù)測(cè)缺失的數(shù)據(jù)。這樣能夠保證缺失的數(shù)據(jù)盡可能地接近真實(shí)的數(shù)據(jù)[3-5]。補(bǔ)充好缺失數(shù)值,調(diào)整好異常噪聲數(shù)據(jù)后,將所有采集的數(shù)據(jù)樣本做好統(tǒng)一,將不同時(shí)間段、不同數(shù)據(jù)庫源的數(shù)據(jù)進(jìn)行整合,也就是歸一化處理[6-8]。
采集的電源運(yùn)行狀態(tài)數(shù)據(jù)大多數(shù)來自不同的數(shù)據(jù)庫,文件和時(shí)間不盡相同,因此需要對(duì)數(shù)據(jù)進(jìn)行集合。然而,由于同一屬性的數(shù)據(jù)在不同數(shù)據(jù)庫中會(huì)存在不同的名字,往往在數(shù)據(jù)集合時(shí)會(huì)存在差別數(shù)據(jù),會(huì)降低數(shù)據(jù)集合的準(zhǔn)確率[9]。對(duì)于出現(xiàn)的問題通常使用歸一化進(jìn)行處理,以防量綱的差異對(duì)數(shù)據(jù)分析結(jié)果造成影響。具體方法是,通過最小-最大法計(jì)算出標(biāo)準(zhǔn)化離差,將處理后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差計(jì)算,將數(shù)據(jù)標(biāo)準(zhǔn)差控制在1 即可。最小-最大法計(jì)算需要將數(shù)據(jù)中映射在[0,1]之間,具體的轉(zhuǎn)換公式如下:
式中:樣本數(shù)據(jù)最小值用min 表示,樣本數(shù)據(jù)最大值用max 表示,樣本數(shù)據(jù)用y表示。計(jì)算出離差后,通過標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差,使得處理后的數(shù)據(jù)的標(biāo)準(zhǔn)差為1,轉(zhuǎn)化的數(shù)據(jù)公式為:
數(shù)據(jù)處理完成后,可以將樣本數(shù)據(jù)進(jìn)行點(diǎn)對(duì)點(diǎn)連接,構(gòu)成數(shù)據(jù)曲面,來表示一段時(shí)間內(nèi)的運(yùn)行數(shù)據(jù)情況走向,方便K均值聚類算法劃分?jǐn)?shù)據(jù)[10]。根據(jù)某用戶24 小時(shí)之內(nèi)的部分時(shí)間用電量的變化情況,進(jìn)行歸一化處理。
由于電源運(yùn)行狀態(tài)數(shù)據(jù)樣本較大,數(shù)據(jù)分析過程耗時(shí)較久,準(zhǔn)確性低,因此用K均值聚類算法對(duì)狀態(tài)數(shù)據(jù)進(jìn)行分組,將具有同一特征的電源運(yùn)行狀態(tài)數(shù)據(jù)聚集到一組內(nèi)。假設(shè)設(shè)定一個(gè)整數(shù)K點(diǎn)和一個(gè)具有n個(gè)數(shù)據(jù)的相關(guān)的樣本集G={g1,g2,g3,…,gn},該設(shè)定目標(biāo)是選擇k個(gè)聚類中心Fi(i=1,2,…,k),直到所選數(shù)據(jù)不會(huì)發(fā)生任何變化,或者簇的中心點(diǎn)不會(huì)發(fā)生變化,使目標(biāo)函數(shù)M達(dá)到最小,其中目標(biāo)函數(shù)M的計(jì)算公式為:
式中:M代表目標(biāo)函數(shù);G代表樣本集;Fi代表每一個(gè)聚類中心。
算法的基本思想是在n個(gè)數(shù)據(jù)樣本中,挑選一個(gè)隨機(jī)的K作為初始中心,將數(shù)據(jù)集中,其他的樣本向中心聚攏,劃分到選取的k個(gè)中心當(dāng)中,距離中心的最近點(diǎn)所屬的類中,會(huì)形成k個(gè)初始的聚類簇。對(duì)每一個(gè)聚類簇加以計(jì)算,重新分布到新的類簇中,根據(jù)新獲得的聚類中心重新分配數(shù)據(jù),不斷地進(jìn)行代換,直到數(shù)據(jù)不再變化,或者簇的中心點(diǎn)不再變化即可。具體步驟如下:
(1)隨機(jī)選取K個(gè)數(shù)據(jù)點(diǎn)作為初始類簇中心;
(2)計(jì)算每一個(gè)樣本和設(shè)定的這些k簇中心的距離s,公式為:
式中:s表示每個(gè)樣本到k簇的距離,ga表示樣本集的每一個(gè)數(shù)據(jù),fb表示聚類中心的每一個(gè)數(shù)值。將樣本按照a=1,2,…,n,b=1,2,…,k的順序依次計(jì)算,計(jì)算公式為:
式中:ga表示樣本集的每一個(gè)數(shù)據(jù),fb表示聚類中心的每一個(gè)數(shù)值。如果滿足式(5),則樣本集G∈F,如不滿足則重新計(jì)算,直到樣本數(shù)據(jù)與K值中心點(diǎn)數(shù)值達(dá)到最小。
將選取的電源運(yùn)行狀態(tài)數(shù)據(jù)樣本進(jìn)行初始分類,計(jì)算樣本數(shù)量和以K值為中心的類簇距離,得出類簇中心點(diǎn),迭代輸入。當(dāng)?shù)竭_(dá)最小K值時(shí),觀察中心位置是否有變化,如果沒有,輸出結(jié)果即可。若達(dá)到最小K值,但中心位置仍有變化,則重新計(jì)算,直到?jīng)]有變化為止,輸出結(jié)果,由此完成電源運(yùn)行狀態(tài)數(shù)據(jù)分析。
為了驗(yàn)證本文設(shè)計(jì)的分析方法能夠提高數(shù)據(jù)分析的準(zhǔn)確率,通過對(duì)照實(shí)驗(yàn),檢驗(yàn)新設(shè)計(jì)方法對(duì)電源運(yùn)行狀態(tài)數(shù)據(jù)分析的有效性。在選取的樣本中,在第12 min、第33~36 min、第48 min、第63 min 和第65 min 時(shí),樣本數(shù)據(jù)存在空白數(shù)據(jù),因此在對(duì)電源運(yùn)行狀態(tài)數(shù)據(jù)分析時(shí)會(huì)存在相對(duì)誤差,影響分析結(jié)果。下面通過傳統(tǒng)方法和本文設(shè)計(jì)方法作比較,分析兩種方法的準(zhǔn)確性,以此論證文中方法對(duì)電源運(yùn)行狀態(tài)數(shù)據(jù)分析準(zhǔn)確性的影響。
在實(shí)驗(yàn)前,先通過傳統(tǒng)方法和本文設(shè)計(jì)方法分別對(duì)數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)分散,在隨機(jī)給出橫縱坐標(biāo)(x,y)(0 <x<10,0 <y<10)的情況下,生成樣本分布圖進(jìn)行數(shù)據(jù)分析,測(cè)試兩種方法的準(zhǔn)確率,分析結(jié)果如圖1 所示。
圖1 電源運(yùn)行狀態(tài)數(shù)據(jù)分析結(jié)果
如圖1 所示,將所選取的數(shù)據(jù)樣本通過傳統(tǒng)方法和本文方法進(jìn)行分析,傳統(tǒng)方法的樣本特別分散,且在空白數(shù)據(jù)的地方存在重疊,空白數(shù)據(jù)只能用鄰近數(shù)值代替,尋找不到中心數(shù)據(jù)。而本文設(shè)計(jì)方法的樣本數(shù)據(jù)分散基本在2 <x<8,2 <y<7中,中心K值為6,能夠通過鄰近數(shù)值模擬出空白數(shù)據(jù),完整表達(dá)樣本數(shù)據(jù)。結(jié)合樣本數(shù)據(jù)的分析結(jié)果,將數(shù)據(jù)樣本中的數(shù)據(jù)值進(jìn)行10 次模擬實(shí)驗(yàn),測(cè)試結(jié)果的準(zhǔn)確性。表2 是通過上述公式得到的10組測(cè)試結(jié)果。
表2 兩種方法對(duì)分析電源運(yùn)行狀態(tài)數(shù)據(jù)的準(zhǔn)確率測(cè)試結(jié)果
由表2 可以看出,新的設(shè)計(jì)方法對(duì)于分析電源運(yùn)行狀態(tài)數(shù)據(jù)的結(jié)果準(zhǔn)確率更高,分析結(jié)果更優(yōu)。
本文運(yùn)用K 均值聚類算法研究電源運(yùn)行狀態(tài)數(shù)據(jù)的分析方法,對(duì)比傳統(tǒng)設(shè)計(jì)方法,通過K 均值聚類算法,研究電源運(yùn)行狀態(tài)數(shù)據(jù)的分析方法,建立出一套新的數(shù)據(jù)分析方法,為電源運(yùn)行狀態(tài)數(shù)據(jù)分析提供理論基礎(chǔ)。該設(shè)計(jì)方法能夠在電源運(yùn)行狀態(tài)數(shù)據(jù)分析中提高數(shù)據(jù)準(zhǔn)確率。