国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度聚類的居民用戶電力負(fù)載模式識別

2022-09-01 15:40吳青筱王合寧仇浩宇結(jié)藝頔董駿峰
科技創(chuàng)新與應(yīng)用 2022年24期
關(guān)鍵詞:編碼器聚類深度

吳青筱,王合寧,仇浩宇,結(jié)藝頔,董駿峰

(合肥工業(yè)大學(xué) 管理學(xué)院,合肥 230009)

在電力物聯(lián)網(wǎng)的背景下,智能電表廣泛應(yīng)用于住宅小區(qū),配備了測量和通信能力,能夠記錄細(xì)粒度的能源消耗的客戶和提供額外的信息給公用事業(yè)公司[1]。通過挖掘智能電表記錄的海量電力負(fù)載數(shù)據(jù),識別住宅居民電力負(fù)載模式,可以幫助制定科學(xué)合理的機(jī)制,引導(dǎo)用戶積極參與需求響應(yīng)[2]。另外,對于電力公司來說,了解用戶如何以及何時用電也是至關(guān)重要的[3]。因此,對住宅居民用電負(fù)載模式的研究具有十分重要的應(yīng)用價值。

負(fù)載模式識別的核心是聚類,目前的研究以K 均值聚類算法(K-Means)、層次聚類、譜聚類等淺層的聚類方法為主。利用基于密度改進(jìn)的K-Means 算法來探究典型的用戶用電模式[4],通過密度法和指標(biāo)解決聚類數(shù)目的選擇問題和局部最優(yōu)問題。提出利用改進(jìn)的KMeans 算法,通過余弦距離定義和描述不同的電力用戶群體,當(dāng)聚類的數(shù)量太多而無法解釋時,通過層次聚類以使用適當(dāng)?shù)木嚯x度量進(jìn)行另一次聚類[5]。提出了一種改進(jìn)的層次聚類算法,比較了基于數(shù)據(jù)劃分的層次聚類和傳統(tǒng)層次聚類以及劃分聚類算法的不同,通過聚類的評價指標(biāo)和時間來驗證聚類效果[6]。提出一種基于優(yōu)化特征向量選取的遺傳譜聚類算法,對算法中特征向量的提取過程進(jìn)行了合理優(yōu)化,防止數(shù)據(jù)信息缺失帶來的影響[7]。

隨著電力負(fù)載數(shù)據(jù)維度的不斷增加,直接利用K-Means、譜聚類和層次聚類等淺層的聚類進(jìn)行負(fù)載模式識別變得越來越困難,高維負(fù)載數(shù)據(jù)的內(nèi)在特征被忽視。在這種維度高、深度特征越來越重要的情況下,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行聚類的方法有很好的應(yīng)用效果。提出了一種基于生成性對抗網(wǎng)絡(luò)的場景生成方法,對負(fù)載的不確定性和變化進(jìn)行建模,訓(xùn)練后的網(wǎng)絡(luò)模型會生成以日類型、溫度和歷史負(fù)荷為條件的剩余情景[8]。利用深度卷積神經(jīng)網(wǎng)絡(luò)首先從大規(guī)模負(fù)荷曲線中提取特征,然后,通過支持向量機(jī)識別電力用戶的特征[9]。

本文提出了一種深度自編碼器和K-Means 結(jié)合的方法,利用自編碼器對負(fù)載數(shù)據(jù)進(jìn)行特征提取,提取負(fù)荷時序數(shù)據(jù)的內(nèi)在特征。另外,考慮到聚類的本質(zhì)為數(shù)據(jù)之間的距離性,聚類層的誤差將參與到自編碼器的參數(shù)更新中,聯(lián)合優(yōu)化自編碼器和聚類層,進(jìn)一步改善特征提取效果,從而能夠獲得更加準(zhǔn)確的聚類結(jié)果,實(shí)現(xiàn)住宅用戶的負(fù)載模式識別。

1 方法理論基礎(chǔ)

1.1 傳統(tǒng)K-Means 聚類

K-Means 算法可以把n維數(shù)據(jù)在無監(jiān)督的條件下分為k類[10],是一種經(jīng)典的廣泛用于智能電表數(shù)據(jù)分析的聚類算法,它可以識別不同的用電模式和具有相同用電模式的居民[11]。它的算法基本思路大致如下:從一個給定的數(shù)據(jù)集的n個樣本點(diǎn)中隨機(jī)選取k個樣本點(diǎn)為其初始迭代的聚類中心點(diǎn),通過距離函數(shù)來計算出其余的每個候選樣本點(diǎn)至其各個初始迭代聚類中心點(diǎn)之間的距離,并將所有候選樣本中心點(diǎn)都?xì)w屬到距離自身最小的一個簇中,隨后再更換其中每一個簇的中心點(diǎn),成為其下一次初始迭代過程中新的初始聚類中心,重復(fù)上述迭代過程,直至達(dá)到給定的最大迭代重復(fù)次數(shù)Tmax或k個聚類中心保持不變。

但是,傳統(tǒng)K-Means 算法中的距離度量受困限于原始數(shù)據(jù)空間。面對高維度數(shù)據(jù)時,數(shù)據(jù)點(diǎn)的間距會偏向于相互接近,數(shù)據(jù)點(diǎn)間的距離關(guān)系也會減弱,因此,直接使用傳統(tǒng)K-Means 對電力用戶負(fù)載模式識別并不理想,對輸入的高維數(shù)據(jù)進(jìn)行處理十分必要。

1.2 自編碼器

自編碼器(auto-encoder,AE)由Rumelhart 等[12]首先提出,是一種典型的可以無監(jiān)督學(xué)習(xí)到特征的一種人工神經(jīng)網(wǎng)絡(luò)。它的訓(xùn)練過程主要有編碼和解碼2 個步驟,在編碼時,輸入的數(shù)據(jù)為無標(biāo)簽的樣本,旨在學(xué)習(xí)數(shù)據(jù)的內(nèi)部特征,而隱藏層輸出的低維數(shù)據(jù)為學(xué)習(xí)到樣本的抽象特征,在解碼時稱對稱結(jié)構(gòu),輸出層的維數(shù)和輸入層維數(shù)保持一致,并且與原始數(shù)據(jù)盡可能保持一致。

深度自動編碼器本質(zhì)上就是增加中間隱藏層數(shù),用來學(xué)到更復(fù)雜的編碼。深度自動編碼器是一個全連接對稱模型,輸入高維數(shù)據(jù)的編碼過程和解碼過程是一個完全對應(yīng)的相反過程。深度自動編碼器需要訓(xùn)練大量參數(shù),訓(xùn)練時間長,且隱藏層輸出的數(shù)據(jù)和輸入數(shù)據(jù)表達(dá)的相同特征較少,與聚類的本質(zhì)不同,直接用于聚類效果不理想,故有必要和其他方法結(jié)合來實(shí)現(xiàn)更有效的聚類。另外,深度自編碼器具有較強(qiáng)的非線性表示特征的能力,并且普適性較高,幾乎可以與任何聚類方法相結(jié)合[13],因此,自編碼器中間層輸出數(shù)據(jù)可以通過其他聚類算法進(jìn)行聚類。

2 基于深度聚類的方法模型

本文設(shè)計了一種以深度自編碼器和K-Means 算法為基礎(chǔ)的電力負(fù)載模式識別方法,在本節(jié)將會介紹其算法框架以及如何實(shí)施。

2.1 階段1

在電力數(shù)據(jù)的收集過程中,由于傳感器的故障或數(shù)據(jù)傳輸誤碼等原因,電力數(shù)據(jù)會出現(xiàn)異常[14],負(fù)荷數(shù)據(jù)中通常存在著少量異常數(shù)據(jù)和缺失數(shù)據(jù)。

聚類對異常數(shù)據(jù)十分敏感,為了防止異常數(shù)據(jù)造成聚類結(jié)果偏離實(shí)際,首先進(jìn)行數(shù)據(jù)清洗??紤]到樣本數(shù)量充足,直接剔除大量數(shù)據(jù)缺失的負(fù)荷曲線和異常值,然后對數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化,如式(1)所示。

式中:max 為數(shù)據(jù)的最大值;min 為數(shù)據(jù)的最小值;x*為標(biāo)準(zhǔn)化后的數(shù)據(jù),映射結(jié)果在[0,1]內(nèi)。

2.2 階段2

對于清洗后的負(fù)荷數(shù)據(jù),先利用深度自編碼器提取深度特征,實(shí)現(xiàn)負(fù)荷數(shù)據(jù)的時序特征的提取。如圖1所示,未經(jīng)自編碼器處理的負(fù)荷曲線交織在一起,時序特征不明顯,經(jīng)過特征提取的數(shù)據(jù)深度特征更加明顯,數(shù)據(jù)之間距離得到強(qiáng)化,更有利于進(jìn)一步的聚類。

圖1 負(fù)荷曲線特征提取示意圖

然后,將已被提取特征的數(shù)據(jù)輸入聚類層進(jìn)行聚類,通過K-Means 算法對深度自編碼器中間層的輸出數(shù)據(jù)進(jìn)行聚類。

2.3 階段3

自編碼器的損失函數(shù)如式(2)所示,重構(gòu)出的XR盡可能恢復(fù)原來的輸入數(shù)據(jù)X。

K-Means 的損失函數(shù)如式(3)所示,簇內(nèi)的點(diǎn)盡可能離簇中心近。

整個模型的損失函數(shù)由自編碼器和K-Means 的誤差組成,如式(4)所示,保證了自編碼器中輸出層和輸入層數(shù)據(jù)相似性的同時使聚類結(jié)果簇內(nèi)距離較近。根據(jù)Loss3聯(lián)合優(yōu)化整個模型,提高特征表示的效果,同時提升聚類準(zhǔn)確度。

最后通過無監(jiān)督聚類的指標(biāo)與其他傳統(tǒng)方法進(jìn)行對比。

方法框架圖如圖2 所示,算法如下所示。

圖2 算法框架圖示意圖

輸入:數(shù)據(jù)集X={x1,x2,…,xn},隱藏層節(jié)點(diǎn)數(shù)q,激活函數(shù)g(*),學(xué)習(xí)速率η,最大迭代次數(shù)tmax

輸出:聚類結(jié)果Cluster

(1)初始化。構(gòu)建并預(yù)訓(xùn)練auto-encoder 模型,隨機(jī)對W,bm,bd賦值,W,bm,bd分別為連接權(quán)重和節(jié)點(diǎn)偏置。

(2)while:t<tmax。

(3)t=t+1 。

(4)正向傳播,計算中間層輸出X'和樣本重構(gòu)結(jié)果XR。(5)計算重構(gòu)誤差Loss1并進(jìn)行反向傳播,并更新W,bm,bd。

(6)進(jìn)行聚類Cluster=KMeans(X')并計算聚類誤差Loss2。

(7)計算聯(lián)合誤差Loss3=Loss1+λLoss2,并修正模型參數(shù)。

(8)判斷停止訓(xùn)練條件。

(9)End while 。

(10)返回聚類結(jié)果Cluster。

3 算例分析

3.1 數(shù)據(jù)集來源

實(shí)驗數(shù)據(jù)采用英國倫敦居民的家庭用電數(shù)據(jù)集,數(shù)據(jù)集包含參與英國電力網(wǎng)絡(luò)領(lǐng)導(dǎo)的倫敦低碳項目的

倫敦家庭的家庭用電負(fù)載情況,共有超過5 000 個家

庭參與,采樣頻率為30 min。

3.2 評價指標(biāo)

戴維森堡丁指數(shù)(Davies-Bouldin Index,DBI)最早由大衛(wèi)L·戴維斯和唐納德·Bouldin 提出,戴維森堡丁指數(shù)的最小值可以達(dá)到0,數(shù)值越小則代表聚類效果越好,計算公式如式(5)所示。

式中:k為聚類出簇的數(shù)目;si為第i類中每個樣本點(diǎn)與該類聚類中心的平均距離,DBI代表數(shù)據(jù)的分散程度。

3.3 結(jié)果與分析

整體方法利用深度自編碼器對進(jìn)行異常值處理和標(biāo)準(zhǔn)化之后的電力負(fù)荷曲線進(jìn)行深度特征的提取,將數(shù)據(jù)輸入進(jìn)K-Means 算法進(jìn)行聚類。其中,深度自編碼器共有9 層,編碼的維度分別為48、64、128、64、48,學(xué)習(xí)率為0.000 1,利用其他常見參數(shù)得到結(jié)果均劣于此情況。最終得到的曲線如圖3 所示,圖3 給出了k=5時的典型居民用戶電力負(fù)載模式。

圖3 k=5 時的居民用戶電力負(fù)載模式曲線示意圖

從圖3 中可以看出,第一種負(fù)載曲線模式趨于平緩,此類用戶全天用電量均較少,屬于低電量用戶模式;第二種負(fù)載曲線模式與第一種負(fù)載曲線模式形狀較為一致,但在10:00 和21:00 左右曲線波動大于第一種負(fù)載曲線模式,2 處高峰值均高于第一種負(fù)載曲線模式,屬于中低電量用戶模式;第三種負(fù)荷曲線模式屬于典型的“上升型”模式,7:30—10:00 用電量不斷增加,從10:00—15:00 呈現(xiàn)平緩下降的趨勢,從15:00—21:00 又呈現(xiàn)緩慢上升的趨勢,在21:00 之后用電量又快速下降,符合大部分人的規(guī)律作息時間,屬于高電量用戶;第四種負(fù)載曲線模式與第三種較為相似,區(qū)別表現(xiàn)在:10:00—15:00 期間用電量下降較快,15:00—21:00 期間用電量上升較快,且整體用電量低于第三種,屬于中電量用戶;第五種負(fù)載曲線模式呈現(xiàn)后端用電量大的情況,22:00 處于高峰,且用電量增加和減少幅度都較大,此類負(fù)載曲線模式對應(yīng)用戶生活習(xí)慣較晚,且深夜用電量較大,其余時間均較少,屬于中低電量用戶?;谝陨系慕Y(jié)果分析,可以設(shè)計5種不同的用電階梯套餐,對應(yīng)不同種用電模式。

3.4 聚類評價指標(biāo)分析

為了進(jìn)一步說明所提算法的效果,本文利用DBI指標(biāo)定量地對聚類結(jié)果進(jìn)行分析。本文所提出的誤差聯(lián)合優(yōu)化自編碼器和聚類層的方法將與傳統(tǒng)K-Means 聚類、譜聚類、層次聚類方法比較。另外,從實(shí)際考慮,行業(yè)專家建議集群的數(shù)量不應(yīng)超過10個,從行業(yè)角度來看,產(chǎn)生的集群數(shù)量可用于規(guī)劃關(guān)稅,或為營銷提供證據(jù),提供10 種不同關(guān)稅或營銷策略的運(yùn)營成本將在可承受的成本范圍內(nèi)[15]。故對比聚類數(shù)目在[2,10]時,不同聚類方法的DBI結(jié)果如圖4 所示。

圖4 不同聚類數(shù)下的DBI

由圖4 可知,本文所提方法優(yōu)于所對比的3 種方法。圖中可以看出,當(dāng)聚類數(shù)為2 時,4 種方法DBI很接近。k大于2 時,傳統(tǒng)K-Means 聚類、譜聚類、層次聚類的DBI相差不大,但所提方法的DBI均小于它們,所提方法的曲線始終在其他3 個曲線下方,從而說明本文提出方法的聚類效果優(yōu)于傳統(tǒng)K-Means 聚類、譜聚類和層次聚類。

4 結(jié)論

針對電力用戶負(fù)載模式的識別,本文提出了一種深度自編碼器和K-Means 結(jié)合的方法,利用誤差聯(lián)合優(yōu)化自編碼器和K-Means 算法,通過深度自編碼器對電力用戶數(shù)據(jù)進(jìn)行抽象特征的提取,保證時序數(shù)據(jù)的深度特征不被破壞,再采用K-Means 算法將抽象特征進(jìn)行聚類。通過對英國倫敦電力居民用戶數(shù)據(jù)集的結(jié)果分析,驗證了該方法應(yīng)用于住宅用戶負(fù)載模式識別能夠獲得準(zhǔn)確的聚類結(jié)果,可以分析出不同類型的負(fù)載模式,有助于電網(wǎng)了解電力用戶負(fù)載模式,提高能源利用效率,進(jìn)行需求響應(yīng)管理等工作。

猜你喜歡
編碼器聚類深度
融合CNN和Transformer編碼器的變聲語音鑒別與還原
深度理解一元一次方程
基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
深度觀察
深度觀察
深度觀察
基于雙增量碼道的絕對式編碼器設(shè)計
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
基于改進(jìn)的遺傳算法的模糊聚類算法
安阳市| 宁化县| 宣城市| 扎鲁特旗| 清水县| 秦皇岛市| 陇川县| 郁南县| 土默特左旗| 酉阳| 神农架林区| 泰顺县| 全州县| 普定县| 临夏县| 闸北区| 儋州市| 蕲春县| 方城县| 郁南县| 北安市| 台中市| 边坝县| 固镇县| 津市市| 衡阳市| 桐庐县| 西乡县| 甘南县| 临颍县| 永年县| 安溪县| 华坪县| 马公市| 松溪县| 恩平市| 子长县| 东港市| 宁武县| 清苑县| 临城县|