雷振華,李小云,陳屹東,陳芃起,李雯樂
(湖南省電力有限公司經(jīng)濟技術(shù)研究院,湖南 長沙 410007)
隨著大數(shù)據(jù)時代的來臨,各行業(yè)的數(shù)據(jù)量均在急劇增加。為了促進雙碳目標的實現(xiàn),電網(wǎng)的建設(shè)速度持續(xù)加快且項目種類愈加豐富,導致電力工程數(shù)據(jù)的規(guī)模越來越大、類型也更為復雜。由于傳統(tǒng)的數(shù)據(jù)管理方法已無法滿足當前電力工程的需求,亟需一種新的方法來實現(xiàn)對相關(guān)數(shù)據(jù)的分類和處理[1-2]。目前常用的數(shù)據(jù)分析管理算法主要有聚類和分類兩種,包含K-means聚類、K-Medodis聚類、樸素貝葉斯(naive Bayes,NB)分類以及K最近鄰(K-nearest neighbor,KNN)分類算法等[3-6]。文獻[7]利用K-means算法對電力工程數(shù)據(jù)進行了聚類分析研究。該算法能夠有效提高數(shù)據(jù)分類的效率。但傳統(tǒng)K-means聚類的K值選取存在不確定性,同時電力數(shù)據(jù)與簇中心點的相關(guān)性也偏弱。這會導致分類結(jié)果出現(xiàn)較大誤差,從而影響數(shù)據(jù)分類結(jié)果的準確性。
為了解決上述問題,本文提出了1種基于改進K-means聚類算法和長短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)自動分類提取與分析技術(shù)。首先,本文基于閾值判定來選擇K值,即將每個應用場景聚類所設(shè)置的閾值進行對比,選擇出理想的K值,并使其與電力工程的數(shù)據(jù)相匹配。其次,本文采用屬性加權(quán)法對空間距離進行優(yōu)化,并通過對數(shù)據(jù)點間的距離賦予附加權(quán)值來進一步凸顯數(shù)據(jù)之間的關(guān)聯(lián)程度。最后,本文利用LSTM神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)間的特征進行自適應學習,從而實現(xiàn)工程數(shù)據(jù)的分析與預測。
K-means是1種基于劃分思想的典型聚類算法。其主要原理是將原始數(shù)據(jù)集劃分為若干個簇,進而令待分類數(shù)據(jù)集內(nèi)具有較高相似度的簇互相分離[8-9]。該算法具有收斂性能良好、分類過程簡便且速度較快的優(yōu)勢。K-means聚類算法的計算流程如圖1所示。
圖1 K-means聚類算法的計算流程圖
K-means聚類算法在計算時所使用的K值均是隨機選取的。這會導致分類結(jié)果有所不同,存在一定的不穩(wěn)定性。同時,對于不同場景和類型的數(shù)據(jù)而言,其分類結(jié)果也不盡相同。在應用中通常采用反推逆向法來解決這一問題。反推逆向法即根據(jù)不同的K值得出其相應的分類結(jié)果,并依據(jù)該結(jié)果選擇最佳的K值。這種方法在絕大多數(shù)的應用中均能解決問題。然而,電力工程數(shù)據(jù)龐大且種類繁雜,使用此種方法不僅效率低下,而且效果不理想。
針對上述問題,本文提出了1種基于閾值判定的K值選取方法。在電力工程的各類數(shù)據(jù)中,同一類型、同一級別區(qū)域的數(shù)據(jù)均會集中在一定的范圍內(nèi),因此可以給該范圍內(nèi)的數(shù)據(jù)設(shè)定1個距離閾值,并計算每個簇中的數(shù)據(jù)到該簇聚類中心的距離。若該距離小于設(shè)定的閾值,說明該聚類中心可以代表該簇;反之,則表示該聚類中心無法完全代表該簇,即K值選取不合理,需要重新選擇。
K值選取的具體步驟如下。
①選取待分類電力工程數(shù)據(jù)集D′={l1,l2,…,lp-1,lp},并設(shè)聚類數(shù)值為K。
②計算任意2個樣本間的空間距離d(li,lj)與每個樣本聚類中心的空間距離d(lm,lk)。
(1)
式中:x和y為2個樣本點的坐標;d(x,y)為兩個樣本點間的歐氏距離。
③計算任意2個樣本間的平均空間距離d。
(2)
④計算當前數(shù)據(jù)集中的閾值q:
q=∑|d-d(li,lj)|
(3)
⑤比較所有d(lm,lk)及q的大小。當大多數(shù)的d(lm,lk)大于閾值時,說明當前聚類中心能夠代表該簇,且K值的選擇也是合理的;否則,K值加1,并重復步驟②~步驟④,直至滿足條件。
在常規(guī)的應用場景中,采用歐幾里得式可計算出2個數(shù)據(jù)點的空間距離,進而衡量前2個數(shù)據(jù)間的關(guān)系。這種方法可行[10]。但隨著電力系統(tǒng)中的能源種類越來越多,相關(guān)工程數(shù)據(jù)也愈加復雜。若僅依靠簡單的歐幾里得式,會導致電力數(shù)據(jù)的分類結(jié)果存在較大的偏差,難以正確體現(xiàn)出數(shù)據(jù)的真實特性。例如,在電力工程造價數(shù)據(jù)中就存在天氣、地形、負荷需求等不確定因素。當數(shù)據(jù)點與簇中的聚集中心較遠時,通過歐幾里得式計算出的結(jié)果會存在距離過大以及相關(guān)性偏弱的問題。但實際上,該數(shù)據(jù)點與簇中心的相關(guān)性較強。針對上述問題,本文提出了1種屬性加權(quán)優(yōu)化空間距離算法,通過附加權(quán)重突出數(shù)據(jù)點與簇中心的相關(guān)性。以地形因素為例,其權(quán)重值Wp可定義為:
(4)
式中:D″為地形數(shù)據(jù);g為地形系數(shù),代表不同地形的情況,且地形越復雜,g值越大。
經(jīng)過優(yōu)化后的空間距離dij可以表示為:
(5)
通過給不同數(shù)據(jù)賦予不同的權(quán)重,可以突顯出數(shù)據(jù)間的相關(guān)性。
電力系統(tǒng)的智能設(shè)備在采集數(shù)據(jù)時偶爾會出現(xiàn)故障,使得所采集的數(shù)據(jù)存在缺失、異常等問題,從而在對數(shù)據(jù)進行預測和處理時產(chǎn)生不良影響。因此,有必要對異常數(shù)據(jù)進行清理,即剔除重復性數(shù)據(jù)、利用差值法填充缺失數(shù)據(jù),并對含有噪聲的數(shù)據(jù)進行降噪和去噪處理。
電力工程數(shù)據(jù)的數(shù)量眾多、類型繁雜且數(shù)值較大。為了提高算法的迭代速度并實現(xiàn)模型的快速收斂,需要對原始數(shù)據(jù)進行歸一化處理,并將其縮小到(0,1]范圍之內(nèi)。本文采用最大最小值歸一化式對數(shù)據(jù)進行處理。
(6)
式中:xr為經(jīng)歸一化處理后的數(shù)據(jù);xmax、xmin分別為原始電力數(shù)據(jù)中的最大值與最小值。
在數(shù)據(jù)分類中,通常采用準確率和容錯率對算法的分類效果進行評價。本文也使用了這2個評價指標。
在數(shù)據(jù)分類完成之后,本文利用麻雀搜索算法(sparrow search algorithm,SSA)[11-12]優(yōu)化了參數(shù)設(shè)置的LSTM神經(jīng)網(wǎng)絡(luò),以實現(xiàn)對電力工程數(shù)據(jù)的預測功能。對于預測結(jié)果則采用平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)及決定系數(shù)(R2)進行評價。
(7)
(8)
式中:RMSE為RMSE值。
(9)
本文通過算例試驗,驗證所提改進K-means聚類算法是否能夠快速、準確地對電力工程數(shù)據(jù)進行分類,并有效預測出相應的工程數(shù)據(jù)。算例分析試驗所采用的數(shù)據(jù)集為澳大利亞某地區(qū)2017—2020年的相關(guān)真實數(shù)據(jù)。這些公開數(shù)據(jù)集記錄了電力系統(tǒng)輸電、配電等工程的歷史造價、環(huán)境和評估指標。數(shù)據(jù)主要包括電壓等級、土地面積、建筑工程、設(shè)備配置、生產(chǎn)過程、天氣狀況和地形條件等信息。
試驗硬件平臺為Intel Core i7-4500M CPU/16 GB RAM GPU/NVIDIA GT880M;軟件平臺為Windows 11操作系統(tǒng)常用的Jupyter Notebook編輯器。試驗采用Python語言基于Tensorflow2.1 GPU進行算法搭建。
為了驗證所提改進K-means聚類算法分類的有效性,本文將其與傳統(tǒng)的K-means聚類、K-Medodis聚類、模糊聚類、NB分類以及KNN分類算法進行對比。為了避免隨機性,每個聚類模型均進行20次的仿真試驗。各算法的分類結(jié)果對比如表1所示。
表1 各算法的分類結(jié)果對比
由表1可知,與傳統(tǒng)K-means聚類算法相比,改進的K-means聚類算法準確性及容錯率分別提高了13.5%及18%。其原因在于K值的選取對K-means聚類算法的分類結(jié)果會有較大影響。雖然改進后的算法在自動化選取K值時多花費了0.9 s,但整體耗費時間對運算的影響較小,故犧牲少量的時間成本來獲得準確性更高的分類性能是值得的。綜合對比,改進算法的分類效果在所有對比算法中最佳。
基于改進K-means聚類算法的數(shù)據(jù)分類結(jié)果,本文首先利用LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建了工程數(shù)據(jù)的預測算法,然后利用SSA對LSTM神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)設(shè)置加以優(yōu)化。為了驗證所提SSA-LSTM算法能夠滿足實際的應用,本文將其與LSTM、遺傳算法(genetic alginthm,GA)-LSTM、粒子群優(yōu)化(particle swarm optimization,PSO)-LSTM及蝙蝠算法(bat algorithm,BA)-LSTM進行了對比測試。在本文所用造價數(shù)據(jù)集上進行的各算法的數(shù)據(jù)預測結(jié)果對比如表2所示。
表2 各算法的數(shù)據(jù)預測結(jié)果對比
由表2可知,與常用的預測算法相比,所提SSA-LSTM算法的平均誤差最小,RMSE與MAE至少分別降低了186元和302元,而R2則至少提高了6%。由此可得,所提SSA-LSTM算法可以快速、有效地實現(xiàn)電力工程數(shù)據(jù)的分類,且能夠高精度、自動地預測出相關(guān)的工程數(shù)據(jù)。
為了能夠充分利用電力工程的信息數(shù)據(jù)庫并得到高精度的工程數(shù)據(jù)預測結(jié)果,進而為電力工程的精細化管理提供數(shù)據(jù)支撐,本文設(shè)計了1種基于改進K-means聚類算法與LSTM神經(jīng)網(wǎng)絡(luò)的電力工程數(shù)據(jù)自動分類提取與分析技術(shù)。經(jīng)過理論設(shè)計與測試分析可知,所提基于閾值判定的K值選取方法通過自動化選取最優(yōu)K值,解決了傳統(tǒng)K-means聚類算法因K值的不確定性而導致的最終分類結(jié)果不穩(wěn)定的問題。本文采用屬性加權(quán)的思想對空間距離的計算方法進行優(yōu)化,通過對不同類型的數(shù)據(jù)賦予不同權(quán)重,突出簇中樣本數(shù)據(jù)與聚類中心的相關(guān)性,進一步提高了分類算法的準確性及容錯性。同時,本文還在高準確性分類結(jié)果的基礎(chǔ)上,構(gòu)建了基于SSA改進的LSTM工程造價預測算法。該算法對LSTM的參數(shù)結(jié)構(gòu)進行優(yōu)化后,預測精度得到了顯著提高,能夠滿足目前對電力工程造價數(shù)據(jù)進行處理的需求。
后續(xù)研究可以在本文基礎(chǔ)上增加超參數(shù)的數(shù)量和復雜度,以進一步提高預測精度。