国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于AE-OCSVM模型的電力大數(shù)據(jù)異常值檢測方法

2024-12-14 00:00:00劉陽
今日自動化 2024年11期
關(guān)鍵詞:電力大數(shù)據(jù)模型

[關(guān)鍵詞]AE-OCSVM 模型;電力;大數(shù)據(jù);異常值檢測方法

[中圖分類號]TP311.13 [文獻(xiàn)標(biāo)志碼]A [文章編號]2095–6487(2024)11–0124–03

在過去的幾十年中,異常值檢測技術(shù)已從簡單的統(tǒng)計測試發(fā)展到復(fù)雜的機(jī)器學(xué)習(xí)方法。簡單統(tǒng)計方法主要有3sigma 準(zhǔn)則、四分位算法、Z-score 等。復(fù)雜的機(jī)器學(xué)習(xí)方法主要為K-Means 聚類、孤立森林、隨機(jī)森林、DBSCAN 等。文獻(xiàn)[1] 基于改進(jìn)的K-Means和DNN(深度神經(jīng)網(wǎng)路)對數(shù)據(jù)進(jìn)行檢測,對大數(shù)據(jù)的異常情況進(jìn)行檢測與修正;文獻(xiàn)[2] 融合異常檢測與區(qū)域分割的高效K-Means 聚類算法提高算法執(zhí)行效率;文獻(xiàn)[3] 對K-Means 聚類進(jìn)行了相應(yīng)的改進(jìn),提高了異常值檢測效率;文獻(xiàn)[4] 結(jié)合SVM 和孤立森林算法進(jìn)行檢測,可快速有效地識別出異常值;文獻(xiàn)[5] 結(jié)合孤立森林算法和改進(jìn)X-Means 保障了數(shù)據(jù)的穩(wěn)定性;文獻(xiàn)[6] 使用DBSCAN 算法進(jìn)行檢測,提高了準(zhǔn)確率、適用性和魯棒性。然而目前異常值檢測依然面臨著一系列挑戰(zhàn),因此,文章提出一種AEOCSVM(深度自動編碼一類支持向量機(jī))組合算法對異常值進(jìn)行檢測,以適應(yīng)高維大數(shù)據(jù)的情況。該方法首先用深度自動編碼對輸入空間降維和特征表示,然后基于支持向量和余量的OC-SVM 進(jìn)行異常預(yù)測。對9 種不同的算法進(jìn)行分析對比,結(jié)果顯示,能夠有效提高預(yù)測準(zhǔn)確性和精確度。

1"AE-OCSVM

2.2評價指標(biāo)分析

準(zhǔn)確度指總樣本中準(zhǔn)確預(yù)測的百分比。雖然準(zhǔn)確率可判斷整體準(zhǔn)確率,但在樣本不平衡的情況下,其并不是衡量結(jié)果的好指標(biāo)。例如,在樣本集中,有90個正樣本和10 個負(fù)樣本,樣本嚴(yán)重失衡。在這種情況下,只需要將所有樣本預(yù)測為正樣本,就可以獲得90% 的準(zhǔn)確率,但這完全沒有意義。對于新數(shù)據(jù),根本沒有準(zhǔn)確性。因此,在樣本不平衡的情況下,所獲得的高精度沒有任何意義,并且精確度將無效。因此,需要找到新的指標(biāo)評估該模型的優(yōu)缺點。

精確度指預(yù)測結(jié)果,即在所有預(yù)測為正的樣本中,樣本實際為正的概率。精確度和準(zhǔn)確度看起來很相似,但概念完全不同。精確度表示正樣本結(jié)果中預(yù)測的準(zhǔn)確性,準(zhǔn)確度表示整個預(yù)測的準(zhǔn)確性,包括正樣本和負(fù)樣本。

召回率是針對原始樣本的,這意味著在實際為正的樣本中被預(yù)測為正樣本的概率。

Precision 和Recall 可用P-R 圖表示。為確定P-R曲線上最佳閾值點,希望準(zhǔn)確率和召回率高,但事實上這兩個指標(biāo)相互矛盾,無法達(dá)到雙高。因此,選擇正確的閾值點需要根據(jù)實際問題的要求,例如,如果想要高精度,必須犧牲一些召回率;為了獲得高的召回率,必須犧牲一些精確度。但通常,可根據(jù)他們之間的平衡來定義一個新的指標(biāo),即F1 指數(shù)。F1 指數(shù)平衡了準(zhǔn)確度和召回率,同時考慮了準(zhǔn)確度和召回率。

2.3結(jié)果對比分析

在準(zhǔn)確性方面,Isolation Forest 和OC-SVM 的準(zhǔn)確性低于80%,Isolation Forest 算法模型測量的數(shù)據(jù)最低準(zhǔn)確性為0.6184,比平均值0.7975 低近10個百分點。剩余算法模型的最高精度為PCA+GMM(TN=0),為0.8508,并且PCA+ KMeans、DBSCAN、DAGMM、LOF、AE-OCSVM、VAEGMM 在(0.8000,0.8500)的區(qū)間內(nèi)增加。在精度方面,OC-SVM 和DBSCAN 算法的精度特別突出,比其余算法模型高出約5 個百分點。DAGMM、VAEGMM 和AE-OCSVM與其余算法模型相比具有約1~2 個百分點的優(yōu)勢。召回數(shù)據(jù)的狀態(tài)和準(zhǔn)確性相似,Isolation Forest 和OC-SVM 遠(yuǎn)未達(dá)到平均水平,PCA GMM(TN=0)尤為突出,其值為0.9444。F1 指數(shù)是精度和召回率平衡的結(jié)果,Isolation Forest 和OC-SVM 的指數(shù)比其他算法低,其余算法的F1 指數(shù)在90% 左右略有波動。

基于以上分析,Isolation Forest 的4 個指標(biāo)相對較低,數(shù)據(jù)處理能力最差。OC-SVM 和DBSCAN 只具有更高的精度,而準(zhǔn)確度、召回率和F1 指數(shù)都低于平均值,但DBSCAN 的評估指標(biāo)值高于OC-SVM,并且都適合于只注重準(zhǔn)確度的試驗數(shù)據(jù)處理。除準(zhǔn)確度一般外,PCA+GMM(TN=0)的準(zhǔn)確度、召回率和F1 指數(shù)在所有模型中最高,數(shù)據(jù)處理能力最好。PCA+K-Means 的值都是平均值,其余數(shù)據(jù)模型的數(shù)據(jù)處理能力相對較強(qiáng)且相似。具體的選擇取決于試驗對象。9種不同算法分析見表1。

3結(jié)束語

針對電力數(shù)據(jù)維數(shù)較高,數(shù)量龐大,以及數(shù)據(jù)的多源異構(gòu)特點,文章引入深度自編碼模型(AE),提出了AE-OCSVM(深度自動編碼一類支持向量機(jī))組合算法對異常值進(jìn)行檢測。試驗結(jié)果表明,該方法取得了良好的檢測效果,準(zhǔn)確率,精確率,召回率和F1指數(shù)4個指標(biāo)在9個模型對比分析中具有突出優(yōu)勢,能夠處理電力高維大數(shù)據(jù)的異常值檢測情況。

猜你喜歡
電力大數(shù)據(jù)模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
電力變壓器高壓試驗探討
供電企業(yè)物資管理與驗收問題分析
關(guān)于電力客戶服務(wù)營銷新策略分析
對電力、電氣設(shè)備故障診斷及原因分析
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
克山县| 德钦县| 卢湾区| 无锡市| 峨眉山市| 鄂州市| 武川县| 丰都县| 平顺县| 南宁市| 长武县| 海晏县| 宁德市| 贵州省| 扶风县| 阿合奇县| 汾西县| 龙泉市| 恩施市| 上虞市| 南皮县| 南宫市| 中西区| 长沙市| 分宜县| 邳州市| 泾源县| 陆丰市| 宁武县| 合阳县| 瑞昌市| 财经| 盐津县| 延寿县| 北海市| 通道| 麦盖提县| 鄂托克前旗| 延吉市| 南开区| 张北县|