摘 要:針對主動配電網(wǎng)風險初始特征子集存在冗余故障特征變量和非強相關變量的問題,提出一種基于VarianceThreshold-GARFECV的特征選擇方法。所提方法結合方差閾值和基于遺傳算法的遞歸特征消除交叉驗證(RFECV)技術,能夠有效選擇出最優(yōu)的特征集合。實驗結果表明,所提方法可以對配電網(wǎng)故障風險初始特征集合進行篩選和選擇,剔除關聯(lián)性弱和冗余的特征變量,從而達到降低配電網(wǎng)數(shù)據(jù)的復雜性、避免過擬合、增加模型的可解釋性的目的,具有較高的準確率和穩(wěn)定性。
關鍵詞:特征選擇; 態(tài)勢感知; 風險預測; VarianceThreshold
中圖分類號:TM74 文獻標志碼:A 文章編號:2095-8188(2024)06-0064-06
DOI:10.16628/j.cnki.2095-8188.2024.06.010
Feature Selection Method Based on VarianceThreshold-GARFECV
MA Jiachen1, GAO Song2, WANG Lei2
(1.School of Electrical Engineering,Northeast Electric Power University, Jilin 132012, China;
2.State Grid Jilin Electric Power Research Institute, Changchun 130021, China)
Abstract:In view of the existence of redundant fault characteristic variables and non-strongly correlated variables in the initial feature subset of active distribution network risk, a feature selection method based on VarianceThreshold-GARFECV is proposed. The proposed method combines the variance threshold and the recursive feature cancellation cross-validation(RFECV) technology based on genetic algorithm, which can effectively select the optimal feature set. Experimental results show that the proposed method can screen and select the initial feature set of distribution network fault risk, and eliminate the characteristic variables with weak correlation and redundancy, so as to reduce the complexity of distribution network data, avoid overfitting, and increase the interpretability of the model, with high accuracy and stability.
Key words:feature selection; situational awareness; risk prediction; VarianceThreshold
0 引 言
隨著大數(shù)據(jù)時代的來臨和人工智能技術的快速發(fā)展,包含海量數(shù)據(jù)的特征集的預處理成為許多領域研究的熱點。對特征數(shù)據(jù)進行降維操作不僅能降低數(shù)據(jù)的維度,而且能提高算法的性能。特征選擇的主要目的是通過特征選擇算法從原始特征集中選出評估標準最佳的特征子集,以便研究人員更好地對任務進行分類與回歸,從而提高算法的泛化能力[1]。特征選擇的優(yōu)勢在于其可以壓縮學習算法搜索的空間、減少特征集合的數(shù)量。除此之外,特征選擇不僅能提高數(shù)據(jù)分類的精確度和效率,而且可以提升學習模型的速度[2]。傳統(tǒng)的特征選取方法僅適用于常規(guī)的特征選取,而近年來基于數(shù)理特征的評價度量、搜索技術、統(tǒng)計等多個領域的交叉融合,使得越來越多的算法被應用于特征選取,并已有較多的研究成果。在此基礎上,結合實際,引進多種手段對傳統(tǒng)算法進行更新。另外,特征子集必須具備進行全局搜索的能力,因此在尋找最佳特征子集時,必須引入其他的算法[1]。
國內外學者開展大量的研究工作,提出一些關于特征選擇的方法。文獻[3]提出改進灰狼優(yōu)化多階段特征選擇與特征提取算法,以提高灰狼優(yōu)化的尋優(yōu)性能。文獻[4]提出基于多特征選擇方法和K最近鄰算法的高壓斷路器操作機構故障診斷方法。文獻[5]針對傳統(tǒng)蚱蜢優(yōu)化算法(GOA)收斂速度慢、尋優(yōu)精度低,提出融合學習自動機和折射對立學習的混沌蚱蜢優(yōu)化算法(LRGOA)。文獻[6]針對烏鴉搜索算法(CSA)易陷入局部最優(yōu)解且收斂速度較慢,采用logistic混沌映射、反向學習方法和差分進化3種算子,結合CSA提出一種特征選擇算法BICSA來選取最優(yōu)特征子集。雖然上述方法的使用可以篩選出最優(yōu)特征子集,但是結果存在一定的偏向性及局限性,導致特征選擇結果存在冗余或遺漏關鍵特征、計算量大、模型結構復雜及診斷精度不高等問題。VarianceThreshold-GARFECV方法是一種結合了方差閾值和遞歸特征消除交叉驗證(RFECV)的特征選擇方法。該方法主要用于特征選擇,有助于提高模型的性能和減少過擬合。本文以主動配電網(wǎng)風險預測數(shù)據(jù)為研究對象,從配電網(wǎng)提取的故障數(shù)據(jù)中提取出故障特征,剔除關聯(lián)性弱和冗余的特征變量,從而降低配電網(wǎng)數(shù)據(jù)的復雜性、避免過擬合、增加模型的可解釋性,綜合確定各故障特征重要度[7]。 1 RFECV特征選擇方法
特征選擇是從數(shù)據(jù)集中選擇最具代表性和重要性的特征子集并對其進行評價,以此構建模型相關最優(yōu)特征子集的過程[8]。特征選擇流程如圖1所示。主要包括特征構建與特征提取、生成特征子集、評價函數(shù)、搜索停止條件、輸出最優(yōu)特征子集5個步驟[9]。其中,評價函數(shù)用于評價生成的候選特征子集,根據(jù)評價結果選擇最優(yōu)的特征子集[10];搜索停止條件決定了迭代過程何時停止,不滿足搜索停止條件繼續(xù)進行迭代,滿足則終止迭代,輸出最優(yōu)特征子集[11]。
RFECV是一種特征選擇算法,可以自動選擇最佳特征子集,以提高模型的性能和泛化能力。RFECV結合了遞歸特征消除和交叉驗證的思想,可以有效解決特征選擇中的過擬合和欠擬合問題。首先,RFECV算法使用遞歸特征消除(RFE)算法來逐步減少特征集合的數(shù)量,直到找到最佳的特征子集。在每一輪迭代中,RFECV算法使用1個模型來評估每個特征的重要性,并刪除最不重要的特征。然后,RFECV算法使用交叉驗證來評估每個特征子集的性能,并選擇最佳的特征子集。
目前常用的特征選擇方法主要有過濾法(Filter)、嵌入法(Embedded)和包裝法(Wrapper)3種[12]。
1.1 過濾法
過濾法根據(jù)某些指標對每個特征進行評估,然后根據(jù)評估結果對特征進行排序,直接過濾掉與目標無關或冗余的特征。過濾法是一種無須學習的方法,一般用來快速預處理數(shù)據(jù)。最常用的過濾方法包括:① 基于方差的過濾方法;② 基于互信息的過濾方法,該方法捕捉每個特征和標簽變量之間的互信息,從而提供更多關于標簽變量的信息;③ 基于卡方的過濾方法;④ 基于相關性的過濾方法。
1.2 嵌入法
嵌入法是一種將特征選擇過程與模型訓練過程融為一體,在模型訓練過程中直接將特征的重要性作為模型訓練的一部分進行特征選擇的方法[13]。嵌入法能夠自動學習到不同特征之間的相互作用,并考慮特征與目標變量之間的相關性。嵌入法框架如圖2所示。
1.3 包裝法
包裝法與嵌入法相似,都是同時進行特征選擇和算法訓練的方法。但不同的是,包裝法將特征子集視為搜索的節(jié)點,使用一個具有特定目標函數(shù)的學習算法計算每個子集的評估指標,最終選擇評估指標最優(yōu)的特征子集。包裝法框架如圖3所示。常用的包裝法包括RFE、向前/向后搜索、特征挑選法。
綜上所述,特征選擇是主動配電網(wǎng)風險預測中必不可少的步驟,每種方法都有其優(yōu)缺點,選擇最合適的方法可以提高模型的準確性、可解釋性和可泛化性。
2 VarianceThreshold-GARFECV算法
雖然生成的風險初始特征數(shù)據(jù)集合十分龐大,但就維度來說所需計算量不是很大,且主動配電網(wǎng)具有故障機理復雜、故障因果性弱的特點,若單純使用過濾法可能無法捕捉特征之間的復雜關系;雖然嵌入法更加精確到模型的效用本身,彌補了過濾法的缺陷,但當大量特征都對模型有貢獻且貢獻度不一致時,尤其是對于配電網(wǎng)故障風險特征這種數(shù)據(jù),嵌入法很難界定一個有效的臨界值。因此,本文選擇包裝法作為特征選擇的主要算法,其既可以捕獲特征與標簽變量之間的復雜關系,又可以捕獲其他2種方法可能遺漏的特征之間的相互作用關系。目前常用的包裝法算法有3種:完全搜索、啟發(fā)式搜索和隨機搜索[14]。常用的包裝法算法如表1所示。
本文初始風險特征集合含有35個維度,相應的時間復雜度有34 359 738 373個,對所有時間復雜度進行完全搜索不僅消耗內存,而且不利于工程應用;由于隨機性參數(shù)的不確定性,目前并沒有優(yōu)秀且高效的方法來設置參數(shù),故隨機搜索算法也不適合;啟發(fā)式搜索算法可通過增加或剔除特征來優(yōu)化評價函數(shù),通過迭代搜索和調整特征集合,最終達到最優(yōu)解。因此本文采用方差過濾與基于遺傳算法改進交叉驗證遞歸特征消除結合的特征選擇算法VarianceThreshold-GARFECV選出配電網(wǎng)故障風險最優(yōu)特征子集。VarianceThreshold-GARFECV算法流程圖如圖4所示。具體步驟如下。
(1) VarianceThreshold過濾。將初始數(shù)據(jù)特征集合進行方差過濾,消除方差閾值較小的特征,達到提升后續(xù)RFECV算法效率的目的。
(2) 初始化種群。將過濾后的訓練集進行初始化,隨機生成1組個體并將其作為初始種群,每個個體表示1個特征集合,其中每個特征的取值為0或1(1表示該特征被選中,0表示該特征未被選中)。
(3) 基于適應度值選擇。采用交叉驗證的方式計算每個個體的適應度值。將數(shù)據(jù)集劃分為k個折疊,在k-1個折疊上訓練模型,并在剩余的折疊上進行測試,這個過程重復k次,然后計算平均準確度。再采用輪盤賭選擇的方法從種群中挑選一定數(shù)目的個體,并根據(jù)其準確度值從種群中選出分值最高的個體作為父體,反復循環(huán),直至完成所有個體選擇。
(4) 遺傳操作。隨機選擇2個父體,在一個隨機位置上將2個個體的特征序列交叉,從而生成2個新的個體,并隨機翻轉個體中某些特征值,產生新一代種群,重復步驟(3),種群中的個體會趨于所選特征數(shù)中的最優(yōu)解,達到最小適應度閾值后,停止迭代,在遺傳操作的每一代中,選取適應度最高的個體組成候選故障風險特征子集。
(5) RFECV特征選擇。在候選故障風險特征子集上訓練模型,選擇支持向量機(SVM)作為RFECV的監(jiān)督學習估計器。以SVM的分類準確率作為評價指標,采用交叉驗證的方式,對部分特征進行RFE計算,并在所有CV上保留評價指標得分的平均值。通過特征平均值排序確定并刪除不重要的特征,在新的特征集合上再次訓練模型,不斷重復,直到模型達到最優(yōu)值。
上述步驟中,評價函數(shù)用于評估每個特征的重要性,通過評價權值剔除配電網(wǎng)故障特征之間的冗余性高、非強相關變量[15]。同時,配電網(wǎng)故障特征變量是離散型和連續(xù)型數(shù)據(jù)的混合,需要一個評價函數(shù)來量化他們之間的相關性。本文選用準確率作為特征子集評價算法,通過計算特征子集的評價值選取配電網(wǎng)故障特征最優(yōu)子集。
在二分類問題中,準確率[16]可表示為
式中:Accuracy1——準確率;
TP——將正確標簽預測為真的數(shù)目;
TN——將錯誤標簽預測為假的數(shù)目;
FN——將正確標簽預測為假的數(shù)目;
FP——將錯誤標簽預測為真的數(shù)目。
在多分類問題中,準確率可以表示為
式中:n——類別數(shù)量;
Cij——將真實類別為i的樣本預測為類別j的樣本數(shù)量。
在多標簽分類問題中,準確率可表示為
式中:m——標簽數(shù)量;
yi——第i個樣本的真實標簽;
?i——第i個樣本的預測標簽;
I——指標函數(shù)(當yi=?i時為1,否則為0)。
通過式(3)可計算出候選故障特征子集的評價值,當滿足評價值排名要求時停止計算,剔除排名靠后的特征,生成配電網(wǎng)最優(yōu)故障風險特征子集。
3 結果與分析
本文采用某城市2005年1月至2020年6月的信息管理系統(tǒng)數(shù)據(jù)進行預測分析,共收集故障數(shù)據(jù)5 910條。經過數(shù)據(jù)預處理、簡化數(shù)據(jù)集、剔除與配電網(wǎng)故障風險預測無關數(shù)據(jù),最終獲得了966條且每條具有35個故障特征的樣本數(shù)據(jù)。故障特征樣本分布(部分)如圖5所示。
首先,對初始數(shù)據(jù)所提取的35個故障特征初始集合進行VarianceThreshold-GARFECV算法初步特征選擇,將方差閾值較小即對預測結果幾乎沒有影響的特征刪除。初步特征選擇結果如表2所示。
從運行結果來看,初步特征選擇刪除了設備自身影響因素中的絕緣導線平均投運時間數(shù)據(jù)、分斷電纜平均投運時間數(shù)據(jù)、電纜線長度數(shù)據(jù)、變壓器平均投運時間數(shù)據(jù)、負荷開關平均投運時間數(shù)據(jù),運行影響因素中的配變容量,設備故障數(shù)據(jù)中的饋線名稱、饋線類型、停電范圍等,這些刪除的特征本身對于主動配電網(wǎng)故障風險無關緊要,符合日常經驗判斷,具有較強的實用性。同時,初步特征選擇降低了特征集的復雜度,模型明顯會隨著特征的減少變得輕量,大大縮短了后續(xù)算法遍歷特征的時間[17]。
其次,對過濾后的特征集進行GARFECV特征選擇。此步驟中,要確定RFECV中的重要參數(shù)min_features_to_select,對于這個超參數(shù),很難保證一次設置合理,如果設置偏高,易造成特征冗余;設置偏低,可能會剔除相對重要的特征。故采用獲取各特征交叉驗證得分情況依次選擇最小特征數(shù)量。超參數(shù)選擇曲線如圖6所示。
由圖6可知,當選擇故障風險特征個數(shù)為6時,交叉驗證得分已達到0.996 212 12,但對于主動配電網(wǎng)風險預測來說,選擇min_features_to_select=6仍會漏掉重要特征,使風險預測結果沒有信服力。由圖6可見,當選擇故障風險特征超過20個時,交叉驗證得分降至0.878 787 88,說明特征含有大量冗余,降低了分類準確度;同時在數(shù)據(jù)分析中通常選擇具有大轉折點時的特征數(shù)量,故本文選擇交叉驗證得分為0.992 424 24的20個特征作為最小特征選擇數(shù),保證生成的故障特征最優(yōu)子集具有合理性。
然后,進行遺傳迭代操作。每次迭代生成1個新的故障特征種群,當交叉驗證得分在90%以上停止迭代,并從種群中挑選適應度最高的個體作為候選故障特征變量。通過RFECV進行特征選擇,在候選故障特征變量中挑選SVM準確率排名較高的變量,輸出為故障特征最優(yōu)子集。故障特征變量選擇后排名如圖7所示。
根據(jù)算法模型原理,特征排名是選擇故障特征最優(yōu)子集的關鍵參數(shù),特征排名數(shù)值越高說明特征冗余度高,越早被剔除;特征排名數(shù)值越低,則證明該故障特征變量與故障發(fā)生強相關且冗余性低,可以作為配電網(wǎng)故障特征最優(yōu)子集的特征變量[18]。由圖7可知,被剔除篩選的冗余性高、關聯(lián)性弱的特征有地區(qū)特征數(shù)據(jù)、星期數(shù)據(jù)、平均氣溫數(shù)據(jù)、分支線路平均投運時間數(shù)據(jù)、分支線路數(shù)量數(shù)據(jù)、架空線長度數(shù)據(jù)及變壓器數(shù)量數(shù)據(jù)7個特征變量。配電網(wǎng)故障特征選擇結果如表3所示。
從特征選擇的結果來看,最優(yōu)特征子集的評價值較高,說明最優(yōu)特征子集和配電網(wǎng)風險預測數(shù)據(jù)高度相關。同時,外部故障影響因素和運行影響因素得以保留,因為這2個故障類別代表了智能配電網(wǎng)故障的時間特征、天氣特征、地域特征、運行特征等,各特征與配電網(wǎng)故障強相關且相對獨立,只是剔除了和其他特征變量重復的地區(qū)特征數(shù)據(jù)、星期數(shù)據(jù)、平均氣溫數(shù)據(jù)、配變容量4個冗余數(shù)據(jù)。設備自身因素有大量冗余無關的特征變量,經特征選擇后其被有效剔除,同時滿足了風險等級所需的設備故障數(shù)據(jù)要求,說明了本文提出的VarianceThreshold-GARFECV算法的有效性和合理性。配電網(wǎng)故障風險最優(yōu)特征子集如表4所示。
4 結 語
本文采用基于VarianceThreshold-GARFECV的特征選擇方法對主動配電網(wǎng)故障風險數(shù)據(jù)進行最優(yōu)選擇,通過本文算法的啟發(fā)式搜索選出冗余無用性低、故障特征與風險標簽相關性高的故障風險最優(yōu)特征子集。對某地級市的實例分析說明,本文提出的主動配電網(wǎng)態(tài)勢理解方法合理有效,本文篩選出的最優(yōu)特征子集為主動配電網(wǎng)風險預測模型奠定了扎實的數(shù)據(jù)基礎。
【參 考 文 獻】
[1]施啟軍,潘峰,龍福海,等.特征選擇方法研究綜述[J].微電子學與計算機,2022,39(3):1-8.
[2]朱紅萍,鞏青歌,雷戰(zhàn)波.基于遺傳算法的入侵檢測特征選擇[J].計算機應用研究,2012,29(4):1417-1419,1426.
[3]劉泓鑠,王詩瑤,周靈鴿,等.基于改進灰狼優(yōu)化的文本聚類多階段特征選擇算法[J].計算機應用與軟件,2023,40(3):316-324.
[4]李邦彥,齊偉強,楊兆靜,等.基于多特征選擇方法的高壓斷路器故障診斷[J].高壓電器,2020,56(6):218-224.
[5]李雯婷,韓迪,葉符明.基于改進蚱蜢優(yōu)化算法的特征選擇機制[J].計算機工程與設計,2022,43(11):3168-3176.
[6]廉杰,姚鑫,李占山.用于特征選擇的烏鴉搜索算法的研究與改進[J].軟件學報,2022,33(11):3903-3916.
[7]肖一兵.基于數(shù)據(jù)挖掘技術的配電網(wǎng)故障預測研究[J].設備管理與維修,2018(17):35-36.
[8]姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166,192.
[9]李思寧. 基于行為序列的威脅評估技術研究與實現(xiàn)[D].成都:電子科技大學,2020.
[10]安洋.基于傳感器的行為識別關鍵問題研究[D].西安:西安理工大學,2017.
[11]吳俊.基于啟發(fā)式優(yōu)化的特征選擇方法研究及應用[D].杭州:浙江理工大學,2020.
[12]李郅琴,杜建強,聶斌,等.特征選擇方法綜述[J].計算機工程與應用,2019,55(24):10-19.
[13]汪佳宇.基于混合樣本的服務機器人云端故障診斷方法研究[D].濟南:山東大學,2020.
[14]周傳華,柳智才,丁敬安,等.基于filter+wrapper模式的特征選擇算法[J].計算機應用研究,2019,36(7):1975-1979,2010.
[15]彭和平,莫文雄,王勇,等.基于配電大數(shù)據(jù)的配電網(wǎng)故障停電影響因素靈敏度分析[J].電力信息與通信技術,2021,19(8):61-68.
[16]姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014,44(1):137-141.
[17]張培林,李勝.基于小波包變換和GA-PLS算法的故障特征選擇方法[J].振動.測試與診斷,2014,34(2):385-391,403.
[18]王云會,鄭強仁,郭淼,等.分布式電源接入配電網(wǎng)的控制策略及消納能力評估研究[J].電器與能效管理技術,2022(4):83-87.
收稿日期:20240304