湯衛(wèi)東,肖大軍,談林濤,于文娟
(國(guó)家電網(wǎng)有限公司華中分部,湖北 武漢 430077)
隨著互聯(lián)網(wǎng)和信息技術(shù)的不斷進(jìn)步,以大數(shù)據(jù)為依托的機(jī)器學(xué)習(xí)和人工智能成為熱門(mén)的發(fā)展方向,面對(duì)大量的數(shù)據(jù)和信息,對(duì)其進(jìn)行快速的分類(lèi)并從中找出潛在的規(guī)律是機(jī)器學(xué)習(xí)的主要目的,目前,數(shù)據(jù)挖掘?qū)Ψ诸?lèi)技術(shù)的研究已經(jīng)取得了非常重要的進(jìn)步,以決策樹(shù)和深度學(xué)習(xí)為代表的數(shù)據(jù)分析模型不僅操作簡(jiǎn)單而且效果顯著。
隨著人們的生活質(zhì)量不斷提高,對(duì)于數(shù)據(jù)處理的需求也越來(lái)越高。由于神經(jīng)網(wǎng)絡(luò)在連續(xù)處理大量數(shù)據(jù)的過(guò)程中容易產(chǎn)生過(guò)度擬合的問(wèn)題,同時(shí)對(duì)于數(shù)據(jù)樣本的要求也比較高,所以在許多領(lǐng)域都有非常廣泛的應(yīng)用。但程中還存在局限性。在這樣的背景下,以決策樹(shù)為核心的多分類(lèi)隨機(jī)森林算法(Random Forest Algorithm, RFA) 得到了研究學(xué)者的關(guān)注,作為一種典型的多分類(lèi)器算法,隨機(jī)森林可以很好地對(duì)數(shù)據(jù)進(jìn)行集成學(xué)習(xí),同時(shí)根據(jù)數(shù)據(jù)的多樣性進(jìn)行分類(lèi)處理,避免了神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的過(guò)度擬合,因此隨機(jī)森林算法擁有非常強(qiáng)大的適用性,可以在許多領(lǐng)域進(jìn)行廣泛應(yīng)用,特別是針對(duì)一些非線性高維數(shù)據(jù),隨機(jī)森林算法也可以很快地進(jìn)行處理,此外,隨機(jī)森林算法對(duì)噪聲和隨機(jī)誤差的防控非常到位,可以極大地減少因數(shù)據(jù)產(chǎn)生的誤差,從而降低了數(shù)據(jù)處理難度,節(jié)約了大量的人力物力,幫助數(shù)據(jù)得到快速、準(zhǔn)確的分析。
基于大數(shù)據(jù)時(shí)代背景,通過(guò)閱讀和查找大量的相關(guān)文獻(xiàn)和資料對(duì)電網(wǎng)系統(tǒng)的故障分析進(jìn)行評(píng)級(jí),然后利用隨機(jī)森林算法的決策樹(shù)分類(lèi)模型對(duì)電網(wǎng)系統(tǒng)的故障進(jìn)行預(yù)測(cè)分析,將隨機(jī)森林算法與其他應(yīng)用較廣泛的算法的預(yù)測(cè)準(zhǔn)確率進(jìn)行對(duì)比驗(yàn)證隨機(jī)森林算法的實(shí)用性和優(yōu)越性,然后在Weka平臺(tái)上利用當(dāng)?shù)仉娏值臄?shù)據(jù)樣本進(jìn)行仿真模擬,對(duì)電網(wǎng)故障的預(yù)測(cè)準(zhǔn)確率結(jié)果進(jìn)行分析,驗(yàn)證故障分析模型的科學(xué)性和準(zhǔn)確性。對(duì)于電網(wǎng)系統(tǒng)的故障預(yù)測(cè)具有非常重要的指導(dǎo)意義。
(1)
(2)
(3)
解方程(1)-(3)可得:
(4)
(5)
(6)
將其表示為矩陣的形式:
=
(7)
(8)
最后對(duì)電壓進(jìn)行變換:
=
(9)
此外,對(duì)稱電路故障主要是根據(jù)電源三相系統(tǒng)進(jìn)行分析,因?yàn)榘l(fā)生短路前后,電源的電壓和頻率不會(huì)發(fā)生變化,所以設(shè)短路前的電壓和電流分別為、:
=sin(+)
(10)
=sin(+-)
(11)
其中相電流的有效值為:
(12)
(13)
其中,和分別為每相電路的電阻和電感,當(dāng)電路發(fā)生短路后,a相的電流表達(dá)式可表示為:
(14)
(15)
當(dāng)電網(wǎng)系統(tǒng)發(fā)生故障時(shí),工作人員必須及時(shí)對(duì)故障進(jìn)行排查,確定故障來(lái)源和故障所在區(qū)域,利用對(duì)稱故障和非對(duì)稱故障法可以快速地實(shí)現(xiàn)對(duì)故障的定性處理,通過(guò)電壓、電流及其他參數(shù)的變化來(lái)確定故障類(lèi)型,從而幫助電網(wǎng)系統(tǒng)解決故障,恢復(fù)電路正常運(yùn)行,保障居民的用電需求。
機(jī)器學(xué)習(xí)(Machine Learning)是利用計(jì)算機(jī)模擬人類(lèi)大腦學(xué)習(xí)過(guò)程的一種多學(xué)科交叉理論,信息時(shí)代,對(duì)數(shù)據(jù)信息進(jìn)行篩選和處理,是當(dāng)下研究的熱點(diǎn)話題。機(jī)器學(xué)習(xí)領(lǐng)域廣泛,可以完成大量數(shù)據(jù)的快速分類(lèi)和處理,實(shí)現(xiàn)數(shù)據(jù)預(yù)測(cè)和分析。
隨機(jī)森林算法是機(jī)器學(xué)習(xí)領(lǐng)域中一種普適性良好的數(shù)據(jù)挖掘方法。其運(yùn)行原理是在決策樹(shù)算法的理論之上結(jié)合 boot strap 重采樣方法,集合多個(gè)單樹(shù)型分類(lèi)器,最后結(jié)果通過(guò)投票的策略進(jìn)行分類(lèi)和預(yù)測(cè)。隨機(jī)森林算法具有多重優(yōu)點(diǎn),調(diào)整參數(shù)較少,抗噪聲能力強(qiáng),最重要的是在實(shí)際的應(yīng)用中分類(lèi)性高,不容易發(fā)生過(guò)擬合等。但也有其缺點(diǎn),隨機(jī)森林算法的特征選擇具有隨意性,導(dǎo)致忽略特征對(duì)類(lèi)別的重要性以及特征與特征之間的相關(guān)性,采用重抽樣技術(shù)通過(guò)隨機(jī)抽取樣本形成新的訓(xùn)練集,然后利用自主數(shù)據(jù)集進(jìn)行決策樹(shù)建模,并組成隨機(jī)森林,分類(lèi)結(jié)果進(jìn)行投票決策。隨機(jī)森林的數(shù)學(xué)定義如下:首先設(shè)置一系列的決策()、()、…,()構(gòu)建森林,同時(shí)隨機(jī)取兩個(gè)向量、,則邊緣函數(shù)為:
(,)=((()=)-
max((()=)
(16)
=,((,)<0)
(17)
其中為正確的分類(lèi)分量,為錯(cuò)誤的分類(lèi)向量,表示取平均值,表示泛化誤差,邊緣函數(shù)的值越大,說(shuō)明該模型的可信度越高。而隨機(jī)森林的邊緣函數(shù)為:
(,)=(()=)-
max(()=)
(18)
其中,(()=)表示判斷正確的分類(lèi)概率,(()=)為判斷錯(cuò)誤的分類(lèi)概率。
隨機(jī)森林算法主要運(yùn)用于數(shù)據(jù)分類(lèi)和預(yù)測(cè)中,根據(jù)數(shù)據(jù)集中元素的特點(diǎn)可以分為正類(lèi)和負(fù)類(lèi),和分別表示正確分類(lèi)中正類(lèi)和負(fù)類(lèi)的樣本數(shù)量,而和分別表示錯(cuò)誤分類(lèi)中正類(lèi)和負(fù)類(lèi)的樣本數(shù)量,則隨機(jī)森林算法的分類(lèi)精確度為:
(19)
精確度越高說(shuō)明其分類(lèi)效果越好,此外,靈敏度和特異度的定義分別為:
=+
(20)
=+
(21)
其中靈敏度表示隨機(jī)森林對(duì)正類(lèi)數(shù)據(jù)的分類(lèi)精度,特異度表示對(duì)負(fù)類(lèi)數(shù)據(jù)法分類(lèi)精度。隨機(jī)森林的設(shè)計(jì)總原則是要保證靈敏度和特異度的平衡性,也就是兩者總體均值的最大化,評(píng)價(jià)指標(biāo)為幾何均值-:
-=
(22)
最后,負(fù)類(lèi)數(shù)據(jù)對(duì)應(yīng)的三個(gè)評(píng)價(jià)指標(biāo)為查全率和查準(zhǔn)率以及負(fù)類(lèi)檢驗(yàn)值:
=+
(23)
=+
(24)
(25)
其中,查全率表示正確分類(lèi)中的負(fù)類(lèi)樣本在全部負(fù)樣本中的比例,查準(zhǔn)率表示正確分類(lèi)的負(fù)類(lèi)樣本在所有預(yù)測(cè)為負(fù)類(lèi)樣本中的比例,而負(fù)類(lèi)檢驗(yàn)值-是隨機(jī)森林算法中一個(gè)綜合的評(píng)價(jià)指標(biāo)。隨機(jī)森林算法的示意圖如圖1所示:
圖1 隨機(jī)森林算法示意圖
實(shí)驗(yàn)對(duì)象:當(dāng)?shù)仉娏值墓╇娤到y(tǒng),以輸電網(wǎng)絡(luò)為主要分析對(duì)象,利用數(shù)據(jù)挖掘技術(shù)查找近三年的電網(wǎng)故障發(fā)生的時(shí)間和故障原因,并進(jìn)行收集整理。
實(shí)驗(yàn)數(shù)據(jù)來(lái)源:采取數(shù)據(jù)挖掘技術(shù)對(duì)當(dāng)?shù)仉娏纸甑妮旊姅?shù)據(jù)進(jìn)行收集,以2019年到2020年的數(shù)據(jù)作為訓(xùn)練樣本,以2021年1月的數(shù)據(jù)作為測(cè)試樣本數(shù)據(jù),2-3月的數(shù)據(jù)作為預(yù)測(cè)樣本。其中按照每個(gè)月的輸電故障為標(biāo)準(zhǔn),每個(gè)月的故障次數(shù)在2次及以內(nèi)為正常,評(píng)級(jí)為1;故障次數(shù)在3-6次評(píng)評(píng)級(jí)2,故障次數(shù)在7以上為故障高峰,評(píng)級(jí)為3。
實(shí)驗(yàn)環(huán)境:隨機(jī)森林算法使用randomForest4.6語(yǔ)言軟件來(lái)實(shí)現(xiàn),主要參數(shù)設(shè)置為:決策樹(shù)的數(shù)量為1000,隨機(jī)屬性的個(gè)數(shù)為3。在Weka數(shù)據(jù)挖掘平臺(tái)上建立電網(wǎng)故障分析模型,對(duì)比不同算法對(duì)電網(wǎng)故障的分析效果和精確度。
引入決策樹(shù)(decision tree)算法的一種(C4.5)、神經(jīng)網(wǎng)絡(luò)算法(Neural Network Algorithm, NNA)以及支持向量機(jī)(Support Vector Machines)算法和隨機(jī)森林算法(RFA)進(jìn)行對(duì)比,預(yù)測(cè)準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)如圖2所示。
由圖2可知,隨機(jī)森林算法的預(yù)測(cè)準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)要明顯高于其他三種算法,準(zhǔn)確率高達(dá)93%,而其他三種算法的準(zhǔn)確率均在90%以下,隨機(jī)森林算法的優(yōu)越性得到了驗(yàn)證。隨機(jī)森林算法決策樹(shù)的隨機(jī)性使數(shù)據(jù)多樣性得到提高,使環(huán)境和人為因素引入的誤差相對(duì)降低,避免了數(shù)據(jù)過(guò)度擬合的問(wèn)題,增強(qiáng)模型的普適性。
圖2 不同算法下電網(wǎng)故障的預(yù)測(cè)準(zhǔn)確率與統(tǒng)計(jì)指標(biāo)
利用隨機(jī)森林算法的電網(wǎng)故障分析模型進(jìn)行檢測(cè),不同故障等級(jí)的樣本數(shù)量對(duì)比如圖3所示。
圖3 不同故障等級(jí)的樣本數(shù)量(橫坐標(biāo)1-3分別表示訓(xùn)練樣本、測(cè)試樣本、預(yù)測(cè)樣本)
由圖3可知,訓(xùn)練樣本的數(shù)量要遠(yuǎn)遠(yuǎn)高于測(cè)試樣本和預(yù)測(cè)樣本的數(shù)量,同時(shí)故障等級(jí)為1的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)其他兩個(gè),說(shuō)明該電力局的電網(wǎng)系統(tǒng)相對(duì)比較安全,故障發(fā)生的概率較低。
根據(jù)預(yù)測(cè)樣本的故障等級(jí)和實(shí)際故障對(duì)比,電網(wǎng)故障的預(yù)測(cè)結(jié)果如圖4所示。
由圖4所示,電網(wǎng)故障分析模型在2月和3月的預(yù)測(cè)中,總的預(yù)測(cè)準(zhǔn)確率分別為95%和96.8%,其中等級(jí)為1的故障準(zhǔn)確率均在95%以上,而故障等級(jí)為2的準(zhǔn)確率為70%和89%,等級(jí)為3的預(yù)測(cè)準(zhǔn)確率為66%和100%,這是由于樣本數(shù)量較少,容易出現(xiàn)隨機(jī)誤差從而導(dǎo)致準(zhǔn)確率降低。整體而言,故障等級(jí)越高其預(yù)測(cè)難度越大,相對(duì)準(zhǔn)確率也較不穩(wěn)定,而故障等級(jí)越低,預(yù)測(cè)準(zhǔn)確率越高。
圖4 電網(wǎng)故障的預(yù)測(cè)結(jié)果
基于機(jī)器學(xué)習(xí)背景,首先對(duì)電網(wǎng)故障的原理展開(kāi)分析,介紹了機(jī)器學(xué)習(xí)和隨機(jī)森林算法,根據(jù)電網(wǎng)故障的特點(diǎn)利用隨機(jī)森林算法對(duì)電網(wǎng)故障的等級(jí)進(jìn)行分析預(yù)測(cè)。并引入決策樹(shù)算法(C4.5)、NNA神經(jīng)網(wǎng)絡(luò)和SVM算法作為對(duì)照組檢驗(yàn)隨機(jī)森林算法的預(yù)測(cè)性能,并利用隨機(jī)森林算法在Weka平臺(tái)軟件上對(duì)當(dāng)?shù)仉娏纸诘碾娏收线M(jìn)行預(yù)測(cè)。結(jié)果表明,隨機(jī)森林算法的預(yù)測(cè)準(zhǔn)確率和統(tǒng)計(jì)值指標(biāo)要明顯高于其他三種算法,準(zhǔn)確率高達(dá)93%。故障等級(jí)為1的預(yù)測(cè)準(zhǔn)確率在95%以上,等級(jí)為3故障的預(yù)測(cè)準(zhǔn)確率不穩(wěn)定,最低僅為66%,相對(duì)準(zhǔn)確率也較不穩(wěn)定,故障等級(jí)越低,預(yù)測(cè)難度越低,準(zhǔn)確率越高。由于受到客觀因素的限制,本研究存在一些局限,在收集數(shù)據(jù)時(shí)未進(jìn)行預(yù)處理,可能存在虛假數(shù)據(jù)和無(wú)效數(shù)據(jù),對(duì)實(shí)驗(yàn)的準(zhǔn)確性造成影響。在后續(xù)的研究過(guò)程中需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高研究結(jié)果的說(shuō)服力。