吳海洋 繆巍巍 郭 波 丁士長
(國網(wǎng)江蘇省電力公司信息通信分公司 南京 210024)
隨著我國智能電網(wǎng)規(guī)模的持續(xù)擴(kuò)展,作為承載經(jīng)營管理和生產(chǎn)調(diào)度業(yè)務(wù)的電力通信網(wǎng)絡(luò),其通信設(shè)備數(shù)量和網(wǎng)絡(luò)覆蓋范圍都得到了快速增長,電力通信作為電網(wǎng)綜合服務(wù)基礎(chǔ)支撐的作用愈發(fā)凸顯。因此,進(jìn)一步提升電力通信網(wǎng)絡(luò)的運(yùn)維水平和保障質(zhì)量,對于電力通信網(wǎng)以及智能電網(wǎng)的安全運(yùn)行至關(guān)重要[1~2]。
當(dāng)前,電力通信網(wǎng)絡(luò)的運(yùn)維主要還是針對通信設(shè)備的實時告警信息進(jìn)行故障的事后處置,這種被動響應(yīng)式的運(yùn)維模式已遠(yuǎn)遠(yuǎn)無法滿足通信網(wǎng)絡(luò)在線、智能的創(chuàng)新發(fā)展需要,難以有效支撐和促進(jìn)智能電網(wǎng)的蓬勃發(fā)展。為提高通信生產(chǎn)運(yùn)行維護(hù)效率,實現(xiàn)電力通信網(wǎng)絡(luò)的精益化管理,有必要借助信息化手段,綜合歷史缺陷與檢修、當(dāng)前性能值與狀態(tài)值等海量歷史和實時數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)基于運(yùn)行狀態(tài)的通信設(shè)備壽命預(yù)測分析,為通信網(wǎng)絡(luò)提供主動維護(hù)技術(shù)手段,解決運(yùn)維人員短缺與網(wǎng)絡(luò)覆蓋范圍和設(shè)備數(shù)量不斷擴(kuò)大的問題。
通過多種數(shù)據(jù)挖掘技術(shù)進(jìn)行設(shè)備運(yùn)行狀態(tài)的預(yù)測分析已成為網(wǎng)絡(luò)運(yùn)維研究的發(fā)展趨勢。決策樹學(xué)習(xí)算法具有分類速度快、算法實現(xiàn)簡單等優(yōu)點,已成為最廣泛的狀態(tài)預(yù)測算法之一。然而在實際應(yīng)用場景中,經(jīng)典決策樹學(xué)習(xí)算法存在著諸如內(nèi)在多值偏向、計算效率低下等不足之處,需要進(jìn)一步改進(jìn)決策樹學(xué)習(xí)算法,使其能夠更適應(yīng)電力通信網(wǎng)絡(luò)的實際應(yīng)用要求[3~6]。本文在對 ID3 決策樹算法深入研究的基礎(chǔ)上,借助粗糙集理論對決策表屬性進(jìn)行約簡、求核、泛化等處理,進(jìn)而構(gòu)造出簡潔、高效的多變量決策樹,從而可以有效避免ID3 算法決策樹存在的先天缺陷,有效降低了計算復(fù)雜度,提高了預(yù)測分析效率,具有較大的實用價值和應(yīng)用前景。
作為數(shù)據(jù)挖掘分支中最常用的一種經(jīng)典算法,決策樹學(xué)習(xí)算法通常用于對未知數(shù)據(jù)進(jìn)行分類和預(yù)測。自20 世紀(jì)60 年代以來,決策樹學(xué)習(xí)在規(guī)則提取、數(shù)據(jù)分類、預(yù)測分析等領(lǐng)域有著廣泛應(yīng)用,特別是J.R.Quinlan在引入基于香農(nóng)的信息論中熵的概念后,提出的ID3(Iterative Dichotomiser 3)算法,因其簡潔、高效的決策選擇過程使得決策樹學(xué)習(xí)算法在不同新興應(yīng)用領(lǐng)域得到了持續(xù)應(yīng)用及巨大發(fā)展[7~9]。
在ID3 決策樹算法中不需要重復(fù)遍歷已選的測試屬性,而是采用了貪婪算法和深度優(yōu)先策略自頂向下的搜索遍歷所有的測試屬性,從而構(gòu)造出整個決策樹。其核心思想是在決策樹的各層級節(jié)點選擇上,以最大信息熵降作為當(dāng)前節(jié)點測試屬性的劃分標(biāo)準(zhǔn),即當(dāng)節(jié)點上如果有尚未被劃分的、具有最高信息增益的測試屬性,則將其作為劃分標(biāo)準(zhǔn)。通過不斷的搜索遍歷,直到獲取能夠完美分類訓(xùn)練樣例的決策樹[10~15]。其主要算法如下。
設(shè)樣本數(shù)據(jù)集合S,其可劃分為不同類別Ci(i=1,2,…,n),其中si為類別Ci的樣本數(shù)量,則集合S劃分為n個類別對應(yīng)的信息熵為
式(1)中,pi表示集合S 中屬于第i 類別Ci的概率,即
假定測試屬性A 中所有互斥值的集合為XA,Sν為樣本數(shù)據(jù)集合 S 中由測試屬性 A 為 v 的樣本子集,即Sν={s∈S|As=ν},在選擇測試屬性A 后的每一個分枝節(jié)點上,對該節(jié)點的樣本集Sν分類的熵為H(Sν)。選擇測試屬性A 導(dǎo)致的信息熵定義為每個子集Sν熵的加權(quán)平均值,權(quán)值為屬于Sν的樣本占原始樣本S的比例由于已知測試屬性A而得到的信息熵為
式(2)中,H(Sν)為樣本子集Sν的信息熵。
測試屬性A 對于數(shù)據(jù)集合S 的信息增益Gain(S,V)為
Gain(S,V)是指已知測試屬性A 值后所導(dǎo)致的信息熵期望值的減少量。若Gain(S,V)值越大,則說明測試屬性A 的選擇對樣本數(shù)據(jù)集的分類可提供的信息量越大,其分類效果也會越好。
與其他統(tǒng)計模型、神經(jīng)網(wǎng)絡(luò)、遺傳算法等分類算法相比,ID3 決策樹學(xué)習(xí)算法以實例為基礎(chǔ)進(jìn)行歸納學(xué)習(xí),具有實現(xiàn)簡單直觀、分類速度快、平均深度最小等特點。但同時也存在著生成樹效率較低、內(nèi)在多值偏置、只能檢驗單一屬性等不足。在電力通信網(wǎng)絡(luò)中,不同通信設(shè)備之間的運(yùn)行狀態(tài)值可能會存在著強(qiáng)相關(guān)性或弱相關(guān)性,同時網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)比較復(fù)雜,因此針對電力通信網(wǎng)絡(luò)實際的運(yùn)維管理需要,本文嘗試對傳統(tǒng)算法進(jìn)行改進(jìn),將其運(yùn)用到電力通信設(shè)備的狀態(tài)預(yù)測分析中,從而為電力通信網(wǎng)絡(luò)的運(yùn)行維護(hù)提供一種事前狀態(tài)的預(yù)測方法。
針對ID3 決策樹學(xué)習(xí)算法存在的缺陷,本文嘗試?yán)么植诩碚搶鹘y(tǒng)算法進(jìn)行改進(jìn),即將最小粗糙度作為決策樹分枝的校驗屬性,通過對決策表的一系列處理過程,最終構(gòu)造出電力通信設(shè)備狀態(tài)預(yù)測決策樹。
定義一個決策表信息系統(tǒng)S=(U,R,V,F(xiàn)),其中論域U 為一個非空有限對象的集合,R 為所有屬性集合,可分為測試屬性集A 和決策屬性集D,即是屬性R 的值域,信息函數(shù)F:U×R→V。
在傳統(tǒng)算法中一般采用遞歸方式構(gòu)造出決策樹,本文提出的改進(jìn)決策樹算法則從測試屬性集A相對決策屬性集D的核開始,逐步構(gòu)建出整個決策樹。其主要算法過程如下:
1)根據(jù)樣本數(shù)據(jù)集構(gòu)造出決策表。
2)計算測試屬性集A 相對決策屬性集D 的核,記為careD={a1,a2,…,ak} ,若careD=? ,則轉(zhuǎn)到步驟3,否則到步驟4)。
3)采用ID3 決策樹算法,選擇一個最佳屬性,以此作為該節(jié)點的檢驗屬性。
4)給出合取范式形式P=a1∧a2∧…∧ak,計算P相對決策屬性D的泛化GEND(P),并將其作為決策樹根節(jié)點的檢驗屬性。
5)在當(dāng)前樣本數(shù)據(jù)集中計算剩下的條件屬性集合A/careD(A)A中每個屬性對決策屬性集D的粗糙度,從中選擇出粗糙度最小的屬性作為該結(jié)點檢驗屬性的最優(yōu)解。其粗糙度計算公式如下:
利用粗糙度計算方法對傳統(tǒng)的ID3 決策樹學(xué)習(xí)算法進(jìn)行改進(jìn),將原來信息熵降替換成最小粗糙度來確定分類的檢驗屬性,有效增強(qiáng)了不同屬性之間的結(jié)構(gòu)關(guān)聯(lián),改善了生成的決策樹結(jié)構(gòu)。
因此,在電力通信設(shè)備運(yùn)行狀態(tài)屬性取值之間關(guān)聯(lián)度較強(qiáng),無沖突數(shù)據(jù)的狀態(tài)預(yù)測分析時,運(yùn)用改進(jìn)的決策樹算法可以得到更優(yōu)化的解,且計算工作量相對較小。
為對電力通信設(shè)備的未來狀態(tài)進(jìn)行事前評判,在構(gòu)造用于預(yù)測分析的決策樹時,需要盡可能收集設(shè)備相關(guān)的樣本數(shù)據(jù)以供學(xué)習(xí)。如圖1 所示,與通信設(shè)備運(yùn)行狀態(tài)有相關(guān)性的信息包括設(shè)備的履歷信息、設(shè)備的檢修信息、設(shè)備的缺陷信息等,通過數(shù)據(jù)抽取、清洗后存放到數(shù)據(jù)庫中,以便后續(xù)對這些信息進(jìn)行數(shù)據(jù)挖掘。
本文通過對電力通信設(shè)備的歷史運(yùn)行與維護(hù)信息進(jìn)行抽取,挖掘設(shè)備異常情況下的特征值,分析設(shè)備的關(guān)聯(lián)參數(shù)值以及它們之間的相關(guān)性,結(jié)合當(dāng)前實時監(jiān)測采集到的設(shè)備運(yùn)行數(shù)據(jù),對可能存在的故障隱患進(jìn)行預(yù)測與判斷,最終提供給運(yùn)維人員進(jìn)行事前檢修。
圖1 數(shù)據(jù)來源與處理示意圖
電力通信網(wǎng)絡(luò)作為一種復(fù)雜系統(tǒng),其設(shè)備自身的特征值(如光功率、抖動、飄移、誤碼率、誤碼秒、信噪比等),以及運(yùn)行環(huán)境的特征值(如機(jī)房溫度、機(jī)房供電等)對通信設(shè)備的運(yùn)行狀態(tài)有著或多或少的影響。通過數(shù)據(jù)挖掘與分析,構(gòu)建出多變量數(shù)的預(yù)測分析決策樹,當(dāng)設(shè)備的運(yùn)行狀態(tài)值有逼近標(biāo)準(zhǔn)定義異常狀態(tài)的趨勢時,則可對潛在故障或隱患實現(xiàn)事前預(yù)測。
首先,依據(jù)收集的電力通信設(shè)備相關(guān)運(yùn)行狀態(tài)的試驗數(shù)據(jù)樣本,利用改進(jìn)的決策樹算法構(gòu)建決策表,如表1所示。
1.2.1 分組 采用隨機(jī)數(shù)字法將90例擬行無痛分娩產(chǎn)婦均分為3組,A組采用生理鹽水復(fù)合0.10%羅哌卡因硬膜外麻醉、B組采用0.25 mg/L舒芬太尼0.1 mL復(fù)合0.10%羅哌卡因5 mL硬膜外麻醉、C組采用0.50 mg/L舒芬太尼0.1 mL復(fù)合0.10%羅哌卡因5 mL硬膜外麻醉。
表1 通信設(shè)備狀態(tài)對應(yīng)的決策表
其中,論域U 對應(yīng)于收集到的試驗數(shù)據(jù)樣本集合為{1,2,…,8}。測試屬性A 對應(yīng)于試驗數(shù)據(jù)樣本中的 7 類測試特征集合為{A1,A2,…,A7}。決策屬性D 對應(yīng)的試驗數(shù)據(jù)樣本異常類型集合為{Ⅰ,Ⅱ,…,Ⅷ}。
其次,計算測試屬性A 對應(yīng)的決策屬性D 的核。定義posIND(A)(D)={1,2,3,4,5,6,7,8}=U。
1)判斷測試屬性Ai(i=1,2,…,7)在測試屬性A 中 對 于 決 策 屬 性 D 的 重 要 性 。 若posIND(A-Ai)(D)=posIND(A)(D),則表示該Ai為非必要的,否則表示該Ai為必要的。
2)根據(jù)表1計算得知,A2,A3,A4,A5在測試屬性A 中對于決策屬性D 是非必要的,而A1,A6,A7在測試屬性A 中對于決策屬性D 是必要的。即coreD(A)={A1,A6,A7} 。
然后,設(shè)定合取范式形式P=A1∧A6∧A7,計算出P 對決策屬性D 的泛化在論域U 上的等價類劃 分 ,可 以 得 到U/IND(P)={{1},{3},{4},{5},{7},{8},{2,6}}。由于構(gòu)成的泛化GEND(P)將測試屬性A 和決策屬性D 可劃分成惟一的等價映射關(guān)系,因此可將GEND(P)作為本決策樹的根節(jié)點。
表2 決策屬性D′的粗糙表
由表2 可知,最小粗糙度為ρA3(X)=ρA5(X)=1,因此測試屬性A3和A5可作為D′的校驗屬性。
以粗糙度最小的屬性作為判定依據(jù),不斷從剩余的測試屬性集中篩選出各層級節(jié)點的校驗屬性,最終可得到的基于改進(jìn)決策樹結(jié)構(gòu)如圖2所示。
圖2 基于改進(jìn)決策樹的結(jié)構(gòu)圖
利用粗糙度的計算進(jìn)而確定分類檢驗屬性的方法有效改進(jìn)了傳統(tǒng)決策樹學(xué)習(xí)算法的不足,能夠?qū)?shù)據(jù)不確實、多變量以及數(shù)據(jù)不完整等分類問題給予妥善處置,優(yōu)化和簡化了決策樹結(jié)構(gòu)。
電力通信網(wǎng)絡(luò)中設(shè)備運(yùn)行狀態(tài)異常的表現(xiàn)多種各樣,其發(fā)生機(jī)理也是復(fù)雜多變,本文提出的改進(jìn)決策樹可從樣本數(shù)據(jù)中學(xué)習(xí)規(guī)則,具有自組織和自適應(yīng)性。隨著實際環(huán)境中運(yùn)行狀態(tài)信息的不斷收集,使得可用的樣本數(shù)據(jù)不斷增多,錯誤樣本將逐漸“淹沒”在海量的正確樣本中,使得決策樹的構(gòu)建越來越準(zhǔn)確。同時,粗糙集理論的引入,能夠較好地處理實際生產(chǎn)環(huán)境中獲取的連續(xù)量、數(shù)值量等不同特征值的樣本數(shù)據(jù),實現(xiàn)了一種簡略、快捷的預(yù)測分析分類方法。
本文提出的改進(jìn)決策樹算法對電力通信設(shè)備狀態(tài)的預(yù)測分析具有一定的借鑒意義,其實用性需要建立在海量、完備的樣本數(shù)據(jù)基礎(chǔ)上,通過自學(xué)習(xí)不斷修正自身的判定規(guī)則,使得預(yù)測分析決策樹不斷趨于真實表現(xiàn)。后續(xù)工作中,將加大運(yùn)行狀態(tài)數(shù)據(jù)采集的范圍與深度,從而使得改進(jìn)算法對設(shè)備狀態(tài)預(yù)測分析更具可行性。