李偉賀 陳志軍 鄭建軍
(新疆大學(xué)電氣工程學(xué)院,烏魯木齊 830047)
電梯屬于特種設(shè)備,其結(jié)構(gòu)復(fù)雜、可靠性要求高,國家對其質(zhì)量和安全提出了嚴(yán)格的要求,電梯故障診斷技術(shù)成為了電梯行業(yè)技術(shù)改造的重心之一。電梯發(fā)生故障時輕則可能會造成財產(chǎn)損失,重則造成人員傷亡,所以電梯的安全問題變得尤為重要。統(tǒng)計表明,電梯事故占重大特種設(shè)備事故總數(shù)的21%,電梯運(yùn)行的安全問題已經(jīng)引起社會大眾的廣泛關(guān)注,據(jù)對運(yùn)行了5~10年的電梯進(jìn)行故障統(tǒng)計,一部電梯平均每年發(fā)生36.5次機(jī)械、電氣等一般故障,以及33次沖頂、夾人等對設(shè)備和人身安全危害較大的事故[1],電梯的安全問題受到社會的廣泛關(guān)注。
電梯是一種高維、強(qiáng)非線性和強(qiáng)耦合的特殊機(jī)電設(shè)備,其故障具有突發(fā)性、多樣性、不確定性、并存性及漸進(jìn)性等特點,難以使用物理和數(shù)學(xué)模型準(zhǔn)確描述故障部位和原因,而且在實際中不可能采集各種電梯的所有特征信號,多年來國內(nèi)外學(xué)者對其故障診斷進(jìn)行了研究并提出了多種故障診斷算法。Niu G等為了實時、快速診斷電梯曳引機(jī)故障,使用了貝葉斯理論決策融合多個智能分類器的診斷結(jié)果,有效調(diào)高了故障診斷的準(zhǔn)確率,在實踐中取得了較好的效果[2]。針對電梯系統(tǒng)復(fù)雜、難以建模和具有離散時間動態(tài)系統(tǒng)的典型特征,宗群等采用了隨機(jī)自動機(jī)的離散事件動態(tài)系統(tǒng)(DEDS)故障診斷方法、BP神經(jīng)網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)模糊Petri(FFPTN)模型等方法,完成了對電梯門系統(tǒng)的故障診斷[3]。但神經(jīng)網(wǎng)絡(luò)屬于傳統(tǒng)統(tǒng)計學(xué)方法中的樣本數(shù)目無窮大漸進(jìn)理論,在實際中對復(fù)雜機(jī)械設(shè)備故障診斷時,需要大量的故障數(shù)據(jù),這在實際應(yīng)用中是很困難的,從而制約了神經(jīng)網(wǎng)絡(luò)在智能故障診斷中的進(jìn)一步應(yīng)用與發(fā)展[4]。因電梯制動器失效而引發(fā)電梯傷人事件,針對電梯制動器故障特點,Wang P等將小波包變換和支持向量機(jī)相結(jié)合應(yīng)用于電梯制動器故障診斷,有效實現(xiàn)了電梯制動器的狀態(tài)監(jiān)測和故障診斷[5]。SVM(Support Vector Machine)采用結(jié)構(gòu)風(fēng)險最小化原則,具有很強(qiáng)的泛化能力,克服了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法中網(wǎng)絡(luò)結(jié)構(gòu)難以確定、收斂速度慢、過學(xué)習(xí)與欠學(xué)習(xí)以及訓(xùn)練時需要大量數(shù)據(jù)樣本等缺點,但其模型參數(shù)的選擇影響了模型學(xué)習(xí)能力和最終診斷準(zhǔn)確率[6,7]。
針對上述問題,筆者利用核主元成分分析在高維空間具有較強(qiáng)的特征選取能力和隨機(jī)森林優(yōu)秀的故障辨識能力,通過核主元成分分析法將原始特征樣本映射到高維特征空間提取主元,構(gòu)造新的特征樣本,再利用隨機(jī)森林模型進(jìn)行電梯急停故障診斷。
核主成分分析(KPCA)是線性主成分分析(PCA)的非線性擴(kuò)展算法,采用非線性的方法抽取主成分,即KPCA是通過映射函數(shù)Φ:Rm→F把原始向量x映射到高維空間F,在F上進(jìn)行PCA分析。KPCA不僅適合于解決非線性特征提取問題,而且它還能比PCA提供更多的特征數(shù)目和更高的特征質(zhì)量。
對于給定的樣本x1,x2,…,xN∈Rm,通過非線性映射函數(shù)Φ映射到高維特征空間F,Φ(xi)的協(xié)方差矩陣為:
(1)
其中C為協(xié)方差矩陣,對C進(jìn)行特征值分解,得到:
λV=CV
(2)
式中λ、V——C的特征值矩陣和特征向量。
特征向量V∈span{Φ(x1),Φ(x2),…,Φ(xN)},存在a1,…,an,使得:
(3)
其中ai為常系數(shù)。定義核矩陣K和核函數(shù)為:
(4)
將式(3)、(4)代入式(1),將求特征向量V轉(zhuǎn)化為求核矩陣K的特征值和特征向量:
Nλa=Ka
(5)
設(shè)ak表示λk對應(yīng)的特征向量,樣本Φ(x)在F中vk方向的投影為:
(6)
決策樹分為分類樹與回歸樹,顧名思義,一個用于分類,一個用于回歸。此處從模式識別的角度闡述決策樹的分類功能。決策樹可以視為一個樹狀預(yù)測模型,它是由節(jié)點和有向邊組成的層次結(jié)構(gòu),如圖1所示。樹中包含3個節(jié)點:根節(jié)點、內(nèi)部節(jié)點、葉節(jié)點。決策樹只有一個根節(jié)點,是全體訓(xùn)練集的集合。樹中的每個內(nèi)部節(jié)點都是一個分裂問題,它將到達(dá)該節(jié)點的樣本按某個特定的屬性進(jìn)行分割,可以將數(shù)據(jù)集合分割成兩塊或若干塊。每個葉節(jié)點是帶有分裂標(biāo)簽的數(shù)據(jù)集合,從決策樹的根節(jié)點到葉節(jié)點的每一條路徑都形成一個類;決策樹的算法很多,例如ID3算法及CART(Classification and Regression Tree)算法等。這些算法均采用自上而下的貪婪算法,每個內(nèi)部節(jié)點選擇分類效果最好的屬性進(jìn)行分裂節(jié)點,可以分為兩個或若干個子節(jié)點,繼續(xù)此過程,直到這棵決策樹能夠?qū)⑷坑?xùn)練樣本準(zhǔn)確分類,或所有屬性都被用盡為止。
圖1 決策樹分類原理
隨機(jī)森林是Leo Breiman于2001年提出來的,是結(jié)合Breimans 的“Bootstrap aggregating”和Ho的“random subspace method”思想建造多個決策樹的分類器。建立隨機(jī)森林的基本思想是:通過自助法(bootstrap)重采樣技術(shù),不斷生成訓(xùn)練樣本和測試樣本,由訓(xùn)練樣本生成多個分類樹組成隨機(jī)森林,測試數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定。因此隨機(jī)森林具有很高的分類準(zhǔn)確率,對異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過擬合。
隨機(jī)森林作為一種非線性建模工具,目前廣泛運(yùn)用于數(shù)據(jù)挖掘、生物信息學(xué)(醫(yī)學(xué)診斷)及經(jīng)濟(jì)金融等領(lǐng)域。近年來,隨機(jī)森林在故障診斷領(lǐng)域也開始嶄露頭角。Yang B S等將隨機(jī)森林與遺傳算法相結(jié)合應(yīng)用于電機(jī)故障診斷,并將該方法分別與采用SVM、ART-KNN和CART的診斷結(jié)果進(jìn)行對比,結(jié)果表明:隨機(jī)森林診斷速度更快,精度更高[8]。胡青等將KPCA-RF模型成功運(yùn)用于變壓器故障診斷,診斷結(jié)果表明:隨機(jī)森林診斷效果理想,而且抗干擾能力強(qiáng)[9]。
隨機(jī)森林具有以下優(yōu)點:
a. 只有3個參數(shù),使用默認(rèn)的參數(shù)即可得到很好的效果;
b. 能夠?qū)μ卣鞯牡闹匾远颗袛?,有利于進(jìn)行特征選擇操作;
c. 運(yùn)行速度非??欤苊膺^擬合問題,分類精度高,穩(wěn)定性好;
d. 能夠處理部分?jǐn)?shù)據(jù)丟失問題;
e. 隨機(jī)森林保留了多值分類的特性,適合處理多值分類問題[10]。
隨機(jī)森林算法實現(xiàn)步驟為:
a. 采用bootstrap重采樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小約為原始數(shù)據(jù)集的2/3。
b. 為每一個bootstrap訓(xùn)練集分別建立CART,共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,這些決策樹均不進(jìn)行剪枝。在每棵樹生長過程中,并不選擇全部M個屬性中的最優(yōu)屬性作為內(nèi)部節(jié)點進(jìn)行分裂,而是從隨機(jī)選擇的mtry≤M個屬性中選擇最優(yōu)屬性進(jìn)行分裂。
c. 集合ntree棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別。
隨機(jī)森林在訓(xùn)練過程中的每次bootstrap抽樣,將有約1/3的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計,產(chǎn)生OOB誤差(out-of-bag error)。Breiman通過實驗證明:OOB誤差是無偏估計,近似于交叉驗證得到的誤差。
利用核主元成分分析方法對特征樣本進(jìn)行降維處理,消除特征之間的相關(guān)性,提取達(dá)到需要的累積貢獻(xiàn)率主元特征,再利用隨機(jī)森林對提取的主元進(jìn)行電梯急停故障診斷?;贙PCA-RF模型的電梯急停故障診斷具體步驟為:
a. 對特征樣本進(jìn)行歸一化處理,歸一到[0,1]之間,以消除量綱影響,有助于加快診斷模型訓(xùn)練速度。歸一化公式為:y=(ymax-ymin)·(x-xmin)/(xmax-xmin)+ymin。
b. 實際采樣時可能引入一定的噪聲,為了檢驗?zāi)P偷目垢蓴_能力,對采樣特征樣本加入隨機(jī)噪聲。設(shè)D1為加入噪聲前的試驗特征樣本矩陣,加入噪聲后的試驗特征樣本矩陣D2(i,j)=D1(i,j)×[1+α×rands(1)],噪聲控制系數(shù)α=0.0、0.2、0.5、0.8;rands(1)用于生成-1~1的隨機(jī)函數(shù)。
c. 利用公式(1)~(6)進(jìn)行核主元選取,并確定核主元數(shù)量,得到新的特征樣本矩陣D3。
d. 選擇適當(dāng)?shù)腞F模型參數(shù):樹節(jié)點預(yù)選的變量個數(shù)mtry和隨機(jī)森林中決策樹的個數(shù)ntree,使用訓(xùn)練集訓(xùn)練RF模型,完成RF模型的建立。
e. 使用測試集檢驗訓(xùn)練好的RF模型,并適當(dāng)調(diào)整相關(guān)參數(shù)。
f. 使用建立好的KPCA-RF模型進(jìn)行故障診斷。
筆者采用加州大學(xué)的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫Wine數(shù)據(jù)集(該數(shù)據(jù)集包含3種不同品質(zhì)葡萄酒,共178組樣本,每個樣本包含13個特征),來驗證KPCA-RF模型的分類性能。其中特征樣本的降維結(jié)果如圖2所示。
圖2 KPCA進(jìn)行特征樣本降維結(jié)果
由圖2可知,使用KPCA能夠有效對特征樣本進(jìn)行降維,其中降維后的前8個主元的累積貢獻(xiàn)率就高達(dá)90%,所以取前8個主成分取代初始樣本集,作為隨機(jī)森林的輸入。從圖3分類正確率隨KPCA主元個數(shù)變化曲線可明顯看出,特征向量的主元個數(shù)為8時,達(dá)到最優(yōu)的診斷準(zhǔn)確率96%。在最優(yōu)主元個數(shù)附近,當(dāng)減小主元個數(shù)時,引起信息丟失,從而導(dǎo)致識別率下降;當(dāng)增大主元個數(shù)時,識別率也會下降,因為提取的更多特征中包含冗余的信息,從而導(dǎo)致分類性能的惡化,因此,KPCA有助于消除特征樣本的非線性,提取有效特征樣本,提高分類器分類速度。
圖3 分類正確率隨KPCA主元個數(shù)變化曲線
由圖4 KPCA-RF模型的預(yù)測分類結(jié)果可知,在90組測試樣本中,只有兩組未能正確識別,KPCA-RA模型識別準(zhǔn)確率高達(dá)97.8%。
圖4 基于KPCA-RF模型的預(yù)測分類結(jié)果
為了驗證KPCA-RF診斷模型的魯棒性、快速性和診斷準(zhǔn)確率,將KPCA-RF與BPNN、SVM、LSSVM分別進(jìn)行電梯急停故障診斷對比實驗研究。
在以上理論基礎(chǔ)之上,進(jìn)行實驗驗證。以33個正常樣本和7個故障樣本作為訓(xùn)練樣本,取另外任意8個作為測試樣本(包括5個正常和3個故障)。其中,特征樣本是以最優(yōu)小波包技術(shù)和時域特征提取的9個特征參數(shù),時域特征量為4個(即Z向的峭度、X和Y向的峰峰值,曳引機(jī)溫度),頻特征量為5個小波包能量譜,經(jīng)歸一化處理后作為KPCA-RF模型的輸入量,輸出量為電梯轎廂急停狀態(tài)評估結(jié)果。
評估實驗結(jié)果見表1,在運(yùn)行速度上,KPCA-RF性能與BPNN相當(dāng),在評估準(zhǔn)確率上,KPCA-RF性能與SVM相當(dāng)。模型的評估準(zhǔn)確率受到噪聲控制系數(shù)α影響,當(dāng)特征樣本數(shù)據(jù)中不包含噪聲(α=0)或噪聲較小(α=0.2)時,4種模型均能達(dá)到很高的評估準(zhǔn)確率。當(dāng)特征樣本數(shù)據(jù)噪聲較大(α=0.5、0.8)時,4種模型的評估準(zhǔn)確率均出現(xiàn)下降,但KPCA-RF模型評估準(zhǔn)確率下降幅度不大,顯示出KPCA-RF模型具有更好的魯棒性和更高的穩(wěn)定性。
表1 故障診斷結(jié)果對比
采用基于核主元成分分析和隨機(jī)森林算法相結(jié)合的電梯急停故障診斷的新方法,具有較高的評估準(zhǔn)確率。仿真結(jié)果表明,在有噪聲干擾的情況下,采用KPCA-RF模型進(jìn)行電梯急停故障診斷,在抗干擾能力及故障診斷準(zhǔn)確率等方面有明顯的優(yōu)勢,在實際工程應(yīng)用中有很高的應(yīng)用和參考價值。