鄭慶利
(中國人民解放軍91604部隊(duì),山東 龍口 265700)
近年來,隨著故障診斷技術(shù)理論研究的不斷深入,各種方法相互滲透借鑒,目前該領(lǐng)域我國在大系統(tǒng)故障診斷、多元統(tǒng)計(jì)分析、基于信息融合方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于專家系統(tǒng)方法等方面取得了一系列的研究成果,其中部分領(lǐng)域處于國際領(lǐng)先地位[1-2]。盡管故障診斷技術(shù)的相關(guān)研究不斷深入,取得了很多成果,但工業(yè)技術(shù)的整體進(jìn)步迅猛,使得故障診斷技術(shù)理論及應(yīng)用研究都急需加強(qiáng)。目前該領(lǐng)域的研究熱點(diǎn)問題有[3]:復(fù)雜系統(tǒng)多故障檢測(cè);基于人工智能的故障推理機(jī)制;多信息融合故障診斷方法;強(qiáng)擾動(dòng)系統(tǒng)故障診斷;實(shí)用化工程故障診斷軟件的開發(fā)。
聚類分析是近二十年發(fā)展起來的一種新的數(shù)學(xué)方法,聚類就是將一個(gè)數(shù)據(jù)集劃分為若干組或類的過程并使同一組內(nèi)的對(duì)象具有較高相似度,而不同組的對(duì)象之間相似度較差,組內(nèi)對(duì)象之間的相似度越高而不同組對(duì)象之間的差別程度越大,聚類的質(zhì)量也就越高。故障診斷領(lǐng)域應(yīng)用最多的是基于模糊理論衍化的各種模糊聚類分析方法[4],因?yàn)閷?duì)故障的識(shí)別問題往往伴有模糊性,即需要確定的不僅是定性的有或者無,更重要的是相識(shí)程度,這些問題用模糊語言來表達(dá)更為自然和符合實(shí)際。
Gustafson-Kessel(G-K)算法是距離自適應(yīng)動(dòng)態(tài)聚類算法的模糊推廣,可以用于搜索橢圓型、平面和線型的數(shù)據(jù)模式的聚類。G-K算法在模糊模型的識(shí)別中對(duì)數(shù)據(jù)類的幾何結(jié)構(gòu)特征刻劃要好于其他算法。
G-K算法中,定義vi為第i個(gè)原型類的中心,Mi為與第i個(gè)聚類中心的協(xié)方差矩陣Fi相關(guān)的正定對(duì)稱矩陣,n為輸入輸出成績(jī)空間的維數(shù)。則點(diǎn)xj到聚類Ci的距離可以定義為
設(shè)U=[uik]為待進(jìn)行處理的數(shù)據(jù)集X{x1,x2…,xN}的模糊劃分矩陣,則將X劃分成c個(gè)模糊類別的最小化目標(biāo)函數(shù)可以表示為
m∈(1,∞)為模糊指數(shù),決定著所得分類的模糊程度(對(duì)于清晰模型,m=l;模糊模型m>1,大多數(shù)情況下取 m=2)。 Lagrange乘子 λk可以將上述目標(biāo)函數(shù)及其約束轉(zhuǎn)化成新的目標(biāo)函數(shù)
在某種程度上,第i類的形狀可以用下述的散點(diǎn)矩陣來描述
如果數(shù)據(jù)集圍繞中心點(diǎn)形成橢圓形聚類,那么橢圓的主軸將由Si的特征向量近似給出,而軸的相對(duì)長(zhǎng)度等于其特征值。由于G-K算法使用了各模式類Ci的模糊協(xié)方差矩陣Fi的估計(jì)信息,而Fi的特征結(jié)構(gòu)能夠提供其相應(yīng)模糊類Ci的形狀和方向信息,因此G-K模糊聚類能夠在同一個(gè)數(shù)據(jù)集中識(shí)別出不同形狀和方向的模糊模式類,對(duì)數(shù)據(jù)集中的模式類原型具有一定的自適應(yīng)性。
G-K算法可以表述如下[5]。
給定一組數(shù)據(jù) X{xj|j=1,2,…,N},首先假定聚類中心為 vi,協(xié)方差矩陣為Fi,模糊劃區(qū)矩陣為U=[uij],迭代執(zhí)行以下步驟
1)計(jì)算距離
如果對(duì)某些 i=k,存在 d2(xj,Ci)=0,則令 ukj=1,而且?i≠k,uij=0
3)計(jì)算新的聚類中心
使用G-K算法對(duì)數(shù)據(jù)集X進(jìn)行聚類,實(shí)際上是對(duì)輸入數(shù)據(jù)空間進(jìn)行與數(shù)據(jù)集中的原型相適合的、隨數(shù)據(jù)集的變化而精細(xì)可調(diào)的“軟”劃分,原來的數(shù)據(jù)集被分成了一組模糊類Ci(1≤i≤c),其聚類中心為vi(1≤i≤c),模糊劃分矩陣為 U=[uik](1≤i≤c,1≤k≤N)。
當(dāng)將G-K模糊聚類用于輸入輸出乘積空間的故障數(shù)據(jù)時(shí),相應(yīng)于不同質(zhì)量的故障診斷模型,一些特有的聚類結(jié)果就產(chǎn)生出來。
假設(shè)x∈Rn是輸入數(shù)據(jù)向量,y∈R是故障類別,即輸出數(shù)據(jù)為整數(shù)。記Zk=[,yk]T,k表示第k個(gè)數(shù)據(jù)點(diǎn),定義模糊聚類Ci的類型為相應(yīng)聚類中心 Vi=[vi1,vi2,…,vi,n+1]T類型分量 vi,n+1。
命題1 高質(zhì)量的故障診斷模型意味著每一個(gè)聚類具有很高的分類精度,這在聚類結(jié)果中直觀地表現(xiàn)為類Ci的幾乎所有的數(shù)據(jù)點(diǎn)的類別值是相等的,而且它們幾乎等于聚類中心Vi=[vi1,vi2,…,vin]T的類型分量 vi,n+1,即 vi,n+1=yik。 這樣聚類 Ci的模糊協(xié)方差矩陣 Fi具有下面的形式
Fi的最后一行和最后一列對(duì)應(yīng)著聚類Ci的類型。上式表明:
1)故障類別變量y與其它數(shù)據(jù)點(diǎn)的協(xié)方差近似為零,即cov(x,y)=0;
2)聚類Ci的故障類別變量夕的方差近似為零,即
D(vi,n+1)=cov(y,y)=Fi(n+1,n+1)≈0
那么,聚類Ci(1≤i≤c)的高斯隸屬函數(shù)是一些窄脈沖,它們的中心等于聚類中心的類型分量vi,n+1,如下圖1所示。
圖1 高質(zhì)量故障診斷模型類Ci中的類型vi,n+1隸屬函數(shù)
命題2低質(zhì)量的故障診斷模型意味著大部分聚類的分類精度是很低的,在聚類的結(jié)果中表現(xiàn)為大多數(shù)聚類Ci的數(shù)據(jù)點(diǎn)的類別值具有很大的差異,而且,它們遠(yuǎn)遠(yuǎn)偏離聚類中心Vi=[vi1,vi2,…,vin]T的類型分量 vi,n+1。 這 表 明:
1)故障類別變量y與其它數(shù)據(jù)點(diǎn)的協(xié)方差通常為非零值,即cov(x,y)>0;
2)聚類Ci的故障類別變量的方差是一大的數(shù)值,即,
D(vi,n+1)=cov(y,y)=Fi(n+1,n+1)>0
因此,相應(yīng)于低質(zhì)量的故障診斷模型,其聚類的高斯隸屬函數(shù)具有一些平坦的
曲線,它們的中心偏離于它們真實(shí)的類別值,如圖2所示。
圖2 低質(zhì)量故障診斷模型類Ci中的類型vi,n+1隸屬函數(shù)
由此這樣在乘積空間中使用G-K算法進(jìn)行聚類后,我們實(shí)際上獲得了一組模糊類Ci(i=1,2,…,C)在以上的模型中,對(duì)積空間中C個(gè)聚類中心的方差D(vn+1)設(shè)立了一個(gè)容差向量,tolSig2>0,∈RC,其中C是類數(shù)量。只有所有聚類中心的方差都滿足
D(vi,n+1)<tolSig2(i)(i=1,2,…,C)
的聚類結(jié)果才被接受用來建立故障診斷模型;否則,增加聚類數(shù)目C,再一次執(zhí)行模糊聚類算法。
模糊聚類Ci在輸入空間中可以用它的中心向量[vi1,vi2,…,vin]和方差向量[]來表征。如果對(duì)每一個(gè)聚類分量指定一個(gè)高斯型隸屬函數(shù)
這些隸屬函數(shù)可以通過將聚類Ci投射到它的每一維上獲得,那么可以得到一組模糊故障診斷規(guī)則,規(guī)則中的每一個(gè)前件命題表示成單變量模糊集命題的邏輯組合,單變量模糊集是針對(duì)X的各個(gè)分量定義的,并且通常以下面邏輯與的形式給出
在這種情況下,數(shù)據(jù)xk相對(duì)于故障聚類Ci的故障度DoFi(xk)可被定義為投射空間中各隸屬度的乘積
而在笛卡爾乘積空間中,DoFi(xk)可以被簡(jiǎn)單地定義為多維模糊集Ci的隸屬度
總結(jié)以上可以得出以下結(jié)論:
對(duì)于任意數(shù)據(jù) Data(i),如果{DoFj(Data(i))≥TH(j),(j=1,2,…,C)}(TH為預(yù)先定義的一個(gè)常數(shù)閥值向量),那么Data(i)∈Cj;否則Data(i)?Cj。 通過 DoFj(Data(i))j=1,2,…,C,數(shù)據(jù)樣本 Data(i)的最終類型綜合為下面的兩種情況:
1)存在一個(gè)或多個(gè) DoFj(Data(i)),使
DoFj(Data(i))≥TH(j),j=1,2,…,C
這種情況下,如果所有聚類規(guī)則的后件值(即聚類中心的vi,n+1和分量)都相等或近似相等 那么取具有最大DoF(Data(i))值的聚類,j作為數(shù)據(jù)Data(i)所屬的類;否則,數(shù)據(jù)Data(i)就被看成是無法識(shí)別的數(shù)據(jù)點(diǎn)。
2)不存在 DoFj(Data(i)),使得
DoFj(Data(i))≥TH(j),j=1,2,…,C
這意味著沒有檢測(cè)到故障,系統(tǒng)工作狀態(tài)正常。
采用某裝置電源系統(tǒng)的故障診斷進(jìn)行本文算法的仿真研究。表1為由故障仿真平臺(tái)產(chǎn)生的測(cè)量數(shù)據(jù)集,共15組采樣數(shù)據(jù),最后一列是故障類型:1-能量衰減故障,2-線性分路電流控制器故障,3-無故障。
表1 電源系統(tǒng)故障診斷的數(shù)據(jù)集
對(duì)該數(shù)據(jù)集選擇屬性Icna和Icnb建立故障診斷模型,得到7個(gè)故障模式類,如表2所示。于是,根據(jù)表2,獲得電源系統(tǒng)的故障診斷規(guī)則如下:
當(dāng)設(shè)定tolV=0.01及tolSig2=0.01時(shí),上述模糊故障診斷模型對(duì)訓(xùn)練數(shù)據(jù)表1的識(shí)別精度達(dá)到100%。由故障仿真平臺(tái)另外產(chǎn)生15組數(shù)據(jù)樣本作為測(cè)試數(shù)據(jù)集,所獲得的故障診斷模型的有效識(shí)別精度可達(dá)93.3%,實(shí)驗(yàn)結(jié)果表明該方法是有效的。
表2 用于故障診斷模型的模糊聚類
利用G-K算法提出了一種在輸入輸出乘積空間中,通過模糊聚類獲得基于知識(shí)的故障診斷模型的方法。該方法可以發(fā)現(xiàn)數(shù)據(jù)集中不同形狀和方向的故障模式,同時(shí)該方法比傳統(tǒng)的故障診斷模型更具柔性,具有更強(qiáng)的處理噪聲數(shù)據(jù)的能力。
[1]周東華.國內(nèi)動(dòng)態(tài)系統(tǒng)故障診斷技術(shù)的一些最新進(jìn)展[J].自動(dòng)化博覽,2007(10):16-18.
[2]于春梅,楊勝波,陳馨.多元統(tǒng)計(jì)方法在故障診斷中的應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(8):205-208.
[3]BO-SUK YANG,XIAO DI,TIAN HAN,Random forests classifier for machine fault diagnosis[J].Journal of Mechanical Science and Technology,2013,22(9):16-25.
[4]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004:2-40.
[5]杜運(yùn)成,石紅瑞,楊曉波.控制系統(tǒng)故障診斷方法綜述[J].工業(yè)儀表與自動(dòng)化裝置,2008(5):9-13.
[6]Lv Ning,Qiao Yu-jing,Yu Xiao-yang,et al.Building of fault diagnosis model based on Custafson-Kessel fuzzy clustering.Harbin Institute Technology Publishers[C]//Proceedings of the 3th International Symposium on Instrumentation Science and Technology,2004,1:511-516.