国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)基故障診斷算法更新問題研究*

2020-05-06 01:45趙晨旭劉冠軍
關(guān)鍵詞:訓(xùn)練樣本故障診斷代表

趙晨旭,涂 遺,邱 靜,劉冠軍

(國防科技大學(xué) 裝備綜合保障技術(shù)重點(diǎn)實(shí)驗(yàn)室, 湖南 長沙 410073)

1 問題分析

機(jī)內(nèi)測試系統(tǒng)是傳感器、數(shù)據(jù)處理器、診斷軟件等部分結(jié)合的產(chǎn)物,作為裝備的一部分,可以使使用者盡快開展故障診斷與預(yù)測。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,基于機(jī)器學(xué)習(xí)的故障診斷,尤其是基于數(shù)據(jù)的分類在故障檢測與隔離過程中受到了越來越多的重視和應(yīng)用[1]。將傳感器采集到的數(shù)據(jù)經(jīng)過一定的數(shù)據(jù)處理后得到裝備運(yùn)行的實(shí)時(shí)特征,將其與裝備研制和運(yùn)行中累積的運(yùn)行狀態(tài)“知識”作對比,可快速確定裝備的運(yùn)行狀態(tài)。對于基于機(jī)器學(xué)習(xí)的故障診斷算法,足夠的訓(xùn)練樣本是保證得到高精度診斷結(jié)論的必要條件,只有經(jīng)過充分訓(xùn)練的算法才能達(dá)到故障診斷設(shè)計(jì)要求。由于裝備實(shí)際工作剖面復(fù)雜多樣,在裝備測試性設(shè)計(jì)時(shí),受限于設(shè)計(jì)時(shí)間和經(jīng)費(fèi),上述前提一般是不成立的;尤其是設(shè)計(jì)之初,往往難以得到裝備故障數(shù)據(jù)的全樣本空間,對于缺少相似產(chǎn)品的新研裝備而言,得到正常狀態(tài)的全樣本空間通常也是比較困難的。在這種情況下,為了保證診斷結(jié)論的準(zhǔn)確性,故障診斷決策算法需要隨著試驗(yàn)或者使用過程中數(shù)據(jù)的累積而不斷迭代更新[2]。在這個(gè)過程中,機(jī)器學(xué)習(xí)算法通常面臨著分類器更新訓(xùn)練問題[3-5]、訓(xùn)練樣本不平衡問題[6-8]和硬件存儲容量限制[9]等問題。隨著機(jī)器學(xué)習(xí)熱度的不斷增加,上述問題受到了越來越多的關(guān)注。但是從目前的文獻(xiàn)來看,成果多集中在某個(gè)單一問題的解決上,統(tǒng)籌考慮上述三個(gè)問題,提出一套系統(tǒng)解決方案的成果還未發(fā)現(xiàn)。針對該情況,本文試圖提出一套簡單實(shí)用的方法,解決在測試性設(shè)計(jì)改進(jìn)過程中如何開展診斷算法更新工作的問題。

2 問題解決

2.1 基于密度的大樣本數(shù)據(jù)壓縮

數(shù)據(jù)壓縮是一種用少量樣本表征完整原始樣本集大部分特征區(qū)域的數(shù)據(jù)縮減方法[10]?;诿芏鹊木垲愂浅S玫木垲惙椒ㄖ唬疚膮⒖荚摲椒ㄩ_展大樣本數(shù)據(jù)壓縮,在緩解樣本量不平衡的同時(shí),解決算法更新時(shí)原始樣本不斷增多、存儲耗費(fèi)大的問題。

(1)

式(1)右側(cè)第一項(xiàng)為用歐氏距離表征的實(shí)數(shù)特征距離,第二項(xiàng)為用相異匹配測度表征的屬性特征距離,λ用以調(diào)整屬性特征在距離測度中的權(quán)重,δ(·)為示性函數(shù)。

(2)

根據(jù)定義,d(xi,xj)可以用來衡量兩個(gè)樣本之間的相似程度:d(xi,xj)=0時(shí),兩個(gè)樣本最相似,甚至相同;距離越大,兩個(gè)樣本之間的相似性越差。

對于容量為N的樣本集,在距離函數(shù)的基礎(chǔ)上,可以用式(3)定義任一樣本x附近的樣本分布密度。

(3)

ρ(x)越大說明樣本集中與樣本x相似的樣本點(diǎn)越多;反之則說明樣本集中與樣本x相似的樣本點(diǎn)較少。

定義以xi為中心、以ε為半徑的超球?yàn)閤i的ε鄰域,令Nε(xi,X)表示樣本集X與該鄰域交集的樣本點(diǎn)個(gè)數(shù),則Nε(xi,X)越大,表示ρ(xi)越大。 對于閾值q,若Nε(xi,X)≥q,則可稱xi為樣本集的核心對象。 核心對象通常作為代表樣本點(diǎn)被保留至代表樣本集中。 根據(jù)定義可知,ε越大,核心對象需要代表的區(qū)域越大,核心對象數(shù)量越少;q越大,核心對象的代表性越強(qiáng),核心對象數(shù)量也越少。 于是通過調(diào)整{ε,q}取值可調(diào)整代表樣本集的樣本個(gè)數(shù)。 為保證代表樣本點(diǎn)的均勻分布,在實(shí)際應(yīng)用中通常令q=1,通過調(diào)整ε取值控制代表樣本容量,樣本數(shù)量隨著ε的減小而增多。

令Xun表示待選樣本集,其中待選樣本按ρ(x)取值從大到小的順序依次編號。 令P={p1,…,pND}表示數(shù)據(jù)壓縮后得到的代表樣本集,其中ND為要求的代表樣本集容量,于是可以給出如算法1所示的代表樣本集生成過程。 該代表樣本集即可作為數(shù)據(jù)壓縮后的訓(xùn)練樣本。 該方法能夠保證生成的訓(xùn)練樣本既涵蓋待選樣本集的核心對象,又包含奇異特征點(diǎn),從而張滿原始樣本集分布空間。

算法1 獲取代表樣本集Alg.1 Get the sample set

2.2 基于人工免疫的小樣本數(shù)據(jù)擴(kuò)充

基于啟發(fā)式算法的數(shù)據(jù)擴(kuò)充是常見的偽數(shù)據(jù)生成方法之一。特征聯(lián)合分布密度函數(shù)是啟發(fā)式樣本擴(kuò)充的基礎(chǔ)。隨著特征維數(shù)的增高,聯(lián)合分布函數(shù)也會逐漸復(fù)雜,并且當(dāng)數(shù)據(jù)量較小時(shí)通常難以得到準(zhǔn)確的分布函數(shù)參數(shù)估計(jì)。受人工免疫系統(tǒng)[12]啟發(fā),將原始樣本x看作抗原,與免疫系統(tǒng)生成的抗體組成新樣本集,則可以在擴(kuò)充樣本容量的同時(shí),豐富數(shù)據(jù)分布的多樣性,并且該方法不需要給出特征聯(lián)合分布函數(shù),具體流程如下。

Step1:計(jì)算原始樣本集X中每個(gè)樣本x的分布密度系數(shù)ρ(x),同時(shí)隨機(jī)生成樣本集X對應(yīng)的未成熟抗體種群A。

Step2:對原始樣本集X中的每個(gè)樣本x執(zhí)行如下步驟:

1)計(jì)算未成熟抗體種群A中每個(gè)抗體aj與原始樣本x的親和度Afj=1/d(aj,x),其中d(aj,x)如式(1)所示。

由于屬性特征的取值通常是有限并且少量的,如果對其進(jìn)行變異操作,極可能產(chǎn)生大量實(shí)際上不存在的樣本屬性特征,從而引入不必要的人為分類誤差。于是,本文對屬性特征采取不變異僅繁殖的處理方法。

利用上述過程進(jìn)行樣本擴(kuò)充,既能保持原樣本的重要信息,又能得到多種近似樣本。通過控制參數(shù){n,T}取值可以調(diào)整擴(kuò)充樣本集的容量,調(diào)整參數(shù)α∈[0,1]取值能夠控制新樣本與原始樣本的相似程度,α取值越大,新樣本與原始樣本相似度越高。

2.3 基于代表樣本點(diǎn)的混合學(xué)習(xí)

常見的分類器更新學(xué)習(xí)方法主要包括批量學(xué)習(xí)和增量學(xué)習(xí)兩種。傳統(tǒng)的批量學(xué)習(xí)雖然能夠較好地處理樣本容量限制與知識空間退化的矛盾,但算法更新需要利用所有歷史樣本,導(dǎo)致存儲開銷大,并且隨著訓(xùn)練樣本的增多,更新訓(xùn)練時(shí)間也相應(yīng)變長。傳統(tǒng)的增量學(xué)習(xí)雖然能解決歷史樣本存儲的問題,但是又可能存在知識空間隨學(xué)習(xí)過程逐漸退化的問題。本文提出基于代表樣本點(diǎn)的混合學(xué)習(xí)方法,力圖在緩解訓(xùn)練樣本存儲和算法更新訓(xùn)練時(shí)間成本的同時(shí),又能較好地解決知識空間退化的問題。第i+1次支持樣本集與診斷算法更新過程如下。

Step2:將P′i+1和原有代表樣本集Pi合并后,按照式(4)對合并后的樣本集進(jìn)行元素合并,得到新的臨時(shí)代表點(diǎn)。

Step3:不斷重復(fù)Step2直至元素個(gè)數(shù)滿足要求,即可獲得用于第i+1次算法更新的最終代表樣本集Pi+1。

(4)

3 案例應(yīng)用

Coraddu等利用Combined Diesel Electric And Gas公司建立的護(hù)衛(wèi)艦推進(jìn)系統(tǒng)仿真模型開展了大量的數(shù)值仿真,并獲得了豐富的推進(jìn)系統(tǒng)運(yùn)行仿真數(shù)據(jù)[13-14]。本文利用Coraddu等在加利福尼亞大學(xué)爾灣分校機(jī)器學(xué)習(xí)數(shù)據(jù)庫中提供的數(shù)據(jù)驗(yàn)證第2節(jié)所研究方法的有效性。根據(jù)文獻(xiàn)[14],燃?xì)鈾C(jī)壓縮系統(tǒng)退化量kMc和燃?xì)鈾C(jī)總體退化量kMt能夠較好地表征推進(jìn)系統(tǒng)故障狀態(tài),但這兩個(gè)參數(shù)需要利用16種信號綜合建模獲取。

按照kMc和kMt的取值,當(dāng)滿足kMc∈[0.95,0.97)∪kMt∈[0.975,0.985)時(shí)認(rèn)為系統(tǒng)處于故障狀態(tài),機(jī)內(nèi)測試設(shè)備(Built-In Test Equipment, BITE)需要及時(shí)報(bào)警;否則認(rèn)為系統(tǒng)處于正常狀態(tài),BITE無須報(bào)警。

3.1 數(shù)據(jù)準(zhǔn)備

相關(guān)研究表明,當(dāng)用于分類的特征屬性過多時(shí)可能降低分類效果,因此本文選用了如表1所示的7種測試信號開展系統(tǒng)故障診斷。需要說明的是,選用這些信號并不能說明這些信號是最佳信號,僅能說明這些信號能夠較好地驗(yàn)證本文所述方法的有效性。另外為了繪圖展示的方便,后文僅選用左側(cè)螺旋槳推進(jìn)扭矩和渦輪機(jī)出口溫度兩個(gè)參數(shù)來繪制二維圖形。

表1 推進(jìn)器監(jiān)測信號Tab.1 Monitored signals of the propulsion plant

為了模擬設(shè)計(jì)改進(jìn)過程中因受限于時(shí)間和經(jīng)費(fèi),僅能獲取系統(tǒng)部分運(yùn)行狀態(tài)數(shù)據(jù)的情況,本文利用均勻抽樣提取了如表2所示的兩批訓(xùn)練和測試數(shù)據(jù)。第一批數(shù)據(jù)用于模擬原有數(shù)據(jù),第二批數(shù)據(jù)用于模擬新增加數(shù)據(jù)。

表2 訓(xùn)練與測試用樣本集樣本數(shù)量Tab.2 Data size of the training and testing data

3.2 評價(jià)標(biāo)準(zhǔn)

對于BITE設(shè)計(jì),故障檢測率(Fault Detection Rate,F(xiàn)DR)以及虛警率(Fault Alarm Rate,F(xiàn)AR)是常用評價(jià)指標(biāo)[7]。在概念上,故障檢測率與查全率概念相似,用于衡量故障成功檢測的概率;虛警率可視為查準(zhǔn)率的余集,表征了正常狀態(tài)被識別為故障狀態(tài)的概率。

為了與衡量不平衡數(shù)據(jù)分類效果的F測度相對應(yīng),定義如式(5)所示的損失函數(shù),用于對故障檢測率和虛警率開展綜合衡量。

FL=γFAR+η(1-FDR)

(5)

式中,γ與η分別表示虛警和漏檢造成的損失。因?yàn)閾p失函數(shù)僅用來定量刻畫實(shí)際損失,γ與η不必具有實(shí)際意義,本文假設(shè)虛警和漏檢造成的損失相當(dāng),并且γ=η=2。

為了評價(jià)結(jié)果的客觀性,采用經(jīng)典支持向量機(jī)(Support Vector Machine, SVM)方法開展故障診斷,未專門研究SVM改進(jìn)算法改進(jìn),而是直接利用MATLAB 2010a軟件提供的svmtrain( )函數(shù)和svmclassify( )函數(shù)開展?fàn)顟B(tài)分類,將函數(shù)設(shè)置高斯核函數(shù),方差0.2,并選用序貫最小優(yōu)化(Sequential Minimal Optimization, SMO)優(yōu)化函數(shù)作為超平面分類函數(shù)。

3.3 性能評估

為了全面驗(yàn)證所提方法有效性,設(shè)計(jì)兩個(gè)驗(yàn)證案例:案例A用來驗(yàn)證所提方法在處理數(shù)據(jù)不平衡方面的應(yīng)用效果;案例B用來驗(yàn)證基于樣本點(diǎn)的混合學(xué)習(xí)方法在分類器算法更新方面的應(yīng)用效果。

3.3.1 案例A

Case1:首先利用2.2節(jié)所提方法擴(kuò)大故障狀態(tài)樣本量,使故障狀態(tài)樣本量與正常狀態(tài)樣本量相同。然后利用2.1節(jié)所提方法對擴(kuò)充后的故障樣本和原始正常樣本進(jìn)行數(shù)據(jù)壓縮,并設(shè)定代表樣本集的容量限制為90~100。最后將處理后的代表樣本集作為訓(xùn)練樣本。

Case2:首先利用2.1節(jié)所提方法對原始正常狀態(tài)樣本進(jìn)行數(shù)據(jù)壓縮,然后和原始故障狀態(tài)樣本組成訓(xùn)練樣本集。

Case3:首先利用2.2節(jié)所提數(shù)據(jù)擴(kuò)充方法擴(kuò)大故障狀態(tài)訓(xùn)練樣本量,使故障狀態(tài)樣本量與正常狀態(tài)樣本量相當(dāng),然后和原始正常狀態(tài)樣本組成訓(xùn)練樣本集。

Case4:不對原始訓(xùn)練樣本進(jìn)行任何處理,直接將其作為訓(xùn)練樣本集。

利用上述4個(gè)不同訓(xùn)練樣本集訓(xùn)練得到SVM分類器之后,利用3.1節(jié)處理的第一批測試數(shù)據(jù)測試SVM分類效果。為了消除數(shù)據(jù)處理隨機(jī)性對分類測試效果的影響,利用一次數(shù)據(jù)處理結(jié)果重復(fù)開展了20次SVM訓(xùn)練,并分別開展分類測試,分類效果評價(jià)標(biāo)準(zhǔn)的算術(shù)平均值如表3所示。

表3 案例A診斷分類平均結(jié)果Tab.3 Diagnosis results of scenario A

對比表中數(shù)據(jù)可知:①前3個(gè)示例訓(xùn)練樣本集中正常狀態(tài)與故障狀態(tài)的樣本數(shù)量比分別為91 ∶90, 45 ∶40, 200 ∶226,從訓(xùn)練樣本數(shù)量上看,三種方法都能較好地解決數(shù)據(jù)不平衡問題;②Case2的故障檢測率雖然與Case4接近,但虛警率明顯偏高,主要是由于Case2用于訓(xùn)練的數(shù)據(jù)較少造成分類器識別效果不佳;③Case3的故障檢測率比Case4高出50%,同時(shí)虛警率也相對較低,主要是因?yàn)橛?xùn)練樣本量較多,如果不考慮支持向量(Support Vector,SV)個(gè)數(shù),可以認(rèn)為Case3中的數(shù)據(jù)處理方法最佳;④Case1中故障檢測率比Case4提高了將近25%,虛警率也不高,并且與Case3相比,SV個(gè)數(shù)明顯較少;⑤綜合SV個(gè)數(shù)以及分類效果兩個(gè)評價(jià)指標(biāo),Case1中的雙向數(shù)據(jù)處理方法既提高了SVM分類準(zhǔn)確度,SV的個(gè)數(shù)也得到了縮減,可以降低診斷算法對機(jī)內(nèi)測試系統(tǒng)存儲容量的要求,縮短故障診斷時(shí)間。

另外,對比4個(gè)示例的F測度和損失函數(shù)值可知:損失函數(shù)不會因?yàn)槟硞€(gè)單一因素的極端取值而得到極端結(jié)果(如Case4中FAR對F測度的影響),因此從故障診斷的角度出發(fā),損失函數(shù)能比F測度更好地綜合反映故障漏檢和錯(cuò)檢對裝備維修造成的損失。

綜上所述,由于評價(jià)標(biāo)準(zhǔn)不同,在處理具體問題時(shí),是采用單側(cè)數(shù)據(jù)擴(kuò)充或壓縮,還是采用雙側(cè)處理,需要根據(jù)實(shí)際情況具體判斷,但是無論采用何種處理方式,本文所提方法均能較好地解決數(shù)據(jù)不平衡問題。

3.3.2 案例B

Case1:利用案例A中Case4的支持向量和表2所列的第二批原始訓(xùn)練數(shù)據(jù)更新SVM,該示例用于模擬簡單增量學(xué)習(xí)過程。

Case2:利用2.3節(jié)所提混合學(xué)習(xí)方法更新SVM,并將正常和故障狀態(tài)的代表樣本集容量分別設(shè)置為90~100。

Case3:將表2所列的兩批原始訓(xùn)練樣本合并組成完整訓(xùn)練樣本集,利用傳統(tǒng)的批量學(xué)習(xí)方法更新SVM。

案例B中Case2和Case3用到的訓(xùn)練樣本集分別如圖1中原始樣本和代表樣本所示。從圖中可以看出原始數(shù)據(jù)的分布特征在代表樣本集中得到了較好的保留。

在更新SVM之后,利用表2所列的第二批測試數(shù)據(jù)驗(yàn)證SVM更新效果。同樣,為了降低數(shù)據(jù)處理隨機(jī)過程對測試效果的影響,案例B也利用一次數(shù)據(jù)處理結(jié)果進(jìn)行了20次訓(xùn)練和測試,分類效果的算術(shù)平均值如表4所示。圖2直觀展示了Case1的原支持向量的分布情況。

(a) 正常狀態(tài)下原始樣本與代表樣本點(diǎn)特征分布(a) Distribution of raw data and delegates in normal state

(b) 故障狀態(tài)下原始樣本與代表樣本點(diǎn)特征分布(b) Distribution of raw data and delegates in fault state圖1 原始數(shù)據(jù)與代表樣本集分布情況Fig.1 Distribution of raw data and delegates set

表4案例B診斷分類平均效果
Tab.4 Diagnosis results of scenario B

Case1Case2Case3FDR0.65670.66980.6567FAR0.08330.00820.0833FL0.85320.67680.8532F測度0.13410.01600.1341SV個(gè)數(shù)469.00196.85465.00

(a) 原始樣本特征分布(a) Distribution of raw data

(b) 支持向量特征分布(b) Distribution of SVs圖2 Case1原支持向量與第一批原始樣本分布Fig.2 Distribution of the original SVs and the 1st batch raw data in Case1

比較表4和圖2數(shù)據(jù)可知:①除了少量故障狀態(tài)數(shù)據(jù)外,絕大部分原始訓(xùn)練樣本都被處理為Case1的原始支持向量,因此可以認(rèn)為Case1和Case3的訓(xùn)練樣本幾乎相同,從而造成Case1和Case3的分類測試結(jié)果完全相同;②由于訓(xùn)練樣本數(shù)量和分布空間的擴(kuò)充,無論采用哪種方法,故障診斷系統(tǒng)的分類效果與案例A相比都得到了明顯提高;③無論是與Case1還是Case3相比,Case2在保持與Case1和Case3幾乎相同的故障檢測率的同時(shí),虛警率有了明顯的下降,并且需要的支持向量數(shù)量也明顯減少。

4 結(jié)論

首先針對數(shù)據(jù)不平衡問題提出數(shù)據(jù)壓縮方法和數(shù)據(jù)擴(kuò)充方法,其中基于密度的大樣本數(shù)據(jù)壓縮既能生成滿足樣本量要求的代表樣本集,又能保持較好的原始數(shù)據(jù)分布規(guī)律;基于人工免疫的小樣本數(shù)據(jù)擴(kuò)充方法在豐富樣本數(shù)量及分布特征的同時(shí),又有效降低了噪聲數(shù)據(jù)的引入。然后針對分類器更新訓(xùn)練需求給出了一種新的增量式批量學(xué)習(xí)方法——基于樣本代表點(diǎn)的混合學(xué)習(xí)方法,既可以降低訓(xùn)練樣本硬件存儲要求,又能縮短分類器更新訓(xùn)練時(shí)間,同時(shí)保持較高的分類準(zhǔn)確性。最后利用公開仿真數(shù)據(jù)驗(yàn)證了所提方法的有效性。理論分析和仿真結(jié)果表明:所提方法可以有效支持基于數(shù)據(jù)的故障診斷算法更新,并且對其他領(lǐng)域的機(jī)器學(xué)習(xí)應(yīng)用問題研究也有一定的借鑒意義。

猜你喜歡
訓(xùn)練樣本故障診斷代表
詮釋代表初心 踐行人大使命
四季的代表
基于包絡(luò)解調(diào)原理的低轉(zhuǎn)速滾動軸承故障診斷
“代表通道”新觀察
這個(gè)代表咋這么拗
人工智能
數(shù)控機(jī)床電氣系統(tǒng)的故障診斷與維修
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
因果圖定性分析法及其在故障診斷中的應(yīng)用
峨边| 如皋市| 曲松县| 甘肃省| 屏南县| 二手房| 隆子县| 古交市| 仙居县| 托克逊县| 惠东县| 耿马| 集安市| 紫金县| 威远县| 甘肃省| 伊吾县| 微博| 略阳县| 藁城市| 庆阳市| 巴中市| 孝感市| 东阳市| 丰台区| 夹江县| 新余市| 宝清县| 定日县| 寿阳县| 名山县| 福清市| 香格里拉县| 南涧| 高阳县| 中阳县| 怀集县| 民勤县| 秀山| 庆阳市| 醴陵市|