谷廣宇,劉建敏,喬新勇
發(fā)動(dòng)機(jī)作為裝甲車輛的心臟,其技術(shù)狀況的優(yōu)劣直接影響車輛性能和戰(zhàn)斗力,因此如何科學(xué)有效地評估發(fā)動(dòng)機(jī)技術(shù)狀況,已成為部隊(duì)關(guān)注的重點(diǎn)。目前,我軍在裝甲車輛發(fā)動(dòng)機(jī)技術(shù)狀況評估方面,已經(jīng)做了部分研究[1-2],然而這些研究主要集中在根據(jù)先驗(yàn)樣本數(shù)據(jù)建立評估模型,對未知樣本進(jìn)行評估,而對于在沒有先驗(yàn)知識的情況下,如何確立發(fā)動(dòng)機(jī)各技術(shù)狀況等級的劃分基準(zhǔn)的研究,仍相對缺乏。
現(xiàn)有對發(fā)動(dòng)機(jī)狀況等級基準(zhǔn)劃分的研究中,文獻(xiàn)[3]中提出了將發(fā)動(dòng)機(jī)根據(jù)摩托小時(shí)劃分技術(shù)狀況階段,再擬合各階段的平均值確定相應(yīng)等級的評估基準(zhǔn)。文獻(xiàn)[4]中提出了利用主成份分析法根據(jù)散點(diǎn)圖分布劃分技術(shù)狀況區(qū)域,再通過神經(jīng)網(wǎng)絡(luò)建立評估模型。這兩類方法解決了沒有先驗(yàn)知識的情況下有效評估發(fā)動(dòng)機(jī)技術(shù)狀況的問題,但無論是以摩托小時(shí)進(jìn)行階段的劃分,還是以散點(diǎn)圖分布進(jìn)行區(qū)域劃分,都存在很大的主觀因素,不同的劃分標(biāo)準(zhǔn)也會(huì)對最終的評估結(jié)果造成很大影響。由于環(huán)境條件、工作強(qiáng)度等因素影響,發(fā)動(dòng)機(jī)的實(shí)際技術(shù)狀況存在很大隨機(jī)性,不同樣本下建立的評估基準(zhǔn)與評估模型可能存在較大差異,并且由于受試驗(yàn)成本、試驗(yàn)周期等條件的限制,通常無法進(jìn)行大量試驗(yàn)來獲取大樣本,這也會(huì)增加樣本隨機(jī)性對評估模型的影響,難以保證其最終得到評估結(jié)果的可靠性。
為解決上述問題,本文中通過改進(jìn)K_means聚類算法,利用試驗(yàn)樣本數(shù)據(jù)分布,計(jì)算各等級聚類中心及其分類,建立更加客觀穩(wěn)定的評估模型,實(shí)現(xiàn)基于數(shù)據(jù)驅(qū)動(dòng)的發(fā)動(dòng)機(jī)狀態(tài)評估,并融合Bootstrap小子樣統(tǒng)計(jì)方法,利用其通過再生抽樣將小樣本問題轉(zhuǎn)化成大樣本的特性,削弱試驗(yàn)樣本隨機(jī)性對評估模型的影響,增強(qiáng)發(fā)動(dòng)機(jī)評估模型的穩(wěn)定性。
K_means算法是一種典型的基于劃分的聚類算法,屬于無監(jiān)督機(jī)器學(xué)習(xí)方法的一種。該算法將一個(gè)含有n個(gè)樣本的集合劃分為K個(gè)子集合,其中每個(gè)子集合代表一個(gè)類簇,同一類簇中的樣本具有高度的相似性,不同類簇中的樣本相似度較低。
K_means算法的基本思想是:首先從n個(gè)樣本集中隨機(jī)選擇K個(gè)樣本作為初始聚類中心,根據(jù)每個(gè)樣本與各個(gè)聚類中心的相似度,將其分配給最相似的聚類中心,得到K個(gè)互不相交的類簇集合;然后重新計(jì)算每個(gè)類簇的新中心,再將每個(gè)樣本根據(jù)相似性原理分配給最近的簇中心,重新計(jì)算每個(gè)類簇的新中心,分配每個(gè)樣本到距離最近的類簇。這個(gè)過程不斷重復(fù),直到各個(gè)類簇的中心不再變化,得到原始樣本集合的K個(gè)互不相交的穩(wěn)定的類簇。
該方法在聚類過程中采取距離就近原則,將數(shù)據(jù)樣本中的每個(gè)屬性變量統(tǒng)一看待,而忽略了每個(gè)屬性在聚類分析過程中對于數(shù)據(jù)樣本劃分的不同重要性。例如在發(fā)動(dòng)機(jī)狀態(tài)評估中,特征序列與使用時(shí)間序列的相關(guān)性越大,表示特征參數(shù)隨使用時(shí)間逐漸劣化的趨勢越明顯,用來評估發(fā)動(dòng)機(jī)技術(shù)狀況優(yōu)劣的效果越好,在聚類過程中應(yīng)給予相應(yīng)重視。
由于K_means算法是一個(gè)局部搜索過程,其聚類結(jié)果依賴于初始聚類中心和初始劃分[5],因此本文中提出基于加權(quán)歐氏距離最小方差優(yōu)化初始聚類中心的K_means改進(jìn)算法。
在K_means算法中,對于待聚類的數(shù)據(jù)樣本X=(x1,…,xn)和 K 個(gè)初始聚類中心 C1,C2,…,CK,基本定義如下。
樣本xi與xj間加權(quán)歐氏距離:
樣本xi到所有樣本的平均距離:
樣本xi的方差:
數(shù)據(jù)樣本的平均距離:
聚類誤差平方和:
其一般過程如圖1所示。
圖1 K_means算法一般流程
在傳統(tǒng)聚類算法中,按樣本間相似度進(jìn)行聚類劃分通常以歐氏距離為準(zhǔn),即
為了反映特征序列與使用時(shí)間序列的相關(guān)性,通過對多種賦權(quán)法的比較[6],提出了基于特征序列相關(guān)性指標(biāo)的定權(quán)方法。相關(guān)性指標(biāo)是在相關(guān)系數(shù)的基礎(chǔ)上提出的,以取絕對值的方法將其限定在[0,1]區(qū)間,表征了特征序列與使用時(shí)間間的線性相關(guān)程度。某個(gè)特征序列的相關(guān)性指標(biāo)值越大,其與使用時(shí)間的線性相關(guān)性也越大,從而該特征也能更好地描述發(fā)動(dòng)機(jī)技術(shù)狀況從優(yōu)到劣的變化過程。該方法權(quán)重計(jì)算步驟如下。
對于樣本數(shù)據(jù)的第i個(gè)特征序列,其相關(guān)性指標(biāo)是其相關(guān)系數(shù)的絕對值,即
式中:Corri為第i個(gè)特征序列的相關(guān)性指標(biāo);Y=(y1,y2,…,yN)為第 i個(gè)特征序列;N 為檢測次數(shù),即序列長度;T=(t1,t2,…,tN)為相應(yīng)時(shí)間序列。 根據(jù)樣本所有屬性的變異系數(shù),計(jì)算各屬性的權(quán)重:
此時(shí)計(jì)算樣本間相似度可采用加權(quán)歐氏距離:
由于樣本分布存在不確定性,傳統(tǒng)K_means算法中依靠隨機(jī)選取產(chǎn)生的初始聚類中心,有可能是一些孤立點(diǎn)或噪聲點(diǎn)。這將導(dǎo)致聚類結(jié)果偏離真實(shí)分布,從而得到錯(cuò)誤的聚類結(jié)果,并且這一現(xiàn)象在小樣本條件下的發(fā)動(dòng)機(jī)狀態(tài)評估過程中將更加嚴(yán)重。因此本文中提出最小方差啟發(fā)式初始聚類中心優(yōu)化選取方法。
該方法的基本思想是:以樣本方差作為啟發(fā)信息,選取方差最小的樣本作為初始聚類中心,并以樣本平均距離劃分初始聚類,從而選擇出周圍樣本分布比較密集的初始聚類中心,避免孤點(diǎn)和噪聲點(diǎn)的干擾。算法流程如圖2所示。
圖2 初始聚類中心計(jì)算方法
Bootstrap小子樣統(tǒng)計(jì)方法是一種自助估計(jì)方法,其思路是用現(xiàn)有的資料去模仿未知的分布,通過再生抽樣將小樣本問題轉(zhuǎn)化成大樣本,因此該方法適用于小樣本條件下的統(tǒng)計(jì)推斷。
Bootstrap方法基本原理主要根據(jù)觀測到來自于未知總體分布F的隨機(jī)子樣X=(X1,…,Xn),估計(jì)總體分布F的某一分布特征R(X,F(xiàn)),如均值、方差等,從而推測總體分布F,具體方法如下。
設(shè)總體分布F的某個(gè)分布特征θ=θ(F)(如均值,方差等),由觀測子樣 X=(X1,…,Xn)構(gòu)造經(jīng)驗(yàn)分布 Fn,則有對 θ的估計(jì) θ^=θ^(Fn),估計(jì)誤差為
根據(jù)經(jīng)驗(yàn)分布 Fn,重新抽取再生子樣X(1)=(X(11),…,X(n1)),進(jìn)而構(gòu)造經(jīng)驗(yàn)分布函數(shù)F(n1)。于是由X(1)又可得到θ的估計(jì)F(n1))。此時(shí)可得到估計(jì)誤差Tn的Bootstrap統(tǒng)計(jì)量R(n1),即
重復(fù)抽取多組再生子樣 X(i),i= 1,2,…,m,可計(jì)算相應(yīng)的R(ni),i= 1,2,…,m,進(jìn)而可利用 R(ni)的分布去逼近Tn的分布,即可根據(jù)式(1)得到θ(F)的樣本:
在小樣本估計(jì)中,該方法較傳統(tǒng)統(tǒng)計(jì)方法具有較高精度。
以某型裝甲車輛柴油機(jī)為研究對象,其常用的技術(shù)狀況評估指標(biāo)體系如圖3所示[7]。對累計(jì)使用時(shí)間在0~550摩托小時(shí)內(nèi)的發(fā)動(dòng)機(jī),盡量按每間隔50摩托小時(shí)選擇1臺作為基準(zhǔn)樣本,同時(shí)選取3臺狀態(tài)已知的發(fā)動(dòng)機(jī)作為測試樣本,以驗(yàn)證方法的有效性。采集處理后部分樣本狀態(tài)參數(shù)如表1和表2所示。
圖3 某型裝甲車輛柴油機(jī)評估指標(biāo)體系
表1 基準(zhǔn)樣本狀態(tài)參數(shù)
表2 測試樣本狀態(tài)參數(shù)
(1)評估數(shù)據(jù)選取
在實(shí)例驗(yàn)證中,表1樣本為基準(zhǔn)樣本,建立發(fā)動(dòng)機(jī)狀態(tài)評估模型,劃分各技術(shù)狀況等級基準(zhǔn);選取表2樣本為測試樣本,利用上述模型評估其技術(shù)狀況,以驗(yàn)證該方法的有效性。
(2)確定評語集
根據(jù)柴油機(jī)技術(shù)狀況的優(yōu)劣程度,建立5級評語集。 將柴油機(jī)劃分為“好”、“較好”、“一般”、“較差”和“差”5個(gè)技術(shù)狀況等級。
(3)計(jì)算各屬性權(quán)重
根據(jù)表1所示樣本數(shù)據(jù),計(jì)算特征參數(shù)對應(yīng)的變異系數(shù):
V=[0.116,0.482,0.353,0.280,0.724,0.687]
由式(3)可得各屬性權(quán)重:
W=[0.044,0.182,0.134,0.106,0.274,0.260]
(4)初始聚類中心
對于發(fā)動(dòng)機(jī)而言,由于出廠后需要經(jīng)歷一定時(shí)間的磨合,磨合期結(jié)束后發(fā)動(dòng)機(jī)狀態(tài)達(dá)到最佳,發(fā)動(dòng)機(jī)達(dá)到規(guī)定使用時(shí)長的極限,返廠大修時(shí),其狀態(tài)為最差。因此在采用K_means聚類算法時(shí),可直接采用磨合期結(jié)束時(shí)(約50摩托小時(shí))和返廠大修規(guī)定摩托小時(shí)(約550摩托小時(shí))的樣本數(shù)據(jù)xi和xj分別作為“好”和“差”兩個(gè)等級的初始聚類中心,并根據(jù)其他樣本數(shù)據(jù),采用圖1所示算法流程,計(jì)算“較好”、“一般”和“較差”3個(gè)技術(shù)狀況等級的初始聚類中心。
(5)分配樣本、更新聚類中心
將測試樣本依據(jù)式(4)分配到距離最近初始聚類中心相應(yīng)的簇類中,并根據(jù)圖2的流程,重新計(jì)算聚類中心。更新后聚類中心矩陣為
(6)聚類中心修正
根據(jù)原樣本分布,重新抽取N組再生子樣X(n),n=1,2,…,N。 并對再生子樣重復(fù)步驟(4)和步驟(5),計(jì)算相應(yīng)聚類中心根據(jù)式(6)可知原樣本聚類中心的估計(jì)誤差分布為
本文中取N=50重新抽取再生子樣,依照上述方法估計(jì)測試樣本聚類中心的誤差分布矩陣:
依據(jù)Bootstrap小子樣統(tǒng)計(jì)方法,可利用再生子樣修正原樣本各技術(shù)狀況等級的聚類中心:
根據(jù)式(9)可得修正后聚類中心:
(7)樣本狀態(tài)評估
利用權(quán)重向量V和聚類中心C,根據(jù)相似性原理評估13~15號樣本的技術(shù)狀況,測試樣本對各等級基準(zhǔn)的相似度和評語如表3所示。
表3 測試樣本評估結(jié)果
測試樣本的評估結(jié)果能夠定量、定性地反映發(fā)動(dòng)機(jī)技術(shù)狀況,并且與發(fā)動(dòng)機(jī)實(shí)際狀況一致,因此該方法可作為在缺少先驗(yàn)知識和小樣本條件下對發(fā)動(dòng)機(jī)進(jìn)行狀態(tài)評估的有效手段。
為對比本文方法與文獻(xiàn)[3]中所述傳統(tǒng)方法的客觀性和穩(wěn)定性,在上文1~12號基準(zhǔn)樣本的基礎(chǔ)上,以相同方法重新采集整理一組對比樣本,如表4所示。
表4 對比分析樣本
采用本文提出的基于狀態(tài)參數(shù)方法,分別以第1組和第2組樣本建立評估模型,并對所有樣本進(jìn)行評估,結(jié)果見圖4。
圖4 本文方法的評估結(jié)果
由圖可見:發(fā)動(dòng)機(jī)的技術(shù)狀況隨著摩托小時(shí)逐漸劣化的趨勢明顯;在0~200摩托小時(shí)內(nèi)基本為“好”和“較好”,在200~350摩托小時(shí)內(nèi)基本為“較好”和“一般”,在這兩個(gè)區(qū)間內(nèi)技術(shù)狀況呈現(xiàn)了兩種技術(shù)狀況變化的過渡,體現(xiàn)了技術(shù)狀況變化的逐漸性和模糊性;在350~450摩托小時(shí)內(nèi)為“較差”,在500摩托小時(shí)以上為“差”。技術(shù)狀況的這種變化趨勢與理論分析的結(jié)果大致吻合。
采用文獻(xiàn)[3]中所述傳統(tǒng)方法,分別以第1組和第2組樣本建立評估模型,并對所有樣本進(jìn)行評估,結(jié)果見圖5。
圖5 傳統(tǒng)方法的評估結(jié)果
用傳統(tǒng)方法評估所有27個(gè)樣本時(shí),有6個(gè)樣本在兩組不同樣本建立的評估模型下的結(jié)果不同。而本文方法在相同條件下只有2個(gè)樣本得到了不同結(jié)果。這表明本文中提出的基于狀態(tài)參數(shù)發(fā)動(dòng)機(jī)狀態(tài)評估方法在處理少量狀態(tài)參數(shù)樣本時(shí)比傳統(tǒng)方法具有更強(qiáng)的穩(wěn)定性。
本文中利用加權(quán)歐氏距離和最小方差啟發(fā)式算法對K_means聚類算法進(jìn)行了改進(jìn),并通過融合Bootstrap小子樣統(tǒng)計(jì)方法提出了一種基于改進(jìn)K_means的發(fā)動(dòng)機(jī)狀態(tài)評估方法。
該方法能在缺少先驗(yàn)知識的小樣本條件下,建立穩(wěn)定的發(fā)動(dòng)機(jī)狀態(tài)評估模型,實(shí)現(xiàn)發(fā)動(dòng)機(jī)技術(shù)狀況的有效評估。與傳統(tǒng)方法相比,該方法在處理隨機(jī)性較大的狀態(tài)參數(shù)樣本時(shí)具有更強(qiáng)的穩(wěn)定性,并且該方法完全依靠發(fā)動(dòng)機(jī)狀態(tài)參數(shù),具有更強(qiáng)的客觀性。