王正祥,常文兵,苑星龍,錢思霖
(1.河南柴油機(jī)重工有限責(zé)任公司,河南 洛陽(yáng)471000;2.北京航空航天大學(xué)可靠性與系統(tǒng)工程學(xué)院,北京 100000)
基于粗糙集和聚類方法的裝配間隙優(yōu)化模型
王正祥1,常文兵2,苑星龍2,錢思霖2
(1.河南柴油機(jī)重工有限責(zé)任公司,河南 洛陽(yáng)471000;2.北京航空航天大學(xué)可靠性與系統(tǒng)工程學(xué)院,北京 100000)
本文提出了柴油機(jī)裝配間隙參數(shù)與柴油機(jī)質(zhì)量水平定量關(guān)系的優(yōu)化模型。柴油機(jī)的裝配過(guò)程是影響產(chǎn)品質(zhì)量的重要因素,裝配間隙參數(shù)是柴油機(jī)裝配過(guò)程的重要表征參數(shù)。研究引入粗糙集和k-均值聚類算法建立分析模型。數(shù)據(jù)源是某柴油機(jī)的裝配間隙參數(shù)。本文建立了柴油機(jī)裝配間隙參數(shù)與質(zhì)量水平近似依賴關(guān)系的決策系統(tǒng)。以16缸裝配間隙參數(shù)數(shù)據(jù)和質(zhì)量級(jí)數(shù)據(jù)為例,驗(yàn)證了所提模型的正確性。實(shí)證結(jié)果表明,該模型在現(xiàn)實(shí)中可行。
裝配間隙;粗糙集;聚類算法;優(yōu)化模型
柴油機(jī)是船舶動(dòng)力的核心,在柴油機(jī)的生產(chǎn)過(guò)程中,裝配過(guò)程是影響柴油機(jī)長(zhǎng)期質(zhì)量的重要環(huán)節(jié),其裝配間隙參數(shù)是影響柴油機(jī)裝配質(zhì)量的重要因素。目前,還沒(méi)有應(yīng)用數(shù)據(jù)挖掘方法的定量相關(guān)程度的研究。
馮曉芳等[1]以梁柱組合產(chǎn)生的裝配間隙為研究對(duì)象,分析了裝配間隙對(duì)該結(jié)構(gòu)性能在整個(gè)裝配過(guò)程中的影響,并對(duì)多種裝配間隙取值下的結(jié)構(gòu)性能進(jìn)行有限元仿真分析,得出裝配間隙參數(shù)取值和梁柱結(jié)構(gòu)性能的關(guān)系。唐亮等[2]針對(duì)具體研究對(duì)象裝配過(guò)程中的間隙狀況提出了4種面向裝配間隙的模型。熊小龍等[3]應(yīng)用Topsis方法,為柴油機(jī)裝配質(zhì)量的評(píng)估提供了定量分析的方法,并通過(guò)算例實(shí)驗(yàn)驗(yàn)證該評(píng)價(jià)方法的有效性和可行性。
經(jīng)典粗糙集是由波蘭數(shù)學(xué)家Z.Pawlak最先提出的,粗糙集的最初定位是一種處理不完整和不確定性知識(shí)的數(shù)學(xué)工具。Roman和Daniel于1995年提出了基于相似關(guān)系的粗糙集。Dubois和Prade提出了模糊粗糙集的概念,這是在粗糙集理論方面的一個(gè)重要推廣。K-means算法是一種應(yīng)用最為廣泛的基于劃分的聚類算法,Teng Li等提出了一種多內(nèi)核的K-means聚類算法,Marco Capo等針對(duì)大量數(shù)據(jù)問(wèn)題提出了一種有效的近似K-means聚類算法。
本文旨在通過(guò)建立基于粗糙集和k-均值聚類算法的決策系統(tǒng),挖掘裝配間隙參數(shù)與柴油機(jī)質(zhì)量水平之間的關(guān)系。
1.1 經(jīng)典粗糙集理論
粗糙集的相關(guān)理論是建立在一個(gè)信息系統(tǒng)IS=(I,A)之上的,其中,I為論域,A為屬性集,I和A均為非空有限集合。
當(dāng)信息系統(tǒng)滿足條件:A=C∪D和C∪D≠?時(shí),稱這樣的信息系統(tǒng)為決策系統(tǒng):DS=(I,C∪D),其中,C為條件屬性集,D為決策屬性集。
定義1:不可分辨關(guān)系。對(duì)于一個(gè)信息系統(tǒng)IS=(I,A),B?A是屬性集合的一個(gè)子集,稱二元關(guān)系IND(B)={(x,y)∈I×I∶?a∈B,a(x)=a(y)}為信息系統(tǒng)IS的不可分辨關(guān)系,記作IND(B)。其中,x和y為論域I中的元素,a為屬性子集中的任一屬性,a(x)代表該元素在屬性a上的取值。
定義2:等價(jià)類。對(duì)于一個(gè)信息系統(tǒng)IS=(I,A),B?A是屬性集合的一個(gè)子集,不可分辨關(guān)系IND(B)將論域I劃分為若干個(gè)等價(jià)類。I/IND(B)表示所有等價(jià)類的集合,[x]IND(B)表示包含元素x的等價(jià)類。
定義3:上近似和下近似。對(duì)于信息系統(tǒng)IS=(I,A),B?A是屬性集合的一個(gè)子集,X?I是論域的一個(gè)子集,
(1)
分別為X的B-下近似和X的B-上近似。
定義4:精確度和隸屬度。粗糙集X的精確度和隸屬度分別表示為:
(2)
定義5:隸屬函數(shù)。
(3)
隸屬函數(shù)表示了元素x對(duì)粗糙集X的隸屬情況。
定義6:決策系統(tǒng)的精度。
(4)
定義7:帶可變精度粗糙集的上下近似集。對(duì)于信息系統(tǒng)IS=(I,A),B?A是屬性集合的一個(gè)子集,X?I是論域的一個(gè)子集,0.5≤β≤1為精度變量,
(5)
分別為X在精度變量β下的B-下近似和B-上近似。
1.2 K-means聚類算法
K-means聚類算法使用歐式距離,通過(guò)最小化目標(biāo)函數(shù)J最小化在同一個(gè)聚類中的樣本之間的距離,并最大化在不同聚類中樣本的距離。
(6)
其中n是數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的個(gè)數(shù)(即樣本個(gè)數(shù)),xik代表數(shù)據(jù)點(diǎn)各維度下的參數(shù)值,zik為隸屬函數(shù),vi是聚類中心。
K-means聚類算法中的隸屬函數(shù)用如下公式來(lái)表示:
聚類中心vi可通過(guò)如下公式計(jì)算得到:
(7)
K-means聚類算法的實(shí)現(xiàn)步驟是:a.選擇初始的聚類個(gè)數(shù)k;b.隨機(jī)選擇初始聚類中心vi;c.將各個(gè)數(shù)據(jù)點(diǎn)xij分配到與其距離最近的聚類中;d.根據(jù)聚類中心vi的計(jì)算公式重新計(jì)算聚類中心;e.重復(fù)步驟(c)和步驟(d),直到目標(biāo)函數(shù)J的值不再發(fā)生變化。
2.1 數(shù)據(jù)源
本文數(shù)據(jù)來(lái)源是某型號(hào)柴油機(jī)的裝配間隙參數(shù)和質(zhì)量等級(jí)數(shù)據(jù)。實(shí)證研究的數(shù)據(jù)集是從16缸柴油發(fā)動(dòng)機(jī)的初始數(shù)據(jù)集,包括29個(gè)樣本。裝配間隙參數(shù)來(lái)自四個(gè)對(duì)柴油機(jī)整機(jī)質(zhì)量等級(jí)影響程度較大的部件,編號(hào)分別為2K,5K,10K,11k。
2.2 數(shù)據(jù)預(yù)處理
在對(duì)初始數(shù)據(jù)集進(jìn)行分析后,在編號(hào)2K的組件中存在缺失值,選擇多重插補(bǔ)處理缺失值,生成完整的數(shù)據(jù)集。完成實(shí)證數(shù)據(jù)的相關(guān)性分析后,可以得出各種部件的裝配間隙參數(shù)之間的相關(guān)性很弱,但同一部件的裝配間隙參數(shù)之間的相關(guān)性很強(qiáng)。因此,可以用主成分分析法來(lái)降低數(shù)據(jù)集的維度。完成數(shù)據(jù)預(yù)處理后,初始數(shù)據(jù)集的56個(gè)裝配間隙參數(shù)降維成為15個(gè)部分,這15個(gè)部分可以代替初始數(shù)據(jù)集的所有裝配間隙參數(shù),并保留初始數(shù)據(jù)集的大部分信息。最后,實(shí)證研究的數(shù)據(jù)集的裝配間隙參數(shù)和柴油機(jī)的質(zhì)量水平需要綜合得到最終的數(shù)據(jù)集,直接用于后續(xù)的數(shù)據(jù)挖掘。
3.1 條件屬性集和決策屬性集對(duì)論域的劃分
在完成對(duì)原始數(shù)據(jù)集預(yù)處理的基礎(chǔ)上,用經(jīng)過(guò)數(shù)據(jù)預(yù)處理的新數(shù)據(jù)集代替原始數(shù)據(jù)集,在新的數(shù)據(jù)集的基礎(chǔ)上依據(jù)這15個(gè)成分,使用K-means聚類算法對(duì)屬性集中的樣本進(jìn)行聚類,完成條件屬性集對(duì)論域的劃分。聚類個(gè)數(shù)選擇過(guò)程:在工程實(shí)踐中需要在預(yù)設(shè)的聚類個(gè)數(shù)范圍內(nèi)選擇使聚類效果達(dá)到最優(yōu)的K-means的中心點(diǎn)的個(gè)數(shù),在K-means聚類中,聚類效果用聚類優(yōu)度這一指標(biāo)來(lái)衡量。
在本實(shí)證研究案例中,結(jié)合研究對(duì)象和決策屬性集對(duì)論域進(jìn)行劃分的結(jié)果,設(shè)置初始的聚類個(gè)數(shù)范圍為3~15個(gè)。在該初始聚類范圍下分別建立K-means聚類模型,輸出其聚類優(yōu)度的結(jié)果并繪制聚類個(gè)數(shù)與聚類優(yōu)度的關(guān)系圖,如圖1所示。
由圖1可以看出,在給定的初始聚類個(gè)數(shù)范圍下,當(dāng)聚類個(gè)數(shù)為7時(shí),其聚類優(yōu)度,即組間平方和同總平方和的比值就可以達(dá)到0.86,故在實(shí)證研究案例中,選擇7作為依據(jù)K-means聚類算法完成柴油機(jī)裝配間隙參數(shù)對(duì)柴油機(jī)樣本聚類過(guò)程的聚類個(gè)數(shù)。
在完成條件屬性集對(duì)實(shí)證研究數(shù)據(jù)集樣本空間劃分的基礎(chǔ)上,條件屬性集和決策屬性集對(duì)16缸柴油機(jī)樣本的劃分結(jié)果如表1所示。
圖1 聚類個(gè)數(shù)與聚類優(yōu)度關(guān)系圖Fig.1 Cluster number and clustering excellence relationship diagram
編號(hào)結(jié)果質(zhì)量等級(jí)編號(hào)結(jié)果質(zhì)量等級(jí)編號(hào)結(jié)果質(zhì)量等級(jí)編號(hào)結(jié)果質(zhì)量等級(jí)編號(hào)結(jié)果質(zhì)量等級(jí)11合格品76合格品132一等品195一等品257一等品21合格品86一等品142一等品205一等品267合格品31一等品94合格品152合格品215一等品277優(yōu)等品41合格品104一等品162優(yōu)等品225優(yōu)等品287優(yōu)等品56優(yōu)等品114一等品172優(yōu)等品235一等品297優(yōu)等品66一等品124一等品183一等品245合格品
決策屬性集包含柴油機(jī)的整機(jī)質(zhì)量等級(jí),整機(jī)質(zhì)量等級(jí)為分類型的屬性,所以直接依據(jù)粗糙集中等價(jià)類的概念就可以完成決策屬性集對(duì)等價(jià)類的劃分,將實(shí)證研究中的16缸柴油機(jī)樣本劃分為優(yōu)等品、一等品和合格品3個(gè)質(zhì)量等級(jí),即:U/D={X1,X2,X3}是依據(jù)決策屬性集將論域劃分為的3個(gè)等價(jià)類。
X1={5,16,17,22,27,28,29}
X2={3,6,8,10,11,12,13,14,18,19,20,21,23,25}
X3={1,2,3,7,9,15,24,26}
其中,數(shù)字編號(hào)代表柴油機(jī)編號(hào),X1是由整機(jī)質(zhì)量等級(jí)為優(yōu)等品的柴油機(jī)樣本組成的集合,X2是由整機(jī)質(zhì)量等級(jí)為一等品的柴油機(jī)樣本組成的集合,X3是由整機(jī)質(zhì)量等級(jí)為合格品的柴油機(jī)樣本組成的集合。
條件屬性集中包含經(jīng)過(guò)柴油機(jī)裝配間隙參數(shù)經(jīng)降維處理后的15個(gè)成分,由于其為數(shù)值型的屬性,故選擇K-means聚類算法完成條件屬性集對(duì)論域的劃分,可以將論域劃分為7個(gè)近似等價(jià)類:
U/C={E1,E2,E3,E4,E5,E6,E7},E1={1,2,3,4},E2={13,14,15,16,17},E3={18},E4={9,10,11,12},E5={19,20,21,22,23,24},E6={5,6,7,8},E7={25,26,27,28,29}。
其中,數(shù)字編號(hào)代表柴油機(jī)的編號(hào),E1~E7代表依據(jù)條件屬性集對(duì)論域進(jìn)行劃分后的7個(gè)近似等價(jià)類。
3.2 柴油機(jī)裝配間隙和整機(jī)質(zhì)量等級(jí)之間的決策系統(tǒng)
至此建立了柴油機(jī)裝配間隙和整機(jī)質(zhì)量等級(jí)之間的決策系統(tǒng),該決策系統(tǒng)中包含如下決策規(guī)則:
E7→X1,E3→X2,E4→X2,E5→X2,E1→X3
決策規(guī)則代表柴油機(jī)裝配間隙參數(shù)所屬的近似等價(jià)類以及由該裝配間隙組合所決定的整機(jī)質(zhì)量等級(jí)。從條件屬性集對(duì)論域聚類劃分的角度來(lái)講,當(dāng)柴油機(jī)裝配間隙參數(shù)組合落在E7這個(gè)聚類中時(shí),可認(rèn)定其整機(jī)質(zhì)量等級(jí)為優(yōu)等品;當(dāng)柴油機(jī)裝配間隙參數(shù)組合落在E3,E4,E5中的某一個(gè)聚類中時(shí),可認(rèn)定其整機(jī)質(zhì)量等級(jí)為一等品;當(dāng)柴油機(jī)裝配間隙參數(shù)組合落在E1這個(gè)聚類中時(shí),可認(rèn)定其整機(jī)質(zhì)量等級(jí)為合格品。
3.3 決策系統(tǒng)的精度評(píng)價(jià)
因此,該決策系統(tǒng)的條件屬性集和決策屬性集之間存在部分依賴關(guān)系:
{柴油機(jī)裝配間隙參數(shù)}→0.68{柴油機(jī)整機(jī)質(zhì)量等級(jí)}
λ的取值代表該部分依賴關(guān)系的程度,即柴油機(jī)整機(jī)質(zhì)量等級(jí)在多大程度上取決于柴油機(jī)的裝配間隙參數(shù)。
發(fā)動(dòng)機(jī)的裝配過(guò)程是影響發(fā)動(dòng)機(jī)質(zhì)量的關(guān)鍵因素,其裝配間隙參數(shù)是影響柴油機(jī)裝配質(zhì)量的重要因素。本文以某廠某型號(hào)發(fā)動(dòng)機(jī)裝配間隙參數(shù)和整機(jī)質(zhì)量等級(jí)為原始數(shù)據(jù)集,利用粗糙集理論和K-means聚類算法,建立了裝配間隙參數(shù)與整機(jī)質(zhì)量等級(jí)之間的決策系統(tǒng),實(shí)現(xiàn)了裝配間隙參數(shù)組合的優(yōu)選。最后,通過(guò)實(shí)證研究證明了該方法的可行性和有效性,對(duì)柴油機(jī)的生產(chǎn)裝配過(guò)程有一定的指導(dǎo)意義。
[1] 馮曉芳,呂志軍,楊建國(guó),等. 梁柱組合裝配間隙及其對(duì)鋼貨架性能的影響分析[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,38(05):524-528.
[2] 唐亮,王建梅,陶德峰,等. 裝配間隙對(duì)風(fēng)電鎖緊盤性能的影響分析[J].太原科技大學(xué)學(xué)報(bào),2013,34(02):125-129.
[3] 熊小龍,王建國(guó),馮洲鵬. 柴油機(jī)裝配質(zhì)量評(píng)估的TOPSIS方法[J].柴油機(jī),2014,(03):22-24.
Assembly clearance optimization model based on rough set and clustering method
WANG Zheng-xiang1, CHANG Wen-bing2, YUAN Xing-long2, QIAN Si-lin2
(1. Henan Diesel Heavy Industries Co., Ltd., Luoyang 471000, China; 2.School of Reliability and System Engineering, Beijing University of Aeronautics and Astronautics, Beijing 100000, China)
This paper presents an optimization model for the quantitative relationship between diesel engine assembly clearance parameters and diesel engine quality level. The assembly process of the diesel engine is an important factor affecting the quality of the product. The assembly gap parameter is an important characterization parameter of the diesel engine assembly process. The data source is the assembly gap parameter of a diesel engine. In this paper, a decision system of diesel engine assembly gap parameter and quality level is established. The correctness of the proposed model is verified by taking the 16th cylinder assembly gap parameter data and the quality level data as an example. The empirical results show that the model is feasible in reality.
Assembling clearance; Rough set; Clustering algorithm; Optimization model
2017-03-11
TP391.72
A
1674-8646(2017)14-0177-04