国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于關(guān)聯(lián)分析的裝配質(zhì)量數(shù)據(jù)挖掘方法

2013-08-23 08:33王社偉
制造業(yè)自動化 2013年16期
關(guān)鍵詞:質(zhì)量指標(biāo)項集數(shù)據(jù)挖掘

宋 敏,王社偉,2

SONG Min1, WANG She-wei1,2

(1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001;2.西北工業(yè)大學(xué) 現(xiàn)代設(shè)計與集成制造技術(shù)教育部重點實驗室,西安 710072)

0 引言

隨著制造信息化的普及,各類信息系統(tǒng)為制造業(yè)累積了大量的數(shù)據(jù),探索有效的數(shù)據(jù)挖掘方法,成為信息化深入發(fā)展的焦點問題之一。國外從上個世紀90年代起,開始研究制造業(yè)中的數(shù)據(jù)挖掘方法,主要的研究領(lǐng)域集中在產(chǎn)品設(shè)計、制造系統(tǒng)優(yōu)化、生產(chǎn)決策、故障診斷等方面[1,2]。國內(nèi)近年來隨著CIMS應(yīng)用工程和MES應(yīng)用工程的實施,一些學(xué)者開始針對自動化程度較高的流程生產(chǎn)和一些數(shù)據(jù)較規(guī)范的離散制造過程的數(shù)據(jù)挖掘方法展開研究。焦鍇等、楊善升等、王寧玲等[3~5]研究了基于粗糙集算法、模糊聚類等的流程工業(yè)數(shù)據(jù)分析和設(shè)備監(jiān)控方法,并應(yīng)用于工業(yè)生產(chǎn)過程優(yōu)化和故障診斷。孫毅、翟敬梅等研究了制造過程質(zhì)量控制中的數(shù)據(jù)挖掘問題,對質(zhì)量規(guī)劃數(shù)據(jù)、表面粗糙度數(shù)據(jù)進行分析和預(yù)測[6,7]。晁永生等、連軍等[8,9]研究了基于聚類算法、決策樹算法的制造工藝規(guī)劃和裝配尺寸分析方法,應(yīng)用于白車身的焊接工藝優(yōu)化和裝配偏差溯源中。裝配是離散制造過程的重要階段,隨著裝配過程數(shù)字化技術(shù)的發(fā)展,裝配過程中也積累了大量數(shù)據(jù)。相比制造過程的其他環(huán)節(jié),裝配過程自動化程度較低,裝配質(zhì)量度量復(fù)雜,質(zhì)量數(shù)據(jù)維度高,結(jié)構(gòu)性差,不易直接應(yīng)用傳統(tǒng)的數(shù)據(jù)挖掘方法,目前面向裝配數(shù)據(jù)挖掘的研究也比較少,本文對裝配質(zhì)量數(shù)據(jù)的數(shù)據(jù)挖掘方法進行了研究。

1 數(shù)據(jù)挖掘模式

1.1 裝配質(zhì)量數(shù)據(jù)特點分析

裝配質(zhì)量數(shù)據(jù)是對裝配操作滿足裝配工藝狀態(tài)的描述,一般是檢驗操作或試驗操作的結(jié)果記錄。大型機電產(chǎn)品一般采用模塊化裝配形式,部件裝配按照部件工藝進行,每道工序?qū)?yīng)一項或多項檢查內(nèi)容,一張典型的裝配檢驗表如表1所示。

表1 裝配檢驗表

根據(jù)表1,裝配質(zhì)量數(shù)據(jù)可以形式化描述為:

表達式1:

裝配質(zhì)量:={部件號,產(chǎn)品號,日期,檢查內(nèi)容,規(guī)定,操作者,檢驗員,班長,實際}

式中,實際表示具體的生產(chǎn)記錄值,受其他質(zhì)量分量影響。為了便于數(shù)據(jù)項之間的對比分析,將規(guī)定值和實際值進行計算組合,形成一致的質(zhì)量指標(biāo),用指標(biāo)體系{好,較好,一般,差}來描述。具體計算方法參考實際值在規(guī)定值范圍中的位置和領(lǐng)域?qū)<业囊庖姟z查內(nèi)容是對檢驗步驟的具體描述,在數(shù)據(jù)分析中用檢驗項簡化描述。修正后的質(zhì)量數(shù)據(jù)作為數(shù)據(jù)倉庫分析的數(shù)據(jù)源,可以描述為:

表達式2:

待分析的質(zhì)量數(shù)據(jù):={部件號,產(chǎn)品號,日期,檢驗項,操作者,檢驗員,班長,質(zhì)量指標(biāo)}

式中質(zhì)量指標(biāo)和其影響因素一般都取離散值。如部件號描述產(chǎn)品的不同部件,操作者描述不同的裝配員。質(zhì)量指標(biāo)由質(zhì)量數(shù)據(jù)的其他分量決定,數(shù)據(jù)分析的目標(biāo)就是發(fā)現(xiàn)決定質(zhì)量指標(biāo)的質(zhì)量分量的某組取值組合。

1.2 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘模式

數(shù)據(jù)挖掘是從大量的、結(jié)構(gòu)和關(guān)系復(fù)雜的數(shù)據(jù)中,提取隱含的、潛在有用的數(shù)據(jù)關(guān)系的過程。挖掘方法以統(tǒng)計理論為基礎(chǔ),一般不需要預(yù)先設(shè)定模式,適合于作用和依賴關(guān)系不明確的數(shù)據(jù)集,但在處理海量的高維數(shù)據(jù)時,挖掘的質(zhì)量和效率難以保證。根據(jù)表達式2,質(zhì)量因素的每個離散值可能都對質(zhì)量指標(biāo)產(chǎn)生作用,構(gòu)成質(zhì)量數(shù)據(jù)的一個影響維,使得質(zhì)量數(shù)據(jù)呈現(xiàn)為一種高維數(shù)據(jù),增加了數(shù)據(jù)挖掘的難度。在裝配信息化系統(tǒng)中,質(zhì)量數(shù)據(jù)一般以半結(jié)構(gòu)化的形式存儲在數(shù)據(jù)庫中,這為預(yù)先進行結(jié)構(gòu)化查詢分析,確定數(shù)據(jù)挖掘的目標(biāo)提供了可能。數(shù)據(jù)倉庫就是一種面向數(shù)據(jù)庫的數(shù)據(jù)分析方法,可以根據(jù)確定的模式,初步分析數(shù)據(jù)之間的關(guān)系,為進一步的深入分析奠定基礎(chǔ)。在Fayyad等[10]總結(jié)的多階段過程模型基礎(chǔ)上,構(gòu)建了一種基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘模式,如圖1所示。

圖1 基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘模式

該模式分成數(shù)據(jù)選擇和預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)選擇和加工、數(shù)據(jù)挖掘、模式評價五個階段,圖中的虛線表示過程迭代。其中前兩個階段屬于數(shù)據(jù)倉庫分析的內(nèi)容,通過主題數(shù)據(jù)庫建模實現(xiàn)數(shù)據(jù)的歸類和整理;通過事實表數(shù)據(jù)和維表設(shè)計,實現(xiàn)數(shù)據(jù)的預(yù)處理和轉(zhuǎn)換;通過數(shù)據(jù)的宏觀和微觀分析,獲取數(shù)據(jù)中存在的主要問題。通過數(shù)據(jù)倉庫分析獲得的問題模式,為數(shù)據(jù)挖掘提供了方向;根據(jù)問題模式,從數(shù)據(jù)庫中選擇數(shù)據(jù),按照選擇的挖掘算法對數(shù)據(jù)進行規(guī)范化;應(yīng)用挖掘算法進行數(shù)據(jù)挖掘,形成確定的模式;對挖掘結(jié)果進行評價,形成有用的知識。

2 裝配質(zhì)量數(shù)據(jù)挖掘方法

2.1 基于數(shù)據(jù)倉庫的分析

針對質(zhì)量數(shù)據(jù),建立主題數(shù)據(jù)模型,應(yīng)用上卷、下鉆、切片等數(shù)據(jù)方操作方法分析質(zhì)量數(shù)據(jù),確定最大質(zhì)量影響因素,發(fā)現(xiàn)質(zhì)量數(shù)據(jù)中存在的問題。如對操作者數(shù)據(jù)進行切片分析,發(fā)現(xiàn)某操作者的質(zhì)量問題是否遠多于其他操作者;對時間進行下鉆分析,發(fā)現(xiàn)某個時間段的問題特別突出,進一步歸咎于工藝臨時更改、原材料選用等。數(shù)據(jù)方分析是一個具體的工程問題,往往要結(jié)合領(lǐng)域?qū)<业囊庖娺M行具體分析。通過數(shù)據(jù)倉庫分析發(fā)現(xiàn)的問題模式,為進一步的數(shù)據(jù)挖掘提供方向。如通過數(shù)據(jù)方分析,發(fā)現(xiàn)某個部件連續(xù)幾年裝配質(zhì)量一直較差;通過操作數(shù)據(jù)對比,排除了操作者的人為原因,初步分析部件裝配中存在某些結(jié)構(gòu)性問題,需要通過數(shù)據(jù)挖掘進行分析確認(有關(guān)質(zhì)量數(shù)據(jù)的數(shù)據(jù)倉庫分析方法,在其它文章中專題介紹)。

2.2 關(guān)聯(lián)分析挖掘方法

數(shù)據(jù)挖掘方法有很多種,常用的挖掘算法可以分成數(shù)據(jù)關(guān)聯(lián)分析、分類算法、聚類算法。關(guān)聯(lián)分析是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間潛在的關(guān)聯(lián)關(guān)系,有助于發(fā)現(xiàn)質(zhì)量因素之間的影響關(guān)系。經(jīng)典的關(guān)聯(lián)規(guī)則分析算法是R.Agrawal等人于1993年提出的Apriori算法[11]。關(guān)聯(lián)規(guī)則算法中引入了項集、支持度和置信度的概念。項集定義為數(shù)據(jù)項的集合,項集一般是元組的子集;支持度定義為包含項集的元組個數(shù)占元組總數(shù)的百分比;置信度定義為包含項集的元組數(shù)與包含關(guān)聯(lián)規(guī)則左端的數(shù)據(jù)項的元組數(shù)的比值。關(guān)聯(lián)規(guī)則算法的本質(zhì)是一種統(tǒng)計學(xué)算法,通過依次求取項集,得到相對依賴性比較強的數(shù)據(jù)關(guān)系,作為關(guān)聯(lián)關(guān)系的候選項。

2.3 基于關(guān)聯(lián)分析的數(shù)據(jù)規(guī)范化

在質(zhì)量數(shù)據(jù)的分析中,通過數(shù)據(jù)方分析,將質(zhì)量問題定位于某一部件,在排除了人為、時間原因后,問題簡化為分析檢驗項質(zhì)量之間的關(guān)系。建立質(zhì)量數(shù)據(jù)的關(guān)聯(lián)分析模型。

令Chs={檢驗項i}表示檢驗項,其中i∈{1, 2, 3,..., m};Qs={質(zhì)量指標(biāo)j}表示質(zhì)量指標(biāo)體系,其中j∈{1, 2, 3, ..., n}。

則有序元素對Se=(檢驗項i,質(zhì)量指標(biāo)j)表示某次檢驗;有序元素對集合Ses={(檢驗項i, 質(zhì)量指標(biāo)j)}可以表示關(guān)聯(lián)分析中的項集。事務(wù)Tr=((檢驗項1,質(zhì)量指標(biāo)j1), (檢驗項2, 質(zhì)量指標(biāo)j2), ...,(檢驗項m, 質(zhì)量指標(biāo)jm)) 表示某次部件裝配中所有的檢驗內(nèi)容,其中j1,j2,...,jm是j值的一個序列。Tr可以看做一個元組,由項集構(gòu)成。屬于不同產(chǎn)品部件的事務(wù)的集合形成一個數(shù)據(jù)集,關(guān)聯(lián)分析的任務(wù)就是從數(shù)據(jù)集中挖掘頻繁項集。集合Chs×Qs={檢驗項i}×{質(zhì)量指標(biāo)j}可以表示事務(wù)或項集中所有可能的元素。質(zhì)量數(shù)據(jù)的關(guān)聯(lián)分析就是從Chs×Qs的元素構(gòu)成的Tr組成的數(shù)據(jù)集中發(fā)現(xiàn)一組頻繁出現(xiàn)的項集Ses。

對于產(chǎn)品部件而言,裝配檢驗項一般有數(shù)十項,取m=50;每個檢驗項質(zhì)量指標(biāo)為:Qs={好,較好,一般,差},即n=4。由此可以得到事務(wù)的維數(shù)為50,事務(wù)數(shù)目高達2m×n=2200。高維數(shù)的事務(wù)會給關(guān)聯(lián)規(guī)則算法帶來很大的開銷,因此需要對數(shù)據(jù)進行預(yù)處理,降低維度和元素的個數(shù),同時也盡可能縮小問題的范圍。

一般而言,質(zhì)量指標(biāo)滿足高斯分布,這表明對于各種檢驗項,Qs各指標(biāo)出現(xiàn)“一般”、“較好”的概率要遠大于“好”和“差”,即 “一般”、“較好”是大部分檢驗項在大多數(shù)情況下的取值。對于含有類似“(檢驗項i1, 較好), (檢驗項i2, 一般)”的項集實際是一種平凡項集,深入分析的意義不大;大量的這種平凡項集也會掩蓋質(zhì)量問題的實質(zhì)。因此,對質(zhì)量屬性進行了消減處理,在事務(wù)數(shù)據(jù)中只考慮指標(biāo)為{好,差}的檢驗項,大幅縮減事務(wù)的維數(shù)和項集中元素的個數(shù)。另外,為了便于操作,將質(zhì)量數(shù)據(jù)符號化,用C_XX_Y表示序?qū)e,其中C代表檢驗項;XX表示檢驗項序號,XX=01, 02, ..., m;Y表示質(zhì)量等級,用{1,4}分別表示{好,差}。預(yù)處理后的質(zhì)量數(shù)據(jù)如表2所示。

表2 部件裝配質(zhì)量特性表

2.4 數(shù)據(jù)挖掘和結(jié)果評價

許多數(shù)據(jù)挖掘工具都實現(xiàn)了關(guān)聯(lián)分析算法,本文不對具體的關(guān)聯(lián)分析算法深入研究,重點分析關(guān)聯(lián)挖掘的應(yīng)用方法。對規(guī)范化的質(zhì)量數(shù)據(jù)進行挖掘,形成的關(guān)聯(lián)規(guī)則可以描述為:

表達式3:

其中supt表示支持度,conf表示置信度,計算方法如公式(1)、公式(2),a、b是對應(yīng)值。C_XX_Y1 和C_XX_Y2對應(yīng)規(guī)則的左項L和右項R。

公式(1)、(2)中的函數(shù)P表示項集出現(xiàn)的概率。

根據(jù)質(zhì)量的高斯分布,高質(zhì)量或低質(zhì)量的狀態(tài)相對較少。在質(zhì)量數(shù)據(jù)中,質(zhì)量模式的出現(xiàn)頻率相對較低,在數(shù)據(jù)挖掘中,應(yīng)選擇較低的支持度參數(shù)。由于質(zhì)量指標(biāo)存在好、差兩種對立的狀態(tài),在質(zhì)量模式中,質(zhì)量指標(biāo)之間的關(guān)系不僅存在正相關(guān),如質(zhì)量同時為好或同時為差;還存在負相關(guān),如其中一種指標(biāo)為好,一種指標(biāo)為差。結(jié)合質(zhì)量專家的意見,建立挖掘參數(shù)選擇和關(guān)聯(lián)規(guī)則分析的原則:

原則1:設(shè)置較低的支持度,以便分析更多的質(zhì)量模式。

原則2:對于高可信度的規(guī)則,也要通過其它參數(shù)或方法判斷左項和右項之間的獨立性。

原則3:對于左項、右項質(zhì)量指標(biāo)一致的規(guī)則,初步確定對應(yīng)的裝配操作存在進一步提升的空間。

原則4:對于左項、右項質(zhì)量指標(biāo)一致的規(guī)則,初步確定裝配方案中存在結(jié)構(gòu)性問題。

原則3和4的確定,需要對不同年度的數(shù)據(jù)進行比較,并提交給質(zhì)量專家進行判斷。

3 實例應(yīng)用

某航空發(fā)動機企業(yè)裝配車間實施裝配執(zhí)行系統(tǒng)多年,系統(tǒng)日常運行累積了大量的數(shù)據(jù),下面對裝配質(zhì)量數(shù)據(jù)進行挖掘分析。

根據(jù)圖1的數(shù)據(jù)挖掘模式,結(jié)合質(zhì)量數(shù)據(jù)的特點,對質(zhì)量數(shù)據(jù)進行分析整理,建立質(zhì)量數(shù)據(jù)的主題數(shù)據(jù)庫,從BOM、時間、檢驗員等維度對質(zhì)量數(shù)據(jù)方進行分析,發(fā)現(xiàn)壓氣機部件裝配質(zhì)量問題較其它部件為多;又通過對不同年度、不同操作員的數(shù)據(jù)進行比較,排除了時間和人為原因。確定需要對壓氣機部件不同工序裝配質(zhì)量之間的關(guān)系進行關(guān)聯(lián)關(guān)系分析。某型壓氣機裝配中存在的重要檢驗節(jié)點有53個,按照數(shù)據(jù)規(guī)范化方法一節(jié)的方法對近年的2034組質(zhì)量數(shù)據(jù)進行整理,形成的待挖掘的數(shù)據(jù)如表3所示。

表3 壓氣機裝配質(zhì)量特性表

表中每行的數(shù)據(jù)表示一臺壓氣機裝配中檢驗項的檢驗結(jié)果,質(zhì)量指標(biāo)為2、3的檢驗項屬于平凡項集,不進行分析,在數(shù)據(jù)集中的相應(yīng)取值以NULL替代,表中沒有顯示。

數(shù)據(jù)挖掘在weka3.6.5平臺上進行。通過JDBC將數(shù)據(jù)庫中的質(zhì)量數(shù)據(jù)導(dǎo)入weka。由于去除了質(zhì)量指標(biāo)中的平凡項,質(zhì)量數(shù)據(jù)形成一個稀疏集。設(shè)置minisupt=0.1,miniconf=0.65進行數(shù)據(jù)挖掘得到了17條關(guān)聯(lián)規(guī)則,如表4所示。

表4 壓氣機裝配數(shù)據(jù)關(guān)聯(lián)規(guī)則

表中l(wèi)ift是關(guān)聯(lián)規(guī)則有效性的指標(biāo),大于1越多,表示規(guī)則的關(guān)聯(lián)性越好。具體計算參照公式(3)。

表4中的規(guī)則1(C_14_1==> C_39_1)表示檢驗項14和39的質(zhì)量特性存在一定的正相關(guān);規(guī)則2(C_18_4∧C_21_4==> C_ C_29_4)表示檢驗項18、21與29的質(zhì)量特性存在一定的正相關(guān)。經(jīng)質(zhì)量專家分析,規(guī)則1、2中的檢驗項左項對應(yīng)的工序是右項對應(yīng)工序的基準,對應(yīng)的工序質(zhì)量相互影響,加強裝配管理有進一步的提升空間。規(guī)則3(C_23_1==> C_43_4)表示檢驗項23與43之間的質(zhì)量存在一定的負相關(guān),經(jīng)質(zhì)量專家分析,認為對應(yīng)工序操作之間存在相干性,是一種結(jié)構(gòu)性問題,可能是工藝設(shè)計的問題。

4 結(jié)束語

在離散制造行業(yè),特別是裝配環(huán)節(jié),隨著各種制造執(zhí)行系統(tǒng)的發(fā)展,累積了大量的日常運行數(shù)據(jù)。裝配質(zhì)量數(shù)據(jù)的復(fù)雜作用關(guān)系和異構(gòu)結(jié)構(gòu)給質(zhì)量數(shù)據(jù)分析挖掘帶來了難度。針對裝配質(zhì)量數(shù)據(jù)的特點,提出了一種裝配質(zhì)量數(shù)據(jù)的關(guān)聯(lián)分析方法。應(yīng)用該方法對航空發(fā)動機的裝配質(zhì)量數(shù)據(jù)進行了規(guī)范化和關(guān)聯(lián)分析,對得到的關(guān)聯(lián)關(guān)系進行了分析,發(fā)現(xiàn)了影響裝配質(zhì)量的工序,為裝配質(zhì)量改善提供了支持。

[1]J.A.Harding,M.Shahbaz, Srinivas.Data Mining in Manufacturing:A Review[J].Journal of Manufacturing Science and Engineering,2006,128(11):969-976.

[2]Z.Song,A.Kusiak.Optimizing product configurations with a data-mining approach[J].International Journal of Production Research,2009,47(7):1733-1751.

[3]焦鍇,王雄,熊智華.粗糙集數(shù)據(jù)挖掘技術(shù)在丙酮精制中的應(yīng)用研究[J].計算機工程,2007,03:245-247.

[4]楊善升,陸文聰,顧天鴻,陸治榮,劉欣,楊明.基于數(shù)據(jù)挖掘的合成氨過程優(yōu)化和監(jiān)測系統(tǒng)應(yīng)用研究[J].化工自動化及儀表,2010,07:76-78.

[5]王寧玲.基于數(shù)據(jù)挖掘的大型燃煤發(fā)電機組節(jié)能診斷優(yōu)化理論與方法研究[D].華北電力大學(xué)(北京),2011.

[6]孫毅.基于知識重用的質(zhì)量控制信息建模與數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].浙江大學(xué)(杭州),2007.

[7]翟敬梅,應(yīng)燦,徐曉.知識建模和數(shù)據(jù)挖掘融合的粗糙度預(yù)測新方法[J].計算機集成制造系統(tǒng),2012,05:1046-1053.

[8]晁永生,劉海江,劉娜.基于數(shù)據(jù)挖掘的白車身工藝規(guī)劃系統(tǒng)[J].計算機工程,2010,17:16-18.

[9]連軍,姚福生,林忠欽,來新民.數(shù)據(jù)挖掘技術(shù)在轎車白車身裝配偏差溯源中的應(yīng)用[J].汽車技術(shù),2002,09:31-34.

[10]Fayyad U M,Piatetsky-Shaperio G, Smyth P,et al.Advances in Knowledge Discovery and Data Mining[M].AAAI/MIT Press,1996.

[11]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in large databases[C].// Proceedings of the ACM SIGMOD Conference, ACM, New York,1993:207-216.

猜你喜歡
質(zhì)量指標(biāo)項集數(shù)據(jù)挖掘
更正啟事
基于移動護理下全院護理質(zhì)量指標(biāo)監(jiān)控系統(tǒng)的探索研究
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應(yīng)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于矩陣相乘的Apriori改進算法
不確定數(shù)據(jù)的約束頻繁閉項集挖掘算法
茶葉籽油精煉工藝條件對其質(zhì)量指標(biāo)的影響
不確定數(shù)據(jù)中的代表頻繁項集近似挖掘
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
堆龙德庆县| 浦城县| 河津市| 南涧| 临泽县| 勐海县| 开封市| 彭水| 大悟县| 曲松县| 赤城县| 天等县| 香河县| 广平县| 策勒县| 宁陕县| 柯坪县| 太白县| 射洪县| 广州市| 池州市| 南汇区| 乌拉特前旗| 修水县| 富川| 临泉县| 汉阴县| 南召县| 广西| 梅河口市| 宁城县| 中山市| 芷江| 凉城县| 乌兰浩特市| 双桥区| 米泉市| 偏关县| 永清县| 聂荣县| 曲松县|