国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策樹(shù)C4.5算法的制造過(guò)程質(zhì)量管理*

2019-01-03 02:57:46吉衛(wèi)喜宋承軒
關(guān)鍵詞:滾刀決策樹(shù)產(chǎn)品質(zhì)量

周 濤,吉衛(wèi)喜,b,宋承軒

(江南大學(xué) a.機(jī)械工程學(xué)院;b.江蘇省食品先進(jìn)制造裝備技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫 214122)

0 引言

隨著制造業(yè)的發(fā)展,企業(yè)之間的競(jìng)爭(zhēng)愈加激烈,所以產(chǎn)品質(zhì)量水平成了企業(yè)競(jìng)爭(zhēng)制勝因素,所以對(duì)產(chǎn)品制造過(guò)程的質(zhì)量嚴(yán)格管理成了保證產(chǎn)成品質(zhì)量的關(guān)鍵過(guò)程。目前,在制造管理過(guò)程常用的質(zhì)量管理方法為統(tǒng)計(jì)質(zhì)量控制(SPC),該方法只能通過(guò)控制圖反映加工過(guò)程產(chǎn)品質(zhì)量波動(dòng)情況,判斷加工異常,卻并不能反映出具體影響因素[1]。隨著大數(shù)據(jù)的發(fā)展,產(chǎn)品生產(chǎn)過(guò)程的大量數(shù)據(jù)被保存下來(lái),其中不乏許多生產(chǎn)過(guò)程不可測(cè)得卻對(duì)產(chǎn)品質(zhì)量有重要影響的工藝質(zhì)量數(shù)據(jù)。如何有效利用這些數(shù)據(jù),從歷史質(zhì)量數(shù)據(jù)中獲得關(guān)鍵質(zhì)量信息反饋于生產(chǎn)過(guò)程,改善產(chǎn)品質(zhì)量成為近年來(lái)的研究熱點(diǎn),也越來(lái)越被企業(yè)決策者所關(guān)注。

本文將研究基于決策樹(shù)數(shù)據(jù)挖掘方法的產(chǎn)品制造質(zhì)量管理方法,主要的目標(biāo)為充分利用生產(chǎn)過(guò)程質(zhì)量數(shù)據(jù),建立產(chǎn)品質(zhì)量因素分析模型,挖掘生產(chǎn)過(guò)程參數(shù)對(duì)產(chǎn)品質(zhì)量的影響,找出隱藏的生產(chǎn)規(guī)律,用于對(duì)生產(chǎn)過(guò)程的質(zhì)量因素的預(yù)測(cè),為質(zhì)量改進(jìn)和車間調(diào)度提供決策支持。

1 質(zhì)量分析模型

采用決策樹(shù)算法進(jìn)行質(zhì)量控制分析主要是對(duì)生產(chǎn)中積累的數(shù)據(jù)建立模型,能夠運(yùn)用模型對(duì)產(chǎn)品質(zhì)量歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、挖掘,找出質(zhì)量的影響因素,發(fā)現(xiàn)數(shù)據(jù)中潛藏的規(guī)律并反饋至生產(chǎn)過(guò)程,為企業(yè)持續(xù)改進(jìn)質(zhì)量提供決策支持[2]。

1.1 C4.5算法簡(jiǎn)述

決策樹(shù)分類是數(shù)據(jù)挖掘中監(jiān)督分類技術(shù)的一種,是通過(guò)一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出決策樹(shù)表現(xiàn)實(shí)行的分類規(guī)則,該分類方法具有較好的通用性,可理解性強(qiáng),目前已經(jīng)應(yīng)用于很多分類問(wèn)題當(dāng)中,如網(wǎng)絡(luò)流量,質(zhì)量評(píng)價(jià)等[3]。C4.5算法的優(yōu)點(diǎn)是分類準(zhǔn)確率高、速度快,而且采用信息增益比例來(lái)選擇屬性,避免了ID3算法中用信息增益選擇屬性會(huì)出現(xiàn)多值偏向的問(wèn)題,并能夠完成對(duì)連續(xù)屬性離散化的處理,以及對(duì)不完整數(shù)據(jù)進(jìn)行處理[4]。

C4.5算法是數(shù)據(jù)挖掘的分類算法,因?yàn)槠渚哂蟹诸愃俣瓤臁⒛P椭庇^易于理解、適用字符型變量的優(yōu)點(diǎn),而且篩選不重要因素效果好,準(zhǔn)確率較高,所以選用決策樹(shù)C4.5算法作為本文制造過(guò)程質(zhì)量數(shù)據(jù)挖掘處理方法。

1.2 質(zhì)量決策樹(shù)模型

設(shè)S是訓(xùn)練樣本集,它包括n個(gè)類別的樣本,這些類別分別用C1,C2,……Cn表示,那么S的熵(期望信息)為:

(1)

式中,Pi表示類Ci的概率。如果將S中的n類訓(xùn)練樣本看成n種不同的信息,那么S的熵表示對(duì)每一種信息編碼需要的平均比特?cái)?shù),|S|×E(S)就表示對(duì)S進(jìn)行編碼需要的比特?cái)?shù),其中,∣S∣表示S中的樣本數(shù)目。樣本的熵越大,它的概率分布越均衡,樣本集的混雜程度就越高,所以熵是度量訓(xùn)練集的不純度的,決策樹(shù)的分支原則是使劃分后的樣本子集越純?cè)胶?,即熵越小越好?/p>

設(shè)屬性A將S劃分為m份,根據(jù)A劃分的子集的熵計(jì)算方法為:

(2)

其中,|Si|/S表示S的第i個(gè)子集占總樣本的權(quán)重;信息增益用于衡量熵的期望減少值,所以,屬性A對(duì)S的劃分獲得的信息增益為:

G(A)=E(S)-E(A)

(3)

G(A)越大,說(shuō)明選擇的測(cè)試屬性A對(duì)分類提供的信息越多。

信息增益是一種衡量最優(yōu)分支屬性的有效函數(shù),但是它傾向于選擇具有大量不同取值的屬性,不能保證帶來(lái)良好的預(yù)測(cè)效果,因此需要新的指標(biāo)來(lái)克服這種偏倚。分割信息量SI(A)可對(duì)這種偏倚進(jìn)行補(bǔ)償,它反映的是屬性A本身的信息量,實(shí)際上它將信息增益進(jìn)行了歸一化,其定義為:

(4)

再由式(3)、式(4)得出增益比例GR(A):

(5)

增益比例是信息增益與分割信息量的比值。對(duì)每個(gè)屬性依次計(jì)算出信息增益和信息增益比例,然后選取信息增益比例最大的屬性作為樹(shù)的根節(jié)點(diǎn),依次展開(kāi)根屬性的每一個(gè)屬性取值,遞歸形成決策樹(shù)。

1.3 決策樹(shù)簡(jiǎn)化

基本的決策樹(shù)構(gòu)造法沒(méi)有考慮噪聲,因此生成的決策樹(shù)完全與訓(xùn)練樣本擬合,在有噪聲的情況下,完全擬合將導(dǎo)致過(guò)分?jǐn)M合,即分類模型對(duì)訓(xùn)練數(shù)據(jù)的完全擬合反而使分類模型對(duì)現(xiàn)實(shí)數(shù)據(jù)的分類預(yù)測(cè)性能降低[5]。為了使決策樹(shù)簡(jiǎn)單直觀易于理解,采用后剪枝方法處理基本決策樹(shù)。剪枝是一種擬合-化簡(jiǎn)的兩階段方法,它允許決策樹(shù)過(guò)度生長(zhǎng),再根據(jù)一定規(guī)則剪去多余的枝葉。

2 模型實(shí)驗(yàn)及分析

本案例的研究數(shù)據(jù)來(lái)自某電梯零部件制造公司,以齒輪加工中滾齒加工質(zhì)量問(wèn)題為案例進(jìn)行研究。

2.1 數(shù)據(jù)準(zhǔn)備

由于實(shí)際生產(chǎn)多樣、復(fù)雜性,導(dǎo)致車間采集到的原始數(shù)據(jù)無(wú)法直接使用,為提高決策樹(shù)模型的質(zhì)量,需要進(jìn)行數(shù)據(jù)預(yù)處理。首先利用SQL Server2008數(shù)據(jù)庫(kù)將相關(guān)研究屬性整理到一張可數(shù)據(jù)挖掘用的表(QDM)內(nèi),相關(guān)查詢語(yǔ)句如下:

Insert into QDM

Select * from Documentinfo a left outer join

Transmitinfo bOn a.docid=b.docid

Where department=’質(zhì)量部’

然后抽取研究對(duì)象,并對(duì)表QDM進(jìn)行過(guò)濾、去噪處理。

受數(shù)據(jù)挖掘算法時(shí)間和空間復(fù)雜度的影響,從采集的滾齒加工齒輪質(zhì)量歷史數(shù)據(jù)中抽取相應(yīng)的特征屬性,獲得數(shù)據(jù)樣本,包括的特征屬性有:批次號(hào)、生產(chǎn)設(shè)備、班組、操作員工號(hào)、不良現(xiàn)象以及不良現(xiàn)象影響因素。部分?jǐn)?shù)據(jù)集如表1所示。為基于決策樹(shù)的產(chǎn)品質(zhì)量分析提供數(shù)據(jù)支撐。

表1 部分樣本數(shù)據(jù)

2.2 決策樹(shù)模型建立

用C4.5算法對(duì)抽取的數(shù)據(jù)集進(jìn)行分類計(jì)算以獲得決策樹(shù)模型,具體計(jì)算過(guò)程如下。

訓(xùn)練集的目標(biāo)屬性為缺陷原因,屬性值包括機(jī)床磨損、齒坯材質(zhì)、一次切削量、滾刀的選擇、滾刀安裝精度以及滾刀刃磨質(zhì)量。由公式(1),計(jì)算缺陷原因的熵值E(缺陷原因)為:

E(缺陷原因)=2.639658688

該公司滾齒加工的生產(chǎn)設(shè)備有三個(gè)型號(hào),分別以Z1,Z2,Z3編號(hào)。根據(jù)三種設(shè)備在樣本集中的記錄數(shù),求得三種設(shè)備的權(quán)重分別為0.37、0.33、0.3。由公式(1)分別求出三種設(shè)備的信息熵:

E(Z1)=2.522443772

E(Z2)=2.594235594

E(Z3)=2.661074065

運(yùn)用式(2)、式(3)可以求出生產(chǎn)設(shè)備的熵值和信息增益為:E(生產(chǎn)設(shè)備)=0.37E(Z1)+0.33E(Z2)+0.3E(Z3)=2.587724161;G(生產(chǎn)設(shè)備)=E(缺陷原因)-E(生產(chǎn)設(shè)備)=0.051934527。

同理可得其他屬性的信息熵為:

E(班次)=2.587724161

E(操作員)=2.587724161

E(缺陷名稱)=2.587724161

各屬性的信息增益為:

G(操作員)=0.080171688

G(班次)=0.042480298

G(缺陷名稱)=1.457623666

運(yùn)用式(4)計(jì)算各屬性分割信息量S:

SI(生產(chǎn)設(shè)備)=1.579641206

SI(操作員)=1.906181896

SI(班次)=0.924818705

SI(缺陷名稱)=2.413194108

運(yùn)用式(5),由以上求出的信息增益和分割信息量即可求出各屬性的增益比例:

GR(生產(chǎn)設(shè)備)=0.03287742

GR(操作員)=0.042058782

GR(班次)=0.045933649

GR(缺陷名稱)=0.604022553

由上述計(jì)算結(jié)果可以看出缺陷名稱屬性的信息增益率明顯大于其他所有的屬性,所以選擇缺陷名稱屬性作為決策樹(shù)的根節(jié)點(diǎn),構(gòu)造決策樹(shù)。

生成的完全決策樹(shù)對(duì)樣本分類時(shí)會(huì)產(chǎn)生“過(guò)度擬合”問(wèn)題,因此必須對(duì)它進(jìn)行化簡(jiǎn)。本文通過(guò)采用后剪枝策略,從樹(shù)的葉子開(kāi)始剪枝,逐步向根的方向剪,剪枝完成后,得到制造質(zhì)量分類決策樹(shù),如圖1所示。

圖1 質(zhì)量因素分析決策樹(shù)

2.3 評(píng)估

為了對(duì)決策模型有效性進(jìn)行檢驗(yàn),從數(shù)據(jù)庫(kù)隨機(jī)抽取200條記錄來(lái)測(cè)試訓(xùn)練后的模型,得出的混淆矩陣為:

為了讓模型有效性更直觀,用決策準(zhǔn)確率來(lái)表示模型的可正確分類概率,計(jì)算公式為:

由混淆矩陣可計(jì)算出模型的準(zhǔn)確率如表2所示。

表2 缺陷原因決策準(zhǔn)確率

從表2來(lái)看,該模型對(duì)測(cè)試集數(shù)據(jù)的質(zhì)量因決策準(zhǔn)確率達(dá)到了86.2%,從實(shí)際應(yīng)用角度看,該模型方法具有良好的性能,可滿足公司決策需求。

2.4 規(guī)則提取

從決策樹(shù)圖1可以獲取如表3所示的規(guī)則。

表3 決策樹(shù)提取規(guī)則

在制造過(guò)程產(chǎn)品缺陷形成的因素涉及多方面,表面上難以分析,而基于數(shù)據(jù)挖掘決策樹(shù)提取的規(guī)則可以為質(zhì)量管理和車間決策人員提供一定的質(zhì)量性能控制預(yù)測(cè)和車間人員設(shè)備調(diào)度的參考依據(jù),幫助管理人員發(fā)現(xiàn)產(chǎn)品質(zhì)量問(wèn)題的潛在原因,幫助企業(yè)持續(xù)改善產(chǎn)品質(zhì)量。例如對(duì)于常見(jiàn)的出面出棱的質(zhì)量問(wèn)題,根據(jù)表中規(guī)則10~13,若是Z1號(hào)生產(chǎn)設(shè)備,則很大概率是滾刀刃磨不合格;若是在3號(hào)設(shè)備上生產(chǎn)的,主要原因是滾刀安裝精度有誤差;若是在Z2設(shè)備上由工號(hào)209或409員工操作,則是因?yàn)闈L刀質(zhì)量不達(dá)標(biāo),是員工疏于檢查是否應(yīng)該換刀,員工專業(yè)技能影響較??;若是員工384或237操作,則質(zhì)量問(wèn)題是滾刀安裝精度有誤差,則需要對(duì)兩個(gè)操作員工進(jìn)行專業(yè)技能培訓(xùn)來(lái)提高一次生產(chǎn)合格率。所以總的來(lái)說(shuō),對(duì)于出現(xiàn)齒面出棱質(zhì)量問(wèn)題,一要著眼于控制滾刀刃磨質(zhì)量;二要提高操作者專業(yè)技能,保證安裝滾刀時(shí)正確操作,保證各項(xiàng)指標(biāo);三要對(duì)Z1和Z3設(shè)備的主軸進(jìn)行旋轉(zhuǎn)精度復(fù)查,修復(fù)調(diào)整滾刀主軸軸承,尤其是止推墊片。對(duì)于操作員409,其在設(shè)備Z2和Z3上工作時(shí)出現(xiàn)質(zhì)量問(wèn)題次數(shù)較多,可能因?yàn)槠鋵?duì)設(shè)備Z2、Z3熟悉度低,在以后的派工過(guò)程中,考慮將操作員409優(yōu)先派到設(shè)備Z1上工作。

通過(guò)以上對(duì)模型和規(guī)則的分析討論,驗(yàn)證了決策樹(shù)模型不只可用于預(yù)測(cè)質(zhì)量的合格與否,在尋找產(chǎn)品質(zhì)量隱含影響因素和決策質(zhì)量缺陷原因方面同樣可以發(fā)揮作用,所提取的規(guī)則可作為質(zhì)量管理和車間調(diào)度決策依據(jù)。同時(shí),隨著后期對(duì)該模型的進(jìn)一步研究完善以及制造企業(yè)信息化智能化程度的逐步深入,可將決策結(jié)果作為知識(shí)建立質(zhì)量診斷知識(shí)庫(kù),進(jìn)一步研究產(chǎn)品質(zhì)量影響因素智能診斷方法,為制造業(yè)質(zhì)量管理智能化添磚加瓦。

3 結(jié)論

本文根據(jù)企業(yè)實(shí)際需求,利用車間制造過(guò)程積累的質(zhì)量數(shù)據(jù),運(yùn)用決策樹(shù)C4.5算法,分析了影響產(chǎn)品質(zhì)量的主要因素,建立了基于C4.5算法的制造質(zhì)量分析模型,為產(chǎn)品質(zhì)量問(wèn)題的決策診斷提供了一種可行方案,同時(shí)為企業(yè)的產(chǎn)品質(zhì)量的持續(xù)改進(jìn)和車間調(diào)度決策提供了一定程度的數(shù)據(jù)支持。經(jīng)實(shí)際數(shù)據(jù)檢測(cè),該模型所達(dá)到的準(zhǔn)確率可滿足公司質(zhì)量影響因素決策診斷的需求,所獲得的規(guī)則對(duì)生產(chǎn)有一定的指導(dǎo)作用,證明了模型的有效性。

猜你喜歡
滾刀決策樹(shù)產(chǎn)品質(zhì)量
產(chǎn)品質(zhì)量監(jiān)督抽查的本質(zhì)與拓展
超硬翅片滾刀加工在CNC磨床上的實(shí)現(xiàn)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
加強(qiáng)PPE流通領(lǐng)域產(chǎn)品質(zhì)量監(jiān)督
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
“望聞問(wèn)切”在產(chǎn)品質(zhì)量鑒定工作中的應(yīng)用
不同地應(yīng)力下TBM盤形滾刀破巖特性
滾刀式剪草機(jī)傳動(dòng)方式的現(xiàn)狀和發(fā)展前景
產(chǎn)品質(zhì)量好 認(rèn)證不能少
基于決策樹(shù)的出租車乘客出行目的識(shí)別
吐鲁番市| 峡江县| 黄冈市| 江安县| 南川市| 元谋县| 郯城县| 绵阳市| 吕梁市| 清镇市| 彭阳县| 上饶市| 江门市| 新丰县| 鄄城县| 岳西县| 清流县| 新河县| 广河县| 岐山县| 通化市| 祥云县| 钟山县| 安达市| 泽库县| 郸城县| 吉木萨尔县| 江达县| 南乐县| 台湾省| 天长市| 岑巩县| 二连浩特市| 荔波县| 高尔夫| 武夷山市| 揭阳市| 思茅市| 玉溪市| 扶绥县| 大竹县|