(江南大學(xué) 江蘇 無(wú)錫 214122)
科技的發(fā)展為工業(yè)領(lǐng)域帶來(lái)了技術(shù)的變革,自動(dòng)化和智能化的發(fā)展趨勢(shì)使得工業(yè)各個(gè)環(huán)節(jié)都在被信息技術(shù)影響,各種自動(dòng)控制系統(tǒng)正在迅速應(yīng)用?,F(xiàn)代信息技術(shù)與工業(yè)的整合使每個(gè)鏈路的數(shù)據(jù)都得以完整記錄,這些數(shù)據(jù)正以驚人的速度擴(kuò)張,工業(yè)已進(jìn)入“大數(shù)據(jù)時(shí)代”。這些數(shù)據(jù)通過(guò)科學(xué)的手段便能“變廢為寶”,而數(shù)據(jù)挖掘技術(shù)就是幫助企業(yè)去挖掘?qū)毑氐年P(guān)鍵。數(shù)據(jù)挖掘技術(shù)可以分析行業(yè)生成的數(shù)據(jù),發(fā)現(xiàn)隱藏的關(guān)系和規(guī)則。利用這些關(guān)系和規(guī)則來(lái)幫助工業(yè)在準(zhǔn)備、制造、采購(gòu)階段提高效率、優(yōu)化質(zhì)量和降低成本等。
在復(fù)雜的工業(yè)生產(chǎn)過(guò)程中,當(dāng)某一環(huán)節(jié)發(fā)生故障時(shí),會(huì)導(dǎo)致一系列的連鎖問(wèn)題,使得整個(gè)生產(chǎn)系統(tǒng)受到影響,甚至可能會(huì)危及人身安全,因此故障預(yù)警是必不可少的。然而,生產(chǎn)線的復(fù)雜情況,即使是經(jīng)驗(yàn)豐富的老師傅也很難快速地反應(yīng)過(guò)來(lái),而數(shù)據(jù)挖掘卻不同,它通過(guò)數(shù)據(jù)的挖掘與分析,找出其中的關(guān)聯(lián),能夠達(dá)到快速預(yù)測(cè)的效果。本文嘗試?yán)脭?shù)據(jù)挖掘算法,對(duì)中科云谷公司混凝土泵車砼活塞進(jìn)行故障診斷,以期更快、更有效地解決工業(yè)企業(yè)生產(chǎn)故障問(wèn)題。
活塞故障預(yù)測(cè)其本質(zhì)就是預(yù)測(cè)該零件存在質(zhì)量問(wèn)題的傾向性,屬于二元分類預(yù)測(cè)模型,常用的有神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、邏輯回歸和支持向量機(jī)等算法[1-3]。
(一)決策樹(shù)算法。決策樹(shù)算法由構(gòu)建決策樹(shù)和決策樹(shù)剪枝兩個(gè)基本步驟組成,利用數(shù)據(jù)中具有分類功能的屬性作為節(jié)點(diǎn)生成決策樹(shù),然后利用測(cè)試數(shù)據(jù)集對(duì)分類規(guī)則進(jìn)行剪枝,最終形成的決策樹(shù)可對(duì)數(shù)據(jù)進(jìn)行分類。常見(jiàn)的構(gòu)建決策樹(shù)的方法有CART算法、J48等。
(二)邏輯回歸。邏輯回歸用于描述范疇型響應(yīng)變量與預(yù)測(cè)變量之間的關(guān)系,是在多響應(yīng)線性回歸的基礎(chǔ)上,在一個(gè)經(jīng)轉(zhuǎn)換的目標(biāo)變量上建立的線性模型。
(三)支持向量機(jī)。支持向量機(jī)(SVM)是建立在VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理等統(tǒng)計(jì)學(xué)理論基礎(chǔ)上的,它由于在解決小樣本、非線性、高維模式識(shí)別中具有特別的優(yōu)勢(shì)而受到了廣泛的關(guān)注,并能夠推廣到函數(shù)擬合等其他機(jī)器學(xué)習(xí)的應(yīng)用中。
本研究采用中科云谷科技有限公司公開(kāi)提供的混凝土泵車砼活塞故障有關(guān)的數(shù)據(jù),包括工作時(shí)間等多類工況數(shù)據(jù),以及相應(yīng)情況下,當(dāng)混凝土泵送量完成時(shí),活塞是否有故障的識(shí)別信息。
由于數(shù)據(jù)屬性較多,為提高結(jié)果準(zhǔn)確度,需要進(jìn)行數(shù)據(jù)預(yù)處理剔除冗余屬性,這里通過(guò)計(jì)算皮爾森系數(shù)來(lái)評(píng)估屬性重要程度的方法,選擇Ranker作為搜索方法,計(jì)算結(jié)果顯示,屬性反泵、低壓開(kāi)關(guān)、攪拌超壓信號(hào)、高壓開(kāi)關(guān)、正泵與預(yù)測(cè)結(jié)果關(guān)系為0,將它們移除,最終篩選出的屬性如表1所示。
表1 屬性篩選結(jié)果
本章中活塞故障預(yù)測(cè)模型,輸入變量是連續(xù)型變量,輸出變量是分類變量,因此本文選擇邏輯回歸、決策樹(shù)、支持向量機(jī)3種分類算法進(jìn)行建模,并對(duì)結(jié)果進(jìn)行對(duì)比分析。
模型評(píng)估有多種指標(biāo),常用的有精確率、覆蓋率和兩類錯(cuò)誤率。然而,某個(gè)類的精確率與覆蓋率不一定能同時(shí)高,對(duì)于故障預(yù)測(cè)問(wèn)題,由于未能預(yù)測(cè)出故障造成的損失要比把不故障產(chǎn)品判斷成故障產(chǎn)品造成的損失高出許多,因此對(duì)故障識(shí)別能力要求較高,也就是對(duì)覆蓋率要求更高,具體需要比較兩類錯(cuò)誤的不同代價(jià),從而尋求平衡使得總代價(jià)最小。兩類錯(cuò)誤率的概念來(lái)自統(tǒng)計(jì)學(xué),將其放入本模型中,即原假設(shè)為活塞是故障的,那么把一個(gè)將故障的活塞預(yù)測(cè)為不會(huì)故障的錯(cuò)誤就是第一類錯(cuò)誤,把一個(gè)不會(huì)故障的活塞預(yù)測(cè)為會(huì)故障的活塞預(yù)測(cè)為會(huì)故障的錯(cuò)誤是第二類錯(cuò)誤。對(duì)比分析結(jié)果如表2所示:
表2 三種模型對(duì)比分析結(jié)果
從表2可以看出,決策樹(shù)J48算法不僅達(dá)到最高的精確率,覆蓋率,和F值,各類型錯(cuò)誤率也是最低的。通過(guò)各類指標(biāo)的比較,本文選取決策樹(shù)作為故障預(yù)測(cè)模型
決策樹(shù)應(yīng)用于故障預(yù)測(cè)模型的優(yōu)勢(shì)之一就是可以歸納出規(guī)則,便于工作人員操作,根據(jù)預(yù)測(cè)結(jié)果,本文可以歸納出以下幾條:
規(guī)則1:如果:流量檔位≥9.75;那么:故障傾向?不故障
規(guī)則2:如果:流量檔位>9.75 & 排流電量≤588.52;那么:故障傾向?不故障
根據(jù)這些規(guī)則,操作人員可以迅速定位有故障傾向的機(jī)器,然后進(jìn)行整修。
工業(yè)水平體現(xiàn)了一個(gè)國(guó)家的綜合國(guó)力,我國(guó)作為一個(gè)工業(yè)強(qiáng)國(guó),工業(yè)領(lǐng)域的數(shù)據(jù)庫(kù)中有著大量的、模糊的、冗余的信息,工業(yè)生產(chǎn)過(guò)程所面臨的復(fù)雜的預(yù)測(cè)、優(yōu)化問(wèn)題,靠以往的人工經(jīng)驗(yàn)和簡(jiǎn)單的統(tǒng)計(jì)分析方法已經(jīng)不能解決,而數(shù)據(jù)挖掘?yàn)楣I(yè)的優(yōu)化帶來(lái)了新的方向。借助數(shù)據(jù)挖掘技術(shù)可以提高企業(yè)效率、優(yōu)化產(chǎn)品質(zhì)量,在工業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)革新了企業(yè)的研發(fā)、生產(chǎn)、運(yùn)營(yíng)和管理方式,讓工業(yè)生產(chǎn)過(guò)程更加智能化和自動(dòng)化。本文討論了在這個(gè)“數(shù)據(jù)爆炸”的時(shí)代,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于工業(yè)企業(yè)故障診斷的可行性。通過(guò)對(duì)中科云谷科技公司混凝土泵車砼活塞建立多個(gè)故障預(yù)警的模型,并進(jìn)行對(duì)比分析,發(fā)現(xiàn)該公司砼活塞故障預(yù)警的最佳方法。