国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在輪胎均勻性試驗(yàn)數(shù)據(jù)上的應(yīng)用

2016-09-06 04:56:13張健斌朱蘭娟上海交通大學(xué)自動化系上海200240
世界橡膠工業(yè) 2016年7期
關(guān)鍵詞:制造執(zhí)行系統(tǒng)特征選擇數(shù)據(jù)挖掘

張健斌, 朱蘭娟(上海交通大學(xué)自動化系, 上海 200240)

數(shù)據(jù)挖掘在輪胎均勻性試驗(yàn)數(shù)據(jù)上的應(yīng)用

張健斌, 朱蘭娟
(上海交通大學(xué)自動化系, 上海 200240)

摘 要:制造執(zhí)行系統(tǒng)(MES)可以提升輪胎制造企業(yè)的運(yùn)營水平,同時也集成了海量的制造環(huán)節(jié)數(shù)據(jù),能夠應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行充分利用和挖掘,使信息更有價值?;贛ES數(shù)據(jù)倉庫中提取的輪胎質(zhì)檢工段的均勻性檢測數(shù)據(jù),采用特征選擇的方法分析影響各規(guī)格輪胎均勻性的質(zhì)量因素及權(quán)重,比較了基于信息論、統(tǒng)計、相似度的幾種算法的應(yīng)用效果。對于均勻性數(shù)據(jù)的冗余屬性問題,利用LFS+CFS進(jìn)行分析,發(fā)現(xiàn)降維后的屬性在預(yù)測均勻性等級、歸檔壓縮和質(zhì)量管理方面展現(xiàn)出了價值。

關(guān)鍵詞:輪胎均勻性;制造執(zhí)行系統(tǒng)(MES);特征選擇;數(shù)據(jù)挖掘;Python程序設(shè)計

0 前 言

數(shù)據(jù)挖掘技術(shù)在商業(yè)、銀行、零售、基因工程等領(lǐng)域已經(jīng)應(yīng)用得十分廣泛[1]。在工業(yè)領(lǐng)域,隨著智能傳感器以及集成以太網(wǎng)的控制器、驅(qū)動器、HMI、DCS、儀表的廣泛應(yīng)用,工業(yè)以太網(wǎng)技術(shù)將原本在車間里各自獨(dú)立的各種機(jī)器、生產(chǎn)線、廠房設(shè)施、工藝流程、人員、產(chǎn)品等對象產(chǎn)生的信息,由底層的IoT兼容的控制器采集上來,MES/MOM等制造層信息系統(tǒng)對數(shù)據(jù)進(jìn)行實(shí)時的采集和應(yīng)用[2]。羅克韋爾公司的互聯(lián)企業(yè)策略則提出,制造企業(yè)通過物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)互聯(lián)互通,通過大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí),轉(zhuǎn)化和利用數(shù)據(jù),可以改善制造企業(yè)的運(yùn)營[3]。事實(shí)上,數(shù)據(jù)挖掘技術(shù)在工業(yè)領(lǐng)域,比如生產(chǎn)過程優(yōu)化、質(zhì)量管理、故障診斷、汽車制造、油田規(guī)劃、礦藏產(chǎn)量等各個行業(yè)和生產(chǎn)環(huán)節(jié)都有所應(yīng)用[4-7]。

中國的輪胎制造近些年得到飛速發(fā)展,產(chǎn)能達(dá)到全世界的30%,是世界輪胎生產(chǎn)大國,但品牌效應(yīng)差、質(zhì)量低下、同質(zhì)化嚴(yán)重等問題較為突出。輪胎生產(chǎn)制造過程伴有大量數(shù)據(jù),例如密煉、擠出、硫化的過程數(shù)據(jù),以及設(shè)備狀態(tài)、操作信息、質(zhì)量信息等工藝數(shù)據(jù),它們都反映了每個生產(chǎn)環(huán)節(jié)的狀態(tài)。實(shí)時生產(chǎn)數(shù)據(jù)不僅能為生產(chǎn)管理的正確決策提供科學(xué)依據(jù),若能進(jìn)一步利用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行分析,如能耗預(yù)測、質(zhì)量問題分析、設(shè)備預(yù)維護(hù)、產(chǎn)品研發(fā)等等,就為輪胎制造廠家?guī)砀蟮幕貓螅?]。

數(shù)據(jù)挖掘技術(shù)充分利用海量的數(shù)據(jù),在大型數(shù)據(jù)庫中探索和發(fā)現(xiàn)有用的信息,發(fā)現(xiàn)先前未知的模式或者預(yù)測未來的觀測結(jié)果,并提供決策支持。常見的數(shù)據(jù)挖掘方法包括分類預(yù)測、回歸預(yù)測、關(guān)聯(lián)分析、聚類分析等[9]。數(shù)據(jù)挖掘技術(shù)包括很多方面,從流程上說大致有數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、后處理、信息描述幾個階段,其中數(shù)據(jù)預(yù)處理在探索一個新的問題時會對整個分析過程起至關(guān)重要的作用。預(yù)處理是將原始數(shù)據(jù)轉(zhuǎn)換成適合用于分析的數(shù)據(jù),主要是數(shù)據(jù)清洗及處理缺失項(xiàng)、噪聲、重復(fù)項(xiàng)。其實(shí)預(yù)處理階段還有一些更具有價值的功能,即,當(dāng)面對高維數(shù)據(jù)集時應(yīng)用的特征選擇、維規(guī)約、規(guī)范化、數(shù)據(jù)子集選擇這些技術(shù)。本文從數(shù)據(jù)挖掘的視角,通過數(shù)據(jù)預(yù)處理的特征選擇,對來自輪胎MES系統(tǒng)的均勻性實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析。

1 輪胎質(zhì)檢MES與輪胎均勻性檢測數(shù)據(jù)

輪胎的生產(chǎn)制造工藝主要有密煉、成型、硫化、檢測等工序,前工段屬于流程制造,后工段屬于離散制造,小批量多品種,生產(chǎn)過程復(fù)雜。為提升企業(yè)運(yùn)營效率,越來越多的國內(nèi)輪胎企業(yè)開始實(shí)施整廠級別的制造執(zhí)行系統(tǒng),簡稱MES[10]。

MES系統(tǒng)根據(jù)ISA-95標(biāo)準(zhǔn)[11]中的企業(yè)信息架構(gòu)角度看,是屬于Level 3,其下層是車間自動化層和SCADA層,MES負(fù)責(zé)對底層數(shù)據(jù)進(jìn)行有機(jī)集成。車間采用工業(yè)以太網(wǎng)實(shí)現(xiàn)數(shù)據(jù)通信,如EtherNet/IP或者ProfiNet。在MES的上層一般是企業(yè)信息層,常見的有ERP等各種系統(tǒng),MES需要通過ERP-GATEWAY中間件或者Web-Service等方法來進(jìn)行ERP與MES的數(shù)據(jù)交互。因此,MES在運(yùn)行中會處理和記錄從車間層到企業(yè)管理層的制造運(yùn)營相關(guān)數(shù)據(jù),以MES中存儲的數(shù)據(jù)作為數(shù)據(jù)挖掘?qū)ο?,是很有潛在價值的。一些先進(jìn)的MES軟件平臺同時提供了ODS(操作數(shù)據(jù)存儲)的功能,幫助建立制造過程數(shù)據(jù)倉庫,方便后續(xù)的數(shù)據(jù)挖掘。

輪胎工廠MES涵蓋各個工藝段,輪胎檢測工段是輪胎制造的最后一個工段,這個工段的MES系統(tǒng)將每個輪胎在各種檢測設(shè)備上的檢測分析數(shù)據(jù)和檢測結(jié)果進(jìn)行存儲,以便今后的質(zhì)量追溯。檢測設(shè)備包括動平衡、均勻性、X光機(jī)、里程試驗(yàn)等。本文以均勻性試驗(yàn)數(shù)據(jù)作為對象進(jìn)行數(shù)據(jù)挖掘應(yīng)用。

均勻性試驗(yàn)機(jī)是檢測輪胎不圓度性能的設(shè)備,通過輪胎在高速旋轉(zhuǎn)時,設(shè)備上的傳感器反饋回來的各種數(shù)據(jù)進(jìn)行均勻性等級的判斷,檢測的指標(biāo)主要有縱向力波動RFV、橫向力波動LFV、側(cè)向力積分LFD、自身錐向力CON、旋轉(zhuǎn)錐向力PLY、半徑變化RRO、寬度變化LRO、上胎側(cè)尺寸變化LROT、下胎側(cè)尺寸變化LROB、上胎側(cè)鼓包BULGT、下胎側(cè)鼓包BULGB、上胎側(cè)凹陷DENT、下胎側(cè)凹陷DENB等,其中RFV 和LFV會有額外的正反轉(zhuǎn)測試和一次諧波分量分析。這些指標(biāo)各自反應(yīng)不同方面的質(zhì)量特征,也是輪胎均勻性質(zhì)量等級的判定依據(jù)。每個具體的指標(biāo)包含傳感器測量值和一個等級,例如RFVCW指標(biāo)包含{數(shù)值,角度,等級},對應(yīng)的某條數(shù)據(jù)記錄為{5.34,321,A},數(shù)值和角度屬性為連續(xù)變量,后文標(biāo)記為f,基于數(shù)值角度得出的屬性等級為離散變量,后文標(biāo)記為fiG。以上各個指標(biāo)總共的測量值共有40個,將所有的指標(biāo)判定結(jié)果匯總,得到一個輪胎總的均勻性判定。判定規(guī)則由均勻性試驗(yàn)機(jī)設(shè)定,流程為:比較檢測值fi與標(biāo)準(zhǔn)值,根據(jù)偏差大小和規(guī)則得出fiG,再根據(jù)所有fiG綜合得到整體的均勻性等級G。規(guī)則信息保存在機(jī)器上,由專業(yè)人員人為制定,可以理解為If…Then…規(guī)則。規(guī)則不開放給MES系統(tǒng)和數(shù)據(jù)分析人員。在MES系統(tǒng)中集成的數(shù)據(jù)還包括輪胎條碼、操作員、機(jī)臺號、重力、壓力、時間等相關(guān)數(shù)據(jù),每條輪胎的均勻性數(shù)據(jù)有53個屬性。

傳統(tǒng)的輪胎質(zhì)量管理人員對于均勻性會使用均值和方差的統(tǒng)計方法來進(jìn)行質(zhì)量控制,配合X-R控制圖和SPC方法,但屬性多、數(shù)據(jù)量大,分析工作會因過于繁雜而無法有針對性的重點(diǎn)解決質(zhì)量問題。

2 特征選擇與應(yīng)用

輪胎的質(zhì)量因素非常多,僅均勻性屬性可達(dá)53個?;厮菀粭l輪胎的整個生產(chǎn)環(huán)節(jié),包括煉膠、硫化等過程參數(shù),裁斷成型等狀態(tài)數(shù)據(jù),快檢數(shù)據(jù)……與輪胎質(zhì)量相關(guān)的屬性估計會多達(dá)上千個。

而如此龐大的、高維的數(shù)據(jù),往往存在數(shù)據(jù)缺失、冗余、噪聲的各種問題,最重要的是,高維數(shù)據(jù)會對數(shù)據(jù)分析造成維數(shù)災(zāi)難的問題。因此無論是從質(zhì)量管理人員進(jìn)行數(shù)據(jù)統(tǒng)計分析方面考慮,還是后期對數(shù)據(jù)挖掘算法的應(yīng)用,都需要對這樣的數(shù)據(jù)進(jìn)行清洗和降維處理[12]。

降維后數(shù)據(jù)的優(yōu)勢一般有:提升分類和回歸問題的預(yù)測性能;降低運(yùn)算復(fù)雜度和訓(xùn)練時間并提高運(yùn)算效率;增強(qiáng)對于一個復(fù)雜問題的洞察和理解能力,即以對業(yè)務(wù)的專業(yè)理解為基礎(chǔ),把需要改善的指標(biāo)作為應(yīng)變量,找出對其有影響的自變量。對于制造生產(chǎn)運(yùn)營人員來說,可以透過復(fù)雜的、龐大的、難以理解的數(shù)據(jù),快速了解生產(chǎn)過程中的關(guān)鍵指標(biāo),從而對影響和調(diào)整生產(chǎn)起到幫助作用。

特征選擇(Feature Selection)和特征提?。‵eature Extraction)是目前應(yīng)用最多的兩種降維方法,能夠去除數(shù)據(jù)噪聲和非相關(guān)屬性、冗余屬性。特征提取將原有的高維特征空間投影到一個新的低維特征空間,并且通常是由原來的特征空間的線性或者非線性組合而成。常見的算法有主成分分析PCA,即尋找表示數(shù)據(jù)分布的最優(yōu)子空間;線性判別分析LDA,即尋找可分性判據(jù)最大的子空間;典型對應(yīng)分析CCA,即通過找到兩組基,使得兩組數(shù)據(jù)在這兩組基上的投影相關(guān)性最大。類似的還有SVD、ISOMAP、LLE、ICA、HSIC判別等算法等。特征提取的方法是將原有的特征空間映射到一個新的特征空間,在新的特征空間中,屬性不再具備原空間的物理意義。因此,當(dāng)討論或者分析必須基于有實(shí)際物理含義的屬性時,就需要使用特征選擇的方法[3]。

相比特征提取,特征選擇保持了原有屬性的物理意義,在原有的特征空間中選擇一個高相關(guān)度的子集,使得新的模型具有高可讀性和可解釋性。針對輪胎均勻性這一數(shù)據(jù)集,可以利用特征提取的方法,從53個屬性集中提取出影響均勻性指標(biāo)的幾個重要特征屬性,這幾個重要的特征屬性同時也是影響均勻性質(zhì)量的關(guān)鍵質(zhì)量因素。

根據(jù)數(shù)據(jù)集中有無類標(biāo)記信息Label,即目標(biāo)變量Target Variable,可分為有監(jiān)督、無監(jiān)督和半監(jiān)督三種特征選擇。其中有監(jiān)督的特征選擇,指的是每個實(shí)例包含了類標(biāo)記信息,根據(jù)其離散或者連續(xù)值的不同,應(yīng)用分類或者回歸的方法進(jìn)行處理。均勻性數(shù)據(jù)集有一列是輪胎的均勻性總等級指標(biāo),即為這個數(shù)據(jù)集的Label類標(biāo)記信息,等級的集合為{OE1:優(yōu)質(zhì),OE2:次優(yōu),OK:合格,DA:瑕疵品,DX:廢品}。均勻性等級是根據(jù)數(shù)據(jù)集其余52(列)屬性綜合判斷得出,因此輪胎均勻性數(shù)據(jù)集是一個有監(jiān)督的分類問題。參考Jiliang Tang和Huan Liu的分類問題基本框架和姚旭、王曉丹等的特征選擇基本框架[14],輪胎均勻性數(shù)據(jù)集等級分類的參考框架如圖1所示。

圖1 有監(jiān)督分類過程的一般框架

根據(jù)上圖的框架可以看出,特征選擇是分類問題的非常重要的一個環(huán)節(jié)。其一般由以下四個環(huán)節(jié)組成,首先基于某一特定搜索策略的生成備選特征子集,這通常是一個在特征空間中尋找特征子集的優(yōu)化方法,總的來說有啟發(fā)式、隨機(jī)搜索和全局尋優(yōu)三類,常用的方法有遍歷法、貪婪算法、基因算法、特征排名Ranker、序列向前選擇SFS、序列向后選擇SBS等,各種方法各有優(yōu)缺點(diǎn),其中特征排名策略將每個屬性的得分進(jìn)行排名并選擇得分較高的幾個作為特征子集,得分對于屬性的可解釋性很有價值;第二步則是子集評價,通常分為Filter過濾式(采用了與后續(xù)分類器無關(guān)的評價準(zhǔn)則,例如基尼指數(shù)、信息增益等)、Wrapper封裝式(使用分類器的分類性能指標(biāo)對特征子集優(yōu)劣性進(jìn)行評價,因此不會存在類似Filter造成的偏倚問題,缺點(diǎn)是計算量大,實(shí)際應(yīng)用相對較少)、Embedded嵌入式(比如決策樹、SVM等分類器使用了自身算法的特征子集)三類;第三步是停止準(zhǔn)則,根據(jù)事先設(shè)定的條件決定這次的特征選擇是否滿足要求;第四步則是評估和驗(yàn)證獲得特征子集。

如何選擇正確的特征選擇算法也需要考慮數(shù)據(jù)本身的特性,Li將眾多的特征選擇算法以數(shù)據(jù)視角進(jìn)行了整理并編制了特征選擇算法框架[15],根據(jù)數(shù)據(jù)的特性屬于Static靜態(tài)數(shù)據(jù)還是Streaming流數(shù)據(jù)、特征流還是數(shù)據(jù)流、多媒體還是文本、結(jié)構(gòu)化還是扁平化(Flat Feature)等特性,全面地提出了對應(yīng)的特征選擇方案。對本文從MES中提取的均勻性數(shù)據(jù)對象,可以認(rèn)為是靜態(tài)的、扁平的文本數(shù)據(jù),數(shù)據(jù)的屬性間滿足獨(dú)立同分布 (IID) 特性且沒有內(nèi)在的結(jié)構(gòu)化關(guān)聯(lián),適用扁平特征選擇的方法進(jìn)行分析。扁平特征選擇也稱為經(jīng)典特征選擇,一般有如下幾種類型:

(1)基于相似度的特征選擇,這一類的算法主要考慮數(shù)據(jù)間的相似度,監(jiān)督學(xué)習(xí)中考慮屬性與類標(biāo)記的相似,比如皮爾遜相關(guān)系數(shù);無監(jiān)督學(xué)習(xí)中通??紤]數(shù)據(jù)間的距離,典型的算法有ReliefF、Fisher Score、Laplacian Score等。

(2)基于信息論的特征選擇,通過信息增益Information Gain或者互信息Mutual Information來度量特征的重要程度,典型的算法有MIM、MRMR、FCBF等。

(3)基于稀疏學(xué)習(xí)的特征選擇,特點(diǎn)是在添加稀疏正則化項(xiàng)的同時最小化擬合誤差,而正則化獲得稀疏解,使某些屬性的系數(shù)很小或?yàn)榱悖瑢?yīng)的屬性移除,剩余的是被選中的屬性,典型的算法有RFS、Least square loss (l2,1)、Logistic loss (l2,1)等。

(4)基于統(tǒng)計學(xué)的特征選擇,這類算法有別于機(jī)器學(xué)習(xí),主要是以統(tǒng)計方法為主,單獨(dú)評價屬性的重要性,通常不考慮屬性間的冗余,典型的算法有T-score、Chi-square、GiniIndex等。

本次分析的目標(biāo)是,對于同種規(guī)格和批次的輪胎,找出影響該特定輪胎均勻性等級判定的屬性,并按照重要性排序。因此搜索策略采用特征排序(Ranker),屬性評估采用能提供特征評分的算法。由于特征排序并不考慮屬性冗余,再采用LFS(Linear Forward Selection)子集搜索[16]+CFS[17]屬性評估算法進(jìn)行冗余問題的輔助分析。

3 實(shí)驗(yàn)分析

本次試驗(yàn)平臺使用Python(x,y)和Weka。 Python(x,y)集成了豐富的科學(xué)計算包Numpy和機(jī)器學(xué)習(xí)包Scikit-learn等,特征選擇算法實(shí)現(xiàn)的庫函數(shù)非常豐富,很多學(xué)者會將自己的算法在Python環(huán)境下做算法的實(shí)現(xiàn),擴(kuò)展性好;Weka作為一個集成的數(shù)據(jù)挖掘工具,內(nèi)置了常見數(shù)據(jù)挖掘功能,可以快速對數(shù)據(jù)集進(jìn)行處理和分析,但一般新算法的實(shí)現(xiàn)較慢。因此前期使用Weka進(jìn)行數(shù)據(jù)集的清洗和基本算法測試,后期使用Python測試新的算法和系統(tǒng)實(shí)現(xiàn)。

從數(shù)據(jù)庫倉庫中提取數(shù)據(jù)進(jìn)行分析,輪胎規(guī)格為310P2105。對均勻性檢測機(jī)UF01上連續(xù)兩天的均勻性質(zhì)檢數(shù)據(jù),剔除噪聲記錄后,共有有效樣本實(shí)例3456個,其中OE1級優(yōu)質(zhì)樣本數(shù)有2898條,占比為83%;OE2級次優(yōu)樣本330條,占比為9.5%;OK級合格樣本121條,占比為3.5%;DA級瑕疵品樣本88條,占比為2.5%;DX級廢品樣本19條,占比為0.5%。其中優(yōu)質(zhì)等級占比較大,因此非優(yōu)質(zhì)品的屬性會是重要的分類特征。對應(yīng)的樣本各屬性均在正常范圍內(nèi),每一種檢測屬性均近似正態(tài)分布,對這個數(shù)據(jù)集進(jìn)行特征選擇,通過Ranker特征排序提供的得分觀察每個屬性對于最后質(zhì)量等級結(jié)果的影響。算法上選擇信息增益InfoGain、基尼增益GiniGain、增益比率 GainRatio、對稱不確定性SU、ReliefF算法,涵蓋了以信息、統(tǒng)計、相似性為背景的各算法。

從表1所示各算法得出的特征屬性得分來看,對于規(guī)格為310P2105的輪胎,質(zhì)量問題影響最大的是自身錐向力CON,其次是側(cè)向力積分LFD和半徑變化RRO。后續(xù)的幾個特征在各算法下的得分排名有所差異,但總體均在前10大屬性中出現(xiàn),特征的得分從第10個開始基本只有第1名的1/10。根據(jù)工程上習(xí)慣的大小數(shù)原理,在主要質(zhì)量問題的分析上,忽略排名11開始后續(xù)的屬性。并且事實(shí)上,26個屬性中,大部分的屬性在離散化后表現(xiàn)出了稀疏的特性。

為驗(yàn)證各算法選擇的特征的有效性,對包含不同數(shù)量的特征子集,通過對應(yīng)的分類預(yù)測準(zhǔn)確度進(jìn)行評價。評價時使用SVM[18]和C4.5[19]兩種算法,測試采用十折交叉驗(yàn)證。兩種算法下獲得的結(jié)果如圖2所示。

表1 各特征選擇算法下屬性得分表

圖2 SVM和C4.5下特征子集分類準(zhǔn)確度圖

從圖2中可以看到,在兩種驗(yàn)證算法下,第一特征CON即可使算法CA達(dá)到90%以上,即側(cè)面反映這個因素是非常關(guān)鍵的質(zhì)量因素。當(dāng)特征子集達(dá)到5個時,SU算法下獲得的特征子集的CA已經(jīng)達(dá)到96%以上,所有算法在特征數(shù)達(dá)到9時基本趨于穩(wěn)定,并且再增加屬性也不提升CA,因此這些特征選擇算法是有效的。

將每個屬性在不同特征選擇算法下的得分進(jìn)行歸一化處理(f'=f/∑f),作權(quán)重的分布對比分析。通過對比我們可以發(fā)現(xiàn),GainRatio、InfoGain、GiniGain、SU、ReliefF算法下的屬性得分或?qū)傩耘琶容^接近,除了GiniGain對RRO評分較低,ReliefF對PLY屬性評分稍高,SU認(rèn)為LFD的評分應(yīng)該更低些。整體來看,屬性從DentB開始得分趨近于0,表明后續(xù)屬性對均勻性等級分類作用很小,甚至完全沒有作用。

圖3 各特征選擇算法下特征權(quán)重比較

為評價算法得出的排名和權(quán)重(得分)的實(shí)際物理意義,查閱保存在現(xiàn)場的機(jī)器上的均勻性等級判定規(guī)則以及各屬性單獨(dú)的等級fiG,統(tǒng)計對均勻性等級G的決策影響的因素,即根據(jù)實(shí)際在設(shè)備上的等級判定過程和結(jié)果,統(tǒng)計關(guān)鍵決策所對應(yīng)的fG的次數(shù)。例如在一個樣本上,RRO使該樣本的等級G被判定為DX,則被記一次,即RRO是造成這條胎DX問題的關(guān)鍵質(zhì)量因素。匯總得到表2,并和InfoGain算法下的排名作一個比較。

表2 實(shí)際決策屬性統(tǒng)計與算法得分的比較

可以看到,實(shí)際的均勻性質(zhì)量屬性頻次統(tǒng)計與信息增益算法的排名和權(quán)重非常接近,其中存在的差異是LFD正反轉(zhuǎn)側(cè)向力積分及RRO1H真圓度一次諧波沒有參與等級判定決策,所以沒有在機(jī)器的決策記錄里面出現(xiàn),但信息增益算法表明這三項(xiàng)質(zhì)量屬性是與最終的均勻性等級強(qiáng)相關(guān)的。事實(shí)上,在每種規(guī)格的輪胎均勻性判定規(guī)則中,質(zhì)量管理人員都會按照經(jīng)驗(yàn)或其他因素忽略掉26個檢測值中的某幾個指標(biāo),不放在等級判定規(guī)則中,這種實(shí)踐中忽略某些屬性的做法,在利用去除冗余的特征選擇算法后得到了驗(yàn)證。去冗余驗(yàn)證方法采用LFS+CFS,獲得最小特征子集為 {CON,RFVCW,RRO,LROT,LROB,Bulge T, DentT },這個最小子集在SVM(c=10, g=0.04,ε=0.01)和C4.5算法下,十折交叉驗(yàn)證的分類預(yù)測準(zhǔn)確率CA分別為0.953和0.977,因此,在實(shí)踐中,LFD和RRO1H等屬性作為冗余屬性,在規(guī)則判定中被省略是合理的,可以提高整個均勻性檢驗(yàn)的效率。

4 結(jié) 語

輪胎MES系統(tǒng)提供了理想的均勻性檢測數(shù)據(jù)集。對均勻性檢測數(shù)據(jù)進(jìn)行特征選擇,可以快速篩選出與質(zhì)量相關(guān)的屬性,通過權(quán)重系數(shù)提示某一質(zhì)量屬性所造成的質(zhì)量問題的嚴(yán)重程度,在數(shù)據(jù)歸檔的時候可以剔除稀疏屬性,幫助壓縮數(shù)據(jù)庫,利用特征屬性快速預(yù)測輪胎均勻性等級。用到的算法中,基于信息論的如InfoGain、SU和基于相似度的如ReliefF等算法表現(xiàn)較好,可以在實(shí)踐中繼續(xù)使用。而基于統(tǒng)計的方法在個別屬性的權(quán)重得分表現(xiàn)不夠理想?;谙∈璧姆椒▌t可以在后期予以進(jìn)一步研究。另外,LFS+CFS可以有效找到輪胎均勻性問題的最小特征子集,可以實(shí)現(xiàn)對于質(zhì)量屬性的冗余分析,為簡化現(xiàn)場質(zhì)量分析工作提供了一種依據(jù)。

進(jìn)一步的研究可以考慮完善MES的數(shù)據(jù)倉庫,集成前工段的生產(chǎn)過程信息,進(jìn)行均勻性質(zhì)量屬性與前工段生產(chǎn)過程與狀態(tài)的關(guān)聯(lián)分析,從源頭上發(fā)現(xiàn)造成均勻性質(zhì)量問題的因素,從管理上和技術(shù)上干預(yù)質(zhì)量關(guān)鍵因素,從而改善均勻性質(zhì)量乃至輪胎制造的整體質(zhì)量水平。隨著制造數(shù)據(jù)的進(jìn)一步完備,數(shù)據(jù)挖掘技術(shù)在輪胎制造的MES數(shù)據(jù)環(huán)境下有著廣闊的前景。

參考文獻(xiàn):

[1] Bharati M. Data Mining Techniques and Applications [J]. Indian Journal of Computer Science and Engineering,2010, 1(4): 301-305

[2] Choudhary A K, Harding J A, Tiwari M K. Data Mining in Manufacturing: A Review Based on the Kind of Knowledge[J]. J. Intell. Manuf., 2009(20):501-521.

[3] Rockwell Automation. The Connected Industrial Enterprise White Paper[R/OL].http://literature.rockwellautomation. com/idc/groups/literature/documents/wp/cie-wp001_-en-p.pdf

[4] Joaquin B, Ordieres M. Data Mining in Industrial Process[J]. Engineering Data Mining and Numerical Simulation,2005: 57-66.

[5] Rokach1 L, Maimon O. Data Mining for Improving the Quality of Manufacturing a Feature Set Deomposition Approach[J]. Journal of Intelligent Manufacturing, 2006, 17(3): 285-299.

[6] 孫衛(wèi)祥. 基于數(shù)據(jù)挖掘與信息融合的故障診斷方法研究[D]. 上海: 上海交通大學(xué), 2006.

[7] Rudolf K,Matthias S, Christian M. Data Mining Applications in the Automotive Industry[C].Singapore:4th International Workshop on Reliable Engineering Computing, 2010.

[8] Gunturkun F. A Comprehensive Review of Data Mining Application in Quality Improvement and a Case Study [D]. Ankara: The Graduate School of Natural and Applied Sciences of Middle East Technical University,2007.

[9] Witten L H, Frank E F, Hall M A.數(shù)據(jù)挖掘: 使用機(jī)器學(xué)習(xí)工具與技術(shù)[M]. 北京: 機(jī)械工業(yè)出版社,2014: 4.

[10] 張海燕. 輪胎企業(yè)制造執(zhí)行系統(tǒng)(MES)的研究與應(yīng)用[D]. 青島:青島科技大學(xué),2006.

[11] ANSI ISA 95.01-2000. Enterprise - Control System Integration[S].

[12] Isabelle G, Andre E. An Introduction to Variable and Feature Selection[J]. Journal of Machine Learning Research 2003(3):1157-1182

[13] Mahdokht M, Glenn F, Jennifer G. From Transformation-Based Dimensionality Reduction to Feature Selection[C]. Haifa: The 27th International Conference on Machine Learning, 2010.

[14] 姚旭, 王曉丹, 張玉璽, 權(quán)文. 特征選擇方法綜述[J]. 控制與決策, 2012,27(2): 161-166.

[15] Li J, Cheng K, Wang S, et al. Feature Selection: A Data Perspective[R/OL]. http://arxiv.org/abs/1601.07996. Bibliographic Code: 2016arXiv160107996L. Arizona State University, 2016.

[16] Martin Guetlein, Eibe Frank, Mark Hall, Andreas Karwath. Large Scale Attribute Selection Using Wrappers[C]. Proc IEEE Symposium on Computational Intelligence and Data Mining, 2009: 332-339.

[17] Mark A H. Correlation-Based Feature Selection for Machine Learning[D]. Hamilton:The University of Waikato, 1999.

[18] Chih-Chung Chang, Chih-Jen Lin. LIBSVM: A Library for Support Vector Machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011(2):1-27.

[19] Quinlan J R. C4.5: Programs for Machine Learning[M]. Burlington: Morgan Kaufmann Publishers, 1993.

[責(zé)任編輯:朱 胤]

中圖分類號:TP 274.+2

文獻(xiàn)標(biāo)志碼:A

文章編號:1671-8232(2016)07-0045-07

收稿日期:2016-03-04

作者簡介:張健斌(1981— ),男,碩士研究生,研究方向?yàn)楣I(yè)工程與信息化。

Application of Data Mining in Tire Uniformity

Zhang Jianbin, Zhu Lanjuan
(Department of Automation, Shanghai Jiaotong University, Shanghai 200240, China)

Abstract:MES system could help the tire manufacturer improve their operations, integrate the manufacturing domain data, and could be benefited by data mining technology. Based on the tire uniformity test data extracted from the MES data warehouse, the infuence factors on the tire uniformity attribute were analyzed by feature selection method. The application effects of several kinds of algorithmaccording to information theory, statistics, similarity were compared. The solution of LFS + CFS was applied to eliminate the uniformity attribute redundancy feature. The attributes value went up by dimensionality reduction in the felds of uniformity forcast, archive compression and quality control.

Keywords:Tire Uniformity; MES; Feature Selection; Data Mining; Python Language

猜你喜歡
制造執(zhí)行系統(tǒng)特征選擇數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
淺析MES系統(tǒng)的升級與優(yōu)化
科技傳播(2017年22期)2018-01-10 00:29:07
起重機(jī)端梁生產(chǎn)車間制造執(zhí)行系統(tǒng)分析與規(guī)劃
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
制造執(zhí)行系統(tǒng)MES在水泥行業(yè)中的應(yīng)用
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
河池市| 井冈山市| 绥德县| 达孜县| 玛沁县| 青川县| 兴城市| 海丰县| 环江| 通化县| 慈利县| 曲沃县| 太湖县| 化州市| 太白县| 土默特右旗| 自治县| 平安县| 阜宁县| 宿州市| 东宁县| 朝阳市| 尚义县| 米脂县| 浪卡子县| 新龙县| 柘荣县| 鸡东县| 元江| 大悟县| 东乌珠穆沁旗| 乌拉特前旗| 芒康县| 彭泽县| 丹巴县| 斗六市| 衢州市| 郑州市| 松阳县| 柳河县| 新乐市|