楊正森
(南京財(cái)經(jīng)大學(xué) 工商管理學(xué)院,南京 210046)
智能制造正被吹捧為下一次工業(yè)革命.利用統(tǒng)計(jì)知識(shí)結(jié)合大數(shù)據(jù)機(jī)器學(xué)習(xí)算法預(yù)測(cè)產(chǎn)品故障率,以提高生產(chǎn)力并保持競(jìng)爭(zhēng)力,儼然成為下一步制造業(yè)企業(yè)爭(zhēng)相追逐的目標(biāo).針對(duì)制造業(yè)的生產(chǎn)流水線數(shù)據(jù),建立一個(gè)故障檢測(cè)模型,有利于企業(yè)及時(shí)發(fā)現(xiàn)產(chǎn)品生產(chǎn)過程中的問題并對(duì)其修正,從而實(shí)現(xiàn)更精細(xì)的智能制造過程.目前國(guó)內(nèi)外學(xué)者提出的針對(duì)大數(shù)據(jù)的預(yù)測(cè)方法主要包括神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法[1,2]、基于降維手段的傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測(cè)法[3-6].神經(jīng)網(wǎng)絡(luò)法雖然有很高的精度,但往往算法時(shí)間成本高,可解釋性不強(qiáng),同時(shí)傳統(tǒng)的機(jī)器學(xué)習(xí)算法對(duì)于大規(guī)模數(shù)據(jù)集在節(jié)約內(nèi)存和時(shí)間開銷方面也往往不盡如人意.針對(duì)以上問題,學(xué)者們提出了相應(yīng)的改進(jìn)方法.文獻(xiàn)[7]提出了一種具有動(dòng)態(tài)結(jié)構(gòu)的RBF神經(jīng)網(wǎng)絡(luò),文中方法通過基于神經(jīng)元活動(dòng)性和互信息來在線添加或刪除神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元,以實(shí)現(xiàn)平衡網(wǎng)絡(luò)的復(fù)雜性和整體計(jì)算效率.文獻(xiàn)[8]針對(duì)工業(yè)系統(tǒng)數(shù)據(jù)的預(yù)測(cè)問題,提出了一種能夠并行的基于共享儲(chǔ)備池模塊化的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型.該方法采用K均值聚類方法將樣本數(shù)據(jù)分類并分別建模,在建模過程中提出一種改進(jìn)的回聲狀態(tài)網(wǎng)絡(luò),通過對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行模塊化處理能夠?qū)栴}求解空間分層,相比單一神經(jīng)網(wǎng)絡(luò)具有更好的泛化性能.文獻(xiàn)[9]在對(duì)風(fēng)機(jī)運(yùn)行狀態(tài)數(shù)據(jù)劃分不同時(shí)間窗的基礎(chǔ)上,運(yùn)用LightGBM、XGBoost、ERT模型進(jìn)行嵌套融合,得到混合模型,縮小可疑故障數(shù)據(jù)的范圍,保證較為準(zhǔn)確的情況下基本覆蓋到幾乎全部的故障數(shù)據(jù),并在再次細(xì)分的時(shí)間窗下得到更好的效果.上述改進(jìn)方法存在的一個(gè)共性問題是,真實(shí)工業(yè)環(huán)境下,生產(chǎn)數(shù)據(jù)在流水線上幾乎以秒為單位不斷產(chǎn)出,因此預(yù)測(cè)模型需要不斷迭代以適應(yīng)新的生產(chǎn)狀況,上述方法雖然相比傳統(tǒng)方法在模型的計(jì)算效率和準(zhǔn)確率有了很大提升,但在面對(duì)真實(shí)工業(yè)數(shù)據(jù)時(shí),模型的迭代速度仍然不能滿足企業(yè)需求.針對(duì)該問題,本文提出了一種基于FTRL[10]和XGBoost[11]算法的產(chǎn)品故障預(yù)測(cè)模型,可以在保證預(yù)測(cè)準(zhǔn)確率同時(shí),加速模型的迭代速度,本文將其應(yīng)用于真實(shí)的制造業(yè)數(shù)據(jù),取得了令人滿意的效果.
本文使用的數(shù)據(jù)來自德國(guó)的工業(yè)企業(yè)博世公司發(fā)布的一份規(guī)模龐大(14.3 GB)的匿名數(shù)據(jù)集,這份數(shù)據(jù)集由百萬條生產(chǎn)流水線記錄組成,每條記錄都測(cè)量了產(chǎn)品在生產(chǎn)流水線不同部分的相關(guān)信息,博世公司希望各界學(xué)者挑戰(zhàn)預(yù)測(cè)產(chǎn)品故障這一難題,從而使博世能夠以最低的成本為最終用戶帶來優(yōu)質(zhì)的產(chǎn)品.該數(shù)據(jù)集包含三種類型的特征:數(shù)值型特征968個(gè),分類型特征2140個(gè),時(shí)間序列特征1156個(gè)以及預(yù)測(cè)標(biāo)簽.其中訓(xùn)練數(shù)據(jù)含有1184 687個(gè)樣本(其中包括1176 868個(gè)正樣本,6879個(gè)負(fù)樣本),用于衡量模型性能的測(cè)試數(shù)據(jù)含有 1182748個(gè)樣本.針對(duì)如此龐大規(guī)模的數(shù)據(jù)集,如何才能將其有效利用并建立預(yù)測(cè)模型,確實(shí)是一個(gè)不小的挑戰(zhàn).
數(shù)值型特征的命名方式包含了與生產(chǎn)記錄有關(guān)的工作站,生產(chǎn)線和測(cè)量值信息.例如,生產(chǎn)記錄名L3_S50_F4243的特征表示某部件的生產(chǎn)流程通過生為產(chǎn)線3,工作站50(每個(gè)工作站所屬的生產(chǎn)線唯一),并且特征值對(duì)應(yīng)的測(cè)量方式編號(hào)為4243.為了直觀了解工廠的運(yùn)作方式,筆者利用數(shù)值特征,構(gòu)造了如圖1所示的工廠生產(chǎn)流水線框架圖(數(shù)字代表對(duì)應(yīng)的工作站臺(tái)),其中共含有8197條唯一的生產(chǎn)路徑.
圖1 工廠生產(chǎn)流水線框架
通常來講,相似的產(chǎn)品類型在不同的生產(chǎn)線上往往具有相近的生產(chǎn)時(shí)間,為了有效區(qū)分不同類型的產(chǎn)品,本文手動(dòng)構(gòu)建了一類時(shí)間差特征,來衡量產(chǎn)品在每條生產(chǎn)線上的流通時(shí)間,下文將這類特征統(tǒng)一稱作time_diff特征.
原始數(shù)據(jù)集除去空值特征后類別型特征共有1990個(gè).針對(duì)分類型特征,一個(gè)經(jīng)典的處理方式是通過one-hot編碼.由于數(shù)據(jù)集的分類型特征本身數(shù)量就非常多,再進(jìn)行one-hot編碼處理會(huì)使得特征量爆炸式增長(zhǎng),加上數(shù)據(jù)集的樣本量又非常大,這就使得傳統(tǒng)的機(jī)器學(xué)習(xí)算法很難再針對(duì)所有特征去擬合一個(gè)學(xué)習(xí)模型.因此下文筆者會(huì)針對(duì)該問題提出相應(yīng)的解決辦法.
時(shí)間序列特征名稱由生產(chǎn)線、站臺(tái)、日期三部分組成.例如,對(duì)于時(shí)間序列特征 L3_S50_D4242,其表明當(dāng)產(chǎn)品通過生產(chǎn)線3,工作站臺(tái)50,并且數(shù)值特征(或分類特征)的測(cè)量方式id為4241時(shí)所發(fā)生的具體時(shí)間.為了弄清楚時(shí)間序列值的具體含義,筆者將時(shí)間滯后差作為x軸,對(duì)應(yīng)的自相關(guān)系數(shù)作為y軸,建立如圖2所示的關(guān)系圖.我們可以發(fā)現(xiàn)時(shí)間序列特征一個(gè)周期的區(qū)間跨度為16.75,每個(gè)周期存在7個(gè)局部峰值,據(jù)此筆者推斷一個(gè)周期為一個(gè)星期.也就是說,1周對(duì)應(yīng)的時(shí)間序列特征值為16.75,至少每六分鐘(0.01)生成一個(gè)產(chǎn)品記錄.因此原始數(shù)據(jù)集記錄了102.6周(約兩年多)的生產(chǎn)記錄.
圖2 不同滯后區(qū)間下的自相關(guān)系數(shù)
總結(jié)該數(shù)據(jù)集,其具有樣本量大,特征量大且類型多樣,時(shí)間跨度大,正負(fù)樣本不平衡的特點(diǎn),并且數(shù)據(jù)集的樣本以流的形式不斷獲取.筆者從以下角度出發(fā),最終決定采用本文的故障預(yù)測(cè)框架:首先,由于數(shù)據(jù)樣本量和特征量都很龐大,這就要求模型的數(shù)量盡可能少而精,其次,樣本中分類特征與傳統(tǒng)工業(yè)數(shù)據(jù)相比,量級(jí)顯然多很多,為了兼顧計(jì)算效率和模型的性能,本文創(chuàng)造性將其類比為一個(gè)點(diǎn)擊率預(yù)估的建模問題,采取典型的FTRL點(diǎn)擊率預(yù)估模型來對(duì)待分類特征,最終,進(jìn)一步地,本文在建模時(shí)沒有采取傳統(tǒng)的模型融合策略,而是利用FTRL模型將分類特征轉(zhuǎn)化為一列特征放進(jìn)XGBoost中訓(xùn)練,這么做既通過降低建模的復(fù)雜度來保證了模型的迭代速度,又間接利用了模型融合的思想,保證了模型的精確度.
一直以來,利用在線學(xué)習(xí) (Online learning)[12]算法優(yōu)化的廣義線性模型 (Logistic Regression,LR)被廣泛應(yīng)用于大規(guī)模機(jī)器學(xué)習(xí)問題中.在線學(xué)習(xí)算法以數(shù)據(jù)流的形式從硬盤中讀取文件,每個(gè)訓(xùn)練樣本只需考慮一次,即通過在線梯度下降 (Online Gradient Descent,OGD)的方法來優(yōu)化損失函數(shù),這種方法能夠高效地訓(xùn)練大數(shù)據(jù)集.OGD算法在實(shí)踐中已被證明能夠有效地解決大規(guī)模機(jī)器學(xué)習(xí)問題,其能夠在最小化所耗計(jì)算資源的同時(shí)提供不錯(cuò)的預(yù)測(cè)精度.然而OGD算法對(duì)于產(chǎn)生稀疏模型并不太盡如人意.模型的稀疏化指的是實(shí)踐過程中我們希望通過減少權(quán)重向量的非零解來去除冗余變量,只保留與預(yù)測(cè)變量最相關(guān)的解釋變量.實(shí)現(xiàn)該目的往往通過向目標(biāo)損失函數(shù)中加入L1范數(shù),這里L(fēng)1范數(shù)是指特征權(quán)重向量中各個(gè)元素的絕對(duì)值之和,它在零處不可微,因此當(dāng)最小化損失函數(shù)后得到的最優(yōu)解會(huì)使權(quán)重向量的大部分元素變?yōu)榱?剩下的較大的權(quán)重向量值對(duì)應(yīng)的特征往往是與目標(biāo)向量最相關(guān)的特征.從本文的故障預(yù)測(cè)角度來看,雖然特征有近千維,但能夠持續(xù)穩(wěn)定預(yù)測(cè)故障是否發(fā)生的特征通常不過幾百維度,其他特征往往是導(dǎo)致當(dāng)下發(fā)生故障的隨機(jī)因素,當(dāng)面對(duì)未來發(fā)生的故障時(shí)不起任何預(yù)警作用,引入L1范數(shù)能夠?qū)W習(xí)地去掉這些沒有信息的特征,也就是把這些特征對(duì)應(yīng)的權(quán)重置為零.因此這種方法能夠有效降低模型復(fù)雜度,提高泛化性,同時(shí)也保留了與目標(biāo)變量最相關(guān)的解釋變量.
FTRL最初由Google的H.Brendan McMahan于2010年提出,近年來國(guó)內(nèi)外各大企業(yè)將其應(yīng)用于自身行業(yè)的相關(guān)業(yè)務(wù),都取得了很好的效果.FTRL與以往在線算法不同,其對(duì)特征權(quán)重每一維分量采取不同的更新方式,假設(shè)給定損失函數(shù)對(duì)特征權(quán)重第i維的梯度向量為wi,那么其更新公式為:
其中,σ(s)是一個(gè)和學(xué)習(xí)率(即迭代步長(zhǎng))i相關(guān)的參數(shù),gi為損失函數(shù)對(duì)第i維特征權(quán)重的梯度向量,α和β為超參數(shù),實(shí)驗(yàn)部分會(huì)說明超參數(shù)的選擇方式.λ1>0,λ2>0分別為L(zhǎng)1、L2正則化系數(shù).根據(jù)公式我們可以發(fā)現(xiàn),該優(yōu)化函數(shù)保證了新產(chǎn)生的權(quán)重與歷史權(quán)重不偏離太遠(yuǎn),同時(shí)利用L1正則進(jìn)行稀疏性約束以及利用L2正則使解變得“平滑”從而來防止過擬合.FTRL對(duì)于特征權(quán)重的不同分量采取不同的更新策略,在OGD算法的基礎(chǔ)上進(jìn)一步加速了算法迭代過程.實(shí)踐表明結(jié)合了FTRL的LR算法相比傳統(tǒng)的二分類算法,在模型的效率,精度,泛化性等各方面都得到了質(zhì)的提升.
由于本文采用的數(shù)據(jù)集是在制造業(yè)企業(yè)的生產(chǎn)線上以流形式不斷獲取的,而one-hot編碼后的類別特征又非常稀疏,因此對(duì)其建立FTRL-LR模型.
XGBoost全稱為 eXtreme Gradient Boosting,是GBDT (Gradient BoostingDecision Tree)算法的一種,顧名思義,其思想主要由兩部分組成:Decison Tree[13](決策樹)算法和 Gradient Boosting[14](梯度提升)算法.
XGBoost計(jì)算效率高,泛化能力強(qiáng),并且可以大大降低人工特征工程的工作量,因此將其作為最終的預(yù)測(cè)模型.XGBoost相對(duì)于 GBDT 的算法步驟,主要的改變是對(duì)損失函數(shù)生成二階泰勒展開,并在代價(jià)函數(shù)里加入了正則項(xiàng),用于控制模型的復(fù)雜度.正則項(xiàng)里包含了樹的葉子節(jié)點(diǎn)個(gè)數(shù)、每個(gè)葉子節(jié)點(diǎn)上輸出的權(quán)重得分的平方和.從平衡偏差方差的角度來講,正則項(xiàng)降低了模型的方差,使學(xué)習(xí)出來的模型更加簡(jiǎn)單和穩(wěn)健,防止過擬合,這是XGBoost優(yōu)于傳統(tǒng)GBDT的特性之一.在工程實(shí)現(xiàn)方面,XGBoost工具支持并行,其并行不是樹粒度層面上的,而是在特征粒度層面上的.眾所周知,決策樹學(xué)習(xí)最耗時(shí)的一個(gè)步驟就是根據(jù)特征的值對(duì)訓(xùn)練樣本進(jìn)行排序以確定最佳分割點(diǎn),而XGBoost在訓(xùn)練之前,預(yù)先對(duì)數(shù)據(jù)進(jìn)行了排序,然后保存為block(塊)結(jié)構(gòu),后面的迭代中重復(fù)地使用這個(gè)結(jié)構(gòu),大大減小了計(jì)算量.這個(gè)block結(jié)構(gòu)也使得并行成為了可能,在進(jìn)行節(jié)點(diǎn)的分裂時(shí),需要計(jì)算每個(gè)特征的增益,即用貪心法枚舉所有可能的分割點(diǎn),最終選增益最大的那個(gè)特征去做分裂,那么各個(gè)特征的增益計(jì)算就可以開多線程進(jìn)行.XGBoost算法的主要步驟為:
(1)構(gòu)造目標(biāo)損失函數(shù):
XGBoost在目標(biāo)函數(shù)中加上了正則化項(xiàng),基學(xué)器為CART(決策樹的一種)時(shí),正則化項(xiàng)與樹的葉子節(jié)點(diǎn)的數(shù)量T以及葉子節(jié)點(diǎn)的值有關(guān).
(2)訓(xùn)練目標(biāo)函數(shù),將第t次的loss二次泰勒展開并掉常數(shù)項(xiàng).
(3)求出目標(biāo)函數(shù)最優(yōu)解:
本文采用的是XGBoost的Python版本,其中重點(diǎn)關(guān)注的幾個(gè)超參數(shù)包括:
(1)Learning_rate:學(xué)習(xí)率.設(shè)置地相對(duì)小些可以讓模型學(xué)的更加精確.
(2)n_estimators:提升階段樹的最大迭代輪數(shù).這一參數(shù)和往往和學(xué)習(xí)率一起結(jié)合early_stopping_rouds參數(shù)使用,用來防止過擬合.
(3)early_stopping_rounds:當(dāng)模型在指定驗(yàn)證集上的表現(xiàn)不再提升時(shí),停止迭代.
(4)max_depth:每顆決策樹的最大深度.這一參數(shù)限制了樹中的最多節(jié)點(diǎn)數(shù).值越小模型越保守.
(5)nthreads:并行訓(xùn)練的最大進(jìn)程數(shù).-1 代表無限制.
(6)min_child_weight:進(jìn)一步分裂一個(gè)子節(jié)點(diǎn)的最小Hessian和.
針對(duì)前文數(shù)據(jù)分析過程中提到的問題,為了保證模型預(yù)測(cè)性能良好的同時(shí)又兼顧模型迭代速度和節(jié)約內(nèi)存,筆者決定采用分而治之的思想,對(duì)類別特征建立利用FTRL算法優(yōu)化的Logistic Regression模型(以下簡(jiǎn)稱 FTRL-LR),并利用 out-fold prediction (stacking 方法的本質(zhì)思想)[15]方法生成新特征.如此做的合理性有二,一是減少冗余的同時(shí)最大化分類特征信息,out-fod prediction生成的特征其實(shí)是一種滯后特征,它從分類特征中的學(xué)到最有用的信息并以單個(gè)特征儲(chǔ)存起來,可以去除特征中的隨機(jī)噪聲,提高了模型的魯棒性,二是間接達(dá)到模型集成的效果,如果將原始所有分類特征用XGBoost訓(xùn)練,那么不僅增加了模型的復(fù)雜度,而且也沒有利用到模型集成的優(yōu)勢(shì),也就是會(huì)忽略FTRL模型學(xué)習(xí)到的信息.
接下來將該特征和數(shù)值特征,時(shí)間序列特征以及人工特征一起建立XGBoost模型.利用XGBoost算法建立預(yù)測(cè)模型包含兩個(gè)階段.第一個(gè)階段是特征選擇階段,當(dāng)XGBoost建模完成后,會(huì)返回一個(gè)特征重要性結(jié)果.XGBoost通過統(tǒng)計(jì)特征在每棵決策樹中被用來劃分?jǐn)?shù)據(jù)的次數(shù),并用每次劃分所帶來的訓(xùn)練損失減益來對(duì)特征劃分次數(shù)進(jìn)行加權(quán)求和,最后再對(duì)所有樹求平均得到特征重要性.針對(duì)除類別特征外的所有特征(包括手工構(gòu)建的time_diff類特征)利用XGBoost進(jìn)行特征選擇,選取特征重要性TOP200的特征,再和之前通過類別特征得到的一列數(shù)值特征一起作為最終XGBoost的建模特征.
對(duì)于模型的超參數(shù)選擇,本文采取貝葉斯最優(yōu)化來獲得.貝葉斯優(yōu)化用于機(jī)器學(xué)習(xí)調(diào)參由Snoek[16]提出,其主要思想是,給定優(yōu)化的目標(biāo)函數(shù)(本文優(yōu)化的目標(biāo)函數(shù)為訓(xùn)練集三折交叉驗(yàn)證的MCC得分),通過不斷地添加樣本點(diǎn)來更新目標(biāo)函數(shù)的后驗(yàn)分布(高斯過程),直到后驗(yàn)分布基本貼合于真實(shí)分布.這種方法的優(yōu)勢(shì)包括由于其采用高斯過程,考慮之前的參數(shù)信息,不斷地更新先驗(yàn),這使得參迭選擇的代次數(shù)少,速度快,而且貝葉斯調(diào)參針對(duì)非凸問題依然穩(wěn)健,不容易陷入局部最優(yōu).
最終對(duì)于FTRL-RL模型,超參數(shù)設(shè)置分別為α=0.3284,β=0.6725,L1=5.698,L2=0.2587.對(duì)于預(yù)測(cè)階段的XGBoost模型超參數(shù)設(shè)置分別為learning_rate=0.05,max_depth=6,min_child_weight=1,n_estimators=1000,nthread=-1,early_stopping_rounds=50.
MCC (Matthews Correlation Coefficient)[17]即馬修斯相關(guān)系數(shù)通常作為二分類問題的一個(gè)評(píng)價(jià)指標(biāo).二分類問題的預(yù)測(cè)結(jié)果中包含四種類型的樣本,分別是被模型分類正確的正樣本、被模型分類錯(cuò)誤的正樣本、被模型分類錯(cuò)誤的負(fù)樣本和被模型分類正確的負(fù)樣本,分別表示為TP、FN、FP和TN.MCC指標(biāo)的計(jì)算公式為:
該指標(biāo)綜合考慮了真陽(yáng)性、真陰性和假陽(yáng)性和假陰性,是一個(gè)比較均衡的指標(biāo),即使是在正負(fù)樣本量差別很大時(shí),也能起到很好的衡量效果.由于本實(shí)驗(yàn)的數(shù)據(jù)集正負(fù)樣本很不平衡,因此選用MCC作為我們的評(píng)價(jià)指標(biāo).由于最終預(yù)測(cè)模型的輸出結(jié)果為概率形式(產(chǎn)品發(fā)生故障的概率),因此為了得到最優(yōu)MCC值對(duì)應(yīng)的分類概率閾值,筆者通過計(jì)算不同閾值下訓(xùn)練集的三折交叉驗(yàn)證MCC得分,作出如圖3的關(guān)系曲線.我們可以發(fā)現(xiàn)最優(yōu)閾值0.2(比正常閾值選擇0.5低很多),對(duì)應(yīng)的訓(xùn)練集三折交叉驗(yàn)證MCC得分為0.25.
圖3 不同閾值下訓(xùn)練集的三折交叉驗(yàn)證MCC得分
本文的所有實(shí)驗(yàn)(特征可視化,模型建立與衡量)都是在谷歌云實(shí)例上運(yùn)行,其環(huán)境配置為Ubuntu 16.04,8 個(gè) vCPU,52 GB 內(nèi)存,編程語(yǔ)言為 Python.若需實(shí)驗(yàn)代碼,可向筆者索取.
表1為不同學(xué)習(xí)框架效果對(duì)比.通過對(duì)比可以發(fā)現(xiàn)FTRL和XGBoost相結(jié)合的預(yù)測(cè)框架預(yù)測(cè)效果最好.同時(shí)該預(yù)測(cè)框架也具有較好的可解釋性,最終XGBoost預(yù)測(cè)模型得出的重要特征包括生產(chǎn)線末期階段的一些特征,區(qū)分不同產(chǎn)品類型的時(shí)間差特征,由類別特征得到的數(shù)值特征.根據(jù)以上結(jié)果筆者推斷,不同的產(chǎn)品類型往往具有不同的故障發(fā)生率,一些需要更復(fù)雜的制造階段,生產(chǎn)更耗時(shí)的產(chǎn)品也通常更容易發(fā)生故障.
表1 不同學(xué)習(xí)框架效果對(duì)比
大數(shù)據(jù)時(shí)代,制造業(yè)已經(jīng)進(jìn)入了生產(chǎn)智能化的發(fā)展階段,充分利用生產(chǎn)流水線上輸出的大數(shù)據(jù)加速這一進(jìn)程變得至關(guān)重要.本文將FTRL-LR模型和XGBoost模型結(jié)合起來,充分利用各自的優(yōu)勢(shì),建立了一個(gè)產(chǎn)品故障預(yù)測(cè)模型.實(shí)驗(yàn)結(jié)果表明,此模型相比傳統(tǒng)的預(yù)測(cè)模型,具有預(yù)測(cè)精度高,泛化能力強(qiáng),計(jì)算效率高,內(nèi)存耗用低,可解釋性強(qiáng)的優(yōu)勢(shì).基于該模型,制造業(yè)可以提前預(yù)測(cè)產(chǎn)品生產(chǎn)過程中可能發(fā)生的故障,并對(duì)其及時(shí)進(jìn)行修正.這種方法可以有效降低企業(yè)的生產(chǎn)成本和時(shí)間成本,實(shí)現(xiàn)更智能化的工廠作業(yè)流程.進(jìn)一步地,由于原始數(shù)據(jù)集涉及大量不同類型的產(chǎn)品生產(chǎn),因此筆者發(fā)現(xiàn)還可以利用層次聚類的方法對(duì)不同的產(chǎn)品類型分別建模(在保障時(shí)間成本的前提下),實(shí)現(xiàn)更精細(xì)化的預(yù)測(cè)框架,所以未來本文的方法還有很大的提升空間.