肖 暢,呂立華
(寶山鋼鐵股份有限公司中央研究院,上海 201999)
鋼鐵產(chǎn)品在煉鋼連鑄到加熱爐再到熱軋、冷軋等一系列生產(chǎn)過程中,經(jīng)歷了復(fù)雜的物理化學(xué)變化,在全流程生產(chǎn)中,各個工序積累了大量的高頻生產(chǎn)數(shù)據(jù)以及對應(yīng)的產(chǎn)品質(zhì)量數(shù)據(jù)信息,這些數(shù)據(jù)信息具有量大、維數(shù)高、信息冗余、信息缺失、類別不平衡等特點[1-3]。在海量的生產(chǎn)信息中往往蘊含著產(chǎn)品質(zhì)量的關(guān)鍵特征,這些特征信息的有效挖掘與應(yīng)用,可以極大提高產(chǎn)品的質(zhì)量與生產(chǎn)的降本。北京科技大學(xué)的呂志民等提出了一種統(tǒng)一架構(gòu)的冶金全流程工藝質(zhì)量在線和離線分析診斷系統(tǒng)解決方案,利用傳統(tǒng)統(tǒng)計模型建立了工藝質(zhì)量預(yù)警與在線判定系統(tǒng),為冷軋領(lǐng)域全流程質(zhì)量追溯和分析提供了統(tǒng)一的平臺[4]。通過數(shù)據(jù)科學(xué)獲得的結(jié)論往往需要結(jié)合鋼鐵物理冶金學(xué)知識進行判斷與指導(dǎo),通過物理冶金原理與機器學(xué)習(xí)模型相耦合對鋼鐵流程數(shù)據(jù)進行知識蒸餾,是鋼鐵行業(yè)數(shù)據(jù)分析與挖掘應(yīng)該注意的地方。東北大學(xué)徐偉從物理冶金學(xué)與機器學(xué)習(xí)算法融合的角度出發(fā),提出了以物理冶金學(xué)為指導(dǎo)的機器學(xué)習(xí)方法,設(shè)計出了新型超高強不銹鋼[5]。
目前在鋼鐵生產(chǎn)流程中普遍缺乏一套整體的基于機器學(xué)習(xí)的分析框架,從數(shù)據(jù)層的多源異構(gòu)數(shù)據(jù)搜集與治理到模型層的各模型庫的綜合開發(fā)與調(diào)用,各個模塊常常處于獨立開發(fā)與分析的情況,因此出現(xiàn)了數(shù)據(jù)孤島、關(guān)鍵模型黑箱等問題[6-8]。本文通過實際生產(chǎn)的海量數(shù)據(jù)與產(chǎn)品質(zhì)量問題解決方案的積累,針對全流程數(shù)據(jù)分析方法與思想進行梳理、研發(fā)全棧式機器學(xué)習(xí)平臺與模型,形成了一套具有魯棒性和高精度的鋼鐵生產(chǎn)全流程多源異構(gòu)數(shù)據(jù)分析框架。本文的全棧式機器學(xué)習(xí)平臺與模型在長型材領(lǐng)域、連鑄領(lǐng)域、冷軋領(lǐng)域具有廣泛的應(yīng)用并取得了較好的效果,通過對生產(chǎn)數(shù)據(jù)進行搜集整理與特征工程,應(yīng)用平臺中的算法庫解決了線材生產(chǎn)中橢圓度超差的質(zhì)量問題與連鑄過程夾渣的質(zhì)量問題以及冷軋領(lǐng)域的帶鋼跑偏問題。系統(tǒng)功能架構(gòu)圖如圖1所示。
圖1 系統(tǒng)功能架構(gòu)圖
鋼鐵流程生產(chǎn)過程中產(chǎn)生海量高頻數(shù)據(jù),同時對應(yīng)的產(chǎn)品信息、質(zhì)量信息、設(shè)備相關(guān)信息屬于低頻數(shù)據(jù)。鋼鐵全流程的工序較多,工藝復(fù)雜,涉及到數(shù)量眾多的設(shè)備和傳感器,受限于各種類型設(shè)備自身所特有的以及限定的數(shù)據(jù)格式與采集方式,傳輸類型不同,因此雖然鋼鐵流程生產(chǎn)過程緊密銜接,但是往往由于數(shù)據(jù)格式不統(tǒng)一,頻率各異導(dǎo)致了“數(shù)據(jù)孤島”的形成。全棧式機器學(xué)習(xí)具有平臺支撐能力,從數(shù)據(jù)獲取、清洗到模型建立、結(jié)果可視化的全棧式服務(wù)使得數(shù)據(jù)孤島能夠有效地被擊穿。
全棧式機器學(xué)習(xí)平臺的數(shù)據(jù)層應(yīng)該具有多數(shù)據(jù)源兼容功能,包括主流關(guān)系型與非關(guān)系型數(shù)據(jù)庫等,適配完善的api接口,支撐數(shù)據(jù)交互。除此之外平臺還應(yīng)具有完善的數(shù)據(jù)清洗、管理、校驗等功能,包括支持字段映射、合并、拆分功能。
鋼鐵流程產(chǎn)生大量的時序數(shù)據(jù),這些數(shù)據(jù)往往是高頻采集信息,此類信息具有量大的特點,因此傳統(tǒng)關(guān)系型數(shù)據(jù)庫并不適合,往往挑選具有分布式存儲功能的非關(guān)系型數(shù)據(jù)庫,以及一些介于關(guān)系型與非關(guān)系型數(shù)據(jù)之間的數(shù)據(jù)庫,例如MongoDB、BerkeleyDB、Redis等。標簽信息、離散值信息等低頻數(shù)據(jù)常常存儲于MySQL、SQL sever等關(guān)系型數(shù)據(jù)庫中[9-11]。
由于產(chǎn)品質(zhì)量異常并非連續(xù)的大面積的發(fā)生,因此在分析質(zhì)量問題、異常溯因時往往面臨異常標簽數(shù)過少、類別不均衡的問題。在處理這類數(shù)據(jù)時,傳統(tǒng)的機器學(xué)習(xí)在進行分類判別時總會傾向于多數(shù)類,而忽略少數(shù)類,由此導(dǎo)致機器學(xué)習(xí)效果大打折扣,使得整體性能惡化。目前針對不平衡數(shù)據(jù)集常常采取SMOTE 和 ADASYN(Adaptive Synthetic Sampling Approach)等過采樣方法提高模型精度。
SMOTE算法通過線性插值,對鄰域內(nèi)樣本進行處理從而生成標的樣本。具體地,針對實際問題中的少數(shù)類樣本xk使用k近鄰法,計算出距離xk最近的k個少數(shù)類樣本[12]。計算距離的定義為少數(shù)類樣本之間n維特征空間的歐氏距離。然后隨機地從k個近鄰點中進行挑選,根據(jù)公式(1)對樣本進行生成操作:
(1)
ADASYN算法是自適應(yīng)綜合過采樣算法。該方法是通過對目標樣本進行概率分布進行學(xué)習(xí),通過自適應(yīng)合成標的樣本來減少樣本的不平衡度[13]。算法流程如下:
鋼鐵全流程生產(chǎn)具有高維度的參數(shù)空間,在進行模型訓(xùn)練時,對變量進行挑選與降維十分必要。生產(chǎn)過程由于控制需求產(chǎn)生了大量的參數(shù)值,這些參數(shù)值往往具有冗余性和無效性與稀疏性,在進行變量挑選時,如果只依靠數(shù)據(jù)本身的特點來進行挑選,往往選出來的變量與生產(chǎn)實際中的物理常識有所違背,因此在進行變量挑選時,應(yīng)該考慮數(shù)據(jù)的物理冶金學(xué)背景,在應(yīng)用數(shù)學(xué)手段進行變換挑選后進行挑選與整理,并以此對模型參數(shù)進行調(diào)整,使得模型使用的變量最大程度地表征出整體數(shù)據(jù)中所蘊涵的規(guī)律與特征[14]。
實踐中應(yīng)用效果較好的變量選擇方法有相關(guān)系數(shù)、最大相關(guān)最小冗余等方法。通過特征工程變量挑選結(jié)合物理冶金知識,挑選出的變量具有最大表征能力。相關(guān)系數(shù)法具有簡單易用的特點,但是對于非線性關(guān)系,其表征能力就受到限制。最大相關(guān)最小冗余算法(mRMR)通過對候選變量進行重要性排序,實現(xiàn)冗余特征剔除,具有較好的魯棒性[15]。
變量挑選后,獲得重要性較高的變量集合,這些變量集合代表了影響產(chǎn)品質(zhì)量的貢獻度較高的操作參數(shù)集合。針對挑選后的變量空間,往往需要做進一步降維處理來提高數(shù)據(jù)的分類程度,工業(yè)生產(chǎn)中經(jīng)常用到的方法有主成分分析(Principal Component Analysis)和Fisher線性判別(Fisher Linear Discriminant)等降維技術(shù)[16]。在鋼鐵流程生產(chǎn)中的質(zhì)量問題一般都是具有標簽值,因此有監(jiān)督的Fisher線性判別法的應(yīng)用效果更好。mRMR和Fisher線性判別法的算法介紹如下。
mRMR算法流程[17]:假設(shè)S為已選取的特征變量集合,該算法中集合S中所有特征的冗余是特征xi和xj之間所有互信息值的平均值,定義為式(2):
(2)
式中:I(xi;xj)表示xi和xj之間的互信息量;xi和xj表示不同特征;|S|表示集合的特征變量個數(shù)。
特征集S與類c的相關(guān)性由各個特征xi和類c之間的所有互信息值的平均值定義,相關(guān)性定義如式(3):
(3)
式中:c為標簽,結(jié)合冗余度公式和相關(guān)性公式,得出算法的評價函數(shù)Φ(D,R),定義為式(4):
(4)
具體計算如式(5):
(5)
在實踐中,用增量搜索方法求解Φ(D,R)。假設(shè)我們已有特征集Sm-1,我們的任務(wù)就是從剩下的特征X-Sm-1中找到第m個特征,通過選擇特征使得Φ(D,R)最大。增量算法公式如式(6):
(6)
Fisher判別分析(FDA)算法流程[18]:假設(shè)存在X∈n·m,這些數(shù)據(jù)集被分成k類,ni代表第i類的樣本點個數(shù)。類內(nèi)協(xié)方差矩陣(Swithin)以及類間協(xié)方差矩陣(Sbetween)的定義見式(7)、(8):
(7)
(8)
FDA算法優(yōu)化的目標函數(shù)J的形式如式(9),尋找投影向量w使得J最大:
(9)
主要目的就是求解滿足上面目標函數(shù)的彼此正交的向量解,把這些向量按照能夠使樣本類內(nèi)方差最小、類間方差最大的原則從大到小排列好,組成一個向量集,即第二個 FDA 向量與第一個 FDA 向量正交,兩個向量按照類內(nèi)方差最小、類間方差最大的原則從大到小排序,第一個FDA向量在第二個FDA向量前面,其余的FDA 向量以此類推。于是滿足條件的FDA向量就等于求解以下廣義特征值問題的特征向量w,見式(10)。
λSwithinw=Sbetweenw
(10)
當(dāng)求解出投影矩陣W以后,通過式(11)可以將高維數(shù)據(jù)轉(zhuǎn)換到低維空間:
H=XW
(11)
工業(yè)生產(chǎn)中由于數(shù)據(jù)較為全面,質(zhì)量問題具有標簽,因此大部分問題都屬于分類問題。分類算法中工業(yè)較為常用的算法有SVM、隨機森林、XGBOOST等。本文限于篇幅限制僅對常用的XGBOOST模型機型進行介紹。
XGBOOST的全稱是eXtreme Gradient Boosting,該方法是在GBDT的基礎(chǔ)上對Boosting算法進行改進的,基學(xué)習(xí)器采取決策樹模型。Boosting是一種有效的集成學(xué)習(xí)方法,可將弱分類器轉(zhuǎn)化為強分類器[19]。
XGBOOST的算法思想是通過特征分裂來生長一棵樹,每次添加的樹是學(xué)習(xí)一個函數(shù)來擬合前一次的預(yù)測殘差,樣本特征在每棵樹中會落到對應(yīng)的一個葉子節(jié)點,一個節(jié)點有一個分數(shù),最后將每棵樹的對應(yīng)得分相加就是該樣本變量選擇的結(jié)果。
算法步驟:
假設(shè)模型有k個決策樹,即式(12):
(12)
(13)
(14)
Boosting Tree模型采用加法模型與前向分步算法,開始于一個常數(shù)預(yù)測,每次增加的一個新函數(shù)學(xué)習(xí)當(dāng)前的樹,去擬合上一次模型擬合后產(chǎn)生的殘差。
對損失函數(shù)進行二階泰勒近似展開,式(15):
(15)
式中:gi和hi分別是一階和二階梯度統(tǒng)計。通過這種近似,就可以自定義損失函數(shù),對式(15)進行常數(shù)項的移除,再將Ij={i|q(xi)=j}定義為葉子節(jié)點j中的樣本集合,通過擴展懲罰項Ω(ft)重寫目標函數(shù)如式(16):
(16)
(17)
GBDT采用的是分割標準最小化均方差,XGBOOST在此基礎(chǔ)上進行了改進,采用的是從單個葉子節(jié)點開始,迭代地向樹添加分支的貪心算法。假設(shè)IL和IR是分割后左右節(jié)點的集合,最終得到的分割后損失減少如式(18):
(18)
鋼鐵生產(chǎn)的各個工序中存在著產(chǎn)品的各種質(zhì)量異常,針對產(chǎn)品質(zhì)量異常溯因與管控,利用物理冶金學(xué)知識進行處理往往需要設(shè)計較為復(fù)雜的實驗,追溯周期長,管控精度往往不能得到保證。基于數(shù)據(jù)驅(qū)動的質(zhì)量監(jiān)控與溯源能夠提高效率與精度,結(jié)合物理冶金學(xué)知識進行把控,能夠快速準確地定位異常原因并使得模型與結(jié)果具有可解釋性。
在長型材領(lǐng)域,線材產(chǎn)品的應(yīng)用廣泛,且作為國家國民經(jīng)濟建設(shè)的重要支柱性產(chǎn)品,產(chǎn)量多,技術(shù)含量高。線材產(chǎn)品的特點是生產(chǎn)速度高、變形劇烈,往往在產(chǎn)成品中存在著結(jié)巴、耳子、裂紋、橢圓度超差等缺陷。由于產(chǎn)線流程工藝復(fù)雜,利用機理模型解釋往往精度不高,同時產(chǎn)線設(shè)備眾多,影響產(chǎn)品質(zhì)量的因素眾多,同時由于生產(chǎn)速度快,往往在產(chǎn)成品端才發(fā)現(xiàn)質(zhì)量問題,因此質(zhì)量溯原困難[20-22]。
高速線材生產(chǎn)線具有數(shù)據(jù)采用點密集的特點,各種高頻數(shù)據(jù)與特征數(shù)據(jù)都可以實時采集,具有典型的大數(shù)據(jù)支撐能力,因此本文基于全棧式機器學(xué)習(xí),利用數(shù)據(jù)驅(qū)動,對質(zhì)量問題進行溯源與監(jiān)控?;跀?shù)據(jù)與物理冶金學(xué)的融合驅(qū)動,對高速線材產(chǎn)線中典型的質(zhì)量問題進行分析。
試驗數(shù)據(jù)來自線材廠實際生產(chǎn)數(shù)據(jù),選擇2020年全年數(shù)據(jù)進行訓(xùn)練和測試。高線生產(chǎn)產(chǎn)線流程較長,分為粗軋機組、中軋機組、預(yù)精軋機組、精軋機組、減定徑機組、斯泰爾摩等各個工序,各個工序又包含各自數(shù)量的軋機機組以及測溫點、水箱等設(shè)備。為了盡可能覆蓋全部生產(chǎn)信息,本文將各工序的生產(chǎn)數(shù)據(jù)總共133個生產(chǎn)參數(shù)作為輸入,對橢圓度超差問題進行質(zhì)量溯源與監(jiān)控,響應(yīng)變量為橢圓度超差。高速線材生產(chǎn)工藝見圖2。
圖2 高線生產(chǎn)工藝流程
本文基于全棧式機器學(xué)習(xí)平臺,自動搜集與拼接多源異構(gòu)數(shù)據(jù),利用整合好的數(shù)據(jù)進行訓(xùn)練。針對生產(chǎn)中生產(chǎn)頻率較高且容易出現(xiàn)橢圓度超差的6個鋼種和規(guī)格數(shù)據(jù),按照全棧式機器學(xué)習(xí)的步驟進行分析。
高速線材產(chǎn)生的數(shù)據(jù)規(guī)模年累計數(shù)據(jù)可達到TB級,其中高頻時序數(shù)據(jù)存儲于BerkeleyDB中,標簽特征信息、產(chǎn)品鋼種信息等存儲于SQL server數(shù)據(jù)庫中,在進行數(shù)據(jù)變量挑選、特征工程、建模預(yù)測時,按照條件進行選取配置即可。
在實際生產(chǎn)中有些鋼種產(chǎn)量大,橢圓度超差發(fā)生頻率高,正常樣本與異常樣本數(shù)均衡,而有些鋼種規(guī)格的橢圓度超差現(xiàn)象雖然發(fā)生頻率不高,但是屬于重點產(chǎn)品,質(zhì)量問題出現(xiàn)會造成較大的損失,因此同樣需要進行分析與監(jiān)控,此時正常樣本與異常樣本數(shù)不均衡,屬于類別不均衡樣本,針對此類數(shù)據(jù),應(yīng)利用分析框架中針對類別不平衡數(shù)據(jù)的方法進行分析。本文選取的6個鋼種對應(yīng)的橢圓度超差樣本與橢圓度正常樣本個數(shù)對比圖如圖3 所示,鋼種6的異常樣本數(shù)明顯少于正常樣本數(shù)。
圖3 各鋼種樣本量對比
鋼種1至鋼種5由于樣本較為均衡,不用進行采樣技術(shù)處理。針對鋼種6采用SMOTE算法對樣本進行處理,原始樣本中正常樣本個數(shù)為986個,異常樣本個數(shù)為326個。經(jīng)過SMOTE算法處理過后正常樣本個數(shù)與異常樣本個數(shù)相當(dāng),如圖4所示。
圖4 數(shù)據(jù)總體分布圖
目前的操作變量有133維,如果不加選擇都作為訓(xùn)練數(shù)據(jù),那么模型將學(xué)到大量的無效信息,而且維數(shù)的增長也使得模型的復(fù)雜度顯著增加。因此需要對數(shù)據(jù)進行特征工程處理,篩選出最有效的操作變量。本文將數(shù)據(jù)中的6個鋼種混合在一起進行變量挑選,挑選出具有共性的操作變量,基于mRMR算法,對輸入的133維數(shù)據(jù)進行變量篩選,最終結(jié)果按照重要性評分選取。選取重要性排前15的操作參數(shù)進行后續(xù)建模。重要性評分表見表1。
表1 相關(guān)特征的重要性排序
本文應(yīng)用全棧式機器學(xué)習(xí)中的Feature-XGBOOST模型進行橢圓度超差缺陷進行預(yù)測分類。根據(jù)mRMR算法的重要性排序結(jié)果,逐步剔除評分排在最后面的P個變量,基于選擇出的變量,應(yīng)用FDA進行有監(jiān)督的降維,將數(shù)據(jù)進行投影,得到投影矩陣,將投影矩陣與數(shù)據(jù)集相乘,得到降維后的特征矩陣,將求得的特征矩陣應(yīng)用于XGBOOST模型中,對橢圓度超差進行分類預(yù)測,隨著P的變大,試驗結(jié)果如表2所示。
表2 Feature-XGBOOST預(yù)測模型精度變化
由表2可知,當(dāng)剔除5個特征變量時,模型的預(yù)測精度最高,此時分類精度為96.83%。相比于不剔除任何變量而言,剔除5個特征變量后,精度提升了 3.10%,此時模型能更好地解釋橢圓度超差異常和各變量之間的關(guān)系。
為了充分驗證Feature-XGBOOST橢圓度超差分類模型的準確性,引入BP神經(jīng)網(wǎng)絡(luò)、SVM支持向量機等傳統(tǒng)方法進行對比,對比結(jié)果如表3。
表3 不同算法模型檢測精度對比
試驗結(jié)果表明,BP、SVM等傳統(tǒng)模型的分類誤差較大,這是因為傳統(tǒng)單個模型應(yīng)用沒有考慮變量的挑選與特征的選擇,從眾多輸入變量中選出了代表性變量,篩除冗余或無關(guān)變量,提高了預(yù)報的準確性和實時性。
(1)通過實際生產(chǎn)的海量數(shù)據(jù)與產(chǎn)品質(zhì)量問題解決方案的積累,針對全流程數(shù)據(jù)分析方法與思想進行梳理、研發(fā)全棧式機器學(xué)習(xí)平臺與模型,形成了一套具有魯棒性和高精度的鋼鐵生產(chǎn)全流程多源異構(gòu)數(shù)據(jù)分析框架。在鋼鐵流程生產(chǎn)中進行了應(yīng)用。
(2)提出了工業(yè)數(shù)據(jù)分析的通用方法,針對質(zhì)量問題,分析流程為:數(shù)據(jù)獲取、數(shù)據(jù)治理、特征工程、模型選取與應(yīng)用、問題解決。
(3)應(yīng)用全棧式機器學(xué)習(xí)平臺搜集數(shù)據(jù),并應(yīng)用平臺中的算法庫進行模型建立,基于mRMR算法進行變量挑選,應(yīng)用FDA進行特征降維,并應(yīng)用XGBOOST對數(shù)據(jù)進行分類,實現(xiàn)了質(zhì)量問題溯源與監(jiān)控,解決了線材生產(chǎn)中橢圓度超差的質(zhì)量問題。