王 偉 馬乾倫 白振華 王子昂
1.福州大學機械工程及自動化學院,福州,3501002.燕山大學機械工程學院,秦皇島,066004
冷軋高強鋼卷是結構輕量化的重要材料,它表面質量好、尺寸精度高、機械性能強,廣泛應用于汽車制造、航空和精密儀器等眾多領域[1-2]。力學性能是高強鋼的關鍵質量指標之一,退火工藝是力學性能調控的重要手段,而力學性能預測可建立工藝因素與性能之間的定量關系,為退火工藝調控提供基礎[3-5]。
傳統(tǒng)性能預測建模方法是根據(jù)物理冶金過程分析建立組織模型,再由組織模型建立性能預測模型[6-7],但帶鋼生產(chǎn)冶金流程長,工藝參數(shù)較多,導致建模過程復雜,成本高。隨著智能制造技術的發(fā)展,基于大數(shù)據(jù)分析的力學性能預測建模方法開始被用于鋼鐵生產(chǎn),而應用各種人工智能算法通過化學成分和相關工藝參數(shù)建立性能預測模型是目前研究的重點方向[8-10]。
神經(jīng)網(wǎng)絡模型是目前應用最廣泛的帶鋼性能預測模型。LALAM等[11]提出前向反饋人工神經(jīng)網(wǎng)絡,根據(jù)冷軋鋼卷的化學成分和工藝參數(shù)來預測力學性能,在允許誤差范圍內,屈服強度和極限抗拉強度預測準確率達到了90%,符合用戶對產(chǎn)品的要求。ORTA等[12]利用神經(jīng)網(wǎng)絡模型和3537條冷軋雙相(dual phase,DP)鋼生產(chǎn)數(shù)據(jù)進行力學性能預測,得到的DP鋼屈服強度、抗拉強度和伸長率預測模型的平均絕對誤差分別為2.69%、2.00%、5.84%,但是由于建模時神經(jīng)元個數(shù)與隱藏層個數(shù)的選擇更多時候依賴于實踐經(jīng)驗,造成了神經(jīng)網(wǎng)絡模型開發(fā)周期長,超參數(shù)調優(yōu)困難。
集成學習可以將多個基模型結合在一起建立集成學習模型,集成學習模型可以解決很多單個模型無法解決的復雜機器學習問題[13]。李飛飛等[14]采用BP神經(jīng)網(wǎng)絡對樣本間的偏差進行建模,建立了大量的樣本偏差神經(jīng)網(wǎng)絡分離器,并將子模型與具有強泛化能力的Bagging集成學習算法進行融合,得到延伸率在絕對誤差±5%下的預測精度達到了99.48%,但該方法計算量較大。王顯鵬等[15]以Bagging集成學習方法為基礎,結合適應性提升(AdaBoost)集成學習的誤差較大樣本重點學習策略,提出了一種帶鋼產(chǎn)品質量在線預測混合集成學習方法,結果表明該混合集成學習方法的泛化能力和預測精度優(yōu)于Bagging和AdaBoost兩種集成學習方法。
梯度提升決策樹(gradient boosting decision tree,GBDT)算法[16]是一種應用非常廣泛的集成學習算法,它基于 Boosting迭代思想,通過不斷擬合殘差來提升性能。蘇興華等[17]采用GBDT模型對鉆井機械鉆速建立預測模型,并與支持向量機、邏輯回歸以及K最近鄰方法進行比較,結果表明,GBDT算法相比于其他算法具有較高的準確率。
冷軋高強帶鋼是高附加值的產(chǎn)品,具有性能控制要求高、性能預測難的特點。本文以1180 MPa級超高強度冷軋DP鋼為例,利用工藝和力學性能生產(chǎn)數(shù)據(jù)樣本,建立GBDT模型、BP模型、廣義可加模型(generalized additive models,GAM)并進行比較;為提高斷后伸長率模型預測精度,研究了考慮誤差補償?shù)臄嗪笊扉L率預測模型,建立了模型預測誤差GBDT分類模型和考慮誤差補償?shù)哪P皖A測修正方法并對生產(chǎn)實際預測精度進行了分析。
冷軋鋼卷生產(chǎn)過程包括鋼坯加熱、熱軋、酸軋、連續(xù)退火、平整工序,與性能相關的參數(shù)包括鋼卷化學成分、產(chǎn)品規(guī)格參數(shù)和工藝參數(shù)。其中化學成分包括C、Si、Mn、P、S、Cu、Ni、Cr、Mo、Nb、Ti、B、N、Al共14個;鋼卷規(guī)格參數(shù)包括鋼卷寬度、冷卷厚度和熱卷厚度;工藝參數(shù)包括鋼坯加熱出爐溫度、終軋溫度、卷曲溫度、連退過程加熱段溫度、均熱段溫度、緩冷段溫度、快冷段溫度、機組速度和平整過程平整率,共12個。
鋼卷力學性能包括屈服強度、抗拉強度、斷后伸長率,表1為該鋼種力學性能統(tǒng)計表,可以看出,該鋼種屈服強度和抗拉強度很高而斷后伸長率較低。
表1 力學性能統(tǒng)計表
用于性能預測的成分、工藝參數(shù)來自于生產(chǎn)過程的測量值,這些值存在噪聲和異常值,利用3σ準則進行數(shù)據(jù)清洗。清洗后與性能相關的參數(shù)有26個,其中12個產(chǎn)品規(guī)格和工藝參數(shù)是獨立變量,而化學成分與性能的影響有一定相關性。為描述性能與成分的關系,傳統(tǒng)冶金機理的性能模型常用碳當量的概念,本文利用大數(shù)據(jù)[18]主成分分析(principle component analysis, PCA)技術對化學成分進行降維,降維后的化學主成分之間更加獨立,可降低成分中冗余信息,從而實現(xiàn)化學成分特征的有效提取。
為了消除量綱的影響,進行主成分分析之前,對化學成分數(shù)據(jù)采用中心對稱的標準化處理,標準化公式為
(1)
式中,x*為標準化后的數(shù)據(jù);x為待標準化數(shù)據(jù);μ為數(shù)據(jù)均值;σ為數(shù)據(jù)標準差。
PCA的步驟如下:
(1) 計算樣本數(shù)據(jù)的協(xié)方差矩陣:
(2)
(2)求解C的特征值λf及其單位正交的特征矢量pf:
λfpf=Cpf
(3)
對特征值排序,前h個較大的特征值λ1,λ2,…,λh(λ1≥λ2≥…≥λh>0)表示主成分的方差,λf對應的特征矢量pf就是第f個主成分的系數(shù)。在PCA中,主成分中信息量的大小由累積方差貢獻率(cumulative percent variance,CPV)表示:
(4)
一般認為φCPV大于85%即可。經(jīng)過主成分分析得到化學成分累積貢獻率如圖1所示。為避免丟失原始數(shù)據(jù)的重要信息,并且選入較少的噪聲,選取累積方差貢獻率約為92%,有利于提高模型性能[19]。
圖1 化學成分數(shù)據(jù)累積貢獻率Fig.1 Cumulative contribution rate of chemical composition data
根據(jù)以上分析,化學成分主成分數(shù)目取10,然后將12個工藝參數(shù)進行標準化處理,再與10個化學成分主成分特征組合,可得到性能模型輸入的22個特征參數(shù)。
GBDT回歸算法的實現(xiàn)過程如下:
輸入訓練集T={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)},其中xi∈X?Rn,X為輸入樣本空間;xi為鋼卷輸入特征;yi∈Y?R,Y為鋼卷力學性能。
(1)初始化第一個學習器f0(x):
(5)
式中,L(yi,c)為損失函數(shù);c為使損失函數(shù)最小化的常數(shù)。
(2)建立M棵分類回歸樹(m=1,2,…,M)。
①對樣本i計算第m棵樹對應的偽殘差:
(6)
②利用回歸樹擬合數(shù)據(jù)(xi,rm,i)得到第m棵樹對應的葉節(jié)點區(qū)域Rm,j,其中,j=1,2,…,Jm,且Jm為第m棵回歸樹葉子節(jié)點的個數(shù)。
③對j計算最佳擬合值:
(7)
④更新強學習器fm(x):
(8)
式中,I(x∈Rm,j)為示性函數(shù),樣本觀測點落入Rm,j區(qū)域,函數(shù)為1,否則為0。
(3)得到最終強學習器fM(x)的表達式:
(9)
原始數(shù)據(jù)經(jīng)過數(shù)據(jù)處理之后,得到5205條高質量數(shù)據(jù),首先按照7∶3的比例,采用同分布抽樣方法劃分為3643條建模數(shù)據(jù)集和1562條測試集,圖2為建模數(shù)據(jù)集和測試集屈服強度高斯核密度分布曲線,該圖表明建模數(shù)據(jù)集和測試集分布幾乎完全一致??估瓘姸纫约皵嗪笊扉L率采用同樣方法劃分數(shù)據(jù)集。其次采用交叉驗證法對建模數(shù)據(jù)集進行劃分[20],這里采用5折交叉驗證法,將建模數(shù)據(jù)集分成5個數(shù)據(jù)子集,每次選擇1個子集作為驗證集,其余4個子集作為訓練集用于訓練模型,執(zhí)行5次模型訓練,得到5個模型,選取驗證集精度最好的模型作為預測模型,這種訓練方式數(shù)據(jù)利用率達100%。每個模型的驗證集未參與訓練,驗證集精度是未知樣本的預測精度,反映了模型的泛化能力,利用驗證集預測精度進行模型評估,能夠有效防止過擬合和欠擬合現(xiàn)象,提高模型魯棒性。
圖2 屈服強度高斯核密度分布曲線圖Fig.2 Gaussian kernel density distribution curve of yield strength
GBDT模型、BP模型和GAM模型中的超參數(shù)對模型的精度和泛化能力有重要影響,其中影響GBDT模型的主要超參數(shù)有學習率、決策樹數(shù)目、決策樹深度;BP模型主要影響參數(shù)包括隱藏層數(shù)目、隱藏層節(jié)點個數(shù)、最大迭代次數(shù)、正則化參數(shù)、激活函數(shù);GAM模型主要超參數(shù)包括最大迭代次數(shù)、精度。
超參數(shù)調優(yōu)的方法主要有隨機搜索法、網(wǎng)格搜索法、貝葉斯優(yōu)化方法,其中網(wǎng)格搜索方法是窮舉搜索方法,具有優(yōu)化解全局性好的優(yōu)點。考慮本研究的鋼種數(shù)據(jù)規(guī)模,本文選擇網(wǎng)格搜索法進行超參數(shù)調優(yōu)。
三種模型經(jīng)超參數(shù)調優(yōu)后,GBDT模型最佳超參數(shù)為:學習率0.309,決策樹個數(shù)500,決策樹最大深度5;BP模型選用單隱層,隱藏層節(jié)點個數(shù)為54,最大迭代次數(shù)為600,正則化參數(shù)alpha為0.0001、采用Relu激活函數(shù);GAM模型最大迭代次數(shù)為100,精度為0.000 01。
構建力學性能模型過程中,采用一些評估指標用于反映模型的預測性能,回歸預測一般采用均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)作為評估指標:
(10)
(11)
(12)
式中,R為總樣本數(shù);yr為實測值;pr為預測值。
根據(jù)生產(chǎn)對DP鋼力學性能預測模型精度的要求,屈服強度、抗拉強度和斷后伸長率預測準確率需達到92%,其中屈服強度的絕對誤差要求在±35 MPa之內,抗拉強度的絕對誤差要求在±30 MPa之內,斷后伸長率的絕對誤差要求在±0.9%之內。利用網(wǎng)格搜索和交叉驗證方法可以得到預測集精度最好的力學性能模型。表2所示為鋼卷力學性能的預測精度。由表2可以看出:
表2 力學性能預測精度
(1)GBDT模型驗證集和測試集精度都高于BP模型和GAM模型驗證集和測試集精度,并且測試集與驗證集誤差接近,表明GBDT模型精度高,對未知數(shù)據(jù)泛化能力強;
(2)精度最高的GBDT模型預測的屈服強度有92.51%的樣本數(shù)據(jù)絕對誤差在±35 MPa范圍內;預測的抗拉強度有92.16%的樣本數(shù)據(jù)絕對誤差在±30 MPa范圍內。屈服強度和抗拉強度的預測精度達到命中率92%的生產(chǎn)要求。
(3)82.12%的樣本數(shù)據(jù)斷后伸長率GBDT模型預測絕對誤差在±0.9%范圍內,與命中率92%的要求有一定差距。該鋼種力學性能具有強度高韌性較低的特點,加大了鋼卷性能取樣試驗難度,也一定程度上加大了斷后伸長率預測的難度。
為進一步提高該鋼種的斷后伸長率預測精度,建立模型預測誤差分類模型,通過對模型預測值誤差補償來提高模型預測精度,該方法流程如圖3所示。首先計算樣本訓練集的性能模型預測誤差,建立預測誤差樣本訓練集,然后按預測誤差不同級別對誤差樣本訓練集進行誤差分類,通過機器學習分類算法建立預測誤差分類預測模型。
圖3 誤差分類模型建立與考慮誤差補償?shù)哪P皖A測修正流程圖Fig.3 The establishment of error classification model and the principle of model prediction and correction considering error compensation
在性能預測時,對待測樣本輸入性能預測模型進行模型預測值計算,得到模型預測值;同時,對待測樣本輸入預測誤差分類模型進行預測誤差分類計算;最后根據(jù)誤差級別及概率計算預測誤差補償值,利用誤差補償值對模型預測值進行修正得到模型預測修正值。
3.1.1GBDT分類模型
建立誤差分類預測模型的目的是求出預測模型的預測結果屬于各誤差級別的概率,因此,需要建立一個可以用于求解多分類概率分布的模型。GBDT算法除了可以用于回歸學習外也可以進行分類學習,并且已經(jīng)得到了廣泛應用。如劉金元等[21]考慮航班延誤狀態(tài)特征對航班延誤的影響,構建了GBDT航班延誤預測分類模型,并將分類結果與支持向量機和隨機森林分類算法進行比較,結果表明GBDT分類算法具有更高的預測準確度。GBDT分類算法可以用來研究該類問題。
以樣本的誤差區(qū)間作為GBDT分類模型的監(jiān)督目標,利用模型對樣本的誤差區(qū)間進行預測。GBDT分類模型在解決二分類問題及多分類問題上應用廣泛,考慮到多類別預測難度增加,本文采用GBDT二分類模型,建立多個分類器來解決多分類問題。
GBDT分類算法輸入數(shù)據(jù)集為T={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)}。xi為影響性能的特征;yi為類別標識,yi∈{0,1},其中,1代表正類,0代表負類。
GBDT分類算法實現(xiàn)流程與GBDT回歸算法類似,包括初始化學習器、分類回歸樹生成、基于分類回歸樹的強化學習器建立,其中學習器初始化方程、偽殘差計算式、最佳擬合值計算式分別如下:
(13)
(14)
(15)
式中,P(Y=1|x)為訓練樣本中y=1 的比例。
利用最佳擬合值cm,j得到GBDT分類的強化學習器fM(x),再利用強化學習器計算得到分類概率值,概率值計算表達式為
(16)
3.1.2預測誤差GBDT分類模型建立
性能預測模型是對力學性能的回歸預測,得到的預測誤差是連續(xù)型變量,為了建立誤差分類預測模型,需要對預測誤差進行離散化處理??紤]建立誤差分類模型時能獲得更精確的概率分布,本文將斷后伸長率預測誤差以0.8%為區(qū)間,劃分為∈(∞,-2.0]、(-2.0,-1.2]、(-1.2,-0.4]、(-0.4,0.4]、(0.4,1.2]、(1.2,2.0]、(2.0,+∞)共7個誤差級別,級別代號分別為-2.0,-1.6,-0.8,0,0.8,1.6,2.0。
將數(shù)據(jù)樣本集的斷后伸長率預測結果按誤差區(qū)間劃分確定誤差級別,原樣本訓練集的預測誤差級別作為訓練集,測試集為原待測樣本,進行每個誤差級別的GBDT二分類模型訓練與測試。
預測誤差分類模型訓練過程如下:
(1)模型預測誤差級別標簽生成。對于每一個誤差級別,根據(jù)樣本預測誤差和誤差級別的設定范圍,采用One-Hot獨熱編碼方法,生成樣本的誤差級別標簽,其中預測誤差屬于該級別的樣本標記為正類(1),不屬于的樣本標記為負類(0),從而建立7個誤差級別對應的模型預測誤差分類的訓練集。
(2)利用模型預測誤差分類的訓練集和GBDT二分類算法建立誤差級別的預測誤差二分類模型hk(x),k為誤差級別序號。
(3)重復上述過程,便可以得到7個二分類模型{h1(xi),h2(xi),…,h7(xi)}。
預測誤差分類模型測試過程為:取出待測樣本xi,分別投入7個二分類模型中進行計算,從而可以得到計算結果{P1,P2,…,P7},這7個概率值表征了性能模型的預測結果可能落在某個誤差級別的概率,從而得到待測樣本xi的模型預測誤差分布。
利用訓練好的斷后伸長率誤差分類模型可以對斷后伸長率回歸模型的預測結果進行誤差補償,以提高斷后伸長率預測精度。具體步驟如下:
(1)將待預測的鋼卷模型輸入?yún)?shù)代入斷后伸長率GBDT回歸模型,得到斷后伸長率預測值δGBDT;
(2)將待預測的鋼卷模型輸入?yún)?shù)代入7個誤差級別的二分類模型,得到該樣本屬于每種誤差級別的概率Pδ,k,k=1,2,…,7;
(3)根據(jù)誤差級別劃分范圍,設每個級別的平均誤差Δm,k分別為-2.0,-1.6,-0.8,0,0.8,1.6,2.0。將平均誤差Δm,k與對應的誤差級別概率Pδ,k相乘,再將這些乘積相加得到誤差補償值:
(4)斷后伸長率GBDT預測值δpred=δGBDT-Δδ。
取預測誤差測試集中的一個樣本作為誤差補償修正算例,該樣本的斷后伸長率實測值為10.2%,模型預測值為10.62%,誤差級別為0.8級。將該樣本參數(shù)代入7個誤差級別二分類模型,得到圖4所示的誤差級別概率分布圖,對應0.8級概率最大。將誤差級別的平均誤差與對應的誤差級別概率相乘并求和,可以得到樣本預測誤差補償值為0.32%,模型預測值減去補償值后,得到模型預測修正值為10.3%。
圖4 測試樣本在各誤差級別的概率預測結果Fig.4 The probability prediction results of the test sample at each error level
3.3.1誤差補償后模型測試集精度分析
斷后伸長率預測模型誤差補償前后的預測精度如表3所示,結果表明,原預測模型經(jīng)過誤差補償后,測試集有94.63%的樣本數(shù)據(jù)絕對誤差在±0.9%范圍內,符合用戶要求。
表3 斷后伸長率誤差補償后預測精度
為了觀察斷后伸長率經(jīng)過誤差補償前后的預測值與實測值之間的分布情況,對測試樣本誤差補償前后的預測值進行了可視化分析。圖5和圖6分別為測試樣本經(jīng)過誤差補償前后的預測值與實測值的散點圖,圖中虛線表示斷后伸長率的誤差界限(±0.9%),可以看出,經(jīng)過誤差補償之后,預測精度明顯提高。
圖5 斷后伸長率實測值與未補償?shù)哪P皖A測值對比Fig.5 Comparison of measured elongation after fracture with uncompensated model predicted value
圖6 斷后伸長率實測值與誤差補償后預測值對比Fig.6 Comparison of measured elongation after fracture with predicted value after error compensation
為了更加直觀地觀察斷后伸長率的實測值與經(jīng)過誤差補償后的預測值之間的關系,圖7展示了測試樣本中隨機的100條經(jīng)過誤差補償后的數(shù)據(jù)的預測誤差分布示意圖。其中δmean表示樣本的預測誤差的均值,δmean+Δδ表示樣本預測誤差所允許的最大值,δmean-Δδ表示樣本預測誤差所允許的最小值。從圖中可以看出,在這100個測試樣本中,93%的樣本的預測誤差在誤差允許區(qū)間內,說明斷后伸長率預測值經(jīng)過誤差補償后,原模型的預測精度得到了一定的提高。
圖7 斷后伸長率誤差補償后預測誤差示意圖Fig.7 Prediction error diagram after elongation error compensation
3.3.2生產(chǎn)實績預測精度分析
為了進一步驗證該模型在生產(chǎn)過程中對未知樣本的預測精度,將生產(chǎn)中從未參加任何模型訓練與預測的400條測試樣本代入性能預測模型。圖8所示為測試樣本預測值與實測值的比較,圖中虛線表示性能誤差界限,預測結果的準確率超過了92%。
(a)屈服強度實測值與預測值對比
針對雙相(DP)高強鋼開展性能預測研究,可得到如下結論:
(1)采用化學主成分代替化學成分并結合規(guī)格和工藝參數(shù)歸一化,減少了模型輸入特征參數(shù)數(shù)目。
(2)通過模型超參數(shù)調優(yōu)、交叉驗證、數(shù)據(jù)集同分布抽樣,可以有效地避免過擬合的產(chǎn)生,提高了模型的泛化能力;比較性能預測梯度提升決策樹(GBDT)模型、BP神經(jīng)網(wǎng)絡模型和廣義可加模型(GAM)預測精度,結果表明GBDT模型精度最高。
(3)利用GBDT回歸模型,預測的屈服強度有92.51%的樣本數(shù)據(jù)絕對誤差在±35 MPa范圍內,預測的抗拉強度有92.16%的樣本數(shù)據(jù)絕對誤差在±30 MPa范圍內;利用GBDT分類方法,建立了模型預測誤差分類模型,采用誤差補償?shù)哪P皖A測修正方法,得到經(jīng)誤差補償后模型預測的斷后伸長率有94.63%的樣本數(shù)據(jù)絕對誤差在±0.9%范圍內,滿足生產(chǎn)需求。