胡石雄,李維剛,2,楊 威
(1. 武漢科技大學(xué)冶金自動化與檢測技術(shù)教育部工程研究中心,湖北 武漢,430081; 2. 武漢科技大學(xué)高溫材料與爐襯技術(shù)國家地方聯(lián)合工程研究中心,湖北 武漢,430081)
當(dāng)今鋼鐵市場競爭日益激烈,如何在不斷改善鋼鐵產(chǎn)品組織性能的同時,縮短產(chǎn)品研發(fā)周期、降低生產(chǎn)成本,已成為鋼鐵企業(yè)亟需解決的問題。熱軋帶鋼的力學(xué)性能預(yù)報是目前階段鋼鐵冶金企業(yè)開發(fā)的重點(diǎn)技術(shù)之一,具有廣闊的應(yīng)用前景?,F(xiàn)有的帶鋼力學(xué)性能預(yù)報模型的建模思路大致分為兩種[1]:一種是機(jī)理建模,主要是基于實(shí)驗室物理冶金學(xué)的實(shí)驗結(jié)果,建立模型來預(yù)測產(chǎn)品的力學(xué)性能,如Irvine和Pickering提出了利用數(shù)學(xué)模型預(yù)測鋼材組織演變及力學(xué)性能的方法;另一種是數(shù)據(jù)建模,根據(jù)實(shí)際生產(chǎn)數(shù)據(jù),利用神經(jīng)網(wǎng)絡(luò)等智能算法來預(yù)測鋼材的力學(xué)性能,如賈濤[2]、Bhattacharyya[3]等均建立了相應(yīng)的性能預(yù)報模型。以上兩種建模方法都取得了不錯的成果,但也有不足之處:機(jī)理建模多以鋼種為單位進(jìn)行研究,局限性強(qiáng);BP神經(jīng)網(wǎng)絡(luò)各層之間以全連接方式進(jìn)行連接,不能很好地表達(dá)出影響因素之間復(fù)雜的交互作用關(guān)系。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是近年來特別熱門的深度神經(jīng)網(wǎng)絡(luò)模型。相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采用的局部連接(Locally-connection)方式,有效減少了需要計算的參數(shù)個數(shù)。另外,權(quán)值共享方法可以使圖像具有平移不變性,下采樣操作可使圖片具有一定的縮放不變性。目前,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)已被廣泛應(yīng)用于自然語言分析、模式識別、圖像處理等領(lǐng)域,但在工業(yè)生產(chǎn)領(lǐng)域內(nèi)的研究應(yīng)用尚不多見。
基于此,本文提出了一種將一維數(shù)值型數(shù)據(jù)轉(zhuǎn)換成二維圖像型數(shù)據(jù)的建模方法,并基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5和GoogLeNet,建立了熱軋帶鋼力學(xué)性能預(yù)報模型,代入實(shí)際生產(chǎn)數(shù)據(jù)并通過對比實(shí)驗對所建模型的有效性和準(zhǔn)確性進(jìn)行了驗證。
卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[4]的基本結(jié)構(gòu)如圖1所示。由圖1可知,該網(wǎng)絡(luò)結(jié)構(gòu)主要包括輸入層、卷積層(Convolutional layer)、下采樣層(Subsampling)、全連接層(Full connection)和輸出層,其中卷積層和池化層(Pooling)交替出現(xiàn),構(gòu)成一個特殊的隱層。值得注意的是,輸入圖像需要經(jīng)過大小歸一化處理,每一個神經(jīng)元的輸入來自于前一層的一個局部鄰域,并且被加上由一組權(quán)值決定的權(quán)重。提取到的這些特征在下一層相結(jié)合形成更高一級的特征,并且同一特征圖的神經(jīng)元共享相同的一組權(quán)值,次抽樣層對上一層進(jìn)行壓縮,在減少數(shù)據(jù)處理量的同時保留了有用信息。
圖1 LeNet-5卷積神經(jīng)網(wǎng)絡(luò)
GoogLeNet[5]是2014年Christian Szegedy提出的一種全新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),共有22個卷積層,相比于AlexNet[6]和VGG[7]等深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),GoogLeNet在增加了網(wǎng)絡(luò)深度和寬度的情況下,具有更少的參數(shù)和更小的計算量,其完整結(jié)構(gòu)如圖2所示。
圖2 GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)
在LeNet-5和GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,本文提出了兩點(diǎn)重要改進(jìn):一是將全連接甚至是一般的卷積均轉(zhuǎn)化為稀疏連接[8],二是提出應(yīng)用Inception結(jié)構(gòu)于網(wǎng)絡(luò)模型中,即在保證網(wǎng)絡(luò)結(jié)構(gòu)稀疏性的同時,又能利用密集矩陣的高計算性能。Inception結(jié)構(gòu)模塊如圖3所示。在Inception結(jié)構(gòu)中,筆者采用了不同大小的卷積核進(jìn)行特征提取,最后將提取到的不同尺度特征進(jìn)行堆疊(Concatenation)。相比于單一的卷積核,Inception結(jié)構(gòu)具有更強(qiáng)的適應(yīng)性。由于使用5×5的卷積核會帶來巨大的計算量,故采用1×1的卷積核進(jìn)行降維處理[8]。
圖3 Inception模塊結(jié)構(gòu)示意圖
獲取某大型熱連軋生產(chǎn)線的歷史實(shí)際生產(chǎn)數(shù)據(jù),基于隨機(jī)森林算法和冶金機(jī)理篩選出重要影響因子,并剔除掉一些不可見干擾因素[9],最終得到44 760條帶鋼數(shù)據(jù),每條數(shù)據(jù)中含20個影響因子和一個響應(yīng)變量抗拉強(qiáng)度(Ts),所得實(shí)驗數(shù)據(jù)集的具體組成如表1所示。
從表1中可以看出,具有不同特征維度的影響因子的表征含義、數(shù)量級及量綱單位不同,直接用于訓(xùn)練會影響模型精度,并且容易陷入局部最優(yōu)解。因此,在開始訓(xùn)練前,需要對輸入數(shù)據(jù)進(jìn)行歸一化處理,使各項數(shù)據(jù)指標(biāo)之間具有可比性。原始數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級,模型收斂速度有所提升。
BP神經(jīng)網(wǎng)絡(luò)通常采用一維數(shù)值型數(shù)據(jù)進(jìn)行建模,連接方式如圖4(a)所示。由圖4(a)可知,全連接層中每一個神經(jīng)元均與輸入數(shù)據(jù)中任一影響因子相連,無法表達(dá)出影響因素之間的局部交互作用關(guān)系,且需要計算的參數(shù)較多,故卷積神經(jīng)網(wǎng)絡(luò)采用如圖4(b)所示的局部相連方式。
表1 實(shí)驗數(shù)據(jù)集的組成
注:FT為出爐溫度;FET為精軋入口溫度;FDT為終軋溫度;CT為卷取溫度;RT為粗軋出口溫度;FDH為終軋厚度。
在對圖片進(jìn)行卷積處理的過程中,影響因子通過不同大小的卷積核與周圍其它影響因子局部相連,從而得到影響因子之間的局部交互作用關(guān)系。由于卷積核具有權(quán)值共享特性,故相比于BP神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)具有更少的參數(shù)和更小的計算量。數(shù)字圖像本質(zhì)是一個多維矩陣,而傳統(tǒng)的一維數(shù)值型數(shù)據(jù)表示的是一個一維矩陣,將一維數(shù)值型數(shù)據(jù)轉(zhuǎn)為二維圖像型數(shù)據(jù)實(shí)際是將多個一維矩陣進(jìn)行拼接的過程。相比于一維數(shù)值型數(shù)據(jù),二維圖像型數(shù)據(jù)信息結(jié)構(gòu)更為豐富,進(jìn)行特征提取時能獲取的有效信息更多。
在進(jìn)行數(shù)據(jù)轉(zhuǎn)換之前,首先需要確定圖像的尺寸,即圖像的高和寬。由于圖像高和寬的乘積需要遠(yuǎn)遠(yuǎn)大于影響因子個數(shù),故決定將一維數(shù)值型數(shù)據(jù)轉(zhuǎn)換成大小為32×32的二維圖像型數(shù)據(jù),
(a)BP神經(jīng)網(wǎng)絡(luò) (b)卷積神經(jīng)網(wǎng)絡(luò)
圖4不同神經(jīng)網(wǎng)絡(luò)的連接方式
Fig.4Connectionmethodofdifferentneuralnetworks
其中共包含1024個像素點(diǎn)。依次將與帶鋼力學(xué)性能相關(guān)的20個影響因子填入1024個像素點(diǎn)中,每個像素點(diǎn)值的大小代表圖片中該點(diǎn)位置顏色的深淺,每個影響因子被填入51次左右。該步驟主要是利用Python編程完成的,大致轉(zhuǎn)換過程如圖5所示。
圖5 數(shù)值型數(shù)據(jù)轉(zhuǎn)換成圖像數(shù)據(jù)過程示意圖
由于本文所建立的熱軋帶鋼力學(xué)性能預(yù)報模型的影響因子較少,直接使用較深的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)難以取得好的效果,而使用太淺的模型結(jié)構(gòu)精確度往往不高,故需要進(jìn)行對比實(shí)驗來確定模型中卷積層的層數(shù)。本研究利用Inception結(jié)構(gòu)替代LeNet-5結(jié)構(gòu)中的卷積層,選取均方根誤差(RMSE)和平均絕對百分誤差(MAPE)作為模型準(zhǔn)確性的評價指標(biāo),即:
(1)
(2)
其余參數(shù)相同時,不同Inception結(jié)構(gòu)數(shù)量下模型的計算偏差如表2所示,可以看出,當(dāng)Inception結(jié)構(gòu)個數(shù)選取為3時,模型具有較高的預(yù)報精度。
表2不同Inception結(jié)構(gòu)個數(shù)的實(shí)驗結(jié)果
Table2ExperimentalresultswithdifferentInceptionnumbers
編號Inception結(jié)構(gòu)數(shù)量/個RMSE/MPaMAPE/%1131.463.492321.072.673524.482.794727.322.745929.103.12
圖6即為本研究采用的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??紤]到輸入圖像尺寸(32×32)較小,故不適合使用太大的卷積核和步長,本文所用卷積核最大為5×5,步長均為1。輸入圖像經(jīng)過Inception1進(jìn)行特征提取之后,接一個最大池化層(Max pooling),卷積核大小為3×3,步長為2。該模型中的池化層均采用最大池化,這是因為相比于平均池化(Average pooling),最大池化能更有效地減少卷積層參數(shù)誤差所造成的估計均值偏移,其原理如圖7所示。
從圖6中可以看出,模型經(jīng)過Inception3之后接一個全連接層FC1,模型中最下方的FC2與輸入圖像直接相連,采用的是全連接方式,其能在一定程度上對卷積神經(jīng)網(wǎng)絡(luò)提取特征起到補(bǔ)充作用。最后將FC1和FC2提取到的特征進(jìn)行融合,經(jīng)過全連接層FC3后得到輸出結(jié)果。
圖6 本研究采用的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
(a)最大池化 (b)平均池化
圖7最大池化和平均池化的原理示意圖
Fig.7Schematicdiagramofmaxpoolingandaveragepooling
模型中采用的的激活函數(shù)均為ReLU函數(shù),可表示為:
(3)
LeNet-5模型中,激活函數(shù)為Sigmoid函數(shù),表示為:
(4)
相比于Sigmoid函數(shù),ReLU函數(shù)有以下優(yōu)點(diǎn):①選取Sigmoid函數(shù)為激活函數(shù),當(dāng)Ni=f(Wi?Ni-1+bi)過大時,函數(shù)導(dǎo)數(shù)趨于0,這會造成信息丟失,降低模型的準(zhǔn)確性。②當(dāng)Ni=f(Wi?Ni-1+bi)<0時,ReLU激活函數(shù)的輸出為0,在一定程度上造成了網(wǎng)絡(luò)的稀疏性,這不僅減少了參數(shù)之間的相互依存關(guān)系,還緩解了過擬合問題;③ReLU函數(shù)的求導(dǎo)計算相對簡單。
卷積神經(jīng)網(wǎng)絡(luò)模型不斷通過訓(xùn)練樣本進(jìn)行學(xué)習(xí),在信息的前向傳播中求出預(yù)測值,并與實(shí)際值比較得到誤差。若誤差超過設(shè)定閾值,則進(jìn)入誤差反向傳播階段,在此階段不斷更新權(quán)重和偏置,直到預(yù)測值與實(shí)際值的誤差低于閾值且誤差不再下降時停止訓(xùn)練,得到最終需要的熱軋帶鋼力學(xué)性能預(yù)報模型。
本實(shí)驗在Windows10 64bit 操作系統(tǒng)下進(jìn)行,CPU為Intel(R) Core(TM) i7-6700,內(nèi)存為16GBDDR4,GPU為NVIDIAGeForceGTX745(4 GB顯存),顯卡驅(qū)動為CUDA8.0+CUDNN5.1,編譯環(huán)境為TensorFlow+Python3.5.2。采用開源深度學(xué)習(xí)工具TensorFlow作為卷積神經(jīng)網(wǎng)絡(luò)框架,并利用GPU加速整個訓(xùn)練過程。
實(shí)驗開始之前,需要配制卷積神經(jīng)模型的相關(guān)參數(shù),具體數(shù)值如表3所示。表3 中,Learning_rate表示學(xué)習(xí)率;Iteration_nums表示模型訓(xùn)練次數(shù),如果模型的代價函數(shù)低于設(shè)定閾值且基本不再變化時,也可主動終止訓(xùn)練;Batch_size表示每次讀入圖片的批量,該值的選取需要根據(jù)實(shí)際輸入圖片的大小以及計算機(jī)內(nèi)存和顯存的大小關(guān)系來確定,本研究使用GPU加速訓(xùn)練,故需要保證每次讀入批量圖片小于顯存大?。籇ropout表示以一定概率舍棄神經(jīng)元,其能有效防止過擬合的發(fā)生。
表3 模型參數(shù)
選取44 760條數(shù)據(jù)中的后4760條數(shù)據(jù)作為測試集,剩下的40 000條數(shù)據(jù)作為訓(xùn)練集。關(guān)于卷積核數(shù)目與神經(jīng)元數(shù)目的選取,本文采用如表4所示的Inception模塊參數(shù)以確定最優(yōu)解。表4中Inception1、Inception2和Inception3的6個參數(shù)分別代表Inception結(jié)構(gòu)中從上往下卷積核Conv1×1+1(S)、Conv3×3+1(S)、Conv1×1+1(S)、Conv5×5+1(S)、Conv1×1+1(S)和Conv1×1+1(S)的個數(shù),F(xiàn)C1和FC2表示全連接層FC1和FC2的神經(jīng)元個數(shù),F(xiàn)C3中神經(jīng)元個數(shù)為FC1和FC2中神經(jīng)元數(shù)目之和。每次實(shí)驗訓(xùn)練到代價函數(shù)趨于穩(wěn)定才終止。從表4可以看出,采用第6組Inception參數(shù)的模型預(yù)測精度最高,模型MAPE值為2.49%,RMSE值為19.15 MPa。
表4 不同Inception參數(shù)下的測試結(jié)果
選取第6組Incepion模塊參數(shù)作為本文模型采用的參數(shù),得到模型中損失函數(shù)值(Loss)與訓(xùn)練次數(shù)的關(guān)系如圖8所示。從圖8中可以看出,模型訓(xùn)練12 000次左右時已趨于穩(wěn)定,在不增加數(shù)據(jù)量的情況下,模型的Loss值基本保持不變。故從測試集中取100條數(shù)據(jù)的預(yù)測值與實(shí)際值進(jìn)行對比,結(jié)果見圖9。由圖9可知,基于本文所建模型的帶鋼抗拉強(qiáng)度預(yù)測值與實(shí)際值擬合情況較好,模型的適用性得到了驗證。
為進(jìn)一步驗證所建模型的有效性,利用BP神經(jīng)網(wǎng)絡(luò)、LeNet-5和GoogLeNet三種模型分別對測試樣本進(jìn)行帶鋼力學(xué)性能預(yù)測,并選用均方根誤差和平均絕對百分誤差作為模型精度的衡量指標(biāo),結(jié)果如表5所示。由表5可見,本文所建模型的誤差指標(biāo)均低于其他模型的預(yù)測值,而直接利用卷積神經(jīng)網(wǎng)絡(luò)GoogLeNet模型的預(yù)測精度低于其他方法,盡管其深度優(yōu)于LeNet-5和本文所建模型,表明在熱軋帶鋼力學(xué)性能預(yù)報問題上模型的預(yù)測精度并不完全取決于模型深度。另一方面,LeNet-5模型中,卷積層數(shù)目較少且卷積核過于單一,模型的提取特征能力不夠,適應(yīng)性不強(qiáng),導(dǎo)致其預(yù)測效果不佳。
圖8 損失函數(shù)值隨訓(xùn)練次數(shù)的變化
Fig.8VariationofLossfuctionvaluewiththeiterationtime
圖9 帶鋼抗拉強(qiáng)度的預(yù)測值與實(shí)際值對比
Fig.9Comparisonbetweenpredictedandactualvaluesofstriptensilestrength
表5 不同預(yù)測方法的評價指標(biāo)
針對熱軋帶鋼的力學(xué)性能預(yù)測問題,本文提出一種將一維數(shù)值型數(shù)據(jù)轉(zhuǎn)換成二維圖像數(shù)據(jù)用來建模的方法,相比于傳統(tǒng)的一維數(shù)值型數(shù)據(jù),二維圖像型數(shù)據(jù)中結(jié)構(gòu)信息更豐富,能提取到的有效信息更多。文中引入卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建影響因子之間的局部相互作用關(guān)系模型,基于GoogLeNet和LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點(diǎn)搭建帶鋼力學(xué)性能預(yù)報模型,并通過一個全連接層與輸入層直接相連,將提取到的特征與卷積神經(jīng)網(wǎng)絡(luò)提取到的特征相融合。為驗證該方法的有效性,文中代入某大型熱連軋生產(chǎn)線的44760條歷史實(shí)際生產(chǎn)數(shù)據(jù)進(jìn)行測試,結(jié)果表明,與BP神經(jīng)網(wǎng)絡(luò)及單獨(dú)的GoogLeNet和LeNet-5卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比較,本文所提方法的預(yù)測精度更高,本研究為熱軋帶鋼力學(xué)性能預(yù)報建模提供了新的思路。