魏立新,王 恒,孫 浩,呼子宇
(1.燕山大學(xué) 智能控制系統(tǒng)與智能裝備教育部工程研究中心,河北 秦皇島 066004;2.燕山大學(xué) 工業(yè)計(jì)算機(jī)控制工程河北省重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
在帶鋼冷軋軋制過程中,軋制力是最重要的工藝參數(shù)之一,其設(shè)定精度將直接影響帶鋼穿帶的穩(wěn)定性和減少帶頭帶尾長度[1]。因此,現(xiàn)場應(yīng)用對軋制力的設(shè)定提出了更高的要求。軋制生產(chǎn)過程受到多種因素的共同影響,具有非線性、不確定性等特點(diǎn)[2]。傳統(tǒng)數(shù)學(xué)模型大多依據(jù)Bland-Ford-Hill公式對軋制力進(jìn)行計(jì)算,適用范圍比較窄,難以滿足現(xiàn)場多規(guī)格產(chǎn)品柔性化生產(chǎn)的需求[3]。如何高精度的預(yù)測板帶軋制力,進(jìn)而提升產(chǎn)品質(zhì)量已經(jīng)成為亟待解決的問題。近年來,隨著人工智能和深度學(xué)習(xí)的快速崛起,人工智能模型在自動化領(lǐng)域的應(yīng)用逐漸增多[4]。Mahdi Bagheripoor等使用三維有限元模擬分析和神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法來預(yù)測軋制力,不但提高了預(yù)測精度,而且可以方便的應(yīng)用到不同帶鋼尺寸的模型中[5]。陶功明等采用高斯過程回歸算法,基于現(xiàn)場生產(chǎn)數(shù)據(jù)建立了壓下量與軋制力模型,為鋼軌軋制過程軋制力的精確控制提供了一種殘差較小的統(tǒng)計(jì)模型[6]。Chen Z M等提出一種基于多重支持向量機(jī)(multiple support vector machine,MSVM)的軋制力預(yù)測方法,將模型的輸入劃分為多個(gè)子空間,并對每個(gè)子空間分別建立SVM模型,最后合成所有子空間的輸出來預(yù)測軋制力[7]。趙志偉等提出一種使用人工蜂群算法優(yōu)化反向傳播神經(jīng)網(wǎng)絡(luò)的初始權(quán)值、閾值和網(wǎng)絡(luò)結(jié)構(gòu)的軋制力預(yù)報(bào)方法,該方法的軋制力預(yù)報(bào)精度明顯提高[8]。王智等采用粒子群算法(particle swarm optimization,PSO)優(yōu)化BP網(wǎng)絡(luò)建立智能模型并與標(biāo)準(zhǔn)BP網(wǎng)絡(luò)作對比,實(shí)驗(yàn)結(jié)果表明PSO-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度明顯提高,誤差率可以控制在10%以內(nèi)[9]。竇博采用貝葉斯神經(jīng)網(wǎng)絡(luò)建模進(jìn)行軋制力預(yù)測,并使用乘法網(wǎng)絡(luò)對模型進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明預(yù)測精度相比于加法網(wǎng)絡(luò)有較大提升[10]。曹衛(wèi)華等提出一種基于極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)的軋制力預(yù)報(bào)模型,運(yùn)用現(xiàn)場采集的數(shù)據(jù)對模型進(jìn)行測試,結(jié)果證明相比于傳統(tǒng)模型,能夠快速準(zhǔn)確的實(shí)現(xiàn)軋制力預(yù)測[11]。以上模型所用方法均屬于淺層神經(jīng)網(wǎng)絡(luò)模型,針對復(fù)雜問題其表達(dá)能力受到一定制約,難以發(fā)現(xiàn)輸入信息之間的深層聯(lián)系。隨著軋制數(shù)據(jù)的累積,計(jì)算機(jī)性能的增強(qiáng),深度學(xué)習(xí)模型的優(yōu)勢日益明顯。其中,深度神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)特征提取、復(fù)雜函數(shù)表達(dá)及泛化能力[12]。深度信念網(wǎng)絡(luò)作為深度神經(jīng)網(wǎng)絡(luò)的一種,能夠?qū)⑤斎胄畔⒂成涞礁呔S空間,發(fā)現(xiàn)并提取數(shù)據(jù)魯棒性隱藏特征,對于復(fù)雜非線性模型有更強(qiáng)的學(xué)習(xí)能力[13]。
本文利用深層網(wǎng)絡(luò)較強(qiáng)的特征學(xué)習(xí)能力,提出一種基于改進(jìn)深度信念網(wǎng)絡(luò)的軋制力預(yù)報(bào)模型。隱含層加入去噪機(jī)制可以對輸入訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,濾除數(shù)據(jù)中的噪聲干擾,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。改進(jìn)對比散度算法對采樣梯度進(jìn)行修正,使得網(wǎng)絡(luò)進(jìn)行參數(shù)更新迭代時(shí)都能最大程度的趨向于真實(shí)梯度,加快網(wǎng)絡(luò)的訓(xùn)練速度。
深度神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的最新研究成果,具有淺層網(wǎng)絡(luò)無可比擬的優(yōu)勢。冷連軋過程存在外部環(huán)境干擾會產(chǎn)生噪聲數(shù)據(jù),為了濾除噪聲,在標(biāo)準(zhǔn)受限玻爾茲曼機(jī)(restricted Boltzmann machines,RBM)基礎(chǔ)上引入去噪機(jī)制構(gòu)建深度網(wǎng)絡(luò)模型,克服標(biāo)準(zhǔn)RBM網(wǎng)絡(luò)對噪聲處理差的缺陷,提升軋制力預(yù)測精度。
受限玻爾茲曼機(jī)是一種包含可視層和隱含層的馬爾科夫隨機(jī)神經(jīng)網(wǎng)絡(luò)概率圖模型[14]。其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)下層為可視層,由神經(jīng)元vi組成,用于訓(xùn)練數(shù)據(jù)的輸入。網(wǎng)絡(luò)上層為隱含層,由神經(jīng)元hj組成,作用為特征提取器,可以學(xué)習(xí)到輸入訓(xùn)練數(shù)據(jù)的關(guān)聯(lián)特征。ai為輸入神經(jīng)元的偏置向量,bi為隱含層神經(jīng)元的偏置向量。
圖1 RBM網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖Fig.1 Network topology diagram of RBM
為了保證可視層與隱含層之間的條件獨(dú)立性,RBM網(wǎng)絡(luò)具有層內(nèi)無連接,層間全連接的特點(diǎn)。本文將二值受限玻爾茲曼機(jī)作為研究對象,隨機(jī)變量(V,H)的取值范圍是(v,h)∈(0,1)。在描述RBM網(wǎng)絡(luò)時(shí)引入能量函數(shù)[15],能量函數(shù)定義:
(1)
式中:wj,i為輸入神經(jīng)元i和隱層神經(jīng)元j之間的連接權(quán)重向量。網(wǎng)絡(luò)模型參數(shù)為θ={wj,i,ai,bj}?;谀芰亢瘮?shù),狀態(tài)(v,h)的聯(lián)合概率分布為:
(2)
式中Zθ為配分函數(shù),Zθ=∑v,he-Eθ(v,h)。
由聯(lián)合概率分布可以得到邊緣概率分布:
(3)
(4)
當(dāng)給定一組輸入數(shù)據(jù)時(shí),隱含層第j個(gè)激活單元概率為:
P(hj=1|v)=
(5)
相應(yīng)的,當(dāng)隱含層數(shù)據(jù)確定后,輸入層神經(jīng)元的取值概率為:
(6)
式中:σ(x)為Relu激活函數(shù),可以將輸入數(shù)據(jù)x映射到0~1之間。
RBM網(wǎng)絡(luò)訓(xùn)練的目的是使得網(wǎng)絡(luò)學(xué)習(xí)到的數(shù)據(jù)特征分布盡可能的與原始輸入數(shù)據(jù)的特征分布相同,但是由于配分函數(shù)的存在,聯(lián)合概率分布函數(shù)Pθ(v,h)求解較為復(fù)雜?;趯Ρ壬⒍人惴ǖ募妓钩闃涌梢越鉀Q這一問題。
標(biāo)準(zhǔn)受限玻爾茲曼機(jī)模型在訓(xùn)練樣本數(shù)據(jù)時(shí),由于數(shù)據(jù)中包含背景噪聲,導(dǎo)致網(wǎng)絡(luò)隱含層學(xué)習(xí)到的數(shù)據(jù)分布特征不能匹配原始數(shù)據(jù)固有特征,因此會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)性能下降,影響最終預(yù)測結(jié)果。
因此,在標(biāo)準(zhǔn)受限波爾茲曼機(jī)網(wǎng)絡(luò)模型的基礎(chǔ)上,將去噪機(jī)制加入到隱層神經(jīng)元中,建立去噪受限玻爾茲曼機(jī)模型。對比標(biāo)準(zhǔn)RBM網(wǎng)絡(luò)模型,去噪受限玻爾茲曼機(jī)網(wǎng)絡(luò)模型將隱含層分為兩組。在網(wǎng)絡(luò)迭代訓(xùn)練期間,目標(biāo)特征出現(xiàn)的頻率高于背景噪聲,因此其對應(yīng)的隱層神經(jīng)元被激活的次數(shù)更多,并且激活值更大[16]。根據(jù)此特點(diǎn),對隱層神經(jīng)元進(jìn)行分組。給定分組閾值函數(shù)為:
(7)
式中:fi(x)為隱層第i個(gè)神經(jīng)元的活躍度;K為隱層神經(jīng)元的個(gè)數(shù);θi為隱層第i個(gè)神經(jīng)元的輸出值。
隱層分組依據(jù):將整體隱層輸出看作單位“1”,當(dāng)某個(gè)隱層神經(jīng)元的活躍度大于閾值函數(shù)設(shè)定值后(0.8),將該神經(jīng)元看作是數(shù)據(jù)特征提取單元,否則看作是噪聲背景單元。之后,在每次吉布斯采樣迭代算法過程中,逐漸降低噪聲背景單元的權(quán)重,以減小噪聲對數(shù)據(jù)特征提取的干擾。
為了獲得高精度的預(yù)測結(jié)果,本文將多個(gè)去噪受限波爾茲曼機(jī)進(jìn)行疊加組成深度信念網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
圖2 深度網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.2 Deep network overall structure
定義網(wǎng)絡(luò)重構(gòu)代價(jià)函數(shù):
(8)
(9)
式中:第1項(xiàng)為均方差項(xiàng),可以使重構(gòu)誤差達(dá)到最小;第2項(xiàng)為權(quán)重衰減項(xiàng);λ為權(quán)重衰減系數(shù),其目的可以減小權(quán)重幅度,防止過度擬合;m為樣本數(shù)據(jù)個(gè)數(shù);v為輸入層節(jié)點(diǎn)數(shù)目;h為隱層節(jié)點(diǎn)數(shù)目。RBM網(wǎng)絡(luò)訓(xùn)練精度越高,隱層對輸入層的重構(gòu)誤差越小,即網(wǎng)絡(luò)的重構(gòu)代價(jià)函數(shù)越小。
網(wǎng)絡(luò)訓(xùn)練標(biāo)準(zhǔn)算法為對比散度(contrastive divergence,CD)算法,以吉布斯采樣為基礎(chǔ),通過多步吉布斯采樣來獲得一定精度的目標(biāo)采樣,進(jìn)而獲得最終的目標(biāo)梯度近似值。RBM訓(xùn)練的目的是通過調(diào)節(jié)網(wǎng)絡(luò)權(quán)值,讓隱層節(jié)點(diǎn)狀態(tài)值最大程度的重構(gòu)輸入層節(jié)點(diǎn)的狀態(tài)值,此時(shí),RBM可以用來表示輸入數(shù)據(jù)的分布特征。算法本質(zhì)上是通過吉布斯采樣迭代獲得的采樣梯度來近似估算似然函數(shù)的真實(shí)梯度。由于采樣迭代次數(shù)有限,用于梯度計(jì)算的樣本與實(shí)際分布的樣本之間存在差異,包括數(shù)值誤差和方向誤差,從而導(dǎo)致網(wǎng)絡(luò)無法收斂到精確值[17]。針對此問題,在對梯度誤差進(jìn)行分析的基礎(chǔ)上,建立梯度修正模型,同時(shí)對采樣梯度的大小和方向進(jìn)行修正,并將其應(yīng)用到CD算法上,重新定義RBM網(wǎng)絡(luò)訓(xùn)練代價(jià)函數(shù):
(10)
式中:第1項(xiàng)為重構(gòu)誤差代價(jià)函數(shù)的負(fù)值,函數(shù)值越小,對應(yīng)負(fù)值越大;第2項(xiàng)為樣本數(shù)據(jù)分布的對數(shù)似然函數(shù),基于對數(shù)最大似然估計(jì)方法,RBM網(wǎng)絡(luò)訓(xùn)練的目的就是求得使似然函數(shù)達(dá)到最大的參數(shù)值。本文用該代價(jià)梯度作為梯度修正項(xiàng)來修正由采樣算法求得的近似梯度,這樣就極大的提高了梯度方向計(jì)算時(shí)的正確性。由于該采樣算法可以以較快的速度逼近待求參數(shù)收斂區(qū)域,所以能夠加快網(wǎng)絡(luò)訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練偽代碼如表1所示。
表1 算法流程偽代碼Tab.1 Algorithm flow pseudo code
表1中:
Δwij=η[P(h(0)=1|v(0))v(0)T-P(h(1)=
1|v(1)T)]
(11)
Δai=η[v(0)-v(1))]
(12)
Δbj=η[P(h(0)=1|v(0))-P(h(1)=1|v(1))]
(13)
以某鋼廠1 200 mm四輥五機(jī)架冷連軋生產(chǎn)線第4機(jī)架軋制過程中9 000條軋制數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,鋼種為St16。取其中8 000條數(shù)據(jù)用作網(wǎng)絡(luò)訓(xùn)練,1 000條數(shù)據(jù)用作網(wǎng)絡(luò)測試。深度網(wǎng)絡(luò)訓(xùn)練集分為80個(gè)batch塊,batch-size=100。每次隨機(jī)選取一個(gè)batch塊進(jìn)行訓(xùn)練,直到所有數(shù)據(jù)訓(xùn)練完畢。數(shù)據(jù)選取范圍如表2所示。
表2 輸入數(shù)據(jù)及網(wǎng)絡(luò)參數(shù)Tab.2 Input data and network parameters
傳統(tǒng)軋制力預(yù)報(bào)采用數(shù)學(xué)機(jī)理建模[18]方法,即基于Bland-Ford-Hill公式的簡化式進(jìn)行建模:
(14)
(15)
式中:μ為摩擦系數(shù);ε為壓下率,ε=(h0-h1)/h0;R′為軋輥壓扁后的輥徑。摩擦系數(shù)μ隨著軋制生產(chǎn)環(huán)境的變化而不斷變化,且易受帶材速度的影響,無法用公式精確計(jì)算得到。因此在用神經(jīng)網(wǎng)絡(luò)建模時(shí),不將其作為輸入節(jié)點(diǎn),而是利用網(wǎng)絡(luò)的自適應(yīng)性將其包含在網(wǎng)絡(luò)的內(nèi)部[19]。綜合考慮影響軋制力預(yù)測精度的各種因素,最終選取板帶寬度B,初始厚度H,入口厚度h0,出口厚度h1,入口張力τf,出口張力τb,軋輥半徑R,出口帶材線速度v這8個(gè)變量作為模型輸入,軋制力P作為模型輸出。本文采用深度信念網(wǎng)絡(luò)方法進(jìn)行建模。深度信念網(wǎng)絡(luò)用來提取輸入數(shù)據(jù)的隱含高維特征,然后將其傳遞給回歸器進(jìn)行預(yù)測,可以學(xué)習(xí)到輸入數(shù)據(jù)的特征分布,在一定程度上提高了預(yù)報(bào)精度。
為了提高預(yù)測精度,將多個(gè)去噪受限玻爾茲曼機(jī)進(jìn)行疊加組成深度信念網(wǎng)絡(luò),但隨著網(wǎng)絡(luò)層數(shù)的加深,過擬合現(xiàn)象的問題也會出現(xiàn)。同時(shí),預(yù)測精度跟訓(xùn)練周期也存在較大的關(guān)聯(lián)。預(yù)測精度、網(wǎng)絡(luò)層數(shù)、訓(xùn)練周期三者的關(guān)系如圖3所示。
圖3 不同網(wǎng)絡(luò)層數(shù)、訓(xùn)練周期和預(yù)測正確率的關(guān)系圖Fig.3 Relationship diagram between different network layers,training period and prediction accuracy rate
由圖3可以看出,當(dāng)?shù)螖?shù)固定時(shí),網(wǎng)絡(luò)層數(shù)從一層增加到四層,預(yù)測結(jié)果正確率顯著提高,當(dāng)網(wǎng)絡(luò)層數(shù)繼續(xù)增加時(shí),正確率出現(xiàn)下降的趨勢;當(dāng)網(wǎng)絡(luò)層數(shù)固定時(shí),隨著訓(xùn)練周期的增加,預(yù)測正確率呈現(xiàn)上升趨勢。綜合考慮三者關(guān)系,當(dāng)網(wǎng)絡(luò)層數(shù)為4層,迭代次數(shù)為320時(shí),正確率最高。因此,設(shè)置網(wǎng)絡(luò)層數(shù)為4層,迭代次數(shù)為320。網(wǎng)絡(luò)輸入層為影響軋制力的8個(gè)變量。隱含層節(jié)點(diǎn)數(shù)目與預(yù)測正確率關(guān)系如圖4所示。從圖4可以看出,當(dāng)節(jié)點(diǎn)數(shù)目為32時(shí),正確率達(dá)到最高,所以各隱含層神經(jīng)元數(shù)量設(shè)定為32個(gè),即網(wǎng)絡(luò)結(jié)構(gòu)為8-32-32-32-32-1。
圖4 不同隱含層節(jié)點(diǎn)個(gè)數(shù)與預(yù)測正確率關(guān)系圖Fig.4 Relationship between number of nodes in different hidden layers and prediction accuracy rate
在網(wǎng)絡(luò)訓(xùn)練過程中,首先使用標(biāo)準(zhǔn)CD算法進(jìn)行訓(xùn)練,訓(xùn)練步驟如文中第2節(jié)所述。然后在標(biāo)準(zhǔn)CD算法基礎(chǔ)上,建立梯度修正模型,使得梯度下降方向最大程度的擬合真實(shí)梯度,加快網(wǎng)絡(luò)收斂速度。標(biāo)準(zhǔn)CD 算法以及對其改進(jìn)后,誤差與迭代次數(shù)關(guān)系如圖5所示。
圖5 不同算法對比圖Fig.5 Comparison of different algorithms
由圖5可以看出,在迭代次數(shù)相同的情況下,加入梯度修正模型后的CD算法在訓(xùn)練初期可以加快網(wǎng)絡(luò)的收斂速度,縮短訓(xùn)練時(shí)間。
為了將數(shù)據(jù)中的噪聲去除,將去噪機(jī)制加入到網(wǎng)絡(luò)訓(xùn)練過程中,以此來提高網(wǎng)絡(luò)學(xué)習(xí)能力。圖6為加入去噪機(jī)制前與加入去噪機(jī)制后的軋制力預(yù)測結(jié)果對比圖,圖6中2條實(shí)線為±5%誤差線,可以看出,去噪模型的預(yù)測效果更加優(yōu)異,有更多的結(jié)果落在5%誤差帶以內(nèi)。
圖6 預(yù)測結(jié)果對比圖Fig.6 Forecast result comparison chart
圖7為2種網(wǎng)絡(luò)模型對軋制力預(yù)測的預(yù)測值和真實(shí)值的擬合曲線。從圖7可以看出,去噪受限玻爾茲曼機(jī)可以較為準(zhǔn)確地實(shí)現(xiàn)軋制力的預(yù)測,滿足實(shí)際生產(chǎn)需求。
圖7 不同模型軋制力預(yù)測值與真實(shí)值的擬合曲線Fig.7 Fitting curves of the predicted value of rolling force and the true value of different models
圖8為不同網(wǎng)絡(luò)層數(shù)、迭代次數(shù)與相對誤差的關(guān)系圖,由圖可以看出,在網(wǎng)絡(luò)層數(shù)固定的情況下,相對誤差會隨著迭代次數(shù)的增多而不斷下降。當(dāng)?shù)螖?shù)固定時(shí),相對誤差值會隨著網(wǎng)絡(luò)層數(shù)的加深先降低然后升高,且網(wǎng)絡(luò)層數(shù)為4層時(shí)達(dá)到最小值,相對誤差大小為4.32%。
圖8 不同網(wǎng)絡(luò)層數(shù)、迭代次數(shù)與相對誤差的關(guān)系圖Fig.8 Relationship between different network layers,iterations and relative error
表3為不同模型各種參數(shù)的對比結(jié)果。由表3可以看出:1)極限學(xué)習(xí)機(jī)(單隱層神經(jīng)網(wǎng)絡(luò))由于隨機(jī)生成輸入權(quán)重向量以及隱層偏置向量,因此具有較快的建模速度,但淺層網(wǎng)絡(luò)對數(shù)據(jù)的學(xué)習(xí)能力欠佳,預(yù)測結(jié)果有待提高;2)棧式自編碼網(wǎng)絡(luò)較極限學(xué)習(xí)機(jī)具有更高的預(yù)測精度,但是建模時(shí)間較長;3)多層感知器[20]未使用深度學(xué)習(xí)算法,模型出現(xiàn)梯度彌散現(xiàn)象,未收斂;4)本文提出的改進(jìn)深度信念網(wǎng)絡(luò)相比于淺層神經(jīng)網(wǎng)絡(luò),預(yù)測精度有很大提高,相比于棧式自編碼,建模所需時(shí)間縮短。
表3 不同模型各項(xiàng)參數(shù)對比圖Tab.3 Comparison of various parameters of different models (%)
1)本文使用多隱層深度信念網(wǎng)絡(luò)建立軋制力預(yù)測模型,解決單隱層網(wǎng)絡(luò)預(yù)測精度低的問題。針對深度網(wǎng)絡(luò)會陷入過擬合的固有缺陷,分析了網(wǎng)絡(luò)層數(shù)與相對誤差之間的關(guān)系,以確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。
2)針對訓(xùn)練數(shù)據(jù)存在的噪聲干擾,在網(wǎng)絡(luò)的隱層中引入去噪機(jī)制,對輸入數(shù)據(jù)進(jìn)行預(yù)處理,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。同時(shí)使用改進(jìn)CD算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以加快網(wǎng)絡(luò)的收斂速度。
3)實(shí)驗(yàn)結(jié)果表明,該模型較淺層網(wǎng)絡(luò)可以提高軋制力預(yù)測精度,并在一定程度上縮短了建模時(shí)間。