張淵碩 王子涵
摘要:石墨化是石墨電極生產(chǎn)核心環(huán)節(jié),石墨電極位移預(yù)測(cè)的準(zhǔn)確性和有效性對(duì)電極的生產(chǎn)質(zhì)量具有重大意義。文章針對(duì)內(nèi)串石墨化工藝參數(shù)與位移數(shù)據(jù)之間的關(guān)系進(jìn)行建模,提出了一種引入注意力機(jī)制下的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)混合石墨電極位移預(yù)測(cè)模型。為有效解決時(shí)間序列重要程度差異性問題,在傳統(tǒng)SE注意力機(jī)制中增加了雙重SE注意力并行模塊,并用BiLSTM通過兩個(gè)方向來發(fā)掘時(shí)間序列信息,有效提高模型預(yù)測(cè)度。實(shí)驗(yàn)結(jié)果表明,文章提出的混合網(wǎng)絡(luò)模型能夠?qū)κ姌O位移進(jìn)行有效預(yù)測(cè),且相比于傳統(tǒng)的SE-CNN-BiLSTM方法和主流預(yù)測(cè)方法預(yù)測(cè)準(zhǔn)確度更高。
關(guān)鍵詞: 內(nèi)串石墨化;石墨電極位移;卷積神經(jīng)網(wǎng)絡(luò);雙向長(zhǎng)短期記憶;注意力機(jī)制
中圖分類號(hào):TP391.41? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)31-0051-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :<G:\飛翔打包文件一\電腦2023年第三十一期打包文件\9.01xs202331\Image\image256.jpeg>
0 引言
石墨化工藝的作用是使焙燒品的六角碳原子平面網(wǎng)絡(luò)從二維空間的無序重疊轉(zhuǎn)變?yōu)槿S空間的有序重疊并具有石墨結(jié)構(gòu)的高溫?zé)崽幚磉^程[1],要達(dá)到這個(gè)目的,大多數(shù)碳素企業(yè)通過電流加熱的方式使制品溫度最終達(dá)到2300~3000℃。由于其利用電極本體發(fā)熱,通過電極的電流密度分布比較均勻[2],可有效地降低能耗。在內(nèi)串石墨化生產(chǎn)過程中,隨著溫度的不斷升高,制品會(huì)產(chǎn)生膨脹,為保證在石墨化送電過程中制品不因加熱過快而出現(xiàn)裂紋等次品,整個(gè)串接柱的膨脹量是工藝師傅重點(diǎn)參考的數(shù)值,膨脹量主要通過外接的位移傳感器來實(shí)現(xiàn)數(shù)據(jù)監(jiān)測(cè)。
石墨化爐阻、爐溫等工藝參數(shù)都呈現(xiàn)出很強(qiáng)的非線性和不確定性,用數(shù)學(xué)回歸方法很難得到精確模型[3]。將深度學(xué)習(xí)技術(shù)應(yīng)用到石墨化時(shí)序數(shù)據(jù)的石墨電極位移預(yù)測(cè)中,可以更好地發(fā)掘出石墨化工藝參數(shù)與石墨電極位移之間的關(guān)系,對(duì)于石墨電極的生產(chǎn)質(zhì)量有顯著提高。文獻(xiàn)[4-5]采用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)技術(shù)對(duì)焙燒控制進(jìn)行改進(jìn),但其對(duì)長(zhǎng)期依賴問題表現(xiàn)不佳。文獻(xiàn)[6]采用LSTM模型對(duì)鋁用陽極質(zhì)量進(jìn)行預(yù)測(cè),對(duì)焙燒成品率有顯著提高,但采用單一模型進(jìn)行預(yù)測(cè)存在精度差和訓(xùn)練時(shí)間較長(zhǎng)的問題。文獻(xiàn)[7]基于CNN-LSTM模型對(duì)NOX濃度進(jìn)行預(yù)測(cè),利用CNN對(duì)機(jī)組運(yùn)行相關(guān)參數(shù)的時(shí)間序列數(shù)據(jù)進(jìn)行特征提取,使各參數(shù)的序列特征更加明顯。但LSTM僅在一個(gè)方向上傳遞信息,無法同時(shí)獲取過去和未來的上下文信息。文獻(xiàn)[8]基于CNN-BiLSTM混合模型對(duì)短期風(fēng)電功率進(jìn)行預(yù)測(cè),雖然采用BiLSTM同時(shí)挖掘未來和過去的時(shí)間序列信息來提高預(yù)測(cè)精度,但CNN在進(jìn)行特征提取時(shí),對(duì)于每個(gè)通道的特征圖采用相同的權(quán)重和處理方式,沒有明確地考慮通道間的相關(guān)性和重要性差異。
根據(jù)上述情況,本文提出了一種在雙重SE注意力機(jī)制下的CNN-BiLSTM混合預(yù)測(cè)模型。首先應(yīng)用CNN對(duì)輸入數(shù)據(jù)進(jìn)行卷積處理,增強(qiáng)輸入與輸出之間的相關(guān)性;然后SE模塊對(duì)卷積得到的特征圖進(jìn)行操作,從而增強(qiáng)重要通道的表達(dá);最后通過BiLSTM網(wǎng)絡(luò)對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文所提出的方法可以有效地提高預(yù)測(cè)精度。
1 模型建立
1.1 卷積神經(jīng)網(wǎng)絡(luò)
CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))[9]是一種常用于圖像處理、模式識(shí)別等領(lǐng)域的深度學(xué)習(xí)網(wǎng)絡(luò)。
CNN的核心思想是利用卷積運(yùn)算提取局部特征,其結(jié)構(gòu)圖如圖1所示,通過堆疊多層卷積層和池化層來逐漸抽象出更高層次的特征表示,并最終完成分類或回歸任務(wù)。在卷積層中,通常由多個(gè)特征平面組成,每個(gè)特征平面均由一組矩形排列的神經(jīng)元構(gòu)成,這些神經(jīng)元共享同一組權(quán)重參數(shù),即卷積核。在網(wǎng)絡(luò)前向傳播過程中,卷積核會(huì)與前一層的局部區(qū)域連接并進(jìn)行卷積運(yùn)算,以提取前一層特征的關(guān)鍵信息。計(jì)算公式如式(1)所示:
[XLj=f(i∈MjXL-1i*KLj+bLj)]? (1)
式中:[Mj]為輸入特征圖;[KLj]為特征對(duì)應(yīng)的卷積核;[KLj],[XL-1i]分別為第L層、第L[-]1層的特征圖;*為卷積運(yùn)算;[bLj]為第L層的偏置單元;[fx]為激活函數(shù)。
而在池化層中,則會(huì)對(duì)特征圖進(jìn)行下采樣,減小特征圖大小,同時(shí)保留最顯著的特征。除了卷積和池化層之外,CNN還包括全連接層、激活函數(shù)、損失函數(shù)等一系列組件,可以通過反向傳播算法來更新權(quán)重和偏置參數(shù),優(yōu)化網(wǎng)絡(luò)性能。綜上所述,CNN具有局部感知性、權(quán)值共享、平移不變性等特點(diǎn),使其在處理數(shù)據(jù)方面表現(xiàn)出色。
1.2 SE注意力機(jī)制
SE(Squeeze-and-Excitation)注意力機(jī)制[10]是一種用于提升神經(jīng)網(wǎng)絡(luò)性能的自適應(yīng)機(jī)制,它可以自適應(yīng)地學(xué)習(xí)每個(gè)通道的重要性,并賦予網(wǎng)絡(luò)更強(qiáng)的區(qū)分能力。SE注意力模型由2個(gè)主要部分組成:擠壓(Squeeze)操作和激勵(lì)(Excitation)操作。其中,Squeeze操作是對(duì)輸入特征圖進(jìn)行全局平均池化,將每個(gè)通道的特征壓縮成一個(gè)標(biāo)量,以獲得全局的上下文信息。Excitation操作則是對(duì)Squeeze操作的輸出進(jìn)行激活,通過多層感知機(jī)(MLP)模型來對(duì)每個(gè)通道賦予不同的權(quán)重,從而達(dá)到增強(qiáng)關(guān)鍵通道、壓縮無用通道的目的。
SE注意力模型的主要優(yōu)點(diǎn)是可遷移性好,可以方便地嵌入各種結(jié)構(gòu)中,例如卷積神經(jīng)網(wǎng)絡(luò)、全連接層等。同時(shí),由于可以精準(zhǔn)地選擇需要關(guān)注的信息,因此大幅減少了模型的參數(shù)量,提高了網(wǎng)絡(luò)運(yùn)行效率。圖2為SE模塊模型圖,[X']為原始輸入數(shù)據(jù),[H']為原始輸入的空間高度,[W']為原始輸入的空間寬度,[C']為原始輸入的通道數(shù),[X]為卷積操作后的特征圖,[H]為卷積操作后的高度,[W]為卷積操作后的空間寬度,[C]為卷積操作后特征的通道。
首先,F(xiàn)tr這一步是轉(zhuǎn)換操作,是對(duì)輸入特征進(jìn)行一次卷積,對(duì)于任何給定的變換Ftr映射輸入[X]到特征映射[U],定義如公式(2)所示:
[Ftr:X→U,X∈RH'×W'×C',U∈RH×W×C]? (2)
接下來就是Squeeze操作通過采用全局平均池化,將輸入特征圖在空間維度上進(jìn)行降維,提取全局信息。這有助于捕捉輸入特征圖的整體上下文信息,不僅局限于局部區(qū)域,具體計(jì)算公式如式(3)所示:
[z=Fsq(x)=1H×Wi=1Hj=1Wuc(i,j)]? (3)
其中,[z]表示全局特征,[Fsq]表示擠壓操作,[x]表示輸入特征圖,[H]為特征圖的高度,[W]為特征圖的寬度,[uc(i,j)]為第[i]行第j列像素的特征向量。因此公式就將U[H×W×C]的輸入轉(zhuǎn)換成Z[1×1×C]的輸出,C為輸入特征圖的通道數(shù)。Excitation操作主要目的是激活學(xué)習(xí)到的通道相關(guān)性,通過使用Sigmoid函數(shù)將學(xué)習(xí)到的通道相關(guān)性轉(zhuǎn)化為0~1的概率值,表示每個(gè)通道重要性得分。這些得分用于加權(quán)每個(gè)通道的特征響應(yīng),使得重要的通道特征得到加強(qiáng),而不重要的通道特征得到抑制,其公式如式(4)所示:
[s=fex(z,W)=σ(W2δ(W1z))]? (4)
其中,[s]表示激勵(lì)得分向量,[fex]表示為激勵(lì)操作,[W1∈RCr×C]表示[Cr]行[C]列的權(quán)重矩陣,[W2∈RC×Cr]表示[C]行[Cr]列的權(quán)重矩陣,[r]代表縮放比例,[σ]為Sigmoid函數(shù),[δ]為ReLU激活函數(shù)。
考慮到傳統(tǒng)SE注意力機(jī)制僅采用全局平均池化操作來壓縮特征圖信息,容易產(chǎn)生信息丟失問題。因此為了彌補(bǔ)SE注意力機(jī)制的這一缺陷,本文提出了一種雙重注意力機(jī)制[11]。即在傳統(tǒng)的SE注意力機(jī)制上,另設(shè)一條SE注意力機(jī)制,其中采用最大池化來提取整張?zhí)卣鲌D的空間像素信息。進(jìn)而將兩條SE注意力機(jī)制的初步加權(quán)結(jié)果相加,進(jìn)而輸入至Sigmoid函數(shù)中,為各通道賦予0~1的權(quán)重,改進(jìn)網(wǎng)絡(luò)模型圖如圖3所示。
其中,Inception表示Ftr轉(zhuǎn)化;gmpool、gapool分別表示最大池化和全局平均池化;FC表示全連接層,ReLU為激活函數(shù);addition表示權(quán)重相加;Sigmoid表示激活函數(shù)。
1.3 BiLSTM模型
長(zhǎng)短期記憶網(wǎng)絡(luò)[12]是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種,用于時(shí)序數(shù)據(jù)預(yù)測(cè)等。與傳統(tǒng)RNN相比,LSTM添加了更多的結(jié)構(gòu),通過設(shè)計(jì)門限結(jié)構(gòu)解決了傳統(tǒng)RNN存在的缺陷,并且具有較長(zhǎng)的短期記憶,效果更好。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),主要是通過精心設(shè)計(jì)的“門”結(jié)構(gòu)來實(shí)現(xiàn)去除或增加信息到細(xì)胞狀態(tài)的功能。
其計(jì)算如公式(5)~公式(10)所示:
[it=σ(Wi?[ht-1,xt]+bi)]? (5)
[ft=σ(Wf?[ht-1,xt]+bf)]? (6)
[ot=σ(Wo?[ht-1,xt]+bo)]? (7)
[ct=tanh(Wc?[ht-1,xt]+bc)] (8)
[ct=it×ct+ct-1×ft]? (9)
[ht=ot×tanh(ct)]? (10)
其中,s 為 sigmoid 激活函數(shù),[ft]、[ct]、[ot]分別表示遺忘門、輸入門和輸出門的輸出,[W]為神經(jīng)元的權(quán)重,[b]為神經(jīng)元的偏差。
BiLSTM[13]由2個(gè)方向的LSTM組成,其中一個(gè)LSTM按時(shí)間順序處理序列,另一個(gè)LSTM按時(shí)間逆序處理序列,其結(jié)構(gòu)圖4如所示,每個(gè)LSTM層都由多個(gè)LSTM神經(jīng)元組成,每個(gè)神經(jīng)元可以保留一個(gè)內(nèi)部狀態(tài),以便于捕捉序列中潛在的長(zhǎng)期依賴關(guān)系。LSTM層還包括輸入門、遺忘門和輸出門,這些門控制著神經(jīng)元如何處理輸入數(shù)據(jù)以及維護(hù)其內(nèi)部狀態(tài)。
在正向和反向LSTM處理完輸入序列之后,它們的輸出會(huì)被拼接在一起作為BiLSTM的最終輸出結(jié)果,以提供更全面和豐富的特征信息。
2 模型設(shè)計(jì)
2.1 數(shù)據(jù)預(yù)處理
1) 數(shù)據(jù)采集
本文采用邯鄲市成安縣某炭素廠2022年4月27日—2023年6月20日的15分鐘數(shù)據(jù),通過邊緣計(jì)算網(wǎng)關(guān)進(jìn)行實(shí)時(shí)采集,在后端通過API接口獲取數(shù)據(jù)庫中的數(shù)據(jù)。由于獲取的數(shù)據(jù)較完整,只對(duì)數(shù)據(jù)中出現(xiàn)的個(gè)別空值采用向上賦值法進(jìn)行賦值。
2) 數(shù)據(jù)處理
為了確保模型訓(xùn)練的有效性,對(duì)于包含不同特征值且存在量綱差異和數(shù)值差異較大的數(shù)據(jù)集,采用輸入數(shù)據(jù)歸一化方法以降低其對(duì)模型訓(xùn)練產(chǎn)生的消極影響。其計(jì)算公式如式(11)所示:
[x?=x-xmax+xmin2xmax-xmin2]? (11)
2.2 石墨電極位移預(yù)測(cè)模型設(shè)計(jì)
本文采用雙重SE注意力機(jī)制下的CNN-BiLSTM混合預(yù)測(cè)模型進(jìn)行石墨電極位移預(yù)測(cè),模型結(jié)構(gòu)如圖5所示。首先,將經(jīng)過預(yù)處理的數(shù)據(jù)輸入網(wǎng)絡(luò),通過第一層卷積對(duì)數(shù)據(jù)進(jìn)行特征提取,通過激活層到第二層卷積更加細(xì)致地對(duì)特征進(jìn)行提取。本文的模型結(jié)構(gòu)采用了兩層卷積作為特征提取層,考慮到池化層的加入會(huì)產(chǎn)生信息丟失的問題,因此不再引入池化操作。然后用SE注意力機(jī)制建立特征之間的相互依賴性,雙重SE注意力機(jī)制被放置在CNN最后一層卷積層與BiLSTM層之間的連接處。隨后通過Flatten降維層將SE注意力模塊與BiLSTM模塊相連接,最終通過全連接層輸出結(jié)果。
<G:\飛翔打包文件一\電腦2023年第三十一期打包文件\9.01xs202331\Image\image298.png>
圖5? 基于DSE-CNN-BiLSTM的石墨電極位移預(yù)測(cè)模型
2.3 模型評(píng)價(jià)指標(biāo)
為了更進(jìn)一步對(duì)所提出的DSE-CNN-BiLSTM混合網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行評(píng)估,本文采用RMSE和MAE作為誤差評(píng)價(jià)指標(biāo)。上述指標(biāo)值越小則代表預(yù)測(cè)準(zhǔn)確性越高。具體計(jì)算公式如式(12)~式(13)所示:
[ERMSE=1Ni=1N(yi-y)2] (12)
[EMAE=1Ni=1Nyi-y] (13)
式中:[yi]為樣本[i]的真實(shí)值;[y]為真實(shí)值序列的均值;[y]為樣本[i]的模型預(yù)測(cè)值。
3 實(shí)驗(yàn)分析
本文對(duì)采集到的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,前80%作為訓(xùn)練集,總計(jì)4 800條;后20%作為測(cè)試集,總計(jì)1 200條。模型采用adam優(yōu)化器和mini-batch梯度下降法,訓(xùn)練批次設(shè)為256,迭代次數(shù)為100,進(jìn)行15分鐘的石墨電極位移預(yù)測(cè),圖6為6種模型的預(yù)測(cè)結(jié)果,分別為L(zhǎng)STM、GRU[13]、CNN-LSTM[14]、CNN-BiLSTM、SE-CNN-BiLSTM、DSE-CNN-BiLSTM模型。圖6中橫軸為預(yù)測(cè)樣本數(shù),縱軸為石墨電極位移預(yù)測(cè)值。
為進(jìn)一步驗(yàn)證本文所提出模型的預(yù)測(cè)優(yōu)勢(shì),采用上述6種模型在相同數(shù)據(jù)和環(huán)境下進(jìn)行對(duì)比,圖7為預(yù)測(cè)對(duì)比圖,圖中橫軸為預(yù)測(cè)樣本數(shù),縱軸為石墨電極位移預(yù)測(cè)值。可以看出DSE-CNN-BiLSTM預(yù)測(cè)值與實(shí)際值更接近,優(yōu)于其他5種模型。
其中,模型1~5分別為SE-CNN-BiLSTM、LSTM、GRU、CNN-LSTM、CNN-BiLSTM模型,主模型為DSE-CNN-BiLSTM模型[15]。
表1為6種模型對(duì)15min尺度的石墨電極位移預(yù)測(cè)評(píng)價(jià)指標(biāo)值。從表1中可以看出,本文所提出的模型誤差低于其他5種模型誤差,對(duì)石墨電極位移可以更好地預(yù)測(cè)。
4 結(jié)束語
本文提出了一種引進(jìn)注意力機(jī)制下的CNN和BiLSTM混合石墨電極位移預(yù)測(cè)模型。在傳統(tǒng)SE注意力機(jī)制中加入了并行模塊,通過加入最大池化操作來更好地挖掘重要的輸入信息。通過大量實(shí)驗(yàn)和研究表明,基于DSE-CNN-BiLSTM模型相比傳統(tǒng)SE-CNN-BiLSTM和市面上主流的4種預(yù)測(cè)模型有著更高的預(yù)測(cè)精度,更小的誤差,對(duì)于石墨電極位移的預(yù)測(cè)有著更有效的預(yù)警意義。
參考文獻(xiàn):
[1] 顧鵬,馮俊杰,張勝恩.內(nèi)串石墨化爐爐體的優(yōu)化與改進(jìn)[J].炭素技術(shù),2019,38(5):64-67.
[2] 劉炳強(qiáng),趙修富,馬廣禧.淺談內(nèi)串石墨化送電曲線的制定與調(diào)整[J].炭素技術(shù),2010,29(5):41-43.
[3] 曲麗萍,曲永印,薛海波.石墨化爐人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)控制的研究[J].控制工程,2006,13(5):466-468.
[4] 姜潮陽,文克,劉予湘,等.BP神經(jīng)網(wǎng)絡(luò)在預(yù)焙陽極生產(chǎn)中的應(yīng)用[J].炭素技術(shù),2001,20(1):38-41.
[5] 蘇志同,吳佳龍.預(yù)焙陽極配方焙燒塊質(zhì)量預(yù)測(cè)模型研究[J].計(jì)算機(jī)與數(shù)字工程,2019,47(8):2066-2069.
[6] 蘇志同,王春雷.基于LSTM的焙燒時(shí)序數(shù)據(jù)的質(zhì)量預(yù)測(cè)模型[J].軟件,2020,41(5):105-107,197.
[7] 王永林,白永峰,孔祥山,等.基于CNN-LSTM算法的脫硝優(yōu)化控制模型研究[J].綜合智慧能源,2023,45(6):25-33.
[8] 楊子民,彭小圣,熊予涵,等.計(jì)及鄰近風(fēng)電場(chǎng)信息與CNN-BiLSTM的短期風(fēng)電功率預(yù)測(cè)[J].南方電網(wǎng)技術(shù),2023,17(2):47-56.
[9] JIN K H,MCCANN M T,F(xiàn)roustey E,et al.Deep convolutional neural network for inverse problems in imaging[J].IEEE Transactions on Image Processing:a Publication of the IEEE Signal Processing Society,2017,26(9):4509-4522.
[10] 肖鵬程,徐文廣,張妍,等.基于SE注意力機(jī)制的廢鋼分類評(píng)級(jí)方法[J].工程科學(xué)學(xué)報(bào),2023,45(8):1342-1352.
[11] 蘇向敬,周汶鑫,李超杰,等.基于雙重注意力LSTM神經(jīng)網(wǎng)絡(luò)的可解釋海上風(fēng)電出力預(yù)測(cè)[J].電力系統(tǒng)自動(dòng)化,2022,46(7):141-151.
[12] YU Y,SI X S,HU C H,et al.A review of recurrent neural networks:LSTM cells and network architectures[J].Neural Computation,2019,31(7):1235-1270.
[13] MOHARM K,ELTAHAN M,Elsaadany E.Wind speed forecast using LSTM and Bi-LSTM algorithms over gabal el-zayt wind farm[C]//2020 International Conference on Smart Grids and Energy Systems (SGES).IEEE,2021:922-927.
[14] 李靜茹,姚方.引入注意力機(jī)制的CNN和LSTM復(fù)合風(fēng)電預(yù)測(cè)模型[J].電氣自動(dòng)化,2022,44(6):4-6.
[15] SHIRI F M,PERUMAL T,Mustapha N,et al.A comprehensive overview and comparative analysis on deep learning models:CNN,RNN,LSTM,GRU[EB/OL].[2023-06-01].2023:arXiv:2305.17473.https://arxiv.org/abs/2305.17473.pdf.
【通聯(lián)編輯:唐一東】