董 雪,何 苗
(寶雞文理學(xué)院 計(jì)算機(jī)學(xué)院,陜西 寶雞 721000)
隨著鋼鐵行業(yè)的不斷發(fā)展,鋼鐵材料成為現(xiàn)代人類社會(huì)使用最廣泛的材料之一,對(duì)于國民經(jīng)濟(jì)的持續(xù)提升具有重要作用。高爐煉鐵的發(fā)展可直接影響鋼鐵行業(yè)的節(jié)能降耗,但是高爐煉鐵過程中存在非線性、時(shí)間滯后以及大噪聲等特性,可增加溫度自動(dòng)化控制的復(fù)雜程度。為此本研究采用數(shù)據(jù)挖掘方法對(duì)高爐溫度特征進(jìn)行提取,并建立各變量之間的隱含關(guān)系,對(duì)于鋼鐵行業(yè)的發(fā)展具有重要意義。
數(shù)據(jù)挖掘?qū)儆谝环N適應(yīng)性綜合方法,可代表待選模型的反復(fù)產(chǎn)生過程,其中待選模型的復(fù)雜度處于逐漸增加的狀態(tài)。該方法的核心技術(shù)為GMDH,通過GMDH技術(shù)只需要完成初始輸入函數(shù)以及傳遞函數(shù)等的指定,即可從觀測(cè)樣本中自動(dòng)生成數(shù)據(jù)模型。為實(shí)現(xiàn)數(shù)據(jù)的深度挖掘,數(shù)據(jù)挖掘方法應(yīng)滿足三個(gè)核心條件:
(1)包含一個(gè)簡單的初始組織;
(2)可使組織產(chǎn)生突變的機(jī)制(該機(jī)制主要在訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上提出假設(shè));
(3)該方法內(nèi)部應(yīng)包含一個(gè)選擇機(jī)制,將組織改善作為目標(biāo)進(jìn)行突變的評(píng)價(jià)(該機(jī)制主要在檢測(cè)數(shù)據(jù)集的基礎(chǔ)上對(duì)假設(shè)進(jìn)行檢驗(yàn))[1]。
通過數(shù)據(jù)挖掘?qū)崿F(xiàn)模型建立時(shí),首先應(yīng)將樣本數(shù)據(jù)劃分為訓(xùn)練集以及檢測(cè)集,其中訓(xùn)練集中存在的高爐溫度控制數(shù)據(jù)主要用于模型建立中,包括參數(shù)估計(jì)數(shù)據(jù)以及結(jié)構(gòu)綜合數(shù)據(jù)等:檢測(cè)集中包含的數(shù)據(jù)僅在選擇最優(yōu)復(fù)雜度模型時(shí)被使用,在模型建立過程中不被使用。數(shù)據(jù)挖掘算法實(shí)際上是一種對(duì)數(shù)據(jù)進(jìn)行分組處理的方法,由數(shù)據(jù)挖掘算法中的樣本數(shù)據(jù)可完成各項(xiàng)數(shù)據(jù)挖掘技術(shù)的本質(zhì)區(qū)分,數(shù)據(jù)挖掘算法整體流程如圖1所示[2]。
數(shù)據(jù)挖掘算法整體流程主要在領(lǐng)域理論的基礎(chǔ)上進(jìn)行實(shí)現(xiàn),其運(yùn)作流程為:利用先驗(yàn)信息對(duì)數(shù)據(jù)挖掘模型知識(shí)提取能力進(jìn)行整體提升,知識(shí)的提取主要通過數(shù)據(jù)和科學(xué)理論結(jié)合的方法實(shí)現(xiàn)。該方法在一定程度上對(duì)領(lǐng)域理論具有完善作用,將其應(yīng)用于高爐溫度控制中,可向高爐提供獲取知識(shí)的方法或者新的理論范疇,有利于幫助高爐完成理論檢測(cè)。
歷史數(shù)據(jù)的數(shù)量及質(zhì)量可直接決定高爐溫度預(yù)測(cè)模型的性能。傳統(tǒng)高爐冶煉在基本輸入條件一定的情況下,數(shù)據(jù)異常以及數(shù)據(jù)缺失等情況發(fā)生的概率極高,易受到外界因素以及人為等因素的影響,從而產(chǎn)生低精度或者失效的測(cè)量數(shù)據(jù),若將該數(shù)據(jù)直接應(yīng)用于高爐溫度預(yù)測(cè)系統(tǒng)中,可造成系統(tǒng)整體性能的大幅度下降,最終無法保證高爐爐溫的精準(zhǔn)控制。并且高爐溫度控制預(yù)測(cè)模型建立過程中,系統(tǒng)內(nèi)部各輸入變量之間相互影響程度較大。為保證系統(tǒng)對(duì)高爐溫度控制的精準(zhǔn)性,應(yīng)在溫度控制之前完成高爐數(shù)據(jù)的預(yù)處理[3]。
通常情況下在高爐冶煉過程中,主要采用時(shí)間序列分析方法完成多輸入變量的時(shí)間序列數(shù)據(jù)處理,或者利用記錄儀以及觀察測(cè)量方法對(duì)數(shù)據(jù)集合進(jìn)行獲取。但是該方法可使數(shù)據(jù)出現(xiàn)錯(cuò)誤現(xiàn)象,不利于預(yù)測(cè)模型的精度。為保證數(shù)據(jù)集合的完整性,應(yīng)將其剔除,對(duì)于各輸入變量之間存在的耦合性,應(yīng)對(duì)高爐數(shù)據(jù)進(jìn)行歸一化和主元分析處理。
由于高爐冶煉過程中產(chǎn)生的數(shù)據(jù)存在較嚴(yán)重的波動(dòng)性,為此本研究采用異常值檢驗(yàn)的方法,對(duì)高爐冶煉中的異常數(shù)據(jù)進(jìn)行剔除。其異常值檢驗(yàn)流程為:對(duì)高爐冶煉過程中的時(shí)間序列數(shù)據(jù)進(jìn)行獲取,對(duì)該項(xiàng)數(shù)據(jù)中的異常值進(jìn)行檢驗(yàn),若時(shí)間序列數(shù)據(jù)中存在異常值的產(chǎn)生,應(yīng)進(jìn)一步判斷異常值數(shù)據(jù)的產(chǎn)生時(shí)間;若異常值數(shù)據(jù)對(duì)于高爐溫度控制預(yù)測(cè)模型建立的準(zhǔn)確率以及預(yù)測(cè)精度影響較大,應(yīng)采取剔除的方式對(duì)該項(xiàng)數(shù)據(jù)進(jìn)行處理[4]。
本研究主要采取3σ準(zhǔn)則(拉依達(dá)準(zhǔn)則)對(duì)高爐冶煉過程中產(chǎn)生的異常數(shù)據(jù)進(jìn)行處理,通常對(duì)高爐冶煉的精度要求為:若一組樣本數(shù)據(jù)X={x1,...,xn}的偏差數(shù)值大于3σ的數(shù)值,應(yīng)將該數(shù)值剔除,其3σ準(zhǔn)則公式為
(1)
對(duì)于高爐時(shí)間序列數(shù)據(jù)的缺失問題,應(yīng)嚴(yán)格按照數(shù)據(jù)的運(yùn)行軌跡以及變化趨勢(shì),利用數(shù)據(jù)平滑處理方法對(duì)于數(shù)據(jù)缺損值進(jìn)行推測(cè)。通過該方法有利于補(bǔ)足高爐時(shí)間序列數(shù)據(jù)的缺損數(shù)值,對(duì)于高爐溫度控制預(yù)測(cè)模型的精準(zhǔn)度具有重要提升作用[5]。
由于高爐冶煉過程中產(chǎn)生的測(cè)量數(shù)據(jù)存在量綱不同的問題,若量綱不同可直接造成測(cè)量數(shù)值的差異性,從而引發(fā)數(shù)據(jù)范圍的不確定性。數(shù)據(jù)差異性的擴(kuò)大可直接影響高爐溫度控制預(yù)測(cè)模型的精準(zhǔn)性,使該模型的精度無法滿足工藝要求。為提升高爐溫度控制預(yù)測(cè)模型的預(yù)測(cè)精度,從根本上解決該模型測(cè)量數(shù)據(jù)的差異性,本研究采用歸一化的方法對(duì)采集數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)歸一化處理方法主要指的是將系統(tǒng)內(nèi)全部數(shù)據(jù)轉(zhuǎn)化為[0,1]之間的數(shù),實(shí)現(xiàn)計(jì)算偏差數(shù)據(jù)的消除[6]。為保證預(yù)測(cè)結(jié)果的可觀察性,應(yīng)對(duì)預(yù)測(cè)結(jié)果進(jìn)行反歸一還原,其公式為
(2)
數(shù)據(jù)挖掘時(shí)采用的樣本數(shù)據(jù)庫中存在較多變量,為保證系統(tǒng)可從大規(guī)模的數(shù)據(jù)集中挖掘出各變量之間的關(guān)聯(lián),本研究采用降維的方法進(jìn)行樣本數(shù)據(jù)的確定。降維方法實(shí)際上是對(duì)各變量進(jìn)行預(yù)測(cè),利用變量之間的相關(guān)結(jié)構(gòu)實(shí)現(xiàn)預(yù)測(cè)變量個(gè)數(shù)的減少。該方法主要分為因子分析及主成分分析兩種方法。
1)因子分析方法
該方法為描述各變量之間的相關(guān)性,對(duì)變量相關(guān)系數(shù)的結(jié)構(gòu)進(jìn)行分析,以此找到可以反映全部變量中少數(shù)個(gè)變量。通常情況下少數(shù)變量屬于不可預(yù)測(cè)的變量,可將其稱之為因子。在相關(guān)性分析的基礎(chǔ)上,按照數(shù)據(jù)相關(guān)性的大小對(duì)變量進(jìn)行分組,有利于提高組內(nèi)變量的相關(guān)性,并降低不同組內(nèi)變量的相關(guān)性[7]。
2)主成分分析方法
該方法實(shí)際上指的是一種統(tǒng)計(jì)方法,可將多個(gè)指標(biāo)變量轉(zhuǎn)換為幾個(gè)相互獨(dú)立的綜合指標(biāo)變量。為計(jì)算出每一個(gè)綜合指標(biāo)的數(shù)值,應(yīng)嚴(yán)格遵循概率的角度要求,使幾個(gè)綜合指標(biāo)變量之間形成不相關(guān)性。
本研究為確定影響高爐溫度中的核心變量,利用Pearson相關(guān)系數(shù)對(duì)兩個(gè)變量線性關(guān)系之間的統(tǒng)計(jì)量進(jìn)行定義,以此對(duì)變量之間線性關(guān)系的強(qiáng)弱進(jìn)行衡量。首先設(shè)(Xi,Yi)(i=1,2,...,n)為取自總體(X,Y)的樣本,此時(shí)該樣本的Pearson線性相關(guān)系數(shù)公式為
(3)
通過計(jì)算可知,高爐噴煤與溫度之間屬于負(fù)相關(guān)關(guān)系,當(dāng)時(shí)間滯后步長為0時(shí),可計(jì)算出噴煤與溫度之間的相關(guān)系數(shù)為-0.396 6。隨著滯后時(shí)間的不斷延長,使噴煤與溫度之間的相關(guān)性逐漸減弱,此時(shí)只針對(duì)滯后步長為0時(shí)刻的相關(guān)性進(jìn)行綜合考慮。選取6個(gè)影響高爐溫度的輸入變量,對(duì)其進(jìn)行相關(guān)性分析,各輸入變量的相關(guān)系數(shù)如表1所示[8]。
表1 各輸入變量的相關(guān)系數(shù)
通過對(duì)表1中數(shù)據(jù)分析可知,與高爐溫度相關(guān)的變量只有5個(gè),其中噴煤、風(fēng)溫以及煤氣利用率均為影響高爐溫度的直接因素,富氧率以及爐頂溫為英系那個(gè)高爐溫度的間接因素。
BP神經(jīng)網(wǎng)絡(luò)算法主要包含輸入層、隱含層以及輸出層,其信號(hào)傳遞流程為:通過輸入層對(duì)輸入信號(hào)進(jìn)行輸出,使其經(jīng)過隱含層到達(dá)輸出層。本研究主要采用BP神經(jīng)網(wǎng)絡(luò)算法對(duì)高爐預(yù)測(cè)模型進(jìn)行建立與優(yōu)化,將該算法應(yīng)用于多元回歸模型以及多元時(shí)間序列模型中,并采用MISO結(jié)構(gòu)對(duì)模型進(jìn)行建立ωji,BP神經(jīng)網(wǎng)絡(luò)算法的拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2中,x1,x2,...,xn為BP神經(jīng)網(wǎng)絡(luò)算法的輸入值;O1為BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測(cè)值;ωij和ωj1為BP神經(jīng)網(wǎng)絡(luò)算法的網(wǎng)絡(luò)權(quán)值[9]。
模型建立的主要步驟共分為8個(gè)步驟:
(1)首先應(yīng)完成BP算法中輸入輸出閾值、權(quán)值以及學(xué)習(xí)速率等變量的初始化,該算法的數(shù)據(jù)列為(x,y),輸入節(jié)點(diǎn)數(shù)n=6,隱含節(jié)點(diǎn)l=7,輸出節(jié)點(diǎn)數(shù)m=1。
(2)結(jié)合輸入變量x、連接權(quán)值以及閾值對(duì)隱含層的輸出進(jìn)行計(jì)算,其公式為
(4)
式中:H為BP神經(jīng)網(wǎng)絡(luò)算法的輸出;l和f為隱含層的節(jié)點(diǎn)數(shù)和激勵(lì)函數(shù),激勵(lì)函數(shù)的公式為
(5)
(3)完成BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)值O1的計(jì)算,預(yù)測(cè)值O1的公式為
(6)
(4)結(jié)合預(yù)測(cè)輸出值O以及實(shí)際輸出值y對(duì)該網(wǎng)絡(luò)的誤差e進(jìn)行計(jì)算,誤差公式為
e1=y-O1
(7)
(5)實(shí)現(xiàn)對(duì)權(quán)值的更新
ωij=ωij+ηHj(1-Hj)x(i)ωj1e1
(i=1,2,...n;j=1,2,...l)
ωj1=ωj1+ηHje1(j=1,2,...l)
(8)
式中:η為學(xué)習(xí)率。
(6)對(duì)節(jié)點(diǎn)閾值a和b進(jìn)行更新,其公式為
(9)
(7)判斷BP神經(jīng)網(wǎng)絡(luò)算法是否迭代結(jié)束,若系統(tǒng)仍處于迭代中,應(yīng)返回步驟(2)[10]。
(8)完成BP神經(jīng)網(wǎng)絡(luò)模型的仿真校驗(yàn),通過上述公式對(duì)模型的命中率進(jìn)行計(jì)算,其中BP神經(jīng)網(wǎng)絡(luò)多元回歸模型的命中率為88.42%、BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型的命中率為90.53%。兩個(gè)模型的平均相對(duì)誤差分別為0.48%、0.46%,高爐溫度預(yù)測(cè)模型的精度分別為2.678 3、2.634 8。綜上所述,BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型各方面性能更優(yōu)秀,其精度缺陷主要源于BP神經(jīng)網(wǎng)絡(luò)自身存在的過于依賴初始權(quán)值的選取以及收斂速度慢等問題。
本研究主要采用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,其優(yōu)化流程為:首先對(duì)BP網(wǎng)絡(luò)進(jìn)行優(yōu)化,優(yōu)化方式主要包括確定BP神經(jīng)網(wǎng)絡(luò)、優(yōu)化遺傳算法以及預(yù)測(cè)BP神經(jīng)網(wǎng)絡(luò)。優(yōu)化的主要內(nèi)容為初始權(quán)值以及閾值,有利于提高BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)輸出能力。
優(yōu)化步驟包括7部分:
(1)首先應(yīng)完成種群的初始化,在高爐溫度內(nèi)部輸入輸出變量已知的情況下完成網(wǎng)絡(luò)結(jié)構(gòu)的確定。
(2)利用訓(xùn)練數(shù)據(jù)對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以此得到控制系統(tǒng)的預(yù)測(cè)值,計(jì)算出期望值與預(yù)測(cè)值之間的誤差絕對(duì)值,將其作為適應(yīng)度值F,適應(yīng)度值F公式為
(10)
式中:n為輸出節(jié)點(diǎn);yi為第i個(gè)節(jié)點(diǎn)的期望輸出;oi為第i個(gè)節(jié)點(diǎn)的預(yù)測(cè)輸出;k為系數(shù)。
(3)利用適應(yīng)度比例法完成選擇概率pi的計(jì)算。
(11)
(4)選用實(shí)數(shù)編碼完成交叉操作。
(12)
式中:b為[0,1]之間的任意數(shù)。
(5)選取第i個(gè)個(gè)體的第j個(gè)基因aij,完成變異操作。
(13)
式中:f(g)=r2(10g/Gmax);r2為任意數(shù);g為當(dāng)前迭代次數(shù)。
將遺傳算法中各參數(shù)設(shè)置為:種群規(guī)模數(shù)10,進(jìn)化次數(shù)50次,交叉概率0.4,變異概率0.2。
(6)對(duì)權(quán)值及閾值進(jìn)行實(shí)時(shí)更新,以此獲取最佳優(yōu)化結(jié)果。
(7)經(jīng)過優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)多元回歸模型的命中率為92.63%、BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型的命中率為93.68%。兩個(gè)模型的平均相對(duì)誤差分別為0.44%、0.43%,高爐溫度預(yù)測(cè)模型的精度分別為2.568 1、2.549 4。綜上所述,在高爐爐況波動(dòng)較小時(shí),BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型各方面性能更優(yōu)秀,可使誤差較小。但是高爐爐況波動(dòng)較大時(shí),BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型各方面性能不如回歸模型。
由于高爐冶煉過程中產(chǎn)生的數(shù)據(jù)存在較嚴(yán)重的波動(dòng)性,本研究為提高對(duì)高爐溫度控制的精準(zhǔn)性,在高爐溫度控制系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘方法,并采用異常值檢驗(yàn)、歸一化、相關(guān)性分析等方法,對(duì)高爐冶煉中的異常數(shù)據(jù)進(jìn)行剔除,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理。通過BP神經(jīng)網(wǎng)絡(luò)對(duì)高爐溫度控制預(yù)測(cè)模型進(jìn)行建立,利用遺傳算法實(shí)現(xiàn)模型的優(yōu)化。優(yōu)化結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)多元時(shí)間序列模型各方面性能更優(yōu)秀,可使誤差較小。但是高爐爐況波動(dòng)較大時(shí),應(yīng)采取BP神經(jīng)網(wǎng)絡(luò)多元回歸序列模型。