熊 倩,劉 輝+,劉旭琛
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 云南省人工智能重點實驗室,云南 昆明 650500)
轉(zhuǎn)爐煉鋼是以鋼鐵料、鐵合金等金屬材料和其他非金屬料,依靠熔池中大量復(fù)雜的物理和化學(xué)反應(yīng)產(chǎn)生的熱量,完成煉鋼的過程[1]。其關(guān)鍵在于實現(xiàn)對吹煉終點的控制,即在吹氧結(jié)束時,熔池中鋼液的碳含量、各金屬元素的含量和溫度能同時達到出鋼要求。因此,實現(xiàn)轉(zhuǎn)爐終點碳溫的準確預(yù)報,能有效縮短冶煉時間,減少原材料消耗,降低生產(chǎn)成本,并提高成品鋼的品質(zhì)。
目前,轉(zhuǎn)爐終點碳溫測量方法有人工經(jīng)驗法、副槍檢測法、爐氣分析法、火焰圖像處理、光譜分析和生產(chǎn)過程數(shù)據(jù)的軟測量方法[2]。其中,人工經(jīng)驗法受人為主觀因素的影響生產(chǎn)效率較低。副槍檢測和爐氣分析由于設(shè)備本身的安裝費用和維護成本過高,無法在中小型轉(zhuǎn)爐企業(yè)中推廣開來。隨著智能檢測技術(shù)的發(fā)展,基于火焰圖像、光譜分析[3-8]、生產(chǎn)過程數(shù)據(jù)軟測量實現(xiàn)終點碳溫預(yù)報的方法成為研究熱點。周木春等[9-10]采用支持向量機和基于模糊支持向量機的光輻射狀態(tài)識別實現(xiàn)轉(zhuǎn)爐終點判斷,而火焰光譜圖像的采集往往會受到環(huán)境因素及爐內(nèi)煙氣的影響,難以有效精確預(yù)測出終點碳溫值。然而,對爐內(nèi)尚不明確各原材料物理化學(xué)反應(yīng)機理的生產(chǎn)過程,基于數(shù)據(jù)驅(qū)動的轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)軟測量建模方法[11-15]著重考量生產(chǎn)過程數(shù)據(jù)輸入變量與終點碳溫之間的關(guān)系,能夠保證出鋼的品質(zhì)。劉暢等[16]對實際的工業(yè)數(shù)據(jù)進行分析,運用基于事件驅(qū)動的策略,采用最小二乘支持向量機和改進粒子群算法構(gòu)建預(yù)測模型提高模型的普適性,表明軟測量方法運用于轉(zhuǎn)爐煉鋼生產(chǎn)過程是有效的。
在基于數(shù)據(jù)驅(qū)動的轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)軟測量方法中,終點碳溫的變化會受到熔池中投放的鐵水、廢鋼、石灰石等原材料的影響,SHI等[17]在高爐相對穩(wěn)定的條件下采集過程數(shù)據(jù),利用主成分分析和偏最小二乘算法預(yù)測鐵水中的硅含量。但熔池內(nèi)各原材料的差異導(dǎo)致爐次樣本的波動較大,單一模型無法有效預(yù)測出高爐鐵水中的各元素含量。因此,有學(xué)者提出通過劃分數(shù)據(jù)子集構(gòu)建局部模型預(yù)測主導(dǎo)變量的方法,以提升模型預(yù)測精度和魯棒性。孫茂偉等[18]通過正則化互信息特征排序指標實現(xiàn)特征擾動的方法,對Bagging算法訓(xùn)練樣本重采樣輸入特征抽取來產(chǎn)生訓(xùn)練數(shù)據(jù)子集;ZHANG等[19]提出一種新的集成模式樹方法來預(yù)測高爐鐵水溫度,證明了集成模型比單個模型有更好的精度和魯棒性;LYU等[20]將機理建模與數(shù)據(jù)驅(qū)動軟測量建模方法相結(jié)合,采用負相關(guān)學(xué)習(xí)對Bagging進行修剪以生成集成模型預(yù)測鐵水溫度,該方法提高了預(yù)測精度和集成效率。而對于轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù),采用傳統(tǒng)集成學(xué)習(xí)數(shù)據(jù)采樣方法對訓(xùn)練樣本采樣得到的數(shù)據(jù)子集生成的模型并沒有體現(xiàn)集成學(xué)習(xí)“分而治之”的思想,在不同的子模型下會產(chǎn)生相同的預(yù)測結(jié)果以致子模型失去了多樣性。FONTES等[21]采用模糊C均值聚類的方法劃分數(shù)據(jù)子集,通過非線性自回歸神經(jīng)網(wǎng)絡(luò)模型預(yù)測生產(chǎn)工業(yè)過程鐵水的溫度和硅含量,證明通過聚類算法劃分數(shù)據(jù)子集構(gòu)建局部模型的方法,有一定的優(yōu)越性。
本文提出一種基于密度聚類的灰色關(guān)聯(lián)度加權(quán)集成軟測量建模方法。首先,采用t-分布隨機鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)可視化樣本間的分布情況,通過樣本密度度量策略,為密度峰值聚類算法提出一種新的局部最近鄰截斷距離的計算方式,使得樣本的類間方差更大、類內(nèi)方差更小,以更好地劃分轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)得到局部樣本子集。其次,通過構(gòu)建局部子集與原始生產(chǎn)數(shù)據(jù)之間的映射關(guān)系,生成局部高斯過程回歸模型,并在原始數(shù)據(jù)子集中通過對灰色關(guān)聯(lián)分析定位得到的局部樣本子集初始質(zhì)心進行信息熵加權(quán),以獲得加權(quán)后的子集“質(zhì)心”。最后,為了減少測試樣本在選擇模型時的計算復(fù)雜度,通過灰色關(guān)聯(lián)分析評判高斯過程回歸子模型與測試樣本之間的關(guān)聯(lián)程度,確定子模型與測試樣本之間的關(guān)聯(lián)度權(quán)重,選擇更優(yōu)的模型來構(gòu)建集成模型,提出灰色關(guān)聯(lián)分析加權(quán)的集成融合方式形成集成學(xué)習(xí)器輸出碳溫預(yù)測結(jié)果。通過轉(zhuǎn)爐煉鋼終點碳溫預(yù)測的仿真實驗表明本文所提方法具有良好的預(yù)測精度。
在煉鋼過程中,傳感器會采集到眾多的生產(chǎn)過程數(shù)據(jù),這些數(shù)據(jù)通常都是不相關(guān)的高維數(shù)據(jù),而距離度量公式在高維數(shù)據(jù)下一般會失效[22]。因此,采用降維的方法可以有效避免高維數(shù)據(jù)距離度量失效的問題,同時提高聚類算法的表現(xiàn)能力。
1.1.1 基于t-SNE的生產(chǎn)過程數(shù)據(jù)降維
t-SNE是一種高維數(shù)據(jù)降維方法,它通過數(shù)據(jù)之間的分布相似性將高維數(shù)據(jù)映射到低維空間,以可視化數(shù)據(jù)分布情況[23]。設(shè)生產(chǎn)過程數(shù)據(jù)在低維空間下映射的數(shù)據(jù)Dl={dli,i=1,2,…,n},則di,dj對應(yīng)生產(chǎn)過程數(shù)據(jù)點的條件概率為:
(1)
其中σi為中心在di的高斯方差,可以通過預(yù)先設(shè)定的復(fù)雜度因子執(zhí)行二分搜索獲得。在低維空間下,dli,dlj對應(yīng)低維映射點的聯(lián)合概率分布為:
(2)
根據(jù)條件概率的對稱性獲得高維數(shù)據(jù)和低維映射點的聯(lián)合概率,t-SNE通過梯度下降算法最小化KL(kullback-Leibler)散度,達到最小化條件概率分布差異的目的,使得相似度較高的樣本點在低維空間下的距離較近,相似度低的樣本點在低維空間下的距離較遠。
1.1.2 改進的密度峰值聚類算法
通過轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)t-SNE降維的分布情況,從數(shù)據(jù)樣本間的緊密程度考量數(shù)據(jù)之間的相似程度,提出局部最近鄰密度峰值聚類算法(Local Nearest Neighbour Density Peak Clustering, LNN-DPC),來劃分生產(chǎn)過程數(shù)據(jù)樣本子集。
DPC[24-26]是一種基于密度聚類的方法,該方法能夠直觀地找到類簇的數(shù)量并進行高效聚類。對于數(shù)據(jù)集Dl,數(shù)據(jù)dli的局部密度
(3)
式中:distij為數(shù)據(jù)dli、dlj之間的距離;distc為數(shù)據(jù)的截斷距離。
在原始DPC算法中,截斷距離distc選取需要滿足平均每個樣本點的相鄰個數(shù)為所有點的1%~2%的條件,但這只考慮了距離的全局信息,沒有考慮到每個樣本與剩余樣本間的局部信息。因此,本文提出一種適應(yīng)于生產(chǎn)過程數(shù)據(jù)樣本子集劃分新的確定截斷距離的方法。根據(jù)近鄰的思想,確定局部近鄰(Local Nearest Neighbour,LNN)的截斷距離,其定義如下:
每個樣本距離distij的標準差為:
(4)
(5)
局部截斷距離為:
(6)
(7)
該算法把局部密度ρi和相對距離δi都相對較高的點作為類簇中心,為了方便尋找聚類中心的數(shù)量,可設(shè)置決策值γi=ρiδi,γi越大就越有可能是類簇中心,剩余數(shù)據(jù)點則分配至密度比它大且最近鄰數(shù)據(jù)點所在簇。通過建立低維數(shù)據(jù)子集與原始數(shù)據(jù)的一一對應(yīng)關(guān)系,獲得原始生產(chǎn)過程輸入數(shù)據(jù)下的樣本子集R={r1,r2,…,rm},m表示數(shù)據(jù)集的樣本劃分數(shù)量。
灰色關(guān)聯(lián)分析[27](Gray Correlation Analysis, GCA)通過參考序列與比較序列之間的相似程度來判斷序列之間的關(guān)聯(lián)程度。給定轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)樣本子集X={xi;i=1,2,…,nm}。 其中,xi∈h,nm為每個子集的樣本個數(shù),h為特征變量的維度。設(shè)定每個樣本都作為參考序列,其余樣本為比較序列,設(shè)參考序列為x0={x0(1),x0(2),…,x0(h)},根據(jù)GCA算法計算灰色關(guān)聯(lián)系數(shù):
(8)
式中ρ0為分辨系數(shù)。計算參考序列與比較序列的關(guān)聯(lián)度為:
(9)
根據(jù)上式,nm個樣本生成的關(guān)聯(lián)度矩陣為:
(10)
選擇與所有數(shù)據(jù)關(guān)聯(lián)最為密切的樣本為最大關(guān)聯(lián)序列,即子集的初始“質(zhì)心”Z*。 然后,根據(jù)式(8)計算最大關(guān)聯(lián)序列下各個特征變量的關(guān)聯(lián)系數(shù),得到各指標的關(guān)聯(lián)系數(shù)矩陣:
(11)
為了得到客觀的子集“質(zhì)心”,引入信息熵加權(quán)[28]描述關(guān)聯(lián)系數(shù)矩陣下每個特征變量的變異程度來修正指標,為特征變量賦予客觀的權(quán)重。一般來說,特征變量的信息熵越小其變異程度越大,信息量越多,則分配的權(quán)重也越大;反之,信息熵越大特征變量的重要程度越低,權(quán)重越小。通過上式的關(guān)聯(lián)系數(shù)矩陣,計算第h個特征變量下第i個樣本的特征值比重為:
(12)
第h個特征變量的熵值為:
(13)
那么,關(guān)聯(lián)系數(shù)矩陣中各個特征變量的權(quán)值:
(14)
最終得到加權(quán)的子集“質(zhì)心”Zm=whZ*,表示有m個類的生產(chǎn)過程樣本子集“質(zhì)心”。
1.3.1 基于高斯過程回歸的碳溫預(yù)報子模型構(gòu)建
yi=f(xi)+ε,ε~N(0,σ2)。
(15)
式中:ε是均值為0、方差為σ2的高斯噪聲;f(xi)是未知函數(shù),且服從高斯分布。因此,Ym也服從均值為零的高斯分布為:
Ym~N(0,C(Xm,Xm)+σ2I)。
(16)
式中:C(Xm,Xm)為訓(xùn)練輸入的協(xié)方差矩陣,I為單位矩陣。
對于測試輸入樣本x*的測試輸入f(x*)和訓(xùn)練輸出Ym的聯(lián)合分布為:
(17)
則f(x*)的后驗分布為:
f(f(x*)|Ym,Xm,x*)~N(μ(x*),σ(x*)),
(18)
f(x*)=μ(x*)=C(Xm,x*) (C(Xm,Xm)+σ2I)-1Ym。
(19)
均值和方差分別為:μ(x*)=C(Xm,x*)(C(Xm,Xm)+σ2I)-1Ym,σ(x*)=C(x*,x*)-C(Xm,x*)(C(Xm,Xm)+σ2I)-1CT(Xm,x*),μ(x*)就是測試輸入樣本x*的碳溫預(yù)測輸出值,σ(x*)則為碳溫預(yù)測輸出值的方差。
關(guān)于核函數(shù),采用平方指數(shù)協(xié)方差核函數(shù)則定義為:
(20)
式中:σf為信號標準偏差,σl為長度尺度。對于上述提到的參數(shù),稱為超參數(shù),記作θ=[σf,σl,σ],通過極大似然求取得到。
1.3.2 碳溫預(yù)報子模型的選擇和融合策略
建立GPR子模型其實就是假設(shè)空間根據(jù)給定的轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)建立模型空間的一個過程。然后,通過優(yōu)化模型參數(shù),找到與給定數(shù)據(jù)最為匹配的模型空間參數(shù)來確定模型。
因此,本文尋找最能代表整個數(shù)據(jù)子集的“質(zhì)心”Zm,通過Zm與測試樣本之間的關(guān)聯(lián)程度來描述子模型與測試樣本之間的聯(lián)系,從而選擇子模型進行集成加權(quán)。經(jīng)生產(chǎn)過程數(shù)據(jù)子集集合R訓(xùn)練生成m個GPR模型記為M=[M1,M2,…,Mm],選擇更優(yōu)的子模型生成集成模型可以為測試樣本x*獲得更好的碳溫預(yù)測結(jié)果,提高集成學(xué)習(xí)器的表現(xiàn)性能。通過GCA準則分析測試樣本x*與Zm之間關(guān)聯(lián)程度,以碳溫測試樣本為參考序列,m個子集“質(zhì)心”Zm為比較序列,得到x*的關(guān)聯(lián)度集合Ω=[ω1,ω2,…,ωm]。 當ωm的值大于或等于V∈[min(ωm),max(ωm)]時,則保留其所對應(yīng)的數(shù)據(jù)子集訓(xùn)練的GPR子模型,完成模型選擇過程。
保留下來的子模型為Mnew=[M1,M2,…,Mα],α∈[1,m],其對應(yīng)的數(shù)據(jù)子集為Rnew={r1(x1,i,y1,i),r2(x2,i,y2,i),…,rα(xα,i,yα,i)},α∈[1,m],i=1,2,…,nm,則對應(yīng)的關(guān)聯(lián)度集合為Ωnew=[ω1,ω2,…,ωα],α∈[1,m]。 對于測試樣本x*,在GPR子模型上的終點碳溫輸出結(jié)果為:
ypred,α=C(xα,i,x*)(C(xα,i,xα,i)+σ2I)-1yα,i。
(21)
式中:C(xα,i,xα,i)為訓(xùn)練輸入的協(xié)方差矩陣,C(xα,i,x*)為測試樣本與訓(xùn)練數(shù)據(jù)的協(xié)方差矩陣。GCA加權(quán)融合的終點碳溫預(yù)測輸出結(jié)果為:
(22)
轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)軟測量建模具體操作流程如圖1所示。
轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)通常都是高維數(shù)據(jù),由于密度峰值聚類算法的主要變量都是與距離度量相關(guān),通過t-SNE將標準化后的原始數(shù)據(jù)樣本降至二維空間下,避免了高維數(shù)據(jù)下采用距離度量失效問題,可以減少計算的復(fù)雜度。采用提出的改進峰值密度聚類算法(LNN-DPC)劃分數(shù)據(jù)子集并建立與原始數(shù)據(jù)的一一對應(yīng)關(guān)系,訓(xùn)練得到GPR子模型。
其中,采用LNN-DPC對生產(chǎn)過程數(shù)據(jù)樣本集進行劃分,其算法實現(xiàn)過程如下:
(1)對轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)進行預(yù)處理,通過t-SNE將D*映射至二維空間下;
(2)計算兩兩數(shù)據(jù)樣本之間的距離值distij;
(3)通過每個樣本的局部截斷距離,計算全局截斷距離distc;
(4)根據(jù)全局截斷距離distc計算每個樣本的局部密度ρi和相對距離δi;
(5)通過局部密度ρi和相對距離δi計算決策值γi,以樣本點數(shù)量為橫坐標,γi為縱坐標,繪制子集的數(shù)量決策圖;
(6)利用決策圖,將γi較大的值標記為子集中心以確定子集的數(shù)量;
(7)將剩余的點分配至與子集中心最近且密度較高樣本點鄰近的區(qū)域所在的子集中。
采用t-SNE對生產(chǎn)過程訓(xùn)練數(shù)據(jù)集降維,在低維空間下的數(shù)據(jù)分布如圖2a和圖2d所示,通過LNN-DPC劃分生產(chǎn)過程數(shù)據(jù)的類簇個數(shù)決策圖如圖2b和圖2e所示,最終子集劃分結(jié)果如圖2c和圖2f所示。
最終將碳含量生產(chǎn)過程數(shù)據(jù)劃分為7個子集,溫度數(shù)據(jù)劃分為9個子集。根據(jù)原始數(shù)據(jù)樣本子集訓(xùn)練GPR局部模型,從而獲得一組具有多樣性的GPR基學(xué)習(xí)器。
通過選擇合適的GPR子模型來組成集成學(xué)習(xí)器是提高模型預(yù)測性能和泛化能力的關(guān)鍵一步。引入信息熵為GCA準則定位的子集“質(zhì)心”特征變量加權(quán)獲得較為客觀的子集“質(zhì)心”,利用GCA確定測試樣本與子集“質(zhì)心”的灰色關(guān)聯(lián)度來選擇GPR的子模型,即選擇關(guān)聯(lián)系數(shù)大于某一閾值V所對應(yīng)的GPR子模型組成集成學(xué)習(xí)器,最后根據(jù)GCA加權(quán)集成融合策略得到最終的預(yù)測結(jié)果。
為了構(gòu)建預(yù)測性能較好的集成學(xué)習(xí)器,需要選擇與測試樣本相關(guān)性較強的GPR子模型,因此本文通過評價基于信息熵加權(quán)的子集“質(zhì)心”與測試樣本的灰色關(guān)聯(lián)系數(shù),實現(xiàn)對GPR子模型的選擇。實現(xiàn)方法具體如下:
(1)根據(jù)LNN-DPC獲得低維數(shù)據(jù)子集并建立與原始生產(chǎn)過程數(shù)據(jù)之間的對應(yīng)關(guān)系,得到高維數(shù)據(jù)下的數(shù)據(jù)子集集合R,訓(xùn)練生成GPR子模型;
(2)計算每一個子集中兩兩樣本之間的灰色關(guān)聯(lián)度形成關(guān)聯(lián)度矩陣,找到最大關(guān)聯(lián)序列,得到未加權(quán)的子集“質(zhì)心”Z*;
(3)計算最大關(guān)聯(lián)序列下各個特征變量的關(guān)聯(lián)系數(shù),通過信息熵確定Z*的權(quán)重;
(4)獲得加權(quán)的子集“質(zhì)心”Zm;
(5)計算測試樣本和每一個子集“質(zhì)心”的灰色關(guān)聯(lián)系數(shù);
(6)判斷所有子集的灰色關(guān)聯(lián)系數(shù)大于某一個閾值V所對應(yīng)的訓(xùn)練模型及關(guān)聯(lián)系數(shù),這些模型就作為最終集成學(xué)習(xí)器的基模型;
(7)根據(jù)上述所得到的基模型和關(guān)聯(lián)系數(shù)對基模型進行加權(quán)集成,得到加權(quán)集成學(xué)習(xí)器;
(8)輸出碳溫預(yù)測結(jié)果。
對測試樣本x*,不同的GPR子模型會得到不同的預(yù)測值,而子模型的預(yù)測性能優(yōu)劣決定了集成模型預(yù)測精度和泛化能力的好壞。通過GCA判斷測試樣本和子模型之間的關(guān)聯(lián)程度,選擇子模型進行加權(quán)集成融合,提升了集成學(xué)習(xí)器的預(yù)測性能。
轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)樣本聚類的加權(quán)集成軟測量建模主要過程如圖3所示。
其基本操作步驟如下:
(1)利用傳感器獲取轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、特征選擇得到樣本數(shù)據(jù)集,將其分為訓(xùn)練樣本和測試樣本;
(2)訓(xùn)練樣本經(jīng)t-SNE降維,通過LNN-DPC劃分為m子集;
(3)建立每個子集與原始數(shù)據(jù)樣本之間的一一對應(yīng)關(guān)系并訓(xùn)練GPR模型,獲得m個GPR子模型的同時采用信息熵為GCA定位的每個子集“質(zhì)心”加權(quán);
(4)分析測試樣本與每個子模型之間的關(guān)聯(lián)程度,選擇該測試樣本下關(guān)聯(lián)系數(shù)大于閾值V的子模型作為集成所需的基模型,基模型所對應(yīng)的灰色關(guān)聯(lián)系數(shù)為權(quán)值;
(5)通過選擇的基模型和權(quán)值進行融合組成加權(quán)集成預(yù)測模型,將測試樣本輸入預(yù)測模型最終得到碳含量和溫度的預(yù)測結(jié)果。
本文采用均方根誤差RMSE、平均絕對百分比誤差MAPE和預(yù)測精度PA評價預(yù)測模型性能,其計算方法如下:
(23)
(24)
(25)
(26)
其中:Ntest為測試樣本的數(shù)量;yprediction為預(yù)測值;PE表示預(yù)測誤差在命中區(qū)間時即為命中,記為1,其他情況記為0;溫度的預(yù)測誤差范圍Th=10℃,15℃,碳含量的預(yù)測誤差范圍Th=0.02%,0.03%。MAPE反應(yīng)集成模型的優(yōu)劣,該值越小表示集成模型越優(yōu);PA表示碳溫在誤差范圍內(nèi)的預(yù)測精度,該值越大表示該模型的預(yù)測性能越好。
本文實驗研究數(shù)據(jù)來源于某鋼廠的實際煉鋼生產(chǎn)過程數(shù)據(jù)。轉(zhuǎn)爐煉鋼終點控制的關(guān)鍵是實現(xiàn)對碳含量和溫度的預(yù)報,但在轉(zhuǎn)爐煉鋼生產(chǎn)過程中通過傳感器獲得的數(shù)據(jù)有裝入鐵水量、裝入生鐵量、裝入廢鋼量、鐵水C、兌鐵時長、吹氧量、槍位、氧壓等126維。通過特征選擇的方式,選擇影響出鋼時碳含量和溫度的關(guān)鍵特征變量作為輔助變量,主導(dǎo)變量就是碳含量和溫度。最終,分別選取6個特征作為輔助變量,其關(guān)鍵變量如表1所示。
表1 轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)變量表
在實驗過程中,生產(chǎn)過程數(shù)據(jù)實驗樣本總共有5 500組,訓(xùn)練樣本集5 000組,測試樣本500組。表1中所示的部分特征名稱中所含數(shù)字表示不同時刻點傳感器對該特征進行測量的次數(shù)[11]。一般情況下,出鋼溫度在1 590~1 680℃范圍內(nèi),以1 600℃為例,10~15℃的相對誤差范圍在0.63%~0.94%之間,根據(jù)不同品質(zhì)的鋼的出鋼要求有不同的誤差允許范圍。
利用轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)驗證基于LNN-DPC樣本聚類的軟測量GCA模型選擇加權(quán)集成建模方法的有效性,其中通過比較GPR全局建模、Bagging(GPR)、隨機森林(Random Forest,RF)、梯度回歸樹模型(Gradient Boosted Regression Trees, GBRT)、Adaboost(GPR)和K-means聚類、層次聚類(Hierarchical Clustering, HC)、高斯混合模型(Gaussian Mixture Model Clustering, GMM)、模糊C聚類(Fuzzy C Clustering,F(xiàn)C)、DPC的方法驗證LNN-DPC的有效性,聚類算法都是對GPR子模型進行集成;通過比較平均(Simple Average, SA)集成融合策略驗證GCA加權(quán)平均(GCA Weighted Average, GCAWA)集成融合策略的有效性。實驗結(jié)果數(shù)據(jù)表現(xiàn)如下,表2呈現(xiàn)了不同建模方法下溫度和碳含量的預(yù)測性能指標,圖4~圖7分別是碳含量和溫度的預(yù)測結(jié)果圖。
表2 不同建模法預(yù)測碳含量和溫度性能指標
續(xù)表2
從表2的實驗結(jié)果可以看出,基于LNN-DPC樣本聚類劃分數(shù)據(jù)子集來構(gòu)建GCA加權(quán)集成軟測量模型的方法在轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)上的表現(xiàn)更優(yōu),說明該方法可以很好地通過生成樣本的多樣性從而構(gòu)建子模型的多樣性以保證集成模型泛化性能的同時提高預(yù)測精度。在轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)中基于樣本聚類的方式劃分數(shù)據(jù)子集的建模方法優(yōu)于全局建模和傳統(tǒng)的集成學(xué)習(xí)軟測量模型,說明這種劃分數(shù)據(jù)樣本的方法在轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)上能夠構(gòu)建出更加多樣性的子模型,從而提升集成模型的泛化能力。對于集成融合過程,通過GCA選擇GPR子模型進行集成,去除部分對于測試樣本來說預(yù)測效果不佳的子模型,使得構(gòu)建的GCA加權(quán)集成學(xué)習(xí)器對測試集有更好的預(yù)測性能。
圖5d和圖7d分別是本文所提方法的碳含量、溫度預(yù)測結(jié)果圖。從兩圖中可以看出,該預(yù)測模型對終點碳溫都有很好的預(yù)測效果,從RMSE上來看,本文方法預(yù)測結(jié)果表現(xiàn)更好;從MAPE來看,本文方法構(gòu)建的模型相對于其他方法也更合理。
綜上所述,說明LNN-DPC算法在生成轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)子集上有一定優(yōu)越性,GCA準則選擇子模型的同時進行集成學(xué)習(xí)器子模型加權(quán)的方法也有較理想的終點碳溫預(yù)測精度。
本文針對轉(zhuǎn)爐煉鋼生產(chǎn)過程原材料品質(zhì)差異導(dǎo)致的過程數(shù)據(jù)波動性較大,造成全局軟測量模型以及傳統(tǒng)的集成學(xué)習(xí)模型無法精確描述轉(zhuǎn)爐煉鋼生產(chǎn)過程的實際工況的問題,提出一種基于LNN-DPC的軟測量GCA加權(quán)集成建模方法具體總結(jié)如下:
(1)通過LNN-DPC劃分數(shù)據(jù)子集,保障了數(shù)據(jù)子集多樣性的同時也保證了構(gòu)建子模型的多樣性。
(2)采用GCA準則選擇GPR子模型并進行加權(quán)融合的方式減少了冗余的子模型,以選擇更優(yōu)的模型進行集成從而提高預(yù)測精度,得到更好泛化性能的預(yù)測模型。
通過對轉(zhuǎn)爐煉鋼生產(chǎn)過程數(shù)據(jù)的實驗仿真,驗證了該方法可以有效地解決生產(chǎn)過程數(shù)據(jù)中終點碳溫預(yù)報的問題,相比于全局建模和傳統(tǒng)的集成學(xué)習(xí)方法也有更好的預(yù)測性能,說明基于樣本聚類的集成學(xué)習(xí)軟測量建模方法為生產(chǎn)過程數(shù)據(jù)終點碳溫預(yù)報的研究提供了更好的研究方向,而且本論文的方法也為轉(zhuǎn)爐煉鋼過程生產(chǎn)提供了合理的建模過程。隨著轉(zhuǎn)爐煉鋼生產(chǎn)過程的工況不斷變動的情況,如何使得集成軟測量模型自適應(yīng)的更新,并能夠不斷地適應(yīng)生產(chǎn)過程變化的情況將是下一步的研究方向。