高新域,陶文華,王玉英
(1.遼寧石油化工大學(xué) 信息與控制工程學(xué)院,遼寧撫順 113001;2.中國石油遼陽石化分公司,遼寧遼陽 111003)
工業(yè)過程工藝復(fù)雜、流程多,受裝置老化、人員操作失當(dāng)、生產(chǎn)環(huán)境改變等因素的影響,工業(yè)過程性能會偏離最佳工作狀態(tài),可能導(dǎo)致經(jīng)濟(jì)性能變差甚至生產(chǎn)事故[1]。因此,針對工業(yè)過程設(shè)計(jì)一種在線性能評價(jià)模型是很有意義的。
近年來性能評價(jià)方法得到了快速發(fā)展,大致分為基于解析模型的方法、基于知識的方法及基于數(shù)據(jù)驅(qū)動(dòng)的方法三種[2]。其中,主成分分析法、獨(dú)立主元分析法及偏最小二乘法是基于數(shù)據(jù)驅(qū)動(dòng)的方法中應(yīng)用較廣泛的算法。主成分分析法可用于工業(yè)生產(chǎn)過程建模與故障檢測[3-4],其基本思路是將高維原始數(shù)據(jù)轉(zhuǎn)換為低維的特征元素進(jìn)行建模。但是,主成分分析法只關(guān)注過程變量組成的數(shù)據(jù)空間,沒有將與工業(yè)生產(chǎn)質(zhì)量相關(guān)的變量納入考慮范圍。梁北辰等[5]采用偏最小二乘法提取與工業(yè)生產(chǎn)質(zhì)量相關(guān)的信息。傳統(tǒng)偏最小二乘法使用非線性迭代算法,因此運(yùn)算過程比較復(fù)雜[6]。S.Yin等[7]使用自回歸思想對傳統(tǒng)偏最小二乘法改進(jìn),建立由回歸系數(shù)形成的投影空間,依據(jù)與質(zhì)量變量的相關(guān)性,對樣本數(shù)據(jù)空間進(jìn)行分解。改進(jìn)后的算法降低了運(yùn)算的復(fù)雜性,并且避免了不必要的分解[8]。在數(shù)據(jù)分析領(lǐng)域,聚類分析算法同樣有著廣泛的研究與應(yīng)用[9],如K均值聚類算法、模糊C均值(Fuzzy C-Means,F(xiàn)CM)聚類算法[10]。K均值聚類算法將K類向量作為聚類中心,依據(jù)與聚類中心的距離進(jìn)行聚類,不斷優(yōu)化樣本分類,并計(jì)算新的聚類中心,在數(shù)據(jù)量過多的情況下會耗費(fèi)大量計(jì)算時(shí)間。FCM聚類算法是K均值聚類算法的推廣形式,數(shù)據(jù)屬于某類由隸屬度函數(shù)決定,各樣本點(diǎn)不直接隸屬于單個(gè)聚類中心,基本依據(jù)是“類內(nèi)加權(quán)誤差最小化”原則。該算法對于滿足正態(tài)分布的數(shù)據(jù)聚類效果較好,且設(shè)計(jì)簡單,可應(yīng)用于多個(gè)領(lǐng)域[11]。本文采用自回歸潛結(jié)構(gòu)投影(Autoregressive Projection to Latent Structures,ARPLS)算法建立工業(yè)過程預(yù)測模型,通過FCM聚類算法對離線數(shù)據(jù)劃分性能等級,得到各性能等級對應(yīng)的隸屬度函數(shù),使用隸屬度函數(shù)計(jì)算預(yù)測模型在線得到質(zhì)量變量數(shù)據(jù)的隸屬度,再依據(jù)隸屬度判斷性能等級,實(shí)現(xiàn)工業(yè)過程的在線性能評價(jià)。
自回歸潛結(jié)構(gòu)投影算法通過建立回歸系數(shù)矩陣形成投影空間[8],按照與輸出變量的關(guān)聯(lián)程度對輸入變量的樣本數(shù)據(jù)空間進(jìn)行正交分解[12]。與傳統(tǒng)偏最小二乘法相比,該方法能夠簡化數(shù)據(jù)建模過程。
在工業(yè)生產(chǎn)過程中,可以通過各類傳感器及相關(guān)敏感元件獲得采樣數(shù)據(jù),并轉(zhuǎn)化為由n個(gè)指標(biāo)及m個(gè)樣本組成的輸入變量矩陣X∈Rm×n,以及由m個(gè)樣本及l(fā)個(gè)輸出變量組成的輸出變量矩陣Y∈Rm×l。輸出變量矩陣Y代表工業(yè)過程性能的潛在變量,與工業(yè)生產(chǎn)過程中的輸入變量相關(guān)。因此,在對工業(yè)生產(chǎn)過程進(jìn)行建模時(shí)使用自回歸潛結(jié)構(gòu)投影算法對過程變量中的隱藏信息進(jìn)行提取,將其映射到與潛變量Y相關(guān)的子空間中,并在此數(shù)據(jù)空間中建立工業(yè)生產(chǎn)過程離線模型。該算法將輸入變量及輸出變量分解為:
式中,T為得分矩陣;與為輸入變量矩陣X的正交分解,其中,能對輸出變量矩陣Y進(jìn)行預(yù)測,而無法預(yù)測Y;為能夠被過程變量X解釋的子空間;為不可被輸入變量X解釋的子空間,滿足cov(,X)=0;M為輸入變量與輸出變量間的回歸系數(shù)矩陣。
式中,(XTX)?為(XTX)的偽逆矩陣。
當(dāng)?shù)玫叫碌妮斎霐?shù)據(jù)XNEW時(shí),使用新的輸出變量表示為:
自回歸潛結(jié)構(gòu)投影分解中的能夠充分體現(xiàn)輸出潛變量中輸入變量的變化,排除無關(guān)信息對性能分析的干擾,提高運(yùn)算效率。相較于傳統(tǒng)偏最小二乘法,本數(shù)據(jù)空間分解方法更加適用于工業(yè)生產(chǎn)過程的離線建模。
聚類分析是依據(jù)一定標(biāo)準(zhǔn)對事物間的接近程度進(jìn)行判別,將彼此接近的事物進(jìn)行歸類的算法。FCM聚類算法通過求解有約束的最優(yōu)化問題,進(jìn)而獲得樣本數(shù)據(jù)的模糊劃分以及分類結(jié)果[13]。該算法能夠克服硬分類算法將數(shù)據(jù)歸屬“一刀切”的劣勢,在一定程度上彌補(bǔ)不確定因素對數(shù)據(jù)聚類造成的影響[14]。
令X={x1,x2,…,xn}為由n個(gè)指標(biāo)構(gòu)成的輸入變量矩陣,V={v1,v2,…,vc}為c個(gè)類別中各類別的聚類中心,U={uij}為隸屬度矩陣,uij為xj對于第i類的隸屬度,dij=‖ ‖xj-vi為樣本點(diǎn)xj到聚類中心vi的歐氏距離。
FCM聚類算法的關(guān)鍵點(diǎn)是尋找合適的隸屬度與聚類中心,使類內(nèi)耗費(fèi)函數(shù)的方差與迭代誤差達(dá)到最小。耗費(fèi)函數(shù)的值為數(shù)據(jù)到聚類中心二范數(shù)測度的加權(quán)累積和。
式中,J(U,V)為類別內(nèi)的數(shù)據(jù)到聚類中心的加權(quán)距離平方和,J(U,V)值反映數(shù)據(jù)類別的一致性,其值越小表明聚類效果越好;m為隸屬度加權(quán)指數(shù),該參數(shù)決定聚類結(jié)果的模糊程度,o∈[1,+∞),其值越大表明聚類結(jié)果越模糊,一般取o=2。式(4)需要滿足如下的約束條件:
為使J(U,V)達(dá)到最小,該帶約束條件的極值問題可通過拉格朗日乘子進(jìn)行求解,迭代算法的計(jì)算過程為:
(1)算法初始化:設(shè)定聚類類別數(shù)目,迭代終止條件ε,用隨機(jī)數(shù)初始化隸屬度矩陣U(0),令迭代次數(shù)k=0。
(2)計(jì)算聚類中心:
(3)計(jì)算隸屬度矩陣:
首先使用自回歸潛結(jié)構(gòu)投影算法,基于離線數(shù)據(jù)建立工業(yè)生產(chǎn)過程預(yù)測模型,然后通過FCM聚類分析算法計(jì)算建模數(shù)據(jù)中輸出變量數(shù)據(jù)對于各性能等級的隸屬度,并得到各變量對于每個(gè)性能等級的隸屬度函數(shù)。對在線數(shù)據(jù)進(jìn)行性能評價(jià)時(shí),由于生產(chǎn)過程存在滯后,先利用預(yù)測模型及輸入變量數(shù)據(jù)對輸出變量進(jìn)行預(yù)測,再用隸屬度函數(shù)計(jì)算各輸出變量預(yù)測值對于各性能等級的隸屬度,最終通過模糊算子得到該時(shí)刻所屬的性能等級。
使用離線建模數(shù)據(jù),通過自回歸潛結(jié)構(gòu)投影算法建立預(yù)測模型,并且用FCM聚類算法得出各輸出變量對于各性能等級的隸屬度函數(shù)。詳細(xì)過程為:
(1)由于工業(yè)生產(chǎn)存在滯后,獲得的單個(gè)樣本不能表征整體工業(yè)生產(chǎn)過程的性能狀態(tài)[12],因此本文在數(shù)據(jù)預(yù)處理時(shí)使用窗口寬度為H的數(shù)據(jù)平均值作為基本的評價(jià)單元,并計(jì)算數(shù)據(jù)窗口內(nèi)數(shù)據(jù)的平均值作為融合后的數(shù)據(jù)集E*={}進(jìn)行性能評價(jià)[10]。數(shù)據(jù)融合過程為:
(2)通過式(8)處理后得到離線建模數(shù)據(jù),依據(jù)評價(jià)要求劃分為輸入變量數(shù)據(jù)集xoff及輸出變量數(shù)據(jù)集yoff兩部分。
(3)根據(jù)評價(jià)需要,確定性能等級數(shù)目,使用FCM聚類算法,依據(jù)確定的性能等級數(shù)目,分別對各輸出變量進(jìn)行聚類,得到各輸出變量對于各性能等級的隸屬度。
(4)依據(jù)“最大隸屬度”原則確定各指標(biāo)對應(yīng)的性能等級,并按照各等級分布特征確定各性能指標(biāo)中各性能等級的隸屬度函數(shù)fij(i=1,2,…,n;j=1,2,…,c)。
使用預(yù)測模型對在線獲得的輸入變量數(shù)據(jù)預(yù)測輸出變量,通過隸屬度函數(shù)分別計(jì)算各輸出指標(biāo)數(shù)據(jù)對于各性能等級的隸屬度,最終利用模糊算子計(jì)算得到綜合評價(jià)結(jié)果。
(1)選取l時(shí)刻時(shí)間窗口寬度H內(nèi)的數(shù)據(jù),使用式(8)進(jìn)行數(shù)據(jù)融合,得到用于在線評價(jià)的l時(shí)刻輸入變量數(shù)據(jù)向量xon。
(2)使用式(3),通過預(yù)測模型系數(shù)矩陣得到由各輸出變量預(yù)測值組成的輸出向量yon。
(3)使用各指標(biāo)的等級隸屬度函數(shù),計(jì)算輸出向量yon中指標(biāo)數(shù)據(jù)對于性能等級的隸屬度,根據(jù)“最大隸屬度”原則確定輸出向量yon中輸出指標(biāo)數(shù)據(jù)所屬的性能等級。
(4)利用模糊算子對輸出指標(biāo)所屬的性能等級進(jìn)行模糊合成,得到該時(shí)刻系統(tǒng)所處的性能等級。
為測試所提方法的有效性,選擇對高爐生產(chǎn)過程有重要影響的高爐爐溫性能評價(jià)過程進(jìn)行測試。
高爐煉鐵是以焦炭、含鐵礦石等原材料在高爐內(nèi)生產(chǎn)生鐵的工業(yè)生產(chǎn)過程,在現(xiàn)代鋼鐵生產(chǎn)過程中有重要的作用。高爐的爐況波動(dòng)主要受爐溫影響,因此爐溫控制對高爐煉鐵極為重要。高爐爐溫對鐵水中硅元素還原率較為敏感,因此常使用鐵水硅質(zhì)量分?jǐn)?shù)反映高爐爐溫狀況。高爐冶煉過程中影響鐵水硅質(zhì)量分?jǐn)?shù)的因素有很多,本文選取風(fēng)量、風(fēng)溫、風(fēng)壓、透氣性、富氧量、噴煤量、進(jìn)料速度、鐵量差這幾種主要變量進(jìn)行建模分析。
本文選取包頭鋼鐵(集團(tuán))有限責(zé)任公司No.6高爐的生產(chǎn)數(shù)據(jù),對高爐冶煉過程的爐溫進(jìn)行建模分析。高爐冶煉出鐵時(shí)間一般為2 h,即120 min,使用式(8)對采集的過程數(shù)據(jù)進(jìn)行初步處理。選取其中78組數(shù)據(jù)進(jìn)行建模,將指標(biāo)變量的離線數(shù)據(jù)作為預(yù)測模型的輸入變量xoff。把高爐鐵水硅質(zhì)量分?jǐn)?shù)視為間接反映高爐爐溫狀況的指標(biāo)變量,并將其離線數(shù)據(jù)作為預(yù)測模型的輸出變量yoff。利用輸入變量數(shù)據(jù)及輸出變量數(shù)據(jù),通過式(2)計(jì)算得到預(yù)測模型系數(shù)矩陣M*。
在線獲得輸入變量xon后,高爐爐溫預(yù)測模型輸出的預(yù)測值yon由式(3)計(jì)算獲得。
利用能夠反映高爐爐溫狀態(tài)的高爐鐵水硅質(zhì)量分?jǐn)?shù)的離線數(shù)據(jù),使用FCM聚類算法進(jìn)行分析,得到高爐爐溫各性能狀態(tài)隸屬度函數(shù)。高爐爐溫狀態(tài)可大致分為偏高、偏低及正常三種,因此本文將高爐鐵水硅質(zhì)量分?jǐn)?shù)數(shù)據(jù)劃分為三種類別。FCM聚類算法得到的各類別隸屬度分布曲線如圖1所示。
圖1 基于FCM聚類算法的各類別隸屬度分布
從圖1可以看出,高爐鐵水硅質(zhì)量分?jǐn)?shù)數(shù)據(jù)分布近似滿足高斯分布,因此使用式(11)高斯分布函數(shù)作為隸屬度函數(shù)。
式中,x為輸入變量;σ決定高斯分布的胖瘦程度,σ=0.026;q為高斯分布的中心。
高爐爐溫各性能等級的隸屬度函數(shù)參數(shù)見表1。
表1 高爐爐溫各性能等級的隸屬度函數(shù)參數(shù)
基于上述參數(shù)的高爐爐溫各性能等級的隸屬度函數(shù)曲線如圖2所示。
圖2 高爐爐溫各性能等級的隸屬度函數(shù)曲線
使用隸屬度函數(shù)計(jì)算,能間接反映高爐爐溫狀態(tài)的高爐鐵水硅質(zhì)量分?jǐn)?shù)對于各性能等級的隸屬度,判斷高爐爐溫狀態(tài)。與FCM聚類算法得到的性能狀態(tài)進(jìn)行了對比,結(jié)果見表2。從表2可以看出,此隸屬度函數(shù)能夠準(zhǔn)確反映樣本數(shù)據(jù)所屬類別。
表2 FCM聚類算法分類結(jié)果與隸屬度函數(shù)分類結(jié)果
利用高爐的78組數(shù)據(jù)建立模型后,再通過另外37組數(shù)據(jù)對本文提出的在線性能評價(jià)方法進(jìn)行驗(yàn)證。首先將AR-PLS算法得到的預(yù)測模型平均誤差與偏最小二乘法得到的預(yù)測模型平均誤差進(jìn)行比較,然后將本文提出的在線性能評價(jià)方法的聚類結(jié)果與原始數(shù)據(jù)使用FCM聚類算法得到的聚類結(jié)果進(jìn)行比較。
對進(jìn)行驗(yàn)證的37組數(shù)據(jù)使用式(8)進(jìn)行預(yù)處理,高爐爐溫狀態(tài)評價(jià)的主要變量劃分為輸入變量及輸出變量兩部分。將AR-PLS算法與偏最小二乘法的預(yù)測數(shù)據(jù)與原始數(shù)據(jù)進(jìn)行對比,結(jié)果見圖3,兩種方法的平均誤差見表3。
圖3 鐵水硅質(zhì)量分?jǐn)?shù)預(yù)測數(shù)據(jù)與原始數(shù)據(jù)
表3 AR-PLS算法、偏最小二乘法的平均誤差
從圖3及表3可以看出,AR-PLS算法在預(yù)測準(zhǔn)確率上略優(yōu)于傳統(tǒng)的偏最小二乘法。
使用FCM聚類算法,通過高爐爐溫各性能等級隸屬度函數(shù),分別計(jì)算原始數(shù)據(jù)和AR-PLS算法預(yù)測數(shù)據(jù)對于各性能等級的隸屬度,并依據(jù)“最大隸屬度”原則確定原始數(shù)據(jù)和AR-PLS算法預(yù)測數(shù)據(jù)對應(yīng)的性能等級。評價(jià)結(jié)果見表4。
從表4可以看出,F(xiàn)CM聚類算法對AR-PLS算法預(yù)測數(shù)據(jù)的性能評價(jià)結(jié)果與對原始數(shù)據(jù)的性能評價(jià)結(jié)果相近。該預(yù)測模型在工業(yè)生產(chǎn)中能夠較為準(zhǔn)確地監(jiān)測到異常情況的發(fā)生,進(jìn)而提醒工程師采取相應(yīng)措施。
表4 FCM聚類算法對原始數(shù)據(jù)與AR-PLS算法預(yù)測數(shù)據(jù)的性能評價(jià)結(jié)果
針對傳統(tǒng)偏最小二乘法存在復(fù)雜工業(yè)過程性能評價(jià)結(jié)果難以在線獲得的問題,通過AR-PLS算法建立預(yù)測模型,并采用FCM聚類算法得到各性能等級隸屬度函數(shù),建立性能評價(jià)模型,對在線獲取到的指標(biāo)數(shù)據(jù)進(jìn)行性能評價(jià)。以高爐爐溫性能評價(jià)為背景對所提方法進(jìn)行仿真分析,發(fā)現(xiàn)該方法使預(yù)測模型的建立過程更簡潔,計(jì)算復(fù)雜度較低,能夠較準(zhǔn)確地反映工業(yè)過程變化,在非線性建模過程中也有著廣泛應(yīng)用。