李煒,阮成龍,王曉明,李亞潔,梁成龍
(1 蘭州理工大學(xué)電氣工程與信息工程學(xué)院,甘肅 蘭州 730050;2 甘肅省工業(yè)過程先進(jìn)控制重點(diǎn)實(shí)驗(yàn)室,甘肅蘭州 730050;3 蘭州理工大學(xué)電氣與控制工程國家級(jí)實(shí)驗(yàn)教學(xué)示范中心,甘肅 蘭州 730050;4 中國石化蘭州石化分公司油品儲(chǔ)運(yùn)廠,甘肅 蘭州 730060)
隨著綠色環(huán)保理念的日益推進(jìn),我國汽柴油質(zhì)量標(biāo)準(zhǔn)升級(jí)速度不斷加快,這就需要煉油企業(yè)的油品調(diào)和技術(shù)不斷升級(jí)跟進(jìn)。然而實(shí)際中受研發(fā)能力和技術(shù)升級(jí)費(fèi)用的限制,一些煉油企業(yè)目前仍采用在線罐式調(diào)和方式。在該生產(chǎn)模式下,成品汽油生產(chǎn)多是依據(jù)單一線性模型的配方進(jìn)行罐式批次調(diào)和,其組分添加的流量為配方指導(dǎo)下的比值閉環(huán)控制,但產(chǎn)品質(zhì)量指標(biāo)由于無法在線分析,則為開環(huán)控制。因此,建立精準(zhǔn)的調(diào)和配方模型就成為確保產(chǎn)品質(zhì)量指標(biāo)且接近卡邊生產(chǎn)、提高企業(yè)生產(chǎn)效益的重要保障。盡管對(duì)于不同產(chǎn)地原油加工中經(jīng)典池化問題(pooling problem)提出的多種優(yōu)良解決方案助力了企業(yè)效益的提升,但是作為油品調(diào)和生產(chǎn)的優(yōu)質(zhì)配方依然是企業(yè)提質(zhì)增效的基礎(chǔ)保障。在罐式在線調(diào)和過程中,罐底通常會(huì)留有約占調(diào)和罐1/6的余油,且調(diào)和組分受不同產(chǎn)地原油影響,即使企業(yè)前端生產(chǎn)盡可能保證主料加氫汽油性質(zhì)相似,但實(shí)際加氫汽油品質(zhì)仍有差異,進(jìn)而導(dǎo)致調(diào)和過程呈現(xiàn)批次現(xiàn)象。雖有部分學(xué)者提出從分子特征層面認(rèn)識(shí)石油加工過程,通過準(zhǔn)確預(yù)測產(chǎn)品性質(zhì)優(yōu)化工藝和加工流程,以提升每個(gè)分子對(duì)產(chǎn)品的使用價(jià)值,然而對(duì)在線罐式調(diào)和方式下罐底余油的影響仍缺乏細(xì)節(jié)的考慮。因此,綜合考慮罐底余油以及批次效應(yīng),建立更加精準(zhǔn)優(yōu)質(zhì)的配方模型,無疑對(duì)提高一次成功調(diào)和率、減少產(chǎn)品質(zhì)量過剩、降低企業(yè)生產(chǎn)成本都起著決定性的作用。對(duì)于多批次引起工況的變化,傳統(tǒng)的單一配方模型很難準(zhǔn)確預(yù)測不同批次各個(gè)調(diào)和組分比例。而對(duì)于這類多工況問題,基于多模型集成的建模方法則能顯著提高模型精度和泛化能力已成為主流的解決方案。
近年來,多模型研究在不同的應(yīng)用領(lǐng)域已有了豐碩的成果。而對(duì)于罐式批次成品油調(diào)和而言,核心問題是如何科學(xué)合理地對(duì)罐底余油按組分批次聚類,并建立與之對(duì)應(yīng)的高質(zhì)量子模型及有效融合。針對(duì)實(shí)際工業(yè)中的批次問題,聚類不失為一種行之有效的方法。聚類算法通??煞譃橛残院腿嵝詢煞N,對(duì)于復(fù)雜工況問題,硬性劃分和柔性劃分的效果各有優(yōu)缺點(diǎn)。由于罐底油劃分并非是非此即彼的關(guān)系,因此柔性劃分更為契合,而柔性劃分最經(jīng)典的是模糊-mean 聚類算法,但其仍存在對(duì)初始聚類中心敏感、無法處理非球狀數(shù)據(jù)、易于陷入局部最優(yōu)解等缺陷。針對(duì)上述問題,不同學(xué)者從多方面進(jìn)行改進(jìn),如通過引入智能優(yōu)化算法對(duì)聚類初始信息進(jìn)行優(yōu)化、提出各種準(zhǔn)則確定聚類個(gè)數(shù)等。在距離度量上,文獻(xiàn)[18]采用一種對(duì)離群點(diǎn)有抑制作用的非歐距離度量,但大多數(shù)通過引入核函數(shù)進(jìn)行度量矩陣重構(gòu),且已證明引入核函數(shù)可使其聚類效果具有魯棒性。但當(dāng)應(yīng)用中涉及多模態(tài)和不平衡特征問題時(shí),由于多個(gè)核較單一核在核的選擇和數(shù)據(jù)表示上具有更大的靈活性,可以有效解決此類問題,學(xué)者們又引入多核映射方法。Huang等提出了一種多核模糊均值(multikernel fuzzy-means,MKFCM)算法,首先將每個(gè)屬性特征映射到單個(gè)核空間,然后將這些核與最優(yōu)權(quán)值進(jìn)行線性組合和構(gòu)造復(fù)合核函數(shù)。文獻(xiàn)[21]采用MKFCM 在機(jī)器學(xué)習(xí)庫(UCI)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),印證了該聚類算法具有更好的性能,但此方法更多考慮的是樣本間差異,對(duì)于調(diào)和油生產(chǎn)多組分配方形成的特征差異仍有改進(jìn)空間。
從已有的多模型研究來看,采用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行子模型建立仍占多數(shù),亦取得了良好的應(yīng)用效果,如最小二乘支持向量機(jī)、高斯過程、神經(jīng)網(wǎng)絡(luò)等經(jīng)典方法,近年來新型機(jī)器學(xué)習(xí)應(yīng)用也初見端倪。極端梯度提升樹(extreme gradient boosting,XGBoost)是陳天奇等開發(fā)的一個(gè)開源機(jī)器學(xué)習(xí)項(xiàng)目,高效地實(shí)現(xiàn)了梯度提升樹(gradient boosting decision tree,GBDT)算法,并從GBDT延伸出基于其他機(jī)器學(xué)習(xí)的集成算法,且可以使用任意自定義的二階可導(dǎo)目標(biāo)函數(shù)??紤]XGBoost在各種機(jī)器學(xué)習(xí)算法大賽及實(shí)際應(yīng)用中均表現(xiàn)出較傳統(tǒng)機(jī)器學(xué)習(xí)更優(yōu)的性能,因此將其用于調(diào)和油各批次的子模型建立不失為一種優(yōu)選方法。
鑒于此,考慮罐式批次成品油調(diào)和過程中罐底余油與批次類型對(duì)成品油質(zhì)量指標(biāo)的影響,提出了一種基于改進(jìn)MKFCM 與XGBoost 結(jié)合的多模型集成建模方法。該方法首先將改進(jìn)的MKFCM用于罐底油聚類分析及對(duì)數(shù)據(jù)分類,其次基于上述分類數(shù)據(jù)建立各個(gè)子配方的XGBoost模型,最后在配方生成過程中,根據(jù)當(dāng)前罐底余油得出動(dòng)態(tài)融合權(quán)值,對(duì)各個(gè)子模型進(jìn)行輸出融合,以期對(duì)不同調(diào)和批次生成更精準(zhǔn)和更具魯棒性的通用配方,為企業(yè)生產(chǎn)提質(zhì)增效助力。
就生產(chǎn)企業(yè)而言,在成品汽油罐式批次調(diào)和過程中,大多采用單一線性配方模型進(jìn)行各組分比例的計(jì)算,而這種調(diào)和過程因無質(zhì)量閉環(huán)的精準(zhǔn)調(diào)控,往往呈現(xiàn)出配方與油品質(zhì)量失配問題。究其原因,一是企業(yè)使用的單一配方模型無法應(yīng)對(duì)調(diào)和過程中多工況、多批次問題;二是配方模型未考慮罐底余油及其所屬批次類型對(duì)成品油質(zhì)量的影響;三是線性調(diào)和配方難以適應(yīng)由于各組分混合發(fā)生化學(xué)反應(yīng)帶來的非線性影響。而正是由于調(diào)和配方的不精細(xì),使得企業(yè)只能以犧牲油品質(zhì)量過剩為代價(jià)盡可能滿足油品一次調(diào)和成功,從而影響了企業(yè)的生產(chǎn)效益。
就配方建模方法而言,要解決罐式批次調(diào)和工藝下的配方精準(zhǔn)建模問題,多模型集成融合無疑是一種好的選擇。在多模型集成建模中有兩個(gè)關(guān)鍵要素。一是如何確定罐底油批次類型數(shù)及當(dāng)前罐底批次類型,這是確定子模型個(gè)數(shù)和多模型融合權(quán)值的前提。考慮MKFCM在聚類算法領(lǐng)域具有優(yōu)異的性能,而結(jié)合調(diào)和組分特征仍有提升空間,故擬對(duì)其進(jìn)行改進(jìn),并用于罐底油批次個(gè)數(shù)和批次類型隸屬度的確定。二是子模型的精準(zhǔn)建立,這是建立優(yōu)質(zhì)集成模型的基礎(chǔ)。由于XGBoost是一類結(jié)構(gòu)風(fēng)險(xiǎn)最小的算法,具有復(fù)雜度低、泛化能力和靈活性強(qiáng)等特點(diǎn),因而擬基于XGBoost建立各批次子模型。由此便形成了基于改進(jìn)MKFCM-XGBoost 算法的多模型集成建模思路。
針對(duì)前述油品調(diào)和存在的實(shí)際問題以及工藝需求,結(jié)合上述建模思想,基于罐底油批次的多模型集成配方建模過程可分為3 個(gè)階段,具體過程如圖1所示。
圖1 集成配方建模過程
第一階段,罐底余油批次類別的確定。首先將歷史上罐底余油組分[包括加氫汽油、醚化汽油、甲基叔丁基醚(MTBE)、車用異辛烷、汽油重芳烴、生成油、乙苯、甲苯以及二甲苯9種]添加比例,通過聚類算法確定出批次類型數(shù)及各個(gè)批次類型隸屬度矩陣。
第二階段,各批次子配方模型建立。根據(jù)第一階段分類數(shù)據(jù),采用XGBoost方法,分別建立各調(diào)和批次的子配方模型,其輸入為成品汽油各項(xiàng)質(zhì)量指標(biāo)、罐底油組分添加比例,輸出為上述9種組分油的添加比。
第三階段,在線融合配方生成。根據(jù)當(dāng)前罐底余油,利用第一階段罐底余油歷史數(shù)據(jù)聚類得到的批次類別進(jìn)行類型歸屬計(jì)算,求取各子配方模型的融合權(quán)值,進(jìn)而對(duì)其融合生成最終的配方。
式中,x為第個(gè)樣本;x為第個(gè)樣本的第個(gè)特征;c為第個(gè)聚類中心;u為第個(gè)樣本對(duì)第個(gè)聚類中心的隸屬度;指數(shù)為控制樣本模糊度的平滑因子;φ為第個(gè)特征在希爾伯特空間的映射;為特征映射的個(gè)數(shù)及核函數(shù)的個(gè)數(shù);ω為第個(gè)核函數(shù)的權(quán)重值。同時(shí)根據(jù)每個(gè)樣本的隸屬度最大值進(jìn)行類別劃分,如式(3)。
應(yīng)用拉格朗日乘子法對(duì)目標(biāo)函數(shù)式(1)進(jìn)行求解,由此可得到隸屬度矩陣以及距離矩陣中各元素計(jì)算見式(4)、式(5)。
多核模糊均值聚類算法盡管可以較好地處理異構(gòu)數(shù)據(jù)源以及數(shù)據(jù)特征不明顯等問題,但具體實(shí)現(xiàn)中,仍存在選用不同核函數(shù)其聚類效果的差異問題。隨著研究者們對(duì)核方法研究的深入,極大豐富了核函數(shù)的種類,但構(gòu)造的核函數(shù)過于復(fù)雜,難以應(yīng)用于實(shí)際,且參數(shù)優(yōu)化整定存在困難。
MKFCM 算法中核函數(shù)選擇與構(gòu)造是決定其聚類效果的核心問題,結(jié)合工程的實(shí)用性,考慮高斯核函數(shù)相較其他核函數(shù)僅需確定一個(gè)參數(shù),憑借簡單高效的特性被廣泛用于核函數(shù)構(gòu)造,故本文仍采用其作為核函數(shù),形式如式(11)所示。
由MKFCM 原理可知子高斯核參數(shù)的選取,反映著特征數(shù)據(jù)映射在希爾伯特空間的位置,從而對(duì)聚類效果存在一定影響。雖然Zhou 等提出一種核參數(shù)設(shè)定公式=,較好地實(shí)現(xiàn)了分類,但主要考慮的是樣本之間的差異性。
對(duì)于調(diào)和油的罐底余油而言,樣本由9種組分的添加比例組成,數(shù)據(jù)不僅是樣本差異,而是一種樣本矢量的差異??紤]罐底油各組分間可能服從不同的核概率分布,受文獻(xiàn)[38]的啟發(fā),為使核參數(shù)的確定簡單便利,又能體現(xiàn)各組分的差異,首先設(shè)定一個(gè)整體核參數(shù),再計(jì)算出各個(gè)組分距離的最大值,最后算出該組分高斯核函數(shù)的參數(shù)值,從而使其具有自動(dòng)適應(yīng)選取各個(gè)罐底組分特征核參數(shù)σ的能力。具體各組分核參數(shù)的計(jì)算如式(12)所示。
基于標(biāo)準(zhǔn)MKFCM 算法,結(jié)合前述提出的一種各組分自適應(yīng)核參數(shù)計(jì)算方法[式(12)],改進(jìn)多核模糊-means聚類算法步驟如表1所示。
表1 改進(jìn)MKFCM算法步驟
改進(jìn)MKFCM 超參數(shù)主要包括聚類個(gè)數(shù)以及平滑因子等,本文將采用常用判別方法,如肘部法、間隙統(tǒng)計(jì)法(gap statistics,Gap)以及輪廓系數(shù)等,對(duì)上述參數(shù)綜合分析以確定。
XGBoost 是基于梯度提升樹的集成算法,梯度提升樹的工作原理可用式(13)表示。
式中,為一棵樹上的節(jié)點(diǎn)數(shù);w為這顆數(shù)上的第個(gè)葉子節(jié)點(diǎn)上的樣本權(quán)重;g和h分別為損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù);為L2 正則化的參數(shù);為控制樹復(fù)雜度的懲罰因子。
式(13)表明梯度提升樹可以將無法正確預(yù)測或分類的樣本,通過構(gòu)建新的樹,再通過梯度下降方式使其預(yù)測模型精度不斷提升,降低目標(biāo)函數(shù)值。從式(14)可知,XGBoost 為結(jié)構(gòu)風(fēng)險(xiǎn)最小,其在目標(biāo)函數(shù)中加入正則項(xiàng)對(duì)模型的復(fù)雜度進(jìn)行約束,使學(xué)習(xí)出來的模型更為簡單,減少過擬合;其次,XGBoost 支持用戶自定義目標(biāo)函數(shù)和評(píng)估函數(shù),只需定義出的目標(biāo)函數(shù)二階可導(dǎo)即可。
綜前所述,基于改進(jìn)MKFCM-XGBoost 方法,罐式批次成品汽油調(diào)和配方集成建模的具體流程如圖2所示。需要強(qiáng)調(diào)的是,最終配方生成時(shí),需基于改進(jìn)MKFCM算法求得當(dāng)前罐底余油的隸屬度向量,并以此作為XGBoost子配方模型的融合權(quán)重系數(shù),依據(jù)融合式(16),以多模型集成的方式獲得罐式批次成品汽油調(diào)和的最終配方。
圖2 基于改進(jìn)MKFCM-XGBoost多模型集成建模的配方生成流程
具體步驟可歸結(jié)如下。
步驟1:改進(jìn)MKFCM參數(shù)設(shè)定,主要包括核函數(shù)的整體核參數(shù)、聚類個(gè)數(shù)、平滑因子、聚類的迭代結(jié)束條件等,再根據(jù)式(12)自適應(yīng)計(jì)算各組分高斯核函數(shù)的核參數(shù);
步驟2:參數(shù)初始化,在聚類之前需要初始化隸屬度矩陣以及各個(gè)核函數(shù)的融合權(quán)值;
步驟3:根據(jù)表1算法步驟對(duì)歷史罐底余油的各組分添加比例進(jìn)行聚類,得到隸屬度矩陣;
步驟4:根據(jù)式(3)由得到的隸屬度矩陣對(duì)歷史罐底余油數(shù)據(jù)進(jìn)行批次類別劃分;
步驟5: XGBoost 模型的參數(shù)設(shè)定,主要包括XGBoost 的集成中弱評(píng)估器的數(shù)量n_estimators、隨機(jī)抽樣的特征比例(每次生成樹采樣比例colsample_bytree、每次生成樹的一層采樣比例colsample_bylevel、每次生成一個(gè)葉子節(jié)點(diǎn)采樣比例colsample_bynode)、集成中的學(xué)習(xí)率、L1/2正則化參數(shù)alpha/lambda、復(fù)雜度的懲罰項(xiàng)gamma、樹的最大深度max_depth等;
步驟6:用各批次歷史數(shù)據(jù)集訓(xùn)練XGBoost子配方模型,并進(jìn)行折交叉驗(yàn)證,記錄此參數(shù)下的模型指標(biāo);
步驟7:重新設(shè)定XGBoost模型的參數(shù),再次返回步驟6;
步驟8:從若干組參數(shù)下選擇出較好的子配方模型參數(shù);
步驟9:計(jì)算出當(dāng)前罐底余油的隸屬度向量={,,…,};
步驟10:將當(dāng)前罐底余油的配方比例以及欲達(dá)到的成品汽油各項(xiàng)質(zhì)量指標(biāo),作為各個(gè)子配方模型輸入進(jìn)行預(yù)測,再基于步驟9得出的隸屬度向量作為權(quán)重系數(shù),利用式(16)進(jìn)行融合;
步驟11:采用評(píng)價(jià)指標(biāo)對(duì)模型評(píng)價(jià),如果達(dá)到預(yù)期效果進(jìn)入步驟12結(jié)束此過程,否則返回步驟1;
步驟12:結(jié)束。
實(shí)驗(yàn)所用數(shù)據(jù)為某大型煉油廠2017—2020 年真實(shí)脫敏數(shù)據(jù),通過篩選后數(shù)據(jù)集共包含:8個(gè)油品質(zhì)量指標(biāo)特征(其余質(zhì)量指標(biāo)特征通過深度解讀工藝、方差過濾、檢驗(yàn)等方式刪除)以及9種罐底油組分添加比例特征,9 種組分添加比例標(biāo)簽。需要進(jìn)一步說明的是8個(gè)油品質(zhì)量指標(biāo)特征確定問題,該企業(yè)原始生產(chǎn)數(shù)據(jù)共有質(zhì)量指標(biāo)25 個(gè),具體篩選方式包括:與企業(yè)資深專家溝通下對(duì)工藝的深度解讀,確定了最為重要的研究法辛烷值、抗爆指數(shù)、芳烴、烯烴、苯含量5個(gè)指標(biāo),并刪除了非數(shù)值及數(shù)據(jù)不全的10 個(gè)指標(biāo);再通過方差過濾方式,刪除了一些數(shù)值方差為0的未洗膠質(zhì)含量、溶劑洗膠質(zhì)等5個(gè)指標(biāo);采用檢驗(yàn)方式,依據(jù)指標(biāo)特征與添加組分的相關(guān)度,篩選出氧含量、密度、硫含量3個(gè)指標(biāo),刪除了相關(guān)度弱的飽和蒸汽壓和電導(dǎo)率。樣本篩選方式包括但不限于刪除不符合工業(yè)實(shí)際工藝、調(diào)和失敗以及不滿足3原則的數(shù)據(jù),最終挑選出8個(gè)指標(biāo)特征的1192個(gè)樣本。從中隨機(jī)選取80%樣本作為訓(xùn)練集,余下20%作為測試集。
為了對(duì)文中方法建立的成品汽油調(diào)和配方模型性能進(jìn)行客觀評(píng)價(jià),采用常見的評(píng)價(jià)指標(biāo)均方誤差(mean-square error,MSE)、決定系數(shù)()、泛化誤差(genelization error,GE),并定義預(yù)測配方比例和(predicted blending ratios,PBR)評(píng)價(jià)指標(biāo)。
(1)常用評(píng)價(jià)指標(biāo)[式(17)~式(19)]
GE = bias()+ var()+≈bias()+ var() (19)
式中,為樣本個(gè)數(shù);?為模型第個(gè)樣本第種組分預(yù)測值;y為第個(gè)樣本第種組分真實(shí)值;ˉ為第種組分真實(shí)值的平均值;SSE為第種組分的殘差平方和;SST為第種組分的總離差平方和;bias()為偏差,由模型在訓(xùn)練集上的擬合程度決定;var()為方差,由模型的穩(wěn)定性決定;為噪聲,屬于不可控因素,故本文未考慮。
(2)預(yù)測配方比例和 由于本文建立的是以9種調(diào)和組分添加比例為輸出的配方模型,考慮模型的準(zhǔn)確性,因此采用各組分的添加比例和作為評(píng)價(jià)指標(biāo),定義如下。
如果某批次成品油的混合質(zhì)量為(噸),則調(diào)和中種組分的添加質(zhì)量和應(yīng)為(噸),如式(20)所示。
4.3.1 參數(shù)選擇
模型參數(shù)的選取對(duì)模型預(yù)測的性能至關(guān)重要。為了更為客觀地評(píng)價(jià)本文中建模方法的性能,在實(shí)驗(yàn)中作了如下考慮:其一所有對(duì)比實(shí)驗(yàn)均采用網(wǎng)格搜索以及折交叉驗(yàn)證的方法選取最優(yōu)的模型參數(shù);其二是保證數(shù)據(jù)的一致性,將多模型各個(gè)子模型的訓(xùn)練集、測試集,共同作為單模型的訓(xùn)練集、測試集。需要采用網(wǎng)格搜索的參數(shù)主要包括:改進(jìn)和未改進(jìn)MKFCM以及XGBoost的相關(guān)參數(shù)。
(1)改進(jìn)MKFCM參數(shù)選擇 由于罐底油主料成分實(shí)際批次未知,因此需通過改進(jìn)MKFCM確定及相應(yīng)判別方法輔助完成。本文采用2.2節(jié)中提到的3種常用于聚類個(gè)數(shù)判斷的間隙、手肘和輪廓等方法,聚類個(gè)數(shù)從2~10變化,分別計(jì)算間隙值、組內(nèi)平方誤差以及輪廓系數(shù),具體結(jié)果如圖3所示。
圖3 判別方法的結(jié)果
間隙統(tǒng)計(jì)法是指從滿足Gap 值局部最大且Gap 值差值大于參考分布1 個(gè)標(biāo)準(zhǔn)差的類別數(shù)中,選取最小類別視為最佳聚類個(gè)數(shù)。圖3(a)中實(shí)線表示當(dāng)前類別的Gap值與其相鄰之間的差值,星形線表示參考分布在不同類別數(shù)上的標(biāo)準(zhǔn)差,三角形線表示不同類別數(shù)上的Gap值??梢钥闯鲱悇e數(shù)為3、4、6、9、10時(shí),均同時(shí)滿足前述的兩個(gè)條件,故最佳聚類數(shù)為3。手肘法主要尋求類別數(shù)中組內(nèi)平方誤差的拐點(diǎn),即關(guān)注變化率,圖3(b)中黑實(shí)線表示組內(nèi)平方誤差在前后類別數(shù)的差值,虛線表示組內(nèi)平方誤差在不同類別數(shù)的值。綜合可知,當(dāng)類別數(shù)為3、4 時(shí)拐點(diǎn)相對(duì)明顯,故最佳聚類數(shù)為3~4。輪廓系數(shù)法則是通過計(jì)算輪廓系數(shù)值,選取其中最大輪廓系數(shù)值所屬的類別,其聚類效果更好,圖3(c)表示不同類別下輪廓系數(shù)的值,顯然聚類個(gè)數(shù)為2~3類時(shí),輪廓系數(shù)值更大,故認(rèn)為2~3類為最佳聚類個(gè)數(shù)。
綜合圖3的結(jié)果分析,可以得出聚類個(gè)數(shù)應(yīng)為2~4 類,結(jié)合3 種判別結(jié)果,采用投票法可得批次個(gè)數(shù)應(yīng)是3 個(gè),這恰與企業(yè)的生產(chǎn)實(shí)際情況相符,故確定最佳聚類個(gè)數(shù)為3類,其余改進(jìn)MKFCM的參數(shù)設(shè)置見表2。未改進(jìn)MKFCM算法采用文獻(xiàn)[38]的參數(shù)設(shè)置。
表2 改進(jìn)MKFCM的參數(shù)設(shè)置
(2) XGBoost 參數(shù)選擇 表3 給出了建立XGBoost各批次子配方模型或單一配方模型的部分參數(shù)設(shè)置,具體見3.2節(jié)步驟5中的參數(shù)說明。
4.3.2 罐底油成分聚類分析對(duì)集成模型的影響
通過4.3.1 節(jié)中分析可知,罐底油明顯存在批次問題,盡管文獻(xiàn)[38]與下文改進(jìn)的MKFCM 分類算法均可將罐底油數(shù)據(jù)進(jìn)行分類,但在集成配方生成時(shí),當(dāng)前罐底余油所屬類別的隸屬度對(duì)最終生成配方精度卻有著重要的影響。針對(duì)MKFCM 算法,選出部分樣本分別采用MKFCM 算法及改進(jìn)MKFCM算法進(jìn)行計(jì)算隸屬度,結(jié)果見表4。
從表4 中可以看出,同樣的樣本采用MKFCM算法,得到了對(duì)各個(gè)批次隸屬度均近似相等的結(jié)果,而采用改進(jìn)的MKFCM 則隸屬度出現(xiàn)了差異。尤其是第6 個(gè)樣本,采用MKFCM 算法的隸屬度均為0.333 左右,而通過改進(jìn)MKFCM 算法求取隸屬度,分別為0.36035、0.54604和0.09359,屬于3類的概率出現(xiàn)了明顯差異。這說明由于本文考慮了組分特征的差異,自適應(yīng)選取各核的參數(shù),使得改進(jìn)后的MKFCM 算法可以更精細(xì)地將數(shù)據(jù)進(jìn)行分類,從而建立更精準(zhǔn)的批次子配方模型,而且在配方在線生成時(shí),由于此隸屬度反映了最終配方生成的融合系數(shù),因而會(huì)進(jìn)一步影響最終的模型性能。
表4 部分樣本聚類隸屬度
4.3.3 批次子配方模型建立與分析
根據(jù)上述聚類得出的各批次數(shù)據(jù),采用表3中各子模型的參數(shù)設(shè)置,建立各個(gè)批次的子配方模型。為說明基于XGBoost建模的優(yōu)越性,本文首先對(duì)比了11 種常用機(jī)器學(xué)習(xí)算法(多元線性回歸、嶺回歸、lasso 回歸、彈性網(wǎng)絡(luò)、最近鄰算法、偏最小二乘算法、決策樹、支持向量機(jī)回歸、隨機(jī)森林、RBF 神經(jīng)網(wǎng)絡(luò)、廣義RBF 神經(jīng)網(wǎng)絡(luò))建立子配方模型,并從中挑選出性能較優(yōu)的最近鄰(nearest neighbor,KNN)模型,與XGBoost 建立的子配方模型進(jìn)行對(duì)比;同時(shí)為說明本文考慮生產(chǎn)批次建立的多模型集成方法優(yōu)于單模型方法,這里還通過單一XGBoost 配方模型(模型1)與XGBoost建立的子配方模型進(jìn)行對(duì)比,使用MSE 以及性能指標(biāo)評(píng)價(jià)分析,具體性能對(duì)比見表5。
表3 XGBoost部分參數(shù)的不同設(shè)置
從表5 中可以看出,基于XGBoost 建立的子配方模型性能均優(yōu)于KNN的,說明XGBoost算法用于油品調(diào)和子配方模型建立更為優(yōu)越。對(duì)比模型1可知,批次子配方XGBoost的預(yù)測精度均優(yōu)于未考慮批次的XGBoost 單一配方模型(模型1);再以表5中的成品汽油調(diào)和主料加氫汽油為例進(jìn)行更為細(xì)致的分析,發(fā)現(xiàn)均方誤差前者均比后者低約0.1,決定系數(shù)亦提升了約0.03,且KNN 批次子配方模型也具有類似的優(yōu)勢。由此說明,同時(shí)考慮罐底余油及批次屬性建立的子配方模型,對(duì)于批次屬類預(yù)測而言更為精準(zhǔn)。
表5 各批次子配方模型性能比較
4.3.4 基于改進(jìn)MKFCM-XGBoost 集成配方模型建立與分析
為顯現(xiàn)本文改進(jìn)MKFCM-XGBoost 多模型集成配方的優(yōu)勢,分別與模型1、模型2(未考慮罐底油的XGBoost單一配方模型)、模型3(同時(shí)考慮罐底油及批次的MKFCM-XGBoost 集成配方模型)的預(yù)測結(jié)果對(duì)比。其中,圖4為基于不同模型的加氫汽油預(yù)測結(jié)果(其余組分預(yù)測結(jié)果類似,限于篇幅,不再呈現(xiàn)),圖5 為幾種模型的MSE、直方圖對(duì)比,表6 及表7 分別給出了幾種模型下GE、PBR及MSE、等性能的定量比較。
表6 是對(duì)9 種組分預(yù)測配方模型的整體評(píng)價(jià),分別為泛化誤差GE 和預(yù)測配方比例和PBR 指標(biāo)。其中GE 值越小越好,而PBR 越接近100%效果越好。亦可看出,文中提出的集成模型性能最佳,其次為集成模型3,而單一模型2最差。圖4是130個(gè)加氫汽油真實(shí)值樣本與幾種模型預(yù)測結(jié)果的比較,可以直觀看出,基于本文改進(jìn)MKFCM-XGBoost 集成模型的加氫汽油預(yù)測值以及未改進(jìn)MKFCMXGBoost 的集成模型3,僅有個(gè)別樣本與真實(shí)樣本未重合,其重合度最高;而未考慮罐底余油的單一模型2,與真實(shí)樣本則出現(xiàn)了多個(gè)未重合,重合度最低(其他8 種組分也表現(xiàn)出類似結(jié)果)。由此可知,本文考慮批次及罐底余油的集成配方模型,明顯優(yōu)于未考慮批次的單一配方模型。這充分揭示出對(duì)于罐式批次調(diào)和工藝,考慮批次影響能有效提高配方模型精度;同時(shí)改進(jìn)MKFCM的批次分類與所屬批次的隸屬度計(jì)算,更能體現(xiàn)各種組分特征之間的差異性,從而對(duì)數(shù)據(jù)集劃分更為精準(zhǔn),進(jìn)而據(jù)此融合又可進(jìn)一步提高集成配方模型的預(yù)測性能。
表6 幾種模型整體性能比較
圖4 基于不同模型的加氫汽油預(yù)測結(jié)果
圖5 及表7 是4 種配方模型對(duì)于不同組分添加比例的預(yù)測性能評(píng)估。從圖5直方圖可以直觀看出,4種配方模型對(duì)各種組分預(yù)測的MSE、對(duì)應(yīng)的數(shù)值大小不同,總體來說,MSE以加氫汽油最高,生成油最低,以醚化汽油最高,汽油重芳烴最低。從表7定量精細(xì)分析可知,相較于其他方法,本文方法預(yù)測各個(gè)組分的MSE數(shù)值均最小,而均最接近1,說明文中方法具有更精準(zhǔn)的預(yù)測效果和泛化能力。因此,對(duì)于罐式批次成品汽油調(diào)和工藝,采用本文方法更適合于各組分添加比例的配方預(yù)測。
表7 幾種模型配方的性能比較
圖5 幾種模型配方的性能對(duì)比
根據(jù)某煉油企業(yè)成品汽油調(diào)和的實(shí)際工藝,考慮調(diào)和過程中罐底余油及其主料成分存在多批次等影響產(chǎn)品質(zhì)量指標(biāo)的因素,提出了一種基于改進(jìn)MKFCM-XGBoost 的多模型集成建模方法,并將其用于罐式批次成品汽油調(diào)和配方的預(yù)測,經(jīng)使用該企業(yè)歷史生產(chǎn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比研究,得到了如下結(jié)論。
(1)考慮罐底余油組分特征間存在的差異性,提出了基于組分特征的核參數(shù)自適應(yīng)計(jì)算法,并用于改進(jìn)MKFCM 方法,實(shí)驗(yàn)結(jié)果表明,較傳統(tǒng)MKFCM 算法,改進(jìn)算法能更好地對(duì)罐底余油進(jìn)行分類和融合系數(shù)計(jì)算,從而為建模分類源頭和融合生成配方提供了更精準(zhǔn)的依據(jù)。
(2)考慮XGBoost算法具有預(yù)測精度高、復(fù)雜度低及泛化能力強(qiáng)等優(yōu)勢,文中采用XGBoost算法建立了各批次子配方模型,與11 種常見機(jī)器學(xué)習(xí)算法中實(shí)驗(yàn)結(jié)果性能最優(yōu)的KNN 比較,對(duì)于罐式批次成品汽油調(diào)和的子配方模型建立,XGBoost 算法更適合。
(3)考慮罐式調(diào)和過程中存在罐底余油及批次問題,本文提出的多模型集成通用配方,無論對(duì)MKFCM 算法是否進(jìn)行改進(jìn),與未考慮批次建立的單一配方模型相比,其預(yù)測精度、泛化能力及配方比例和均更具優(yōu)勢。
因此,基于本文改進(jìn)MKFCM-XGBoost 集成建模方法生成的通用配方,可作為罐式批次成品汽油調(diào)和工藝生產(chǎn)的依據(jù),有望提高企業(yè)生產(chǎn)效益。