張棟, 林建新, 劉博, 林坤
(北京建筑大學(xué)北京市城市交通基礎(chǔ)設(shè)施建設(shè)工程技術(shù)研究中心, 北京 100044)
隨著車用汽油質(zhì)量標(biāo)準(zhǔn)的不斷提高,迫切需要提高汽油清潔化工藝[1]。汽油清潔的重點是降低汽油中的硫和烯烴含量,同時盡可能保持其辛烷值(RON)含量[2-3]。因此,對汽油精制化的工藝操作方法進行優(yōu)化具有重要意義。
汽油中的辛烷值是反映汽油燃燒性能的最重要指標(biāo)[4]。秦強等[5]利用隨機森林算法進行汽油辛烷值的近紅外光譜建模,以此提高預(yù)測模型精度。但近紅外光譜法對儀器的要求較高,在企業(yè)中難以實現(xiàn)覆蓋。部分學(xué)者也從構(gòu)建數(shù)據(jù)關(guān)聯(lián)模型出發(fā)進行辛烷值預(yù)測。Anderson等[6]將乙醇納入汽油辛烷值關(guān)聯(lián)模型之中,利用實驗擬合的方式預(yù)測辛烷值,但模型擴展性和機制解釋性較差。Westbrook等[7]采用正向預(yù)測法,在特定條件下對目標(biāo)燃料依據(jù)其放熱規(guī)律確定的其中辛烷值,但存在計算成本高昂的缺點。馬寅杰等[8]在此基礎(chǔ)上利用辛烷值正向預(yù)測原理,采用多項式混沌展開(polynomial chaos expansion, PCE)來代替正向預(yù)測方案,研究初始溫度、壓力及汽油典型成分對辛烷值得影響,提高了預(yù)測精度。雖然當(dāng)前對辛烷值的測量方法取得一定的成果,但傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)模型中具有變量相對較少、機理建模對原料的分析要求較高,對過程優(yōu)化的響應(yīng)不及時等缺點。隨著傳感器技術(shù)的使用,在脫硫過程中可以收集大量的設(shè)備運行數(shù)據(jù)[9-10]。以此為基礎(chǔ),利用數(shù)據(jù)挖掘技術(shù),選取適當(dāng)?shù)臋C器學(xué)習(xí)算法[11-12],可從大量設(shè)備運營數(shù)據(jù)中提取影響辛烷值預(yù)測的主要特征,優(yōu)化預(yù)測精度。李煒等[13]結(jié)合混合粒子群遺傳算法BP(back propagation)神經(jīng)網(wǎng)絡(luò),對辛烷值進行預(yù)測,結(jié)果表明預(yù)測性能更優(yōu)。石翠翠等[14]通過偏最小二乘回歸(partial least square regression, PLS)和互信息(mutual information, MI)組合算法選取與辛烷值相關(guān)的主要變量,然后利用改進天牛須搜索算法(improved long-horned beetle antennae search algorithm, ILBAS)優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型,從而提高辛烷值預(yù)測準(zhǔn)確度。雖然各學(xué)者利用機器學(xué)習(xí)的方法提高了辛烷值的預(yù)測精度,但汽油精制中硫含量對汽油品質(zhì)也產(chǎn)生了很大影響。因此如何在精制過程中通過改變操作變量達(dá)到抑制硫含量的同時保持辛烷值損失較小的研究亟待深入。
在對各操作變量開展特征降維選取主要變量的基礎(chǔ)上,分別構(gòu)建辛烷值損失預(yù)測模型與硫含量預(yù)測模型,以此建立以硫含量最低為約束,辛烷值損失最低為目標(biāo)的工藝操作方法優(yōu)化模型,并設(shè)計遺傳算法求解得到不同的優(yōu)化值,揭示辛烷值與硫含量的分布規(guī)律,以達(dá)到最優(yōu)工業(yè)操作條件。
為開展汽油辛烷值損失模型構(gòu)建研究工作、研究選取2017年4月—2019年9月和2019年10月—2020年5月兩個時間段,共約3年的某石化企業(yè)的催化裂化汽油精制脫硫裝置運行歷史數(shù)據(jù)。原始數(shù)據(jù)[15]包括325個數(shù)據(jù)樣本、7個原料性質(zhì)、2個待生吸附劑性質(zhì)、2個再生吸附劑性質(zhì),以及另外354個操作變量,包括氫油比、反應(yīng)過濾器壓差、還原器壓力、還原器流化氫氣流量、反應(yīng)器上部溫度等基礎(chǔ)操作變量,具體數(shù)量如表1所示。
原始數(shù)據(jù)在采集過程中由于設(shè)備裝置出現(xiàn)錯誤等原因?qū)е鲁霈F(xiàn)部分變量的部分?jǐn)?shù)據(jù)為空值、數(shù)據(jù)異常等問題,致使數(shù)據(jù)質(zhì)量較低。因此,有必要進行數(shù)據(jù)清洗以消除低質(zhì)量數(shù)據(jù)所帶來的誤差。
表1 數(shù)據(jù)預(yù)處理范圍
數(shù)據(jù)清理步驟如下:
(1)填充缺失數(shù)據(jù)。對實驗中樣本全部空值的樣本進行刪除,對部分?jǐn)?shù)據(jù)為空值的點位采用前后數(shù)據(jù)的平均值進行替換,然后對數(shù)據(jù)異常值進行處理。
(2)噪聲處理。根據(jù)工藝要求與操作經(jīng)驗,利用數(shù)據(jù)處理中常用四分位距(interquartile range, IQR)[16]檢測異常值。四分位距就是上四分位與下四分位之間的差值,通過四分位距的 1.5 倍距離為標(biāo)準(zhǔn),規(guī)定:超過上四分位加上1.5倍IQR距離,或者低于下四分位距減去1.5 倍IQR距離的點為異常值。
(3)3σ準(zhǔn)則去除異常值。3σ準(zhǔn)則[17]:設(shè)對被測量變量進行等精度測量,得到x1,x2,…,xn,算出其算術(shù)平均值x及剩余誤差vi=xi-x(i=1,2,…,n),并按貝塞爾公式算出標(biāo)準(zhǔn)誤差σ,若某個測量值xb的剩余誤差vb(1≤b≤n),滿足|vb|=|xb-x|>3σ,則認(rèn)為xb是含有粗大誤差值的壞值,應(yīng)予剔除。貝塞爾公式為
(1)
由于樣本數(shù)據(jù)操作變量維度高,加之較多操作變量會使模型精度下降,變量信息產(chǎn)生重疊,增大問題復(fù)雜度。因此,去除冗余信息,把高位數(shù)據(jù)降維,能有效減少冗余特征導(dǎo)致的重疊信息。研究首先通過三種方法計算各個變量與產(chǎn)品辛烷值之間的相關(guān)性,然后通過三種方法求得的相關(guān)性結(jié)果,選出主要變量。
2.1.1 皮爾森(Pearson)相關(guān)性系數(shù)
Pearson相關(guān)系數(shù)[18]是用來反映兩個變量之間相似程度的統(tǒng)計量,可用于計算特征與類別間的相似度,判斷所提取到的特征和類別是正相關(guān)、負(fù)相關(guān)還是沒有相關(guān)程度。
Pearson相關(guān)系數(shù)定義為兩個變量之間協(xié)方差和兩者標(biāo)準(zhǔn)差乘積的比值,相關(guān)的計算表達(dá)式為
(2)
2.1.2 斯皮爾曼(Spearman)相關(guān)性系數(shù)
Pearson相關(guān)性系數(shù)不考慮數(shù)據(jù)取樣點之間的距離,會使較小范圍內(nèi)存在聯(lián)系的兩個采樣數(shù)據(jù)被整體范圍內(nèi)數(shù)據(jù)的非相關(guān)性所掩蓋,但斯皮爾曼相關(guān)性系數(shù)[19]可根據(jù)原始數(shù)據(jù)的排序位置進行求解,解除這一限制。
Spearman相關(guān)系數(shù)在對于變量之間的排序具有較高的要求,位置關(guān)系會影響相關(guān)性程度的判斷。計算公式為
(3)
其中,皮爾森、斯皮爾曼相關(guān)性系數(shù)表示獨立變量與相關(guān)變量之間相互聯(lián)系的程度與相關(guān)性方向。兩者系數(shù)的取值范圍為[-1,1]。當(dāng)相關(guān)性系數(shù)的絕對值越接近1時,證明兩隨機變量之間的聯(lián)系越強,而相關(guān)性系數(shù)的絕對值越接近0時,證明兩隨機變量之間的聯(lián)系越弱;當(dāng)相關(guān)性系數(shù)為正時,表示兩者之間正相關(guān),即一方變量或者大小往積極方向變化時,另一方的數(shù)值也會往積極方向變化,相關(guān)性系數(shù)為負(fù)時則相反。
2.1.3 最大信息系數(shù)
最大信息系數(shù)(maximal information coefficient, MIC)是一類可用于分析評估變量間代數(shù)關(guān)系和依賴程度的相關(guān)性算法,具備良好的通用性質(zhì)和穩(wěn)定性[20]。該系數(shù)能夠分析組合變量數(shù)據(jù)的相關(guān)性和內(nèi)在聯(lián)系,解釋隱藏的相關(guān)性信息。
最大信息系數(shù)將各個變量兩兩進行處理,將獲得的數(shù)據(jù)進行歸一化處理,即可得到各個變量之間的相關(guān)性程度。由于是計算兩變量的信息疊加程度,因此該系數(shù)的取值范圍為[0,1],系數(shù)越接近1,則說明兩者間聯(lián)系越強烈。
2.1.4 確定主要變量
通過皮爾森相關(guān)性系數(shù)、斯皮爾曼相關(guān)性系數(shù)與最大信息系數(shù)量化各個變量對產(chǎn)品辛烷值的相關(guān)性。通過python以及MATLAB數(shù)據(jù)庫中的minepy數(shù)據(jù)包以及上述相關(guān)的計算函數(shù),對所有的變量兩兩進行了分析,研究各個變量和產(chǎn)品辛烷值的相關(guān)性,計算獲得所有變量的相關(guān)性系數(shù),對其進行排序,挑選相關(guān)性較強的前30個變量(變量編號所表示的含義見文獻(xiàn)[15])進行對比,如圖1和圖2所示。
OL表示烯烴體積分?jǐn)?shù),SH表示飽和烴(烷烴+環(huán)烷烴)體積分?jǐn)?shù), SC表示硫含量,RON表示辛烷值圖1 辛烷值RON與變量間Pearson系數(shù)Fig.1 Octane number RON and Pearson coefficient
OL表示烯烴體積分?jǐn)?shù),SH表示飽和烴(烷烴+環(huán)烷烴)體積分?jǐn)?shù), SC表示硫含量,RON表示辛烷值圖2 辛烷值RON與變量間Spearman系數(shù)Fig.2 Octane number RON and Spearman coefficient
結(jié)果顯示這些變量在皮爾森相關(guān)性系數(shù)和斯皮爾曼相關(guān)性系數(shù)下的正負(fù)相關(guān)并未改變,但系數(shù)值稍有不同,證明分析數(shù)據(jù)具有較高的數(shù)據(jù)質(zhì)量,可用于數(shù)據(jù)分析。對各個變量進一步分析發(fā)現(xiàn)存在21個變量在這兩個系數(shù)下都有較強的相關(guān)性,如表2所示。
考慮到斯皮爾曼相關(guān)系數(shù)僅能表示出單調(diào)函數(shù)的非線型關(guān)系,而變量與目標(biāo)值之間可能存在更加復(fù)雜的非線性關(guān)系。因此計算該21個主要變量與目標(biāo)值之間最大信息系數(shù)。由圖3所示,僅原材料中的辛烷值RON的量與目標(biāo)值的最大信息系數(shù)較大,而且其他變量系數(shù)值較小且并沒有明顯不同,說明各個參數(shù)與目標(biāo)值之間并未有明顯的周期性關(guān)系。綜上所述,所挑選的21個主要變量與產(chǎn)品辛烷值具有強相關(guān)性。
表2 主要變量及相關(guān)系數(shù)
由表2可知,在挑選的21個變量中,原料中辛烷值對于產(chǎn)品辛烷值影響程度最大,該結(jié)論與實際結(jié)果相符合。此外,圖4是21個主要變量各自之間的相關(guān)性關(guān)系圖,多數(shù)變量的相關(guān)性系數(shù)絕對值處于0.35~0.55,結(jié)果表明,除原料辛烷值與產(chǎn)品辛烷值的相關(guān)性較強外,其他主要變量對于產(chǎn)品辛烷值的影響均處于同一水平,按照等級程度分級,兩者處于中等程度相關(guān)的級別。
OL表示烯烴體積分?jǐn)?shù),SH表示飽和烴(烷烴+環(huán)烷烴)體積分?jǐn)?shù), SC表示硫含量,RON表示辛烷值圖4 主要變量之間相關(guān)性關(guān)系Fig.4 Correlation between main variables
根據(jù)2.1節(jié)中選擇的21個主要變量,通過對各類機器學(xué)習(xí)中的預(yù)測模型對比,最終選擇以XGBoost[21]為基礎(chǔ)構(gòu)建回歸模型進行辛烷值損失預(yù)測。
XGBoost是在原有梯度算法的基礎(chǔ)上進行了改進。模型為樹集成模型,通過將各個決策樹的決策結(jié)果進行總和,作為最終的預(yù)測值,即
(4)
梯度提升決策樹(gradient boosting decision tree, GBDT)通過上一次訓(xùn)練得到的預(yù)測值殘差作為下一次訓(xùn)練的標(biāo)準(zhǔn)值,能夠有效逼近樣本真實值,其主要原因在于GBDT使用樣本平方差損失作為損失函數(shù),其基本表達(dá)式為
(5)
而XGBoost則在GBDT基礎(chǔ)上將損失函數(shù)從泰勒展開的第一階設(shè)定為第二階,使用前兩階作為改進的殘差。
此外,為了限制模型的復(fù)雜程度,使決策樹模型的各個決策樹處于“弱勢”狀態(tài),保證最終結(jié)果不受異常訓(xùn)練集的影響,加入正則化項,XGBoost使用葉子節(jié)點的個數(shù)作為替代指標(biāo)來減低模型的復(fù)雜程度,均衡各個決策樹預(yù)測結(jié)果的權(quán)重。正則化項公式為
(6)
式中:λ、γ表示人工設(shè)置參數(shù);T為葉子節(jié)點數(shù);w為決策樹所有葉子節(jié)點值形成的向量。
因此,其目標(biāo)函數(shù)由梯度提升算法損失和正則化項構(gòu)成,公式為
(7)
針對樣本數(shù)據(jù)不足、各個變量之間差異較大以及維度高,研究選取交叉驗證[22]的方法進行分類訓(xùn)練,如圖5所示?;静襟E如下。
(1)將數(shù)據(jù)樣本均分為10等份。
(2)選取樣本1作為測試集數(shù)據(jù),樣本2~10作為訓(xùn)練集數(shù)據(jù)進行第一次回歸預(yù)測。
(3)選取樣本2作為測試機數(shù)據(jù),樣本3~10作為訓(xùn)練集數(shù)據(jù)進行第二次回歸預(yù)測。
(4)依此類推,通過不同的測試集數(shù)據(jù)與訓(xùn)練集數(shù)據(jù),獲得各次訓(xùn)練的擬合優(yōu)度,對其求平均值,即當(dāng)作該操作變量的回歸預(yù)測的結(jié)果。
(5) 使用交叉驗證方法對所有操作變量進行回歸預(yù)測,進行分析。
圖5 交叉驗證示意圖Fig.5 Schematic diagram of cross-validation
為提高汽油精制化工藝,在產(chǎn)品硫含量不大于5 μg/g的前提下,研究利用建立的損失預(yù)測模型,對獲得辛烷值損失降幅大于30%的樣本的主要變量進行優(yōu)化。
首先,建立硫含量預(yù)測模型:研究假設(shè)與辛烷值損失量相關(guān)性較強的操作變量對硫含量亦有較強相關(guān)性,同時在以硫含量是否超過5 μg/g為分界線建立硫含量預(yù)測模型,同時驗證預(yù)測模型有效性。其次,在保證硫含量滿足要求的情況下,以2.1節(jié)中的主要變量作為決策變量,利用遺傳算法-聚類遞歸的方法對辛烷值損失降幅進行優(yōu)化,并提取辛烷值損失大于30%的樣本下的最優(yōu)操作條件。具體流程如圖6所示。
圖6 優(yōu)化流程圖Fig.6 Optimization flow chart
根據(jù)高維度樣本量較少且選取變量相關(guān)性較強的特點,研究選取嶺回歸[23]作為硫含量預(yù)測模型。嶺回歸是一種專用于共線性數(shù)據(jù)分析的有偏估計回歸方法,其使一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,來解決高維度樣本量的“病態(tài)”數(shù)據(jù)擬合問題。
嶺回歸是在線性回歸的基礎(chǔ)上加入了正則項,增加了模型的泛化能力。正則項一般采用一、二范數(shù),并解決線性回歸總不可逆的情況。表達(dá)式為
(8)
式(8)中:λ為嶺系數(shù);θ為回歸系數(shù);hθ(xi)為預(yù)測值。
為通過預(yù)測模型獲得使辛烷值損失量最小的操作變量條件,選取遺傳算法作為優(yōu)化算法對實驗中操作變量值進行求解。將每一組操作變量的組合稱作1條染色體,每個操作變量視為染色體的基因,在原料性質(zhì)、待生吸附劑和再生吸附劑的性質(zhì)數(shù)據(jù)保持不變的條件下,以辛烷損失最小作為目標(biāo)函數(shù)。遺傳算法具體操作變量尋優(yōu)過程如下所示:
(1)生成初代染色體:在354個操作變量信息[15]中各個操作變量的取值范圍之內(nèi),按照隨機均勻分為的原則隨機生成100個操作變量,即生成100個基因;并且相互結(jié)合形成100組操作變量組合,即100條染色體。
(2)將操作變量組合分別輸入辛烷值回歸預(yù)測模型以及硫含量預(yù)測模型,分別得出辛烷值預(yù)測損失量以及硫含量是否超過5 μg/g。
(3)選取實驗結(jié)果:計算辛烷值預(yù)測損失量,并觀察其變化是否平穩(wěn),如果連續(xù)2代辛烷值損失量之間預(yù)測差值穩(wěn)定在0.01之內(nèi),則停止迭代,否則繼續(xù)進行下一步。
(4)基因突變與基因重組:按照辛烷值損失預(yù)測值由小到大排序,選擇辛烷值預(yù)測損失量的前20條染色體進行突變與重組。下一代染色體中突變?nèi)旧w占40條,重組染色體占30條。突變規(guī)則為按照各個操作變量的Δ值(各主要操作變量每次允許調(diào)整幅度)幅度變化;重組規(guī)則為參考上一代中的前20條染色體基因庫,隨機選取一個值作為本代基因。
(5)轉(zhuǎn)向(2)重新開始實驗。
由于操作變量在優(yōu)化的過程中逐漸聚類,不同操作變量聚類分布特性不同。遺傳算法結(jié)果顯示操作變量取值存在多組最優(yōu)結(jié)果,如果取使辛烷值損失最小的操作變量取值組合,看似結(jié)果最優(yōu),但操作變量間關(guān)系復(fù)雜,若某一操作變量稍微改變就引起辛烷值損失較大,說明模型魯棒性不強。如果直接取均值,從各個操作變量的尋優(yōu)結(jié)果分布特性來看,無法有效提升模型魯棒性,缺乏科學(xué)依據(jù)。為防止這一情況發(fā)生,研究提出聚類遞歸[24]開展操作變量取值,增強模型可移植性。
由于K-means算法需自行選取初始聚類中心且易陷入局部最優(yōu),因此研究選取DBSCAN算法通過密度可達(dá)性的性質(zhì)將樣本數(shù)據(jù)集合分為K個簇標(biāo)記數(shù)組以及數(shù)組外的噪聲點集合,公式為
(9)
對操作變量的取值集中程度進行量化評價,研究選取“分散度作為量化評價指標(biāo)以計算操作變量的數(shù)據(jù)分布集中程度。對于單水平集中的操作變量具有較強的集中性。對于多水平集中的變量應(yīng)先聚類,再通過量化評價指標(biāo)計算其集中程度,集中性越強的操作變量可以優(yōu)先取值。對于多水平集中的操作變量數(shù)據(jù)內(nèi)部分類而言,可以首先選取占比較大的子類作為取值集合,計算各個子類的極值,以數(shù)據(jù)各子類的占比作為權(quán)重系數(shù)進行加和計算來表征數(shù)據(jù)整體的集中程度,稱之為分散度。具體計算過程如下:
(1)對各個操作變量以操作變量信息中操作范圍為準(zhǔn)對結(jié)果數(shù)據(jù)進行歸一化處理,并進行聚類分析(DBSCAN);
(2)計算每類數(shù)據(jù)的極值(δ)與占比(ρ);
(3)按照公式計算各參數(shù)標(biāo)定結(jié)果的分散程度,即
(10)
分散度小說明數(shù)據(jù)集中程度更強,按照分散度由小到大順序依次確定操作變量取值。對分散度最小的操作變量進行DBSCAN聚類,保留占比最大的子類,計算子類均值作為該操作變量的最終取值,依次確定各個操作變量。
在構(gòu)建辛烷值損失預(yù)測模型中,實驗將294個樣本數(shù)據(jù)作為訓(xùn)練集、30個樣本數(shù)據(jù)作為測試集。通過網(wǎng)格搜索法,以模型預(yù)測測試集的均方誤差最小作為尋優(yōu)目標(biāo),搜索參數(shù)最優(yōu)組合。依托Python平臺,調(diào)取XGBoost庫,以2.1節(jié)選取的21個主要變量的樣本數(shù)據(jù)作為輸入,辛烷值損失值作為輸出,建立XGBoost回歸預(yù)測模型。通過Sklearn機器學(xué)習(xí)庫中Model_Selection模塊,使用GridSearchCV進行網(wǎng)格搜索。預(yù)測結(jié)果如表3所示。
表3 辛烷值模型預(yù)測結(jié)果
通過交叉驗證驗證模型有效性,模型最終交叉驗證平均準(zhǔn)確率96.54%,R2擬合優(yōu)度平均值為0.784。
為了得到硫含量的預(yù)測值,將樣本數(shù)據(jù)集分為30%測試數(shù)據(jù)、70%訓(xùn)練數(shù)據(jù),調(diào)用Python中Sklearn庫函數(shù)Ridge,對硫含量進行回歸分析。預(yù)測結(jié)果如圖7所示,預(yù)測值的平均絕對誤差為0.15,均方差為0.39,表明預(yù)測效果良好,可作為硫含量的預(yù)測模型。
隨著遺傳算法的不斷迭代,辛烷值損失值越來越趨于平穩(wěn)。325個樣本中平均經(jīng)過12.68次迭代,平均1 268次優(yōu)化實驗,如圖8所示。
通過3.3節(jié)中聚類遞歸計算得到各個變量的分散度,計算結(jié)果如表4所示。以2號樣本為例,操作變量No.7(D104溫度)在迭代過程中逐漸集中,由圖9(a)可知,變量值更傾向于單一子類(黃色),集中性較強。變量取值分布更接近于取值范圍(100~150 ℃)的上限,樣本中取值為125 ℃,最終優(yōu)化結(jié)果142 ℃。反觀變量No.48(3#催化汽油進裝置流量)見圖9(b),取值范圍為0~90 t/h,向兩個子類集中,選取占比較大的子類并取均值作為該參數(shù)最終取值,可知應(yīng)為綠色子類均值,最終樣本中優(yōu)化結(jié)果61 t/h。而圖9(c)、圖9(d)兩個操作變量,取值分布向多個子類集中,同樣選取占比最大子類取均值作為變量最終取值。
圖7 嶺回歸預(yù)測結(jié)果Fig.7 Ridge regression prediction results
圖8 遺傳算法迭代圖Fig.8 Iterative graph of genetic algorithm
表4 參數(shù)標(biāo)定結(jié)果的分散度計算值
圖9 部分操作變量聚類遞歸分布Fig.9 Clustering recursive distribution of some operating variables
根據(jù)第3節(jié)工藝操作要求,依次對辛烷值損失量優(yōu)化降幅超過30%的308組樣本進行操作變量的聚類遞歸,最終優(yōu)化方案平均降幅達(dá)50.26%。這充分說明了本文提出優(yōu)化流程的可靠性。
以樣本1為例,優(yōu)化前后的各個參數(shù)取值對比如圖10所示。可以看出,主要優(yōu)化條件為降低No.186(原料汽油硫含量)、No.26(輕烴出裝置流量)、No.48(3#催化汽油進裝置流量)。具體操作條件如表5所示。
在實際工業(yè)流程中,工業(yè)裝置為了平穩(wěn)生產(chǎn),優(yōu)化后的主要操作變量往往只能逐步調(diào)整到位。研究以133號樣本為例,在原料性質(zhì)、待生吸附劑和再生吸附劑的性質(zhì)數(shù)據(jù)保持不變的情況下,調(diào)整主要變量,設(shè)每次允許調(diào)整的幅度值為Δ。為最快達(dá)到最優(yōu),各個變量取各自范圍內(nèi)最大限度逐步逼近最優(yōu)參數(shù)值,當(dāng)?shù)竭_(dá)最優(yōu)值時,該變量取值不應(yīng)再變化。通過數(shù)據(jù)分析計算,No.26(輕烴出裝置流量)到達(dá)最優(yōu)值需要移動步點最多,為53步,No.55(原料換熱器管程總管進口溫度)需要移動步點最少,為2步;各主要變量尋優(yōu)過程信息如表6所示。
圖10 樣本1優(yōu)化前后對比圖Fig.10 Comparison diagram of sample 1 before and after optimization
將表6中各主要變量的數(shù)據(jù)值變化輸入已構(gòu)建的辛烷值損失回歸預(yù)測模型與硫含量回歸預(yù)測模型來預(yù)測每一步辛烷值和硫含量的變化軌跡并生成可視化圖形,如圖11所示。
從圖11中可以看出,各個變量在逐步調(diào)節(jié)過程中,硫含量起伏變化相對較大,在第24步時雖然辛烷值損失不是最少,但硫含量已經(jīng)降到最低,企業(yè)可根據(jù)需求選取適當(dāng)?shù)闹饕兞咳≈怠?/p>
表6 變量優(yōu)化過程信息表Table 6 Variable optimization process information table
圖11 辛烷值與硫含量變化軌跡Fig.11 Change track of octane number and sulfur content
(1) 研究分別基于XGboost、嶺回歸構(gòu)建辛烷值損失預(yù)測模型、硫含量預(yù)測模型,證明了預(yù)測模型的有效性與可行性。
(2) 形成采集數(shù)據(jù)預(yù)處理-樣本特征降維-預(yù)測模型構(gòu)建-交叉驗證-遺傳算法求解-主要變量聚類回歸的工藝操作變量取值優(yōu)化流程。
(3) 研究將不同操作變量進行DBSCAN聚類遞歸,計算多水平集下各操作變量的分散度,選取較大分散度的子類作為操作條件,大幅提高了各操作條件的取值準(zhǔn)確性,使優(yōu)化模型更加精準(zhǔn)。
(4) 構(gòu)建工藝操作取值可視化展示更加直觀反映了各主要變量的變化范圍以及對應(yīng)變量下硫含量與辛烷值含量的變化趨勢。這為企業(yè)在實際生產(chǎn)中提供了更優(yōu)的操作方案。