陳 曦,劉都鑫,孫嘯宇
(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)
目前,計算機模擬燃料配混是一個重要的研究方向,因為它大大減少了通過實驗定義辛烷值的成本。過去的大量研究試圖用數(shù)學(xué)方法將辛烷值描述為汽油成分。
所有這些方法都有優(yōu)點和缺點。最大的興趣是基于數(shù)學(xué)模型的開發(fā)復(fù)合過程的物理化學(xué)性質(zhì),因為模型考慮了特性的非可加性汽油。
許多模型基于回歸分析,其形式為汽油不同性質(zhì)的辛烷值函數(shù),用于例如,蒸氣壓,密度和分數(shù)組成。這些方法有兩個缺點。首先,模型有很多系數(shù),需要重新計算原料含量變化。其次,這些模型沒有考慮到原材料的變化文獻綜述表明,在過去的十年中,許多研究致力于優(yōu)化復(fù)合工藝。然而,大多數(shù)計算混合辛烷值的方法都是建立在依賴任何物理和化學(xué)性質(zhì)的基礎(chǔ)上,而沒有考慮混合過程的性質(zhì)。
本文通過數(shù)學(xué)建模的方法,建立了一種辛烷值失損預(yù)測模型。首先通過PCA 降維的方法從在汽油生產(chǎn)過程中對辛烷值有影響的300 多個操作變量中篩選出20 個主要的操作變量,作為下一步建立預(yù)測模型的主要依據(jù)。隨后利用BP 神經(jīng)網(wǎng)絡(luò)建立預(yù)測辛烷值損失的模型,最后利用最小二乘法來擬合汽油辛烷值和硫含量的分析,分析的結(jié)果可以畫出汽油的辛烷值和硫含量的變化視圖。
本文主要研究了辛烷值損失預(yù)測模型的建模與價值評估,需要解決優(yōu)化操作中各個參數(shù)模型的優(yōu)化、主要操作變量優(yōu)化調(diào)整過程中對汽油中辛烷值硫含量的變化預(yù)測等問題。從而改善該模型的整體價值。
由于工廠得到的原始數(shù)據(jù)存在一定數(shù)據(jù)缺失和數(shù)據(jù)失真的情況,所以需要對數(shù)據(jù)中的壞值或者短缺值進行排除,對失真的數(shù)據(jù)進行修正。在選擇方法數(shù)據(jù)處理方法上確定了多因素加權(quán)[1]的方法,并調(diào)整了表格中的參數(shù),盡量保留有效參數(shù),增加最終結(jié)果的泛化能力和魯棒性。
數(shù)據(jù)處理方法步驟的確定:(1)對于殘缺數(shù)據(jù)較多的點,進行整列的數(shù)據(jù)剔除。(2)刪除325 個樣本中數(shù)據(jù)全部為空值的位點。(3)對于空缺較少的位點我們采用通過周圍點位取平均填補的方式。(4)總結(jié)出原始數(shù)據(jù)變量的操作范圍,然后采用最大最小的限幅方法剔除一部分不在此范圍的樣本。(5)根據(jù)拉依達準則(3σ 準則)去除異常值。
3σ 準則:首先設(shè)對被測量變量進行等精度測量,得到x1,x2,……,xn,算出其算術(shù)平均值 x 及剩余誤差 vi=xi-x(i=1,2,...,n),并按貝塞爾公式[2]算出標準誤差 σ,若某個測量值xb的剩余誤差vb(1<=b<=n),滿足|vb|=|xb-x|>3σ,則認為xb是含有粗大誤差值的壞值,應(yīng)予剔除。
在這里主要通過3σ 準則,去除大量粗大誤差值。取平均后求方差的步驟相比插值對算力開銷有了很大的節(jié)省,整體效果比較穩(wěn)定,如圖1 所示。
圖1 去除異常值和原始值對比圖
以下為在程序結(jié)果中截出的壞點和殘缺點(圖2,圖3)。
首先對樣本數(shù)據(jù)進行處理,操作包括刪除時間標號和樣本編號等對降維無關(guān)的信息并把生產(chǎn)之后的辛烷值放到第一列作為其他操作變量是否進行降維的重要參考因素。
為使數(shù)據(jù)方便后續(xù)降維處理首先對數(shù)據(jù)進行標準化和歸一化,標準化和歸一化如圖4 所示。
經(jīng)過標準化和歸一化的操作之后我們能準確的看出產(chǎn)品性質(zhì)中的辛烷值的數(shù)值和原料性質(zhì)中的辛烷值數(shù)值,為了二者準確表示出來,需要進行數(shù)據(jù)降維,325 個樣本數(shù)據(jù)中用PCA 算法進行降維運算。降維的好處:(1)減少數(shù)據(jù)存儲所需的空間,節(jié)約成本。(2)減少數(shù)據(jù)處理與建模的時間,提高效率。(3)提高該算法的性能因為會有一些算法在這300 維的數(shù)據(jù)上表現(xiàn)不佳。(4)有助于數(shù)據(jù)可視化能更直觀地看出降維的結(jié)果。
在眾多降維的算法中,PCA 算法具有耗時短而且速度快的特點,因此選用PCA 算法來進行降維[3],后文會詳細說明建模主要變量的篩選過程及其合理性并將原料的辛烷值作為建模變量之一。
主成分分析(PCA):主成分分析通過累計的解釋方差之和來判斷主成分對所有特征的解釋程度[4]。其兩個性質(zhì)為最大可分性和最近重構(gòu)性也就是說使樣本點盡可能分開保證樣本點的方差最大化。
圖2 誤差值顯示
圖3 誤差值顯示
圖4 標準化和歸一化結(jié)果圖
體操作步驟首先導(dǎo)出附錄里操作變量指標所在的列接著對數(shù)據(jù)進行填補缺失值,補充完成后進行標準化根據(jù)問題二的要求選取主成分30 個最后觀察主成分對特征解釋的程度并繪制曲線。PCA 分量和累積解釋方差如圖5 所示。
圖5 中柱狀圖一共30 個柱子,代表提取的30 個主成分,其高度代表每個主成分對方差的解釋程度。
折線圖代表30 個主成分對方差的累計解釋程度。我們可以看到,30 個主成分對100 個特征方差的累計解釋程度已經(jīng)達到了80%,因此這30 個主成分攜帶了原始特征中的大部分信息,成功降維。
首先,辛烷值與變量之間的關(guān)系并不明確,所以在這里應(yīng)考慮線性和非線性兩種關(guān)系,但在大多數(shù)情況下,在多尺度變量下,往往是非線性的,所以這里建立了非線性回歸模型?;貧w分析的建立主要利用最小二乘法[5]計算自變量與因變量之間的映射關(guān)系,所以這里可以采用兩種普遍方法,一是神經(jīng)網(wǎng)絡(luò)算法,二是BP 神經(jīng)網(wǎng)絡(luò)。
BP 神經(jīng)網(wǎng)絡(luò)按照有監(jiān)督學(xué)習(xí)的方式進行訓(xùn)練,神經(jīng)元把激活值從輸入層經(jīng)過各個隱藏層傳給輸出層,然后,從輸出層經(jīng)過各個隱藏層最終傳給輸入層,之后進行修正,因此把這樣的反饋形式,稱為“誤差逆?zhèn)鞑シā?,隨著不斷地進行修正,整個網(wǎng)絡(luò)響應(yīng)的準確率也會不斷提升。
圖5 PCA 分量和累積解釋方差
本次建立的模型采用的是問題二中經(jīng)過PCA 降維后所產(chǎn)生30 個主要操作變量的歸一化[6]數(shù)據(jù),此數(shù)據(jù)使用BP神經(jīng)網(wǎng)絡(luò)建立預(yù)測辛烷值損失的模型。在傳統(tǒng)建立辛烷值損失模型的實驗中存在原始數(shù)據(jù)過多,測試時間很長等問題。
整體包括3 層網(wǎng)絡(luò)層,50 個隱藏層,1 個輸入層和1 個輸出層,并增加了激活函數(shù)f(neti),以防止發(fā)生過擬合的現(xiàn)象[7]。出現(xiàn)過擬合的情況時說明對于當前數(shù)據(jù)集的特征捕捉過于精準,導(dǎo)致模型的泛化能力較差,不能夠在測試集中或者是此外的訓(xùn)練中產(chǎn)生利于推廣的模型。
在實際操作過程中,產(chǎn)生了過擬合問題,訓(xùn)練出的分類模型如圖6 所示。
由于的數(shù)據(jù)較少出現(xiàn)過了擬合的情況,針對這種情況,采取正則化的方式,在正則化中使用L2 正則化。
經(jīng)過調(diào)整后,擬合程度有所下降,不再出現(xiàn)過度擬合的情況,圖像的分類也不再過于集中,正常分類如圖7 所示。
由圖7 可以看到,通過增加L2 正則化我們的分類模型已經(jīng)可以正常分類,經(jīng)過優(yōu)化后,損失函數(shù)LOSS 已經(jīng)降到0.0964,并且泛化能力也相較之前的過擬合情況有了很大的提升,同時也大幅度的提高了模型的魯棒性[8]。
模型的可視化,固定原料性質(zhì)、待生吸附劑和再生吸附劑的性質(zhì)數(shù)據(jù)保持不變,通過網(wǎng)絡(luò)前期的震蕩到平穩(wěn)[9],記錄此過程中的汽油辛烷值和硫含量的變化軌跡。該問題通過最小二乘法來擬合汽油辛烷值和硫含量的分析,分析的結(jié)果可以確定汽油的辛烷值和硫含量的變化視圖。
圖6 過擬合情況
圖7 正常分類
根據(jù)分析得出用最小二乘法計汽油辛烷值和硫含量模型中的參數(shù)N。
最小二乘法模型設(shè)P(β)為模型的輸出代入公式求出結(jié)果:
求出P(β)之后為了使β 盡可能的最小,因為β 的大小決定P(β)的好壞,所以接下來用P(β)得到β 的最小二乘估計,記作F,可由公式得出
算出F(2)之后的結(jié)果代回到E 的模型里來進行的估計值
求出模型E(3)的估計值之后對汽油辛烷值和硫含量模型數(shù)據(jù)進行擬合,求出該模型的擬合為E′=D′B′,由最小二乘法算出擬合誤差e=E-E′稱為汽油辛烷值和硫含量模型該、殘差,將隨機誤差Ψ 的估計可得出:
求出的L(4)即為汽油辛烷值和硫含量的最優(yōu)調(diào)整系數(shù)。
本文對如何降低汽油精制過程中的辛烷值損失建立了數(shù)學(xué)模型并進行了分析,通過對數(shù)據(jù)的預(yù)處理[10]將數(shù)據(jù)進行歸一化處理方便建立模型研究,接著使用PCA 主成分分析法對數(shù)據(jù)進行降維確保看出產(chǎn)品性質(zhì)中的辛烷值的數(shù)值和原料性質(zhì)中的辛烷值數(shù)值的變化,變得可視化,并用BP 神經(jīng)網(wǎng)絡(luò)來建立預(yù)測辛烷值損失的模型。該神經(jīng)網(wǎng)絡(luò)可以解決辛烷值損失模型的實驗中存在原始數(shù)據(jù)過多,測試時間過長等問題。最后用最小二乘法大將模型可視化并優(yōu)化油辛烷值和硫含量的調(diào)整系數(shù)。
圖8 硫含量優(yōu)化前后對比圖
圖9 汽油辛烷值優(yōu)化前后對比圖