基于隨機(jī)森林回歸的汽油研究法辛烷值預(yù)測(cè)

2020-12-02 07:17孫洪霞王維民

石油煉制與化工 2020年12期

鄭斌，孫洪霞，王維民

(1.中國石化銷售股份有限公司，北京 100728；2.天睿信科技術(shù)(北京)有限公司)

辛烷值是表征汽油抗爆性能的重要指標(biāo)，關(guān)系到汽車的油耗、低溫啟動(dòng)、加速等性能[1]。對(duì)成品油銷售企業(yè)而言，汽油辛烷值是采購、儲(chǔ)運(yùn)和銷售過程中重要的質(zhì)量控制指標(biāo)。研究法辛烷值(RON)標(biāo)準(zhǔn)測(cè)試采用符合ASTM-CFR標(biāo)準(zhǔn)的辛烷值機(jī)進(jìn)行，但其存在價(jià)格高、檢驗(yàn)用量大、耗時(shí)長、操作復(fù)雜等缺點(diǎn)。除此之外，由于汽油辛烷值與其組分密切相關(guān)，利用汽油組分信息進(jìn)行辛烷值預(yù)測(cè)的方法得到重視和發(fā)展，如拉曼光譜法[2]、近紅外光譜法[3]、中紅外光譜法[4-5]和氣相色譜法[6-7]等。但此類方法多基于光譜、色譜等精密儀器的組分分析結(jié)果，對(duì)儀器的要求較高。成品油銷售企業(yè)覆蓋面廣，質(zhì)檢室數(shù)量眾多，但辛烷值機(jī)、光譜儀、色譜儀等精密儀器的配備尚不能實(shí)現(xiàn)質(zhì)檢室全覆蓋，汽油辛烷值檢測(cè)一直是質(zhì)量管理的難點(diǎn)。

汽油辛烷值與其化學(xué)組成密切相關(guān)，而汽油的理化性質(zhì)與化學(xué)組成也密切相關(guān)，因此可以由理化指標(biāo)來計(jì)算汽油的辛烷值。戴詠川等[8]探索了汽油理化指標(biāo)與辛烷值之間的聯(lián)系，建立了由理化指標(biāo)計(jì)算汽油辛烷值的回歸方程式。計(jì)算結(jié)果顯示，70%的樣品RON計(jì)算誤差小于1.2個(gè)單位，計(jì)算精度略顯不足。近年來，隨著中國石化銷售企業(yè)實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)的建立，實(shí)現(xiàn)了質(zhì)量數(shù)據(jù)的積累和共享。因此，利用數(shù)據(jù)庫中海量汽油理化指標(biāo)數(shù)據(jù)，探索采用機(jī)器學(xué)習(xí)算法建立汽油辛烷值預(yù)測(cè)模型實(shí)現(xiàn)辛烷值預(yù)測(cè)成為可能。

利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)辛烷值的模型大致分為兩類[9-10]：一種是線性模型預(yù)測(cè)辛烷值，如多元線性回歸分析法(MLR)，偏最小二乘法(PLS)；另一種是非線性模型預(yù)測(cè)辛烷值，如人工神經(jīng)網(wǎng)絡(luò)算法(ANN)、支持向量機(jī)回歸法(SVM)。隨機(jī)森林(Random Forest)是一種廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法，具有抗過擬合和預(yù)測(cè)精度高的特點(diǎn)。隨機(jī)森林的運(yùn)算速度快，在處理大數(shù)據(jù)時(shí)表現(xiàn)優(yōu)異，結(jié)果對(duì)缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健，是取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的新的模型[11]。應(yīng)用隨機(jī)森林算法進(jìn)行預(yù)測(cè)在許多領(lǐng)域已得到應(yīng)用[12-15]，但應(yīng)用隨機(jī)森林算法預(yù)測(cè)汽油辛烷值的研究較為少見。基于這一思路，本研究以汽油常規(guī)理化指標(biāo)為自變量，RON為因變量，提出基于隨機(jī)森林回歸算法預(yù)測(cè)汽油RON的模型，并對(duì)所用模型進(jìn)行驗(yàn)證。

1 隨機(jī)森林回歸算法

隨機(jī)森林是由Breiman和Cutler在2001年提出的一種基于決策樹的機(jī)器學(xué)習(xí)算法[11]。隨機(jī)森林可以用于分類和回歸。當(dāng)因變量是分類變量時(shí)，是分類，決策樹使用分類樹(一般使用C4.5)；當(dāng)因變量是連續(xù)變量時(shí)，是回歸，決策樹使用回歸樹(一般使用CART，見圖1)。隨機(jī)森林回歸模型，是通過將若干個(gè)建立好的決策樹模型所得到的結(jié)果進(jìn)行綜合得到一個(gè)模型，最后的預(yù)測(cè)結(jié)果由所有決策樹模型的預(yù)測(cè)結(jié)果平均而得[12]。對(duì)應(yīng)的算法基本步驟如下：

(1)抽樣：從訓(xùn)練數(shù)據(jù)集S中，通過有放回的Boostrasp抽樣，生成K組數(shù)據(jù)集，每組數(shù)據(jù)集分為被抽中數(shù)據(jù)與未被抽中數(shù)據(jù)(袋外數(shù)據(jù))2種，每組數(shù)據(jù)集會(huì)通過訓(xùn)練產(chǎn)生一個(gè)決策樹。

(2)生長：通過訓(xùn)練數(shù)據(jù)對(duì)每個(gè)決策樹進(jìn)行訓(xùn)練。在每次分節(jié)點(diǎn)時(shí)，從M個(gè)屬性中隨機(jī)選取m個(gè)特征，依據(jù)Gini指標(biāo)選取最優(yōu)特征進(jìn)行分支充分生長，直到無法再生長為止，不進(jìn)行剪枝。

(3)利用袋外數(shù)據(jù)檢驗(yàn)?zāi)Ｐ偷木?，由于袋外?shù)據(jù)未參與建模，其能在一定程度上檢驗(yàn)?zāi)Ｐ托Чc泛化能力。通過袋外數(shù)據(jù)的預(yù)測(cè)誤差，確定算法中最佳決策樹數(shù)目并重新進(jìn)行建模。

(4)利用確定的模型對(duì)新數(shù)據(jù)集進(jìn)行預(yù)測(cè)，所有決策樹預(yù)測(cè)結(jié)果的平均值即為最終的輸出結(jié)果。

隨機(jī)森林的每顆決策樹都是對(duì)原始記錄進(jìn)行有放回的重抽樣后生成的。每次重抽樣大約13的記錄沒有被抽取，沒有被抽取的自然形成一個(gè)對(duì)照數(shù)據(jù)集。所以隨機(jī)森林不需要另外預(yù)留部分?jǐn)?shù)據(jù)做交叉驗(yàn)證，其本身的算法類似交叉驗(yàn)證，而且袋外誤差是對(duì)預(yù)測(cè)誤差的無偏估計(jì)[11]。

圖1 隨機(jī)森林算法訓(xùn)練流程

2 基于隨機(jī)森林回歸的RON預(yù)測(cè)模型

2.1 數(shù)據(jù)來源

本研究用于建模和驗(yàn)證的數(shù)據(jù)來源于中國石化銷售企業(yè)LIMS的成品油質(zhì)量數(shù)據(jù)庫。數(shù)據(jù)庫中的樣本來自于30多個(gè)省級(jí)銷售公司入庫的成品油檢驗(yàn)樣品，樣品來源廣泛，基本涵蓋了國內(nèi)所有調(diào)合工藝的油品。

2.2 變量參數(shù)選擇

選取與汽油辛烷值具有相關(guān)性的烯烴含量、芳烴含量、氧含量、餾程(10%，50%，90%餾出溫度及終餾點(diǎn))和密度共8個(gè)指標(biāo)為自變量，RON作為因變量。

2.3 預(yù)測(cè)模型構(gòu)建

(1)數(shù)據(jù)集及預(yù)處理。以建模時(shí)間(2018年6月)為節(jié)點(diǎn)，抽取數(shù)據(jù)庫中入庫檢測(cè)的92號(hào)車用汽油和95號(hào)車用汽油歷史樣本，選擇所有建模指標(biāo)(8個(gè)自變量和1個(gè)因變量)不為空的樣本，利用箱線圖對(duì)樣本中的異常數(shù)據(jù)(超出上下四分位1.5倍四分位差)進(jìn)行清洗，篩選出17 013個(gè)符合要求的樣本作為建模數(shù)據(jù)集。其中，隨機(jī)選取16 641個(gè)樣本作為訓(xùn)練集用于建模，選取372個(gè)樣本作為測(cè)試集用于評(píng)價(jià)模型性能。建模數(shù)據(jù)集中，國Ⅴ汽油樣本和國Ⅵ汽油樣本的比例約為76%∶24%，所有樣本的RON結(jié)果均為采用標(biāo)準(zhǔn)試驗(yàn)方法使用辛烷值機(jī)檢測(cè)所得。數(shù)據(jù)集中樣本分布如表1所示。

表1 建模數(shù)據(jù)集樣本分布

圖2 模型MSE與mtry的關(guān)系

圖3 模型預(yù)測(cè)誤差隨ntree的變化關(guān)系

(2)預(yù)測(cè)模型構(gòu)建。用基于R語言的隨機(jī)森林函數(shù)來構(gòu)建RON預(yù)測(cè)模型。選取訓(xùn)練集中的92號(hào)車用汽油樣本、95號(hào)車用汽油樣本和全部樣本，分別構(gòu)建92號(hào)預(yù)測(cè)模型、95號(hào)預(yù)測(cè)模型和(92號(hào)+95號(hào))一體預(yù)測(cè)模型。在隨機(jī)森林回歸模型中，隨機(jī)特征數(shù)(mtry)和決策樹的棵數(shù)(ntree)是決定模型預(yù)測(cè)能力的兩個(gè)關(guān)鍵參數(shù)。在大多數(shù)情況下，隨機(jī)森林模型參數(shù)的缺省設(shè)置可以給出最優(yōu)或接近最優(yōu)的結(jié)果[11]。對(duì)于分類問題，mtry的缺省值是自變量總數(shù)的平方根；對(duì)于回歸問題，mtry的缺省值是自變量總數(shù)的13。ntree為重抽樣次數(shù)，一般當(dāng)ntree大于500時(shí)整體誤差率趨于穩(wěn)定[16]。以92號(hào)模型為例，在ntree默認(rèn)為500的情況下，采用模型的均方誤差(MSE)作為衡量指標(biāo)，觀察mtry參數(shù)設(shè)置對(duì)MSE的影響，結(jié)果見圖2。由圖2可以看出：在訓(xùn)練集上，隨著mtry的增加，模型MSE逐漸變小；而在測(cè)試集上，隨著mtry的增加，模型MSE先逐漸變大后減小?？傮w而言，mtry的變化對(duì)于模型精度的影響并不十分顯著，考慮在測(cè)試集上的預(yù)測(cè)精度最優(yōu)，故將mtry設(shè)置為2。在訓(xùn)練集上，92號(hào)模型的預(yù)測(cè)誤差與ntree的關(guān)系如圖3所示。由圖3可以看出，模型誤差隨著ntree增加而降低，當(dāng)ntree達(dá)到500時(shí)，模型預(yù)測(cè)誤差已趨于平穩(wěn)。故最終選擇mtry為2、ntree為500建立3個(gè)預(yù)測(cè)模型。

2.4 模型檢驗(yàn)與評(píng)價(jià)

在本研究中，主要采用平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)對(duì)模型進(jìn)行評(píng)價(jià)和檢驗(yàn)。計(jì)算式如下：

(1)

(2)

(3)

R2用于檢驗(yàn)回歸模型對(duì)實(shí)測(cè)值的擬合程度，取值在 0～1 之間，R2越接近1，表明擬合效果越好、各自變量對(duì)因變量的解釋能力越強(qiáng)。MAE和 RMSE 可以衡量預(yù)測(cè)值與實(shí)測(cè)值的差異，MAE 和RMSE 越接近0，模型的模擬能力越好。用R2和RMSE評(píng)價(jià)模型對(duì)訓(xùn)練數(shù)據(jù)集的擬合效果，用RMSE和MAE檢驗(yàn)?zāi)Ｐ偷念A(yù)測(cè)能力。

3 結(jié)果與討論

3.1 模型預(yù)測(cè)精度評(píng)價(jià)

運(yùn)用得到的3個(gè)預(yù)測(cè)模型對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè)，計(jì)算預(yù)測(cè)精度，結(jié)果見表2。從表2可以看出：在訓(xùn)練集上，單獨(dú)建模的92號(hào)預(yù)測(cè)模型和95號(hào)預(yù)測(cè)模型表現(xiàn)良好，其中，92號(hào)預(yù)測(cè)模型的RMSE達(dá)到0.23，95號(hào)預(yù)測(cè)模型的RMSE達(dá)到0.20，兩個(gè)模型的R2均達(dá)到了0.95，具有較高的精度；而訓(xùn)練集上一體預(yù)測(cè)模型的表現(xiàn)較差，MAE和RMSE均較大，R2也相對(duì)較低。在測(cè)試集上，92號(hào)預(yù)測(cè)模型的最大絕對(duì)誤差為1.53，MAE為0.44；95號(hào)預(yù)測(cè)模型的最大絕對(duì)誤差為1.33，MAE為0.33，均在可接受范圍之內(nèi)；而一體預(yù)測(cè)模型的MAE和RMSE均更高，預(yù)測(cè)效果較差。因此，針對(duì)92號(hào)和95號(hào)汽油，單獨(dú)建立預(yù)測(cè)模型更為合適。3個(gè)預(yù)測(cè)模型在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)結(jié)果分別如圖4和圖5所示。

表2 模型的預(yù)測(cè)精度統(tǒng)計(jì)

圖4 RON預(yù)測(cè)模型在訓(xùn)練集上的預(yù)測(cè)結(jié)果

圖5 RON預(yù)測(cè)模型在測(cè)試集上的預(yù)測(cè)結(jié)果

3.2 特征變量重要性評(píng)價(jià)

隨機(jī)森林回歸模型可用方差增量(increase in mean squared error，IncMSE)以及節(jié)點(diǎn)純度增量(increase in node purity，IncNodePurity)兩個(gè)指標(biāo)來定性衡量特征變量對(duì)目標(biāo)變量的重要性。IncMSE為采用隨機(jī)變量替換某一變量對(duì)模型預(yù)測(cè)結(jié)果的影響，若該隨機(jī)變量使方差顯著改變，則表示原變量相當(dāng)重要；IncNodePurity則利用同質(zhì)性增加原理來衡量變量的重要性[13]。IncMSE 和 IncNodePurity 的值越大，表明該特征變量的重要性越強(qiáng)。表3為模型變量重要性評(píng)價(jià)結(jié)果。由表3可以看出：對(duì)于92號(hào)預(yù)測(cè)模型，烯烴含量和氧含量對(duì)RON預(yù)測(cè)的貢獻(xiàn)更大；對(duì)于95號(hào)預(yù)測(cè)模型，芳烴含量和10%餾出溫度對(duì)RON預(yù)測(cè)的貢獻(xiàn)更大。

表3 模型變量重要性評(píng)價(jià)結(jié)果

3.3 模型實(shí)際應(yīng)用情況

將建立的92號(hào)預(yù)測(cè)模型和95號(hào)預(yù)測(cè)模型部署在Aster平臺(tái)上，對(duì)于新進(jìn)入的汽油樣品，根據(jù)牌號(hào)選用相應(yīng)的模型進(jìn)行RON預(yù)測(cè)。2019年1月1日起，全國車用汽油標(biāo)準(zhǔn)升級(jí)為國Ⅵ標(biāo)準(zhǔn)。為了檢驗(yàn)?zāi)Ｐ偷倪m應(yīng)性，選取了2019年6月和2020年1月檢測(cè)的國Ⅵ標(biāo)準(zhǔn)92號(hào)和95號(hào)車用汽油樣本，對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行分析，見圖6和表4。由圖6和表4可見，隨著油品質(zhì)量升級(jí)汽油調(diào)合工藝的變化，92號(hào)和95號(hào)模型的預(yù)測(cè)精度較建模初期略有下降，但下降幅度不大，平均絕對(duì)誤差(|E|)依然在0.5左右，低于標(biāo)準(zhǔn)試驗(yàn)方法再現(xiàn)性0.7的要求，仍保持較高的精度。2019年6月和2020年1月的檢測(cè)數(shù)據(jù)中，個(gè)別92號(hào)車用汽油樣本的預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果誤差超過2.0個(gè)單位，最大絕對(duì)誤差達(dá)到3.5個(gè)單位。研究發(fā)現(xiàn)，這是由于個(gè)別批次92號(hào)汽油的實(shí)測(cè)RON結(jié)果超過95，在92號(hào)建模數(shù)據(jù)集中超出92號(hào)汽油RON范圍的樣本很少，當(dāng)超出92號(hào)汽油RON要求的樣本進(jìn)入92號(hào)模型時(shí)，預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果偏差較大。從圖5和圖6還可以看出，92號(hào)模型的RON預(yù)測(cè)結(jié)果大部分落在92.6～93.6范圍內(nèi)，95號(hào)模型的RON預(yù)測(cè)結(jié)果大部分落在95.6～96.6范圍內(nèi)，該問題發(fā)生的原因需要進(jìn)一步分析。

圖6 國Ⅵ汽油的預(yù)測(cè)結(jié)果

表4 國Ⅵ汽油的預(yù)測(cè)精度

4 模型預(yù)測(cè)RON與中紅外光譜檢測(cè)RON結(jié)果對(duì)比

數(shù)據(jù)庫中有很多汽油樣品在入庫檢驗(yàn)時(shí)采用標(biāo)準(zhǔn)試驗(yàn)方法和中紅外光譜分析儀兩種方法檢測(cè)了RON。因此，在數(shù)據(jù)庫中抽取了自變量和因變量均不為空且含有中紅外光譜檢測(cè)RON結(jié)果的92號(hào)車用汽油和95號(hào)車用汽油樣本500個(gè)，隨機(jī)森林回歸模型預(yù)測(cè)的RON結(jié)果與中紅外光譜檢測(cè)的RON結(jié)果如圖7所示。

圖7 模型預(yù)測(cè)RON與中紅外光譜檢測(cè)RON結(jié)果對(duì)比●—模型預(yù)測(cè)RON； ■—中紅外光譜檢測(cè)RON

表5 不同誤差范圍內(nèi)的樣品分布

|E|不大于0.7的要求。而中紅外光譜分析儀檢測(cè)結(jié)果中只有39.4%的樣品|E|在0.7個(gè)單位以內(nèi)。隨機(jī)森林回歸模型預(yù)測(cè)的精度較高，顯著優(yōu)于目前企業(yè)采用的中紅外光譜分析檢測(cè)方法。

5 結(jié) 論

(1)基于中國石化銷售企業(yè)入庫汽油質(zhì)量數(shù)據(jù)，應(yīng)用隨機(jī)森林回歸算法，構(gòu)建92號(hào)汽油、95號(hào)汽油和一體化的RON預(yù)測(cè)模型。結(jié)果表明，單獨(dú)建模的模型預(yù)測(cè)精度更高。應(yīng)用92號(hào)和95號(hào)預(yù)測(cè)模型對(duì)入庫汽油進(jìn)行RON預(yù)測(cè)，隨著油品質(zhì)量升級(jí)，模型預(yù)測(cè)精度略有下降，但總體保持較高精度，可靠性和適應(yīng)性較好。

(2)對(duì)比隨機(jī)森林回歸預(yù)測(cè)模型和中紅外光譜檢測(cè)方法，隨機(jī)森林預(yù)測(cè)模型預(yù)測(cè)RON時(shí)84.4%的樣本|E|不大于0.7，預(yù)測(cè)精度顯著優(yōu)于中紅外光譜分析儀檢測(cè)方法(39.4%的樣本檢測(cè)RON的|E|不大于0.7)。

(3)建模數(shù)據(jù)庫的質(zhì)量和代表性對(duì)于模型準(zhǔn)確性至關(guān)重要。銷售企業(yè)油品來源廣泛、調(diào)合工藝復(fù)雜，隨機(jī)森林回歸預(yù)測(cè)模型基于銷售企業(yè)的成品油質(zhì)量數(shù)據(jù)庫，可用于建模的樣本量大、油品來源廣泛、具有較好的代表性，模型具有較優(yōu)的預(yù)測(cè)能力。隨著油品生產(chǎn)工藝發(fā)生變化，對(duì)建模數(shù)據(jù)庫及時(shí)進(jìn)行更新和維護(hù)，更有利于保持高的預(yù)測(cè)精度。由于常規(guī)理化指標(biāo)較易獲取，隨機(jī)森林預(yù)測(cè)模型為銷售企業(yè)汽油辛烷值的質(zhì)量監(jiān)測(cè)提供了有益的工具。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡