鄭 斌,孫洪霞,王維民
(1.中國石化銷售股份有限公司,北京 100728;2.天睿信科技術(shù)(北京)有限公司)
辛烷值是表征汽油抗爆性能的重要指標(biāo),關(guān)系到汽車的油耗、低溫啟動(dòng)、加速等性能[1]。對(duì)成品油銷售企業(yè)而言,汽油辛烷值是采購、儲(chǔ)運(yùn)和銷售過程中重要的質(zhì)量控制指標(biāo)。研究法辛烷值(RON)標(biāo)準(zhǔn)測(cè)試采用符合ASTM-CFR標(biāo)準(zhǔn)的辛烷值機(jī)進(jìn)行,但其存在價(jià)格高、檢驗(yàn)用量大、耗時(shí)長、操作復(fù)雜等缺點(diǎn)。除此之外,由于汽油辛烷值與其組分密切相關(guān),利用汽油組分信息進(jìn)行辛烷值預(yù)測(cè)的方法得到重視和發(fā)展,如拉曼光譜法[2]、近紅外光譜法[3]、中紅外光譜法[4-5]和氣相色譜法[6-7]等。但此類方法多基于光譜、色譜等精密儀器的組分分析結(jié)果,對(duì)儀器的要求較高。成品油銷售企業(yè)覆蓋面廣,質(zhì)檢室數(shù)量眾多,但辛烷值機(jī)、光譜儀、色譜儀等精密儀器的配備尚不能實(shí)現(xiàn)質(zhì)檢室全覆蓋,汽油辛烷值檢測(cè)一直是質(zhì)量管理的難點(diǎn)。
汽油辛烷值與其化學(xué)組成密切相關(guān),而汽油的理化性質(zhì)與化學(xué)組成也密切相關(guān),因此可以由理化指標(biāo)來計(jì)算汽油的辛烷值。戴詠川等[8]探索了汽油理化指標(biāo)與辛烷值之間的聯(lián)系,建立了由理化指標(biāo)計(jì)算汽油辛烷值的回歸方程式。計(jì)算結(jié)果顯示,70%的樣品RON計(jì)算誤差小于1.2個(gè)單位,計(jì)算精度略顯不足。近年來,隨著中國石化銷售企業(yè)實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)的建立,實(shí)現(xiàn)了質(zhì)量數(shù)據(jù)的積累和共享。因此,利用數(shù)據(jù)庫中海量汽油理化指標(biāo)數(shù)據(jù),探索采用機(jī)器學(xué)習(xí)算法建立汽油辛烷值預(yù)測(cè)模型實(shí)現(xiàn)辛烷值預(yù)測(cè)成為可能。
利用機(jī)器學(xué)習(xí)算法預(yù)測(cè)辛烷值的模型大致分為兩類[9-10]:一種是線性模型預(yù)測(cè)辛烷值,如多元線性回歸分析法(MLR),偏最小二乘法(PLS);另一種是非線性模型預(yù)測(cè)辛烷值,如人工神經(jīng)網(wǎng)絡(luò)算法(ANN)、支持向量機(jī)回歸法(SVM)。隨機(jī)森林(Random Forest)是一種廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法,具有抗過擬合和預(yù)測(cè)精度高的特點(diǎn)。隨機(jī)森林的運(yùn)算速度快,在處理大數(shù)據(jù)時(shí)表現(xiàn)優(yōu)異,結(jié)果對(duì)缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健,是取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法的新的模型[11]。應(yīng)用隨機(jī)森林算法進(jìn)行預(yù)測(cè)在許多領(lǐng)域已得到應(yīng)用[12-15],但應(yīng)用隨機(jī)森林算法預(yù)測(cè)汽油辛烷值的研究較為少見。基于這一思路,本研究以汽油常規(guī)理化指標(biāo)為自變量,RON為因變量,提出基于隨機(jī)森林回歸算法預(yù)測(cè)汽油RON的模型,并對(duì)所用模型進(jìn)行驗(yàn)證。
隨機(jī)森林是由Breiman和Cutler在2001年提出的一種基于決策樹的機(jī)器學(xué)習(xí)算法[11]。隨機(jī)森林可以用于分類和回歸。當(dāng)因變量是分類變量時(shí),是分類,決策樹使用分類樹(一般使用C4.5);當(dāng)因變量是連續(xù)變量時(shí),是回歸,決策樹使用回歸樹(一般使用CART,見圖1)。隨機(jī)森林回歸模型,是通過將若干個(gè)建立好的決策樹模型所得到的結(jié)果進(jìn)行綜合得到一個(gè)模型,最后的預(yù)測(cè)結(jié)果由所有決策樹模型的預(yù)測(cè)結(jié)果平均而得[12]。對(duì)應(yīng)的算法基本步驟如下:
(1)抽樣:從訓(xùn)練數(shù)據(jù)集S中,通過有放回的Boostrasp抽樣,生成K組數(shù)據(jù)集,每組數(shù)據(jù)集分為被抽中數(shù)據(jù)與未被抽中數(shù)據(jù)(袋外數(shù)據(jù))2種,每組數(shù)據(jù)集會(huì)通過訓(xùn)練產(chǎn)生一個(gè)決策樹。
(2)生長:通過訓(xùn)練數(shù)據(jù)對(duì)每個(gè)決策樹進(jìn)行訓(xùn)練。在每次分節(jié)點(diǎn)時(shí),從M個(gè)屬性中隨機(jī)選取m個(gè)特征,依據(jù)Gini指標(biāo)選取最優(yōu)特征進(jìn)行分支充分生長,直到無法再生長為止,不進(jìn)行剪枝。
(3)利用袋外數(shù)據(jù)檢驗(yàn)?zāi)P偷木?,由于袋外?shù)據(jù)未參與建模,其能在一定程度上檢驗(yàn)?zāi)P托Чc泛化能力。通過袋外數(shù)據(jù)的預(yù)測(cè)誤差,確定算法中最佳決策樹數(shù)目并重新進(jìn)行建模。
(4)利用確定的模型對(duì)新數(shù)據(jù)集進(jìn)行預(yù)測(cè),所有決策樹預(yù)測(cè)結(jié)果的平均值即為最終的輸出結(jié)果。
隨機(jī)森林的每顆決策樹都是對(duì)原始記錄進(jìn)行有放回的重抽樣后生成的。每次重抽樣大約13的記錄沒有被抽取,沒有被抽取的自然形成一個(gè)對(duì)照數(shù)據(jù)集。所以隨機(jī)森林不需要另外預(yù)留部分?jǐn)?shù)據(jù)做交叉驗(yàn)證,其本身的算法類似交叉驗(yàn)證,而且袋外誤差是對(duì)預(yù)測(cè)誤差的無偏估計(jì)[11]。
圖1 隨機(jī)森林算法訓(xùn)練流程
本研究用于建模和驗(yàn)證的數(shù)據(jù)來源于中國石化銷售企業(yè)LIMS的成品油質(zhì)量數(shù)據(jù)庫。數(shù)據(jù)庫中的樣本來自于30多個(gè)省級(jí)銷售公司入庫的成品油檢驗(yàn)樣品,樣品來源廣泛,基本涵蓋了國內(nèi)所有調(diào)合工藝的油品。
選取與汽油辛烷值具有相關(guān)性的烯烴含量、芳烴含量、氧含量、餾程(10%,50%,90%餾出溫度及終餾點(diǎn))和密度共8個(gè)指標(biāo)為自變量,RON作為因變量。
(1)數(shù)據(jù)集及預(yù)處理。以建模時(shí)間(2018年6月)為節(jié)點(diǎn),抽取數(shù)據(jù)庫中入庫檢測(cè)的92號(hào)車用汽油和95號(hào)車用汽油歷史樣本,選擇所有建模指標(biāo)(8個(gè)自變量和1個(gè)因變量)不為空的樣本,利用箱線圖對(duì)樣本中的異常數(shù)據(jù)(超出上下四分位1.5倍四分位差)進(jìn)行清洗,篩選出17 013個(gè)符合要求的樣本作為建模數(shù)據(jù)集。其中,隨機(jī)選取16 641個(gè)樣本作為訓(xùn)練集用于建模,選取372個(gè)樣本作為測(cè)試集用于評(píng)價(jià)模型性能。建模數(shù)據(jù)集中,國Ⅴ汽油樣本和國Ⅵ汽油樣本的比例約為76%∶24%,所有樣本的RON結(jié)果均為采用標(biāo)準(zhǔn)試驗(yàn)方法使用辛烷值機(jī)檢測(cè)所得。數(shù)據(jù)集中樣本分布如表1所示。
表1 建模數(shù)據(jù)集樣本分布
圖2 模型MSE與mtry的關(guān)系
圖3 模型預(yù)測(cè)誤差隨ntree的變化關(guān)系
(2)預(yù)測(cè)模型構(gòu)建。用基于R語言的隨機(jī)森林函數(shù)來構(gòu)建RON預(yù)測(cè)模型。選取訓(xùn)練集中的92號(hào)車用汽油樣本、95號(hào)車用汽油樣本和全部樣本,分別構(gòu)建92號(hào)預(yù)測(cè)模型、95號(hào)預(yù)測(cè)模型和(92號(hào)+95號(hào))一體預(yù)測(cè)模型。在隨機(jī)森林回歸模型中,隨機(jī)特征數(shù)(mtry)和決策樹的棵數(shù)(ntree)是決定模型預(yù)測(cè)能力的兩個(gè)關(guān)鍵參數(shù)。在大多數(shù)情況下,隨機(jī)森林模型參數(shù)的缺省設(shè)置可以給出最優(yōu)或接近最優(yōu)的結(jié)果[11]。對(duì)于分類問題,mtry的缺省值是自變量總數(shù)的平方根;對(duì)于回歸問題,mtry的缺省值是自變量總數(shù)的13。ntree為重抽樣次數(shù),一般當(dāng)ntree大于500時(shí)整體誤差率趨于穩(wěn)定[16]。以92號(hào)模型為例,在ntree默認(rèn)為500的情況下,采用模型的均方誤差(MSE)作為衡量指標(biāo),觀察mtry參數(shù)設(shè)置對(duì)MSE的影響,結(jié)果見圖2。由圖2可以看出:在訓(xùn)練集上,隨著mtry的增加,模型MSE逐漸變小;而在測(cè)試集上,隨著mtry的增加,模型MSE先逐漸變大后減小??傮w而言,mtry的變化對(duì)于模型精度的影響并不十分顯著,考慮在測(cè)試集上的預(yù)測(cè)精度最優(yōu),故將mtry設(shè)置為2。在訓(xùn)練集上,92號(hào)模型的預(yù)測(cè)誤差與ntree的關(guān)系如圖3所示。由圖3可以看出,模型誤差隨著ntree增加而降低,當(dāng)ntree達(dá)到500時(shí),模型預(yù)測(cè)誤差已趨于平穩(wěn)。故最終選擇mtry為2、ntree為500建立3個(gè)預(yù)測(cè)模型。
在本研究中,主要采用平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)對(duì)模型進(jìn)行評(píng)價(jià)和檢驗(yàn)。計(jì)算式如下:
(1)
(2)
(3)
R2用于檢驗(yàn)回歸模型對(duì)實(shí)測(cè)值的擬合程度,取值在 0~1 之間,R2越接近1,表明擬合效果越好、各自變量對(duì)因變量的解釋能力越強(qiáng)。MAE和 RMSE 可以衡量預(yù)測(cè)值與實(shí)測(cè)值的差異,MAE 和RMSE 越接近0,模型的模擬能力越好。用R2和RMSE評(píng)價(jià)模型對(duì)訓(xùn)練數(shù)據(jù)集的擬合效果,用RMSE和MAE檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力。
運(yùn)用得到的3個(gè)預(yù)測(cè)模型對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè),計(jì)算預(yù)測(cè)精度,結(jié)果見表2。從表2可以看出:在訓(xùn)練集上,單獨(dú)建模的92號(hào)預(yù)測(cè)模型和95號(hào)預(yù)測(cè)模型表現(xiàn)良好,其中,92號(hào)預(yù)測(cè)模型的RMSE達(dá)到0.23,95號(hào)預(yù)測(cè)模型的RMSE達(dá)到0.20,兩個(gè)模型的R2均達(dá)到了0.95,具有較高的精度;而訓(xùn)練集上一體預(yù)測(cè)模型的表現(xiàn)較差,MAE和RMSE均較大,R2也相對(duì)較低。在測(cè)試集上,92號(hào)預(yù)測(cè)模型的最大絕對(duì)誤差為1.53,MAE為0.44;95號(hào)預(yù)測(cè)模型的最大絕對(duì)誤差為1.33,MAE為0.33,均在可接受范圍之內(nèi);而一體預(yù)測(cè)模型的MAE和RMSE均更高,預(yù)測(cè)效果較差。因此,針對(duì)92號(hào)和95號(hào)汽油,單獨(dú)建立預(yù)測(cè)模型更為合適。3個(gè)預(yù)測(cè)模型在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)結(jié)果分別如圖4和圖5所示。
表2 模型的預(yù)測(cè)精度統(tǒng)計(jì)
圖4 RON預(yù)測(cè)模型在訓(xùn)練集上的預(yù)測(cè)結(jié)果
圖5 RON預(yù)測(cè)模型在測(cè)試集上的預(yù)測(cè)結(jié)果
隨機(jī)森林回歸模型可用方差增量(increase in mean squared error,IncMSE)以及節(jié)點(diǎn)純度增量(increase in node purity,IncNodePurity)兩個(gè)指標(biāo)來定性衡量特征變量對(duì)目標(biāo)變量的重要性。IncMSE為采用隨機(jī)變量替換某一變量對(duì)模型預(yù)測(cè)結(jié)果的影響,若該隨機(jī)變量使方差顯著改變,則表示原變量相當(dāng)重要;IncNodePurity則利用同質(zhì)性增加原理來衡量變量的重要性[13]。IncMSE 和 IncNodePurity 的值越大,表明該特征變量的重要性越強(qiáng)。表3為模型變量重要性評(píng)價(jià)結(jié)果。由表3可以看出:對(duì)于92號(hào)預(yù)測(cè)模型,烯烴含量和氧含量對(duì)RON預(yù)測(cè)的貢獻(xiàn)更大;對(duì)于95號(hào)預(yù)測(cè)模型,芳烴含量和10%餾出溫度對(duì)RON預(yù)測(cè)的貢獻(xiàn)更大。
表3 模型變量重要性評(píng)價(jià)結(jié)果
將建立的92號(hào)預(yù)測(cè)模型和95號(hào)預(yù)測(cè)模型部署在Aster平臺(tái)上,對(duì)于新進(jìn)入的汽油樣品,根據(jù)牌號(hào)選用相應(yīng)的模型進(jìn)行RON預(yù)測(cè)。2019年1月1日起,全國車用汽油標(biāo)準(zhǔn)升級(jí)為國Ⅵ標(biāo)準(zhǔn)。為了檢驗(yàn)?zāi)P偷倪m應(yīng)性,選取了2019年6月和2020年1月檢測(cè)的國Ⅵ標(biāo)準(zhǔn)92號(hào)和95號(hào)車用汽油樣本,對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行分析,見圖6和表4。由圖6和表4可見,隨著油品質(zhì)量升級(jí)汽油調(diào)合工藝的變化,92號(hào)和95號(hào)模型的預(yù)測(cè)精度較建模初期略有下降,但下降幅度不大,平均絕對(duì)誤差(|E|)依然在0.5左右,低于標(biāo)準(zhǔn)試驗(yàn)方法再現(xiàn)性0.7的要求,仍保持較高的精度。2019年6月和2020年1月的檢測(cè)數(shù)據(jù)中,個(gè)別92號(hào)車用汽油樣本的預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果誤差超過2.0個(gè)單位,最大絕對(duì)誤差達(dá)到3.5個(gè)單位。研究發(fā)現(xiàn),這是由于個(gè)別批次92號(hào)汽油的實(shí)測(cè)RON結(jié)果超過95,在92號(hào)建模數(shù)據(jù)集中超出92號(hào)汽油RON范圍的樣本很少,當(dāng)超出92號(hào)汽油RON要求的樣本進(jìn)入92號(hào)模型時(shí),預(yù)測(cè)結(jié)果與實(shí)測(cè)結(jié)果偏差較大。從圖5和圖6還可以看出,92號(hào)模型的RON預(yù)測(cè)結(jié)果大部分落在92.6~93.6范圍內(nèi),95號(hào)模型的RON預(yù)測(cè)結(jié)果大部分落在95.6~96.6范圍內(nèi),該問題發(fā)生的原因需要進(jìn)一步分析。
圖6 國Ⅵ汽油的預(yù)測(cè)結(jié)果
表4 國Ⅵ汽油的預(yù)測(cè)精度
數(shù)據(jù)庫中有很多汽油樣品在入庫檢驗(yàn)時(shí)采用標(biāo)準(zhǔn)試驗(yàn)方法和中紅外光譜分析儀兩種方法檢測(cè)了RON。因此,在數(shù)據(jù)庫中抽取了自變量和因變量均不為空且含有中紅外光譜檢測(cè)RON結(jié)果的92號(hào)車用汽油和95號(hào)車用汽油樣本500個(gè),隨機(jī)森林回歸模型預(yù)測(cè)的RON結(jié)果與中紅外光譜檢測(cè)的RON結(jié)果如圖7所示。
圖7 模型預(yù)測(cè)RON與中紅外光譜檢測(cè)RON結(jié)果對(duì)比●—模型預(yù)測(cè)RON; ■—中紅外光譜檢測(cè)RON
表5 不同誤差范圍內(nèi)的樣品分布
|E|不大于0.7的要求。而中紅外光譜分析儀檢測(cè)結(jié)果中只有39.4%的樣品|E|在0.7個(gè)單位以內(nèi)。隨機(jī)森林回歸模型預(yù)測(cè)的精度較高,顯著優(yōu)于目前企業(yè)采用的中紅外光譜分析檢測(cè)方法。
(1)基于中國石化銷售企業(yè)入庫汽油質(zhì)量數(shù)據(jù),應(yīng)用隨機(jī)森林回歸算法,構(gòu)建92號(hào)汽油、95號(hào)汽油和一體化的RON預(yù)測(cè)模型。結(jié)果表明,單獨(dú)建模的模型預(yù)測(cè)精度更高。應(yīng)用92號(hào)和95號(hào)預(yù)測(cè)模型對(duì)入庫汽油進(jìn)行RON預(yù)測(cè),隨著油品質(zhì)量升級(jí),模型預(yù)測(cè)精度略有下降,但總體保持較高精度,可靠性和適應(yīng)性較好。
(2)對(duì)比隨機(jī)森林回歸預(yù)測(cè)模型和中紅外光譜檢測(cè)方法,隨機(jī)森林預(yù)測(cè)模型預(yù)測(cè)RON時(shí)84.4%的樣本|E|不大于0.7,預(yù)測(cè)精度顯著優(yōu)于中紅外光譜分析儀檢測(cè)方法(39.4%的樣本檢測(cè)RON的|E|不大于0.7)。
(3)建模數(shù)據(jù)庫的質(zhì)量和代表性對(duì)于模型準(zhǔn)確性至關(guān)重要。銷售企業(yè)油品來源廣泛、調(diào)合工藝復(fù)雜,隨機(jī)森林回歸預(yù)測(cè)模型基于銷售企業(yè)的成品油質(zhì)量數(shù)據(jù)庫,可用于建模的樣本量大、油品來源廣泛、具有較好的代表性,模型具有較優(yōu)的預(yù)測(cè)能力。隨著油品生產(chǎn)工藝發(fā)生變化,對(duì)建模數(shù)據(jù)庫及時(shí)進(jìn)行更新和維護(hù),更有利于保持高的預(yù)測(cè)精度。由于常規(guī)理化指標(biāo)較易獲取,隨機(jī)森林預(yù)測(cè)模型為銷售企業(yè)汽油辛烷值的質(zhì)量監(jiān)測(cè)提供了有益的工具。