任小甜,褚小立,田松柏,朱新宇
(中國石化石油化工科學(xué)研究院,北京 100083)
黏度指數(shù)是表征油品黏溫性能的一種重要參數(shù),也是潤滑油基礎(chǔ)油生產(chǎn)過程中重點(diǎn)監(jiān)測的一項關(guān)鍵指標(biāo),減壓餾分油(VGO)是目前潤滑油基礎(chǔ)油生產(chǎn)的最主要原料之一,建立VGO黏度指數(shù)的快速分析方法對指導(dǎo)潤滑油基礎(chǔ)油的原料選擇、生產(chǎn)控制和過程優(yōu)化具有重要意義。目前黏度指數(shù)是通過首先測定油品在40 ℃和100 ℃下的運(yùn)動黏度,然后經(jīng)過計算得到,但這種方法的實驗步驟繁瑣,操作費(fèi)時費(fèi)力。近紅外光譜(NIR)是目前石油化工產(chǎn)品在線分析中應(yīng)用最廣泛的一項快速分析方法,NIR主要反映化合物中X—H(X為C,N,O)基團(tuán)合頻和倍頻的振動,包含豐富的結(jié)構(gòu)和組成信息[1],結(jié)合化學(xué)計量學(xué)方法,可以用于石油餾分的各項物性參數(shù)和組成信息的快速測定。油品的黏度指數(shù)與其結(jié)構(gòu)和組成有密切的關(guān)系,所以使用NIR快速測定VGO的黏度指數(shù)是可行的。目前文獻(xiàn)中報道的黏度指數(shù)近紅外預(yù)測模型主要集中在潤滑油基礎(chǔ)油和成品潤滑油,其定量校正方法為線性的偏最小二乘[2](PLS)以及非線性的自組織神經(jīng)網(wǎng)絡(luò)和反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[3-5]等。這些方法主要采用PLS和主成分分析(PCA)的方法對光譜變量進(jìn)行降維處理來提取主因子,然后以主因子得分為輸入特征進(jìn)行線性和非線性的建模。由于VGO的組成比較復(fù)雜,有些與性質(zhì)相關(guān)的結(jié)構(gòu)基團(tuán)在近紅外光譜中沒有響應(yīng)或響應(yīng)很低,不同基團(tuán)的協(xié)同效應(yīng)使VGO的很多性質(zhì)和近紅外光譜信息呈現(xiàn)非線性的關(guān)系,所以用非線性校正方法建立VGO黏度指數(shù)的預(yù)測模型可能是更合理的思路。本課題采用隨機(jī)森林(RF)回歸算法構(gòu)建VGO黏度指數(shù)的預(yù)測模型,這種方法能全面地反映出VGO的黏度指數(shù)和其近紅外光譜信息之間的非線性關(guān)系,準(zhǔn)確度高,不易過擬合。首先結(jié)合特征重要性度量和遞歸特征消除法進(jìn)行NIR光譜的波長變量選擇,然后通過交叉驗證法確定模型的超參數(shù)(回歸樹數(shù)量nt和節(jié)點(diǎn)分裂的特征數(shù)nv),最終建立起完整的預(yù)測模型。
收集70個VGO樣品,這些樣品切割自不同產(chǎn)地的原油,其黏度指數(shù)范圍為17~151,平均值為86,樣品覆蓋范圍較寬,具有很強(qiáng)的代表性。
用GB/T 265方法測定VGO樣品在40 ℃和100 ℃下的運(yùn)動黏度,然后按照GB/T 1995 方法計算相應(yīng)的黏度指數(shù)。
采用Thermo Fisher 公司生產(chǎn)的傅里葉變換近紅外光譜儀(ANTARIS Ⅱ型)進(jìn)行VGO樣品的光譜采集,樣品池為0.5 mm比色皿,采集條件為恒溫65 ℃,分辨率為8 cm-1,累積掃描次數(shù)為128,光譜范圍為3 500~10 000 cm-1。
對于樣品的NIR光譜,采用S-G二階微分(21點(diǎn))進(jìn)行處理以消除噪聲和樣品色度的影響,選取4 500~9 000 cm-1范圍內(nèi)的波長點(diǎn)作為模型的輸入變量X,共計1 168個波長點(diǎn);對于黏度指數(shù)的數(shù)據(jù),由于其分布范圍太寬,不同樣本間的數(shù)值差異較大,將其進(jìn)行對數(shù)轉(zhuǎn)換作為模型的輸出變量y,由此確定樣品的數(shù)據(jù)集。
利用SPXY方法[6]將數(shù)據(jù)集劃分為63個訓(xùn)練集和7個驗證集,這種方法根據(jù)樣品之間的歐式距離在特征空間中均勻地選取樣本,計算距離時同時考慮光譜特征和性質(zhì)特征,這樣使樣本劃分得更加均衡,構(gòu)建的預(yù)測模型更具代表性。
RF回歸算法是一種基于分類和回歸樹(CART)的集成學(xué)習(xí)算法,其在裝袋(bagging)的思想上進(jìn)行了改進(jìn),主要利用2個隨機(jī)過程來增加模型的泛化性,首先通過有放回的隨機(jī)抽樣得到不同的樣本子集,分別對這些樣本子集構(gòu)建不同的回歸樹,在樹的每個節(jié)點(diǎn)分裂時,然后每次都隨機(jī)抽取一定數(shù)量的特征進(jìn)行分裂,這2個隨機(jī)過程可以有效地降低模型的方差,避免過擬合,增加模型的泛化性。RF模型中構(gòu)建的弱學(xué)習(xí)器是大量的回歸樹,其算法的基本思想是不斷地將訓(xùn)練集中的樣本進(jìn)行二分類,從根節(jié)點(diǎn)開始,以分裂后左右分叉中樣本的平方誤差最小化作為分裂規(guī)則,選擇最優(yōu)的分裂特征及對應(yīng)的最佳分裂點(diǎn)進(jìn)行分支,依次分裂,最大限度地生長,最后將樣本分配到不同的葉節(jié)點(diǎn)中,每個葉節(jié)點(diǎn)中包含的所有樣本的平均值為該節(jié)點(diǎn)的計算值。預(yù)測時,將待測樣本依次代入每顆回歸樹進(jìn)行計算,利用所有樹的計算結(jié)果平均值進(jìn)行預(yù)測。這種模型訓(xùn)練時間短,不需要進(jìn)行特征數(shù)據(jù)的預(yù)處理,且模型可以給出每個特征的重要度用于特征選擇,對離群的異常樣本不敏感,穩(wěn)健性好,有較強(qiáng)的泛化能力和較高的準(zhǔn)確度。
RF算法采用有放回的自助抽樣來生成樣本子集,構(gòu)建一顆回歸樹時,訓(xùn)練集中每個樣本未被抽中的概率為(1-1/N)N,N為樣本數(shù),當(dāng)N足夠大時,此概率收斂于1/e≈0.368,即每顆回歸樹中大約有36.8%的樣本參與建模訓(xùn)練,這些樣本被稱為袋外樣本(OOB),其可作為驗證集對RF回歸模型的泛化性能進(jìn)行評價。對于訓(xùn)練集中的每個樣本,將其作為OOB樣本,利用不包含該樣本的回歸樹進(jìn)行對應(yīng)的性質(zhì)預(yù)測就叫做袋外估計,保證RF中的回歸樹足夠多,每個訓(xùn)練樣本都能得到一個袋外估計的計算值,這樣利用袋外估計就可以起到驗證集的作用,屬于無偏估計[7]。
近紅外光譜中有上千個波長變量,其中包含有不少冗余的信息,比如與待測性質(zhì)相關(guān)性很小的波長點(diǎn),在建模之前進(jìn)行波長選擇可以簡化模型,同時針對待測性質(zhì)選擇最有效的光譜區(qū)間和波長點(diǎn)可以使預(yù)測模型更加準(zhǔn)確,穩(wěn)健性更好[8]。在近紅外預(yù)測模型中,最常用的是相關(guān)系數(shù)法,即選擇與待測性質(zhì)相關(guān)系數(shù)較高的波長區(qū)間進(jìn)行建模,但相關(guān)系數(shù)只能表示變量之間的線性相關(guān)關(guān)系,顯然不適用于預(yù)測非線性的黏度指數(shù)模型。
根據(jù)RF回歸算法中對特征重要性的度量,通過遞歸特征消除法進(jìn)行波長變量的選擇。RF中,回歸樹的每個節(jié)點(diǎn)都表示不同的特征分裂條件,是以分裂后的方差最小化為準(zhǔn)則,目的是為了將訓(xùn)練集的樣本不斷劃分,將性質(zhì)取值接近的樣本分到同一節(jié)點(diǎn)中,總的來說就是通過劃分降低整個訓(xùn)練集樣本的方差。所以,計算出回歸樹中某個特征對于方差的降低量,再對RF中的所有樹取平均值,將該特征的平均方差減少量作為其重要度。
本研究使用遞歸特征消除法進(jìn)行近紅外光譜的波長變量選擇,基本步驟如下:①從訓(xùn)練集樣本出發(fā),構(gòu)建一個RF模型(nt=60),計算出各波長變量的重要度,并將其按照降序排列,利用袋外估計的方法計算訓(xùn)練集樣本的校正標(biāo)準(zhǔn)偏差(RMSEC);②從當(dāng)前波長點(diǎn)中刪除重要度最小,即排序在最后的2個點(diǎn),得到一個新的特征子集;③利用新的特征子集重新構(gòu)建RF模型,計算其中每個波長變量的重要度并排序,利用袋外估計的方法計算訓(xùn)練集樣本的RMSEC;④重復(fù)②和③的步驟,直至剩下2個波長點(diǎn);⑤記錄上述所有特征子集計算得到的RMSEC,選擇取值最小的子集作為最后優(yōu)選的波長變量子集。
不同波長點(diǎn)數(shù)的變量子集下訓(xùn)練集樣本的RMSEC見圖1。從VGO的近紅外光譜中取10個特定波長點(diǎn)(4 900,5 140,5 690,5 760,5 880,6 800,7 460,8 330,8 340,8 590 cm-1)的子集時就可以得到最小的RMSEC,此時構(gòu)建的預(yù)測模型泛化性能最強(qiáng),穩(wěn)健性最好。
圖1 不同波長點(diǎn)數(shù)的變量子集下訓(xùn)練集樣本的RMSEC
以上述優(yōu)選出的波長變量作為新的輸入特征,用訓(xùn)練集樣本構(gòu)建RF回歸模型,模型中有2個重要的超參數(shù),即回歸樹數(shù)量nt和每個節(jié)點(diǎn)分裂時使用的特征數(shù)nv?;貧w樹的數(shù)量越多,模型的方差越小,但會增加計算負(fù)擔(dān);減少nv,構(gòu)建的回歸樹之間的相關(guān)性會減少,可以增強(qiáng)模型的泛化性,但會造成預(yù)測準(zhǔn)確度下降。所以,要對這2個超參數(shù)進(jìn)行優(yōu)選,以降低模型的方差,進(jìn)一步增強(qiáng)模型的泛化性能。本研究使用10折交叉驗證的方法對這2個超參數(shù)依次進(jìn)行尋優(yōu),計算不同取值超參數(shù)下的交叉驗證均方誤差(MSECV),取值最小時對應(yīng)的超參數(shù)即為最優(yōu)值?;貧w樹的數(shù)量與MSECV的關(guān)系見圖2。分裂波長點(diǎn)數(shù)與MSECV 的關(guān)系見圖3。首先確定nt的最佳值,如圖2所示,當(dāng)nt為150時,MSECV取值達(dá)到最小;固定nt為150,對分裂時使用的波長點(diǎn)數(shù)nv進(jìn)行尋優(yōu),由圖3可知,當(dāng)nv為5時,MSECV達(dá)到最小值。
圖2 回歸樹數(shù)量與MSECV的關(guān)系
圖3 分裂波長點(diǎn)數(shù)與MSECV 的關(guān)系
以10個波長變量為輸入特征,在63個訓(xùn)練集樣本上構(gòu)建包含有150顆回歸樹的RF,其中回歸樹上的節(jié)點(diǎn)分裂時隨機(jī)抽取5個波長變量進(jìn)行分裂,這樣構(gòu)建起一個穩(wěn)健預(yù)測VGO黏度指數(shù)的RF回歸模型。對于訓(xùn)練集樣本,模型的RMSEC為4.03,決定系數(shù)R2為0.98,黏度指數(shù)的實驗值和預(yù)測值對比見圖4。從圖4可以看出,黏度指數(shù)的實驗值和預(yù)測值的相關(guān)性很好,同時由袋外估計方法計算的R2為0.88,表明模型的泛化能力較好。上述結(jié)果表明,RF回歸模型能較好地擬合所有的訓(xùn)練集樣本,篩選出10個特征波長也能代表VGO中與黏度指數(shù)最相關(guān)的結(jié)構(gòu)信息,模型的準(zhǔn)確度高,穩(wěn)健性好。
圖4 訓(xùn)練集樣本的黏度指數(shù)實測值和預(yù)測值對比
基于上述黏度指數(shù)的RF回歸模型,對驗證集中的7個VGO樣本進(jìn)行預(yù)測,其預(yù)測標(biāo)準(zhǔn)偏差RMSEP為2.28,決定系數(shù)R2為0.98,將這7個樣本黏度指數(shù)的實測值和預(yù)測值進(jìn)行對比,結(jié)果見表1。從表1可以看出,通過RF回歸模型預(yù)測的黏度指數(shù)與實測值基本一致,最大偏差為4,說明此模型具有很強(qiáng)的泛化能力,不易過擬合,能較準(zhǔn)確地預(yù)測訓(xùn)練集以外的樣本。總的來說,RF回歸模型能全面地反映出VGO的近紅外光譜信息和其黏度指數(shù)之間的非線性關(guān)系,模型的準(zhǔn)確度較高,泛化性好,覆蓋范圍廣,具有一定的應(yīng)用價值。在后續(xù)的模型維護(hù)工作中,需要增加VGO的訓(xùn)練樣本,進(jìn)一步提高模型的準(zhǔn)確度和預(yù)測范圍。
表1 驗證集樣本的黏度指數(shù)實測值與預(yù)測值比較
(1)利用RF回歸算法,建立了VGO黏度指數(shù)的近紅外預(yù)測模型,包括利用遞歸特征消除法從近紅外光譜中提取10個特征波長,通過10折交叉驗證法確定模型的兩個超參數(shù),最終確定了一個準(zhǔn)確度高、穩(wěn)健性好的非線性預(yù)測模型。
(2)利用此模型,可以通過近紅外光譜快速地計算出VGO的黏度指數(shù),其準(zhǔn)確性與標(biāo)準(zhǔn)方法相當(dāng),泛化性好,能基本滿足生產(chǎn)過程中快速分析的需求,具有一定的實用價值。