国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機森林算法在石油餾分臨界性質(zhì)預(yù)測中的應(yīng)用

2016-11-19 07:15:11宋新陽劉子媛王從崗
廣州化工 2016年20期
關(guān)鍵詞:臨界壓力餾分物性

宋新陽,劉子媛,王從崗

(1 青島經(jīng)濟技術(shù)開發(fā)區(qū)第一中學(xué),山東 青島 266510; 2中國石油大學(xué)(華東),山東 青島 266580)

?

隨機森林算法在石油餾分臨界性質(zhì)預(yù)測中的應(yīng)用

宋新陽1,劉子媛2,王從崗2

(1 青島經(jīng)濟技術(shù)開發(fā)區(qū)第一中學(xué),山東 青島 266510; 2中國石油大學(xué)(華東),山東 青島 266580)

在實測原油餾分臨界性質(zhì)及基礎(chǔ)物性數(shù)據(jù)基礎(chǔ)上,采用隨機森林方法預(yù)測其臨界性質(zhì)。預(yù)測臨界溫度的隨機森林模型訓(xùn)練的平均相對偏差在0.6%左右,測試的平均相對偏差在1.4%左右。預(yù)測結(jié)果精度較高,應(yīng)用范圍廣。預(yù)測臨界壓力的隨機森林模型訓(xùn)練的平均相對偏差一般在3%左右,測試的平均相對偏差一般在6%左右??疾炝穗S機森林模型參數(shù)的影響,其中Ntree取500或800時預(yù)測結(jié)果能夠滿足要求;對于輸入?yún)?shù)數(shù)目k≥4時,Mtry取k-1預(yù)測精度較高,當(dāng)k較小時Mtry取k的預(yù)測精度較高。

隨機森林;石油餾分;臨界性質(zhì);預(yù)測

石油餾分的臨界性質(zhì)常用來確定石油餾分的相狀態(tài),并關(guān)聯(lián)和計算其他熱力學(xué)性質(zhì),是石油加工工藝計算所必需的基礎(chǔ)數(shù)據(jù)。本課題組實測了多種原油總計165組餾分油的臨界溫度、臨界壓力及常用基礎(chǔ)物性數(shù)據(jù),如中沸點Tb(K)、20 ℃相對密度D、平均相對分子質(zhì)量M、20 ℃運動粘度ν(cst)和20 ℃折光率N等。以實測物性數(shù)據(jù)為基礎(chǔ),預(yù)測石油餾分油的臨界性質(zhì)是獲得臨界性質(zhì)數(shù)據(jù)的重要途徑。

傳統(tǒng)的臨界性質(zhì)預(yù)測方法有經(jīng)驗關(guān)聯(lián)法[1-2]、基團貢獻法[2-3]、人工神經(jīng)網(wǎng)絡(luò)法[4-5]等。隨機森林(random forest)是一種機器學(xué)習(xí)方法,可以處理高維度數(shù)據(jù),對多元共線性不敏感,不僅運算速度快,而且算法簡單易實現(xiàn)[6]。隨機森林已經(jīng)在生物信息、醫(yī)學(xué)、經(jīng)濟、管理、統(tǒng)計等領(lǐng)域有著廣泛的應(yīng)用[7-12],但在石油化工基礎(chǔ)物性預(yù)測方面的應(yīng)用還未見報道。

隨機森林算法能處理回歸和分類兩種問題,本文用基于隨機森林的回歸算法來預(yù)測石油餾分的臨界性質(zhì)。隨機森林算法可以通過R語言或MATLAB等軟件實現(xiàn)。本文采用MATLAB軟件建模計算。

1 隨機森林簡介

假設(shè)有k個自變量(X1,X2,…,Xk)與因變量Y相關(guān),因變量有m個觀測值。在構(gòu)建分類樹時,根據(jù)Bootstrap 抽樣方法,會隨機地在原始數(shù)據(jù)中隨機選擇M個觀測值。同時隨機森林隨機地從k個自變量選擇部分變量進行分類樹節(jié)點的確定。隨機森林可以隨機生成幾百個至幾千個分類樹,在進行回歸時,每棵分類樹產(chǎn)生一個Y的預(yù)測值,隨機森林的預(yù)測結(jié)果由每棵分類樹預(yù)測值的平均值確定[6]。隨機森林學(xué)習(xí)算法示意圖見圖1。

圖1 隨機森林學(xué)習(xí)算法簡圖

2 隨機森林模型參數(shù)的考察

在隨機森林的MATLAB程序中,有兩個參數(shù)可以調(diào)整,一個是Mtry,指分類樹每個節(jié)點用來二分?jǐn)?shù)據(jù)的自變量的個數(shù),對于回歸分析,所用程序的缺省值是自變量總數(shù)的1/3。另一個是Ntree,指分類樹的數(shù)目,其缺省值是500。

實測石油餾分的臨界性質(zhì)數(shù)據(jù)共165組,為了考察上述兩個參數(shù)對預(yù)測結(jié)果的影響,隨機選擇其中的132組作為訓(xùn)練樣本,其他33組作為測試樣本,檢驗隨機森林模型的預(yù)測效果。

2.1 Ntree的考察

理論上分類樹的數(shù)目Ntree 增大,能夠提高模型的預(yù)測精度,同時訓(xùn)練時間也會延長。選擇中沸點、20 ℃相對密度、平均相對分子質(zhì)量、20 ℃運動粘度和20 ℃折光率5種基礎(chǔ)物性數(shù)據(jù)作為輸入?yún)?shù),按照缺省值,取Mtry=2,Ntree在200~1500間取值,考察不同Ntree取值的影響。臨界溫度和臨界壓力訓(xùn)練及測試的平均相對偏差列入表1。由表1可見,隨Ntree的增加,臨界溫度和臨界壓力的訓(xùn)練偏差和測試偏差并不是逐漸降低的,而是略有降低或增加,變化不大,尤其是增加到800以后,預(yù)測偏差變化很小。表2給出了5種基礎(chǔ)物性作為輸入?yún)?shù),Mtry=3時,不同Ntree取值時的偏差,結(jié)果與表1的規(guī)律類似。因此在樣本數(shù)較少時,Ntree的取值不必很大,可取缺省值500,或取中間值800即可達到令人滿意的計算精度,同時節(jié)省計算時間。

表1 Ntree不同取值的隨機森林模型預(yù)測偏差(Mtry=2)

表2 Mtry=3時Ntree不同取值的隨機森林模型預(yù)測偏差

2.2 Mtry的考察

程序中固定Ntree=800,選擇5種基礎(chǔ)物性數(shù)據(jù)作為輸入?yún)?shù)。Mtry的缺省值為2?,F(xiàn)考察Mtry取1~5時臨界性質(zhì)的預(yù)測偏差,結(jié)果見表3。

從訓(xùn)練、測試平均相對偏差看,Mtry從1增加到4,偏差逐漸降低,而Mtry增加到5時,訓(xùn)練和測試偏差有增加也有降低。而且Mtry增加到3以后,偏差變化很小,綜合考慮Mtry可以取3或4,這里取4預(yù)測偏差更小。

表3 Mtry不同取值的隨機森林模型預(yù)測偏差(5個輸入?yún)?shù))

同理考察四種基礎(chǔ)物性數(shù)據(jù)N、D、Tb、M作為參數(shù)時,Mtry不同取值時的結(jié)果,見表4。Mtry從1增加到3,預(yù)測偏差逐漸降低,當(dāng)Mtry取4時,預(yù)測偏差有增有降。因此Mtry可以取2或3,取3更好些。

表4 Mtry不同取值的隨機森林模型預(yù)測偏差(4個輸入?yún)?shù))

三種基礎(chǔ)物性數(shù)據(jù)D、Tb、M作為參數(shù)時,Mtry不同取值時的預(yù)測結(jié)果見表5。隨Mtry增加,預(yù)測的平均相對偏差降低,Mtry取3預(yù)測精度更高。

表5 Mtry不同取值的隨機森林模型預(yù)測偏差(3個輸入?yún)?shù))

表3~表5的結(jié)果表明,當(dāng)輸入?yún)?shù)k較多(≥4)時,Mtry取k-1最好,當(dāng)輸入?yún)?shù)較少時,Mtry取k的預(yù)測偏差最小。

2.3 輸入?yún)?shù)歸一化的影響

選擇5種基礎(chǔ)物性數(shù)據(jù)中數(shù)據(jù)變化范圍較大的三個參數(shù)Tb、M、ν,考察輸入?yún)?shù)是否歸一化對預(yù)測結(jié)果的影響。這里取Mtry=3,Ntree=800。根據(jù)數(shù)據(jù)變化范圍,Tb、M、ν三個參數(shù)分別除以1000,500和25000,保證輸入數(shù)據(jù)介于0~1之間。計算結(jié)果列入表6。由表6可見,不論輸入數(shù)據(jù)是否進行歸一化處理,對預(yù)測結(jié)果的影響都很小,因此采用隨機森林模型進行預(yù)測時,不必對輸入?yún)?shù)進行歸一化處理,這一點比人工神經(jīng)網(wǎng)絡(luò)方法要方便[4-5]。

表6 輸入?yún)?shù)歸一化對隨機森林模型預(yù)測偏差的影響

3 隨機抓取數(shù)據(jù)預(yù)測結(jié)果的考察

對165組實測石油餾分臨界性質(zhì)和基礎(chǔ)物性數(shù)據(jù),隨機抓取其中的2/3用于訓(xùn)練,其他1/3數(shù)據(jù)用于測試,采用隨機森林方法建立模型進行預(yù)測。選取D、Tb、M、ν四種基礎(chǔ)物性作為輸入?yún)?shù),取Ntree=800,Mtry=3。由于隨機抓取訓(xùn)練數(shù)據(jù),每次抓取的數(shù)據(jù)都不相同,因此每次的計算結(jié)果也不相同。連續(xù)進行6次計算,結(jié)果列入表7。

表7 隨機抓取數(shù)據(jù)對隨機森林模型預(yù)測偏差的影響

由表7可見,在原始數(shù)據(jù)和模型參數(shù)均相同的情況下,由于每次抓取的數(shù)據(jù)不同,臨界性質(zhì)訓(xùn)練和測試的預(yù)測偏差也不相同,而且相差較大。訓(xùn)練臨界溫度的平均相對偏差為0.559%~0.649%,臨界壓力平均相對偏差為2.514%~3.050%。測試臨界溫度的平均相對偏差為1.288%~1.463%,臨界壓力平均相對偏差為5.513%~9.123%。

臨界溫度和臨界壓力訓(xùn)練的偏差變化較小,而測試的偏差變化較大。臨界壓力的訓(xùn)練和測試偏差對比見圖2。由圖2可知,臨界壓力訓(xùn)練偏差較小時,其相應(yīng)的測試偏差反而較大,說明訓(xùn)練和測試的結(jié)果與所選擇的訓(xùn)練樣本有較為密切的關(guān)系。

圖2 臨界壓力訓(xùn)練與測試偏差的對比

4 結(jié) 論

(1)采用隨機森林方法預(yù)測石油餾分的臨界溫度,其訓(xùn)練平均相對偏差在0.6%左右,測試平均相對偏差在1.4%左右。預(yù)測臨界壓力其訓(xùn)練平均相對偏差一般在3%左右,測試平均相對偏差一般在6%左右,預(yù)測精度較高,適用于各種國產(chǎn)原油餾分臨界性質(zhì)的預(yù)測。

(2)考察了隨機森林模型參數(shù)的影響,其中Ntree取缺省值500或800時預(yù)測結(jié)果即可滿足精度要求;對于輸入?yún)?shù)數(shù)目k≥4時,Mtry取k-1,k較小時Mtry取k的預(yù)測精度較高。

(3)采用隨機森林模型預(yù)測臨界性質(zhì)輸入?yún)?shù)不必進行歸一化處理。

[1] 劉子媛,王從崗,張艷梅.塔里木原油餾分油臨界性質(zhì)常用計算公式考察[J].燃料化學(xué)學(xué)報,2003,31(6):636-638.

[2] 王從崗,壽德清,向正為,等.國產(chǎn)石油餾分臨界性質(zhì)的測定和計算方法研究[J].石油學(xué)報:石油加工,1993,9 (1):73-80.

[3] 王從崗,張艷梅,壽德清.預(yù)測石油餾分臨界溫度和臨界壓力的基團貢獻型新方法[J].石油學(xué)報:石油加工,1998,14(1):91-94.

[4] 周山花,張曉彤,張素萍,等.人工神經(jīng)網(wǎng)絡(luò)在石油分析中的應(yīng)用研究(Ⅰ)——BP神經(jīng)網(wǎng)絡(luò)預(yù)測石油餾分臨界性質(zhì)[J].石油化工高等學(xué)校學(xué)報, 1998,11(1): 23-27.

[5] 劉子媛.塔里木原油餾分臨界性質(zhì)的測定和研究[D].東營:石油大學(xué),1999.

[6] Breiman L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.[7] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-37.

[8] 李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報,2013,50(4):1190-1197.

[9] 韓玉,施海龍,曲波,等.隨機森林方法在醫(yī)學(xué)中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志,2014,15(1): 79-81.

[10]王志紅,王華珍.基于隨機森林的基金評級模型選擇[J].財務(wù)與金融,2009,24(1):65-70.

[11]何寧,武忠.基于隨機森林的光伏企業(yè)科技創(chuàng)新動力模型研究[J].科技管理研究,2014(19):145-148.

[12]徐戈,張科.基于隨機森林模型的房產(chǎn)價格評估[J].統(tǒng)計與決策, 2014(17): 22-25.

Prediction of Critical Properties of Petroleum Fractions by Random Forest Method

SONGXin-yang1,LIUZi-yuan2,WANGCong-gang2

(1 Qingdao Economic and Technological Development Zone No.1 Middle School, Shandong Qingdao 266510;2 China University of Petroleum, Shandong Qingdao 266580, China)

Based on the experimental data of critical properties and basic physical properties of petroleum fractions, random forest method was used to predict the critical properties. The average relative deviation for critical temperature prediction was about 0.6% for the train result, and 1.4% for the test. The average relative deviation for critical pressure was about 3% for the train result, and 6% for the test. The results showed that random forest method had relatively high veracity and a wide range of application. The parameters of random forest model were examined. The appropriate value of Ntree was 500 or 800. For models which had more than 4 input parameters, the appropriate value of Mtry was the number of input parameters minus 1, but for models which had smaller parameters, the appropriate value of Mtry was the number of input parameters.

random forest; petroleum fraction; critical properties; prediction

宋新陽,青島經(jīng)濟技術(shù)開發(fā)區(qū)第一中學(xué)學(xué)生。

劉子媛,女,博士,副教授,研究方向:石油物性和石油加工。

TE622

A

1001-9677(2016)020-0071-03

猜你喜歡
臨界壓力餾分物性
露天礦富水裂隙巖體臺階爆破的殉爆機理和防殉爆研究
爆炸與沖擊(2025年1期)2025-02-19 00:00:00
全餾分粗油漿在瀝青中的應(yīng)用研究
石油瀝青(2022年4期)2022-09-03 09:29:46
R1234ze PVTx熱物性模擬計算
能源工程(2022年1期)2022-03-29 01:06:26
中韓天氣預(yù)報語篇的及物性分析
LKP狀態(tài)方程在天然氣熱物性參數(shù)計算的應(yīng)用
煤氣與熱力(2021年6期)2021-07-28 07:21:30
基于燒結(jié)物塌陷壓力檢測預(yù)測成品關(guān)鍵指標(biāo)①
聚乙烯絕緣CO2物理發(fā)泡淺析
科技資訊(2019年8期)2019-06-18 01:06:18
提高催化裂化C4和C5/C6餾分價值的新工藝
封閉采空區(qū)瓦斯涌出影響因素及防治措施
低孔低滲儲層物性下限確定方法及其適用性
兴业县| 稻城县| 黄骅市| 怀仁县| 浪卡子县| 汕头市| 望城县| 木里| 虹口区| 麻栗坡县| 景德镇市| 黄大仙区| 垦利县| 沐川县| 平罗县| 云林县| 饶阳县| 绥滨县| 惠州市| 遂溪县| 邵阳市| 南昌市| 长宁区| 邢台县| 玉门市| 乃东县| 乐陵市| 乌兰察布市| 阜宁县| 宝坻区| 周口市| 洛南县| 阿巴嘎旗| 潢川县| 申扎县| 同德县| 高碑店市| 乐平市| 新巴尔虎左旗| 通州市| 霸州市|