国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合特征選擇算法的鉆速預(yù)測(cè)模型研究

2022-07-18 08:03:08周長(zhǎng)春朱海燕李之軍魯柳利
鉆探工程 2022年4期
關(guān)鍵詞:鉆速機(jī)械鉆速特征選擇

周長(zhǎng)春,姜 杰,李 謙,朱海燕,李之軍,魯柳利

(1.成都理工大學(xué)環(huán)境與土木工程學(xué)院,四川 成都 610059;2.成都理工大學(xué)機(jī)電工程學(xué)院,四川 成都 610059;3.成都理工大學(xué)能源學(xué)院,四川 成都 610059;4.成都工業(yè)學(xué)院大數(shù)據(jù)與人工智能學(xué)院,四川 成都 611730)

0 引言

我國(guó)能源生產(chǎn)重點(diǎn)方向正在向超深層發(fā)展,隨著鉆井的深度增加,鉆頭進(jìn)入更加復(fù)雜的地層,會(huì)使施工難度加大、鉆井速度減慢、成本升高。在國(guó)內(nèi)外的研究中,機(jī)械鉆速一直是作為鉆井作業(yè)整體水平的直觀反映,準(zhǔn)確預(yù)測(cè)機(jī)械鉆速可以有效計(jì)算鉆井成本和鉆井時(shí)間,從而優(yōu)化鉆井參數(shù)、合理安排鉆機(jī)工作人員,并為鉆井設(shè)計(jì)人員提供依據(jù)[1]。

傳統(tǒng)的鉆速預(yù)測(cè)研究中,一些研究人員考慮巖性、豎井直徑和轉(zhuǎn)速等作為主要因素,通過(guò)對(duì)多元化回歸的分析,獲得鉆速方程[2]。還有一些研究人員制作模擬和動(dòng)態(tài)模型,通過(guò)試驗(yàn)?zāi)M鉆探時(shí)的沖擊強(qiáng)度來(lái)調(diào)整及預(yù)測(cè)鉆速[1]。隨著大數(shù)據(jù)及計(jì)算機(jī)技術(shù)的發(fā)展及其被應(yīng)用到油氣行業(yè),采用機(jī)器學(xué)習(xí)技術(shù)對(duì)機(jī)械鉆速進(jìn)行預(yù)測(cè)已成為智能鉆井行業(yè)研究的有 效 方 法 和 重 要 手 段[3]。如Amer 等[4]將 鉆 壓、轉(zhuǎn)速、排量、扭矩、泵量、泥漿密度和立管壓力作為輸入?yún)?shù)輸入到基于人工神經(jīng)網(wǎng)絡(luò)的鉆速預(yù)測(cè)模型。趙穎等[5]以南海YL8-3-1 井為例,使用井眼深度、鉆壓、大鉤位置、扭矩、出入口鉆井液密度和溫度等基于極限學(xué)習(xí)機(jī)建立了海上鉆井機(jī)械鉆速預(yù)測(cè)模型。對(duì)于特征選擇方法的研究方面:李莉等[6]在特征選擇階段采用核主成分分析剔除源項(xiàng)目中的冗余數(shù)據(jù)的方法進(jìn)行建模,結(jié)果表明所選擇特征會(huì)使得建模精度有一定的提高。周翔等[7]提出了大數(shù)據(jù)環(huán)境下的投票特征選擇算法可以有效解決特征選擇問(wèn)題??滴暮赖龋?]提出了一種雙層特征選擇法進(jìn)行特征選擇,其結(jié)果是所選特征使得預(yù)測(cè)模型有較好的擬合效果。此外,針對(duì)機(jī)械鉆速預(yù)測(cè)研究,Dupriest 等[9]強(qiáng)調(diào)了特征選擇在建模過(guò)程中的重要性。Shi 等[10]通過(guò)對(duì)鉆頭鉆進(jìn)機(jī)制進(jìn)行研究確定了包括表面測(cè)量、鉆頭特性、水力學(xué)變量和地層特性等10 個(gè)參數(shù)作為人工神經(jīng)網(wǎng)絡(luò)模型輸入進(jìn)行了研究。

綜上,很多研究通過(guò)優(yōu)化智能算法來(lái)提升模型精度,亦有很多研究者對(duì)大數(shù)據(jù)中特征選擇方法進(jìn)行了研究,然而專門針對(duì)機(jī)械鉆速預(yù)測(cè)來(lái)完成特征選擇部分的智能方法研究卻相對(duì)較少。在進(jìn)行鉆速預(yù)測(cè)研究時(shí),海量的鉆井參數(shù)會(huì)耗費(fèi)大量的計(jì)算資源和時(shí)間,且不易得到理想的模型精度,故亟需針對(duì)機(jī)械鉆速特征選擇進(jìn)行專門研究。因此,本文提出一種融合特征選擇法進(jìn)行參數(shù)優(yōu)選,再選用梯度提升樹(shù)(Gradient Boosting Decision Tree,GBDT)算法進(jìn)行鉆速預(yù)測(cè),并針對(duì)參數(shù)優(yōu)選結(jié)果與預(yù)測(cè)精度設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證。

1 基于融合特征選擇鉆速預(yù)測(cè)模型總體架構(gòu)設(shè)計(jì)

本文先對(duì)采集到的數(shù)據(jù)進(jìn)行整合預(yù)處理,然后基于設(shè)計(jì)的融合特征選擇算法進(jìn)行特征優(yōu)選,最后針對(duì)特征優(yōu)選結(jié)果建立GBDT 鉆速預(yù)測(cè)模型并設(shè)計(jì)對(duì)比試驗(yàn)進(jìn)行驗(yàn)證,如圖1 所示。

圖1 融合特征選擇算法鉆速預(yù)測(cè)模型研究Fig.1 Research on ROP prediction model with fusion feature selection algorithm

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)采集

令鉆井參數(shù)數(shù)量為n,井深為D,不同的鉆井參數(shù)采集時(shí)最大密度為d,則整合后的數(shù)據(jù)矩陣為一個(gè)D/d行×n列矩陣[11]。在本文所使用的南海某井眼鉆井?dāng)?shù)據(jù)共5 大類43 種不同的參數(shù)共3967 條,表1 所示為參數(shù)縮寫信息和參數(shù)分類信息。

表1 參數(shù)信息Table 1 Parameter information

2.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗就是指利用數(shù)據(jù)分析將采集到的“臟數(shù)據(jù)”轉(zhuǎn)化為符合要求的數(shù)據(jù)[12-13]。對(duì)于鉆井“臟數(shù)據(jù)”的清洗過(guò)程包括異常值的檢測(cè)、刪除以及缺失數(shù)據(jù)的插值補(bǔ)全。觀察采集到的3697 條原始數(shù)據(jù),發(fā)現(xiàn)前面的967 條數(shù)據(jù)中有大量參數(shù)未采集到,因此判定為無(wú)效數(shù)據(jù),采用刪除策略后剩余3000 條數(shù)據(jù)。由于所采集數(shù)據(jù)缺失部分為離散值,因此采用k 近鄰填補(bǔ)法(KNN),即計(jì)算歐幾里得空間中每個(gè)樣本點(diǎn)與被填補(bǔ)點(diǎn)的距離,選出k 個(gè)距離最近的樣本點(diǎn)的類別,采用投票法決定填補(bǔ)值,距離計(jì)算采用歐式距離,計(jì)算式如式(1)所示[14]。

式中:d——?dú)W式距離;N——N維空間;xi1——第1個(gè)點(diǎn)的第i維坐標(biāo);xi2——第2 個(gè)點(diǎn)的i維坐標(biāo)。

2.3 數(shù)據(jù)標(biāo)準(zhǔn)化處理

補(bǔ)齊數(shù)據(jù)之后,由于參數(shù)數(shù)據(jù)間較大的量綱差距會(huì)給后續(xù)的機(jī)器學(xué)習(xí)建模的模型性能造成隱患,因此需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理來(lái)縮小量綱差距,其計(jì)算式如式(2)所示[15]。

式中:xnew——完成標(biāo)準(zhǔn)化的數(shù)據(jù);xold——標(biāo)準(zhǔn)化前的原始數(shù)據(jù);μ——平均值;σxlist——原始數(shù)據(jù)同一變量所有數(shù)據(jù)標(biāo)準(zhǔn)差。

以鉆壓和鉆井液出口溫度為例,標(biāo)準(zhǔn)化處理之后效果展示如圖2 所示。

圖2 標(biāo)準(zhǔn)化處理前后對(duì)比Fig.2 Comparison before and after standardization

3 融合特征選擇算法設(shè)計(jì)

3.1 相關(guān)性分析

相關(guān)性分析的主要目的在于判定輸入與輸出變量之間的相關(guān)性以指導(dǎo)建模時(shí)下一步該采取何種操作,本文采用皮爾遜相關(guān)系數(shù)計(jì)算方法對(duì)所選變量進(jìn)行相關(guān)性分析,篩選出高相關(guān)性參數(shù)組作為特征選擇工作的第一步,計(jì)算方法如式(3)所示[16]。

式中:ρa(bǔ)b——a、b變量之間的相關(guān)性;cov(a,b)——變量a、b的協(xié)方差矩陣;σa、σb——變量a,b各自的標(biāo)準(zhǔn)差;ai、bi——變量a、b數(shù)據(jù)集中第i個(gè)變量值;aˉ、bˉ——變 量a、b平 均 值;n——變 量a、b的 數(shù) 據(jù) 集大小。

ρa(bǔ)b的取值在區(qū)間[-1,1]上,取值為正時(shí),表示兩個(gè)參數(shù)之間呈現(xiàn)正的相關(guān)性,反之則表示兩個(gè)參數(shù)呈負(fù)相關(guān)性,ρa(bǔ)b的絕對(duì)值越靠近1,說(shuō)明a、b之間的相關(guān)性越高,越靠近0,則說(shuō)明兩個(gè)變量之間的相關(guān)性越低,計(jì)算表1 中鉆速ROP 參數(shù)與除鉆速之外的所有其他參數(shù)之間的相關(guān)性,計(jì)算結(jié)果如圖3、圖4 所示。

圖3 低、中相關(guān)性參數(shù)組Fig.3 Low and medium correlation parameter groups

圖4 高相關(guān)性參數(shù)組Fig.4 High correlation parameter group

對(duì)計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì),可按照皮爾遜相關(guān)性系數(shù)將除鉆速之外的其他參數(shù)與鉆速的相關(guān)性分為高相關(guān)性、中相關(guān)性和低相關(guān)性3 類[16]。

(1)高相關(guān)性參數(shù):總共有24 種,占所有參數(shù)的55.81%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于[0.6,0.81]區(qū)間內(nèi)。

(2)中相關(guān)性參數(shù):總共有15 種,占所有參數(shù)的34.88%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均位于[0.1,0.6]區(qū)間內(nèi)。

(3)低相關(guān)性參數(shù):總共有3 種,占所有參數(shù)的9.31%,該類參數(shù)與鉆速的相關(guān)性系數(shù)計(jì)算結(jié)果的絕對(duì)值均小于0.1。

從相關(guān)性系數(shù)計(jì)算結(jié)果可以看到傳統(tǒng)經(jīng)驗(yàn)中如巖性等參數(shù)的相關(guān)性系數(shù)取值較低,這是因?yàn)槠栠d相關(guān)性分析對(duì)線性相關(guān)的參數(shù)更為敏感,更容易選出線性關(guān)系更明顯的特征,因此傳統(tǒng)鉆速研究中非線性相關(guān)的參數(shù)相關(guān)性系數(shù)值會(huì)相對(duì)較低。

3.2 方差過(guò)濾

在機(jī)器學(xué)習(xí)建模過(guò)程中,引入的參數(shù)相關(guān)性越高,建立高精度機(jī)器學(xué)習(xí)預(yù)測(cè)模型所需要的參數(shù)數(shù)量越少[17]。因此,使用方差過(guò)濾法選擇少量的包含更多信息量的參數(shù),以提升模型的效率和精度。其原理是對(duì)于離散型特征,對(duì)方差進(jìn)行計(jì)算,然后按計(jì)算結(jié)果保留貢獻(xiàn)較大的特征。其操作步驟是先對(duì)離散型特征參數(shù)進(jìn)行方差計(jì)算,觀察計(jì)算結(jié)果發(fā)現(xiàn),特征方差以巖性(TYP)為界呈明顯的兩級(jí)分布,因此以TYP 方差2.6157 為閾值,選擇方差大于和等于閾值的特征,方差計(jì)算結(jié)果如表2 所示。

表2 離散型參數(shù)方差Table 2 Discrete parameter variance

3.3 互信息法

離散型特征選擇結(jié)束之后,用互信息法從30 個(gè)連續(xù)型參數(shù)中選出特征量相對(duì)較少且互信息估量較高的參數(shù)組,互信息定義如式(4)所示,其估計(jì)量取值區(qū)間位于[0,1],其值越大,表明變量與標(biāo)簽之間的相關(guān)性越大[18]。

式 中:p(x,y)——X與Y的 聯(lián) 合 概 率 分 布;p(x)、p(y)——邊緣概率分布。

操作步驟是先對(duì)30 個(gè)連續(xù)型特征進(jìn)行離散化處理,然后計(jì)算出每一個(gè)參數(shù)的互信息估計(jì)量并排序,計(jì)算結(jié)果如表3 所示,最后利用前向搜索策略結(jié)合模型后驗(yàn)法,即依次向模型輸入特征,每輸入一個(gè)特征對(duì)模型進(jìn)行一次評(píng)價(jià),當(dāng)模型性能提升時(shí)則選擇當(dāng)前特征,當(dāng)模型性能下降則過(guò)濾掉特征。前向搜索過(guò)程如圖5 所示,圖中折線上三角點(diǎn)對(duì)應(yīng)參數(shù)為互信息法結(jié)合前向搜索策略選擇特征參數(shù),其余點(diǎn)對(duì)應(yīng)參數(shù)為被過(guò)濾參數(shù)。

表3 互信息量估計(jì)量Table 3 Mutual information estimator

圖5 基于前向搜索的互信息特征篩選Fig.5 Mutual information feature screening based on forward search

3.4 融合特征選擇算法步驟及評(píng)價(jià)

融合皮爾遜相關(guān)性分析法、方差過(guò)濾法和互信息法進(jìn)行特征選擇,其操作步驟如圖6 所示。

圖6 特征選擇過(guò)程示意Fig.6 Schematic diagram of the feature selection process

操作可分為4 步:

(1)對(duì)經(jīng)清洗之后的數(shù)據(jù)進(jìn)行皮爾遜相關(guān)性計(jì)算,按照皮爾遜相關(guān)性原理將所有特征參數(shù)劃分為高相關(guān)性參數(shù)組、中相關(guān)性參數(shù)組和低相關(guān)性參數(shù)組,然后選擇與鉆速具有高相關(guān)性的高相關(guān)性參數(shù)組作為特征選擇的融合算法的第一步選擇;

(2)將所有特征參數(shù)中的離散類型參數(shù)按照方差過(guò)濾法原理進(jìn)行方差過(guò)濾,然后選擇方差值高的特征參數(shù)作為特征選擇的融合算法的第二步選擇;

(3)將所有特征參數(shù)中連續(xù)類型參數(shù)按照互信息法計(jì)算原理進(jìn)行互信息估計(jì)量計(jì)算并按互信息估量值的大小進(jìn)行排序,然后使用前向搜索策略結(jié)合模型驗(yàn)證來(lái)進(jìn)一步進(jìn)行特征篩選。

(4)將通過(guò)相關(guān)性過(guò)濾結(jié)果的參數(shù)組分別與方差過(guò)濾結(jié)果參數(shù)組和互信息過(guò)濾參數(shù)組結(jié)果分別取交集,最后將2 個(gè)交集參數(shù)組取并集作為特征選擇的融合算法的最終選擇結(jié)果,它們與鉆速的相關(guān)性系數(shù)、方差及互信息量如表4 所示。

表4 融合特征選擇算法特征選擇結(jié)果Table 4 Feature selection results with fusion feature selection algorithm

在設(shè)計(jì)的融合特征選擇算法中,利用皮爾遜相關(guān)性系數(shù)方法和方差過(guò)濾方法能夠有效去除數(shù)據(jù)中的無(wú)關(guān)特征,使得模型的輸入?yún)?shù)間會(huì)存在較大耦合。因此進(jìn)行的第三步操作:將互信息法與前向搜索策略結(jié)合能夠有效剔除部分相互耦合的特征。

4 基于融合特征選擇結(jié)果的GBDT 鉆速預(yù)測(cè)模型

4.1 GBDT 算法模型介紹

GBDT 算法屬于集成學(xué)習(xí)算法的一種,它融合了裝袋法(Bagging)與提升法(Boosting)的思想,由Firedman 在2001 年提出,既可用來(lái)解決分類問(wèn)題,也可用來(lái)解決回歸問(wèn)題[19]。GBDT 算法由多個(gè)基學(xué)習(xí)器f(x)、殘差構(gòu)成的損失函數(shù)L(x,y)以及加法集成策略H(x)構(gòu)成,其原理如圖7 所示,為方便展示,圖中用虛線框表示多個(gè)基學(xué)習(xí)器及其預(yù)測(cè)結(jié)果。

圖7 GBDT 算法原理示意Fig.7 Schematic diagram of GBDT algorithm principle

GBDT 算法的基學(xué)習(xí)器由決策樹(shù)組成,單棵決策樹(shù)的結(jié)構(gòu)越復(fù)雜,GBDT 算法的整體復(fù)雜度也會(huì)更高,使得計(jì)算緩慢且易過(guò)擬合。

選擇平方誤差(squared_error)作為GBDT 算法的損失函數(shù),因?yàn)榇撕瘮?shù)一階導(dǎo)數(shù)連續(xù),易于被優(yōu)化,是一個(gè)魯棒的損失函數(shù),式(6)為其計(jì)算表達(dá)式:

式中:L[yi,f(xi)]——損失函數(shù);yi、f(xi)——分別為每個(gè)樣本(xi,yi)的真實(shí)值和擬合值。

在此基礎(chǔ)上,將損失值的負(fù)梯度作為殘差估計(jì)值,利用梯度提升技術(shù)對(duì)殘差進(jìn)行擬合:

式中:Rik——?dú)埐罟烙?jì)值;k——第k(k=1,2,……K)次迭代。

GBDT 算法對(duì)基學(xué)習(xí)器進(jìn)行集成時(shí)遵循的原則是依據(jù)上一個(gè)基學(xué)習(xí)器fk-1(x)的結(jié)果,計(jì)算損失函數(shù)L(yi,f(xi)),并使用損失函數(shù)自適應(yīng)的影響下一個(gè)基學(xué)習(xí)器fk(x)的構(gòu)建,集成模型的輸出結(jié)果。其操作步驟是先確定每個(gè)葉節(jié)點(diǎn)區(qū)域?qū)?yīng)損失函數(shù)最小化的最佳擬合值εik,然后更新學(xué)習(xí)器fk(x),最終構(gòu)建GBDT 模型如式(8)所示[19]。

式中:η——學(xué)習(xí)率;Cik(i=1,2,……I)——得到的第k棵樹(shù)的葉節(jié)點(diǎn)區(qū)域;εik——每個(gè)葉子點(diǎn)區(qū)域確定使對(duì)應(yīng)損失函數(shù)最小化的最佳擬合值;H(x)——GBDT 模型最終擬合結(jié)果。

4.2 模型設(shè)計(jì)

導(dǎo)入經(jīng)融合特征選擇算法所確定的特征參數(shù)進(jìn)行機(jī)器學(xué)習(xí)建模,采用10 折交叉驗(yàn)證法降低模型過(guò)擬合風(fēng)險(xiǎn),使用決定系數(shù)(R2)、均方根誤差(RMSE)和相對(duì)誤差(MAPE)等指標(biāo)對(duì)模型進(jìn)行評(píng)估,部分?jǐn)?shù)據(jù)展示如表5 所示。

表5 模型輸入部分?jǐn)?shù)據(jù)Table 5 Some model input data

4.2.1 10 折交叉驗(yàn)證

將數(shù)據(jù)集等比例劃分成10 份,以其中的一份作為測(cè)試數(shù)據(jù),其余9 份作為訓(xùn)練數(shù)據(jù),每次試驗(yàn)選取不同的測(cè)試集,剩下的作為訓(xùn)練集,重復(fù)進(jìn)行10 次試驗(yàn),最后把10 次測(cè)試集得分平均作為最終得分,其原理如圖8 所示[20]。

圖8 10 折交叉驗(yàn)證原理示意Fig.8 Schematic diagram of the 10-fold cross-validation principle

4.2.2 模型評(píng)估

4.2.2.1 決定系數(shù)(R2)

決定系數(shù)是指回歸直線對(duì)觀測(cè)值的擬合程度,R2越接近1,表明擬合程度越好[20]。其計(jì)算式為:

式 中:yi——真 實(shí) 值;——真 實(shí) 平 均 值;?——預(yù)測(cè)值。

4.2.2.2 均方根誤差(RMSE)和相對(duì)誤差(MAPE)

均方根誤差是預(yù)測(cè)值與真實(shí)值偏差的平方和的均值的平方根,其計(jì)算式如式(10)所示;相對(duì)誤差是指誤差與真實(shí)值的百分比,其計(jì)算式如式(11)所示,它能夠表示預(yù)測(cè)值的可信程度[20]。二者均能表示預(yù)測(cè)值與真實(shí)值的偏離程度,其取值越接近于0,表示模型的性能越好,預(yù)測(cè)精度越高。

10 次試驗(yàn)的評(píng)分如表6 所示,R2最高能達(dá)到0.88 的預(yù)測(cè)精度,平均達(dá)到0.85 的精度。從誤差的角度來(lái)看,平均均方根誤差為4.57,平均相對(duì)誤差為16%,表明模型預(yù)測(cè)精度較好,預(yù)測(cè)偏差較小,能夠在一定程度上對(duì)機(jī)械鉆速進(jìn)行準(zhǔn)確預(yù)測(cè)。

表6 GBDT 模型下10 折交叉驗(yàn)證試驗(yàn)R2Table 6 10-fold cross-validation test R2 under GBDT model

為了展示預(yù)測(cè)結(jié)果與真實(shí)值的擬合關(guān)系,提取出10 次測(cè)試集的預(yù)測(cè)值繪制回歸直線擬合關(guān)系圖,如圖9 所示。此時(shí)R2為0.85,RMSE和MAPE分別為4.57 和16%,可以觀察到所有的數(shù)據(jù)都分布在擬合線的周圍,表明模型有不錯(cuò)的預(yù)測(cè)精度。

圖9 GBDT 預(yù)測(cè)真實(shí)值擬合關(guān)系Fig.9 Fitting relationship between GBDT predictions and true values

取10 折交叉驗(yàn)證時(shí)劃分為10 部分?jǐn)?shù)據(jù)中的第1 部分和第2 部分測(cè)試集的預(yù)測(cè)值和真實(shí)值對(duì)比,繪制GBDT 模型預(yù)測(cè)值和真實(shí)值的關(guān)系圖(圖10),可以看到鉆速預(yù)測(cè)值與真實(shí)值吻合,同樣表明模型的擬合效果較好。

圖10 鉆速預(yù)測(cè)值與真實(shí)值對(duì)比Fig.10 Comparison between the predicted ROP and the actual ROP

4.3 對(duì)比試驗(yàn)

為驗(yàn)證融合特征選擇算法在預(yù)測(cè)性能上的優(yōu)勢(shì)以及GBDT 模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)算法模型的優(yōu)勢(shì),建立全特征GBDT 模型,并與特征選擇結(jié)果的常用機(jī)器學(xué)習(xí)算法模型進(jìn)行對(duì)比試驗(yàn)。

4.3.1 全特征模型

選擇所有特征,使用10 折交叉驗(yàn)證法,建立GBDT 模型,通過(guò)比較模型在測(cè)試集上的各評(píng)估指標(biāo),發(fā)現(xiàn)使用全部特征作為模型輸入時(shí),模型在測(cè)試集上的泛化能力R2得分為0.83,RMSE和MAPE得分分別為4.81 和19%,融合特征選擇結(jié)果建模與之相比,R2提升了2%,而RMSE和MAPE分別降低了0.24 和3%,如表7 所示。圖11 為每個(gè)測(cè)試集的3個(gè)模型評(píng)估指標(biāo)得分,可見(jiàn)經(jīng)過(guò)特征選擇得分均優(yōu)于由全部特征所建立的模型,表明融合特征選擇算法能為提高模型精度做出貢獻(xiàn)。

表7 模型評(píng)估指標(biāo)Table 7 Model evaluation metrics

圖11 全特征模型與特征選擇模型測(cè)試集得分對(duì)比Fig.11 Comparison of test set scores between the full feature model and the feature selection model

4.3.2 傳統(tǒng)機(jī)器學(xué)習(xí)模型

選擇適用于高維特征計(jì)算的支持向量回歸、人工神經(jīng)網(wǎng)絡(luò)中具有代表性的BP 神經(jīng)網(wǎng)絡(luò)回歸、適用于處理線性關(guān)系的線性回歸以及樹(shù)模型的基礎(chǔ)決策樹(shù)回歸算法結(jié)合10 折交叉驗(yàn)證進(jìn)行對(duì)比試驗(yàn),各模型平均得分如表8 所示,與GBDT 模型相比,GBDT 模型的R2分別比支持向量回歸、BP 神經(jīng)網(wǎng)絡(luò)回歸、線性回歸和決策樹(shù)回歸高22%、18%、16%和7%,RMSE分別低了2.44、2.01、1.92 和0.85,MAPE分別低了17%、14%、13%和1%。

表8 不同機(jī)器學(xué)習(xí)算法模型評(píng)估平均得分Table 8 Average evaluation scores of different machine learning algorithm models

10 個(gè)測(cè)試集各模型評(píng)估指標(biāo)對(duì)比如圖12 所示。試驗(yàn)結(jié)果表明,與常用機(jī)器學(xué)習(xí)算法相比,GBDT算法模型的R2均高于常用算法模型且RMSE和MAPE均低于常用算法模型,說(shuō)明在此井眼中,GBDT 模型對(duì)機(jī)械鉆速的擬合效果更好,在測(cè)試集上具有更好的泛化性能。

圖12 GBDT 模型與常見(jiàn)機(jī)器學(xué)習(xí)算法模型測(cè)試集對(duì)比Fig.12 Comparison of the test sets between the GBDT model and the common machine learning algorithm model

5 結(jié)論

準(zhǔn)確的機(jī)械鉆速預(yù)測(cè)是提高鉆進(jìn)效率、降低鉆井成本的重要手段。本文以南海某井眼鉆井?dāng)?shù)據(jù)為例,融合相關(guān)性分析、方差過(guò)濾、互信息法并結(jié)合前向搜索策略進(jìn)行特征選擇,然后建立GBDT 模型對(duì)機(jī)械鉆速進(jìn)行預(yù)測(cè),主要結(jié)論如下:

(1)針對(duì)鉆速預(yù)測(cè)機(jī)器學(xué)習(xí)建模之前特征的選擇,本文提出的融合特征選擇算法能夠準(zhǔn)確地從大量特征參數(shù)中選擇出對(duì)模型貢獻(xiàn)最大的參數(shù),從而降低特征空間的維度,與使用全部特征所建立的模型相比,經(jīng)過(guò)融合特征選擇算法選擇的特征參數(shù)所建立的模型的精度優(yōu)于使用全部特征所建模型的精度,表明融合特征選擇算法能夠?yàn)闄C(jī)械鉆速準(zhǔn)確預(yù)測(cè)選擇出合適的參數(shù),且該算法能夠?yàn)橹悄茔@井機(jī)械鉆速預(yù)測(cè)提供科學(xué)依據(jù)。

(2)本文所建立的梯度提升回歸樹(shù)模型在測(cè)試集上能夠達(dá)到85%的精度,即表明模型有較好的泛化性能,能夠較好地?cái)M合機(jī)械鉆速,與常用的機(jī)器學(xué)習(xí)算法相比,GBDT 算法模型的決定系數(shù)R2均高于常用算法模型,且均方根誤差RMSE和相對(duì)誤差MAPE均低于常用算法模型,表明GBDT 模型預(yù)測(cè)性能比傳統(tǒng)機(jī)器學(xué)習(xí)模型更具優(yōu)勢(shì),也說(shuō)明GBDT模型在未知數(shù)據(jù)上具有更好的泛化能力。

(3)本文所融合的多種特征選擇方法能夠有效剔除數(shù)據(jù)中的無(wú)關(guān)特征,但并不能解決參數(shù)間的耦合問(wèn)題,因此本文在融合的方法中結(jié)合了前向搜索策略,能夠在一定程度上減少參數(shù)間的耦合。不足之處在于該算法側(cè)重于對(duì)具有物理意義的參數(shù)進(jìn)行選擇,因此并沒(méi)有針對(duì)最終的特征選擇結(jié)果進(jìn)行特征信息研究,將來(lái)的研究中可對(duì)此進(jìn)一步優(yōu)化。

猜你喜歡
鉆速機(jī)械鉆速特征選擇
基于機(jī)械鉆速的地層孔隙壓力隨鉆監(jiān)測(cè)方法
螺桿鉆具提速技術(shù)研究
石油研究(2020年1期)2020-05-22 12:51:40
AWOBA-NW井施工分析
淺析提高中深井鉆速的方法
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
營(yíng)11區(qū)塊井眼清潔技術(shù)
控壓鉆井技術(shù)在元壩16井的應(yīng)用
影響鉆井過(guò)程中機(jī)械鉆速的原因分析
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
濮阳市| 正镶白旗| 虹口区| 时尚| 新闻| 都匀市| 黎川县| 河间市| 大方县| 岢岚县| 泌阳县| 蒙自县| 阿拉尔市| 阜新| 汝阳县| 汉寿县| 小金县| 易门县| 吴旗县| 富顺县| 石门县| 莆田市| 吴桥县| 汶川县| 郯城县| 濉溪县| 玛曲县| 资源县| 吉安市| 东海县| 绥德县| 乌海市| 平阴县| 绿春县| 榆社县| 天水市| 尉氏县| 永春县| 临安市| 阜城县| 财经|