高云偉 羅利民 薛鳳龍 劉洋 嚴(yán)昊 鄭雙進(jìn)
基金項(xiàng)目:中國(guó)石油化工股份有限公司石油工程技術(shù)研究院科研項(xiàng)目“基于機(jī)器學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)與施工參數(shù)優(yōu)化方法研究”(35800000-22-ZC0607-0033)。
高云偉,羅利民,薛鳳龍,等.基于Stacking集成學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法17-24,52
Gao Yunwei,Luo Limin,Xue Fenglong,et al.ROP prediction method based on stacking ensemble learning17-24,52
機(jī)械鉆速是評(píng)估石油天然氣鉆井作業(yè)效率的重要指標(biāo)。為準(zhǔn)確預(yù)測(cè)新疆工區(qū)某油田鉆井機(jī)械鉆速,基于該工區(qū)的歷史鉆井?dāng)?shù)據(jù),利用局部離群因子檢測(cè)算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,建立了基于Stacking集成學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)模型,該模型通過(guò)Stacking集成策略融合K近鄰算法(KNN)、支持向量機(jī)算法(SVM)和隨機(jī)森林算法(RF)進(jìn)行預(yù)測(cè)驗(yàn)證。預(yù)測(cè)驗(yàn)證結(jié)果顯示,分類準(zhǔn)確度不高。運(yùn)用遺傳算法進(jìn)行各基礎(chǔ)模型參數(shù)優(yōu)化。優(yōu)化后,基于KNN、SVM、RF及Stacking集成4種算法,預(yù)測(cè)機(jī)械鉆速準(zhǔn)確率分別為73.7%、78.9%、81.6%及97.4%,其中Stacking集成模型預(yù)測(cè)準(zhǔn)確率最高?;赟tacking集成學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法開(kāi)發(fā)了機(jī)械鉆速預(yù)測(cè)軟件,運(yùn)用軟件預(yù)測(cè)其他2套施工參數(shù)下的機(jī)械鉆速,結(jié)果表明,預(yù)測(cè)機(jī)械鉆速與實(shí)際機(jī)械鉆速一致,且性能穩(wěn)定,表明該模型擁有較強(qiáng)的泛化性和較高的預(yù)測(cè)精度。該智能算法可為新疆工區(qū)的該油田機(jī)械鉆速預(yù)測(cè)與鉆井施工參數(shù)優(yōu)化提供一種新手段。
機(jī)械鉆速;預(yù)測(cè)模型;Stacking集成學(xué)習(xí);機(jī)器學(xué)習(xí);施工參數(shù)優(yōu)化;預(yù)測(cè)驗(yàn)證
TE242
A
003
ROP Prediction Method Based on Stacking Ensemble Learning
Gao Yunwei1? Luo Limin1? Xue Fenglong1? Liu Yang2? Yan Hao3? Zheng Shuangjin3
(1.Shale gas Exploitation Technology Services Company,Sinopec Jianghan Oilfield Service Corporation;2.PetroChina Southwest Oil & Gas Field Company;3.School of Petroleum Engineering,Yangtze University)
Rate of penetration (ROP) is an important indicator to evaluate the petroleum drilling performance.To accurately predict the ROP at an oilfield in the Xinjiang work area,the historical drilling data from the area were processed using the local outlier factor (LOF) algorithm,and an ROP prediction model based on Stacking ensemble learning was established.The model integrated by Stacking strategy with the K-nearest neighbor (KNN),support vector machine (SVM) or random forest (RF) algorithm showed inaccurate classification in the verification.The genetic algorithm was then adopted to optimize the parameters of the basic models.The optimized models integrating KNN,SVM,RF and Stacking algorithms yielded the prediction results with accuracy of 73.7%,78.9%,81.6%,and 97.4%,respectively.Clearly,the Stacking-based model gets the highest accuracy.Thus,a software was developed using the Stacking-based model.It was applied to predict the ROP under two sets of parameters.The results show that the predicted ROP matches well with the actual ROP,and the software works stable.This proves the generalization and accuracy of the Stacking-based model.This intelligent algorithm has provided a new means to predict ROP and optimize drilling parameters at the oilfield of Xinjing work area.
ROP; prediction model;Stacking ensemble learning;machine learning;parameter optimization;forecast verification
0? 引? 言
高云偉,等:基于Stacking集成學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法
機(jī)械鉆速(Rate of Penetration,ROP)是評(píng)價(jià)鉆井作業(yè)效率的重要技術(shù)指標(biāo),預(yù)測(cè)機(jī)械鉆速可為鉆井決策與施工參數(shù)優(yōu)化提供依據(jù),從而達(dá)到降本增效的目的。針對(duì)機(jī)械鉆速預(yù)測(cè)的研究,國(guó)內(nèi)外學(xué)者主要基于傳統(tǒng)方法建立方程和機(jī)器學(xué)習(xí)2種方法來(lái)進(jìn)行。在基于傳統(tǒng)方法建立方程預(yù)測(cè)機(jī)械鉆速方面,A.BAHARI等[1]建立了W.C.MAURER方程,但考慮因素不夠全面;B.ADEBAYO等[2]建立了巖石特性、物理性質(zhì)與機(jī)械鉆速之間的經(jīng)驗(yàn)公式,但未考慮鉆井參數(shù)對(duì)機(jī)械鉆速的影響;李昌盛[3]基于多元回歸方法改進(jìn)了B-Y鉆速方程,使得不同地層的系數(shù)得以改變,但該方程只適用于鉆井液鉆井;S.KUMAR等[4]研究得到了較為準(zhǔn)確的機(jī)械鉆速預(yù)測(cè)模型,但模型參數(shù)受巖性影響較大,較為復(fù)雜;N.VAN HUNG等[5]總結(jié)出了針對(duì)旋轉(zhuǎn)沖擊鉆頭的機(jī)械鉆速預(yù)測(cè)模型,但模型主要適用于高硬度地層,適用性不夠廣泛。在運(yùn)用機(jī)器學(xué)習(xí)預(yù)測(cè)機(jī)械鉆速方面,景寧等[6]運(yùn)用層次分析法和前饋神經(jīng)網(wǎng)絡(luò)建立了機(jī)械鉆速預(yù)測(cè)模型;王文等[7]、劉勝娃等[8]基于神經(jīng)網(wǎng)絡(luò)算法建立了機(jī)械鉆速預(yù)測(cè)模型;C.HEGDE等[9]利用機(jī)器學(xué)習(xí)算法初步建立了機(jī)械鉆速預(yù)測(cè)模型,并使用隨機(jī)搜索法、粒子群算法、眼球法進(jìn)行了優(yōu)化完善;蘇興華等[10]利用K近鄰算法、支持向量機(jī)等4種機(jī)器學(xué)習(xí)算法建立了機(jī)械鉆速預(yù)測(cè)模型。
綜上分析發(fā)現(xiàn),目前機(jī)械鉆速預(yù)測(cè)主要依靠經(jīng)驗(yàn),或在前人已建立的方程上進(jìn)行改進(jìn),或是依靠控制變量等方法進(jìn)行試驗(yàn),以尋找影響機(jī)械鉆速的主控因素。在機(jī)器學(xué)習(xí)算法預(yù)測(cè)機(jī)械鉆速方面,目前大多使用單一模型,泛化性較差,難以完全滿足當(dāng)前鉆井施工需求。為此,本文建立了一種基于Stacking集成策略融合K近鄰算法、支持向量機(jī)算法和隨機(jī)森林算法的機(jī)械鉆速預(yù)測(cè)模型,并利用遺傳算法對(duì)各基礎(chǔ)模型進(jìn)行參數(shù)優(yōu)化。然后運(yùn)用新疆工區(qū)某油田的歷史鉆井?dāng)?shù)據(jù)進(jìn)行預(yù)測(cè)準(zhǔn)確性驗(yàn)證,以期為該油田機(jī)械鉆速預(yù)測(cè)與鉆井施工參數(shù)優(yōu)化提供一種新手段。
1? Stacking基礎(chǔ)模型算法
1.1? K近鄰算法
K近鄰算法[11-13] (K-Nearest Neighbor,KNN)是一種半監(jiān)督類機(jī)器學(xué)習(xí)算法,具有十分成熟的理論基礎(chǔ)和良好的使用穩(wěn)定性。該算法的核心是首先測(cè)量新樣本和訓(xùn)練數(shù)據(jù)集中已分類樣本之間的距離,再按照與新樣本最接近的K個(gè)鄰居的多數(shù)類別來(lái)對(duì)其分類。常用的距離計(jì)算方法有歐式距離、曼哈頓距離和余弦相似度。其中,n維空間中點(diǎn)A(a1,a2,…,an)和點(diǎn)B(b1,b2,…,bn)之間的歐式距離do、曼哈頓距離dm和余弦相似度cos β計(jì)算方法為:
do=(a1-b1)2+(a2-b2)2+…+(an-bn)2(1)
dm=a1-b1+a2-b2+…+an-bn(2)
cos β=A·BAB(3)
式中:an為A點(diǎn)n維坐標(biāo);bn為B點(diǎn)的n維坐標(biāo);A為A點(diǎn)的屬性向量;B為B點(diǎn)的屬性向量。
K近鄰算法基本流程如下:①利用歷史數(shù)據(jù)集建立一個(gè)容量較大的且具有一定代表性的數(shù)據(jù)庫(kù);②設(shè)置狀態(tài)向量;③計(jì)算出新?tīng)顟B(tài)向量和歷史數(shù)據(jù)狀態(tài)向量之間的距離;④確定近鄰個(gè)數(shù)K的取值;⑤確定近鄰權(quán)重;⑥通過(guò)對(duì)K個(gè)近鄰進(jìn)行加權(quán),從而得到該算法的預(yù)測(cè)值。
圖1為K近鄰算法示例圖。如圖1所示,“?”代表未知類別的樣本,“三角形”、“圓形”標(biāo)記為已知類別的樣本。圖1設(shè)定KNN算法的K為5,那
么該簇內(nèi)需要包含5個(gè)已知類別的樣本,然后進(jìn)行投票確定“?”所屬的類別。很明顯,圖1中“三角形”類別的數(shù)量大于“圓形”類別的數(shù)量,可以確定這個(gè)“?”為“三角形”類別。
1.2? 支持向量機(jī)算法
支持向量機(jī)算法[14-16](Support Vector Machine,SVM)的主要思想是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和統(tǒng)計(jì)學(xué)習(xí)理論中的VC維理論。SVM算法在解決小樣本、非線性回歸模型中表現(xiàn)出許多特有的優(yōu)勢(shì),在很大程度上克服了“維數(shù)災(zāi)難”和“過(guò)學(xué)習(xí)”等問(wèn)題,可用于離散因變量的分類和連續(xù)因變量的預(yù)測(cè)。
該算法的原理如圖2所示。圖2中三角形標(biāo)記為類別1,圓點(diǎn)標(biāo)記為類別2,在虛線上的標(biāo)記為“支持向量”。SVM利用核函數(shù)[17]將線性不可分問(wèn)題轉(zhuǎn)化為線性可分問(wèn)題;若遇線性不可分問(wèn)題,則需利用非線性變換。變換后劃分超平面的方程為:
fx=ωTφx+b(4)
式中:ω為法向量;b為位移項(xiàng);φ(x)為x的映射變換。
為使找到的超平面到不同類別之間的距離和最大,則需滿足:
minω,b12ω2
s.t.yiωTφx+b≥1? i=1,2,…,m(5)
利用二次規(guī)劃技術(shù),并進(jìn)一步引入核函數(shù)得到如下超平面方程:
fx=∑mi=1αiyikx,xi+b(6)
式中:αi為權(quán)重系數(shù); yi為真實(shí)值;k為核函數(shù);kx,xi表示x·xi;x為關(guān)于x的映射變換。
1.3? 隨機(jī)森林算法
隨機(jī)森林[18-20](Random Forest,RF)是集成學(xué)習(xí)算法之一,該算法組合了多棵決策樹(shù)。本文所選用的為CART決策樹(shù),構(gòu)建過(guò)程是假設(shè)訓(xùn)練集有N個(gè)樣本,每個(gè)樣本含有P個(gè)自變量和1個(gè)因變量。利用Bootstrap抽樣法,從訓(xùn)練集中有放回的抽取出N個(gè)樣本構(gòu)建單個(gè)CART決策樹(shù);然后從P個(gè)自變量里面選擇n個(gè)來(lái)作為建立決策樹(shù)的自變量;再根據(jù)基尼指數(shù)生長(zhǎng)出一棵未剪枝的CART決策樹(shù)。最后構(gòu)建多棵決策樹(shù),形成隨機(jī)森林。其算法原理如圖3所示。
由圖3可見(jiàn),該算法的核心思想是采用多棵決策樹(shù)的投票機(jī)制,完成分類和預(yù)測(cè)問(wèn)題的解決。對(duì)于回歸預(yù)測(cè)問(wèn)題,將多棵樹(shù)的回歸結(jié)果進(jìn)行平均得到最終結(jié)果;對(duì)于分類問(wèn)題,將多棵樹(shù)的判斷結(jié)果進(jìn)行投票,以少數(shù)服從多數(shù)得到最終的分類結(jié)果。
1.4? Stacking集成算法
Stacking集成算法[21-25]屬于集成學(xué)習(xí)中結(jié)合策略內(nèi)的一種算法。該算法需要多個(gè)學(xué)習(xí)器支撐其訓(xùn)練過(guò)程,這些學(xué)習(xí)器分為初級(jí)學(xué)習(xí)器和元學(xué)習(xí)器,前者訓(xùn)練個(gè)體數(shù)據(jù),后者訓(xùn)練集合數(shù)據(jù)。作為一種集成學(xué)習(xí)技術(shù),Staking算法將來(lái)自多個(gè)預(yù)測(cè)模型的信息進(jìn)行整合而形成新的模型,不同的算法用級(jí)聯(lián)的組合形式進(jìn)行組合。與單一的預(yù)測(cè)模型相比,Stacking集成學(xué)習(xí)具有更優(yōu)的性能。本文使用K近鄰算法、支持向量機(jī)算法和隨機(jī)森林算法作為Stacking集成學(xué)習(xí)中的初級(jí)學(xué)習(xí)器。Stacking算法的具體運(yùn)行原理如圖4所示。
由圖4可知,新的訓(xùn)練數(shù)據(jù)為基于初級(jí)模型訓(xùn)練得出。如果直接使用原始訓(xùn)練數(shù)據(jù)去訓(xùn)練元模型會(huì)產(chǎn)生過(guò)擬合,因此需要利用K折交叉驗(yàn)證法,用初級(jí)模型未使用的樣本來(lái)產(chǎn)生后續(xù)建立元模型所需要的訓(xùn)練數(shù)據(jù)。以5 折交叉驗(yàn)證為例,具體過(guò)程如下:首先將樣本劃分為訓(xùn)練集和測(cè)試集;然后對(duì)單個(gè)初級(jí)模型,將訓(xùn)練集隨機(jī)地平均分成5 份,每次使用其中的4 份數(shù)據(jù)去預(yù)測(cè)剩下的1 份數(shù)據(jù)。重復(fù)5 次后,將得到5 組預(yù)測(cè)結(jié)果,將這5 組預(yù)測(cè)結(jié)果合并,即為訓(xùn)練集的預(yù)測(cè)結(jié)果集合,這個(gè)預(yù)測(cè)結(jié)果集合即為次級(jí)分類器的訓(xùn)練集。同時(shí),每一次預(yù)測(cè)時(shí),也將測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果平均,作為次級(jí)分類器的測(cè)試集。最后將各個(gè)初級(jí)模型的結(jié)果組合起來(lái),通過(guò)元模型進(jìn)一步學(xué)習(xí)得到最終預(yù)測(cè)結(jié)果。
該訓(xùn)練過(guò)程的特點(diǎn)是,Stacking算法集合了第一階段中各個(gè)初級(jí)模型通過(guò)訓(xùn)練得到的特征,吸收了不同模型在分類預(yù)測(cè)中的優(yōu)點(diǎn),得到的分類效果對(duì)比單一分類模型都要好。同時(shí)通過(guò)K折交叉驗(yàn)證方法,有效避免模型出現(xiàn)過(guò)擬合,進(jìn)而提升由 Stacking 集成學(xué)習(xí)得到的組合模型的泛化能力。
基于上述過(guò)程,利用基于Stacking集成學(xué)習(xí)預(yù)測(cè)機(jī)械鉆速的主要步驟如下。①對(duì)鉆井區(qū)塊的原始數(shù)據(jù)進(jìn)行清洗和歸一化處理,再將歸一化處理后的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。②將訓(xùn)練集劃分為K份,對(duì)各個(gè)初級(jí)學(xué)習(xí)器采用K折交叉驗(yàn)證法進(jìn)行交叉驗(yàn)證;每次進(jìn)行交叉驗(yàn)證時(shí)均用1份作為模型的驗(yàn)證集,剩下的(K-1)份作為模型的訓(xùn)練集。每次進(jìn)行交叉驗(yàn)證結(jié)束后,利用經(jīng)過(guò)訓(xùn)練后的學(xué)習(xí)器對(duì)測(cè)試集和驗(yàn)證集進(jìn)行預(yù)測(cè)。③將單個(gè)初級(jí)學(xué)習(xí)器進(jìn)行K次交叉驗(yàn)證后得到的每個(gè)驗(yàn)證集的預(yù)測(cè)值整合為矩陣M,將測(cè)試集的K份預(yù)測(cè)值按行平均得到矩陣Q。④第一部分初級(jí)學(xué)習(xí)器訓(xùn)練完成后可得到訓(xùn)練集輸出特征矩陣(M1,M2,…,Mn),將此矩陣作為第二部分訓(xùn)練元學(xué)習(xí)器的訓(xùn)練集。⑤第二部分訓(xùn)練元學(xué)習(xí)器完成訓(xùn)練后,將矩陣(Q1,Q2,…,Qn)作為測(cè)試集,最終輸出模型的預(yù)測(cè)值。
Stacking集成學(xué)習(xí)作為一種模型融合算法,在很多實(shí)際問(wèn)題應(yīng)用中能夠取得相較于單一算法或者其他簡(jiǎn)單集成學(xué)習(xí)算法更優(yōu)的表現(xiàn),尤其在分類問(wèn)題的處理上更是優(yōu)勢(shì)明顯。目前該算法已廣泛應(yīng)用于分類、識(shí)別、預(yù)測(cè)等問(wèn)題中[22]。
2? 模型建立
2.1? 數(shù)據(jù)預(yù)處理
這里所使用的建模數(shù)據(jù)均來(lái)自于新疆工區(qū)某油田鉆井施工原始測(cè)井?dāng)?shù)據(jù)。數(shù)據(jù)共400組。原始數(shù)據(jù)包含牙齒磨損量、鉆壓、轉(zhuǎn)速、鉆井液排量、密度、漏斗黏度、鉆頭壓降、鉆頭直徑、機(jī)械鉆速等特征。由于現(xiàn)場(chǎng)傳感器老化以及人工操作等問(wèn)題,原始數(shù)據(jù)庫(kù)中部分?jǐn)?shù)據(jù)存在噪聲或異常,需要剔除這部分?jǐn)?shù)據(jù)。
這里采用了局部離群點(diǎn)檢測(cè)算法(Local Outlier Factor,LOF)進(jìn)行數(shù)據(jù)預(yù)處理。該算法是一種基于密度的無(wú)監(jiān)督高精度離群點(diǎn)檢測(cè)方法,與傳統(tǒng)的基于統(tǒng)計(jì)方法的離群點(diǎn)檢測(cè)算法不同,局部離群因子檢測(cè)算法不需要數(shù)據(jù)集服從特定的概率分布。此外,該算法還可以通過(guò)控制異常程度的閾值來(lái)控制離群點(diǎn)的數(shù)量。
局部離群點(diǎn)檢測(cè)算法最核心的方法是關(guān)于數(shù)據(jù)點(diǎn)密度的計(jì)算,其原理如下:
(1)計(jì)算點(diǎn)p到o的距離d(p,o)以及點(diǎn)p的第k距離dk(p)=d(p,o),滿足在數(shù)據(jù)集中至少有不包括p在內(nèi)的k個(gè)點(diǎn)o′,有d(p,o′)≤d(p,o)成立;在數(shù)據(jù)集中最多有不包括p在內(nèi)的k-1個(gè)點(diǎn)o′,有d(p,o′)<d(p,o)成立。
(2)計(jì)算第k距離鄰域。該計(jì)算方法與K近鄰算法的鄰域計(jì)算類似,定義Nk(p)為點(diǎn)p的第k距離鄰域,滿足:
Nk(p)=o′∈Cx≠p|d(p,o′)<dk(p)(7)
(3)計(jì)算可達(dá)距離,即點(diǎn)o到點(diǎn)p的第k可達(dá)距離見(jiàn)式(7),其至少是點(diǎn)p的第k距離:
Lk(p,o)=maxL(o),d(p,o)(8)
式中:Lk(p,o)表示點(diǎn)o到點(diǎn)p的第k可達(dá)距離;L(o)表示點(diǎn)p的第k距離;d(p,o)表示點(diǎn)p到點(diǎn)o的距離。
(4)計(jì)算局部可達(dá)密度,即點(diǎn)p的局部離群因子見(jiàn)式(8),表示點(diǎn)p的第k鄰域內(nèi)點(diǎn)到p的可達(dá)距離的倒數(shù):
ρk(p)=Nk(p)∑o∈Nk(p)Lk(p,o)(9)
式中:ρk(p)為點(diǎn)p的局部可達(dá)密度;Nk(p)為點(diǎn)p的第k距離鄰域。
(5)計(jì)算局部離群因子,即點(diǎn)p的局部離群因子計(jì)算見(jiàn)式(9)。如果Fk(p)接近于1,說(shuō)明p與近鄰點(diǎn)的密度相差不大,p與鄰域內(nèi)點(diǎn)屬同一類型;若Fk(p)小于1說(shuō)明p的密度比其鄰域密度高,則p為密集點(diǎn);若Fk(p)大于1說(shuō)明p密度比鄰域密度低,則p為異常點(diǎn)。Fk(p)計(jì)算式為:
Fk(p)=∑o∈Nk(p)ρk(o)ρk(p)Nk(p)(10)
式中:Fk(p)為點(diǎn)p的局部離群因子;ρk(o)為點(diǎn)o的局部可達(dá)密度。
局部離群點(diǎn)檢測(cè)算法通過(guò)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的K近鄰,并得到該點(diǎn)的局部離群因子,通過(guò)設(shè)定閾值,篩選出局部離群因子大于閾值的點(diǎn),判定這些點(diǎn)為離群點(diǎn)。
利用Python中的Sklearn工具實(shí)現(xiàn)局部離群點(diǎn)檢測(cè)算法,去除了原始數(shù)據(jù)中20組離群數(shù)據(jù)。為避免原始數(shù)據(jù)集的量綱和高維度影響預(yù)測(cè)結(jié)果,將處理后的380組原始數(shù)據(jù)使用標(biāo)準(zhǔn)化方法中的max-min方法進(jìn)行處理。max-min方法為:
x′i=xi-xminxmax-xmin(11)
式中:x′i為歸一化后的數(shù)據(jù);xi為歸一化前的原始樣本數(shù)據(jù);xmin為原始樣本數(shù)據(jù)特征值的最小值;xmax為原始樣本數(shù)據(jù)特征值的最大值。
2.2? 機(jī)械鉆速分級(jí)
通過(guò)分析該油田的機(jī)械鉆速數(shù)據(jù),由于鉆頭尺寸不同,機(jī)械鉆速之間差異較大。根據(jù)現(xiàn)場(chǎng)經(jīng)驗(yàn)將不同尺寸鉆頭的機(jī)械鉆速分為3個(gè)等級(jí):低鉆速、中鉆速和高鉆速。鉆速分級(jí)令機(jī)械鉆速的數(shù)值大小不受鉆頭尺寸制約,且將建模任務(wù)從回歸問(wèn)題轉(zhuǎn)化為分類問(wèn)題,在提高模型預(yù)測(cè)精度的同時(shí)還有利于現(xiàn)場(chǎng)人員了解鉆進(jìn)狀態(tài)。該油田機(jī)械鉆速分級(jí)標(biāo)準(zhǔn)如表1所示。
2.3? 建立預(yù)測(cè)模型
為避免該預(yù)測(cè)模型出現(xiàn)泛化能力不足的問(wèn)題,并保證預(yù)測(cè)結(jié)果的準(zhǔn)確性和穩(wěn)定性,將預(yù)處理后的380組數(shù)據(jù)按照9∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中342個(gè)訓(xùn)練樣本用于構(gòu)建模型,38個(gè)測(cè)試樣本用于評(píng)價(jià)模型。
利用Python中的Sklearn工具實(shí)現(xiàn)K近鄰算法、支持向量機(jī)算法和隨機(jī)森林算法,利用自編程序?qū)崿F(xiàn)Stacking算法。以樣本數(shù)據(jù)中的鉆頭入井新度、鉆頭出井新度、牙齒磨損量、鉆壓、轉(zhuǎn)速、鉆井液排量、密度、漏斗黏度、鉆頭壓降、鉆頭直徑為輸入量,以機(jī)械鉆速級(jí)別為輸出量,基于K近鄰算法、SVM算法、隨機(jī)森林算法和Stacking算法建立默認(rèn)參數(shù)的機(jī)械鉆速預(yù)測(cè)模型。各模型的默認(rèn)參數(shù)如下:KNN近鄰樣本數(shù)K為5,近鄰樣本投票權(quán)重相同,距離標(biāo)準(zhǔn)采用歐式距離;SVM的懲罰系數(shù)C取1,核函數(shù)g取0.1,核函數(shù)采用高斯核函數(shù);隨機(jī)森林算法設(shè)置決策樹(shù)數(shù)量為200,葉節(jié)點(diǎn)最小樣本量為1,不限制樹(shù)的最大深度。構(gòu)建Stacking集成學(xué)習(xí)模型整體分為2個(gè)階段:首先,利用Stacking算法訓(xùn)練數(shù)據(jù)集訓(xùn)練初級(jí)學(xué)習(xí)器(初級(jí)模型);然后,基于初級(jí)學(xué)習(xí)器生成新的訓(xùn)練數(shù)據(jù)集訓(xùn)練元學(xué)習(xí)器(元模型)。其中,K近鄰算法、SVM算法、隨機(jī)森林算法作為初級(jí)學(xué)習(xí)器,CART決策樹(shù)算法作為元學(xué)習(xí)器,不對(duì)決策樹(shù)最大深度做限制,葉節(jié)點(diǎn)最小樣本量為1,根、中間節(jié)點(diǎn)能分割的最小樣本量為2。
考慮該問(wèn)題屬于分類問(wèn)題,采用準(zhǔn)確率作為模型分類準(zhǔn)確度的評(píng)價(jià)方法,具體思路為:分類準(zhǔn)確度=分類準(zhǔn)確組數(shù)/預(yù)測(cè)總組數(shù)。該次預(yù)測(cè)總組數(shù)為定值38組,默認(rèn)模型預(yù)測(cè)結(jié)果如表2~表5所示。其中“低鉆速為1,中鉆速為2,高鉆速為3”。表6為K近鄰模型、SVM模型、隨機(jī)森模型、Stacking集成學(xué)習(xí)模型預(yù)測(cè)機(jī)械鉆速準(zhǔn)確率的結(jié)果。
由表2~表6可見(jiàn):KNN、SVM、隨機(jī)森林、Stacking集成模型預(yù)測(cè)機(jī)械鉆速的分類準(zhǔn)確度均不高;雖然Stacking集成模型的分類預(yù)測(cè)準(zhǔn)確度最高,但仍然只有81.6%。因此,需要對(duì)各算法參數(shù)進(jìn)行優(yōu)化,以提高模型的分類預(yù)測(cè)精度。
2.4? 優(yōu)化模型參數(shù)
遺傳算法[26-28](Genetic Algorithm,GA)是一種基于自然界遺傳機(jī)制和生物進(jìn)化論的高效隨機(jī)搜索和優(yōu)化的方法。此種算法是在求解過(guò)程中模擬生物界的進(jìn)化機(jī)制,通過(guò)染色體的選擇、交叉、變異操作,進(jìn)而求取最優(yōu)解。其核心是通過(guò)適應(yīng)度函數(shù)評(píng)估個(gè)體的優(yōu)劣,對(duì)于優(yōu)勢(shì)個(gè)體,在下一代種群中占據(jù)更高的占比。遺傳算法相較于傳統(tǒng)優(yōu)化算法具有很強(qiáng)的魯棒性。除此之外,全局搜索特性和隱含并行性也是其2大優(yōu)勢(shì)。
遺傳算法優(yōu)化步驟如下:①確定輸入、輸出變量,通過(guò)編碼(本文采取二進(jìn)制編碼)將最優(yōu)解問(wèn)題轉(zhuǎn)化為種群繁衍問(wèn)題;②隨機(jī)產(chǎn)生個(gè)體,設(shè)置種群;③確定適應(yīng)度函數(shù);④進(jìn)行選擇、交叉、變異操作;⑤計(jì)算適應(yīng)度值并進(jìn)行淘汰;⑥滿足迭代停止條件則得到最優(yōu)解,否則繼續(xù)進(jìn)行步驟④~⑥的操作。
對(duì)遺傳算法的參數(shù)進(jìn)行設(shè)置,具體如下:種群數(shù)量為150,繁衍最大代數(shù)為70,染色體長(zhǎng)度為100,交叉概率為0.85,變異概率為0.01,適應(yīng)度函數(shù)選用絕對(duì)誤差。優(yōu)化后的KNN近鄰樣本數(shù)K為30,近鄰樣本投票權(quán)重與距離成反比,距離標(biāo)準(zhǔn)采用曼哈頓距離;優(yōu)化后的SVM懲罰系數(shù)為12,采用高斯核函數(shù),核函數(shù)參數(shù)為0.1;優(yōu)化后的RF的決策樹(shù)數(shù)量為500,決策樹(shù)最大深度為7,葉節(jié)點(diǎn)最小樣本數(shù)為2。
將優(yōu)化后的模型參數(shù)輸入對(duì)應(yīng)模型,將全部?jī)?yōu)化后的參數(shù)利用Stacking集成算法進(jìn)行融合,利用38組測(cè)試數(shù)據(jù)驗(yàn)證優(yōu)化后模型的精度和泛化性,各優(yōu)化后模型預(yù)測(cè)結(jié)果如表7~表11所示。
由表7~表11可知,經(jīng)遺傳算法優(yōu)化后各模型的準(zhǔn)確率均得到了提升,其中Stacking集成學(xué)習(xí)模型的分類預(yù)測(cè)準(zhǔn)確率可達(dá)97.4%。由此可認(rèn)為Stacking集成學(xué)習(xí)模型最適合于預(yù)測(cè)新疆油田機(jī)械鉆速,為該油田機(jī)械鉆速預(yù)測(cè)與鉆井施工參數(shù)優(yōu)化提供了一種新方法。如若其他區(qū)塊或油田需要應(yīng)用該方法預(yù)測(cè)機(jī)械鉆速,可根據(jù)2.2節(jié)中方法,對(duì)該區(qū)塊的歷史施工數(shù)據(jù)進(jìn)行提取和預(yù)處理后,再根據(jù)本區(qū)塊經(jīng)驗(yàn)對(duì)機(jī)械鉆速進(jìn)行分級(jí),以此獲取建立該區(qū)塊Stacking機(jī)械鉆速分級(jí)預(yù)測(cè)模型所需的原始數(shù)據(jù)。同時(shí)可以直接利用1.4節(jié)的思路構(gòu)建Stacking模型,或利用當(dāng)前泛化性和預(yù)測(cè)精度高的算法替換Stacking模型中的初級(jí)學(xué)習(xí)器或元學(xué)習(xí)器,以此獲得更好的Stacking模型。
3? 現(xiàn)場(chǎng)驗(yàn)證
基于遺傳算法優(yōu)化后的Stacking集成學(xué)習(xí)模型編寫(xiě)機(jī)械鉆速預(yù)測(cè)軟件,輸入新疆工區(qū)某油田深井段施工參數(shù):鉆頭入井新度100%,鉆頭出井新度50%,鉆頭牙齒磨損量50%,鉆壓80 kN,轉(zhuǎn)速30 r/min,鉆頭壓降0.53 MPa,鉆頭直徑215.9 mm,鉆井液密度1.6 g/cm3,鉆井液循環(huán)排量24 L/s,鉆井液漏斗黏度57s。
軟件計(jì)算結(jié)果:該施工參數(shù)下機(jī)械鉆速等級(jí)預(yù)測(cè)為“1-低轉(zhuǎn)速,鉆速小于4 m/h”,同理可得另外2套施工參數(shù)下的機(jī)械鉆速預(yù)測(cè)數(shù)據(jù),所得如表12所示。
由表12可知,運(yùn)用Stacking集成模型預(yù)測(cè)所得的該油田機(jī)械鉆速與實(shí)際機(jī)械鉆速一致,表明該模型具有較強(qiáng)的泛化性和預(yù)測(cè)精度,驗(yàn)證了基于Stacking集成學(xué)習(xí)的機(jī)械鉆速預(yù)測(cè)方法可用于預(yù)測(cè)該油田機(jī)械鉆速等級(jí)與范圍?,F(xiàn)場(chǎng)作業(yè)人員可基于預(yù)測(cè)結(jié)果調(diào)整施工參數(shù),動(dòng)態(tài)優(yōu)化鉆井施工方案,可以提高該油田機(jī)械鉆速與鉆井施工效益。
4? 結(jié)? 論
(1)基于KNN、SVM、RF、Stacking集成學(xué)習(xí)4種算法分別建立了機(jī)械鉆速預(yù)測(cè)模型,針對(duì)新疆工區(qū)某油田的歷史鉆井?dāng)?shù)據(jù)進(jìn)行預(yù)測(cè),準(zhǔn)確率分別為63.2%、73.7%、76.3%、81.6%,上述集成模型的分類準(zhǔn)確度均不高,基礎(chǔ)模型準(zhǔn)確率需要進(jìn)一步優(yōu)化。
(2)利用遺傳算法對(duì)各模型的參數(shù)進(jìn)行優(yōu)化后,基于KNN、SVM、RF、Stacking集成4種算法預(yù)測(cè)機(jī)械鉆速準(zhǔn)確率分別為73.7%、78.9%、81.6%、97.4%,相比優(yōu)化前準(zhǔn)確率均有所提升,其中Stacking集成模型預(yù)測(cè)準(zhǔn)確率最高。
(3)基于遺傳算法優(yōu)化的Stacking集成學(xué)習(xí)模型編寫(xiě)了機(jī)械鉆速預(yù)測(cè)軟件,利用不屬于原數(shù)據(jù)集的新數(shù)據(jù)驗(yàn)證模型精度。在3組全新數(shù)據(jù)預(yù)測(cè)中,新模型的分類結(jié)果全部準(zhǔn)確,說(shuō)明該模型具有較強(qiáng)的泛化性和準(zhǔn)確度。該方法可用于新疆工區(qū)某油田機(jī)械鉆速預(yù)測(cè)與鉆井施工參數(shù)優(yōu)化。
[1]
BAHARI A,SEYED A B.Trust-region approach to find constants of bourgoyne and young penetration rate model in khangiran iranian gas field[C]∥Latin American & Caribbean Petroleum Engineering Conference.Buenos Aires: SPE,2007: SPE 107520-MS.
[2]? ADEBAYO B,AKANDE J M.Textural properties of rock for penetration rate prediction[J].Daffodil International University Journal of Science and Technology,2011,6(1): 1-8.
[3]? 李昌盛.基于多元回歸分析的鉆速預(yù)測(cè)方法研究[J].科學(xué)技術(shù)與工程,2013,13(7):1740-1744.
LI C S.Study of method for predict rate of penetration based of multiple regression analysis[J].Science Technology and Engineering,2013,13(7): 1740-1744.
[4]? KUMAR S,MURTHY V M S R.Experimental studies on drill penetration rate prediction in coal measure rocks through Cerchar hardness index tests[J].Journal of Mines Metals and Fuels,2014,62(4): 88-95.
[5]? VAN HUNG N,GERBAUD L,SOUCHAL R,et al.Penetration rate prediction for percussive drilling with rotary in very hard rock[J].Vietnam Journal of Science and Technology,2016,54(1): 133-149.
[6]? 景寧,樊洪海,紀(jì)榮藝,等.基于數(shù)據(jù)挖掘技術(shù)的深井鉆速預(yù)測(cè)方法研究[J].石油機(jī)械,2012,40(7):17-20.
JING N,F(xiàn)AN H H,JI R Y,et al.Data mining technology-based research on the prediction method of deepwell ROP[J].China Petroleum Machinery,2012,40(7): 17-20.
[7]? 王文,劉小剛,竇蓬,等.基于神經(jīng)網(wǎng)絡(luò)的深層機(jī)械鉆速預(yù)測(cè)方法[J].石油鉆采工藝,2018,40(增刊1):121-124.
WANG W,LIU X G,DOU P,et al.A ROP prediction method based on neutral network for the deep layers[J].Oil Drilling & Production Technology,2018,40(S1): 121-124.
[8]? 劉勝娃,孫俊明,高翔,等.基于人工神經(jīng)網(wǎng)絡(luò)的鉆井機(jī)械鉆速預(yù)測(cè)模型的分析與建立[J].計(jì)算機(jī)科學(xué),2019,46(增刊1):605-608.
LIU S W,SUN J M,GAO X,et al.Analysis and establishment of drilling speed prediction model for drilling machinery based on artificial neural networks[J].Computer Science,2019,46(S1): 605-608.
[9]? HEGDE C,DAIGLE H,GRAY K E.Performance comparison of algorithms for real-time rate-of-penetration optimization in drilling using data-driven models[J].SPE Journal,2018,23(5): 1706-1722.
[10]? 蘇興華,孫俊明,高翔,等.基于GBDT算法的鉆井機(jī)械鉆速預(yù)測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(12):87-92.
SU X H,SUN J M,GAO X,et al.Prediction method of drilling rate of penetration based on GBDT algorithm[J].Computer Applications and Software,2019,36(12): 87-92.
[11]? COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1): 21-27.
[12]? 張著英,黃玉龍,王翰虎.一個(gè)高效的KNN分類算法[J].計(jì)算機(jī)科學(xué),2008,35(3):170-172.
ZHANG Z Y,HUANG Y L,WANG H H.A new KNN classification approach[J].Computer Science,2008,35(3): 170-172.
[13]? 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計(jì)算機(jī)工程,2005,31(8):171-172,185.
ZHANG N,JIA Z Y,SHI Z Z.Text categorization with KNN algorithm[J].Computer Engineering,2005,31(8): 171-172,185.
[14]? 丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):1-10.
DING S F,QI B J,TAN H Y.An overview on theory and algorithm of support vector machines[J].Journal of University of Electronic Science and Technology of China,2011,40(1): 1-10.
[15]? 張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32-42.
ZHANG X G.Introduction to statistical learning theory and support vector machines[J].Acta Automatica Sinica,2000,26(1): 32-42.
[16]? 祁亨年.支持向量機(jī)及其應(yīng)用研究綜述[J].計(jì)算機(jī)工程,2004,30(10):6-9.
QI H N.Support vector machines and application research overview[J].Computer Engineering,2004,30(10): 6-9.
[17]? 奉國(guó)和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):123-124,128.
FENG G H.Parameter optimizing for support vector machines classification[J].Computer Engineering and Applications,2011,47(3): 123-124,128.
[18]? HO T K.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8): 832-844.
[19]? LOH W Y.Regression tress with unbiased variable selection and interaction detection[J].Statistica Sinica,2002,12(2): 361-386.
[20]? BREIMAN L.Random forests[J].Machine Learning,2001,45(1): 5-32.
[21]? 李珩,朱靖波,姚天順.基于Stacking算法的組合分類器及其應(yīng)用于中文組塊分析[J].計(jì)算機(jī)研究與發(fā)展,2005,42(5):844-848.
LI H,ZHU J B,YAO T S.Combined multiple classifiers based on a stacking algorithm and their application to Chinese text chunking[J].Journal of Computer Research and Development,2005,42(5): 844-848.
[22]? 徐慧麗.Stacking算法的研究及改進(jìn)[D].廣州:華南理工大學(xué),2018.
XU H L.The study and improvement of stacking[D].Guangzhou: South China University of Technology,2018.
[23]? 周星,丁立新,萬(wàn)潤(rùn)澤,等.分類器集成算法研究[J].武漢大學(xué)學(xué)報(bào)(理學(xué)版),2015,61(6):503-508.
ZHOU X,DING L X,WAN R Z,et al.Research on classifier ensemble algorithms[J].Journal of Wuhan University (Natural Science Edition),2015,61(6): 503-508.
[24]? 李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學(xué)報(bào),2010,24(5):56-61.
LI S S,HUANG J R.Chinese sentiment classification based on Stacking combination method[J].Journal of Chinese Information Processing,2010,24(5): 56-61.
[25]? 鞏俊芬.基于優(yōu)化融合Stacking算法的貸款決策模型研究[D].臨汾:山西師范大學(xué),2019.
GONG J F.The study of loan-decision model based on optimized and fusion stacking algorithm[D].Linfen: Shanxi Normal University,2019.
[26]? HOLLAND J H.Adaptation in natural and artificial systems[M].Ann Arbor: University of Michigan Press,1975: 390-401.
[27]? 邊霞,米良.遺傳算法理論及其應(yīng)用研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2010,27(7):2425-2429,2434.
BIAN X,MI L.Development on genetic algorithm theory and its applications[J].Application Research of Computers,2010,27(7): 2425-2429,2434.
[28]? 吉根林.遺傳算法研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(2):69-73.
JI G L.Survey on genetic algorithm[J].Computer Applications and Software,2004,21(2): 69-73.
第一高云偉,高級(jí)工程師,生于1984年,2016年畢業(yè)于長(zhǎng)江大學(xué)石油與天然氣工程專業(yè),獲碩士學(xué)位,現(xiàn)從事石油天然氣鉆井及測(cè)試技術(shù)的研究與管理工作。地址:(430074)湖北省武漢市。電話:(027)59805701。email:Gaoyunwei.osjh@sinopec.com。
通信作者:鄭雙進(jìn),email:Zhengshuangjin@yangtzeu.edu.cn。
2023-11-28
宋治國(guó)