LUU Quang Hung,LAU Man Fai,NG Sebastian P.H.,TING Clement P.W.,WEE Reuben,THEN Patrick H.H.
(1.斯威本科技大學科學、工程與技術系,霍桑 3122,澳大利亞;2.斯威本科技大學工程、計算與科學系,砂拉越 93350,馬來西亞;3.IDS公司,砂拉越 93100,馬來西亞)
可靠地預測鉆井周期是油氣勘探開發(fā)規(guī)劃中的一項重要工作[1]。目前在預測和優(yōu)化鉆井周期時,主要的關注點集中在鉆速模擬方面。有研究者對傳統(tǒng)的鉆速模型[2-8]進行了改進,引入了一些重要的變量來描述鉆井過程,將這種改進后的模型稱為半經驗模型,其中的變量經過多次回歸后可得到預測函數(shù)。近年來,利用各種鉆井數(shù)據(jù),結合計算資源,現(xiàn)代鉆速模型的應用越來越廣泛[9]。這些模型大多數(shù)都是數(shù)據(jù)驅動的,可通過應用各種統(tǒng)計方法和機器學習技術(如人工神經網絡(ANN)技術[10-12]、隨機森林算法[11,13]、支持向量機方法[13])得到。
雖然鉆速模擬是評估鉆井效率的重要方法,但總鉆井周期不是只由鉆速決定。先前的研究[14-15]指出,提高瞬時鉆速和平均鉆速不一定能降低鉆井成本。這是因為鉆井施工包括多個過程,從鉆機動員、為更換磨損鉆頭起出井底鉆具組合、下套管和固井到解決偶然事件,其中許多過程都不會直接影響鉆速??傘@井周期也受到非生產因素的影響,如鉆井設備失效、井下落物打撈時間比預期時間長、遭遇惡劣天氣等。在整個鉆井施工過程中,非生產時間可能會持續(xù)多日,與機械鉆井所花費的生產時間相當。因此,建立鉆井周期預測模型有利于更好地制定鉆井計劃。
鉆井周期預測模型可使用確定性方法或概率法得到。在確定性方法中,根據(jù)各鉆井要素之間的關系可以確立一個鉆井周期預測模型,對總鉆井周期[16-18]或某個鉆井階段(如換鉆頭)的周期[19-20]進行多次回歸分析。隨著機器學習技術的發(fā)展,這種方法取得了一些進展。例如,Ardekani等[19]針對更換鉆頭的過程開發(fā)了人工神經網絡模型,比伊朗南部油田取樣回歸的結果更加準確。概率法則把預測目標按照可能性而不是一個數(shù)字來考慮。這是因為實際的鉆井過程是不確定的,受到各種非確定因素的影響。概率法不僅可以綜合考慮鉆井活動不確定性的影響,還可以量化風險,從而優(yōu)化鉆井成本[21-22]。因此,在過去的20多年里,概率法成為了鉆井施工設計中的常用方法[23-24]。McIntosh[21]根據(jù)樣本數(shù)據(jù)對各個鉆井階段的周期進行了概率分析,并認為對這些概率值進行排序可以找出對總鉆井周期影響較大的作業(yè)活動。Akins等[22]得到了一套相對綜合的采用概率法預測鉆井周期的實踐方法。Loberg等[23]和 Merlo等[24]開發(fā)了商業(yè)軟件包,有利于鉆井工程師量化鉆井風險并得到相應的鉆井周期和鉆井成本。采用北海中部118口井的數(shù)據(jù),Adams等[25]對各種影響因素進行分類,描述了鉆井周期的概率分布。之后,Adams等[26]又添加了93口井的數(shù)據(jù),對概率分布進一步細化。這些概率模型的主要局限性在于,它們僅依據(jù)單變量概率密度函數(shù)。由于多變量概率密度函數(shù)被過度簡化為單變量概率密度函數(shù),忽略了一些因素(如垂深和鉆深)的影響,結果會出現(xiàn)一定偏差。
因此,本文提出采用多變量概率密度函數(shù)對鉆井周期進行描述,建立多變量概率模型來預測鉆井周期。一方面,在概率模型中引入了更多的鉆井變量,可提高預測結果的精確度。另一方面,某些特定事件已經發(fā)生后,可以得到條件概率,更好地量化可預測性。本文重點關注主要鉆井階段即導管段、表層套管段、技術套管段、生產套管段的總施工周期,因為總鉆井周期就取決于這幾個鉆井階段的總施工周期。在多變量分析中,采用目標層深度來模擬鉆井階段,采用垂直深度來模擬下套管和固井階段。初步分析表明,這些深度與每個鉆井階段所需的周期具有高度的相關性。
本文首先根據(jù)自適應核密度估計法建立了每個鉆井階段周期的理論模型,采用蒙特卡洛模擬法建立了整個鉆井作業(yè)總周期的理論模型,并進行了算例分析。然后建立了無事故鉆井周期的概率模型,并對模型進行了驗證,討論了總鉆井周期與無事故周期之間的差異以及將模擬數(shù)據(jù)用于機器學習模型訓練的可行性。
首先,采用自適應核密度估計法得到各鉆井階段的多變量概率密度函數(shù),預測考慮鉆井深度和其他參數(shù)的鉆井周期概率分布。然后,結合不同鉆井階段的概率密度值,采用蒙特卡洛模擬法得到整個鉆井作業(yè)總周期的預測模型。
有兩個或兩個以上變量即為多變量概率密度函數(shù)。本文采用Bernacchia和Pigolotti提出的自適應核密度估計法[27]得到了多變量概率密度函數(shù)。這種方法的優(yōu)點是可以得到具有高收斂性的最優(yōu)化的核函數(shù)和帶寬(bin)。采用 O’Brien等[28]的研究方法(名為fastKDE),在大量數(shù)據(jù)的基礎上快速高效地得到概率密度函數(shù)的預測值。
給出一組數(shù)據(jù),具有n個數(shù)據(jù)點p1,p2,…,pn,設多變量概率密度函數(shù)為f。其中,核密度估計模型是二元的,設鉆井周期為t,深度為d,深度是與每個鉆井周期有關的參數(shù)。數(shù)據(jù)集pj(j=1,2,…,n)里的每個數(shù)據(jù)可以用坐標(tj,dj)來表示。也可以在核密度估計模型中加入更多變量來代表更多元的分布。本文求取的概率密度函數(shù)是光滑變量p的函數(shù),它與離散數(shù)據(jù)點p1,p2,…,pn之間的關系可通過引入核函數(shù)K來得到:
顯然,為了通過一組離散數(shù)據(jù)來得到概率密度函數(shù),必須確定核函數(shù)K。Bernacchia和Pigolotti提出的自適應核密度估計法[27]采用了傅里葉變換,可將數(shù)據(jù)坐標(t,d)有效地轉化為可描述分布的頻域 u,反之亦然。其中,傅里葉變換的逆變換定義為:
核函數(shù)的傅里葉變換為:
其中,E(u)是經驗特征函數(shù),定義為:
每個鉆井階段都可以根據(jù)概率密度函數(shù)來預測。然而,在大量數(shù)據(jù)缺失的情況下,很難對整個鉆井作業(yè)進行有效的預測。假設想要估計包含所有主要鉆井階段的一個完整的鉆井作業(yè)的總鉆井周期,如果只有5%的施工作業(yè)包含所有鉆井階段,那就意味著必須忽略其他 95%的施工作業(yè)里的數(shù)據(jù)信息。當完整的施工作業(yè)數(shù)量不足時,由于僅采用了少量的樣本,預測結果就會有所偏差。
采用馬爾科夫鏈蒙特卡洛法(MCMC),可以利用每個鉆井階段的概率密度函數(shù)來得到采樣數(shù)據(jù),因此可以有效便捷地評估與整個施工作業(yè)有關的風險。利用馬爾科夫鏈蒙特卡洛法來評估鉆井作業(yè)的不確定性的方法并不是新提出的[29]。Peterson等[30]模擬了開支授權(AFE)的風險,然而僅采用了少量數(shù)據(jù)(27口井)且假設輸入數(shù)據(jù)符合大量的特殊分布:正態(tài)分布、伽馬分布、對數(shù)正態(tài)分布和指數(shù)分布,因此結果并不是很可靠。
本文采用吉布斯采樣法,根據(jù)馬爾科夫鏈蒙特卡洛法由多變量概率密度函數(shù)得到一系列數(shù)據(jù)。吉布斯采樣法是眾所周知的 Metropolis-Hastings采樣法的一種特殊情況,由于Metropolis-Hastings采樣法對跳躍函數(shù)的選取很敏感,對于多變量的情況吉布斯采樣法更實用。采用吉布斯采樣法得到m個鉆井階段的r個模擬結果的過程如下。
③從 1到 m,對所有的鉆井階段重復第②步,就得到包含m個階段的一個蒙特卡洛模擬結果。
對于變量超過兩個的情況,上述過程同樣適用。需要注意的是,在這種情況下,對于每一步從條件概率中得到樣本的過程,第②步中變量的順序是隨機選取的。
筆者的行業(yè)合作伙伴是一個馬來西亞公司,該公司為很多鉆井公司提供數(shù)據(jù)管理服務。本文采用了該公司數(shù)據(jù)庫(見表1)中192次鉆井作業(yè)的數(shù)據(jù)集。每次鉆井作業(yè)的數(shù)據(jù)集中都包括每次鉆井作業(yè)中各階段的順序、每個鉆井階段的周期、深度等。典型鉆井施工井身結構示意圖如圖1所示,由于本文重點對8個主要鉆井階段進行分析,其他鉆井階段的數(shù)據(jù)就從數(shù)據(jù)集里剔除了。將這8個鉆井階段分成了4組,詳見下文。
圖1 典型鉆井施工井身結構示意圖
表1 按照不同分類對414次鉆井作業(yè)的鉆井數(shù)據(jù)匯總
導眼或導眼孔的主要目的是在最初的鉆井過程中提供一個可靠的結構基礎來保證井、井口和作業(yè)設備的穩(wěn)定性。鉆井開始后,導眼將鉆井液從井筒返排到鉆機。導眼鉆進的過程一般需要0.35 d(見表2),約8.4 h。下一個作業(yè)就是下導管,即采用打樁機將套管用水泥固定在海床上。導管非常厚(厚度大于3 cm),非常短,在61~66 cm的井眼中,導管直徑可達47~51 cm[31]。下導管作業(yè)平均需要 0.78 d(見表 2),約18.7 h。下導管周期與深度之間的相關系數(shù)很小,為0.18,可能是由于到目前為止一直還沒有直井鉆井。
下導管后就是表層套管段鉆進,主要是鉆井鉆到表土層后向更深層鉆井時需要進行的操作,通常會受到松軟地層和地下水滲入井眼的影響。鉆一個直徑約45 cm的表層套管段井眼,平均花費1.9 d(見表2),有時要花14 d左右。下一個階段就是下表層套管,目的是將井筒中的設備和流體與周圍環(huán)境隔離開??紤]到固井,標準的套管直徑較?。s34 cm)。下表層套管平均需要1.55 d(見表2)。表層套管段鉆井周期與深度之間的皮爾森相關系數(shù)高達 0.80,說明本文方法可以預測出鉆至目標深度所需的時間。
表2 數(shù)據(jù)集中選出的192次鉆井作業(yè)的統(tǒng)計數(shù)據(jù)
在鉆井作業(yè)中用時最長的就是技術套管段鉆進,平均要花5.2 d(見表2)。由于受到各種復雜因素的影響,如海床的地質特征、井筒性質、設備類型和操作以及各種意料之外的技術和非技術事故都會對鉆井周期造成影響,精細地模擬技術套管段鉆進時間是非常困難的。表2所示的數(shù)據(jù)集中的數(shù)據(jù)也證明了這一點,鉆井周期的方差很大。一旦鉆井完成,下技術套管階段平均只需要2.4 d就可以完成(見表2)。一般技術套管段井眼和套管直徑分別為31,24 cm[31]。
為了到達目標油層,需要進行生產套管段鉆進,平均需要3.7 d(見表2)。在生產套管段鉆進中會出現(xiàn)更多的技術問題,最長可能需要 2個星期。目標層下生產套管可以封閉產層,為下一步采油提供基礎。一般生產套管段井眼和套管直徑分別為22,18 cm。下套管平均用時1.8 d(見表2)。由于成本和技術問題,深井中生產套管也可能偶爾換成生產尾管。
為了建立無事故建井周期的概率模型系統(tǒng),在重建概率密度函數(shù)和進行馬爾科夫鏈蒙特卡洛模擬時,提出了行業(yè)中常用的兩個假設:①假設實測數(shù)據(jù)點數(shù)量足以準確完整地代表某個鉆井階段的實際分布;②假設每個鉆井階段周期的預測是一個隨機的過程,包括輸入數(shù)據(jù)和輸出數(shù)據(jù)的固有隨機性,而且每個鉆井階段都是獨立的隨機過程,與其他鉆井階段之間沒有相關性。
對于不同的鉆井階段,即導眼鉆進、表層套管段鉆進、技術套管段鉆進、生產套管段鉆進、下導管、下表層套管、下技術套管和下生產套管,采用Bernacchia和 Pigolotti提出的自適應核密度估計法[27]可以得到鉆井周期與深度的聯(lián)合概率分布,如圖 2所示。圖 2中這些階段的特征總結如下:①所有鉆井階段的施工周期都是多個橢圓區(qū)域的疊加,在每個橢圓區(qū)域中數(shù)據(jù)分布都是從邊緣向中心越來越密集;②幾乎所有的鉆井階段主要橢圓的主軸都在水平方向上被不均勻或不平行地拉長;③CH、SH、PH、SC和 PC階段的橢圓向對角線方向傾斜(見圖2a、圖2b、圖2d、圖2f和圖2h中的黃色和綠色部分),這幾個階段鉆井周期與深度的皮爾森相關系數(shù)較高(0.35~0.80)。按照圖 2中的分布,可以根據(jù)已知深度預測得到鉆井周期的條件概率,反之也可以根據(jù)鉆井周期預測得到深度的條件概率。
圖2 8個鉆井階段無事故鉆井周期與深度的聯(lián)合概率分布
本文主要關注對鉆井周期(時間)的預測,圖 3是隨深度變化的無事故鉆井周期條件概率的空間分布。圖3中水平線表示采樣深度,針對這一深度(將在圖4中使用)計算建井周期的一維條件概率。圖3表征了在不同深度下鉆井周期不同的可能性,但實際上鉆井周期隨著深度的變化成比例地變化。這與直觀感覺一致,即井越深,鉆井、下套管和固井所需的時間就越長。
圖3 8個鉆井階段隨深度變化的無事故鉆井周期條件概率的空間分布(水平的白色條狀區(qū)表示從傅里葉變換中剔除的低概率區(qū))
給定條件概率,就可以對已知深度的各個鉆井階段的周期進行預測。圖 4為在給定深度下無事故鉆井周期的條件概率分布。例如,圖4c描述了在技術套管段鉆進階段鉆進垂深2 000 m的鉆井周期條件概率。圖4中,縱坐標的值越大表示鉆井周期的概率越大,根據(jù)主要概率分布曲線得出多個眾數(shù),主要概率分布曲線及其貢獻量(用百分比表示)在圖中展示,但貢獻量占比小于 1%或者超出繪圖窗的概率曲線不在圖中展示。以下技術套管階段(見圖4g)為例,第1個概率分布曲線(貢獻量占比97%)眾數(shù)為2.1 d,第2個概率分布曲線(貢獻量占比1%)眾數(shù)為6.7 d,表示概率最大的無事故鉆井周期為2.1 d,其次為6.7 d。圖4中棕色區(qū)域代表每個眾數(shù)的 P10~P90范圍,仍以下技術套管階段(見圖4g)為例,第1個概率分布曲線中,在P10~P90范圍內,無事故鉆井周期在1.1~3.8 d。
圖4 8個鉆井階段在給定深度下無事故鉆井周期的條件概率分布
根據(jù)各鉆井階段的深度相關概率模型,可以針對已知垂深預測出完成某個鉆井階段所需的周期。本文對主要概率分布進行了評估,給出了值域內的最高發(fā)生概率。預測結果以概率范圍對應的鉆井周期最小值到最大值的形式給出,而不是給出一個確定的值(不能反映實際鉆井中的不可預見性),作業(yè)者可以據(jù)此定量評估鉆井計劃的風險。
進行鉆井周期預測時的主要難題之一就是數(shù)據(jù)不全。在本文采用的數(shù)據(jù)集中,只有2%的鉆井施工作業(yè)包含所有8個階段,大多數(shù)鉆井作業(yè)僅包括3~5個階段。此外,所有階段的數(shù)據(jù)不是呈尖峰態(tài)分布(峰度大于3),就是呈低峰態(tài)分布(峰度小于3)(見表2),在使用常規(guī)的基于數(shù)據(jù)的統(tǒng)計模型時就有一定難度。由于數(shù)據(jù)直方圖肯定會偏離正態(tài)分布,導致難度更大。由于不是所有鉆井作業(yè)都包含這 8個階段的數(shù)據(jù),很難在一個模型中同時考慮所有階段。
通過馬爾科夫鏈蒙特卡洛模擬可以對一次包含所有 8個階段的完整鉆井作業(yè)的無事故鉆井周期進行預測,如圖5所示。圖5展示了不同模擬次數(shù)下的模擬結果,1條藍色線表示1次模擬的結果。圖中黑色實線表示實測數(shù)據(jù),通過對每個鉆井階段的原始數(shù)據(jù)進行算術平均得到??梢钥闯?,當模擬次數(shù)為1 000或更多時,蒙特卡洛模擬的眾數(shù)大概為20 d(見圖5c或圖5d中紅色實線),這與實際鉆井階段的平均時間19 d(由圖5c或圖5d中所有藍色實線所示數(shù)據(jù)求平均值得到)基本吻合。這說明通過馬爾科夫鏈蒙特卡洛模擬能夠有效地獲得實測數(shù)據(jù)的平均值。經過1 000次模擬后,P10~P90范圍對應的鉆井周期范圍是穩(wěn)定的,預計在15~29 d。在某些情況下,一次完整的鉆井過程可能會持續(xù)長達 43 d,這種風險是不可排除的。需要注意的是,雖然圖 5是針對每個鉆井階段的已知深度范圍對各階段的所有值隨機運行的結果,但是對于一個確定的深度,仍然可以確定蒙特卡洛模擬結果。
圖5 不同模擬次數(shù)下無事故鉆井周期的馬爾科夫鏈蒙特卡洛模擬結果
綜上,可以通過較多次數(shù)的蒙特卡洛模擬來預測鉆井周期。這種方法的好處是,不需要同時掌握一次完整鉆井作業(yè)中的所有階段的所有數(shù)據(jù),而是可以將缺失數(shù)據(jù)的鉆井階段聯(lián)合起來,進行完整的風險評估。模擬次數(shù)越多,對整個鉆井作業(yè)風險的定量評價結果越可靠。
通常認為,在很多情況下根據(jù)已知數(shù)據(jù)集建立的統(tǒng)計或概率模型足以在實際中應用,而無需進行更多評估[32-34]。然而,本文基于兩個方面的考慮進行了更多的分析來驗證模型。一方面,有必要對比和驗證模型中得到的參數(shù)的最優(yōu)性。另一方面,將模擬參數(shù)與實際鉆井參數(shù)匹配,有助于了解是否可以根據(jù)模型獲得數(shù)據(jù)的主要特點。在數(shù)據(jù)不全的情況下建立模型時,驗證就顯得更加重要。
重建概率密度函數(shù)的難題之一是在選取最優(yōu)參數(shù)時的主觀性,包括函數(shù)和帶寬的優(yōu)先形式。而核密度估計法受核帶寬和核形狀選擇的影響。通過對經驗特征函數(shù)進行傅里葉變換,Bernacchia和 Pigolotti[27]發(fā)現(xiàn),低通濾波器有助于獲得自適應核密度估計值,可將模擬概率密度函數(shù)與實際數(shù)據(jù)之間的差異降到最低。當樣本數(shù)量很大時,自適應核密度估計法可以完全收斂,而不受核帶寬和核形狀選擇的影響。
截止頻率是建立自適應核密度估計函數(shù)時所需的唯一參數(shù),Bernacchia和Pigolotti[27]認為,一半的經驗特征函數(shù)值在特定經驗閾值之上。O’Brien等[28]通過引入快速傅里葉變換對核密度估計法進行了擴展,得到了與超體積相關的替代經驗閾值。Bernacchia和Pigolotti[27]證明了這個替代經驗閾值在人工數(shù)據(jù)計算時是有效的,同時,O’Brien等[28]發(fā)現(xiàn),他們的參數(shù)對于人工模擬數(shù)據(jù)和實際數(shù)據(jù)都是有效且穩(wěn)定的。O’Brien等[28]也證明了選擇的最優(yōu)參數(shù)與其他自動帶寬選擇法選擇的參數(shù)的表現(xiàn)同樣優(yōu)異。因此,本文采用了O’Brien等[28]的方法和經驗閾值。
圖 6是不同鉆井階段的實測數(shù)據(jù)與多變量概率模型得到的模擬結果之間的統(tǒng)計對比。對于實測數(shù)據(jù),統(tǒng)計了每個鉆井階段現(xiàn)有的所有數(shù)據(jù)。對于模擬結果,采用了每個鉆井階段的概率模型得出的10 000個數(shù)據(jù)點,剔除了異常值。結果發(fā)現(xiàn),模擬結果與實測數(shù)據(jù)的統(tǒng)計分析結果具有高度相似性。例如,技術套管段鉆進階段(見圖6c)的模擬結果的中位數(shù)是4.9 d(見圖6c),與實測數(shù)據(jù)的中位數(shù)4.3 d(見表2)非常接近。
為了全面檢驗模型的性能,總結了圖 6中所有統(tǒng)計箱線圖的中位數(shù)和須值。圖7a是無事故鉆井周期的統(tǒng)計結果,可以看出各階段模擬結果的中位數(shù)和須值與實測數(shù)據(jù)的中位數(shù)和須值之間高度相關,皮爾森相關系數(shù)均高達0.989。圖7b是總鉆井周期的統(tǒng)計結果,皮爾森相關系數(shù)分別高達0.990和0.959。值得注意的是,每個階段的實測數(shù)據(jù)點不超過132個。盡管數(shù)據(jù)不多,模擬結果與實測數(shù)據(jù)之間仍有較高的匹配度。
圖6 8個鉆井階段實測數(shù)據(jù)與多變量概率模型模擬結果的統(tǒng)計分析結果對比
圖7 無事故鉆井周期和總鉆井周期的實測數(shù)據(jù)與模擬結果的統(tǒng)計參數(shù)對比
無事故鉆井周期與總鉆井周期之間總是存在著顯著的差異。為了對這個差異進行量化,重新推導了每個階段的深度相關概率模型。然后,對數(shù)據(jù)集中的所有鉆井作業(yè)的總鉆井周期進行了新的馬爾科夫鏈蒙特卡洛模擬。圖 8為模擬得到的無事故鉆井周期和總鉆井周期的概率分布。對于無事故鉆井周期,P10和 P90的對應值分別為10 d和26 d,也就是說,對于一次完整的鉆井作業(yè),無事故鉆井周期有80%的概率在10~26 d。相比之下,對于總鉆井周期,P10和 P90的對應值分別為14 d和38 d??梢?,如果鉆井過程中出現(xiàn)事故,鉆井周期可能延長至少4 d,至多12 d。此外,總鉆井周期的概率分布曲線沿著橫軸被拉長,尾部更長,表示不僅鉆井周期延長,不確定性范圍也擴大。
圖8 通過馬爾科夫鏈蒙特卡洛模擬得到的一次完整的鉆井作業(yè)的無事故鉆井周期和總鉆井周期的概率分布
圖9為經過10 000次馬爾科夫鏈蒙特卡洛模擬后得出的各階段無事故鉆井周期和總鉆井周期的累計概率分布??梢钥闯?,生產套管段鉆進階段無事故鉆井周期與總鉆井周期之間的差異最大,最大相差超過10 d(累計概率 95%);表層套管段鉆進和技術套管段鉆進階段的總鉆井周期會比無事故鉆井周期大約多出 2 d(累計概率95%)。
圖9 經過10 000次馬爾科夫鏈蒙特卡洛模擬后得出的各階段無事故鉆井周期和總鉆井周期的累計概率分布
概率法之所以受到關注是因為它可以利用概率分布函數(shù)獲取更多數(shù)據(jù)。由于機器學習模型依賴數(shù)據(jù)的可用性,數(shù)據(jù)不全會導致機器學習模型表現(xiàn)變差,因此概率法的應用就顯得非常重要。為了進一步檢驗概率法提高機器學習模型預測能力的作用,對不同數(shù)量的輸入數(shù)據(jù)進行了隨機森林(RF)模型的性能測試。
采用泰勒圖描述了不同數(shù)量輸入數(shù)據(jù)情況下隨機森林模型的性能,如圖10所示。采用泰勒圖可以在一個圖中對 3個主要的統(tǒng)計參數(shù),即皮爾森相關系數(shù)、均方根誤差和標準差進行評價。從圖10中可以看出,模擬數(shù)據(jù)與實測數(shù)據(jù)具有相近的標準差,均在2.5~3.3 d這一范圍內;均方根誤差也相近,均在2.2~2.6 d這一范圍內;所有情況下隨機森林模型都表現(xiàn)良好,皮爾森相關系數(shù)較高(均大于 0.8)。這說明模型模擬得到的數(shù)據(jù)與實測數(shù)據(jù)具有相似的特征。也就是說,可以采用概率模型來估計鉆井數(shù)據(jù),將模擬數(shù)據(jù)用于機器學習模型的訓練。
圖10 不同數(shù)量輸入數(shù)據(jù)下隨機森林模型性能的對比
本文提出了一種用多變量概率模型來預測鉆井周期的方法。這種方法采用自適應核密度估計法來建立與深度相關的鉆井周期概率模型,并結合馬爾科夫鏈蒙特卡洛法模擬一次完整鉆井作業(yè)周期的概率分布。
利用行業(yè)伙伴提供的數(shù)據(jù)集對模型進行了測試,數(shù)據(jù)集中的數(shù)據(jù)都是在實際鉆井施工中采集的。研究表明,根據(jù)本文建立的模型,當鉆井深度一定時,可以預測出各個主要鉆井階段可能的施工周期,將這些施工周期結合起來就可以得到整個鉆井階段的總施工周期。此外還發(fā)現(xiàn),如果在鉆井過程中發(fā)生事故,在10%~90%的置信區(qū)間內,鉆井周期延長至少4 d,至多 12 d。采用概率法獲取的模擬數(shù)據(jù)可用于機器學習模型的訓練。
符號注釋:
C——皮爾森相關系數(shù);d——深度,m;E(u)——經驗特征函數(shù);f——多變量概率密度函數(shù);?f——f的最優(yōu)值;F——傅里葉變換;F-1——逆傅里葉變換;i——樣本序號;j——數(shù)據(jù)點序號;k——鉆井階段序號;K——核函數(shù);m——鉆井階段個數(shù);n——數(shù)據(jù)點個數(shù);N——有相關數(shù)據(jù)記錄的鉆井作業(yè)次數(shù),簡稱記錄次數(shù);Nd——對模擬結果進行統(tǒng)計分析時采用的數(shù)據(jù)點個數(shù);Nm——蒙特卡洛模擬次數(shù);p——光滑變量;p1,p2,…,pn——離散數(shù)據(jù)點;P10,P90——目標值可信度10%和90%對應的概率,%;r——包含所有鉆井階段的蒙特卡洛模擬結果的個數(shù);t——鉆井周期,d;u——頻域;κ(u) ——核函數(shù)的傅里葉變換;κ?(u)——κ(u)的最優(yōu)值;φ(u) ——傅里葉變換的逆變換;φ?(u)——最優(yōu)逆變換。