房大志,馬偉竣,閻續(xù),毛崢,高楊
(1.中石化重慶頁巖氣有限公司,重慶 408400;2.長江大學石油工程學院,湖北 武漢 430100;3.湖北省油氣鉆采工程重點實驗室,湖北 武漢 430100)
巖性識別可以幫助確定儲層的巖性、孔隙結構和滲透性,為油氣勘探和開發(fā)提供關鍵信息,并指導井位選擇、鉆井設計和油氣生產管理。目前傳統的巖性識別方法主要為直接法和間接法。直接法是通過直接觀察巖心來確定巖性,不同地質工程人員做出的解釋不同導致這種方法不夠準確。間接法是通過測井曲線來定量研究地質構造的物理特征,采用層析成像技術直接獲得并觀察井壁圖片。測井曲線解釋需要對多條測井曲線進行人工識別并標注巖性,工作繁重且耗時長,甚至需要借助交會圖等圖形技術[1],技術要求高。而層析成像技術又受成像深度等因素限制無法廣泛應用??偠灾瑐鹘y識別方法精度低、效率慢并且人為因素影響大,因此,需要將儲層表征過程自動化,研究出一種高精度自動識別巖性的方法。
近年來,計算機技術逐漸被引入巖性識別工作中,其中機器學習法可實現巖性識別自動化[2],能使巖層識別過程更加高效。目前學者對不同機器學習模型在巖性自動識別方面的應用進行研究。CRACKNELL M J等[3]使用大量地球物理數據,比較5種機器學習在巖性分類中的性能。XIE Y等[4]使用測井數據,采用5種機器學習方法進行巖性識別。LUO H等[5]使用神經網絡根據巖性敏感曲線預測陸相頁巖油氣藏的巖性。AO Y L等[6]提出將2種機器學習算法結合在一起的混合算法,用于識別相似空間中的巖性。GONG K等[7]使用單一分類算法來識別地下復雜沉積環(huán)境的巖性。盡管機器學習方法在巖性識別方面已取得諸多成果,但該方法對數據質量要求較高,為進一步提升巖性識別精度,需要對數據進行優(yōu)化處理。
小波降噪多用于信號處理領域,旨在通過短波實現噪音消除。在油氣領域,小波降噪主要應用于測井曲線降噪[8-11]。小波降噪后,測井曲線表現出高保真、高信噪比的特點,有利于油氣水層的進一步解釋識別。但小波降噪后的測井曲線,在基于機器學習的巖性識別方面應用較少,還需要進一步研究。
本文從信號處理角度出發(fā),對測井曲線進行降噪處理,突出測井曲線有效信號特征,進而建立并訓練隨機森林、XGBoost、支持向量機等人工智能模型。通過小波降噪與人工智能模型聯合使用,提升巖性識別準確率。
針對測井曲線信噪比低的特點,引入小波變換方法對測井數據進行降噪處理,利用不同類型的機器學習方法對降噪后的測井數據進行分類。下文對小波降噪技術,以及隨機森林模型、支持向量機模型、XGBoost模型這3種機器學習方法的原理進行概述。
小波變換是傅里葉分析的一般形式。由于傅里葉變換要求信號是平穩(wěn)信號,且對數據信號中高頻特征存在過濾效應,使得傅里葉變換應用受到局限。小波變換將傅里葉變換中的三角函數基轉換為有限長度且會衰減的基小波,從而獲得時域與頻域處理效果的提升。
實際應用中,通過對尺度因子與平移因子離散化,實現小波變換的離散化應用,離散小波變換表達式見式 (1)。
式中,Wf(m,n)為小波系數,m,n為整數;a0為常數,且a0≠1;φ*(t) 為基小波的共軛運算。
信號降噪處理后,需對分解后的信號進行逆變換,離散小波變換的逆變換為
式中,c為常數。
本文采用Daubechies3小波對數據進行降噪。對于Daubechies小波的階數,雖然高階小波會過濾低頻噪音,但同時也會過濾有效信息[12]。在利用Daubechies3小波將測井數據降噪后,用3種類型的機器學習方法對降噪后的測井數據分類。
隨機森林模型是由多棵決策樹組成的集成模型,通過構建大量決策樹,對所有決策樹結果進行投票,進而給出最終結果。隨機森林中的每棵決策樹并不是對全部樣本進行學習,而是在構成決策樹前,對原始樣本集進行有放回的抽樣,形成M份子樣本集,進而構建M棵決策樹。
XGBoost模型的主要思路是對殘差進行學習,求每棵樹預測結果之和作為最終預測值[13]。XGBoost采用泰勒級數對損失函數進行近似估計,近似估計見式 (3)。
式中,Lt為損失函數;gi、hi為前(k–1)棵樹的殘差,在模型訓練時為已知項,僅需對第k棵樹的殘差項f k(xi) 以及第k棵樹的復雜度Ω(fk)進行優(yōu)化。
對于支持向量機模型,無論分類任務,還是回歸任務,其核心思路在于將輸入數據通過核函數映射至更高維空間,目的是在高維空間對數據進行更精準分類/擬合[14]。在原始輸入空間中,通過曲線難以將樣本點分類,在核函數映射后,樣本點可由單一超平面分隔開來。
由于本研究為分類預測問題,故采用精準度P、召回率R、F1評分來評估模型效果[15]。
式中,Tp為目標巖性預測正確個數;Fp為將非目標巖性誤認為目標巖性的個數;FN為目標巖性預測錯誤的個數;F1為F1評分的值。精準度評估模型預測能力,表示其給出的預測值的可信度;召回率評估模型識別性能,表示可以從總樣本集中準確挑出相應巖性的能力;F1評分為精準度與召回率的調和平均,是模型識別能力的綜合體現。
建立小波降噪與人工智能巖性識別模型的主要研究流程:①進行數據收集整理工作,主要對隨鉆測井數據進行收集,并整理匯總至Excel表格中以備程序讀取。②對數據進行預處理,并刪除缺失數據,進而對數據進行小波降噪處理,提取有效信息。③對降噪后的數據歸一化處理,并進行Kendall相關性分析。④數據預處理與分析完成后,將數據導入不同機器學習模型進行訓練,并對有無小波降噪的模型表現進行對比。
本文采用某區(qū)塊2口水平井,15 764條、5種不同巖性的測井數據,其中泥巖數據6 770條,泥質灰?guī)r數據5 074條,灰?guī)r數據1 438條,碳質灰?guī)r數據2 352條,白云質灰?guī)r數據130條。這些數據比例相差較大,因此,模型對于白云質灰?guī)r的識別能力,反映出模型對數據特征的學習效果。該數據集包括補償中子測井、聲波測井、自然伽馬測井、密度測井、光電測井、釷含量、鈾含量這7種特征。
A井小波降噪前的測井曲線見圖1。各測井曲線震蕩強烈,數據特征被頻繁小幅震蕩覆蓋,特征不明顯,表1為A井各測井參數降噪前的統計值。
表1 A 井測井參數降噪前的統計值
圖1 A井小波降噪前的測井曲線圖
B井小波降噪前的測井曲線見圖2。相較于A井,B井密度曲線圍繞均值震蕩明顯,但總體來說,各個曲線均存在大量小幅震蕩,覆蓋了數據的原有信息。表2為B井各測井參數降噪前的統計值。
表2 B 井測井參數降噪前的統計值
分別對A、B井進行小波降噪處理, Daubechies3作為基小波,硬閾值設定為0.3。
圖3為A井小波降噪后的測井曲線圖,相較于降噪前,A井測井曲線降噪后更加平滑。光電測井起始位置至2 000 m深度,降噪效果較好;深度大于2 000 m,由于原始數據振幅增大,降噪后,特征得到突出,但仍有較大振幅。補償中子測井、聲波測井、自然伽馬測井、密度測井、鈾含量曲線降噪效果良好,釷含量曲線降噪后波動降低。從表3可以看出,相較于降噪前,A井測井數據的均值和方差均降低,說明無效信號去除效果理想。
表3 A 井測井參數降噪后的統計值
圖3 A井小波降噪后測井曲線
圖4為B井小波降噪后的測井曲線圖。相較于小波降噪前,B井測井曲線降噪后更加平滑,光電測井仍存在少量波動,數據特征得到加強。補償中子測井、聲波測井、自然伽馬測井、密度測井、鈾含量曲線降噪效果良好,釷含量曲線降噪后波動降低,但仍存在少量峰值點。從表4可以看出,相較于降噪前,B井測井數據均值和方差均降低,說明無效信號去除效果理想。
表4 B 井測井參數降噪后的統計值
圖4 B井小波降噪后測井曲線
綜合A、B井數據,對測井曲線與巖性進行相關性分析。由于本任務為巖性識別任務,目標值為非連續(xù)分類數值,故采用Kendall相關系數計算測井參數與巖性分類標簽的相關性(見表5)。從表5可以看出,降噪前,所有測井參數與巖性分類標簽的顯著性均接近于0,具有統計學顯著性,證明測井曲線與巖性間存在相關性。補償中子測井與巖性相關性最高,相關系數達0.47,鈾含量與巖性相關系數最低。降噪后,光電測井、鈾含量與巖性相關性均有所上升。
表5 測井參數降噪前、 后與巖性分類標簽Kendall 相關系數
圖5為小波降噪前、后隨機森林巖性識別混淆矩陣。如圖5所示,小波降噪前,隨機森林將24個泥巖樣本誤判為泥質灰?guī)r,將16個泥質灰?guī)r樣本誤判為泥巖,導致其小波降噪前的精準度相對較低;從另一角度看,降噪前,對于1 393個泥巖樣本,模型可精確挑出其中1 376個樣本;對于1 005個泥質灰?guī)r樣本,模型可精確挑出其中965個樣本。小波降噪后,模型對于泥質灰?guī)r與泥巖的誤判問題得到改善,總體精準度、召回率、F1評分得到提升,F1評分達0.989(見表6)。
表6 小波降噪前、 后隨機森林模型評分
圖5 小波降噪前、后隨機森林巖性識別混淆矩陣
圖6為小波降噪前、后XGBoost巖性識別混淆矩陣。如圖6所示,小波降噪前,XGBoost模型在泥巖與泥質灰?guī)r判斷上,泥巖預測結果存在17個誤判,泥質灰?guī)r預測結果存在18個誤判,其精準度為0.96;對于給定真實樣本,其降噪前召回率為0.989。
圖6 小波降噪前、后XGBoost巖性識別混淆矩陣
小波降噪后,可以看出,盡管XGBoost仍存在微量誤判,但其精準度、召回率、F1評分均得到提升,對于巖性特征捕捉能力更優(yōu),F1評分達到0.998(見表7)。
表7 小波降噪前、 后XGBoost 模型評分
圖7為小波降噪前、后支持向量機巖性識別混淆矩陣。從圖7可以看出,小波降噪前,支持向量機模型在泥質灰?guī)r、泥巖和灰?guī)r的判斷上存在較大誤差。支持向量機模型給出預測結果中,有102個泥巖預測結果錯誤,77個泥質灰?guī)r預測結果錯誤,以及35個灰?guī)r預測結果錯誤,支持向量機模型精準度為0.891(見表8)。對于存在的真實巖性,55個泥巖、134個泥質灰?guī)r和30個灰?guī)r結果未被篩選出,模型召回率為0.854,總體F1評分為0.869。小波降噪后,支持向量機識別能力得到提升,精準度提升至0.953,召回率提升至0.970,綜合評分提升至0.961。
表8 小波降噪前、 后支持向量機模型評分
圖7 小波降噪前、后支持向量機巖性識別混淆矩陣
表9為各模型降噪前、后表現匯總。從精準度來看,降噪前,支持向量機模型表現最差,精準度只有0.891,其給出的預測結果可信度最低;XGBoost模型的精準度最高,達0.960。降噪后,各模型的精準度均得到提升,XGBoost模型的精準度接近1,其模型預測值可信度最高;支持向量機模型精準度提升效果最明顯,提升6.2%。召回率方面,降噪前,支持向量機模型表現最差,召回率僅0.854,其對真實巖性的分辨能力最弱,其他模型召回率均在0.900以上,XGBoost模型的召回率最高,達0.989。降噪后,各模型召回率均得到提升,XGBoost模型召回率接近1,其模型預測值對真實巖性的辨別能力最強。
表9 小波降噪前、 后模型表現匯總
總體效果來看,降噪前,支持向量機模型綜合表現最差,F1評分只有0.869,XGBoost模型的F1評分最高,達0.974。降噪后,各模型綜合性能均得到提升,XGBoost模型F1評分接近1。支持向量機模型提升效果最明顯,F1評分提升9.2%。
(1)本文基于小波降噪技術,對15 764條數據,5種不同巖性進行處理,數據集包含補償中子測井、聲波測井、自然伽馬測井、密度測井、光電測井、釷含量、鈾含量這7種特征。在提升測井曲線信噪比的基礎上構建5種人工智能模型,實現對巖性的識別。
(2)小波降噪技術可有效提升測井曲線信噪比,突出不同巖性特征,各測試模型精準度、召回率、F1評分均得到提升,其中小波降噪對支持向量機模型的提升最高,精準度、召回率、F1評分分別提升6.2%、11.6%、9.2%。
(3)人工智能模型可有效識別巖性,在小波降噪前,XGBoost模型表現最優(yōu),其F1評分達0.974,小波降噪后,XGBoost模型仍表現最優(yōu),同時,其模型性能得到提升,F1評分達0.998。