基于可解釋神經網(wǎng)絡的非常規(guī)儲層參數(shù)建模范式

2023-06-19 13:52張鳳姣鄧少貴高貝貝

中國石油大學學報（自然科學版） 2023年3期

張鳳姣, 鄧少貴, 陳琰, 高貝貝

(1.深層油氣全國重點實驗室,山東青島 266580; 2.深層油氣探測技術與裝備教育部工程研究中心,山東青島 266580; 3.山東省深層油氣重點實驗室,山東青島 266580; 4.深層油氣教育部重點實驗室,山東青島 266580; 5.中國石油青海油田分公司,甘肅敦煌 736202)

隨著勘探開發(fā)的不斷深入,中國已進入非常規(guī)油氣時代的快速發(fā)展階段[1]。儲層參數(shù)是有效篩選油氣甜點的重要參考,其精確量化的關鍵在于用巖石物理實驗數(shù)據(jù)刻度常規(guī)測井資料,深入挖掘巖石物理實驗數(shù)據(jù)與測井參數(shù)之間的復雜聯(lián)系,建立連續(xù)深度的儲層參數(shù)剖面[2]。針對非常規(guī)油氣藏儲層非均質性較強,儲層參數(shù)建模困難的問題,許多學者將機器學習應用于參數(shù)建模中,在一定程度上提升了模型精度[3-7]。然而,大多數(shù)的機器學習模型都具有“黑盒”特性,其內部的決策過程不易被人理解,降低了模型的可信度。因此,亟待提出一種基于可解釋機器學習方法的儲層參數(shù)建模范式,在保證儲層參數(shù)預測精度的同時,增加建模過程的透明度和可解釋性。Castillo等[8]提出的泛函網(wǎng)絡(functional network, FN)作為神經網(wǎng)絡的廣義高級形式,可以很好地平衡預測性能和模型的可解釋性,已被廣泛地應用于非線性回歸和分類問題[9]、時序數(shù)據(jù)的建模預測[10]、微分方程的求解[11]以及油藏中的參數(shù)預測[12-13]等。筆者以巖石物理實驗數(shù)據(jù)和測井數(shù)據(jù)建模問題為驅動,基于泛函網(wǎng)絡結構建立一種可解釋的神經網(wǎng)絡(interpretable neural network, INN)作為儲層參數(shù)建模范式,并以松遼盆地青山口組青一段5口探井的82塊巖心樣品的脆性指數(shù)可視化建模過程為例,對比其他3種經典機器學習算法的建模效果。

1 可解釋神經網(wǎng)絡

可解釋的神經網(wǎng)絡模型基于泛函網(wǎng)絡框架建立,具有內置的解釋機制。(x1,…,xd)為輸入自變量,yj(x)為輸出因變量,可以近似為以下形式:

(1)

式中,wim為訓練后每個神經元的權值;Mi為第i個變量基函數(shù)的階數(shù);d為輸入變量個數(shù);φim(xi)(m=1,…,Mi)為第i個變量的基函數(shù),常用的基函數(shù)包括多項式函數(shù)、指數(shù)函數(shù)、三角函數(shù)及其混合基函數(shù),基函數(shù)的選擇根據(jù)先驗數(shù)據(jù)信息而定。

圖1為簡化的使用神經網(wǎng)絡符號表示的可解釋神經網(wǎng)絡架構。輸入層是包含d個節(jié)點的單連接層,每個輸入節(jié)點都服從歸一化(N),輸入層每個節(jié)點的輸出將作為下一層子網(wǎng)絡的輸入。子網(wǎng)絡用來訓練確定基函數(shù)φim(xi)的最終形式及其系數(shù)wim,利用現(xiàn)有的數(shù)據(jù)進行最優(yōu)參數(shù)學習。得到的基函數(shù)輸入到輸出層,最終采用線性激活函數(shù)(∑)激活輸出。

圖1 可解釋神經網(wǎng)絡(INN)架構Fig.1 Interpretable neural network (INN) architecture

1.2 模型參數(shù)優(yōu)化

確定INN基本結構后,需要估計網(wǎng)絡參數(shù)以得到最優(yōu)模型,本文中利用變分貝葉斯逼近方法對模型進行學習。變分貝葉斯方法(variational Bayesian, VB)[14]近年來由于其計算量較少,收斂速度較快、泛化能力較強等優(yōu)點已被廣大學者應用到模型參數(shù)估計問題。為了逼近方程(1),假設觀測變量D={((x1,y1),…,(xN,yN)}),x為d維向量,θ為一新的系數(shù)向量,α為系數(shù)精度參數(shù),β為噪聲精度參數(shù),且α和β后驗概率分布函數(shù)均符合Gamma分布函數(shù),則觀測變量的邊緣似然函數(shù)滿足:

logp(D)=+KL(q‖p).

(2)

其中

1.3 建模范式流程

所提出的基于可解釋神經網(wǎng)絡的巖石物理實驗數(shù)據(jù)與測井信息關系的建模范式主要包括4部分,即輸入?yún)?shù)選擇、初始網(wǎng)絡結構確定、最優(yōu)模型選擇以及模型測試(圖2,其中GR、SP、AC、DEN、CNL、RLLD、RLLS分別表示自然伽馬測井、自然電位、聲波時差、密度測井、中子孔隙度測井、深側向電阻率、淺測向電阻率),其中綠色部分代表儲層參數(shù)為脆性指數(shù)IB時的必選項。圖2只是采用INN建模范式的一般流程,還存在許多可以改進的方面,比如豐富基函數(shù)庫的內容,使其可以逼近更復雜的非線性關系;建立多種最優(yōu)模型選擇方法,提升計算速度和精度;不僅僅局限于脆性指數(shù)的建模,可適當擴展儲層參數(shù)模型庫。

1.4 模型可解釋性

預測模型的可解釋性主要體現(xiàn)在以下兩點:①傳統(tǒng)神經網(wǎng)絡結構在調整隱含層的鏈接權重時將所有測井輸入數(shù)據(jù)混合,無法評估單個測井數(shù)據(jù)的貢獻,而可解釋網(wǎng)絡可以捕獲單條測井曲線與巖石物理數(shù)據(jù)間的相互作用;②在傳統(tǒng)神經網(wǎng)絡中,只有鏈接測井輸入數(shù)據(jù)的權可以從訓練中學習得到,神經元函數(shù)是固定的,而可解釋網(wǎng)絡各層的神經元函數(shù)選擇更為靈活,各網(wǎng)絡層基函數(shù)形式不斷組合變換直至得到最優(yōu)排列形式。為此,本文中通過引入泛函網(wǎng)絡,使用非線性基函數(shù)逼近期望數(shù)值,在對各子網(wǎng)絡訓練過程中通過可視化基函數(shù)及各權重系數(shù),獲得每個測井系列與目標值的關系,從而一定程度上實現(xiàn)了模型的可解釋性。

2 INN模型應用

2.1 數(shù)據(jù)背景

脆性作為頁巖儲層的重要參數(shù)之一,可以用來表征巖石在水力壓裂過程中形成復雜裂縫網(wǎng)絡的能力,脆性高的巖石在外力作用下更容易發(fā)生脆性變形,形成豐富的次生裂縫網(wǎng)絡,這對頁巖油產業(yè)的產能提升起到了重要作用[15]。前人已經提出了多種頁巖脆性的定量表達式,原理主要是基于應力-應變響應分析、彈性模量和泊松比等力學參數(shù)表征以及頁巖礦物組分分析[16-17]。選取松遼盆地青山口組青一段5口探井的共82塊巖心樣品的X-衍射(XRD)實驗數(shù)據(jù)計算脆性指數(shù),取芯層段多發(fā)育暗色油頁巖、砂巖和粉砂巖互層,油氣顯示活躍。圖3展示了部分樣品的礦物組成,包括石英、長石(鉀長石、斜長石)、方解石、鐵白云石、菱鐵礦、黃鐵礦和黏土礦物。其中長英質礦物(石英、長石)含量最高,質量分數(shù)為22%～86%,平均為54.22%;其次是黏土,質量分數(shù)為4.3%～46.3%,平均為31.6%;除上述兩種主要礦物外,碳酸鹽(方解石、鐵白云石)含量也相對較高,質量分數(shù)為0～71.1%,平均為9.28%。據(jù)前人對頁巖巖石物理性質的研究,頁巖油儲層脆性礦物可以包括石英、長石和碳酸鹽礦物[18-19]。因此根據(jù)XRD礦物組成可以計算出樣品的脆性指數(shù)IB,計算公式為

圖3 部分巖心礦物成分組成Fig.3 Mineral compositions of cores

IB=(wfel+wcarb)/wtot.

(3)

式中,wfel為長英質礦物的質量分數(shù);wcarb為碳酸鹽巖的質量分數(shù);wtot為所有礦物的質量分數(shù)。

2.2 測井數(shù)據(jù)選擇

研究表明,自然伽馬測井(GR)、密度測井(DEN)、聲波測井(AC)、中子孔隙度測井(CNL)、深側向電阻率測井(RLLD)和淺側向電阻率測井(RLLS)對脆性最為敏感,且石英和碳酸鹽巖含量越高,GR和AC越低,電阻率和DEN越高[20]。通過分析脆性指數(shù)與各測井曲線交會圖(圖4(a)～(e)),DEN、AC、CNL、RLLD和RLLS與脆性指數(shù)存在一定的相關性,其規(guī)律與現(xiàn)有研究相符,而GR和脆性指數(shù)的相關性較差,分析是因為研究區(qū)樣品含有的長石具有放射性,故GR曲線對于黏土礦物的反映存在誤差,導致GR與脆性之間相關性較差。因此選擇DEN、AC、CNL、RLLD和RLLS 5條測井曲線作為輸入。表1列出了輸入?yún)?shù)的統(tǒng)計特征及其與脆性指數(shù)(IB)的相關系數(shù)平方(R2),其中AC對于IB的影響作用最大,其余依次是CNL、RLLD、RLLS和DEN。

表1 測井參數(shù)特征及與IB的關系Table 1 Logging parameter characteristics and relationship to IB

2.3 模型可解釋結果

通過測井數(shù)據(jù)特征與脆性指數(shù)關系分析結果作為先驗信息,二者之間存在多項式函數(shù)關系,因此選擇多項式(1,x,x2,…,xM)作為初始基函數(shù)。針對頁巖脆性指數(shù)預測,隨機抽取70%的數(shù)據(jù)作為訓練集,30%的數(shù)據(jù)作為測試集,將5條測井曲線輸入到5個子網(wǎng)絡中進行網(wǎng)絡訓練,最終得到最優(yōu)模型。模型選擇過程主要是確定各子網(wǎng)絡基函數(shù)的階數(shù),Bayes information criterion (BIC)準則同時考慮了模型的預測精度和復雜度。本文中選擇BIC準則作為貝葉斯可解釋神經網(wǎng)絡的模型選擇方法,BIC函數(shù)值最小時,所對應的模型參數(shù)最優(yōu)。BIC準則[21]可以表示為

(4)

當EBIC=286.21時模型性能最佳,此時子網(wǎng)絡的非線性變化過程如圖5所示,圖5(a)分別展示了以歸一化的AC、CNL、DEN、RLLS和RLLD作為變量的基函數(shù)φim(xi),圖5(b)分別展示了各基函數(shù)的權重分布wim。表2列出了各基函數(shù)的數(shù)學表達式?？梢钥闯?脆性指數(shù)與AC、CNL和RLLD之間均存在二次函數(shù)關系,基函數(shù)RLLD的系數(shù)均為正數(shù)且數(shù)值較大,AC和CNL的系數(shù)分布相似,階數(shù)越大,對應的權重絕對值越小;IB與密度和淺側向電阻率之間關系更為復雜,為三次函數(shù)關系,基函數(shù)DEN的階數(shù)與系數(shù)的絕對值成正比。至此,各測井系列與脆性指數(shù)的復雜非線性關系凝練為一數(shù)學公式,神經網(wǎng)絡的“黑盒”成功變?yōu)椤鞍缀小?可供無人工智能基礎背景的地球物理學者快速高效地建立儲層參數(shù)模型。

表2 模型解釋結果Table 2 Model interpretation results

圖5 模型可視化結果Fig.5 Model visualization results

2.4 模型精度對比

2.4.1 評價指標

采用均方根誤差ERMS和Pearson相關系數(shù)R來反映機器學習模型的性能:

(5)

(6)

式中,yi和pi分別為脆性指數(shù)實際值和預測值;N為樣本點數(shù);D為方差;Cov(Y,P)為協(xié)方差函數(shù),表示變量Y與變量P之間相互關系的特征。ERMS越小,R越高,模型性能越好。

2.4.2 預測結果

為了證明所提出的INN網(wǎng)絡不僅具有可解釋性,還保障了相對高的預測精度,對比分析了極限學習機ELM、支持向量機SVM及BP神經網(wǎng)絡3種經典機器學習方法在頁巖脆性指數(shù)預測結果。為了增加試驗的可信度,4種機器學習方法均采用隨機劃分得到的訓練集和測試集數(shù)據(jù)建模,且每個模型均進行了10次重復試驗,其中INN模型參數(shù)采取由2.3中所得到的最優(yōu)化基函數(shù)及其系數(shù)。圖6(a)、(b)分別展示了4個模型10次試驗結果的誤差ERMS和相關系數(shù)R的分布,INN模型的ERMS分布在5.2%～6.31%,平均為5.66%,R為0.75～0.87,均值為0.83;ELM模型的ERMS為5.62%～12.29%,平均為8.75%,R為0.33～0.78,平均為0.57;SVM模型的ERMS分布于5.72%～8.88%,平均為7.1%,R為0.49～0.82,平均為0.69;BP神經網(wǎng)絡的ERMS為6.63%～10.08%,平均為8.09%,R介于0.15～0.76,平均為0.58。

圖6 四種機器學習算法10次試驗結果誤差分布Fig.6 Accuracy distribution of 10-trial results of four machine learning algorithms

可以得出,INN模型的精度和穩(wěn)定性均達到最優(yōu);ELM、SVM和BP由于數(shù)據(jù)量較少,泛化能力弱,都存在一定程度上的過擬合問題,其中ELM模型的預測精度和穩(wěn)定性最差,其次是BP和SVM。

2.5 實例應用

以來自松遼盆地青山口組的井A作為研究對象,將所建立的可解釋神經網(wǎng)絡模型和極限學習機ELM、支持向量機SVM、BP神經網(wǎng)絡4個儲層參數(shù)預測模型推廣應用于全井段參數(shù)建模中。其中針對研究區(qū)脆性指數(shù)的INN模型最終結果可直觀地展示,可在不使用人工智能軟件的情況下快速高效地計算儲層參數(shù),這也是本文中所提出模型區(qū)別于普通機器學習算法的一大優(yōu)勢,INN模型表示為

(7)

式中,N為樣本點數(shù);ε為誤差估計值,實際應用中可忽略不計。

圖7為井A脆性指數(shù)預測結果的連續(xù)剖面?？梢钥吹?在電阻率曲線和三孔隙度曲線劇烈變化的層段(如深度2079 m和2112.5 m處),ELM、SVM及BP神經網(wǎng)絡3種經典機器學習方法的收斂性明顯不足,ELM和BP預測曲線變化過于劇烈,而SVM模型的預測結果幾乎呈現(xiàn)一條平緩的直線。基于巖心巖石物理實驗的小樣本數(shù)據(jù)條件下,且當儲層參數(shù)與測井數(shù)據(jù)之間的非線性關系較強時,普通的機器學習模型難以從有限的數(shù)據(jù)中挖掘出正確的映射關系,方法收斂性差,精度難以保證。本文中提出的可解釋神經網(wǎng)絡的預測結果與巖心實驗數(shù)據(jù)有著很好的吻合性,變化趨勢可靠性強,進一步證明了所提出模型的可行性和有效性。預測得到的脆性指數(shù)剖面結合其他儲層參數(shù),為后續(xù)頁巖油儲層的勘探開發(fā)提供技術思路。

圖7 井A儲層參數(shù)預測結果Fig.7 Reservoir parameter prediction results of well A

3 結束語

本文中基于泛函網(wǎng)絡結構建立了一種可解釋的儲層參數(shù)預測模型,其關鍵在于可視化各子網(wǎng)絡基函數(shù)及其最優(yōu)系數(shù),對測井曲線和儲層參數(shù)之間的非線性關系具有一定程度的解釋性,相較于機器學習的“黑盒”性質具有更加可靠的參考和應用價值。普通機器學習模型(如ELM、SVM、BP)的精準度是建立在大量數(shù)據(jù)的基礎之上的,而在實際工程應用中很多時候僅有少量巖心實驗數(shù)據(jù)參與儲層參數(shù)建模,此時普通機器學習算法難以準確挖掘出小樣本數(shù)據(jù)之間的內在聯(lián)系,泛化能力不足?；诳山忉屔窠浘W(wǎng)絡得到的簡單的經驗關系式,穩(wěn)定性強,準確率高,一旦測井曲線與儲層參數(shù)的關系確定,便可不再依賴人工智能軟件進行推廣應用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡