張鳳姣, 鄧少貴, 陳 琰, 高貝貝
(1.深層油氣全國重點實驗室,山東青島 266580; 2.深層油氣探測技術與裝備教育部工程研究中心,山東青島 266580; 3.山東省深層油氣重點實驗室,山東青島 266580; 4.深層油氣教育部重點實驗室,山東青島 266580; 5.中國石油青海油田分公司,甘肅敦煌 736202)
隨著勘探開發(fā)的不斷深入,中國已進入非常規(guī)油氣時代的快速發(fā)展階段[1]。儲層參數(shù)是有效篩選油氣甜點的重要參考,其精確量化的關鍵在于用巖石物理實驗數(shù)據(jù)刻度常規(guī)測井資料,深入挖掘巖石物理實驗數(shù)據(jù)與測井參數(shù)之間的復雜聯(lián)系,建立連續(xù)深度的儲層參數(shù)剖面[2]。針對非常規(guī)油氣藏儲層非均質性較強,儲層參數(shù)建模困難的問題,許多學者將機器學習應用于參數(shù)建模中,在一定程度上提升了模型精度[3-7]。然而,大多數(shù)的機器學習模型都具有“黑盒”特性,其內部的決策過程不易被人理解,降低了模型的可信度。因此,亟待提出一種基于可解釋機器學習方法的儲層參數(shù)建模范式,在保證儲層參數(shù)預測精度的同時,增加建模過程的透明度和可解釋性。Castillo等[8]提出的泛函網(wǎng)絡(functional network, FN)作為神經網(wǎng)絡的廣義高級形式,可以很好地平衡預測性能和模型的可解釋性,已被廣泛地應用于非線性回歸和分類問題[9]、時序數(shù)據(jù)的建模預測[10]、微分方程的求解[11]以及油藏中的參數(shù)預測[12-13]等。筆者以巖石物理實驗數(shù)據(jù)和測井數(shù)據(jù)建模問題為驅動,基于泛函網(wǎng)絡結構建立一種可解釋的神經網(wǎng)絡(interpretable neural network, INN)作為儲層參數(shù)建模范式,并以松遼盆地青山口組青一段5口探井的82塊巖心樣品的脆性指數(shù)可視化建模過程為例,對比其他3種經典機器學習算法的建模效果。
可解釋的神經網(wǎng)絡模型基于泛函網(wǎng)絡框架建立,具有內置的解釋機制。(x1,…,xd)為輸入自變量,yj(x)為輸出因變量,可以近似為以下形式:
(1)
式中,wim為訓練后每個神經元的權值;Mi為第i個變量基函數(shù)的階數(shù);d為輸入變量個數(shù);φim(xi)(m=1,…,Mi)為第i個變量的基函數(shù),常用的基函數(shù)包括多項式函數(shù)、指數(shù)函數(shù)、三角函數(shù)及其混合基函數(shù),基函數(shù)的選擇根據(jù)先驗數(shù)據(jù)信息而定。
圖1為簡化的使用神經網(wǎng)絡符號表示的可解釋神經網(wǎng)絡架構。輸入層是包含d個節(jié)點的單連接層,每個輸入節(jié)點都服從歸一化(N),輸入層每個節(jié)點的輸出將作為下一層子網(wǎng)絡的輸入。子網(wǎng)絡用來訓練確定基函數(shù)φim(xi)的最終形式及其系數(shù)wim,利用現(xiàn)有的數(shù)據(jù)進行最優(yōu)參數(shù)學習。得到的基函數(shù)輸入到輸出層,最終采用線性激活函數(shù)(∑)激活輸出。
圖1 可解釋神經網(wǎng)絡(INN)架構Fig.1 Interpretable neural network (INN) architecture
確定INN基本結構后,需要估計網(wǎng)絡參數(shù)以得到最優(yōu)模型,本文中利用變分貝葉斯逼近方法對模型進行學習。變分貝葉斯方法(variational Bayesian, VB)[14]近年來由于其計算量較少,收斂速度較快、泛化能力較強等優(yōu)點已被廣大學者應用到模型參數(shù)估計問題。為了逼近方程(1),假設觀測變量D={((x1,y1),…,(xN,yN)}),x為d維向量,θ為一新的系數(shù)向量,α為系數(shù)精度參數(shù),β為噪聲精度參數(shù),且α和β后驗概率分布函數(shù)均符合Gamma分布函數(shù),則觀測變量的邊緣似然函數(shù)滿足:
logp(D)=+KL(q‖p).
(2)
其中
所提出的基于可解釋神經網(wǎng)絡的巖石物理實驗數(shù)據(jù)與測井信息關系的建模范式主要包括4部分,即輸入?yún)?shù)選擇、初始網(wǎng)絡結構確定、最優(yōu)模型選擇以及模型測試(圖2,其中GR、SP、AC、DEN、CNL、RLLD、RLLS分別表示自然伽馬測井、自然電位、聲波時差、密度測井、中子孔隙度測井、深側向電阻率、淺測向電阻率),其中綠色部分代表儲層參數(shù)為脆性指數(shù)IB時的必選項。圖2只是采用INN建模范式的一般流程,還存在許多可以改進的方面,比如豐富基函數(shù)庫的內容,使其可以逼近更復雜的非線性關系;建立多種最優(yōu)模型選擇方法,提升計算速度和精度;不僅僅局限于脆性指數(shù)的建模,可適當擴展儲層參數(shù)模型庫。
預測模型的可解釋性主要體現(xiàn)在以下兩點:①傳統(tǒng)神經網(wǎng)絡結構在調整隱含層的鏈接權重時將所有測井輸入數(shù)據(jù)混合,無法評估單個測井數(shù)據(jù)的貢獻,而可解釋網(wǎng)絡可以捕獲單條測井曲線與巖石物理數(shù)據(jù)間的相互作用;②在傳統(tǒng)神經網(wǎng)絡中,只有鏈接測井輸入數(shù)據(jù)的權可以從訓練中學習得到,神經元函數(shù)是固定的,而可解釋網(wǎng)絡各層的神經元函數(shù)選擇更為靈活,各網(wǎng)絡層基函數(shù)形式不斷組合變換直至得到最優(yōu)排列形式。為此,本文中通過引入泛函網(wǎng)絡,使用非線性基函數(shù)逼近期望數(shù)值,在對各子網(wǎng)絡訓練過程中通過可視化基函數(shù)及各權重系數(shù),獲得每個測井系列與目標值的關系,從而一定程度上實現(xiàn)了模型的可解釋性。
脆性作為頁巖儲層的重要參數(shù)之一,可以用來表征巖石在水力壓裂過程中形成復雜裂縫網(wǎng)絡的能力,脆性高的巖石在外力作用下更容易發(fā)生脆性變形,形成豐富的次生裂縫網(wǎng)絡,這對頁巖油產業(yè)的產能提升起到了重要作用[15]。前人已經提出了多種頁巖脆性的定量表達式,原理主要是基于應力-應變響應分析、彈性模量和泊松比等力學參數(shù)表征以及頁巖礦物組分分析[16-17]。選取松遼盆地青山口組青一段5口探井的共82塊巖心樣品的X-衍射(XRD)實驗數(shù)據(jù)計算脆性指數(shù),取芯層段多發(fā)育暗色油頁巖、砂巖和粉砂巖互層,油氣顯示活躍。圖3展示了部分樣品的礦物組成,包括石英、長石(鉀長石、斜長石)、方解石、鐵白云石、菱鐵礦、黃鐵礦和黏土礦物。其中長英質礦物(石英、長石)含量最高,質量分數(shù)為22%~86%,平均為54.22%;其次是黏土,質量分數(shù)為4.3%~46.3%,平均為31.6%;除上述兩種主要礦物外,碳酸鹽(方解石、鐵白云石)含量也相對較高,質量分數(shù)為0~71.1%,平均為9.28%。據(jù)前人對頁巖巖石物理性質的研究,頁巖油儲層脆性礦物可以包括石英、長石和碳酸鹽礦物[18-19]。因此根據(jù)XRD礦物組成可以計算出樣品的脆性指數(shù)IB,計算公式為
圖3 部分巖心礦物成分組成Fig.3 Mineral compositions of cores
IB=(wfel+wcarb)/wtot.
(3)
式中,wfel為長英質礦物的質量分數(shù);wcarb為碳酸鹽巖的質量分數(shù);wtot為所有礦物的質量分數(shù)。
研究表明,自然伽馬測井(GR)、密度測井(DEN)、聲波測井(AC)、中子孔隙度測井(CNL)、深側向電阻率測井(RLLD)和淺側向電阻率測井(RLLS)對脆性最為敏感,且石英和碳酸鹽巖含量越高,GR和AC越低,電阻率和DEN越高[20]。通過分析脆性指數(shù)與各測井曲線交會圖(圖4(a)~(e)),DEN、AC、CNL、RLLD和RLLS與脆性指數(shù)存在一定的相關性,其規(guī)律與現(xiàn)有研究相符,而GR和脆性指數(shù)的相關性較差,分析是因為研究區(qū)樣品含有的長石具有放射性,故GR曲線對于黏土礦物的反映存在誤差,導致GR與脆性之間相關性較差。因此選擇DEN、AC、CNL、RLLD和RLLS 5條測井曲線作為輸入。表1列出了輸入?yún)?shù)的統(tǒng)計特征及其與脆性指數(shù)(IB)的相關系數(shù)平方(R2),其中AC對于IB的影響作用最大,其余依次是CNL、RLLD、RLLS和DEN。
表1 測井參數(shù)特征及與IB的關系Table 1 Logging parameter characteristics and relationship to IB
通過測井數(shù)據(jù)特征與脆性指數(shù)關系分析結果作為先驗信息,二者之間存在多項式函數(shù)關系,因此選擇多項式(1,x,x2,…,xM)作為初始基函數(shù)。針對頁巖脆性指數(shù)預測,隨機抽取70%的數(shù)據(jù)作為訓練集,30%的數(shù)據(jù)作為測試集,將5條測井曲線輸入到5個子網(wǎng)絡中進行網(wǎng)絡訓練,最終得到最優(yōu)模型。模型選擇過程主要是確定各子網(wǎng)絡基函數(shù)的階數(shù),Bayes information criterion (BIC)準則同時考慮了模型的預測精度和復雜度。本文中選擇BIC準則作為貝葉斯可解釋神經網(wǎng)絡的模型選擇方法,BIC函數(shù)值最小時,所對應的模型參數(shù)最優(yōu)。BIC準則[21]可以表示為
(4)
當EBIC=286.21時模型性能最佳,此時子網(wǎng)絡的非線性變化過程如圖5所示,圖5(a)分別展示了以歸一化的AC、CNL、DEN、RLLS和RLLD作為變量的基函數(shù)φim(xi),圖5(b)分別展示了各基函數(shù)的權重分布wim。表2列出了各基函數(shù)的數(shù)學表達式??梢钥闯?脆性指數(shù)與AC、CNL和RLLD之間均存在二次函數(shù)關系,基函數(shù)RLLD的系數(shù)均為正數(shù)且數(shù)值較大,AC和CNL的系數(shù)分布相似,階數(shù)越大,對應的權重絕對值越小;IB與密度和淺側向電阻率之間關系更為復雜,為三次函數(shù)關系,基函數(shù)DEN的階數(shù)與系數(shù)的絕對值成正比。至此,各測井系列與脆性指數(shù)的復雜非線性關系凝練為一數(shù)學公式,神經網(wǎng)絡的“黑盒”成功變?yōu)椤鞍缀小?可供無人工智能基礎背景的地球物理學者快速高效地建立儲層參數(shù)模型。
表2 模型解釋結果Table 2 Model interpretation results
圖5 模型可視化結果Fig.5 Model visualization results
2.4.1 評價指標
采用均方根誤差ERMS和Pearson相關系數(shù)R來反映機器學習模型的性能:
(5)
(6)
式中,yi和pi分別為脆性指數(shù)實際值和預測值;N為樣本點數(shù);D為方差;Cov(Y,P)為協(xié)方差函數(shù),表示變量Y與變量P之間相互關系的特征。ERMS越小,R越高,模型性能越好。
2.4.2 預測結果
為了證明所提出的INN網(wǎng)絡不僅具有可解釋性,還保障了相對高的預測精度,對比分析了極限學習機ELM、支持向量機SVM及BP神經網(wǎng)絡3種經典機器學習方法在頁巖脆性指數(shù)預測結果。為了增加試驗的可信度,4種機器學習方法均采用隨機劃分得到的訓練集和測試集數(shù)據(jù)建模,且每個模型均進行了10次重復試驗,其中INN模型參數(shù)采取由2.3中所得到的最優(yōu)化基函數(shù)及其系數(shù)。圖6(a)、(b)分別展示了4個模型10次試驗結果的誤差ERMS和相關系數(shù)R的分布,INN模型的ERMS分布在5.2%~6.31%,平均為5.66%,R為0.75~0.87,均值為0.83;ELM模型的ERMS為5.62%~12.29%,平均為8.75%,R為0.33~0.78,平均為0.57;SVM模型的ERMS分布于5.72%~8.88%,平均為7.1%,R為0.49~0.82,平均為0.69;BP神經網(wǎng)絡的ERMS為6.63%~10.08%,平均為8.09%,R介于0.15~0.76,平均為0.58。
圖6 四種機器學習算法10次試驗結果誤差分布Fig.6 Accuracy distribution of 10-trial results of four machine learning algorithms
可以得出,INN模型的精度和穩(wěn)定性均達到最優(yōu);ELM、SVM和BP由于數(shù)據(jù)量較少,泛化能力弱,都存在一定程度上的過擬合問題,其中ELM模型的預測精度和穩(wěn)定性最差,其次是BP和SVM。
以來自松遼盆地青山口組的井A作為研究對象,將所建立的可解釋神經網(wǎng)絡模型和極限學習機ELM、支持向量機SVM、BP神經網(wǎng)絡4個儲層參數(shù)預測模型推廣應用于全井段參數(shù)建模中。其中針對研究區(qū)脆性指數(shù)的INN模型最終結果可直觀地展示,可在不使用人工智能軟件的情況下快速高效地計算儲層參數(shù),這也是本文中所提出模型區(qū)別于普通機器學習算法的一大優(yōu)勢,INN模型表示為
(7)
式中,N為樣本點數(shù);ε為誤差估計值,實際應用中可忽略不計。
圖7為井A脆性指數(shù)預測結果的連續(xù)剖面??梢钥吹?在電阻率曲線和三孔隙度曲線劇烈變化的層段(如深度2079 m和2112.5 m處),ELM、SVM及BP神經網(wǎng)絡3種經典機器學習方法的收斂性明顯不足,ELM和BP預測曲線變化過于劇烈,而SVM模型的預測結果幾乎呈現(xiàn)一條平緩的直線。基于巖心巖石物理實驗的小樣本數(shù)據(jù)條件下,且當儲層參數(shù)與測井數(shù)據(jù)之間的非線性關系較強時,普通的機器學習模型難以從有限的數(shù)據(jù)中挖掘出正確的映射關系,方法收斂性差,精度難以保證。本文中提出的可解釋神經網(wǎng)絡的預測結果與巖心實驗數(shù)據(jù)有著很好的吻合性,變化趨勢可靠性強,進一步證明了所提出模型的可行性和有效性。預測得到的脆性指數(shù)剖面結合其他儲層參數(shù),為后續(xù)頁巖油儲層的勘探開發(fā)提供技術思路。
圖7 井A儲層參數(shù)預測結果Fig.7 Reservoir parameter prediction results of well A
本文中基于泛函網(wǎng)絡結構建立了一種可解釋的儲層參數(shù)預測模型,其關鍵在于可視化各子網(wǎng)絡基函數(shù)及其最優(yōu)系數(shù),對測井曲線和儲層參數(shù)之間的非線性關系具有一定程度的解釋性,相較于機器學習的“黑盒”性質具有更加可靠的參考和應用價值。普通機器學習模型(如ELM、SVM、BP)的精準度是建立在大量數(shù)據(jù)的基礎之上的,而在實際工程應用中很多時候僅有少量巖心實驗數(shù)據(jù)參與儲層參數(shù)建模,此時普通機器學習算法難以準確挖掘出小樣本數(shù)據(jù)之間的內在聯(lián)系,泛化能力不足?;诳山忉屔窠浘W(wǎng)絡得到的簡單的經驗關系式,穩(wěn)定性強,準確率高,一旦測井曲線與儲層參數(shù)的關系確定,便可不再依賴人工智能軟件進行推廣應用。