宋永康 ,舒 曉 ,王兵杰
(1.中國(guó)石油遼河油田分公司,遼寧盤錦 124109;2.中國(guó)石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,山東青島 266580;3.南京大學(xué)內(nèi)生金屬礦床成礦機(jī)制研究國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210093;4.南京大學(xué)地球科學(xué)與工程學(xué)院,江蘇南京 210093)
隨著我國(guó)大部分油田進(jìn)入開發(fā)中晚期階段,對(duì)于精細(xì)地質(zhì)模型的要求越來(lái)越高。在地質(zhì)建模領(lǐng)域常遇到的一個(gè)問(wèn)題是,同一地質(zhì)模型可以根據(jù)多種建模方法和變差函數(shù)組合實(shí)現(xiàn),因此有效地優(yōu)選出最能夠反映地質(zhì)變量空間非均質(zhì)性和連續(xù)性特征的地質(zhì)預(yù)測(cè)模型(建模算法與參數(shù)組合)便成了地質(zhì)統(tǒng)計(jì)建模中的一個(gè)關(guān)鍵問(wèn)題。常用的一種方法是經(jīng)驗(yàn)對(duì)比法,即地質(zhì)學(xué)家憑借自身經(jīng)驗(yàn)根據(jù)估值(模擬)結(jié)果對(duì)地質(zhì)預(yù)測(cè)模型(估值方法、參數(shù)等)的好壞進(jìn)行評(píng)估及選擇。這種方法在實(shí)踐中廣為使用,但其準(zhǔn)確性取決于研究人員的地質(zhì)知識(shí)、經(jīng)驗(yàn)以及對(duì)研究區(qū)的認(rèn)識(shí)程度,帶有較大的主觀性和隨意性。由于缺乏準(zhǔn)確的衡量標(biāo)準(zhǔn),常出現(xiàn)不同研究人員認(rèn)識(shí)不一致甚至完全相反的情況。此外,這種方法存在滯后性,往往需要得到估值(模擬)結(jié)果后才能判斷地質(zhì)預(yù)測(cè)模型的好壞,工作量很大,當(dāng)認(rèn)定模型預(yù)測(cè)效果不好后,還需從頭進(jìn)行模型的建立工作,效率很低,且還無(wú)法預(yù)知下一個(gè)建立的模型的效果好壞。為解決這一問(wèn)題,Delfiner首先提出應(yīng)用“交叉檢驗(yàn)法”來(lái)對(duì)地質(zhì)統(tǒng)計(jì)結(jié)果進(jìn)行定量的分析[1-2]。這一方法利用原始樣本數(shù)據(jù)提供的信息,根據(jù)定量指標(biāo)檢驗(yàn)其與多個(gè)候選預(yù)測(cè)模型的符合程度,擇優(yōu)選出最佳模型。由于該方法簡(jiǎn)便易行,極大程度地解決了方法及參數(shù)選擇的隨意化問(wèn)題,因此廣泛應(yīng)用在各個(gè)領(lǐng)域中[3-8]。本文首先對(duì)其基本原理進(jìn)行了講解,最后結(jié)合工區(qū)實(shí)例優(yōu)選并建立了最佳的地質(zhì)預(yù)測(cè)模型,并對(duì)其預(yù)測(cè)效果進(jìn)行了加密井檢驗(yàn)。
所謂地質(zhì)預(yù)測(cè)模型優(yōu)選,即從一組地質(zhì)預(yù)測(cè)模型中選擇出最符合研究區(qū)實(shí)際情況及特定研究目標(biāo)的模型。對(duì)于本文來(lái)說(shuō),一組模型指的是不同估值方法與變差函數(shù)模型的組合。交叉檢驗(yàn)法(cross validation)是一類用來(lái)評(píng)估模型與已知數(shù)據(jù)符合程度的分析技術(shù),其認(rèn)為預(yù)測(cè)模型的質(zhì)量好壞取決于其預(yù)測(cè)效果,能夠用于評(píng)估源自同一數(shù)據(jù)的多個(gè)地質(zhì)預(yù)測(cè)模型的優(yōu)劣,在實(shí)踐中主要分為K重交叉驗(yàn)證(k-fold cross validation)和去一驗(yàn)證法(leave-one-out method),由于K重交叉驗(yàn)證法驗(yàn)證結(jié)果以及驗(yàn)證統(tǒng)計(jì)量隨k取值不同變化較大,優(yōu)選結(jié)果不穩(wěn)定,下面重點(diǎn)對(duì)去一驗(yàn)證法進(jìn)行介紹。
該方法首先從原始樣本數(shù)據(jù)集中去除一個(gè)樣本點(diǎn),從多種待選預(yù)測(cè)模型中選出一種將剩余的樣本值作為條件數(shù)據(jù)對(duì)該位置進(jìn)行估值,得到該樣本點(diǎn)處估計(jì)值和真實(shí)值之間的差異(誤差)。如此循環(huán),得到各個(gè)樣本點(diǎn)處的誤差,最終按照事先確定好的誤差分析指標(biāo)選出最優(yōu)的預(yù)測(cè)模型。對(duì)于預(yù)測(cè)模型優(yōu)選來(lái)說(shuō),誤差衡量指標(biāo)是根據(jù)克里格估值本身要求的無(wú)偏、最小方差確定的,其具體形式如下:
(1)誤差均值ME:衡量估值結(jié)果的無(wú)偏程度,即估值的準(zhǔn)確性,值越小越準(zhǔn)確,公式如下:
(2)誤差均方根RMSE:衡量模型預(yù)測(cè)結(jié)果與真實(shí)值的接近程度,值越小越接近,公式如下:
(3)平均標(biāo)準(zhǔn)誤差MSE:表示預(yù)測(cè)標(biāo)準(zhǔn)誤差的平均值:
(4)標(biāo)準(zhǔn)化均方根誤差:當(dāng)值大于1時(shí)說(shuō)明對(duì)地質(zhì)變量可變性估計(jì)不足,而當(dāng)小于1時(shí)說(shuō)明對(duì)可變性估計(jì)過(guò)大。該值越接近1,預(yù)測(cè)的標(biāo)準(zhǔn)誤差越有效,公式如下:
式(1)、(2)、(3)、(4)中,Z^(xi)是采樣點(diǎn)xi的估計(jì)值,Z(xi)是采樣點(diǎn)xi的真實(shí)觀測(cè)值,n為進(jìn)行交叉驗(yàn)證的樣本點(diǎn)數(shù)量。
為了說(shuō)明交叉驗(yàn)證法在地質(zhì)預(yù)測(cè)模型優(yōu)選方面的有效性,本文針對(duì)實(shí)際工區(qū)氣井初始產(chǎn)能值,建立了多個(gè)估值模型,并應(yīng)用加密井對(duì)優(yōu)選得到的預(yù)測(cè)模型和非優(yōu)選預(yù)測(cè)模型進(jìn)行了驗(yàn)證。
研究區(qū)勘探面積22 km×22 km,烴類產(chǎn)自晚泥盆世時(shí)的砂巖、粉砂巖地層[9]。樣本數(shù)據(jù)為油氣井初始產(chǎn)能,是一種衡量油氣井生產(chǎn)能力的指標(biāo)。圖1是樣本分布圖,共有樣本點(diǎn)674個(gè),其中藍(lán)色點(diǎn)表示的是應(yīng)用簡(jiǎn)單隨機(jī)抽樣法得到的用于建模的574個(gè)樣本,采用這種抽放方法能夠保證抽樣是完全隨機(jī)進(jìn)行的,而不以主觀意識(shí)提高抽樣的代表性。而紅色點(diǎn)則是100個(gè)加密驗(yàn)證井樣本點(diǎn)。樣本分布圖(見圖1)顯示,研究區(qū)樣本分布不均勻,大部分地區(qū)油氣井生產(chǎn)能力較低,只有少數(shù)幾口高產(chǎn)能井。
由于樣本數(shù)據(jù)不規(guī)則分布將產(chǎn)生從聚效應(yīng),影響空間數(shù)據(jù)統(tǒng)計(jì)結(jié)果準(zhǔn)確性[10-11]。因此首先要判斷樣本是否存在聚類及聚類位置。這里應(yīng)用Getis-Ord General G統(tǒng)計(jì)量對(duì)高值或低值的聚集程度進(jìn)行度量。G統(tǒng)計(jì)量是一種推論統(tǒng)計(jì),零假設(shè)認(rèn)為不存在樣本點(diǎn)數(shù)值的空間聚類,分析結(jié)果將在零假設(shè)的基礎(chǔ)下解釋[12]。計(jì)算表明樣本集G統(tǒng)計(jì)量值為16.8,這反映了高產(chǎn)能油井聚集分布的特征。此時(shí)如果直接應(yīng)用原始樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)則會(huì)造成統(tǒng)計(jì)值的高估,這是由于高產(chǎn)能井附近的優(yōu)勢(shì)取樣(鉆井)造成的。這里應(yīng)用基于單元的去從聚效應(yīng)法對(duì)原始樣本數(shù)據(jù)進(jìn)行去從聚效應(yīng)處理。該法的基本原理是對(duì)樣本數(shù)據(jù)進(jìn)行權(quán)值校正,給密集分布的樣本點(diǎn)分配較小的權(quán)值,給稀疏分布的樣本點(diǎn)分配較大的權(quán)值,以減弱從聚效應(yīng)對(duì)包括變差函數(shù)在內(nèi)的統(tǒng)計(jì)結(jié)果產(chǎn)生的不利影響。應(yīng)用這種方法,要選擇恰當(dāng)?shù)膯卧笮?lái)給樣本賦予合理的權(quán)值。圖2是不同單元大小下計(jì)算得到的加權(quán)樣本平均值。
由于已知道高值數(shù)據(jù)密集分布,因此應(yīng)選擇最小的加權(quán)樣本均值。此時(shí)單元大小為2 250 m,加權(quán)后的樣本直方圖(見圖3),相比于原始樣本分布圖,其平均值和方差都變小了,更客觀地反映樣本數(shù)據(jù)的真實(shí)統(tǒng)計(jì)情況。
由于樣本數(shù)據(jù)呈偏態(tài)分布(見圖3),而準(zhǔn)確計(jì)算變差函數(shù)和使用普通克里格(OK)和簡(jiǎn)單克里格法(SK)需要樣本數(shù)據(jù)服從正態(tài)分布,應(yīng)對(duì)去從聚效應(yīng)后的樣本數(shù)據(jù)進(jìn)行正態(tài)變換。經(jīng)多次試驗(yàn)發(fā)現(xiàn),對(duì)樣本數(shù)據(jù)進(jìn)行對(duì)數(shù)變換后即可以較好地服從正態(tài)分布。
精確實(shí)驗(yàn)變差函數(shù)計(jì)算及擬合是得到準(zhǔn)確的地質(zhì)統(tǒng)計(jì)模型的關(guān)鍵環(huán)節(jié),由于文章的目地是對(duì)預(yù)測(cè)模型進(jìn)行優(yōu)選,其它可控變量應(yīng)盡可能地保持穩(wěn)定,因此這里使用全部樣本集進(jìn)行計(jì)算。首先確定滯后距(步長(zhǎng))參數(shù),這是因?yàn)闇缶嗳粼O(shè)置過(guò)大,短距離的相關(guān)性可能被遮掩;過(guò)小則會(huì)由于缺乏樣本產(chǎn)生許多空值。這里使用平均最近鄰法進(jìn)行滯后距的確定。該方法能夠計(jì)算各采樣點(diǎn)與其最近相鄰樣本之間的平均距離[12]。由于其確定性地包含了一定數(shù)量的樣本對(duì),因此提供了更為準(zhǔn)確的滯后距參數(shù)。經(jīng)過(guò)計(jì)算得到采樣間平均距離為450.2 m。但由于原始數(shù)據(jù)存在聚集現(xiàn)象,雖然數(shù)據(jù)值的從聚效應(yīng)被消除,但其本身密集分布的空間關(guān)系并未改變,即存在許多樣本值之間的實(shí)際距離遠(yuǎn)遠(yuǎn)小于平均最近臨法計(jì)算得到的平均距離。因此這里采用平均距離的一半225 m作為滯后距,最終計(jì)算得到了變差函數(shù)球狀圖(見圖4)。
第二種是孔洞效應(yīng)模型。由于實(shí)驗(yàn)變差函數(shù)曲線中表現(xiàn)出一定的高低值上下往返現(xiàn)象,變差函數(shù)球狀圖中實(shí)驗(yàn)變差函數(shù)值隨著滯后距離的增大非單調(diào)增加,高低值相間出現(xiàn),則有可能存在孔洞效應(yīng)。因此,這里選用G.Journel提出的各向異性孔洞效應(yīng)模型來(lái)擬合實(shí)驗(yàn)變差函數(shù)[13],擬合過(guò)程中要注意孔洞效應(yīng)模型的周期和相位要與實(shí)驗(yàn)變差函數(shù)一致[14],擬合結(jié)果(見圖6)。
為了實(shí)現(xiàn)對(duì)油氣井初始產(chǎn)能值的預(yù)測(cè),這里將使用簡(jiǎn)單克里格法和普通克里格法結(jié)合上述兩種變差函數(shù)進(jìn)行估值,因而一共有4種預(yù)測(cè)模型。對(duì)這4種組合模型應(yīng)用去一法進(jìn)行交叉驗(yàn)證來(lái)進(jìn)行預(yù)測(cè)模型優(yōu)選,計(jì)算結(jié)果(見表1)。
表1 4種候選組合的交叉驗(yàn)證結(jié)果Table.1 Cross validation results of four alternative combinations
預(yù)測(cè)模型的優(yōu)選主要有兩方面要考慮,一方面是其最優(yōu)性,另一方面是有效性。當(dāng)均方根誤差和平均誤差較小時(shí),模型可以認(rèn)為是最優(yōu)的。但在多個(gè)模型之間對(duì)比時(shí),由于進(jìn)行未知點(diǎn)估值時(shí)只能通過(guò)標(biāo)準(zhǔn)誤差來(lái)評(píng)估預(yù)測(cè)模型的不確定性,因此根據(jù)交叉驗(yàn)證得到的均方根誤差與估值的平均標(biāo)準(zhǔn)誤差越接近,模型有效性越高。從表1可以看出,模型2和模型3的標(biāo)準(zhǔn)均方根都過(guò)大,因此不是合適的預(yù)測(cè)模型。而模型4的均方根誤差和平均標(biāo)準(zhǔn)誤差接近程度不如模型1,因此模型1是最終優(yōu)選出的地質(zhì)預(yù)測(cè)模型。
最終應(yīng)用優(yōu)選得到的球狀模型及普通克里格估值方法組合建立起了該研究區(qū)的油氣井初始勢(shì)能平面估值圖(見圖7a),同時(shí)給出了其他3種非優(yōu)選方法得到的估值圖(見圖7b,c,d)作為對(duì)比驗(yàn)證,各圖中均標(biāo)示出了100口驗(yàn)證井的位置。
根據(jù)圖7給出的估值結(jié)果計(jì)算各個(gè)模型在100口驗(yàn)證井位置處真實(shí)值與估計(jì)值的平均相對(duì)誤差(見表2)。
表2 各預(yù)測(cè)模型平均相對(duì)誤差Table.2 Average relative error of 4 geological prediction model
根據(jù)表2顯示的結(jié)果可知,模型1的預(yù)測(cè)結(jié)果是最為精準(zhǔn)的。這一驗(yàn)證結(jié)果表明:通過(guò)交叉驗(yàn)證法優(yōu)選得到的地質(zhì)預(yù)測(cè)模型,在對(duì)油氣井初始產(chǎn)能值預(yù)測(cè)方面有著最高的準(zhǔn)確性。即應(yīng)用交叉驗(yàn)證法從多個(gè)候選模型中選出最佳的地質(zhì)預(yù)測(cè)模型,這一方法是可行的。
針對(duì)地質(zhì)建模過(guò)程中常遇到的無(wú)法從多種可選建模方法和變差函數(shù)組合中選擇出最佳地質(zhì)預(yù)測(cè)模型的問(wèn)題,本文提出根據(jù)交叉驗(yàn)證理論應(yīng)用誤差均值、均方根誤差、標(biāo)準(zhǔn)均方根誤差和標(biāo)準(zhǔn)化平均誤差4項(xiàng)定量指標(biāo)實(shí)現(xiàn)地質(zhì)預(yù)測(cè)模型的優(yōu)選。實(shí)際氣田初始產(chǎn)能值預(yù)測(cè)結(jié)果表明,應(yīng)用交叉驗(yàn)證法能夠有效地從多種建模方法和變差函數(shù)模型中選擇出最優(yōu)方案,實(shí)現(xiàn)對(duì)未知點(diǎn)位置處的有效估值。
[1]Delfiner P.Liner estimation of nonstationary spatial phenomenon[C].Guarascio M,David M,Huijbregts C.Advance Geostatistics in Mining Industry.Netherlands:Springer,1976:49-68.
[2]David M.The practice of kriging[C].Guarascio M,David M,Huijbregts C.Advance Geostatistics in Mining Industry.Netherland:Springer,1976:31-48.
[3]Clark I.The Art of Cross Validation in Geostatistical Applications [C].Ramani R V.Proceedings of the 19th APCOM.Colorado:Society of Mining Engineers,1986:211-220.
[4]Journel A G,Huijbregts C.Mining Geostatistics[M].New York:Academic Press,1978.
[5]Parker H M,Journel A G,Dixon W C.The use of conditional lognormal probability distribution for the estimation of open-pit ore reserves in strata-bound uranium deposits-a case study[C].Proceedings of the 16th APCOM Symposium.New York:Society of Mining Engineers,1976:133-148.
[6]Arlot S.A survey of cross-validation procedures for model selection[J].Statistics Surveys,2010,(4):40-79.
[7]Bouckaert R R.Choosing between two learning algorithms based on calibrated tests[C].Proceedings of the 20th International Conference on Machine Learning.Washington DC:IMCL,2003:51-58.
[8]Braga-Neto U M,Dougherty E R.Is cross-validation valid for small-sample microarray classification[J].Bioiniformatics,2004,20(3):374-380.
[9]Hohn M E.Geostatistics and Petroleum Geology[M].Dordrecht:Kluwer Academic Publishers,1999.
[10]Deutsch C V,A.G.Journel A G.GSLIB Geostatistical Software Library and User's Guide[M].Second Edition.New York,Oxford University Press,1998:213-214.
[11]Olea R A.Declustering of Clustered Preferential Sampling for Histogram and Semivariogram Inference[J].Mathematical Geology,2007,39:453-467.
[12]Mitchell,andy.The ESRI Guide to GIS Analysis,Volume 2[M].ESRI Press,2005:75-133.
[13]Journel A G,F(xiàn)roidevaux R.Anisotropic hole-effect modeling[J].Mathematical Geology,1982,14(3):217-239.
[14]Ma Y Z,Jones T A.Teacher’s aide modeling hole-effect variograms of lithology-Indicator variables[J].Mathematical Geology,2001,33(5):631-648.