基于交叉檢驗(yàn)法的地質(zhì)預(yù)測(cè)模型優(yōu)選

2013-09-05 07:51:02宋永康王兵杰

石油化工應(yīng)用 2013年12期

宋永康，舒曉，王兵杰

（1.中國(guó)石油遼河油田分公司，遼寧盤錦 124109；2.中國(guó)石油大學(xué)（華東）地球科學(xué)與技術(shù)學(xué)院，山東青島 266580；3.南京大學(xué)內(nèi)生金屬礦床成礦機(jī)制研究國(guó)家重點(diǎn)實(shí)驗(yàn)室，江蘇南京 210093；4.南京大學(xué)地球科學(xué)與工程學(xué)院，江蘇南京 210093）

隨著我國(guó)大部分油田進(jìn)入開發(fā)中晚期階段，對(duì)于精細(xì)地質(zhì)模型的要求越來(lái)越高。在地質(zhì)建模領(lǐng)域常遇到的一個(gè)問(wèn)題是，同一地質(zhì)模型可以根據(jù)多種建模方法和變差函數(shù)組合實(shí)現(xiàn)，因此有效地優(yōu)選出最能夠反映地質(zhì)變量空間非均質(zhì)性和連續(xù)性特征的地質(zhì)預(yù)測(cè)模型（建模算法與參數(shù)組合）便成了地質(zhì)統(tǒng)計(jì)建模中的一個(gè)關(guān)鍵問(wèn)題。常用的一種方法是經(jīng)驗(yàn)對(duì)比法，即地質(zhì)學(xué)家憑借自身經(jīng)驗(yàn)根據(jù)估值（模擬）結(jié)果對(duì)地質(zhì)預(yù)測(cè)模型（估值方法、參數(shù)等）的好壞進(jìn)行評(píng)估及選擇。這種方法在實(shí)踐中廣為使用，但其準(zhǔn)確性取決于研究人員的地質(zhì)知識(shí)、經(jīng)驗(yàn)以及對(duì)研究區(qū)的認(rèn)識(shí)程度，帶有較大的主觀性和隨意性。由于缺乏準(zhǔn)確的衡量標(biāo)準(zhǔn)，常出現(xiàn)不同研究人員認(rèn)識(shí)不一致甚至完全相反的情況。此外，這種方法存在滯后性，往往需要得到估值（模擬）結(jié)果后才能判斷地質(zhì)預(yù)測(cè)模型的好壞，工作量很大，當(dāng)認(rèn)定模型預(yù)測(cè)效果不好后，還需從頭進(jìn)行模型的建立工作，效率很低，且還無(wú)法預(yù)知下一個(gè)建立的模型的效果好壞。為解決這一問(wèn)題，Delfiner首先提出應(yīng)用“交叉檢驗(yàn)法”來(lái)對(duì)地質(zhì)統(tǒng)計(jì)結(jié)果進(jìn)行定量的分析[1-2]。這一方法利用原始樣本數(shù)據(jù)提供的信息，根據(jù)定量指標(biāo)檢驗(yàn)其與多個(gè)候選預(yù)測(cè)模型的符合程度，擇優(yōu)選出最佳模型。由于該方法簡(jiǎn)便易行，極大程度地解決了方法及參數(shù)選擇的隨意化問(wèn)題，因此廣泛應(yīng)用在各個(gè)領(lǐng)域中[3-8]。本文首先對(duì)其基本原理進(jìn)行了講解，最后結(jié)合工區(qū)實(shí)例優(yōu)選并建立了最佳的地質(zhì)預(yù)測(cè)模型，并對(duì)其預(yù)測(cè)效果進(jìn)行了加密井檢驗(yàn)。

1 交叉檢驗(yàn)

所謂地質(zhì)預(yù)測(cè)模型優(yōu)選，即從一組地質(zhì)預(yù)測(cè)模型中選擇出最符合研究區(qū)實(shí)際情況及特定研究目標(biāo)的模型。對(duì)于本文來(lái)說(shuō)，一組模型指的是不同估值方法與變差函數(shù)模型的組合。交叉檢驗(yàn)法（cross validation)是一類用來(lái)評(píng)估模型與已知數(shù)據(jù)符合程度的分析技術(shù)，其認(rèn)為預(yù)測(cè)模型的質(zhì)量好壞取決于其預(yù)測(cè)效果，能夠用于評(píng)估源自同一數(shù)據(jù)的多個(gè)地質(zhì)預(yù)測(cè)模型的優(yōu)劣，在實(shí)踐中主要分為K重交叉驗(yàn)證（k-fold cross validation）和去一驗(yàn)證法（leave-one-out method），由于K重交叉驗(yàn)證法驗(yàn)證結(jié)果以及驗(yàn)證統(tǒng)計(jì)量隨k取值不同變化較大，優(yōu)選結(jié)果不穩(wěn)定，下面重點(diǎn)對(duì)去一驗(yàn)證法進(jìn)行介紹。

1.1 去一驗(yàn)證法（leave-one-out method）

該方法首先從原始樣本數(shù)據(jù)集中去除一個(gè)樣本點(diǎn)，從多種待選預(yù)測(cè)模型中選出一種將剩余的樣本值作為條件數(shù)據(jù)對(duì)該位置進(jìn)行估值，得到該樣本點(diǎn)處估計(jì)值和真實(shí)值之間的差異（誤差）。如此循環(huán)，得到各個(gè)樣本點(diǎn)處的誤差，最終按照事先確定好的誤差分析指標(biāo)選出最優(yōu)的預(yù)測(cè)模型。對(duì)于預(yù)測(cè)模型優(yōu)選來(lái)說(shuō)，誤差衡量指標(biāo)是根據(jù)克里格估值本身要求的無(wú)偏、最小方差確定的，其具體形式如下：

（1）誤差均值ME：衡量估值結(jié)果的無(wú)偏程度，即估值的準(zhǔn)確性，值越小越準(zhǔn)確，公式如下：

（2）誤差均方根RMSE：衡量模型預(yù)測(cè)結(jié)果與真實(shí)值的接近程度，值越小越接近，公式如下：

（3）平均標(biāo)準(zhǔn)誤差MSE：表示預(yù)測(cè)標(biāo)準(zhǔn)誤差的平均值：

（4）標(biāo)準(zhǔn)化均方根誤差:當(dāng)值大于1時(shí)說(shuō)明對(duì)地質(zhì)變量可變性估計(jì)不足，而當(dāng)小于1時(shí)說(shuō)明對(duì)可變性估計(jì)過(guò)大。該值越接近1，預(yù)測(cè)的標(biāo)準(zhǔn)誤差越有效，公式如下：

式（1）、（2）、（3）、（4）中，Z^（xi）是采樣點(diǎn)xi的估計(jì)值，Z（xi）是采樣點(diǎn)xi的真實(shí)觀測(cè)值，n為進(jìn)行交叉驗(yàn)證的樣本點(diǎn)數(shù)量。

2 研究實(shí)例

為了說(shuō)明交叉驗(yàn)證法在地質(zhì)預(yù)測(cè)模型優(yōu)選方面的有效性，本文針對(duì)實(shí)際工區(qū)氣井初始產(chǎn)能值，建立了多個(gè)估值模型，并應(yīng)用加密井對(duì)優(yōu)選得到的預(yù)測(cè)模型和非優(yōu)選預(yù)測(cè)模型進(jìn)行了驗(yàn)證。

2.1 樣本數(shù)據(jù)及分析處理

研究區(qū)勘探面積22 km×22 km，烴類產(chǎn)自晚泥盆世時(shí)的砂巖、粉砂巖地層[9]。樣本數(shù)據(jù)為油氣井初始產(chǎn)能，是一種衡量油氣井生產(chǎn)能力的指標(biāo)。圖1是樣本分布圖，共有樣本點(diǎn)674個(gè)，其中藍(lán)色點(diǎn)表示的是應(yīng)用簡(jiǎn)單隨機(jī)抽樣法得到的用于建模的574個(gè)樣本，采用這種抽放方法能夠保證抽樣是完全隨機(jī)進(jìn)行的，而不以主觀意識(shí)提高抽樣的代表性。而紅色點(diǎn)則是100個(gè)加密驗(yàn)證井樣本點(diǎn)。樣本分布圖（見圖1）顯示，研究區(qū)樣本分布不均勻，大部分地區(qū)油氣井生產(chǎn)能力較低，只有少數(shù)幾口高產(chǎn)能井。

由于樣本數(shù)據(jù)不規(guī)則分布將產(chǎn)生從聚效應(yīng)，影響空間數(shù)據(jù)統(tǒng)計(jì)結(jié)果準(zhǔn)確性[10-11]。因此首先要判斷樣本是否存在聚類及聚類位置。這里應(yīng)用Getis-Ord General G統(tǒng)計(jì)量對(duì)高值或低值的聚集程度進(jìn)行度量。G統(tǒng)計(jì)量是一種推論統(tǒng)計(jì)，零假設(shè)認(rèn)為不存在樣本點(diǎn)數(shù)值的空間聚類，分析結(jié)果將在零假設(shè)的基礎(chǔ)下解釋[12]。計(jì)算表明樣本集G統(tǒng)計(jì)量值為16.8，這反映了高產(chǎn)能油井聚集分布的特征。此時(shí)如果直接應(yīng)用原始樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)則會(huì)造成統(tǒng)計(jì)值的高估，這是由于高產(chǎn)能井附近的優(yōu)勢(shì)取樣（鉆井）造成的。這里應(yīng)用基于單元的去從聚效應(yīng)法對(duì)原始樣本數(shù)據(jù)進(jìn)行去從聚效應(yīng)處理。該法的基本原理是對(duì)樣本數(shù)據(jù)進(jìn)行權(quán)值校正，給密集分布的樣本點(diǎn)分配較小的權(quán)值，給稀疏分布的樣本點(diǎn)分配較大的權(quán)值，以減弱從聚效應(yīng)對(duì)包括變差函數(shù)在內(nèi)的統(tǒng)計(jì)結(jié)果產(chǎn)生的不利影響。應(yīng)用這種方法，要選擇恰當(dāng)?shù)膯卧笮?lái)給樣本賦予合理的權(quán)值。圖2是不同單元大小下計(jì)算得到的加權(quán)樣本平均值。

由于已知道高值數(shù)據(jù)密集分布，因此應(yīng)選擇最小的加權(quán)樣本均值。此時(shí)單元大小為2 250 m，加權(quán)后的樣本直方圖（見圖3），相比于原始樣本分布圖，其平均值和方差都變小了，更客觀地反映樣本數(shù)據(jù)的真實(shí)統(tǒng)計(jì)情況。

由于樣本數(shù)據(jù)呈偏態(tài)分布（見圖3），而準(zhǔn)確計(jì)算變差函數(shù)和使用普通克里格（OK）和簡(jiǎn)單克里格法（SK）需要樣本數(shù)據(jù)服從正態(tài)分布，應(yīng)對(duì)去從聚效應(yīng)后的樣本數(shù)據(jù)進(jìn)行正態(tài)變換。經(jīng)多次試驗(yàn)發(fā)現(xiàn)，對(duì)樣本數(shù)據(jù)進(jìn)行對(duì)數(shù)變換后即可以較好地服從正態(tài)分布。

2.2 實(shí)驗(yàn)變差函數(shù)計(jì)算及擬合

精確實(shí)驗(yàn)變差函數(shù)計(jì)算及擬合是得到準(zhǔn)確的地質(zhì)統(tǒng)計(jì)模型的關(guān)鍵環(huán)節(jié)，由于文章的目地是對(duì)預(yù)測(cè)模型進(jìn)行優(yōu)選，其它可控變量應(yīng)盡可能地保持穩(wěn)定，因此這里使用全部樣本集進(jìn)行計(jì)算。首先確定滯后距（步長(zhǎng)）參數(shù)，這是因?yàn)闇缶嗳粼O(shè)置過(guò)大，短距離的相關(guān)性可能被遮掩；過(guò)小則會(huì)由于缺乏樣本產(chǎn)生許多空值。這里使用平均最近鄰法進(jìn)行滯后距的確定。該方法能夠計(jì)算各采樣點(diǎn)與其最近相鄰樣本之間的平均距離[12]。由于其確定性地包含了一定數(shù)量的樣本對(duì)，因此提供了更為準(zhǔn)確的滯后距參數(shù)。經(jīng)過(guò)計(jì)算得到采樣間平均距離為450.2 m。但由于原始數(shù)據(jù)存在聚集現(xiàn)象，雖然數(shù)據(jù)值的從聚效應(yīng)被消除，但其本身密集分布的空間關(guān)系并未改變，即存在許多樣本值之間的實(shí)際距離遠(yuǎn)遠(yuǎn)小于平均最近臨法計(jì)算得到的平均距離。因此這里采用平均距離的一半225 m作為滯后距，最終計(jì)算得到了變差函數(shù)球狀圖（見圖4）。

第二種是孔洞效應(yīng)模型。由于實(shí)驗(yàn)變差函數(shù)曲線中表現(xiàn)出一定的高低值上下往返現(xiàn)象，變差函數(shù)球狀圖中實(shí)驗(yàn)變差函數(shù)值隨著滯后距離的增大非單調(diào)增加，高低值相間出現(xiàn)，則有可能存在孔洞效應(yīng)。因此，這里選用G.Journel提出的各向異性孔洞效應(yīng)模型來(lái)擬合實(shí)驗(yàn)變差函數(shù)[13]，擬合過(guò)程中要注意孔洞效應(yīng)模型的周期和相位要與實(shí)驗(yàn)變差函數(shù)一致[14]，擬合結(jié)果（見圖6）。

2.3 地質(zhì)預(yù)測(cè)模型的優(yōu)選

為了實(shí)現(xiàn)對(duì)油氣井初始產(chǎn)能值的預(yù)測(cè)，這里將使用簡(jiǎn)單克里格法和普通克里格法結(jié)合上述兩種變差函數(shù)進(jìn)行估值，因而一共有4種預(yù)測(cè)模型。對(duì)這4種組合模型應(yīng)用去一法進(jìn)行交叉驗(yàn)證來(lái)進(jìn)行預(yù)測(cè)模型優(yōu)選，計(jì)算結(jié)果（見表1）。

表1 4種候選組合的交叉驗(yàn)證結(jié)果Table.1 Cross validation results of four alternative combinations

預(yù)測(cè)模型的優(yōu)選主要有兩方面要考慮，一方面是其最優(yōu)性，另一方面是有效性。當(dāng)均方根誤差和平均誤差較小時(shí)，模型可以認(rèn)為是最優(yōu)的。但在多個(gè)模型之間對(duì)比時(shí)，由于進(jìn)行未知點(diǎn)估值時(shí)只能通過(guò)標(biāo)準(zhǔn)誤差來(lái)評(píng)估預(yù)測(cè)模型的不確定性，因此根據(jù)交叉驗(yàn)證得到的均方根誤差與估值的平均標(biāo)準(zhǔn)誤差越接近，模型有效性越高。從表1可以看出，模型2和模型3的標(biāo)準(zhǔn)均方根都過(guò)大，因此不是合適的預(yù)測(cè)模型。而模型4的均方根誤差和平均標(biāo)準(zhǔn)誤差接近程度不如模型1，因此模型1是最終優(yōu)選出的地質(zhì)預(yù)測(cè)模型。

2.4 預(yù)測(cè)結(jié)果及對(duì)比驗(yàn)證

最終應(yīng)用優(yōu)選得到的球狀模型及普通克里格估值方法組合建立起了該研究區(qū)的油氣井初始勢(shì)能平面估值圖（見圖7a），同時(shí)給出了其他3種非優(yōu)選方法得到的估值圖（見圖7b，c，d）作為對(duì)比驗(yàn)證，各圖中均標(biāo)示出了100口驗(yàn)證井的位置。

根據(jù)圖7給出的估值結(jié)果計(jì)算各個(gè)模型在100口驗(yàn)證井位置處真實(shí)值與估計(jì)值的平均相對(duì)誤差（見表2）。

表2 各預(yù)測(cè)模型平均相對(duì)誤差Table.2 Average relative error of 4 geological prediction model

根據(jù)表2顯示的結(jié)果可知，模型1的預(yù)測(cè)結(jié)果是最為精準(zhǔn)的。這一驗(yàn)證結(jié)果表明：通過(guò)交叉驗(yàn)證法優(yōu)選得到的地質(zhì)預(yù)測(cè)模型，在對(duì)油氣井初始產(chǎn)能值預(yù)測(cè)方面有著最高的準(zhǔn)確性。即應(yīng)用交叉驗(yàn)證法從多個(gè)候選模型中選出最佳的地質(zhì)預(yù)測(cè)模型，這一方法是可行的。

3 結(jié)論

針對(duì)地質(zhì)建模過(guò)程中常遇到的無(wú)法從多種可選建模方法和變差函數(shù)組合中選擇出最佳地質(zhì)預(yù)測(cè)模型的問(wèn)題，本文提出根據(jù)交叉驗(yàn)證理論應(yīng)用誤差均值、均方根誤差、標(biāo)準(zhǔn)均方根誤差和標(biāo)準(zhǔn)化平均誤差4項(xiàng)定量指標(biāo)實(shí)現(xiàn)地質(zhì)預(yù)測(cè)模型的優(yōu)選。實(shí)際氣田初始產(chǎn)能值預(yù)測(cè)結(jié)果表明，應(yīng)用交叉驗(yàn)證法能夠有效地從多種建模方法和變差函數(shù)模型中選擇出最優(yōu)方案，實(shí)現(xiàn)對(duì)未知點(diǎn)位置處的有效估值。

［1］Delfiner P.Liner estimation of nonstationary spatial phenomenon［C］.Guarascio M,David M，Huijbregts C.Advance Geostatistics in Mining Industry.Netherlands:Springer，1976:49-68.

［2］David M.The practice of kriging［C］.Guarascio M，David M，Huijbregts C.Advance Geostatistics in Mining Industry.Netherland:Springer，1976：31-48.

［3］Clark I.The Art of Cross Validation in Geostatistical Applications ［C］.Ramani R V.Proceedings of the 19th APCOM.Colorado：Society of Mining Engineers，1986：211-220.

［4］Journel A G，Huijbregts C.Mining Geostatistics［M］.New York：Academic Press，1978.

［5］Parker H M，Journel A G，Dixon W C.The use of conditional lognormal probability distribution for the estimation of open-pit ore reserves in strata-bound uranium deposits-a case study［C］.Proceedings of the 16th APCOM Symposium.New York：Society of Mining Engineers，1976：133-148.

［6］Arlot S.A survey of cross-validation procedures for model selection［J］.Statistics Surveys，2010，（4）：40-79.

［7］Bouckaert R R.Choosing between two learning algorithms based on calibrated tests［C］.Proceedings of the 20th International Conference on Machine Learning.Washington DC：IMCL，2003：51-58.

［8］Braga-Neto U M，Dougherty E R.Is cross-validation valid for small-sample microarray classification［J］.Bioiniformatics，2004，20（3）：374-380.

［9］Hohn M E.Geostatistics and Petroleum Geology［M］.Dordrecht：Kluwer Academic Publishers，1999.

［10］Deutsch C V，A.G.Journel A G.GSLIB Geostatistical Software Library and User's Guide［M］.Second Edition.New York，Oxford University Press，1998：213-214.

［11］Olea R A.Declustering of Clustered Preferential Sampling for Histogram and Semivariogram Inference［J］.Mathematical Geology，2007，39：453-467.

［12］Mitchell，andy.The ESRI Guide to GIS Analysis，Volume 2［M］.ESRI Press，2005：75-133.

［13］Journel A G，F(xiàn)roidevaux R.Anisotropic hole-effect modeling［J］.Mathematical Geology，1982，14（3）：217-239.

［14］Ma Y Z，Jones T A.Teacher’s aide modeling hole-effect variograms of lithology-Indicator variables［J］.Mathematical Geology，2001，33（5）：631-648.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡