葉智慧,寧禹強(qiáng),張 敏,李曉蓉
(1.中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院,北京102249;2.大慶油田采油工程研究院,黑龍江 大慶 163453;3.中國(guó)石油大學(xué)(北京)石油工程學(xué)院,北京102249)
南海北部陸緣位于東亞大陸邊緣構(gòu)造域內(nèi),經(jīng)歷了由板內(nèi)裂陷演變?yōu)檫吘壽晗莸牡厥窔v程,形成了珠江口盆地、瓊東南盆地、西沙海槽盆地、臺(tái)西南盆地、雙峰北盆地和筆架南盆地等新生代沉積盆地。特別是位于陸坡深水區(qū)的新生代大型沉積盆地,地質(zhì)構(gòu)造獨(dú)特,具備良好的天然氣水合物成藏地質(zhì)條件[1]。天然氣水合物(以下簡(jiǎn)稱(chēng)水合物)是一種天然氣與水在高壓低溫條件下形成的類(lèi)冰狀的結(jié)晶物質(zhì),在我國(guó)青藏高原凍土帶和南海北部深海海底都有發(fā)現(xiàn),已被我國(guó)正式確認(rèn)為一種新的礦產(chǎn)資源。天然氣水合物因其資源密度高,全球分布廣泛,并且綠色清潔無(wú)污染,商業(yè)化開(kāi)發(fā)已被世界多國(guó)提上日程[2]。1 m3水合物大約可分解出160 m3天然氣(標(biāo)準(zhǔn)狀態(tài)下),其碳含量約為現(xiàn)有化石燃料總和的2倍,一旦取得技術(shù)突破,其必將形成對(duì)常規(guī)油氣的“第二次革命”[3-4],水合物的精準(zhǔn)識(shí)別是勘探開(kāi)發(fā)的前提。
目前國(guó)內(nèi)外地層水合物識(shí)別方法主要分為直接法與間接法。直接識(shí)別法主要包括肉眼觀察法、巖心紅外測(cè)溫法、鉆探異常、生物識(shí)別法等。間接識(shí)別法主要是通過(guò)測(cè)井?dāng)?shù)據(jù)或地震資料對(duì)地層水合物進(jìn)行識(shí)別。采用直接識(shí)別法能夠最為直觀地識(shí)別出地層的水合物,但也存在著一系列的問(wèn)題。例如取芯成本過(guò)高,取芯過(guò)程中易導(dǎo)致水合物分解。直接識(shí)別法與觀察者的主觀因素有關(guān),有時(shí)很可能因?yàn)橛^察者的失誤或經(jīng)驗(yàn)不足而做出錯(cuò)誤的判斷。在鉆進(jìn)過(guò)程中可以通過(guò)測(cè)量地層電阻率、聲波時(shí)差、地層密度和地層伽馬值等測(cè)井參數(shù)綜合分析地層情況[5]。間接識(shí)別法通??筛鶕?jù)地層水合物的伽馬值低、井直徑大、電阻率高、密度低、中子孔隙度高以及聲波時(shí)差低等測(cè)井特征來(lái)定性地判別天然氣水合物。但是傳統(tǒng)的測(cè)井曲線識(shí)別方法往往依靠專(zhuān)家判斷,主觀性強(qiáng),而且耗時(shí)較長(zhǎng),在要求實(shí)時(shí)快速?zèng)Q策時(shí)具有明顯的缺點(diǎn),因此需要尋找一種快速、準(zhǔn)確率高、適應(yīng)性好的識(shí)別方法,以適應(yīng)未來(lái)智能化鉆井需求。隨著人工智能的高速發(fā)展,越來(lái)越多研究者將機(jī)器學(xué)習(xí)方法應(yīng)用于水合物識(shí)別的過(guò)程,并取得了良好的成果。其中研究較多的機(jī)器學(xué)習(xí)算法包括BP神經(jīng)網(wǎng)絡(luò)算法[6]、支持向量機(jī)算法[7]、決策樹(shù)算法[8]、馬爾科夫隨機(jī)場(chǎng)[9]、KNN算法[10]等。但上述算法在實(shí)際運(yùn)用過(guò)程中存在一定的局限性,具體表現(xiàn)為:支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)都屬于黑箱模型,無(wú)法控制與分析模型的中間過(guò)程;對(duì)于決策樹(shù)模型,過(guò)多的冗余樣本會(huì)導(dǎo)致樹(shù)底層決策質(zhì)量的降低,并伴隨過(guò)擬合現(xiàn)象的產(chǎn)生[11];KNN算法每次預(yù)測(cè)都需要對(duì)所有數(shù)據(jù)進(jìn)行重新計(jì)算,其效率較低[12]。BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)天然氣水合物生成,是采用以經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimize,ERM)的傳統(tǒng)統(tǒng)計(jì)學(xué)理論為基礎(chǔ),這樣容易降低BP神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性,甚至出現(xiàn)局部過(guò)優(yōu)情況[13-14]。采用BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行水合物多屬性?xún)?chǔ)層參數(shù)預(yù)測(cè),理論上隨著屬性的增加可以降低誤差,而僅應(yīng)用于井旁地震道的訓(xùn)練數(shù)據(jù)符合時(shí),但是在預(yù)測(cè)其他數(shù)據(jù)時(shí),有可能沒(méi)有效果欠佳,即“過(guò)度訓(xùn)練”[15]。彭炎等[16]采用支持向量回歸算法,預(yù)測(cè)青海木里地區(qū)凍土區(qū)天然氣水合物地層,預(yù)測(cè)的結(jié)果基本符合實(shí)際,對(duì)后續(xù)勘探有一定指導(dǎo)意義。
總之,目前采用的識(shí)別方法普遍存在一些問(wèn)題,如泛化能力不強(qiáng)、計(jì)算效率不高、準(zhǔn)確率不高、有過(guò)擬合現(xiàn)象等,需要尋找一種更適合實(shí)時(shí)測(cè)井?dāng)?shù)據(jù)的快速識(shí)別方法,具備快速、高效、小樣本以及準(zhǔn)確性等要求。本文運(yùn)用了四種典型的分類(lèi)學(xué)習(xí)算法,通過(guò)各種評(píng)價(jià)指標(biāo)對(duì)最終的識(shí)別結(jié)果做出評(píng)價(jià),發(fā)現(xiàn)集成學(xué)習(xí)方法具有更高的準(zhǔn)確性,并找到最優(yōu)化的方法和參數(shù)組合,在鉆進(jìn)水合物過(guò)程中實(shí)現(xiàn)快速、實(shí)時(shí)、小樣本、準(zhǔn)確的識(shí)別,為實(shí)時(shí)鉆井過(guò)程中機(jī)器自主巖性識(shí)別方法提供參考。
本文主要利用AdaBoost集成學(xué)習(xí)算法、支持向量機(jī)、決策樹(shù)、隨機(jī)森林4種典型的機(jī)器學(xué)習(xí)分類(lèi)算法,基于測(cè)井曲線數(shù)據(jù)對(duì)水合物層段進(jìn)行識(shí)別。以下介紹這幾種算法的基本原理。
基于 Boosting 的集成學(xué)習(xí)算法中最常用的是AdaBoost 集成學(xué)習(xí)算法。其核心思想是訓(xùn)練一系列弱分類(lèi)器,然后將弱分類(lèi)器加權(quán)聯(lián)合,構(gòu)成一個(gè)強(qiáng)分類(lèi)器。
給定數(shù)據(jù)集:(x1,y1),(x2,y2),(xN,yN),其中yi∈{-1,1},用于表示樣本的類(lèi)別標(biāo)簽,xi表示樣本的特征向量,i=1,…,N,N為樣本總數(shù)。集成學(xué)習(xí)的具體步驟如下。
第一步:初始化數(shù)據(jù)的權(quán)值分布向量D1。
式中,w1i表示第1次迭代時(shí)第i個(gè)樣本的權(quán)值。
第二步:進(jìn)行迭代運(yùn)算,達(dá)到設(shè)定值時(shí)停止。對(duì)于第t次迭代,進(jìn)行如下步驟(t=1,2,…,T,T為總迭代次數(shù))。
選取一個(gè)當(dāng)前誤差率最低的弱分類(lèi)器ht,并計(jì)算該弱分類(lèi)器在分布Dt上的預(yù)測(cè)誤差率et。
式中,ht(xi)表示弱分類(lèi)器對(duì)樣本xi的分類(lèi),若分類(lèi)錯(cuò)誤則I(·)值取1,反之取0。
計(jì)算該弱分類(lèi)器在集成分類(lèi)器中所占權(quán)重αt為:
更新訓(xùn)練樣本的權(quán)值分布Dt+1。
式中,Zt為歸一化常數(shù),。
第三步:按弱分類(lèi)器權(quán)值t組合各個(gè)弱分類(lèi)器,得到集成學(xué)習(xí)分類(lèi)器[17]。
支持向量機(jī)算法本質(zhì)上屬于有監(jiān)督的、可擴(kuò)展分類(lèi)元的、可跨越線性與非線性障礙的高效、受限、廣義分類(lèi)器,為了實(shí)現(xiàn)非線性的多核數(shù)據(jù)挖掘與聚類(lèi)效果,提高內(nèi)存的耗費(fèi)比,平衡泛化能力與學(xué)習(xí)能力[18]。通過(guò)預(yù)測(cè)模型構(gòu)造出損失函數(shù),再基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則得到支持向量機(jī)算法。它要解決一個(gè)原始最優(yōu)化問(wèn)題,其形式如下。
式中,w為權(quán)值向量;w*為w的伴隨矩陣;c為懲罰參數(shù);ξi、ξi*為松弛變量;φ(xi)為映射函數(shù);xi為輸入變量;yi為輸出變量;l為樣本個(gè)數(shù);b為偏值;ε為誤差上限。
通過(guò)代入拉格朗日乘子ai和ai*,將式(7)轉(zhuǎn)化為拉格朗日多項(xiàng)式,用E表示,即
式中,k(xi,xj)為核函數(shù);xi、xj為輸入變量;l為樣本個(gè)數(shù)。
由上式求解,可得到支持向量機(jī)的預(yù)測(cè)函數(shù)如下。
基于Mercer條件,且將高斯RBF作為核函數(shù),g為核函數(shù)的內(nèi)部參數(shù),g>0,則有
式(7)中的懲罰參數(shù)c和式(13)中核函數(shù)的內(nèi)部參數(shù)g決定了SVM的預(yù)測(cè)精確度。因此,為了構(gòu)建高精度的預(yù)測(cè)模型,需要對(duì)SVM內(nèi)部的參數(shù)(c,g)進(jìn)行優(yōu)化以確定最優(yōu)參數(shù)[19]。
決策樹(shù)分類(lèi)算法的實(shí)質(zhì)是通過(guò)對(duì)樣本進(jìn)行訓(xùn)練,并在這一過(guò)程中不斷總結(jié)與歸納實(shí)現(xiàn)樣本自學(xué)習(xí),從而得到相應(yīng)的決策樹(shù)或者決策樹(shù)規(guī)則。之后,依據(jù)所獲得的決策樹(shù)或者決策樹(shù)規(guī)則完成數(shù)據(jù)的準(zhǔn)確分類(lèi)。
給定數(shù)據(jù)集D={d1,d2,…,dn},每個(gè)數(shù)據(jù)集的類(lèi)別屬性值可用A1,A2,…,Am進(jìn)行表示,設(shè)定類(lèi)別屬性有n個(gè)互不相等的值。由此,可將數(shù)據(jù)集分割為S1,S2,…,Sn個(gè)子集,則數(shù)據(jù)集D的平均信息量可以用下式進(jìn)行表征。
其中,P(Si)=|P(Si)|/|D|。
建立決策樹(shù)也即逐步縮小分類(lèi)不確定性的步驟,若Aj具有r個(gè)值al,其中1<l<r,依照Aj將S子集分割為數(shù)量為t的子集,則限定Aj=al時(shí),各Sil子集被歸類(lèi)于第i類(lèi)數(shù)據(jù)集合。此時(shí),數(shù)據(jù)集D的平均信息量可以用下式進(jìn)行表征。
此時(shí),數(shù)據(jù)集D的信息增益量可以用式(17)進(jìn)行表征[20]。
隨機(jī)森林是復(fù)合決策樹(shù)的集成機(jī)器學(xué)習(xí)算法。隨機(jī)森林使用booststrap方法構(gòu)建n個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集對(duì)應(yīng)生成一個(gè)決策樹(shù),總體就有n個(gè)決策樹(shù),因?yàn)槊總€(gè)決策樹(shù)的數(shù)據(jù)集都不相同,所以每棵樹(shù)又有少量區(qū)別。最后對(duì)所有的決策樹(shù)的預(yù)測(cè)結(jié)果取平均減少預(yù)測(cè)的方差,提高在測(cè)試集上的性能表現(xiàn)。相比較單棵樹(shù)訓(xùn)練過(guò)程,隨機(jī)性主要體現(xiàn)在兩個(gè)方面:每次迭代是在原始數(shù)據(jù)集中重新抽樣獲得不同的訓(xùn)練集;對(duì)于每一個(gè)樹(shù)節(jié)點(diǎn),考慮不同的隨機(jī)特征子集來(lái)進(jìn)行分裂。
隨機(jī)森林的數(shù)學(xué)模型公式如下。
式中,N為回歸樹(shù)模型回歸樹(shù)的數(shù)量[21]。
關(guān)于預(yù)測(cè)結(jié)果的評(píng)價(jià)參數(shù)算法,對(duì)于識(shí)別水合物的情況,在二元分類(lèi)中分類(lèi)結(jié)果只有兩種,真和假。一般用T(True)表示預(yù)測(cè)結(jié)果正確(與實(shí)際相符),F(xiàn)(False)表示預(yù)測(cè)結(jié)果不正確(與實(shí)際不符),P(Positive)表示真實(shí)的正樣本,N(Negative)表示真實(shí)的負(fù)樣本,那么預(yù)測(cè)就會(huì)有四種結(jié)果產(chǎn)生,如表1所示。
表1 評(píng)價(jià)結(jié)果指標(biāo)意義
一般用4種典型的評(píng)價(jià)參數(shù)來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果準(zhǔn)確性,包括準(zhǔn)確率Acc、精確度P、召回率R和F1分?jǐn)?shù)。
精確度和召回率可能往往是相互矛盾的。實(shí)際的情況中我們往往希望兩個(gè)參數(shù)值都比較高。例如當(dāng)預(yù)測(cè)的結(jié)果與實(shí)際結(jié)果完全一致時(shí),F(xiàn)P與FN兩個(gè)參數(shù)均為0,此時(shí)精確度與召回率均為1。這是一種理想的情況。
精確度與召回率可能是相互矛盾的,因此需要綜合考慮二者,因此引入F1分?jǐn)?shù),定義如下。
本節(jié)基于烏倫盆地和神狐海域的2口井的測(cè)井資料進(jìn)行訓(xùn)練與測(cè)試,并對(duì)識(shí)別的結(jié)果進(jìn)行了分析,從不同的角度驗(yàn)證了集成學(xué)習(xí)方法在水合物識(shí)別的準(zhǔn)確性。
UBGH2-10井位于烏倫盆地的東北部,在該區(qū)域海底500 m范圍內(nèi)廣泛分布著兩個(gè)與天然氣水合物分布有關(guān)的沉積單元:主要為新近紀(jì)晚期的物質(zhì)運(yùn)移沉積,以及更新世和全新世的大量濁積巖和半遠(yuǎn)洋沉積。地區(qū)的地層主要由覆蓋在厚物質(zhì)輸導(dǎo)沉積序列上的半遠(yuǎn)洋沉積物組成,在該輸運(yùn)沉積層之下,可以看到另一個(gè)平行沉積層序列。密度—孔隙度和體積密度測(cè)井值顯示了在海底以下190 m深度范圍內(nèi)的典型壓實(shí)曲線,在該曲線中,塊狀物質(zhì)運(yùn)移沉積單元的出現(xiàn)導(dǎo)致體積密度突然降低,孔隙度隨之增加。這口井的隨鉆測(cè)井?dāng)?shù)據(jù)中的P波波速表明直至海底深度下135 m波速都較低,這些數(shù)值來(lái)源于軟沉積物以及工具發(fā)出的直接縱波與井眼與工具串相互作用產(chǎn)生的二次波重疊到達(dá)的復(fù)雜干涉圖樣。從測(cè)井圖(圖1 左)中可以看出地層中包含水合物的層段為2 220~2 307 m[22]。
圖1 采集與實(shí)際測(cè)井曲線對(duì)比
3.1.1 數(shù)據(jù)處理
將文獻(xiàn)中測(cè)井曲線進(jìn)行數(shù)字化,借助石油云網(wǎng)站中測(cè)井曲線數(shù)字化功能模塊,將多條曲線數(shù)據(jù)按照深度進(jìn)行埋深對(duì)齊,得到可用于模型訓(xùn)練和測(cè)試的測(cè)井?dāng)?shù)據(jù)。石油云的測(cè)井曲線數(shù)字化模塊主要基于曲線色域差對(duì)曲線像素進(jìn)行自動(dòng)識(shí)別,并去除背景噪聲,進(jìn)行插值補(bǔ)齊,得到還原度較高的曲線。整理后部分地層測(cè)井?dāng)?shù)據(jù)如表2所示,表格中的第一列為井深,最后一列為地層含水合物與否的標(biāo)簽,表格中間的部分為測(cè)井參數(shù)數(shù)據(jù)。
表 2 UBGH2-10井測(cè)井部分?jǐn)?shù)據(jù)
圖1展示了采集的數(shù)據(jù)與原數(shù)據(jù)曲線的對(duì)比,圖中左邊為實(shí)測(cè)測(cè)井曲線,右圖為根據(jù)采集數(shù)據(jù)后繪制的測(cè)井曲線,紅線標(biāo)注的地層為含水合物地層。對(duì)比發(fā)現(xiàn)左右兩幅圖基本一致,驗(yàn)證了測(cè)井?dāng)?shù)據(jù)的準(zhǔn)確性。
3.1.2 模型訓(xùn)練測(cè)試
運(yùn)用典型的機(jī)器學(xué)習(xí)分類(lèi)算法,包括AdaBoost、決策樹(shù)、隨機(jī)森林和SVM方法,對(duì)UBGH2-10井測(cè)井?dāng)?shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,進(jìn)行水合物層段識(shí)別,本例選擇了50%的測(cè)井?dāng)?shù)據(jù)用于模型訓(xùn)練,其余的50%用于預(yù)測(cè)。圖2展示了識(shí)別結(jié)果,最左側(cè)為地層實(shí)際情況,右側(cè)展示了不同方法預(yù)測(cè)的結(jié)果,水合物層段用綠色表示,其余用紅色表示。
圖2 地層識(shí)別結(jié)果
從圖2可以看出,采用AdaBoost算法預(yù)測(cè)出了大部分的水合物地層,準(zhǔn)確率達(dá)到95.02%,準(zhǔn)確率依次降低的是隨機(jī)森林方法、決策樹(shù),而支持向量機(jī)SVM算法并未預(yù)測(cè)出水合物地層。當(dāng)改變訓(xùn)練集在整個(gè)數(shù)據(jù)集中的比例,即增加或減少訓(xùn)練集數(shù)據(jù)時(shí),不同方法的預(yù)測(cè)準(zhǔn)確率如表3所示。
表3 預(yù)測(cè)準(zhǔn)確率
圖3 UBGH2-10井識(shí)別結(jié)果
從預(yù)測(cè)結(jié)果中可以看出:一般情況下,采用集成學(xué)習(xí)AdaBoost的預(yù)測(cè)準(zhǔn)確率均高于其他算法。隨著訓(xùn)練集占比的增加,各算法預(yù)測(cè)準(zhǔn)確率大部分呈增長(zhǎng)趨勢(shì)。在訓(xùn)練集占比較高時(shí),AdaBoost、隨機(jī)森林和決策樹(shù)算法的準(zhǔn)確率均大于SVM算法,其中集成學(xué)習(xí)在水合物識(shí)別中的準(zhǔn)確率最高。
準(zhǔn)確率反應(yīng)的是預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的對(duì)比,依靠這個(gè)參數(shù)反應(yīng)的地層情況是片面的。例如以上例子中采用SVM方法完全沒(méi)有識(shí)別出含水合物層段,這說(shuō)明僅憑準(zhǔn)確率一個(gè)參數(shù)作為算法分類(lèi)好壞的標(biāo)準(zhǔn)是不夠的,因此要引入精確度與召回率兩個(gè)參數(shù)作為綜合評(píng)價(jià)。分別計(jì)算以上各井的精確度、召回率和F1分?jǐn)?shù)。下表為各方法訓(xùn)練集占測(cè)井?dāng)?shù)據(jù)的50%時(shí)的測(cè)試結(jié)果。
表4 不同算法的精確度、召回率和F1分?jǐn)?shù)(UBGH2-10井)
上表表明:當(dāng)訓(xùn)練集占比為50%時(shí),F(xiàn)1分?jǐn)?shù)、精確度以及召回率最大的均為AdaBoost算法,數(shù)值分別為0.907、0.929、0.886。在識(shí)別結(jié)果中,采用50%測(cè)井?dāng)?shù)據(jù)的SVM的測(cè)試結(jié)果中沒(méi)有識(shí)別出含有水合物的層段。所以,識(shí)別結(jié)果中的TP部分為0,精確度與召回率的值均為0,因此F1的值為0。
3.1.3 測(cè)井參數(shù)優(yōu)化組合及分析
參數(shù)優(yōu)化主要以降低參數(shù)個(gè)數(shù)為基礎(chǔ),通過(guò)不同測(cè)井參數(shù)的排列組合,以此分析各個(gè)參數(shù)(組合)的影響,從而找到對(duì)水合物準(zhǔn)確識(shí)別影響較高的參數(shù)組合,為測(cè)井工作的優(yōu)化提供參考依據(jù)。對(duì)UBGH2-10井的測(cè)井?dāng)?shù)據(jù)采用集成學(xué)習(xí)AdaBoost方法,以訓(xùn)練集占總數(shù)據(jù)集50%為例,逐一降低參數(shù)個(gè)數(shù),測(cè)試結(jié)果如表5至表9所示。
表5 5組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
表9 1組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
采用5組測(cè)井?dāng)?shù)據(jù)時(shí)(表 5),準(zhǔn)確率最高的組合為孔隙度、伽馬射線、電阻率、密度、縱波速度,前五組的參數(shù)組合準(zhǔn)確率均在0.8以上,而去掉縱波速度以后,準(zhǔn)確率大幅降低,降到0.729,可見(jiàn)采用5組測(cè)井?dāng)?shù)據(jù)時(shí),縱波速度是一個(gè)影響較大的參數(shù)。
采用4組測(cè)井?dāng)?shù)據(jù)時(shí)(表 6),取準(zhǔn)確率最高的十組數(shù)據(jù)組合進(jìn)行分析。伽馬射線、電阻率、井徑和密度組合的準(zhǔn)確率最高,其值達(dá)0.853;識(shí)別最差的組合準(zhǔn)確率只有0.787,沒(méi)有伽馬射線和縱波速度,表示這兩個(gè)參數(shù)在4組數(shù)據(jù)的情況下影響較大。
表6 4組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
采用3組測(cè)井?dāng)?shù)據(jù)時(shí)(表 7),取準(zhǔn)確率最高的十組數(shù)據(jù)組合進(jìn)行分析。準(zhǔn)確率最高的組合為電阻率、密度和井徑,其準(zhǔn)確率達(dá)0.844,準(zhǔn)確率最低的組合為孔隙度、井徑和縱波速度,準(zhǔn)確率僅有0.751。準(zhǔn)確率最高的排名前四的組合中,電阻率均在組合中,是較為重要的參數(shù),而組合參數(shù)中含有孔隙度時(shí),準(zhǔn)確率相對(duì)較低。
表7 3組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
采用2組測(cè)井?dāng)?shù)據(jù)時(shí)(表 8),取準(zhǔn)確率最高的十組數(shù)據(jù)組合進(jìn)行分析。準(zhǔn)確率最高的組合為電阻率和井徑,其值為0.787,電阻率和伽馬射線組合的準(zhǔn)確率次之,其值為0.782,識(shí)別準(zhǔn)確率最低的組合是密度和縱波速度,其值僅有0.653。
表8 2組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
采用1組測(cè)井?dāng)?shù)據(jù)時(shí)(表 9),準(zhǔn)確率最高是用的參數(shù)是電阻率,其值為0.676,最低時(shí)用的參數(shù)是密度,識(shí)別準(zhǔn)確率為0.52。
綜合參數(shù)組合優(yōu)化的結(jié)果,圖4展示了不同參數(shù)情況下最高的準(zhǔn)確率以及參數(shù)組合,可以看到電阻率在各個(gè)組合中均有出現(xiàn),另外在3至5個(gè)參數(shù)的情況下,最高準(zhǔn)確率均能達(dá)到0.8以上,因此,在之后的研究中應(yīng)重點(diǎn)關(guān)注電阻率的測(cè)試結(jié)果。
圖4 不同參數(shù)情況下準(zhǔn)確率最高的測(cè)井?dāng)?shù)據(jù)組合
神狐海域水合物研究區(qū)位于南海北部陸坡中部神狐暗沙與東沙群島之間的海域,構(gòu)造上位于珠江口盆地珠二坳陷南翼[23]。本區(qū)海底地形較平坦,總體趨勢(shì)為北向南傾斜,水深從1 000 m逐漸加深到1 700 m以上。以1 350 m水深線為界分為南北2部分,北部地區(qū)地形較陡,從西到東發(fā)育3個(gè)近南北向的海底溝槽,海底溝槽與海底山脊相間排列[24]。南部地形平坦,向南逐漸進(jìn)入深海平原。研究區(qū)主要發(fā)育海丘、海谷、沖蝕槽、沖蝕溝、反向坡坎及海底溝槽等地貌類(lèi)型[25]。SH3井是神狐地區(qū)在第一次天然氣水合物鉆探考察中鉆探的第一口井,圖5的左圖為該區(qū)域含水合物沉積物的測(cè)井解釋層,深度范圍為50~200 m。測(cè)井?dāng)?shù)據(jù)包括井徑,伽馬射線和電阻率[26]。
3.2.1 數(shù)據(jù)處理
與UBGH2-10井的處理方法相似, SH3井的測(cè)井曲線也采用石油云曲線數(shù)字化模塊進(jìn)行采集。圖5為采集的數(shù)據(jù)與原數(shù)據(jù)曲線的對(duì)比圖,圖中左邊為實(shí)測(cè)測(cè)井曲線,右邊為根據(jù)采集數(shù)據(jù)后繪制的測(cè)井曲線。對(duì)比發(fā)現(xiàn)左右兩幅圖基本一致,從而驗(yàn)證了測(cè)井?dāng)?shù)據(jù)的準(zhǔn)確性。
圖5 采集與實(shí)際測(cè)井曲線對(duì)比
3.2.2 模型訓(xùn)練測(cè)試
首先對(duì)該地層進(jìn)行識(shí)別,采用測(cè)試訓(xùn)練集占比為50%時(shí),Adaboost、決策樹(shù)隨機(jī)森林和SVM方法的識(shí)別情況展示在圖6中,左側(cè)為地層實(shí)際情況。對(duì)比發(fā)現(xiàn),相對(duì)于其他方法,集成學(xué)習(xí)Adaboost方法準(zhǔn)確率高,且水合物層段可以較為準(zhǔn)確識(shí)別出來(lái)。決策樹(shù)準(zhǔn)確率次之,也能識(shí)別出水合物層段。隨機(jī)森林和支持向量機(jī)SVM方法雖然也有較高準(zhǔn)確率,但未能有效識(shí)別水合物層段。
圖6 SH3井水合物地層識(shí)別結(jié)果
采用不同比例的訓(xùn)練集占比時(shí),不同方法的預(yù)測(cè)準(zhǔn)確率如表10所示,圖7展示了4種方法識(shí)別的準(zhǔn)確率與訓(xùn)練占比的相關(guān)圖。
表10 SH3井識(shí)別結(jié)果
圖7 SH3井識(shí)別結(jié)果
對(duì)于各訓(xùn)練集占比識(shí)別準(zhǔn)確率最高的是AdaBoost算法,識(shí)別準(zhǔn)確率最低的為SVM算法,各算法識(shí)別準(zhǔn)確率在大體上隨著訓(xùn)練集占比的提高而增加,即訓(xùn)練所用的數(shù)據(jù)越多,預(yù)測(cè)就越準(zhǔn)確。
除了計(jì)算準(zhǔn)確率,基于50%訓(xùn)練集的情況,再計(jì)算精確度與召回率以及F1分?jǐn)?shù),從而更加全面地了解各個(gè)算法的預(yù)測(cè)效果。
表11 不同算法的精確度、召回率及F1分?jǐn)?shù)(SH3井)
結(jié)果顯示:F1分?jǐn)?shù)最高的時(shí)AdaBoost算法,最低的是SVM算法;精確度最高的是AdaBoost算法,最低的是SVM算法;召回率最高的是AdaBoost算法和決策樹(shù)算法,最低的是SVM算法。SVM算法雖然識(shí)別的準(zhǔn)確率達(dá)到81.98%,但同樣沒(méi)有識(shí)別出含有水合物的層段,因此F1,精確度與召回率的值均為0。
3.2.3 測(cè)井參數(shù)優(yōu)化組合及分析
對(duì)SH3井的測(cè)井?dāng)?shù)據(jù)采用集成學(xué)習(xí)AdaBoost方法,以訓(xùn)練集占總數(shù)據(jù)集50%為例,逐一降低參數(shù)個(gè)數(shù),測(cè)試結(jié)果如表12和表13所示:
表12 2組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
表13 1組測(cè)井?dāng)?shù)據(jù)識(shí)別結(jié)果
表12表明,采用2組測(cè)井?dāng)?shù)據(jù)時(shí),準(zhǔn)確率最高的組合是井徑和電阻率,識(shí)別準(zhǔn)確率最低的組合是井徑和伽馬射線。
表13說(shuō)明,采用1組測(cè)井?dāng)?shù)據(jù)時(shí),準(zhǔn)確率最高的是電阻率,識(shí)別準(zhǔn)確率最低的組合是井徑。SH3測(cè)井參數(shù)較少,在選擇測(cè)試參數(shù)時(shí)已經(jīng)考慮了較關(guān)鍵的參數(shù),因此預(yù)測(cè)準(zhǔn)確率也較高,降低參數(shù)個(gè)數(shù)的測(cè)試結(jié)果,也保證了0.8以上的準(zhǔn)確率,并且發(fā)現(xiàn)電阻率是較為關(guān)鍵的參數(shù),能影響識(shí)別結(jié)果的準(zhǔn)確率。
本文利用測(cè)井?dāng)?shù)據(jù),引入機(jī)器學(xué)習(xí)分類(lèi)算法,通過(guò)方法和參數(shù)的優(yōu)選,進(jìn)行地層水合物識(shí)別。利用石油云測(cè)井曲線數(shù)字化工具進(jìn)行測(cè)井?dāng)?shù)據(jù)采集,用多種機(jī)器學(xué)習(xí)算法進(jìn)行水合物層段識(shí)別,通過(guò)引入F1分?jǐn)?shù),精確度與召回率等參數(shù)作為識(shí)別結(jié)果的評(píng)價(jià)指標(biāo),對(duì)各種學(xué)習(xí)方法的測(cè)試結(jié)果進(jìn)行系統(tǒng)的評(píng)判。最后采用降參數(shù)的方法探尋不同測(cè)井參數(shù)的最優(yōu)組合,得到有重要影響的測(cè)井參數(shù)組合,為井下測(cè)井儀器選擇提供依據(jù)。
驗(yàn)證結(jié)果表明:(1)與其他機(jī)器學(xué)習(xí)算法相比,集成學(xué)習(xí)算法AdaBoost在大多數(shù)的測(cè)試結(jié)果中的準(zhǔn)確率都是最高的;(2)通過(guò)對(duì)識(shí)別結(jié)果的精確度,F(xiàn)1分?jǐn)?shù)進(jìn)行綜合分析,找到綜合結(jié)果最優(yōu)的算法也是集成學(xué)習(xí)Adaboost算法,識(shí)別結(jié)果與實(shí)際地層的匹配程度較高,證明了集成學(xué)習(xí)算法在水合物識(shí)別方面的可行性;(3)改變參數(shù)個(gè)數(shù),對(duì)不同測(cè)試參數(shù)組合識(shí)別結(jié)果進(jìn)行評(píng)價(jià),測(cè)試結(jié)果表明電阻率與聲波傳遞速度在水合物的識(shí)別方面有很強(qiáng)的辨識(shí)性,這與水合物的特征相符??梢宰鳛楦鶕?jù)隨鉆測(cè)井參數(shù)識(shí)別地層水合物中需要重點(diǎn)關(guān)注的測(cè)井參數(shù)。
本文通過(guò)方法優(yōu)選和參數(shù)優(yōu)選,發(fā)現(xiàn)集成學(xué)習(xí)AdaBoost算法在水合物識(shí)別上具有較好的效果,為天然氣水合物識(shí)別提供了新的思路,對(duì)未來(lái)實(shí)現(xiàn)鉆進(jìn)過(guò)程中智能識(shí)別有重要的借鑒意義。