彭 英,李克文,朱應(yīng)科,徐志峰,楊澎濤,孫秀玲
(1.中國石化勝利油田分公司物探研究院,山東東營257000;2.中國石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東青島266580;3.山東勝軟科技股份有限公司,山東東營257000)
巖性識別對石油勘探開發(fā)具有重要意義,已成為眾多學(xué)者關(guān)注的焦點(diǎn)。砂泥巖識別是儲層預(yù)測工作中非常重要的環(huán)節(jié)[1],也是諸多研究的基礎(chǔ),其所需的測井資料通常由專家按經(jīng)驗(yàn)解釋完成,因此識別結(jié)果存在一定的主觀性。在常規(guī)的砂泥巖識別方法中[2-6],地震反演作為砂體預(yù)測的常規(guī)技術(shù)已得到廣泛應(yīng)用,但不論是疊后反演還是疊前反演,均受限于地震的縱向分辨率,井間預(yù)測結(jié)果分辨率較低、可靠性較弱,準(zhǔn)確率有待進(jìn)一步提高。對于巖性信息的獲取多依靠實(shí)地巖心取樣、交會圖和聚類分析[7]等傳統(tǒng)方法和數(shù)理統(tǒng)計(jì)方法,但這些方法仍存在人力和時間成本較高等局限,因此有必要提出更可靠、穩(wěn)定的學(xué)習(xí)算法以解決地質(zhì)應(yīng)用中砂泥巖自動識別分類的問題。
近年來,隨著計(jì)算機(jī)硬件性能的高速提升以及大數(shù)據(jù)技術(shù)的不斷發(fā)展,對石油工業(yè)的發(fā)展產(chǎn)生了巨大的推動作用[8]。因此,將迅速發(fā)展的大數(shù)據(jù)技術(shù)與測井曲線相結(jié)合識別砂泥巖,已成為目前儲層研究砂泥巖識別的重要手段[9-14]。機(jī)器學(xué)習(xí)算法從井點(diǎn)出發(fā),充分挖掘地震屬性與測井巖性敏感曲線之間的數(shù)據(jù)關(guān)系,最大限度地發(fā)揮地震屬性的利用價值,其預(yù)測結(jié)果的縱向分辨率高于確定性反演,井間可靠性優(yōu)于地質(zhì)統(tǒng)計(jì)學(xué)反演。隨機(jī)森林算法[15-17]的訓(xùn)練速度快、準(zhǔn)確率較高,能夠有效地運(yùn)行于大型數(shù)據(jù)集,且引入隨機(jī)性,不易過擬合;該算法對于不平衡的數(shù)據(jù)集可以平衡誤差,但對于小型數(shù)據(jù)或低維數(shù)據(jù)(測井?dāng)?shù)據(jù)),則難以產(chǎn)生較好的分類,易出現(xiàn)很多相似的決策樹,導(dǎo)致真實(shí)的預(yù)測結(jié)果被掩蓋。深度神經(jīng)網(wǎng)絡(luò)算法[18-22]可以較好地解決非線性問題,進(jìn)而實(shí)現(xiàn)面向相關(guān)專業(yè)領(lǐng)域的遷移學(xué)習(xí),這是建立在充足訓(xùn)練數(shù)據(jù)量的基礎(chǔ)之上,但若在巖性識別任務(wù)的訓(xùn)練過程中,面對較為稀少的測井?dāng)?shù)據(jù),神經(jīng)網(wǎng)絡(luò)在推理過程中無法提取足夠的測井特征,易導(dǎo)致過擬合問題[23],使得模型無法獲得較高的準(zhǔn)確率。XGBoost 是一種基于迭代決策樹模型的集成學(xué)習(xí)算法[24-26],是基于利用一階導(dǎo)數(shù)相關(guān)信息的迭代決策樹(Gradient Boosting Decision Tree,簡稱GBDT)的改進(jìn)算法,在很大程度上提高了模型的訓(xùn)練速度和預(yù)測的準(zhǔn)確度。對于深度學(xué)習(xí)算法而言,XGBoost 算法只適用于處理結(jié)構(gòu)化的特征數(shù)據(jù),而直接對測井、錄井曲線等數(shù)據(jù)進(jìn)行處理則較為困難,且XGBoost算法的參數(shù)過多,調(diào)參復(fù)雜。
由以上分析可以得出,諸如隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法可以較好的解決相關(guān)地質(zhì)問題,已經(jīng)獲得了顯著的效果,為提升地質(zhì)工作效率提供了新的思路和方法,然而在砂泥巖識別領(lǐng)域仍存在關(guān)鍵技術(shù)難點(diǎn):①樣本集的選取以及預(yù)處理對于機(jī)器學(xué)習(xí)算法的性能具有較大影響。②砂泥巖巖性數(shù)據(jù)復(fù)雜多樣,根據(jù)測井參數(shù)與巖性的分析,選取合適的測井曲線參數(shù)是影響砂泥巖識別準(zhǔn)確性的關(guān)鍵之一。因此,需基于特定樣本數(shù)據(jù)設(shè)計(jì)相關(guān)人工智能算法與超參數(shù)調(diào)優(yōu)策略,充分發(fā)揮智能算法的優(yōu)勢,以滿足砂泥巖識別準(zhǔn)確性的需求。
為此,筆者以測井和錄井資料為基礎(chǔ),考慮砂泥巖識別的關(guān)鍵技術(shù)難點(diǎn),對測井參數(shù)進(jìn)行敏感性分析,以明確影響因素;通過多項(xiàng)預(yù)處理操作構(gòu)建完整的訓(xùn)練數(shù)據(jù)集,根據(jù)測井標(biāo)簽稀疏性的特點(diǎn),將Focal Loss 函數(shù)引入XGBoost 算法(FL-XGBoost算法),對勝利油田牛莊地區(qū)構(gòu)建砂泥巖識別模型;并將隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練結(jié)果作為對照,以最終砂泥巖識別分類結(jié)果的準(zhǔn)確率作為評價標(biāo)準(zhǔn),驗(yàn)證FL-XGBoost算法應(yīng)用于測井砂泥巖識別的可行性;最后通過5 種公開分類數(shù)據(jù)集設(shè)計(jì)對比實(shí)驗(yàn),驗(yàn)證FL-XGBoost算法在識別分類領(lǐng)域上的強(qiáng)泛化能力。研究成果可以為FL-XGBoost 算法對砂泥巖識別的可行性提供理論依據(jù),為傳統(tǒng)的測井巖性識別提供新的思路。
GBDT 算法是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)[27],由多棵決策樹組成,以所有決策樹的結(jié)論累加起來作為最終答案,具體原理為:每個非葉子節(jié)點(diǎn)表示一個特征屬性的測試,每個分支代表這個特征屬性在某個值域的輸出,而每個葉子節(jié)點(diǎn)存放一個類別,迭代決策的過程是從根節(jié)點(diǎn)開始,測試待分類項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果[27]。GBDT 算法的思路是不斷地添加決策樹,進(jìn)行特征分裂以生長一棵決策樹,且每次添加一個決策樹,為學(xué)習(xí)一個新函數(shù),進(jìn)而擬合上次預(yù)測的殘差。當(dāng)訓(xùn)練完成得到k棵決策樹,則要預(yù)測一個樣本的分?jǐn)?shù),其實(shí)就是根據(jù)這個樣本的特征,在每棵決策樹中落到對應(yīng)的一個葉子節(jié)點(diǎn),每個葉子節(jié)點(diǎn)即對應(yīng)一個分?jǐn)?shù),最后只需將每棵決策樹對應(yīng)的分?jǐn)?shù)相加即為該樣本的預(yù)測值。
XGBoost 算法是基于二階泰勒展開式將損失函數(shù)展開,并且將正則項(xiàng)置于目標(biāo)函數(shù)之外,這降低了模型的復(fù)雜度,更易于獲得最優(yōu)解,通過控制目標(biāo)函數(shù)的不斷下降,使得模型能夠更好地收斂,有效避免過擬合,從而提高了預(yù)測準(zhǔn)確率。該算法在訓(xùn)練前對數(shù)據(jù)進(jìn)行預(yù)處理,將其結(jié)果保存,在后面的迭代中可以重復(fù)使用,從而降低計(jì)算復(fù)雜度,實(shí)現(xiàn)并行化,提高整體計(jì)算效率。
基于GBDT與XGBoost算法,將不平衡樣本分類思想引入訓(xùn)練損失函數(shù),構(gòu)建基于FL-XGBoost算法的砂泥巖識別模型。結(jié)合砂泥巖識別存在的關(guān)鍵技術(shù)難點(diǎn),首先對測井參數(shù)進(jìn)行敏感性分析,以明確影響因素,通過多項(xiàng)預(yù)處理操作構(gòu)建完整的訓(xùn)練數(shù)據(jù)集并將其輸送至FL-XGBoost模型中進(jìn)行訓(xùn)練,迭代計(jì)算FL損失并判斷是否繼續(xù)收斂,期間進(jìn)行超參數(shù)調(diào)優(yōu),最終獲得訓(xùn)練完備的砂泥巖識別模型?;贔L-XGBoost算法的砂泥巖識別流程如圖1所示。
圖1 基于FL-XGBoost算法的砂泥巖識別流程Fig.1 Flow chart of sandstone and mudstone identification based on FL-XGBoost algorithm
Focal Loss 是LIN 等于2017 年專門為解決不平衡分類問題提出的損失函數(shù)[28]。其從2個方面解決數(shù)據(jù)類別不平衡的問題:①損失函數(shù)更加傾向于關(guān)注少數(shù)類樣本。②避免易分類樣本主導(dǎo)模型訓(xùn)練過程而導(dǎo)致的性能降低。相對于龐大的地震數(shù)據(jù)體,測井與錄井標(biāo)簽數(shù)據(jù)存在稀疏性,基于機(jī)器學(xué)習(xí)算法的砂泥巖識別可視為非平衡樣本訓(xùn)練問題。
FL-XGBoost算法的思路與集成學(xué)習(xí)中的GBDT算法的類似。FL-XGBoost 算法訓(xùn)練時每一次迭代會增加一棵決策樹來擬合上一次迭代過程中的真實(shí)值與預(yù)測值之間的FL 殘差,進(jìn)而逐漸逼近真實(shí)值,其訓(xùn)練過程中的目標(biāo)函數(shù)為:
在(2)式中,通過引入系數(shù)α來調(diào)整測井標(biāo)簽中不同參數(shù)在損失函數(shù)中的權(quán)重,引入聚焦稀疏系數(shù)β來調(diào)整易分類樣本和難分類樣本的損失權(quán)重。
將Ω(fi)展開得到:
新生成的決策樹需擬合上一迭代預(yù)測的殘差,即第t次迭代目標(biāo)函數(shù),其砂泥巖識別結(jié)果可以表示為:
將損失函數(shù)使用泰勒二階展開,引入正則項(xiàng)并去除常數(shù)項(xiàng)后得到:
將(5)式中表示的所有訓(xùn)練樣本按照葉子節(jié)點(diǎn)進(jìn)行分組得到:
FL-XGBoost 算法中經(jīng)過k次迭代后,形成的決策樹模型對第c個樣本的輸出結(jié)果為:
牛莊洼陷為濟(jì)陽坳陷東營凹陷中南部的次級洼陷,為渤海灣盆地油氣最豐富的地區(qū)之一。其南北兩側(cè)均受斷層控制,構(gòu)造活動較為頻繁,沉積巖性主要為深灰色的厚層泥巖、灰質(zhì)砂巖和泥質(zhì)粉砂巖等。牛莊洼陷發(fā)育多種類型的油氣藏,對其地層巖性的準(zhǔn)確識別可為后期的油氣預(yù)測奠定基礎(chǔ)。
本次研究數(shù)據(jù)來源于牛莊洼陷220口井的測井及錄井?dāng)?shù)據(jù),其中200 口井的測井曲線為las 文件格式,20 口井的測井曲線為文本文檔,采樣間隔均為0.125 m。目標(biāo)任務(wù)為完成純泥巖、砂巖、其他泥巖(除純泥巖之外的泥巖)、其他巖層(除純泥巖、砂巖、其他泥巖三者之外的巖層)4 類巖性的識別。利用實(shí)際采集到的測井和錄井?dāng)?shù)據(jù),檢查標(biāo)簽數(shù)據(jù),建立樣本庫,并對樣本數(shù)據(jù)進(jìn)行預(yù)處理,包括:①異常值處理。根據(jù)業(yè)務(wù)專家制定的不同特征的合理取值范圍,對數(shù)據(jù)中的特征值設(shè)置閾值并進(jìn)行過濾,對超過閾值的不合理值依據(jù)臨近數(shù)據(jù)或單井平均數(shù)據(jù)進(jìn)行修正。②缺失值處理。對于測井曲線中的缺失數(shù)據(jù),利用貝葉斯估計(jì)插補(bǔ)缺失值。③重采樣。將測井?dāng)?shù)據(jù)采樣間隔為0.1 m 的井應(yīng)用插值進(jìn)行重采樣,采樣間隔為0.125 m;對標(biāo)簽數(shù)據(jù)進(jìn)行上采樣,以保證標(biāo)簽類別均衡。④數(shù)據(jù)歸一化。在機(jī)器學(xué)習(xí)領(lǐng)域中,不同特征向量往往具有不同的量綱和單位,這樣會影響數(shù)據(jù)分析的結(jié)果。為了消除特征向量的量綱影響,需進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。而原始數(shù)據(jù)經(jīng)過數(shù)據(jù)歸一化處理后,各指標(biāo)處于同一數(shù)量級,適合進(jìn)行綜合對比評價(圖2)。
圖2 數(shù)據(jù)重采樣和歸一化示例Fig.2 Diagram of data resampling and normalization
最終將整個數(shù)據(jù)劃分為訓(xùn)練集、測試集和驗(yàn)證集。訓(xùn)練集和測試集數(shù)據(jù)是利用巖屑錄井資料確定,為避免巖屑錄井資料的錯誤,在巖屑錄井圖上,顯示4條巖性曲線,即自然電位曲線(SP)、自然伽馬曲線(GR)、井徑曲線(CAL)和聲波時差曲線(AC)。業(yè)務(wù)專家現(xiàn)場對巖性分類進(jìn)行審定,去除不可靠的巖性分類,最終完成純泥巖、砂巖、其他泥巖、其他巖層4 類樣本的標(biāo)定工作,按點(diǎn)構(gòu)建1 048 575 條樣本數(shù)據(jù)。4 個點(diǎn)構(gòu)建1 個深度段,按深度段構(gòu)建28 619條樣本數(shù)據(jù)(表1)。
表1 樣本數(shù)據(jù)的樣式Table 1 Sample data style
針對測井曲線數(shù)據(jù)進(jìn)行多維度表征,測井曲線按點(diǎn)構(gòu)建以及按0.5 m 每段提取特征參數(shù)。牛莊洼陷主要為砂泥巖沉積,且該區(qū)測井資料大多是2010年以前測得,9條基礎(chǔ)測井曲線齊全,其他測井曲線較少,其中與巖性相關(guān)的測井曲線有GR,SP,AC和CAL曲線,而CAL曲線受鉆井和裂縫的影響較大,因此選取AC,GR和SP這3條測井曲線作為巖性識別的基礎(chǔ)數(shù)據(jù)。錄井資料的采樣間隔為0.5 m,測井資料的采樣間隔為0.125 m,為了匹配錄井?dāng)?shù)據(jù),將測井資料按照0.5 m 進(jìn)行特征參數(shù)提取,特征參數(shù)有最大值、最小值、平均值、標(biāo)準(zhǔn)差、中位數(shù)、累加值、數(shù)值排序的百分比;經(jīng)過特征參數(shù)與巖性參數(shù)交匯分析,優(yōu)選最大值、最小值、中位數(shù)、平均值作為測井曲線特征,分別提取每條測井曲線同一時窗內(nèi)的最大值、最小值、中位數(shù)和平均值作為曲線的特征。
將處理后的特征數(shù)據(jù)與錄井?dāng)?shù)據(jù)按深度進(jìn)行匹配構(gòu)建樣本數(shù)據(jù),并將樣本數(shù)據(jù)劃分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集樣本占樣本總數(shù)的80%,驗(yàn)證集樣本占樣本總數(shù)的20%。標(biāo)簽共包含4 類,分別為純泥巖、砂巖、其他泥巖和其他巖層。
分別使用FL-XGBoost 和XGBoost、隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)勝利油田牛莊洼陷的砂泥巖樣本數(shù)據(jù),并進(jìn)行超參數(shù)設(shè)置、模型性能以及應(yīng)用效果的對比分析。
3.4.1 FL-XGBoost算法
為契合砂泥巖識別,改進(jìn)目標(biāo)函數(shù)的計(jì)算方式,進(jìn)一步提高模型的精確度,并將目標(biāo)函數(shù)的優(yōu)化問題轉(zhuǎn)化為求二次函數(shù)的最小值問題,利用損失函數(shù)的二階導(dǎo)數(shù)信息訓(xùn)練決策樹模型,同時將樹復(fù)雜度作為正則化項(xiàng)加入到目標(biāo)函數(shù)中,以提升模型的泛化能力。XGBoost 模型中有多個超參數(shù),選出對模型影響較大的超參數(shù)作為網(wǎng)格搜索法遍歷尋優(yōu)的參數(shù),其余超參數(shù)為默認(rèn)值。在本次應(yīng)用實(shí)例中,分別對以FL-XGBoost 算法和XGBoost 算法為基礎(chǔ)設(shè)計(jì)的30棵決策樹構(gòu)建對比實(shí)驗(yàn),即初始迭代30次。初始學(xué)習(xí)率采用0.01,控制每次迭代更新權(quán)重時的步長,設(shè)置每棵決策樹的初始深度為3,最大值為20,并且設(shè)置早停輪數(shù),防止模型過擬合。
由表2 可知模型學(xué)習(xí)率、決策樹的最大深度和迭代產(chǎn)生決策樹超參數(shù)的數(shù)量分別為10,10和5,將以上參數(shù)進(jìn)行組合得到500條超參數(shù)組合。運(yùn)用網(wǎng)格搜索法,遍歷網(wǎng)格中的500條超參數(shù)組合,尋找最優(yōu)超參數(shù)組合。隨機(jī)取80%的訓(xùn)練集數(shù)據(jù)分批輸入到XGBoost 模型中,用剩余20%的數(shù)據(jù)集對模型的精度進(jìn)行評估。根據(jù)評估結(jié)果的精確度調(diào)整模型所用樣本和超參數(shù)。利用訓(xùn)練好的XGBoost 模型,按照0.5 m 為一段對新井的測井?dāng)?shù)據(jù)進(jìn)行預(yù)測,并輸出預(yù)測結(jié)果,將預(yù)測結(jié)果與標(biāo)簽值進(jìn)行比較,只統(tǒng)計(jì)純泥巖和砂巖預(yù)測正確的數(shù)量,其他泥巖和其他巖性不參與統(tǒng)計(jì)。其中,預(yù)測準(zhǔn)確率=(純泥巖預(yù)測為泥巖+砂巖預(yù)測為砂巖)/(泥巖樣本總數(shù)+砂巖樣本總數(shù))。
表2 FL-XGBoost算法參數(shù)設(shè)置Table 2 Parameter settings of FL-XGBoost algorithm
表3 顯示在1 000 條超參數(shù)組合中具有代表性的組合與預(yù)測準(zhǔn)確率,當(dāng)決策樹的最大深度為20、最優(yōu)迭代次數(shù)為487 次,F(xiàn)L-XGBoost 模型的預(yù)測準(zhǔn)確率達(dá)到最高值,為0.827,其在測試集下的推理速度為0.192 0 s,在迭代超過487 次以后,預(yù)測準(zhǔn)確率出現(xiàn)持續(xù)的下降,推測模型出現(xiàn)過擬合現(xiàn)象。由此得到,當(dāng)FL-XGBoost模型在更加側(cè)重于測井資料方面訓(xùn)練,而非無關(guān)(負(fù))樣本訓(xùn)練時,模型的預(yù)測精度將會得到顯著提高。
表3 XGBoost模型與FL-XGBoost模型迭代及識別結(jié)果Table 3 Iteration and identification results of XGBoost and FL-XGBoost models
3.4.2 隨機(jī)森林算法
隨機(jī)森林算法通過集成學(xué)習(xí)的方法集成多棵決策樹,每一棵都是一個分類器,對于每一個輸入樣本,每棵決策樹與分類結(jié)果是一一對應(yīng)的,通過集成分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出。筆者將測井?dāng)?shù)據(jù)集作為輸入,在基尼指數(shù)與交叉熵2 種標(biāo)準(zhǔn)下,對隨機(jī)森林算法進(jìn)行訓(xùn)練,并展示了迭代產(chǎn)生數(shù)、評判標(biāo)準(zhǔn)、決策樹的最大深度等超參數(shù)對砂泥巖識別結(jié)果的影響(圖3)。
由圖3可知,隨著迭代次數(shù)的增加,隨機(jī)森林算法對砂泥巖的識別精度也在提高,但對于諸如測井?dāng)?shù)據(jù)的小樣本數(shù)據(jù),識別效果并不是最優(yōu)的。在多參數(shù)設(shè)置最優(yōu)的情況下,測試集的識別精度僅為74.13%,其在測試集下的推理速度為0.214 6 s。
圖3 隨機(jī)森林算法結(jié)果分析Fig.3 Result analysis of random forest algorithm
3.4.3 深度神經(jīng)網(wǎng)絡(luò)算法
深度神經(jīng)網(wǎng)絡(luò)算法是機(jī)器學(xué)習(xí)的分支,是一種試圖使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進(jìn)行高層抽象的算法。筆者將測井?dāng)?shù)據(jù)集作為輸入,設(shè)計(jì)對應(yīng)的深度神經(jīng)網(wǎng)絡(luò)模型,通過控制不同的隱含層數(shù)目與迭代次數(shù)進(jìn)行訓(xùn)練,最終得到不同的砂泥巖識別結(jié)果(表4),在多參數(shù)設(shè)置最優(yōu)的情況下,測試集的識別精度僅為0.745,其在測試集下的推理速度為1.453 1 s。
表4 深度神經(jīng)網(wǎng)絡(luò)模型及識別結(jié)果Table 4 Deep neural network model and identification results
深度神經(jīng)網(wǎng)絡(luò)算法雖然具有強(qiáng)大的非線性擬合能力,但這是建立在充足訓(xùn)練數(shù)據(jù)量基礎(chǔ)之上的。面對較為稀少的測井?dāng)?shù)據(jù)量,該模型在推理過程中無法提取足夠的測井特征,導(dǎo)致模型無法獲得較高的準(zhǔn)確率。
綜合來看,采用FL-XGBoost算法的砂泥巖識別結(jié)果與采用隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)算法所得到的識別結(jié)果進(jìn)行比較(圖4),結(jié)果表明在使用交叉驗(yàn)證測試模型精度及相同訓(xùn)練數(shù)據(jù)下,使用FL-XGBoost 模型的訓(xùn)練速度最快,識別準(zhǔn)確率有明顯提升,同時計(jì)算復(fù)雜度更低,為砂泥巖的測井識別提供了新的思路。
圖4 不同算法的識別結(jié)果對比Fig.4 Comparison of identification effects of different algorithms
在通用的分類識別問題中,業(yè)內(nèi)常采用準(zhǔn)確率、F1 值、AUC等作為評估指標(biāo),其計(jì)算所需的混淆矩陣如表5所示。
表5 混淆矩陣Table 5 Confusion matrix
利用混淆矩陣可計(jì)算相應(yīng)的準(zhǔn)確率、召回率、F1值和AUC等評估指標(biāo),其計(jì)算式如下:
KEEL 是一種集成海量標(biāo)準(zhǔn)分類數(shù)據(jù)集的綜合庫,為驗(yàn)證FL-XBoost 算法的有效性以及不同智能算法之間的性能差異,采用KEEL中的mushroom(蘑菇是否有毒的分類數(shù)據(jù)集)、magic(魔法射線望遠(yuǎn)鏡數(shù)據(jù)集)、spambase(電子郵件分類數(shù)據(jù)集)、titanic(泰坦尼克輪船乘客的幸存分類數(shù)據(jù)集)、phoneme(聲音分類數(shù)據(jù)集)等5 種公共數(shù)據(jù)集,其分別為特征數(shù)不同、樣本量不同的代表性數(shù)據(jù)集。利用訓(xùn)練完備的隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)、XGBoost 和FLXGBoost算法分別對這5個數(shù)據(jù)集進(jìn)行預(yù)測,并以準(zhǔn)確率、F1 值和AUC作為評價指標(biāo),其數(shù)據(jù)集信息與預(yù)測結(jié)果如表6所示。
由表6 可知,F(xiàn)L-XGBoost 算法在5 種公開數(shù)據(jù)集中的預(yù)測結(jié)果均優(yōu)于隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)和XGBoost算法,由于XGBoost算法中的正則化項(xiàng)可在一定程度上解決稀疏測井?dāng)?shù)據(jù)過擬合問題,不僅使用一階導(dǎo)數(shù),還推理二階導(dǎo)數(shù),使得損失函數(shù)更加精確。在此基礎(chǔ)之上,F(xiàn)L-XGBoost 算法的損失函數(shù)相比于均方根誤差、交叉熵等損失,F(xiàn)ocal Loss 更加適用于難訓(xùn)練的樣本,如測井曲線、錄井?dāng)?shù)據(jù)等。因此,F(xiàn)L-XGBoost 算法的預(yù)測準(zhǔn)確率相對于隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)、XGBoost 算法具有明顯提升,具備更好的泛化能力。
表6 5種公共數(shù)據(jù)集及預(yù)測結(jié)果Table 6 Five public datasets and prediction results
以測井、錄井資料為基礎(chǔ),結(jié)合砂泥巖識別任務(wù)存在的關(guān)鍵技術(shù)難點(diǎn),對測井參數(shù)進(jìn)行敏感性分析,以選取適當(dāng)?shù)挠绊懸蛩亍Mㄟ^多項(xiàng)預(yù)處理操作構(gòu)建完整的訓(xùn)練數(shù)據(jù)集,根據(jù)測井標(biāo)簽稀疏性的特點(diǎn),將Focal Loss 函數(shù)引入XGBoost 算法,并對勝利油田牛莊洼陷構(gòu)建砂泥巖識別模型,相比于隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò)算法,F(xiàn)L-XGBoost 算法可以解決常規(guī)測井砂泥巖識別過擬合和準(zhǔn)確率較低的問題。
FL-XGBoost 算法應(yīng)用于砂泥巖識別任務(wù)的準(zhǔn)確率達(dá)到0.827,構(gòu)建智能化工作流程,同時形成測井巖性識別樣本庫,具有一定的泛化能力,可以在砂巖油藏中推廣應(yīng)用。FL-XGBoost 算法在KEEL中5 種公開數(shù)據(jù)集的預(yù)測效果均優(yōu)于隨機(jī)森林、深度神經(jīng)網(wǎng)絡(luò)和XGBoost 算法,證明該算法的有效性與泛化性。
符號解釋
AUC——數(shù)據(jù)集中任取一個正樣本和負(fù)樣本,預(yù)測正例排在負(fù)例前面的概率,%;
c——地震道的道數(shù),個;
f——F中的某棵決策樹,棵;
fi——F中的第i棵決策樹,棵;
fk——F中的第k棵決策樹,棵;
ft——F中的第t棵決策樹,棵;
F——特征空間;
F1——準(zhǔn)確率與召回率的調(diào)和平均值,%;
FN——錯誤的負(fù)例,即錯誤的將樣本中的正例識別為負(fù)例,%;
FP——錯誤的正例,即錯誤的將樣本中的負(fù)例識別為正例,%;
gi——損失函數(shù)的一階導(dǎo)數(shù);
hi——損失函數(shù)的二階導(dǎo)數(shù);
i——當(dāng)前決策樹的棵樹,棵;
j——當(dāng)前的葉子節(jié)點(diǎn),個;
k——當(dāng)前的迭代次數(shù),次;
K——總的迭代次數(shù),次;
l——損失函數(shù);
LFL——Focal Loss誤差項(xiàng),%,
n——FL-XGBoost算法的決策樹數(shù)量,棵;
N——負(fù)樣本,%;
NN——負(fù)樣本(多數(shù)類)總數(shù),%;
NP——正樣本(少數(shù)類)總數(shù),%;
obj——目標(biāo)函數(shù);
P——正樣本,%;
Pre——準(zhǔn)確率,%;
Pc——正樣本的類別,無單位;
q——表示樣本xc被預(yù)測后落入在對應(yīng)節(jié)點(diǎn)上的概率,%;
ranki——正樣本的置信度排序,%;
R——每個節(jié)點(diǎn)的分值集合;
Rd——每個節(jié)點(diǎn)的集合;
Rec——召回率,%;
t——當(dāng)前迭代次數(shù),次;
T——葉子節(jié)點(diǎn)的總個數(shù),個;
TN——被預(yù)測為負(fù)類的負(fù)樣本,%;
TP——被預(yù)測為正類的正樣本,%;
w——葉子節(jié)點(diǎn)的分值,%;
wj——第j個葉子節(jié)點(diǎn)的分值,%;
wq——第q個葉子節(jié)點(diǎn)的分值,%;
xc——多地震道訓(xùn)練數(shù)據(jù),個;
yc——與xc對應(yīng)的測井和錄井曲線標(biāo)簽數(shù)據(jù);%;
——訓(xùn)練數(shù)據(jù)xc經(jīng)所有預(yù)測后得到的估計(jì)值,%;
α——系數(shù),%;
β——聚焦稀疏系數(shù),%;
γ——可以控制葉子節(jié)點(diǎn)的個數(shù),個;
λ——分?jǐn)?shù)控制系數(shù),可以控制葉子節(jié)點(diǎn)的分?jǐn)?shù)不會過大,防止過擬合,%;
Ω(fi)——決策樹的正則化項(xiàng)。