覃本學(xué), 沈疆海*, 馬丙鵬, 宋文廣
(1. 長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 荊州 434023; 2. 中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 北京 100190)
巖屑作為母巖巖石的碎塊,保持了母巖的結(jié)構(gòu)和大多數(shù)特征,對(duì)鉆取上來(lái)的巖屑進(jìn)行巖性分析,可生成地下巖性的三維分布特征,進(jìn)一步分析可掌握地下的巖石成分、性質(zhì)、地層變化和油、氣層情況[1]。對(duì)于巖屑的巖性分析,傳統(tǒng)的做法是由專(zhuān)業(yè)人員進(jìn)行人工鑒定,通過(guò)對(duì)巖屑進(jìn)行觀察、觸摸、嗅、滴稀鹽酸、元素分析、硬度檢測(cè)、成分檢測(cè)、伽馬測(cè)井等方式。近些年來(lái),隨著機(jī)器學(xué)習(xí)方法在工業(yè)應(yīng)用中的快速發(fā)展[2],人工神經(jīng)網(wǎng)絡(luò)在巖性自動(dòng)化識(shí)別上得到了廣泛應(yīng)用[3],程國(guó)建等[4]使用普通卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練巖石薄片圖像得到的模型,可對(duì)巖石的薄片圖像進(jìn)行自動(dòng)粒度識(shí)別;張野等[5]和夏毅敏等[6]分別將普通卷積網(wǎng)絡(luò)替換為更為深層次的Inception-v3和更為輕量化的MobileNet[7],對(duì)巖石照片進(jìn)行訓(xùn)練,得到的模型對(duì)于常規(guī)巖石如花崗巖、石灰?guī)r、大理巖等擁有較高的準(zhǔn)確率。然而,巖性問(wèn)題在鉆井條件下則更復(fù)雜一些,馬隴飛等[8]以鄂爾多斯盆地油田致密儲(chǔ)層鉆取的巖心為研究對(duì)象構(gòu)建了全連接神經(jīng)網(wǎng)絡(luò),準(zhǔn)確率達(dá)71%;Alzubaidi等[9]將普通卷積網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò)ResNeXt-50,可在加深網(wǎng)絡(luò)深度的情況下避免網(wǎng)絡(luò)退化問(wèn)題,提高了識(shí)別準(zhǔn)確率;Zeng等[10]提出了基于柵極循環(huán)單元(gate recurrent unit, GRU)神經(jīng)網(wǎng)絡(luò)的注意機(jī)制模型,建立了雙向GRU網(wǎng)絡(luò),沿深度方向提取正后向測(cè)井?dāng)?shù)據(jù)特征,引入注意力機(jī)制,為隱藏層分配權(quán)重,以此提高了預(yù)測(cè)精度;Ao等[11]提出了一種概率的模糊表征結(jié)合隨機(jī)森林算法的方法,相比于確定性巖性表征方法能獲取更多關(guān)于韻律、非均質(zhì)性和地層性質(zhì)的信息; Gu等[12]提出了結(jié)合平均值影響(mean impact value, MIV)與粒子群優(yōu)化(particle swarm optimization, PSO)的概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network, PNN)模型,充分考慮測(cè)井資料隨深度的變化趨勢(shì)、不同測(cè)井序列的相關(guān)性以及實(shí)際的深度積累效應(yīng),達(dá)到了較好的應(yīng)用效果。地質(zhì)領(lǐng)域,針對(duì)巖性識(shí)別的方法則更偏重于鉆取物本身的物理、化學(xué)等特征,南澤宇等[13]對(duì)致密含鈣砂礫巖地層鉆井?dāng)?shù)據(jù)進(jìn)行分級(jí)分類(lèi)得到多級(jí)交會(huì)圖,識(shí)別結(jié)果與巖心、薄片吻合良好,整個(gè)過(guò)程從粗分到細(xì)分,涉及電阻率、伽馬、中子等測(cè)井方法,也是地質(zhì)領(lǐng)域較為傳統(tǒng)的方法。
以上方法分為兩個(gè)方向,首先是偏重于圖像的機(jī)器學(xué)習(xí)方法,此方法利用計(jì)算機(jī)的高性能計(jì)算,追求更深更復(fù)雜的網(wǎng)絡(luò),以計(jì)算性能換取識(shí)別精度;其次是利用測(cè)井方法與高精度儀器的傳統(tǒng)地質(zhì)學(xué)方法。兩種方法各有優(yōu)劣,前者更為方便,模型訓(xùn)練好即可實(shí)現(xiàn)自動(dòng)識(shí)別,但是僅圖像上的特征往往不足以作為分類(lèi)的標(biāo)準(zhǔn),因?yàn)閳D像特征易受拍攝環(huán)境、拍攝設(shè)備的影響,拍攝得到的特征并不完全可靠,得到的結(jié)果可信度和普適性不高;后者依賴(lài)的儀器價(jià)格高昂,而且便攜性差,對(duì)于無(wú)法滿足現(xiàn)場(chǎng)需要及時(shí)獲取地層信息的需求,且識(shí)別過(guò)程繁瑣、對(duì)專(zhuān)業(yè)領(lǐng)域知識(shí)依賴(lài)度高。
針對(duì)上述問(wèn)題,結(jié)合現(xiàn)場(chǎng)錄井的實(shí)際工作情況,現(xiàn)開(kāi)展設(shè)計(jì)結(jié)合傳統(tǒng)深度學(xué)習(xí)方法與傳統(tǒng)錄井方法的融合模型工作,利用二者的優(yōu)勢(shì)以達(dá)到更加準(zhǔn)確可信的結(jié)果,同時(shí)使得模型能更加方便地應(yīng)用到現(xiàn)場(chǎng)錄井當(dāng)中,以提高通用性和可移植性。
本文的訓(xùn)練樣本數(shù)據(jù)來(lái)自某油田的十口探井的巖屑數(shù)據(jù),包含巖屑圖像,和石油、地質(zhì)專(zhuān)業(yè)人員對(duì)于巖屑巖性的鑒別記錄表。其中巖屑圖像為工業(yè)相機(jī)拍攝的高分辨率圖像。為突出本文方法對(duì)于外觀相近的巖屑的識(shí)別能力,選擇5類(lèi)巖屑圖像比較接近的沉積巖進(jìn)行實(shí)驗(yàn),這5類(lèi)分別是:白云巖(dolomite)、泥巖(mudstone)、石灰?guī)r(limestone)、砂巖(sandstone)、頁(yè)巖(shale),如圖1所示。
由圖1可以看出這幾類(lèi)沉積巖外觀十分相似,僅憑肉眼幾乎無(wú)法區(qū)分。即使通過(guò)高分辨率采集、補(bǔ)光拍攝、圖像增強(qiáng)(image enhancement)等操作提高了圖像質(zhì)量與辨識(shí)度,但近似巖屑間的外觀差異還是很難被人眼捕捉,即使是專(zhuān)業(yè)人員也需要對(duì)圖像進(jìn)行不斷放大觀察顏色、紋理,并結(jié)合自身經(jīng)驗(yàn)和巖屑的本身物理、化學(xué)特征才能明確給定巖性,可見(jiàn)圖像外特征不容忽視。
圖1 5類(lèi)巖屑圖像Fig.1 Five types of debris images
巖屑有大量的巖性信息無(wú)法被攝像機(jī)捕捉,如硬度、所含成分等,這些特征可由分析實(shí)驗(yàn)獲得。有些復(fù)雜實(shí)驗(yàn)涉及昂貴的光學(xué)儀器,例如若想獲得完整的、可靠性高的巖屑巖性,需要傅里葉紅外光譜儀[14]、X射線衍射儀[15]、拉曼光譜儀[16]、掃描電鏡[17]等儀器。但如果僅作現(xiàn)場(chǎng)分類(lèi),一些簡(jiǎn)單方便的實(shí)驗(yàn)即可獲得很多有效的圖像外信息,如滴加稀鹽酸、元素分析、觸摸、使用錘子敲擊等,表1為地質(zhì)工作者在現(xiàn)場(chǎng)記錄的部分巖屑描述。
表1 巖屑圖像外特征表Table 1 Exterior feature table of rock debris image
為了將這些傳統(tǒng)描述特征應(yīng)用到機(jī)器識(shí)別過(guò)程,設(shè)計(jì)了一套量化規(guī)則。
(1)鹽酸特征:巖屑與稀鹽酸反應(yīng)的程度可用氣泡的多少來(lái)度量,如果巖屑中含有碳酸鹽,則會(huì)與稀鹽酸反應(yīng),氣泡越多說(shuō)明反應(yīng)越劇烈。劇烈程度用數(shù)字1~10來(lái)度量,1表示不反應(yīng),10表示反應(yīng)劇烈,由小到大表示反應(yīng)越來(lái)越劇烈。
(2)純度特征:巖屑的礦物純度主要是檢測(cè)巖屑的成分,巖屑所含成分復(fù)雜且多則為雜,巖屑主要成分占比高且比較單一則可定為純。最純?nèi)≈禐?0。
(3)元素分析特征:元素分析也是鑒別巖屑種類(lèi)的一種方法。當(dāng)高能X射線轟擊樣品時(shí),原子核外電子釋放出來(lái),出現(xiàn)電子空位。這時(shí)處于高能態(tài)電子會(huì)躍遷到低能態(tài)來(lái)填補(bǔ)電子空位,并釋放出特征X射線,X射線熒光具有物質(zhì)元素的指紋效應(yīng),使用X射線熒光(X-ray fluorescence,XRF)分析儀可以檢測(cè)出巖石中元素的含量。元素錄井技術(shù)重點(diǎn)關(guān)注Si、Al、Fe、Ca、Mg、S、K、Ti共8種元素。本文元素檢測(cè)作為外加參數(shù)無(wú)需測(cè)出每種元素含量,僅以Ca—Si兩種巖屑中主要元素作為參照,使用式(1)即可得到一個(gè)在[1, 10]范圍內(nèi)的可以表示Ca—Si含量差異的值,V值越大,說(shuō)明Ca相對(duì)于Si含量越高,反之則Si含量越高,PCa和PSi分別表示Ca和Si所占比例。
V=4.5[1+(PCa-PSi)]+1
(1)
(4)硬度特征:硬度的主要依據(jù)就是普氏系數(shù),又稱(chēng)巖石堅(jiān)固性系數(shù)、緊固系數(shù),計(jì)算公式為
f=R/10
(2)
式(2)中:R為巖石的單軸抗壓強(qiáng)度,MPa。一般根據(jù)巖石普氏系數(shù)將巖石分為10級(jí),正好對(duì)應(yīng)本文圖像外參數(shù)取值的1~10,故以普氏系數(shù)分級(jí)作為度量,最硬(即分級(jí)為Ⅰ級(jí)) 在本文中取值為10。
將表1的特征轉(zhuǎn)化為可訓(xùn)練的參數(shù)后,獲得如表2所示的圖像外特征數(shù)據(jù)。例如,一塊標(biāo)準(zhǔn)的白云巖巖屑的圖像外特征可表示為特征向量:(1, 7, 8.2, 4)。
表2 巖屑圖像外特征參數(shù)示例表Table 2 Sample table of external characteristic parameters of rock debris image
本文模型如圖2所示。
圖2 模型示意圖Fig.2 Model diagram
本文所用數(shù)據(jù)集在錄井現(xiàn)場(chǎng)獲取,是圖像數(shù)據(jù)和圖像外特征描述的合集。使用隨機(jī)函數(shù)對(duì)數(shù)據(jù)進(jìn)行打亂,選取數(shù)據(jù)的80%作為訓(xùn)練集,20%作為驗(yàn)證集。
在對(duì)巖屑圖像外特征進(jìn)行量化時(shí),一些特殊情況下某一特征并不好界定,則可輸入范圍,根據(jù)混合同余法在給定范圍給出一個(gè)均勻分布隨機(jī)數(shù),如式(3)所示,或任其為空。
(3)
式(3)中:zi為在范圍[a, b]產(chǎn)生的隨機(jī)數(shù);A、C、M為參數(shù);modM為取余操作。本文中A=2 045,C=1,M=220。
巖屑圖像本身包含著淺層的像素信息,如像素值大小、像素值分布情況與位置關(guān)系。但這些分布太過(guò)具體,無(wú)法作為區(qū)分類(lèi)別的依據(jù),所以需要神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行不斷的卷積操作,獲取圖像的深層信息,深度越深特征越抽象,同類(lèi)物質(zhì)之間的共性越明顯。本文選取深度可分離卷積與殘差連接結(jié)合的Xception網(wǎng)絡(luò)為圖像特征提取器。其中殘差連接能夠在堆疊網(wǎng)絡(luò)深度的情況下有效避免網(wǎng)絡(luò)退化問(wèn)題(degradation problem),同時(shí)Xception將卷積神經(jīng)網(wǎng)絡(luò)的特征圖中跨通道相關(guān)性和空間相關(guān)性的映射進(jìn)行完全解耦[18],采用深度可分離卷積,在保證精度的情況下大幅度降低卷積計(jì)算的參數(shù)數(shù)量[19],即
(4)
式(4)中:rNp為深度可分離卷積與傳統(tǒng)卷積的參數(shù)量之比;Sk為卷積核的尺寸;CI為輸入特征的通道數(shù);CO為輸出特征的通道數(shù)。由式(4)可以發(fā)現(xiàn),使用深度可分離卷積代替普通卷積后參數(shù)量可減少大約CO倍。
選取交叉熵作為損失函數(shù)。交叉熵可度量多個(gè)概率分布間的差異性信息,作為損失函數(shù)可辨識(shí)和消除訓(xùn)練過(guò)程中的歧義,且方法簡(jiǎn)單有效易于計(jì)算機(jī)自適應(yīng),計(jì)算公式為
(5)
式(5)中:Loss為損失值;S為樣本的數(shù)量,本文取值為10 000;C為類(lèi)別的數(shù)量,本文取值為5;i、j分別為樣本編號(hào)和類(lèi)別編號(hào);Fij為指示變量,取值為0或1,如果該類(lèi)別和樣本i的類(lèi)別相同則為1,反之為0;Pij為對(duì)于觀測(cè)樣本i屬于類(lèi)別j的預(yù)測(cè)概率。
此外,模型還需要優(yōu)化器來(lái)更新和計(jì)算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值,從而最小化(或最大化)損失函數(shù)。本文模型采用的是Adam優(yōu)化器[20],Adam優(yōu)化器結(jié)合了AdaGrad和RMSProp兩種優(yōu)化算法,對(duì)梯度的一階矩估計(jì)(firstmomentestimation)和二階矩估計(jì)(secondmomentestimation)進(jìn)行綜合考慮,即綜合考慮梯度的均值與梯度的方差,計(jì)算更新步長(zhǎng),即
(6)
(7)
(8)
本文模型使用了ReLU和Softmax兩個(gè)激活函數(shù),其中ReLU用來(lái)使神經(jīng)網(wǎng)絡(luò)每一層的輸出由線性變?yōu)榉蔷€性;Softmax函數(shù)用來(lái)做分類(lèi),輸出每一類(lèi)對(duì)應(yīng)的概率值。
3.4.1 ReLU函數(shù)
函數(shù)表達(dá)式為
(9)
由于該函數(shù)為分段函數(shù),在x=0處不可導(dǎo),所以需要次梯度來(lái)實(shí)現(xiàn)模型的模型優(yōu)化和反向傳播,次梯度公式為
(10)
式(10)中:c為次梯度;x0為x變化前的值。當(dāng)x≥0時(shí),其導(dǎo)數(shù)為1;當(dāng)x≤0時(shí),其導(dǎo)數(shù)為0,將導(dǎo)數(shù)結(jié)果代入式(10)不等號(hào)右邊,得到
(11)
則ReLU函數(shù)在x=0的次梯度是c∈[0,1],次梯度可取0~1的任意值,本文取0。
3.4.2Softmax函數(shù)
Softmax(歸一化指數(shù))函數(shù)的計(jì)算公式為
(12)
式(12)中:Oi為第i個(gè)結(jié)點(diǎn)的輸出值;C為類(lèi)別個(gè)數(shù),本文中取值為5。由式(12)計(jì)算,經(jīng)過(guò)Softmax函數(shù)之后每個(gè)類(lèi)別的輸出值會(huì)除以所有類(lèi)別輸出值的和,這樣得到的就是每一個(gè)類(lèi)別的概率值,各個(gè)類(lèi)別概率值之和為1,以此概率值為依據(jù)就可對(duì)訓(xùn)練樣本進(jìn)行預(yù)測(cè),選取預(yù)測(cè)概率值最大的一類(lèi)作為樣本的預(yù)測(cè)類(lèi)別。
圖3 數(shù)據(jù)變換示意圖Fig.3 Schematic diagram of data transformation
(13)
式(13):i為圖像編號(hào)。
在程序中已經(jīng)使用交叉熵?fù)p失函數(shù)和準(zhǔn)確率(accuracy)來(lái)動(dòng)態(tài)度量模型在訓(xùn)練過(guò)程中的預(yù)測(cè)情況,為全面了解模型在樣本上的預(yù)測(cè)性能,本文使用混淆矩陣來(lái)查看每一類(lèi)樣本被預(yù)測(cè)的情況,然后根據(jù)混淆矩陣求出精確率(precision,P),召回率(recall,R)和F-measure(F1),即
(14)
(15)
(16)
式中:NTP為預(yù)測(cè)為正類(lèi)且預(yù)測(cè)正確的樣本數(shù)量;NFP為預(yù)測(cè)為正類(lèi)但預(yù)測(cè)錯(cuò)誤的樣本數(shù)量,即將其他類(lèi)預(yù)測(cè)為該類(lèi);NFN為負(fù)類(lèi)且預(yù)測(cè)錯(cuò)誤的樣本數(shù)量;C為類(lèi)別數(shù)量,本文中為5。
為反映融合特征的性能表現(xiàn),整理了兩組實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行對(duì)比。兩組數(shù)據(jù)集各包含10 000張圖片共計(jì)5類(lèi)巖屑,每類(lèi)2 000張圖片。兩組數(shù)據(jù)集的區(qū)別:第一組圖片如圖1中所示,特征較為模糊,人眼很難識(shí)別;第二組則特征相對(duì)明顯,人眼辨識(shí)性較強(qiáng),如圖4所示。
圖4 5類(lèi)高質(zhì)量巖屑圖像樣本Fig.4 Five types of high-quality debris images
在兩組數(shù)據(jù)集上,分別開(kāi)展僅圖像特征和融合特征的深度學(xué)習(xí)與測(cè)試實(shí)驗(yàn),將識(shí)別結(jié)果代入式(14)~式(16),得到表3中的結(jié)果。實(shí)驗(yàn)結(jié)果表明,融合圖像外特征的模型,巖屑的分類(lèi)準(zhǔn)確率得到了明顯提升。在人眼辨識(shí)度較高的高質(zhì)量數(shù)據(jù)集上提高了3.45個(gè)百分點(diǎn),而在低質(zhì)量數(shù)據(jù)集上提升達(dá)到20.92個(gè)百分點(diǎn)。由此可見(jiàn)融合了圖像外特征的模型,普適性與魯棒性都更優(yōu)。
表3 兩種模型對(duì)比Table 3 Comparison of two models
針對(duì)僅圖像訓(xùn)練模型與融合特征訓(xùn)練模型的收斂能力,在數(shù)據(jù)集1上設(shè)計(jì)消融實(shí)驗(yàn)。保證除模型不同的情況下其他參數(shù)均相同,使用交叉熵來(lái)度量損失,訓(xùn)練準(zhǔn)確率就是在每張圖片被預(yù)測(cè)為正確類(lèi)別的概率。訓(xùn)練過(guò)程如圖5和圖6所示。
圖5 僅圖像特征的訓(xùn)練損失值與準(zhǔn)確率變化圖Fig.5 Chart of training loss and accuracy of only image feature
圖6 融合特征的訓(xùn)練損失值與準(zhǔn)確率變化圖Fig.6 Chart of training loss and accuracy of mixed feature
僅圖像訓(xùn)練模型經(jīng)過(guò)30次訓(xùn)練,在驗(yàn)證集上得到的綜合損失值為0.032 0,綜合準(zhǔn)確率為96.50%。
融合特征模型經(jīng)過(guò)30次訓(xùn)練,在驗(yàn)證集上得到的綜合損失值為0.003 5,綜合準(zhǔn)確率為99.95%,高于僅圖像訓(xùn)練3.45個(gè)百分點(diǎn)。
對(duì)比圖5和圖6可得,融合特征訓(xùn)練的模型在訓(xùn)練過(guò)程中隨著迭代次數(shù)增加,損失值和正確率曲線較為平穩(wěn),無(wú)較大波動(dòng),反觀僅圖像訓(xùn)練模型的曲線,驗(yàn)證集損失值在多次迭代之后仍上下起伏,幅度達(dá)到0.1,可見(jiàn)融合特征訓(xùn)練較僅圖像訓(xùn)練魯棒性更優(yōu)。
保證損失函數(shù)、優(yōu)化器、迭代次數(shù)、批次大小、學(xué)習(xí)率等參數(shù)均不變的情況下,將模型圖像特征提取器更換為以下幾種常見(jiàn)網(wǎng)絡(luò):VGG16、ResNet和DenseNet在數(shù)據(jù)集1進(jìn)行訓(xùn)練,計(jì)算其損失值和準(zhǔn)確率得到表4。結(jié)果表明Xception作為特征提取器時(shí)準(zhǔn)確率達(dá)到最高。
表4 不同網(wǎng)絡(luò)學(xué)習(xí)模型對(duì)比Table 4 Comparison of different networks
本文提出的融合圖像特征與圖像外特征的巖屑識(shí)別模型,結(jié)合傳統(tǒng)錄井與機(jī)器學(xué)習(xí)的優(yōu)勢(shì),簡(jiǎn)化了錄井過(guò)程、提高了識(shí)別精度,在應(yīng)用神經(jīng)網(wǎng)絡(luò)優(yōu)秀學(xué)習(xí)能力與抽象特征提取能力的同時(shí),將巖屑本身的特性抽象為向量,與圖像特征結(jié)合為更為全面、具體的特征,以此提高了模型的識(shí)別準(zhǔn)確率與普適性,尤其是在低質(zhì)量巖屑圖像數(shù)據(jù)集上的效果更為顯著。而且,隨著需求和現(xiàn)場(chǎng)工作條件的變化,圖像外參數(shù)還可以進(jìn)一步量化其他巖性指標(biāo),在實(shí)際應(yīng)用中靈活地改變和增加其他特征,以獲得更好的實(shí)際工作效果,為油田開(kāi)發(fā)提供了一種可靠、高效的方法。