鄧力琿, 曹 麗, 張俊杰
(合肥工業(yè)大學(xué) 數(shù)學(xué)學(xué)院,安徽 合肥 230601)
測井,也叫地球物理測井,是地質(zhì)勘查和油氣資源評價的一種有效技術(shù)手段,它主要利用巖層的電化學(xué)特性、導(dǎo)電特性、聲學(xué)特性、放射性等地球物理特性來測量地質(zhì)體的地球物理參數(shù)特征[1-2]。測井?dāng)?shù)據(jù)隱含著豐富的地質(zhì)信息,實(shí)際工作中需要運(yùn)用適當(dāng)?shù)臄?shù)學(xué)物理方法建立相應(yīng)的測井解釋模型,以實(shí)現(xiàn)地質(zhì)體和地質(zhì)現(xiàn)象由地球物理參數(shù)向地質(zhì)信息的映射轉(zhuǎn)換,如巖性、泥質(zhì)含量、孔隙度、滲透率等[3-5]。因此,測井?dāng)?shù)據(jù)在地質(zhì)科學(xué)中有著廣泛的應(yīng)用前景[6]。
測井曲線數(shù)據(jù)是測井資料處理和地質(zhì)解釋工作的重要依據(jù)。測井曲線種類眾多、數(shù)據(jù)量大,具有多維、多類、多量、多尺度等顯著特征[7]。然而,維度過高必然增加測井解釋模型的復(fù)雜程度,降低模型的構(gòu)建及工作效率[8];因此,對測井?dāng)?shù)據(jù)進(jìn)行降維處理,優(yōu)選最佳維度及參數(shù),對于提高測井解釋工作的效率具有重要意義。根據(jù)測井?dāng)?shù)據(jù)從高維空間到低維空間的變換關(guān)系,通常可分為線性降維和非線性降維[9-14]。線性降維方法主要包括主成分分析(principal component analysis,PCA)、線性判別分析(linear discriminant analysis,LDA)、獨(dú)立成分分析(independent components analysis,ICA)等。由于線性降維方法具有計(jì)算簡便、原理簡單、易于解釋等特點(diǎn),在測井?dāng)?shù)據(jù)處理和解釋工作中已有一些較好的研究和應(yīng)用。文獻(xiàn)[10]借助PCA進(jìn)行測井?dāng)?shù)據(jù)降維,并結(jié)合K近鄰方法對中東Y油田沉積相進(jìn)行了預(yù)測建模;文獻(xiàn)[11]運(yùn)用LDA進(jìn)行測井?dāng)?shù)據(jù)降維以識別巖性;文獻(xiàn)[12]使用ICA與支持向量機(jī)(support vector machine,SVM)相結(jié)合的方法對沉積相進(jìn)行定量識別,識別率優(yōu)于PCA-SVM方法。然而,因?yàn)閺?fù)雜地質(zhì)作用下的巖體具有非均質(zhì)性,測井?dāng)?shù)據(jù)的分布往往是非線性的,與地質(zhì)信息的映射關(guān)系亦為復(fù)雜的非線性結(jié)構(gòu),線性降維技術(shù)不能保留測井?dāng)?shù)據(jù)的非線性特征,在處理測井?dāng)?shù)據(jù)時存在一定的局限性,所以研究適合測井?dāng)?shù)據(jù)特點(diǎn)的非線性降維方法有利于提高測井?dāng)?shù)據(jù)處理及解釋工作的精度和效率。
非線性降維方法主要包括核主成分分析(kernel principal component analysis,KPCA)、等距映射(IsoMap)算法等。文獻(xiàn)[13]借助KPCA對煤與瓦斯的特征進(jìn)行降維,結(jié)合概率神經(jīng)網(wǎng)絡(luò)對瓦斯突出強(qiáng)度進(jìn)行識別;文獻(xiàn)[14]使用IsoMap作為數(shù)據(jù)降維方法,結(jié)果顯示,IsoMap-SVM瓦斯突出預(yù)測模型精度高于PCA-SVM模型。上述研究表明,非線性降維方法能夠保留復(fù)雜數(shù)據(jù)中的非線性特征,有效地提高了數(shù)據(jù)處理的質(zhì)量。但是上述非線性降維方法的可視化程度較低,影響了測井?dāng)?shù)據(jù)的可解釋性,從而對后續(xù)訓(xùn)練模型的精度產(chǎn)生影響。
t分布隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法[15]是一種比PCA更有效的高維數(shù)據(jù)非線性降維算法,且能通過減少聚集點(diǎn)的生成,提高可視化效果。本文針對測井?dāng)?shù)據(jù)多維度、非線性的特點(diǎn),引入t-SNE算法對測井?dāng)?shù)據(jù)進(jìn)行降維處理。以澳大利亞蘇拉特盆地Lauren煤層氣田測井?dāng)?shù)據(jù)為實(shí)驗(yàn)對象,研究基于t-SNE算法的測井?dāng)?shù)據(jù)非線性降維方法及算法實(shí)現(xiàn),并結(jié)合SVM,構(gòu)建t-SNE-SVM巖性解釋模型,實(shí)現(xiàn)基于測井?dāng)?shù)據(jù)的巖性智能識別。研究結(jié)果表明,使用t-SNE降維處理后的測井?dāng)?shù)據(jù)分類明顯,保留了原始數(shù)據(jù)的非線性結(jié)構(gòu),進(jìn)而提高了t-SNE-SVM巖性識別模型的透明度和可解釋性。
t-SNE算法是一種非線性降維技術(shù),該算法是隨機(jī)近鄰嵌入(stochastic neighbor embedding,SNE)算法的改進(jìn)算法[15-17],主要思想是將高維空間數(shù)據(jù)點(diǎn)間的歐氏距離轉(zhuǎn)化為聯(lián)合條件概率,通過計(jì)算條件概率的大小來判斷數(shù)據(jù)點(diǎn)的遠(yuǎn)近程度,進(jìn)而在低維投影空間重組數(shù)據(jù)點(diǎn)的空間位置。
假設(shè)高維空間中的數(shù)據(jù)點(diǎn)xi和xj之間的相似性距離用條件概率pj|i表示,計(jì)算公式如下:
(1)
其中,σi為以xi為中心的高斯分布的方差。通常最佳σi是借助困惑度Prep,并利用二分法確定的。因此高維空間數(shù)據(jù)點(diǎn)的聯(lián)合概率pij可用下式求得,即
(2)
(3)
t-SNE算法通常借助2個分布的KL散度(Kullback-Leibler divergence)確定低維投影空間數(shù)據(jù)點(diǎn)的相對位置,即計(jì)算損失函數(shù)C的極值,計(jì)算公式為:
(4)
通常利用梯度下降法求取C的最小值,并確定低維投影數(shù)據(jù)。梯度計(jì)算公式為:
(5)
α(t)(X*(t-1)-X*(t-2))
(6)
其中:X*(t)為第t次迭代后的低維樣本;η為學(xué)習(xí)率;α(t)為動量因子。
測井?dāng)?shù)據(jù)降維通常包含數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)標(biāo)準(zhǔn)化、t-SNE數(shù)據(jù)降維等過程,如圖1所示。
圖1 測井?dāng)?shù)據(jù)降維主要工作流程
(1) 數(shù)據(jù)預(yù)處理。因?yàn)闇y量環(huán)境、條件及儀器使用不當(dāng)?shù)戎?、客觀因素影響,測井?dāng)?shù)據(jù)通常存在各種誤差,所以首先要對原始數(shù)據(jù)進(jìn)行預(yù)處理,主要包括:屬性規(guī)約、缺失值處理和異常值檢驗(yàn)等。
(2) 測井?dāng)?shù)據(jù)分析。主要包括相關(guān)性檢驗(yàn)、集中趨勢分析、頻數(shù)分析和離散程度分析等。
(3) 測井?dāng)?shù)據(jù)標(biāo)準(zhǔn)化。由于不同測井曲線的數(shù)值范圍存在較大差異,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理以消除量綱影響,如z-score標(biāo)準(zhǔn)化。
(4) t-SNE測井?dāng)?shù)據(jù)降維。該過程主要包括投影維度確定、參數(shù)選取、數(shù)據(jù)計(jì)算等。
圖2 基于t-SNE測井?dāng)?shù)據(jù)降維算法
數(shù)據(jù)輸入:n×m維測井?dāng)?shù)據(jù)。
算法步驟如下:
(1) t-SNE參數(shù)初始化。主要包括困惑度Prep、梯度下降最大迭代次數(shù)t、學(xué)習(xí)率η、動量因子α、投影空間維度m′、KL散度C的閾值Cmin等。
(2) 計(jì)算高維空間聯(lián)合概率。通過Prep值計(jì)算測井?dāng)?shù)據(jù)方差σi,進(jìn)而計(jì)算測井?dāng)?shù)據(jù)的聯(lián)合概率pij。
(3) 低維空間投影數(shù)據(jù)初始化。將每個投影數(shù)據(jù)隨機(jī)初始化為m′維向量,將總投影數(shù)據(jù)記為n×m′的矩陣X*(0)。
(4) 通過最小化KL散度找到最優(yōu)投影結(jié)果。首先使用X*(0)計(jì)算低維聯(lián)合概率qij;然后計(jì)算KL散度C(0);最后使用梯度更新規(guī)則對投影數(shù)據(jù)進(jìn)行迭代更新。若第k次更新后的投影數(shù)據(jù)為X*(k),迭代次數(shù)k>t或C(k) 本文以澳大利亞蘇拉特盆地Lauren煤層氣田測井?dāng)?shù)據(jù)為例,進(jìn)行基于t-SNE算法的測井?dāng)?shù)據(jù)降維研究,實(shí)現(xiàn)復(fù)雜高維測井?dāng)?shù)據(jù)的非線性智能降維。 根據(jù)測井原始數(shù)據(jù)特點(diǎn),經(jīng)屬性規(guī)約、缺失值處理、異常值檢驗(yàn)等預(yù)處理過程,整理出與測井解釋高度相關(guān)的測井曲線,用于t-SNE降維算法研究。主要包括自然伽馬GR、補(bǔ)償密度DEN、井徑CAL、淺電阻率RS、深電阻率RD等11個維度。 測井曲線數(shù)據(jù)分布統(tǒng)計(jì)結(jié)果見表1所列。 表1 測井曲線數(shù)據(jù)分布統(tǒng)計(jì)結(jié)果 此外,在測井?dāng)?shù)據(jù)預(yù)處理過程中,還得到巖性學(xué)習(xí)樣本348個。由表1可知,這些測井曲線數(shù)據(jù)存在數(shù)據(jù)離散及波動程度較大等問題,需要進(jìn)行標(biāo)準(zhǔn)化處理,以消除量綱影響,提高數(shù)據(jù)質(zhì)量和精度,其標(biāo)準(zhǔn)化公式為: (7) 其中:μi表示xij的均值;σi表示xij的標(biāo)準(zhǔn)差。經(jīng)過標(biāo)準(zhǔn)化,測井?dāng)?shù)據(jù)的分布情況比較穩(wěn)定,如圖3所示。 圖3 測井?dāng)?shù)據(jù)標(biāo)準(zhǔn)化結(jié)果箱線圖 根據(jù)t-SNE原理可知,影響最終結(jié)果的主要參數(shù)包括投影維度、困惑度等。先對相關(guān)參數(shù)進(jìn)行確定;為了確定最優(yōu)參數(shù),以KL散度作為衡量指標(biāo),KL散度越小,說明降維效果越好。因?yàn)槔Щ蠖扰c投影維度間存在相互影響關(guān)系,所以使用窮舉法優(yōu)選最佳參數(shù)。 首先,通過固定困惑度,計(jì)算投影維度1~11間的KL散度值。經(jīng)對比分析,投影維度為2時,KL散度最小,且投影維度增大,KL散度逐步增大,如圖4a所示;依據(jù)優(yōu)選的投影維度,將困惑度的范圍限定為5~50[13],計(jì)算KL散度值,如圖4b所示??梢钥闯鲭S著困惑度增大,KL散度呈波狀遞增,確定最佳困惑度為5。 圖4 KL散度趨勢 最后,利用梯度下降法對X*進(jìn)行迭代運(yùn)算,輸出結(jié)果即為低維空間的投影數(shù)據(jù)。 傳統(tǒng)的線性降維方法PCA在低維空間的主元相互獨(dú)立,這就導(dǎo)致在高維空間中不相關(guān),但距離很近的數(shù)據(jù)點(diǎn)在低維空間可能會相距較遠(yuǎn)。但是在t-SNE算法中,投影樣本的相關(guān)系數(shù)不需要為0,因此能夠在低維空間中保持高維空間中數(shù)據(jù)的近鄰關(guān)系,使得同簇的樣本更加鄰近,不同簇的樣本相互遠(yuǎn)離,保留了原始數(shù)據(jù)的局部結(jié)構(gòu)特征。因此,從數(shù)據(jù)可視化角度來看,t-SNE算法具有更好的可視化效果,如圖5所示。 圖5 t-SNE和PCA投影 SVM是機(jī)器學(xué)習(xí)中最流行的模型之一,能夠執(zhí)行線性或非線性分類,應(yīng)用十分廣泛。下面將本文的t-SNE-SVM巖性識別模型和PCA-SVM巖性識別模型進(jìn)行對比分析。在對測井?dāng)?shù)據(jù)預(yù)處理和降維后,確定SVM模型輸入維度為2,輸出類別為3類,并且通過測試訓(xùn)練確定模型核函數(shù)為徑向基核函數(shù)(radial basis function,RBF),懲罰系數(shù)為1,最終t-SNE-SVM模型結(jié)果見表2所列。結(jié)果表明,模型訓(xùn)練精度為92.53%,砂巖判斷準(zhǔn)確率為93.53%,砂泥巖判斷準(zhǔn)確率為90.23%。PCA-SVM模型最終結(jié)果見表3所列,模型訓(xùn)練精度為86.49%,砂巖判斷準(zhǔn)確率為86.57%,砂泥巖判斷準(zhǔn)確率為83.24%。 表2 t-SNE-SVM巖性識別模型訓(xùn)練精度 表3 PCA-SVM巖性識別分類結(jié)果 針對測井?dāng)?shù)據(jù)維度高、結(jié)構(gòu)復(fù)雜等特點(diǎn),本文提出使用非線性降維方法t-SNE對測井?dāng)?shù)據(jù)進(jìn)行降維處理,構(gòu)建了t-SNE-SVM巖性識別模型,并與PCA-SVM巖性識別模型進(jìn)行了對比;同時從可視化角度、模型訓(xùn)練精度和巖性判斷準(zhǔn)確率等方面和傳統(tǒng)線性降維方法PCA進(jìn)行對比分析。結(jié)果表明,t-SNE-SVM巖性識別模型精度更高,可解釋性更強(qiáng)。因此將非線性降維方法t-SNE應(yīng)用于測井?dāng)?shù)據(jù)的降維對后續(xù)測井?dāng)?shù)據(jù)的相關(guān)定量評價分析具有一定的參考價值。3 基于t-SNE的測井?dāng)?shù)據(jù)降維
3.1 測井?dāng)?shù)據(jù)預(yù)處理
3.2 基于t-SNE的測井?dāng)?shù)據(jù)降維
4 t-SNE測井?dāng)?shù)據(jù)降維效果分析
4.1 t-SNE與PCA可視化效果對比
4.2 t-SNE-SVM和PCA-SVM效果對比
5 結(jié) 論