柳成志,滕立惠
(東北石油大學(xué),黑龍江 大慶 163318)
利用支持向量機識別松遼盆地火山巖巖性
柳成志,滕立惠
(東北石油大學(xué),黑龍江 大慶 163318)
利用支持向量機(SVM)方法,選取個性特征元素,建立火山巖巖性成分的識別方法,來區(qū)分玄武質(zhì)、安山質(zhì)、粗面質(zhì)、英安質(zhì)、流紋質(zhì)火山巖巖性.通過對松遼盆地內(nèi)部的火山巖樣本進行學(xué)習(xí)和預(yù)測,火山巖大類平均識別率達到95%以上,表明支持向量機在火山巖巖性成分識別方面取得了良好效果.
松遼盆地;火山巖巖性;支持向量機;核函數(shù)
近年來隨著深層天然氣及外圍盆地勘探的深入,勘探的目的層主要變?yōu)橐曰鹕綆r巖性為主的地層.以往對火山巖巖性識別主要依靠肉眼觀察、薄片鑒定等手段,但由于肉眼觀察描述需要深厚的巖石礦物學(xué)專業(yè)知識和豐富的實踐經(jīng)驗,在錄井現(xiàn)場工作人員的實踐經(jīng)驗還不豐富,無法達到精確判斷的需求.而薄片鑒定、化學(xué)分析等鑒定手段由于周期長、成本高,不能及時地對現(xiàn)場每個點、層進行識別和描述.所以需要通過開展能夠滿足各類火山巖個性特征元素分析測定的分析儀器樣機研制,對代表性樣品元素進行分析.
因此,深入開展火山巖元素識別巖性方法研究,選取不同巖石的個性特征元素,利用支持向量機來建立不同巖石的巖性識別方法,對建立正確的地層巖性剖面,認識火山巖的復(fù)雜地質(zhì)特征具有積極的影響和重要的意義.
支持向量機(Support Vector Machine,SVM)是Cortes和Vapnik于1995年正式提出的[1],以最小化錯誤率理論界限為思想,以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),能較好地解決小樣本學(xué)習(xí)問題的一種新的機器學(xué)習(xí)方法[2].對于支持向量機的通俗表述,就是在已知樣本和部分函數(shù)值的情況下,努力尋求某一映射,對未知的函數(shù)值進行估計判斷[3].與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)相比,SVM不僅具有堅實的理論基礎(chǔ),而且結(jié)構(gòu)簡單,各種技術(shù)性能尤其是泛化能力明顯提高,因此被廣泛應(yīng)用于模式分類、函數(shù)估計及回歸分析等領(lǐng)域[4].
1.1 支持向量機原理
支持向量機算法的主要思想是尋找一個能將兩類樣本正確劃分,并且使分類間隔最大的平面,即最優(yōu)分類面.例如給定一組由兩類點組成的訓(xùn)練樣本(xi,yi),i=1,2, ,n,xi∈Rd,yi∈{+1,-1},其中n為訓(xùn)練集數(shù),d為空間維數(shù),當(dāng)xi屬于第一類,則標(biāo)記為yi=+1,如果屬于第二類,則標(biāo)記為yi=-1.
圖1 最優(yōu)分類面Fig.1Optimal hyperplane
圖1中,N+和N-代表兩類樣本,P是分類面,P1和P2分別為過各類中離分類線最近的樣本且平行于分類線的直線,兩者之間的距離叫做分類間隔.
假設(shè)存在一個超平面,能將這組訓(xùn)練樣本完全分開,使得:
其中<,>代表向量點積.可以把上述不等式合并,寫成:
由于參數(shù)(w,b)不是唯一確定的,可以相差一個常數(shù)因子yi,此時的分類間隔等于2/(‖‖w),間隔最大等價于使‖w‖2最小,滿足式(3)且使最小的分類面就是最優(yōu)分類面.
根據(jù)以上分析,求解最優(yōu)分類超平面可以歸結(jié)為如下二次優(yōu)化問題:
這是一個嚴格的凸規(guī)劃問題,有唯一的極值點,而函數(shù)的極值點就是Lagrange函數(shù)的鞍點[5],所以求下列Lagrange函數(shù)的鞍點:
其中αi為每個樣本所對應(yīng)的Lagrange乘子,yi為第i個樣本的標(biāo)簽,xi為樣本點向量.在鞍點處,參數(shù)w,b的梯度都為零:
將(6)(7)式代入(5)式中,消去w,b可得原優(yōu)化問題的Wolfe對偶問題,即在約束條件下,對αi求解下列函數(shù)W(α)的最大值:
利用任一支持向量和KKT條件,依據(jù)在鞍點處,對偶變量與約束的乘積為0,即:
這樣就可以得到所求的最優(yōu)分類判別函數(shù):
1.2 核函數(shù)
對于一些非線性問題,只要選擇適當(dāng)?shù)暮撕瘮?shù),支持向量機就可以先將低維空間的非線性轉(zhuǎn)換為高維空間的線性問題,再將高維空間的點積運算轉(zhuǎn)換為低維空間的核函數(shù)運算,從而回到原始的低維空間[3].采用的核函數(shù)不同能夠?qū)е虏煌闹С窒蛄繖C的算法[6-7].目前,支持向量機多使用以下3種核函數(shù):
2.1 巖性分類流程
松遼盆地深層火山巖地層提供了154個有準確巖心薄片定名資料的數(shù)據(jù)點,即支持向量機的樣本數(shù)目為154個,選取其中88個樣本作為訓(xùn)練樣本,66個樣本作為測試樣本.
通過對不同巖性火山巖的研究,最終選取Na、Mg、Si、K、Ti、Sr、Ag、In、Ba、Ca 10個元素屬性作為樣本的輸入維數(shù),并且按照SVM的格式輸入數(shù)據(jù)(見表1).將地質(zhì)上按照巖石常量元素化學(xué)成分劃分的火山巖類別作為支持向量機的預(yù)測結(jié)果,即下述5大類:玄武質(zhì)火山巖類、安山質(zhì)火山巖類、粗面質(zhì)火山巖類、英安質(zhì)火山巖類、流紋質(zhì)火山巖類.這樣樣本空間便是10維5類.
選定RBF函數(shù)后,確定該模型的參數(shù)g以及懲罰參數(shù)c.主要采用了Matlab LibSVM分類法確定模型參數(shù)(圖2):
對于給定的151個數(shù)據(jù)點的10個元素屬性數(shù)據(jù),首先選定一組c和g的范圍,c=2-6,2-3, 215和g=2-15,2-12, 215,逐漸調(diào)小步長,再確定一組參數(shù)c=2-5, 20, 215和g=22,23, 2-14,將得到的準確率最高,可知當(dāng)c=2,g=4時,針對66個樣本點的回判分類,共有3個點分類錯誤,回判正確率為95.5%(圖3).
表1 SVM部分輸入數(shù)據(jù)Table 1Input data for SVM
圖2 火山巖巖性分類程序Fig.2Classification program of volcanic rocks
圖3 火山巖巖性分類的準確率等值線Fig.3Accuracy contour of volcanic rock classification
2.2 結(jié)果及討論
使用Matlab 2010b編寫處理數(shù)據(jù),利用已經(jīng)學(xué)習(xí)后的SVM模型進行火山巖巖性成分識別,結(jié)果見表2.由表2可知,采用SVM識別松遼盆地深層火山巖的巖性與實際取心資料進行對比,其中英安質(zhì)、粗面質(zhì)火山巖符合率達到100%,說明在小樣本的情況下,利用支持向量機能夠準確識別火山巖巖性,提高劃分精度.
(1)利用支持向量機方法來識別火山巖巖性,在小樣本、高維和非線性情況下能獲得較高的準確率.
表2 支持向量機分析巖性準確率Table 2Accuracy of SVM analysis
(2)在對火山巖巖性成分識別的過程中,支持向量機能夠充分發(fā)現(xiàn)巖性與個性特征元素之間的映射關(guān)系,保證良好的學(xué)習(xí)效果.
丹東五龍山(五龍山風(fēng)景區(qū)管理委員會提供)
[1]Cortes C,Vapnik V.Support vector networks[J].Machine Learning, 1995,20:273—295.
[2]李艷芳,程建遠,王成.基于支持向量機的地震屬性優(yōu)選及煤層氣預(yù)測[J].煤田地質(zhì)與勘探,2012,40(6):75—78.
[3]朱永才.基于支持向量機的儲層參數(shù)預(yù)測方法研究[D].成都:西南石油大學(xué),2012:12—13.
[4]王奇安.基于廣泛內(nèi)核的CVM算法研究及參數(shù)C的選擇[D].南京:南京航空航天大學(xué),2009:1—2.
[5]席少霖.非線性最優(yōu)化方法[M].北京:高等教育出版社,1992.
[6]Osuna E,Freund R,Girosi F.An improved training algorithm for support vectormachines[A]//NeuralnetworksforsignalprocessingVII.Proceedings of IEEE 1997 workshop.New York.
[7]Vapnik V N.Estimation of dependences based on empirical data[M]. Spring-Verlag,1982.
RECOGNITION OF THE LITHOLOGY OF VOLCANIC ROCKS IN SONGLIAO BASIN BY SUPPORT VECTOR MACHINE
LIU Cheng-zhi,TENG Li-hui
(Northeast Petroleum University,Daqing 163318,Heilongjiang Province,China)
Using the method of support vector machine(SVM),with selection of characteristic elements,an identification method for the lithology of volcanic rocks is established to distinguish the basaltic,andesitic,trachytic,dacitic and rhyolitic volcanic rocks.By learning and prediction of the volcanic rock samples from the Songliao Basin,the average recognition rate for volcanic rocks reaches to 95%and more,showing that the SVM obtain a good result in the identification of volcanic rock component.
SongliaoBasin;lithologyofvolcanicrocks;supportvectormachine;kernelfunction
1671-1947(2014)03-0288-04
P631
A
2013-06-21;
2013-07-30.編輯:張哲.
柳成志(1962—),男,博士,教授,從事層序地層學(xué)、成巖作用、油氣儲層地質(zhì)學(xué)、沉積學(xué)、火山巖油氣藏研究,通信地址黑龍江省大慶市高新技術(shù)開發(fā)區(qū)發(fā)展路199號,E-mail//chzhdq@vip.sina.com