文必龍 李艷春
(東北石油大學(xué)計算機與信息技術(shù)學(xué)院 黑龍江 大慶 163318)
試井解釋是通過檢查、分析試井資料的特征獲取有關(guān)油藏信息和描述油藏物理本性參數(shù)的過程[1]。但是現(xiàn)階段的方法都是以圖版擬合為基礎(chǔ),即實測曲線與理論典型曲線相比對得到最佳擬合理論曲線及擬合點,通過反演的方式反求地層參數(shù)[2-4],對于圖版的選擇需要依靠解釋人員經(jīng)驗指導(dǎo),并且單井解釋需通過多組圖版進行比對。試井解釋智能化的概念在1986年石油國際會議上被格林加登提出,他認(rèn)為試井解釋具有主觀推理特性,試井分析問題可歸納為人工智能問題,這推動了人工智能在試井領(lǐng)域中的應(yīng)用研究[5],成為現(xiàn)代試井解釋的標(biāo)志。然而,傳統(tǒng)的人工智能算法所選用的數(shù)據(jù)量很小且趨于理想化,隨著試井?dāng)?shù)據(jù)采集量擴大,傳統(tǒng)的分析方法和人工智能算法的應(yīng)用逐漸受到限制。因此,現(xiàn)有的試井解釋方法至少存在三方面不足:(1) 分析過程具有解釋人員主觀性使結(jié)果不唯一;(2) 圖版分析過程繁瑣且低效;(3) 專家的經(jīng)驗不能復(fù)用。針對以上幾點不足,提出基于大數(shù)據(jù)的試井解釋方法,弱化圖版擬合的方式,利用多年試井解釋中長期積累的海量數(shù)據(jù),通過數(shù)據(jù)驅(qū)動的方式結(jié)合大數(shù)據(jù)分析技術(shù),挖掘試井解釋歷史數(shù)據(jù)與試井解釋結(jié)果間的潛在模式,構(gòu)建試井解釋參數(shù)預(yù)測模型,從而利用壓力數(shù)據(jù)預(yù)測得到試井解釋結(jié)果。對海量歷史解釋數(shù)據(jù)進行有效的利用,減少人工參與和經(jīng)驗對解釋結(jié)果的束縛,使復(fù)雜和專業(yè)性的試井解釋流程精簡化。
多年試井解釋中積累了海量數(shù)據(jù),這些數(shù)據(jù)的潛在價值是真實而巨大的[6]。在試井解釋大數(shù)據(jù)的支持下進行基于大數(shù)據(jù)的試井解釋參數(shù)分析,本質(zhì)是對試井大數(shù)據(jù)隱含模式的探索并對未來情況的建模[7],使試井解釋從經(jīng)驗驅(qū)動轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動。本文參照跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM[8]設(shè)計了基于大數(shù)據(jù)的試井解釋參數(shù)分析流程,如圖1所示。
圖1 基于大數(shù)據(jù)的試井解釋參數(shù)分析流程圖
基于大數(shù)據(jù)的試井解釋參數(shù)分析流程主要分為以下步驟:
(1) 對試井解釋歷史數(shù)據(jù)中的壓力導(dǎo)數(shù)雙對數(shù)曲線進行分析,研究壓力導(dǎo)數(shù)雙對數(shù)曲線所反映的同類型試井的共性特征,以及曲線特征的描述方法。
(2) 對曲線特征與試井解釋參數(shù)進行相關(guān)性分析,確定模型構(gòu)建所需的敏感性變量,與試井基礎(chǔ)數(shù)據(jù)構(gòu)成試井解釋樣本庫。
(3) 通過分析試井解釋問題的求解類型,選擇合適的建模方法,構(gòu)建試井解釋參數(shù)預(yù)測模型。
(4) 通過誤差分析結(jié)果,對模型進行調(diào)優(yōu),確定試井解釋參數(shù)的最終模型。以試井解釋壓力導(dǎo)數(shù)雙對數(shù)曲線數(shù)據(jù)作為輸入對試井解釋參數(shù)直接進行預(yù)測,替代使用圖版擬合并通過復(fù)雜方程求解的過程。
試井解釋軟件通過計算機匹配擬合誤差最小的樣板曲線,但是由于只考慮數(shù)據(jù)總體誤差最小化,而沒有考慮曲線特征的作用,導(dǎo)致并不能匹配到解釋的最佳擬合位置。手動擬合分析用視覺估計實測曲線與樣板曲線的擬合誤差,往往同一組數(shù)據(jù)會存在多種解釋。而且曲線擬合所用的圖版是在某種參數(shù)組合的條件下繪制,即使同一類型的油藏實測曲線與理論曲線相比也存在平移、有噪聲等問題,二者不能完全統(tǒng)一。本文采用弱化圖版擬合的方式,通過實測曲線特征量化試井解釋經(jīng)驗,采用特征組合的曲線描述方式,利用曲線特征數(shù)據(jù)直接進行解釋分析。
不同的試井壓力導(dǎo)數(shù)曲線的總特征不同,但是同一類型的試井壓力導(dǎo)數(shù)曲線的總特征存在共性,壓力導(dǎo)數(shù)曲線的早期、中期和晚期特征分別反映井筒、油藏及外邊界的情況[9]。傳統(tǒng)圖版擬合分析也是基于這一特性,最終都需要試井解釋專家根據(jù)曲線擬合效果更準(zhǔn)確地找到樣本曲線與擬合位置,其依據(jù)是在雙對數(shù)曲線上,各種不同的油氣藏、不同的井類型、不同流動階段均有不同的特征[10]。描述曲線特征就是試井解釋的關(guān)鍵,利用特征組合方式進行曲線特征描述過程如下:
首先,根據(jù)試井曲線的特征進行特征點選擇,選定一組可以準(zhǔn)確表述曲線峰值點和徑向流水平線的位置以及兩者之間關(guān)系的特征點。圖2為通過特征點描述曲線的顯著特征圖。
圖2 曲線特征點圖
其中:Start_point為壓力曲線與導(dǎo)數(shù)曲線重合起點;
Cross_point為壓力曲線與導(dǎo)數(shù)曲線重合的終點;
Top_point為壓力導(dǎo)數(shù)曲線的早期峰值點;
Radial_point1為壓力導(dǎo)數(shù)曲線徑向流段起點;
Radial_point2為壓力導(dǎo)數(shù)曲線徑向流段起點對應(yīng)壓力值。
在雙對數(shù)坐標(biāo)中通過Start_point、Cross_point和Top_point確定壓力導(dǎo)數(shù)曲線與壓差曲線的重合位置和壓力導(dǎo)數(shù)曲線早期峰值,通過Radial_point1和Radial_point2確定無限大徑向流階段0.5的水平線的位置。
其次,進行特征描述,細化特征點有效信息,確定雙對數(shù)曲線的形態(tài)和位置,如表1所示,通過特征點橫、縱坐標(biāo),時間比例,曲線構(gòu)成面積等一系列屬性值來描述特征點與其臨近區(qū)域的相互關(guān)系。
表1 曲線特征屬性表
最后,以分析均質(zhì)油藏的井筒儲集系數(shù)、流動系數(shù)和表皮系數(shù)三個試井解釋參數(shù)為例,利用曲線特征和解釋參數(shù)共同構(gòu)成分析數(shù)據(jù)集。
基于大數(shù)據(jù)的試井解釋參數(shù)分析所需的信息全靠從數(shù)據(jù)中得來,但在壓力測試過程中會受到實際客觀條件和人為主觀條件的限制,導(dǎo)致測試數(shù)據(jù)出現(xiàn)不確定的測試偏差,這些偏差會直接影響試井解釋建模效果的好壞,因此在開始分析處理之前必須要對分析數(shù)據(jù)集進行修正。通過數(shù)據(jù)預(yù)處理改進數(shù)據(jù)的質(zhì)量,使后面的分析結(jié)果和解釋模型更可靠。
對缺失數(shù)據(jù)的處理先探尋缺失值的來源,類似試井解釋基本數(shù)據(jù)井徑,油藏數(shù)據(jù)孔隙度、粘度這種特定不可替換的數(shù)據(jù)缺失,為不影響計算應(yīng)采用剔除的方式;類似試井壓力數(shù)據(jù)這種連續(xù)型數(shù)據(jù)的缺失可以采用插值方式進行數(shù)據(jù)修正。
對于異常值的處理,其被視為異常的原因不同,在不明確數(shù)據(jù)集分布情況下可采用箱線圖來檢測異常值。箱線圖可清晰地顯示一組數(shù)據(jù)的分散情況,并提供識別異常值的一個標(biāo)準(zhǔn):異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值(Q1、Q3為上下四分位數(shù),IQR為四分位距)[11]。圖3為利用箱線圖處理井筒儲集系數(shù)異常值的檢驗結(jié)果。圖3(a)中位于兩側(cè)虛線外側(cè)的均為異常值,對應(yīng)的樣本數(shù)量稀少,應(yīng)予以剔除,剔除后如圖3(b),數(shù)據(jù)無異常值存在。
(a) 箱線圖-處理前 (b) 箱線圖-處理后圖3 井筒儲集系數(shù)異常值檢測
數(shù)據(jù)預(yù)處理后,對試井解釋結(jié)果原始數(shù)據(jù)進行K-S檢驗,驗證是否符合正態(tài)分布。如果檢驗P值大于0.05,則表明K-S檢驗的原假設(shè)成立,即原數(shù)據(jù)符合正態(tài)分布;若P值小于0.05,則不符合正態(tài)分布。以井筒儲集系數(shù)為例進行分布檢驗,其P值為0.131,可以認(rèn)為服從正態(tài)分布。且預(yù)處理前井筒儲集系數(shù)的峰度和偏度分別為822.52和27.67,樣本進行預(yù)處理后其峰度和偏度分別為0.16和0.91,均小于1,說明樣本數(shù)據(jù)符合正態(tài)分布,如圖4所示為預(yù)處理前后分布情況對比。
(a) (b)圖4 解釋參數(shù)分布情況對比圖
在基于大數(shù)據(jù)的試井解釋參數(shù)分析中更加關(guān)注數(shù)據(jù)總體,從數(shù)據(jù)的總體中可以直接獲取有價值的信息,大數(shù)據(jù)相關(guān)分析是大數(shù)據(jù)分析中對有價值信息挖掘的關(guān)鍵,曲線特征描述過多會導(dǎo)致信息冗余和模型的可解釋性降低,通過相關(guān)性分析能有效地發(fā)現(xiàn)與度量曲線特征與試井解釋結(jié)果之間的相關(guān)關(guān)系[12]。通過相關(guān)性分析來確定試井解釋參數(shù)預(yù)測中的敏感性變量,對整體的數(shù)據(jù)集合進行多變量的關(guān)聯(lián)性分析,從特征樣本庫的眾多輸入指標(biāo)(不含解釋結(jié)果),找出影響解釋結(jié)果參數(shù)(如流動系數(shù)、井筒存儲系數(shù)和表皮系數(shù))的特征,將這些特征作為分析的實際特征,構(gòu)建試井解釋樣本庫。
對預(yù)處理后得到的數(shù)據(jù)進行相關(guān)性分析,計算任意解釋參數(shù)與曲線特征之間的相關(guān)系數(shù),度量此類數(shù)據(jù)相關(guān)性本節(jié)采用積距相關(guān)系數(shù)進行計算,計算公式如下:
(1)
式中:X和Y分別為解釋參數(shù)和曲線特征。
其樣本相關(guān)系數(shù)為:
(2)
由式(2)計算出解釋參數(shù)與曲線特征之間相關(guān)系數(shù),通過表2所示的相關(guān)系數(shù)表衡量兩者之間的相關(guān)關(guān)系,相關(guān)系數(shù)越大則認(rèn)為曲線特征對解釋參數(shù)的影響越大,將表中相關(guān)系數(shù)較大的特征選進試井解釋樣本庫中,用于最終預(yù)測模型的建立。
表2 解釋參數(shù)相關(guān)系數(shù)表
為更直觀地表述兩者的相關(guān)關(guān)系,繪制如圖5所示的相關(guān)性矩陣,當(dāng)曲線特征與解釋參數(shù)相關(guān)性矩陣中被觀察變量之間存在相關(guān)關(guān)系時,數(shù)據(jù)點會呈現(xiàn)一個集中趨勢[13]。
圖5 曲線特征與解釋參數(shù)相關(guān)性矩陣圖
通過表2相關(guān)系數(shù)和圖5相關(guān)性矩陣分析比較變量之間的相關(guān)性,可以發(fā)現(xiàn)井筒儲集系數(shù)受Strat_Cor和Cross_Cor的動態(tài)影響;流動系數(shù)受Top_Hor、Top_Cor、Radial_Cor和Cross_Cor的動態(tài)影響;表皮系數(shù)受Radial_Differ和Cross_Differ的動態(tài)影響。這說明井筒儲集系數(shù)與壓力導(dǎo)數(shù)雙對數(shù)曲線的早期形態(tài)有關(guān),流動系數(shù)與壓力導(dǎo)數(shù)曲線駝峰出現(xiàn)的時間以及峰值點的位置有關(guān),表皮系數(shù)與兩條曲線開口大小(即縱坐標(biāo)差值)有關(guān),以此篩選出特征數(shù)據(jù)集作為模型的輸入集符合正態(tài)分布。
不同類型的試井存在總體特征相同,具體存在差異的問題,所以試井解釋參數(shù)的預(yù)測方法需要有很強的適應(yīng)性,而神經(jīng)網(wǎng)絡(luò)具有函數(shù)逼近能力,能自動逼近學(xué)習(xí)范圍內(nèi)的任意插值情況[14],故使用神經(jīng)網(wǎng)絡(luò)方法來建立基于大數(shù)據(jù)的試井解釋參數(shù)預(yù)測模型。通過相關(guān)性分析對曲線特征數(shù)據(jù)進行有效降維,保留與各解釋參數(shù)有很大關(guān)聯(lián)度的敏感性變量,作為神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的輸入變量,從而構(gòu)建試井解釋參數(shù)預(yù)測模型。
模型的具體設(shè)定如下:
(1) 輸入層:輸入層節(jié)點對應(yīng)于模型的輸入變量,本模型中輸入節(jié)點由曲線特征變量決定。
(2) 輸出層:輸出層節(jié)點對應(yīng)預(yù)測目標(biāo),本模型中輸出節(jié)點由試井解釋參數(shù)決定,本文中只討論井筒儲集系數(shù)、流動系數(shù)和表皮系數(shù)三個試井解釋參數(shù),故輸出層節(jié)點數(shù)為3。
(3) 隱含層:隱含層的神經(jīng)元數(shù)太少,網(wǎng)絡(luò)不能很好地學(xué)習(xí),需要訓(xùn)練的次數(shù)較多,精度也不高;神經(jīng)元數(shù)太多,則導(dǎo)致訓(xùn)練時間較長,甚至不收斂。經(jīng)過多次調(diào)試實驗,隱含層數(shù)目為10時,神經(jīng)網(wǎng)絡(luò)對函數(shù)的逼近效果最好。
(4) 樣本選擇:預(yù)測模型的樣本數(shù)據(jù)為某地區(qū)均質(zhì)油藏的Gringarten-Bourdet圖版的歷史試井解釋數(shù)據(jù),盡管學(xué)習(xí)樣本不可能覆蓋所有可能的參數(shù)值,但神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)性,實測曲線特征和解釋參數(shù)的度量在學(xué)習(xí)范圍內(nèi),不管學(xué)習(xí)樣本是否與之完全吻合,模型都能給出預(yù)測值[15]。
(5) 模型驗證:采用保持樣本的方法對預(yù)測模型進行驗證,把學(xué)習(xí)樣本劃分為訓(xùn)練集和檢驗集,以訓(xùn)練集進行模型訓(xùn)練,以檢驗集進行正確率評估。
為提高模型預(yù)測精度,對特征數(shù)據(jù)集進一步采取雙變量分析。以分析Kh/μ(流動系數(shù))與Radial_Cor為例進行雙變量分析,如圖6(a)所示,Kh/μ與Radial_Cor存在相關(guān)性,但兩者之間的相關(guān)關(guān)系呈現(xiàn)出多條趨勢線。進一步探究分析發(fā)現(xiàn)呈現(xiàn)多條趨勢線是由于數(shù)據(jù)來源于不同井造成的,試井解釋參數(shù)模型是通過數(shù)據(jù)的共性特征構(gòu)建通用模型,可通過特征工程對模型的輸入輸出進行變量轉(zhuǎn)換。通過下式可以發(fā)現(xiàn)擬合值pm是與單井信息無關(guān)的變量,采用預(yù)測pm代替Kh/μ消除數(shù)據(jù)來源于不同井對預(yù)測的影響,提高模型的預(yù)測精度。
(3)
圖6(a)和圖6(b)分別是Kh/μ和pm與Radial_Cor相關(guān)性分析圖,顯然進行特征變換后變量間相關(guān)性明顯增強。對其他兩個參數(shù)也采用相同的方法進行處理,由于弱化圖版的概念對時間擬合值、壓力擬合值以及曲線參數(shù)cDe2s只作為一個擬合值的數(shù)據(jù)集,分別表示為tm、pm和cm。通過預(yù)測擬合值間接預(yù)測解釋參數(shù),分析數(shù)據(jù)源由曲線特征數(shù)據(jù)集與試井解釋結(jié)果變?yōu)榍€特征數(shù)據(jù)集與擬合值數(shù)據(jù)集,進而通過擬合值的預(yù)測結(jié)果求得試井解釋參數(shù)。
(a) (b)圖6 曲線特征與解釋參數(shù)雙變量分析圖
對于不能直接通過變量替換解決的問題,可以通過特征工程進行新變量和新特征的創(chuàng)造,井筒儲集系數(shù)C與tm、pm兩個擬合值都存在聯(lián)系,需通過tm、pm兩個擬合值提取一個間接擬合值pm/tm,記為pm_tm來替代C,并構(gòu)建新特征值Radial_Top(通過Top_Hor與Radial_Cor擬合得到)。C的表達式如下:
(4)
對特征數(shù)據(jù)集與擬合值數(shù)據(jù)集的分析得到表3相關(guān)系數(shù)表,重新構(gòu)建模型的網(wǎng)絡(luò)結(jié)構(gòu),并對模型進行訓(xùn)練,從而得到最終的試井解釋參數(shù)預(yù)測模型。
表3 擬合值相關(guān)系數(shù)表
采用前文提到的保持樣本的方法模型進行驗證,通過訓(xùn)練后的試井解釋參數(shù)預(yù)測模型對測試樣本進行預(yù)測,如圖7(a)所示,星號為表皮系數(shù)預(yù)測輸出值(預(yù)測值),圓圈為表皮系數(shù)期望輸出值(實際值),預(yù)測值在實際值上下浮動,基本與實際值重合。由圖7(b)可知,測試樣本預(yù)測誤差均分布在[-1,1]之間,大部分集中于[-0.5,0.5],偏離零點線程度不大,故該模型的預(yù)測誤差在一個可以接受的范圍內(nèi),說明模型預(yù)測效果比較好。
(a) (b)圖7 模型表皮系數(shù)(S)預(yù)測值與期望值誤差和對比
由圖8可以看出,訓(xùn)練樣本和測試樣本中表皮系數(shù)預(yù)測值和實際值的數(shù)據(jù)點擬合效果較好,集中于擬合線y=x附近,說明模型訓(xùn)練和測試性能較好且穩(wěn)定。由表4可知模型其他試井解釋參數(shù)的預(yù)測情況,表皮系數(shù)的訓(xùn)練樣本預(yù)測值和實際值相關(guān)系數(shù)為0.978 9,測試樣本預(yù)測值和實際值的相關(guān)系數(shù)為0.975 3;井筒儲集系數(shù)的訓(xùn)練樣本預(yù)測值和實際值相關(guān)系數(shù)為0.977 3,測試樣本預(yù)測值和實際值的相關(guān)系數(shù)為0.976 8;流動系數(shù)的訓(xùn)練樣本預(yù)測值和實際值相關(guān)系數(shù)為0.983 4,測試樣本預(yù)測值和實際值的相關(guān)系數(shù)為0.990 4,相關(guān)系數(shù)均處于穩(wěn)定,說明模型泛化能力較佳。
表4 模型訓(xùn)練和測試的預(yù)測值和實際值的相關(guān)系數(shù)
利用本文所訓(xùn)練的模型對歷史試井?dāng)?shù)據(jù)進行分析,并與傳統(tǒng)試井解釋方法進行對比。
生產(chǎn)時間為91.75 h,常產(chǎn)量為2.17 m3/d,原油體積系數(shù)為1.198,綜合壓縮系數(shù)為0.145 9×10-4MPa-1,油層厚度為3 m,測試井半徑為0.069 85 m,原油黏度為0.8 mPa·s,孔隙度為0.222。實測記錄的壓力及壓力導(dǎo)數(shù)雙對數(shù)曲線見圖9。
圖9 實測記錄的壓力及壓力導(dǎo)數(shù)雙對數(shù)曲線圖
原解釋結(jié)果:流動系數(shù)為0.711 0-3μm2.m/mPa.s;井筒存儲為0.002 5 m3/Mpa;表皮系數(shù)為2.01;神經(jīng)網(wǎng)絡(luò)模型計算解釋結(jié)果:流動系數(shù)為0.701 0-3μm2.m/mPa.s;井筒存儲為0.002 7m3/Mpa;表皮系數(shù)為1.73。預(yù)測結(jié)果與原解釋結(jié)果相吻合,證明了基于大數(shù)據(jù)的試井解釋參數(shù)分析方法的可靠性,且解釋流程更加精簡化,避免了圖版擬合的固有誤差和解釋人員主觀性對解釋結(jié)果的影響。
本文提出的方法運用大數(shù)據(jù)分析,以試井解釋分析的歷史數(shù)據(jù)為依據(jù),深挖壓力導(dǎo)數(shù)雙對數(shù)曲線與試井解釋參數(shù)的關(guān)聯(lián)關(guān)系,提出曲線特征的描述方法量化同類型試井的共性特征,采用相關(guān)分析確定與試井解釋參數(shù)相關(guān)的獨立變量,進而通過神經(jīng)網(wǎng)絡(luò)輔助進行模型構(gòu)建。利用神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近能力,克服了傳統(tǒng)圖版只能包含部分典型曲線的局限性,消除了傳統(tǒng)圖版分析的固有誤差,以弱化圖版擬合的方式減少人工參與對擬合結(jié)果的束縛,使試井解釋過程更簡捷。利用此方法,解決單井解釋需要多組典型曲線圖版的不足,消除傳統(tǒng)方法的復(fù)雜性及多解性,一次解釋確定所有參數(shù)。
本文研究的雖然是用于均質(zhì)無限大油藏圖版擬合分析的Gringarten-Bourdet圖版的解釋結(jié)果,但方法可以很容易地進行推廣,其意義不僅在于實現(xiàn)這一類問題的分析智能化,更在于為試井解釋提供了智能分析新方法,結(jié)束需要多組圖版聯(lián)合分析的歷史。