程鑫 張?zhí)?楊蘭平 陽清正 白毅
1.西南石油大學化學化工學院 2.中國石油集團川慶鉆探工程有限公司鉆井液技術(shù)服務(wù)公司
在油田目的層鉆井過程中,完井液會不同程度地受到鹽水、殘酸等的污染,從而惡化完井液性能。由于現(xiàn)場對污染類型的判斷不準確,常規(guī)的處理方法是提高完井液抗溫性或降低其黏度,但反復處理后完井液性能仍不能恢復,因此,需要一種能夠在現(xiàn)場準確而快速地識別完井液污染類型的方法。
由于目前國內(nèi)外針對完井液污染識別問題的研究不多,故只能借鑒作為完井液前身的鉆井液的污染識別方法,其污染識別方法主要分為觀察法和儀器法。例如,艾加偉[1]發(fā)現(xiàn)鉆井液受污染后呈暗黑色、濾餅虛厚且伴隨針孔等。這些現(xiàn)象都具有較強的經(jīng)驗性,且完井液大多會添加深色的處理劑,使得觀察法不適用于完井液污染識別;徐晨陽等[2]利用鉆井液污染前后的粒徑分布和Zeta電位的不同來判斷鉆井液污染情況,室內(nèi)儀器檢測法雖同樣適用于完井液,但現(xiàn)場實驗中可能因缺少大型儀器而降低污染識別的效率。
在過往對完井液污染問題的研究中,開展了許多針對完井液污染機理的研究基礎(chǔ)。例如:吳濤等[3]研究發(fā)現(xiàn),過多的鹽水侵污油基鉆井液會使分散液滴易聚集,降低泥漿乳液穩(wěn)定性,導致泥漿黏度提高;王志龍等[4]研究發(fā)現(xiàn),有機鹽鉆井液體系在飽和鹽水加量超20%(質(zhì)量分數(shù))后,其黏度、動切力均降低50%以上,且密度持續(xù)降低,認為鹽水侵污主要表現(xiàn)為稀釋作用。根據(jù)這些理論,可知完井液的污染具有不同性能數(shù)值表現(xiàn),故而可使用機器學習識別分類。
本研究利用完井液進行鹽水、殘酸污染實驗,對比其流變性能差異,由K-means聚類訂正數(shù)據(jù)集的污染等級標簽。建立BP神經(jīng)網(wǎng)絡(luò)污染類型的識別模型,用交叉驗證法檢驗模型準確率,為完井液污染識別方法提供了新思路。
水基完井液取自023-H1井、JT-1井,密度分別為1.75 g/cm3、2.28 g/cm3;油基完井液取自mx133井、oil1.8井,密度分別為1.42 g/cm3、1.80 g/cm3;配液用水為實驗室蒸餾水;化學試劑為無水氯化鈣、氯化鈉、六水氯化鎂、濃鹽酸(均為分析純),成都市科隆化學品有限公司。
JK-50B型超聲波清洗器,合肥金尼克機械制造有限公司;GJS-B12K型高速攪拌器,青島同春石油儀器有限公司;HTD-D6S六速旋轉(zhuǎn)黏度計,青島恒泰達機電設(shè)備有限公司;PHS-3CU型pH計,上海越平科學儀器(蘇州)制造有限公司;NB-1型泥漿比重計,武漢格萊莫檢測設(shè)備有限公司;GRL-BX3型滾子加熱爐,青島恒泰達機電設(shè)備有限公司;GGS42-A2型高溫高壓濾失儀,青島恒泰達機電設(shè)備有限公司。
地層鹽水質(zhì)量濃度配比為:Cl-4.21×104mg/L,Ca2+1.6×104mg/L,Mg2+800 mg/L,總礦化度7.241×104mg/L。室內(nèi)采用CaCl2、MgCl2·6H2O、NaCl配制地層鹽水。
根據(jù)現(xiàn)場返排液取樣分析結(jié)果,其殘酸質(zhì)量分數(shù)約為5%。室內(nèi)配制質(zhì)量分數(shù)為5%的鹽酸溶液,以模擬殘酸。
測試的方法參考GB/T 16783.1-2014《石油天然氣工業(yè) 鉆井液現(xiàn)場測試 第1部分:水基鉆井液》。量取2/3高速攪拌杯體積的完井液,記錄質(zhì)量。再根據(jù)污染源在完井液中的質(zhì)量占比,量取第1.2節(jié)中的污染源(地層鹽水、殘酸)加入高速攪拌杯中,進行老化前(BF)與老化后(AF)的性能測試,其老化條件為170 ℃、熱輥16 h。
1.4.1實驗數(shù)據(jù)的組成
4種完井液數(shù)據(jù)共有112組,具體分布見表1。表2所列為完井液受污染的特征因素。由表2可知,每組完井液數(shù)據(jù)樣本特征從流變、老化、濾失、井名及受污染情況5個方面共統(tǒng)計了25個特征因素。所有完井液數(shù)據(jù)樣本構(gòu)成數(shù)據(jù)集,用于訓練的原始數(shù)據(jù)集見參考文獻[5]。
表1 受污染完井液的組數(shù)分布表 組污染類型老化狀態(tài)023-H1井JT-1井mx133井oil1.8井空白BF3433AF3433鹽水BF4665AF4665殘酸BF6565AF6565
表2 完井液受污染的特征因素統(tǒng)計序號特征類特征因素詳情12345678910111213141516流變Φ600:六速流變儀Φ600測試值,mPa·sΦ300:六速流變儀Φ300測試值,mPa·sΦ200:六速流變儀Φ200測試值,mPa·sΦ100:六速流變儀Φ100測試值,mPa·sΦ6:六速流變儀Φ6測試值,mPa·sΦ3:六速流變儀Φ3測試值,mPa·sG':Φ600攪拌、靜置10 s,3 r/min轉(zhuǎn)速下讀最大值G″:Φ600攪拌、靜置10 min,3 r/min轉(zhuǎn)速下讀最大值表觀黏度(AV):0.5×Φ600塑性黏度(PV):Φ600-Φ300動切力(YP):AV-PV動塑比(YP_PV):YP/PV初切力:0.5×G'終切力:0.5×G″流性指數(shù):描述流體流動現(xiàn)象的無量綱參數(shù)稠度系數(shù):流體流動的視黏度無量綱參數(shù)17老化老化狀態(tài):BF、AF18高溫高壓濾失量(HTHP):高溫高壓30 min濾失量×2,mL19濾失pH值:高溫高壓濾液的pH值20濾餅厚度:高溫高壓濾餅厚度,mm21井名:完井液的名字22完井液配方類型:油基、水基23密度:完井液密度2425完井液受污染情況污染源質(zhì)量分數(shù):污染源占完井液的質(zhì)量分數(shù),%污染源類型:0空白組,1鹽水污染,2殘酸污染
1.4.2預處理方法
(1) 標準化與缺失值填補:為消除量綱對模型的影響,對原始數(shù)據(jù)集中數(shù)值型特征應(yīng)用Z-Score標準化[6];對數(shù)據(jù)缺失點進行填“0”處理[7],取數(shù)值均值。
(2) 定性變量處理:完井液污染定性分為空白樣本、鹽水污染樣本和殘酸污染樣本,本研究用“0空白組”標記空白樣本,“1鹽水污染”標記鹽水污染樣本,“2殘酸污染”標記殘酸污染樣本,完成數(shù)據(jù)集的標簽定性變量轉(zhuǎn)化;采用獨熱向量法將定性因素特征轉(zhuǎn)化為定量數(shù)值特征[8],完成數(shù)據(jù)集文本型特征變量轉(zhuǎn)化;數(shù)據(jù)集需要處理的定性特征包含井名、類型、老化狀態(tài)。
對4種不同密度的水基、油基完井液進行鹽水、殘酸污染室內(nèi)試驗。通過K-means聚類訂正數(shù)據(jù)集的污染等級標簽,選取不同特征、隱層,分別建立BP神經(jīng)網(wǎng)絡(luò)污染類型的識別模型。由留一交叉驗證法檢驗模型分類準確率,模型建立流程如圖1所示。
1.5.1K-means聚類參數(shù)選擇
蔟類數(shù)K由肘部法則確定[9];聚類迭代退出條件為蔟類中心不再發(fā)生變化[10];可視化方法用Python從sklearn.decomposition庫引入PCA算法將特征降維至2維。
在室內(nèi)實驗中,已知每個數(shù)據(jù)樣本的污染類型和污染物的質(zhì)量占比,需要將污染物質(zhì)量占比較小且完井液性能變化也較小的數(shù)據(jù)樣本劃入“0空白組”。但由于缺乏對完井液受污染等級分類的評價標準,所以將K-means聚類算法作為一種統(tǒng)一的劃分標準。
1.5.2BP神經(jīng)網(wǎng)絡(luò)參數(shù)選擇
模型訓練中數(shù)據(jù)迭代次數(shù)為3 000次/輪;學習率設(shè)置為0.15;隱層激活函數(shù)為ReLu函數(shù)和SoftMax函數(shù)[11];反向傳播的規(guī)則為交叉熵損失(CEL)與隨機梯度下降(SGD);隱層節(jié)點數(shù)目根據(jù)Kolmogorov定理確定[12]。
模擬完井液異常后,測量單一樣本特征,判斷污染類型。探究數(shù)據(jù)樣本特征對BP神經(jīng)網(wǎng)絡(luò)分類準確率的影響。根據(jù)特征獲取的難易程度將數(shù)據(jù)特征分為4類:第1類特征“流變”(表2中序號:1~16),完井液基本屬性測量簡易快速;第2類特征“老化”(表2中序號:17),非室內(nèi)實驗不容易界定;第3類特征“濾失”(表2中序號:18~20),測量耗時且不易快速獲取;第4類特征“井名”(表2中序號:21~23),容易出現(xiàn)記錄缺失或多種完井液共用井名。將這4類特征逐級疊加,分別訓練對應(yīng)的BP神經(jīng)網(wǎng)絡(luò)模型,且模型均采用同參數(shù)的3層網(wǎng)絡(luò)結(jié)構(gòu),不同特征類訓練的模型對應(yīng)表3所列內(nèi)容。由留一交叉驗證法對比各個模型的分類準確率[13],即使用112組中任意111組數(shù)據(jù)樣本判斷剩余的1組數(shù)據(jù)樣本的污染類型,并統(tǒng)計當輪112個單一樣本數(shù)據(jù)分類的準確率。該模型將進行100次留一交叉驗證,收集每次交叉驗證的準確率。對比模型a、b、c、d(均為1個隱藏層數(shù))的準確率,優(yōu)選出準確率最高的模型a。
表3 不同特征類訓練的BP神經(jīng)網(wǎng)絡(luò)模型模型編號輸入特征類模型a模型b模型c模型d流變流變+老化流變+老化+濾失流變+老化+濾失+井名
探究不同深度BP神經(jīng)網(wǎng)絡(luò)對分類準確率的影響。再次訓練新模型,全部使用模型a輸入的特征類訓練模型。為防止出現(xiàn)模型過擬合[14],再次訓練的模型h隱藏層為0層(見圖2(a))、模型e隱藏層為1層(見圖2(b))、模型f隱藏層為2層(見圖2(c))和模型g隱藏層為3層(見圖2(d))。對比模型e、f、g、h的準確率,優(yōu)選出最佳BP神經(jīng)網(wǎng)絡(luò)的隱層數(shù)目。
不同井受鹽水梯度污染的流變性關(guān)系圖如圖3所示,輕度鹽水污染下的流變性穩(wěn)定,表明水基、油基完井液對鹽水污染均有一定的緩沖能力,水基完井液的黏度會逐漸降低,而油基完井液的黏度則會逐漸增加[15-16]。圖4所示為不同井受殘酸梯度污染的流變性關(guān)系圖。由圖4可知:水基、油基完井液均對殘酸具有敏感性,質(zhì)量占比僅0.5%的殘酸就可使流變性數(shù)值增長1.5~2.0倍;當殘酸質(zhì)量占比為0.5%~3.0%時,高密度完井液黏度迅速下降,而低密度完井液黏度出現(xiàn)一段穩(wěn)定數(shù)值的“平臺期”后迅速下降;殘酸質(zhì)量占比繼續(xù)增大,水基完井液受稀釋作用,其黏度逐漸減小,而油基完井液黏度則持續(xù)增大。
每添加一種不同質(zhì)量占比的污染源后測量完井液的性能得到數(shù)據(jù)樣本,而不是在同一次測量中連續(xù)添加污染源后進行測量,體現(xiàn)了數(shù)據(jù)的獨立性。同類型的完井液在受到鹽水或殘酸污染后均有相同的流變性變化趨勢,不同類型的完井液在受到污染后流變性差異顯著,體現(xiàn)了數(shù)據(jù)的同分布性。流變性作為本研究數(shù)據(jù)構(gòu)成的主體,滿足建立模型數(shù)據(jù)盡量獨立同分布的要求。
2.2.1K-means聚類算法的運用對象
并非任意質(zhì)量占比的污染源都會使完井液性能發(fā)生較大變化,因完井液存在抗污染的緩沖機制[17],所以一定程度內(nèi)的污染可作“0空白組”。K-means聚類將“同類條件的樣本”進行最適合的類別分類[18],為每組樣本訂正污染源類型的標簽。同類條件的完井液樣本參考表4,需將預處理的完井數(shù)據(jù)分為16組進行K-means聚類。
表4 完井液樣本的同類條件井名污染源類型老化狀態(tài)023-H1井JT-1井地層鹽水BFmx133井oil1.8井殘酸返排液AF
2.2.2污染等級的聚類分組
為提高聚類迭代效率,肘部法則遵循剔除以下特征:分組用過的特征(如第2.2.1節(jié)中特征)、缺失值過多的特征(如HTHP、濾餅厚度特征)、特征值相同的特征(如污染源類型特征)。
鹽水污染的肘部法則如圖5所示,由圖5可知,4種完井液老化前后數(shù)據(jù)均在K=2時具有較好的聚類效果。其K-means聚類結(jié)果根據(jù)污染梯度由小到大排列分為“空白組(●)”和“污染組(■)”兩類(見圖6),并訂正鹽水污染數(shù)據(jù)樣本的標簽為“0空白組”和“1鹽水污染”(見表5);殘酸污染的肘部法則如圖7所示,4種完井液中僅有oil1.8井的老化后在K=2時數(shù)據(jù)具有較好的聚類效果,其余數(shù)據(jù)組均在K=3時具有較好的聚類效果,其K-means聚類結(jié)果根據(jù)污染梯度由小到大地排列為“空白組(●)”“中度污染組(▲)”和 “重度污染組(★)”3類,如圖8所示。統(tǒng)一將殘酸中度、重度污染歸為一類,訂正殘酸污染數(shù)據(jù)樣本的標簽為“0空白組”和“2殘酸污染”(見表6)。
表5 鹽水污染數(shù)據(jù)的K-means聚類結(jié)果歸納表組完井液老化狀態(tài)聚類組數(shù)0空白組空白組(●)1鹽水污染污染組(■)mx133BF954oil1.8AF862023-H1AF752023-H1BF743JT-1BF752JT-1AF743mx133AF954oil1.8BF862
表6 殘酸污染數(shù)據(jù)的K-means聚類結(jié)果歸納表 組完井液老化狀態(tài)聚類組數(shù)0空白組空白組(●)2殘酸污染中度污染(▲)重度污染(★)oil1.8BF8341JT-1AF8413mx133BF9342JT-1BF8431023-H1BF9315mx133AF9342023-H1AF9333oil1.8AF835
2.3.1不同特征類構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型
模型a、b、c、d使用第1.5.2節(jié)參數(shù)設(shè)置,將訂正標簽后的完井液數(shù)據(jù)集代入各模型,其初始交叉熵損失值(loss值)與迭代次數(shù)關(guān)系如圖9所示。迭代次數(shù)為0時,通過BP神經(jīng)網(wǎng)絡(luò)計算其loss值。模型a、b、c初始loss值均在1.1波動,模型d初始loss值接近于1.0,表明模型d對數(shù)據(jù)集的初始擬合程度可能更好。經(jīng)3 000次數(shù)據(jù)迭代后,所有模型loss值均下降值均比初始loss值下降了97.0%~99.8%,且無loss值曲線波動情況,說明4種模型在訓練后均收斂,模型在完井液數(shù)據(jù)集上可用。對模型a、b、c、d分別進行100次留一交叉驗證,各模型準確率如圖10所示。隨特征的逐類疊加,模型預測更加穩(wěn)定、準確率升高,其中“濾失”“井名”特征類對準確率提升效果顯著,使模型d的平均準確率達93.18%。
模型d具有最高的平均準確率,所以,在探究不同深度BP神經(jīng)網(wǎng)絡(luò)對分類準確率的影響時,將模型e、f、g、h固定輸入“流變+老化+濾失+井名”特征類。
2.3.2不同隱藏層構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型
模型e、f、g、h使用第1.5.2節(jié)參數(shù)并固定輸入特征類,但構(gòu)建的隱藏層數(shù)目不同。其loss值與迭代次數(shù)關(guān)系如圖11所示。迭代次數(shù)為0時,1隱層的模型e對數(shù)據(jù)集的初始擬合程度可能比沒有隱層或者更多隱層數(shù)目的模型更好。經(jīng)3 000次數(shù)據(jù)迭代后,模型h的loss值下降幅度緩慢,模型建立不理想,屬于欠擬合狀態(tài)[19]。模型e、f、g的loss值均相比初始loss值下降了96.7%,但模型g有l(wèi)oss值曲線波動的情況,可能出現(xiàn)過擬合或局部最優(yōu)[20]。僅模型e、f在完井液數(shù)據(jù)集上表現(xiàn)較為理想。對模型e、f、g、h分別進行100次留一交叉驗證,各模型準確率如圖12所示。模型h無隱藏層屬于一般線性分類,其100次預測準確率均在79.46%,說明一般線性分類并沒有從數(shù)據(jù)集學習的能力。模型e、f、g的平均準確率分別為93.18%、92.49%、91.42%,隨隱藏層數(shù)目的增多,模型學習能力增強,但模型準確率卻逐漸下降。由此說明本研究完井液數(shù)據(jù)集特征并不復雜,不需要太多有學習能力的全連接層。隱藏層數(shù)增多引起模型過擬合,在未知的驗證樣本預測中喪失泛化性[21]。
最終優(yōu)選出包含特征“流變+老化+濾失+井名”與1隱藏層的BP神經(jīng)網(wǎng)絡(luò)模型作為完井液污染識別方法。
(1) 完井液每添加1種質(zhì)量占比的污染源后測量“流變、老化、濾失、井名”4類特征數(shù)據(jù),來滿足數(shù)據(jù)的獨立性。同類型的完井液在受到鹽水或殘酸污染后均有相同的流變性變化趨勢,不同類型的完井液在受到污染后流變性差異顯著,體現(xiàn)數(shù)據(jù)同分布性。將流變性作為本研究數(shù)據(jù)構(gòu)成的主體,以滿足模型建立要求數(shù)據(jù)盡量獨立同分布的前提。
(2) 建立BP神經(jīng)網(wǎng)絡(luò)需要每一個完井液數(shù)據(jù)樣本具有污染類型標簽。本研究沒有污染程度劃分標準,采用K-means聚類訂正每一個數(shù)據(jù)樣本的標簽。數(shù)據(jù)輸入前,對數(shù)值型特征采用Z-Score標準化,對文本型特征采用獨熱向量處理,以消除量綱的影響。處理完畢的數(shù)據(jù)可選取部分特征類建立不同隱層數(shù)目的BP神經(jīng)網(wǎng)絡(luò)模型。
(3) 探究了逐類疊加4種特征類訓練不同BP神經(jīng)網(wǎng)絡(luò)模型,再由留一交叉驗證法進行100次檢驗,以驗證模型的分類準確率。在上一步最優(yōu)模型的基礎(chǔ)上,改變隱藏層數(shù)目,探究神經(jīng)網(wǎng)絡(luò)深度對準確率的影響。最終選擇包含“流變+老化+濾失+井名”4類特征的數(shù)據(jù)樣本建立1隱藏層的BP神經(jīng)網(wǎng)絡(luò)模型,其平均分類準確率達到93.18%。