蘇曉眉,張 濤,2,李玉飛,卿 玉,李玉梅,2
1北京信息科技大學(xué)信息與通信工程學(xué)院2北京信息科技大學(xué)“高動(dòng)態(tài)導(dǎo)航技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室”3中國(guó)石油川慶鉆探工程有限公司鉆采工程技術(shù)研究院
隨著經(jīng)濟(jì)的發(fā)展,社會(huì)對(duì)石油資源的需求日益增加,石油鉆井也向著深層超深層以及復(fù)雜地層邁進(jìn),導(dǎo)致鉆井過(guò)程中各種復(fù)雜工況頻發(fā)??ㄣ@工況是鉆井過(guò)程中最常見的井下復(fù)雜工況之一[1-3],一旦發(fā)生卡鉆,會(huì)造成鉆井周期延長(zhǎng),鉆井成本增加。如對(duì)卡鉆工況處理不當(dāng)還會(huì)引起井漏、坍塌等復(fù)雜情況,甚至導(dǎo)致井眼報(bào)廢,造成嚴(yán)重經(jīng)濟(jì)損失。根據(jù)近年來(lái)的鉆井資料統(tǒng)計(jì)分析,卡鉆工況在鉆井復(fù)雜工況中占40%~50%,由卡鉆引起的資金損失占非生產(chǎn)耗費(fèi)資金的50%[4]。如果在鉆井過(guò)程中能夠根據(jù)井下工程參數(shù)特征變化規(guī)律對(duì)卡鉆進(jìn)行實(shí)時(shí)預(yù)測(cè),可以在卡鉆發(fā)生前采取一定措施預(yù)防卡鉆發(fā)生,減少鉆井成本,提高鉆井效率。
近年來(lái),聚類方法被越來(lái)越多的應(yīng)用于故障診斷與識(shí)別,2015年陳風(fēng)云[5]首先利用PCA降維算法對(duì)位移傳感器和加速度傳感器傳回的振動(dòng)信號(hào)進(jìn)行預(yù)處理,再利用K-Means、AP、FCM、EmGauussian四種聚類算法對(duì)預(yù)處理數(shù)據(jù)集進(jìn)行聚類分析,再利用集成算法融合四種基聚類結(jié)果,最終得到對(duì)原始數(shù)據(jù)最好的聚類劃分結(jié)果,以此實(shí)現(xiàn)對(duì)高鐵信號(hào)故障狀態(tài)的識(shí)別。2011年龔學(xué)兵[6]首先建立仿真模型,對(duì)衛(wèi)星姿態(tài)控制系統(tǒng)進(jìn)行數(shù)值仿真模擬,并采集系統(tǒng)的健康數(shù)據(jù)和故障數(shù)據(jù),再利用K-Means算法與DBSCAN算法建立故障診斷模型,對(duì)衛(wèi)星監(jiān)控系統(tǒng)采集的歷史數(shù)據(jù)進(jìn)行分析擬合,實(shí)現(xiàn)對(duì)飛機(jī)姿態(tài)控制系統(tǒng)的故障診斷。2019年曲力濤等[7]提出了一種基于振動(dòng)信號(hào)Teager能量的預(yù)測(cè)趨勢(shì)和K均值聚類對(duì)水電機(jī)組故障進(jìn)行預(yù)警的方法,通過(guò)預(yù)測(cè)值和歷史能量序列的聚類完成信號(hào)“躍遷”的判斷,進(jìn)而實(shí)別機(jī)組運(yùn)行狀態(tài)的變化以實(shí)現(xiàn)故障預(yù)警。2012年Majid等[8]將K-Means聚類算法應(yīng)用于鋁冶煉過(guò)程中的故障檢測(cè),用分類模型將歷史故障數(shù)據(jù)精確地分離成不同類別的故障狀態(tài),并將該模型應(yīng)用于鋁冶煉過(guò)程中的實(shí)時(shí)數(shù)據(jù)分類,準(zhǔn)確的檢測(cè)出兩類故障狀態(tài)。2018年Zhang等[9]提出了對(duì)KMeans算法的改進(jìn),通過(guò)引入多重分形去波動(dòng)分析(MFDFA)來(lái)計(jì)算多重分形譜參數(shù)作為故障特征,并結(jié)合改進(jìn)的K均值聚類來(lái)檢測(cè)變速箱的故障。
當(dāng)卡鉆發(fā)生時(shí),鉆具在井內(nèi)不能自由活動(dòng),由鉆井工具測(cè)得的井下工程參數(shù)也會(huì)因?yàn)殂@具本身狀態(tài)的改變而發(fā)生變化,故可以通過(guò)檢測(cè)鉆具的工作狀態(tài)反映井下工況。而在卡鉆發(fā)生前,隨著井下工況的變化,測(cè)量的井下工程參數(shù)也會(huì)發(fā)生變化,故可將卡鉆工況預(yù)測(cè)問(wèn)題轉(zhuǎn)化為正常鉆進(jìn)狀態(tài)和卡鉆前鉆進(jìn)狀態(tài)檢測(cè)問(wèn)題。
研究表明,K-Means聚類算法在故障診斷方面有良好的應(yīng)用情況。本文結(jié)合主成分分析方法算法(PCA)和K-Means聚類算法建立卡鉆工況預(yù)測(cè)模型,對(duì)井下實(shí)時(shí)測(cè)量的工程參數(shù)進(jìn)行聚類分析,如果聚類結(jié)果中工程參數(shù)特征狀態(tài)與卡鉆前狀態(tài)相距較近,則可向地面發(fā)出卡鉆預(yù)警,指導(dǎo)工程調(diào)整鉆井參數(shù)與鉆井方式,避免卡鉆發(fā)生,提高鉆井效率。
聚類是將數(shù)據(jù)按照不同屬性劃分到不同的類或簇的一個(gè)過(guò)程,處于同一簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性[10-12]。具體來(lái)說(shuō),聚類分析是將數(shù)據(jù)點(diǎn)按照數(shù)據(jù)的特征相似性,在沒(méi)有先驗(yàn)知識(shí)的情況下,用不同的方法將數(shù)據(jù)劃分到不同簇的過(guò)程。
K-Means算法,也被稱為K-均值算法,屬于無(wú)監(jiān)督學(xué)習(xí),是一種常用的聚類算法[13],其利用對(duì)象間的相似性作為數(shù)據(jù)劃分依據(jù),通過(guò)距離函數(shù)來(lái)比較樣本P和樣本Q之間的相似度,將相似度高的數(shù)據(jù)劃分到同一簇類中。
假設(shè)有m個(gè)樣本{P(1),P(2),…,P(m)}為輸入,其中,P(i)表示第i個(gè)樣本,每一個(gè)樣本包含n個(gè)特征P(i)={p(i)1,p(i)2,…,p(i)n}。輸出是劃分的k個(gè)簇類C={C1,C2,…,Ck}。
(1)初始化:從數(shù)據(jù)集樣本中,隨機(jī)選取k個(gè)樣本作為初始的k個(gè)聚類中心{μ1,μ2,…,μk}。
(2)劃分:計(jì)算樣本P(i)(i=1,2,…,m)和各聚類中心μj(j=1,2,…,k)的距離dij=‖xi-uj‖22,將P(i)標(biāo)記為最小的dij所對(duì)應(yīng)的類別λi,此時(shí)更新Cλi=Cλi∪{xi}。
(4)對(duì)Cj中所有樣本點(diǎn)重新計(jì)算質(zhì)心μj:
(5)收斂判斷:計(jì)算所有數(shù)據(jù)樣本到各個(gè)數(shù)據(jù)中心之間的誤差平方和E,當(dāng)E值最小時(shí),聚類過(guò)程結(jié)束,否則重復(fù)(2)、(3)、(4)步驟,直到E值最小,聚類中心不再改變。
(6)輸出最終的聚類中心以及每個(gè)樣本所屬的類別。
利用已有的鉆井?dāng)?shù)據(jù)建立聚類分析模型,從歷史數(shù)據(jù)中選取數(shù)據(jù)建立正常鉆井?dāng)?shù)據(jù)集與卡鉆前數(shù)據(jù)集。由于采集的鉆井?dāng)?shù)據(jù)包含多個(gè)屬性特征,為提高聚類算法的收斂速率,需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,利用主成分分析(PCA)方法對(duì)鉆井?dāng)?shù)據(jù)集進(jìn)行降維,使用降維后的鉆井?dāng)?shù)據(jù)集對(duì)K-Means聚類模型進(jìn)行訓(xùn)練,并利用訓(xùn)練好的K-Means聚類數(shù)據(jù)對(duì)卡鉆故障數(shù)據(jù)進(jìn)行檢測(cè)。
基于K-Means聚類算法的卡鉆檢測(cè)預(yù)警模型如圖1所示。
圖1 基于K-Means聚類算法的卡鉆檢測(cè)預(yù)警模型
為了評(píng)估K-Means聚類模型的聚類能力與數(shù)據(jù)的分類效果,引入CH(Calinski-Harabaz)指數(shù)[14]對(duì)K-Means聚類模型進(jìn)行評(píng)估,CH指數(shù)也稱為方差比標(biāo)準(zhǔn),具有計(jì)算速度快的優(yōu)點(diǎn),可在不知道原始數(shù)據(jù)標(biāo)簽的情況下對(duì)聚類結(jié)果進(jìn)行評(píng)估,指數(shù)值越高表明該聚類模型對(duì)數(shù)據(jù)的聚類效果越好。
CH指數(shù)的分值S定義為簇間離散和簇內(nèi)離散的比值,對(duì)于給定的k個(gè)簇:
式中:N—數(shù)據(jù)集樣本數(shù);
k—聚類類別數(shù);
Wk—簇間離散向量;
Bk—簇內(nèi)離散向量。
式(8)中:n—數(shù)據(jù)集的的數(shù)據(jù)點(diǎn)個(gè)數(shù);
Cq—q簇中的數(shù)據(jù)點(diǎn)集;
cq—第q個(gè)簇的中心點(diǎn);
q—E的中心點(diǎn)集;
nq—第q簇的數(shù)據(jù)點(diǎn)個(gè)數(shù);
c—總體均值。
指數(shù)值越高,表示簇內(nèi)數(shù)據(jù)點(diǎn)的相似性越高,簇間數(shù)據(jù)點(diǎn)的差異越大。
本文采用的數(shù)據(jù)來(lái)自冀東油田某井鉆井過(guò)程中的實(shí)測(cè)數(shù)據(jù),測(cè)量工具為北京信息科技大學(xué)自主研發(fā)的井下多參數(shù)測(cè)量短節(jié),該儀器的參數(shù)測(cè)量范圍及測(cè)量精度如表1所示。
表1 儀器參數(shù)測(cè)量范圍及測(cè)量精度
試驗(yàn)時(shí)鉆具組合為:?215.9 mm MD9431鉆頭×0.33 m+430×410接頭×1.11 m+411×410浮閥×0.50 m+?172 mm鉆鋌×3 m+?208 mm扶正器×1.532 m+近鉆頭測(cè)量短節(jié)×3.255 m+?165 mm無(wú)磁鉆鋌×17.135 m+411×4A10×1.1 m+?165 mm鉆鋌×27.575 m+4A11×410×1.13 m+?127 mm加重鉆桿×197.595 m+?127 mm鉆桿;鉆進(jìn)到某段位置時(shí),地面鉆具振動(dòng)劇烈。起鉆后取出測(cè)量短節(jié),后下鉆繼續(xù)鉆進(jìn),隨后發(fā)生卡鉆。從下鉆到發(fā)生卡鉆事故期間采集的數(shù)據(jù)點(diǎn)的信號(hào)分析如圖2所示。
圖2中,虛線左側(cè)為正常鉆進(jìn)工況下,采集的各屬性特征的數(shù)據(jù)點(diǎn),各數(shù)據(jù)點(diǎn)的波動(dòng)范圍穩(wěn)定;虛線右側(cè)為卡鉆工況發(fā)生前采集的數(shù)據(jù)點(diǎn),振動(dòng)數(shù)據(jù)變化范圍增大,鉆壓、扭矩值發(fā)生劇烈跳變。從這兩部分?jǐn)?shù)據(jù)點(diǎn)中,各采取部分?jǐn)?shù)據(jù)組成正常鉆進(jìn)數(shù)據(jù)集和卡鉆前工況數(shù)據(jù)集。
未來(lái)研究方向有二:(1)探討中央或省級(jí)層面的制度對(duì)地方政府人才政策擴(kuò)散和創(chuàng)新的影響,展開跨層次或中介作用分析,探索人才政策的垂直擴(kuò)散和創(chuàng)新機(jī)制。(2)探討人才政策擴(kuò)散和創(chuàng)新各種渠道之間的交互作用,深化對(duì)人才政策橫向擴(kuò)散和創(chuàng)新機(jī)制的認(rèn)識(shí)?!脖疚氖艿浇K高校“新型城鎮(zhèn)化與社會(huì)治理”協(xié)同創(chuàng)新中心和江蘇高校哲學(xué)社會(huì)科學(xué)優(yōu)秀創(chuàng)新團(tuán)隊(duì)建設(shè)項(xiàng)目(項(xiàng)目號(hào):2015ZSTD010)的資助〕
圖2 冀東油田某井的鉆井?dāng)?shù)據(jù)
數(shù)據(jù)集中包含五個(gè)特征向量,但由于各特征參數(shù)之間有一定的相關(guān)性,數(shù)據(jù)集存在著冗余,而特征冗余會(huì)使算法難以把握信息本質(zhì),故需對(duì)數(shù)據(jù)進(jìn)行降維處理。主成分分析(Principal Component Analysis,PCA)是一種對(duì)高維數(shù)據(jù)進(jìn)行壓縮和預(yù)處理的常用數(shù)據(jù)降維方法[15]。PCA通過(guò)線性變換將一組相關(guān)變量轉(zhuǎn)成另一組不相關(guān)的變量,并對(duì)新變量按方差值大小排序,從新變量中選出能夠反映大部分原始信息的變量,即主成分。
PCA降維過(guò)程為假設(shè)有n條m維數(shù)據(jù):
(1)將原始數(shù)據(jù)按列排成n行m列的矩陣A(矩陣的每一列代表一種屬性)。
(2)對(duì)矩陣A的每一列進(jìn)行零均值化處理,即減去這一列的均值。
(3)求出矩陣A的協(xié)方差矩陣C。
(4)計(jì)算協(xié)方差矩陣C相對(duì)應(yīng)的特征值和特征向量。
(5)將計(jì)算得到的特征值按照從大到小的順序排序,選擇其中最大的k個(gè)特征向量作為列向量組成特征向量矩陣B。
(6)計(jì)算D=BA即可得到降維后的k維數(shù)據(jù)。
實(shí)測(cè)的現(xiàn)場(chǎng)數(shù)據(jù)中包含五個(gè)屬性特征:鉆壓、扭矩、X/Y/Z三軸振動(dòng)數(shù)據(jù),為提高聚類收斂速率,利用PCA對(duì)數(shù)據(jù)集進(jìn)行降維。
貢獻(xiàn)率代表降維后各主成分的方差值占總方差值的比例,方差比值越大,說(shuō)明該成分越重要,能夠呈現(xiàn)的原始信息越多。由表2可知各特征的貢獻(xiàn)率,第一特征和第二特征的貢獻(xiàn)率遠(yuǎn)大于第三、第四特征的貢獻(xiàn)率,故保留貢獻(xiàn)率較大的第一、第二特征向量與貢獻(xiàn)率相對(duì)較小的第三特征向量,將多維鉆井?dāng)?shù)據(jù)降至三維,以保證降維后的數(shù)據(jù)能夠較全面的反映原始數(shù)據(jù)信息。
表2 數(shù)據(jù)集PCA降維主成分
訓(xùn)練集數(shù)據(jù)與測(cè)試集數(shù)據(jù)采取3∶7的比例,訓(xùn)練集由6 000個(gè)正常鉆進(jìn)數(shù)據(jù)點(diǎn)與6 000個(gè)卡鉆前數(shù)據(jù)點(diǎn)共12 000數(shù)據(jù)點(diǎn)組成,對(duì)K-Means聚類算法的故障檢測(cè)模型進(jìn)行訓(xùn)練;測(cè)試集由14 000個(gè)正常鉆進(jìn)數(shù)據(jù)點(diǎn)與14 000個(gè)卡鉆前數(shù)據(jù)點(diǎn)共28 000數(shù)據(jù)點(diǎn)組成。將基于K-Means聚類算法的卡鉆檢測(cè)預(yù)警模型對(duì)實(shí)測(cè)數(shù)據(jù)的聚類結(jié)果投影到x*y*二維平面,如圖3所示。
圖3 基于K-Means算法的鉆井?dāng)?shù)據(jù)聚類結(jié)果
研究發(fā)現(xiàn),K-Means聚類模型將正常工況數(shù)據(jù)與卡鉆前工況數(shù)據(jù)有效分離,兩類數(shù)據(jù)間界限分明,無(wú)模糊分類點(diǎn),CH指數(shù)值為319 629.067 997,表明聚類質(zhì)量較高,模型聚類結(jié)果準(zhǔn)確率達(dá)到99.98%,能夠有效預(yù)警卡鉆工況。利用K-Means算法對(duì)井下工況數(shù)據(jù)進(jìn)行實(shí)時(shí)聚類分析,可根據(jù)卡鉆發(fā)生前的參數(shù)變化情況對(duì)卡鉆工況進(jìn)行預(yù)警,指導(dǎo)鉆井工程在卡鉆工況發(fā)生前采取預(yù)防手段,避免卡鉆事故發(fā)生,提高鉆井效率。
(1)利用PCA降維算法對(duì)高維鉆井工況數(shù)據(jù)進(jìn)行降維,保留前三個(gè)貢獻(xiàn)率較大的特征分量。實(shí)驗(yàn)結(jié)果表明,PCA降維能夠在較為全面的保留原始數(shù)據(jù)信息的同時(shí)有效的消除數(shù)據(jù)冗余,提高聚類模型對(duì)數(shù)據(jù)的處理速率。
(2)利用冀東油田發(fā)生卡鉆工況的某井井下工程參數(shù)組成測(cè)試集和訓(xùn)練集,對(duì)K-Means聚類模型進(jìn)行訓(xùn)練和測(cè)試,聚類結(jié)果表明,正常鉆井工況數(shù)據(jù)與卡鉆前工況數(shù)據(jù)得到有效分離,驗(yàn)證了該模型能夠?qū)ㄣ@進(jìn)行預(yù)警。
(3)利用Calinski-Harabaz對(duì)聚類結(jié)果質(zhì)量進(jìn)行評(píng)價(jià),經(jīng)過(guò)計(jì)算得到了較高的Calinski-Harabaz指數(shù)值,說(shuō)明聚類結(jié)果質(zhì)量高,且準(zhǔn)確率達(dá)到99.98%,表明K-Means算法的聚類結(jié)果可靠,可為鉆井工程中的卡鉆預(yù)警提供有效參考。
(4)在石油鉆井過(guò)程中,造成卡鉆的原因有多種,而本文分析的是井眼不清潔造成的卡鉆工況,故對(duì)檢測(cè)由其他因素引起的卡鉆工況有待進(jìn)一步計(jì)算驗(yàn)證。