趙萬平
(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院大慶163318)
一種基于半監(jiān)督流形學(xué)習(xí)的抽油機(jī)故障診斷方法
趙萬平
(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院大慶163318)
針對油田實(shí)際生產(chǎn)中示功圖已知識別樣本匱乏的情況,提出一種基于半監(jiān)督流形學(xué)習(xí)的識別方法,利用標(biāo)識和未標(biāo)識的樣本數(shù)據(jù)通過流形學(xué)習(xí)算法對采集的樣本數(shù)據(jù)進(jìn)行特征提取獲得低維特征空間,并在低維特征空間進(jìn)行故障模式分類以達(dá)到故障診斷的目的,取得了很好的實(shí)際應(yīng)用效果。
示功圖;半監(jiān)督;流形學(xué)習(xí);識別
Class NumberTP391
在油田開發(fā)過程中隨著地層能量的不斷消耗,自噴開采技術(shù)已不能滿足油田開發(fā)的需求,故多數(shù)油田已采用有桿泵采油技術(shù)。而工作在地下幾百米到數(shù)千米的抽油泵不但受到機(jī)、桿、泵等設(shè)備的影響,還受砂、蠟、氣、水的影響,工況復(fù)雜且環(huán)境惡劣,出現(xiàn)故障的情況復(fù)雜多樣,因此嚴(yán)重影響了油田的生產(chǎn)。如何正確識別各種故障類型有利于有針對性的制定各種油井調(diào)整方案,提高油井的采收率。經(jīng)過多年的研究,抽油井故障的分析與診斷技術(shù)積累了很多的研究成果[1],其中多數(shù)是利用示功圖作為分析油井各種工況的出發(fā)點(diǎn),多數(shù)都是基于示功圖本身的特征識別(面積法和矢量法等)[2~3],或利用神經(jīng)網(wǎng)絡(luò)[4]或是支持向量機(jī)[5]等根據(jù)從圖形中提取的特征向量進(jìn)行判別。其中便涉及到數(shù)據(jù)降維問題,且為了獲取更高的識別率需要大量的學(xué)習(xí)樣本。而抽油機(jī)采油過程中產(chǎn)生的故障數(shù)據(jù)中準(zhǔn)確標(biāo)記樣本較少,大都是沒有標(biāo)記的故障數(shù)據(jù),半監(jiān)督學(xué)習(xí)可以利用少量的故障標(biāo)記數(shù)據(jù)訓(xùn)練識別器,并利用大量的非標(biāo)記故障數(shù)據(jù)來提升識別器的性能和精確性。本文提出一種基于半監(jiān)督流形學(xué)習(xí)的示功圖識別方法,在部分有標(biāo)簽信息的示功圖數(shù)據(jù)的情況下,通過利用示功圖本身的非線性流形結(jié)構(gòu)信息和部分標(biāo)簽信息來提取低維鑒別特征用于示功圖識別。
抽油機(jī)在采油過程中做上下往復(fù)運(yùn)動(dòng),將從一個(gè)下底端向上至上頂端,再由上頂端向下回到下底端的過程稱為一個(gè)沖程。對于一個(gè)沖程,將抽油機(jī)相對下底端的位移S作為橫軸,抽油機(jī)向上的拉力F作為縱軸繪制關(guān)于F,S的閉合曲線定義為示功圖。實(shí)際油井生產(chǎn)過程中,由于油田各種生產(chǎn)環(huán)境的特殊性將會導(dǎo)致抽油設(shè)備發(fā)生阻尼運(yùn)動(dòng),所以油井實(shí)測的示功圖會有一定程度的變形但仍呈現(xiàn)對稱性,如圖1所示。
圖1 采油井示功圖
復(fù)雜多變的工作環(huán)境中可能會給同一故障類型的示功圖帶來很多非線性變形,致使傳統(tǒng)的降維方法如PCA等不能夠揭示圖形空間的內(nèi)蘊(yùn)結(jié)構(gòu),使得傳統(tǒng)識別方法的性能可能會下降很多。流形學(xué)習(xí)理論作為數(shù)據(jù)降維和特征提取的重要方法卻能很好的解決這樣的問題。從拓?fù)鋵W(xué)的角度看,流形是嵌入于高維空間中的低維數(shù)據(jù)集[6],流形學(xué)習(xí)的目地就是從高維數(shù)據(jù)集中獲得其低維描述,即尋找高維數(shù)據(jù)集的內(nèi)在特征進(jìn)而實(shí)現(xiàn)特征提取。經(jīng)典的非線性流形學(xué)習(xí)算法包括等距映射(Isomap)[7],拉普拉斯特征映射(Laplacian eigenmaps,LE)[8],局部線性嵌入(Locally-linear embedding,LLE)[9],其中LLE算法具有每個(gè)點(diǎn)的近鄰權(quán)重在平移、旋轉(zhuǎn)、及縮放下保持不變,算法有解析的整體解,不需要迭代運(yùn)算、計(jì)算復(fù)雜度相對較小且易執(zhí)行的優(yōu)點(diǎn)。
3.1 流形學(xué)習(xí)算法原理[10]
局部線性嵌入算法假定各點(diǎn)數(shù)據(jù)的局部區(qū)域?yàn)榻破矫?,故所有?shù)據(jù)樣本都可以利用其線性組合各自鄰域內(nèi)的樣本數(shù)據(jù)來逼近。對于樣本中的各點(diǎn)xi和它的鄰域{xi,j∈Ji},通過最小化式(1)的值來求解出重構(gòu)權(quán)值ωji(表示xj重構(gòu)xi的權(quán)重):
其中求解ωji需要遵循以下規(guī)則:1)如果xj不屬于xi的鄰域,則ωji=0;2)對于所有的i,將這些權(quán)重組成稀疏矩陣W,體現(xiàn)出各數(shù)據(jù)點(diǎn)xi和它的鄰點(diǎn)間的局部特性,由此也表明通過式(1)求得的權(quán)重能夠發(fā)掘數(shù)據(jù)樣本及其鄰域之間的幾何特性。因?yàn)橐?guī)則,則式(1)可以改寫為根據(jù)Lagrange乘子法,則求解式(2)的最優(yōu)解應(yīng)滿足如下條件:GiTGiwi-λI=0,ITωi=0,當(dāng)Gi列滿秩時(shí),利用式(3)來求解重構(gòu)權(quán)重:
局部線性嵌入算法通過求解正則化的線性系統(tǒng)(Gi
TGi+γ‖‖Gi2I)yi=I來求解ωi=yi/ITyi。
低維嵌入τi∈Rd要表現(xiàn)出高維數(shù)據(jù)樣本空間中的重構(gòu)關(guān)系,則最小化式(4):
令
其中T[τ1,τ2,…,τN],為保證式(4)求解結(jié)果的唯一性,則T滿足以下兩個(gè)約束:1)T為標(biāo)準(zhǔn)正交矩陣,即TTT=I;2)中心化T,即TIN=0。則式(4)可以改寫成:E(T)=Tr(T(I=W)T(I-W))。通過求解?=(I-W)T(I-W)的最小d+1個(gè)特征向量u1,u2,…,ud+1便可得到高維樣本數(shù)據(jù)的低維嵌入T=[u1,u2,…,ud+1]T。
3.2 流形學(xué)習(xí)算法流程
1)選取數(shù)據(jù)點(diǎn)的鄰域
求取高維數(shù)據(jù)樣本中xi的鄰域,k=|Ji|表示xi的鄰域個(gè)體數(shù),Ji代表xi鄰域結(jié)點(diǎn)下標(biāo)集。
2)求解重構(gòu)權(quán)重
對于每個(gè)數(shù)據(jù)點(diǎn),令Gi=[…,xi-xj,…]j∈J,再
i求解(Gi+γ‖GiI)yi=Ik,初始化權(quán)重矩陣W=0,再設(shè)W(Ji,i)=ωi,i=1,…,N,求得W。
3)求解高維數(shù)據(jù)空間的d維嵌入數(shù)據(jù)
求解?=(I-W)T(I-W)的d+1個(gè)最小的特征向量u1,u2,…,ud+1,進(jìn)而獲得高維數(shù)據(jù)的低維嵌入T=[u1,u2,…,ud+1]T。
3.3 半監(jiān)督局部線性嵌入算法
給定示功圖數(shù)據(jù)集X={(x1,c1),(x2,c2),…,(xl,cl),xl+1,xl+2,…,xl+u}∈Rn×m,包含l個(gè)標(biāo)記樣本和u個(gè)無標(biāo)記樣本,ci是xi的故障類別標(biāo)記,Y∈Rn×m,Y為嵌入于高維空間的流形,d≤m。半監(jiān)督局部線性嵌入算法具體步驟如下:
1)求Xi的K個(gè)近鄰域,定義距離公式是數(shù)據(jù)點(diǎn)Xi和Xj間的歐式距離,M(i)是Xi和Xj的平均距離。
2)改進(jìn)距離度量公式:
β為控制參數(shù),α為調(diào)整參數(shù)
3)按照上面公式重新計(jì)算Xi的K個(gè)近鄰域,計(jì)算重構(gòu)權(quán)Wij。求Xi重構(gòu)誤差的最小值,得到最優(yōu)的重構(gòu)權(quán)。
圖2 示功圖樣本數(shù)據(jù)
4)根據(jù)上述3.2節(jié)的流形學(xué)習(xí)算法求解低維嵌入Y,通過重構(gòu)權(quán)重保留高維數(shù)據(jù)的局部幾何特征。
3.4 示功圖識別步驟
1)通過遠(yuǎn)程采集設(shè)備將示功圖數(shù)據(jù)傳遞到識別器并進(jìn)行圖像預(yù)處理;
2)采用半監(jiān)督局部線性嵌入算法對待識別的示功圖數(shù)據(jù)利用流形算法把原有的高維數(shù)據(jù)集映射到低維特征空間;
3)利用KNN分類器對特征空間的樣本進(jìn)行模式分類進(jìn)而識別示功圖類型。
常見的抽油機(jī)故障類型主要有抽油桿斷脫、油井結(jié)蠟、供液不足、固定凡爾漏失、稠油、游動(dòng)凡爾漏失、油井出砂、泵上碰、活塞遇卡、泵下碰和氣鎖等,下面給出其中6種故障類型的示功圖,如圖2所示。
考慮到LLE僅保持樣本局部特征而不計(jì)算任意兩數(shù)據(jù)點(diǎn)的測地線距離,因此反映局部特征的K值對LLE影響更為顯著。均勻設(shè)計(jì)是一種試驗(yàn)設(shè)計(jì)方法,它舍棄了正交設(shè)計(jì)的整齊可比性,只考慮試驗(yàn)點(diǎn)的均勻分布,能用較少的試驗(yàn)點(diǎn)獲得最好的均勻性[11~12],通過均勻設(shè)計(jì)設(shè)計(jì)K=6??偣矊?0口井,每口井8張示功圖共640張示功圖,共包含12種故障類型進(jìn)行識別,并對比BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的判別結(jié)果如表1所示。
表1 判別結(jié)果對比
在數(shù)據(jù)樣本選擇中,人為地增加了一些額外的故障樣本,由于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)這種識別模型需先學(xué)習(xí)后再識別,通過實(shí)驗(yàn)可以看出這兩個(gè)模型對于未訓(xùn)練過的樣本識別效果不是很理想,而本文的半監(jiān)督流形學(xué)習(xí)則是充分利用示功圖數(shù)據(jù)本身的結(jié)構(gòu)信息和已知的樣本標(biāo)簽,使得具有相同標(biāo)簽樣本信息的樣本之間的距離最小化,不同類別樣本數(shù)據(jù)之間的距離最大化,進(jìn)而有效地提取高維樣本數(shù)據(jù)的低維特征流形來提升識別性能。
針對目前機(jī)械采油設(shè)備工作環(huán)境復(fù)雜多變,多數(shù)故障類型難以識別的情況,本文提出一種基于半監(jiān)督流形學(xué)習(xí)的識別方法,該方法計(jì)算量小且無需事先學(xué)習(xí),可以通過流形學(xué)習(xí)算法對高維數(shù)據(jù)進(jìn)行約減,提前低維特征數(shù)據(jù),再通過已知的標(biāo)簽樣本數(shù)據(jù)指導(dǎo)分類,有效地解決了在缺少樣本數(shù)據(jù)的情況下對未知數(shù)據(jù)進(jìn)行分類,在實(shí)際應(yīng)用中取得了很好的識別效果。
[1]黃鸝,凌建軍.有桿泵抽油井故障診斷智能系統(tǒng)進(jìn)展[J].石油鉆探技術(shù),1995,23(2):64-66.
HUANG Li,LING Jianjun.Advances in fault dianosis intelligence system for sucker-rod pumping wells[J].Petroleum Drilling Techniques,1995,23(2):64-66.
[2]李正勤,黎洪生.基于示功圖面積變化的抽油機(jī)故障診斷模型[J].油氣田地面工程,2008,27(9):3-4.
LI Zhengqin,LI Hongsheng.Fault diagnosis model of oil pumping unit based on area variation of indicator diagram[J].Oil-Gasfield Surface Engineering,2008,27(9):3-4.
[3]王洪巖,喬磊,樊瑞筱.基于不變矩的示功圖故障診斷方法研究[J].科學(xué)技術(shù)與工程,2012,12(17):4308-4310.
WANG Hongyan,QIAO Lei,F(xiàn)AN Ruixiao.Fault diagnosis method research based on invariant moment of indicator diagram[J].Science Technology and Engineering,2012,12(17):4308-4310.
[4]吳偉,陳國定,何焱.基于人工神經(jīng)網(wǎng)絡(luò)和灰度矩陣的泵功圖診斷[J].西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,22(3):119-121.
WU Wei,CHEN Guoding,HE Yan.Fault diagnosis system for pump work indicating diagram based on neural network and gray-level matrix[J].Journal of Xi'an Shiyou University(Natural Science Edition),2007,22(3):119-121.
[5]朱春梅,陜梅辰,智玉杰,等.支持向量機(jī)的無桿抽油機(jī)示功圖自動(dòng)識別技術(shù)[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,29(1):16-20.
ZHU Chunmei,SHAN Meichen,ZHI Yujie,et al.Study on automatic recognition of indicator diagram of rod-less pumping unit based on support vector machine[J].Journal of Beijing Information Science&Technology University,2014,29(1):16-20.
[6]宋濤,湯寶平,李鋒.基于流形學(xué)習(xí)和K-最近鄰分類器的旋轉(zhuǎn)機(jī)械故障診斷方法[J].振動(dòng)與沖擊,2013,32(5):149-153.
SONG Tao,TANG Baoping,LI Feng.Fault diagnosis method for rotating machinery based on manifold learning and K-nearest neighbor classifier[J].Journal of Vibration and Shock,2013,32(5):149-153.
[7]Roweis S T,Saul L K.Nonlinear dimensionality reduction by Locally Linear Embedding[J].Science,2000,290(5500):2323-2326.
[8]Belkin M,Niyogi P.Laplacian Eigenmaps and spectral techniques for embedding and clustering[C]//Advances in Neural Information Processing Systems.Cambridge,MA,USA:The MIT Press,2002,14:585-591.
[9]Tenenbaum J B,Silva V D,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J]. Science,2000,290(5500):2319-2323.
[10]王自強(qiáng),錢旭,孔敏.流形學(xué)習(xí)算法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(35):9-12.
WANG Ziqiang,QIAN Xu,KONG Min.Survey on manifold learning algorithms[J].Computer Engineering and Applications,2008,44(35):9-12.
[11]王元,方開泰.均勻分布與試驗(yàn)設(shè)計(jì)(數(shù)論方法)[J].科學(xué)通報(bào),1981,26(2):65-70.
WANG Yuan,F(xiàn)ANG Kaitai.Uniform distribution and experimental design(number theoretic method)[J].Chinese Science Bulletin,1981,26(2):65-70.
[12]梁昌勇,陸青,張恩橋,等.基于均勻設(shè)計(jì)的多智能體遺傳算法研究[J].系統(tǒng)工程學(xué)報(bào),2009,24(1):109-113.
LIANG Changyong,LU Qing,ZHANG Enqiao.Research on multi-agent genetic algorithm based on uniform design[J].Ournalof Systems Engineering,2009,24(1):109-113.
Pumping Unit Fault Diagnosis Method Based on Semi-supervised Manifold Learning
ZHAO Wanping
(School of Computer and Information Technology,Northeast Petroleum University,Daqing163318)
According to indicator diagram of known samples in actual production of oil is deficient,A semi supervised recognition method based on manifold learning is proposed.Low-dimensional feature space can be obtained using manifold learning algorithm by labeled and unlabeled sample data to the data collected for feature extraction.It can achieve the purpose of fault diagnosis in the low-dimensional feature space for fault pattern classification,and achieve good effect in practical application.
indicator diagram,semi-supervised,manifold learning,distinguish
TP391
10.3969/j.issn.1672-9722.2017.06.003
2016年12月13日,
2017年1月24日
國家自然科學(xué)基金項(xiàng)目“基于集成學(xué)習(xí)的生物醫(yī)學(xué)文本信息抽取方法研究”(編號:61402099)資助。
趙萬平,女,副研究員,研究方向:模式識別、智能算法。