陳 妍, 許少華,2
1(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院, 大慶 163318)2(山東科技大學(xué) 信息科學(xué)與工程學(xué)院, 青島 266000)
基于多示例多標(biāo)記的抽油機(jī)故障診斷①
陳 妍1, 許少華1,2
1(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院, 大慶 163318)2(山東科技大學(xué) 信息科學(xué)與工程學(xué)院, 青島 266000)
針對(duì)抽油機(jī)工況數(shù)據(jù)可從位移、載荷、電流等多個(gè)方面進(jìn)行描述, 若僅僅使用一個(gè)特征向量來(lái)描述抽油機(jī)工況數(shù)據(jù)會(huì)使其信息過(guò)于簡(jiǎn)化, 丟失一部分有效信息的問(wèn)題, 以及工況數(shù)據(jù)具有多義性的特征, 提出基于多示例多標(biāo)記的抽油機(jī)故障診斷. 該學(xué)習(xí)方法中, 用抽油機(jī)的位移、載荷、電流數(shù)據(jù)作為抽油機(jī)工況樣本包的多個(gè)示例, 使用k-medoids聚類算法對(duì)樣本包進(jìn)行聚類, 將多個(gè)樣本包轉(zhuǎn)換為若干示例, 新示例的每一維表示樣本包到樣本各聚類中心的距離, 再利用MLSVM算法對(duì)轉(zhuǎn)換后的多標(biāo)記問(wèn)題進(jìn)行求解. 實(shí)驗(yàn)結(jié)果表明, 多示例多標(biāo)記學(xué)習(xí)能夠及時(shí)、準(zhǔn)確地診斷出抽油機(jī)故障問(wèn)題.
多示例多標(biāo)記; 抽油機(jī); 故障診斷
在現(xiàn)代采油工藝技術(shù)中, 油井停止自噴后通常使用機(jī)械采油方式進(jìn)行采油, 螺桿泵便是眾多機(jī)械采油方式中應(yīng)用最為普遍的一種[1]. 而油井所處地理環(huán)境惡劣、井下條件復(fù)雜、不明因素眾多, 這些不利因素導(dǎo)致無(wú)法實(shí)時(shí)判斷抽油機(jī)運(yùn)行狀態(tài), 從而不能及時(shí)進(jìn)行故障診斷和處理, 嚴(yán)重影響了抽油機(jī)的抽油效率、增加了采油成本. 因此及時(shí)準(zhǔn)確地了解有桿抽油系統(tǒng)的工作情況并進(jìn)行故障診斷, 對(duì)提高油田生產(chǎn)效率和緊急效益具有中要的意義[2].
示功圖是分析抽油機(jī)工作狀況的重要依據(jù), 技術(shù)人員主要通過(guò)觀察示功圖的上載荷、下載和、加載帶、卸載帶來(lái)判斷示功圖是否處于正常工作狀態(tài), 這樣的分析更多的依賴于技術(shù)人員的工作經(jīng)驗(yàn)和技術(shù)水平,人為影響因素較大. 也有研究人員利用機(jī)器學(xué)習(xí)進(jìn)行抽油機(jī)故障診斷操作.
文獻(xiàn)[2]采用了半監(jiān)督競(jìng)爭(zhēng)過(guò)程元網(wǎng)絡(luò), 將離散Fréchet距離與歐氏距離相結(jié)合利用了示功圖的時(shí)間細(xì)節(jié)特征對(duì)其進(jìn)行分類識(shí)別; 文獻(xiàn)[3]將示功圖識(shí)別看作動(dòng)態(tài)系統(tǒng)連續(xù)曲線(位移-時(shí)間曲線和載荷-時(shí)間曲線)的模式識(shí)別問(wèn)題, 將一個(gè)周期內(nèi)的位移-時(shí)間曲線和載荷-時(shí)間曲線直接作為模型輸入; 文獻(xiàn)[4]采用一種矩特征和傅里葉描述子相結(jié)合的方式進(jìn)行的示功圖故障診斷; 文獻(xiàn)[5]通過(guò)兩個(gè)分類支持向量機(jī)的組合來(lái)實(shí)現(xiàn)支持向量機(jī)的多分類算法, 應(yīng)用支持向量機(jī)的多分類算法來(lái)實(shí)現(xiàn)示功圖診斷操作; 文獻(xiàn)[6]利用最小二乘法對(duì)示功圖進(jìn)行自動(dòng)分類識(shí)別.
上述識(shí)別方法都取得了不錯(cuò)的識(shí)別效果, 但都是針對(duì)單示例或是單標(biāo)記的學(xué)習(xí). 而抽油機(jī)工況數(shù)據(jù)是具有多義性的, 只使用一個(gè)特征向量來(lái)進(jìn)行描述會(huì)丟失很多有用信息, 因此本文提出利用多示例多標(biāo)記方法對(duì)抽油機(jī)故障進(jìn)行診斷.
多示例多標(biāo)記學(xué)習(xí)主要用于對(duì)多義性對(duì)象進(jìn)行學(xué)習(xí), 需要給予對(duì)象適合的類別標(biāo)記, 這里的類別標(biāo)記不再是單一的類別標(biāo)記了, 而是一個(gè)類別標(biāo)記子集.同樣, 對(duì)多義性對(duì)象的描述也不再是采用單一示例進(jìn)行表達(dá), 而是使用示例集合表示[7,8].
圖1 系統(tǒng)總體框圖
3.1 MIML框架學(xué)習(xí)策略
傳統(tǒng)監(jiān)督學(xué)習(xí)可以看做是多示例學(xué)習(xí)或者多標(biāo)記學(xué)習(xí)的一種特殊情況, 而多示例學(xué)習(xí)或者多標(biāo)記學(xué)習(xí)有可以看成是多示例多標(biāo)記學(xué)習(xí)的單標(biāo)記情況或者單示例情況, 因此, 多示例多標(biāo)記問(wèn)題可以先轉(zhuǎn)換成為多示例問(wèn)題或者多標(biāo)記問(wèn)題, 再轉(zhuǎn)化為單示例單標(biāo)記問(wèn)題, 也就是傳統(tǒng)監(jiān)督問(wèn)題, 基于這種思想, Zhou Z-H等提出了MIMLBOOST算法和MIMLSVM算法[7,9].基于最大間隔策略以及正則化機(jī)制, 提出了D-MIMLSVM算法[8]和M3MIML[10]算法. 在本文中,使用的是MIMLSVM算法.
3.2 MIMLSVM學(xué)習(xí)算法
MIMLSVM算法針對(duì)每個(gè)多示例多標(biāo)記樣本(Xi,Yi)都會(huì)給出一個(gè)中間變量zi=φ(Xi), 函數(shù)φ將每一個(gè)多示例子集Xi轉(zhuǎn)化成為一個(gè)示例zi, 即2x→Z,其中, 對(duì)于任意的y∈Y, 若y∈Yi, 則令φ(zi,y)=+1, 否則,φ(zi,y)=-1. 將Xi轉(zhuǎn)換成為zi后,再利用MLSVM[11]算法對(duì)通過(guò)轉(zhuǎn)換獲得的多標(biāo)記問(wèn)題進(jìn)行學(xué)習(xí). MIMLSVM算法的整體思想如圖2所示.
圖2 MIMLSVM算法整體思想
3.3 算法描述
步驟2. 在數(shù)據(jù)集Γ的基礎(chǔ)上運(yùn)用k-medoids聚類算法, 得到初始化的聚類中心點(diǎn)對(duì)于每一個(gè)示例
重復(fù)計(jì)算公式(1)(2)(3), 直至中心點(diǎn)Mt不再改變.其中,dH(A,B)表示包A={a1,a2,Λ,anA}和包之間的距離, 采用Hausdroff[12]距離進(jìn)行度量:其中a-b表示的就是使用Hausdroff距離計(jì)算出的a與b之間的距離.
步驟3. 將多示例多標(biāo)記樣本(Xi,Yi)轉(zhuǎn)換成為多標(biāo)記樣本(zi,Yi)(i=1,2,Λ,m), 其中:
步驟4. 建立數(shù)據(jù)集Dy:
針對(duì)數(shù)據(jù)集Dy使用MLSVM算法來(lái)進(jìn)行SVM訓(xùn)練:
對(duì)于任意的y∈Y, 與標(biāo)記集Y有關(guān)的示例都被認(rèn)為是正例, 而對(duì)任意的y?Y, 與標(biāo)記集Y無(wú)關(guān), 被認(rèn)為是反例.
步驟5. 當(dāng)訓(xùn)練后的SVM得分中含有正分時(shí), 測(cè)試用例被標(biāo)記為擁有最高正得分的類別, 若SVM訓(xùn)練后所有類別的得分都是負(fù)分, 則測(cè)試用例被標(biāo)記為擁有最少負(fù)分的類別.
3.4 算法表現(xiàn)評(píng)價(jià)
算法在實(shí)驗(yàn)中表現(xiàn)的好壞主要由5個(gè)指標(biāo)進(jìn)行評(píng)價(jià), 分別是HammingLoss、RankingLoss、OneError、Coverage、Average_Precision[13]. 其中, HammingLoss表示的是對(duì)象分類錯(cuò)誤的次數(shù), 其數(shù)值越小, 算法的表現(xiàn)越好; RankingLoss表示對(duì)象錯(cuò)亂標(biāo)記平均值, 越小表示學(xué)習(xí)效果越好; OneError表示排名第一的標(biāo)記并不是該對(duì)象正確的標(biāo)記的次數(shù), 同樣, 該值越小越好; Coverage代表覆蓋對(duì)象所有標(biāo)記的距離, 數(shù)值越小表示覆蓋精度越高; Average_Precision代表標(biāo)記排名平均分高于一個(gè)特定的標(biāo)記y∈Yi, Average_Precision為1時(shí), 是算法表現(xiàn)最好的時(shí)刻.
本文中對(duì)抽油機(jī)正常工作、地層出砂、泵漏失前期、泵漏失共四種工作狀態(tài)進(jìn)行診斷, 四種工作狀態(tài)對(duì)應(yīng)的示功圖曲線如圖3所示.
圖3 抽油機(jī)示功圖曲線
本次試驗(yàn)共使用了173條抽油機(jī)工作數(shù)據(jù)作為樣本數(shù)據(jù), 其中123個(gè)樣本最為訓(xùn)練數(shù)據(jù)集(trainbags), 50個(gè)樣本作為測(cè)試數(shù)據(jù)集(testbags). 173個(gè)樣本數(shù)據(jù)中49個(gè)樣本數(shù)據(jù)的上載荷穩(wěn)定在55KN左右, 且功圖曲線光滑平穩(wěn), 滿足正常工況數(shù)據(jù)特征; 35個(gè)樣本數(shù)據(jù)的上載荷下降, 重復(fù)度降低, 為泵漏失前期的特征; 42個(gè)樣本數(shù)據(jù)幾乎不見上載荷, 為泵漏失數(shù)據(jù)的特征; 35個(gè)樣本數(shù)據(jù)加載線的斜率明顯增大, 為地層出砂的典型特征. 173個(gè)樣本數(shù)據(jù)對(duì)應(yīng)的功圖見圖4, 與圖3進(jìn)行比較, 可看出樣本數(shù)據(jù)很好的代表了本文中進(jìn)行診斷的4種抽油機(jī)工作狀態(tài).
圖4 樣本數(shù)據(jù)疊加示功圖
訓(xùn)練中使用的SVM核函數(shù)為RBF核函數(shù),γ值分別取0.25、0.5、3. 另外, 輸入?yún)?shù)ratio*樣本包個(gè)數(shù)即為聚類數(shù)目, 在本次試驗(yàn)中ratio取值為0.0325; 另一個(gè)輸入?yún)?shù)cost設(shè)置為1. 具體實(shí)驗(yàn)結(jié)果見表1.
表1 MIMLSVM實(shí)驗(yàn)表現(xiàn)
從表1中可以看出, 當(dāng)γ值為0.25時(shí), 各項(xiàng)算法評(píng)價(jià)指標(biāo)體現(xiàn)出最好的結(jié)果, 此時(shí)聚類數(shù)目為4, 即當(dāng)γ=1/k(k為聚類數(shù)目)時(shí), 算法MIMLSVM能夠取得最佳效果.
本文利用多示例多標(biāo)記學(xué)習(xí)模型來(lái)解決抽油機(jī)故障診斷問(wèn)題, 診斷結(jié)果能夠使人滿意. 由于抽油機(jī)是一個(gè)連續(xù)工作的機(jī)器, 其工況數(shù)據(jù)同樣也是隨時(shí)間連續(xù)的, 因此, 使用連續(xù)曲線之間距離度量方法代替Hausdroff距離計(jì)算兩包之間的距離一個(gè)今后值得研究的方面.
1 張楠.基于示功圖分析的抽油機(jī)故障診斷系統(tǒng)[碩士學(xué)位論文].大連:大連理工大學(xué),2009.
2 王兵,許少華,孟耀華.基于半監(jiān)督競(jìng)爭(zhēng)過(guò)程神經(jīng)網(wǎng)絡(luò)的抽油機(jī)故障診斷.信息與控制,2014,43(2):235–240.
3 張強(qiáng),許少華,李盼池.對(duì)傳過(guò)程神經(jīng)網(wǎng)絡(luò)在油井故障診斷中的應(yīng)用.計(jì)算機(jī)工程與應(yīng)用,2013,49(2):9–12.
4 付光杰,周昕奇,王磊,牟海維.基于矩特征傅里葉描述的示功圖故障診斷研究.化工自動(dòng)化及儀表,2015,42(4):401–405.
5 魏軍.基于支持向量機(jī)的抽油機(jī)故障診斷模型研究.計(jì)算機(jī)與數(shù)字工程,2014,42(11):2094–2098.
6 檀朝東,曾霞光,檀革勤,張杰.基于最小二乘法的抽油機(jī)示功圖自動(dòng)分類及故障診斷.數(shù)據(jù)采集與處理,2010,25(增刊): 157–159.
7 Zhou ZH, Zhang ML. Multi-instance multi-label learning with application to scene classification. In: Sch?lkopf B, Platt J, Hofmann T, eds. Advances in Neural Information Processing Systems 19 (NIPS’06), Cambridge, MA: MITPress, 2007: 1609–1616.
8 Zhou ZH, Zhang ML, Huang SJ, Li YF. MIML: A framework for learning with ambiguous objects. CORRabs/ 0808.3231, 2008.
9 Chang CC, Lin CJ. Libsvm: A library for support vector machines [Technical Report]. Department of Computer Science and Information Engineering, Taiwan University, Taipei, 2001.
10 Zhang ML, Zhou ZH. A maximum margin method for multi-instance multi-label learning. Proc. of the 8th IEEE International Conference on Data Mining (ICDM’08). Pisa, Italy. 2008. 688–697.
11 Boutell MR, Luo J, Shen X, Brown CM. Learning multi-label scene classification. Pattern Recognition, 2004, 37(9): 1757–1771.
12 Edgar GA. Measure, Topology, and Fractal Geometry. Springer, Berlin, 1990.
13 Zhou ZH, Zhang ML, Huang SJ, Li YF. Multi-instance multi-label learning. Artificial Intelligence, 2008, 176(1): 2291–2320.
Pumping Unit Diagnose Based on Muli-Instance and Multi-Label
CHEN Yan1, XU Shao-Hua1,212
(School of Computer and Information Technology, Northeast Petroleum University, Daqing 163318, China) (The College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266000, China)
The operating condition data of pumping unit can be described from the aspects of displacement, load and electric current. If only one feature vector is used to describe the operating condition of the pumping unit, the information will be too simplified, and it will lost some effective information. In view of the above problems and polysemy which is the essential characteristics of operating condition data, the fault diagnosis of pumping unit based on multi-instance and multi-label is presented. In this study, the displacement, load and current data of the pumping unit are used as multiple instances of pumping unit working condition data bags. Using k-medoids clustering algorithm cluster the bags and convert bags into several instances. Each dimension of the new instance indicates the distance from the bags to each cluster center, and then the MLSVM algorithm is used to solve the multi label problem. Experimental results show that multi-instance and multi-label learning can diagnose the trouble of oil pumping machine timely and accurately.
muli-instance multi-label; pumping unit; fault diagnosis
2015-11-18;收到修改稿時(shí)間:2016-01-04
10.15888/j.cnki.csa.005255