段志剛,李漢周,司志梅,葉紅,趙慶婕
(中國(guó)石化江蘇油田分公司 石油工程技術(shù)研究院,江蘇 揚(yáng)州 225009)
游梁式抽油機(jī)是油田開發(fā)的主要設(shè)備之一[1],及時(shí)掌握抽油機(jī)的作業(yè)情況對(duì)于提高石油產(chǎn)出量具有重要作用。由于井下環(huán)境復(fù)雜,抽油機(jī)在作業(yè)過程中往往會(huì)受到一些干擾導(dǎo)致作業(yè)異常[2],常見的作業(yè)異常包括: 上/下行遇阻、不平衡、供液不足、凡爾失靈、氣體影響等幾十種,其形成原因與表現(xiàn)形式各不一致,如何及時(shí)有效地識(shí)別不同作業(yè)故障非常具有挑戰(zhàn)。
現(xiàn)階段國(guó)內(nèi)對(duì)于抽油機(jī)的故障診斷主要依據(jù)采油工程師對(duì)于示功圖的分析和油井管理經(jīng)驗(yàn)來確定[3-4]。懸點(diǎn)示功圖,也稱地面示功圖或光桿示功圖,是抽油井采油現(xiàn)場(chǎng)采集的第一手資料。示功圖不同的幾何形狀則代表著作業(yè)的不同工況,標(biāo)準(zhǔn)無異常的示功圖為平行四邊形,如果油井發(fā)生供液不足,示功圖的形狀則類似于一把刀,如圖1所示。傳統(tǒng)的示功圖故障檢測(cè)基于專家系統(tǒng)[5],對(duì)不同形狀的示功圖進(jìn)行總結(jié)分析[6]。然而實(shí)際測(cè)量出的示功圖千變?nèi)f化,形成原因與故障對(duì)應(yīng)關(guān)系錯(cuò)綜復(fù)雜,過于依賴專家知識(shí)導(dǎo)致系統(tǒng)開發(fā)費(fèi)時(shí)費(fèi)力,且魯棒性較低?;谥С窒蛄繖C(jī)算法(SVM)等分類模型也可以獲得不錯(cuò)的效果[7],但前提是合理的特征選擇,同樣需要一定程度的領(lǐng)域知識(shí)和實(shí)驗(yàn)分析。因此筆者嘗試從深度學(xué)習(xí)的角度出發(fā),將示功圖的故障檢測(cè)問題轉(zhuǎn)化為圖像分類問題,實(shí)驗(yàn)表明,無需大量領(lǐng)域知識(shí)和特征選擇即可實(shí)現(xiàn)對(duì)傳統(tǒng)方法的有效提升。
圖1 標(biāo)準(zhǔn)示功圖與供液不足時(shí)示功圖對(duì)比示意
該方法主要內(nèi)容如下:
1)針對(duì)專家系統(tǒng)的性能限制,提出了利用基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法實(shí)現(xiàn)對(duì)示功圖的異常診斷。
2)由于人員和成本的限制,很難獲得大量有標(biāo)注的數(shù)據(jù)。本文基于預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)在少量示功圖標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào),將ImageNet數(shù)據(jù)集上標(biāo)注好的語義信息遷移到示功圖分類上,避免了網(wǎng)絡(luò)從零初始化的過程。通過遷移學(xué)習(xí)使模型在少量有標(biāo)注數(shù)據(jù)的情況下,依然取得了不錯(cuò)的效果。
示功圖作為油田作業(yè)診斷的第一手資料,一直受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注[8]。早期學(xué)者將專家系統(tǒng)用于抽油機(jī)工況診斷,利用領(lǐng)域知識(shí)與經(jīng)驗(yàn)建立了典型示功圖的規(guī)則集合的知識(shí)庫,可以使用推理機(jī)解析規(guī)則識(shí)別示功圖,實(shí)現(xiàn)識(shí)別診斷[9]。周寧寧等[10]通過模糊理論實(shí)現(xiàn)示功圖診斷,解決示功圖表示不明確的問題,將特征缺失面積與缺失行程定義為隸屬變量,設(shè)計(jì)隸屬函數(shù)求解出最佳隸屬度作為樣本類別。楊洋等[11]基于灰色理論,將經(jīng)過歸一化后消除量綱、尺度的示功圖利用網(wǎng)格法得到灰度矩陣,再求解其灰度關(guān)聯(lián)特征得到6個(gè)元素的特征向量,最終與基準(zhǔn)庫的11種典型示功圖特征作灰度關(guān)聯(lián)分析,從而實(shí)現(xiàn)診斷。Sun等[12]通過不變矩理論提取示功圖的幾何特征作為輸入,分別使用BP神經(jīng)網(wǎng)絡(luò)和SVM作為分類器識(shí)別示功圖類型,其中SVM表現(xiàn)更好,83%的正確率高出BP神經(jīng)網(wǎng)絡(luò)5個(gè)百分點(diǎn)。而隨著深度學(xué)習(xí)的發(fā)展,仲志丹等[13]通過稀疏自編碼器自動(dòng)提取示功圖圖像特征,并通過softmax分類器做分類,在其測(cè)試集上獲得了98%的準(zhǔn)確率[14]。
深度學(xué)習(xí)[15]作為機(jī)器學(xué)習(xí)的一大分支,一直是業(yè)界的研究熱點(diǎn)之一,近年來,尤其在機(jī)器視覺和自然語言處理等領(lǐng)域獲得了重大突破。深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),多層感知機(jī)就是一種最基礎(chǔ)的深度學(xué)習(xí)結(jié)構(gòu),無需手動(dòng)設(shè)計(jì)特征,淺層輸入隨著網(wǎng)絡(luò)深入進(jìn)行特征組合并在高層獲得更加抽象的表示,再通過梯度下降算法優(yōu)化訓(xùn)練損失就可以自動(dòng)迭代地學(xué)習(xí)出恰當(dāng)?shù)臉颖颈磉_(dá)。圖像分類是深度學(xué)習(xí)最廣泛的應(yīng)用場(chǎng)景之一,其主要任務(wù)是將圖片數(shù)據(jù)中同種類型的圖片識(shí)別出來,強(qiáng)調(diào)對(duì)圖像整體的語義理解。相較于多層感知機(jī),深度卷積神經(jīng)網(wǎng)絡(luò)通過卷積核進(jìn)行特征抽取,結(jié)合池化層進(jìn)行采樣,既使得模型對(duì)圖片的平移,放縮等變化具有一定程度的抗干擾能力,也可以有效降低網(wǎng)絡(luò)的復(fù)雜性,減少參數(shù)量,在圖像分類領(lǐng)域中應(yīng)用最為廣泛。Alex等[16]提出的AlexNet首次將深度卷積網(wǎng)絡(luò)應(yīng)用于大規(guī)模圖像分類ImageNet上,大幅超越傳統(tǒng)算法。谷歌團(tuán)隊(duì)在ILSVRC2014上發(fā)布的GoogleNet[17]基于Network in network思想進(jìn)一步提出Inception模塊以稠密組實(shí)現(xiàn)了有效降維,減少了模型參數(shù)的同時(shí)也減輕了過擬合問題。隨后不久又提出的batch normalization進(jìn)一步提升GoogleNet的泛化能力,獲得了更好的效果。然而隨著網(wǎng)絡(luò)深度的進(jìn)一步加深,模型卻由于過擬合和梯度消失等原因出現(xiàn)了退化現(xiàn)象,直到深度殘差網(wǎng)絡(luò)ResNet的出現(xiàn)[18],通過殘差結(jié)構(gòu)將網(wǎng)絡(luò)深度成功地加深到152層,進(jìn)一步解放了深度學(xué)習(xí)的上限[19]。
與此同時(shí),研究者經(jīng)過可視化方法發(fā)現(xiàn),處理圖像任務(wù)的神經(jīng)網(wǎng)絡(luò)其底層特征具有較高的一致性,大多為線條,紋理等信息,僅在上層任務(wù)相關(guān)的部分存在較大差別,將大量有標(biāo)注數(shù)據(jù)的源領(lǐng)域知識(shí)遷移到少量標(biāo)注或無標(biāo)注目標(biāo)領(lǐng)域的方法便稱為遷移學(xué)習(xí)[20]。由于ImageNet具有數(shù)據(jù)集規(guī)模大、種類多、信息豐富的特點(diǎn),基于ImageNet預(yù)訓(xùn)練好的模型通常具有很強(qiáng)的泛化能力,因此是機(jī)器視覺任務(wù)中最常見的源領(lǐng)域數(shù)據(jù)集。將該預(yù)訓(xùn)練模型進(jìn)一步在其他任務(wù)上進(jìn)行微調(diào)時(shí),相較于一個(gè)從頭訓(xùn)練的模型,微調(diào)模型不但能提高精度,且在少量有標(biāo)簽數(shù)據(jù)的情況下就可以獲得不錯(cuò)的效果。
示功圖診斷指將油田作業(yè)示功圖分類至正常、不平衡、氣體影響、供液不足、凡爾失靈等30個(gè)類別中,屬于圖片多分類問題。常規(guī)示功圖數(shù)據(jù)在數(shù)據(jù)庫中以二進(jìn)制編碼的形式保存,經(jīng)由Python程序解碼后在畫布上作圖而形成圖片,保留橫縱坐標(biāo)軸為模型識(shí)別提供尺度信息,并以224×224的分辨率保存在本地。
整個(gè)模型架構(gòu)如圖2所示,輸出通過中間的預(yù)訓(xùn)練模型進(jìn)行特征提取,預(yù)訓(xùn)練模型內(nèi)部包括多個(gè)殘差塊;再通過全連接層將特征向量變成目標(biāo)分類的概率分布實(shí)現(xiàn)模型預(yù)測(cè);最后通過以softmax激活函數(shù)將概率分布?xì)w一化,獲得最終的分類結(jié)果。
圖2 示功圖診斷神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意
殘差網(wǎng)絡(luò)泛指以多個(gè)殘差塊堆疊而成的深層網(wǎng)絡(luò),每個(gè)殘差塊中又可以包含多個(gè)卷積層。殘差網(wǎng)絡(luò)的主要思想是: 將網(wǎng)絡(luò)的輸入與輸出相加作為該結(jié)構(gòu)的最終輸出,使得模型在前向傳播的時(shí)候可以保持上一層信息不丟失地傳入下層,而在反向傳播時(shí),又可以將梯度直接傳遞到上一層,從而避免梯度消失問題,大幅提高了模型的泛化能力。具體地,以ResNet為例,其殘差結(jié)構(gòu)如式(1)所示:
hl+1=Relu(hl+F(hl,wl))
(1)
式中:hl,hl+1——分別為該殘差塊的輸入和輸出;F——?dú)埐钣成浜瘮?shù),如卷積操作等;wl——對(duì)應(yīng)參數(shù)。Relu的激活函數(shù)如式(2)所示:
(2)
先將殘差網(wǎng)絡(luò)在ImageNet的有標(biāo)注數(shù)據(jù)集上預(yù)訓(xùn)練,接著刪除最頂層的分類層,把中間的輸出層作為特征抽取模塊。以該預(yù)訓(xùn)練參數(shù)作為初始化進(jìn)行遷移學(xué)習(xí),可使模型獲得一定與圖像相關(guān)的先驗(yàn)知識(shí),使得模型無需重新學(xué)習(xí)低級(jí)語義信息,避免了參數(shù)從零初始化的窘境。
模型上層是任務(wù)相關(guān)的分類器,由一個(gè)全連接層加Softmax模型的激活函數(shù)組成。分類器函數(shù)如式(3)所示:
(3)
式中:H——最后一層輸出特征;W,b——對(duì)應(yīng)全連接層的可學(xué)習(xí)參數(shù)。經(jīng)過全連接層將向量維度修正為N維向量Z,每一維度代表著該次預(yù)測(cè)在對(duì)應(yīng)示功圖分類的概率大小。Softmax模型的激活函數(shù)如式(4)所示:
(4)
通過Softmax分類器對(duì)概率分布進(jìn)行歸一化,取概率最大值所在維度作為最終預(yù)測(cè)結(jié)果。
實(shí)驗(yàn)數(shù)據(jù)取自某油田作業(yè)數(shù)據(jù)庫,通過人工標(biāo)注出30個(gè)示功圖類別,將整個(gè)數(shù)據(jù)集以3∶1的比例劃分為訓(xùn)練集和測(cè)試集,取典型7種示功圖的實(shí)驗(yàn)結(jié)果進(jìn)行分析,包括: 正常、抽噴、不平衡、供液不足、氣體影響、氣鎖和桿斷。具體數(shù)據(jù)分布見表1所列。
表1 訓(xùn)練數(shù)據(jù)分布
表1中,正常、供液不足、抽噴、氣體影響等都屬于樣本充足的類型,不平衡是稍微欠缺,氣鎖和桿斷則屬于十分稀少的類別,因此該數(shù)據(jù)集存在很嚴(yán)重的樣本不均衡現(xiàn)象。每張圖片都經(jīng)過數(shù)據(jù)增強(qiáng)來提高數(shù)據(jù)集質(zhì)量,數(shù)據(jù)增強(qiáng)方式包括: 旋轉(zhuǎn)、放縮、裁剪,但不包括翻轉(zhuǎn),因?yàn)槭竟D翻轉(zhuǎn)之后有可能改變其所屬類別。
首先,預(yù)訓(xùn)練的特征抽取模塊不固定參數(shù),而是隨著整個(gè)網(wǎng)絡(luò)一同訓(xùn)練,學(xué)習(xí)率為0.000 1,使得模型主要更新任務(wù)相關(guān)部分,而不至丟失預(yù)訓(xùn)練信息。優(yōu)化器為adam,具有較好的收斂效果。每批次實(shí)驗(yàn)采樣個(gè)數(shù)為64,可較好地平衡訓(xùn)練速度和精度。損失函數(shù)為交叉熵,評(píng)價(jià)指標(biāo)為準(zhǔn)確率,綜合評(píng)價(jià)指標(biāo)為宏平均與微平均,其中宏平均是先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值,然后在對(duì)所有類求算術(shù)平均值,微平均是根據(jù)樣本數(shù)量采用加權(quán)的方式再取平均,可以更好地衡量模型對(duì)不平衡樣本的性能。詳細(xì)實(shí)驗(yàn)參數(shù)設(shè)置見表2所列。
表2 實(shí)驗(yàn)詳細(xì)參數(shù)
本文探究了不同殘差網(wǎng)絡(luò)作為特征抽取器的效果,包括ResNet,DenseNet與MobileNet。
ResNet由微軟研究院的何愷明等人提出,率先將殘差結(jié)構(gòu)引入深度神經(jīng)網(wǎng)絡(luò)中,將網(wǎng)絡(luò)深度首次突破100層,是目前最經(jīng)典圖像處理網(wǎng)絡(luò)之一。
DenceNet[21]是對(duì)ResNet的一次拓展,相較于ResNet,每個(gè)殘差塊是前后直連,DenceNet提出來一個(gè)密集連接機(jī)制,即網(wǎng)絡(luò)中的所有層都互相連接,具體而言,每一層網(wǎng)絡(luò)都會(huì)接受其前面所有層的輸出作為其輸入。在同等參數(shù)量時(shí),具有比ResNet更好的性能。
MobileNet[22]是一種輕量級(jí)的神經(jīng)網(wǎng)絡(luò),采用深度可分離卷積代替普通卷積操作,以降低模型的計(jì)算量和參數(shù)量。MobileNet在盡可能保證圖像分類精度的同時(shí),大幅縮短了網(wǎng)絡(luò)推理速度,是追求實(shí)時(shí)性應(yīng)用的不二之選。
不同模型精度的實(shí)驗(yàn)對(duì)比見表3所列,從表3來看,三個(gè)模型在微平均精度上差距不大,MobileNet最高,為98.75%,ResNet其次,為98.71%,DenceNet則稍低一些,為98.27%,比前兩者低了0.5個(gè)百分點(diǎn)。在宏平均精度上的差距較為明顯,ResNet具有最高的宏平均精度為97.13%,相較于宏平均精度第二的MobileNet高出1.2個(gè)百分點(diǎn),且大幅超過DenceNet的宏平均精度。
表3 不同模型精度的實(shí)驗(yàn)對(duì)比 %
具體從各個(gè)類別分析,對(duì)于樣本數(shù)量十分充足的類別: 正常、氣體影響、抽噴和供液不足,三個(gè)模型均取得了不錯(cuò)的效果,對(duì)于樣本數(shù)量相對(duì)較少的不平衡示功圖,各個(gè)模型都達(dá)到了99%以上的準(zhǔn)確率,甚至高于樣本充足的四種示功圖。但是隨著樣本數(shù)量進(jìn)一步減少時(shí),氣鎖和桿斷的訓(xùn)練集樣本均小于1 000個(gè),模型精度大幅下降。以ResNet為例,在訓(xùn)練樣本為756的氣鎖示功圖上,精度為94.44%,相較于前五種示功圖下降了4個(gè)百分點(diǎn),訓(xùn)練樣本數(shù)為240的桿斷,效果最差,精度只有91.25%,低了7個(gè)百分點(diǎn)。其他兩個(gè)模型也存在著同樣的現(xiàn)象。由此可見,在該數(shù)據(jù)集上1 000個(gè)訓(xùn)練樣本是劃分長(zhǎng)尾樣本的分割線,數(shù)據(jù)量達(dá)到1 000之后對(duì)精度就不會(huì)有有效提升,數(shù)量在1 000以下則影響巨大。
從三個(gè)模型對(duì)于氣鎖和桿斷等不均衡樣本來看,ResNet具有最強(qiáng)的魯棒性,DenceNet最差,可見DenceNet各個(gè)層的充分連接帶來的強(qiáng)大擬合能力在此處反而使得模型忽略了少數(shù)樣本的特征。MobileNet更加簡(jiǎn)潔,因此效果更好,但是相較于ResNet更為強(qiáng)大的遷移學(xué)習(xí)能力,在少樣本上自然稍遜一籌。
本文探索了深度學(xué)習(xí)背景下的示功圖診斷方法,一方面將示功圖診斷作為圖像分類問題進(jìn)行建模;另一方面基于預(yù)訓(xùn)練的深度殘差網(wǎng)絡(luò)在示功圖分類上做遷移學(xué)習(xí),既提高了模型的精度,也減少了訓(xùn)練對(duì)大量樣本的依賴。實(shí)驗(yàn)表明,該方法簡(jiǎn)潔有效,具有較強(qiáng)的實(shí)用性。
在未來的工作中,將重點(diǎn)研究示功圖故障樣本不平衡問題,尤其是少樣本示功圖的處理方法,嘗試結(jié)合數(shù)據(jù)挖掘等方法進(jìn)一步提高少樣本故障的檢測(cè)精度。