国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于長短期記憶神經網絡的深水鉆井工況實時智能判別模型

2022-07-06 06:30殷啟帥楊進曹博涵龍洋陳柯錦范梓伊賀馨悅
石油鉆采工藝 2022年1期
關鍵詞:錄井集上正確率

殷啟帥 楊進 曹博涵 龍洋 陳柯錦 范梓伊 賀馨悅

1. 中國石油大學(北京);2. 中國石化集團經濟技術研究院有限公司;3. 浙江工業(yè)大學

鉆井工況是指現場鉆井作業(yè)中的某一特定操作工序,包括接單根、起下鉆、倒劃眼、循環(huán)鉆進等典型工況。深水鉆井具有高投入、高風險等特點,對鉆井時效與復雜事故率提出了更高要求,而深水鉆井工況實時判別是提高鉆井時效、減少復雜事故的基礎和前提。傳統(tǒng)深水鉆井作業(yè)中,鉆井工況主要通過基于編程方式的物理模型與經驗模型進行判別,由于各個監(jiān)測參數之間存在極其復雜的高度非線性映射關系,難以保證判別時效性和正確率。而機器學習方法可以從高維度擬合不同監(jiān)測參數之間的非線性映射關系,并且是一個“黑盒子”,不需要明確的編程語言[1],就可以有效地完成特定的模式判別任務,筆者將機器學習方法應用于深水鉆井工況智能判別。但受鉆井長循環(huán)遲到時間影響,鉆井工況由當前時刻以及其前后一段時間區(qū)間的數據共同決定,使得鉆井工況判別具有長時間序列特征。

隨著錄井傳感器技術的快速發(fā)展,綜合錄井儀獲取了海量高品質綜合錄井數據,為基于人工神經網絡的鉆井工況智能判別提供了數據基礎[2-5]。近年來,計算機性能與云計算能力的提升,進一步提高了機器學習在石油工業(yè)的應用前景[6],機器學習己經成為石油工程領域模式判別的有力工具[7]。

利用綜合錄井數據進行鉆井工況判別是近年來國內外學者的研究熱點和難點。2018年,Qishuai Yin等[8]通過編程語言為綜合錄井參數設定判斷條件進行鉆井工況判別,并進行了不可見非生產時間(Invisible Non-Production Time, INPT)統(tǒng)計分析,通過對鉆井人員績效評估提高了鉆井作業(yè)效率,為鉆井作業(yè)節(jié)省了作業(yè)時間和工程投資,實現了降本增效。2019年,孫挺等[9]提出了基于支持向量機(Support Vector Machine, SVM)的鉆井工況判別方法,建立了多個智能判別模型,得出了模型參數的最優(yōu)值。A. Arnaout等[10]建立了基于離散多項式的數學模型,用于鉆井工況特定模式判別,預測結果與人工分類比較,顯示該方法具有較高的準確性。2019年,Yuming Ben等[11]指出由于頂驅的振動很 難 簡 單 根 據 井 口 頂 驅 轉速(Rate per Minute,RPM)判別“旋轉鉆進”與“滑動鉆進”,提出采用隨 機 森林(Random Forest, RF)、卷 積 神 經 網 絡(Convolutional Neural Network, CNN)和混合卷積神經網絡/循環(huán)神經網絡(Convolutional Neural Network/Recurrent Neural Network, CNN/RNN)判別“旋轉鉆進”與“滑動鉆進”,結果表明機器學習模型遠優(yōu)于基于規(guī)則的模型,CNN的判別正確率在90%以上。2020年,Qishuai Yin等[12]利用誤差反向傳播神經網絡(Backpropagation Neural Network, BP)建立了新型的鉆井工況智能判別機器學習模型,并有效評價了鉆井時效,在海上淺水批鉆作業(yè)中得到成功應用,鉆井時效提高了31.19%。

盡管近年來學者們嘗試建立了一些基于機器學習的鉆井工況判別模型,但上述模型均未考慮綜合錄井數據的長時間序列特性,導致模型較高的誤報率。筆者利用綜合錄井數據建立了基于長短期記憶循環(huán)神經網絡(Long Short-Term Memory Recurrent Neural Network, LSTM-RNN)的鉆井工況實時智能判別機器學習模型。由鉆頭深度、井深、大鉤高度、鉆壓、懸重、扭矩、轉速、立管壓力等8個綜合錄井參數作為輸入特征向量,鉆井工況作為輸出向量,實現了旋轉鉆進、滑動鉆進、接單根、靜止、循環(huán)、向下洗井、劃眼、向上洗井、倒劃眼、起鉆、下鉆、其他(其余深水綜合錄井數據對應鉆井工況均標記為“ 其他”)等12種鉆井工況的智能判別。

1 神經網絡優(yōu)選及模型性能評價指標

人工神經網絡是一種基于數值計算的知識處理系統(tǒng),是一種靈感來源于人類神經元網絡的機器學習模型,由許多簡單處理單元相互連接而形成的復雜網絡[13-14]。實現鉆井工況智能判別的首要任務是根據樣本集數據特征選擇最佳的神經網絡算法,再選用正確率、精度、召回率和F1分數等評價指標評估機器學習模型的分類判別性能。

1.1 鉆井工況智能判別神經網絡優(yōu)選

基于鉆井工況智能判別的長時間序列特征,對常見的3種神經網絡算法進行結構剖析與原理對比分析,為鉆井工況智能判別提供算法基礎。

BP神經網絡應用廣泛[15-19],其隱藏層輸出僅取決于當前時間步的輸入特征,與在當前時間步之前的數據特征無關??梢夿P網絡不適合處理時間序列問題,更不適合處理長時間序列特征的鉆井工況判別問題。

RNN神經網絡是使用深度學習處理時序問題最常用的模型之一,因為其在時間步t時會將t?1時間步的隱藏層節(jié)點作為當前時間步的輸入,因此在處理時序數據上有著優(yōu)異的表現[20]。但由于RNN是一個鏈式結構,每個時間步使用的是相同的參數,導致在訓練時會遇到梯度消失的問題,甚至梯度會收斂到0(梯度消失),使得RNN普遍存在“長期依賴”問題,即在時間間隔不斷增大時,RNN喪失了學習到遠處時刻的信息的能力[21-22]。因此,RNN網絡不適合處理長時間序列特征的鉆井工況智能判別問題。

1997年,Hochreiter和Schmidhuber[23]提出了LSTM-RNN神經網絡,并證明了LSTM網絡具有記憶長短時信息的能力,可以有效解決RNN的長期依賴問題。近年來,LSTM神經網絡獲得快速發(fā)展,并在石油工程領域得到了成功應用。2019年,Lee等[24]使用LSTM算法成功預測了頁巖氣產量。

LSTM之所以能夠解決RNN的長期依賴問題,是因為LSTM引入了遺忘門ft、輸入門it、輸出門ot來控制特征的流通和損失,LSTM展開的鏈式結構如圖1所示。

圖1 展開的長短期記憶循環(huán)神經網絡Fig. 1 Expanded LSTM-RNN

圖1中,上方從左到右貫穿的長直線使得所學知識在上面直接傳遞而不輕易發(fā)生改變,從而使得LSTM網絡具有了“長”記憶,解決了RNN的“長依賴”問題。“短期記憶”ht與 “長期記憶”ct的聯合使用使得LSTM具有在長時間序列上學習“短期”模式與“長期”模式。當長期單元狀態(tài)ct通過神經網絡時,遺忘門ft“遺忘(刪除)”部分記憶信息,輸入門it“輸入(添加)”部分記憶信息,最后經過輸出門ot處理輸出結果。

通過剖析BP、RNN與LSTM神經網絡結構,考慮綜合錄井數據長時間序列特性,優(yōu)選了擅于學習時間序列信息且可以處理長期相關性的LSTM神經網絡作為鉆井工況智能判別的最優(yōu)算法。

1.2 分類判別機器學習模型性能評價指標

通常需要評估機器學習模型的泛化誤差,選擇泛化誤差最小的模型,因此,需要使用測試集來測試模型的分類判別能力,并使用測試集的測試誤差作為泛化誤差的近似。本文采用了4個評價指標,正確率(Accuracy)、精度(Precision)、召回率(Recall)和F1分數(F1-score)[12]。

結合實際類別和模型預測類別進行分類,二分類的混淆矩陣如表1所示,多分類的混淆矩陣如圖2所示,其中TP為真陽性,FP為假陽性,TN為真陰性,FN為假陰性。

圖2 多分類問題的混淆矩陣Fig. 2 Confusion matrix of multi-classification problem

表1 二分類結果的混淆矩陣Table 1 Confusion matrix of binary classification result

不同指標直接反映了分類判別的性能?!罢_率”是最常見的評價標準,即被正確分類的樣本數除以樣本總數。對于均衡分類問題,通常正確率越高,分類器越好。“精度”和“召回率”是一對矛盾的衡量標準?!熬取笨梢苑从衬骋活悳y試樣本,有多少預測是正確的,有多少預測是不正確的?!?召回率”顯示了某一類預測結果中有多少預測是正確的?!癋1分數”是精度和召回率的調和平均值。

2 樣本集數據分析與處理

由于采集的綜合錄井數據不可避免地具有一些冗余,因此基于錄井參數的重要性開展輸入向量降維處理是非常必要的。此外,數據清理與數據標記是監(jiān)督式學習(Supervised learning)和建立預測分類模型的基本環(huán)節(jié)。最終,按照合理的比例將樣本集分為訓練集與測試集。

2.1 綜合錄井數據的輸入特征向量選取

以綜合錄井參數作為神經網絡模型建立的輸入向量,通過隱藏層一系列非線性變換,得到了在輸出層中不同鉆井工況的概率。所有預測的鉆機工況中,概率最大的工況就被判定為當前預測的工況。由于綜合錄井參數繁多,如果將所有參數作為獨立輸入特征向量,神經網絡系統(tǒng)將是巨大的(輸入特征冗余)。因此,憑借現場專家經驗(先驗知識)與筆者實習經歷,根據各個錄井參數對鉆井工況識別的重要性影響程度,減少對綜合錄井參數的選取來降低輸入向量的維度。2018年,Yin Qishuai等[8]證實采用最常用、最重要的8個綜合錄井參數(實時鉆頭深度、井的測深、大鉤高度、鉆壓、懸重、扭矩、轉速和立管壓力)足夠判別旋轉鉆進、滑動鉆進、接單根、靜止、循環(huán)、向下洗井、劃眼、向上洗井、倒劃眼、起鉆、下鉆和“其他”等12種鉆井工況。因此,本節(jié)的LSTM網絡由上述8個綜合錄井參數作為輸入特征向量,上述12種鉆井工況作為輸出向量。

2.2 樣本集統(tǒng)計分析

來自多個傳感器的高速率時間序列數據流被綜合錄井儀采集,頻率是1 Hz(每秒采集一次),用于工況判別的樣本集如表2所示。

表2 樣本數據集統(tǒng)計分析Table 2 Statistical analysis of sample data set

每個鉆井時刻對應的鉆井工況作為網絡訓練的輸出,但在綜合錄井數據集中無法獲得鉆井工況狀態(tài)。因此,模型訓練前必須參考鉆井日報手動標記鉆井工況。用于分類任務的12個鉆井工況的數據分布與數據標簽見表3,可見滑動鉆進、靜止、向下洗井3種鉆井工況的數據量分布小于5%,屬于不均衡分類問題,后續(xù)需分析召回率(Recall)。

表3 12種鉆井工況的數據量分布和獨熱碼Table 3 Data bulk distribution and one-hot code of 12 conditions

本節(jié)所用的深水綜合錄井數據樣本集總數為29856140行,其中75%為訓練集,25%為測試集。11種典型鉆井工況的人工標定法則見表4,其余深水綜合錄井數據對應鉆井工況標記為“其他”。

表4 11種典型鉆井工況的標記規(guī)則Table 4 Marking rule of 11 typical drilling conditions

3 長短期記憶神經網絡設計

3.1 長短期記憶神經網絡隱藏層設計

輸入層和輸出層的神經元數目分別等于輸入特征(綜合錄井參數)和輸出特征的數目。神經網絡的隱藏層與每層節(jié)點個數至關重要但難以確定。通常,隱藏層越多,節(jié)點越多,預測的正確率越高,甚至可接近100%。但這樣會導致“過擬合”問題,對測試集預測效果降低。實際應用中,使用最多的是具有10~30隱藏層的神經網絡模型。本文測試了具有10、20、30隱藏層的神經網絡模型,每個隱藏層的神經元數在10~100之間,共測試了30個LSTM模型,從圖3結果可以看出,20隱藏層×70節(jié)點的神經網絡測試集上正確率最高,高達94.09%。因此,最終選定了20隱藏層×70節(jié)點神經網絡,其結構如圖4所示。LSTM模型的超參數結構細節(jié)見表5。

表5 最佳LSTM模型的超參數和網絡結構Table 5 Super parameter and network structure of optimal LSTM model

圖3 不同隱藏層及節(jié)點的LSTM測試集上的正確率Fig. 3 Accuracy on LSTM test set at different hidden layers and nodes

圖4 基于LSTM的鉆井工況智能判別模型Fig. 4 LSTM based intelligent drilling condition recognition model

3.2 移動窗口長度設計

現場實際作業(yè)中,由于傳感器采集到的綜合錄井數據的波動,導致鉆井工況判別結果不穩(wěn)定,甚至產生不可控的誤差。例如,有時會在短短30 s之內判別出多種鉆井工況,這顯然是不現實的也是錯誤的。移動窗口(Moving Window,MW)被引入來“ 平滑”處理預測結果,以避免由于輸入數據的震蕩波動導致的預測誤差。因此,當前的鉆井工況不僅僅是由當前的數據點決定的,也是由在該點之前的MW?1個數據點綜合決定的,當前數據點的實際鉆井工況是在整個移動窗口期間中頻率最高的工況。此外,該移動窗口以數據采集的速率(本文1 Hz)往前移動,以執(zhí)行下一數據點的鉆井工況判別。本文中,移動窗口長度從10至60,每“5”間隔分別進行測試,結果如圖5所示,可見正確率從10至30增加,從30至60開始減少。因此,最終數據窗口的長度選為30,符合現場作業(yè)要求。

圖5 不同移動窗口長度的LSTM網絡測試集上正確率Fig. 5 Accuracy on LSTM test set at different moving window lengths

4 長短期記憶神經網絡訓練及性能評估

4.1 長短期記憶神經網絡學習訓練過程

使用圖4和表5所示的神經網絡結構,采用5-折交叉驗證,每次訓練持續(xù)100次迭代,LSTM網絡通過Adam優(yōu)化算法進行訓練,然后計算評價指標。

不同迭代的正確率(Accuracy)與損失(Loss)如圖6所示,可看出在100次迭代過程中,訓練集上和測試集上的正確率都顯著提高,最后訓練集與測試集的正確率分別為95.41%和94.09%,損失分別為0.00015和0.000193。在迭代訓練過程中,訓練集上的正確率與損失,與測試集趨勢是一致的,充分證明該模型“過擬合”不顯著,泛化能力較好。

圖6 迭代過程正確率與損失Fig. 6 Accuracy and loss of iterative process

4.2 長短期記憶神經網絡混淆矩陣

利用混淆矩陣展示LSTM網絡總體性能指標,結果如圖7和表6、7所示。圖7中水平坐標與垂直坐標分別表示預測的與實際的上述12種鉆井工況的結果。圖7(a)和表6所示訓練集上滑動鉆進、靜止、向下洗井3種鉆井工況的召回率(Recall)分別高達0.94、0.95、0.96;從圖7(b)和表7可看出,測試集上的該3種鉆井工況的召回率(Recall)分別為0.93、0.95、0.94,雖然較在訓練集上略有降低,但仍然較高(大于0.93)。整體上,神經網絡的正確率很高,且訓練的LSTM網絡在測試集上具有很好泛化能力。此外,完成一個樣本的預測時間不到50 ms,遠小于實時數據采集頻率(1 Hz),實現了“實時”判別,為LSTM模型部署并應用于實時鉆井數據的工況判別提供了時效保障,如此迅速的運算速度,符合工程實際情況,滿足鉆井工程的需要。

表6 訓練集上的LSTM網絡性能指標Table 6 LSTM performance indicator of training set

表7 測試集上的LSTM網絡性能指標Table 7 LSTM performance indicator of test set

圖7 LSTM網絡的混淆矩陣Fig. 7 Confusion matrix of LSTM

5 結論

(1) 開展了BP、傳統(tǒng)RNN、LSTM網絡3種算法的結構深度剖析與算法原理對比分析,LSTM網絡展現了在處理長時間序列高維度非線性復雜映射關系的獨特優(yōu)勢,為深水鉆井工況實時智能判別提供了算法基礎。

(2) 由8個綜合錄井參數(鉆頭深度、井深、大鉤高度、鉆壓、懸重、轉速、扭矩和立管壓力)作為輸入特征向量,建立了20隱藏層×70隱節(jié)點的LSTM網絡模型,實現了旋轉鉆進、滑動鉆進、接單根、靜止、循環(huán)、向下洗井、劃眼、向上洗井、倒劃眼、起鉆、下鉆和“其他”等12種典型鉆井工況的實時智能判別,測試集上的精度達到94.09%,為后續(xù)鉆井時效分析和復雜事故預警提供了機器學習模型基礎。

(3) 提出了基于長短期記憶神經網絡的深水鉆井工況實時智能判別全流程,為研究深水鉆井過程中其他分類問題提供了借鑒,并鼓勵讀者在類似研究中借鑒本文的研究思路。

猜你喜歡
錄井集上正確率
大牛地氣田奧陶系碳酸鹽巖元素錄井特征分析
個性化護理干預對提高住院患者留取痰標本正確率的影響
GCD封閉集上的冪矩陣行列式間的整除性
對如何提高錄井工程經濟效益的思考
基于互信息的多級特征選擇算法
門診分診服務態(tài)度與正確率對護患關系的影響
生意
淺談錄井技術現狀及發(fā)展方向
生意
師如明燈,清涼溫潤