摘 要:海洋平臺壓力容器在運行中承受較大的工作載荷,服役環(huán)境復(fù)雜,常出現(xiàn)裂紋、腐蝕等失效問題,常用超聲波測厚無損檢測技術(shù)對設(shè)備服役狀況進行定期檢測。本文采用機器學(xué)習(xí)算法構(gòu)建設(shè)備壁厚預(yù)測模型,基于歷史檢測數(shù)據(jù)實現(xiàn)海上壓力容器減薄情況的預(yù)測功能。經(jīng)樣本數(shù)據(jù)的特征工程處理,以容器壁厚作為模型預(yù)測目標(biāo),設(shè)計溫度、工作壓力、容器類型等基礎(chǔ)數(shù)據(jù)作為輸入,對模型進行訓(xùn)練及測試。結(jié)合模型預(yù)測性能的評估及調(diào)參處理,獲取預(yù)測評價指標(biāo)較優(yōu)的XGBoost模型。該模型能夠為設(shè)備狀態(tài)的評估及風(fēng)險策略提供指導(dǎo)作用,對海洋平臺的安全生產(chǎn)具有重要意義。
關(guān)鍵詞:壓力容器;壁厚預(yù)測;XGBoost模型
中圖分類號:TE 951 文獻標(biāo)志碼:A
海上壓力容器是海洋石油平臺的重要設(shè)備,分為存儲類、換熱類、分離類和反應(yīng)類。由于海洋環(huán)境的特殊性及運行條件的復(fù)雜性,海上平臺壓力容器的損傷及失效風(fēng)險增加。為提高其穩(wěn)定運行能力,需要定期進行超聲波測厚等無損檢測技術(shù)指導(dǎo)維修或更換,確保設(shè)備穩(wěn)定運行[1]。隨著計算機及通信技術(shù)進步,特種設(shè)備檢驗檢測行業(yè)迎來轉(zhuǎn)型升級的關(guān)鍵期。人工智能在機器學(xué)習(xí)、知識圖譜、人機交互等技術(shù)上不斷突破,具有廣闊的研究及應(yīng)用前景[2]。本文基于壓力容器設(shè)備檢測的歷史數(shù)據(jù),結(jié)合XGBoost、LightGBM、Random Forest等機器學(xué)習(xí)算法構(gòu)建預(yù)測模型,實現(xiàn)容器壁厚或減薄率的精準(zhǔn)預(yù)測,提升設(shè)備運維的智能化水平。研究結(jié)果對機器學(xué)習(xí)預(yù)測算法的應(yīng)用及不同類型容器壁厚的準(zhǔn)確評估具有指導(dǎo)意義。
1 數(shù)據(jù)處理及準(zhǔn)備
1.1 數(shù)據(jù)來源及數(shù)據(jù)文件解析
本研究主要基于同一年份不同類型的壓力容器設(shè)備年度檢驗數(shù)據(jù),通過數(shù)據(jù)清洗及處理,引進數(shù)據(jù)統(tǒng)計和分析技術(shù),并結(jié)合機器學(xué)習(xí)智能算法,完成容器設(shè)備壁厚的預(yù)測工作。其中,對Excel格式數(shù)據(jù)文件進行解析,獲取用于訓(xùn)練的數(shù)據(jù),運用Python的工具Pandas讀入Excel格式文件,將處理后的數(shù)據(jù)保存為csv格式并進行數(shù)據(jù)引入。
1.2 數(shù)據(jù)預(yù)處理及數(shù)據(jù)特征工程
基于壓力容器的基礎(chǔ)數(shù)據(jù)信息進行預(yù)處理,避免因數(shù)據(jù)未處理而導(dǎo)致數(shù)據(jù)信息紊亂、缺失、數(shù)據(jù)的邏輯不符等影響數(shù)據(jù)分析的問題,主要包括數(shù)據(jù)清洗、數(shù)據(jù)歸一化等。采用正則表達式并制定判定規(guī)則,對數(shù)據(jù)進行清洗及特征構(gòu)建,保證數(shù)據(jù)信息的一致性,提高建模的收斂速率和精度。對需要使用的特征進行篩選,利用頻率統(tǒng)計篩選包括信息量過少、數(shù)據(jù)缺失量較大特征及取值單一的特征,當(dāng)樣本空值特征占比大于30%時,去除該樣本數(shù)據(jù)。
針對模型訓(xùn)練和測試開展的數(shù)據(jù)特征工程主要包括以下3個方面的內(nèi)容。1)直接特征?!肮ぷ鳒囟取?,采用正則方式對溫度的數(shù)值進行提取及標(biāo)準(zhǔn)處理。針對含管程與殼程的換熱類設(shè)備進行組合及劃分,提取溫度的個數(shù),針對“常溫”等具有含義的內(nèi)容,將其轉(zhuǎn)換為數(shù)據(jù);“工作壓力”,與工作溫度特征提取流程一致,對“量綱”進行處理,例如統(tǒng)一壓力單位量級;“腐蝕余量”,分析其數(shù)據(jù)模式并取數(shù)字中最小值作為特征;“設(shè)計壽命”,運用3sigma原理進行過濾;“公稱容積”、“內(nèi)徑”,直接提取各值;“制造日期”、“投產(chǎn)日期”,統(tǒng)一為年月格式,“投產(chǎn)月數(shù)”為“投產(chǎn)日期”減去“制造日期”,經(jīng)Excel對日期進行特征處理及提取。2)類別型特征。篩選可進行onehot的特征,例如殼體材質(zhì)、容器類型、油田群、系統(tǒng)名稱,對取值進行規(guī)范化處理,即對描述同一內(nèi)容而使用了不同表達的特征值進行處理,并對數(shù)量過少的類型用“其他”代替。3)檢測數(shù)據(jù)處理。針對“厚度”進行數(shù)據(jù)處理,設(shè)置代碼通過厚度計算的方式獲得“減薄量”,即名義厚度減去實測厚度。
2 預(yù)測模型的建立
2.1 基于機器學(xué)習(xí)算法構(gòu)建預(yù)測模型
結(jié)合機器學(xué)習(xí)算法模型的應(yīng)用及要求,其運行機制主要基于檢驗數(shù)據(jù)的格式和數(shù)據(jù)結(jié)構(gòu),對預(yù)測模型進行設(shè)計、訓(xùn)練和測試等,以達到設(shè)備壁厚預(yù)測的目標(biāo)。綜合考慮數(shù)據(jù)類型、模型效果和運行效率,選擇機器學(xué)習(xí)中的XGBoost、LightGBM、Random Forest集成模型[3-5]。其中,LightGBM主要基于決策樹學(xué)習(xí)算法,其分支為測試的輸出,葉節(jié)點為各個類別,按葉子(leaf-wise)生長的策略,即按照最大分裂增益為葉子節(jié)點進行分裂計算,每個樣本通過變量進行樹結(jié)構(gòu)的映射;XGBoost采用極端層次增強方法,基于梯度增強決策樹,以優(yōu)化目標(biāo)函數(shù)值為主的改進算法,每棵樹(函數(shù))逐次添加,樹與樹之間串行,可在同一級結(jié)點并聯(lián),分離結(jié)點的增益以多線程方式并行;Random Forest為集成學(xué)習(xí)算法,參數(shù)以強學(xué)習(xí)器最大迭代次數(shù)、隨機發(fā)生器種子數(shù)、最大特征數(shù)等為主,經(jīng)抽樣集成多顆決策樹優(yōu)化模型,基于多個決策樹模型的融合,提高其擬合能力。
在選擇對應(yīng)的集成模型架構(gòu)后,針對同一數(shù)據(jù)集樣本進行劃分,隨機選取上述結(jié)構(gòu)化及處理后的數(shù)據(jù)中的80%作為訓(xùn)練集,20%作為測試集。以容器測厚作為模型預(yù)測目標(biāo),其他基礎(chǔ)特征作為模型輸入,模型提取特征后分別進行訓(xùn)練和測試,結(jié)合模型預(yù)測精度的評估結(jié)果進行優(yōu)化,達到精度要求后保存最優(yōu)模型,以此實現(xiàn)容器設(shè)備壁厚的機器學(xué)習(xí)回歸預(yù)測模型的構(gòu)建。
2.2 模型預(yù)測性能評估
本研究主要采用評估模型的預(yù)測性能方法,包括均方誤差mse、平均絕對誤差mae、平均相對誤差mre、決策系數(shù)r2、皮爾遜相關(guān)系數(shù)pearson。對結(jié)果進行處理后,采用適用于分類任務(wù)的評價指標(biāo),包括準(zhǔn)確率accuracy、精準(zhǔn)率precision、召回率recall、精準(zhǔn)率與召回率的調(diào)和均值f1、正例排在負(fù)例前的概率auc等評估模型整體的預(yù)測趨勢,以全方位評估模型效果。經(jīng)過對3種模型的訓(xùn)練及結(jié)果驗證,計算各個模型的均方根誤差損失,在運行效率滿足的條件下,選擇損失得分較小的模型進行應(yīng)用。
對各設(shè)備測量部位不同測厚電位的減薄量進行匯總統(tǒng)計,以減薄量的均值作為預(yù)測特征值。通過分類指標(biāo)對預(yù)測模型進行評估,不同預(yù)測模型的評價結(jié)果值見表1。經(jīng)比對,綜合分析XGBoost模型的均方誤差、平均絕對誤差評價指標(biāo)值相對較小,r2較接近1,表明XGBoost模型的預(yù)測性能較優(yōu),選用XGBoost模型進行進一步調(diào)參優(yōu)化。
2.3 XGBoost模型優(yōu)化
為提高模型的準(zhǔn)確性,對該機器學(xué)習(xí)模型進行調(diào)優(yōu),并降低過擬合,使模型預(yù)測性能最大化。對learning_rate(學(xué)習(xí)率)、max_depth(數(shù)的最大深度)、min_child_weights(最小葉子節(jié)點樣本權(quán)重)、num_leaves(決策樹葉子數(shù)量)等進行調(diào)整,提高準(zhǔn)確率,其他參數(shù)為默認(rèn)值。經(jīng)模型調(diào)參后,XGBoost模型的mse最小值為0.7491,此時的模型預(yù)測性能達到最優(yōu),即對應(yīng)的最優(yōu)參數(shù)如下:max_depth=9,min_child_weight=1,n_estimators=200,colsample_bytree=0.7,learning_rate=0.07。
對優(yōu)選的模型參數(shù)進行K折交叉驗證,以進一步對模型參數(shù)進行調(diào)優(yōu),主要將數(shù)據(jù)集分割為K個子集,經(jīng)K-1折作為訓(xùn)練數(shù)據(jù),對模型進行訓(xùn)練后,對數(shù)據(jù)的剩余1折做驗證,使各樣本均有一次機會進行驗證。如圖1所示,表現(xiàn)了10折交叉驗證結(jié)果,相關(guān)評價指標(biāo)的查準(zhǔn)率(Precision)為70%~80%,查全率(Recall)為50%~60%,F(xiàn)1-Score為70%~75%。整體來說,相關(guān)指標(biāo)較高并且較穩(wěn)定,驗證XGBoost模型能夠用于容器類設(shè)備減薄情況的預(yù)測。
2.4 結(jié)果與分析
2.4.1 容器厚度及預(yù)測差異的影響分析
不同類型容器的厚度差異較大,部分厚度較大的容器其誤差相對較大,圖2展示了不同厚度組別所對應(yīng)統(tǒng)計的減薄量均值情況。由圖2可知,厚度越大的分組所出現(xiàn)增厚的可能性越大(減薄量為負(fù)值表示增厚)。查看減薄量差異較大的樣本數(shù)據(jù)部分,減薄量預(yù)測值或真實值過大均會造成誤差偏大的情況。
同時,對厚度差異過大的樣本中存在不合理的數(shù)值進行篩選,并刪除平均測量厚度小于1的樣本數(shù)據(jù),處理后經(jīng)10折交叉驗證,并對比前后結(jié)果,如圖3中XGBoost(去除異常)顯示,mse明顯降低。
此外,當(dāng)容器厚度大于43時,減薄量數(shù)值變化明顯,通過去除厚度過大的容器,保留99分位數(shù)(43)以內(nèi)的厚度樣本,并對數(shù)據(jù)集進行預(yù)測,結(jié)果顯示mse指標(biāo)略有提升。為了避免出現(xiàn)預(yù)測值過大的可能,刪除真實減薄值過大的樣本,以降低偏差,經(jīng)篩選發(fā)現(xiàn)數(shù)據(jù)中僅有1條數(shù)據(jù)減薄量大于5并達10以上,將其刪除后,預(yù)測結(jié)果mse有所提升(如圖3所示)。
2.4.2 厚度分段建模及效果分析
由于隨著容器厚度增加,減薄量方差變大,考慮厚度較大的容器樣本可能會對較小厚度樣本的預(yù)測產(chǎn)生負(fù)面影響,因此選用容器厚度為43以內(nèi)的數(shù)據(jù)樣本進行容器厚度分段建模,即通過選擇50分位數(shù)(12),對厚度小于12和大于等于12的樣本分別建模。分析得知,厚度小于12時,建模進行預(yù)測后的mse指標(biāo)值約為0.336,當(dāng)厚度大于12時,預(yù)測指標(biāo)mse變大,約為0.685。由此表明,厚度大的樣本對厚度小的樣本的預(yù)測可能產(chǎn)生干擾。
2.4.3 特征優(yōu)化
由于厚度分組后對模型的預(yù)測結(jié)果影響較大,因此在特征中增加“設(shè)計厚度”。將增加“設(shè)計厚度”特征后預(yù)測模型的評價指標(biāo)值(mse2)與原結(jié)果(mse1)進行對比,見表2。
經(jīng)對比以上結(jié)果可知,一方面,增加設(shè)計厚度特征后各組中的mse結(jié)果大多數(shù)呈下降的趨勢,表明模型預(yù)測效果有所提升。另一方面,各項措施趨勢基本與原有試驗結(jié)果一致,驗證預(yù)測效果提升并非隨機。因此,增加“設(shè)計厚度”特征后,對比分析評價指標(biāo),其預(yù)測性能獲得了相對全面的提升。
2.4.4 結(jié)果分析
經(jīng)比對,使用該XGBoost模型對容器設(shè)備減薄的預(yù)測值與真實值進行誤差分析(如圖4所示),根據(jù)預(yù)測誤差的分布情況得知,該XGBoost模型預(yù)測的誤差符合正態(tài)分布,獲得的模型可用于相關(guān)場景的預(yù)測并有較好的效果。
3 結(jié)語
本文基于海上壓力容器超聲測厚檢測檢驗數(shù)據(jù)集,選取設(shè)備對象的基礎(chǔ)數(shù)據(jù)及檢測數(shù)據(jù)特征進行數(shù)據(jù)處理,使用XGBoost機器學(xué)習(xí)算法建立容器類設(shè)備壁厚預(yù)測模型,運用評價指標(biāo)對模型預(yù)測性能進行分析評估,并對模型進行優(yōu)化調(diào)參。結(jié)果表明,本文測得XGBoost算法比另外2種機器學(xué)習(xí)模型的預(yù)測性能更高,模型經(jīng)調(diào)參優(yōu)化后,準(zhǔn)確率及查準(zhǔn)率均有提升。通過分析容器本身的厚度以及預(yù)測減薄量的差異等情況對模型預(yù)測效果產(chǎn)生偏差的影響,分別對容器厚度進行分段模型預(yù)測,厚度小的模型的預(yù)測效果比厚度大的模型好,并且采用對厚度預(yù)測特征的數(shù)據(jù)處理及設(shè)計厚度特征的增加的方式,方差減小,預(yù)測效果全面提升。該模型用于容器類設(shè)備壁厚的預(yù)測誤差符合正態(tài)分布,具有較好的應(yīng)用效果。本文模型后續(xù)將嘗試積累更多不同類型容器數(shù)據(jù),并對介質(zhì)進行分類及采集,擴展應(yīng)用范圍,對XGBoost模型進行進一步更新訓(xùn)練,并嘗試引入神經(jīng)網(wǎng)絡(luò)算法對容器類設(shè)備壁厚進行預(yù)測及優(yōu)化。
參考文獻
[1]紀(jì)玉磊.探究海上壓力容器腐蝕檢測技術(shù)[J].中國石油和化工標(biāo)準(zhǔn)與質(zhì)量,2023,43(1):57-59.
[2]李奇,牟善軍,姜巍巍,等.海上石油平臺定量風(fēng)險評估[J].中國海洋平臺,2007,22(6):38.
[3]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[4]BREIMAN L.Randomforests[J].Machine learning,2001,45(1):5-32.
[5]CHEN T,HE T,BENESTY M,etal.Xgboost:extreme"gradient boosting[J].R package version 0.4-2,2015,1(4):1-4.