趙君 寇俊輝 胡燦 張軻
(1.中石化石油機(jī)械股份有限公司武漢江鉆天然氣分公司 武漢 430223;2.中國(guó)地質(zhì)大學(xué)(武漢) 武漢 430074)
天然氣作為一種清潔高效的能源,在我國(guó)能源體系中占據(jù)著十分重要的地位。據(jù)國(guó)家統(tǒng)計(jì)局發(fā)布的報(bào)告顯示,2020年我國(guó)天然氣產(chǎn)量為1 888.5億m3,比上年增長(zhǎng)9.8%,連續(xù)4年增產(chǎn)超過100億m3[1]。同時(shí),天然氣屬于易燃易爆的介質(zhì),天然氣加氣站也屬于高風(fēng)險(xiǎn)場(chǎng)所,因此天然氣加氣站風(fēng)險(xiǎn)預(yù)警研究對(duì)保障加氣站及周邊設(shè)施的安全起到至關(guān)重要的作用。
近年來,隨著人工智能技術(shù)的蓬勃發(fā)展,基于人工智能的機(jī)器學(xué)習(xí)算法日漸成熟,且不需要人的交互,能自動(dòng)獲取信息并實(shí)時(shí)發(fā)布以防止重大或嚴(yán)重?fù)p壞,具有成本低、功耗低、信息可靠等優(yōu)勢(shì)[2]。因此,國(guó)內(nèi)外眾多學(xué)者對(duì)其在預(yù)警方面的應(yīng)用展開了廣泛研究。孫德亮[3]提出了基于機(jī)器學(xué)習(xí)的區(qū)域滑坡災(zāi)害預(yù)警模型的構(gòu)建方法;胡安冬等[4]在機(jī)器學(xué)習(xí)的理論與基礎(chǔ)上,設(shè)計(jì)訓(xùn)練出了一套用于常見震級(jí)范圍的機(jī)器學(xué)習(xí)震級(jí)預(yù)估模型;SPYRIDIS P等[5]建立了混凝土扣件系統(tǒng)拉伸斷裂能力的預(yù)測(cè)模型;劉燮鵬[6]對(duì)移動(dòng)基站設(shè)備故障預(yù)警系統(tǒng)的需求分析、設(shè)計(jì)、功能實(shí)現(xiàn)作了詳細(xì)的闡述;王曉春等[7]通過對(duì)大量數(shù)據(jù)的收集分析,提出了一種智能化故障預(yù)測(cè)系統(tǒng),這種系統(tǒng)可以利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法發(fā)現(xiàn)潛在故障。相較于傳統(tǒng)專家打分導(dǎo)向的風(fēng)險(xiǎn)預(yù)警數(shù)學(xué)模型,運(yùn)用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建的預(yù)警模型的通用預(yù)測(cè)能力較強(qiáng),能從數(shù)據(jù)中學(xué)習(xí)到隱藏的模式,找到更深層次的規(guī)律[8-9]。結(jié)合信息采集系統(tǒng),可以更加便捷地實(shí)現(xiàn)實(shí)時(shí)安全狀態(tài)的監(jiān)控和預(yù)警。隨著大數(shù)據(jù)技術(shù)的進(jìn)步,預(yù)警模型在實(shí)際應(yīng)用過程中可以不斷更新優(yōu)化模型參數(shù),提高預(yù)警的準(zhǔn)確度。
目前,國(guó)內(nèi)還沒有將機(jī)器學(xué)習(xí)應(yīng)用到加氣站風(fēng)險(xiǎn)預(yù)警的研究。本文以CNG加氣站為研究對(duì)象,運(yùn)用機(jī)器學(xué)習(xí)技術(shù)和大數(shù)據(jù)理論,從風(fēng)險(xiǎn)預(yù)警指標(biāo)體系構(gòu)建、特征數(shù)據(jù)集采集與處理、加氣站預(yù)警模型構(gòu)建與優(yōu)化三大方面,系統(tǒng)闡述了構(gòu)建機(jī)器學(xué)習(xí)預(yù)警模型的方法,并運(yùn)用SMOTE算法解決了正負(fù)樣本不均衡的問題。結(jié)合CNG加氣站的生產(chǎn)和管理情況,構(gòu)建了基于機(jī)器學(xué)習(xí)技術(shù)的CNG加氣站風(fēng)險(xiǎn)預(yù)警模型,在將機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)應(yīng)用到天然氣加氣站風(fēng)險(xiǎn)預(yù)警方面做出了探索性研究。
通過查閱、匯總與分析加氣站近5年事故調(diào)查分析報(bào)告、相關(guān)文獻(xiàn)資料、天然氣加氣站安全評(píng)價(jià)報(bào)告等,從人員、設(shè)備設(shè)施、安全管理和環(huán)境安全四大因素[10-11]出發(fā),列出影響加氣站安全的若干指標(biāo),并在安全生產(chǎn)專家的指導(dǎo)下選取導(dǎo)致事故發(fā)生的高頻率指標(biāo),按照客觀化、可量化、可數(shù)字化管理的原則建立了加氣站風(fēng)險(xiǎn)預(yù)警指標(biāo)體系。
通過分析加氣站近5年的事故案例發(fā)現(xiàn),大多數(shù)事故的發(fā)生脫離不了人員因素,比如人員的管理不當(dāng)、違章操作等。在建立加氣站風(fēng)險(xiǎn)預(yù)警指標(biāo)體系時(shí),需要對(duì)加氣站人員情況進(jìn)行監(jiān)測(cè)。人員因素的指標(biāo)包括:
(1)員工技術(shù)水平達(dá)標(biāo)率:
(1)
式中,ra為技術(shù)水平達(dá)標(biāo)率;na為技術(shù)水平達(dá)標(biāo)人數(shù);Na為加氣站員工總?cè)藬?shù)。
(2)員工文化程度:
(2)
式中,rb為員工文化程度;nb為擁有高中及以上學(xué)歷人數(shù);Nb為加氣站員工總?cè)藬?shù)。有研究表明,企業(yè)員工文化程度越高,發(fā)生誤操作的概率越小,企業(yè)意外事故發(fā)生的可能性也越小[12-13]。
(3)員工遵守勞動(dòng)紀(jì)律率:
(3)
式中,rc為員工遵守勞動(dòng)紀(jì)律率;nc為加氣站違反勞動(dòng)紀(jì)律的人數(shù);Nc為加氣站員工總?cè)藬?shù)。
設(shè)備設(shè)施是生產(chǎn)作業(yè)活動(dòng)的工具,如果設(shè)備存在安全問題不能得到及時(shí)解決,將可能導(dǎo)致人員傷亡和財(cái)產(chǎn)損失,因此設(shè)備設(shè)施也是預(yù)警指標(biāo)需要考慮的重要因素。設(shè)備設(shè)施的指標(biāo)包括:
(1)壓縮設(shè)備綜合合格率:
(4)
式中,rd為壓縮設(shè)備綜合合格率;nd為加氣站存在問題的壓縮設(shè)備數(shù)量;Nd為加氣站壓縮設(shè)備總數(shù)量。
(2)安全距離達(dá)標(biāo)率:
(5)
式中,re為加氣站工藝設(shè)備與周邊環(huán)境的安全距離達(dá)標(biāo)率;ne為安全距離不達(dá)標(biāo)的工藝設(shè)備數(shù)量;Ne為加氣站工藝設(shè)備總數(shù)量?!镀嚰佑图託庹驹O(shè)計(jì)與施工規(guī)范》(GB 50156—2012)規(guī)定了加氣站工藝設(shè)備與公共建筑物、道路、生產(chǎn)廠房等的安全距離。
(3)加氣設(shè)備綜合合格率:
(6)
式中,rf為加氣設(shè)備綜合合格率;nf為加氣站存在問題的加氣設(shè)備數(shù)量;Nf為加氣站加氣設(shè)備總數(shù)量。
(4)消防設(shè)備完好率:
(7)
式中,rg為消防設(shè)備完好率;ng為加氣站中不合格的消防設(shè)備數(shù)量;Ng為加氣站消防設(shè)備總數(shù)量。
健全有效的安全管理制度是加氣站安全生產(chǎn)與運(yùn)行的基礎(chǔ)保障。加氣站安全管理不到位,很大程度上會(huì)增加事故發(fā)生的概率。安全管理因素指標(biāo)包括:
(1)安全培訓(xùn)教育合格率:
(8)
式中,rh為安全培訓(xùn)教育合格率;nh為加氣站員工按規(guī)定參與安全培訓(xùn)合格的人數(shù);Nh為加氣站員工總?cè)藬?shù)。
(2)安全規(guī)章制度落實(shí)率:
(9)
式中,ri為安全規(guī)章制度落實(shí)率;ni為已落實(shí)的安全規(guī)章制度數(shù)量;Ni為安全規(guī)章制度總數(shù)量。
(3)應(yīng)急預(yù)案與演練:
(10)
式中,rj為應(yīng)急預(yù)案與演練情況;nj為加氣站實(shí)際應(yīng)急演練情況;Nj為規(guī)定加氣站應(yīng)急演練情況。
(4)專業(yè)安全管理人員占有率:
(11)
式中,rk為專業(yè)安全管理人員占有率;nk為專業(yè)安全管理人員數(shù)量;Nk為加氣站員工總?cè)藬?shù)。
(5)落實(shí)安全檢查與隱患整改率:
(12)
式中,rl為落實(shí)安全檢查與隱患整改率;nl為已落實(shí)的安全檢查與隱患整改數(shù)量;Nl為安全檢查與隱患整改總數(shù)量。
環(huán)境因素也會(huì)影響加氣站的安全運(yùn)行。若工人崗位布局嚴(yán)重不適宜,會(huì)影響員工的情緒,對(duì)工人作業(yè)行為產(chǎn)生不良影響;雨雪雷電等惡劣天氣也會(huì)影響加氣站設(shè)備的正常運(yùn)行。本文選取崗位環(huán)境、周邊環(huán)境和自然環(huán)境作為預(yù)警指標(biāo),通過對(duì)加氣站實(shí)地調(diào)研或?qū)<抑笇?dǎo)打分獲得。
(1)崗位環(huán)境。崗位環(huán)境的好壞會(huì)直接影響員工的工作狀態(tài),太差的環(huán)境如嘈雜的作業(yè)環(huán)境、狹小的作業(yè)空間等,會(huì)使員工感到不適,增加誤操作的可能性,進(jìn)而引發(fā)事故。
(2)周邊環(huán)境。事故具有連鎖效應(yīng),如果加氣站的附近存在重要的公共建筑、人員密集場(chǎng)所,一旦加氣站發(fā)生事故影響到周邊,可能會(huì)擴(kuò)大事故造成的傷亡和損失。
(3)自然環(huán)境。加氣站所在地區(qū)的地質(zhì)條件、氣象條件,包括雷電、冰雹、澇災(zāi)等惡劣環(huán)境,都將影響加氣站的安全和正常運(yùn)行。
機(jī)器學(xué)習(xí)是目前實(shí)現(xiàn)人工智能的主要技術(shù),其應(yīng)用正逐漸推廣到各行各業(yè),機(jī)器學(xué)習(xí)模型的識(shí)別應(yīng)用范圍廣、潛力大。應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建加氣站風(fēng)險(xiǎn)預(yù)警模型,結(jié)合前文構(gòu)建的預(yù)警指標(biāo)體系,采集對(duì)應(yīng)的樣本數(shù)據(jù)后訓(xùn)練模型,通過對(duì)風(fēng)險(xiǎn)場(chǎng)所重要指標(biāo)的監(jiān)控和分析,追蹤預(yù)警結(jié)果,實(shí)現(xiàn)對(duì)事故的事前控制。本文建立的CNG加氣站風(fēng)險(xiǎn)預(yù)警流程如圖1所示。
圖1 CNG加氣站風(fēng)險(xiǎn)預(yù)警模型構(gòu)建流程
2.1.1 原始數(shù)據(jù)采集
本文選擇武漢市某石化公司的12座CNG加氣站為研究對(duì)象進(jìn)行數(shù)據(jù)采集與統(tǒng)計(jì),根據(jù)已建立的預(yù)警指標(biāo)體系對(duì)指標(biāo)層的16類數(shù)據(jù)進(jìn)行調(diào)研收集與整理。本文構(gòu)建的機(jī)器學(xué)習(xí)算法將實(shí)現(xiàn)對(duì)CNG加氣站的風(fēng)險(xiǎn)預(yù)警分類功能。通過查閱CNG加氣站的巡檢和維修記錄,收集了12座加氣站7個(gè)月的運(yùn)行狀態(tài)數(shù)據(jù),按月采集數(shù)據(jù),標(biāo)簽設(shè)置為“高風(fēng)險(xiǎn)”和“低風(fēng)險(xiǎn)”兩類。在某月內(nèi),將發(fā)生設(shè)備泄漏、加氣事故等風(fēng)險(xiǎn)事件的加氣站數(shù)據(jù)標(biāo)簽規(guī)定為“高風(fēng)險(xiǎn)”,作為負(fù)樣本;將正常運(yùn)行的加氣站數(shù)據(jù)標(biāo)簽規(guī)定為“低風(fēng)險(xiǎn)”,作為正樣本。經(jīng)過數(shù)據(jù)清洗,刪除部分?jǐn)?shù)據(jù)后最終得到84組數(shù)據(jù),其中正樣本78組、負(fù)樣本6組。
2.1.2 均衡樣本數(shù)據(jù)
樣本數(shù)據(jù)不均衡是普遍存在的現(xiàn)象,如本研究中加氣站發(fā)生事故的情況是較少的,導(dǎo)致“高風(fēng)險(xiǎn)”樣本的數(shù)量較少。樣本數(shù)據(jù)不均衡會(huì)導(dǎo)致模型預(yù)測(cè)結(jié)果傾向于樣本量更多的“低風(fēng)險(xiǎn)”樣本,而采用簡(jiǎn)單復(fù)制樣本的策略來增加少數(shù)類樣本的方法容易產(chǎn)生模型過擬合的問題,使得模型泛化能力不足[14]。為解決這一問題,本文選用了SMOTE(Synthetic Minority Oversampling Technique)算法[15]對(duì)“高風(fēng)險(xiǎn)”樣本進(jìn)行過采樣,提高分類模型的泛化能力。SMOTE算法的基本思想是對(duì)少數(shù)類樣本進(jìn)行分析,并根據(jù)少數(shù)類樣本人工合成新樣本添加到數(shù)據(jù)集中[16]。
通過對(duì)“高風(fēng)險(xiǎn)”樣本進(jìn)行SMOTE過采樣后,得到新的72組負(fù)樣本,這樣正樣本與負(fù)樣本的數(shù)量便達(dá)到了1∶1,解決了訓(xùn)練樣本不均衡的問題。
通過數(shù)據(jù)預(yù)處理階段獲得訓(xùn)練樣本后,便可以選擇合適的機(jī)器學(xué)習(xí)分類算法進(jìn)行預(yù)警模型的訓(xùn)練。為得到性能最優(yōu)、預(yù)測(cè)效果最佳的模型,本文選用了多個(gè)流行的機(jī)器學(xué)習(xí)算法進(jìn)行評(píng)估。模型訓(xùn)練均在MATLAB R2020a軟件環(huán)境下完成,具體流程包括:
(1)劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。本文隨機(jī)選取了156組樣本中的110組樣本作為訓(xùn)練集(包含正、負(fù)樣本),剩余46組樣本作為測(cè)試集。因?yàn)楸狙芯繕颖镜奶卣鲾?shù)據(jù)數(shù)值均在[0,1],省去了數(shù)據(jù)標(biāo)準(zhǔn)化的過程。
(2)分別采用決策樹[17](最大分裂數(shù)為100)、樸素貝葉斯[18]、支持向量機(jī)[19](線性核函數(shù))、k近鄰[20](鄰點(diǎn)個(gè)數(shù)為5)4種機(jī)器學(xué)習(xí)分類算法構(gòu)建分類模型,使用110組訓(xùn)練樣本作為訓(xùn)練集訓(xùn)練模型。采用k折交叉驗(yàn)證(本研究中k=5)評(píng)估模型性能。4種分類算法訓(xùn)練出的模型結(jié)果如圖2和圖3所示。
(a)決策樹 (b)樸素貝葉斯 (c)支持向量機(jī) (d)k近鄰圖2 采用均衡樣本訓(xùn)練出的模型準(zhǔn)確度及混淆矩陣
(a)決策樹 (b)樸素貝葉斯 (c)支持向量機(jī) (d)k近鄰圖3 采用未均衡樣本訓(xùn)練出的模型準(zhǔn)確度及混淆矩陣
(3)使用訓(xùn)練好的模型對(duì)預(yù)留的測(cè)試集進(jìn)行分類,根據(jù)式(13)將其用于計(jì)算分類準(zhǔn)確性[21]。
(13)
式中,TP為正確識(shí)別的正樣本數(shù)量;TN為正確識(shí)別的負(fù)樣本數(shù)量;FP為正樣本總數(shù)量;FN為負(fù)樣本總數(shù)量。
同時(shí),本文也使用未均衡樣本對(duì)上述4種機(jī)器學(xué)習(xí)算法模型進(jìn)行了訓(xùn)練,采用59組樣本數(shù)據(jù)(包含正、負(fù)樣本)作為訓(xùn)練集訓(xùn)練模型,采用5折交叉驗(yàn)證法驗(yàn)證模型性能,最后使用訓(xùn)練好的模型對(duì)預(yù)留的測(cè)試集(25組樣本數(shù)據(jù))進(jìn)行分類,計(jì)算分類準(zhǔn)確性。最終的模型分類性能如圖4~圖6所示。
(a)決策樹 (b)樸素貝葉斯 (c)支持向量機(jī) (d)k近鄰圖4 采用均衡樣本訓(xùn)練的模型預(yù)測(cè)測(cè)試集的準(zhǔn)確度及混淆矩陣
(a)決策樹 (b)樸素貝葉斯 (c)支持向量機(jī) (d)k近鄰圖5 采用未均衡樣本訓(xùn)練的模型預(yù)測(cè)測(cè)試集的準(zhǔn)確度及混淆矩陣
(a)訓(xùn)練集1(均衡樣本) (b)訓(xùn)練集2(未均衡樣本)圖6 均衡樣本與未均衡樣本訓(xùn)練集的預(yù)警模型訓(xùn)練結(jié)果
被預(yù)警模型分類為“高風(fēng)險(xiǎn)”的加氣站在此時(shí)的狀態(tài)下將有很高的概率發(fā)生事故,應(yīng)及時(shí)采取措施降低安全風(fēng)險(xiǎn)。
從結(jié)果來看,預(yù)測(cè)能力最好的是采用均衡樣本訓(xùn)練的決策樹算法和支持向量機(jī)算法構(gòu)建的風(fēng)險(xiǎn)預(yù)警模型,兩者準(zhǔn)確度達(dá)到97.83%;而樸素貝葉斯算法構(gòu)建的風(fēng)險(xiǎn)預(yù)警模型性能最差,其準(zhǔn)確度僅為84.8%。
采用未均衡樣本訓(xùn)練的模型準(zhǔn)確率均為92%,但從混淆矩陣中可以明顯看出,采用未均衡樣本訓(xùn)練的模型對(duì)負(fù)樣本的預(yù)測(cè)全部失敗了,這說明未均衡樣本訓(xùn)練的模型泛化性能非常差[22]。相比之下,采用均衡樣本訓(xùn)練的模型,除樸素貝葉斯模型之外,其他3種模型均實(shí)現(xiàn)了對(duì)負(fù)樣本的準(zhǔn)確預(yù)測(cè),準(zhǔn)確率較高。樣本經(jīng)過SMOTE算法處理后解決了樣本不均衡問題,在測(cè)試集和訓(xùn)練集中均有較高的準(zhǔn)確率,能較好地識(shí)別加氣站的風(fēng)險(xiǎn)狀態(tài)。
(1)按照人員、設(shè)備設(shè)施、安全管理、環(huán)境安全4個(gè)因素建立了加氣站風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,選取了適用于人工智能技術(shù)解決方案的較全面、可量化、可采集、可監(jiān)督的數(shù)據(jù)指標(biāo),為加氣站風(fēng)險(xiǎn)預(yù)警研究進(jìn)行了初步嘗試,并為機(jī)器學(xué)習(xí)技術(shù)的引入提供參考。
(2)在數(shù)據(jù)采集過程中,難以避免會(huì)產(chǎn)生正負(fù)樣本數(shù)據(jù)量不均衡的情況。在現(xiàn)實(shí)情況下,企業(yè)安全生產(chǎn)和運(yùn)營(yíng)的過程中不會(huì)經(jīng)常發(fā)生事故,異常狀態(tài)的樣本往往是少數(shù)。本文通過SMOTE算法均衡樣本數(shù)據(jù),提高了模型的泛化能力,均衡樣本后訓(xùn)練出的模型能很好地實(shí)現(xiàn)對(duì)負(fù)樣本的預(yù)測(cè)。
(3)SMOTE算法均衡樣本后,采用決策樹算法和支持向量機(jī)算法構(gòu)建的預(yù)警模型預(yù)測(cè)準(zhǔn)確度達(dá)到97.8%,相比未均衡樣本訓(xùn)練出的模型準(zhǔn)確度提高了5.8%。采用k近鄰算法構(gòu)建的預(yù)警模型準(zhǔn)確度也達(dá)到95.7%,可以很好地實(shí)現(xiàn)對(duì)加氣站風(fēng)險(xiǎn)高低的識(shí)別與預(yù)警。
(4)本研究構(gòu)建的預(yù)警模型在一定程度上依賴于大數(shù)據(jù)的訓(xùn)練,而受制于客觀條件,本文在訓(xùn)練模型時(shí)采用的樣本數(shù)據(jù)規(guī)模不大。隨著預(yù)警模型在加氣站的上線應(yīng)用,采集的數(shù)據(jù)會(huì)越來越多,應(yīng)用新的數(shù)據(jù)對(duì)預(yù)警模型進(jìn)行訓(xùn)練和優(yōu)化,可以不斷提高模型的準(zhǔn)確度。
(5)本文構(gòu)建的預(yù)警模型監(jiān)測(cè)的數(shù)據(jù)類型較多,但只能從宏觀角度預(yù)測(cè)加氣站的風(fēng)險(xiǎn)高低,一旦加氣站被識(shí)別為“高風(fēng)險(xiǎn)”,則認(rèn)為加氣站正處于不安全狀態(tài),將會(huì)有較大可能性發(fā)生事故,也不排除可能存在與事實(shí)不符的情況。如何通過檢測(cè)指標(biāo)對(duì)可能轉(zhuǎn)變?yōu)椴话踩珷顟B(tài)的加氣站進(jìn)行提前識(shí)別仍有待深入研究。