黃 銳 李霄銘 余 翔 熊 軍 陳漢城
(國(guó)網(wǎng)福建省電力有限公司信息通信分公司,福建福州 350013)
環(huán)保作為實(shí)現(xiàn)碳達(dá)峰、碳中和的重要路徑,在“雙碳”政策背景下備受關(guān)注。目前,傳統(tǒng)的環(huán)保監(jiān)測(cè)工作主要是通過(guò)在每條線(xiàn)末端設(shè)置各種傳感器進(jìn)行化學(xué)檢測(cè),來(lái)判斷企業(yè)是否違規(guī)排污[1]。然而,治污設(shè)備所處位置的周?chē)h(huán)境比較臟亂差,傳感器工作容易受外界環(huán)境干擾,產(chǎn)生偏差甚至失效。
而電力數(shù)據(jù)具有覆蓋度廣、價(jià)值密度高、實(shí)時(shí)準(zhǔn)確性強(qiáng)等特點(diǎn)[2],利用電力數(shù)據(jù)進(jìn)行環(huán)保監(jiān)測(cè)工作實(shí)時(shí)性強(qiáng),能從產(chǎn)污源頭進(jìn)行環(huán)保監(jiān)測(cè)。目前,大多數(shù)基于電力數(shù)據(jù)的環(huán)保監(jiān)測(cè)工作,主要是對(duì)治污設(shè)備進(jìn)行電力信息的采集與分析[3-4],當(dāng)需要監(jiān)測(cè)的治污設(shè)備數(shù)量眾多時(shí),監(jiān)測(cè)設(shè)備數(shù)量也隨之增加,環(huán)保監(jiān)測(cè)成本會(huì)隨之升高,企業(yè)較難接受。
基于上述分析,本文研究提出了一種基于XGBoost的非侵入式污染企業(yè)環(huán)保工況識(shí)別方法,即記錄企業(yè)的生產(chǎn)工況,將企業(yè)生產(chǎn)工況與環(huán)保設(shè)備工況相結(jié)合得到企業(yè)環(huán)保工況,再將企業(yè)環(huán)保工況與用電數(shù)據(jù)輸入XGBoost中進(jìn)行訓(xùn)練,得到最終的模型。
需要對(duì)企業(yè)生產(chǎn)工況與環(huán)保設(shè)備工況一定的先驗(yàn)數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)于環(huán)保工況的判斷方法如圖1所示,對(duì)于某一個(gè)時(shí)刻的環(huán)保工況,若企業(yè)生產(chǎn)正常,且環(huán)保設(shè)備為開(kāi)啟狀態(tài),那么環(huán)保工況即為正常,當(dāng)環(huán)保設(shè)備關(guān)閉,則視為異常,其中,生產(chǎn)設(shè)備關(guān)閉時(shí)視為環(huán)保工況正常。這樣就得到了環(huán)保工況標(biāo)簽。
圖1 環(huán)保工況判定流程
XGBoost(Xtreme Gradient Boosting)是一種高效的基于決策樹(shù)(CART)的分布式梯度提升算法,它可被應(yīng)用到分類(lèi)、回歸、排序等任務(wù)中。
預(yù)測(cè)值計(jì)算公式如下:
目標(biāo)函數(shù)計(jì)算公式如下:
最小化目標(biāo)函數(shù),經(jīng)過(guò)正則化項(xiàng)對(duì)算法學(xué)習(xí)權(quán)重的平滑,最終得到目標(biāo)函數(shù)的最優(yōu)解如下:
本文提出的環(huán)保工況異常識(shí)別方法主要流程如圖2所示,其主要步驟如下:
圖2 環(huán)保工況異常識(shí)別流程
(1)在監(jiān)測(cè)點(diǎn)獲取電能質(zhì)量監(jiān)測(cè)數(shù)據(jù),在選擇數(shù)據(jù)時(shí)包括電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)與基本電氣數(shù)據(jù);
(2)記錄企業(yè)生產(chǎn)工況與環(huán)保工況;
(3)將環(huán)保工況與電能質(zhì)量的監(jiān)測(cè)數(shù)據(jù)輸入到XGBoost模型中進(jìn)行訓(xùn)練;
(4)將企業(yè)后續(xù)電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)輸入到XGBoost中進(jìn)行測(cè)試,得到企業(yè)的環(huán)保工況,識(shí)別其中的異常環(huán)保工況。
為了驗(yàn)證本文方案的實(shí)用性,搭建了模擬污染企業(yè)用電工況的仿真模型??紤]實(shí)際企業(yè)中各種設(shè)備的用電情況,如圖3所示,仿真將以一條10 kV的母線(xiàn)進(jìn)行模擬,其中包含兩臺(tái)生產(chǎn)設(shè)備與兩臺(tái)環(huán)保設(shè)備,同時(shí)為了更好地模擬各種用電場(chǎng)景,加入了線(xiàn)性負(fù)荷、整流器及單相線(xiàn)性負(fù)荷??梢园l(fā)現(xiàn),在企業(yè)中生產(chǎn)設(shè)備多為線(xiàn)性負(fù)荷與變頻電機(jī),例如變頻電機(jī)包括鋼廠(chǎng)用于軋鋼的大型電動(dòng)機(jī)、水泵、壓縮機(jī)等,而環(huán)保設(shè)備如靜電除塵、增壓風(fēng)機(jī)、袋式除塵器等運(yùn)用了調(diào)頻、調(diào)速、升壓等相關(guān)電力電子技術(shù),所以在這里用兩個(gè)變頻器進(jìn)行模擬。
圖3 仿真電氣接線(xiàn)圖
參考非侵入式負(fù)荷監(jiān)測(cè),在10 kV進(jìn)線(xiàn)處安裝一個(gè)模擬的電能質(zhì)量監(jiān)測(cè)裝置[5]。如表1所示,在實(shí)際監(jiān)測(cè)中,一天24 h,每隔3 min進(jìn)行一次數(shù)據(jù)采集,會(huì)得到480個(gè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù),其中包括基本電氣量數(shù)據(jù)與電能質(zhì)量監(jiān)測(cè)數(shù)據(jù)。采用等比例縮放的方法,將一天24 h等比例縮放,仿真時(shí)間設(shè)置為960 s,每隔2 s進(jìn)行一次數(shù)據(jù)采集。
表1 仿真數(shù)據(jù)說(shuō)明
在算例中,為了更好地監(jiān)測(cè)本方案的實(shí)用性,負(fù)荷1~5將采用生成隨機(jī)數(shù)的方法來(lái)控制負(fù)荷啟停,即隨機(jī)生成1~24內(nèi)的兩個(gè)隨機(jī)數(shù),隨機(jī)數(shù)中,前者為開(kāi)啟時(shí)間,后者為關(guān)閉時(shí)間。不同于實(shí)際生產(chǎn)中設(shè)備的啟停具有一定的周期性與規(guī)律性,仿真模型中設(shè)備的不定時(shí)啟停,能更好地驗(yàn)證變點(diǎn)檢測(cè)與聚類(lèi)算法的實(shí)用性與準(zhǔn)確性。對(duì)于負(fù)荷6~9,則一直處于運(yùn)行狀態(tài),來(lái)模擬企業(yè)工廠(chǎng)中不間斷運(yùn)行的設(shè)備。
對(duì)于生產(chǎn)工況的分類(lèi),模型中共有兩個(gè)生產(chǎn)設(shè)備,針對(duì)不同的企業(yè)生產(chǎn)場(chǎng)景可能采用不同的生產(chǎn)設(shè)備,在這里設(shè)置兩個(gè)不同的生產(chǎn)用電場(chǎng)景。
場(chǎng)景1:負(fù)荷1運(yùn)行時(shí),視為企業(yè)正在正常生產(chǎn),反之為停止生產(chǎn)。
場(chǎng)景2:負(fù)荷2運(yùn)行時(shí),視為企業(yè)正在正常生產(chǎn),反之為停止生產(chǎn)。
劃分好生產(chǎn)工況,就可以結(jié)合環(huán)保設(shè)備的工況得到企業(yè)的環(huán)保工況是否異常。根據(jù)實(shí)際環(huán)保部門(mén)的監(jiān)管規(guī)則,設(shè)置判定企業(yè)環(huán)保工況的規(guī)則,當(dāng)企業(yè)正常生產(chǎn)時(shí),僅當(dāng)兩臺(tái)環(huán)保設(shè)備同時(shí)開(kāi)啟時(shí)視為環(huán)保工況正常,反之則為異常。
對(duì)模型進(jìn)行24天數(shù)據(jù)仿真,共11 520個(gè)樣本點(diǎn),用前70%數(shù)據(jù)進(jìn)行模型訓(xùn)練,后30%數(shù)據(jù)進(jìn)行測(cè)試。如表2所示,分別對(duì)兩個(gè)場(chǎng)景下前70%數(shù)據(jù)的環(huán)保工況進(jìn)行統(tǒng)計(jì)。
表2 環(huán)保相關(guān)工況類(lèi)別情況
這里引入混淆矩陣與機(jī)器學(xué)習(xí)模型評(píng)價(jià)指標(biāo)[6]。如圖4所示,混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類(lèi)模型預(yù)測(cè)結(jié)果的情形分析表。在本方案中,混淆矩陣表示的是模型判斷的環(huán)保工況正常與異常兩種情況與其真實(shí)值的對(duì)比情況,其中TP表示模型正確識(shí)別出環(huán)保工況異常情景下的數(shù)量,TN表示模型正確識(shí)別出環(huán)保工況正常情景下的數(shù)量,F(xiàn)N表示模型錯(cuò)誤識(shí)別出環(huán)保工況異常情景下的數(shù)量,F(xiàn)P表示模型錯(cuò)誤識(shí)別出環(huán)保工況正常情景下的數(shù)量。在預(yù)測(cè)性分類(lèi)模型中,肯定希望模型能準(zhǔn)確預(yù)測(cè)環(huán)保工況。那么對(duì)應(yīng)到混淆矩陣中,TP與TN的數(shù)量越多,F(xiàn)P與FN數(shù)量越少,則該模型的擬合程度越高。
圖4 混淆矩陣示意圖
在混淆矩陣中統(tǒng)計(jì)的為真實(shí)值與預(yù)測(cè)值的數(shù)量,當(dāng)測(cè)試的數(shù)據(jù)集很大的時(shí)候,采用百分比能更好地判斷模型的好壞。因此,在混淆矩陣統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,又引入了如下3個(gè)指標(biāo),分別為準(zhǔn)確率SACC、精確率SPRE、召回率SREC,下面給出這三個(gè)指標(biāo)的定義。
準(zhǔn)確率是預(yù)測(cè)環(huán)保工況正確的結(jié)果占總樣本的百分比,其表達(dá)式見(jiàn)式(4)。
精確率的含義為在被所有預(yù)測(cè)為環(huán)保工況異常的樣本中實(shí)際為環(huán)保工況異常樣本的概率,表達(dá)式見(jiàn)式(5)。
召回率的含義為在實(shí)際為環(huán)保工況異常的樣本中被預(yù)測(cè)為環(huán)保工況異常樣本的概率,其表達(dá)式見(jiàn)式(6)。
通過(guò)以上3個(gè)二級(jí)指標(biāo),就將混淆矩陣中的數(shù)量轉(zhuǎn)為0%~100%之間的百分?jǐn)?shù),其結(jié)果更加直觀(guān)。在有些場(chǎng)景中,需要同時(shí)考慮精確率和召回率,于是便產(chǎn)生了一個(gè)新的指標(biāo),它的計(jì)算公式見(jiàn)式(7)。
對(duì)兩個(gè)生產(chǎn)用電場(chǎng)景,根據(jù)環(huán)保規(guī)則得到環(huán)保工況類(lèi)別。對(duì)24天共11 520個(gè)數(shù)據(jù)點(diǎn),以時(shí)間為標(biāo)準(zhǔn),取前70%數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后30%數(shù)據(jù)作為測(cè)試數(shù)據(jù),其各項(xiàng)指標(biāo)如表3所示。利用XGBoost模型對(duì)環(huán)保工況進(jìn)行測(cè)試,在兩個(gè)生產(chǎn)場(chǎng)景下,SACC與SF1均能達(dá)到99%以上,具有較高的識(shí)別準(zhǔn)確率。
表3 不同場(chǎng)景的分類(lèi)結(jié)果與各項(xiàng)指標(biāo)
針對(duì)企業(yè)環(huán)保監(jiān)測(cè)問(wèn)題,本文利用電能質(zhì)量監(jiān)測(cè)數(shù)據(jù),根據(jù)環(huán)保規(guī)則,獲取環(huán)保工況先驗(yàn)數(shù)據(jù);然后將電能質(zhì)量數(shù)據(jù)與環(huán)保工況輸入XGBoost中進(jìn)行學(xué)習(xí)與訓(xùn)練,實(shí)現(xiàn)異常環(huán)保工況識(shí)別。利用仿真算例對(duì)本文方案進(jìn)行測(cè)試與分析,得到以下結(jié)論:
(1)利用XGBoost進(jìn)行學(xué)習(xí)與訓(xùn)練,對(duì)于仿真模型中的數(shù)據(jù),在兩個(gè)生產(chǎn)場(chǎng)景下,SACC與SF1均能達(dá)到99%以上。
(2)相比于傳統(tǒng)的化學(xué)含量檢測(cè)與對(duì)設(shè)備一一進(jìn)行監(jiān)測(cè),本文方案具有更好的實(shí)用性與便利性,減少了監(jiān)測(cè)成本,不影響企業(yè)實(shí)際生產(chǎn)活動(dòng)。同時(shí),電力數(shù)據(jù)還可以在更多領(lǐng)域進(jìn)行推廣應(yīng)用。