国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孤立森林方法的催化裂化裝置排污數(shù)據(jù)異常識(shí)別

2021-08-08 10:41鐘田福
關(guān)鍵詞:催化裂化樣本節(jié)點(diǎn)

陳 沖,何 為,2,鐘田福,王 晶

(1.中國石油大學(xué)(北京) 信息科學(xué)與工程學(xué)院,北京 102249;2.中國石油集團(tuán)安全環(huán)保技術(shù)研究院有限公司 HSE 檢測中心,北京102206)

引 言

催化裂化裝置產(chǎn)生的廢氣是空氣環(huán)境的潛在威脅之一。90萬噸/年催化裂化裝置煙氣排放經(jīng)過煙氣輪機(jī)做功后進(jìn)入余熱鍋爐,正常情況下SO2排放濃度為800~2 000 mg/m3,NOx的排放濃度為140~300 mg/m3,均超過我國于2015年實(shí)施的GB31570—2015《石油煉制工業(yè)污染物排放標(biāo)準(zhǔn)》中規(guī)定的50 mg/m3與100 mg/m3的排放標(biāo)準(zhǔn)?;跉v史數(shù)據(jù)(生產(chǎn)數(shù)據(jù)、監(jiān)測數(shù)據(jù)等)構(gòu)建催化裂化裝置的預(yù)測模型,根據(jù)不同工況預(yù)測煙氣排放是控制催化裂化裝置煙氣排放的有效方法之一。目前,我國已初步形成了環(huán)保信息網(wǎng)絡(luò),環(huán)境監(jiān)測數(shù)據(jù)由生產(chǎn)企業(yè)上報(bào),地方環(huán)保部門收集、上報(bào)并存儲(chǔ)到環(huán)境保護(hù)監(jiān)測數(shù)據(jù)庫中。然而,在數(shù)據(jù)采集、存儲(chǔ)設(shè)備本身以及采集人員、采集過程等各個(gè)環(huán)節(jié)中,都不可避免地引入異常數(shù)據(jù)。異常數(shù)據(jù)的引入可能引起數(shù)據(jù)的偽相關(guān)(spurious correlation)等問題,從而影響數(shù)據(jù)的可用性。因此,為了保證數(shù)據(jù)分析與處理結(jié)果的準(zhǔn)確性,在使用數(shù)據(jù)之前,有必要對(duì)數(shù)據(jù)進(jìn)行異常識(shí)別。

異常數(shù)據(jù)可由噪聲、系統(tǒng)自身、客觀因素以及復(fù)雜環(huán)境等原因造成,導(dǎo)致個(gè)別數(shù)據(jù)與整體數(shù)據(jù)規(guī)律不一致,大多數(shù)研究者認(rèn)同來自Hawkins[1]的定義:“異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離它(或它們)所屬樣本的其余觀測值”。無監(jiān)督異常檢測方法簡單、高效,已經(jīng)被廣泛應(yīng)用于異常檢測中。Yamanishi等人[2]使用高斯混合模型擬合實(shí)際數(shù)據(jù),并根據(jù)模型篩選異常數(shù)據(jù)?;诰垲惖漠惓?shù)據(jù)檢測方法主要有CBLOF(Cluster-Based Local Outlier Factor)[3]、LDCOF(Local Density Cluster-Based Outlier Factor)[4]、CMGOS(Clustering-based Multivariate Gaussian Outlier Score)[5]等[6]。劉旋等[7]提出了一種基于逆K最近鄰的密度峰值異常檢測方法(Rknn-DP),在多種數(shù)據(jù)集下與ABOD(Angle-Based Outlier Detection)[8]、CBLOF、LSCP(Locally Selective Combination in Parallel outlier ensembles)[9]、HBOS(Histogram-based Outlier Score)[10]及孤立森林算法(iForest,Isolation Forest)[11]進(jìn)行了實(shí)驗(yàn)對(duì)比,證明了Rknn-DP算法的有效性?;诰嚯x的方法主要原理是根據(jù)數(shù)據(jù)樣本與其余樣本點(diǎn)之間的距離是否超過閾值來檢測異常樣本[12]。Breunig等[13]闡述了局部異常數(shù)據(jù)的定義,提出了局部異常因子算法LOF(Local Outlier Factor),基于可達(dá)距離、可達(dá)密度定義局部離群因子,衡量樣本的異常程度,從而實(shí)現(xiàn)異常值檢測。Du等[14]提出了利用統(tǒng)計(jì)參數(shù)進(jìn)行局部異常檢測的方法,結(jié)合聚類與密度方法實(shí)現(xiàn)了大數(shù)據(jù)的異常值檢測。與以上幾種基于密度與距離的算法不同,Liu等[11]提出孤立森林算法,通過借鑒隨機(jī)森林的集成學(xué)習(xí)提高算法的魯棒性,并采用樹型結(jié)構(gòu)減小了計(jì)算量,且能保證較高的準(zhǔn)確度。Yu等[15]結(jié)合LOF的優(yōu)點(diǎn)對(duì)孤立森林算法進(jìn)行了改進(jìn),先利用LOF算法對(duì)原始數(shù)據(jù)進(jìn)行異常檢測,再利用孤立森林算法對(duì)檢測結(jié)果進(jìn)行篩選,從而提高檢測結(jié)果的穩(wěn)定性和精確度,但是也增加了算法的計(jì)算消耗。Liu等[16]基于分裂選擇標(biāo)準(zhǔn)(SC,Split-selection Criterion)對(duì)孤立森林算法進(jìn)行改進(jìn),提出SCiForest(Split-selection Criterion iForest)檢測聚類異常。Ding等[17]提出了iForestASD算法,該算法通過滑窗對(duì)實(shí)時(shí)數(shù)據(jù)分割檢測,有效地解決了流動(dòng)數(shù)據(jù)的異常檢測問題。Aryal等[18]針對(duì)孤立森林無法有效檢測局部異常數(shù)據(jù)的問題,提出了一種基于相對(duì)質(zhì)量改進(jìn)的孤立森林算法。該算法利用相對(duì)質(zhì)量代替距離點(diǎn)計(jì)算,更加有效地體現(xiàn)了數(shù)據(jù)與鄰近數(shù)據(jù)的分布規(guī)律,解決了局部異常數(shù)據(jù)在異常數(shù)據(jù)檢測中出現(xiàn)的遮掩問題。Bandaragoda等[19]提出了一種基于距離的改進(jìn)方法——使用K近鄰的孤立方法(iNNE,isolation using Nearest Neighbour Ensemble),其運(yùn)行速度明顯快于現(xiàn)有的最近鄰方法,并且解決了孤立森林算法局部異常檢測、缺少屬性數(shù)據(jù)的異常檢測以及正常實(shí)例包圍的異常檢測情況。

本文以中國石油某煉化企業(yè)350萬噸/年重油催化裂化裝置為研究對(duì)象,基于孤立森林算法對(duì)該催化裂化裝置所排放煙氣中氮氧化物的監(jiān)測數(shù)據(jù)開展數(shù)據(jù)異常識(shí)別研究。從算法的分支步驟與局部度量方面,改進(jìn)孤立森林算法,提高算法性能。在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上與多個(gè)異常識(shí)別算法進(jìn)行對(duì)比,驗(yàn)證算法的優(yōu)越性。

1 異常數(shù)據(jù)識(shí)別方法

1.1 孤立森林算法

孤立森林算法的主要思想是對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)切割,并通過集成學(xué)習(xí)的方式收斂數(shù)據(jù)切割的過程[11]。圖1為一個(gè)數(shù)據(jù)集被隨機(jī)切割的過程示例。其中,正常點(diǎn)xi需經(jīng)過多次切割才能被識(shí)別出來,而異常點(diǎn)xo則很容易被切割出來,切割次數(shù)等于孤立樹的深度,孤立森林根據(jù)數(shù)據(jù)點(diǎn)與根節(jié)點(diǎn)的深度來診斷數(shù)據(jù)的異常程度。

圖1 正常值與異常值的分割過程Fig.1 Segmentation process of normal and abnormal observations

孤立森林算法過程主要包括兩個(gè)部分。首先,利用原始數(shù)據(jù)隨機(jī)采樣生成t個(gè)孤立樹,組成孤立森林模型;其次,數(shù)據(jù)樣本遍歷孤立樹計(jì)算出異常分值。孤立樹的構(gòu)建步驟:

步驟1:從原始數(shù)據(jù)集中隨機(jī)挑選T個(gè)數(shù)據(jù)點(diǎn)作為采樣數(shù)據(jù)集;

步驟2:在采樣數(shù)據(jù)集中隨機(jī)選取維度,隨機(jī)取值獲得分割點(diǎn)p對(duì)樣本集切割,切割后的數(shù)據(jù)分別放在左右葉子節(jié)點(diǎn)(在該維度中小于p的樣本放在左葉子節(jié)點(diǎn),大于等于p的樣本放在右葉子節(jié)點(diǎn));

步驟3:遞歸進(jìn)行步驟2,切割數(shù)據(jù)集,直到滿足停止條件(即樣本數(shù)據(jù)集不可再分或孤立樹的高度到達(dá)上限)。

建立t個(gè)孤立樹之后(即生成了孤立森林模型),使未知數(shù)據(jù)點(diǎn)x遍歷所有孤立樹后記錄x在每棵孤立樹的層數(shù)h(x),計(jì)算x的平均深度。對(duì)平均深度進(jìn)行歸一化得到數(shù)據(jù)點(diǎn)x的異常分值。為了保證異常分值能夠準(zhǔn)確表示數(shù)據(jù)的異常程度,采用

(1)

進(jìn)行計(jì)算。其中,E[·]為數(shù)據(jù)的期望;c(φ)起歸一化作用,是由φ個(gè)點(diǎn)組成的二叉樹的平均高度,即

(2)

式中:H(φ)=ln(φ)+ξ,ξ為歐拉常數(shù)。

由式(1)可以看出,S(x)越接近1表示樣本x每次分割都被快速分割出來,是異常數(shù)據(jù)的可能性大;越接近0表示樣本x遠(yuǎn)離根節(jié)點(diǎn),是正常點(diǎn)的可能性大;當(dāng)所有樣本的S(x)都接近于0.5時(shí),表明數(shù)據(jù)集中沒有明顯的異常數(shù)據(jù)。

1.2 分裂準(zhǔn)則

分裂準(zhǔn)則是在樹節(jié)點(diǎn)分裂過程中所依據(jù)的標(biāo)準(zhǔn),以選擇最優(yōu)的分裂屬性與分裂點(diǎn),是決策樹算法中的核心問題之一,前期已有許多學(xué)者對(duì)此進(jìn)行了研究[20-22]。在樹節(jié)點(diǎn)分裂過程中,為了考慮數(shù)據(jù)的多個(gè)屬性,優(yōu)化模型性能,引入非軸平行于原始屬性的隨機(jī)超平面;同時(shí),在隨機(jī)超平面的選取過程中加入Sdgain檢驗(yàn)指標(biāo),作為數(shù)據(jù)超平面的選擇標(biāo)準(zhǔn),以生成最佳超平面。由于樹模型是一種集成學(xué)習(xí)模型,因此,單個(gè)超平面的效果對(duì)整體效果影響有限,所得到的模型作為一個(gè)整體仍然有效。在構(gòu)造孤立樹的每個(gè)節(jié)點(diǎn)時(shí),隨機(jī)生成τ個(gè)超平面,選擇其中Sdgain最大的超平面作為最優(yōu)超平面。超平面f(對(duì)應(yīng)分割點(diǎn)p)的計(jì)算公式為

(3)

(4)

其中,YL∪YR=Y,Y為采樣數(shù)據(jù)集X′在超平面f上的映射;avg(·)為計(jì)算平均值。在式(4)中,使用σ(Y)對(duì)計(jì)算值進(jìn)行歸一化。結(jié)合式(3)、式(4),尋找能夠使Sdgain最大的p值生成最佳超平面。

1.3 相對(duì)質(zhì)量

雖然孤立森林算法在許多實(shí)驗(yàn)中被證明是有效的,但是其無法有效識(shí)別局部異常數(shù)據(jù)。這是由于孤立森林算法的異常分?jǐn)?shù)根據(jù)路徑長度進(jìn)行全局度量,導(dǎo)致無法考慮樣本數(shù)據(jù)點(diǎn)與其鄰近數(shù)據(jù)點(diǎn)之間的相對(duì)孤立關(guān)系。因此,Aryal等人[18]提出了一種簡單但有效的方法——相對(duì)質(zhì)量(Relative Mass),考慮樣本數(shù)據(jù)點(diǎn)與鄰近數(shù)據(jù)分布情況,以克服孤立森林在局部異常值檢測方面的不足。相對(duì)質(zhì)量是一種基于數(shù)據(jù)質(zhì)量的局部度量方式??紤]一個(gè)數(shù)據(jù)集中的兩個(gè)區(qū)域,其中一個(gè)區(qū)域是另一個(gè)區(qū)域的子集,數(shù)據(jù)的相對(duì)質(zhì)量是覆蓋該數(shù)據(jù)的兩個(gè)區(qū)域中的數(shù)據(jù)質(zhì)量的比例。在樹模型結(jié)構(gòu)中,數(shù)據(jù)的相對(duì)質(zhì)量根據(jù)樣本數(shù)據(jù)從根節(jié)點(diǎn)到葉節(jié)點(diǎn)中的質(zhì)量比計(jì)算。

在孤立森林中,關(guān)注樣本點(diǎn)x和它的局部鄰域的相對(duì)質(zhì)量用

(5)

異常分?jǐn)?shù)則由t個(gè)孤立樹異常分?jǐn)?shù)取均值得到,即

(6)

計(jì)算出每個(gè)節(jié)點(diǎn)的異常分?jǐn)?shù)之后,根據(jù)異常分?jǐn)?shù)的大小對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行排序,節(jié)點(diǎn)異常分?jǐn)?shù)越大異常節(jié)點(diǎn)的概率越大。

1.4 改進(jìn)的孤立森林算法實(shí)現(xiàn)過程

針對(duì)孤立森林算法在考慮數(shù)據(jù)整體屬性以及局部異常檢測中的局限,引入分裂準(zhǔn)則與相對(duì)質(zhì)量改進(jìn)孤立森林算法,在提高模型(局部異常數(shù)據(jù)識(shí)別)精確度的同時(shí)減小計(jì)算消耗。在建立樹模型時(shí)考慮數(shù)據(jù)的多維屬性引入隨機(jī)超平面,利用Sdgain篩選超平面,從而提高樹模型的質(zhì)量;利用相對(duì)質(zhì)量改進(jìn)異常分?jǐn)?shù)的計(jì)算,解決將每個(gè)待測樣本遍歷所有孤立樹的問題,避免內(nèi)存浪費(fèi)、減小模型時(shí)間復(fù)雜度。具體步驟如圖2所示。

輸入D——數(shù)據(jù)集;n——子采樣大?。籺——生成孤立樹的數(shù)量。

步驟1:設(shè)置孤立樹的最大高度,初始化孤立森林。

步驟2:構(gòu)建孤立樹。

步驟2.1:輸入D′——構(gòu)建孤立樹的子數(shù)據(jù)集;q——生成超平面的屬性數(shù)量;τ——隨機(jī)生成的超平面數(shù)量;

步驟2.2:初始化生成孤立樹算法參數(shù);

步驟2.3:在τ個(gè)使用q個(gè)屬性值生成的隨機(jī)超平面中,篩選最大Sdgain所對(duì)應(yīng)的最佳超平面f;

步驟2.4:將數(shù)據(jù)映射到最佳超平面f上,根據(jù)映射值將其分類;

步驟2.5:在映射點(diǎn)的最大值和最小值中隨機(jī)取數(shù)記為v;

步驟2.6:重復(fù)步驟2.1—2.5,直至采樣數(shù)據(jù)小于最小分裂數(shù)值。

步驟3:計(jì)算每棵樹的異常分?jǐn)?shù)。

步驟3.1:輸入x——待檢測樣本;T——孤立樹;

步驟3.2:計(jì)算x映射在該分裂節(jié)點(diǎn)的最佳超平面上的值y;

步驟3.3:判斷y是否大于0,若大于0則放在左子節(jié)點(diǎn),若小于0則放在右子節(jié)點(diǎn);

步驟3.4:重復(fù)步驟3.2—3.3,直至x落在的葉子節(jié)點(diǎn)的大小是一個(gè)外部節(jié)點(diǎn);

步驟3.5:計(jì)算葉子節(jié)點(diǎn)與其直系父節(jié)點(diǎn)的數(shù)據(jù)質(zhì)量;

步驟3.6:計(jì)算si(x)。

步驟4:遍歷所有孤立樹,計(jì)算異常分?jǐn)?shù)的均值。

圖2 改進(jìn)的孤立森林算法流程Fig.2 Flow chart of the improved isolated forest algorithm

2 實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證改進(jìn)的孤立森林算法以及該算法在催化裂化裝置排污數(shù)據(jù)集的有效性,首先,基于標(biāo)準(zhǔn)異常檢測數(shù)據(jù)集(見表1前3行)[23]對(duì)改進(jìn)的孤立森林算法進(jìn)行測試,并與經(jīng)典的孤立森林算法、SCiForest、ReMa-iForest進(jìn)行對(duì)比;其次,分別采用這幾種方法對(duì)催化裂化裝置排污數(shù)據(jù)進(jìn)行異常識(shí)別,并對(duì)其結(jié)果進(jìn)行分析。

本文采用的催化裂化裝置排污數(shù)據(jù)集為我國某石油煉化企業(yè)350萬噸/年重油催化裂化裝置在2015年2月至2018年6月監(jiān)測的氮氧化物濃度值。可能造成異常數(shù)據(jù)的因素主要包括[24]:(1)系統(tǒng)誤差:主要是由監(jiān)測儀器設(shè)備自身存在的問題或者監(jiān)測環(huán)境變化引起;(2)系統(tǒng)故障:監(jiān)控平臺(tái)故障、通訊設(shè)備故障、現(xiàn)場儀器故障等原因;(3)人為造假:數(shù)據(jù)監(jiān)測、收集等人員出于某種目的根據(jù)數(shù)據(jù)規(guī)律修改數(shù)據(jù);(4)污染源異常變動(dòng):由企業(yè)的生產(chǎn)過程發(fā)生改變或者污染物治理設(shè)施故障引起。

表1 數(shù)據(jù)集特征Tab.1 Features of data sets

一般而言,異常數(shù)據(jù)檢測結(jié)果主要分為正常數(shù)據(jù)和異常數(shù)據(jù),然而,由于需要采用模型進(jìn)行預(yù)測,因此將預(yù)測結(jié)果分為真正類(TP,True Positive)、真異類(TN,True Negative)、假正類(FP,False Positive)、假異類(FN,Fulse Negative),總數(shù)據(jù)量為4者之和。模型評(píng)價(jià)主要考慮有效性與執(zhí)行效率兩個(gè)方面。模型有效性是對(duì)模型準(zhǔn)確度的檢測,是衡量模型最重要的指標(biāo),通過計(jì)算模型的ROC(Receiver Operating Characteristic)曲線與AUC(Area Under Curve)值進(jìn)行分析判斷。在ROC 曲線中,橫、縱坐標(biāo)分別為假正比例

(7)

和真正比例

(8)

其中,VTPR為預(yù)測結(jié)果中正類數(shù)據(jù)的準(zhǔn)確率,即真正類占所有正類的比;VFPR為預(yù)測結(jié)果中正類數(shù)據(jù)的錯(cuò)誤率,即假正類占所有異類的比。由式(7)—(8)可以看出,VTPR越高VFPR越低,則模型性能越優(yōu)秀。體現(xiàn)在ROC曲線上,則是曲線越陡峭、越靠近圖片的左上方,模型效果越好。

SAUC的含義是ROC曲線下的面積,其值域?yàn)閇0.0,1.0],模型的SAUC越接近1,則說明該模型的性能越好。

(9)

式中:na為真異類的個(gè)數(shù);nn為真正類的個(gè)數(shù);S為降序排列所有檢測值的異常分?jǐn)?shù)值中真異類的排序數(shù)值總和。

評(píng)價(jià)算法的執(zhí)行效率首先要分析各個(gè)算法時(shí)間復(fù)雜度的理論值,然后在同一軟硬件配置環(huán)境下執(zhí)行算法,根據(jù)運(yùn)行時(shí)間對(duì)算法的執(zhí)行效率進(jìn)行定量評(píng)價(jià)。

3 結(jié)果與分析

3.1 有效性分析

首先采用標(biāo)準(zhǔn)數(shù)據(jù)集Shuttle、Satellite與Annthyroid,對(duì)改進(jìn)的孤立森林算法、孤立森林算法、SCiForest和ReMa-iFoest進(jìn)行有效性分析。不同算法在不同標(biāo)準(zhǔn)數(shù)據(jù)集上的ROC曲線如圖3所示。從圖3可以看出,4種算法均能較好地識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)集中的異常數(shù)據(jù),但經(jīng)改進(jìn)的孤立森林算法的ROC曲線更靠近圖的左上方,在4種算法中效果最好,這是由于本文改進(jìn)的孤立森林算法結(jié)合分裂準(zhǔn)則與相對(duì)質(zhì)量方法,使其結(jié)果更優(yōu)。

采用AUC值定量評(píng)價(jià)模型效果,從而直觀地表示模型的優(yōu)劣。模型在標(biāo)準(zhǔn)數(shù)據(jù)集上計(jì)算的AUC值見表2(前3行)。由表2可知,本文所提出的改進(jìn)的孤立森林算法在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的異常檢測準(zhǔn)確度均高于其他3種算法,這主要是因?yàn)楦倪M(jìn)的算法在樹模型的建立中引入了最優(yōu)超平面,一方面能夠考慮數(shù)據(jù)點(diǎn)的多維屬性,提高了樹模型的精度;另一方面最優(yōu)的超平面能夠最大程度地將一組數(shù)據(jù)點(diǎn)分割成兩組離散度最小的數(shù)據(jù)集,將掩蓋在正常數(shù)據(jù)下的局部離群數(shù)據(jù)有效地孤立出來。在數(shù)據(jù)點(diǎn)遍歷孤立樹的過程中,采用相對(duì)質(zhì)量的算法計(jì)算異常分?jǐn)?shù),利用了異常點(diǎn)少而特殊的特點(diǎn),在數(shù)據(jù)中過早被孤立出來的數(shù)據(jù)則擁有越小的相對(duì)質(zhì)量。利用相對(duì)質(zhì)量來計(jì)算異常分?jǐn)?shù),能夠更直觀地找到隱藏在全局正常數(shù)據(jù)中的異常數(shù)據(jù)點(diǎn)。

綜合分析表1、表2可以看出,對(duì)于不存在局部異常數(shù)據(jù)的Shuttle數(shù)據(jù)集來說,4種算法在該數(shù)據(jù)上的表現(xiàn)都能達(dá)到0.99以上,這是由于孤立森林算法在處理大數(shù)據(jù)集上表現(xiàn)優(yōu)秀,其建立的樹模型能夠快速、準(zhǔn)確地對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類。然而,對(duì)于另外3種數(shù)據(jù)集,孤立森林算法自身的缺陷就暴露出來。由于算法在前期的樹模型構(gòu)建過程中用到的子樣本是通過對(duì)原始樣本集隨機(jī)采樣而來,并且在異常分?jǐn)?shù)檢測過程中,根據(jù)路徑來計(jì)算異常程度,這兩者都導(dǎo)致在異常檢測時(shí),局部數(shù)據(jù)中表現(xiàn)異常的數(shù)據(jù)被放到全局來觀測而很可能被誤判為正常。對(duì)于數(shù)據(jù)中存在局部異常數(shù)據(jù)點(diǎn)但數(shù)據(jù)屬性較少的數(shù)據(jù)集Satellite來說,改進(jìn)的孤立森林算法的AUC值略高于其他3種算法。對(duì)于數(shù)據(jù)中存在局部異常數(shù)據(jù)點(diǎn)但數(shù)據(jù)屬性較多的數(shù)據(jù)集Annthyroid來說,改進(jìn)的孤立森林算法的AUC值明顯高于其他算法,這是由于改進(jìn)的孤立森林算法能夠在檢測局部異常數(shù)據(jù)點(diǎn)的同時(shí)考慮數(shù)據(jù)點(diǎn)的多種屬性,提高了模型的檢測精度。

圖3 不同算法在不同數(shù)據(jù)集上的ROC曲線Fig.3 ROC curves of different algorithms on different data sets

表2 不同算法在不同數(shù)據(jù)集上的AUC值Tab.2 AUC values of different algorithms on different data sets

3.2 執(zhí)行效率分析

采用程序的運(yùn)行時(shí)間評(píng)價(jià)改進(jìn)的孤立森林算法、孤立森林算法、SCiForest及ReMa-iForest的執(zhí)行效率。不同的算法在不同數(shù)據(jù)集上的運(yùn)行時(shí)間見表3。

表3 不同算法在不同數(shù)據(jù)集的運(yùn)行時(shí)間Tab.3 Time consumption of different algorithms on different data sets單位:s

從表3可以看出,ReMa-iForest 算法的運(yùn)行時(shí)間明顯低于改進(jìn)的孤立森林算法、孤立森林算法及SCiForest。這是由于ReMa-iForest 沒有通過計(jì)算葉子節(jié)點(diǎn)與根結(jié)點(diǎn)的平均距離來計(jì)算異常分?jǐn)?shù),而是根據(jù)數(shù)據(jù)所在的葉子節(jié)點(diǎn)的相對(duì)質(zhì)量數(shù)來計(jì)算。同時(shí),ReMa-iForest 樹模型建立過程中,葉子節(jié)點(diǎn)數(shù)小于5 即可結(jié)束樹的建立,這樣既減少了樹模型的高度也減少了遍歷樹所用的時(shí)間。而SCiForest的運(yùn)行時(shí)間較其他3種算法來說都偏長,這是由于SCiForest 不僅在分裂節(jié)點(diǎn)添加了隨機(jī)超平面,還需要對(duì)隨機(jī)超平面進(jìn)行判斷選出最優(yōu)超平面,同時(shí)在數(shù)據(jù)點(diǎn)遍歷過程中,數(shù)據(jù)點(diǎn)需要先映射到超平面上再進(jìn)行判斷,這一做法雖然有效提高了模型的精度,但卻降低了模型的執(zhí)行效率。本文提出的改進(jìn)孤立森林算法綜合了SCiForest與ReMa-iForest的優(yōu)點(diǎn),中和了二者的缺點(diǎn),因此其計(jì)算時(shí)間介于兩者之間,既兼顧了算法的異常識(shí)別精度,又平衡了算法的執(zhí)行效率。

經(jīng)過理論分析可知,孤立森林算法在訓(xùn)練過程中訓(xùn)練t棵樹的時(shí)間復(fù)雜度為O(t(n+φ)log2(ψ)),測試階段測試n個(gè)數(shù)據(jù)點(diǎn)的時(shí)間復(fù)雜度為O(ntlog2(φ));SCiForest算法在訓(xùn)練過程中的時(shí)間復(fù)雜度為O(tτφ(qφ+log2(φ)+φ),測試階段的時(shí)間復(fù)雜度為O(qnφt);ReMa-iForest算法在訓(xùn)練過程中的時(shí)間復(fù)雜度為O(t(n+φ)log2(φ)),測試階段的時(shí)間復(fù)雜度為O(ntlog2(φ));改進(jìn)的孤立森林算法在訓(xùn)練過程中的時(shí)間復(fù)雜度為O(tτφ(qφ+log2(φ)+φ)),測試階段的時(shí)間復(fù)雜度為O(ntlog2(φ))。從時(shí)間復(fù)雜度上來看,從小到大排序?yàn)椋篟eMa-iForest、孤立森林、改進(jìn)的孤立森林、SCiForest算法。

3.3 催化裂化裝置排污數(shù)據(jù)集異常檢測

經(jīng)過有效性分析與算法執(zhí)行效率分析之后,本文采用改進(jìn)的孤立森林算法、孤立森林算法、SCiForest及ReMa-iForest對(duì)催化裂化裝置排污數(shù)據(jù)集進(jìn)行了異常值檢測。數(shù)據(jù)測試集共包含500個(gè)數(shù)據(jù)樣本,30個(gè)異常數(shù)據(jù)樣本,470個(gè)正常數(shù)據(jù)樣本;模型閾值設(shè)置為0.12。4種算法在催化裂化裝置排污數(shù)據(jù)集上的ROC曲線見圖3(d),AUC值見表2(第4行)。由圖3(d)可以看出,4種算法在催化裂化裝置排污數(shù)據(jù)集上表現(xiàn)較好,ROC曲線均位于圖的左上角,仔細(xì)觀察可以發(fā)現(xiàn)改進(jìn)的孤立森林方法的ROC曲線更加陡峭,結(jié)合表2中的AUC值可以看出,改進(jìn)的孤立森林算法的識(shí)別效果在4種算法中表現(xiàn)最優(yōu)。改進(jìn)的孤立森林算法在催化裂化裝置排污數(shù)據(jù)集上檢測出異常數(shù)據(jù)31個(gè),其中真異數(shù)據(jù)29個(gè),假異數(shù)據(jù)2個(gè),異常數(shù)據(jù)識(shí)別效果如圖4所示。圖4(a)為模型的識(shí)別效果,即模型在數(shù)據(jù)集中檢測出的異常數(shù)據(jù)與真正異常數(shù)據(jù)的分布關(guān)系。圖4(b)為異常檢測模型的檢測效果,即模型檢測出的異常數(shù)據(jù)中真異值與假異值的分布關(guān)系。經(jīng)計(jì)算可知,模型在排污數(shù)據(jù)測試集上的異常數(shù)據(jù)識(shí)別率為96.66%(即模型檢測的真異數(shù)據(jù)占總體異常數(shù)據(jù)的比),異常數(shù)據(jù)檢測準(zhǔn)確率為93.54%(即模型檢測的異常數(shù)據(jù)中真異數(shù)據(jù)的占比)。

圖4 催化裂化裝置排污數(shù)據(jù)異常識(shí)別效果Fig.4 Detection results of anomaly data in pollution emission data of FCCU

4 結(jié)束語

數(shù)據(jù)異常識(shí)別是數(shù)據(jù)分析中不可或缺的重要環(huán)節(jié)。本文對(duì)孤立森林算法進(jìn)行了深入研究,結(jié)合了分裂準(zhǔn)則與相對(duì)質(zhì)量對(duì)孤立森林算法進(jìn)行了改進(jìn)。采用標(biāo)準(zhǔn)數(shù)據(jù)集(Shuttle、Satellite、Annthyroid)對(duì)算法的異常識(shí)別效果進(jìn)行了有效性分析,并與常見的異常數(shù)據(jù)識(shí)別算法(經(jīng)典的孤立森林方法、SCiForest、ReMa-iForest)進(jìn)行了對(duì)比。采用改進(jìn)的孤立森林算法對(duì)催化裂化裝置外排污染數(shù)據(jù)集進(jìn)行了異常識(shí)別,對(duì)算法的有效性與執(zhí)行效率進(jìn)行了分析,結(jié)果表明,無論在標(biāo)準(zhǔn)數(shù)據(jù)集還是催化裂化裝置排污數(shù)據(jù)集,改進(jìn)的孤立森林算法均能在提高模型精確度的同時(shí)提高算法的執(zhí)行效率。本研究工作將為催化裂化裝置外排污染數(shù)據(jù)的異常識(shí)別方法提供有益參考,為后續(xù)的數(shù)據(jù)分析與處理提供數(shù)據(jù)支撐,為促進(jìn)煉化企業(yè)污染物外排穩(wěn)定達(dá)標(biāo)提供數(shù)據(jù)保障。

猜你喜歡
催化裂化樣本節(jié)點(diǎn)
催化裂化裝置柴油性質(zhì)綜合表征與模擬預(yù)測
催化裂化再生器殼體關(guān)鍵制造技術(shù)
基于圖連通支配集的子圖匹配優(yōu)化算法
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
結(jié)合概率路由的機(jī)會(huì)網(wǎng)絡(luò)自私節(jié)點(diǎn)檢測算法
面向復(fù)雜網(wǎng)絡(luò)的節(jié)點(diǎn)相似性度量*
采用貪婪啟發(fā)式的異構(gòu)WSNs 部分覆蓋算法*
規(guī)劃·樣本
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
關(guān)于催化裂化煉油技術(shù)的研究
进贤县| 长丰县| 江津市| 祁阳县| 沭阳县| 永昌县| 鹰潭市| 昆明市| 保德县| 合江县| 盐城市| 郓城县| 巫溪县| 乐昌市| 醴陵市| 汕头市| 琼结县| 新竹市| 房产| 潼关县| 保德县| 易门县| 兖州市| 桂东县| 新昌县| 江源县| 梓潼县| 扎赉特旗| 六盘水市| 调兵山市| 屏山县| 兰西县| 南江县| 桦川县| 高州市| 峨眉山市| 新竹市| 赞皇县| 巴青县| 宁远县| 南平市|