国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測

2022-06-24 10:01:54許志城印四華朱成就
計算機(jī)應(yīng)用與軟件 2022年4期
關(guān)鍵詞:子樹擠壓機(jī)特征向量

許志城 印四華 朱成就

1(廣東工業(yè)大學(xué)計算機(jī)學(xué)院 廣東 廣州 510006) 2(廣東工業(yè)大學(xué)機(jī)電工程學(xué)院 廣東 廣州 510006)

0 引 言

我國是鋁型材生產(chǎn)、出口和消費(fèi)大國。2015年我國鋁型材加工材產(chǎn)量達(dá)到26 000 kt/a,鋁合金擠壓材產(chǎn)量達(dá)到14 000 kt/a[1],居世界前列。進(jìn)一步的數(shù)據(jù)統(tǒng)計顯示,2017年中國擠壓鋁材產(chǎn)量繼續(xù)攀升[2],達(dá)到了19 500 kt/a,占全球總產(chǎn)量的55%,擁有各種擠壓力的現(xiàn)代化油壓機(jī)約1 850臺,約占全球總臺數(shù)的70%。鋁材生產(chǎn)與消費(fèi)規(guī)模在不斷擴(kuò)大,對鋁型材生產(chǎn)過程的進(jìn)一步分析,已經(jīng)成為促進(jìn)鋁材生產(chǎn)進(jìn)一步發(fā)展的迫切需求。

傳感器設(shè)備具有價格低廉以及非侵入性的特性,促使物聯(lián)網(wǎng)技術(shù)正越來越多地被應(yīng)用到工業(yè)大數(shù)據(jù)領(lǐng)域中。由于生產(chǎn)流程復(fù)雜,工業(yè)設(shè)備上的傳感器數(shù)量眾多且取樣頻率高,數(shù)據(jù)累積速度極快。產(chǎn)生的數(shù)據(jù)具有時間序列排布、數(shù)據(jù)維度高且存在大量無標(biāo)簽數(shù)據(jù)、機(jī)理模型復(fù)雜等特點(diǎn),并且特殊工況的發(fā)生常常會帶來較大的經(jīng)濟(jì)損失[3]。擠壓機(jī)是鋁型材生產(chǎn)線上的核心設(shè)備,在發(fā)展過程中其結(jié)構(gòu)日趨于大型化、復(fù)雜化及自動化,若能對生產(chǎn)過程中出現(xiàn)的異常及時進(jìn)行檢測與分析,將會提高整個生產(chǎn)過程的效率,從而帶來較大的應(yīng)用價值。

異常檢測一直以來都是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),被廣泛應(yīng)用于設(shè)備狀態(tài)監(jiān)測、網(wǎng)絡(luò)入侵檢測以及金融欺詐檢測等領(lǐng)域。目前,面向工業(yè)生產(chǎn)的異常檢測方法的研究主要集中在利用不同的異常檢測方法解決不同工業(yè)生產(chǎn)環(huán)境下的特定問題上。為了避免發(fā)電廠汽輪機(jī)健康監(jiān)測系統(tǒng)由于噪聲問題出現(xiàn)不必要的假警報與故障誤診,Ajami等[4]應(yīng)用主成分分析法(PCA)排除了次要的影響因素,提升了故障診斷的正確性和有效性;Kim等[5]結(jié)合無標(biāo)簽傳感設(shè)備與邊緣計算的場景提出了一種壓縮卷積變分自編碼器方法(SCVAE),用來解決無標(biāo)簽傳感設(shè)備在小型生產(chǎn)工廠中的異常檢測問題;在分切機(jī)運(yùn)行質(zhì)量管理與質(zhì)量控制研究中,Kanawaday等[6]利用差分整合移動平均自回歸(ARIMA)模型對分切機(jī)可能產(chǎn)生的錯誤和質(zhì)量缺陷進(jìn)行預(yù)測,優(yōu)化了整個生產(chǎn)過程;針對擠壓機(jī)設(shè)備異常原因復(fù)雜、檢測方法時效性不足等問題,楊慧芳[7]結(jié)合專家知識提出了一種基于貝葉斯網(wǎng)絡(luò)的鋁型材擠壓過程異常檢測方法,極大地縮短了網(wǎng)絡(luò)構(gòu)建周期,提高了檢測的效率。

深度結(jié)合專家知識、利用復(fù)雜的數(shù)學(xué)模型進(jìn)行計算以及從整體數(shù)據(jù)的角度進(jìn)行統(tǒng)計學(xué)分析,上述方法在一定程度上解決了工業(yè)場景中常見的各種問題。但在實(shí)際場景中,工業(yè)生產(chǎn)數(shù)據(jù)更多的是以流數(shù)據(jù)的形式表現(xiàn)的。流數(shù)據(jù)通常數(shù)量巨大、生成速度快,而且其分布可能會隨著時間的推移而發(fā)生變化,即概念漂移現(xiàn)象[8]。因此面向流數(shù)據(jù)的異常檢測模型必須及時更新,適應(yīng)可能發(fā)生變化的數(shù)據(jù),保證模型的有效性。

在眾多機(jī)器學(xué)習(xí)算法中,集成學(xué)習(xí)算法具有易于更新、適應(yīng)性強(qiáng)、性能較好的優(yōu)點(diǎn),是用于流數(shù)據(jù)處理最廣泛的技術(shù)之一。孤立森林[9]是集成學(xué)習(xí)算法中的一類典型的無監(jiān)督異常檢測算法。該算法將異常數(shù)據(jù)定義為容易被孤立的離群點(diǎn),即遠(yuǎn)離于高密度數(shù)據(jù)群體的孤立的點(diǎn)。其算法思想為,使用超平面劃分的方式隨機(jī)選擇數(shù)據(jù)空間的某維度進(jìn)行劃分子空間,迭代地對子空間進(jìn)行劃分構(gòu)造出子樹,反復(fù)構(gòu)造出多個子樹形成孤立森林。在劃分過程中,越是稀疏的數(shù)據(jù)點(diǎn)越早被劃分開來,在子樹中的深度也就越小,在孤立森林中的平均深度也越小。

孤立森林算法有效地解決了高維度數(shù)據(jù)集異常檢測中的2個問題[10]:① 不需要計算數(shù)據(jù)點(diǎn)之間的距離,算法的時間復(fù)雜度為線性,不隨維度的增加而增加;② 采用集成學(xué)習(xí)的策略,對大型數(shù)據(jù)集的檢測性能好,子樹越多,孤立森林的算法性能越穩(wěn)定。同時,由于子樹之間相互獨(dú)立,子樹的構(gòu)造與使用不會受到其他樹的影響,算法還可以部署在大型分布式系統(tǒng)上進(jìn)行分布式并行計算。

基于以上分析,為了解決擠壓機(jī)流數(shù)據(jù)中存在的噪聲問題以及概念漂移問題,本文提出了一種基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測方法,所提出的算法主要用來檢測擠壓機(jī)在運(yùn)行中可能存在的短時間狀態(tài)異常,即異常檢測中的序列異常。實(shí)驗結(jié)果表明,本文所提出的算法不僅可以實(shí)時地檢測出擠壓機(jī)在運(yùn)行中存在的狀態(tài)異常,還具有較高的準(zhǔn)確性。

1 問題描述

1.1 擠壓機(jī)系統(tǒng)結(jié)構(gòu)分析

本文所研究的對象為華南某大型鋁型材生產(chǎn)企業(yè)擠壓車間型號為SY-3600Ton的臥式液壓直接傳動型鋁型材擠壓機(jī),該類型擠壓機(jī)是目前鋁型材生產(chǎn)企業(yè)廣泛使用的一種中型擠壓機(jī),其基本結(jié)構(gòu)如圖1所示。

圖1 擠壓機(jī)基本結(jié)構(gòu)圖

鋁型材擠壓機(jī)主要由三部分組成[11],分別為電氣控制系統(tǒng)、機(jī)械系統(tǒng)和液壓系統(tǒng)。機(jī)械系統(tǒng)包括擠壓機(jī)底座、張力柱、擠壓桿、剪刀機(jī)和滑動模座等單元;液壓系統(tǒng)包括油泵站、柱塞泵、液壓控制閥、主缸、副缸、閥板和液壓油管等;電氣系統(tǒng)主要由顯示屏幕、PLC可編程序控制器、操作臺、上位工業(yè)控制機(jī)和供電柜等組成。在擠壓工藝流程中,各個系統(tǒng)間產(chǎn)生的電能、機(jī)械能和液壓能相互轉(zhuǎn)換,共同完成工作。

1.2 擠壓機(jī)生產(chǎn)異常分析

擠壓機(jī)目前的運(yùn)作方式為半自動化運(yùn)作,需要人工使用PLC操作臺進(jìn)行操作。完整的鋁型材擠壓工藝流程包括預(yù)熱、擠壓、壓余、矯直、鋸切、冷加工以及人工時效等步驟。擠壓機(jī)負(fù)責(zé)鋁材初期的塑性加工過程,參與了預(yù)熱、擠壓和壓余三個階段,其中包含了很多影響擠壓產(chǎn)品質(zhì)量的相關(guān)因素[12],如圖2所示。在預(yù)熱階段,擠壓機(jī)開始擠壓前,需要利用多個加熱子系統(tǒng)先對鋁棒、模具以及盛錠筒進(jìn)行加熱,使溫度達(dá)到工藝要求;在擠壓階段,為了保證擠壓產(chǎn)品質(zhì)量與最大化模具使用壽命,需要控制擠壓速度,同時使用氮?dú)饪刂颇>叩臏囟?,使鋁棒在擠壓桿推力的作用下從擠壓筒另一端的模具孔流出,得到與擠壓模具孔形狀尺寸相同的產(chǎn)品;在壓余階段,即擠壓的最后階段,使擠壓墊片與模子保持一定距離,擠壓筒外層金屬向擠壓墊再向模子流出,會形成“擠壓縮尾”,需要擠壓機(jī)利用剪刀機(jī)將含有雜質(zhì)的縮尾進(jìn)行剪切。擠壓機(jī)的生產(chǎn)過程中各個子系統(tǒng)之間相互配合,其同一時刻的運(yùn)行狀態(tài)表示了擠壓系統(tǒng)當(dāng)前的運(yùn)行狀態(tài)。

圖2 擠壓機(jī)擠壓過程相關(guān)影響因素

在實(shí)際生產(chǎn)中,擠壓機(jī)設(shè)備不僅存在擠壓桿變形、傾斜等人為可觀察到的異常,還存在許多難以直接觀察到的異常,如液壓系統(tǒng)中的管道和擠壓泵零件故障。若沒有及時處理異常,極易引起其他相關(guān)異常。傳感器設(shè)備在使用過程中,由于電流電壓不穩(wěn)定、通信異常等因素會導(dǎo)致部分采集點(diǎn)數(shù)據(jù)偏離于真實(shí)值,產(chǎn)生許多噪聲,影響數(shù)據(jù)的質(zhì)量。此外,設(shè)備部件的老化與更換、工況變化、擠壓工藝改進(jìn)以及氣候狀況等因素還會使得設(shè)備運(yùn)行狀態(tài)所隱含的概念發(fā)生改變,發(fā)生概念漂移現(xiàn)象。這些因素都嚴(yán)重影響了當(dāng)前擠壓機(jī)異常檢測技術(shù)的有效性。因此,如何利用擠壓機(jī)各個子系統(tǒng)的數(shù)據(jù)及時發(fā)現(xiàn)異常,同時克服噪聲和概念漂移帶來的檢測困難是本文需要解決的關(guān)鍵問題。

2 基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測

為了檢測擠壓機(jī)在運(yùn)行中可能存在的短時間狀態(tài)異常,本文提出了一種基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測方法-多特征半空間孤立森林算法,簡稱MHSIF算法。本文所提模型進(jìn)行異常檢測的過程如圖3所示。算法開始時,使用原始數(shù)據(jù)初始化模型。模型在初始化后在新的檢測周期讀入擠壓機(jī)流數(shù)據(jù)進(jìn)行實(shí)時異常檢測;當(dāng)周期結(jié)束后,若異常率大于閾值,表示存在概念漂移,則使用當(dāng)前周期數(shù)據(jù)更新模型,保證模型的有效性。

圖3 基于孤立森林算法的流數(shù)據(jù)異常檢測過程

2.1 相關(guān)定義

流數(shù)據(jù)可以認(rèn)為是隨時間變化不斷增長的數(shù)據(jù)。通過提取數(shù)據(jù)子序列的特征來表示設(shè)備的狀態(tài),不僅可以充分利用時間序列數(shù)據(jù)連續(xù)相關(guān)的特性,還能在一定程度上避免點(diǎn)數(shù)據(jù)噪聲對設(shè)備狀態(tài)異常檢測的影響。

定義1(多維流數(shù)據(jù)) 記一組n維時間序列流數(shù)據(jù)X=,則任一維度Xi=<…,Xi1,…,Xij,…>。其中,Xij表示第i維數(shù)據(jù)在j時刻的值,任意一對數(shù)(Xij,Xi(j+1))所在兩個時刻之間嚴(yán)格遞增,且Xi的長度隨著新數(shù)據(jù)的流入不斷增長。

均值是數(shù)據(jù)中心位置的一種度量,反映總體數(shù)據(jù)的一般水平,其計算式為:

(1)

方差反映了數(shù)據(jù)的變異程度,可以衡量一組數(shù)據(jù)離散程度,其計算式為:

(2)

偏度是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量。偏度小于0,表示當(dāng)前數(shù)據(jù)分布為左偏態(tài);反之,表示當(dāng)前數(shù)據(jù)分布為右偏態(tài)。偏度的絕對值越高,表示數(shù)據(jù)分布的偏離程度越高,其計算式為:

(3)

峰度是描述總體序列中數(shù)據(jù)分布形態(tài)陡緩程度的統(tǒng)計量。峰度越大表示序列分布越陡峭,峰度越小表示序列數(shù)據(jù)分布越平坦,其計算式為:

(4)

2.2 半空間孤立森林算法簡述

Tan等[14]在孤立森林算法的基礎(chǔ)上結(jié)合Ting等[15]的質(zhì)量評估方法提出了半空間孤立森林(HS-Trees)算法。HS-Trees模型子樹的建立過程主要分為子樹構(gòu)造與節(jié)點(diǎn)質(zhì)量計算兩個階段。在子樹的構(gòu)造階段,得到數(shù)據(jù)各維度的取值邊界,隨機(jī)選擇某一維度,以該維度的中點(diǎn)作為劃分點(diǎn)切割子空間。更新子空間的維度信息,再次對各子空間進(jìn)行劃分,迭代劃分過程得到半空間樹,如算法1所示。

算法1HS-Trees子樹構(gòu)建算法-BuildTree

輸入:minArr & maxArr-每一維度中最大最小值組成的數(shù)

組,k-當(dāng)前節(jié)點(diǎn)深度

輸出:HS-Tree-子樹的根節(jié)點(diǎn)

1. if k==最大深度then

2. return當(dāng)前節(jié)點(diǎn);

3. else

4. 隨機(jī)選擇某一維度q;

5. p←(maxArr[q]+minArr[q])/2;

6. temp←maxArr[q];maxArr[q]←p;

7. Left←BuildHS-Tree(minArr,maxArr,k+1);

8. maxArr[q]←temp;min[q]←p;

9. Right←BuildHS-Tree(minArr,maxArr,k+1);

10. return Node(Left,Right,p,q);

//返回切割維度為q,

//切割值為q以Left為左子樹,Right為右子樹的節(jié)點(diǎn)

11. end if

在節(jié)點(diǎn)質(zhì)量計算階段,記錄子樹各節(jié)點(diǎn)中一個檢測周期內(nèi)數(shù)據(jù)點(diǎn)經(jīng)過的次數(shù),將其作為對應(yīng)節(jié)點(diǎn)的質(zhì)量。子樹建立完成后,使用評分函數(shù)計算新數(shù)據(jù)點(diǎn)的異常值,其表達(dá)式為:

(5)

式中:node表示在樹T中x經(jīng)過的所有節(jié)點(diǎn);node.mass表示節(jié)點(diǎn)的質(zhì)量,h為對應(yīng)節(jié)點(diǎn)在樹中的深度。

在HS-Trees算法中,稱各子樹異常值的均值為該數(shù)據(jù)點(diǎn)的異常值。異常值越小表示該數(shù)據(jù)點(diǎn)是異常數(shù)據(jù)的可能性越大,且異常值的大小隨子樹數(shù)量的增多趨于穩(wěn)定。

與一般孤立森林算法的不同之處在于,HS-Trees算法中使用數(shù)據(jù)的維度屬性構(gòu)建子樹結(jié)構(gòu),模型的結(jié)構(gòu)在新的數(shù)據(jù)分布中仍具有適用性。同時,算法利用了質(zhì)量評估方法計算數(shù)據(jù)的異常值,因此檢測器可以快速適應(yīng)并學(xué)習(xí)數(shù)據(jù)流中的變化而無需改變模型的基本結(jié)構(gòu),只需在新的檢測周期中更新節(jié)點(diǎn)質(zhì)量即可達(dá)更新模型。但是在對HS-Trees算法的分析中發(fā)現(xiàn)算法存在以下兩個問題:① HS-Trees算法中判斷出異常的方法為,在完成一個檢測周期后對數(shù)據(jù)點(diǎn)的異常值進(jìn)行排序,異常值最小的前n個數(shù)據(jù)點(diǎn)被認(rèn)為是異常數(shù)據(jù)。異常結(jié)果的反饋存在延遲,并且檢測效果嚴(yán)重依賴于對異常率的判斷。在異常率大小存在波動的場景中容易出現(xiàn)錯判,漏判的情況。② HS-Trees算法中,隨著檢測周期的切換,都會做一次節(jié)點(diǎn)權(quán)值更新,存在可能的重復(fù)的模型更新操作。

2.3 多特征半空間孤立森林算法

結(jié)合HS-Trees算法效率高、時間復(fù)雜度低的特點(diǎn)與時間序列數(shù)據(jù)連續(xù)相關(guān)的特性,本文針對擠壓機(jī)流數(shù)據(jù)提出了一種多特征半空間孤立森林異常檢測算法。本文算法以多維流數(shù)據(jù)子序列的統(tǒng)計向量作為基本檢測單元,在算法開始階段需要先對多維流數(shù)據(jù)子序列進(jìn)行切割。經(jīng)由統(tǒng)計特征提取算法轉(zhuǎn)換成多種統(tǒng)計特征值后,再由對應(yīng)的MHSIF異常檢測模型計算出對應(yīng)統(tǒng)計特征向量的異常值,其檢測過程如圖4所示。

圖4 MHSIF算法異常檢測過程

具體而言,多特征半空間孤立森林算法有3個重要組成部分,分別為統(tǒng)計特征值的提取、MHSIF模型的構(gòu)建和使用MHSIF模型異常檢測過程。

多維流數(shù)據(jù)統(tǒng)計特征值的提取過程如算法2所示,算法輸出的結(jié)果為經(jīng)過對應(yīng)統(tǒng)計特征公式計算轉(zhuǎn)換后的特征向量集合。具體的算法的處理過程為:① 通過統(tǒng)計特征名稱得到預(yù)先定義好的統(tǒng)計特征計算函數(shù);② 按照預(yù)先設(shè)置好的子序列長度截取多維流數(shù)據(jù)子序列,并使用統(tǒng)計特征計算函數(shù)計算出子序列的統(tǒng)計特征向量;③ 合并并輸出多維流數(shù)據(jù)各個統(tǒng)計特征值計算結(jié)果。算法2計算了多維流數(shù)據(jù)子序列的不同統(tǒng)計特征值,并以集合的方式將計算結(jié)果輸出供異常檢測算法使用。

算法2統(tǒng)計特征值提取算法-TransData

輸入:data-多維流數(shù)據(jù),sub_size-子序列長度,columns-維度列名,feature_list-統(tǒng)計特征名稱集合

輸出:result-經(jīng)對應(yīng)函數(shù)集合轉(zhuǎn)換后的統(tǒng)計特征向量集合

1. result←{};

//定義變量,保存統(tǒng)計特征提取結(jié)果

2. for feature_name in feature_list do

3. func←get_func(feature_name);

//通過統(tǒng)計特征名

//feature_name取出預(yù)先定義好的lambda函數(shù)

4. result_temp←{};

//定義臨時變量,保存對應(yīng)統(tǒng)計

//特征提取結(jié)果

5. for i←1 to len(data)/sub_size do

6. data_feature←get_feature(data,i,func,sub_size);

//使用lambda函數(shù)func計算數(shù)據(jù)流data的子序列統(tǒng)計特征值

7. result_temp←result_temp∪data_feature

8. end

9. result←result∪result_temp;

10. end

11. return result;

在HS-Trees算法的基礎(chǔ)上,本文提出了MHSIF模型的構(gòu)建方法,如算法3所示。為了在多個角度描述擠壓機(jī)流數(shù)據(jù)的設(shè)備狀態(tài),MHSIF算法利用單個檢測周期內(nèi)多維流數(shù)據(jù)子序列的多種特征向量數(shù)據(jù)構(gòu)建了一個多特征HS-Trees集合,本文將其稱為MHSIF模型。由2.2節(jié)可知,MHSHF模型中子樹的結(jié)構(gòu)只需要構(gòu)建一次即可,模型在檢測過程中的更新主要是對樹節(jié)點(diǎn)的質(zhì)量進(jìn)行重新計算。

算法3MHSIF模型構(gòu)建算法-BuildMSHIF

輸入:data-單周期歷史特征向量數(shù)據(jù)集,tree_num-單個特征森林中子樹的數(shù)量,feature_list-統(tǒng)計特征名稱集合

輸出:trees_list-特征向量子樹集合

1. trees_list←{};

//定義變量,保存特征向量子樹集合

2. for feature in feature_list do

3. max,min←get_side(data[feature]);

//取得每一維度最值組成的數(shù)組

4. for i←1 to tree_num do

5. t←BuildTree(max,min,0);

//構(gòu)建HS-Tree子樹

6. update_mass(t,data[feature]);

//計算節(jié)點(diǎn)質(zhì)量

7. trees_list[feature]←trees_list[feature]∪ t;

//合并對應(yīng)特征的半空間孤立森林子樹

8. end

9. end

10. return trees_list;

基于HS-Trees算法的MHSIF異常檢測模型需要解決一個關(guān)鍵問題,即HS-Trees算法檢測異常存在反饋延遲問題。HS-Trees算法的反饋延遲問題的根源在于,在不同長度的檢測周期中評分函數(shù)值域會發(fā)生改變,從而無法通過同一閾值對異常數(shù)據(jù)進(jìn)行劃分。為了使模型可以在不同長度的樣本中具有通用性,文獻(xiàn)[9]利用二叉樹的特性對典型孤立森林的評分函數(shù)進(jìn)行歸一化。本文參照文獻(xiàn)[9]中典型孤立森林評分函數(shù)的歸一化公式對HS-Trees評分函數(shù)做了進(jìn)一步改進(jìn),對計算出來的異常值進(jìn)行歸一化,使算法可以利用閾值判斷實(shí)時反饋異常檢測的結(jié)果。

設(shè)有任一統(tǒng)計特征向量x,對應(yīng)的特征值森林T,T的檢測周期為n,子樹的最大深度為max_depth,則特征向量x在T中的異常值歸一化計算公式如式(6)所示。

(6)

H(k)=ln(k)+ξξ=0.577 215 664 9

E(score(x,t))表示特征向量x在特征值森林中的平均異常分?jǐn)?shù);c(n)表示在特征值森林中查找失敗的平均異常值;H(k)為調(diào)和數(shù)公式,ξ為歐拉常數(shù)。對歸一化后的異常值,本文的判斷異常數(shù)據(jù)的標(biāo)準(zhǔn)為:① 若特征向量的異常值小于或接近0.5,則認(rèn)為其是正常實(shí)例的可能性較大;② 若特征向量的異常值遠(yuǎn)大于0.5,則認(rèn)為其是異常的可能性很大。

流數(shù)據(jù)經(jīng)算法3轉(zhuǎn)換成特征向量后,即可使用MHSIF模型進(jìn)行異常檢測,其檢測過程如算法4所示。利用MHSIF模型可以計算出同一數(shù)據(jù)序列不同特征向量的異常值,并且實(shí)時地記錄與反饋數(shù)據(jù)序列的檢測結(jié)果。具體的算法的處理過程為:① 在開始檢測前,判斷當(dāng)前是否進(jìn)入新的檢測周期;進(jìn)入新的檢測周期前,若前一檢測周期異常率高于閾值則認(rèn)為模型出現(xiàn)概念漂移,使用前一周期數(shù)據(jù)更新模型節(jié)點(diǎn)質(zhì)量并重置記錄模型狀態(tài)的相關(guān)變量;② 分別用對應(yīng)的特征森林計算不同類別特征的平均異常值;計算出平均異常值后,使用式(6)進(jìn)行歸一化;③ 若某特征歸一化后的異常值超過閾值則認(rèn)為該特征可能存在異常;若數(shù)據(jù)序列中出現(xiàn)異常的特征數(shù)超過兩種則認(rèn)為該數(shù)據(jù)序列為異常數(shù)據(jù)序列。

算法4MHSIF異常檢測算法-Predict

輸入:trans_data-特征向量數(shù)據(jù)集,feature_list-統(tǒng)計特征名稱集合,trees_list-特征向量對應(yīng)的子樹集合,threshold_outlier-異常值閾值,detecion_size-檢測周期長度

輸出:result-異常值計算結(jié)果

1. result←{};

//定義變量,保存異常值結(jié)果

2. for i←1 to len(trans_data) do

3. if當(dāng)前檢測數(shù)>=detection_size then

4. if異常率>=threshold_outlier then

5. 使用當(dāng)前周期數(shù)據(jù)更新模型節(jié)點(diǎn)質(zhì)量;

6. end if

7. cur_data←{};

//清空當(dāng)前周期數(shù)據(jù)

8. 當(dāng)前檢測數(shù)及異常數(shù)歸零;

9. end if

10. for feature in feature_list do

11. s←0;

12. for tree in trees_list[feature] do

13. s←s+score(trans_data[i],tree);

//計算特征向量在各子樹的異常值

14. end

15 s←balance_score(s/trees_num);

//使用平衡函數(shù)歸一化異常值的均值

16. result[feature]←result[feature] ∪s;

17. end

18. if scores中異常的特征數(shù)超過兩種 then

19. 當(dāng)前異常數(shù)加1;

20. end if

21. cur_data←cur_data∪trans_data[i];

//記錄當(dāng)前周期數(shù)據(jù)點(diǎn)

22. end

23. return result

3 實(shí)驗與結(jié)果分析

3.1 實(shí)驗環(huán)境與數(shù)據(jù)

本文的實(shí)驗所使用的環(huán)境為Intel(R) Core(TM) i5- 7300HQ @ 2.5 GHz,16 GB RAM,Windows 10 64位系統(tǒng),算法采用Python 3.7實(shí)現(xiàn)。

本文采用異常檢測領(lǐng)域中最常用的三個指標(biāo),正確率、查全率以及精確率,對模型的異常檢測性能進(jìn)行驗證。其中,正確率表示模型判斷正確的數(shù)量占總數(shù)據(jù)的比例;查全率表示被正確檢測出來的異常數(shù)目占實(shí)際異??倲?shù)的比例;精確率表示被正確檢測出來的異常數(shù)目占被檢測為異常的總數(shù)的比例。

3.2 結(jié)果分析

為了評估MHSIF算法的有效性及檢測效果,本文設(shè)計了兩個實(shí)驗:① 驗證改進(jìn)后的HS-Trees模型是否能在原始環(huán)境中有效地區(qū)分異常數(shù)據(jù),解決原算法中異常結(jié)果反饋存在延遲的問題;② 驗證異常檢測算法在擠壓機(jī)流數(shù)據(jù)的背景下的檢測效果。實(shí)驗使用文獻(xiàn)[14]中HS-Trees模型設(shè)置的相關(guān)參數(shù),將檢測周期設(shè)置為250,森林子樹數(shù)目為25,子樹的最大深度設(shè)為15。

3.2.1實(shí)驗一

實(shí)驗一使用KDDCup99數(shù)據(jù)庫中的HTTP與SMTP入侵檢測數(shù)據(jù)集進(jìn)行實(shí)驗,文獻(xiàn)[14]用其作為實(shí)驗數(shù)據(jù)集用來驗證HS-Trees模型的有效性。將HS-Trees算法中的評分函數(shù)替換為異常值歸一化公式,即式(6),將判斷異常的閾值設(shè)置為0.6。取數(shù)據(jù)集中各1 000條數(shù)據(jù)作為測試數(shù)據(jù),使用替換評分函數(shù)后的HS-Trees算法對數(shù)據(jù)進(jìn)行異常檢測。

使用改進(jìn)后的HS-Trees算法對HTTP測試數(shù)據(jù)集進(jìn)行異常檢測。計算后的異常值分布散點(diǎn)圖和概率密度分布圖如圖5和圖6所示。由圖可知,算法成功將模型計算的異常值范圍限制在0到1之間,并且標(biāo)簽為正常的數(shù)據(jù)的異常值主要集中在區(qū)間[0,0.5]內(nèi),標(biāo)簽為異常的數(shù)據(jù)的異常值主要集中在區(qū)間(0.5,1]內(nèi),表明使用本文所提的判斷異常數(shù)據(jù)的標(biāo)準(zhǔn)可以有效地將異常數(shù)據(jù)識別出來。

圖5 HTTP測試數(shù)據(jù)異常值分布散點(diǎn)圖

圖6 HTTP測試集異常值概率密度分布圖

由表1可知,新的異常數(shù)據(jù)判斷策略有效地檢測出了HTTP數(shù)據(jù)集和SMTP數(shù)據(jù)集中的異常。使用異常值歸一化公式計算異常值可以在保證算法檢測性能不降低的前提下解決原算法中異常結(jié)果反饋存在延遲的問題。

表1 改進(jìn)HS-Trees算法異常檢測算法結(jié)果

3.2.2實(shí)驗二

實(shí)驗二使用的數(shù)據(jù)來源于華南某大型鋁型材生產(chǎn)企業(yè)能源管理系統(tǒng)的數(shù)據(jù)庫,本文選擇擠壓車間中型號為SY-3600Ton的擠壓機(jī)設(shè)備在2018年1月至3月采集的生產(chǎn)數(shù)據(jù)。其中數(shù)據(jù)為每10秒采集一次的流數(shù)據(jù),包含了擠壓機(jī)、棒爐、冷床、模具爐以及風(fēng)冷電柜等采集點(diǎn)的用電量、電流和電壓數(shù)據(jù)。

在實(shí)驗前,先對數(shù)據(jù)進(jìn)行降采樣,取得數(shù)據(jù)間時間間隔為1分鐘的時序數(shù)據(jù)集,其中,將電量等累計數(shù)據(jù)進(jìn)行偏移量計算,得到固定時間間隔的電量偏移量集合,其余數(shù)據(jù)進(jìn)行時間間隔等距采樣。設(shè)當(dāng)周期內(nèi)異常率超過3%時認(rèn)為模型存在概念漂移,以是否更新模型作為變量條件,子序列長度設(shè)置為6,使用MHSIF算法進(jìn)行實(shí)驗。

由圖7可知,隨著檢測周期的切換,擠壓機(jī)流數(shù)據(jù)會發(fā)生概念漂移現(xiàn)象,沒有采用更新策略的MHSIF模型的查全率在逐步降低。

圖7 不同更新策略下MSHIF算法查全率對比圖

由表2可知,與采用不更新策略的模型相比,采用更新策略的MHSIF算法在正確率、查全率以及精確率三個方面都有較大的優(yōu)勢。本文所提出的基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測算法可以有效地檢測擠壓機(jī)在運(yùn)行中可能存在的設(shè)備狀態(tài)異常。

表2 MHSIF算法異常檢測算法結(jié)果

4 結(jié) 語

為了檢測出擠壓機(jī)在運(yùn)行中可能存在的設(shè)備狀態(tài)異常,本文提出了基于孤立森林算法的擠壓機(jī)流數(shù)據(jù)異常檢測方法。針對數(shù)據(jù)集中存在噪聲無法正確反映設(shè)備狀態(tài)的問題,算法抽取數(shù)據(jù)的序列特征用來表示設(shè)備在某一時間段的狀態(tài),避免了噪聲數(shù)據(jù)對異常檢測效果的影響。同時,本文在半空間孤立森林(HS-Trees)算法[14]的基礎(chǔ)上做了改進(jìn),解決了原算法中存在的結(jié)果反饋延遲問題,使其能更好地適應(yīng)流數(shù)據(jù)應(yīng)用場景。實(shí)驗顯示,本文所提出的算法不僅可以實(shí)時地檢測出擠壓機(jī)在運(yùn)行中存在的狀態(tài)異常,還具有較高的準(zhǔn)確性。

猜你喜歡
子樹擠壓機(jī)特征向量
黑莓子樹與烏鶇鳥
重慶新美魚集團(tuán)有8臺擠壓機(jī)
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
一種新的快速挖掘頻繁子樹算法
克羅內(nèi)克積的特征向量
擠壓機(jī)前梁結(jié)構(gòu)輕量化設(shè)計
書本圖的BC-子樹計數(shù)及漸進(jìn)密度特性分析?
一類特殊矩陣特征向量的求法
基于覆蓋模式的頻繁子樹挖掘方法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
冕宁县| 阿拉善盟| 和平区| 霍山县| 江永县| 白玉县| 资中县| 德化县| 大城县| 育儿| 马龙县| 吉安市| 新乡县| 荥经县| 临桂县| 北川| 蕉岭县| 北宁市| 大余县| 安吉县| 孟州市| 龙泉市| 崇礼县| 灵台县| 库尔勒市| 井陉县| 阿图什市| 息烽县| 岗巴县| 金溪县| 句容市| 鄂伦春自治旗| 垦利县| 永清县| 西华县| 阿拉善左旗| 获嘉县| 漯河市| 望城县| 赣州市| 若羌县|