国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孤立森林模型的企業(yè)用水異常檢測(cè)研究

2019-06-30 00:26:46巫朝星
企業(yè)科技與發(fā)展 2019年11期
關(guān)鍵詞:異常檢測(cè)公共安全

巫朝星

【摘 要】文章基于企業(yè)用水量,提出一種結(jié)合業(yè)務(wù)規(guī)則和無(wú)監(jiān)督算法的企業(yè)用水異常檢測(cè)方法。首先基于業(yè)務(wù)經(jīng)驗(yàn)的凝練規(guī)則,將數(shù)據(jù)集分為含有顯著異常的部分和含有潛在異常的部分。然后針對(duì)含有顯著異常的部分,通過分類規(guī)則判定異常類型;針對(duì)含有潛在異常的部分,則利用孤立森林算法進(jìn)行異常檢測(cè),并對(duì)異常進(jìn)行聚類,判定異常類型。在企業(yè)用水量數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠找出存在異常的企業(yè)并把握異常的模式。

【關(guān)鍵詞】公共安全;異常檢測(cè);孤立森林

【中圖分類號(hào)】TP311.13 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2019)11-0061-03

0 引言

異常檢測(cè)是一種數(shù)據(jù)挖掘技術(shù),是指在從數(shù)據(jù)集中找出其行為不同于預(yù)期的過程[1],已經(jīng)被應(yīng)用于眾多領(lǐng)域,如金融、醫(yī)療和圖像處理等[2]。如今,這項(xiàng)技術(shù)也被一些電力公司和自來(lái)水公司所采用,主要目的是降低公司運(yùn)營(yíng)成本。如自來(lái)水公司會(huì)對(duì)城市水管網(wǎng)區(qū)用水進(jìn)行監(jiān)測(cè),尋找其中的異常模式,這為公司實(shí)施科學(xué)化運(yùn)行管理提供重要依據(jù)[3-5];電力公司檢測(cè)異常用電模式降低非技術(shù)性損失,如監(jiān)測(cè)用戶竊電和欺詐行為,降低公司運(yùn)營(yíng)成本[6-9]。在公共安全部門,異常檢測(cè)尚未得到廣泛應(yīng)用。企業(yè)用水量作為企業(yè)日常資源消耗的數(shù)據(jù)之一,一定程度上反映了企業(yè)運(yùn)營(yíng)的基本狀況,如企業(yè)生產(chǎn)的規(guī)模和狀態(tài)。對(duì)企業(yè)用水量的監(jiān)測(cè)可以了解企業(yè)的生產(chǎn)運(yùn)作狀態(tài),若能及時(shí)發(fā)現(xiàn)生產(chǎn)運(yùn)作狀態(tài)異常企業(yè),對(duì)于保護(hù)公共財(cái)產(chǎn)和維護(hù)社會(huì)安全有十分重要的意義。然而,各種規(guī)模的企業(yè)和海量的用水?dāng)?shù)據(jù)為監(jiān)測(cè)帶來(lái)了挑戰(zhàn),且人工監(jiān)測(cè)和頻繁的現(xiàn)場(chǎng)探測(cè)消耗大量人力、物力,成本較高。因此,公共安全部門亟需一套行之有效、基于海量數(shù)據(jù)的異常企業(yè)檢測(cè)方案,為部門管理決策提供支持。

目前,常見的異常檢測(cè)方法主要有基于統(tǒng)計(jì)分布的方法[10]、基于距離的方法[11]、基于密度的方法[12]、基于聚類的方法[13]和基于樹的方法[14]5種。本文從公共安全部門視角出發(fā),針對(duì)企業(yè)每月的用水量,提出了一套結(jié)合業(yè)務(wù)規(guī)則和無(wú)監(jiān)督算法的異常檢測(cè)方案,并對(duì)檢測(cè)出來(lái)的異常進(jìn)行分類和聚類分析,為公共安全部門的管理決策提供建議??紤]到每種異常檢測(cè)的算法都有難以解決的異常模式,本文在異常檢測(cè)開始階段結(jié)合了基于業(yè)務(wù)經(jīng)驗(yàn)的規(guī)則,將數(shù)據(jù)集分為含有顯著異常的部分和含有潛在異常的部分。綜合考量算法的假設(shè)與數(shù)據(jù)集的匹配度和算法的復(fù)雜度,從上文提到的5種經(jīng)典的異常檢測(cè)方法中,選擇iForest作為異常檢測(cè)算法。針對(duì)含有顯著異常的部分,通過規(guī)則判定異常的類型。針對(duì)含有潛在異常的部分,則利用iForest進(jìn)行異常檢測(cè),并對(duì)異常進(jìn)行聚類分析,找出異常的模式。最后針對(duì)不同類型的異常,給出對(duì)應(yīng)的管理建議。

本文提出的方案作用體現(xiàn)在以下3個(gè)方面:一是有助于自動(dòng)排查存在隱患的企業(yè),縮小需現(xiàn)場(chǎng)檢查企業(yè)的范圍,降低人力、物力成本;二是通過挖掘企業(yè)異常背后的原因,為加強(qiáng)和優(yōu)化管理提供依據(jù);三是有助于加強(qiáng)對(duì)嫌疑企業(yè)的威懾力,降低企業(yè)異常行為的發(fā)生率。

1 企業(yè)異常檢測(cè)的流程

1.1 數(shù)據(jù)預(yù)處理

本文的原始數(shù)據(jù)共計(jì)13 838家企業(yè)的每月用水總量。通過業(yè)務(wù)規(guī)則,發(fā)現(xiàn)不含用水值為0的企業(yè)分為一類,共6 128個(gè)企業(yè),該類企業(yè)中仍存在潛在的異常。表1描述的是含有潛在異常的6 128家企業(yè)平均用水量的分類情況。然后對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)處理,取對(duì)數(shù)主要是為了消除不同規(guī)模企業(yè)之間用水量大小的差異。最后對(duì)數(shù)據(jù)做一階差分,消除隨機(jī)趨勢(shì),將每月之間用水量的波動(dòng)作為企業(yè)是否異常的特征。至此,原始數(shù)據(jù)的預(yù)處理工作全部完成。

1.2 孤立森林算法

孤立森林算法[13]是一種無(wú)監(jiān)督的異常檢測(cè)方法,該算法主要通過從訓(xùn)練數(shù)據(jù)集中隨機(jī)選取一個(gè)特征,在該特征的最大值與最小值之間隨機(jī)選取一個(gè)分裂點(diǎn),小于分裂點(diǎn)的進(jìn)入左側(cè)分支,大于或等于分裂點(diǎn)的進(jìn)入右側(cè)分支;不斷重復(fù)上述過程直到只剩一個(gè)樣本或相同樣本(無(wú)法繼續(xù)分裂)或達(dá)到樹的深度限制。路徑長(zhǎng)度h(x)指樣本點(diǎn)x從根節(jié)點(diǎn)到外部節(jié)點(diǎn)所經(jīng)過的二叉樹的邊數(shù),異常樣本通常路徑長(zhǎng)度較小,而正常樣本路徑長(zhǎng)度較大。以同樣的方式構(gòu)建包含多棵孤立樹的孤立森林,異常事件即可基于路徑長(zhǎng)度被檢測(cè)出來(lái)。數(shù)據(jù)異常的程度可以通過異常分值判斷S(x,n)。定義如下:

式(1)中,n為樣本個(gè)數(shù),H(i)為諧波次數(shù),c(n)為二叉搜索樹的平均路徑長(zhǎng)度。

式(2)中,E(h(x))是樣本點(diǎn)x在孤立森林中所有孤立樹的路徑長(zhǎng)度的平均值。當(dāng)異常分值s(x,n)越小,則其異常程度越高,是異常點(diǎn)的可能性越大。

1.3 異常值聚類分析

為了更好地探究異常及其背后的原因,本文利用K-means算法對(duì)檢測(cè)出來(lái)的異常值進(jìn)行聚類,并利用手肘法對(duì)合適的K值進(jìn)行確定。K-means聚類算法[15]是一種迭代重定位方法,主要有兩個(gè)步驟:第一步是依據(jù)最近鄰原則將數(shù)據(jù)點(diǎn)分配到距離最近的簇中心點(diǎn);第二步重新計(jì)算簇中心點(diǎn)。如此反復(fù),直到指定的收斂條件,聚類結(jié)束。K-means算法流程如圖1所示。

2 實(shí)驗(yàn)結(jié)果與分析

對(duì)于含有顯著異常的數(shù)據(jù)集,可以根據(jù)0值出現(xiàn)的情況進(jìn)行分類,本實(shí)驗(yàn)分類規(guī)則如下:①用水量數(shù)據(jù)全為0值的企業(yè)分為一類,記為I;②用水量數(shù)據(jù)和0值依次交替出現(xiàn)分為一類,記為II;③其他出現(xiàn)0值的情況分為一類,記為III。

通過表1可知,第I、II和III類異常分別包含298、4 456和2 956家企業(yè)。其中,第II類異常企業(yè)數(shù)量最多,也就是用水量數(shù)據(jù)和0值依次交替出現(xiàn)的情況,導(dǎo)致該異常出現(xiàn)的情況可能是抄表員2個(gè)月才進(jìn)行一次抄表造成,公共安全部門應(yīng)該及時(shí)提醒有關(guān)的自來(lái)水公司加強(qiáng)對(duì)相關(guān)人員的監(jiān)督和管理,使企業(yè)用水量數(shù)據(jù)能夠準(zhǔn)確及時(shí)地記錄;除此之外,還存在相當(dāng)一部分第III類異常企業(yè),即企業(yè)用水量序列中前部、中部或尾部出現(xiàn)幾個(gè)0值的情況。類似這樣從有用水量到無(wú)用水量或者從無(wú)用水量到有用水量的情況,有可能是企業(yè)從生產(chǎn)到停產(chǎn)或者從停產(chǎn)到生產(chǎn)的過程,這對(duì)一個(gè)正常運(yùn)營(yíng)的企業(yè)來(lái)說是比較罕見的。政府需要及時(shí)了解企業(yè)運(yùn)營(yíng)狀況,查清停產(chǎn)和生產(chǎn)狀態(tài)頻繁切換的原因,將該類企業(yè)列入觀察名單;最后一種數(shù)量最少的異常就是第I類異常,該類異常中的企業(yè)用水量全部為0值,該情況可能是企業(yè)已經(jīng)停止運(yùn)營(yíng)或者已經(jīng)倒閉,公共安全部門需做好核實(shí)。

圖2給出了某種類別的企業(yè)用水模式,從中可以發(fā)現(xiàn)用水量沒有一致的模式,但至少在某個(gè)月的用水量波動(dòng)較大。

綜上所述,通過算法分析,可以觀察到用水量存在大幅度連續(xù)波動(dòng)的規(guī)律。在第VI類異常中,存在某些月份用水量發(fā)生較大波動(dòng)。因此,公共安全部門要特別關(guān)注此類用水量具有大幅度波動(dòng)的企業(yè),可以進(jìn)行現(xiàn)場(chǎng)實(shí)地排查,調(diào)查造成用水量波動(dòng)巨大的具體原因。

3 結(jié)論

本文基于企業(yè)每月的用水量數(shù)據(jù),提出了一套結(jié)合業(yè)務(wù)規(guī)則和無(wú)監(jiān)督算法的異常檢測(cè)方法。針對(duì)含有顯著異常的部分,通過算法規(guī)則發(fā)現(xiàn)了3種異常模式。針對(duì)含有潛在異常的部分,利用孤立森林方法進(jìn)行異常檢測(cè),并對(duì)異常進(jìn)行聚類找到3種異常模式。在檢測(cè)出的6種異常模式中,第I類異??赡苁瞧髽I(yè)已經(jīng)停止運(yùn)營(yíng)或者已經(jīng)倒閉,公共安全部門需及時(shí)對(duì)企業(yè)狀況進(jìn)行核實(shí);第II類異常出現(xiàn)的原因可能是抄表員2個(gè)月才進(jìn)行一次抄表,公共安全部門應(yīng)及時(shí)提醒相關(guān)的自來(lái)水公司加強(qiáng)對(duì)相關(guān)人員的監(jiān)督和管理,使企業(yè)用水量數(shù)據(jù)能夠準(zhǔn)確及時(shí)地記錄;第III類異??赡苁瞧髽I(yè)從生產(chǎn)到停產(chǎn)或者從停產(chǎn)到生產(chǎn)的過程;第IV和第V類異常中企業(yè)用水量存在顯著的連續(xù)大幅度波動(dòng),而第VI類異常中企業(yè)至少存在某一個(gè)特定月份用水量波動(dòng)。

參 考 文 獻(xiàn)

[1]Han J,KamberM,Pei J.Data Mining:Concepts and Techniques Third Edition[M].Elsevier Pte Led,2012.

[2]Chandola V,Banerjee A,Kumar V.Anomaly dete-ction:A survey[J].ACM Computing Surveys,2009,41(3):51-58.

[3]黃琛,李文婷,張旭,等,城市供水管網(wǎng)片區(qū)用水異常模式識(shí)別[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018(5):879-885.

[4]Mounce R,Khan A,Wood AS,et al.Sensor-fusion of hydraulic data for burst detection and location in a treated water distribution system[J].Information Fusion,2003,4(3):217-229.

[5]Mounce R,Boxall J B,Mexhell J.Development and verification of an online artificial intelligence system for detection of bursts and other abnormal flows[J].Journal of Water Resources Planning and Management,2010,136(3):309-318.

[6]莊池杰,張斌,胡軍,等.基于無(wú)監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測(cè)[J].中國(guó)電機(jī)工程學(xué)報(bào),2016,36(2):379-387.

[7]León C,Biscarri F,Monedero I,et al.Variability and trend-based generalized rule induction model to NTL detection in power companies[J].IEEE Transactions on Power Systems,2011,26(4):1798-1807.

[8]Fontugne R,Tremblay N,Borgnat P,et al.Mining anomalous electricity consumption using ensemble empirical mode decomposition[C].//2013 IEEE International Conference on Acoustics,Speech and Si-gnal Processing(ICASSP).Vancouver,BC:IEEE,2013.

[9]NagiJ,Yap K S,Tiong S K,et al.Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system[J].IEEE Transac-tions on Power Delivery,2011,26(2):1284-1285.

[10]GoldsteinM.,DengelA.Histogram-based Outlier Score(HBOS):A fast Unsupervised Anomaly Detection Algorithm[C].In:Wolfl S,editor. KI-2012:Poster and Demo Track,2012.

[11]E M Knorr,R T Ng.A unified notion of outliers:properties and computation[C].In:Proceedings of the 3rd ACM international conference on knowledge discovery and data mining(KDD),Newport Beach,1997.

[12]BreunigM M.LOF:identifying density-based local outliers[J].2000,29(2):93-104.

[13]Ester M,Kriegel HP,Sander J,et al.Adensity-based algorithm for discovering clusters in large spatial databases[C].In:Proceedings of KDD' 96,Portland OR,USA,1996:226-231.

[14]Liu F T,Kai M T,Zhou Z H.Isolation-Based an-omaly detection[M].ACM,2012.

[15]王建仁,馬鑫,段剛龍.改進(jìn)的K-means聚類k值選擇算法[J].計(jì)算機(jī)工程與應(yīng)用,2019(8):27-33.

猜你喜歡
異常檢測(cè)公共安全
靖江市啟動(dòng)水上公共安全共建區(qū)
在公共安全面前別任性
基于知識(shí)圖譜的知識(shí)推理與公共安全結(jié)合的理論研究
人臉識(shí)別技術(shù)在公共安全領(lǐng)域中的應(yīng)用
探討上海城市公共安全的智慧化管理
基于LMD模糊熵的遙測(cè)振動(dòng)信號(hào)異常檢測(cè)方法
基于度分布的流量異常在線檢測(cè)方法研究
無(wú)線Mesh網(wǎng)絡(luò)安全性研究
無(wú)線Mesh網(wǎng)絡(luò)基礎(chǔ)知識(shí)
淺談燃?xì)廨啓C(jī)排氣溫度異常檢測(cè)及診斷
古田县| 苗栗市| 普陀区| 高陵县| 陕西省| 德令哈市| 呈贡县| 香格里拉县| 琼中| 安陆市| 崇仁县| 启东市| 通州市| 凭祥市| 花莲县| 商水县| 辽阳县| 义乌市| 师宗县| 赞皇县| 涞源县| 万荣县| 繁昌县| 将乐县| 东莞市| 广东省| 黄陵县| 盐津县| 饶平县| 高雄县| 济宁市| 宜都市| 寻乌县| 张家港市| 乌拉特中旗| 和平区| 龙州县| 西乡县| 理塘县| 平凉市| 肃宁县|