異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法研究綜述

2022-10-24 09:29李永飛李銘洋

現(xiàn)代計(jì)算機(jī) 2022年16期

吳瓊，李永飛，李銘洋

（華北科技學(xué)院計(jì)算機(jī)學(xué)院，三河 065200）

0 引言

異常數(shù)據(jù)通常也稱為離群值、噪聲等。Edgeworth把異常值定義為“顯然嚴(yán)重偏離樣本集合中其他觀測(cè)值的觀測(cè)值”。異常數(shù)據(jù)檢測(cè)是指從數(shù)據(jù)中找出明顯與其他數(shù)據(jù)不同的數(shù)據(jù)，最早采用基于統(tǒng)計(jì)學(xué)的方法，現(xiàn)在已成為數(shù)據(jù)挖掘的四大任務(wù)之一。異常數(shù)據(jù)所占比例較小但卻可能蘊(yùn)含豐富的內(nèi)容，因此異常數(shù)據(jù)檢測(cè)具有重要的研究意義和應(yīng)用價(jià)值，對(duì)保障數(shù)據(jù)可信性也有重要作用。

從Knox等提出“基于距離的異常數(shù)據(jù)”的概念以來(lái)，異常數(shù)據(jù)檢測(cè)已經(jīng)成為數(shù)據(jù)挖掘中的一個(gè)研究熱點(diǎn)。異常值可能來(lái)源于機(jī)械故障、儀器錯(cuò)誤、人為錯(cuò)誤等，其產(chǎn)生往往不可避免，而且會(huì)影響數(shù)據(jù)分析的結(jié)果，甚至可能造成嚴(yán)重后果。目前，異常數(shù)據(jù)檢測(cè)已經(jīng)廣泛應(yīng)用于諸多領(lǐng)域。在醫(yī)療衛(wèi)生行業(yè)，異常數(shù)據(jù)檢測(cè)可以及時(shí)發(fā)現(xiàn)病人的身體指標(biāo)異常，提早治療，避免病情惡化。在生態(tài)環(huán)境監(jiān)測(cè)領(lǐng)域，可以對(duì)各項(xiàng)監(jiān)測(cè)指標(biāo)的異常情況盡早采取應(yīng)對(duì)措施。在應(yīng)急管理的事前數(shù)據(jù)采集和處理階段，異常數(shù)據(jù)實(shí)時(shí)檢測(cè)可以對(duì)突發(fā)事件及時(shí)響應(yīng)，進(jìn)而及時(shí)調(diào)整應(yīng)對(duì)措施。

近年來(lái)，隨著大數(shù)據(jù)時(shí)代的到來(lái)，海量數(shù)據(jù)的產(chǎn)生對(duì)數(shù)據(jù)處理的方法提出了更多的挑戰(zhàn)。異常數(shù)據(jù)檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性方面有了更高的要求。異常數(shù)據(jù)檢測(cè)的核心問(wèn)題是異常檢測(cè)算法模型的構(gòu)建，它將直接影響異常檢測(cè)的檢測(cè)率。

本文主要介紹傳統(tǒng)異常數(shù)據(jù)檢測(cè)方法和異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法。首先介紹常用的異常檢測(cè)方法以及它們常用的檢測(cè)算法，主要分為基于統(tǒng)計(jì)學(xué)和基于機(jī)器學(xué)習(xí)兩大類；接著介紹異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法以及采用的算法；最后對(duì)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)的發(fā)展趨勢(shì)進(jìn)行總結(jié)和展望。

1 異常檢測(cè)方法

1.1 基于統(tǒng)計(jì)學(xué)的方法

基于統(tǒng)計(jì)學(xué)的異常檢測(cè)方法，一般建立一個(gè)數(shù)據(jù)分布模型，然后計(jì)算對(duì)象符合該模型的概率，將低概率的對(duì)象視為異常。最簡(jiǎn)單的方法有箱線圖、3σ準(zhǔn)則、Grubbs檢驗(yàn)等，這些方法都需要假設(shè)數(shù)據(jù)服從某種分布，然后利用數(shù)據(jù)去進(jìn)行參數(shù)估計(jì)。復(fù)雜一些的還有混合高斯建模、基于馬爾科夫模型和時(shí)間序列建模，等等?；诮y(tǒng)計(jì)學(xué)的方法優(yōu)點(diǎn)是魯棒性較好，適合低維度數(shù)據(jù)。但是處理高維數(shù)據(jù)受限制，而且受數(shù)據(jù)分布和模型參數(shù)的影響，因此限制了它的應(yīng)用范圍。

1.2 基于機(jī)器學(xué)習(xí)的方法

機(jī)器學(xué)習(xí)算法按照是否需要人工標(biāo)記可以分為無(wú)監(jiān)督、有監(jiān)督和半監(jiān)督模式。無(wú)監(jiān)督模式不需要任何標(biāo)簽，也不依賴完善的先驗(yàn)知識(shí)，因此在異常檢測(cè)領(lǐng)域應(yīng)用更加廣泛。

基于聚類的異常檢測(cè)方法將數(shù)據(jù)分為不同的簇，而異常數(shù)據(jù)是不屬于任何一個(gè)簇的。

聚類分析屬于無(wú)監(jiān)督模式，不依賴預(yù)先對(duì)數(shù)據(jù)的標(biāo)記和訓(xùn)練，可以根據(jù)數(shù)據(jù)的相似度把數(shù)據(jù)劃分為多個(gè)類或類簇。K-means算法邏輯簡(jiǎn)單、計(jì)算復(fù)雜度低、聚類效果也不錯(cuò)，是應(yīng)用最廣泛的聚類算法之一。由于異常數(shù)據(jù)檢測(cè)的結(jié)果依賴于聚類算法的分析結(jié)果，因此要求在使用K-means算法實(shí)現(xiàn)異常檢測(cè)時(shí)能夠解決聚類結(jié)果不穩(wěn)定的問(wèn)題。文獻(xiàn)［9］提出基于近鄰傳播算法和最大最小距離算法結(jié)合使用的APMMD算法，利用近鄰傳播算法和最大最小距離思想計(jì)算初始聚類中心，并將獲得的初始聚類中心應(yīng)用于K-means聚類算法中，使迭代次數(shù)降低，其聚類結(jié)果保持穩(wěn)定且具有較高的異常檢測(cè)的準(zhǔn)確率。

基于近鄰度的方法包括基于距離和基于密度的方法。這種方法不需要假設(shè)數(shù)據(jù)的分布。

（1）基于距離的方法?；诰嚯x的方法通過(guò)計(jì)算數(shù)據(jù)與近鄰數(shù)據(jù)之間的距離來(lái)判斷出異常數(shù)據(jù)，一般采用歐式距離和曼哈頓距離，主要應(yīng)用于全局近鄰。常用的算法是K-最近鄰（K-nearest neighbor）算法，它是一種簡(jiǎn)單易用、有監(jiān)督模式的機(jī)器學(xué)習(xí)算法。KNN算法首先找到k個(gè)最近的鄰居，然后根據(jù)k個(gè)最近的鄰居計(jì)算異常分?jǐn)?shù)。

（2）基于密度的方法。基于密度的方法與基于近鄰度的異常點(diǎn)檢測(cè)密切相關(guān)，是在基于距離的基礎(chǔ)上，把數(shù)據(jù)之間的距離和周圍鄰近的數(shù)據(jù)個(gè)數(shù)相結(jié)合。它通過(guò)比較每個(gè)點(diǎn)和其鄰域點(diǎn)的密度，當(dāng)點(diǎn)與包圍其的鄰居的密度不同時(shí)，被認(rèn)定為異常點(diǎn)。經(jīng)典的方法是Breunig等提出的局部離群點(diǎn)方法LOF（the local outlier factor）。LOF中計(jì)算距離采用歐式距離，LOF為每個(gè)點(diǎn)分配一個(gè)局部離群因子（LOF），LOF的大小表示該點(diǎn)的局部密度與其最近鄰居的局部密度之比，LOF越高，則表明是異常點(diǎn)的可能性越大。基于連通性的異常檢測(cè)算法COF（connectivity-based outlier factor）的局部密度通過(guò)鏈?zhǔn)骄嚯x方式計(jì)算求出。LOF和COF算法都是借助數(shù)據(jù)的相對(duì)密度計(jì)算異常分值，得分越高越可能是異常數(shù)據(jù)。由于LOF數(shù)據(jù)量的增多該算法的時(shí)間復(fù)雜度較高，文獻(xiàn)［13］提出改進(jìn)的LOF算法即K-LOF算法。先利用計(jì)算效率高的K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行檢測(cè)預(yù)處理獲得初選異常數(shù)據(jù)，然后用基于密度的LOF算法再挖掘出最終的異常數(shù)據(jù)。結(jié)果表明，相比LOF算法K-LOF不但提高了檢測(cè)的精確度，也降低了異常數(shù)據(jù)檢測(cè)的計(jì)算復(fù)雜度。

另外，還有一些專用的異常檢測(cè)方法，如One Class SVM和孤立森林（Isolation Forest）。這類算法的思路是不需要利用統(tǒng)計(jì)、距離和密度的量化指標(biāo)去表達(dá)異常數(shù)據(jù)的疏離程度，而是直接描述正常數(shù)據(jù)與異常數(shù)據(jù)的疏離程度。

（1）One Class SVM算法。One Class SVM屬于無(wú)監(jiān)督學(xué)習(xí)算法，不需要標(biāo)記訓(xùn)練集和輸出標(biāo)簽。該算法的思路比較簡(jiǎn)單，首先找一個(gè)超平面將正常數(shù)據(jù)找出來(lái)，再通過(guò)正常數(shù)據(jù)的特征去學(xué)習(xí)一個(gè)決策邊界，然后通過(guò)這個(gè)邊界去判斷新來(lái)的數(shù)據(jù)是否與訓(xùn)練數(shù)據(jù)類似，超出邊界則為異常。由于該算法只有一個(gè)Class，比較適合解決極度不平衡的數(shù)據(jù)異常檢測(cè)。文獻(xiàn)［14］得出One Class SVM算法核函數(shù)計(jì)算時(shí)間比較長(zhǎng)，因此不適合用于大量數(shù)據(jù)的處理。

（2）孤立森林算法。孤立森林算法是2008年由南京大學(xué)周志華教授團(tuán)隊(duì)首次提出，2012年又進(jìn)行了改進(jìn)。孤立森林算法屬于無(wú)監(jiān)督學(xué)習(xí)，它通過(guò)樣本的疏密程度去描述樣本之間的差異。異常點(diǎn)被定義為“容易被孤立的離群點(diǎn)”。它由多個(gè)iTree（孤立二叉樹）構(gòu)成，每個(gè)iTree的構(gòu)建是從數(shù)據(jù)特征集合中隨機(jī)選擇一個(gè)分割值，通過(guò)這個(gè)分割值對(duì)數(shù)據(jù)進(jìn)行劃分然后構(gòu)造左右子樹，直到所有數(shù)據(jù)被劃分或已經(jīng)達(dá)到樹的高度限制，其中只關(guān)心路徑較短的點(diǎn)，它們更可能是異常點(diǎn)。這種劃分情況下，異常數(shù)據(jù)點(diǎn)在iTree中更靠近根節(jié)點(diǎn)，同時(shí)低密度的點(diǎn)遠(yuǎn)離大多數(shù)樣本，將很早被孤立。孤立森林算法是線性時(shí)間復(fù)雜度，與K-means、LOF等算法相比較，它不需要計(jì)算有關(guān)的距離、密度的指標(biāo)，處理異常數(shù)據(jù)快速且高效。因此適合實(shí)時(shí)在線異常數(shù)據(jù)檢測(cè)。表1列出了常用異常檢測(cè)算法的優(yōu)缺點(diǎn)比較。

表1 異常檢測(cè)算法優(yōu)缺點(diǎn)比較

2 基于流處理框架的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)

由于傳統(tǒng)方法不能滿足海量的動(dòng)態(tài)化數(shù)據(jù)的實(shí)時(shí)異常檢測(cè)的需求。因此出現(xiàn)了基于流處理框架的新方法。動(dòng)態(tài)化的數(shù)據(jù)，也稱為數(shù)據(jù)流，它具有動(dòng)態(tài)產(chǎn)生且事先無(wú)法預(yù)知的特點(diǎn)。動(dòng)態(tài)數(shù)據(jù)需要?jiǎng)偟竭_(dá)就及時(shí)處理，同時(shí)滿足數(shù)據(jù)實(shí)時(shí)性異常檢測(cè)要求，數(shù)據(jù)處理效率要求更高。目前異常數(shù)據(jù)實(shí)時(shí)檢測(cè)中主要采用基于Storm、Spark等實(shí)時(shí)流處理框架結(jié)合機(jī)器學(xué)習(xí)算法和基于滑動(dòng)窗口的方法等。依靠流數(shù)據(jù)分析處理方法實(shí)現(xiàn)異常檢測(cè)，可以用在實(shí)時(shí)數(shù)據(jù)分析場(chǎng)景中?；诹魈幚砜蚣艿漠惓?shù)據(jù)實(shí)時(shí)檢測(cè)方法對(duì)比如表2所示。

表2 基于流處理框架的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法對(duì)比

2.1 結(jié)合機(jī)器學(xué)習(xí)算法的方法

Hadoop核心是分布式文件系統(tǒng)HDFS和并行化計(jì)算模型MapReduce。隨著海量數(shù)據(jù)的產(chǎn)生，為了加快數(shù)據(jù)的處理速度則采用并行化計(jì)算。文獻(xiàn)［17］為了解決初始聚類中心敏感問(wèn)題，利用最大最小距離的思想改進(jìn)了K-means聚類算法，同時(shí)采用MapReduce并行化實(shí)現(xiàn)該算法的分布式聚類。結(jié)果表明提高了算法的計(jì)算效率，并且降低了算法執(zhí)行過(guò)程的通信開銷。文獻(xiàn)［18］采用基于Hadoop平臺(tái)中的MapReduce并行計(jì)算框架，并使用基于密度的LOF算法的分布式財(cái)務(wù)異常數(shù)據(jù)分析模型。采用MapReduce并行化計(jì)算框架，算法在運(yùn)行時(shí)可以在多個(gè)計(jì)算節(jié)點(diǎn)運(yùn)行。將MapReduce框架和加入領(lǐng)域關(guān)系的LOF算法結(jié)合使用，可以并行計(jì)算，進(jìn)而提高了數(shù)據(jù)處理速度和算法的準(zhǔn)確率。

由于孤立森林算法的每棵樹隨機(jī)采樣獨(dú)立生成，具有很好的處理大數(shù)據(jù)的能力和速度，可以進(jìn)行并行化處理。同時(shí)還存在孤立二叉樹間異常能力的差異性，文獻(xiàn)［19］采用加權(quán)計(jì)算測(cè)試樣本在孤立森林算法中異常值，同時(shí)采用基于內(nèi)存的Spark框架不同于Hadoop框架中從HDFS中讀取數(shù)據(jù)，比較適合迭代次數(shù)多的算法。結(jié)果表明在大規(guī)模數(shù)據(jù)下可以加快檢測(cè)速度和提高檢測(cè)精度。文獻(xiàn)［20］提出基于HDFS框架的數(shù)據(jù)異常檢測(cè)方法，利用分布式HDFS框架可以快速準(zhǔn)確地存儲(chǔ)數(shù)據(jù)，采用基于支持向量數(shù)據(jù)描述并結(jié)合最小閉包球算法實(shí)現(xiàn)實(shí)時(shí)異常檢測(cè)。該方法降低了時(shí)間復(fù)雜度，提高了異常檢測(cè)率，并減少了運(yùn)行時(shí)間。

由于K-means聚類算法在處理大量數(shù)據(jù)時(shí)效率較低，文獻(xiàn)［21］提出了基于Apache Flink流計(jì)算框架結(jié)合流處理思想的SK-means（stream K-means）方法，提高了算法的執(zhí)行效率，聚類效果更好并且可以較快地進(jìn)行異常數(shù)據(jù)檢測(cè)。文獻(xiàn)［22］提出基于分布式流處理框架Spark Streaming，采用流回歸機(jī)器學(xué)習(xí)算法和正態(tài)統(tǒng)計(jì)技術(shù)相結(jié)合的方法進(jìn)行數(shù)據(jù)異常檢測(cè)。該方法可以實(shí)時(shí)且準(zhǔn)確分析瓦斯?jié)舛攘鲾?shù)據(jù)中的異常數(shù)據(jù)，解決了流數(shù)據(jù)中大數(shù)據(jù)機(jī)器學(xué)習(xí)處理和實(shí)時(shí)性問(wèn)題。文獻(xiàn)［23］提出基于Storm實(shí)時(shí)處理平臺(tái)采用動(dòng)態(tài)KNN的累積距離的異常檢測(cè)方法。該方法適用于實(shí)時(shí)處理框架，每一組時(shí)間序列只用動(dòng)態(tài)地保存?zhèn)€時(shí)間點(diǎn)的數(shù)值，可以簡(jiǎn)化操作和節(jié)省內(nèi)存。同時(shí)可以動(dòng)態(tài)地觀察數(shù)據(jù)檢測(cè)結(jié)果。

2.2 基于結(jié)合滑動(dòng)窗口的方法

滑動(dòng)窗口機(jī)制可以處理最新到達(dá)的數(shù)據(jù)，文獻(xiàn)［24］提出基于Storm流數(shù)據(jù)框架的滑動(dòng)窗口計(jì)算方法。采用Storm平臺(tái)上實(shí)現(xiàn)滑動(dòng)窗口計(jì)算方法進(jìn)行實(shí)時(shí)分析，并通過(guò)增大滑動(dòng)窗口的吞吐量，提高了數(shù)據(jù)異常檢測(cè)的實(shí)時(shí)處理效率。但是該方法只對(duì)數(shù)值型數(shù)據(jù)實(shí)現(xiàn)了實(shí)時(shí)處理，還需要進(jìn)一步研究。文獻(xiàn)［25］提出基于Storm流處理的數(shù)據(jù)實(shí)時(shí)處理方法，采用基于滑動(dòng)時(shí)間窗口實(shí)現(xiàn)異常數(shù)據(jù)檢測(cè)。可以實(shí)現(xiàn)在Storm上實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)預(yù)處理、數(shù)據(jù)異常檢測(cè)。

為了從海量數(shù)據(jù)中實(shí)時(shí)且高效地檢測(cè)出異常值，文獻(xiàn)［26］提出了Flink的異常檢測(cè)方法，針對(duì)實(shí)時(shí)流數(shù)據(jù)，首先用Kafka對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)預(yù)處理，然后在Flink平臺(tái)上利用ARIMA模型進(jìn)行預(yù)測(cè)。

3 基于新型算法的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)

隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的發(fā)展，又出現(xiàn)了一些新穎且有效的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法?；谛滦退惴ǖ漠惓?shù)據(jù)實(shí)時(shí)檢測(cè)方法如表3所示。

表3 基于新型算法的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法比較

3.1 基于層級(jí)實(shí)時(shí)記憶的方法

文獻(xiàn)［27］提出基于層級(jí)實(shí)時(shí)記憶（hierarchical temporal memory,HTM）的時(shí)間序列異常檢測(cè)算法，HTM算法是一種仿生物結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法，它不需要采用滑動(dòng)窗口法批處理數(shù)據(jù)，就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)檢測(cè)。它是“記憶-預(yù)測(cè)”的運(yùn)行模式，將復(fù)雜的問(wèn)題轉(zhuǎn)化為模式識(shí)別，可以提前預(yù)警數(shù)據(jù)異常。隨著云計(jì)算技術(shù)的發(fā)展，云資源的運(yùn)行會(huì)產(chǎn)生海量的時(shí)序數(shù)據(jù)。文獻(xiàn)［28］將基于分層時(shí)間記憶算法用在企業(yè)多云時(shí)序數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè)中，可以實(shí)現(xiàn)實(shí)時(shí)異常檢測(cè)。由于云資源監(jiān)測(cè)要實(shí)現(xiàn)自動(dòng)化實(shí)時(shí)異常檢測(cè)，而HTM算法存儲(chǔ)大量時(shí)序數(shù)據(jù)符合實(shí)時(shí)流式分析、無(wú)監(jiān)督以及動(dòng)態(tài)數(shù)據(jù)在線學(xué)習(xí)的要求。因?yàn)樵撍惴ㄟ\(yùn)用到監(jiān)測(cè)系統(tǒng)中可以高效地檢測(cè)異常，并提高企業(yè)的運(yùn)維效率。HTM算法已經(jīng)應(yīng)用到許多數(shù)據(jù)智能處理領(lǐng)域如異常檢測(cè)、數(shù)據(jù)預(yù)測(cè)。針對(duì)數(shù)據(jù)量的不斷增長(zhǎng)，快速處理的需要，以及無(wú)法并行化計(jì)算的問(wèn)題，文獻(xiàn)［29］提出了面向多核的并發(fā)HTM空間池算法，將HTM空間池區(qū)域分區(qū)，各區(qū)獨(dú)立完成訓(xùn)練任務(wù)并且利用CPU中的計(jì)算核心，實(shí)現(xiàn)多個(gè)核心并行完成。使用基于多核心和共享內(nèi)存的大數(shù)據(jù)平臺(tái)Phoenix，避免帶來(lái)額外的通信開銷，并且提高了算法的執(zhí)行效率和預(yù)測(cè)準(zhǔn)確率。

3.2 基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的方法

對(duì)于時(shí)間序列數(shù)據(jù)，直接采用LSTM算法自適應(yīng)性不高，而且單一模型檢測(cè)結(jié)果準(zhǔn)確率不高。文獻(xiàn)［30］提出通過(guò)LSTM網(wǎng)絡(luò)和自動(dòng)編碼器進(jìn)行不同組合預(yù)測(cè)模型，進(jìn)而影響檢測(cè)器的性能。由于流數(shù)據(jù)數(shù)量大、到達(dá)快速，單個(gè)平穩(wěn)模型可能無(wú)法滿足數(shù)據(jù)實(shí)時(shí)異常檢測(cè)的要求。文獻(xiàn)［31］提出了基于LSTMs-Autoencoder的流數(shù)據(jù)異常檢測(cè)算法。該算法采用多個(gè)LSTM單元，形成了一個(gè)深層遞歸的神經(jīng)網(wǎng)絡(luò)（LSTMs），然后將遞歸神經(jīng)網(wǎng)絡(luò)與自動(dòng)編碼器相結(jié)合，實(shí)現(xiàn)了對(duì)流數(shù)據(jù)的實(shí)時(shí)檢測(cè)并保證檢測(cè)結(jié)果準(zhǔn)確，同時(shí)還能應(yīng)對(duì)考慮概念漂移現(xiàn)象。

4 總結(jié)和展望

基于統(tǒng)計(jì)的方法由于數(shù)據(jù)分布快速且高效，魯棒性較好適合低維數(shù)據(jù)，但對(duì)高維數(shù)據(jù)處理受限制?；跈C(jī)器學(xué)習(xí)的方法克服了傳統(tǒng)統(tǒng)計(jì)方法不能處理高維數(shù)據(jù)的問(wèn)題。隨著數(shù)據(jù)量的增多、動(dòng)態(tài)數(shù)據(jù)的產(chǎn)生，對(duì)處理數(shù)據(jù)的速度、實(shí)時(shí)性有了更高的要求。大數(shù)據(jù)中的批處理方式處理速度較慢，可以采用基于Storm、Spark、Flink等流式處理框架來(lái)實(shí)現(xiàn)實(shí)時(shí)計(jì)算和分析，并且高效準(zhǔn)確地檢測(cè)出異常值。隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的發(fā)展，又出現(xiàn)了基于層級(jí)實(shí)時(shí)記憶的異常檢測(cè)算法，它不需要采用滑動(dòng)窗口法批處理數(shù)據(jù)，就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)檢測(cè)。

隨著海量數(shù)據(jù)以及動(dòng)態(tài)數(shù)據(jù)的產(chǎn)生，除了采用流處理框的并行化和實(shí)時(shí)的計(jì)算方法，還需要繼續(xù)改進(jìn)算法的性能，進(jìn)而實(shí)時(shí)檢測(cè)更多的異常數(shù)據(jù)。比如，雖然HTM算法具有較強(qiáng)的自適應(yīng)性，可以實(shí)現(xiàn)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)。但它也存在時(shí)間復(fù)雜度的問(wèn)題，要使之應(yīng)用廣泛還需要進(jìn)一步研究改進(jìn)。與此同時(shí)，對(duì)于數(shù)據(jù)類型的增多和應(yīng)用領(lǐng)域的擴(kuò)大，可以研究通過(guò)豐富數(shù)據(jù)編碼的方式來(lái)實(shí)現(xiàn)不同類型的數(shù)據(jù)異常檢測(cè)，同時(shí)實(shí)時(shí)數(shù)據(jù)異常檢測(cè)效果更好。面對(duì)數(shù)據(jù)不平衡等問(wèn)題，可以通過(guò)從大量數(shù)據(jù)中學(xué)習(xí)獲得準(zhǔn)確有效的特征，建立基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型，進(jìn)而提高異常檢測(cè)的效率。對(duì)于不平衡數(shù)據(jù)的處理也可以采用基于深度學(xué)習(xí)的異常檢測(cè)方法。在異常數(shù)據(jù)實(shí)時(shí)檢測(cè)的未來(lái)發(fā)展中，基于層級(jí)實(shí)時(shí)記憶的和神經(jīng)網(wǎng)絡(luò)模型的方法改進(jìn)，以及基于深度學(xué)習(xí)的方法是一種趨勢(shì)。

5 結(jié)語(yǔ)

（1）新型的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法不僅加快了海量動(dòng)態(tài)數(shù)據(jù)的處理速度，也可以進(jìn)行實(shí)時(shí)異常數(shù)據(jù)檢測(cè)并實(shí)時(shí)反饋檢測(cè)結(jié)果。與此同時(shí)，還提高了異常數(shù)據(jù)檢測(cè)的效率和準(zhǔn)確率。

（2）異常檢測(cè)方法都需要快速且實(shí)時(shí)地檢測(cè)出結(jié)果，這樣才能最大程度地挽回?fù)p失或避免發(fā)生更大的事故。異常數(shù)據(jù)實(shí)時(shí)檢測(cè)還要繼續(xù)進(jìn)一步研究，準(zhǔn)確、高效地應(yīng)用到工業(yè)生產(chǎn)、醫(yī)療技術(shù)、物聯(lián)網(wǎng)檢測(cè)、應(yīng)急管理等領(lǐng)域中才具有實(shí)際意義。因此，異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法具有廣闊的應(yīng)用前景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡