吳 瓊,李永飛,李銘洋
(華北科技學(xué)院計(jì)算機(jī)學(xué)院,三河 065200)
異常數(shù)據(jù)通常也稱為離群值、噪聲等。Edgeworth把異常值定義為“顯然嚴(yán)重偏離樣本集合中其他觀測(cè)值的觀測(cè)值”。異常數(shù)據(jù)檢測(cè)是指從數(shù)據(jù)中找出明顯與其他數(shù)據(jù)不同的數(shù)據(jù),最早采用基于統(tǒng)計(jì)學(xué)的方法,現(xiàn)在已成為數(shù)據(jù)挖掘的四大任務(wù)之一。異常數(shù)據(jù)所占比例較小但卻可能蘊(yùn)含豐富的內(nèi)容,因此異常數(shù)據(jù)檢測(cè)具有重要的研究意義和應(yīng)用價(jià)值,對(duì)保障數(shù)據(jù)可信性也有重要作用。
從Knox等提出“基于距離的異常數(shù)據(jù)”的概念以來(lái),異常數(shù)據(jù)檢測(cè)已經(jīng)成為數(shù)據(jù)挖掘中的一個(gè)研究熱點(diǎn)。異常值可能來(lái)源于機(jī)械故障、儀器錯(cuò)誤、人為錯(cuò)誤等,其產(chǎn)生往往不可避免,而且會(huì)影響數(shù)據(jù)分析的結(jié)果,甚至可能造成嚴(yán)重后果。目前,異常數(shù)據(jù)檢測(cè)已經(jīng)廣泛應(yīng)用于諸多領(lǐng)域。在醫(yī)療衛(wèi)生行業(yè),異常數(shù)據(jù)檢測(cè)可以及時(shí)發(fā)現(xiàn)病人的身體指標(biāo)異常,提早治療,避免病情惡化。在生態(tài)環(huán)境監(jiān)測(cè)領(lǐng)域,可以對(duì)各項(xiàng)監(jiān)測(cè)指標(biāo)的異常情況盡早采取應(yīng)對(duì)措施。在應(yīng)急管理的事前數(shù)據(jù)采集和處理階段,異常數(shù)據(jù)實(shí)時(shí)檢測(cè)可以對(duì)突發(fā)事件及時(shí)響應(yīng),進(jìn)而及時(shí)調(diào)整應(yīng)對(duì)措施。
近年來(lái),隨著大數(shù)據(jù)時(shí)代的到來(lái),海量數(shù)據(jù)的產(chǎn)生對(duì)數(shù)據(jù)處理的方法提出了更多的挑戰(zhàn)。異常數(shù)據(jù)檢測(cè)的實(shí)時(shí)性和準(zhǔn)確性方面有了更高的要求。異常數(shù)據(jù)檢測(cè)的核心問(wèn)題是異常檢測(cè)算法模型的構(gòu)建,它將直接影響異常檢測(cè)的檢測(cè)率。
本文主要介紹傳統(tǒng)異常數(shù)據(jù)檢測(cè)方法和異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法。首先介紹常用的異常檢測(cè)方法以及它們常用的檢測(cè)算法,主要分為基于統(tǒng)計(jì)學(xué)和基于機(jī)器學(xué)習(xí)兩大類;接著介紹異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法以及采用的算法;最后對(duì)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)的發(fā)展趨勢(shì)進(jìn)行總結(jié)和展望。
基于統(tǒng)計(jì)學(xué)的異常檢測(cè)方法,一般建立一個(gè)數(shù)據(jù)分布模型,然后計(jì)算對(duì)象符合該模型的概率,將低概率的對(duì)象視為異常。最簡(jiǎn)單的方法有箱線圖、3σ準(zhǔn)則、Grubbs檢驗(yàn)等,這些方法都需要假設(shè)數(shù)據(jù)服從某種分布,然后利用數(shù)據(jù)去進(jìn)行參數(shù)估計(jì)。復(fù)雜一些的還有混合高斯建模、基于馬爾科夫模型和時(shí)間序列建模,等等?;诮y(tǒng)計(jì)學(xué)的方法優(yōu)點(diǎn)是魯棒性較好,適合低維度數(shù)據(jù)。但是處理高維數(shù)據(jù)受限制,而且受數(shù)據(jù)分布和模型參數(shù)的影響,因此限制了它的應(yīng)用范圍。
機(jī)器學(xué)習(xí)算法按照是否需要人工標(biāo)記可以分為無(wú)監(jiān)督、有監(jiān)督和半監(jiān)督模式。無(wú)監(jiān)督模式不需要任何標(biāo)簽,也不依賴完善的先驗(yàn)知識(shí),因此在異常檢測(cè)領(lǐng)域應(yīng)用更加廣泛。
基于聚類的異常檢測(cè)方法將數(shù)據(jù)分為不同的簇,而異常數(shù)據(jù)是不屬于任何一個(gè)簇的。
聚類分析屬于無(wú)監(jiān)督模式,不依賴預(yù)先對(duì)數(shù)據(jù)的標(biāo)記和訓(xùn)練,可以根據(jù)數(shù)據(jù)的相似度把數(shù)據(jù)劃分為多個(gè)類或類簇。K-means算法邏輯簡(jiǎn)單、計(jì)算復(fù)雜度低、聚類效果也不錯(cuò),是應(yīng)用最廣泛的聚類算法之一。由于異常數(shù)據(jù)檢測(cè)的結(jié)果依賴于聚類算法的分析結(jié)果,因此要求在使用K-means算法實(shí)現(xiàn)異常檢測(cè)時(shí)能夠解決聚類結(jié)果不穩(wěn)定的問(wèn)題。文獻(xiàn)[9]提出基于近鄰傳播算法和最大最小距離算法結(jié)合使用的APMMD算法,利用近鄰傳播算法和最大最小距離思想計(jì)算初始聚類中心,并將獲得的初始聚類中心應(yīng)用于K-means聚類算法中,使迭代次數(shù)降低,其聚類結(jié)果保持穩(wěn)定且具有較高的異常檢測(cè)的準(zhǔn)確率。
基于近鄰度的方法包括基于距離和基于密度的方法。這種方法不需要假設(shè)數(shù)據(jù)的分布。
(1)基于距離的方法?;诰嚯x的方法通過(guò)計(jì)算數(shù)據(jù)與近鄰數(shù)據(jù)之間的距離來(lái)判斷出異常數(shù)據(jù),一般采用歐式距離和曼哈頓距離,主要應(yīng)用于全局近鄰。常用的算法是K-最近鄰(K-nearest neighbor)算法,它是一種簡(jiǎn)單易用、有監(jiān)督模式的機(jī)器學(xué)習(xí)算法。KNN算法首先找到k個(gè)最近的鄰居,然后根據(jù)k個(gè)最近的鄰居計(jì)算異常分?jǐn)?shù)。
(2)基于密度的方法。基于密度的方法與基于近鄰度的異常點(diǎn)檢測(cè)密切相關(guān),是在基于距離的基礎(chǔ)上,把數(shù)據(jù)之間的距離和周圍鄰近的數(shù)據(jù)個(gè)數(shù)相結(jié)合。它通過(guò)比較每個(gè)點(diǎn)和其鄰域點(diǎn)的密度,當(dāng)點(diǎn)與包圍其的鄰居的密度不同時(shí),被認(rèn)定為異常點(diǎn)。經(jīng)典的方法是Breunig等提出的局部離群點(diǎn)方法LOF(the local outlier factor)。LOF中計(jì)算距離采用歐式距離,LOF為每個(gè)點(diǎn)分配一個(gè)局部離群因子(LOF),LOF的大小表示該點(diǎn)的局部密度與其最近鄰居的局部密度之比,LOF越高,則表明是異常點(diǎn)的可能性越大。基于連通性的異常檢測(cè)算法COF(connectivity-based outlier factor)的局部密度通過(guò)鏈?zhǔn)骄嚯x方式計(jì)算求出。LOF和COF算法都是借助數(shù)據(jù)的相對(duì)密度計(jì)算異常分值,得分越高越可能是異常數(shù)據(jù)。由于LOF數(shù)據(jù)量的增多該算法的時(shí)間復(fù)雜度較高,文獻(xiàn)[13]提出改進(jìn)的LOF算法即K-LOF算法。先利用計(jì)算效率高的K-means聚類算法對(duì)數(shù)據(jù)進(jìn)行檢測(cè)預(yù)處理獲得初選異常數(shù)據(jù),然后用基于密度的LOF算法再挖掘出最終的異常數(shù)據(jù)。結(jié)果表明,相比LOF算法K-LOF不但提高了檢測(cè)的精確度,也降低了異常數(shù)據(jù)檢測(cè)的計(jì)算復(fù)雜度。
另外,還有一些專用的異常檢測(cè)方法,如One Class SVM和孤立森林(Isolation Forest)。這類算法的思路是不需要利用統(tǒng)計(jì)、距離和密度的量化指標(biāo)去表達(dá)異常數(shù)據(jù)的疏離程度,而是直接描述正常數(shù)據(jù)與異常數(shù)據(jù)的疏離程度。
(1)One Class SVM算法。One Class SVM屬于無(wú)監(jiān)督學(xué)習(xí)算法,不需要標(biāo)記訓(xùn)練集和輸出標(biāo)簽。該算法的思路比較簡(jiǎn)單,首先找一個(gè)超平面將正常數(shù)據(jù)找出來(lái),再通過(guò)正常數(shù)據(jù)的特征去學(xué)習(xí)一個(gè)決策邊界,然后通過(guò)這個(gè)邊界去判斷新來(lái)的數(shù)據(jù)是否與訓(xùn)練數(shù)據(jù)類似,超出邊界則為異常。由于該算法只有一個(gè)Class,比較適合解決極度不平衡的數(shù)據(jù)異常檢測(cè)。文獻(xiàn)[14]得出One Class SVM算法核函數(shù)計(jì)算時(shí)間比較長(zhǎng),因此不適合用于大量數(shù)據(jù)的處理。
(2)孤立森林算法。孤立森林算法是2008年由南京大學(xué)周志華教授團(tuán)隊(duì)首次提出,2012年又進(jìn)行了改進(jìn)。孤立森林算法屬于無(wú)監(jiān)督學(xué)習(xí),它通過(guò)樣本的疏密程度去描述樣本之間的差異。異常點(diǎn)被定義為“容易被孤立的離群點(diǎn)”。它由多個(gè)iTree(孤立二叉樹)構(gòu)成,每個(gè)iTree的構(gòu)建是從數(shù)據(jù)特征集合中隨機(jī)選擇一個(gè)分割值,通過(guò)這個(gè)分割值對(duì)數(shù)據(jù)進(jìn)行劃分然后構(gòu)造左右子樹,直到所有數(shù)據(jù)被劃分或已經(jīng)達(dá)到樹的高度限制,其中只關(guān)心路徑較短的點(diǎn),它們更可能是異常點(diǎn)。這種劃分情況下,異常數(shù)據(jù)點(diǎn)在iTree中更靠近根節(jié)點(diǎn),同時(shí)低密度的點(diǎn)遠(yuǎn)離大多數(shù)樣本,將很早被孤立。孤立森林算法是線性時(shí)間復(fù)雜度,與K-means、LOF等算法相比較,它不需要計(jì)算有關(guān)的距離、密度的指標(biāo),處理異常數(shù)據(jù)快速且高效。因此適合實(shí)時(shí)在線異常數(shù)據(jù)檢測(cè)。表1列出了常用異常檢測(cè)算法的優(yōu)缺點(diǎn)比較。
表1 異常檢測(cè)算法優(yōu)缺點(diǎn)比較
由于傳統(tǒng)方法不能滿足海量的動(dòng)態(tài)化數(shù)據(jù)的實(shí)時(shí)異常檢測(cè)的需求。因此出現(xiàn)了基于流處理框架的新方法。動(dòng)態(tài)化的數(shù)據(jù),也稱為數(shù)據(jù)流,它具有動(dòng)態(tài)產(chǎn)生且事先無(wú)法預(yù)知的特點(diǎn)。動(dòng)態(tài)數(shù)據(jù)需要?jiǎng)偟竭_(dá)就及時(shí)處理,同時(shí)滿足數(shù)據(jù)實(shí)時(shí)性異常檢測(cè)要求,數(shù)據(jù)處理效率要求更高。目前異常數(shù)據(jù)實(shí)時(shí)檢測(cè)中主要采用基于Storm、Spark等實(shí)時(shí)流處理框架結(jié)合機(jī)器學(xué)習(xí)算法和基于滑動(dòng)窗口的方法等。依靠流數(shù)據(jù)分析處理方法實(shí)現(xiàn)異常檢測(cè),可以用在實(shí)時(shí)數(shù)據(jù)分析場(chǎng)景中?;诹魈幚砜蚣艿漠惓?shù)據(jù)實(shí)時(shí)檢測(cè)方法對(duì)比如表2所示。
表2 基于流處理框架的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法對(duì)比
Hadoop核心是分布式文件系統(tǒng)HDFS和并行化計(jì)算模型MapReduce。隨著海量數(shù)據(jù)的產(chǎn)生,為了加快數(shù)據(jù)的處理速度則采用并行化計(jì)算。文獻(xiàn)[17]為了解決初始聚類中心敏感問(wèn)題,利用最大最小距離的思想改進(jìn)了K-means聚類算法,同時(shí)采用MapReduce并行化實(shí)現(xiàn)該算法的分布式聚類。結(jié)果表明提高了算法的計(jì)算效率,并且降低了算法執(zhí)行過(guò)程的通信開銷。文獻(xiàn)[18]采用基于Hadoop平臺(tái)中的MapReduce并行計(jì)算框架,并使用基于密度的LOF算法的分布式財(cái)務(wù)異常數(shù)據(jù)分析模型。采用MapReduce并行化計(jì)算框架,算法在運(yùn)行時(shí)可以在多個(gè)計(jì)算節(jié)點(diǎn)運(yùn)行。將MapReduce框架和加入領(lǐng)域關(guān)系的LOF算法結(jié)合使用,可以并行計(jì)算,進(jìn)而提高了數(shù)據(jù)處理速度和算法的準(zhǔn)確率。
由于孤立森林算法的每棵樹隨機(jī)采樣獨(dú)立生成,具有很好的處理大數(shù)據(jù)的能力和速度,可以進(jìn)行并行化處理。同時(shí)還存在孤立二叉樹間異常能力的差異性,文獻(xiàn)[19]采用加權(quán)計(jì)算測(cè)試樣本在孤立森林算法中異常值,同時(shí)采用基于內(nèi)存的Spark框架不同于Hadoop框架中從HDFS中讀取數(shù)據(jù),比較適合迭代次數(shù)多的算法。結(jié)果表明在大規(guī)模數(shù)據(jù)下可以加快檢測(cè)速度和提高檢測(cè)精度。文獻(xiàn)[20]提出基于HDFS框架的數(shù)據(jù)異常檢測(cè)方法,利用分布式HDFS框架可以快速準(zhǔn)確地存儲(chǔ)數(shù)據(jù),采用基于支持向量數(shù)據(jù)描述并結(jié)合最小閉包球算法實(shí)現(xiàn)實(shí)時(shí)異常檢測(cè)。該方法降低了時(shí)間復(fù)雜度,提高了異常檢測(cè)率,并減少了運(yùn)行時(shí)間。
由于K-means聚類算法在處理大量數(shù)據(jù)時(shí)效率較低,文獻(xiàn)[21]提出了基于Apache Flink流計(jì)算框架結(jié)合流處理思想的SK-means(stream K-means)方法,提高了算法的執(zhí)行效率,聚類效果更好并且可以較快地進(jìn)行異常數(shù)據(jù)檢測(cè)。文獻(xiàn)[22]提出基于分布式流處理框架Spark Streaming,采用流回歸機(jī)器學(xué)習(xí)算法和正態(tài)統(tǒng)計(jì)技術(shù)相結(jié)合的方法進(jìn)行數(shù)據(jù)異常檢測(cè)。該方法可以實(shí)時(shí)且準(zhǔn)確分析瓦斯?jié)舛攘鲾?shù)據(jù)中的異常數(shù)據(jù),解決了流數(shù)據(jù)中大數(shù)據(jù)機(jī)器學(xué)習(xí)處理和實(shí)時(shí)性問(wèn)題。文獻(xiàn)[23]提出基于Storm實(shí)時(shí)處理平臺(tái)采用動(dòng)態(tài)KNN的累積距離的異常檢測(cè)方法。該方法適用于實(shí)時(shí)處理框架,每一組時(shí)間序列只用動(dòng)態(tài)地保存?zhèn)€時(shí)間點(diǎn)的數(shù)值,可以簡(jiǎn)化操作和節(jié)省內(nèi)存。同時(shí)可以動(dòng)態(tài)地觀察數(shù)據(jù)檢測(cè)結(jié)果。
滑動(dòng)窗口機(jī)制可以處理最新到達(dá)的數(shù)據(jù),文獻(xiàn)[24]提出基于Storm流數(shù)據(jù)框架的滑動(dòng)窗口計(jì)算方法。采用Storm平臺(tái)上實(shí)現(xiàn)滑動(dòng)窗口計(jì)算方法進(jìn)行實(shí)時(shí)分析,并通過(guò)增大滑動(dòng)窗口的吞吐量,提高了數(shù)據(jù)異常檢測(cè)的實(shí)時(shí)處理效率。但是該方法只對(duì)數(shù)值型數(shù)據(jù)實(shí)現(xiàn)了實(shí)時(shí)處理,還需要進(jìn)一步研究。文獻(xiàn)[25]提出基于Storm流處理的數(shù)據(jù)實(shí)時(shí)處理方法,采用基于滑動(dòng)時(shí)間窗口實(shí)現(xiàn)異常數(shù)據(jù)檢測(cè)。可以實(shí)現(xiàn)在Storm上實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)預(yù)處理、數(shù)據(jù)異常檢測(cè)。
為了從海量數(shù)據(jù)中實(shí)時(shí)且高效地檢測(cè)出異常值,文獻(xiàn)[26]提出了Flink的異常檢測(cè)方法,針對(duì)實(shí)時(shí)流數(shù)據(jù),首先用Kafka對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)預(yù)處理,然后在Flink平臺(tái)上利用ARIMA模型進(jìn)行預(yù)測(cè)。
隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的發(fā)展,又出現(xiàn)了一些新穎且有效的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法?;谛滦退惴ǖ漠惓?shù)據(jù)實(shí)時(shí)檢測(cè)方法如表3所示。
表3 基于新型算法的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法比較
文獻(xiàn)[27]提出基于層級(jí)實(shí)時(shí)記憶(hierarchical temporal memory,HTM)的時(shí)間序列異常檢測(cè)算法,HTM算法是一種仿生物結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法,它不需要采用滑動(dòng)窗口法批處理數(shù)據(jù),就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)檢測(cè)。它是“記憶-預(yù)測(cè)”的運(yùn)行模式,將復(fù)雜的問(wèn)題轉(zhuǎn)化為模式識(shí)別,可以提前預(yù)警數(shù)據(jù)異常。隨著云計(jì)算技術(shù)的發(fā)展,云資源的運(yùn)行會(huì)產(chǎn)生海量的時(shí)序數(shù)據(jù)。文獻(xiàn)[28]將基于分層時(shí)間記憶算法用在企業(yè)多云時(shí)序數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè)中,可以實(shí)現(xiàn)實(shí)時(shí)異常檢測(cè)。由于云資源監(jiān)測(cè)要實(shí)現(xiàn)自動(dòng)化實(shí)時(shí)異常檢測(cè),而HTM算法存儲(chǔ)大量時(shí)序數(shù)據(jù)符合實(shí)時(shí)流式分析、無(wú)監(jiān)督以及動(dòng)態(tài)數(shù)據(jù)在線學(xué)習(xí)的要求。因?yàn)樵撍惴ㄟ\(yùn)用到監(jiān)測(cè)系統(tǒng)中可以高效地檢測(cè)異常,并提高企業(yè)的運(yùn)維效率。HTM算法已經(jīng)應(yīng)用到許多數(shù)據(jù)智能處理領(lǐng)域如異常檢測(cè)、數(shù)據(jù)預(yù)測(cè)。針對(duì)數(shù)據(jù)量的不斷增長(zhǎng),快速處理的需要,以及無(wú)法并行化計(jì)算的問(wèn)題,文獻(xiàn)[29]提出了面向多核的并發(fā)HTM空間池算法,將HTM空間池區(qū)域分區(qū),各區(qū)獨(dú)立完成訓(xùn)練任務(wù)并且利用CPU中的計(jì)算核心,實(shí)現(xiàn)多個(gè)核心并行完成。使用基于多核心和共享內(nèi)存的大數(shù)據(jù)平臺(tái)Phoenix,避免帶來(lái)額外的通信開銷,并且提高了算法的執(zhí)行效率和預(yù)測(cè)準(zhǔn)確率。
對(duì)于時(shí)間序列數(shù)據(jù),直接采用LSTM算法自適應(yīng)性不高,而且單一模型檢測(cè)結(jié)果準(zhǔn)確率不高。文獻(xiàn)[30]提出通過(guò)LSTM網(wǎng)絡(luò)和自動(dòng)編碼器進(jìn)行不同組合預(yù)測(cè)模型,進(jìn)而影響檢測(cè)器的性能。由于流數(shù)據(jù)數(shù)量大、到達(dá)快速,單個(gè)平穩(wěn)模型可能無(wú)法滿足數(shù)據(jù)實(shí)時(shí)異常檢測(cè)的要求。文獻(xiàn)[31]提出了基于LSTMs-Autoencoder的流數(shù)據(jù)異常檢測(cè)算法。該算法采用多個(gè)LSTM單元,形成了一個(gè)深層遞歸的神經(jīng)網(wǎng)絡(luò)(LSTMs),然后將遞歸神經(jīng)網(wǎng)絡(luò)與自動(dòng)編碼器相結(jié)合,實(shí)現(xiàn)了對(duì)流數(shù)據(jù)的實(shí)時(shí)檢測(cè)并保證檢測(cè)結(jié)果準(zhǔn)確,同時(shí)還能應(yīng)對(duì)考慮概念漂移現(xiàn)象。
基于統(tǒng)計(jì)的方法由于數(shù)據(jù)分布快速且高效,魯棒性較好適合低維數(shù)據(jù),但對(duì)高維數(shù)據(jù)處理受限制?;跈C(jī)器學(xué)習(xí)的方法克服了傳統(tǒng)統(tǒng)計(jì)方法不能處理高維數(shù)據(jù)的問(wèn)題。隨著數(shù)據(jù)量的增多、動(dòng)態(tài)數(shù)據(jù)的產(chǎn)生,對(duì)處理數(shù)據(jù)的速度、實(shí)時(shí)性有了更高的要求。大數(shù)據(jù)中的批處理方式處理速度較慢,可以采用基于Storm、Spark、Flink等流式處理框架來(lái)實(shí)現(xiàn)實(shí)時(shí)計(jì)算和分析,并且高效準(zhǔn)確地檢測(cè)出異常值。隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的發(fā)展,又出現(xiàn)了基于層級(jí)實(shí)時(shí)記憶的異常檢測(cè)算法,它不需要采用滑動(dòng)窗口法批處理數(shù)據(jù),就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)檢測(cè)。
隨著海量數(shù)據(jù)以及動(dòng)態(tài)數(shù)據(jù)的產(chǎn)生,除了采用流處理框的并行化和實(shí)時(shí)的計(jì)算方法,還需要繼續(xù)改進(jìn)算法的性能,進(jìn)而實(shí)時(shí)檢測(cè)更多的異常數(shù)據(jù)。比如,雖然HTM算法具有較強(qiáng)的自適應(yīng)性,可以實(shí)現(xiàn)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)。但它也存在時(shí)間復(fù)雜度的問(wèn)題,要使之應(yīng)用廣泛還需要進(jìn)一步研究改進(jìn)。與此同時(shí),對(duì)于數(shù)據(jù)類型的增多和應(yīng)用領(lǐng)域的擴(kuò)大,可以研究通過(guò)豐富數(shù)據(jù)編碼的方式來(lái)實(shí)現(xiàn)不同類型的數(shù)據(jù)異常檢測(cè),同時(shí)實(shí)時(shí)數(shù)據(jù)異常檢測(cè)效果更好。面對(duì)數(shù)據(jù)不平衡等問(wèn)題,可以通過(guò)從大量數(shù)據(jù)中學(xué)習(xí)獲得準(zhǔn)確有效的特征,建立基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而提高異常檢測(cè)的效率。對(duì)于不平衡數(shù)據(jù)的處理也可以采用基于深度學(xué)習(xí)的異常檢測(cè)方法。在異常數(shù)據(jù)實(shí)時(shí)檢測(cè)的未來(lái)發(fā)展中,基于層級(jí)實(shí)時(shí)記憶的和神經(jīng)網(wǎng)絡(luò)模型的方法改進(jìn),以及基于深度學(xué)習(xí)的方法是一種趨勢(shì)。
(1)新型的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法不僅加快了海量動(dòng)態(tài)數(shù)據(jù)的處理速度,也可以進(jìn)行實(shí)時(shí)異常數(shù)據(jù)檢測(cè)并實(shí)時(shí)反饋檢測(cè)結(jié)果。與此同時(shí),還提高了異常數(shù)據(jù)檢測(cè)的效率和準(zhǔn)確率。
(2)異常檢測(cè)方法都需要快速且實(shí)時(shí)地檢測(cè)出結(jié)果,這樣才能最大程度地挽回?fù)p失或避免發(fā)生更大的事故。異常數(shù)據(jù)實(shí)時(shí)檢測(cè)還要繼續(xù)進(jìn)一步研究,準(zhǔn)確、高效地應(yīng)用到工業(yè)生產(chǎn)、醫(yī)療技術(shù)、物聯(lián)網(wǎng)檢測(cè)、應(yīng)急管理等領(lǐng)域中才具有實(shí)際意義。因此,異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法具有廣闊的應(yīng)用前景。