胡 珉,白 雪*,徐 偉,吳秉鍵
(1.上海大學悉尼工商學院,上海 201800;2.上海大學—上海城建建筑產(chǎn)業(yè)化研究中心,上海 200072)
(?通信作者電子郵箱18225515145@163.com)
多維時間序列是指具有多個維度的有序數(shù)據(jù)集,相比單維時間序列,多維時間序列的時間復雜度和空間復雜度更高、無效和干擾信息更加嚴重,同時各維度之間也存在著更為復雜的關(guān)聯(lián)情況,使得對于多維時間序列的研究難度呈幾何級數(shù)增長。
對于時間序列的數(shù)據(jù)挖掘起始于20 世紀90 年代并且發(fā)展迅速,文獻[1]認為其挖掘內(nèi)容涵蓋了時間序列的相似性查詢、時序模式挖掘、時間序列分類和聚類、時間序列異常檢測等領(lǐng)域。
本文研究的對象是多維時間序列異常檢測,它作為數(shù)據(jù)挖掘的重要研究領(lǐng)域,是各行各業(yè)尤其是大型工程項目密切關(guān)注的內(nèi)容。例如,在互聯(lián)網(wǎng)領(lǐng)域,需要通過監(jiān)測和分析網(wǎng)絡數(shù)據(jù)的實時狀態(tài)發(fā)現(xiàn)異常情況,及時采取措施最終保障信息安全;在大型基礎設施的施工和運維過程中,需要通過分析各類傳感器的數(shù)據(jù)信息,及時發(fā)現(xiàn)風險隱患,實時報警并輔助管理人員采取有效措施,減少項目經(jīng)濟損失,保障人員安全等。
然而,多維時間序列異常檢測算法異常困難:一是維數(shù)升高帶來的“維數(shù)災難”;二是隨著時間增長,數(shù)據(jù)量激增帶來的“信息膨脹”。這不僅增加了算法計算量,提高時間復雜度,加重處理數(shù)據(jù)的負擔,不利于實時檢測;而且復雜的關(guān)聯(lián)性容易干擾數(shù)據(jù)的真實結(jié)構(gòu),增加數(shù)據(jù)分析的難度,導致錯誤的分析處理結(jié)果[2]。為解決以上問題,學者們采用“維數(shù)約簡”和“時間序列模式表示”兩種思路處理原始數(shù)據(jù),在保留原始數(shù)據(jù)的基本結(jié)構(gòu)情況下,去除細節(jié)干擾,從橫向和縱向兩個角度對數(shù)據(jù)集規(guī)模進行壓縮,從而提高數(shù)據(jù)分析效率和數(shù)據(jù)挖掘的準確性。
下面分別對文中的關(guān)鍵名詞進行定義。
定義1異常。
關(guān)于異常的定義,目前還沒有統(tǒng)一標準,當前認可度較高的定義:異常指的是數(shù)據(jù)集合中明顯與眾不同的數(shù)據(jù),這些數(shù)據(jù)是由不同的機制產(chǎn)生的,而非隨機偏差[3]。異常可以分為點異常、模式異常和序列異常三種形式,本文中的異常發(fā)現(xiàn)主要指對點異常和序列異常的發(fā)現(xiàn)。
定義2維數(shù)約簡。
給定D維數(shù)據(jù)集X={x1,x2,…,xN|xi∈RD},設d維數(shù)據(jù)集Y={y1,y2,…,yN|yi∈Rd},D>d。若存在函數(shù)F(xi),1 ≤i≤N使得X→Y,構(gòu)成映射RD→Rd,那么就稱Y為X維數(shù)約簡后的數(shù)據(jù)集。因此,維數(shù)約簡的實質(zhì)就是求函數(shù)F(xi)。
定義3時間序列模式表示。
給定含m個樣本的多維時間序列數(shù)據(jù)集X={x1,x2,…,xm|xi∈RN},m>1,通過相關(guān)算法將原始的多維時間序列數(shù)據(jù)集壓縮為含n(m?n,n≥1)個樣本的多維時間序列數(shù)據(jù)集Y,其中Y={y1,y2,…,yn|yi∈RN},時間序列模式表示,可理解為時間維度上的維數(shù)約簡。
目前國內(nèi)外研究多維時間序列異常檢測有兩種思路:第一種思路是將多維時間序列進行橫向分割,轉(zhuǎn)換為多個單維時間序列,利用單維時間序列領(lǐng)域的算法發(fā)現(xiàn)異常模式;第二種思路是對多維時間序列進行縱向分段,通過相關(guān)算法研究發(fā)現(xiàn)異常點和異常序列。從整體邏輯順序來看,首先需要對原始數(shù)據(jù)集進行預處理,然后將預處理后的數(shù)據(jù)集按照這兩種不同的方法進行異常檢測,具體如圖1所示。
圖1 多維時間序列異常檢測算法技術(shù)路線Fig.1 Technical routes of multidimensional time series anomaly detection algorithm
本文主要圍繞多維時間序列異常檢測技術(shù)路線進行闡述,通過對維數(shù)約簡、時間序列模式表示和異常發(fā)現(xiàn)三大熱點領(lǐng)域進行分析整理,總結(jié)和分析目前多維時間序列異常檢測領(lǐng)域的研究現(xiàn)狀和研究趨勢。
避免“維數(shù)災難”最有效的方法是進行維數(shù)約簡,維度約簡分為選維和降維兩種類別[4]。選維指的是從原始的高維空間中根據(jù)異常檢測的目的直接選取相關(guān)維度,文獻[5]認為主要的選維方法包括:順序選維算法、遺傳算法、基于分形的選維算法和機器學習的選維方法等。相比選維方法,降維算法是指從一個維度空間映射到另一個維度空間的過程,降維后原始時間序列維度的含義和對應數(shù)值均會發(fā)生變化。
由于降維算法是目前維數(shù)約簡理論研究的主要方向,而且應用較為廣泛,因此本文主要介紹降維算法,無特別強調(diào),后文中維數(shù)約簡方法指的是降維算法,其主流算法可以分為線性和非線性兩種類別,如圖2所示。
1.1.1 線性降維的主流算法
線性降維算法是維數(shù)約簡領(lǐng)域最早提出的一類算法,此類算法的核心是找到各維度之間存在的線性關(guān)系,然后對重復表達的信息進行刪除,從而達到降維的目的。目前其主流的算法包括主成分分析(Principal Component Analysis,PCA)、線性判別分析(Linear Discriminant Analysis,LDA)等。
圖2 維數(shù)約簡主流算法分類Fig.2 Classification of main algorithms for dimension reduction
線性降維領(lǐng)域中的經(jīng)典算法是PCA,該算法是一種無監(jiān)督的統(tǒng)計分析方法,其計算簡單,應用廣泛。文獻[6-9]的結(jié)果顯示對多維數(shù)據(jù)集進行PCA 降維要明顯優(yōu)于不降維得到的結(jié)果。但是文獻[10-11]將PCA 算法應用于多維時間序列異常檢測時,發(fā)現(xiàn)其檢測效果不是很理想,它們認為PCA 算法在降維過程中只是反映了空間相關(guān)性卻沒有考慮時間的相關(guān)性,同時該算法對異常值、參數(shù)值和校正集比較敏感。
為此,文獻[10]提出了一種基于Galerkin 的KL 擴展算法(KL Expansion,KLE)計算方法,并將其應用于流量異常檢測中,實驗結(jié)果顯示該算法能夠考慮時間的相關(guān)性,其異常檢測結(jié)果有比較顯著的改善。文獻[12]提出基于小波變換的全網(wǎng)絡異常檢測算法MSPCA(Multiscale Principal Component Analysis),該算法考慮了多維時間序列的時空特性,經(jīng)驗證其降維結(jié)果要優(yōu)于PCA 算法和KLE 算法。文獻[13]通過對比在工業(yè)加工和化學計量領(lǐng)域發(fā)展更為成熟的基于PCA 的多元統(tǒng)計過程控制(Multivariate Statistical Process Control,MSPC)與傳統(tǒng)PCA 的差異,提出多元統(tǒng)計網(wǎng)絡監(jiān)測(Multivariate Statistical Network Monitoring,MSNM),從而將MSPC 引入到網(wǎng)絡應用領(lǐng)域,實驗結(jié)果證明,利用MSNM 可以有效避免PCA 存在的缺陷。為降低PCA 的對異常值的敏感程度,文獻[14]將穩(wěn)健主成分分析(Robust Principal Component Analysis,RPCA)應用于網(wǎng)絡包捕獲數(shù)據(jù)的異常檢測,實驗發(fā)現(xiàn)該算法調(diào)整參數(shù)較少并且不需要很多的訓練數(shù)據(jù)就能達到較好的檢測效果。
1.1.2 非線性降維主流算法
隨著數(shù)據(jù)集規(guī)模的激增,學者們發(fā)現(xiàn)線性降維算法已經(jīng)無法描述多維數(shù)據(jù)集各維度之間復雜的非線性關(guān)系,于是開始逐步研究非線性降維算法。
最初的非線性降維算法是基于已有線性降維算法的改進算法,即基于核的非線性降維算法,比較經(jīng)典的算法是核主成分分析(Kernel Principal Component Analysis,KPCA),但是這類算法的難點在于難以選擇合適的核函數(shù)。
流形學習是近年來非線性降維算法領(lǐng)域的熱門研究方向,2000 年《Science》刊登了兩篇流形學習算法,分別是文獻[15]提出的局部線性嵌入(Locally Linear Embedding,LLE)算法和文獻[16]提出的等距離度量方法Isomap(Isometric Method),這兩篇論文從算法層面驗證了高維非線性數(shù)據(jù)空間內(nèi)確實存在非線性流行結(jié)構(gòu),標志著學術(shù)界開始對流形學習的研究。該研究認為多維數(shù)據(jù)集主要呈現(xiàn)的是非線性關(guān)系,利用線性降維算法很難對其進行準確的描述,比如經(jīng)典的瑞士卷數(shù)據(jù)集,如圖3所示。A點和B點的實際距離并非實線所對應的線性長度,而是虛線所對應的曲線距離,使用線性降維算法明顯不符合此類數(shù)據(jù)的真實結(jié)構(gòu)。
圖3 瑞士卷數(shù)據(jù)集Fig.3 Swiss volume dataset
流形學習算法的關(guān)鍵在于從高維數(shù)據(jù)集中找到潛在的低維流形結(jié)構(gòu),從而實現(xiàn)降維的目的,其算法主要包括Isomap、LLE、多維尺度(Multidimensional Scaling,MDS)分析等。從文獻[16-19]整理中發(fā)現(xiàn)目前流形學習算法主要應用于圖像識別等領(lǐng)域;同時在多維時間序列的應用研究也有一定的成果[20-25]。目前,應用于時間序列的主流算法有Isomap、LLE 及其改進算法。
KPCA 算法是基于PCA 的改進算法,其算法的原理是通過核函數(shù)將非線性數(shù)據(jù)轉(zhuǎn)換為線性數(shù)據(jù),然后利用PCA 算法從而實現(xiàn)非線性降維,該算法原理簡單,在矩陣比較稀疏的情況下其計算復雜度不高,是非線性降維的經(jīng)典算法之一。文獻[24]通過對水文時間序列的預測模型算法對比,發(fā)現(xiàn)“KPCA+SVM”的預測結(jié)果要明顯優(yōu)于“PCA+SVM”的結(jié)果,說明了在該類數(shù)據(jù)集中,KPCA 降維效果要優(yōu)于PCA。但文獻[26]發(fā)現(xiàn)KPCA 算法雖然在性能上要優(yōu)于PCA,但是在實際應用中該算法對子集劃分和核函數(shù)的選取比較敏感。文獻[27]將KPCA 和其他基于機器學習分類器的方法應用于時間序列的異常檢測,通過實驗結(jié)果發(fā)現(xiàn)KPCA 的檢測結(jié)果要優(yōu)于獨立成分分析(Independent Component Analysis,ICA)、PCA等傳統(tǒng)的方法。文獻[28]提出基于部分核主成分分析(Partial Kernel Principal Component Analysis,PKPCA)算法研究故障檢測與隔離問題,然后應用于工業(yè)燃氣輪機傳感器實驗數(shù)據(jù)中,結(jié)果顯示該算法能夠有效地檢測和隔離故障。文獻[29]將KPCA 應用于無人機傳感器數(shù)據(jù)異常檢測領(lǐng)域,實驗結(jié)果發(fā)現(xiàn),該算法的監(jiān)測效果良好。
Isomap 算法是一種非迭代的全局優(yōu)化算法,其核心思想是將MDS 算法中的歐氏距離轉(zhuǎn)換為測地距離。文獻[16]將該算法應用在圖像識別領(lǐng)域,實驗結(jié)果表明該算法的降維結(jié)果要優(yōu)于PCA 和MDS。但是,傳統(tǒng)的Isomap 算法計算復雜度很高,拓撲結(jié)構(gòu)不夠穩(wěn)定,對于低維結(jié)構(gòu)是非凸子集的高維數(shù)據(jù)集有效性不強[30]。為了降低算法的復雜度,文獻[31]提出地標-等距離度量方法L-Isomap(Landmark Isometric Method),該算法首先利用MDS 隨機選取若干地標映射到低維空間,之后通過距離計算確定非地標點在低維空間的相對位置,該算法能夠大大提高計算效率但是其降維結(jié)果對地表點十分敏感。為此,文獻[30]提出了兩種自適應的地標點選取機制,分別基于貪婪策略和圖論中的圖頂點染色思想,經(jīng)實驗表明這兩種機制均能起到比較理想的降維結(jié)果。文獻[25]認為基于全局的降維算法(例如:PCA、Isomap 等)沒有充分考慮多維數(shù)據(jù)集的時間相關(guān)性,因此提出時空等值線圖STIsomap(Spatio-Temporal extension to Isometric method)改變局部鄰域圖中的原始權(quán)重,以強調(diào)時間相關(guān)點之間的相似性,作者將ST-Isomap算法應用于人體運動和機器人遙控操作數(shù)據(jù),實驗結(jié)果證明了該算法的有效性。文獻[32]結(jié)合基因序列自身的特點,提出了基于Isomap 的一種變種即雙有界樹連接等值映射方法(double-bounded tree connected Isometric method,dbt-Isomap)[32],在對基因時間序列進行維數(shù)約簡的實驗中結(jié)果良好。文獻[33]提出針對噪聲時間序列數(shù)據(jù)的Isomap 樣本外擴展方法,實驗結(jié)果表明,與其他時間感知嵌入算法相比,提出的樣本外擴展方法在存在各種噪聲和偽影的情況下,能夠提供更健壯、更準確的有序圖像數(shù)據(jù)嵌入。文獻[21]將Isomap 算法應用到股票的多維時間序列中,實驗結(jié)果驗證了Isomap算法的合理性和可行性。
LLE[15]假設數(shù)據(jù)在較小的局部范圍內(nèi)是線性的,因此在局部范圍內(nèi)采用歐氏距離代替測地距離,通過保證局部最優(yōu)來實現(xiàn)降維,因此該算法相較于Isomap 能夠有效地降低計算量。文獻[22]將LLE 算法應用到金融多維時間序列的聚類中,實驗結(jié)果表明利用LLE 算法進行降維得到的結(jié)果要優(yōu)于使用PCA 得到的效果,但是該算法較難確定嵌入維數(shù)和近鄰個數(shù)的參數(shù)。文獻[23]將LLE 算法進行改進,提出基于概率的有監(jiān)督局部線性嵌入(Supervised Locally Linear Embedding based on Probability,PSLLE)和基于概率的快速監(jiān)督局部線性嵌入(Quick Supervised Locally Linear Embedding based on Probability,PQSLLE),并應用于煤礦瓦斯?jié)舛葧r間序列異常監(jiān)測數(shù)據(jù),取得較好的效果。文獻[34]為提高LLE 算法的準確度,提出了帶監(jiān)督的LLE(Supervised LLE,SLLE)算法并應用傳感器的故障識別中,實驗結(jié)果發(fā)現(xiàn)利用SLLE算法的降維效果要明顯優(yōu)于LLE、PCA 和MDS 算法。文獻[35]認為LLE算法只是對簡單的數(shù)據(jù)結(jié)構(gòu)降維比較有效,而在噪聲、大曲率和稀疏采樣條件下,它并不能準確地處理鄰域的選擇。因此,作者提出了一種改進的加權(quán)局部線性嵌入算法(improved Weighted Local Linear Embedding Algorithm,WLE-LLE),該算法利用拉普拉斯特征映射重構(gòu)降維目標函數(shù),實現(xiàn)結(jié)果發(fā)現(xiàn)其能夠有效地表示非線性數(shù)據(jù)的流形結(jié)構(gòu),分類識別率要比LLE 算法提高2%~8%。文獻[36]將LLE 算法應用于非線性、非平穩(wěn)的腦電圖數(shù)據(jù)中,通過提取經(jīng)離散小波變換得到的逼近分量的非線性特征,并結(jié)合神經(jīng)網(wǎng)絡進行分類,實驗結(jié)果顯示該方法聚類分布明顯、分類效果好而且穩(wěn)定性強,證明了腦電信號處理中流形學習的可行性。
隨著多維時間序列數(shù)據(jù)規(guī)模的激增,傳統(tǒng)的線性降維算法已經(jīng)很難在準確、完整地保留其數(shù)據(jù)特征的前提下實現(xiàn)維數(shù)約簡,非線性降維算法尤其是流形學習將成為該領(lǐng)域未來重要的研究方向。
根據(jù)非線性降維算法已有的理論成果,本文將該領(lǐng)域的研究趨勢總結(jié)為以下幾個方面:
1)將已有理論成果與實際應用場景相結(jié)合,進一步確定算法的特點和適用范圍。目前文中涉及的諸多理論算法都只是在特定的實驗數(shù)據(jù)集或者人工數(shù)據(jù)集上進行測試,算法在解決具有實際背景的多維時間序列時的可行性還需要進一步的分析和驗證,這是將理論成果轉(zhuǎn)換為實際應用的重要環(huán)節(jié)。
2)算法優(yōu)化。整理發(fā)現(xiàn),目前在該領(lǐng)域算法的缺陷主要表現(xiàn)在:時間相關(guān)性研究不夠深入、參數(shù)設置較多、計算復雜度較高、魯棒性不強等方面,在之后的算法研究中,可以從以上的一個或多個方面對算法進行優(yōu)化。
3)結(jié)合機器學習或深度學習實現(xiàn)維數(shù)約簡[37]。這些算法具有自學習能力,理論上非常適合于對海量時間序列的處理,因此可以將此類算法引入該領(lǐng)域解決時間序列的降維問題。
時間序列模式表示是從時間角度對原始數(shù)據(jù)進行抽象和概括的特征表示方法,是對時間序列的重新描述。該方法能夠在保證原始數(shù)據(jù)基本形態(tài)和信息的基礎上實現(xiàn)數(shù)據(jù)壓縮。
目前在該領(lǐng)域的理論研究中,針對單維時間序列異常檢測的研究成果相對成熟,因此許多文獻會將多維時間序列轉(zhuǎn)換為多個單維時間序列,利用單維時間序列研究成果解決多維時間序列異常檢測問題。該領(lǐng)域的算法根據(jù)文獻[38]可以分為精確表示和近似表示,如圖4所示。
圖4 時間序列模式表示主流算法分類Fig.4 Mainstream algorithms of pattern representation of time series
在時間序列壓縮方式中,主流的方法有:抽樣表示法、分段線性表示法(Piecewise Linear Representation,PLR)、符號化表示法(Symbolic Aggregate Approximation,SAX)、離散傅里葉變換(Discrete Fourier Transform,DFT)等,下面分別對這幾類主流算法的研究現(xiàn)狀進行分析和介紹。
2.1.1 抽樣表示法
抽樣表示法[39]是時間序列最簡單的表示方法,該算法的原理簡單,即按比例抽取樣本點,同時易于實現(xiàn),適用于實際工程中的多維時間序列的實時壓縮,但是其采樣步長很難確定,當該參數(shù)取值過大時,會使樣本變形導致表示不準確。
針對該問題,Keogh 等[40]提出分段聚合近似(Piecewise Aggregate Approximation,PAA),該方法在抽樣表示方法的基礎上使用平均值來表示每個分段對應的數(shù)據(jù)點集,減小了因抽樣導致的時序數(shù)據(jù)的變形程度,但是其準確度以及步長的確定仍然是需要進一步完善的問題。為防止該算法丟失時間序列的重要模式,同時保證其存在良好的下界約束,Hung等[41]提出了分段線性聚合近似(Piecewise Linear Aggregate Approximation,PLAA)算法,該算法結(jié)合均值和斜率兩個方面,能夠彌補PAA 算法的不足。文獻[42]針對PAA 步長問題提出基于混合層次聚類的PAA(hybrid Hierarchical Clustering-PAA,hybrid HC-PAA)算法,在基于振動特征的工業(yè)燃氣輪機故障檢測和基于超聲回波信號的生物特征識別兩個數(shù)據(jù)集的應用中具有良好的表現(xiàn)。為了解決PAA 算法數(shù)據(jù)特征丟失的問題,文獻[43]提出分段聚合模式表示(Piecewise Aggregate Pattern Representations,PAPR),并將其應用于心電圖數(shù)據(jù)和視頻監(jiān)控數(shù)據(jù)的異常檢測,實驗結(jié)果顯示,與基于PAA 的方法相比,基于該方法的異常檢測算法具有更高的魯棒性和更精確的異常檢測能力。文獻[44]針對PAA 存在的問題給出了兩種解決方式:第一種方法是根據(jù)平均值將每一段劃分為兩部分,并分別使用數(shù)值平均值來表示趨勢,該方法已被證明滿足下界約束,從而保證不會產(chǎn)生漏報;第二種方法使用二進制字符串來記錄時間序列的趨勢變化,實驗表明該方法要優(yōu)于之前提出的PAA算法。
2.1.2 分段線性表示法
Pavlidis 等[45]提出PLR,該算法是指采用首尾相鄰的一系列線段來近似表示時間序列,其難點在于如何進行樣本分段,確定分段數(shù)目和分段點。
針對此問題,文獻[46]提出基于PAA 的PLR 算法,將時間序列等寬分割,然后用均值代替該子時間段。該方法簡單直觀,能夠提高索引的效率,可以應用于多維時間序列壓縮。文獻[47]提出了基于重要點的分段方法,文中通過選取局部極值點來實現(xiàn)數(shù)據(jù)的壓縮。文獻[48]提出基于特征點的PLR算法,將影響時間序列形態(tài)的最大的點作為特征點進行線性分段,該算法雖然在選擇特征點的過程中對噪聲的處理結(jié)果較好,但無法及時捕獲單調(diào)序列中的變化轉(zhuǎn)折點,不能有效發(fā)現(xiàn)短暫變化的尖峰子序列。之后,文獻[1]提出基于時態(tài)邊緣算子的分段線性(piecewise linear representation based on Temporal Edge Operators,TEO)表示方法,算法考慮到時間序列的非平穩(wěn)性和相關(guān)性特點,選擇局部范圍內(nèi)的邊緣幅度極值點作為邊緣點進行時間子序列的劃分,算法具有較強適應性,能夠應用于不同的數(shù)據(jù)特征環(huán)境。文獻[49]提出一種基于插值邊緣算子的時間序列分段線性表示(piecewise linear representation based on Interpolation Edge Operators,IEO)方法,可以有效壓縮數(shù)據(jù),并且對噪聲和數(shù)據(jù)是否陡峭并不敏感,在異常檢測中能夠具有更好的表現(xiàn)效果。文獻[50]認為大部分的PLR 算法具有動態(tài)增量實時更新的優(yōu)點,于是提出基于信息熵的PLR_IE(Piecewise Linear Representation based on Information Entropy)算法,利用序列中熵的大小比例來確定序列中重要點的數(shù)量分布情況,從而線性擬合出初始曲線,實驗結(jié)果表明,與現(xiàn)有的距離計算分析查找特征點相比,該算法能夠更準確地提取序列重要特征,保留了序列整體性。文獻[51]為解決時間序列的分割問題,提出基于壓縮比的分段線性表示法。首先找出時間序列中的所有極值點,然后根據(jù)壓縮比例選取符合要求的極值點作為序列分割點,該算法原理簡單,同時不需要設置復雜的閾值參數(shù),但是該算法的魯棒性不強,存在擬合誤差,只適用于單維時間序列的離線分割。為減小PLR 算法的擬合誤差,文獻[52]提出基于重要點的線性分段表示法(Piecewise Linear Representation based on Important Data Point,PLR-IDP),該重要點通過計算單點擬合誤差和分段擬合誤差來確定,結(jié)果顯示該算法能夠在保留數(shù)據(jù)主要特征的情況下,實現(xiàn)較低的單點、局部和全局擬合誤差。為減少參數(shù)設置,提高算法的擬合效果和魯棒性,文獻[53]提出基于時間序列重要點的分段(Piecewise Linear Representation based on the Important Point of the Time Series,PLR-TSIP)算法,該算法從整體擬合誤差角度確定每段的優(yōu)先級,然后在段內(nèi)按照最大最小值點進行進一步劃分,實驗結(jié)果表明,該算法的擬合度較高,但是其計算效率還需要進一步提高。
2.1.3 符號化表示方法
時間序列的符號化表示方法中最常用的就是文獻[54]提出的SAX 算法,該算法是基于PAA 的擴展方法,被認為是該領(lǐng)域最簡單同時穩(wěn)健性最強的處理單維時間序列的算法[55]。由于目前字符串領(lǐng)域的匹配研究比較成熟,因此許多研究者會將時間序列離散化,然后映射到字符空間,利用字符串技術(shù)來對時間序列進行研究,但是該方法基于對時間序列的均值描述,其結(jié)果比較粗糙容易導致數(shù)據(jù)失真,同時難以描述時間序列的趨勢特征。
Wang等[56]結(jié)合SAX、卷積神經(jīng)網(wǎng)絡和集成學習算法提出Pooling SAX-BoP (Pooling SAX Algorithms with BoP Representations),并應用于醫(yī)學領(lǐng)域并取得了較好的結(jié)果,證明了SAX 算法在該領(lǐng)域的可行性。為解決數(shù)據(jù)失真問題,文獻[57]結(jié)合SAX 距離與加權(quán)趨勢距離提出SAX-TD(SAX with the weighted Trend Distance)從而實現(xiàn)了對時間序列更加準確的分類。文獻[58]提出基于標準差的SAX(SAX based on Standard Deviation,SAX-SD)改進算法,通過在UCR 數(shù)據(jù)集的驗證,發(fā)現(xiàn)該算法與SAX、SAX-TD 算法相比具有更高的壓縮比率和更高的效率,同時能夠滿足下界約束和緊束縛距離,該算法在異常檢測中的應用有待進一步研究。文獻[59]提出基于滑動窗口的重要轉(zhuǎn)折點的SAX 改進算法FD-SAX(Featurebased Dividing SAX),該算法能夠?qū)崿F(xiàn)在線流式時間序列符號表示,通過各種類型的實驗數(shù)據(jù)對比證明了該算法的優(yōu)越性。為解決SAX 算法難以描述時間序列趨勢特征的問題,文獻[60]提出基于趨勢的改進SAX 方法(Trend-based SAX,TSAX),通過UCR 時間序列數(shù)據(jù)集驗證了該算法的有效性,但是該算法難以更加精確地刻畫趨勢的程度,另外其距離值的測量方法不具有普遍性,同時其參數(shù)問題也沒有得到有效的解決。文獻[61]在SAX 方法的基礎上進行了改進,提出時間序列的多維符號化表示方法mSAX(multidimensional SAX),該改進算法是從多個維度來描述子序列片段并將其轉(zhuǎn)化特征向量,然后利用離散化方法對各子序列特征向量的各個維度進行符號化生成多維符號向量,結(jié)果顯示該方法對時間序列的描述和表示更加精準細致。
2.1.4 離散傅里葉變換法
DFT[62]基本思想是在全局范圍內(nèi)將時間序列分解為有限個數(shù)的正弦函數(shù)和余弦函數(shù)的加權(quán)和。DFT能夠用極少的傅里葉系數(shù)來表示時間序列,能夠大幅度節(jié)省存儲空間并且能夠保持歐幾里得距離不變性,但是它很難刻畫時間序列的局部特征。為了克服該缺點,文獻[63]提出了短時傅里葉變換(Short-Time Fourier Transform,STFT),即在信號上加一段滑動窗口對信號進行分段取樣,將其化為若干個局部平穩(wěn)信號,但是STFT 的問題是很難確定滑動窗口的大小。離散小波變換(Discrete Wavelet Transform,DWT)可以解決上述問題,它具有多分辨率解析的特點同時包含時域信息和頻域信息,能更加有效地提取和分析局部信號,在原始信息的除噪過程中也經(jīng)常使用該算法[64],在時間序列模式領(lǐng)域已逐漸代替了DFT 和STFT。文獻[65]采用Harr 小波變換,實驗結(jié)果表明采用離散小波變換在相似性查詢時結(jié)果要優(yōu)于DFT 表示方法。文獻[66]提出將遺傳算法、聚類算法和DWT 進行結(jié)合,即利用K-means聚類將子序列分組,DWT保證子序列的相同長度,然后利用遺傳算法發(fā)現(xiàn)分割點,實驗結(jié)果表明,該方法能在時間序列中找到合適的分割模式。文獻[67]提出分別利用LLE和DWT 算法提取運動圖像腦電圖的特征,然后結(jié)合神經(jīng)網(wǎng)絡算法實現(xiàn)更加穩(wěn)定和有效的分類效果。文獻[68]運用DWT算法提取擾動特征,同時提出基于人工蜂群的概率網(wǎng)絡(Probabilistic Neural Network based Artificial Bee Colony,PNNABC)算法優(yōu)化特征選擇,從而實現(xiàn)對電能質(zhì)量擾動的有效分類。
目前時間序列模式表示領(lǐng)域中對于單維時間序列的算法研究已經(jīng)相對成熟,因此,對于單維時間序列,未來的研究趨勢主要側(cè)重于對已有算法的優(yōu)化,主要包含以下幾個方面:
1)實時性在線擴展能力。目前已有算法大部分只適于對離線數(shù)據(jù)進行時間維度的數(shù)據(jù)壓縮,對于動態(tài)數(shù)據(jù)的處理主要基于滑動窗口的設置。但是隨著數(shù)據(jù)量的增加和實際應用中對于實時異常檢測需求的提高,越來越多的時間序列需要滿足在線情況下、有限時間內(nèi)完成對數(shù)據(jù)的實時檢測,因此,對于該算法的實時性研究具有很大的經(jīng)濟價值。
2)可擴展性。目前已有的算法大部分需要設置較多的參數(shù)和閾值,由于不同數(shù)據(jù)集的特征迥異,對參數(shù)的調(diào)整和訓練將耗費大量的時間,導致算法的可擴展性不強。因此,在今后研究中可以對參數(shù)設置進行優(yōu)化和改進。
相對于單維時間序列模式表示,目前國內(nèi)外對于多維時間序列模式表示方法理論成果較少[69],處在初步研究階段。但是隨著當代各行各業(yè)尤其大型基礎設施對全生命周期海量數(shù)據(jù)實時處理要求的提高,對于該領(lǐng)域的理論研究需求愈加迫切。通過分析發(fā)現(xiàn),目前研究瓶頸在于難以確定多維時間序列的分段規(guī)則。因此,在該領(lǐng)域的研究可以從以下幾個方向展開:
1)基于已有的單維時間序列模式表示方法提出改進算法使其能夠適用于多維時間序列。
2)研究多維時間序列模式表示算法,直接從多維時間序列的角度解決模式表示問題。同時,在算法的研究中要著重考慮算法的實時性、計算復雜度、可擴展性等一個或者多個方面,從而提高算法在實際應用中的可行性。
異常模式發(fā)現(xiàn)是多維時間序列異常檢測最重要的研究領(lǐng)域之一,目前在該領(lǐng)域的主流算法主要分為以下五類,如圖5所示,本章將對這五類算法進行分析整理,并說明該領(lǐng)域的研究趨勢。
圖5 異常模式發(fā)現(xiàn)的主流算法Fig.5 Mainstream algorithm of anomaly pattern detection
基于預測的方法是通過預測值與實際值的誤差值大小來判斷異常位置,代表算法是差分整合移動平均自回歸模型(AutoRegressive Integrated Moving Average model,ARIMA)[70],其適用于具有明顯季節(jié)性或周期性的單維時間序列的短期異常檢測。
國內(nèi)最初將ARIMA 用于氣象數(shù)據(jù)和傳染病數(shù)據(jù)[71-73],由于這些時間序列相對簡單,周期性很強并且具有明顯的規(guī)律,因此其預測值和實際值的誤差比較小,在具體的實驗數(shù)據(jù)中表現(xiàn)良好。
目前基于預測的方法逐漸從傳統(tǒng)的以ARIMA 模型為核心的線性預測算法發(fā)展到“ARIMA+”的組合預測算法。比如:文獻[74]提出ARIMA-LSSVM 的混合預測算法,分別對單維犯罪時間序列進行線性和非線性部分建模,實現(xiàn)對精準的犯罪預測,與傳統(tǒng)的ARIMA-BP 相比,該混合算法的準確性和穩(wěn)定性更高,但是此類算法參數(shù)設置較多同時其計算復雜度也偏高。文獻[75]結(jié)合ARIMA、DWT和功能鏈接人工神經(jīng)網(wǎng)絡(Functional Link Artificial Neural Network,F(xiàn)LANN)對單維金融領(lǐng)域數(shù)據(jù)進行預測,通過DWT 將原始時間序列分解為線性和非線性部分,然后分別利用ARIMA 和FLANN 算法實現(xiàn)線性和非線性預測,實驗結(jié)果證明了該算法的有效性。文獻[76]將ARIMA 結(jié)合SVM 算法應用于單維網(wǎng)絡流量的趨勢預測,該算法需要對原始數(shù)據(jù)進行長期觀測提取相關(guān)特征,然后對各類特征分別建立ARIMA 模型,將實際值與預測值的差值作為偏離度向量,通過不斷更新偏離度并結(jié)合支持向量機(Support Vector Machine,SVM)算法實現(xiàn)對該網(wǎng)絡流量的實時在線預測,實驗驗證該算法能夠有效地預測異常情況。文獻[77]提出改進的ARIMA算法M-ARIMA(Modified ARIMA),將該算法應用于由光纖力熱參數(shù)儀中的壓力傳感器實時采集的數(shù)據(jù)集中,經(jīng)驗證該算法具有較高檢測率的同時能夠自動、實時地實現(xiàn)異常預警。文獻[78]提出結(jié)合ARIMA、DWT 和RNN 實現(xiàn)對計算機網(wǎng)絡流量的預測,其原理與文獻[75]基本一致,作者認為該混合方法易于實現(xiàn)并且計算量相對較小,能夠顯著提高網(wǎng)絡服務質(zhì)量、減少成本。文獻[79]基于ARIMABP 的混合算法預測氨氣的濃度,通過實驗對比,發(fā)現(xiàn)該算法在該領(lǐng)域的預測結(jié)果要優(yōu)于BP神經(jīng)網(wǎng)絡或ARIMA模型。
該方法的代表算法是隱馬爾可夫模型(Hidden Markov Model,HMM)[80],該模型是關(guān)于時序的概率模型,異常檢測在HMM 中可以轉(zhuǎn)換為“在給定觀測序列O(t),t=1,2,…,T和模型λ=(A,B,π)的前提下,求取P(O|λ)”的問題,該算法解決的是單維時間序列問題,其最顯著的特點是要求其觀測值是有限個數(shù)的離散值,能夠?qū)崿F(xiàn)實時檢測。
圍繞HMM 有許多實際的應用,文獻[81]將HMM 應用到時間序列異常檢測中,實驗結(jié)果驗證了該算法的有效性,但是傳統(tǒng)的HMM算法在建模過程中時間復雜度過高、樣本需求量大并且對狀態(tài)參數(shù)比較敏感。
針對樣本需求量大的問題,文獻[82]提出基于半監(jiān)督學習的行為建模與異常檢測方法,即通過結(jié)合DTW、譜聚類和HMM,建立正常行為和異常行為的模型,從而得到異常行為判斷模型,對人的運動行為數(shù)據(jù)進行分析,實驗證明該算法適用于多類樣本的情況,能夠在較少樣本的情況下避免HMM欠學習的問題,具有較高的可靠性,但是該算法時間復雜度仍然較高,不能檢測到未知異常,同時對于小樣本類型的正常行為檢測效果也需要進一步完善。文獻[83]提出了一種增量的HMM 學習算法,將訓練集切割為若干個規(guī)模較小的子集分別進行訓練,最后將訓練得到的子模型合并為最終的模型,實驗顯示該方法能夠大幅度減少計算時間。孫美鳳等[84]提出了基于特征模式的馬爾可夫鏈異常檢測模型,該算法能夠避免重復性檢測,實驗顯示,該算法簡單、實時性強、檢測率高、誤報率低,但是其對參數(shù)設置比較敏感,能夠直接影響算法的檢測效果。
針對時間復雜度過高同時狀態(tài)參數(shù)敏感的問題,王瓊等[85]提出改進的隱馬爾可夫模型(Improved HMM,IHMM),為降低算法對閾值參數(shù)的敏感性,該算法將訓練數(shù)據(jù)集中發(fā)生頻率極低的特征序列刪除,利用發(fā)生頻率較高的特征序列建立正常行為輪廓,經(jīng)實驗對比發(fā)現(xiàn),該算法在訓練時間、適應性等方面都明顯優(yōu)于HMM模型。
近幾年HMM算法開始和機器學習結(jié)合來改進預測效果,比如文獻[86]提出的將HMM 算法結(jié)合自組織神經(jīng)網(wǎng)絡等。同時,該算法已逐步運用到其他領(lǐng)域,比如信用卡欺詐檢測[87]、行為識別[88-89]、器械故障檢測[90]等。
負選擇算法(Negative Selection Algorithm,NSA)[91]基于生物學中免疫系統(tǒng)的自我-非我識別原理,該算法的基本原理是通過正樣本獲得能夠盡可能覆蓋非我空間的檢測器集,然后利用檢測器對系統(tǒng)的運行狀態(tài)進行甄別。負選擇算法基于大量的正樣本進行學習,不需要先驗知識,非常適合于異常樣本匱乏或者未知故障的檢測問題,但是該算法中檢測器數(shù)目和檢測器對非我空間的覆蓋兩者之間是相互矛盾的,這也成為目前眾多學者研究的熱點方向。
針對檢測器數(shù)目和檢測器對非我空間的覆蓋之間的矛盾,文獻[92]提出基于模擬退火算法的負選擇算法,以此增加檢測器對非我空間的覆蓋區(qū)域。文獻[93]提出基于歐氏距離的實數(shù)域負向選擇算法,并應用于周期性時間序列和轉(zhuǎn)子振動時間序列,結(jié)果表明,該算法可以有效地檢測出異常值。文獻[94]提出采用粒子群算法的優(yōu)化檢測器的分布來提高檢測效率,作者將該算法應用于正弦時間序列和軸承振動信號序列驗證了該算法的有效性和實用性。文獻[95]提出改進的進步訓練負選擇算法(Further training NSA,F(xiàn)tNSA),通過生成覆蓋自區(qū)域的自檢測器引入到訓練階段以減小“漏洞”,作者將該算法應用于多個實驗數(shù)據(jù)集,結(jié)果顯示其在整體上要明顯優(yōu)于NSA,同時表示會將優(yōu)化生成的檢測器分布和減少檢測器重疊作為今后的研究方向。文獻[96]提出基于網(wǎng)格文件的特征空間負選擇算法(Real NSA based on the Grid File of feature space,GF-RNSA),將特征空間劃分為若干網(wǎng)格單元,然后在每個網(wǎng)格單元中分別生成檢測器。由于候選檢測器只需要與位于同一細胞內(nèi)的自身抗原進行比較,而不需要與整個自身集進行比較,因此檢測器訓練結(jié)果更加有效。文獻[97]提出基于粒子群優(yōu)化的負選擇算法(NSA based on Particle Swarm Optimization,NSA-PSO),即利用粒子群優(yōu)化算法改進隨機檢測器的生成,將該改進算法應用于垃圾郵件檢測網(wǎng)絡,結(jié)果表明該算法的結(jié)果優(yōu)于傳統(tǒng)的NSA算法。
文獻[98]認為上述算法雖然都能夠在一定程度上減少“漏洞”,但是幾乎沒有考慮到檢測器在小樣本情況下的在線自適應能力,因此作者提出在小樣本情況下的在線自適應學習的邊界固定負選擇算法(Boundary-fixed Negative Selection Algorithm with Online Adaptive Learning,OALFB-NSA),實驗結(jié)果表明,該方法能夠適應測試階段自身空間的實時變化,具有較高的檢測率和較低的誤報率。
聚類是一種非監(jiān)督的算法,符合實際工程數(shù)據(jù)標簽不完整、不準確的情況,因此在異常檢測領(lǐng)域有比較廣泛的應用,目前已有的聚類算法主要包括K-means、基于密度的聚類方法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、高斯混合模型(Gaussian Mixture Model,GMM)等。文獻整理發(fā)現(xiàn),時間序列的異常發(fā)現(xiàn)主要結(jié)合的算法是K-means[99],該算法是一種基于劃分的聚類方法,該算法簡單高效,適用于對大規(guī)模數(shù)據(jù)集的處理。
但是傳統(tǒng)的K-means 算法的聚類結(jié)果易受初始聚類中心和離群值的影響。為解決該問題,文獻[100]提出最近最遠K均值算法(minimum maximumK-means,minmaxK-means),該算法能夠保證各距離中心保持一定的間隔,但是不能消除離群點對算法的影響;文獻[101]提出通過計算各個數(shù)據(jù)點的密集性,利用密集性最大的前K點作為初始聚類中心的思想,但單純利用密集性選取的初始中心并不能保證均勻分布,不太符合聚類的真實位置和本質(zhì)屬性。之后,文獻[102]提出了改進的K-means 算法,該算法結(jié)合前文改進算法的特點,首先剔除離群點區(qū)域,然后在數(shù)據(jù)緊密區(qū),對算法的初始聚類中心按照最近最遠距離的原理選擇初始聚類中心。實驗證明,改進后的K-means 算法在異常檢測率、誤報率等方面均優(yōu)于傳統(tǒng)的K-means 算法和minmaxK-means 算法。文獻[103]提出一種基于高斯函數(shù)加權(quán)距離測度的改進的粗糙K均值算法(RoughK-means,RKM),與傳統(tǒng)算法相比,該算法能夠在同樣的時間復雜度下,為數(shù)據(jù)集提供更為合理的上下界,其聚類效果更加精確。另外,文獻[104]將K-means 算法結(jié)合計算多維時間子序列之間距離的擴展范式距離(the Distance of Extended frobenius norm,DEros),將聚類從發(fā)現(xiàn)異常點擴展到能夠發(fā)現(xiàn)多維時間子序列,但是該算法的復雜度較高,同時不能進行在線異常檢測。文獻[105]將K-means 算法和基于距離的算法結(jié)合,提出兩階段的多維時間序列異常檢測算法,首先利用K-means 進行初始聚類,并用一個啟發(fā)式規(guī)則估計每個簇包含異常點的可能性,按從大到小的可能性進行排序;然后在聚類基礎上,利用循環(huán)嵌套算法實現(xiàn)異常檢測。該過程增加了兩個剪枝規(guī)則,從而降低了時間復雜度,但是該方法對由不同密度子集混合而成的時間序列數(shù)據(jù)集的檢測效果不好[106]。
分類算法是有監(jiān)督的方法,例如支持向量機(SVM)、K近鄰(K-Nearest Neighbor,KNN)算法、決策樹算法。文獻整理發(fā)現(xiàn),目前分類算法中用于解決時間序列異常檢測問題的主流算法是SVM算法和其改進算法1-SVM。
SVM 的優(yōu)點是泛化能力強、沒有局部極小點和解具有稀疏表示,因此被經(jīng)常應用于入侵檢測系統(tǒng)的異常檢測中[107]。另外,SVM 在異常檢測領(lǐng)域結(jié)合其他算法能夠得到很好的檢測效果,文獻[76]將ARIMA結(jié)合SVM算法實現(xiàn)多維時間序列的在線異常檢測,結(jié)果顯示該算法的有效性。文獻[108]提出改進的SVM 算法,結(jié)合神經(jīng)網(wǎng)絡解決植物病害檢測問題。文獻[109]提出局部增量算法LISVM(Local Incremental SVM),結(jié)合徑向基函數(shù)改進SVM,能夠?qū)崿F(xiàn)在線分類,在實驗驗證中該算法具有良好的表現(xiàn),同時其計算復雜度不高,可以從擴大實驗數(shù)據(jù)規(guī)模和調(diào)整參數(shù)兩個方面進一步優(yōu)化該算法。
文獻[110]認為異常值檢測實際上可視為特殊的一類分類問題,即1-SVM,其將1-SVM 從回歸和相空間重構(gòu)分類兩個角度對時間序列進行異常檢測,分別提出根據(jù)求最小超球體的二次規(guī)劃方法和基于線性規(guī)劃的優(yōu)化方法,實驗結(jié)果表明以上兩種方式均能較好地辨別出時間序列中的異常值。文獻[111]PCA 結(jié)合1-SVM 的算法,首先利用PCA 進行維數(shù)約簡,利用滑動窗口對降維后的數(shù)據(jù)集進行區(qū)域劃分,然后對時間窗內(nèi)的數(shù)據(jù)進行特征提取并轉(zhuǎn)換為無序變量,最后將其代入1-SVM 進行訓練,實現(xiàn)對待測數(shù)據(jù)的異常檢測,該算法簡單,在實際的工程應用中起到較好的效果。
異常發(fā)現(xiàn)主要分為兩種思路:第一種思路是將預處理后的多維時間序列轉(zhuǎn)換為多個單維時間序列分別進行分析,同時結(jié)合聚類算法、分類算法實現(xiàn)對多維時間序列的異常檢測;第二種思路是直接將多維時間序列切割成若干個多維時間子序列后通過聚類算法等方式進行異常發(fā)現(xiàn)。
目前該領(lǐng)域的實現(xiàn)方式主要基于第一種思路,該思路的理論研究相對成熟,但是對應算法基本不能滿足實時異常檢測,同時其對數(shù)據(jù)預處理的方式比較敏感,另外隨著數(shù)據(jù)集規(guī)模的增長,該算法時間復雜度會大幅增加,不能滿足今后的數(shù)據(jù)發(fā)展需求。
第二種思路目前處在初步研究階段,但是由于該方法能夠在同一時刻保留各個維度之間的相互關(guān)系,并且不需要通過訓練多個模型來實現(xiàn)異常檢測,能夠滿足大規(guī)模數(shù)據(jù)類型的需求,因此對于該算法的研究對于大規(guī)模數(shù)據(jù)更具有價值。從文獻整理來看,目前該領(lǐng)域存在的研究難點在于難以衡量多維時間子序列之間的相似程度??偨Y(jié)該思路算法的研究重點主要為以下幾個方面:
1)多維時間子序列相似性度量算法研究。據(jù)了解,目前該領(lǐng)域相對常用的算法是基于擴展范式距離的度量方法,但是該方法不滿足實時異常檢測,仍需要學者進行算法改進或者提出新的算法。
2)基于單維時間序列異常發(fā)現(xiàn)的算法改進。目前對于單維時間序列進行分析的算法主要是基于預測的算法和基于概率的算法,這兩種方法目前已經(jīng)比較成熟,可以通過相應的算法改進來研究多維時間序列的問題。
3)改進傳統(tǒng)的聚類和分類算法,使其滿足時間特性。傳統(tǒng)的聚類和分類算法的對象是無序變量,但是時間序列是有序數(shù)據(jù)集。為避免丟失時間序列的時間維度信息,在研究時間序列問題時,需要對傳統(tǒng)的聚類和分類算法進行相應的算法改進。
隨著信息技術(shù)和硬件制造水平的提高,各類數(shù)據(jù)均能夠通過前端設備實時采集,形成規(guī)模愈加龐大的海量時間序列,為多維時間序列異常檢測的發(fā)展提供了契機和挑戰(zhàn)。
近年來,國內(nèi)外在該領(lǐng)域的理論研究已有一定的成果。通過文獻整理,本文歸納為兩種主流思路:第一種是將原始多維時間序列經(jīng)過數(shù)據(jù)預處理之后轉(zhuǎn)換為單維的時間序列,然后利用單維時間序列異常檢測的相關(guān)理論發(fā)現(xiàn)異常;第二種是通過研究新的算法或者改進算法直接對預處理后的多維時間子序列進行異常檢測。
目前對于第一種思路的理論研究相對成熟,但是該思路比較適合對于小型數(shù)據(jù)的異常檢測。第二種思路目前雖處在初步研究階段,但是該思路理論上能夠滿足更大規(guī)模時間序列的異常檢測,因此本文認為今后的發(fā)展研究方向?qū)?cè)重于第二種思路的理論研究。
下面從“維數(shù)約簡”“時間序列模式表示”和“異常模式發(fā)現(xiàn)”三個方面對第二種思路的重點研究內(nèi)容進行總結(jié)。
1)維數(shù)約簡:算法在時間相關(guān)性方面的優(yōu)化研究。維數(shù)約簡過程中如何保留原始數(shù)據(jù)的時間規(guī)律是目前已有算法難以解決的問題,雖然學者已有初步成果,但是目前在該領(lǐng)域仍然沒有普遍認可的方法。
2)時間序列模式表示:多維時間序列模式表示的方法研究。該方法的難點主要在兩個方面:第一,難以確定統(tǒng)一的規(guī)則,使其能夠在較高數(shù)據(jù)壓縮率的情況下,對各個維度具有比較精確的表示;第二,該方法是否能夠適用于實時更新的多維時間序列。
3)異常模式發(fā)現(xiàn):該領(lǐng)域主要研究方向可以分為兩個部分:第一,多維時間子序列相似性度量算法研究;第二,聚類和分類算法在時間相關(guān)性方面的優(yōu)化研究。目前已有許多經(jīng)典的單維時間序列相似性度量方法,例如歐氏距離、動態(tài)時間扭曲、垂直距離等,但是對于多維時間序列的相似性度量方法還處在初步研究階段,目前還沒有成熟的算法理論。另外,傳統(tǒng)的聚類、分類算法只是針對無序變量,如直接應用于時間序列會丟失原始數(shù)據(jù)信息,降低異常檢測的準確性,因此有必要聚類和分類算法進行改進和優(yōu)化。
除此之外,在對多維時間序列異常檢測的算法研究中,要注意以下問題:第一,要盡量降低算法的復雜度。過度復雜的算法不僅要消耗較多的時間和存儲代價,同時也不利于參數(shù)的調(diào)整,難以達到預期的效果。第二,算法要注重對實時檢測的研究,在實際的應用中,多維時間序列大部分均需要進行實時異常檢測,因此要求算法能夠在較短的時間內(nèi)有效判斷出最新數(shù)據(jù)的狀態(tài),這對算法的實時性提出了更高的要求。第三,注重算法的魯棒性和泛化能力,保證算法能夠在不同的實際工程背景下盡量得到穩(wěn)定和精確的結(jié)果。
總的來說,多維時間序列異常檢測領(lǐng)域的理論研究并不成熟,建議今后的理論研究要更多地結(jié)合實際應用背景,以實際、動態(tài)、大規(guī)模的工程數(shù)據(jù)集為檢驗算法可行性的主要依據(jù),從而進一步地提高和完善理論研究成果。