蒲倩
摘 要:時(shí)間序列作為一種常用的數(shù)據(jù)類型,已經(jīng)在各類數(shù)據(jù)的分析中得到了廣泛使用。在面對(duì)這些海量數(shù)據(jù)時(shí),需要采取新技術(shù)篩選出其中有用的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)正是基于這一背景產(chǎn)生的。在數(shù)據(jù)挖掘技術(shù)中,時(shí)間序列挖掘是關(guān)鍵技術(shù)。本文主要分析時(shí)間序列挖掘與預(yù)測(cè)方式。
關(guān)鍵詞:時(shí)間序列挖掘;預(yù)測(cè);分析
一、時(shí)間序列挖掘與預(yù)測(cè)分析
時(shí)間序列模式挖掘作為數(shù)據(jù)挖掘中最為重要的問(wèn)題,在現(xiàn)實(shí)生活與生產(chǎn)中已經(jīng)得到了廣泛的應(yīng)用。時(shí)間序列即按照時(shí)間順序來(lái)獲取觀測(cè)值的方式。在日常生活中,很多數(shù)據(jù)都是以時(shí)間序列出現(xiàn)的,這些數(shù)據(jù)對(duì)于相鄰觀測(cè)值具有依賴性特征,時(shí)間序列挖掘與預(yù)測(cè)模式與依賴性特征有著密切的關(guān)系,其研究?jī)?nèi)容包括相似性搜索、趨勢(shì)分析、周期模式挖掘、序列模式挖掘等。
1.相似性搜索
相似性搜索即找出數(shù)據(jù)庫(kù)中與相關(guān)條件相似的數(shù)據(jù),在這些序列中,包括子序列匹配與整體序列匹配兩種方式。這些序列的應(yīng)用范圍十分廣泛,其中,數(shù)據(jù)變換是核心。數(shù)據(jù)變換就是從時(shí)間域到頻率域的分析,一般使用歐式距離來(lái)計(jì)算,在計(jì)算時(shí),需要先確定好變換矩陣,再確定相關(guān)計(jì)算數(shù)據(jù)。
在經(jīng)過(guò)DWT以及DFT變化之后,可以使用傅里葉細(xì)數(shù)來(lái)制造出多維索引,再將數(shù)據(jù)提供給系統(tǒng),就能夠檢索出查詢序列之間的距離,通過(guò)實(shí)際距離的查詢即可完成后處理工作。在匹配子序列時(shí),將序列分割成為一定長(zhǎng)度的片段,每一個(gè)片段對(duì)應(yīng)不同的線索,序列可以使用最小邊界矩形表示。要想搜索到更長(zhǎng)的匹配序列,可以使用多片組裝算法進(jìn)行。
2.趨勢(shì)分析
趨勢(shì)分析可以應(yīng)用在長(zhǎng)期或者趨勢(shì)變化、循環(huán)變動(dòng)或循環(huán)變化、季節(jié)性變動(dòng)或者季節(jié)性變化、非規(guī)則或者隨機(jī)變化集中類型的數(shù)據(jù)預(yù)測(cè)中。這些數(shù)據(jù)有著季節(jié)性、非規(guī)則性、循環(huán)性以及趨勢(shì)性特征,能夠使用不同的變量進(jìn)行表示,這樣即可幫助人們制訂出長(zhǎng)期預(yù)測(cè)或者短期預(yù)測(cè)。
3.周期模式挖掘
周期模式挖掘即在數(shù)據(jù)庫(kù)中尋找重復(fù)出現(xiàn)模式的一種預(yù)測(cè)模式,周期模式能夠應(yīng)用在交通數(shù)據(jù)、行星軌道數(shù)據(jù)、能源消耗數(shù)據(jù)、季節(jié)性數(shù)據(jù)等數(shù)據(jù)模式的預(yù)測(cè)中。按照問(wèn)題類型的不同,周期模式能夠分為挖掘全周期模式、挖掘部分周期模式以及挖掘循環(huán)模式幾種。
二、時(shí)間序列預(yù)測(cè)統(tǒng)計(jì)學(xué)基礎(chǔ)
1.時(shí)間序列統(tǒng)計(jì)學(xué)特征分析
時(shí)間序列的統(tǒng)計(jì)學(xué)特征包括均值函數(shù)、自協(xié)方差函數(shù)與自相關(guān)函數(shù)三種。
均值函數(shù):對(duì)于t而言,時(shí)間序列均值函數(shù)如下:μt=U[x1]Δ■xf1(x)dx;自協(xié)方差函數(shù):y=Cov(xt,xy)ΔE[x1-Ex2(xi-Exi+1)]
2.時(shí)間序列平穩(wěn)性分析
在時(shí)間序列分析時(shí),常常存在平穩(wěn)時(shí)間序列,這種平穩(wěn)定會(huì)在時(shí)間的推移下出現(xiàn)相應(yīng)的變化。若時(shí)間序列中各項(xiàng)隨機(jī)變量是一種獨(dú)立性關(guān)系,且存在相同分布,就是獨(dú)立同分布序列,其常見(jiàn)的序列類型有白噪聲序列,白噪聲序列和獨(dú)立同分布序列之間是一種獨(dú)立的關(guān)系。
三、時(shí)間序列分段線性表示
在時(shí)間序列數(shù)據(jù)挖掘研究?jī)?nèi)容中,相似性搜索是其中的重要內(nèi)容,在進(jìn)行計(jì)算時(shí),需要遵循Keogh度量準(zhǔn)則,這能夠很好地反映出各項(xiàng)內(nèi)容,但是在反應(yīng)時(shí)間軸比例時(shí)需要額外考慮到周期問(wèn)題。在進(jìn)行時(shí)間序列相似性搜索時(shí),可以對(duì)其進(jìn)行聚類分析。目前,這種方式已經(jīng)在各個(gè)領(lǐng)域中得到了廣泛的使用,如在圖像處理、模式識(shí)別、數(shù)據(jù)分析工作中,雖然聚類分析能夠應(yīng)用在時(shí)間序列分析中,但是與圖像處理、模式識(shí)別、數(shù)據(jù)分析工作相比,時(shí)間序列數(shù)據(jù)量較大,使用該種分析方法會(huì)提高計(jì)算開銷,為了減少開銷,就需要對(duì)實(shí)踐序列開展分段線性化處理,該種模式更加適宜應(yīng)用于普通數(shù)據(jù)挖掘算法計(jì)算中。
目前,時(shí)間序列數(shù)據(jù)多應(yīng)用在氣象數(shù)據(jù)、金融數(shù)據(jù)的計(jì)算中,這些數(shù)據(jù)會(huì)受到各種因素的影響,存在較大的隨機(jī)性與偶然性,因此,有學(xué)者針對(duì)這些計(jì)算提出時(shí)間序列長(zhǎng)記憶性問(wèn)題。其他研究者也提出了遺傳算法、神經(jīng)網(wǎng)絡(luò)算法、卡爾曼濾波算法等一系列的計(jì)算方法,在使用這些算法來(lái)計(jì)算復(fù)雜系統(tǒng)時(shí),需要建立好相應(yīng)的模型,使用表征模型特征進(jìn)行表達(dá)。但是,若系統(tǒng)較為復(fù)雜,也存在短期波動(dòng),使用一個(gè)模型很難計(jì)算出具體的精度與效率,而丟棄數(shù)據(jù)也會(huì)影響歷史數(shù)據(jù),降低計(jì)算精度,而應(yīng)用大量例數(shù)數(shù)據(jù)也會(huì)影響計(jì)算時(shí)間與預(yù)測(cè)效率。為了提升數(shù)據(jù)計(jì)算的精度,就可以使用時(shí)序預(yù)測(cè)方法或者多層次數(shù)據(jù)分解法,使用平滑因子來(lái)拆解序列,這就能夠?yàn)楹罄m(xù)建模的開展奠定好堅(jiān)實(shí)的基礎(chǔ)。對(duì)于拆解完成的序列,可以使用相應(yīng)的采樣頻率,這不僅會(huì)提升計(jì)算精度,也能夠在一定程度上降低計(jì)算的復(fù)雜性。
總之,時(shí)間序列作為一種常用的數(shù)據(jù)類型,已經(jīng)在各類數(shù)據(jù)的分析中得到了廣泛的使用。在使用時(shí)間序列挖掘與預(yù)測(cè)方式時(shí),需要針對(duì)具體的問(wèn)題建立好相應(yīng)的模型,這樣才能夠達(dá)到理想的計(jì)算成效。
參考文獻(xiàn):
[1]張德干,郝先臣,徐凌宇,杜慶東,趙海.基于小波理論的數(shù)據(jù)挖掘方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2001(8).
[2]李鎖花.時(shí)間序列挖掘技術(shù)及其在短期電力負(fù)荷預(yù)測(cè)中的應(yīng)用研究[D].南京:東南大學(xué),2006.