国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合波動(dòng)率的時(shí)序數(shù)據(jù)符號(hào)聚合近似方法探究

2021-12-09 12:04魯法明包云霞曾慶田
關(guān)鍵詞:符號(hào)化集上波動(dòng)

魯法明,王 琳,包云霞,李 昂,曾慶田

(1.山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590;2.山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)

0 引言

時(shí)間序列是對(duì)某個(gè)物理量進(jìn)行等時(shí)間間隔觀測(cè)所得到的數(shù)值序列,時(shí)間序列分析廣泛應(yīng)用于工業(yè)制造、金融、氣候監(jiān)測(cè)和醫(yī)療等領(lǐng)域。例如,在工業(yè)制造領(lǐng)域,采集并分析生產(chǎn)過(guò)程中的設(shè)備狀態(tài)時(shí)序數(shù)據(jù),可以對(duì)生產(chǎn)線異常做出預(yù)警,提高產(chǎn)品質(zhì)量和生產(chǎn)效率[1-3];在經(jīng)濟(jì)金融領(lǐng)域,股票的價(jià)格走勢(shì)、利率等信息也構(gòu)成時(shí)間序列,對(duì)其進(jìn)行分析可以在一定程度上預(yù)測(cè)股票收益或檢測(cè)股票操縱異常[4-6];在氣候環(huán)境領(lǐng)域,對(duì)降雨量、河流水位、溫度等時(shí)間序列進(jìn)行分析可以為氣候應(yīng)對(duì)等問(wèn)題提供依據(jù)[7-9];在醫(yī)療領(lǐng)域,持續(xù)監(jiān)測(cè)病人的心電(Electrocardiogram, ECG)和腦電(Electroencephalogram, EEG)活動(dòng)情況便得到相應(yīng)的時(shí)間序列,對(duì)其進(jìn)行分析可以及時(shí)發(fā)現(xiàn)病情的異常情況[10-11];在公共管理領(lǐng)域,對(duì)公交系統(tǒng)客流量和車(chē)流量時(shí)序數(shù)據(jù)進(jìn)行分析可以為公交管理和路線調(diào)整提供依據(jù)[12]。

時(shí)間序列數(shù)據(jù)通常具有維度高和數(shù)據(jù)量大等特點(diǎn),直接分析和挖掘原始數(shù)據(jù)的運(yùn)算量較大,因此時(shí)間序列的降維表示成為業(yè)界研究熱點(diǎn)之一。目前,比較成熟的時(shí)間序列降維表示方法有離散傅里葉變換(Discrete Fourier Transform, DFT)[13]、離散小波變換(Discrete Wavelet Transformation, DWT)[14]、分段線性近似(Piecewise Linear Approximation, PLA)[15]、分段聚合近似(Piecewise Aggregate Approximation, PAA)[16]和符號(hào)聚合近似(Symbolic Aggregate approximation, SAX)[17]等。其中,SAX廣泛應(yīng)用于時(shí)間序列數(shù)據(jù)的挖掘與分析,其將時(shí)間序列轉(zhuǎn)換為字符串序列,在達(dá)到降維效果的同時(shí)較好地保持了時(shí)間序列的原始信息[16]。

SAX[16-17]將原始時(shí)間序列分為若干時(shí)間段,每個(gè)時(shí)間段內(nèi)的觀測(cè)值用一個(gè)符號(hào)聚合表示,從而快速有效地對(duì)時(shí)間序列降維。降維后的符號(hào)序列仍然可以反映時(shí)間序列的總體變化態(tài)勢(shì),且具有快速高效等優(yōu)點(diǎn)。然而,SAX在時(shí)間序列的符號(hào)化過(guò)程中丟失了原始時(shí)序數(shù)據(jù)的許多統(tǒng)計(jì)和形態(tài)信息。統(tǒng)計(jì)信息主要指極值、方差等信息,形態(tài)信息主要包括變化趨勢(shì)和波動(dòng)信息等。

為減少統(tǒng)計(jì)信息的丟失量,LKHAGVA等[18]提出一種基于極大值、極小值和均值的擴(kuò)展符號(hào)聚合近似(Extension of Symbolic Aggregate approximation, ESAX)方法,該方法同樣將每個(gè)子序列的最大值和最小值加入符號(hào)序列,使原來(lái)每個(gè)子序列對(duì)應(yīng)的符號(hào)變成3個(gè)。ESAX彌補(bǔ)了部分丟失的統(tǒng)計(jì)信息,強(qiáng)調(diào)極值信息的重要性,適用于部分對(duì)數(shù)據(jù)極值敏感的場(chǎng)景。

同樣是針對(duì)統(tǒng)計(jì)信息丟失的問(wèn)題,鐘清流等[19]在SAX的基礎(chǔ)上加入方差來(lái)描述時(shí)間序列的發(fā)散程度。該方法將時(shí)間序列的符號(hào)特征看做矢量,將各個(gè)子序列的方差和均值特征分別看做組成該矢量的兩個(gè)分量,在一定程度上彌補(bǔ)了時(shí)序數(shù)據(jù)在方差方面丟失統(tǒng)計(jì)信息的問(wèn)題,然而當(dāng)某些應(yīng)用場(chǎng)景中存在形態(tài)特征不同、均值和方差相同的時(shí)序數(shù)據(jù)時(shí),該方法需要進(jìn)一步優(yōu)化。

針對(duì)SAX在符號(hào)化過(guò)程中丟失形態(tài)特征信息的問(wèn)題,李海林等[20]提出SF_SAX。該方法在SAX的基礎(chǔ)上,采用最小二乘法對(duì)子序列進(jìn)行直線擬合,用直線的斜率近似值表示該子序列的形態(tài)特征,然后按文獻(xiàn)[19]的方法將均值和斜率表示為符號(hào)矢量。SF_SAX能較好地識(shí)別時(shí)間序列在形態(tài)方面的差異,然而當(dāng)壓縮比較大且序列波動(dòng)較大時(shí),擬合效果需要進(jìn)一步改進(jìn)。

為捕捉時(shí)間序列中數(shù)據(jù)值的變化趨勢(shì)信息,SUN等[21]提出一種基于趨勢(shì)距離的時(shí)間序列符號(hào)化(SAX_TD)方法,該方法將每個(gè)子序列的起點(diǎn)值和終點(diǎn)值與其均值的差稱(chēng)為趨勢(shì)因子,通過(guò)計(jì)算趨勢(shì)因子之間的距離衡量時(shí)間序列趨勢(shì)的變化,能較好地識(shí)別時(shí)間序列的變化趨勢(shì);與文獻(xiàn)[21]類(lèi)似,同樣使用子序列的起始點(diǎn)來(lái)構(gòu)建趨勢(shì),季海娟等[22]提出基于始末距離的時(shí)間序列符號(hào)聚合近似表示方法(SAX_SM),該方法在計(jì)算子序列均值時(shí)去掉起始點(diǎn),而將起始點(diǎn)加入子序列映射的字符序列中;李海林等[23]用數(shù)值導(dǎo)數(shù)描述子序列的趨勢(shì)特征,導(dǎo)數(shù)為正數(shù)表示子序列呈上升趨勢(shì),為負(fù)數(shù)表示子序列呈下降趨勢(shì),為0則表示無(wú)變化。這3種方法在一定程度上彌補(bǔ)了符號(hào)化過(guò)程中趨勢(shì)信息丟失的問(wèn)題。

前述各種改進(jìn)的SAX在對(duì)時(shí)序數(shù)據(jù)進(jìn)行降維的同時(shí),分別從不同角度捕捉傳統(tǒng)SAX丟失的統(tǒng)計(jì)信息和形態(tài)信息,各有其適用的場(chǎng)合。本文著眼于彌補(bǔ)時(shí)間序列符號(hào)化過(guò)程中丟失的數(shù)值波動(dòng)信息。具體而言,本文提出一種融合波動(dòng)信息的時(shí)間序列符號(hào)聚合近似方法,定義了一種新的波動(dòng)率指標(biāo)來(lái)同時(shí)刻畫(huà)時(shí)間序列的波動(dòng)幅度和變化趨勢(shì)等形態(tài)特征,用融合了波動(dòng)率的符號(hào)矢量近似刻畫(huà)子序列,在此基礎(chǔ)上給出一種新的時(shí)間序列距離度量方法。然后,以該度量方法為基礎(chǔ),提出時(shí)間序列的相似性計(jì)算和分類(lèi)方法,并在公開(kāi)的加利福尼亞大學(xué)河濱分校(University of California, Riverside,UCR)時(shí)序數(shù)據(jù)集和凱斯西儲(chǔ)大學(xué)(Case Westem Reserve University, CWRU)的軸承故障診斷數(shù)據(jù)集上對(duì)該分類(lèi)學(xué)習(xí)的效果進(jìn)行實(shí)驗(yàn),對(duì)所提方法的適用場(chǎng)景進(jìn)行分析。

1 SAX原理概述

SAX是LIN等[16-17]提出的基于PAA的符號(hào)化表示方法。其在時(shí)間序列數(shù)據(jù)近似服從正態(tài)分布的前提下,使用符號(hào)序列聚合表示原始時(shí)間序列,在降維的同時(shí)保留時(shí)間序列的總體變化態(tài)勢(shì),并保證符號(hào)空間相似模式之間的距離滿(mǎn)足真實(shí)距離的下界要求。

簡(jiǎn)而言之,SAX將時(shí)間序列轉(zhuǎn)換為字符序列主要經(jīng)過(guò)以下3步:

步驟1將原始時(shí)間序列規(guī)格化,轉(zhuǎn)換成均值為0、標(biāo)準(zhǔn)差為1的序列。

(1)

表1 字符集大小α=3,…,10時(shí)各分割點(diǎn)的取值情況

假設(shè)某時(shí)間序列數(shù)據(jù)經(jīng)過(guò)規(guī)格化處理后的結(jié)果如圖1所示,圖中在128個(gè)觀測(cè)點(diǎn)取值。按照SAX設(shè)置分段數(shù)量為8,字符集大小為3,首先采用PAA算法得到各段子序列的均值,然后通過(guò)符號(hào)聚合近似后得到符號(hào)序列abcccbaa,該符號(hào)序列對(duì)應(yīng)的圖形表示如圖2所示。對(duì)比圖1和圖2可見(jiàn),采用SAX進(jìn)行降維后,數(shù)據(jù)維度從原始的128個(gè)觀測(cè)值降到只有8個(gè)觀測(cè)值,而時(shí)間序列的總體變化態(tài)勢(shì)在降維前后基本保持一致。

(2)

(3)

式(3)中β取值如表1所示。

由上述步驟可見(jiàn),SAX采用PAA計(jì)算出的子序列均值代替這一段子序列,容易丟失原序列部分信息(如方差、變化趨勢(shì)和波動(dòng)情況等),而且數(shù)據(jù)的壓縮比越大,信息丟失得越多。另外,該方法只能保留原時(shí)間序列的總體變化趨勢(shì),無(wú)法描述各段的局部形態(tài)信息。針對(duì)SAX的不足,下面給出融合波動(dòng)率的時(shí)間序列符號(hào)聚合近似方法。波動(dòng)率從一定程度上同時(shí)刻畫(huà)時(shí)間序列的局部波動(dòng)幅度、變化趨勢(shì)等特征,可以彌補(bǔ)SAX部分丟失的信息。

2 融合波動(dòng)率的時(shí)間序列符號(hào)聚合近似方法

2.1 時(shí)間序列的二元符號(hào)矢量序列近似表示

時(shí)間序列的波動(dòng)情況同時(shí)隱含時(shí)間序列的數(shù)值和形態(tài)方面的特征,這些特征往往與時(shí)間序列的狀態(tài)或模式變化有關(guān),捕捉時(shí)序數(shù)據(jù)的波動(dòng)信息對(duì)時(shí)間序列分析和異常檢測(cè)等應(yīng)用具有重要作用。觀察圖1所示的時(shí)間序列,可以直觀地發(fā)現(xiàn)各個(gè)子序列局部的狀態(tài)或模式變化,但SAX處理后僅保留各個(gè)子序列的均值,導(dǎo)致丟失了時(shí)間序列信息,從圖形上看,圖2相比圖1丟失了很多信息。為更好地刻畫(huà)時(shí)間序列的波動(dòng)信息,本文在SAX的基礎(chǔ)上加入波動(dòng)率來(lái)量化時(shí)間序列的波動(dòng)特征,其定義和計(jì)算公式如下:

定義1給定時(shí)間間隔0,記xi和xi+1分別為第i時(shí)刻和第i+1時(shí)刻的觀測(cè)值,則稱(chēng)式(4)的計(jì)算結(jié)果為本時(shí)間段內(nèi)的波動(dòng)率。

(4)

由式(4)可見(jiàn),當(dāng)時(shí)間序列各個(gè)觀測(cè)點(diǎn)的取值整體呈上升或下降趨勢(shì)時(shí),波動(dòng)率的取值較大;當(dāng)沒(méi)有明顯的上升和下降趨勢(shì),但局部波動(dòng)幅度較大時(shí),波動(dòng)率的取值也較大。反之,當(dāng)某個(gè)時(shí)間段內(nèi)各個(gè)觀測(cè)點(diǎn)的取值均穩(wěn)定在某個(gè)恒定值附近時(shí),波動(dòng)率的取值接近零。顯然,該式客觀地刻畫(huà)了時(shí)間序列的波動(dòng)情況,后文實(shí)驗(yàn)結(jié)果也表明這一方法在捕捉時(shí)間序列形態(tài)信息方面的有效性。

結(jié)合上述波動(dòng)率計(jì)算公式,融合波動(dòng)率之后的時(shí)間序列符號(hào)化方法稱(chēng)為融合波動(dòng)率的時(shí)間序列符號(hào)聚合近似方法(time series Symbol Aggregation approximation method for fusion VOLAtility,SAX_VOLA),其具體過(guò)程如下:

給定長(zhǎng)度為n的時(shí)間序列C={c1,c2,c3,…,cn},SAX_VOLA對(duì)時(shí)間序列進(jìn)行符號(hào)表示時(shí)主要有以下4步:

步驟1與SAX相同,首先對(duì)原時(shí)間序列進(jìn)行規(guī)格化,將其轉(zhuǎn)換成均值為0、標(biāo)準(zhǔn)差為1的序列。

例如,對(duì)于圖1中的時(shí)間序列,仍然設(shè)置分段數(shù)量為8,字符集大小為3,先采用PAA算法得到各段子序列的均值,再進(jìn)行符號(hào)聚合近似,得到的符號(hào)序列仍然為abcccbaa。SAX_VOLA針對(duì)每個(gè)子序列計(jì)算其波動(dòng)率,并將波動(dòng)率取值與對(duì)應(yīng)子序列的符號(hào)組合為一個(gè)二元矢量,得到的二元符號(hào)矢量序列為

c·i+0.334·j,c·i+0.375·j,

c·i+0.365·j,b·i+0.426·j,

a·i+0.279·j,a·i+0.246·j}。

2.2 時(shí)間序列的距離度量

(5)

(6)

上述時(shí)間序列的距離度量方法在傳統(tǒng)符號(hào)距離的基礎(chǔ)上融入波動(dòng)率距離,而波動(dòng)率在一定程度上同時(shí)刻畫(huà)了時(shí)間序列的波動(dòng)幅度和變化趨勢(shì),因此相比傳統(tǒng)的符號(hào)化方法,該方法通常能更加準(zhǔn)確地度量時(shí)間序列的距離。為驗(yàn)證這種距離度量的準(zhǔn)確性,后文將從某公開(kāi)的數(shù)據(jù)源中尋找含有分類(lèi)標(biāo)簽的多個(gè)數(shù)據(jù)集,基于該相似性度量指標(biāo)對(duì)時(shí)間序列進(jìn)行分類(lèi)學(xué)習(xí),通過(guò)分類(lèi)的準(zhǔn)確性評(píng)估本文所提符號(hào)聚合方法和時(shí)間序列距離度量方法的有效性。

3 實(shí)驗(yàn)評(píng)估

3.1 UCR數(shù)據(jù)集實(shí)驗(yàn)與分析

UCR時(shí)間序列檔案庫(kù)[24]是使用最為廣泛的時(shí)間序列數(shù)據(jù)源之一,它含有128個(gè)時(shí)間序列數(shù)據(jù)集,具體包括ECG數(shù)據(jù)集、Trace故障數(shù)據(jù)集、Wafer傳感器數(shù)據(jù)集等。其中的Trace數(shù)據(jù)集[25]是流程工業(yè)領(lǐng)域核電站儀器故障的綜合數(shù)據(jù)集(完整的數(shù)據(jù)集一共有16類(lèi),此處UCR時(shí)間序列檔案庫(kù)收錄了Trace數(shù)據(jù)集中的4類(lèi)[26]);Wafer數(shù)據(jù)集[27]是在半導(dǎo)體制造領(lǐng)域的硅晶片加工期間,通過(guò)各種傳感器收集的線上測(cè)量值所構(gòu)成的數(shù)據(jù)集,分為正常和異常兩類(lèi)。文獻(xiàn)[21-22]以UCR為數(shù)據(jù)源,對(duì)多種時(shí)間序列符號(hào)聚合近似表示方法在時(shí)序數(shù)據(jù)分類(lèi)方面的準(zhǔn)確性進(jìn)行對(duì)比。為驗(yàn)證本文所提SAX_VOLA的有效性,同時(shí)便于不同方法間進(jìn)行比較,采用文獻(xiàn)[21-22]采納的20個(gè)時(shí)序數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估。具體選擇的UCR中的數(shù)據(jù)集如表2所示,每個(gè)數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集兩部分,不同數(shù)據(jù)集類(lèi)別標(biāo)簽的數(shù)目從2~50不等,時(shí)間序列長(zhǎng)度從60~637不等,這些數(shù)據(jù)集在類(lèi)別數(shù)量和序列長(zhǎng)度上的多樣性可以更客觀地對(duì)各種符號(hào)化方法的適用性做出評(píng)估。

表2 選擇UCR的20組數(shù)據(jù)集信息表

續(xù)表2

本文借助時(shí)間序列數(shù)據(jù)分類(lèi)的準(zhǔn)確性對(duì)比不同符號(hào)聚合近似表示方法。在分類(lèi)器的選擇方面,鑒于K最鄰近(K-Nearest Neighbor, KNN)分類(lèi)器[28]原理簡(jiǎn)單,差錯(cuò)率較低,本文用KNN分類(lèi)器作時(shí)間序列數(shù)據(jù)的分類(lèi)算法??紤]到1-NN分類(lèi)器直接按照訓(xùn)練集中與其距離最近的時(shí)間序列類(lèi)別進(jìn)行分類(lèi),采用KNN分類(lèi)器中的1-NN分類(lèi)算法對(duì)時(shí)間序列進(jìn)行分類(lèi)。

就時(shí)間序列距離度量而言,分類(lèi)過(guò)程中分別選取原始時(shí)間序列的歐式距離,以及SAX,SAX_TD[21],SAX_SM[22]和本文所提SAX_VOLA方法中給出的距離計(jì)算公式作為距離度量的依據(jù)。其中,SAX_TD用每段子序列的起止點(diǎn)與均值的差構(gòu)建趨勢(shì)距離,進(jìn)而計(jì)算出兩條時(shí)間序列符號(hào)化后的距離;SAX_SM直接用子序列之間起止點(diǎn)的差構(gòu)建趨勢(shì)距離,進(jìn)而求得兩條時(shí)間序列符號(hào)化之后的距離。

除了前述不同的時(shí)間序列距離計(jì)算方法,符號(hào)化表示時(shí)字符集的大小α和時(shí)間序列的分段數(shù)w也會(huì)對(duì)分類(lèi)的準(zhǔn)確率產(chǎn)生影響。為減小這些參數(shù)對(duì)評(píng)估結(jié)果的干擾,對(duì)各種不同的距離計(jì)算方法進(jìn)行多次實(shí)驗(yàn),設(shè)α=3,…,10,w=2,…,n/2(n為時(shí)間序列的長(zhǎng)度,w每次取值為前一次的2倍),選擇分類(lèi)準(zhǔn)確率最高的結(jié)果作為相應(yīng)符號(hào)聚合近似表示的最終實(shí)驗(yàn)結(jié)果(如果不同參數(shù)值取得了相同的分類(lèi)準(zhǔn)確率,則選w較小的參數(shù))。表3所示為不同方法在不同數(shù)據(jù)集上得到的分類(lèi)準(zhǔn)確率,其中Eucild表示歐式距離,加粗表示各數(shù)據(jù)集上所取得的最好分類(lèi)準(zhǔn)確率。

表3 各種方法在不同數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率

續(xù)表3

由表3可見(jiàn),本文所提SAX_VOLA及其對(duì)應(yīng)的時(shí)間序列距離度量方法,在19組數(shù)據(jù)集上比直接用原始時(shí)序數(shù)據(jù)的歐式距離進(jìn)行分類(lèi)的效果好,在制造業(yè)相關(guān)的Trace數(shù)據(jù)集上提升效果最好,達(dá)到17%,在Yoga數(shù)據(jù)集上提升最低,僅為0.1%;在19組數(shù)據(jù)集上優(yōu)于SAX,在OliveOil數(shù)據(jù)集上提升較大,高達(dá)73.3%,在Wafer數(shù)據(jù)集上提升較小,只有0.1%;在17組數(shù)據(jù)集上優(yōu)于SAX_TD,1組數(shù)據(jù)集上持平,在Trace數(shù)據(jù)集上提升最高,為18%,在Wafer數(shù)據(jù)集上提升最小,為2%;在18組數(shù)據(jù)集上略?xún)?yōu)于SAX_SM方法,在Trace數(shù)據(jù)集上提升最高,為22.7%,在Wafer數(shù)據(jù)集上提升最小,僅1%;在17組數(shù)據(jù)集上優(yōu)于所有方法。具體對(duì)比如圖3所示,可見(jiàn)基于SAX_VOLA的時(shí)間序列分類(lèi)效果在本文所列多數(shù)數(shù)據(jù)集上優(yōu)于傳統(tǒng)的歐氏距離、SAX、SAX_TD和SAX_SM方法。

由圖3和表3可見(jiàn),本文所提方法在Coffee數(shù)據(jù)集上比其他方法的分類(lèi)準(zhǔn)確率略低。該數(shù)據(jù)集中時(shí)間序列的圖像如圖4所示(圖中橫坐標(biāo)表示時(shí)間序列的長(zhǎng)度,縱坐標(biāo)表示時(shí)間序列上每個(gè)點(diǎn)的對(duì)應(yīng)值),可見(jiàn)該時(shí)間序列局部波動(dòng)不顯著。作為對(duì)比,圖5和圖6給出了SAX_VOLA表現(xiàn)較好的Wafer和Trace數(shù)據(jù)集中的時(shí)間序列圖像,其最明顯的特點(diǎn)就是局部波動(dòng)明顯,或者有明顯的上升或下降趨勢(shì),與前面提及的波動(dòng)率能夠有效捕捉子序列的上升/下降趨勢(shì)信息及波動(dòng)幅度信息的事實(shí)相符。一般而言,當(dāng)原始時(shí)間序列有明顯的上升、下降趨勢(shì)或局部波動(dòng)幅度較大時(shí),本文所提SAX_VOLA的效果更好。這種現(xiàn)象在制造業(yè)領(lǐng)域生產(chǎn)線的監(jiān)測(cè)數(shù)據(jù)上較常見(jiàn),因此本文方法在該類(lèi)情況下會(huì)取得更準(zhǔn)確的分析結(jié)果。

下面分析本算法的時(shí)間性能。實(shí)驗(yàn)所用計(jì)算機(jī)的配置為CPU i5-4200M、8 G內(nèi)存、Windows操作系統(tǒng)。圖7所示為前述4種符號(hào)化方法在ECG200,GunPoint,OliveOil,Trace數(shù)據(jù)集上的時(shí)間成本(包括符號(hào)化降維和相似度計(jì)算)對(duì)比圖,可見(jiàn)本文所提SAX_VOLA的時(shí)間成本略高于其他3種方法,原因是本文提出的波動(dòng)率指標(biāo)計(jì)算復(fù)雜度高于始末距離、趨勢(shì)距離和SAX無(wú)附加指標(biāo)的計(jì)算復(fù)雜度,這也是為了抽取更多序列信息而付出的代價(jià)。然而,隨著分段數(shù)的增加,由于段內(nèi)采樣點(diǎn)的減少會(huì)降低波動(dòng)率計(jì)算的代價(jià),SAX_VOLA與SAX_TD的時(shí)間成本差距逐漸縮小。當(dāng)然,無(wú)論本文所提SAX_VOLA還是傳統(tǒng)的符號(hào)化方法,由于取值點(diǎn)大大減少,在進(jìn)行時(shí)間序列相似度計(jì)算和分類(lèi)等任務(wù)時(shí),時(shí)間效率均明顯優(yōu)于未符號(hào)化時(shí)對(duì)原始時(shí)間序列的處理效率。

3.2 軸承故障診斷數(shù)據(jù)集實(shí)驗(yàn)與分析

CWRU滾動(dòng)軸承數(shù)據(jù)中心的軸承故障診斷數(shù)據(jù)集[29]是世界公認(rèn)的軸承診斷標(biāo)準(zhǔn)數(shù)據(jù)集之一,為進(jìn)一步驗(yàn)證SAX_VOLA在工業(yè)領(lǐng)域的應(yīng)用,本次實(shí)驗(yàn)選取CWRU軸承數(shù)據(jù)中的驅(qū)動(dòng)端數(shù)據(jù)。被診斷軸承型號(hào)為深溝球軸承SKF6205,系統(tǒng)采樣頻率為12 kHz,負(fù)載為1 HP,選取兩個(gè)周期。被診斷軸承的缺陷位置有滾動(dòng)體損傷、外圈損傷和內(nèi)圈損傷3種,損傷直徑分別為0.007 inch,0.014 inch,0.02 inch,共9種損傷狀態(tài),加上正常狀態(tài)共計(jì)10種狀態(tài),每種狀態(tài)選取100個(gè)樣本,然后隨機(jī)挑選30%的數(shù)據(jù)作為測(cè)試集,字符集α和w的設(shè)置與各種方法在UCR時(shí)間序列檔案庫(kù)中數(shù)據(jù)集上的設(shè)置相同。表4所示為各種方法在軸承故障數(shù)據(jù)集上的最高分類(lèi)準(zhǔn)確率與取得最高分類(lèi)準(zhǔn)確率所耗費(fèi)的時(shí)間,可見(jiàn)SAX_VOLA取得的分類(lèi)準(zhǔn)確率略?xún)?yōu)于其他方法,時(shí)間成本比略低于SAX_TD。導(dǎo)致這一現(xiàn)象的原因與3.1節(jié)相同,為了保證時(shí)間序列分類(lèi)的準(zhǔn)確性,需要在符號(hào)化過(guò)程中盡量抽取原始時(shí)間序列更多的信息,因此將耗費(fèi)更多的計(jì)算時(shí)間。

表4 各種方法在軸承故障數(shù)據(jù)集上的分類(lèi)準(zhǔn)確率和耗時(shí)

4 結(jié)束語(yǔ)

針對(duì)制造業(yè)等領(lǐng)域的時(shí)間序列數(shù)據(jù)降維問(wèn)題,本文提出一種新的時(shí)間序列符號(hào)聚合近似方法,通過(guò)引入波動(dòng)率指標(biāo)同時(shí)量化時(shí)間序列的局部波動(dòng)幅度和變化趨勢(shì)等信息,彌補(bǔ)了傳統(tǒng)SAX在符號(hào)化過(guò)程中丟失的波動(dòng)信息。實(shí)驗(yàn)結(jié)果表明,當(dāng)時(shí)間序列有明顯的上升和下降趨勢(shì),或者局部存在頻繁的波動(dòng)時(shí),本文方法在時(shí)間序列分類(lèi)問(wèn)題上的準(zhǔn)確率上通常優(yōu)于傳統(tǒng)方法。

然而,在時(shí)間序列的降維過(guò)程中,本文采用等長(zhǎng)分割的辦法,可能導(dǎo)致識(shí)別出的序列模式不準(zhǔn)確,后續(xù)工作可以嘗試根據(jù)波動(dòng)率對(duì)時(shí)間序列進(jìn)行不等長(zhǎng)分割,進(jìn)而更加精確地捕捉時(shí)間序列模式和狀態(tài)的變化信息。另外,時(shí)間序列分析已經(jīng)應(yīng)用于智能制造[30-31]、業(yè)務(wù)過(guò)程管理[32-34]等諸多領(lǐng)域,如何在這些領(lǐng)域推廣和應(yīng)用本文方法也是下一步研究的重點(diǎn)。

猜你喜歡
符號(hào)化集上波動(dòng)
小學(xué)數(shù)學(xué)教學(xué)中滲透“符號(hào)化”思想的實(shí)踐研究
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
羊肉價(jià)回穩(wěn) 后期不會(huì)大幅波動(dòng)
微風(fēng)里優(yōu)美地波動(dòng)
2019年國(guó)內(nèi)外油價(jià)或?qū)⒉▌?dòng)加劇
關(guān)于一階邏輯命題符號(hào)化的思考
復(fù)扇形指標(biāo)集上的分布混沌
干濕法SO2排放波動(dòng)對(duì)比及分析
現(xiàn)代流行服飾文化視閾下的符號(hào)化消費(fèi)
浑源县| 玉龙| 永康市| 颍上县| 晋州市| 奎屯市| 揭东县| 大连市| 鹤峰县| 游戏| 始兴县| 祥云县| 清河县| 西平县| 堆龙德庆县| 青阳县| 渑池县| 衡南县| 巴南区| 临泽县| 甘孜| 台中县| 台南县| 绿春县| 南溪县| 抚州市| 洮南市| 丰原市| 晋江市| 云林县| 山东省| 旌德县| 仁怀市| 左权县| 三门峡市| 龙游县| 长宁县| 石泉县| 柞水县| 澄江县| 东阿县|