關(guān)鍵詞:時間序列預(yù)測,多變量時間序列,深度學(xué)習(xí),時間序列分解
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
時間序列是一種按照時間順序排列的數(shù)據(jù),通常具有等間距的采樣間隔. 多變量時間序列是在同一時間點上記錄多個變量數(shù)據(jù)的時間序列,多變量時間序列預(yù)測是一種重要的數(shù)據(jù)挖掘技術(shù).
多變量時間序列預(yù)測在經(jīng)濟(jì)學(xué)[1]、氣象學(xué)[2]、工程學(xué)[3]以及醫(yī)療保健等多個領(lǐng)域中發(fā)揮著至關(guān)重要的作用[4]. 例如,霧作為一種主要的天氣現(xiàn)象,造成能見度降低,使駕車行駛和戶外工作變得極其危險,采用霧預(yù)報系統(tǒng)[5]可以提前針對霧的濃度進(jìn)行預(yù)報,保障用戶的生命財產(chǎn)安全. 時間序列預(yù)測利用歷史數(shù)據(jù)來預(yù)測未來的數(shù)值,為支持決策和資源優(yōu)化提供關(guān)鍵的依據(jù). 現(xiàn)實中,大多數(shù)的時間序列是多變量時間序列,其預(yù)測結(jié)果受多種變量的共同影響,因此,多變量時間序列預(yù)測面臨更高的要求. 通過分析和挖掘多變量時間序列數(shù)據(jù)間的潛在規(guī)律,可以更深入地理解數(shù)據(jù)的演變趨勢.
自回歸(Autoregressive Model,AR)[6]和自回歸整合移動平均(Autoregressive Integrated Mov?ing Average Model,ARIMA)[7]等統(tǒng)計類方法在時間序列預(yù)測問題中長期發(fā)揮著重要作用,然而,統(tǒng)計類方法對單一變量平穩(wěn)時間序列預(yù)測的表現(xiàn)比較有效,但在處理多變量時間序列數(shù)據(jù)時,其預(yù)測效果不佳. 同時,基于線性的統(tǒng)計學(xué)方法往往無法在多變量時間序列中達(dá)到預(yù)期的預(yù)測效果.隨著眾多機(jī)器學(xué)習(xí)方法的提出,如支持向量機(jī)[8]、決策樹等方法可以提取多變量時間序列中的特征,通過特征來進(jìn)行預(yù)測,推動了多變量時間序列預(yù)測的發(fā)展. 近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)[9]、Transformer[10]等技術(shù)相繼出現(xiàn). 隨著數(shù)據(jù)量的增加,通過學(xué)習(xí)和捕捉數(shù)據(jù)中的非線性關(guān)系和復(fù)雜模式可以提升多變量時間序列預(yù)測的準(zhǔn)確性,這不僅為該領(lǐng)域帶來了諸多機(jī)遇,也帶來了挑戰(zhàn),深入分析和理解這些復(fù)雜模式,有助于更全面地把握數(shù)據(jù)的演變趨勢.
Transformer 是一種從序列到序列的預(yù)測方法,具備高效的并行計算能力、對位置信息的處理能力和全局感知的能力,是多變量時間序列預(yù)測中一種重要的方法. 在基于Transformer 的多變量時間序列預(yù)測模型中,常見做法是將同一時間點對應(yīng)的多個變量進(jìn)行嵌入并輸入相同的通道,然后利用注意力機(jī)制來捕捉時間序列在時間維度上的依賴關(guān)系. 然而,使用Transformer 進(jìn)行多變量時間序列預(yù)測面臨以下挑戰(zhàn).(1)直接使用原始的Transformer 框架結(jié)構(gòu),在預(yù)測序列的長度增加時,其預(yù)測精度將會大幅下降. 同時,直接對同一時間點的多個變量進(jìn)行嵌入會導(dǎo)致通道中信息的混淆,影響后續(xù)注意力計算的區(qū)分度,降低了多變量時間序列預(yù)測的精度.(2)Transformer 模型的注意力機(jī)制在處理長序列時計算復(fù)雜度較高.在標(biāo)準(zhǔn)的Transformer 中,長度為N 的序列,計算注意力的復(fù)雜度為O (N2 ),限制了模型在長序列上的應(yīng)用. 時間序列長度的增加使注意力計算的復(fù)雜度呈二次增長,導(dǎo)致模型在處理長序列時的計算成本急劇上升.
針對上述挑戰(zhàn),本文構(gòu)建了DItrans( Decom?position Invert Transformer)模型,引入轉(zhuǎn)置策略,將時間序列的時間維度和變量維度進(jìn)行轉(zhuǎn)置后進(jìn)行嵌入(簡稱轉(zhuǎn)置嵌入). 利用傳統(tǒng)Transformer的編碼器(TRM)和本文提出的一種新型的高效Transformer 編碼器(eTRM)對嵌入表征進(jìn)行學(xué)習(xí),eTRM 的學(xué)習(xí)方式可以降低時間復(fù)雜度. 同時,直接從長時間序列中挖掘時間維度的依賴關(guān)系比較困難,因為復(fù)雜的時間模式可能會掩蓋這種依賴關(guān)系. 為了更好地捕獲時間維度的關(guān)系,引入時間序列分解方法,利用時間序列分解方法將時間序列分解為趨勢項、周期項和殘差項再進(jìn)行學(xué)習(xí). 通過融合分解與轉(zhuǎn)置策略,DItrans 模型可以更好地捕獲時間序列的潛在特征,提高模型預(yù)測性能. 本文的貢獻(xiàn)如下.
(1)基于Transformer 模塊建立一種結(jié)合轉(zhuǎn)置策略、時間序列預(yù)測分解等方法的DItrans 模型.
本文首次融合了時間序列分解與轉(zhuǎn)置策略,還提供了一種在深度學(xué)習(xí)過程將時間序列分解為趨勢項、周期項和殘差項的方法.
(2)提出一種新的編碼器eTRM,利用可調(diào)節(jié)維度的可學(xué)習(xí)矩陣,針對不同的應(yīng)用場景進(jìn)行調(diào)整,以學(xué)習(xí)更豐富的時序特征. 該方法不僅適用于時間序列數(shù)據(jù),還為其他領(lǐng)域的模型提供了一種有效的編碼器學(xué)習(xí)策略.
(3)實驗發(fā)現(xiàn),通過結(jié)合轉(zhuǎn)置、時間序列預(yù)測分解以及優(yōu)化的編碼器結(jié)構(gòu),DItrans 模型在多個數(shù)據(jù)集上取得了最優(yōu)的預(yù)測結(jié)果,證實了DItrans模型的有效性. 該方法為時間序列多變量預(yù)測研究提供了有效的思路.
1 相關(guān)工作
1. 1時間序列分解 趨勢項、周期項和殘差項的分解在傳統(tǒng)的時間序列預(yù)測中對于模型的預(yù)測具有重要作用,可以更好地捕捉時間序列數(shù)據(jù)中的趨勢和變化[11-13]. 分解方法可以采用加法模型和乘法模型,加法模型的計算如下:
Yt = Tt + St + Rt (1)
其中,Yt 為原始的時間序列;Tt 為趨勢項,可以利用移動平均、指數(shù)平滑或回歸分析等方法對其進(jìn)行提??;周期項St 是所有固定時間間隔位置對應(yīng)的原始實際序列與趨勢項之間的偏差值的平均,反映了時間序列在去除趨勢項后的周期情況. 最后,從原始時間序列中去除趨勢項和周期項,就得到殘差項.
時間序列分解的乘法模型如下:
Yt = Tt × St × Rt (2)
研究適合于深度學(xué)習(xí)方法的時間序列分解方法對于充分挖掘時間序列中的潛在特征和提升模型的預(yù)測能力非常重要. Wu et al[14]提出Auto?former,設(shè)計了一種具有自動相關(guān)性機(jī)制的新型分解架構(gòu),利用趨勢項和殘差項建模取得了更好的預(yù)測效果. Tong et al[15]提出一種具有概率分解表示的分層Transformer,為時間序列的分層和可分解預(yù)測提供一個靈活的框架. 現(xiàn)有的工作通常將時間序列分解為趨勢項和季節(jié)項,然而,受到傳統(tǒng)時間序列方法的啟發(fā),時間序列經(jīng)過合理的函數(shù)變換,可以分解為趨勢項、周期項和殘差項,因此,開發(fā)一種適合深度學(xué)習(xí)的趨勢項、周期項和殘差項分解的方法十分重要.
1. 2多變量時間序列預(yù)測方法 為了提升多變量時間序列預(yù)測模型效能,學(xué)者提出并改良了很多的多變量時間序列預(yù)測模型. 傳統(tǒng)的時間序列預(yù)測算法,如AR[6]、移動平均模型(Moving Aver?age Model,MA)和ARIMA[7]等統(tǒng)計類方法,長期以來在該領(lǐng)域中發(fā)揮著關(guān)鍵作用,但它們對時間序列的平穩(wěn)性有特定要求,所以其適用性受到了限制. 同時,在進(jìn)行多變量預(yù)測時,傳統(tǒng)的時間序列預(yù)測方法一般將多變量時間序列數(shù)據(jù)拆分為單變量時間序列數(shù)據(jù),分別對每個變量的數(shù)據(jù)進(jìn)行預(yù)測,無法充分利用變量之間的相關(guān)性.
為了彌補(bǔ)傳統(tǒng)的統(tǒng)計方法模型的缺陷,機(jī)器學(xué)習(xí)的方法已廣泛應(yīng)用于各個領(lǐng)域,如將支持向量機(jī)[8]、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)模型應(yīng)用于多變量時間序列預(yù)測. 通過數(shù)據(jù)驅(qū)動的方式,機(jī)器學(xué)習(xí)模型能學(xué)習(xí)并識別時間序列中的模式和特征,進(jìn)而建立歷史數(shù)據(jù)與未來數(shù)據(jù)之間的映射關(guān)系,更好地適用于多變量預(yù)測研究,和傳統(tǒng)的統(tǒng)計方法相比,取得了良好的效果,但在時間序列預(yù)測應(yīng)用中,過擬合是機(jī)器學(xué)習(xí)方法常見的問題.
深度學(xué)習(xí)模型可以更好地捕捉數(shù)據(jù)中的非線性關(guān)系和復(fù)雜模式,尤其是復(fù)雜的時序模式和變量之間的依賴關(guān)系[16],目前出現(xiàn)了眾多基于深度學(xué)習(xí)的多變量時間序列預(yù)測框架. 最早用于時間序列預(yù)測的深度學(xué)習(xí)框架是全連接神經(jīng)網(wǎng)絡(luò)[17],能捕捉多變量時間序列中的復(fù)雜模式和變量之間的關(guān)聯(lián). 接著是RNN[9],其具有記憶功能,能捕捉序列中的長期依賴關(guān)系. 為了緩解RNN 的梯度消失[18]問題,學(xué)者們提出基于門控機(jī)制的LongShort ? Term Memory (LSTM)[19] 網(wǎng)絡(luò)架構(gòu).LSTM 是一種常用的RNN 變體,已被廣泛應(yīng)用于處理序列數(shù)據(jù),其門控機(jī)制能有效地捕捉序列中的長期依賴關(guān)系,在各種時間序列建模任務(wù)中均表現(xiàn)出顯著效果[20]. LSTM 還有多種變體,如GRU( Gated Recurrent Unit)[21],phi?LSTM[22]等.
近年來,隨著自然語言處理和計算機(jī)視覺領(lǐng)域的發(fā)展,學(xué)者們提出了Transformer[10],該模型的依賴性建模的優(yōu)勢使其成為時間序列建模領(lǐng)域的研究熱點[23-25]. 但Transformer 處理長距離時間序列預(yù)測的能力有限,為此學(xué)者們提出了多種變體[26-30]. Zhou et al[26]的Informer 利用稀疏注意力機(jī)制來降低注意力時間復(fù)雜度與內(nèi)存使用率.Zhou et al[27]的FEDformer 在頻域中應(yīng)用了注意力操作,主要涉及組件的調(diào)整,特別是用于時間依賴建模的注意力模塊和對長序列復(fù)雜性的優(yōu)化.隨著線性預(yù)測器的發(fā)展[28],Transformer 對不同時間步間注意力機(jī)制的計算受到了挑戰(zhàn),現(xiàn)有工作更加關(guān)注時間序列的固有處理. Nie et al[29]的PatchTST 利用獨立通道的設(shè)計,其中每個通道包含單個單變量時間序列,在所有序列中共享相同的嵌入,并將時間序列分割為塊來進(jìn)行嵌入.Liu et al[30]利用非穩(wěn)態(tài)變壓器作為一個通用框架,通過級數(shù)穩(wěn)態(tài)化和去穩(wěn)態(tài)注意力兩個相互依賴的模塊來進(jìn)行預(yù)測,效果良好. 上述Transformer 變體在處理時間序列數(shù)據(jù)時展現(xiàn)了強(qiáng)大的表現(xiàn)力和靈活性,能夠捕捉序列中復(fù)雜的時序模式和變量間的關(guān)系,為時間序列預(yù)測任務(wù)帶來了新的突破和可能性. 其優(yōu)異的性能使它們在時間序列預(yù)測時的誤差更微小,為實現(xiàn)更準(zhǔn)確、更有效的時間序列預(yù)測提供了有力支持.
關(guān)注變量間的依賴性對于多變量的預(yù)測具有重要意義. 目前,大部分基于Transformer 的改良模型主要集中于對時間依賴性進(jìn)行建模,但忽略了變量間的依賴性. Zhang and Yan[31]的Cross?former 通過改進(jìn)的注意力機(jī)制和架構(gòu),明確捕捉跨時間和跨變量的依賴關(guān)系,在捕捉多變量間的時間和變量關(guān)系時取得了良好的效果. Liu etal[32]的iTransformer,對輸入的時間序列數(shù)據(jù)矩陣進(jìn)行轉(zhuǎn)置,在不修改Transformer 組件的情況下取得良好的預(yù)測結(jié)果.
降低Transformer 模型的計算復(fù)雜度是研究中的另一個重要問題,有大量的工作致力于降低時間復(fù)雜度[33],目前主要的方法聚集于改變注意力計算方法,但優(yōu)化Transformer 模塊結(jié)構(gòu)也同樣重要.
2. 2 時間序列分解 在多變量時間序列預(yù)測中,對時間維度的依賴關(guān)系至關(guān)重要. 充分挖掘不同時間步的相關(guān)性,能提高模型對多變量時間序列的預(yù)測性能. 為了有效利用該相關(guān)性,首先利用移動平均得到趨勢項的分解策略. 如圖2 所示,將時間序列分解為趨勢項和剩余項兩個部分,剩余項代表時間序列周期項和殘差項的和,如式(4)和式(5)所示:
ETT 數(shù)據(jù)集(https://github. com/zhouhaoyi/ETDataset)[26]是從電力變壓器中收集的數(shù)據(jù),包括2016 年7 月至2018 年7 月記錄的負(fù)荷和油溫數(shù)據(jù),分別包含時間間隔粒度為1 h 的數(shù)據(jù)集ETTH1,ETTH2 和時間間隔粒度為15 min 的數(shù)據(jù)集ETTM1,ETTM2. ETTH 數(shù)據(jù)集中的每個變量有17420 個時間步,ETTM 數(shù)據(jù)集中的每個變量有69680 個時間步.
Electricity數(shù)據(jù)集( https://archive. ics. uci. edu/ml/datasets/ElectricityLoadDiagrams20112014)收集了2012年到2014年321位客戶的每小時用電量數(shù)據(jù),對于電力系統(tǒng)的規(guī)劃和管理至關(guān)重要,對于了解電力消費(fèi)的模式和趨勢也有重要作用.
Weather 數(shù)據(jù)集(https://www. bgc-jena.mpg. de/wetter/)是2020年從馬克斯·普朗克生物地球化學(xué)研究所氣象站每10 min 采集的21 個氣象因素,對于氣象學(xué)、氣候?qū)W以及各個與天氣相關(guān)領(lǐng)域的研究具有重要的研究和應(yīng)用價值.
3. 2對比算法與評估指標(biāo)
3. 2. 1對比算法 將提出的方法與多個算法進(jìn)行對比實驗,以驗證DItrans 模型的性能.
Informer[26]是基于Transformer 的方法,利用稀疏注意力機(jī)制來降低注意力時間復(fù)雜度與內(nèi)存使用率,是一種有效的優(yōu)化效率的方法.
Autoformer[14]具有自動相關(guān)性機(jī)制的新型分解架構(gòu),其利用趨勢項和殘差項建模取得了更好的效果,提供了一種良好的時間序列分解方法.
DLinear[28]是一種用于多變量時間序列預(yù)測的線性模型,結(jié)構(gòu)簡單而誤差較低,對于在變量維度上進(jìn)行時間序列預(yù)測研究提供了良好的思路.
Crossformer[31]在建模時考慮了不同變量之間的關(guān)系,而不僅僅是時間上的依賴關(guān)系,通過時間依賴性和變量依賴性的建模方法,在多變量預(yù)測中取得了良好的效果.
iTransformer[34]通過轉(zhuǎn)置時間步和變量的維度進(jìn)行建模,在不修改Transformer 組件的同時對變量間的依賴關(guān)系進(jìn)行建模,提高了模型對多變量之間關(guān)系的理解能力,取得了良好的效果.
3. 2. 2損失函數(shù)和評估指標(biāo) 在訓(xùn)練過程中采用均方誤差(Mean Squared Error,MSE)作為損失函數(shù),評估模型性能時采用MSE 和平均絕對誤差(Mean Absolute Error,MAE)作為評估指標(biāo).MSE 和MAE 越小,表示模型的預(yù)測誤差越小,即模型的預(yù)測能力越強(qiáng). 針對第i個實例,MSE(i) 和MAE(i) 的計算如下所示:
3. 3 實驗設(shè)置
3. 3. 1實驗平臺 物理機(jī)包括Intel Xeon Plati?num 8352V的CPU以及一個顯存24GB 的RTX4090 的GPU. 使用PyTorch 深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實驗.
3. 3. 2訓(xùn)練和超參數(shù)設(shè)置 采用EarlyStopping機(jī)制,當(dāng)驗證集的表現(xiàn)連續(xù)若干輪次未見提升時訓(xùn)練終止,以防止模型過擬合,提高其泛化能力.使用Adam[36]優(yōu)化器,選擇MSE 作為損失函數(shù).
實驗的重要超參數(shù)設(shè)置如表2所示,其中,dff為編碼器中前饋神經(jīng)網(wǎng)絡(luò)的隱層維度,e為可學(xué)習(xí)矩陣的維度,Sl 為片段數(shù).
實驗中若無特殊說明,設(shè)置觀察序列長度X為96,預(yù)測序列長度Y 分別為96,192,336,720.設(shè)置平均核長度K = 5,以此來提取趨勢項,得到剩余項,再在剩余項中提取周期項和殘差項.
3. 4實驗結(jié)果
3. 4. 1多變量時間序列預(yù)測結(jié)果 將DItrans模型與對比算法的預(yù)測結(jié)果進(jìn)行比較,如表3 所示,表中黑體字表示性能最優(yōu). 由表可見,DItrans 模型表現(xiàn)出良好的多變量時間序列預(yù)測性能. 與對比算法相比,DItrans 的MSE 下降了1. 71%~79. 28%,MAE 下降了0. 72%~57. 52%.
在ETTH1,ETTH2與Electricity 數(shù)據(jù)集上,DItrans 模型展現(xiàn)了更優(yōu)異的性能,證明其獨特的編碼器、融合嵌入和分解方法更適合捕捉這些數(shù)據(jù)集的特征. 因為對于小時級別這種采樣間隔較大的時間序列數(shù)據(jù),DItrans 能夠更有效地捕獲并處理,從而實現(xiàn)更精準(zhǔn)的預(yù)測. 此外,在ETTM2數(shù)據(jù)集上DItrans 的表現(xiàn)同樣出色,說明它在采樣粒度較小的時間序列數(shù)據(jù)中也能取得良好效果.然而,對于ETTM1 數(shù)據(jù)集,DLinear 模型表現(xiàn)最佳,表明在此數(shù)據(jù)集中,除了考慮變量間的依賴關(guān)系,還需要重視不同時間步之間關(guān)系的捕捉. 在Weather 數(shù)據(jù)集中,DItrans,iTransformer,Cross?former 表現(xiàn)效果較佳,說明對于Weather 這種變量間具有高度依賴性關(guān)系的數(shù)據(jù),采用轉(zhuǎn)置嵌入方法可以實現(xiàn)更好的預(yù)測效果.
此外,在預(yù)測序列長度為96時,DItrans 模型在各個數(shù)據(jù)集上的性能均為最優(yōu),說明其擁有較強(qiáng)的短期預(yù)測能力. 同時,模型的預(yù)測序列長度Y 不同時,各個數(shù)據(jù)集上的MSE 和MAE 的變化較小,證明該模型能夠有效地捕捉時間序列數(shù)據(jù)的趨勢、周期等關(guān)系,并在長時間序列預(yù)測中展現(xiàn)出良好的魯棒性.
3. 4. 2編碼器和嵌入方法對比實驗 為了驗證不同編碼器的學(xué)習(xí)效果和對比使用不同的嵌入方法,進(jìn)行了對比實驗.
版本1:保持其他結(jié)構(gòu)不變,去除時間序列分解過程,直接針對原始的時間序列經(jīng)過歸一化后再進(jìn)行轉(zhuǎn)置嵌入,并使用eTRM 編碼器結(jié)構(gòu),再經(jīng)過線性層和反歸一化得到預(yù)測結(jié)果.
版本2:未進(jìn)行時間序列分解,并在學(xué)習(xí)表征時使用原始的eTRM 編碼器結(jié)構(gòu).
版本3:進(jìn)行趨勢項、周期項和殘差項的分解,針對三項學(xué)習(xí)表征,均使用原始的TRM 編碼器結(jié)構(gòu).
版本4:進(jìn)行趨勢項、周期項和殘差項的分解,針對三項學(xué)習(xí)表征,均使用eTRM 編碼器結(jié)構(gòu).
版本5:對時間序列進(jìn)行趨勢項、周期項和殘差項的分解,在嵌入時不針對時間序列進(jìn)行轉(zhuǎn)置,而直接使用線性層進(jìn)行嵌入;針對趨勢項利用TRM 編碼器學(xué)習(xí)表征,而針對周期項和殘差項利用eTRM編碼器學(xué)習(xí)表征,最后的線性層將學(xué)習(xí)得到的表征映射為預(yù)測的結(jié)果Y? ∈R S × N.
由于ETT數(shù)據(jù)集沒有很強(qiáng)的周期性,而Elec?tricity數(shù)據(jù)集周期性較強(qiáng),因此選擇在ETTH1和Electricitiy數(shù)據(jù)集上進(jìn)行對比實驗.
對比實驗的結(jié)果如表4 所示,表中黑體字表示性能最優(yōu). 由表可見,在周期性不是很強(qiáng)的ETT 數(shù)據(jù)集中,版本1 的預(yù)測精度優(yōu)于版本2,說明該編碼器的學(xué)習(xí)方式更適合捕獲不具備明顯周期性特征的數(shù)據(jù). 同時,版本1 的MAE 和MSE的均值均小于版本2,說明改進(jìn)的eTRM 編碼器結(jié)構(gòu)能減小時間復(fù)雜度,預(yù)測也更準(zhǔn)確. DItrans模型的預(yù)測精度表現(xiàn)最佳,超過版本3 和版本4,證明兩種編碼器的組合更有利于學(xué)習(xí)當(dāng)前時間序列分解的趨勢項、周期項和殘差項. 版本5 的實驗結(jié)果證明了轉(zhuǎn)置嵌入方法對本文模型的有效性.
3. 4. 3分解方法對比實驗 合適的時間序列分解方法對于模型的預(yù)測性能十分重要,為了驗證時間序列分解的作用,對比了不同的分解方式對模型的影響.
表5 展示了時間序列分解對比實驗的結(jié)果,表中黑體字表示結(jié)果最優(yōu). 由表可見,將時間序列分解為趨勢項、周期項和殘差項再分別進(jìn)行學(xué)習(xí)的方法,總體上優(yōu)于只分解為趨勢項和剩余項的方法,驗證了本文分解方法的優(yōu)勢. 同時,DI?trans 模型在大多數(shù)情況下MSE 均為最優(yōu). 但由于模型的訓(xùn)練目標(biāo)是最小化MSE 損失,這使模型在訓(xùn)練過程中更傾向于降低MSE,而在某些情況下忽略了對MAE 的優(yōu)化,所以在某些情況下MAE 表現(xiàn)稍差. 因此,在結(jié)合時間序列分解方法的同時,合理選擇和組合訓(xùn)練損失函數(shù)十分重要,以便在優(yōu)化MSE 的同時兼顧MAE,從而提高模型的整體預(yù)測性能.
3. 4. 4編碼器維度e 靈敏度實驗 為了進(jìn)一步提升模型的實用性,調(diào)整可學(xué)習(xí)矩陣維度e 來驗證其對模型的影響. 使用MSE 的平均值來評估模型的準(zhǔn)確性,使用吞吐量來衡量模型的計算速度. 發(fā)現(xiàn)在e 不同時,MSE 的變化幅度有限,并且模型的計算效率顯著提升,可為模型在實際的多變量時間序列預(yù)測應(yīng)用過程中提供有效的策略.此實驗有助于在實際應(yīng)用中選取最合適的e,在保證模型精度的同時提高了其計算效率. 在ETTH1,Electricity 和Weather 數(shù)據(jù)集上進(jìn)行了對比實驗,設(shè)置預(yù)測序列長度Y = 96.
圖5展示了預(yù)測序列長度Y =96時,在不同數(shù)據(jù)集上可學(xué)習(xí)矩陣維度e 對模型的MSE 和吞吐量的影響. 在ETTH1數(shù)據(jù)集上,e較高時模型的預(yù)測精度較高,且吞吐量較大,所以應(yīng)當(dāng)選取較高的e;在Electricity 和Weather 數(shù)據(jù)集上,e較高模型的預(yù)測精度更高,e較低時模型的吞吐量更大. 所以,針對不同的數(shù)據(jù)集和實驗設(shè)置,應(yīng)綜合考慮預(yù)測精度和吞吐量,選擇合適的e 至關(guān)重要.
3. 4. 5片段數(shù)Sl 的靈敏度實驗 為了更好地進(jìn)行周期項和殘差項分解,在ETTH1數(shù)據(jù)集上通過實驗來尋找合適的片段數(shù)Sl,設(shè)置預(yù)測序列長度分別為96,192,336,720. 表6 展示了實驗結(jié)果,由表可見,Sl = 4 時模型的預(yù)測效果較好. 由于ETTH 實際的采樣粒度是1 h,針對ETTH1 數(shù)據(jù)集進(jìn)行周期長度為24 h 的劃分具有更好的預(yù)測能力.
3. 4. 6預(yù)測實例分析 將多種模型與DItrans 模型進(jìn)行預(yù)測效果的可視化對比,圖6 展示了在三個數(shù)據(jù)集上的預(yù)測實例分析結(jié)果,實例由以下模型提供:iTransformer[34],Crossformer[31],Dlinear[28],Autoformer[14],Informer[26]. 由圖可見,本文提出的DItrans 模型取得了最優(yōu)的效果. 特別是針對Weather 數(shù)據(jù)集的實例,其他對比算法對該實例進(jìn)行預(yù)測時,對趨勢的預(yù)測出現(xiàn)了較大的偏差,而DItrans 模型可以較好地捕獲趨勢特征,從而擁有良好的預(yù)測性能.
4 結(jié)論
時間序列預(yù)測是一項重要且具有挑戰(zhàn)性的任務(wù),在許多領(lǐng)域均有廣泛的應(yīng)用. 隨著深度學(xué)習(xí)方法的發(fā)展,針對多變量時間序列預(yù)測的研究受到廣泛關(guān)注[32,37-41]. 本文提出一種融合趨勢項、周期項和殘差分解和轉(zhuǎn)置策略的模型DItrans,并引入了新的編碼器結(jié)構(gòu). 通過趨勢項、周期項和殘差項的分解,再進(jìn)行轉(zhuǎn)置嵌入,最后利用不同的編碼器結(jié)構(gòu)進(jìn)行學(xué)習(xí),使得模型在保證預(yù)測準(zhǔn)確性的同時降低了時間復(fù)雜度. 轉(zhuǎn)置嵌入的方法有助于研究變量之間的相關(guān)性,而趨勢項、周期項和殘差項的分解有助于捕獲時間維度的依賴關(guān)系,DI?trans 為同時研究變量和時間維度的特征提供了一種新的思路.
在三個真實數(shù)據(jù)集上對DItrans 模型進(jìn)行了性能評估,結(jié)果表明,其MSE 和MAE 均為最佳.和對比算法相比,其MSE 下降1. 71%~79. 28%,MAE 下降0. 72%~57. 52%,說明DItrans 模型在多變量時間序列預(yù)測任務(wù)中表現(xiàn)良好.
未來考慮提高模型的性能和效率,嘗試更精確的時間序列分解方法或其他的時間序列特征提取方法,還考慮將該模型應(yīng)用到更多的領(lǐng)域和實際問題中,以驗證其在不同場景下的通用性和實用性. 隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,融合時間序列分解與轉(zhuǎn)置策略的多變量時間序列預(yù)測模型將在時間序列預(yù)測領(lǐng)域發(fā)揮更重要的作用.
(責(zé)任編輯 楊可盛)