摘要:基于數(shù)據(jù)驅(qū)動的時間序列預(yù)測模型通常需要大量的訓(xùn)練數(shù)據(jù),當(dāng)數(shù)據(jù)量不足時將導(dǎo)致建模的準(zhǔn)確性下降。本文針對時間序列預(yù)測中的小樣本問題,提出了一種基于改進(jìn)變分自編碼器(Variational Auto-Encoder, VAE) 的時間序列數(shù)據(jù)增強(qiáng)方法,旨在生成和原始數(shù)據(jù)不同但分布相似的虛擬數(shù)據(jù)。通過在編碼網(wǎng)絡(luò)中引入多頭自注意力機(jī)制挖掘原始數(shù)據(jù)深層特征,為解碼網(wǎng)絡(luò)生成數(shù)據(jù)時提供全面的特征信息;引入殘差連接避免模型出現(xiàn)梯度消失的問題。由于時間序列數(shù)據(jù)具有趨勢與周期性,故在解碼網(wǎng)絡(luò)中引入趨勢組件和季節(jié)性組件,以準(zhǔn)確表示原始數(shù)據(jù)的時間特性,并且為數(shù)據(jù)的生成過程賦予時間上的可解釋性。為了驗證本文方法的有效性,和當(dāng)前常用的時序數(shù)據(jù)增強(qiáng)方法進(jìn)行比較,實(shí)驗結(jié)果表明,該方法在虛擬樣本的生成和時間序列回歸預(yù)測上均具有較好表現(xiàn)。
關(guān)鍵詞:小樣本;數(shù)據(jù)增強(qiáng);時間序列數(shù)據(jù);VAE;可解釋性
中圖分類號:TP183 文獻(xiàn)標(biāo)志碼:A
近些年來,隨著計算機(jī)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的時間序列預(yù)測方法被各行各業(yè)所關(guān)注[1]。通過對時間序列數(shù)據(jù)的分析,發(fā)現(xiàn)其中所存在的規(guī)律可以對未來事物的發(fā)展趨勢進(jìn)行評估和管理[2]。一般來說,時間序列預(yù)測方法為基于數(shù)據(jù)驅(qū)動的方法[3],需要大量的訓(xùn)練數(shù)據(jù)來挖掘研究對象中所包含的知識信息。當(dāng)數(shù)據(jù)量不足時,預(yù)測模型無法充分學(xué)習(xí)研究對象中的特征依賴信息,所得模型的預(yù)測精度難以滿足要求。所以在小樣本下的時序數(shù)據(jù)增強(qiáng)問題具有重要的研究意義。
數(shù)據(jù)增強(qiáng)方法在小樣本問題中被廣泛應(yīng)用,生成一批和原始數(shù)據(jù)不同但分布相似的數(shù)據(jù),通過增加訓(xùn)練數(shù)據(jù)量達(dá)到提高模型預(yù)測精度的目的。Shen 等[4] 針對工業(yè)生產(chǎn)中的小樣本問題,提出了一種基于高斯混合的樣本生產(chǎn)算法(GMM-VSG)。Ohno[5] 提出使用變分自編碼器( Variational Auto-Encoder ,VAE)[6] 作為數(shù)據(jù)生成模型,幫助解決回歸預(yù)測中的小樣本問題。Zhao 等[7]將VAE 中通過高斯分布采樣的隱空間變量無限生成振動信號,將合成的振動信號和原始信號混合達(dá)到增強(qiáng)訓(xùn)練的目的。Yu 等[8] 為了解決信貸數(shù)據(jù)集中小樣本問題,提出一種基于極限學(xué)習(xí)機(jī)的數(shù)據(jù)增強(qiáng)方法(ELM-VSG),該方法將隱空間特征進(jìn)行線性插值再生成虛擬樣本。上述方法在生成虛擬樣本時,僅僅考慮數(shù)據(jù)的特征維度的信息, 并未考慮時間維度上的動態(tài)信息。Wen 等[9] 在時間序列預(yù)測的研究中指出,在進(jìn)行時間序列預(yù)測問題的分析時需要重點(diǎn)關(guān)注數(shù)據(jù)在時間上的動態(tài)信息。因此如果只是通過添加噪聲、裁剪序列數(shù)據(jù)尺寸或者簡單地通過神經(jīng)網(wǎng)絡(luò)的映射能力生成虛擬樣本,可能得不到有助于提高時間序列預(yù)測精度的虛擬樣本。
由于生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)[10] 在圖像生成領(lǐng)域的應(yīng)用越來越廣泛,研究者將該方法應(yīng)用于時間序列數(shù)據(jù)上。Chen[11]使用條件生成對抗網(wǎng)絡(luò)(CGAN) 生成時間序列數(shù)據(jù),實(shí)現(xiàn)了擴(kuò)充時間序列數(shù)據(jù)量的目的。Li 等[12] 提出一種合成數(shù)據(jù)的方法(TTS-GAN),成功合成了與原始序列任意長度大小相同的時間序列數(shù)據(jù)。Yoon 等[13]提出一種合成多元時間序列數(shù)據(jù)的方法(TimeGAN),并通過實(shí)驗驗證了該方法相比于其他生成對抗方法的有效性。雖然基于GAN 網(wǎng)絡(luò)的合成數(shù)據(jù)方法在某些特定時間序列數(shù)據(jù)上表現(xiàn)出了有效性,但生成數(shù)據(jù)時判別器和生成器需要達(dá)到納什均衡[14]。在數(shù)據(jù)量少的情況下,納什均衡有時候可以達(dá)到而有時候并不能達(dá)到。所以GAN 類網(wǎng)絡(luò)的穩(wěn)定性不確定,難以保證生成的虛擬數(shù)據(jù)都是理想的數(shù)據(jù)。