基于改進(jìn)VAE 的時間序列數(shù)據(jù)增強(qiáng)方法

2024-01-01 00:00:00范振杰羅娜

華東理工大學(xué)學(xué)報(自然科學(xué)版) 2024年3期

摘要：基于數(shù)據(jù)驅(qū)動的時間序列預(yù)測模型通常需要大量的訓(xùn)練數(shù)據(jù)，當(dāng)數(shù)據(jù)量不足時將導(dǎo)致建模的準(zhǔn)確性下降。本文針對時間序列預(yù)測中的小樣本問題，提出了一種基于改進(jìn)變分自編碼器（Variational Auto-Encoder， VAE）的時間序列數(shù)據(jù)增強(qiáng)方法，旨在生成和原始數(shù)據(jù)不同但分布相似的虛擬數(shù)據(jù)。通過在編碼網(wǎng)絡(luò)中引入多頭自注意力機(jī)制挖掘原始數(shù)據(jù)深層特征，為解碼網(wǎng)絡(luò)生成數(shù)據(jù)時提供全面的特征信息；引入殘差連接避免模型出現(xiàn)梯度消失的問題。由于時間序列數(shù)據(jù)具有趨勢與周期性，故在解碼網(wǎng)絡(luò)中引入趨勢組件和季節(jié)性組件，以準(zhǔn)確表示原始數(shù)據(jù)的時間特性，并且為數(shù)據(jù)的生成過程賦予時間上的可解釋性。為了驗證本文方法的有效性，和當(dāng)前常用的時序數(shù)據(jù)增強(qiáng)方法進(jìn)行比較，實(shí)驗結(jié)果表明，該方法在虛擬樣本的生成和時間序列回歸預(yù)測上均具有較好表現(xiàn)。

關(guān)鍵詞：小樣本；數(shù)據(jù)增強(qiáng)；時間序列數(shù)據(jù)；VAE；可解釋性

中圖分類號：TP183 文獻(xiàn)標(biāo)志碼：A

近些年來，隨著計算機(jī)技術(shù)的發(fā)展，基于深度學(xué)習(xí)的時間序列預(yù)測方法被各行各業(yè)所關(guān)注[1]。通過對時間序列數(shù)據(jù)的分析，發(fā)現(xiàn)其中所存在的規(guī)律可以對未來事物的發(fā)展趨勢進(jìn)行評估和管理[2]。一般來說，時間序列預(yù)測方法為基于數(shù)據(jù)驅(qū)動的方法[3]，需要大量的訓(xùn)練數(shù)據(jù)來挖掘研究對象中所包含的知識信息。當(dāng)數(shù)據(jù)量不足時，預(yù)測模型無法充分學(xué)習(xí)研究對象中的特征依賴信息，所得模型的預(yù)測精度難以滿足要求。所以在小樣本下的時序數(shù)據(jù)增強(qiáng)問題具有重要的研究意義。

數(shù)據(jù)增強(qiáng)方法在小樣本問題中被廣泛應(yīng)用，生成一批和原始數(shù)據(jù)不同但分布相似的數(shù)據(jù)，通過增加訓(xùn)練數(shù)據(jù)量達(dá)到提高模型預(yù)測精度的目的。Shen 等[4] 針對工業(yè)生產(chǎn)中的小樣本問題，提出了一種基于高斯混合的樣本生產(chǎn)算法（GMM-VSG）。Ohno[5] 提出使用變分自編碼器（ Variational Auto-Encoder ，VAE）[6] 作為數(shù)據(jù)生成模型，幫助解決回歸預(yù)測中的小樣本問題。Zhao 等[7]將VAE 中通過高斯分布采樣的隱空間變量無限生成振動信號，將合成的振動信號和原始信號混合達(dá)到增強(qiáng)訓(xùn)練的目的。Yu 等[8] 為了解決信貸數(shù)據(jù)集中小樣本問題，提出一種基于極限學(xué)習(xí)機(jī)的數(shù)據(jù)增強(qiáng)方法（ELM-VSG），該方法將隱空間特征進(jìn)行線性插值再生成虛擬樣本。上述方法在生成虛擬樣本時，僅僅考慮數(shù)據(jù)的特征維度的信息，并未考慮時間維度上的動態(tài)信息。Wen 等[9] 在時間序列預(yù)測的研究中指出，在進(jìn)行時間序列預(yù)測問題的分析時需要重點(diǎn)關(guān)注數(shù)據(jù)在時間上的動態(tài)信息。因此如果只是通過添加噪聲、裁剪序列數(shù)據(jù)尺寸或者簡單地通過神經(jīng)網(wǎng)絡(luò)的映射能力生成虛擬樣本，可能得不到有助于提高時間序列預(yù)測精度的虛擬樣本。

由于生成對抗網(wǎng)絡(luò)（Generative Adversarial Nets，GAN）[10] 在圖像生成領(lǐng)域的應(yīng)用越來越廣泛，研究者將該方法應(yīng)用于時間序列數(shù)據(jù)上。Chen[11]使用條件生成對抗網(wǎng)絡(luò)（CGAN）生成時間序列數(shù)據(jù)，實(shí)現(xiàn)了擴(kuò)充時間序列數(shù)據(jù)量的目的。Li 等[12] 提出一種合成數(shù)據(jù)的方法（TTS-GAN），成功合成了與原始序列任意長度大小相同的時間序列數(shù)據(jù)。Yoon 等[13]提出一種合成多元時間序列數(shù)據(jù)的方法（TimeGAN），并通過實(shí)驗驗證了該方法相比于其他生成對抗方法的有效性。雖然基于GAN 網(wǎng)絡(luò)的合成數(shù)據(jù)方法在某些特定時間序列數(shù)據(jù)上表現(xiàn)出了有效性，但生成數(shù)據(jù)時判別器和生成器需要達(dá)到納什均衡[14]。在數(shù)據(jù)量少的情況下，納什均衡有時候可以達(dá)到而有時候并不能達(dá)到。所以GAN 類網(wǎng)絡(luò)的穩(wěn)定性不確定，難以保證生成的虛擬數(shù)據(jù)都是理想的數(shù)據(jù)。

華東理工大學(xué)學(xué)報(自然科學(xué)版)2024年3期

華東理工大學(xué)學(xué)報(自然科學(xué)版)的其它文章: 基于OpenFOAM 的旋塞閥流場分析及結(jié)構(gòu)參數(shù)的影響; 中文重疊關(guān)系抽取的動態(tài)分層級聯(lián)標(biāo)記模型; 基于復(fù)合索引的MM-OFDM-SFCIM 系統(tǒng)設(shè)計與檢測算法; 基于多尺度特征互補(bǔ)和聚合約束的肺結(jié)節(jié)分類方法; 基于肌肉協(xié)同的表面肌電通道選擇方法; 多模態(tài)深度神經(jīng)網(wǎng)絡(luò)的高級別漿液性卵巢癌分類方法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進(jìn)VAE 的時間序列數(shù)據(jù)增強(qiáng)方法