国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學(xué)習(xí)在金價時間序列預(yù)測中的應(yīng)用

2024-11-21 00:00:00王星月王曉玲
統(tǒng)計與管理 2024年10期
關(guān)鍵詞:時間序列分析機器學(xué)習(xí)

摘 要: 文章利用COMEX 黃金期貨每日收盤價共2019 個數(shù)據(jù)點, 探討機器學(xué)習(xí)技術(shù)在黃金價格時間序列預(yù)測中的應(yīng)用與效能。數(shù)據(jù)集被分為80%的訓(xùn)練集和20%的測試集, 以評估預(yù)測模型的準確性和泛化能力。首先, 以ARIMA (3, 1, 3)作為基線模型, 其性能表現(xiàn)不佳。隨后, 運用多種機器學(xué)習(xí)模型進行比較分析, 包括長短期記憶網(wǎng)絡(luò)( LSTM)、BP 神經(jīng)網(wǎng)絡(luò)、隨機森林模型以及小波神經(jīng)網(wǎng)絡(luò), 以評估它們在金價預(yù)測中的性能。最后, 小波神經(jīng)網(wǎng)絡(luò)在測試集上的性能指標(biāo)顯示出良好的預(yù)測精度, 同時BP 神經(jīng)網(wǎng)絡(luò)也展現(xiàn)了卓越的預(yù)測能力, 共同印證了機器學(xué)習(xí)技術(shù)在黃金價格預(yù)測領(lǐng)域的有效性。文章的結(jié)果對于金融市場分析師和投資者來說, 提供了一個強有力的工具, 以更準確地理解和預(yù)測黃金市場的動態(tài)。

關(guān)鍵詞: 金價預(yù)測; 時間序列分析; 機器學(xué)習(xí); 小波神經(jīng)網(wǎng)絡(luò); 預(yù)測評估

中圖分類號: F22; F831; TP18 文獻標(biāo)識碼: A

文章編號: 1674-537X (2024) 10. 0014-09

一、引言及文獻綜述

金價對全球經(jīng)濟的影響深遠, 不僅是衡量經(jīng)濟狀況的關(guān)鍵指標(biāo), 也是投資者在進行避險操作時的首選工具。金融市場的不斷發(fā)展使得金價預(yù)測變得極其重要且復(fù)雜。從個人投資者到大型金融機構(gòu),市場參與者們都在尋求更為精準的預(yù)測方法, 以便優(yōu)化投資策略并降低風(fēng)險。另一方面, 金價的波動會影響到宏觀經(jīng)濟的穩(wěn)定, 因此政府和監(jiān)管機構(gòu)需要對金價有準確的預(yù)測以便做出相應(yīng)的經(jīng)濟政策決策。在傳統(tǒng)市場中, 雖然多種統(tǒng)計模型被廣泛應(yīng)用于金價預(yù)測, 但隨著金融數(shù)據(jù)量的激增和市場行為的日益復(fù)雜化, 這些傳統(tǒng)方法在處理海量數(shù)據(jù)和復(fù)雜市場動態(tài)方面的局限性逐漸凸顯。

近年來, 眾多研究者運用各種傳統(tǒng)統(tǒng)計模型對金價進行預(yù)測, 旨在揭示影響金價變動的關(guān)鍵因素, 并提高預(yù)測精度。薛吟凇以中國黃金期貨實際波動率為預(yù)測目標(biāo), 選取了2010 年到2022 年歷時12 年的樣本數(shù)據(jù), 將來自中國、美國期貨、期權(quán)市場的波動率信息作為解釋變量, 使用AR 和HAR 模型對比兩個國家、兩類市場的信息在預(yù)測中的不同表現(xiàn), 得出中美期權(quán)市場均含有獨立于期貨外的預(yù)測信息和在期貨市場, 中美黃金期貨波動率有正向的預(yù)測作用的結(jié)論[2] 。吳虹曉收集了2008 年1 月至2023 年9 月的上海期貨交易所主力黃金期貨合同價格和上海黃金交易所AU (T+D) 現(xiàn)貨價格數(shù)據(jù),通過運用Johansen 協(xié)整檢驗、Granger 因果檢驗以及脈沖響應(yīng)函數(shù), 探討了黃金期貨與現(xiàn)貨價格的相互關(guān)系, 進而得出黃金期貨價格與黃金現(xiàn)貨價格之間存在顯著相關(guān)性, 且二者存在長期均衡關(guān)系的結(jié)論[3] 。徐靜怡等人選取了2020 年1 月2 日—2021年12 月31 日紐約COMEX 黃金期貨價格作為研究樣本, 通過構(gòu)建ARIMA 模型進行實證分析, 并得出黃金價格在未來短期內(nèi)將保持穩(wěn)定增長, 最后針對黃金價格變化趨勢分別對投資者和監(jiān)管部門提出相關(guān)建議[4] 。

在金價預(yù)測的研究中, 機器學(xué)習(xí)技術(shù)的應(yīng)用已經(jīng)展現(xiàn)出其深厚的潛力。梁龍躍等人通過對原數(shù)據(jù)進行分解, 利用樣本熵SE 方法將分解所得的子序列重構(gòu)合并為高頻、中頻、低頻序列, 再分別輸入步長為1 天、7 天、30 天的LSTM 模型進行預(yù)測,并建立4 種對比模型進行比較分析, 進而得出CEEMDAN-SE-LSTM 三階段組合模型能夠更準確預(yù)測黃金期貨價格走勢的結(jié)論[5] ; 在張均東、劉澄和孫彬的研究中, LM-BP 人工神經(jīng)網(wǎng)絡(luò)模型通過結(jié)合宏觀經(jīng)濟因素與時間序列數(shù)據(jù), 進一步提高了預(yù)測模型的性能[6] ; 而秦博文針對預(yù)測模型中的噪聲干擾問題, 采用小波變換對數(shù)據(jù)進行降噪處理, 并引入了改進的WLSTM (波小波長短期記憶) 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過使用小波函數(shù)作為非線性激活函數(shù), 增強了模型對金價數(shù)據(jù)的擬合能力[1] ; 伍文娟的研究通過比較不同模型的表現(xiàn), 發(fā)現(xiàn)單因素LSTM 神經(jīng)網(wǎng)絡(luò)在預(yù)測金價方面優(yōu)于傳統(tǒng)的ARIMA 模型, 并通過結(jié)合多項經(jīng)濟指標(biāo)的多因素LSTM 模型來解決預(yù)測結(jié)果的滯后性問題, 提升了預(yù)測準確性[7] 。這些研究展示了機器學(xué)習(xí)在金價預(yù)測中的廣泛應(yīng)用及其顯著優(yōu)勢。

盡管單一模型的性能已經(jīng)得到了廣泛的研究和評估, 但模型間的比較研究卻相對較少, 這對于理解不同模型如何處理特定數(shù)據(jù)類型以及評估它們在特定市場環(huán)境中的相對優(yōu)勢和劣勢至關(guān)重要。此外, 大多數(shù)研究傾向于在特定的數(shù)據(jù)集上評估模型性能, 而忽視了跨模型比較的重要性, 這種比較在評估模型在類似條件下的相對效力方面具有重要價值。金融市場是動態(tài)變化的, 不同市場條件可能影響預(yù)測模型的性能, 但研究在不同市場波動、經(jīng)濟周期及極端市場條件下各種預(yù)測方法的表現(xiàn)的比較研究是有限的。因此, 未來的研究應(yīng)當(dāng)致力于填補這些空白, 特別是在不同市場環(huán)境下對比多種預(yù)測方法的性能, 以及探索統(tǒng)計與機器學(xué)習(xí)方法融合后的預(yù)測能力。文章通過全面比較和綜合評價, 為機器學(xué)習(xí)在黃金價格預(yù)測中的應(yīng)用提供了新的視角和實證證據(jù)。

二、理論模型介紹

總體而言, 目前對金價的預(yù)測主要分為兩類:一是傳統(tǒng)模型, 二是機器學(xué)習(xí)。通過對國內(nèi)外相關(guān)研究的大量研究, 并考慮到數(shù)據(jù)的特性, 文章選取了傳統(tǒng)模型中的ARIMA 模型和機器學(xué)習(xí)方法中的LSTM 模型、隨機森林模型、BP 神經(jīng)網(wǎng)絡(luò)、小波神經(jīng)網(wǎng)絡(luò)來對金價進行分析預(yù)測。

(一) ARIMA 模型

ARIMA 模型(自回歸移動平均模型) 是針對非平穩(wěn)時間序列進行預(yù)測的一種統(tǒng)計方法, 該模型結(jié)合了自回歸(AR)、差分整合(l) 和移動平均(MA) 三種成分。其中AR 部分反映了時間序列中當(dāng)前值與其過去值之間的線性關(guān)系; 差分是將序列中的每個值減去其前一個值(一階差分), 這一步驟可以消除趨勢, 使序列變得平穩(wěn)。如果序列需要經(jīng)過d 次差分才能達到平穩(wěn), 模型中就包含d 階差分; 而MA 部分涉及到誤差項的過去值, 表示當(dāng)前的誤差項與過去的誤差項有關(guān)。一個MA (q) 模型表示當(dāng)前的誤差項是過去q 個誤差項的加權(quán)平均加上一個新的獨立誤差項。綜合起來, 一個ARIMA(p, d, q) 模型可以表述為:

yt = c + φ1yt -1 + … + φμ yt -p + θ1εt -1 + … +θq εt -q + εt (1)

其中, d 表示差分的階數(shù), p 和q 分別是自回歸和移動平均的階數(shù)。通常使用極大似然估計法來確定模型中的參數(shù), 經(jīng)常通過使用自相關(guān)圖、偏自相關(guān)圖、AIC 最小化準則等來判斷是否是ARIMA 模型。ARIMA 模型廣泛應(yīng)用于經(jīng)濟、金融、氣象等多個領(lǐng)域的數(shù)據(jù)分析和預(yù)測中。

(二) LSTM 模型

長短期記憶網(wǎng)絡(luò)模型(LSTM) 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò), 它是針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在處理長期相關(guān)性問題中存在的梯度消失、梯度膨脹等問題,提出的一種新的神經(jīng)網(wǎng)絡(luò)模型。LSTM 的核心是其特有的內(nèi)存單位結(jié)構(gòu), 可以有效地對數(shù)據(jù)進行存儲與遺忘, 以更好地捕獲時序數(shù)據(jù)中的長時相依關(guān)系。LSTM 單元包括四個組成部分: 一是遺忘門,利用sigmoid 函數(shù)求取0 至1 的向量, 并將其與上一步單元的狀態(tài)相乘, 從而實現(xiàn)了對舊信息的選擇性遺忘; 二是輸入門, 一方面通過sigmoid 函數(shù)決定哪些新信息應(yīng)該被更新, 同時通過tanh 函數(shù)生成一個候選向量, 表示可能添加到細胞狀態(tài)的新信息;三是輸出門, 它決定哪些信息應(yīng)該被輸出到網(wǎng)絡(luò)的下一個狀態(tài); 四是記憶單元, 用于存儲長期依賴信息。它的建模步驟如下: 第一步, 構(gòu)建LSTM 模型,選取合適的損失函數(shù); 第二步, 確定初始化參數(shù),求解數(shù)據(jù)的估計值并計算估計值與真實值之間誤差; 第三步, 運用誤差函數(shù)對參數(shù)求導(dǎo), 計算參數(shù)的梯度并更新模型參數(shù), 進而構(gòu)建新的LSTM 模型,將數(shù)據(jù)帶入重新反復(fù)迭代計算; 第四步, 循環(huán)第二步、第三步, 直至確立最優(yōu)的模型參數(shù)并帶入數(shù)據(jù)進行預(yù)測分析[7] 。

(三) BP 神經(jīng)網(wǎng)絡(luò)模型

BP 神經(jīng)網(wǎng)絡(luò)是一種廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò), 它按照誤差逆向傳播算法進行訓(xùn)練[1] 。BP 神經(jīng)網(wǎng)絡(luò)的主要思想是利用信號前向傳遞, 而誤差反向傳遞, 從而實現(xiàn)對模型各參數(shù)的訓(xùn)練[1] 。BP 神經(jīng)網(wǎng)絡(luò)通常包含輸入層、一個或多個隱藏層和輸出層。每一層都由若干個神經(jīng)元組成, 神經(jīng)元之間通過加權(quán)連接形成網(wǎng)絡(luò)。輸入層負責(zé)接收外部輸入信息,輸出層負責(zé)給出網(wǎng)絡(luò)的最終輸出, 而隱藏層則位于輸入層和輸出層之間, 負責(zé)復(fù)雜特征的提取和轉(zhuǎn)換。BP 神經(jīng)網(wǎng)絡(luò)能夠處理非線性問題, 適合復(fù)雜的模式識別和分類, 同時隱藏層可以自動提取輸入數(shù)據(jù)的有用特征, 無需手動選擇或構(gòu)建特征。然而它也存在一些局限性, 比如訓(xùn)練過程可能較慢, 容易陷入局部最優(yōu)解, 且對于大規(guī)模數(shù)據(jù)集和深層結(jié)構(gòu)的訓(xùn)練需要更高效的算法和計算資源。

(四) 隨機森林模型

隨機森林模型是一種集成學(xué)習(xí)方法, 要用于分類、回歸以及其他機器學(xué)習(xí)任務(wù)。隨機森林通過自助采樣、構(gòu)建決策樹、集成預(yù)測幾個關(guān)鍵步驟構(gòu)建而成, 即對原始數(shù)據(jù)集進行有放回的抽樣, 生成多個子數(shù)據(jù)集, 對每個子數(shù)據(jù)集, 分別構(gòu)建一棵決策樹, 在樹的每個節(jié)點上尋找最佳分割點, 再劃分數(shù)據(jù), 重復(fù)此過程直到滿足停止條件。對于新的輸入樣本, 讓森林中的每棵樹都進行一次預(yù)測, 然后根據(jù)多數(shù)投票(分類任務(wù)) 或平均值(回歸任務(wù)) 來決定最終的輸出結(jié)果。它具有隨機性、并行性的特點。

( 五) 小波神經(jīng)網(wǎng)絡(luò)模型

為應(yīng)對BP 神經(jīng)網(wǎng)絡(luò)中存在的收斂速度慢和樣本依賴嚴重的問題, Tsung -Jung Hsieh 等學(xué)者在2011 年提出了小波神經(jīng)網(wǎng)絡(luò)模型, 該模型結(jié)合了小波變換的強大時頻局部化分析能力和神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、自適應(yīng)特性。它通過使用小波函數(shù)作為激活函數(shù), 替代了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中常用的sigmoid 或其他非線性函數(shù)。小波基函數(shù)具有良好的時頻局部化特性, 這意味著它們能夠在時間和頻率域上同時聚焦于信號的特定部分。通過選擇合適的小波基, 網(wǎng)絡(luò)能夠有效地提取輸入數(shù)據(jù)的局部特征和細節(jié)。小波基函數(shù)的平移和尺度參數(shù)可以調(diào)整, 以適應(yīng)不同尺度和位置的信號特征。

三、黃金價格預(yù)測分析

(一) 數(shù)據(jù)來源

文章所使用的數(shù)據(jù)集包含從2016 年1 月4 日至2024 年4 月18 日的COMEX 黃金期貨每日收盤價,共計2019 個數(shù)據(jù)點。此數(shù)據(jù)集由指標(biāo)代碼1330021181 所標(biāo)識, 并且是從聚源數(shù)據(jù)平臺獲取的(聚源數(shù)據(jù)是知名的金融信息服務(wù)提供商, 為金融市場分析和研究提供了高質(zhì)量的數(shù)據(jù))。此數(shù)據(jù)的收集和整理為我們運用機器學(xué)習(xí)方法對黃金價格進行時間序列預(yù)測提供了堅實的基礎(chǔ), 數(shù)據(jù)的處理及預(yù)測過程在Matlab 編程語言中完成。

(二) 數(shù)據(jù)預(yù)處理

1. 樣本劃分

為了確保我們的機器學(xué)習(xí)模型能夠有效地學(xué)習(xí)并準確預(yù)測黃金價格的未來走勢, 我們將COMEX黃金期貨每日收盤價數(shù)據(jù)集進行劃分, 采用常見的數(shù)據(jù)集分割比例。具體而言, 我們將數(shù)據(jù)集的80%作為訓(xùn)練集, 即大約1615 個數(shù)據(jù)點, 用于模型的訓(xùn)練和參數(shù)調(diào)優(yōu)。剩余的20%將被用作測試集, 約404 個數(shù)據(jù)點, 用于評估模型在未見過的數(shù)據(jù)上的表現(xiàn), 從而檢驗?zāi)P偷姆夯芰Α?shù)據(jù)集的分割是在保證時間序列連續(xù)性的前提下進行的, 確保訓(xùn)練集和測試集在時間上的連續(xù)性不被打斷。這種劃分方法能夠更好地模擬實際操作中對未來價格走勢的預(yù)測情境, 并保證測試集能夠提供公正的模型性能評估。黃金價格數(shù)據(jù)劃分如圖1 所示。

由圖1 可知, 2016 年至2024 年的COMEX 黃金價格呈上升趨勢, 文章將2022 年上半年及以前數(shù)據(jù)作為訓(xùn)練集, 將剩余數(shù)據(jù)作為測試集, 利用訓(xùn)練集來訓(xùn)練模型, 而測試集則用于檢驗?zāi)P偷膬?yōu)劣性。將預(yù)測數(shù)據(jù)與真實數(shù)據(jù)進行對比來觀察模型預(yù)測的準確性。

2. 數(shù)據(jù)標(biāo)準化

在進行金價預(yù)測的統(tǒng)計建模和機器學(xué)習(xí)分析中, 數(shù)據(jù)預(yù)處理是一個關(guān)鍵步驟, 對于金價預(yù)測模型來說, 考慮到原始數(shù)據(jù)涉及到不同的數(shù)值范圍,我們采用了最?。畲髽?biāo)準化方法對金價數(shù)據(jù)進行預(yù)處理。這種方法將所有數(shù)據(jù)點縮放到0 和1 之間的范圍, 公式如(2):

Xnorm =X - Xmin/Xmax - Xmin (2)

這里, Xnorm 代表標(biāo)準化后的數(shù)據(jù), Xmax 和Xmin 分別代表數(shù)據(jù)集中的最大值和最小值。通過這種轉(zhuǎn)換, 模型的輸入特征處于同一尺度上, 避免了因尺度不同而導(dǎo)致的偏差。此外, 標(biāo)準化還有助于加速梯度下降算法的收斂速度, 因為它使得損失函數(shù)的等高線更加接近于圓形, 減少了算法在搜索最優(yōu)解時的震蕩。

然而, 在預(yù)測階段之后, 為了解釋模型的輸出并將其轉(zhuǎn)換回原始的金價尺度, 需要進行反歸一化處理。這可以通過最?。畲髽?biāo)準化的逆運算來實現(xiàn), 公式如(3):

X = Xnorm(Xmax - Xmin ) + Xmin (3)

其中, Xnorm 表示歸一化后的數(shù)據(jù)點, Xmax 和Xmin分別表示原始數(shù)據(jù)集中的最小值和最大值, X 表示反歸一化后的原始數(shù)據(jù)點。通過這個公式, 我們可以將數(shù)據(jù)從[0, 1] 的范圍恢復(fù)到其原始的范圍。實施該轉(zhuǎn)換后, 模型輸出的標(biāo)準化預(yù)測值將被轉(zhuǎn)換回原始數(shù)據(jù)的實際金價范圍。這允許我們直觀地解釋預(yù)測結(jié)果, 并在實際應(yīng)用中使用。

3. 指標(biāo)評價

在構(gòu)建黃金價格預(yù)測模型時, 評估模型性能和選擇最優(yōu)參數(shù)通常涉及以下幾個關(guān)鍵參數(shù)或指標(biāo):

(1) 平均絕對百分比誤差

平均絕對百分比誤差(MAPE) 是一種度量模型預(yù)測準確性的指標(biāo), 常用于評估時間序列預(yù)測模型的性能。它反映了預(yù)測值與真實值之間的差異,以百分比的形式表示。其計算公式為:

MAPE 的取值范圍為 [0, + ¥] , MAPE 值越小, 說明模型預(yù)測精度越高。當(dāng)MAPE 為0%時表示完美模型, MAPE 大于100% 則表示劣質(zhì)模型。MAPE 在金融領(lǐng)域常用于評估投資組合風(fēng)險模型的表現(xiàn)。然而缺點在于, 當(dāng)真實值接近0 時, 計算可能會出現(xiàn)分母為0 的情況, 導(dǎo)致評價結(jié)果不可用。

( 2) 均方根誤差

均方根誤差(RMSE) 是評估預(yù)測模型精度的常用指標(biāo)之一。衡量預(yù)測值與真實值之間的偏差程度。它的計算公式為:

其中, n 為樣本個數(shù), yi 為真實值,y ︿i 為預(yù)測值。取值范圍為 [0, + ¥] , 數(shù)值越小表示模型的預(yù)測誤差越小, 模型的預(yù)測能力越強。當(dāng)預(yù)測值與真實值完全吻合時等于0, 即完美模型。RMSE 易于理解, 計算方便, 對異常值較為敏感。然而RMSE 的缺點在于對目標(biāo)變量本身的變異性缺乏考慮。

(3) 決定系數(shù)

決定系數(shù)(R2) 反映因變量的全部變異能通過回歸關(guān)系被自變量解釋的比例。其計算公式為:

我們以數(shù)據(jù)集的均值作為誤差的基線, 然后衡量預(yù)測誤差是大于還是小于這個基線。若R2 = 1,它表示模型中自變量能完全解釋因變量的變動; 若R2 = 0, 那意味著模型的預(yù)測結(jié)果與簡單的平均值預(yù)測差距不大, 即模型對于因變量的解釋力度相當(dāng)?shù)汀?/p>

在文章中為從多種角度比較黃金價格預(yù)測模型的優(yōu)劣, 我們將選取上述三種指標(biāo)來進行模型的評估。

( 三) 黃金價格預(yù)測

1. 傳統(tǒng)統(tǒng)計模型

ARIMA 模型是時間序列預(yù)測中廣泛使用的一種方法, 它結(jié)合了自回歸(AR)、差分(I) 和移動平均(MA) 三種技術(shù)。自回歸部分捕捉時間序列中的趨勢動態(tài), 差分部分處理非平穩(wěn)性, 而移動平均部分則用于消除噪聲影響。模型的核心在于通過調(diào)整參數(shù)p (自回歸項數(shù))、d (差分次數(shù)) 和q(移動平均項數(shù)), 來捕捉時間序列數(shù)據(jù)中的特定模式。

在本研究的模型選擇過程中, 我們采用Akaike信息準則(AIC) 作為評估標(biāo)準, 以尋找最適合我們數(shù)據(jù)的模型配置。AIC 是衡量統(tǒng)計模型擬合好壞的一種標(biāo)準, 它旨在解決模型復(fù)雜性和擬合優(yōu)度之間的平衡。較低的AIC 值通常表示模型具有較好的預(yù)測性能, 并且在復(fù)雜性與擬合度之間保持了較好的平衡。

通過系統(tǒng)性地評估和比較不同的ARIMA 模型配置, 我們確定了具有最低赤池信息準則(AIC)值的最佳金價預(yù)測模型。結(jié)果如下:

通過對不同的ARIMA 模型配置進行比較和分析, 我們發(fā)現(xiàn)ARIMA (3, 1, 3) 模型在我們的數(shù)據(jù)集上表現(xiàn)最佳, 其AIC 值為13313. 4715。這意味著模型在一次差分后, 通過三個自回歸項和三個移動平均項最有效地捕捉了時間序列的特性。自回歸項反映了金價在前三期的影響, 而移動平均項則平滑了隨機波動的影響。

下表展示了ARIMA (3, 1, 3) 模型參數(shù)的估計結(jié)果及其統(tǒng)計顯著性:

從表2 可以看出, 模型中所有參數(shù)的P 值均顯著小于0. 05, 表明這些參數(shù)在統(tǒng)計上是顯著的, 意味著它們對金價的預(yù)測具有實質(zhì)性影響。自回歸項(AR {1}、AR {2}、AR {3} ) 和移動平均項(MA {1}、MA {2}、MA {3} ) 在統(tǒng)計上均表現(xiàn)出顯著性, 這表明它們對金價的預(yù)測具有一定的影響力。此外, 模型的常數(shù)項盡管不是統(tǒng)計上顯著的(P 值=0. 2742), 但仍為模型提供了一個基準價值。

由圖2 可知, 通過初步觀測, 我們可以得到一個初步的結(jié)論: 在將2016—2024 年黃金價格按8: 2的比例劃分成一個訓(xùn)練集合和一個測試集合,ARIMA 模型預(yù)測圖整體上呈上升趨勢, 而從黃金價格的初始數(shù)據(jù)曲線可以看出, 黃金價格自2016 年以來也呈現(xiàn)出整體上漲的態(tài)勢。在此基礎(chǔ)上,ARIMA 模型在訓(xùn)練集上的擬合結(jié)果似乎與金價整體的上升趨勢相吻合, 這表明模型在一定程度上能夠捕捉到時間序列的長期趨勢。但是, 大多數(shù)的測試集都在預(yù)測值之上, 只有小部分的數(shù)據(jù)在預(yù)測值以下, 而且, 不管訓(xùn)練集是在預(yù)測值之上, 還是在下面, 兩者之間的差異都很大, 因此, ARIMA 模型的擬合效果并不理想。這兩種觀點看似相互矛盾, 但因為兩者都是描述性的統(tǒng)計結(jié)果, 所以要想進一步判斷ARIMA 模型的擬合效果, 還需要更加嚴格的統(tǒng)計學(xué)方法, 最簡便的一種方式是通過對模型的統(tǒng)計指標(biāo)進行計算, 其結(jié)果如表3 所示。

由表3 可知, ARIMA (3, 1, 3) 模型的平均絕對百分比誤差(MAPE) 為6. 712%, 表明模型預(yù)測值與實際值之間的平均偏差較小, 證明了模型的準確性。均方根誤差(RMSE) 為162. 025, 該指標(biāo)反映了預(yù)測值偏離真實數(shù)據(jù)點的平均程度。然而,決定系數(shù)(R2) 值為-0. 201, 這通常表明模型未能在統(tǒng)計上捕捉到數(shù)據(jù)的變異性, 或者模型可能并不比簡單的均值預(yù)測更優(yōu)。綜合考慮ARIMA (3, 1, 3)模型的性能指標(biāo), 我們可以得出結(jié)論: 盡管模型的平均絕對百分比誤差(MAPE) 相對較低, 顯示了一定的預(yù)測準確性, 但均方根誤差(RMSE) 的高值和決定系數(shù)(R2) 的負值共同揭示了模型在捕捉金價變異性和提供精確預(yù)測方面的局限性。因此,從預(yù)測評價指標(biāo)來看, 傳統(tǒng)ARIMA 模型在金價預(yù)測上的整體評價效果并不理想, 需要進一步探索更為有效的預(yù)測方法, 如引入機器學(xué)習(xí)模型, 以提高預(yù)測的準確性和可靠性。

2. 機器學(xué)習(xí)模型

(1) 長短期記憶網(wǎng)絡(luò)(LSTM 模型)

我們采用了滑動窗口的方法, 選取連續(xù)六天的金價數(shù)據(jù)作為模型的輸入特征, 以此來預(yù)測未來第七天的金價走勢。這種策略使得模型能夠?qū)ξ窗谟?xùn)練集中的未來數(shù)據(jù)進行預(yù)測, 從而驗證了模型在樣本外數(shù)據(jù)上的泛化能力。模型的架構(gòu)包括一個序列輸入層、一個具有10 個單元的LSTM 層、一個ReLU 激活層和一個全連接層, 輸出預(yù)測的金價。我們使用的激活函數(shù)是ReLU, 因為它可以加快模型在訓(xùn)練過程中的收斂速度, 并減少梯度消失的問題。該模型通過Adam 優(yōu)化器進行訓(xùn)練, 訓(xùn)練周期設(shè)置為500 次。訓(xùn)練完成后, 我們得到的預(yù)測結(jié)果如圖3 和表4 所示。

上圖顯示了訓(xùn)練集的預(yù)測結(jié)果, 其中均方根誤差(RMSE) 為15. 9905, 這表明模型在訓(xùn)練集上的預(yù)測與實際金價之間的差異較小。此外, 訓(xùn)練集的R2 值為0. 9964, 這表明模型能夠解釋訓(xùn)練數(shù)據(jù)中幾乎所有的方差。訓(xùn)練集的平均絕對百分比誤差(MAPE) 為0. 0073, 這表示預(yù)測值與實際值在百分比上平均誤差非常小, 說明模型在訓(xùn)練集上具有很高的精度。

同時也顯示了測試集的預(yù)測結(jié)果, 其中均方根誤差(RMSE) 為66. 9581, 相比于訓(xùn)練集, 這顯示出在測試集上模型的預(yù)測精度下降。測試集的R2 值為0. 7906, 意味著模型能夠在一定程度上解釋測試數(shù)據(jù)集中的方差, 但是相比于訓(xùn)練集的R2 值, 它的解釋能力有所下降。測試集的MAPE 值為0. 0171,這意味著模型在測試集上的平均百分比誤差較訓(xùn)練集有所增加, 但總體上仍然在可接受范圍內(nèi)。

這些結(jié)果表明, 雖然我們的模型在訓(xùn)練集上表現(xiàn)出色, 但在測試集上存在一定程度的過擬合。過擬合發(fā)生在模型在訓(xùn)練數(shù)據(jù)上學(xué)到了許多特殊的、噪聲的模式, 而這些模式并不適用于未見過的數(shù)據(jù)。盡管如此, 模型的整體預(yù)測性能仍然證明了LSTM 在金價時間序列預(yù)測方面的潛力。

(2) BP 神經(jīng)網(wǎng)絡(luò)模型

我們采用了前五天的黃金價格作為輸入(X),而第六天的價格作為輸出(Y), 通過這種方式創(chuàng)建了滑動窗口數(shù)據(jù)。接下來構(gòu)建了一個包含兩個隱藏層, 每層20 個神經(jīng)元的前饋神經(jīng)網(wǎng)絡(luò)。模型的訓(xùn)練過程中, 我們設(shè)置了100 次的迭代次數(shù)和0. 01 的學(xué)習(xí)率, 以優(yōu)化模型的性能。為了提高模型的泛化能力, 我們對訓(xùn)練數(shù)據(jù)進行了歸一化處理。在模型訓(xùn)練完成后, 我們對測試集進行了預(yù)測, 并將預(yù)測結(jié)果與實際黃金價格進行了對比。結(jié)果如圖4 所示。通過這種方式, 我們能夠直觀地評估模型的預(yù)測能力。

為了更精確地量化模型的性能, 我們計算了三個關(guān)鍵指標(biāo): 平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)、以及決定系數(shù)(R2 )。其結(jié)果如表5 所示。測試集的MAPE 值為1. 314%, 表明模型的預(yù)測結(jié)果與實際值之間的平均絕對百分比誤差較低, 說明模型具有較高的準確度。RMSE 值為44. 689, 提供了預(yù)測誤差的量化指標(biāo)。最后, R2 值為0. 908, 表明模型能夠很好地擬合數(shù)據(jù), 幾乎可以解釋數(shù)據(jù)變化的90. 8%。

綜上所述, 我們的研究表明, BP 神經(jīng)網(wǎng)絡(luò)模型能夠有效地應(yīng)用于黃金價格的時間序列預(yù)測中。這一結(jié)果不僅證實了深度學(xué)習(xí)在金融時間序列分析領(lǐng)域的有效性, 也為未來在類似問題上的研究提供了重要的參考和啟示。

(3) 隨機森林模型

我們探討了使用隨機森林模型對黃金價格時間序列數(shù)據(jù)的預(yù)測能力, 在模型建立過程中, 我們采用了滑動窗口的方法來提取特征, 其中每個窗口包含連續(xù)五天的價格作為特征, 窗口的第六天價格作為標(biāo)簽。隨后, 我們利用這些特征訓(xùn)練了一個包含100 棵決策樹的隨機森林回歸模型。其結(jié)果如圖5和表6 所示。

結(jié)果顯示, 模型的MAPE 為2. 1656%, 表明模型預(yù)測的平均誤差約為實際黃金價格的2. 17%。RMSE 為86. 2600 美元, 反映了預(yù)測值與實際值整體上的偏差大小。最后, R2 值為0. 6546, 表示模型解釋了65. 4620%的方差, 暗示了模型具有一定的有效性, 但仍有改進的空間。上述結(jié)果通過圖形的形式得到了直觀展示, 其中實際價格和預(yù)測價格分別以藍色和紅色線條表示, 以便于比較和分析。圖表顯示了模型在捕捉數(shù)據(jù)整體趨勢方面的能力,盡管也存在一些預(yù)測誤差。

(4) 小波神經(jīng)網(wǎng)絡(luò)

我們使用窗口大小為5 的滑動窗口來構(gòu)建訓(xùn)練和測試特征集, 為了提取更具代表性的特征, 我們對每個窗口內(nèi)的數(shù)據(jù)進行了一級小波變換, 選取了“Daubechies” (db1) 作為母小波函數(shù)。小波變換的結(jié)果是, 每個窗口的數(shù)據(jù)被轉(zhuǎn)換為一組近似系數(shù),其數(shù)量大約是窗口大小的一半。

利用近似系數(shù)作為特征, 我們訓(xùn)練了一個具有10 個隱藏神經(jīng)元的前饋神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)訓(xùn)練完成后, 我們將訓(xùn)練過程中的數(shù)據(jù)處理步驟應(yīng)用于測試集。神經(jīng)網(wǎng)絡(luò)在測試集上的預(yù)測結(jié)果與實際金價進行了對比, 以評估模型性能。模型表現(xiàn)通過以下三個關(guān)鍵指標(biāo)進行評估: 平均絕對百分比誤差(MAPE)、均方根誤差( RMSE) 以及決定系數(shù)(R2)。其結(jié)果如圖6 和表7 所示。

根據(jù)圖6 和表7 可知, 小波神經(jīng)網(wǎng)絡(luò)模型的性能指標(biāo)這些指標(biāo)表明, 所開發(fā)的前饋神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練階段呈現(xiàn)出了卓越的性能。具體來說, 訓(xùn)練集上的平均絕對百分比誤差( MAPE) 僅為0. 674%, 說明模型在訓(xùn)練數(shù)據(jù)上的預(yù)測與真實值之間的平均偏差很小。同時, 訓(xùn)練集的均方根誤差(RMSE) 為14. 850, 這個值表明模型在訓(xùn)練過程中學(xué)習(xí)得相當(dāng)好, 預(yù)測值的波動與實際金價非常接近。此外, 一個接近完美的訓(xùn)練集決定系數(shù)(R2 )值0. 997, 進一步證實了模型擬合訓(xùn)練數(shù)據(jù)的能力極強, 幾乎可以解釋所有的方差。

然而, 當(dāng)模型應(yīng)用于未見過的測試數(shù)據(jù)時, 其表現(xiàn)略有下降, 但仍然表現(xiàn)良好。測試集的MAPE為1. 661%, 雖然高于訓(xùn)練集, 但仍然指示出模型具有良好的預(yù)測準確性。測試集的RMSE 值增加到66. 078, 這表明預(yù)測值與實際金價之間的差距在測試集上有所增加, 但差異仍在可接受的范圍內(nèi)。測試集的R2 值為0. 797, 這說明了模型在測試集上的預(yù)測能力較好, 盡管沒有訓(xùn)練集高, 但是仍然能夠解釋了大部分的方差。

這種訓(xùn)練集與測試集上的表現(xiàn)差異通常是由于模型在訓(xùn)練時過度擬合到訓(xùn)練數(shù)據(jù)所致, 這可能導(dǎo)致模型在處理未知數(shù)據(jù)時表現(xiàn)出的泛化能力不足。盡管存在過擬合的跡象, 但本研究開發(fā)的模型整體上對金價具有較強的預(yù)測能力, 對未來的金價變動給出了相對準確的預(yù)測。這些發(fā)現(xiàn)在論文中將以詳細的數(shù)據(jù)分析、圖表展示以及深入的討論形式呈現(xiàn), 以便為讀者提供全面的理解和判斷模型有效性的依據(jù)。

四、結(jié)論與建議

(一) 研究結(jié)論

根據(jù)ARIMA 模型、LSTM 模型、BP 神經(jīng)網(wǎng)絡(luò)、隨機森林模型、小波神經(jīng)網(wǎng)絡(luò)模型對黃金價格數(shù)據(jù)的應(yīng)用研究結(jié)果, 文章梳理了模型預(yù)測的性能指標(biāo)匯總圖。

經(jīng)驗證, 傳統(tǒng)的ARIMA (3, 1, 3) 模型在樣本測試中表現(xiàn)較差, 具體表現(xiàn)為MAPE 為6. 712%,RMSE 為162. 025, 且R2 為-0. 201, 這表明模型無法很好地捕捉數(shù)據(jù)的變動趨勢。相比之下, 機器學(xué)習(xí)模型, 尤其是BP 神經(jīng)網(wǎng)絡(luò), 在黃金價格預(yù)測上展現(xiàn)出了卓越的性能, 得到了MAPE 為1. 314%,RMSE 為44. 689 以及R2 為0. 908 的優(yōu)異結(jié)果, 表明了其在黃金價格時間序列預(yù)測上的高度適用性和準確度。此外, 小波神經(jīng)網(wǎng)絡(luò)在測試集上的MAPE為1. 661%, RMSE 為66. 078, R2 為0. 797, 也展示了較好的預(yù)測效果; 而長短期記憶網(wǎng)絡(luò)(LSTM)和隨機森林模型的表現(xiàn)雖好于ARIMA 模型, 卻略遜于BP 神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)。

與現(xiàn)有研究相比, 本研究的結(jié)果與近期文獻中關(guān)于機器學(xué)習(xí)在金融市場預(yù)測中的應(yīng)用趨勢相一致。例如, Nazish Ashfaq, Zubair Nawaz, 和M. Ilyas(2021) 的研究對納斯達克股票市場進行了深入分析, 他們選取了十個不同行業(yè)的公司作為投資組合, 并應(yīng)用了九種不同的機器學(xué)習(xí)回歸模型來預(yù)測第二天的股票開盤價。他們的研究結(jié)果證明了機器學(xué)習(xí)模型在股市預(yù)測中的有效性, 尤其是在處理復(fù)雜和動態(tài)的股票市場數(shù)據(jù)時[12] 。同樣, 張延利(2013) 在其研究中也使用了BP 神經(jīng)網(wǎng)絡(luò)來預(yù)測黃金價格, 并發(fā)現(xiàn)該模型因其對非線性模式的高度敏感而顯示出良好的預(yù)測能力[11] 。張坤等人的研究提出了一種基于小波神經(jīng)網(wǎng)絡(luò)的黃金價格預(yù)測模型,并通過對比測試驗證了該模型相比于BP 神經(jīng)網(wǎng)絡(luò)模型具有更快的收斂速度和更高的預(yù)測精度[10] 。此外, 本研究的結(jié)果與A Adebiyi, A. Adewumi,C. Ayo在2014 年發(fā)表在《Journal of Applied Mathe?matics》上的研究相呼應(yīng)。他們利用紐約證券交易所公布的股票數(shù)據(jù), 檢驗了ARIMA 和人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)測性能, 并發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型優(yōu)于ARIMA 模型[13] 。近期秦博文[1] 和伍文娟[7] 對金價預(yù)測的研究也有類似結(jié)果, 都是機器學(xué)習(xí)方法優(yōu)于傳統(tǒng)時間序列模型, 不同之處在于最優(yōu)的機器學(xué)習(xí)方法不同, 大致原因是各機器學(xué)習(xí)模型參數(shù)選取不同。本研究的BP 神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)的優(yōu)異表現(xiàn)進一步證實了這些發(fā)現(xiàn), 并擴展了它們在黃金市場預(yù)測中的應(yīng)用。

綜上所述, 本研究驗證了機器學(xué)習(xí)模型在黃金價格時間序列預(yù)測中的有效性, 而且通過與現(xiàn)有研究的橫向?qū)Ρ龋?共同支持了使用小波神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)在金融市場, 尤其是在黃金價格預(yù)測中的應(yīng)用, 進一步證明了這些模型在金融市場預(yù)測領(lǐng)域的先進性和實用性。這些發(fā)現(xiàn)為市場分析師和決策者提供了一種強大的工具, 以更準確地預(yù)測市場動態(tài)并制定相應(yīng)的策略。未來的研究可以探索更多先進的機器學(xué)習(xí)算法, 并考慮市場中的其他影響因素, 以進一步提高預(yù)測模型的準確性和可靠性。

(二) 對策與建議

鑒于小波神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)在實驗中的出色表現(xiàn), 推薦金融分析師和投資者在黃金價格預(yù)測中優(yōu)先考慮這兩種模型。為進一步提高模型預(yù)測能力, 建議在未來的研究中考慮集成學(xué)習(xí)方法, 通過結(jié)合多個模型的預(yù)測結(jié)果來減少預(yù)測的不確定性, 進而可能得到更穩(wěn)健的預(yù)測表現(xiàn)。此外, 可以考慮引入更多的外部變量, 如宏觀經(jīng)濟指標(biāo)、市場情緒指數(shù)等, 這些可能會對黃金價格產(chǎn)生影響的因素, 以增強模型的預(yù)測能力。

(三) 未來展望

未來研究可以探索將深度學(xué)習(xí)技術(shù)與傳統(tǒng)時間序列預(yù)測方法相結(jié)合的可能性, 例如融合LSTM 與ARIMA 模型, 從而充分利用兩者的優(yōu)勢。同時, 隨著金融市場數(shù)據(jù)量的不斷增長, 模型將需要適應(yīng)更復(fù)雜多變的數(shù)據(jù)特征, 因此模型的可擴展性和實時更新將成為研究的重點。此外, 跨市場分析也可能為黃金價格預(yù)測提供新的洞見, 比如將黃金市場與其他貴金屬市場或貨幣市場的動態(tài)相關(guān)聯(lián)。最終目標(biāo)是開發(fā)出能夠適應(yīng)市場變化并提供實時預(yù)測的智能系統(tǒng), 為投資決策提供更高效、更精確的支持。

參考文獻:

[1]秦博文. 基于小波理論與機器學(xué)習(xí)的金價預(yù)測[D]. 濟南:山東大學(xué),2022.

[2]薛吟凇. 中美黃金期貨與期權(quán)信息對上海黃金期貨波動率的預(yù)測能力研究[D]. 杭州:浙江大學(xué),2023.

[3]吳虹曉. 中國黃金期貨和現(xiàn)貨價格關(guān)系的實證研究[J]. 中國貨幣市場,2024(2):71-75.

[4]徐靜怡,孔夢奇. 基于ARIMA 模型對紐約COMEX 黃金期貨價格的研究[J]. 中國商論,2022(18):123-125.

[5]梁龍躍,黃盈. 黃金期貨價格短期預(yù)測方法研究:基于CEEMDAN 與LSTM 模型的COMEX 黃金期貨價格數(shù)據(jù)分析[ J]. 價格理論與實踐,2023(09):164-168.

[6]張均東,劉澄,孫彬. 基于人工神經(jīng)網(wǎng)絡(luò)算法的黃金價格預(yù)測問題研究[J]. 經(jīng)濟問題,2010(1):110-114.

[7]伍文娟. 國際黃金價格預(yù)測方法及應(yīng)用研究[D]. 重慶:重慶大學(xué),2021.

[8]王菲. 國際黃金價格影響因素及預(yù)測研究[D]. 北京:北方工業(yè)大學(xué),2020.

[9]閆海嘯. 黃金價格影響因素實證分析及建議[D]. 上海:上海財經(jīng)大學(xué),2022.

[10]張坤,郁湧,李彤. 小波神經(jīng)網(wǎng)絡(luò)在黃金價格預(yù)測中的應(yīng)用[J]. 計算機工程與應(yīng)用,2010,46(27):224-226.

[11]張延利. 基于BP 神經(jīng)網(wǎng)絡(luò)的黃金價格非線性預(yù)測[J]. 黃金,2013,34(07): 8-10.

[12]Ashfaq N, Nawaz Z, Ilyas M. A comparative study of different machine learning regressors for stock market prediction[ J] . arxiv preprint arxiv:2104. 07469, 2021.

[13]Adebiyi A A, Adewumi A O, Ayo C K. Comparison of ARIMA and Artificial Neural Networks Models for Stock Price Prediction[J]. Journal of Ap?plied Mathematics, 2014:614342, 1-7.

猜你喜歡
時間序列分析機器學(xué)習(xí)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于R軟件的金融時間序列的預(yù)測分析
基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
淮北市生態(tài)足跡動態(tài)演變分析
基于支持向量機的金融數(shù)據(jù)分析研究
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
微信公眾號未來發(fā)展態(tài)勢的實證預(yù)測
中國記者(2016年1期)2016-03-03 18:08:02
基于MATLAB的時間序列預(yù)測
连江县| 五华县| 辽宁省| 岳阳市| 武隆县| 宜宾市| 大渡口区| 嘉鱼县| 无为县| 陇南市| 合川市| 伊吾县| 南陵县| 罗江县| 静宁县| 太康县| 洛川县| 东港市| 阳春市| 简阳市| 剑河县| 红河县| 万山特区| 疏附县| 嘉义市| 渝中区| 大姚县| 阳信县| 南皮县| 易门县| 红安县| 新乐市| 荣昌县| 铁岭市| 凤庆县| 松阳县| 宁南县| 新巴尔虎左旗| 屏边| 奈曼旗| 濮阳县|