国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種ARIMA-LSTM組合模型的人參價格預測方案研究

2021-07-23 06:04:12
新一代信息技術 2021年2期
關鍵詞:單位根人參線性

方 濤

(河北省地質(zhì)大學,河北 石家莊 050030)

0 引言

隨著國家政策的推廣和中藥材自身卓越的治療效果,中藥材市場由國內(nèi)擴展至全球,需求量逐漸擴大,而中藥材價格又受到其生長周期、需求周期、政策等多方面、多因素的影響,波動幅度較大,沒有顯著的線性變化趨勢[1]。相比于常見的季節(jié)性農(nóng)產(chǎn)品價格,中藥材價格也沒有明顯的周期變化規(guī)律。以常見的名貴中藥材人參為例,在2015年1月至2020年11月,價格最高為650元/kg,最低為280元/kg,變化幅度超過了130%,劇變的價格對于人參的種植和銷售都會帶來不良的影響。

人參的價格數(shù)據(jù)是一個復雜的包含線性變化、非線性變化的系統(tǒng),很難將它確定為一種單純的線性模型或者非線性模型,這一特性增加了預測的難度[2]。在此背景下,為了提高預測精度,提出一種 ARIMA-LSTM神經(jīng)網(wǎng)絡組合模型,分別對人參價格的線性、非線性成分進行預測。價格數(shù)據(jù)是按照時間的先后順序收集的,可以將其視為時間序列數(shù)據(jù),而中藥材或是由于技術改良,導致成本降低,價格下降;或是需求量逐年增加,導致價格上升,這些都是線性變化成分,ARIMA模型廣泛應用于確定的、線性的變化系統(tǒng),使用ARIMA可得到線性變化趨勢。原始數(shù)據(jù)減去ARIMA預測的線性部分,可得到只剩下非線性特征的殘差數(shù)據(jù),LSTM 神經(jīng)網(wǎng)絡具有映射任意非線性函數(shù)的能力,又因為其特殊的記憶單元、遺忘門等結構,擅長處理時間序列數(shù)據(jù),對包含非線性特征的殘差序列數(shù)據(jù)可得到一個良好的預測結果。組合模型避免了單一模型的固有缺陷,為價格預測提供一種更有效的預測模型。

國外的研究者,如美國經(jīng)濟學家 Moore[3]通過對每一年溫度變化和降雨量做相關性分析,使用回歸模型研究棉花價格與溫度、降雨量這兩個相關因素之間的關系,以此對棉花價格做出預測,并且根據(jù)預測結果證明了該回歸模型的精度要優(yōu)于傳統(tǒng)的分析方法;Jarrett[4]首次將時間序列模型應用在澳大利亞羊毛價格預測上,得到羊毛價格的大致趨勢,驗證了該模型在線性預測方面良好的性能表現(xiàn),為價格預測提供更多的思路,引來更多的學者對時間序列模型展開更深入的研究和廣泛的應用。而國內(nèi)的研究者,如潘水洋[5]等提出一種用神經(jīng)網(wǎng)絡預測股票收益的模型,學習和捕獲定價因子之間的非線性關系,獲得良好的預測結果;張東青[6]等在使用神經(jīng)網(wǎng)絡的基礎上,使用分位數(shù)回歸分析了不同價格條件的分布特征,提出的是基于神經(jīng)網(wǎng)絡優(yōu)化后的模型,實驗結果表明,分位數(shù)回歸得到分布特征為神經(jīng)網(wǎng)絡提供的額外的參考依據(jù)并提高了預測精度。但是總體來說,這些研究都是使用單一的模型對事物的發(fā)展進行預測,盡管使用優(yōu)化方法對模型進行改進,但是從結果來看,效果并不佳,本文針對藥材價格數(shù)據(jù)的不同特性,使用雙模型分別對線性和非線性特征進行分析預測,從結果上來看,預測效果要優(yōu)于單一的模型。

1 模型理論

1.1 ARIMA模型

ARIMA(Autoregressive Integrated Moving Average,整合自回歸移動平均)是在AR和MA模型的基礎上改進而來[7]。

AR(Autoregressive Model,自回歸)模型是統(tǒng)計上一種處理時間序列的方法,用待研究數(shù)據(jù)中一段歷史時期的數(shù)據(jù)來預測下一個或多個時期的結果[8]。如使用x1至xt–1時期的數(shù)據(jù)預測xt時刻的數(shù)據(jù)。使用該模型的前提是這些數(shù)據(jù)之間具有線性關系。AR模型的特征是使用自變量預測自變量。該模型定義如下。

給定序列{xt},某一個時刻t和前p個時刻序列值之間的關系為:

假設隨機序列{εt}是白噪聲,若其與前一時刻序xt(k

MA(Moving Average Model,移動平均)模型是一種平滑預測技術,它的基本思想是將待研究的數(shù)據(jù)逐項推移,依次計算序列平均值,以顯示該序列長短期趨勢的變化[9]。MA模型可以使原本受各種影響影響導致波動大、較難看出其變化的序列顯示出它內(nèi)在的趨勢。該模型的定義如下。

給定序列{xt},xt是若干個白噪聲的加權平均和:

式(2)中,{εt}是白噪聲序列,這樣的模型稱為q階移動平均模型,記為MA(q)[10]。

由于AR、MA模型存在只能適用于平穩(wěn)時間序列的缺點,提出ARIMA模型,該模型基于AR、MA模型,公式可表示為:

記為ARIMA(p,d,q)[10]。

ARIMA模型綜合了AR、MA模型對線性趨勢有良好預測能力的優(yōu)點,由于含有限參數(shù),只要通過一些方法計算、估計這些參數(shù)的值,模型即可完全確定。同時 ARIMA模型使用差分法消除時間序列中與線性預測不相干的不平穩(wěn)因素,預測性能和適用范圍都更為優(yōu)秀,更適合于預測價格序列中的線性趨勢。

1.2 LSTM神經(jīng)網(wǎng)絡

LSTM(Long-Short Term Memory,長短期記憶)神經(jīng)網(wǎng)絡是RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡)的一種變體,其基本結構與RNN類似[11]。LSTM神經(jīng)網(wǎng)絡在傳統(tǒng)神經(jīng)網(wǎng)絡的結構基礎上,添加了記憶單元,同一層的神經(jīng)網(wǎng)絡之間使用相同的權重,因此特別適合處理時間序列數(shù)據(jù)[12]。序列數(shù)據(jù)可以是價格數(shù)據(jù),也可以是文字序列。這些數(shù)據(jù)有一個共同特點:反應某一個事物、狀態(tài)等隨時間而發(fā)生變化,即后面時間段的數(shù)據(jù)受之前某一時刻或者某一段時間數(shù)據(jù)的影響。LSTM 神經(jīng)網(wǎng)絡的結構區(qū)別于一般的神經(jīng)網(wǎng)絡同層之間不連接,它的所有節(jié)點(循環(huán)單元)均按鏈式連接,結構圖如圖1所示。

圖1 LSTM神經(jīng)網(wǎng)絡結構圖Fig.1 LSTM neural network structure

LSTM 神經(jīng)網(wǎng)絡的網(wǎng)絡拓撲結構整體上與傳統(tǒng)神經(jīng)網(wǎng)絡類似,由輸入層、輸出層、隱含層三層組成,因為記憶單元和遺忘門的存在,對于包含非線性特征的時間序列數(shù)據(jù)具有較好的記憶和預測能力,故適合用在價格預測上。LSTM 神經(jīng)網(wǎng)絡的結構基于RNN的結構,區(qū)別在于隱含層的改變,內(nèi)部詳細的模型圖如圖2所示。

圖2 LSTM神經(jīng)網(wǎng)絡模型圖Fig.2 LSTM neural network model

LSTM神經(jīng)網(wǎng)絡對比RNN最大的改進是它增加了遺忘門、輸入門、輸出門和一個記憶單元,可以通過控制門控單元對輸入數(shù)據(jù)選擇性的進行記憶和遺忘[13]。若輸入數(shù)據(jù)為x1、x2…xt–1、xt、xt+1,遺忘門的計算公式為:

其中,ft是遺忘門的輸出,σ是激活函數(shù),W1是權值,ht–1是相鄰隱含層神經(jīng)元傳送來的輸出值,b1是偏置。

通過遺忘門遺忘了不需要的數(shù)據(jù),再通過記憶們選擇對哪些值進行更新,結合起來的公式為:

其中,Ct是記憶單元的輸出,Ct–1是相鄰隱含層神經(jīng)元中記憶單元傳送來的輸出,W2是權值,b2是偏置。

隱含層的輸出為:數(shù)據(jù)由隱含層向輸出層傳播,則輸出層的輸入為:

最終LSTM神經(jīng)網(wǎng)絡的輸出為:

2 實驗流程

整個組合模型的流程圖3如下。

圖3 組合模型流程圖Fig.3 Combinatorial model flow chart

本文將這兩個模型組合起來的基本思路為:首先由 ARIMA模型對價格數(shù)據(jù)的線性成分進行分析預測,該模型只分析、計算前后自變量的關系,使用歷史數(shù)據(jù)預測當前或者未來時刻的價格數(shù)據(jù)。通過 ARIMA模型得到線性預測結果,然后用原始數(shù)據(jù)減去線性預測結果,得到殘差值,該值即為剩下的非線性特征數(shù)據(jù);然后由 LSTM神經(jīng)網(wǎng)絡對只具備非線性特征的殘差值進行分析預測,得到非線性預測結果;最后將兩個模型分別預測的線性結果和非線性結果進行組合,即可得到最終組合模型的預測結果。經(jīng)過實驗結果分析可知,組合模型預測精度和預測平穩(wěn)性都有不小的提高,有效解決了單一模型對包含多因素價格序列預測精度不高的缺點。

2.1 ARIMA模型線性預測

本文所使用數(shù)據(jù)為中藥材天地網(wǎng)中亳州市場的人參每kg的市場價格,單位為元,收集的數(shù)據(jù)自2015年1月至2020年11月,數(shù)據(jù)如圖4所示。

圖4 人參價格數(shù)據(jù)圖Fig.4 Ginseng price data graph

ARIMA模型的具體實驗步驟如下:

(1)平穩(wěn)性檢驗

由于 ARIMA屬于線性預測模型,而人參價格數(shù)據(jù)屬于包含線性、非線性等多重因素的序列數(shù)據(jù),首先需要對其進行平穩(wěn)性檢驗,檢驗其是否為只包含線性因素的平穩(wěn)序列。判斷的依據(jù)是進行ADF(Augmented Dickey-Fuller test,單位根檢驗),ADF檢驗是一種較為嚴格的檢驗方法,用以判定序列是否存在單位根。當序列平穩(wěn)時,不存在單位;而當序列不平穩(wěn)時,則存在單位根[14]。ADF檢驗先假設存在單位根,如果得到的顯著性檢驗統(tǒng)計量分別小于三個置信度(10%,5%,1%),那么就分別有(90%,95%,99%)的把握拒絕原假設,即序列是平穩(wěn)的。

先假設序列存在單位根,即先假設該價格其是非平穩(wěn)序列。P值是指在一定的顯著性水平下,假設統(tǒng)計量正確,臨界值與其相等的概率,所以P越小,拒絕假設的可能性越大,即該序列越有可能是平穩(wěn)序列。一般認為,P>0.05表示接受該假設,即存在單位根,序列是非平穩(wěn)的;P<0.05表示拒絕假設,即不存在單位根,代表該序列是平穩(wěn)的。T檢驗是通過t的分布來比較差異化,若t大于規(guī)定水平的臨界值,則接受假設,即序列不平穩(wěn);若t小于該臨界值,則拒絕原假設,即序列是平穩(wěn)的。通過計算可得人參價格序列ADF單位根檢驗結果,具體數(shù)值如表1所示。

表1 人參價格序列ADF單位根檢驗結果Tab.1 Test results of ginseng price series ADF unit root

從表1可知,在ADF檢驗下,統(tǒng)計量t=–2.4616,均大于在 1%、5%、10%水平臨界值的統(tǒng)計量,ADF檢驗的概率P=0.4341,大于規(guī)定的0.05,因此接受原假設,即該價格序列是不平穩(wěn)的。

(2)差分

由步驟(1)可知,序列是不平穩(wěn)的,進行差分處理,值得注意的是,盡管差分運算可消除平穩(wěn)性,但每一次的差分運算都會使原序列丟失一定的信息,差分次數(shù)過多會導致模型不可靠,所以應當使用盡可能少的差分運算。差分后的數(shù)據(jù)如圖5所示。

圖5 人參一階差分圖Fig.5 Ginseng first order difference map

對差分的金銀花價格序列再次使用 ADF進行平穩(wěn)性檢驗,結果如表2所示。

表2 人參價格序列ADF單位根檢驗結果Tab.2 Test results of ginseng price series ADF unit root

從表2可知,ADF檢驗下的統(tǒng)計量t=–11.4261,均小于在 1%、5%、10%水平臨界值的統(tǒng)計量,ADF檢驗的概率P=0.0001,小于規(guī)定的0.05,所以拒絕原假設,證明該序列是平穩(wěn)的。確定差分的階數(shù)為1。

(1)模型定階

模型定階是通過合適的方法確定 ARIMA模型中p、q兩個參數(shù)的值,可通過 AIC(Akaike Information Criterion,赤池信息量)確定[15]。本文通過計算AIC確定ARIMA(p,d,q)種p、q的值。AIC建立在熵的概念基礎上,用來衡量模型復雜度和擬合優(yōu)良程度。AIC的公式為:

AIC數(shù)值越小,說明擬合性能越佳。然而模型性能越好,復雜度也會隨著提高,同時似然函數(shù)也會增大,并且也可能造成過擬合的現(xiàn)象。為了限制模型的規(guī)模,避免過擬合,將值限定在[0,8],通過暴力查找到最合適的值,對應的p、q值為5、5,差分次數(shù)為1,即確定模型為ARIMA(6,1,6)。

(2)線性預測

參數(shù)全部確定完,模型確立,即可對數(shù)據(jù)進行訓練、學習、預測,由于 ARIMA模型是使用歷史數(shù)據(jù)對當前和未來數(shù)據(jù)進行預測,故2015年1月至2015年6月的價格作為最初的歷史數(shù)據(jù)無法對其進行預測,以2015年7月為第1個月,2020年11月作為第65個月,預測圖如圖6所示。

圖6 ARIMA線性預測圖Fig.6 ARIMA linear prediction chart

2.2 LSTM神經(jīng)網(wǎng)絡非線性預測

LSTM的具體實驗步驟如下:

(1)預處理

由于本文是使用LSTM神經(jīng)網(wǎng)絡預測非線性部分,首先計算人參價格序列的殘差值,ARIMA模型已經(jīng)預測出人參價格數(shù)據(jù)的線性趨勢,LSTM 神經(jīng)網(wǎng)絡只需要對非線性成分進行預測即可。使用人參原始價格數(shù)據(jù)減去 ARIMA模型的線性預測部分,即使用圖 2.2的數(shù)據(jù)減去圖 2.4的數(shù)據(jù),剩下的殘差值即可認為是人參價格數(shù)據(jù)的非線性成分。

對該殘差值進行歸一化處理,歸一化可將輸入數(shù)據(jù)縮放到一個較小的區(qū)間,本文將數(shù)據(jù)歸一化至[–1,1]。由于神經(jīng)網(wǎng)絡給予數(shù)據(jù)中偏大的值更多的權重,容易影響預測結果的準確性,而歸一化將所有數(shù)據(jù)縮放至一定范圍內(nèi),可避免這種情況,同時也可以減少計算量、加快收斂。

(2)初始化模型

初始化模型的過程包含數(shù)據(jù)集的劃分以及輸入特征、隱藏神經(jīng)元數(shù)目的設置。

將處理后包含非線性特征的殘差數(shù)據(jù)序列劃分為訓練集、測試集,藥材價格數(shù)據(jù)共有65個,將其中的 40個時間點數(shù)據(jù)劃分為訓練集,25個時間點數(shù)據(jù)劃分為測試集,并且對訓練集和測試集數(shù)據(jù)的選取都是隨機的,但是要保證每次輸入的樣本數(shù)據(jù)依然具備時間序列特性,即該一個樣本內(nèi)的數(shù)據(jù)依然是按時間前后關系排列。隨機選取的目的增加LSTM神經(jīng)網(wǎng)絡的魯棒性,打亂數(shù)據(jù)可以在訓練過程中得到不同的梯度,避免每次訓練都從同一個梯度方向?qū)?yōu),造成過擬合現(xiàn)象。藥材價格預測是使用其本身的自變量對自變量的預測,所以輸入特征為 1。隱含層數(shù)目經(jīng)過多次調(diào)試設置為10。

(3)模型訓練

本文的神經(jīng)網(wǎng)絡實驗基于Keras框架,Keras框架規(guī)定LSTM神經(jīng)網(wǎng)絡的輸入數(shù)據(jù)格式為:[送入樣本數(shù),循環(huán)核時間展開步數(shù),每個時間步輸入特征個數(shù)]。送入樣本數(shù)確定為 5,即通過前 5個時間點價格數(shù)據(jù)預測后 1個時間點的價格數(shù)據(jù);循環(huán)核時間展開步數(shù)取 1;每個時間布輸入特征個數(shù)因為一個時間點為金銀花一個數(shù)據(jù),故取1。

LSTM 神經(jīng)網(wǎng)絡中訓練學習步驟是整個神經(jīng)網(wǎng)絡處理過程中最重要的一環(huán),根據(jù)價格序列數(shù)據(jù)的特性和規(guī)律,LSTM 神經(jīng)網(wǎng)絡使用t–1,t–2,…,這些歷史時刻的數(shù)據(jù),預測t時刻的數(shù)據(jù)。確定每一次訓練數(shù)據(jù)數(shù)目為5個,且每個神經(jīng)元接受1個訓練數(shù)據(jù),則輸入層存在5個神經(jīng)元,實際輸出數(shù)據(jù)數(shù)目為 1。首次輸入后,隱含層的神經(jīng)元不但要接受輸入層的神經(jīng)元通過權值計算傳輸?shù)?,還要接受同層之中上一個節(jié)點傳輸過來的值,并對其進行累加。然后隱含層通過激活函數(shù)輸出數(shù)據(jù),與真實的輸出數(shù)據(jù)進行誤差計算,并根據(jù)誤差調(diào)整權值,以上過程為單次的訓練流程。經(jīng)過反復的計算,直至誤差低于指定值或者達到一定的次數(shù),則完成訓練。

(4)預測數(shù)據(jù)

相關數(shù)據(jù)已經(jīng)處理完畢,每次訓練以 5個時間點的歷史數(shù)據(jù)預測未來的1個時間點數(shù)據(jù),每個時間點代表一個月的價格數(shù)據(jù)。多次訓練后擬合出一個對所有訓練數(shù)據(jù)預測誤差最小的函數(shù),即完成了訓練過程。與ARIMA相同的是,LSTM神經(jīng)網(wǎng)絡也是使用歷史數(shù)據(jù)預測未來數(shù)據(jù),故2015年7月至2015年12月的數(shù)據(jù)作為最初的歷史數(shù)據(jù)無法對其進行預測,重新設置時間標號,將2016年1月作為第1個月,2020年11月作為第59個月。預測圖如圖7所示。

圖7 LSTM殘差預測Fig.7 LSTM residual prediction

(5)模型組合

最后一步對模型進行整合,由于兩個模型是分別對線性成分和非線性成分進行預測,模型的整合將兩個模型的對2016年1月至2020年11月的預測結果進行累加。以2016年1月為第1個月,2020年11月為第59個月,最終的預測圖如圖8所示。

圖8 組合模型預測圖Fig.8 Combination model prediction diagram

3 實驗結果分析

實驗結果的好壞需要使用相對應的指標進行評析,對于模型的預測精度方面,本文使用MRE(Mean Relative Error,平均相對誤差)對結果進行評價來進行評價;對于模型預測結果的平穩(wěn)性,本文使用RMSE(Root Mean Square Error,均方根誤差)來進行評價。均方根誤差可以體現(xiàn)誤差的離散程度,即預測的平穩(wěn)性。平均相對誤差、相對均方根誤差公式為:

ARIMA、LSTM神經(jīng)網(wǎng)絡、組合模型的評價指數(shù)如表3所示。

表3 各模型評價指數(shù)表Tab.3 Model evaluation index table

MRE是誤差與真實值的比例,結果越小越精度越高,RMSE是分析預測結果的離散程度,對異常值高度敏感,即使大多數(shù)預測都很準確,一旦有極少數(shù)的值與真實值相差較大,那么就會極大的影響RMSE的指標,它的結果越小,預測結果越平穩(wěn)。從表中可知,LSTM 神經(jīng)網(wǎng)絡在預測精度和平穩(wěn)性都要優(yōu)于 ARIMA模型,而兩者組合的模型在預測精度和平穩(wěn)性兩個方面都要由于單一的ARIMA模型和LSTM神經(jīng)網(wǎng)絡。

4 結論

人參的需求量逐漸擴大,分析其價格走勢并能夠?qū)Χ唐诘膬r格趨勢做出一個準確預測,及時將信息反饋給相關從業(yè)者和決策者,這對于種植、銷售和宏觀調(diào)控都具有重要意義。應用在人參價格預測上的組合模型的相關研究較少,而藥材的價格數(shù)據(jù)包含線性、非線性成分,單一的預測模型難免會產(chǎn)生預測精度不高、預測結果不平穩(wěn)的缺點,本文根據(jù)藥材價格數(shù)據(jù)包含線性和非線性成分的特點選取ARIMA模型和LSTM神經(jīng)網(wǎng)絡并對其進行組合。

ARIMA模型使用差分法去除原始價格數(shù)據(jù)中的非線性因素,通過一系列處理從價格序列中提取線性成分,預測出較為準確的線性發(fā)展趨勢;LSTM 神經(jīng)網(wǎng)絡對非線性函數(shù)具有較好的擬合能力,而又由于其特殊的結構優(yōu)勢,對序列數(shù)據(jù)有更好的預測能力,與 ARIMA模型相結合可以得到更精確、更平穩(wěn)的預測結果。

猜你喜歡
單位根人參線性
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
水中人參話鰍魚
線性回歸方程的求解與應用
清爽可口的“水中人參”
海峽姐妹(2019年8期)2019-09-03 01:01:04
二階線性微分方程的解法
STAR模型下退勢單位根檢驗統(tǒng)計量的比較
胡蘿卜為什么被稱為“小人參”
吃人參不如睡五更
華人時刊(2016年13期)2016-04-05 05:50:15
基于MCMC算法的貝葉斯面板單位根檢驗
ESTAR模型的單位根檢驗統(tǒng)計量及其功效比較
精河县| 彰化县| 双江| 房产| 綦江县| 双鸭山市| 彰化市| 闽清县| 中江县| 皋兰县| 图们市| 嘉祥县| 上蔡县| 彭州市| 嘉鱼县| 福州市| 博客| 华阴市| 河西区| 民乐县| 班戈县| 渑池县| 佳木斯市| 科尔| 广水市| 板桥市| 辽阳市| 翁源县| 贺兰县| 浙江省| 古蔺县| 武清区| 肥城市| 碌曲县| 婺源县| 临沭县| 邵阳县| 虞城县| 达拉特旗| 惠安县| 新晃|