国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)

2024-02-06 03:47:10張大斌黃均杰凌立文胡煥玲
關(guān)鍵詞:詞頻影響力價(jià)格

張大斌,黃均杰,凌立文,胡煥玲

(華南農(nóng)業(yè)大學(xué) 數(shù)學(xué)與信息學(xué)院,廣東 廣州 510642)

0 引言

碳交易是中國(guó)實(shí)現(xiàn)“雙碳”目標(biāo)的重要舉措,其作為強(qiáng)而有力的碳排放控制機(jī)制,通過(guò)碳排放權(quán)的流轉(zhuǎn)形成碳價(jià)格[1]。碳價(jià)格受到政策、能源和社會(huì)事件的影響,且數(shù)據(jù)具有非線性的復(fù)雜特征,導(dǎo)致準(zhǔn)確預(yù)測(cè)碳價(jià)格十分困難,因此眾多學(xué)者致力于碳價(jià)格預(yù)測(cè)研究。準(zhǔn)確預(yù)測(cè)碳價(jià)格,有助于政府制定合理的交易機(jī)制,以及幫助市場(chǎng)參與者制定投資決策[2]。

隨著大數(shù)據(jù)和信息技術(shù)的發(fā)展,將與碳價(jià)格相關(guān)的大量新聞信息獲取、分析、量化為時(shí)間序列,并與碳價(jià)格融合進(jìn)行預(yù)測(cè),有助于提升預(yù)測(cè)精度。已有研究利用新聞來(lái)構(gòu)建與氣候相關(guān)的變量,預(yù)測(cè)湖北和廣東碳價(jià)格[3];結(jié)合在線新聞數(shù)據(jù)和谷歌趨勢(shì)非結(jié)構(gòu)化數(shù)據(jù)預(yù)測(cè)碳價(jià)格[4];通過(guò)在線新聞文本挖掘投資者關(guān)注碳市場(chǎng)的關(guān)鍵詞,構(gòu)建基于顆粒群優(yōu)化的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)碳價(jià)格預(yù)測(cè)模型[5]。新聞具有實(shí)時(shí)性和影響力,融合新聞數(shù)據(jù)提供了更全面的信息來(lái)源,有助于揭示碳價(jià)格的變化趨勢(shì)。但在實(shí)際情況中,新聞對(duì)碳價(jià)格的影響通常不僅限于當(dāng)天,而是在未來(lái)一段時(shí)間內(nèi)產(chǎn)生持續(xù)的影響[6]。文獻(xiàn)[7]引入霍克斯過(guò)程來(lái)估計(jì)財(cái)經(jīng)新聞的時(shí)間衰減影響。文獻(xiàn)[8]量化新聞文本中的情感信息,發(fā)現(xiàn)新聞對(duì)公眾情緒的影響呈指數(shù)衰減。新聞中表達(dá)的觀點(diǎn)可以向公眾傳達(dá)碳市場(chǎng)多方面的信息和意見(jiàn),融合新聞?dòng)绊懥λp可以更好地反映新聞信息的累積效應(yīng),提供更全面的信息,有利于提高預(yù)測(cè)精度,對(duì)碳價(jià)格預(yù)測(cè)具有重要啟發(fā)。

雖然引入新聞文本數(shù)據(jù)可以增加預(yù)測(cè)的信息量,但由于數(shù)據(jù)本身的復(fù)雜性,預(yù)測(cè)變得更加困難。文獻(xiàn)[9]創(chuàng)新性提出 TEI@I方法論,強(qiáng)調(diào)“先分解后集成”的思想,將原始時(shí)間序列分解為具有不同特征的分量,再分別進(jìn)行預(yù)測(cè),集成得到預(yù)測(cè)結(jié)果。常用的單變量分解方法,例如經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)在分解多元數(shù)據(jù)時(shí),需要對(duì)各通道數(shù)據(jù)逐一分解,不適用于多元數(shù)據(jù)同時(shí)分解。文獻(xiàn)[10]使用多元經(jīng)驗(yàn)?zāi)B(tài)分解(multivariate empirical mode decomposition,MEMD)技術(shù)同時(shí)分解澳大利亞日度電力峰值負(fù)荷和氣象。文獻(xiàn)[11]實(shí)現(xiàn)了1種新的多元變分模態(tài)分解策略進(jìn)行碳價(jià)格預(yù)測(cè),同時(shí)將多個(gè)高度非線性和非平穩(wěn)變量分解為包含相對(duì)規(guī)則的本征模態(tài)變量(intrinsic mode function,IMF)。研究結(jié)果表明,通過(guò)多元分解方法可以同時(shí)考慮多種因素之間的相互影響,更好地揭示數(shù)據(jù)的內(nèi)在規(guī)律,從而提高預(yù)測(cè)性能。

鑒于上述新聞?dòng)绊懥λp的量化問(wèn)題,以及碳價(jià)格和新聞的多元分解對(duì)分析其相互關(guān)系和提高預(yù)測(cè)精度的重要性,本文提出了1種融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型,并以中國(guó)湖北碳價(jià)格為例進(jìn)行實(shí)證分析。本文研究貢獻(xiàn)主要體現(xiàn)在以下兩點(diǎn):一是對(duì)碳交易相關(guān)新聞進(jìn)行過(guò)詞頻統(tǒng)計(jì)和指數(shù)衰減,將衰減后的新聞?dòng)绊懥εc碳價(jià)格數(shù)據(jù)融合進(jìn)行預(yù)測(cè),顯著提高預(yù)測(cè)精度。二是針對(duì)單獨(dú)分解在處理多元數(shù)據(jù)的局限性,采用噪聲輔助多元經(jīng)驗(yàn)?zāi)B(tài)分解(noise assisted multivariate empirical mode decomposition,NAMEMD)同時(shí)分解碳價(jià)格和新聞多元數(shù)據(jù),保證了不同通道分量的個(gè)數(shù)和頻率尺度匹配,為碳價(jià)格預(yù)測(cè)建模提供新思路。

1 研究方法

1.1 新聞?dòng)绊懥α炕椒?/h3>

1.1.1 新聞文本關(guān)鍵詞詞頻統(tǒng)計(jì)

新聞關(guān)鍵詞的詞頻統(tǒng)計(jì),是指對(duì)新聞文本進(jìn)行關(guān)鍵詞提取,并計(jì)算特定關(guān)鍵詞在每則新聞文本出現(xiàn)的次數(shù),以量化新聞?dòng)绊懥Α_@種關(guān)鍵詞詞頻統(tǒng)計(jì)方法能夠展示新聞的熱門(mén)話題,更全面地理解和分析新聞信息。本研究所使用的碳交易相關(guān)新聞數(shù)據(jù)來(lái)源于碳排放交易門(mén)戶網(wǎng)站,運(yùn)用中科院NLPIR中文分詞系統(tǒng)[12]對(duì)所有新聞文本進(jìn)行分詞、關(guān)鍵詞提取,選出與碳價(jià)格相關(guān)的詞頻前5的關(guān)鍵詞:碳交易、碳市場(chǎng)、碳排放、減排、碳配額。通過(guò)對(duì)每日新聞文本中包含特定關(guān)鍵詞的詞頻進(jìn)行頻次統(tǒng)計(jì),該詞頻值的大小反映了當(dāng)天新聞的影響力大小,揭示了關(guān)鍵詞在新聞中的重要性和影響力。

1.1.2 新聞?dòng)绊懥λp方程構(gòu)建

本文致力于構(gòu)建新聞?dòng)绊懥λp方程,以更準(zhǔn)確地描述新聞對(duì)碳價(jià)格的影響隨時(shí)間的衰減過(guò)程。在現(xiàn)實(shí)情況下,新聞報(bào)道的影響力不會(huì)持續(xù)保持不變,隨著時(shí)間的推移,其影響逐漸減弱。參照文獻(xiàn)[13]關(guān)于網(wǎng)絡(luò)新聞呈現(xiàn)指數(shù)衰減的研究和物理學(xué)的牛頓冷卻定律[14],本文假設(shè)新聞?dòng)绊懥﹄S著時(shí)間的推移以指數(shù)形式逐漸衰減,定義新聞?dòng)绊懥χ笖?shù)衰減方程[6]的公式如下:

N′(t)=-αN(t)。

(1)

求導(dǎo)N(t)的函數(shù)表達(dá)式:

(2)

根據(jù)lnx的導(dǎo)數(shù)為1/x,得到:

lnN(t)=-αt+c。

(3)

求解可得:

N(t)=Nte-αt,

(4)

其中:N(t)為衰減函數(shù),即N在t時(shí)刻的新聞?dòng)绊懥λp值;t為時(shí)間,t=0時(shí),N(0)=Nt為初始時(shí)間單位新聞?dòng)绊懥Ξa(chǎn)生的影響;α為衰減指數(shù),其值大于0;e-αt為衰減系數(shù)。

(5)

1.2 多元分解與重構(gòu)方法

多元數(shù)據(jù)通常包含多個(gè)維度的信息,具有復(fù)雜的關(guān)聯(lián)和交互作用,導(dǎo)致預(yù)測(cè)建模變得困難。對(duì)時(shí)間序列進(jìn)行分解可以降低復(fù)雜度,提高預(yù)測(cè)準(zhǔn)確性[16]。針對(duì)多元數(shù)據(jù),通過(guò)多元分解和重構(gòu),從中提取數(shù)據(jù)特征和分析數(shù)據(jù)模式,可以降低時(shí)間序列復(fù)雜性,提高預(yù)測(cè)性能。

1.2.1 噪聲輔助多元經(jīng)驗(yàn)?zāi)B(tài)分解

EMD方法適用于單變量時(shí)間序列,針對(duì)多元數(shù)據(jù),文獻(xiàn)[17]對(duì)EMD進(jìn)行改進(jìn),提出了MEMD,但存在模態(tài)混淆現(xiàn)象導(dǎo)致預(yù)測(cè)誤差較大。為了減少原始數(shù)據(jù)和重建信號(hào)之間的偏差,文獻(xiàn)[18]提出NAMEMD算法,它在MEMD基礎(chǔ)上,添加了高斯白噪聲,與多元輸入數(shù)據(jù)同時(shí)分解,以同步分析多維信號(hào),有效避免IMF中的模態(tài)混疊問(wèn)題,具體方法如下:

(6)

(Ⅵ)通過(guò)h(t)=v(t)-m(t)提取中間分量h(t),若h(t)滿足終止條件即成為多元IMF,否則將v(t)-h(t)作為新的輸入信號(hào),重復(fù)(Ⅱ)~(Ⅵ)步;

(Ⅶ)減去噪聲對(duì)應(yīng)的m維分量,得到原始信號(hào)X(t)的Q個(gè)多元IMF和殘差Res(t):

(7)

1.2.2 樣本熵重構(gòu)

樣本熵理論以可以衡量時(shí)間序列的復(fù)雜性[19],序列越復(fù)雜,樣本熵值越大;若序列越簡(jiǎn)單,其值越小。樣本熵的計(jì)算步驟[20]如下:

(Ⅰ)將原始時(shí)間序列y(t)重構(gòu)成d維的向量序列yd(i)={y(i),y(i+1),…,y(i+d-1)},其中i=1,2,…,N-d+1。

(Ⅱ)定義向量yd(i)和yd(j)之間的距離Dij,為兩者對(duì)應(yīng)元素中差值最大的1個(gè),即

Dij=max|y(i+k)-y(j+k)|。

(8)

(9)

(Ⅳ)將維數(shù)d加1,重復(fù)(Ⅰ)~(Ⅲ)步,計(jì)算得到Bd+1(r),序列的理論樣本熵為:

(10)

1.3 預(yù)測(cè)與評(píng)價(jià)方法

1.3.1 預(yù)測(cè)方法

本文采用支持向量回歸(support vector regression,SVR)、極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和多層感知機(jī)(multi-layer perceptron,MLP)機(jī)器學(xué)習(xí)模型,4種模型包含了基于支持向量機(jī)的回歸模型、單層和多層神經(jīng)網(wǎng)絡(luò)以及深度循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在機(jī)器學(xué)習(xí)領(lǐng)域具有一定的代表性,在預(yù)測(cè)系統(tǒng)、圖像處理等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用[21]。

其中SVR是基于支持向量機(jī)的回歸模型,其原理是將非線性的問(wèn)題轉(zhuǎn)化為線性問(wèn)題,通過(guò)核函數(shù)將數(shù)據(jù)映射到高維特征空間,從而使數(shù)據(jù)在特征空間中線性可分,然后,在特征空間中尋找最優(yōu)的超平面,使得距離該超平面最近的樣本點(diǎn)到該超平面的距離最大化來(lái)實(shí)現(xiàn)回歸[2];ELM是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)模型,其主要思想是隨機(jī)初始化輸入層與隱層之間的權(quán)重和偏置,然后將訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò)中,通過(guò)線性學(xué)習(xí)算法快速地計(jì)算隱層輸出權(quán)值矩陣和輸出層權(quán)重。隱層的權(quán)重和偏置是隨機(jī)初始化的,因此不需要進(jìn)行迭代學(xué)習(xí),可以快速地得到模型的參數(shù);LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),其核心是通過(guò)引入門(mén)控機(jī)制,實(shí)現(xiàn)記憶和遺忘的功能,控制信息的流動(dòng)和保存,有效地捕獲和記憶長(zhǎng)期依賴關(guān)系。在訓(xùn)練過(guò)程中,使用反向傳播算法計(jì)算誤差,并更新模型參數(shù)[11];MLP是一種基于反向傳播算法的多層前向神經(jīng)網(wǎng)絡(luò)。其核心是通過(guò)多個(gè)神經(jīng)元的嵌套,形成多個(gè)隱層,實(shí)現(xiàn)非線性映射。在訓(xùn)練過(guò)程中,反向傳播算法可以計(jì)算每個(gè)神經(jīng)元的誤差,并將誤差反向傳播到前面的神經(jīng)元中,從而調(diào)整每個(gè)神經(jīng)元的權(quán)重和偏置值,能夠處理更復(fù)雜的非線性關(guān)系[22]。

1.3.2 評(píng)價(jià)準(zhǔn)則

為了評(píng)價(jià)模型的預(yù)測(cè)能力,本文采用常用的4種評(píng)價(jià)指標(biāo):平均絕對(duì)誤差(mean absolute error,MAE),均方根誤差(root mean square error,RMSE),平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)和決定系數(shù)(R-squared)以綜合評(píng)判模型的預(yù)測(cè)效果。相關(guān)計(jì)算公式如下:

(11)

(12)

(13)

(14)

2 模型構(gòu)建

本文考慮新聞數(shù)據(jù)對(duì)碳價(jià)格的影響,設(shè)計(jì)了新聞?dòng)绊懥λp的時(shí)間序列計(jì)算方法,提出了融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型,框架如圖1所示。具體步驟如下:

圖1 預(yù)測(cè)框架圖

第1步:數(shù)據(jù)采集和預(yù)處理。獲取湖北碳價(jià)格和新聞文本數(shù)據(jù),通過(guò)統(tǒng)計(jì)新聞文本關(guān)鍵詞的詞頻以量化新聞?dòng)绊懥?基于指數(shù)衰減方程計(jì)算得到新聞?dòng)绊懥λp時(shí)間序列。

第2步:時(shí)間序列分解。運(yùn)用噪聲輔助多元經(jīng)驗(yàn)?zāi)B(tài)分解方法NAMEMD對(duì)碳價(jià)格和新聞序列同時(shí)進(jìn)行分解,得到分解結(jié)果。

第3步:樣本數(shù)據(jù)集重構(gòu)。由于分解所得序列具有不同時(shí)間尺度,基于樣本熵理論重構(gòu)各序列分解結(jié)果,得到碳價(jià)格和新聞的高頻、低頻和趨勢(shì)項(xiàng)。

第4步:碳價(jià)格預(yù)測(cè)。將碳價(jià)格和新聞的高頻、低頻和趨勢(shì)項(xiàng)作為SVR、ELM、LSTM和MLP預(yù)測(cè)模型的輸入,對(duì)碳價(jià)格進(jìn)行預(yù)測(cè),并通過(guò)加和集成得到最終結(jié)果。

第5步:模型驗(yàn)證。本文提出的模型與未考慮新聞衰減的碳價(jià)格歷史時(shí)間序列和未考慮多元分解的碳價(jià)格和新聞時(shí)間序列的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,通過(guò)4種評(píng)價(jià)指標(biāo)驗(yàn)證了所提模型的有效性。

3 實(shí)證分析

3.1 數(shù)據(jù)來(lái)源

全國(guó)八大碳排放權(quán)交易試點(diǎn)市場(chǎng)的交易情況如表1所示,截至2023年2月17日,8大碳市場(chǎng)開(kāi)市至今累計(jì)成交總量300 438 084噸。湖北碳市場(chǎng)成交量占比29.54%,湖北作為成交量最大的試點(diǎn)市場(chǎng),市場(chǎng)交易機(jī)制成熟,交易量和成交額都占據(jù)了較大份額,市場(chǎng)化程度高。因此,本文通過(guò)湖北碳排放權(quán)交易中心(http://www.hbets.cn),選取2014年4月2日至2022年10月12日的湖北碳交易現(xiàn)貨日度收盤(pán)價(jià)1 812個(gè)數(shù)據(jù)進(jìn)行研究分析,訓(xùn)練集和測(cè)試集的劃分比例為8∶2。

表1 全國(guó)碳交易市場(chǎng)現(xiàn)貨交易情況

碳交易新聞文本數(shù)據(jù)來(lái)源于中國(guó)碳排放交易專門(mén)網(wǎng)站(http://www.tanpaifang.com),該網(wǎng)站的碳交易新聞文章主要來(lái)源:新華網(wǎng)、中國(guó)證券報(bào)、第一財(cái)經(jīng)和中國(guó)能源報(bào)等,日期范圍與碳價(jià)格數(shù)據(jù)的日期范圍相同。

3.2 數(shù)據(jù)預(yù)處理

本文的新聞文本數(shù)據(jù)預(yù)測(cè)處理主要包含詞頻統(tǒng)計(jì)和指數(shù)衰減2個(gè)部分,其中,詞頻統(tǒng)計(jì)方法通過(guò)對(duì)關(guān)鍵詞進(jìn)行數(shù)量統(tǒng)計(jì)來(lái)實(shí)現(xiàn)分析,具體步驟如下:

第1步:數(shù)據(jù)檢索。從碳排放交易專門(mén)網(wǎng)站獲取碳交易新聞文本信息。

第2步:文本數(shù)據(jù)預(yù)處理。對(duì)獲取的新聞?wù)奈谋緝?nèi)容進(jìn)行預(yù)處理,主要包括數(shù)據(jù)清洗、分詞、停用詞過(guò)濾、標(biāo)記化。

第3步:關(guān)鍵詞提取和詞頻統(tǒng)計(jì)。使用中科院NLPIR中文分詞系統(tǒng)對(duì)新聞文本進(jìn)行關(guān)鍵詞提取,選出與碳交易相關(guān)的詞頻前5的關(guān)鍵詞:碳交易、碳市場(chǎng)、碳排放、減排、碳配額。統(tǒng)計(jì)新聞文本中含有這5個(gè)關(guān)鍵詞的詞頻以量化新聞?dòng)绊懥?得到新聞文本特征。

第4步:數(shù)據(jù)可視化。新聞關(guān)鍵詞通過(guò)創(chuàng)建詞云來(lái)可視化數(shù)據(jù),詞云圖如圖2所示,該詞云根據(jù)術(shù)語(yǔ)頻率顯示最重要的單詞和短語(yǔ),直觀地呈現(xiàn)了主題信息。

圖2 詞云圖

在指數(shù)衰減處理部分,本文對(duì)于當(dāng)天沒(méi)有新聞數(shù)據(jù)的詞頻,記為0;對(duì)于當(dāng)天出現(xiàn)多條新聞的情況,計(jì)算其詞頻平均值以量化新聞?dòng)绊懥ΑP侣動(dòng)绊懥σ灾笖?shù)函數(shù)的形式隨著時(shí)間推移逐漸減弱,經(jīng)過(guò)本文設(shè)計(jì)的新聞?dòng)绊懥λp方程計(jì)算后,得到每日連續(xù)的新聞?dòng)绊懥λp時(shí)間序列,該時(shí)間序列的每日數(shù)據(jù)反映了當(dāng)日以及前7天的新聞數(shù)據(jù)共同產(chǎn)生的影響。計(jì)算新聞?dòng)绊懥λp時(shí)間序列,提供了更加全面的視角來(lái)捕捉新聞對(duì)碳價(jià)格的影響,有利于準(zhǔn)確地預(yù)測(cè)未來(lái)的碳價(jià)格走勢(shì)。

3.3 數(shù)據(jù)映射

數(shù)據(jù)映射是構(gòu)建數(shù)據(jù)集的基礎(chǔ),將新聞?dòng)绊懥λp數(shù)據(jù)與湖北碳價(jià)格數(shù)據(jù)的日期進(jìn)行對(duì)應(yīng),并進(jìn)行歸一化處理。本文構(gòu)建了2014年4月2日至2022年10月12日的碳價(jià)格時(shí)間序列和新聞?dòng)绊懥r(shí)間序列的數(shù)據(jù)樣本,如圖3所示,新聞?dòng)绊懥λp時(shí)間序列與碳價(jià)格序列的走勢(shì)呈現(xiàn)更明顯的關(guān)聯(lián)。為衡量碳價(jià)格和新聞的相互依賴程度,計(jì)算兩者的互信息,互信息值越大,說(shuō)明碳價(jià)格和新聞的關(guān)系越密切[23]。原始的新聞時(shí)間序列與碳價(jià)格序列的互信息值為0.564,增加指數(shù)衰減后的互信息值為0.832,表明指數(shù)衰減時(shí)間序列與碳價(jià)格時(shí)間序列之間的相關(guān)性較大,指數(shù)衰減影響力計(jì)算方法的有效性和可行性。

圖3 碳價(jià)格、新聞?dòng)绊懥托侣動(dòng)绊懥λp時(shí)間序列

3.4 分解集成預(yù)測(cè)

由于碳價(jià)格和新聞數(shù)據(jù)在時(shí)間序列上呈現(xiàn)出非線性和高噪聲等特征,為了更準(zhǔn)確地預(yù)測(cè)碳價(jià)格,并分析碳價(jià)格波動(dòng)特征的內(nèi)在模式,首先,采用NAMEMD方法同時(shí)分解湖北碳價(jià)格與新聞?dòng)绊懥λp時(shí)間序列,分別得到碳價(jià)格和新聞的10個(gè)IMF分量和1個(gè)Res(t)殘差。

其次,計(jì)算碳價(jià)格和新聞每個(gè)分量的樣本熵值,結(jié)果如圖4所示,由于分量越多,累計(jì)誤差越大,可能導(dǎo)致整體預(yù)測(cè)精度降低,因此將IMF進(jìn)行重構(gòu),可以提高建模速度和預(yù)測(cè)精度[24]。結(jié)果顯示碳價(jià)格和新聞的前6個(gè)IMF分量的樣本熵值都超過(guò)其他IMF的值,波動(dòng)劇烈且沒(méi)有明顯的趨勢(shì),將IMF1~6重構(gòu)為高頻項(xiàng)。相比之下,最后兩個(gè)分量的樣本熵值遠(yuǎn)遠(yuǎn)低于其他分量,具有明顯的趨勢(shì),較好刻畫(huà)了原始序列的波動(dòng),重構(gòu)為趨勢(shì)項(xiàng)(IMF10~11),其余部分重構(gòu)得到低頻項(xiàng)(IMF7~9),碳價(jià)格和新聞分量重構(gòu)序列如圖5所示,重構(gòu)后的IMF變化趨勢(shì)更明顯,便于進(jìn)一步提取各IMF的波動(dòng)特征,更好地訓(xùn)練預(yù)測(cè)模型[25]。

圖4 分量樣本熵值折線圖

圖5 碳價(jià)格和新聞分量重構(gòu)序列圖

最后,運(yùn)用SVR、ELM、LSTM和MLP預(yù)測(cè)模型,分別對(duì)碳價(jià)格單變量時(shí)間序列、融合新聞?dòng)绊懥Φ奶純r(jià)格時(shí)間序列、融合新聞?dòng)绊懥λp的碳價(jià)格時(shí)間序列和融合新聞?dòng)绊懥λp的碳價(jià)格多元分解重構(gòu)時(shí)間序列4組方案進(jìn)行預(yù)測(cè),并通過(guò)線性集成得到最終預(yù)測(cè)結(jié)果。為了評(píng)價(jià)模型的預(yù)測(cè)能力,本文采用了常用的4種評(píng)價(jià)指標(biāo),包括平均絕對(duì)誤差(MAE),均方根誤差(RMSE),平均絕對(duì)百分比誤差(MAPE)和決定系數(shù)(R2)。

3.5 實(shí)驗(yàn)結(jié)果與分析

本文設(shè)計(jì)了4組實(shí)驗(yàn)方案以充分驗(yàn)證融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)方法的可行性與有效性,獲得的預(yù)測(cè)誤差結(jié)果對(duì)比如表2所示,黑色加粗為最優(yōu)結(jié)果,將MAPE和R2評(píng)判標(biāo)準(zhǔn)以柱狀圖展示,如圖6和圖7所示。

表2 不同方案的預(yù)測(cè)誤差結(jié)果對(duì)比

圖6 評(píng)判標(biāo)準(zhǔn)MAPE柱狀圖

圖7 評(píng)判標(biāo)準(zhǔn)R2柱狀圖

(Ⅰ)單模型對(duì)比實(shí)驗(yàn)

為驗(yàn)證本文所用的MLP模型相較于其他模型在預(yù)測(cè)性能方面的優(yōu)越性,本文將MLP與SVR、ELM和LSTM模型的預(yù)測(cè)效果進(jìn)行對(duì)比。通過(guò)對(duì)比表2中的第1組實(shí)驗(yàn)方案結(jié)果,可以看出MLP模型在預(yù)測(cè)誤差值MAE和MAPE方面表現(xiàn)最佳,分別為1.106和2.85%,這是由于MLP模型具有較強(qiáng)的非線性建模能力,可以通過(guò)多層神經(jīng)元的組合實(shí)現(xiàn)非常復(fù)雜的非線性映射關(guān)系,從而更好地?cái)M合真實(shí)數(shù)據(jù)的分布。相比之下,SVR是基于核函數(shù)實(shí)現(xiàn)的非線性回歸算法,在處理復(fù)雜數(shù)據(jù)時(shí)可能無(wú)法有效地捕捉其非線性關(guān)系;ELM預(yù)測(cè)性能高度依賴于隨機(jī)初始化的權(quán)重,可能在不同的初始化下產(chǎn)生不同的結(jié)果,導(dǎo)致模型的穩(wěn)定性較差;而LSTM則在處理長(zhǎng)期依賴關(guān)系序列具有相關(guān)優(yōu)勢(shì),但引入了許多門(mén)控單元和記憶單元,增加了計(jì)算量和訓(xùn)練時(shí)間。

(Ⅱ)融合新聞數(shù)據(jù)對(duì)比實(shí)驗(yàn)

為驗(yàn)證本文提出的融合新聞數(shù)據(jù)對(duì)碳價(jià)格預(yù)測(cè)相較于只考慮碳價(jià)格歷史數(shù)據(jù)的優(yōu)越性,本文考慮融合碳交易新聞的非結(jié)構(gòu)化數(shù)據(jù)對(duì)碳價(jià)格的影響,通過(guò)引入新聞文本進(jìn)行特征提取,統(tǒng)計(jì)與碳交易相關(guān)的詞頻前5的關(guān)鍵詞詞頻以量化新聞?dòng)绊懥?挖掘其對(duì)碳交易價(jià)格預(yù)測(cè)的信息增量?jī)r(jià)值。第2組實(shí)驗(yàn)方案中,與只考慮碳價(jià)格的預(yù)測(cè)模型進(jìn)行對(duì)比,融合了新聞文本數(shù)據(jù)的碳價(jià)格預(yù)測(cè)誤差指標(biāo)值均小于僅使用碳價(jià)格的預(yù)測(cè)誤差,其中ELM和MLP模型的RMSE值分別降低了17.65%和8.53%,實(shí)證分析表明,本文所提出的融合新聞?dòng)绊懥Φ奶純r(jià)格預(yù)測(cè)模型有利于提升碳價(jià)格的預(yù)測(cè)準(zhǔn)確性,為碳市場(chǎng)的分析和決策提供了有效的參考價(jià)值。

(Ⅲ)新聞?dòng)绊懥λp策略對(duì)比實(shí)驗(yàn)

為驗(yàn)證新聞?dòng)绊懥χ笖?shù)衰減策略相較于未考慮衰減處理的優(yōu)越性,本文基于詞頻統(tǒng)計(jì)和指數(shù)衰減提出了1種碳新聞?dòng)绊懥χ笖?shù)衰減序列的量化方法,通過(guò)將新聞?dòng)绊懥M(jìn)行指數(shù)衰減處理,發(fā)現(xiàn)指數(shù)衰減后的新聞?dòng)绊懥εc碳價(jià)格數(shù)據(jù)呈現(xiàn)更高的相關(guān)性,其互信息值由0.564提升至0.832,這表明指數(shù)衰減策略對(duì)于提升新聞?dòng)绊懥εc碳價(jià)格之間的關(guān)聯(lián)性具有積極的影響。在實(shí)驗(yàn)中,將第2組和第3組實(shí)驗(yàn)方案進(jìn)行對(duì)比,其中第3組實(shí)驗(yàn)方案考慮了指數(shù)衰減的新聞?dòng)绊懥r(shí)間序列,而第2組則未進(jìn)行指數(shù)衰減處理。實(shí)驗(yàn)結(jié)果顯示:在所有指標(biāo)上,第3組方案增加了指數(shù)衰減的預(yù)測(cè)精度均優(yōu)于第2組方案模型,證實(shí)了指數(shù)衰減策略不僅提高了新聞?dòng)绊懥εc碳價(jià)格之間的相關(guān)性,還驗(yàn)證了融合新聞?dòng)绊懥χ笖?shù)衰減時(shí)間序列對(duì)提升碳價(jià)格預(yù)測(cè)精度的有效性。

(Ⅳ)多元分解集成策略對(duì)比實(shí)驗(yàn)

為驗(yàn)證“多元分解-集成”預(yù)測(cè)方法的有效性,本文將經(jīng)過(guò)多元分解處理的融合新聞?dòng)绊懥λp的碳價(jià)格預(yù)測(cè)模型與未進(jìn)行分解的模型預(yù)測(cè)效果進(jìn)行對(duì)比。經(jīng)過(guò)NAMEMD分解處理后的預(yù)測(cè)模型表現(xiàn)更好,第4組實(shí)驗(yàn)的模型預(yù)測(cè)誤差均小于第3組未考慮分解的模型,且R2有所提升,其中融合新聞?dòng)绊懥λp的碳價(jià)格NAMEMD-MLP模型的預(yù)測(cè)性能最優(yōu)。碳價(jià)格和新聞多元數(shù)據(jù),其內(nèi)在的規(guī)律比較復(fù)雜,采用NAMEMD分解方法能夠自適應(yīng)地將非平穩(wěn)、非線性的多元數(shù)據(jù)進(jìn)行平穩(wěn)化處理,保證了不同通道分量的個(gè)數(shù)和頻率尺度上都匹配,實(shí)驗(yàn)結(jié)果表明“多元分解-集成”策略可以提高預(yù)測(cè)精度和模型擬合度。

3.6 DM檢驗(yàn)

為了進(jìn)一步判斷所提模型在預(yù)測(cè)性能是否有顯著性差異,采用DM統(tǒng)計(jì)量[2]進(jìn)行檢驗(yàn)。DM檢驗(yàn)的原假設(shè)是預(yù)測(cè)模型在預(yù)測(cè)性能上無(wú)顯著差別,DM統(tǒng)計(jì)量的定義為:

(15)

本文采用第4組方案和第1組方案的不同模型進(jìn)行單側(cè)DM檢驗(yàn),來(lái)判斷第4組方案融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型是否比第1組方案碳價(jià)格單變量預(yù)測(cè)模型具有顯著優(yōu)越性。DM檢驗(yàn)結(jié)果見(jiàn)表3,第4組方案在1%或10%的顯著性水平下均拒絕原假設(shè),即與第1組方案碳價(jià)格單變量預(yù)測(cè)顯著不同并優(yōu)于第1組方案,進(jìn)一步證明了本文所提融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型具有顯著優(yōu)勢(shì)。

表3 DM檢驗(yàn)結(jié)果

4 結(jié)論與展望

(1)構(gòu)建了1種融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型,不僅克服了缺乏對(duì)其他影響因素的考慮,導(dǎo)致預(yù)測(cè)結(jié)果存在一定滯后性的問(wèn)題,還規(guī)避了單變量分解方法無(wú)法捕捉多變量聯(lián)合影響的固有缺陷。相較于未考慮新聞?dòng)绊懥λp以及多元分解集成的模型,融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)模型有效地提高了碳價(jià)格的預(yù)測(cè)準(zhǔn)確性,表現(xiàn)出優(yōu)異且穩(wěn)定的預(yù)測(cè)性能。

(2)新聞數(shù)據(jù)主題提供了與碳價(jià)格密切相關(guān)的信息,對(duì)碳價(jià)格預(yù)測(cè)精度提升有重要影響。經(jīng)過(guò)指數(shù)衰減的新聞?dòng)绊懥?shù)據(jù)與碳價(jià)格數(shù)據(jù)的相關(guān)性更高,新聞指數(shù)衰減方法提供了1種量化新聞?dòng)绊懥Φ闹匾侄?。指?shù)衰減考慮了不同時(shí)間點(diǎn)的新聞對(duì)碳價(jià)格的影響力遞減情況,更準(zhǔn)確地反映了新聞對(duì)碳價(jià)格的短期影響,為碳價(jià)格預(yù)測(cè)提供更多有效的信息,提高了對(duì)碳交易價(jià)格變動(dòng)的解釋性和碳價(jià)格的預(yù)測(cè)精度。

(3)基于NAMEMD分解集成策略能夠自適應(yīng)地將非平穩(wěn)、非線性的多元數(shù)據(jù)進(jìn)行平穩(wěn)化處理,這對(duì)于處理復(fù)雜性的碳價(jià)格和新聞數(shù)據(jù)具有重要意義。NAMEMD分解得到的每個(gè)分量具有不同的時(shí)間尺度和振幅特征,充分提取各分量特征將數(shù)據(jù)進(jìn)行重構(gòu),從而減少了累計(jì)預(yù)測(cè)誤差,對(duì)整體預(yù)測(cè)精度有明顯提升。

本文提出的融合新聞?dòng)绊懥λp的碳價(jià)格多元分解集成預(yù)測(cè)研究模型,能有效提高預(yù)測(cè)精度,為碳價(jià)格預(yù)測(cè)提供新思路。另外,本研究未來(lái)還可以嘗試在模型中加入更多與碳價(jià)格相關(guān)的政策和經(jīng)濟(jì)等影響因素,以進(jìn)一步提升模型的預(yù)測(cè)性能。并且進(jìn)一步探索本文方法是否能應(yīng)用于其他領(lǐng)域的數(shù)據(jù)預(yù)測(cè),以提高方法的通用性。

猜你喜歡
詞頻影響力價(jià)格
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
天才影響力
NBA特刊(2018年14期)2018-08-13 08:51:40
黃艷:最深遠(yuǎn)的影響力
價(jià)格
價(jià)格
價(jià)格
詞頻,一部隱秘的歷史
3.15消協(xié)三十年十大影響力事件
傳媒不可估量的影響力
人間(2015年21期)2015-03-11 15:24:39
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
内黄县| 安徽省| 曲水县| 孟村| 临夏县| 荣昌县| 石楼县| 英德市| 香港 | 永安市| 安仁县| 交城县| 株洲市| 驻马店市| 西畴县| 吕梁市| 秦安县| 奉节县| 八宿县| 浦县| 南陵县| 临西县| 贵南县| 金溪县| 陵水| 泸溪县| 康保县| 永昌县| 社旗县| 海城市| 灌阳县| 屏东市| 泗阳县| 铜梁县| 合阳县| 汉沽区| 海伦市| 阿拉善盟| 安福县| 金坛市| 兰坪|