国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異構(gòu)數(shù)據(jù)融合驅(qū)動(dòng)的股市波動(dòng)預(yù)測研究

2023-07-17 09:30葉慕戎魯越譚楚婷
計(jì)算機(jī)應(yīng)用文摘 2023年13期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

葉慕戎 魯越 譚楚婷

摘要:由于股票市場具有復(fù)雜性、動(dòng)態(tài)性和混亂性等諸多特點(diǎn),其波動(dòng)易受各種信息源的影響,因此對(duì)其預(yù)測具有相當(dāng)?shù)奶魬?zhàn)性,而機(jī)器學(xué)習(xí)方法的應(yīng)用在目前取得了一定的成功。文章從深度學(xué)習(xí)方法出發(fā),融合多種數(shù)據(jù)源,提出一種異構(gòu)數(shù)據(jù)融合驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)模型,探索股市輿情、量化指標(biāo)與股價(jià)波動(dòng)的內(nèi)在聯(lián)系,以及媒體信息對(duì)股市波動(dòng)的影響機(jī)制。

關(guān)鍵詞:多特征融合;輿情分析;股市預(yù)測;LDA;神經(jīng)網(wǎng)絡(luò)

中圖法分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言

由于金融時(shí)間序列數(shù)據(jù)存在復(fù)雜、非線性、難以預(yù)測的情況,因此股票市場的預(yù)測任務(wù)充滿挑戰(zhàn)[1] ,金融業(yè)界也一直在尋找能夠系統(tǒng)地預(yù)測未來資產(chǎn)收益的方法,嘗試預(yù)測資產(chǎn)的有效收益,然而股票市場處于極其動(dòng)蕩和嘈雜的環(huán)境中,這項(xiàng)任務(wù)無疑困難重重。傳統(tǒng)股票預(yù)測方法往往僅依賴歷史定量數(shù)據(jù)進(jìn)行擬合分析,如價(jià)格、交易量、周轉(zhuǎn)率等。作為定量數(shù)據(jù)的補(bǔ)充,文本信息也成為部分研究者關(guān)注的對(duì)象[2] 。使用計(jì)算機(jī)技術(shù)抽取海量輿情觀點(diǎn),對(duì)文本進(jìn)行挖掘爬取處理,將特征進(jìn)行整合,可以分析出股票市場發(fā)展動(dòng)態(tài)的優(yōu)劣,為每個(gè)投資者提供各自不同且具有針對(duì)性的建議和方法。隨著文本情感分析的高速發(fā)展,簡單文本極性判斷已不能滿足人們對(duì)互聯(lián)網(wǎng)的需求,跨學(xué)科、跨平臺(tái)的研究,將文本分析技術(shù)廣泛應(yīng)用在不同的領(lǐng)域。將引導(dǎo)機(jī)制、營銷理論以及多元盈利模式融合,以提高模型性能。隨著數(shù)據(jù)挖掘的深入,面向股票市場領(lǐng)域的細(xì)粒度情感分析技術(shù)的應(yīng)用解決了隱式情感難提取、文本不規(guī)范等問題。學(xué)者正應(yīng)用實(shí)踐企圖證實(shí)輿論與股票市場的相關(guān)性以及試圖應(yīng)用輿論預(yù)測市場的走向[3~5] 。

本文主要討論了量化指標(biāo)、股市輿情與股價(jià)波動(dòng)間的潛在關(guān)聯(lián),為金融從業(yè)者、研究者提供了一種全新的視角,以行為金融學(xué)對(duì)行為人決策的研究成果為研究基礎(chǔ),尋求投資者在金融市場中可能會(huì)受到來自認(rèn)知系統(tǒng)的各種偏差及對(duì)其信息處理和決策過程的影響,以期建立一個(gè)從投資者情緒到投資者行為,再到投資者行為對(duì)金融市場和實(shí)體經(jīng)濟(jì)影響的科學(xué)研究模式。

2 文獻(xiàn)綜述

多源數(shù)據(jù)融合技術(shù)是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域中一種常見的特征處理手段,基于人工智能、模式識(shí)別、統(tǒng)計(jì)推斷等,在醫(yī)療診斷、目標(biāo)識(shí)別、自動(dòng)駕駛等領(lǐng)域都有著良好的應(yīng)用,通過融合不同數(shù)據(jù)源、不同粒度的信息,可以更好地捕捉數(shù)據(jù)之間的高階特征交互。

在國內(nèi),陳曉美[6] 開展了對(duì)于Web2.0 的網(wǎng)絡(luò)評(píng)論信息的分析研究,通過領(lǐng)域知識(shí)進(jìn)行互補(bǔ),構(gòu)建了基于“觀點(diǎn)?領(lǐng)域知識(shí)?主題”的新型知識(shí)搜索體系,以發(fā)現(xiàn)網(wǎng)絡(luò)評(píng)論中的觀點(diǎn)知識(shí);郭光明[7] 設(shè)計(jì)了概率主題模型LUBD?CM,并將其應(yīng)用于刻畫用戶信用屬性,融合社交數(shù)據(jù)中用戶信用畫像的有效信息,以搭建用戶信用畫像預(yù)測系統(tǒng);賀雅琪[8] 根據(jù)Dempster?Shafer證據(jù)理論,提出了一種數(shù)據(jù)融合框架,實(shí)現(xiàn)了對(duì)多源數(shù)據(jù)的決策級(jí)融合;鄧烜堃構(gòu)建了一種基于有限布爾茲曼機(jī)的深度自編碼器,實(shí)現(xiàn)了對(duì)高位金融數(shù)據(jù)的特征降維并構(gòu)建了回歸模型預(yù)測股價(jià),通過實(shí)證表明自編碼器提取特征的效果優(yōu)于傳統(tǒng)主成分分析與因子分析等方法;王乾基于股票歷史數(shù)據(jù)、財(cái)經(jīng)新聞數(shù)據(jù)、股票社交輿情3 種信息源,使用LSTM 網(wǎng)絡(luò)對(duì)個(gè)股漲跌趨勢進(jìn)行預(yù)測,通過實(shí)證證明了多源數(shù)據(jù)預(yù)測的合理性;黃潔云提出充分利用股市多源數(shù)據(jù),并使用小波變換捕捉時(shí)間序列波動(dòng)趨勢,同時(shí)對(duì)文本數(shù)據(jù)使用BERT 模型提取其文本情感特征,融合量化特征與文本特征并預(yù)測股票波動(dòng);張露設(shè)計(jì)了一種SBV 多源信息融合模型,有效解決了財(cái)務(wù)預(yù)警問題中的有效樣本不平衡問題,實(shí)現(xiàn)了對(duì)股市財(cái)務(wù)預(yù)警的精確預(yù)測;劉政昊從知識(shí)關(guān)聯(lián)視角構(gòu)建了一個(gè)金融領(lǐng)域知識(shí)圖譜,嘗試發(fā)現(xiàn)股票之間的關(guān)聯(lián)性與隱含特征,為投資者提供指導(dǎo)建議;耿立校提出了一種基于多源異構(gòu)數(shù)據(jù)的LSTM 模型,結(jié)合了歷史交易數(shù)據(jù)、量化指標(biāo)數(shù)據(jù)、文本評(píng)論數(shù)據(jù)3 類數(shù)據(jù),對(duì)股票波動(dòng)走勢進(jìn)行實(shí)時(shí)預(yù)測,并驗(yàn)證了其有效性和可行性。

3 模型設(shè)計(jì)

3.1 基于LDA 的情緒指數(shù)構(gòu)建

LDA 是一種無監(jiān)督學(xué)習(xí)主題模型,無需人工對(duì)訓(xùn)練集進(jìn)行標(biāo)注,僅利用文檔集合就可以依概率分布顯示出每篇文檔的主題。對(duì)于文本的處理以及數(shù)據(jù)的挖掘,LDA 模型是一個(gè)常用的文本建模方法,可以有效地從文本中提取所需的重要信息。對(duì)于文本中隱含情緒的提取以及建模,LDA 模型克服了傳統(tǒng)文本相似度的比較方法中的缺點(diǎn),大幅提升了提取分析的效率。

作為經(jīng)典主題模型之一,LDA 的核心思想是將文檔表示為若干個(gè)潛在的主題,其中每個(gè)主題都通過一定量的單詞來描述,具體而言,通過參數(shù)估計(jì)得到詞匯概率分布,并結(jié)合各文檔主題概率分布進(jìn)行判斷,從而將詞項(xiàng)空間的全部詞匯聚類轉(zhuǎn)移到主題空間中,達(dá)到提取文本主題的目的。通過對(duì)每個(gè)詞w 的主題z進(jìn)行采樣,基于其統(tǒng)計(jì)頻次,計(jì)算得到文本主題k 中的詞項(xiàng)概率分布φk 和第m 篇文檔的主題概率分布θm ,其LDA 聯(lián)合概率為:

在得到文本主題詞匯后,本文使用開源情感分析工具Snownlp 得到其情感評(píng)分,其底層算法為樸素貝葉斯模型。其訓(xùn)練過程實(shí)質(zhì)上是統(tǒng)計(jì)每一個(gè)特征出現(xiàn)的頻次,通過對(duì)文本打上正、負(fù)極性的標(biāo)簽,將每一個(gè)詞匯視作相互獨(dú)立的特征,統(tǒng)計(jì)各個(gè)詞匯特征出現(xiàn)的頻次與訓(xùn)練樣本中的詞匯總數(shù),就可以將情感極性分析任務(wù)轉(zhuǎn)化為一個(gè)貝葉斯分類模型,具體公式為:

其中,c1, c2 為情感極性(積極或消極),w1,w2,…wn為每個(gè)詞匯出現(xiàn)的頻次,即特征n 為詞匯數(shù)。

3.2 基于Auto?Encoder 的特征提取

由于股票市場指標(biāo)種類繁多,需要接受大量輸入信息,而且不同技術(shù)指標(biāo)之間往往存在多重共線性的可能,為降低數(shù)據(jù)維度,提取出原數(shù)據(jù)中最具代表性的信息,壓縮輸入信息量,實(shí)現(xiàn)特征重構(gòu)與特征提取。

本文建立了Auto?Encoder 自編碼器模型,實(shí)現(xiàn)了由高維數(shù)據(jù)到低維數(shù)據(jù)的壓縮編碼。在處理統(tǒng)計(jì)特征的部分,依次完成差分處理、對(duì)數(shù)變換和標(biāo)準(zhǔn)化,提取時(shí)間序列的統(tǒng)計(jì)特征,以Auto?Encoder 模型提取重要因子,并加入模型。

自編碼器(Auto?Encoder, AE)是一種經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,主要由編碼器(Encoder)及解碼器(Decoder)構(gòu)成,其主要原理是將輸入樣本通過編碼器映射至一個(gè)特征空間中,接著通過解碼器將已完成編碼的抽象特征映射回原始空間,以得到重構(gòu)樣本,然后對(duì)比輸入和輸出,使二者不斷逼近,最終實(shí)現(xiàn)特征提取。通過學(xué)習(xí)到的新特征,Auto?Encoder 可以重構(gòu)出原始輸入數(shù)據(jù),解碼成更低維的數(shù)據(jù)。設(shè)輸入樣本為x,抽象特征為y,重構(gòu)樣本為x ,編碼函數(shù)為f(x),解碼函數(shù)為g(x),誤差為e,則有:

3.3 基于LSTM 的股價(jià)波動(dòng)預(yù)測

長短時(shí)記憶網(wǎng)絡(luò)( Long Short?Term Memory,LSTM)是一種深度神經(jīng)網(wǎng)絡(luò)模型,在語音識(shí)別、股指預(yù)測等涉及序列數(shù)據(jù)的任務(wù)中具有相當(dāng)廣泛的應(yīng)用。

LSTM 模型隸屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)的一種,由于其能夠處理長時(shí)序列,比RNN 更適用于處理和預(yù)測時(shí)間序列數(shù)據(jù)。傳統(tǒng)RNN模型試圖通過循環(huán)來讓信息連續(xù)傳遞,然而隨著句子距離的增加,RNN 將難以連接相關(guān)信息,也就是俗稱的遠(yuǎn)程依賴問題,該網(wǎng)絡(luò)的設(shè)計(jì)本意正是希望克服遠(yuǎn)距離依賴問題, 并在各種任務(wù)中取得優(yōu)異表現(xiàn)。

LSTM 模型由遺忘門、輸入門、輸出門3 部分組成,引入了單元狀態(tài)的概念,其模型架構(gòu)為:

其中,σ 為激活函數(shù),W 為權(quán)重矩陣,b 為偏置項(xiàng),ft ,it ,ot 和ct 分別為輸入門、遺忘門、輸出門和單元激活向量,ht 為輸出激活函數(shù)。

近年來, LSTM 受到了很多科學(xué)家的青睞,其在輿情分析任務(wù)中的應(yīng)用均取得了較好的效果,并在多個(gè)領(lǐng)域成為不可替代的一部分。通過LSTM 模型可以準(zhǔn)確捕捉股市輿情間的高階特征交互,并基于反復(fù)迭代訓(xùn)練學(xué)到記憶哪些信息和遺忘哪些信息?;谠冢蹋模?主題模型中得到的關(guān)聯(lián)關(guān)系,結(jié)合股票的發(fā)布時(shí)間、漲跌情況、股民評(píng)價(jià)、公司經(jīng)營狀況等軌跡,預(yù)測其未來的發(fā)展熱度,使用神經(jīng)循環(huán)網(wǎng)絡(luò),能夠更好地?cái)M合波動(dòng)趨勢,誤差較小,預(yù)測精度較高,進(jìn)而為廣大投資者的投資決策提供了一定的輔助參考作用。

4 結(jié)束語

本文主要研究了基于多源異構(gòu)數(shù)據(jù)的股指趨勢預(yù)測,嘗試將股市信息歸納為歷史交易數(shù)據(jù)、量化指標(biāo)數(shù)據(jù)、文本評(píng)論數(shù)據(jù)3 類數(shù)據(jù)源,通過設(shè)計(jì)不同的特征工程手段將不同種類數(shù)據(jù)融合至一處,然后輸入AE?LSTM 模型實(shí)現(xiàn)對(duì)股票指數(shù)波動(dòng)的預(yù)測,有效改進(jìn)了模型效果。同時(shí),通過與若干基線的對(duì)照實(shí)驗(yàn),驗(yàn)證了模型的先進(jìn)性與可行性。

隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展,信息發(fā)布與傳播速度愈發(fā)加快,數(shù)據(jù)量級(jí)呈現(xiàn)出井噴式的增長,導(dǎo)致社會(huì)投資者難以甄別其中的有效信息。然而由于股票市場的復(fù)雜性,歷史交易數(shù)據(jù)、量化指標(biāo)數(shù)據(jù)、文本評(píng)論數(shù)據(jù)均會(huì)影響投資者在股票市場中的決策行為,進(jìn)而對(duì)股票收益率和流動(dòng)性產(chǎn)生影響。因此本文基于前人基礎(chǔ),對(duì)股票的相關(guān)輿論信息進(jìn)行數(shù)據(jù)挖掘,提出了量化數(shù)據(jù)與文本數(shù)據(jù)的融合方法,基于LDA 構(gòu)建文本主題特征,基于AE?LSTM 模型預(yù)測股票價(jià)格走勢,相信未來能夠在股票投資領(lǐng)域發(fā)揮重要作用。

參考文獻(xiàn):

[1] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評(píng)[J].情報(bào)科學(xué),2016,34(8):153?159.

[2] 王超.輿情熱度對(duì)股市收益的影響[D].杭州:浙江大學(xué),2020.

[3] 孫明璇,李莉莉.基于數(shù)據(jù)挖掘的投資者情緒對(duì)股市波動(dòng)影響研究[J].燕山大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2020,21(1):68?77.

[4] 呂華揆,劉政昊,錢宇星,等.異質(zhì)性財(cái)經(jīng)新聞與股市關(guān)系研究[J].?dāng)?shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(1):99?111.

[5] 劉薇,姜青山,蔣泓毅,等.基于FinBERT?CNN 的股吧評(píng)論情感分析方法[J].集成技術(shù),2022,11(1):27?39.

[6] 陳曉美.網(wǎng)絡(luò)評(píng)論觀點(diǎn)知識(shí)發(fā)現(xiàn)研究[D].長春:吉林大學(xué),2014.

[7] 郭光明.基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2017.

[8] 賀雅琪.多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)研究及其應(yīng)用[D].成都:電子科技大學(xué),2018.

作者簡介:葉慕戎(2000—),本科,研究方向:金融數(shù)學(xué)。

猜你喜歡
神經(jīng)網(wǎng)絡(luò)
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識(shí)別上的應(yīng)用研究
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
基于Alexnet神經(jīng)網(wǎng)絡(luò)的物體識(shí)別研究
基于BP神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)血泵生理控制
基于神經(jīng)網(wǎng)絡(luò)MRAS的速度辨識(shí)仿真研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源