王基厚,林培光,周佳倩,李慶濤,張 燕,蹇木偉
(山東財經(jīng)大學計算機科學與技術學院,濟南 250014)
(?通信作者電子郵箱llpwgh@163.com)
股票市場是國家經(jīng)濟的重要組成部分,股票指數(shù)作為反映股市變化的重要標志,也反映了國家經(jīng)濟發(fā)展變化的情況,同時股票指數(shù)的變化還影響著投資者的經(jīng)濟利益。然而受到政治、軍事、宏觀經(jīng)濟等多種因素的影響,使得股票指數(shù)充滿復雜性,也使準確預測股票指數(shù)成為一個困難的問題。許多學者[1-4]通過增加數(shù)據(jù)特征來應對這種復雜性,提高預測準確率。
有效市場假說的半強勢形式表明,資產(chǎn)價格完全反映了可公開獲得的信息[5]?;谶@個前提,只要有新的信息進入市場,價格就會發(fā)生變化。在市場中,上市公司以定期報告和臨時報告等形式,向投資者和社會公眾公開披露公司及與公司相關的信息。研究表明,財務披露是預測股票指數(shù)變化的一種吸引人的且具有潛在財務回報的手段[6]。因此,本文結合公司披露信息中的財務報表進行股票指數(shù)預測研究。
本文主要工作是提出了一種結合公司披露的財務報表數(shù)據(jù)進行股票指數(shù)預測的方法。該方法在使用股票指數(shù)歷史數(shù)據(jù)進行預測的同時還結合了公司財務報表數(shù)據(jù),并通過降維方法處理公司財務報表數(shù)據(jù)形成的高維矩陣,在減少數(shù)據(jù)噪聲影響的同時,保留對原始數(shù)據(jù)表達最優(yōu)的數(shù)據(jù)特征。該方法通過增加數(shù)據(jù)特征來應對股票指數(shù)波動的復雜性,提高預測的準確性,在滬深300和上證50數(shù)據(jù)集上的實驗結果表明,與其他預測方法相比,本文提出的結合公司財務報表進行股票指數(shù)預測的方法具有較好的預測結果和較高的準確度。
股票市場具有較高的復雜性,影響股票市場的波動存在著多方面的因素,僅僅利用歷史數(shù)據(jù)有局限性,不能完全模擬出復雜的市場變化。國內(nèi)外學者利用金融文本挖掘、金融情緒分析等方法增加數(shù)據(jù)特征來應對這種復雜性。如文獻[1]中提出了一種名為StockAssistant 的股票評論分析方法,該方法綜合考慮股價走勢、評論內(nèi)容、分析師表現(xiàn)等多個因素,對股票評論的可靠性進行建模,并通過真實股票數(shù)據(jù)的交易模擬清楚地驗證了該方法對股票評論可靠性建模的有效性;文獻[2]中通過提取和探索股票的內(nèi)在屬性來增強股票的趨勢預測,并證明了從集體投資行為中提取股票屬性在股票預測任務中的有效性;文獻[3]中提出了一種基于情感分析的金融市場趨勢預測方法,該模型通過對股民評價進行情感分析來提取情感向量和計算情感權重,隨后利用股民情感數(shù)據(jù)和股市歷史數(shù)據(jù)進行預測研究,并通過實驗證明,相比一些傳統(tǒng)模型,該方法在較小的樣本集上依舊有很好的預測效果;文獻[4]中開發(fā)了一種新穎的模糊雙支持向量機,以合并從新聞文章中提取隱藏的主題模型和情感信息,從而預測股價趨勢。
數(shù)據(jù)特征的增多,會帶來大量噪聲,使預測精準度下降,因此需要降維方法來進行特征提取,以減少噪聲。如文獻[7]中使用小波變換來處理高度不規(guī)則的金融時間序列以進行數(shù)據(jù)去噪,該方法可以同時分析金融時間序列的頻率和時間分量;文獻[8-9]中進行金融時間序列預測研究時,均使用主成分分析(Principal Component Analysis,PCA)消除冗余信息,在保留大部分原始數(shù)據(jù)信息的同時,提高了數(shù)據(jù)質(zhì)量和預測響應速度。
近年來,隨著深度學習技術在圖像識別[10-11]、自然語言理解[12-13]、語音識別[14-15]等領域的成功應用,越來越多的研究者在金融時間序列預測領域使用深度學習技術。如文獻[16]中采用多層感知器回歸(MultiLayer Perceptron Regression,MLPR)構建預測模型,并通過實驗驗證了所提出的模型在預測準確性上優(yōu)于比較模型;文獻[17]中提出了一種基于支持向量回歸(Support Vector Regression,SVR)的混合算法,該方法在聚類大量財務時間序列數(shù)據(jù)方面具有巨大潛力,能有效提高預測股價和財務指標的準確性。
在金融時間序列預測領域中,長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡是應用最多的機器學習模型之一。如文獻[18]中結合注意力(Attention)機制將LSTM 用于研究互聯(lián)網(wǎng)金融市場動態(tài)預測問題,并通過實驗驗證了所提模型在該問題上的有效性與穩(wěn)健性;文獻[19-20]中均使用基于變分模態(tài)分解(Variational Mode Decomposition,VMD)和LSTM的金融數(shù)據(jù)預測方法來進行研究,并通過實驗驗證了該模型的優(yōu)越性;文獻[21]中建立了基于LSTM 深度神經(jīng)網(wǎng)絡的高精度金融市場時間序列短期預測模型,并驗證了LSTM 深度神經(jīng)網(wǎng)絡具有較高的預測精度,可以有效地預測股市時間序列。
本文提出的結合公司財務報表的股票指數(shù)預測方法,在考慮股票指數(shù)歷史數(shù)據(jù)的前提下,融入公司財務報表信息的各項財務指標進行股票指數(shù)預測。新加入的財務指標增加了數(shù)據(jù)特征,但是含有大量噪聲,因此需要進行數(shù)據(jù)降維,在消除噪聲的同時,提取出有利于預測的信息。另外,由于股票指數(shù)歷史數(shù)據(jù)和公司財務報表數(shù)據(jù)的時間間隔不同,本文使用了雙通道的LSTM 模型,將兩種數(shù)據(jù)從不同的通道輸入模型。使用該方法在滬深300 和上證50 數(shù)據(jù)集上的預測實驗表明,結合公司財務報表進行股票指數(shù)預測的結果較好,精度提高。
本文提出的結合公司財務報表的股票指數(shù)預測方法如圖1 所示。該方法首先對股票指數(shù)歷史數(shù)據(jù)和公司財務報表數(shù)據(jù)進行預處理,主要是對處理公司財務報表數(shù)據(jù)時生成的高維矩陣進行降維,然后用雙通道的LSTM 對歸一化后的數(shù)據(jù)進行預測研究。本章主要介紹公司財務報表信息中的財務指標選取、多種降維方法和所使用的機器學習方法。
圖1 結合公司財務報表的股票指數(shù)預測方法Fig.1 Stock index forecasting method based on corporate financial statement data
比率分析法是分析公司財務報表最基本的工具,它通過財務報表的有關指標的比率計算來分析公司的經(jīng)營活動以及公司目前和歷史的狀況。該方法主要運用四類比率進行分析,這四類財務比率分別反映了公司的償債能力、運營能力、盈利能力和成長能力。
本文方法運用這四類財務比率中的10 種財務比率進行股票指數(shù)預測研究,分別是反映償債能力的產(chǎn)權比率、資產(chǎn)負債率,反映運營能力的總資產(chǎn)周轉(zhuǎn)率,反映盈利能力的凈資產(chǎn)收益率、總資產(chǎn)凈利率、銷售凈利率,以及反映成長能力的營業(yè)收入增長率、凈利潤增長率、凈資產(chǎn)增長率、總資產(chǎn)增長率。在使用這10 種財務比率時,需要將該數(shù)據(jù)處理成如式(1)所示的形式:
其中,ai.j.k表示截止第i天,公司j的第k種比率。本文使用第T天之前3個季度的公司財務報表數(shù)據(jù)來預測第T天的指數(shù),這三個季度的數(shù)據(jù)分別保存在三個矩陣A中。
將股票指數(shù)歷史信息與財務報表信息相結合進行股票指數(shù)預測研究,在處理財務報表數(shù)據(jù)時會形成如式(1)所示的高維矩陣,雖然能為股票指數(shù)預測提供更豐富的預測信息,但是過高的維數(shù)會帶來大量噪聲,并且會占用大量的存儲空間,使模型運行效率低下,所以需要對高維矩陣進行降維處理,提取出對原始數(shù)據(jù)表達最優(yōu)的數(shù)據(jù)集。
本文分別使用了8 種降維方式來進行實驗對比,分別是等距映射(Isomap)、快速獨立成分分析(Fast Independent Component Analysis,F(xiàn)astICA)、局部線性嵌入(Locally Linear Embedding,LLE)、截斷奇異值分解(Truncated Singular Value Decomposition,TSVD)、t-Distributed 隨機鄰域嵌入(tdistributed Stochastic Neighbor Embedding,t-SNE)、核主成分分析(Kernel Principal Component Analysis,KPCA)、多維縮放(Multiple Dimensional Scaling,MDS)和主成分分析(PCA)。
其中PCA 是最常用的無監(jiān)督降維算法,該方法通過尋找最大方差的方向來進行降維,即通過對特征的協(xié)方差矩陣進行分解來尋找方差最大維度,將多個特征變量轉(zhuǎn)化為少數(shù)幾個主成分,這些主成分之間彼此正交,能反映特征變量的大部分信息,從而達到降維目的。KPCA 是對PCA 的一種推廣。該方法通過非線性變換將原始特征變量映射到高維特征空間,然后在高維特征空間利用PCA 進行特征提取。而TSVD則對特征變量的原始數(shù)據(jù)直接進行奇異值分解,找到其中指定的最大的K個奇異值,從而生成一個指定維度的分解矩陣,以達到降維目的。FastICA 是一種線性盲源分離算法,它通過尋找最大獨立的方向來進行降維,降維后各個成分是獨立的,有利于發(fā)現(xiàn)一些隱藏因素。與PCA 保留數(shù)據(jù)的最大可分性不同,MDS 降維方法更加關注高維數(shù)據(jù)內(nèi)部的特征。使用MDS 降維后的數(shù)據(jù),樣本之間的歐氏距離在低維空間得以保持。與MDS 類似的降維方法是Isomap,這是一種流形學習方法,它與MDS 的不同之處在于計算樣本距離時使用了測地距離。同為流形學習降維方法的是LLE,使用該方法進行降維,可以保持鄰域內(nèi)樣本之間的線性關系,即樣本之間的映射坐標能夠在低維空間中得以保持。另一種流形學習降維方法t-SNE則盡量保證降維前后樣本相互之間的分布概率不變。
降維后的數(shù)據(jù)表示為如式(2)所示的形式:
其中,bi,j表示降維后第i天第j維特征的值。本文使用第T天之前3個季度的公司財務報表數(shù)據(jù)來預測第T天的指數(shù),這三個季度的數(shù)據(jù)降維后分別保存在三個矩陣B中。從這三個矩陣B中分別取出第T行數(shù)據(jù)表示為c1、c2和c3,依式(3)所示組成矩陣cT,其中下標1、2、3 分別表示第幾個季度。要使用cT對第T天的指數(shù)進行預測,需要對cT進行歸一化以消除變量間的量綱關系。歸一化計算方式如式(4)所示:
其中:yi表示歸一化后的數(shù)據(jù),xi表示歸一化前的數(shù)據(jù),xmin表示數(shù)據(jù)集中的最小值,xmax表示數(shù)據(jù)集中最大值。
本文方法使用雙通道的LSTM(如圖2 所示)進行股票指數(shù)預測。雙通道的LSTM 模型擁有兩個輸入層,可以將時間跨度不同的兩組數(shù)據(jù)輸入到模型中,每個輸入層分別與一層LSTM網(wǎng)絡層相連接,在LSTM層之后加入Dropout層來防止過擬合,然后連接共享網(wǎng)絡層將兩種信息融合。共享網(wǎng)絡層之后再連接一層LSTM網(wǎng)絡層,并在LSTM層之后也加入Dropout層來防止過擬合。最后連接一個Dense輸出層以輸出結果。
圖2 雙通道的LSTMFig.2 Dual-channel LSTM
LSTM[22]是一種時間循環(huán)神經(jīng)網(wǎng)絡,是目前在金融時間序列預測領域中應用最多的機器學習模型之一。LSTM 的優(yōu)越之處在于,它特有的“三門”結構,使它不必像常規(guī)循環(huán)神經(jīng)網(wǎng)絡(Rerrent Neural Network,RNN)那樣在實際使用過程中面臨梯度消失的問題,也使它能更好地處理長期依賴問題。LSTM 的“三門”結構包括遺忘門(ft決定丟棄信息)、輸入門(it決定更新信息)和輸出門(ot決定輸出信息),具體情況如圖3所示。如圖3 所示,t時刻的輸入xt與上一時刻的輸出ht-1先經(jīng)過遺忘門的sigmoid單元來決定LSTM 單元狀態(tài)需要丟棄哪些信息,然后經(jīng)過輸入門的sigmoid 單元來決定LSTM 單元狀態(tài)需要更新哪些信息,并通過一個tanh 層得到新的候選單元信息。舊的單元狀態(tài)Ct-1根據(jù)上述信息來更新為新的單元狀態(tài)Ct。最后xt與ht-1經(jīng)過輸出門的sigmoid 單元來決定LSTM 單元輸出狀態(tài)Ct的值ht。這一過程的計算公式如式(5)~(10)所示:
圖3 LSTM的內(nèi)部結構Fig.3 Internal structure of LSTM
其中:σ表示sigmoid 激活函數(shù);Wf、Wi、WC、Wo是權重矩陣;bf、bi、bC、bo是相應的偏差矩陣。
本文使用均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)對本文所提方法的性能進行定量評價。式(11)~(13)是這三種標準的計算方式。
本文使用的數(shù)據(jù)集為上證50指數(shù)和滬深300指數(shù)的股票指數(shù)歷史數(shù)據(jù)以及兩者成分股中的上市公司的財務報表數(shù)據(jù)。其中,上證50 指數(shù)的股票指數(shù)歷史數(shù)據(jù)選用的日期為2015 年1 月5 日至2019 年12 月31 日(共1 219 個交易日);滬深300 指數(shù)的股票指數(shù)歷史數(shù)據(jù)選用的日期為2017 年1 月3日至2019 年12 月31 日(共731 個交易日)。本文使用的股票指數(shù)歷史數(shù)據(jù)包括開盤價、最高價、最低價、收盤價、成交量、成交金額和漲跌幅。在將數(shù)據(jù)整理成監(jiān)督學習形式后,使用前80%個樣本的數(shù)據(jù)作為訓練集,其余20%個樣本的數(shù)據(jù)作為測試集。數(shù)據(jù)來源為銳思金融數(shù)據(jù)庫(www.resset.com)。
本節(jié)旨在研究在處理公司財務報表數(shù)據(jù)過程中,不同降維方法對預測結果的影響,找出使預測結果最優(yōu)的降維方法。實驗中使用的降維方法分別是FastICA、Isomap、KPCA、LLE、MDS、PCA、t-SNE 和TSVD。實驗結果如表1 所示:在上證50數(shù)據(jù)集(SSE 50)上,使用PCA 降維方法的RMSE 值最小,使用TSVD 降維方法的MAE 值和MAPE 值最??;在滬深300數(shù)據(jù)集(CSI 300)上,使用TSVD 降維方法的誤差最小,預測最精準。綜合來看,TSVD 降維方法的效果最好,在后續(xù)的對比實驗當中,將使用以TSVD方法降維的LSTM-TSVD模型進行對比。
表1 不同降維方法的預測效果對比Tab.1 Comparison of prediction effects of different dimension reduction methods
本文實驗中使用第T天之前5 天的股票指數(shù)歷史數(shù)據(jù)和第T天之前3 個季度的公司財務報表數(shù)據(jù)來預測第T天的指數(shù)收盤價。實驗中batch_size 為128,epoch 為300。為驗證本文方法的可行性與高效性,使用LSTM、CNN-LSTM、LSTMAttention和VMD-LSTM方法進行對比實驗。其中,CNN-LSTM是由CNN 與LSTM 組成的混合網(wǎng)絡,LSTM-Attention 是在LSTM 網(wǎng)絡中加入注意力機制的預測模型,VMD-LSTM 是一種以VMD方法處理數(shù)據(jù)并結合LSTM進行預測的方法。為了更直觀地對比各個模型在不同數(shù)據(jù)集上的實驗結果,本文選擇了部分實驗預測結果展示在圖4 和圖5 中,從中可以看出,LSTM-TSVD模型的擬合效果優(yōu)于其他方法。
圖4 上證50指數(shù)測試集上的部分預測結果Fig.4 Partial prediction results on SSE 50 Index test set
圖5 滬深300指數(shù)測試集上的部分預測結果Fig.5 Partial prediction results on CSI 300 Index test set
各模型在不同數(shù)據(jù)集上的評價指標如表2 所示。由表2可以看出,LSTM-TSVD 方法的所有評價指標均小于其他方法,說明與表2中其他預測方法相比,LSTM-TSVD方法的預測效果最好。
表2 各模型預測效果對比Tab.2 Comparison of prediction effects of different models
本文提出的結合公司財務報表的股票指數(shù)預測方法,在考慮股票指數(shù)歷史數(shù)據(jù)的同時,融入了公司財務報表信息的財務指標進行股票指數(shù)預測。新加入的數(shù)據(jù)增加了數(shù)據(jù)的特征數(shù)量,提供了更多的信息以應對復雜的股票指數(shù)變化。在處理公司財務報表數(shù)據(jù)時,諸多降維方法中,使用TSVD 降維方法的預測效果最好。另外,本文使用了雙通道的LSTM 模型,將時間間隔不同的股票指數(shù)歷史數(shù)據(jù)和公司財務報表數(shù)據(jù)從不同的通道輸入模型。在滬深300和上證50數(shù)據(jù)集上的實驗結果表明,結合公司財務報表進行股票指數(shù)預測的結果較好,精度較高。今后的工作將將嘗試將更多的股票信息數(shù)據(jù)融合到一起,在現(xiàn)有工作的基礎上加入如股民情感信息、新聞信息等。