于卓熙,秦 璐,趙志文,溫 馨
(1.吉林財(cái)經(jīng)大學(xué)a.管理科學(xué)與信息工程學(xué)院;b.互聯(lián)網(wǎng)金融重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)春 130117;2.吉林師范大學(xué) 數(shù)學(xué)學(xué)院,吉林 四平 136000)
隨著股市的發(fā)展,國(guó)內(nèi)外學(xué)者提出了許多股票預(yù)測(cè)的方法:(1)傳統(tǒng)投資分析法,主要包括基本分析法和技術(shù)分析法?;痉治龇ㄟm用于周期相對(duì)較長(zhǎng)的證券價(jià)格預(yù)測(cè),以及相對(duì)成熟的證券市場(chǎng)和預(yù)測(cè)精準(zhǔn)度要求不高的領(lǐng)域。技術(shù)分析法更適用于短期行情預(yù)測(cè),但其方法多種多樣,選擇哪一種方法依賴于主觀判斷。多種方法綜合使用,對(duì)使用者要求較高,并且占用大量時(shí)間,影響時(shí)效性[1]。(2)時(shí)間序列分析法,主要包括趨勢(shì)外推法、移動(dòng)平均預(yù)測(cè)法以及指數(shù)平滑法。適用于較為簡(jiǎn)單、平滑的數(shù)列預(yù)測(cè),此方法應(yīng)用簡(jiǎn)單、直觀[1]。(3)非線性系統(tǒng)分析法,主要包括神經(jīng)網(wǎng)絡(luò)。適用于處理類似于股價(jià)預(yù)測(cè)等多因素、不確定、非線性的時(shí)間序列預(yù)測(cè)問(wèn)題,既可以模擬基本分析,也可以模擬技術(shù)分析,具有分布處理、自組織、自適應(yīng)、自學(xué)習(xí)、容錯(cuò)性等優(yōu)良特性。但是該算法本身存在一定的局限性[3],比如神經(jīng)網(wǎng)絡(luò)不能對(duì)輸入變量進(jìn)行選取。如果輸入變量過(guò)多時(shí),就會(huì)使網(wǎng)絡(luò)結(jié)果變得復(fù)雜,從而對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練造成負(fù)擔(dān),進(jìn)而使學(xué)習(xí)速度下降;同時(shí),如果主觀選擇變量,很可能選出與輸出相關(guān)性很小的輸入變量,由于帶有人為的主觀性,會(huì)嚴(yán)重影響神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度[2]。針對(duì)以上神經(jīng)網(wǎng)絡(luò)中的問(wèn)題,結(jié)合Donald(1990)[3]提出的廣義神經(jīng)網(wǎng)(簡(jiǎn)稱GRNN),其是由徑向基函數(shù)引申而來(lái)。與前饋神經(jīng)網(wǎng)絡(luò)相比,有較短的訓(xùn)練時(shí)間和較低的計(jì)算成本以及網(wǎng)絡(luò)計(jì)算結(jié)果能達(dá)到全局收斂而不會(huì)停止在局部收斂的優(yōu)勢(shì)。且只有一個(gè)自由參數(shù)的優(yōu)點(diǎn),決定了該網(wǎng)絡(luò)能夠最大限度地避免人為主觀選擇對(duì)預(yù)測(cè)結(jié)果帶來(lái)影響。
本文運(yùn)用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)模型對(duì)華夏銀行(600015)從2013年3月11日到2015年6月3日內(nèi)的股票數(shù)據(jù)進(jìn)行了驗(yàn)證性測(cè)試與分析。首先運(yùn)用主成分分析法對(duì)影響股價(jià)的因素進(jìn)行降維,避免輸入變量過(guò)多和選擇主觀性問(wèn)題。將主成分分析與廣義回歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測(cè)效果與時(shí)間序列ARIMA模型的預(yù)測(cè)效果進(jìn)行了對(duì)比分析。
確定主成分的方法有兩種,一是通過(guò)選取特征值大于1的指標(biāo)來(lái)選取主成分;二是通過(guò)方差累計(jì)貢獻(xiàn)率來(lái)選取,一般要求選取的主成分的累計(jì)貢獻(xiàn)率大于等于85%。本文通過(guò)第一種方法來(lái)選取影響股價(jià)的主成分。其主要的算法步驟如下:
(1)對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化。目的在于消除原始變量間量綱影響和數(shù)值差異的影響,使得原始數(shù)據(jù)間具有可比性。即:
(2)計(jì)算相關(guān)系數(shù)矩陣。
其中,rij為原始變量xi與xj的相關(guān)系數(shù)。
原變量協(xié)方差矩陣的特征根是主成分的方差,即前m個(gè)較大特征根為前m個(gè)較大主成分方差值;原變量協(xié)方差矩陣前m個(gè)較大特征值所對(duì)應(yīng)的特征向量為相應(yīng)主成分Fi表達(dá)式的系數(shù)。將計(jì)算得出的各主成分得分值作為廣義神經(jīng)網(wǎng)絡(luò)的輸入值。
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是徑向基神經(jīng)網(wǎng)絡(luò)(RBF)的一個(gè)分支,是一種通用的非參數(shù)回歸模型,不像傳統(tǒng)的回歸分析需要先假設(shè)一個(gè)明確的函數(shù)形式,只需要以機(jī)率密度函數(shù)的方式表達(dá)[4]。GRNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的四部分,即分別為輸入層、模式層、求和層和輸出層,如圖1所示。
圖1 廣義回歸神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)
網(wǎng)絡(luò)的輸入為X=[X1,X2,…,Xn-1,…,Xn]T,輸出為Y=[Y1,Y2,…,Yn-1,Yn]T。
(1)輸入層。用來(lái)接收學(xué)習(xí)樣本,并將輸入樣本直接傳送給模式層。
(2)模式層。平滑參數(shù)存在于模式層,模式層中不同的神經(jīng)元對(duì)應(yīng)不同的樣本,該層的傳遞函數(shù)為徑向基函數(shù),即:
其中,X為網(wǎng)絡(luò)輸入變量;Xi為第i個(gè)神經(jīng)元對(duì)應(yīng)的學(xué)習(xí)樣本;σ代表光滑因子[5]。
(3)求和層。對(duì)模式層所有神經(jīng)元的輸出進(jìn)行求和,該層的傳遞函數(shù)也為徑向基函數(shù)。該層中使用兩類神經(jīng)元求和:
一類為:
它對(duì)所有模式層神經(jīng)元的輸出進(jìn)行了算術(shù)求和,其中,模式層和各個(gè)神經(jīng)元的連接權(quán)值為1,傳遞函數(shù)為:
它對(duì)所有模式層神經(jīng)元的輸出進(jìn)行加權(quán)求和,模式層中第i個(gè)神經(jīng)元與求和層中第j個(gè)分子求和,神經(jīng)元之間的連接權(quán)值為第i個(gè)輸出樣本Yi中的第j個(gè)元素[8]。其中傳遞函數(shù)為:
另一類為:
(4)輸出層。該層的函數(shù)為線性函數(shù),對(duì)結(jié)果進(jìn)行輸出,對(duì)應(yīng)的函數(shù)方程為:
本文選取了華夏銀行(600015)從2013年3月11日到2015年6月3日共543個(gè)交易日的數(shù)據(jù),根據(jù)該股票的信息,選取了開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)、成交量、成交金額、每股收益、凈資產(chǎn)收益率、每股凈資產(chǎn)這9項(xiàng)重要指標(biāo)進(jìn)行分析[6]。選擇收盤(pán)價(jià)作為股票價(jià)格預(yù)測(cè)指標(biāo),其他指標(biāo)作為股票價(jià)格的影響因素,數(shù)據(jù)來(lái)源于瑞思金融研究數(shù)據(jù)庫(kù)。部分?jǐn)?shù)據(jù)如表1所示。
表1 華夏銀行在批發(fā)和零售業(yè)的部分?jǐn)?shù)據(jù)
2.2.1 主成分析析結(jié)果
運(yùn)用SPSS軟件對(duì)所有數(shù)據(jù)進(jìn)行分析,從得到的KMO和Bartlett檢驗(yàn)結(jié)果可以看出,原變量之間存在著很顯著的相關(guān)關(guān)系,說(shuō)明存在數(shù)據(jù)冗余,有必要對(duì)這些數(shù)據(jù)指標(biāo)進(jìn)行主成分分析。經(jīng)過(guò)選擇特征值大于1這項(xiàng)指標(biāo)進(jìn)行主成分選擇,并結(jié)合表2所示的解釋總方差,可以看出前兩個(gè)主成分的累計(jì)貢獻(xiàn)率已超過(guò)85%,因此需要提取兩個(gè)主成分。
表2 解釋的總方差
由表3所示的成分矩陣表,可以提取到的主成分公式為:
式(10)和式(11)中F1、F2分別代表兩個(gè)主成分,X1、X2、X3、X4、X5、X6、X7、X8、X9分別代表開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)、成交量、成交金額、每股收益、凈資產(chǎn)收益率、每股凈資產(chǎn)、收盤(pán)價(jià)。
表3 成分矩陣
2.2.2 GRNN預(yù)測(cè)建模
將提取出的兩個(gè)主成分作為PCA-GRNN神經(jīng)網(wǎng)絡(luò)模型的輸入進(jìn)行網(wǎng)絡(luò)訓(xùn)練建模,運(yùn)用交叉驗(yàn)證法選出最優(yōu)的輸入輸出值及最優(yōu)的平滑參數(shù)。經(jīng)過(guò)不斷測(cè)試,最終選擇運(yùn)用4折交叉驗(yàn)證,再將運(yùn)用4折交叉驗(yàn)證選出的最優(yōu)輸入輸出值進(jìn)行歸一化,歸一化的數(shù)據(jù)分布在[-1,1]區(qū)間。運(yùn)用歸一化的輸入輸出值及最優(yōu)平滑參數(shù)進(jìn)行建模,進(jìn)而對(duì)后五天的股票價(jià)格進(jìn)行預(yù)測(cè),此過(guò)程均在Matlab軟件中實(shí)現(xiàn),且得到最優(yōu)的平滑參數(shù)值spread為0.009。數(shù)據(jù)分為兩部分,2013年3月11日到2015年5月29日期間的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,2015年5月30日到2015年6月3日期間的數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。本文選取交叉驗(yàn)證方法的原因是:(1)可以從有限的股票數(shù)據(jù)中獲取到盡可能多的信息;(2)從多個(gè)方向開(kāi)始學(xué)習(xí)樣本的,能夠有效地避免陷入局部最小值;(3)可以在一定程度上避免過(guò)擬合的問(wèn)題。
ARIMA(p,d,q)模型處理的是平穩(wěn)序列。本文中原始數(shù)據(jù)的時(shí)序圖如圖2所示。
圖2 時(shí)序圖
從時(shí)序圖可以看出總體呈上升趨勢(shì),可判斷該序列是非平穩(wěn)序列;需要對(duì)該序列進(jìn)行平穩(wěn)化處理,即需要對(duì)原始序列進(jìn)行差分,差分后的序列為圖3所示。
圖3 三階差分序列圖
根據(jù)差分后序列方差的變化,最終決定選擇三階差分;接著對(duì)差分后的序列進(jìn)行單位根檢驗(yàn),檢驗(yàn)結(jié)果為該序列為平穩(wěn)序列;因此可以根據(jù)該序列進(jìn)行建模。
根據(jù)ACF圖(下頁(yè)圖4)可以看出在3階之后截尾;由PACF圖(下頁(yè)圖5)可以看出5階之后,誤差大部分都在2倍標(biāo)準(zhǔn)差左右,并根據(jù)AIC最小的原則,最終得到的綜合模型為ARIMA(1,3,1)。該模型的方程為:
模型的建模參數(shù)結(jié)果如表4所示。
表4 ARIMA(1,3,1)模型參數(shù)估計(jì)
從表4可以看出回歸系數(shù)均顯著,且擬合優(yōu)度相對(duì)較高為R2=0.980。
運(yùn)用ARIMA模型與基于PCA-GRNN神經(jīng)網(wǎng)絡(luò)模型對(duì)2015年5月28日到2015年6月3日五天的收盤(pán)價(jià)進(jìn)行預(yù)測(cè)。預(yù)測(cè)結(jié)果如表5所示,并對(duì)兩種模型的預(yù)測(cè)結(jié)果進(jìn)行了誤差分析,分析結(jié)果如表6所示,兩種模型對(duì)后五天的股票價(jià)格的預(yù)測(cè)值與真實(shí)值之間的對(duì)比結(jié)果如圖6所示。
圖4 三階差分序列自相關(guān)圖
圖5 三階差分序列偏自相關(guān)圖
表5 預(yù)測(cè)結(jié)果分析
表6 誤差分析結(jié)果
由表5的對(duì)比分析可知,PCA-GRNN神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果比ARIMA模型的預(yù)測(cè)結(jié)果更接近真實(shí)值,說(shuō)明PCA-GRNN是一種較為有效的股票價(jià)格預(yù)測(cè)方法。
從表6可以得出PCA-GRNN模型的均方誤差(MSE)為0.062922,要低于ARIMA模型的均方誤差值(MSE)0.68748;由平均絕對(duì)誤差百分比(MAPE),PCA-GRNN神經(jīng)網(wǎng)絡(luò)模型1.304%的值也明顯低于ARIMA模型的4.522%。說(shuō)明PCA-GRNN模型的預(yù)測(cè)效果要優(yōu)于ARIMA模型。
圖6預(yù)測(cè)值與真實(shí)值的對(duì)比圖
圖6 中,y1表示股價(jià)真實(shí)值,y2表示基于PCA-GRNN模型的預(yù)測(cè)值,y3表示ARIMA模型的預(yù)測(cè)值;橫坐標(biāo)x表示天數(shù),1代表預(yù)測(cè)的第一天即2015年5月28號(hào),依次類推,5代表2015年6月3號(hào)。從圖6可以得出PCA-GRNN神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果趨勢(shì)與真實(shí)值基本一致,且誤差較小,而ARIMA模型的預(yù)測(cè)結(jié)果明顯均高于真實(shí)值,存在較大的誤差。
通過(guò)主成分分析和廣義回歸神經(jīng)網(wǎng)絡(luò)結(jié)合的模型以及時(shí)間序列ARIMA模型對(duì)股票價(jià)格進(jìn)行預(yù)測(cè)分析,結(jié)果表明:基于PCA-GRNN模型的預(yù)測(cè)結(jié)果要優(yōu)于ARIMA模型。這主要是由于股票數(shù)據(jù)是隨機(jī)的、非線性的、不確定的非平穩(wěn)時(shí)間序列,而ARIMA模型屬于線性模型,對(duì)股票價(jià)格預(yù)測(cè)分析這種非線性行為的分析與預(yù)測(cè)存在一定缺陷;而神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近任何非線性連續(xù)函數(shù),同時(shí)它在模擬多變量時(shí),并不需要對(duì)輸入變量做出復(fù)雜的假定,只需依靠觀測(cè)到的數(shù)據(jù),通過(guò)訓(xùn)練得到精確的模型。且廣義回歸神經(jīng)網(wǎng)絡(luò)只有一個(gè)受人為因素影響的參數(shù),大大降低了人為因素帶來(lái)的誤差[7],對(duì)投資者能夠準(zhǔn)確地預(yù)測(cè)股票價(jià)格及更好地把握股票市場(chǎng)的發(fā)展提供了相應(yīng)的參考依據(jù)。