顧書豪 羅效禹 何江 西華大學(xué)經(jīng)濟(jì)學(xué)院
中國的第一份股指期貨合約滬深300股指期貨合約于2010年4月16日推出。在這之后,隨著金融市場的不斷完善,相繼推出了兩種股指期貨,包括上證50股指期貨和中證500股指期貨。由于股指期貨市場流動(dòng)性差,市場主體無法對(duì)沖風(fēng)險(xiǎn)?;诖耍瑖鴥?nèi)學(xué)者圍繞股指期貨展開了大量研究,盡管少數(shù)學(xué)者研究證實(shí)推廣股指期貨會(huì)降低股市波動(dòng)的影響,但仍對(duì)能否穩(wěn)定股市功能存在學(xué)術(shù)爭議?,F(xiàn)有對(duì)股指期貨的研究多集中于期貨的價(jià)格發(fā)現(xiàn)功能和波動(dòng)溢出效應(yīng),使用的方法也是基于傳統(tǒng)的計(jì)量模型。隨著互聯(lián)網(wǎng)時(shí)代的不斷發(fā)展,更多的學(xué)者開始將機(jī)器學(xué)習(xí)、人工智能引入金融領(lǐng)域,這在股票市場、匯率市場開始出現(xiàn),但對(duì)于股指期貨市場的價(jià)格走勢預(yù)測還相對(duì)較少。
事實(shí)上,現(xiàn)在有大量的國內(nèi)外學(xué)者開始在金融領(lǐng)域通過在傳統(tǒng)計(jì)量模型的基礎(chǔ)上,加入機(jī)器學(xué)習(xí)進(jìn)行研究,為資本市場的價(jià)格走勢預(yù)測提供新的方向。Galeshchuk(2016)的研究通過描述和實(shí)證檢驗(yàn)外匯市場數(shù)據(jù)發(fā)現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)的經(jīng)濟(jì)目的。對(duì)匯率的面板數(shù)據(jù)(USD/EUR,JPY/USD,USD/GBP)進(jìn)行了檢驗(yàn),并利用神經(jīng)網(wǎng)絡(luò)對(duì)時(shí)間序列進(jìn)行了優(yōu)化預(yù)測。Hew(2020)等人應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(ANN)來研究驅(qū)動(dòng)移動(dòng)社交商務(wù)的阻力。Lahmiri等人在金融數(shù)據(jù)分類中使用了集成學(xué)習(xí)。Lei(2020)等人提出了一種時(shí)間驅(qū)動(dòng)的特征感知聯(lián)合深度強(qiáng)化學(xué)習(xí)(DRL),用于金融信號(hào)表示和算法交易。Sermpinis(2013)等人引入了一種基于粒子群優(yōu)化和自適應(yīng)徑向基函數(shù)(ARBFPSO)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和用于財(cái)務(wù)預(yù)測的神經(jīng)網(wǎng)絡(luò)適應(yīng)度函數(shù)。這是通過標(biāo)桿ARBF-PSO的結(jié)果與三種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)(最近鄰算法(k-NN),自回歸移動(dòng)平均模型(ARMA),移動(dòng)平均收斂/輻散模型(MACD))的結(jié)果實(shí)現(xiàn)。Wang(2020)等人提出了一種由長短期記憶網(wǎng)絡(luò)和均值-方差模型組成的混合方法,結(jié)合資產(chǎn)預(yù)選優(yōu)化投資組合的形成,從而捕獲金融時(shí)間序列數(shù)據(jù)的長期依賴性。該實(shí)驗(yàn)使用了1994年3月至2019年3月期間英國證券交易所100指數(shù)的大量樣本數(shù)據(jù)。研究發(fā)現(xiàn),長短時(shí)記憶網(wǎng)絡(luò)適用于金融時(shí)間序列預(yù)測,比其他基準(zhǔn)模型具有明顯的優(yōu)勢。在國內(nèi),眾多學(xué)者也開始將機(jī)器學(xué)習(xí)的方法運(yùn)用到了金融領(lǐng)域之中。張瑞(2020)基于網(wǎng)絡(luò)搜索數(shù)據(jù),針對(duì)部分商品零售價(jià)格指數(shù)的非線性變化,采用支持向量機(jī)(SVR)對(duì)商品的零售價(jià)格指數(shù)進(jìn)行預(yù)測。包振山等(2020)提出利用長短期記憶細(xì)胞神經(jīng)網(wǎng)絡(luò)(LSTM)預(yù)測中證500股票未來價(jià)格,并在此基礎(chǔ)上,又運(yùn)用遺傳算法進(jìn)行調(diào)參,進(jìn)一步提高了預(yù)測效果。戴德寶等(2019)利用文本挖掘技術(shù)和情感分析方法生成情緒時(shí)間序列數(shù)據(jù),用支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)預(yù)測股票市場價(jià)格變化。楊康等(2017)提出利用基于細(xì)粒度演化超網(wǎng)絡(luò)的股票預(yù)測方法,對(duì)證券年報(bào)數(shù)據(jù)進(jìn)行處理,并預(yù)測其中的股票走勢。
預(yù)測股票的漲跌趨勢本質(zhì)上是一個(gè)二類分類問題。邏輯回歸、費(fèi)歇判別分析、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等方法在價(jià)格走勢預(yù)測中較為常見。由于支持向量機(jī)不能提供類概率估計(jì),費(fèi)歇判別分析需要對(duì)輸入特征作正態(tài)分布假定,人工神經(jīng)網(wǎng)絡(luò)因?yàn)樵胍衾鄯e、非平穩(wěn)特征和復(fù)雜維數(shù)在學(xué)習(xí)方式上有限制等原因產(chǎn)生不穩(wěn)定的預(yù)測精度,故本文采用既能提供類概率估計(jì)又能提高預(yù)測精度的邏輯回歸模型作為二類分類函數(shù)。
邏輯分布是一種連續(xù)型的概率分布,其分布函數(shù)和密度函數(shù)分別為:
其中,μ表示位置參數(shù),γ > 0為形狀參數(shù)。
邏輯分布是由其位置和尺度參數(shù)定義的連續(xù)分布。邏輯分布的形狀與正態(tài)分布的形狀相似,但是邏輯分布的尾部更長,所以我們可以使用邏輯分布來建模比正態(tài)分布具有更長尾部和更高波峰的數(shù)據(jù)分布。
邏輯回歸主要用于二分類問題,即對(duì)于所給數(shù)據(jù)集假設(shè)存在一條直線可以將數(shù)據(jù)完成線性可分,如圖1所示。
圖1 數(shù)據(jù)集
決策邊界表示為:w1x1+w2x2+b=0。假設(shè)某個(gè)樣本點(diǎn)hw(x)=w1x1+w2x2+b>0,則可判斷類別為1,邏輯回歸在此基礎(chǔ)之上,還要找到分類概率P(Y=1)與輸入向量x的直接關(guān)系,通過比較概率值來判斷類別。考慮到本文數(shù)據(jù)集所采用的二分類問題,給定數(shù)據(jù)集:
考慮到wTx+b取值是連續(xù)的,因此它不能擬合離散變量??捎盟鼇頂M合條件概率P(Y=1|x),因?yàn)楦怕实娜≈凳沁B續(xù)的。但對(duì)于ω≠0,wTx+b取值為R,不符合概率取值從0到1,故采用廣義線性模型。最理想的單位階躍函數(shù):
但這個(gè)階躍函數(shù)不可微,取對(duì)數(shù)幾率函數(shù)去替代該函數(shù):
將y視為x為正例的概率,則1-y為x為其反例的概率。兩者的比值稱為幾率,特指該事件發(fā)生概率與不發(fā)生概率的比值,若事件發(fā)生的概率為p。則對(duì)數(shù)幾率:
將y視為類后驗(yàn)概率估計(jì),重新書寫公式有:
即對(duì)數(shù)幾率輸出為Y=1是由線性函數(shù)輸入x表示的模型,這也就是邏輯回歸模型。當(dāng)wTx+b得的值越接近正無窮,P(Y=1|x)概率值也就越接近1。
在統(tǒng)計(jì)學(xué)中,經(jīng)常使用極大似然估計(jì)法來求解,通過找到一組參數(shù),在這組參數(shù)下,使得數(shù)據(jù)的似然度最大。設(shè):
似然函數(shù):
為了便于求解,在等式兩邊取對(duì)數(shù),寫做對(duì)數(shù)似然函數(shù):
損失函數(shù)是衡量模型預(yù)測錯(cuò)誤的程度。若取整個(gè)數(shù)據(jù)集上的平均對(duì)數(shù)似然損失,可得到:
由此式可知,在邏輯回歸模型中,最大化似然函數(shù)和最小化損失函數(shù)實(shí)際上是等價(jià)的。
求解邏輯回歸模型的方法有很多種,本文采用了梯度下降算法。邏輯回歸的損失函數(shù)是:
梯度下降算法通過J(w)對(duì)w的一階導(dǎo)數(shù)來找下降方向,并以迭代的方式來更新參數(shù),更新方式為:
數(shù)據(jù)選用中證500股指期貨從2015年4月16日9點(diǎn)14分到2016年12月30日14點(diǎn)59分的開盤價(jià)、最高價(jià)、最低價(jià)、收盤價(jià)、成交量的每分鐘數(shù)據(jù),共84328行有效數(shù)據(jù)。首先對(duì)數(shù)據(jù)進(jìn)行簡要分析,圖2和圖3為2015年4月16日9點(diǎn)14分 到2016年12月30日14點(diǎn)59分中證500股指期貨的對(duì)數(shù)收益率極其波動(dòng)率。
圖2 對(duì)數(shù)收益率
從圖3可以看出,中證500股指期貨的對(duì)數(shù)收益率2015年到2016年12月間在1500-3500之間波動(dòng),且在2015年6月到8月價(jià)格水平波動(dòng)較大,出現(xiàn)峰值之后開始下降;2015年9月至2016年12月在一個(gè)較低的價(jià)格水平內(nèi)波動(dòng),沒有明顯的上升趨勢。波動(dòng)率主要波動(dòng)幅度集中在(0.000,0.003)之間。將對(duì)數(shù)收益率與正態(tài)分布圖相比中證500股指期貨對(duì)數(shù)收益率呈現(xiàn)出尖峰后尾的特征,符合金融數(shù)據(jù)的波動(dòng)特點(diǎn)(見圖4)。
圖3 對(duì)數(shù)收益率的波動(dòng)率
圖4 中證500股指期貨對(duì)數(shù)收益率正態(tài)分布圖
其次,將中證500股指期貨指數(shù)前一天的最高價(jià)、開盤價(jià)、最低價(jià)、成交量作為邏輯回歸的4個(gè)技術(shù)指標(biāo),將后一天股指期貨收盤價(jià)的預(yù)測作為輸出結(jié)果,將原始數(shù)據(jù)集按照8:2的比例隨機(jī)分成訓(xùn)練集和測試集。表1是5個(gè)指標(biāo)的描述統(tǒng)計(jì)量,從表1可知,5個(gè)指標(biāo)標(biāo)準(zhǔn)差和均值均較大,且收盤價(jià)最大值為3564.6,最小值為1793,成交量每天最小成交1筆,最多成交8287筆,具體情況如表1。
表1 5個(gè)技術(shù)指標(biāo)的描述統(tǒng)計(jì)量
表示股指的漲跌趨勢,則建模股指漲跌趨勢的邏輯回歸模型可以表示為:
其中β=(β0,β1,…,β5)T
按照上文對(duì)邏輯回歸模型的分析與建立,對(duì)中證500股指期貨指數(shù)2015年4月16日9點(diǎn)14分到2016年12月30日14點(diǎn)59分的全部數(shù)據(jù)進(jìn)行整體回歸分析預(yù)測,得到的回歸預(yù)測擬合結(jié)果如圖5所示。從圖中可以看出擬合值與真實(shí)值基本重合,表示擬合效果良好,得到的均方誤差為1.430,部分預(yù)測值與真實(shí)值比較如表2所示。
圖5 整體回歸擬合圖
表2 部分預(yù)測值與真實(shí)值比較
股指期貨于2011年4月推出,相對(duì)于股票發(fā)展時(shí)間較短。針對(duì)于股指期貨的研究也大多是對(duì)股指期貨的市場波動(dòng)進(jìn)行研究,對(duì)于股指期貨本身的預(yù)測問題相對(duì)較少,且多用計(jì)量統(tǒng)計(jì)的辦法進(jìn)行預(yù)測,但多是使用傳統(tǒng)的線性經(jīng)濟(jì)學(xué)模型,不能應(yīng)對(duì)非線性的股指期貨市場。隨著互聯(lián)網(wǎng)時(shí)代的發(fā)展,人工智能、機(jī)器學(xué)習(xí)開始大范圍應(yīng)用于金融預(yù)測方面的研究。本文采取2015年4月16日9點(diǎn)14分到2016年12月30日14點(diǎn)59分的分鐘數(shù)據(jù)建立邏輯回歸模型,利用最高價(jià)、最低價(jià)、收盤價(jià)、開盤價(jià)、成交量為樣本數(shù)據(jù),在預(yù)測前對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)其呈尖峰后尾的分布,符合金融數(shù)據(jù)的特征。為了證明邏輯回歸模型的預(yù)測效果,將原始數(shù)據(jù)集按照8:2的比例隨機(jī)分成訓(xùn)練集和測試集,通過python編程得到邏輯回歸模型進(jìn)行預(yù)測,由得到的擬合結(jié)果可知邏輯回歸模型在股指期貨的預(yù)測中效果良好。但由于存在觀測值缺陷,數(shù)據(jù)量不大,沒有用同一數(shù)據(jù)集與其他模型進(jìn)行對(duì)比,因此還需要大量的后續(xù)研究來得出更加精確合理的預(yù)測模型。