劉夢堯, 逄煥利
(長春工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院, 吉林 長春 130102)
據(jù)統(tǒng)計,截止2020年3月,在上海、深圳、香港、紐約等全球15個交易所上市的中國公司總計7 343家,相比2019年初,新增上市公司382家。總市值達105.71萬億,同比增長超過30%。而投資者也越來越多,量化投資進一步引起了投資者的廣泛關(guān)注,投資者在七千多家公司中去選擇能使自己獲得收益的股票,也促使了選股模型的進一步發(fā)展。
多因子選股模型是投資者和投資機構(gòu)應(yīng)用最廣泛的選股模型,這也使得多因子模型不斷發(fā)展和完善?,F(xiàn)今大數(shù)據(jù)時代,股票和股票因子數(shù)據(jù)密度越來越大,對其處理需要合理高效的技術(shù)。而深度學(xué)習(xí)高度依賴數(shù)據(jù),數(shù)據(jù)量越大,表現(xiàn)就越好,深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法更能在處理大數(shù)據(jù),解決復(fù)雜性問題上具有獨特優(yōu)勢。
多因子選股的核心思想在于市場影響因素是多重的,并且是動態(tài)的,但是總會有一些因子在一定時期內(nèi)能發(fā)揮穩(wěn)定的作用。量化實踐中,由于不同市場參與者或分析師對于市場的動態(tài)、因子的理解存在較大差異,因此構(gòu)建出各種不同的多因子模型。
具有代表性的研究有:張偉楠等[1]使用財務(wù)數(shù)據(jù)構(gòu)建一個多因子選股模型,在支持向量機分類上進行預(yù)測優(yōu)化,模型利用支持向量機性質(zhì)提高預(yù)測精度,結(jié)合技術(shù)分析優(yōu)化了策略的收益,為多因子選股和交易提供了新的研究視角。王倫等[2]為了獲取股票市場更高的超額收益,提高股票漲跌預(yù)測準(zhǔn)確率,將gcForest(深度森林)算法引入了股票投資市場,建立基于gcForest多因子量化投資策略,研究表明,gcForest算法在股市行情平穩(wěn)和上漲時期都較其他算法有明顯的優(yōu)勢。葛櫓漠等[3]圍繞多量價因子選股模型,通過因子計算、特征處理、單因子分析以及基于XGBoost機器學(xué)習(xí)的日頻滑動窗口模型搭建,計算出XGBoost模型對股票預(yù)測的準(zhǔn)確度和前100只股票的收益情況,結(jié)果表明,基于XGBoost機器學(xué)習(xí)模型選出的股票組合相對等權(quán)重的多因子選股模型有明顯的改進。楊妥等[4]提出融合情感分析和SVMLSTM特征提取模型的股指預(yù)測方法,以提高股指預(yù)測精度,將SVM和LSTM方法相結(jié)合建立SVMLSTM模型,提取影響股指波動的情感極性特征、漲跌趨勢特征以及股票技術(shù)指標(biāo)特征,進而彌補影響股指波動的存在因素,實現(xiàn)股指預(yù)測。
神經(jīng)網(wǎng)絡(luò)因其對非線性趨近的函數(shù)有很好的處理能力,同時有良好的性能與容錯能力,能夠彌補傳統(tǒng)多因子模型難以處理非線性因子關(guān)系的不足,文中利用神經(jīng)網(wǎng)絡(luò)非線性、學(xué)習(xí)、自組織和自適應(yīng)性等多種特點,有效彌補了傳統(tǒng)金融計量模型的短處,取得了可觀的超額收益。
在我國公募基金市場中,許多的量化投資基金都是基于多因子模型設(shè)立的,在實踐中有非常廣泛的應(yīng)用。多因子模型就是對風(fēng)險和收益關(guān)系進行量化表達,通過尋找影響股票漲跌的共性,尋找市場運行規(guī)律,利用數(shù)據(jù)量化的方法,挖掘能夠?qū)善眱r格變動作出解釋和預(yù)測的因子,進而構(gòu)建模型,將其應(yīng)用到選擇股票和管理風(fēng)險中。
1.2.1 Fama-French三因子模型
在多因子模型被提出之前,CAPM是資產(chǎn)定價的第一范式。然而,自20世紀(jì)70年代以來,學(xué)者們逐漸發(fā)現(xiàn)按照某種風(fēng)格“打包”的股票能夠戰(zhàn)勝市場,其中有Basu發(fā)現(xiàn)的盈利市值比效應(yīng)和Banz發(fā)現(xiàn)的小市值效應(yīng)等,但它們并沒有形成合力。因此CPAM仍是主流。直到Fama E F等[5]整合了之前被提出的多種異象,指出可以建立一個三因子模型來解釋股票回報率。模型認(rèn)為,一個投資組合(包括單個股票)的超額回報率可由它對三個因子的暴露來解釋,這三個因子是:市場資產(chǎn)組合(Rm-Rf)、市值因子(SMB)、賬面市值比因子(HML)。
模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML],
(1)
式中:E[Ri]----股票i的預(yù)期收益率;
Rf----無風(fēng)險收益率;
E[RM]----市場組合預(yù)期收益率;
E[RSMB],E[RHML]----分別為規(guī)模因子(SMB)和價值因子(HML)的預(yù)期收益率;
βi,MKT,βi,SMB,βi,HML----個股i在相應(yīng)因子上的暴露。
Fama三因子模型的構(gòu)建步驟如下:
1)選擇已經(jīng)上市,并且上市時間超過2 a的股票,同時剔除上一年年報中所有者權(quán)益為負(fù)的股票。
2)將入選股票按每年6月的普通股市值從大到小排序,大于50%分位的歸到B組,其余歸到S組。按照上年末的賬面市值比的大小排序,按30%、70%兩個分位,分成三組 L(L,<30%)、M(M,[30%,70%])、H(H,>70%)。將所有既在B組,又在L組的股票分到BL組中,以此類推,將所有股票都分別分到 BL、BM、BH、SL、SM、SH這6個組中,見表1。
表1 股票市值分組表
3)將股票在每年6月份,分別按市值、賬面市值比大小分成5組,交叉取交集,得到25組股票組合,每個組合計算市值加權(quán)月收益率序列。重復(fù)以上過程,得到三因子收益率,以及25組組合的月收益率,將這25組組合的收益率逐組與三因子收益率進行時間序列回歸,并檢驗其結(jié)果。
實驗證明,三因子模型可以很好地解釋股票的平均收益,而且回歸分析的截距接近于0(Alpha接近于0),這意味著市場因子、規(guī)模因子和賬面市值比因子三者一起可以很好地解釋股票市場中的收益。此模型被提出后就逐步取代了CAPM成為資產(chǎn)定價的第一范式。
1.2.2 Carhart 四因子模型
隨著市場交易實踐和研究的不斷深入,研究者又發(fā)現(xiàn)市場中的動量現(xiàn)象無法用三因子模型解釋。1997年,卡哈特(Carhart M M)[6]認(rèn)為研究股票收益應(yīng)在Fama和French的三因子模型基礎(chǔ)上加入動量效應(yīng),構(gòu)建四因子模型,模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML]+
βi,MOME[RMOM],
(2)
式中:E[RMOM]----動量因子的收益率;
βi,MOM----個股i在動量因子上的暴露。
Carhart 四因子模型在Fama三因子模型的基礎(chǔ)上,每月末將所有股票按t-12到t-1這11個月的總收益排序,并通過做多排名前30%,同時做空排名后30%的股票構(gòu)建動量因子。在計算因子收益率時,多空兩頭內(nèi)的股票均采用等權(quán)重配置。
實驗證明,考慮動量因子之后,回歸精確度有所提高。Carhart四因子模型彌補了三因子模型對市場“趨勢效應(yīng)”解釋不足的問題,更全面地評價基金業(yè)績,并且更有效地衡量基金的超額收益能力具有一定的學(xué)術(shù)地位和實踐意義,使投資者能夠簡明直觀地看到目標(biāo)基金的收益和風(fēng)險來源。
1.2.3 Fama-French五因子模型
2015年,F(xiàn)ama E F等[7]在Fama-French三因子模型的基礎(chǔ)上,添加了盈利和投資兩個因子,提出了新的五因子模型,模型公式為
E[Ri]-Rf=βi,MKT(E[RM]-Rf)+
βi,SMBE[RSMB]+
βi,HMLE[RHML]+
βi,RMWE[RRMW]+
βi,CMAE[RCMA],
(3)
式中:E[RRMW],E[RCMA]----分別為盈利因子和投資因子的預(yù)期收益率;
βi,RMW,βi,CMA----分別為個股i在這兩個因子上的暴露。
Fama五因子模型的構(gòu)建與Fama三因子模型類似:
1)完成股票篩選后,選取因子截面數(shù)據(jù)。
2)市值規(guī)模的分組點為中位數(shù),前50%為小規(guī)模組(S),后50%為大規(guī)模組(B),賬面市值比的分組點都為第30個和第70個百分位數(shù),前30%為低賬面市值比組(L),中間40%為中賬面市值比組(N),后30%為高賬面市值比組(H),將市值和賬面市值比兩個指標(biāo)交叉, 可把全體股票分成SH、SN、SL、BH、BN、BL這6個組合。重復(fù)上述步驟, 可把全體股票分成 SR、SN、SW、BR、BN、BW、SC、SN、SA、BC、BN、BA這12個組合, 其中,營運利潤率前30%為盈利疲軟組(W),中間40%為盈利中等組(N),后30%為盈利穩(wěn)健組(R);投資前30%為投資保守組(C),中間40%為投資中等組(N),后30%為投資激進組(A),接下來計算上述各組合每一期的市值加權(quán)平均收益率。
3)分25組回歸的時候,計算組合收益率采用流通市值加權(quán)平均法計算的組合收益率。
結(jié)果顯示該模型增加了企業(yè)的盈利能力因子與投資風(fēng)格因子,提出了五因子模型,并通過實證檢驗發(fā)現(xiàn),在美國股票市場上五因子模型比三因子模型對股票收益率有更好的解釋能力。這兩個因子在理論上同樣有對有價證券收益率的顯著影響。
Fama-French五因子模型以其簡潔優(yōu)美的表述,以及精煉的概括性受到了廣泛應(yīng)用,但其對有價證券的研究也僅限于企業(yè)的基本面因素,并未考慮其他因素對有價證券收益的影響。
2.1.1 數(shù)據(jù)的獲取
量化投資研究需要大量高質(zhì)量的數(shù)據(jù),因此,一個可靠的數(shù)據(jù)來源十分重要。目前,國內(nèi)各大量化交易平臺均提供了較為豐富的數(shù)據(jù),投資者在平臺進行研究時可以免費調(diào)用平臺數(shù)據(jù),文中使用聚寬量化投資中的數(shù)據(jù)來進行研究。
2.1.2 數(shù)據(jù)的預(yù)處理
因子數(shù)據(jù)是多因子選股模型的數(shù)據(jù)基礎(chǔ),只有高質(zhì)量的因子數(shù)據(jù)才能保證研究的準(zhǔn)確性和有效性,所以在模型構(gòu)建前需要對數(shù)據(jù)進行預(yù)處理,以避免金融數(shù)據(jù)行業(yè)偏向等問題對實證研究結(jié)果的客觀性產(chǎn)生影響。
2.1.3 中性化處理
對因子進行中性化是要消除行業(yè)、市值因素對因子測試結(jié)果的影響,如果不剔除行業(yè)和市值的影響,可能會導(dǎo)致選出來的股票集中在某個行業(yè)和某種市值范圍內(nèi),進而導(dǎo)致不能有效地分散風(fēng)險。文中采用因子值為因變量,行業(yè)因子和市值因子分別為自變量構(gòu)建線性回歸方程
(4)
構(gòu)建上述回歸方程后,取殘差項εi作為新的因子值。同理,在進行完行業(yè)中性化后,再進行市值中性化
(5)
式中:λi----殘差項,即經(jīng)過行業(yè)中性化、市值中性化的新的因子值。
每個因子都不可能保證持續(xù)的有效性,因此需要對因子進行測試,表現(xiàn)好的因子保留,不好的剔除,文中將使用IC法、分層回溯法兩種方法對因子進行測試。
2.2.1 IC法
IC值是因子在t期的暴露度與t+1期的資產(chǎn)收益率之間的相關(guān)系數(shù),即
(6)
式中:ri----資產(chǎn)在t+1期的收益率;
IC法用來檢驗因子對于收益預(yù)測能力的強弱。
正向因子的IC值序列如圖1所示。
圖1 total_asset_growth_rate因子IC值序列
圖中上方深色點多余下方深色點,代表該因子為正向因子,表示該因子與收益率是正相關(guān),深色點越多,代表該因子的收益預(yù)測能力更強。
反向因子的IC值序列如圖2所示。
圖2 fifty_two_week_close_rank因子IC值序列
圖中下方深色點多余上方深色點,代表該因子為反向因子,表示該因子與收益率呈負(fù)相關(guān),同樣深色點越多,代表該因子的預(yù)測能力更強。
2.2.2 分層回溯法
分層回溯法可以觀察因子收益率的單調(diào)性。具體方法在t期,根據(jù)因子值對股票(資產(chǎn))進行排序,將結(jié)果五等分,用五等分的結(jié)果構(gòu)建投資組合,計算這五個投資組合在t+1期的收益率;然后在t+1期再次根據(jù)因子值進行股票的排序,將結(jié)果五等分,之后根據(jù)五等分的結(jié)果構(gòu)建投資組合,計算五個投資組合在t+2期的收益率,以此類推。觀察五等分之后的收益率情況,如果五個投資組合的收益率遞減或者遞增的規(guī)律性越強,則該因子的效果越好。
total_profit_growth_rate因子分組組合表現(xiàn)如圖3所示。
圖中五組投資組合收益率的遞增效果明顯,表示該因子的分組能力突出,且該因子與收益率呈正相關(guān)。
經(jīng)過上述因子篩選過程后,選取了選股能力和分組能力相對較好的因子18個,見表2。
圖3 total_profit_growth_rate因子分組組合表現(xiàn)
表2 因子表
神經(jīng)網(wǎng)絡(luò)是通過不同的層次架構(gòu)將神經(jīng)元進行連接運算,從而完成各類復(fù)雜的分類與擬合任務(wù)。神經(jīng)網(wǎng)絡(luò)具有普適性、自適應(yīng)、泛化等優(yōu)勢,可以通過中間層的設(shè)計逼近任意的非線性函數(shù),并且通過對帶有標(biāo)簽的實例數(shù)據(jù)提取相應(yīng)規(guī)則,可以很好地對數(shù)據(jù)中噪聲數(shù)據(jù)進行處理,從而較好地應(yīng)對生活中的復(fù)雜問題。
神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖中,輸入向量為
X=(x1,x2,x3,…,xn)T,
即為股票的因子數(shù)據(jù)。
隱含層向量為
Z= (z1,z2,z3,…,zn)T。
輸出層輸出向量為
Y= (y1,y2,y3,…,yn)T,
圖4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
即對股票的預(yù)測結(jié)果(上漲或下降)。將輸入層與隱含層之間的鏈接權(quán)重矩陣定為W1,隱含層到輸出層之間的權(quán)重矩陣定為W2。
根據(jù)神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,每日買入上漲概率前5%的股票,見表3。
表3 前10大持倉股票
根據(jù)上述基于神經(jīng)網(wǎng)絡(luò)的多因子模型選出的股票,得到回測結(jié)果見表4,
由表4可知,在回測期間,也就是2019年8月至2021年8月,滬深300指數(shù)的累計收益率為60.82%。
表4 策略收益表現(xiàn)
相較于基準(zhǔn)收益率,基于神經(jīng)網(wǎng)絡(luò)的多因子選股模型構(gòu)建的投資組合收益曲線如圖5所示。
圖5 策略收益圖
從圖5可以看出,文中構(gòu)建的選股模型獲得了60.82%的累計收益率,相較于基準(zhǔn)收益率,獲得了28.21%的超額收益率。該策略的阿爾發(fā)值為0.158,表示該策略的超額回報率為0.158;貝塔值為0.942,表示文中策略對大盤變化的敏感性為0.942;夏普比率為1.004,也就是說,在承擔(dān)相對于基準(zhǔn)指數(shù)的總風(fēng)險獲得的超額收益為1.004,即該策略的回報率大于其風(fēng)險;索提諾比率為0.866,即每承擔(dān)一單位的下行風(fēng)險,該策略將會獲得0.866的超額回報率;信息比率為1.224,說明該策略在承擔(dān)主動風(fēng)險所獲得的超額收益為1.224 7;最大回撤為17.30%,表示投資者在策略面對風(fēng)險時的承受能力較好。該投資組合相較于基準(zhǔn)組合的勝率為62.6%。
利用IC法、分層回溯法選取了18個有效因子,使用IC_IR加權(quán)法對因子進行加權(quán),并構(gòu)建了基于神經(jīng)網(wǎng)絡(luò)的量化多因子選股模型。文中在選取有效因子時,除了考慮部分基本面因子,還考慮了動量因子和技術(shù)因子,使策略面對風(fēng)險和市場波動時具有一定的調(diào)整能力。實證分析,文中構(gòu)建的策略獲得了28.21%的超額收益,且具有一定的抵抗風(fēng)險和市場波動的能力,由此可知,根據(jù)神經(jīng)網(wǎng)絡(luò)預(yù)測出的股票組成的投資組合可以獲得更高的收益,神經(jīng)網(wǎng)絡(luò)在量化選股模型上值得進一步研究。