国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于因子偏離度的GBDT 多因子選股模型

2021-02-04 06:53
軟件導(dǎo)刊 2021年1期
關(guān)鍵詞:多因子梯度股票

(上海工程技術(shù)大學(xué)數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620)

0 引言

實(shí)現(xiàn)資產(chǎn)配置的高收益率一直是理論研究和實(shí)際生活中的一大重要目標(biāo)。10 多年來,量化投資成為市場(chǎng)發(fā)展的焦點(diǎn),現(xiàn)階段中國(guó)股市多采用多因子選股模型。

一方面,多因子選股模型可以將基本面因子、技術(shù)面因子等多種研究成果應(yīng)用于選股模型,具有一定包容性,能夠較為準(zhǔn)確地刻畫金融市場(chǎng)運(yùn)行規(guī)律。如國(guó)琳等[1]將盈利能力、償債能力、資產(chǎn)營(yíng)運(yùn)能力、成長(zhǎng)能力4 方面財(cái)務(wù)因子運(yùn)用于股票價(jià)格預(yù)測(cè),用實(shí)證分析說明其研究的實(shí)際價(jià)值;王淑燕等[2]提出八因子選股模型,用隨機(jī)森林算法實(shí)現(xiàn)對(duì)股票漲跌的精確預(yù)測(cè);李斌等[3]以19 個(gè)技術(shù)指標(biāo)作為輸入變量;王云凱等[4]將33 個(gè)股票基本面多因子作為輸入變量,然后分別用不同的機(jī)器學(xué)習(xí)算法預(yù)測(cè)股票數(shù)日后的漲跌;Donaldson 等[5]驗(yàn)證了多因子模型在印度股票市場(chǎng)的有效性。眾多研究表明,通過多因子選股模型選取并構(gòu)建投資組合無疑是主流投資方式。

另一方面,多因子選股是構(gòu)建支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等復(fù)雜量化投資模型的基礎(chǔ)。如黃志輝[6]研究卷積神經(jīng)網(wǎng)絡(luò)在量化選股中的應(yīng)用,研究對(duì)象為滬深300 成分股,證明卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)有效的量化選股模型;李永康[7]利用Logistic 模型對(duì)多因子選股模型進(jìn)行優(yōu)化改進(jìn),對(duì)滬深300 指數(shù)成分股進(jìn)行預(yù)測(cè),獲得較高的超額收益;鄔春學(xué)等[8]將大盤走勢(shì)、K 線、MACD 線、成交量等技術(shù)指 標(biāo)進(jìn)行 處理,基于SVM 算法預(yù)測(cè)股票漲跌。各實(shí)證結(jié)果都證明,多因子量化投資模型能夠有效適用于A 股交易市場(chǎng)。

面對(duì)我國(guó)市場(chǎng)投資規(guī)模不斷擴(kuò)大的現(xiàn)狀,市場(chǎng)發(fā)展驅(qū)動(dòng)因素也復(fù)雜多變,而不同因子之間往往存在復(fù)雜關(guān)系,故因子選擇成為研究難點(diǎn)。

為了有效識(shí)別市場(chǎng)發(fā)展的驅(qū)動(dòng)因素,賈秀娟[9]提出在建立選股模型前利用隨機(jī)森林模型篩選股票因子,提高機(jī)器學(xué)習(xí)模型識(shí)別精度;林娜娜等[10]在A 股股票漲跌預(yù)測(cè)中,首先選擇26 個(gè)指標(biāo)作為初始因子,然后運(yùn)用相關(guān)性分析對(duì)其進(jìn)行篩選,最終確定13 個(gè)因子,通過實(shí)證對(duì)比證明,隨機(jī)森林算法比二元Logistic 回歸的性能穩(wěn)定且優(yōu)越;謝合亮等[11]發(fā)現(xiàn)Lasso 和ElasticNet 模型能夠有效篩選因子,構(gòu)建有效的投資組合,從而幫助投資者獲得更高的超額收益。洪嘉灝[12]經(jīng)過實(shí)證檢驗(yàn)證明,GBDT 模型在股票價(jià)格趨勢(shì)預(yù)測(cè)中具有良好適用性,其策略盈利能力能夠大幅跑贏基準(zhǔn)大盤收益率,對(duì)交易者的投資策略具有一定參考意義;陳子之[13]利用GBDT 模型進(jìn)行地方政府債務(wù)風(fēng)險(xiǎn)預(yù)警,證明GBDT 的可行性和有效性;張瀟[14]提出梯度提升樹組合算法對(duì)股票價(jià)格趨勢(shì)追蹤具有明顯優(yōu)勢(shì);李佩?。?5]指出在量化投資中使用GBDT 模型,能夠帶來很高的超額收益。

此外,GBDT 模型也廣泛應(yīng)用于其它實(shí)際案例。徐英杰等[16]提出一種基于多粒度級(jí)聯(lián)多層梯度提升樹對(duì)選票手寫字符進(jìn)行準(zhǔn)確、快速識(shí)別的算法;歐陽志友等[17]運(yùn)用梯度提升模型進(jìn)行人機(jī)行為識(shí)別;Su 等[18]提出一種基于梯度增強(qiáng)決策樹的GPS 信號(hào)接收分類算法;張紅斌等[19]用極端梯度提升樹算法完成圖像屬性標(biāo)注。這都說明GBDT 模型具有很高的實(shí)用價(jià)值。

因此,本文提出一套基于因子偏離度和梯度提升樹(Gradient Boosted Decision Tree,GBDT)的量化選股模型。利用因子偏離度篩選有效因子,并結(jié)合梯度提升樹模型進(jìn)行預(yù)測(cè)分析,建立有效的投資組合,從而給其它量化選股策略提供思路和借鑒。

1 模型建立

1.1 因子偏離度

因子偏離度(DEV)由董藝婷等[20]提出,能夠衡量因子強(qiáng)度,實(shí)現(xiàn)因子篩選。設(shè)股票池總數(shù)為N,X=(xij)n×p∈Rn×p,xij表示第i只股票某一時(shí)間的第j個(gè)因子。記xi=(xi1,xi2,…,xip)T,表示第i只股票的全部因子,則因子矩陣X為(x1,x2,…,xp);y為[y1,y2,…,yn]T,代表股票月收益率。其計(jì)算過程分為以下兩個(gè)步驟:①將股票池中所有股票按照收益率y從大到小排名,將收益率最高的20%股票組合記作SEThigh-R,收益率最低的后20%股票記作SETlow-R,得到SEThigh-R平均值和SETlow-R平均值之差;②將第i個(gè)因子按照因子值y進(jìn)行從大到小排名,將因子值最高的20%股票組合記作SEThigh-F,收益率最低的后20% 股票記作SETlow-F,得到SEThigh-F平均值和SETlow-F平均值之差。得到第i個(gè)因子的因子偏離度如式(1)所示。

因子偏離度位于[0,1]區(qū)間,其絕對(duì)值越大代表因子強(qiáng)度越高,當(dāng)絕對(duì)值為1 時(shí),代表收益率排名的兩端恰好是因子值排名的兩端。

1.2 梯度提升樹

梯度提升樹(GBDT)是一種集成算法,其基分類器是決策樹,GBDT 算法的核心是在每一次迭代中,后一個(gè)弱分類器訓(xùn)練的是前一個(gè)弱分類器的誤差,且沿著最大下降梯度方向?;贕BDT 算法,可以有效實(shí)現(xiàn)分類和回歸問題,而且不容易出現(xiàn)過擬合現(xiàn)象。

開展抗戰(zhàn)勝利紀(jì)念活動(dòng),目的就是為了挖掘抗戰(zhàn)紀(jì)念設(shè)施、遺址的歷史內(nèi)涵和現(xiàn)實(shí)意義,使保存在博物館里的抗戰(zhàn)革命文物、陳列在廣闊大地上的抗戰(zhàn)遺產(chǎn),記錄在抗戰(zhàn)歷史書籍里的文字都活起來,發(fā)揮其對(duì)內(nèi)對(duì)外多重功能,彰顯抗戰(zhàn)精神的時(shí)代價(jià)值。

設(shè)因子矩陣為X,股票收益率為y。GBDT 算法在尋優(yōu)過程中,GBDT 算法采用前向分段回歸,通過連續(xù)增加一個(gè)新的決策樹以減小誤差函數(shù)值,而不改變現(xiàn)有決策樹的參數(shù),損失函數(shù)L(f)計(jì)算方式如式(2)所示。

當(dāng)算法迭代m次后,樣本的估計(jì)值是m次迭代的累計(jì)和,如式(3)所示。

在第m+1 次迭代時(shí),損失函數(shù)的最大化下降方向是其梯度方向,如式(4)所示。

第m+1 次迭代,最優(yōu)步長(zhǎng)ρm+1的最優(yōu)計(jì)算公式如式(5)所示。

2 實(shí)證分析

2.1 數(shù)據(jù)來源與預(yù)處理

本文以滬深300 指數(shù)成分股數(shù)據(jù)進(jìn)行實(shí)證分析,實(shí)驗(yàn)區(qū)間 為2010 年1 月1 日—2019 年7 月31 日,將2010 年1 月1 日—2013 年12 月31 日作為訓(xùn)練集、2014 年1 月1 日—2015 年12 月31 日作為測(cè)試集、2016 年1 月1 日—2019 年7月31 日作為回測(cè)區(qū)間。

同時(shí),利用量化平臺(tái)優(yōu)礦網(wǎng)站,在考慮成長(zhǎng)性因子、盈利性因子、收益類因子以及市值類因子后,共選取36 個(gè)因子,初始股票因子說明如表1 所示。此外,由于所有因子的量綱存在差異,故將所有因子進(jìn)行Z-score 標(biāo)準(zhǔn)化,如式(7)所示。

Table 1 Initial stock factor description表1 初始股票因子說明

將處理完成的數(shù)據(jù)利用式(1)計(jì)算每個(gè)因子的偏離度,結(jié)果如表2 所示。同時(shí),將因子偏離度進(jìn)行從大到小排序,取前5 個(gè)因子,分別為對(duì)數(shù)總資產(chǎn)(X31)、對(duì)數(shù)市值(X29)、對(duì)數(shù)流通市值(X30)、管理費(fèi)用與營(yíng)業(yè)總收入之比(X9)、市銷率(X35)。

2.2 模型評(píng)價(jià)指標(biāo)

為了分析該模型效果,本文選取年化收益率、基準(zhǔn)年化收益率、阿爾法、貝塔、夏普比率、波動(dòng)率、信息比率、最大回撤、年化換手率作為評(píng)價(jià)指標(biāo),對(duì)模型進(jìn)行綜合評(píng)價(jià)。這些評(píng)價(jià)指標(biāo)均是聚寬、優(yōu)礦等各大量化投資平臺(tái)的常見風(fēng)險(xiǎn)指標(biāo)。

此外,累計(jì)收益率能直接反映在一定交易日內(nèi)投資者按照預(yù)測(cè)方向投資能否帶來收益及帶來多大的收益。因此,它是一個(gè)具有很高實(shí)用性和參考價(jià)值的重要指標(biāo)。

最后,在回測(cè)區(qū)間相同的條件下,將經(jīng)過因子篩選的DEV-GBDT 選股模型和未經(jīng)過因子篩選的GBDT 選股模型進(jìn)行對(duì)比,驗(yàn)證該模型應(yīng)用效果。

Table 2 Factor deviation degree表2 因子偏離度

2.3 模型預(yù)測(cè)結(jié)果

利用因子偏離度確定因子矩陣X,通過交叉驗(yàn)證,在測(cè)試集上確定模型最佳參數(shù)。由于高頻率交易會(huì)帶來過高的手續(xù)費(fèi),因此,實(shí)驗(yàn)采取每個(gè)月的最后一個(gè)交易日進(jìn)行調(diào)倉操作,并在回測(cè)過程中去掉由于停牌或是還沒有上市等而不能交易的股票。實(shí)驗(yàn)中設(shè)定的交易成本,如印花稅、手續(xù)費(fèi)和滑點(diǎn)等采用優(yōu)礦量化平臺(tái)的默認(rèn)值。最后,將DEV-GBDT 策略和GBDT 策略進(jìn)行回測(cè),回測(cè)結(jié)果如表3 所示,DEV-GBDT 策略與GBDT 策略累計(jì)收益率如圖1所示。

Fig.1 Cumulative return rate of DEV-GBDT strategy and GBDT strategy圖1 DEV-GBDT 策略與GBDT 策略累計(jì)收益率

回測(cè)結(jié)果表明,同期以滬深300 指數(shù)的收益率為基準(zhǔn)的年化收益率為0.74%,而DEV-GBDT 策略和GBDT 策略均顯著高于該水平,分別為26.14%和17.53%,而超額收益阿爾法值均在15%在以上。DEV-GBDT 策略不僅年化收益率高于GBDT 策略,而且夏普比率、信息比率、最大回測(cè)均優(yōu)于GBDT 策略,說明前者投資組合方式相對(duì)較好,但存在一定風(fēng)險(xiǎn)。前者累計(jì)收益率也明顯較高,說明經(jīng)過因子偏離度方法篩選因子能獲得更高的超額收益。

Table 3 Backtest results of DEV-GBDT and GBDT表3 DEV-GBDT 策略與GBDT 策略回測(cè)結(jié)果

3 結(jié)語

本文將因子偏離度與梯度提升樹相組合,建立DEVGBDT 多因子選股模型。研究結(jié)果表明,GBDT 策略的收益率遠(yuǎn)超同期的滬深300 指數(shù)基準(zhǔn),能夠獲得很高的超額收益率。同時(shí),DEV-GBDT 策略的年化收益率等各項(xiàng)評(píng)價(jià)指標(biāo)均顯著高于GBDT 策略,說明GBDT 模型在量化投資中具有一定實(shí)用價(jià)值。通過對(duì)比DEV-GBDT 策略和GBDT策略在多因子量化選股中的效果發(fā)現(xiàn),在量化交易市場(chǎng)上,可以通過因子偏離度判別因子強(qiáng)度,降低多因子選股模型中多個(gè)因子之間的復(fù)雜相關(guān)性,從而篩選出更為有效的因子,提高股票預(yù)測(cè)準(zhǔn)確度,建立有效的投資組合。但因子偏離度的GBDT 多因子選股模型在偏離度因子選取以及梯度提升樹算法改進(jìn)方面還存在不足,提高股票預(yù)測(cè)正確率,降低投資風(fēng)險(xiǎn)仍然是當(dāng)前研究重點(diǎn)。

猜你喜歡
多因子梯度股票
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
一種自適應(yīng)Dai-Liao共軛梯度法
基于BP神經(jīng)網(wǎng)絡(luò)的多因子洪水分類研究
基于打分法的多因子量化選股策略研究
一類扭積形式的梯度近Ricci孤立子
基于多因子的ZigBee安全認(rèn)證機(jī)制
本周創(chuàng)出今年以來新高的股票
本周創(chuàng)出今年以來新高的股票
本周連續(xù)上漲3天以上的股票
近期連續(xù)漲、跌3天以上的股票
丰台区| 南雄市| 深州市| 文成县| 康保县| 雷波县| 罗定市| 望都县| 衡东县| 吐鲁番市| 崇阳县| 依兰县| 广南县| 山西省| 嘉祥县| 镇坪县| 阜南县| 翁源县| 祁东县| 龙川县| 黄石市| 海南省| 尼木县| 新营市| 玛沁县| 东安县| 上杭县| 盘锦市| 车致| 鄯善县| 乐业县| 敦化市| 陇南市| 保靖县| 西吉县| 新巴尔虎左旗| 福鼎市| 金秀| 卓尼县| 赤城县| 林西县|