何英潔 王世民
(北京工商大學(xué)電商與物流學(xué)院 北京 100048)
混合型基金作為開放式證券基金的一種,因其復(fù)雜多變的組織形式和介于股票和債券之間的投資風(fēng)險(xiǎn)受到廣大人名群眾的追捧。同時(shí)在推動(dòng)我國(guó)經(jīng)濟(jì)發(fā)展之中,相對(duì)于股票的不穩(wěn)定性而言,數(shù)量龐大的混合型基金以其靈活多變的投資風(fēng)格也發(fā)揮著更大的作用。基金市場(chǎng)作為一個(gè)開放性的大市場(chǎng),不僅受到系統(tǒng)性的風(fēng)險(xiǎn),還受到投資者心理,基金公司財(cái)務(wù)狀況等非系統(tǒng)性的風(fēng)險(xiǎn)。因此,大多數(shù)的基民在投資基金時(shí),往往很難選擇,或者人云亦云,造成了巨大的損失,也造成了我國(guó)證券市場(chǎng)的不健康發(fā)展。
混合型基金凈值波動(dòng)的研究主要集中在對(duì)基金預(yù)測(cè)方法的應(yīng)用上,如于立媛、宋鋒把灰色模型與馬爾科夫鏈組合起來,其組合模型要優(yōu)于單一的灰色模型[1];向瑩、王雅萍把ARIMA 模型應(yīng)用到華安上證180ETF、預(yù)測(cè)效果較好[2];肖國(guó)榮證明了改進(jìn)型BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度要優(yōu)于傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)[3];翟育明、鄒亞平、周俊文、馮旖旎提出將遺傳算法(GA)與傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)組合成一種自適應(yīng)遺傳神經(jīng)網(wǎng)絡(luò)模型來對(duì)基金凈值進(jìn)行了預(yù)測(cè)[4];何樹、紅吳迪、張?jiān)虑镒C明了RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果要優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)[5];崔琳證明了PSO優(yōu)化后RBF 神經(jīng)網(wǎng)絡(luò)模型要優(yōu)于傳統(tǒng)的BP、RBF模型[6]。喬寶明、黃晶、范雯將改進(jìn)的小波閾值理論與自回歸模型相結(jié)合,其預(yù)測(cè)效果要優(yōu)于單一的自回歸模型[7];景陽將小波分解理論與多元回歸算法相結(jié)合成一種新的基金預(yù)測(cè)模型,其預(yù)測(cè)效果要好于傳統(tǒng)ARMA、小波去噪自回歸模型[8]。綜上所述,這些方法主要集中在對(duì)方法的改進(jìn)以及應(yīng)用上,但是實(shí)際的應(yīng)用場(chǎng)景并沒有考慮?;鸬姆N類繁多,指標(biāo)和方法的選擇不當(dāng)會(huì)影響預(yù)測(cè)的精度,甚至是導(dǎo)致預(yù)測(cè)失敗。
在結(jié)合前人對(duì)于基金凈值預(yù)測(cè)研究的基礎(chǔ)上,提出將隨機(jī)森林算法與改進(jìn)型的BP神經(jīng)網(wǎng)絡(luò)組合成RF-BP 模型來對(duì)混合式基金進(jìn)行預(yù)測(cè)。結(jié)果證明該模型對(duì)于混合型基金凈值的預(yù)測(cè)要優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。
隨機(jī)森林算法能夠處理高維度的數(shù)據(jù),且具有較強(qiáng)的泛化性,能夠兼顧基金凈值各影響指標(biāo)之間的耦合作用,消除冗余度大和不相關(guān)的屬性。采用隨機(jī)森林算法從構(gòu)建的特征庫中,能夠篩選出對(duì)基金凈值有重要影響的指標(biāo)。
選擇分類回歸樹(CART)作為決策森林的基樹。采用MSE(均方誤差)作為結(jié)點(diǎn)分裂的依據(jù)來搭建隨機(jī)森林做特征重要性度量。計(jì)算方法如下[9~10]:
1)對(duì)于隨機(jī)森林中的每一棵回歸樹,使用相應(yīng)的OOB(袋外數(shù)據(jù))數(shù)據(jù)來計(jì)算它的誤差(預(yù)測(cè)值與真實(shí)值之間的誤差),記為error1。袋外數(shù)據(jù)指的是,每次建立決策樹時(shí),以重復(fù)抽樣的方式得到一批數(shù)據(jù)用于訓(xùn)練決策樹,最終會(huì)留下大約1/3 的袋外數(shù)據(jù)沒有被利用。
2)隨機(jī)對(duì)袋外數(shù)據(jù)D2的所有樣本的特征加入噪聲干擾(隨機(jī)改變樣本在特征x 處的值),再次計(jì)算袋外數(shù)據(jù)誤差,記為而error2。
3)假設(shè)我們構(gòu)造的隨機(jī)森林有n 棵基樹,則特征的重要性為
feature_importances=∑(abs(error2-error1))/n
用它來判斷每個(gè)特征的重要性,是因?yàn)樵诩尤腚S機(jī)噪聲后,袋外數(shù)據(jù)(OOB)的準(zhǔn)確率會(huì)大幅度減少,減少越多說明對(duì)預(yù)測(cè)結(jié)果的影響越大,就越重要。
4)利用上述方法計(jì)算出所有特征的重要性,并按升序進(jìn)行排列,然后采用后向迭代的方法,每次去掉一個(gè)重要性最低的特征,再對(duì)剩余的特征進(jìn)行重要性評(píng)估,重復(fù)進(jìn)行上述操作,直到遍歷完所有特征,然后選取袋外誤差最?。∣OB_SCORE_分?jǐn)?shù)最高)時(shí)的特征,作為最后選定的指標(biāo)體系。
利用隨機(jī)森林對(duì)特征進(jìn)行提取后,采用BP 神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型,相較于ARIMA、灰色模型、回歸模型[3],其能夠較好地?cái)M合出基金凈值的波動(dòng)規(guī)律。
BP 神經(jīng)網(wǎng)絡(luò)是一種按預(yù)測(cè)誤差不斷進(jìn)行反向調(diào)節(jié)的多層前饋神經(jīng)網(wǎng)絡(luò)。其結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
針對(duì)傳統(tǒng)的BP算法,訓(xùn)練時(shí)間長(zhǎng)、梯度消失造成訓(xùn)練失敗等問題,本研究采用改進(jìn)型的BP算法,以變學(xué)習(xí)率動(dòng)量梯度下降算法為優(yōu)化算法,TANSIG 為輸出層到隱層的激活函數(shù),PURELIN 為隱層到輸出層的激活函數(shù),經(jīng)證明,在隱層采用S 型函數(shù),在輸出層采用線性函數(shù)具有逼近任何連續(xù)函數(shù)的特性。其算法又分為前向傳遞和后向傳遞兩部分,如過程1)、2)所示。設(shè)有12個(gè)特征變量Xi(i=1,2…12),一個(gè)輸出Y,共有(Xik,Yk)(k=1,2,…N)個(gè)樣本,隱藏層節(jié)點(diǎn)輸入O(j(1)),輸出為Oj(j 為隱藏層節(jié)點(diǎn)數(shù)),隱藏層和輸出層偏置bj和b2。
1)前向傳遞過程如下:
隱藏層輸入為
隱藏層輸出為
輸出層為
隱層激活函數(shù)(TANSIG)
輸出層激活函數(shù)(PURELIN)
平方誤差公式為(MSE)[11]
其中Yk(t)為網(wǎng)絡(luò)實(shí)際輸出。可具體表示為
2)反向傳遞過程(根據(jù)鏈?zhǔn)椒▌t,損失函數(shù)對(duì)各個(gè)需要更新的參數(shù)求偏導(dǎo),反復(fù)迭代,直至損失誤差達(dá)到預(yù)期值):
可以推出,隱藏層到輸出層權(quán)重更新公式以及輸出層到隱藏層的為
對(duì)偏置b 采取同樣的更新方式,這里不再贅述。
改進(jìn)在于對(duì)反向求導(dǎo)過程,選擇變學(xué)習(xí)率動(dòng)量梯度下降算法。動(dòng)量梯度下降算法降低了網(wǎng)絡(luò)對(duì)于誤差曲面局部細(xì)節(jié)的敏感性,而且把動(dòng)量項(xiàng)作為阻尼項(xiàng),在綜合考慮上幾次權(quán)值的基礎(chǔ)上,減小了學(xué)習(xí)過程中的振蕩趨勢(shì)。同時(shí),在動(dòng)量梯度下降算法中引入自適應(yīng)學(xué)習(xí)速率,根據(jù)所處的不同誤差曲面區(qū)域,學(xué)習(xí)率能夠?qū)崟r(shí)自主調(diào)節(jié),降低訓(xùn)練次數(shù),能夠避免跳出最佳極小值的情況。對(duì)比原始的梯度下降法,變學(xué)習(xí)率動(dòng)量梯度下降算法能夠克服在訓(xùn)練過程中發(fā)生的震蕩,且具有訓(xùn)練時(shí)間快、泛化性強(qiáng),不易陷入極小值等特點(diǎn),具體算法又可分為兩部分。
1)增加動(dòng)量項(xiàng):
W(k)為連接權(quán)系數(shù);Dk=-?Ek/?Wk為k 時(shí)刻的負(fù)梯度;D(K-1)是k-1 時(shí)刻的負(fù)梯度,u 為學(xué)習(xí)速率,u>0;a是動(dòng)量因子。
2)自適應(yīng)調(diào)節(jié)學(xué)習(xí)率:
設(shè)一初始學(xué)習(xí)率u,若經(jīng)過一批次權(quán)值調(diào)整后使總誤差E 變大,則本次調(diào)整無效,且μ(k+1)=βμk(β<1);若經(jīng)過一次權(quán)值調(diào)整后使總誤差E變小,則本次調(diào)整有效,且μ(k=1)=θμk(θ>1)。
在參考王敏基于BP神經(jīng)網(wǎng)絡(luò)對(duì)基金凈值預(yù)測(cè)研究[13];張綱等從基金經(jīng)理特征和基金公司特征的雙重視角下對(duì)基金業(yè)績(jī)的研究[14];張潔瓊、楊孔雨基于面板數(shù)據(jù)的開放式基金凈值影響因素的研究[15];朱冰、朱洪亮對(duì)積極開放式基金的規(guī)模與收益的關(guān)系研究[16];高金窯、張曉雪對(duì)我國(guó)證券投資基金預(yù)測(cè)能力的決定因素研究[17],以及國(guó)泰數(shù)據(jù)庫、天天基金、晨星網(wǎng)對(duì)于相關(guān)數(shù)據(jù)的解讀的基礎(chǔ)上,初步選取了基金份額凈值、基金份額累計(jì)凈值、基金份額復(fù)權(quán)單位凈值、基金份額累計(jì)凈值周增長(zhǎng)率(%)、基金份額復(fù)權(quán)單位凈值周增長(zhǎng)率(%)、滬深300 指數(shù)、持股比例、持債比例、現(xiàn)金比例、凈資產(chǎn)規(guī)模(億元)、基金換手率(%)、持倉(cāng)行業(yè)集中度(%)、上一周凈值、上一周累計(jì)凈值、基金份額復(fù)權(quán)單位凈值'(上一周)、收益率標(biāo)準(zhǔn)差(%)、Sharpe率、市場(chǎng)組合平均收益率(%)、Beta 值、詹森指數(shù)-Alpha 值、特雷諾指數(shù)(%)、TM 模型擇時(shí)能力gamma、TM 模型選股能力alpha'、CL 模型熊市擇時(shí)能力gamma1'、CL 模型牛市擇時(shí) 能 力gamma2'、CL 模型擇時(shí)能力gamma'、CL 模型選股能力alpha'、CPI(居民消費(fèi)價(jià)格指數(shù)),28 項(xiàng)作為研究基金凈值波動(dòng)的指標(biāo)庫。
如圖2 所示,初步選取的28 個(gè)特征,進(jìn)一步采用隨機(jī)森林回歸做出的特征重要性圖表(以對(duì)混合型A(平衡)基金第一次迭代為例)。
圖2 特征重要性(混合型A(平衡)基金)
為消除研究樣本的單一性這里增選混合型(偏股)B、(偏債)C 兩只基金進(jìn)行對(duì)比和泛化研究,依據(jù)袋外數(shù)據(jù)誤差最?。∣OB_SCORE_分?jǐn)?shù)最高)準(zhǔn)則,見圖3,發(fā)現(xiàn)當(dāng)特征數(shù)為12 時(shí),OOB_SCORE_分?jǐn)?shù)最高,預(yù)測(cè)結(jié)果的準(zhǔn)確性主要與基金份額凈值(X1)有關(guān),其次是上一周的凈值(X2)、市場(chǎng)組合平均收益率(X3)、基金換手率(X4)、基金份額累計(jì)凈值(X5)、基金份額復(fù)權(quán)單位凈值(X6),CL 模型熊市擇時(shí)能力(X7)、上一周累計(jì)凈值(X8)、滬深300指數(shù)(X9)、特雷諾指數(shù)(X10)、收益率標(biāo)準(zhǔn)差(X11)、居民消費(fèi)價(jià)格指數(shù)(X12)。
以混合型A(平衡)基金為例,參照(偏股)B、(偏債)C兩只混合式基金,截取從2013年3月22號(hào)到2019年6月30號(hào)共323周的數(shù)據(jù)作為樣本,最終篩選出3.2小節(jié)所示的(X1~X12)共12個(gè)特征作為BP神經(jīng)網(wǎng)絡(luò)的輸入變量。
由于選取的特征具有不同的物理意義和量綱,為使訓(xùn)練伊始各輸入分量同等重要,避免輸入數(shù)據(jù)落入飽和區(qū)域,本文將原始數(shù)據(jù)利用式(12)進(jìn)行[0,1]歸一化[4]。
選取已處理數(shù)據(jù)中的前315 周數(shù)據(jù)為訓(xùn)練集,余下8 周為測(cè)試集,以X1~X12為輸入變量,以Y為輸出變量。在BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,隱藏節(jié)點(diǎn)的選取參考經(jīng)驗(yàn)式(13)[11]:
其中:n 為輸入節(jié)點(diǎn)數(shù);m 為輸出節(jié)點(diǎn)數(shù),a 為1~10之間的整數(shù)。本文中n為12,m 為1,則節(jié)點(diǎn)的取值范圍是[4,13],分別取該范圍內(nèi)的值建立神經(jīng)網(wǎng)絡(luò),其他參數(shù),學(xué)習(xí)率設(shè)為0.25,訓(xùn)練次數(shù)為10000,精度設(shè)為0.0012,動(dòng)量因子設(shè)為0.95。經(jīng)驗(yàn)證,當(dāng)節(jié)點(diǎn)為4時(shí),預(yù)測(cè)值的均方誤差最小為0.00678。
本研究采用時(shí)間移動(dòng)仿真法,每次僅預(yù)測(cè)一周,預(yù)測(cè)完后,該周加入訓(xùn)練,從而預(yù)測(cè)下一周,直至第八周預(yù)測(cè)結(jié)束,可以充分考慮到基金凈值近期波動(dòng)影響因素,減小預(yù)測(cè)誤差[11]。
利用Matlab R2019a 軟件編程實(shí)現(xiàn)RF-BP 組合模型,對(duì)混合型A(平衡)基金進(jìn)行了預(yù)測(cè)并與參考文獻(xiàn)[13]中固定指標(biāo)的傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比。同時(shí)對(duì)偏股型B 和偏債型C 兩只混合型基金進(jìn)行了預(yù)測(cè)。
1)混合型A(平衡)基金的預(yù)測(cè)結(jié)果及分析RF-BP 模型與傳統(tǒng)BP 預(yù)測(cè)的擬合效果如圖4 所示。
圖4 改進(jìn)型BP與BP預(yù)測(cè)擬合效果圖(混合型A(平衡)基金)
RF-BP組合模型相較于傳統(tǒng)的BP算法對(duì)混合型A基金凈值的預(yù)測(cè)有明顯的優(yōu)勢(shì),結(jié)果驗(yàn)證其平均絕對(duì)誤差降低了340%。
2)模型的泛化性和樣本的多樣性
增選偏股型B 和偏債型C 兩只混合型基金的預(yù)測(cè)效果圖,如圖5、6 所示,發(fā)現(xiàn)RF-BP 算法要優(yōu)于傳統(tǒng)BP算法。
圖5 預(yù)測(cè)結(jié)果對(duì)比(混合式B(偏股)基金)
圖6 預(yù)測(cè)結(jié)果對(duì)比(混合式C(偏債)基金)
綜上所述,通過構(gòu)建指標(biāo)庫,并利用隨機(jī)森林對(duì)特征進(jìn)行優(yōu)化與改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的組合(RF-BP 模型)要優(yōu)于傳統(tǒng)固定指標(biāo)的BP 算法,提高了方法的普適性,也提高了模型的預(yù)測(cè)精度以及泛化能力,能夠較好地預(yù)測(cè)不同混合型基金凈值的變化,預(yù)測(cè)值與真實(shí)值之間基本吻合,平均絕對(duì)誤差基本上控制在2%以內(nèi)。
針對(duì)前人單純基于BP、RBF、ARAMA 等方法的組合改進(jìn)應(yīng)用,存在收斂速度慢,陷入極小值,效果不穩(wěn)定以及特征與樣本數(shù)不滿足要求等問題,在構(gòu)建特征庫,增加樣本量的基礎(chǔ)上,提出將隨機(jī)森算法與改進(jìn)型的BP 神經(jīng)網(wǎng)絡(luò)組合成RF-BP 模型。經(jīng)實(shí)證分析,該模型對(duì)混合型基金具有較高的預(yù)測(cè)精度,具有較好的泛化性、普適性等,大幅度縮減了訓(xùn)練時(shí)間,能為基民合理選擇混合式基金提供一定的數(shù)據(jù)參考。