基于RF-BP 組合模型的混合型基金預(yù)測(cè)研究*

2023-07-11 07:31何英潔王世民

計(jì)算機(jī)與數(shù)字工程 2023年3期

何英潔王世民

（北京工商大學(xué)電商與物流學(xué)院北京 100048）

1 引言

混合型基金作為開放式證券基金的一種，因其復(fù)雜多變的組織形式和介于股票和債券之間的投資風(fēng)險(xiǎn)受到廣大人名群眾的追捧。同時(shí)在推動(dòng)我國(guó)經(jīng)濟(jì)發(fā)展之中，相對(duì)于股票的不穩(wěn)定性而言，數(shù)量龐大的混合型基金以其靈活多變的投資風(fēng)格也發(fā)揮著更大的作用。基金市場(chǎng)作為一個(gè)開放性的大市場(chǎng)，不僅受到系統(tǒng)性的風(fēng)險(xiǎn)，還受到投資者心理，基金公司財(cái)務(wù)狀況等非系統(tǒng)性的風(fēng)險(xiǎn)。因此，大多數(shù)的基民在投資基金時(shí)，往往很難選擇，或者人云亦云，造成了巨大的損失，也造成了我國(guó)證券市場(chǎng)的不健康發(fā)展。

混合型基金凈值波動(dòng)的研究主要集中在對(duì)基金預(yù)測(cè)方法的應(yīng)用上，如于立媛、宋鋒把灰色模型與馬爾科夫鏈組合起來，其組合模型要優(yōu)于單一的灰色模型［1］；向瑩、王雅萍把ARIMA 模型應(yīng)用到華安上證180ETF、預(yù)測(cè)效果較好［2］；肖國(guó)榮證明了改進(jìn)型BP 神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度要優(yōu)于傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)［3］；翟育明、鄒亞平、周俊文、馮旖旎提出將遺傳算法（GA）與傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)組合成一種自適應(yīng)遺傳神經(jīng)網(wǎng)絡(luò)模型來對(duì)基金凈值進(jìn)行了預(yù)測(cè)［4］；何樹、紅吳迪、張?jiān)虑镒C明了RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果要優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)［5］；崔琳證明了PSO優(yōu)化后RBF 神經(jīng)網(wǎng)絡(luò)模型要優(yōu)于傳統(tǒng)的BP、RBF模型［6］。喬寶明、黃晶、范雯將改進(jìn)的小波閾值理論與自回歸模型相結(jié)合，其預(yù)測(cè)效果要優(yōu)于單一的自回歸模型［7］；景陽將小波分解理論與多元回歸算法相結(jié)合成一種新的基金預(yù)測(cè)模型，其預(yù)測(cè)效果要好于傳統(tǒng)ARMA、小波去噪自回歸模型［8］。綜上所述，這些方法主要集中在對(duì)方法的改進(jìn)以及應(yīng)用上，但是實(shí)際的應(yīng)用場(chǎng)景并沒有考慮?；鸬姆N類繁多，指標(biāo)和方法的選擇不當(dāng)會(huì)影響預(yù)測(cè)的精度，甚至是導(dǎo)致預(yù)測(cè)失敗。

在結(jié)合前人對(duì)于基金凈值預(yù)測(cè)研究的基礎(chǔ)上，提出將隨機(jī)森林算法與改進(jìn)型的BP神經(jīng)網(wǎng)絡(luò)組合成RF-BP 模型來對(duì)混合式基金進(jìn)行預(yù)測(cè)。結(jié)果證明該模型對(duì)于混合型基金凈值的預(yù)測(cè)要優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。

2 基金預(yù)測(cè)模型設(shè)計(jì)

2.1 特征選擇算法

隨機(jī)森林算法能夠處理高維度的數(shù)據(jù)，且具有較強(qiáng)的泛化性，能夠兼顧基金凈值各影響指標(biāo)之間的耦合作用，消除冗余度大和不相關(guān)的屬性。采用隨機(jī)森林算法從構(gòu)建的特征庫中，能夠篩選出對(duì)基金凈值有重要影響的指標(biāo)。

選擇分類回歸樹（CART）作為決策森林的基樹。采用MSE（均方誤差）作為結(jié)點(diǎn)分裂的依據(jù)來搭建隨機(jī)森林做特征重要性度量。計(jì)算方法如下［9～10］：

1）對(duì)于隨機(jī)森林中的每一棵回歸樹，使用相應(yīng)的OOB（袋外數(shù)據(jù)）數(shù)據(jù)來計(jì)算它的誤差（預(yù)測(cè)值與真實(shí)值之間的誤差），記為error1。袋外數(shù)據(jù)指的是，每次建立決策樹時(shí)，以重復(fù)抽樣的方式得到一批數(shù)據(jù)用于訓(xùn)練決策樹，最終會(huì)留下大約1/3 的袋外數(shù)據(jù)沒有被利用。

2）隨機(jī)對(duì)袋外數(shù)據(jù)D2的所有樣本的特征加入噪聲干擾（隨機(jī)改變樣本在特征x 處的值），再次計(jì)算袋外數(shù)據(jù)誤差，記為而error2。

3）假設(shè)我們構(gòu)造的隨機(jī)森林有n 棵基樹，則特征的重要性為

feature_importances=∑(abs(error2-error1))/n

用它來判斷每個(gè)特征的重要性，是因?yàn)樵诩尤腚S機(jī)噪聲后，袋外數(shù)據(jù)（OOB）的準(zhǔn)確率會(huì)大幅度減少，減少越多說明對(duì)預(yù)測(cè)結(jié)果的影響越大，就越重要。

4）利用上述方法計(jì)算出所有特征的重要性，并按升序進(jìn)行排列，然后采用后向迭代的方法，每次去掉一個(gè)重要性最低的特征，再對(duì)剩余的特征進(jìn)行重要性評(píng)估，重復(fù)進(jìn)行上述操作，直到遍歷完所有特征，然后選取袋外誤差最?。∣OB_SCORE_分?jǐn)?shù)最高）時(shí)的特征，作為最后選定的指標(biāo)體系。

2.2 BP神經(jīng)網(wǎng)絡(luò)

利用隨機(jī)森林對(duì)特征進(jìn)行提取后，采用BP 神經(jīng)網(wǎng)絡(luò)作為預(yù)測(cè)模型，相較于ARIMA、灰色模型、回歸模型［3］，其能夠較好地?cái)M合出基金凈值的波動(dòng)規(guī)律。

BP 神經(jīng)網(wǎng)絡(luò)是一種按預(yù)測(cè)誤差不斷進(jìn)行反向調(diào)節(jié)的多層前饋神經(jīng)網(wǎng)絡(luò)。其結(jié)構(gòu)如圖1所示。

圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

2.3 BP神經(jīng)網(wǎng)絡(luò)算法及其改進(jìn)

針對(duì)傳統(tǒng)的BP算法，訓(xùn)練時(shí)間長(zhǎng)、梯度消失造成訓(xùn)練失敗等問題，本研究采用改進(jìn)型的BP算法，以變學(xué)習(xí)率動(dòng)量梯度下降算法為優(yōu)化算法，TANSIG 為輸出層到隱層的激活函數(shù)，PURELIN 為隱層到輸出層的激活函數(shù)，經(jīng)證明，在隱層采用S 型函數(shù)，在輸出層采用線性函數(shù)具有逼近任何連續(xù)函數(shù)的特性。其算法又分為前向傳遞和后向傳遞兩部分，如過程1）、2）所示。設(shè)有12個(gè)特征變量Xi（i=1，2…12），一個(gè)輸出Y，共有（Xik，Yk）（k=1，2，…N）個(gè)樣本，隱藏層節(jié)點(diǎn)輸入O（j（1）），輸出為Oj（j 為隱藏層節(jié)點(diǎn)數(shù)），隱藏層和輸出層偏置bj和b2。

1）前向傳遞過程如下：

隱藏層輸入為

隱藏層輸出為

輸出層為

隱層激活函數(shù)（TANSIG）

輸出層激活函數(shù)（PURELIN）

平方誤差公式為（MSE）［11］

其中Yk（t）為網(wǎng)絡(luò)實(shí)際輸出。可具體表示為

2）反向傳遞過程（根據(jù)鏈?zhǔn)椒▌t，損失函數(shù)對(duì)各個(gè)需要更新的參數(shù)求偏導(dǎo)，反復(fù)迭代，直至損失誤差達(dá)到預(yù)期值）：

可以推出，隱藏層到輸出層權(quán)重更新公式以及輸出層到隱藏層的為

對(duì)偏置b 采取同樣的更新方式，這里不再贅述。

改進(jìn)在于對(duì)反向求導(dǎo)過程，選擇變學(xué)習(xí)率動(dòng)量梯度下降算法。動(dòng)量梯度下降算法降低了網(wǎng)絡(luò)對(duì)于誤差曲面局部細(xì)節(jié)的敏感性，而且把動(dòng)量項(xiàng)作為阻尼項(xiàng)，在綜合考慮上幾次權(quán)值的基礎(chǔ)上，減小了學(xué)習(xí)過程中的振蕩趨勢(shì)。同時(shí)，在動(dòng)量梯度下降算法中引入自適應(yīng)學(xué)習(xí)速率，根據(jù)所處的不同誤差曲面區(qū)域，學(xué)習(xí)率能夠?qū)崟r(shí)自主調(diào)節(jié)，降低訓(xùn)練次數(shù)，能夠避免跳出最佳極小值的情況。對(duì)比原始的梯度下降法，變學(xué)習(xí)率動(dòng)量梯度下降算法能夠克服在訓(xùn)練過程中發(fā)生的震蕩，且具有訓(xùn)練時(shí)間快、泛化性強(qiáng)，不易陷入極小值等特點(diǎn)，具體算法又可分為兩部分。

1）增加動(dòng)量項(xiàng)：

W（k）為連接權(quán)系數(shù)；Dk=-?Ek/?Wk為k 時(shí)刻的負(fù)梯度；D（K-1）是k-1 時(shí)刻的負(fù)梯度，u 為學(xué)習(xí)速率，u＞0；a是動(dòng)量因子。

2）自適應(yīng)調(diào)節(jié)學(xué)習(xí)率：

設(shè)一初始學(xué)習(xí)率u，若經(jīng)過一批次權(quán)值調(diào)整后使總誤差E 變大，則本次調(diào)整無效，且μ(k+1)=βμk(β<1)；若經(jīng)過一次權(quán)值調(diào)整后使總誤差E變小，則本次調(diào)整有效，且μ(k=1)=θμk(θ>1)。

3 實(shí)例仿真分析

3.1 初步特征選擇

在參考王敏基于BP神經(jīng)網(wǎng)絡(luò)對(duì)基金凈值預(yù)測(cè)研究［13］；張綱等從基金經(jīng)理特征和基金公司特征的雙重視角下對(duì)基金業(yè)績(jī)的研究［14］；張潔瓊、楊孔雨基于面板數(shù)據(jù)的開放式基金凈值影響因素的研究［15］；朱冰、朱洪亮對(duì)積極開放式基金的規(guī)模與收益的關(guān)系研究［16］；高金窯、張曉雪對(duì)我國(guó)證券投資基金預(yù)測(cè)能力的決定因素研究［17］，以及國(guó)泰數(shù)據(jù)庫、天天基金、晨星網(wǎng)對(duì)于相關(guān)數(shù)據(jù)的解讀的基礎(chǔ)上，初步選取了基金份額凈值、基金份額累計(jì)凈值、基金份額復(fù)權(quán)單位凈值、基金份額累計(jì)凈值周增長(zhǎng)率（%）、基金份額復(fù)權(quán)單位凈值周增長(zhǎng)率（%）、滬深300 指數(shù)、持股比例、持債比例、現(xiàn)金比例、凈資產(chǎn)規(guī)模（億元）、基金換手率（%）、持倉(cāng)行業(yè)集中度（%）、上一周凈值、上一周累計(jì)凈值、基金份額復(fù)權(quán)單位凈值'（上一周）、收益率標(biāo)準(zhǔn)差（%）、Sharpe率、市場(chǎng)組合平均收益率（%）、Beta 值、詹森指數(shù)-Alpha 值、特雷諾指數(shù)（%）、TM 模型擇時(shí)能力gamma、TM 模型選股能力alpha'、CL 模型熊市擇時(shí)能力gamma1'、CL 模型牛市擇時(shí) 能力gamma2'、CL 模型擇時(shí)能力gamma'、CL 模型選股能力alpha'、CPI（居民消費(fèi)價(jià)格指數(shù)），28 項(xiàng)作為研究基金凈值波動(dòng)的指標(biāo)庫。

3.2 特征篩選

如圖2 所示，初步選取的28 個(gè)特征，進(jìn)一步采用隨機(jī)森林回歸做出的特征重要性圖表（以對(duì)混合型A（平衡）基金第一次迭代為例）。

圖2 特征重要性（混合型A（平衡）基金）

為消除研究樣本的單一性這里增選混合型（偏股）B、（偏債）C 兩只基金進(jìn)行對(duì)比和泛化研究，依據(jù)袋外數(shù)據(jù)誤差最?。∣OB_SCORE_分?jǐn)?shù)最高）準(zhǔn)則，見圖3，發(fā)現(xiàn)當(dāng)特征數(shù)為12 時(shí)，OOB_SCORE_分?jǐn)?shù)最高，預(yù)測(cè)結(jié)果的準(zhǔn)確性主要與基金份額凈值（X1）有關(guān)，其次是上一周的凈值（X2）、市場(chǎng)組合平均收益率（X3）、基金換手率（X4）、基金份額累計(jì)凈值（X5）、基金份額復(fù)權(quán)單位凈值（X6），CL 模型熊市擇時(shí)能力（X7）、上一周累計(jì)凈值（X8）、滬深300指數(shù)（X9）、特雷諾指數(shù)（X10）、收益率標(biāo)準(zhǔn)差（X11）、居民消費(fèi)價(jià)格指數(shù)（X12）。

3.3 數(shù)據(jù)預(yù)處理

以混合型A（平衡）基金為例，參照（偏股）B、（偏債）C兩只混合式基金，截取從2013年3月22號(hào)到2019年6月30號(hào)共323周的數(shù)據(jù)作為樣本，最終篩選出3.2小節(jié)所示的（X1～X12）共12個(gè)特征作為BP神經(jīng)網(wǎng)絡(luò)的輸入變量。

由于選取的特征具有不同的物理意義和量綱，為使訓(xùn)練伊始各輸入分量同等重要，避免輸入數(shù)據(jù)落入飽和區(qū)域，本文將原始數(shù)據(jù)利用式（12）進(jìn)行［0，1］歸一化［4］。

3.4 實(shí)驗(yàn)方法選擇

選取已處理數(shù)據(jù)中的前315 周數(shù)據(jù)為訓(xùn)練集，余下8 周為測(cè)試集，以X1～X12為輸入變量，以Y為輸出變量。在BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練中，隱藏節(jié)點(diǎn)的選取參考經(jīng)驗(yàn)式（13）［11］：

其中：n 為輸入節(jié)點(diǎn)數(shù)；m 為輸出節(jié)點(diǎn)數(shù)，a 為1～10之間的整數(shù)。本文中n為12，m 為1，則節(jié)點(diǎn)的取值范圍是［4，13］，分別取該范圍內(nèi)的值建立神經(jīng)網(wǎng)絡(luò)，其他參數(shù)，學(xué)習(xí)率設(shè)為0.25，訓(xùn)練次數(shù)為10000，精度設(shè)為0.0012，動(dòng)量因子設(shè)為0.95。經(jīng)驗(yàn)證，當(dāng)節(jié)點(diǎn)為4時(shí)，預(yù)測(cè)值的均方誤差最小為0.00678。

本研究采用時(shí)間移動(dòng)仿真法，每次僅預(yù)測(cè)一周，預(yù)測(cè)完后，該周加入訓(xùn)練，從而預(yù)測(cè)下一周，直至第八周預(yù)測(cè)結(jié)束，可以充分考慮到基金凈值近期波動(dòng)影響因素，減小預(yù)測(cè)誤差［11］。

3.5 實(shí)證結(jié)果的分析

利用Matlab R2019a 軟件編程實(shí)現(xiàn)RF-BP 組合模型，對(duì)混合型A（平衡）基金進(jìn)行了預(yù)測(cè)并與參考文獻(xiàn)［13］中固定指標(biāo)的傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比。同時(shí)對(duì)偏股型B 和偏債型C 兩只混合型基金進(jìn)行了預(yù)測(cè)。

1）混合型A（平衡）基金的預(yù)測(cè)結(jié)果及分析RF-BP 模型與傳統(tǒng)BP 預(yù)測(cè)的擬合效果如圖4 所示。

圖4 改進(jìn)型BP與BP預(yù)測(cè)擬合效果圖（混合型A（平衡）基金）

RF-BP組合模型相較于傳統(tǒng)的BP算法對(duì)混合型A基金凈值的預(yù)測(cè)有明顯的優(yōu)勢(shì)，結(jié)果驗(yàn)證其平均絕對(duì)誤差降低了340%。

2）模型的泛化性和樣本的多樣性

增選偏股型B 和偏債型C 兩只混合型基金的預(yù)測(cè)效果圖，如圖5、6 所示，發(fā)現(xiàn)RF-BP 算法要優(yōu)于傳統(tǒng)BP算法。

圖5 預(yù)測(cè)結(jié)果對(duì)比（混合式B（偏股）基金）

圖6 預(yù)測(cè)結(jié)果對(duì)比（混合式C（偏債）基金）

綜上所述，通過構(gòu)建指標(biāo)庫，并利用隨機(jī)森林對(duì)特征進(jìn)行優(yōu)化與改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)的組合（RF-BP 模型）要優(yōu)于傳統(tǒng)固定指標(biāo)的BP 算法，提高了方法的普適性，也提高了模型的預(yù)測(cè)精度以及泛化能力，能夠較好地預(yù)測(cè)不同混合型基金凈值的變化，預(yù)測(cè)值與真實(shí)值之間基本吻合，平均絕對(duì)誤差基本上控制在2%以內(nèi)。

4 結(jié)語

針對(duì)前人單純基于BP、RBF、ARAMA 等方法的組合改進(jìn)應(yīng)用，存在收斂速度慢，陷入極小值，效果不穩(wěn)定以及特征與樣本數(shù)不滿足要求等問題，在構(gòu)建特征庫，增加樣本量的基礎(chǔ)上，提出將隨機(jī)森算法與改進(jìn)型的BP 神經(jīng)網(wǎng)絡(luò)組合成RF-BP 模型。經(jīng)實(shí)證分析，該模型對(duì)混合型基金具有較高的預(yù)測(cè)精度，具有較好的泛化性、普適性等，大幅度縮減了訓(xùn)練時(shí)間，能為基民合理選擇混合式基金提供一定的數(shù)據(jù)參考。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡