国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PCA_Adaboost模型的上市公司投資策略研究

2021-08-31 02:32葉殷如
關(guān)鍵詞:勝率降維分類器

葉殷如

(深圳市前海匯富聯(lián)合基金管理有限公司,廣東 深圳 518000)

量化投資,即根據(jù)金融邏輯或統(tǒng)計(jì)規(guī)律等建立數(shù)學(xué)模型,并通過(guò)計(jì)算機(jī)進(jìn)行策略的實(shí)現(xiàn),近年來(lái)在國(guó)內(nèi)金融市場(chǎng)上的地位日漸提高,在A 股市場(chǎng)中越來(lái)越多的機(jī)構(gòu)與個(gè)人投資者開(kāi)始使用量化方式指導(dǎo)投資決策。A 股市場(chǎng)中,量化策略按頻率分類主要分為高頻策略與中低頻策略,高頻策略數(shù)據(jù)最小時(shí)間單位為1tick(3 秒),中低頻策略數(shù)據(jù)最小時(shí)間單位為天。中低頻策略主要由交易型策略和基本面策略組成,而基本面量化最常見(jiàn)的一種模型大類為多因子模型,例如回歸模型、機(jī)器學(xué)習(xí)模型等。

對(duì)于A 股中低頻策略,多因子模型中的中低頻因子多為財(cái)務(wù)因子或財(cái)務(wù)衍生因子,由于因子眾多,因子間相似程度較高,計(jì)算機(jī)處理相關(guān)因子數(shù)據(jù)時(shí)有過(guò)多噪聲和不必要的運(yùn)算,影響策略運(yùn)行效率與質(zhì)量,因此有必要對(duì)因子進(jìn)行降維處理。在現(xiàn)行市場(chǎng)上中低頻因子逐漸失效的現(xiàn)實(shí)背景下,機(jī)器學(xué)習(xí)方法可以通過(guò)對(duì)大量歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、回測(cè)、總結(jié)、計(jì)算和預(yù)測(cè),達(dá)到提高勝率的目的。本文提出PCA_Adaboost 模型,即首先通過(guò)PCA 算法對(duì)多因子進(jìn)行降維,得到的新因子作為Adaboost 的弱分類器,最終迭代學(xué)習(xí)出強(qiáng)分類器。

1 模型介紹

1.1 Adaboost 模型

Adaboost 是一種常用的分類模型。Adaboost 算法是boosting 算法的一種改進(jìn)[1],對(duì)多個(gè)弱分類器通過(guò)迭代進(jìn)行權(quán)重的調(diào)整,最終合并成強(qiáng)分類器,提高分類性能,降低誤差。具體過(guò)程如下:

(1)假設(shè)測(cè)試數(shù)據(jù)為{(x1,y1),(x2,y2),…,(xn,yn)},其中y 為樣本標(biāo)簽,y∈{-1,1};

(3)迭代T 次,得到強(qiáng)分類器

從模擬公式可以看出,弱分類器數(shù)量越多,迭代次數(shù)T 越大,計(jì)算冗余越多,模型運(yùn)行耗時(shí)越長(zhǎng),計(jì)算精度越低。因此可結(jié)合PCA 方法對(duì)Adaboost 算法進(jìn)行降維處理。

1.2 PCA 模型

傳統(tǒng)的Adaboost 模型首先將每個(gè)特征值對(duì)應(yīng)一個(gè)簡(jiǎn)單分類器,再進(jìn)行弱分類器的計(jì)算[2],但當(dāng)特征值數(shù)量多且可能存在一定相關(guān)性的情況下,容易出現(xiàn)計(jì)算冗余,從而降低計(jì)算速度與計(jì)算精度,因此,可通過(guò)降維的手段,使用涵蓋信息量大且相關(guān)性低的新特征值進(jìn)行替換。

PCA 算法是一種用于降維的無(wú)監(jiān)督學(xué)習(xí)方法,其原理為基于變量的協(xié)方差矩陣進(jìn)行線性變換,基礎(chǔ)為K-L(Karhunen-Loeve)變換理論[3]。該方法根據(jù)多個(gè)因子面板數(shù)據(jù),構(gòu)成因子的協(xié)方差矩陣并進(jìn)行變換計(jì)算,以達(dá)到將多因子轉(zhuǎn)換成相關(guān)性低的少數(shù)幾個(gè)主因子。具體過(guò)程如下:

假設(shè)有m 個(gè)上市公司,n 個(gè)因子,對(duì)數(shù)據(jù)進(jìn)行去極值和標(biāo)準(zhǔn)化處理,記該矩陣為

求相關(guān)性矩陣R,R=(rij)n×n,則

其中,rij=rji,rii=1。

求R 的特征方程det(R-λE)=0 的特征根λ1≥λ2≥λ3≥…≥λn>0。

確定主成分個(gè)數(shù)p,根據(jù)實(shí)際問(wèn)題確定

其中,a 為信息量比例置信度。

計(jì)算p 個(gè)單位對(duì)應(yīng)的特征向量,計(jì)算公式為

所求主成分為

2 實(shí)證分析

2.1 數(shù)據(jù)準(zhǔn)備

本文基礎(chǔ)股票池為中證500 內(nèi)所有上市公司,對(duì)比標(biāo)的為中證500 指數(shù)。測(cè)試時(shí)間段為2018 年7月1 日至2019 年12 月31 日。使用因子庫(kù)中涵蓋估值、財(cái)務(wù)質(zhì)量、成長(zhǎng)性、量?jī)r(jià)指標(biāo)等全部134 個(gè)因子,采用PCA 算法對(duì)其進(jìn)行數(shù)據(jù)優(yōu)化處理。

此次試驗(yàn)中,換倉(cāng)周期取為21 天,每期學(xué)習(xí)樣本窗口取為半年。為了降低數(shù)據(jù)噪聲對(duì)模型精度造成的影響,學(xué)習(xí)樣本僅取當(dāng)天對(duì)應(yīng)的未來(lái)21 天收益最高與最低的股票,即將未來(lái)21 天的超額收益按降序排列,取最高10%的股票標(biāo)簽值記為1,最低的10%記為-1。因此,Xm×n矩陣由該樣本窗口內(nèi)每一天對(duì)應(yīng)的因子數(shù)據(jù)構(gòu)成,Ym×1矩陣由樣本窗口內(nèi)每一天對(duì)應(yīng)的未來(lái)21 天收益所對(duì)應(yīng)的標(biāo)簽值構(gòu)成。

檢驗(yàn)(預(yù)測(cè))樣本數(shù)據(jù)為第di天的因子數(shù)據(jù),利用學(xué)習(xí)樣本窗口期的因子數(shù)據(jù)進(jìn)行學(xué)習(xí)并得預(yù)測(cè)矩陣Y,根據(jù)預(yù)測(cè)的y 值選擇第di+1天買賣的股票,持有21 天后統(tǒng)計(jì)超額收益等相關(guān)指標(biāo),記錄后進(jìn)行下一輪計(jì)算。

2.2 PCA 參數(shù)選擇

對(duì)全部134 個(gè)因子進(jìn)行主成分分析,以確定主成分個(gè)數(shù),如圖1 所示,信息量比例為各主成分的方差值占總方差的比例之和,可觀察到隨著主成分?jǐn)?shù)量的增加,信息量比例同步增加,但增加的幅度逐漸減緩,為保證信息量比例在80%以上,此處選擇主成分的個(gè)數(shù)為30 個(gè)。

圖1 總方差-主成分?jǐn)?shù)量統(tǒng)計(jì)圖

2.3 Adaboost 模型參數(shù)優(yōu)化

Adaboost 中有參數(shù)葉子節(jié)點(diǎn)最小深度、決策樹(shù)最深層數(shù)等參數(shù)需要設(shè)置,以使學(xué)習(xí)效果最好并降低過(guò)度擬合的風(fēng)險(xiǎn),其中MD 為決策樹(shù)最大深度,MSS 為子樹(shù)再劃分最小樣本數(shù),MSL 為葉子節(jié)點(diǎn)最小深度,NE 為弱學(xué)習(xí)器最大個(gè)數(shù),LR 為權(quán)重調(diào)整系數(shù)為0.8。對(duì)上述參數(shù)進(jìn)行優(yōu)化組合,以使超額夏普率最高?;販y(cè)結(jié)果中,AlphaSharp 為超額夏普比率,AlphaRtn 為超額收益,AlphaDrawdown 為超額收益在回測(cè)時(shí)間段中的最大回撤。

如表1 所示,所有參數(shù)組合結(jié)果與標(biāo)的指數(shù)相比皆有明顯的正收益與正的超額夏普比率。當(dāng)MD=3,MSS=30,MSL=5,NE=250 時(shí),策略組合的超額夏普比率最高,超額收益最高,最大回撤較低。對(duì)于其他參數(shù)組合的結(jié)果,策略皆表現(xiàn)為具有超額收益與正的夏普率,模型有一定魯棒性。

表1 組合優(yōu)化結(jié)果

如圖2 所示,組合策略對(duì)于中證500 指數(shù)有明顯的正阿爾法收益,阿爾法策略回撤相比純多頭策略或指數(shù)明顯減小,且收益穩(wěn)定。在急跌的市場(chǎng)環(huán)境中仍具有正的收益,抗風(fēng)險(xiǎn)能力較強(qiáng)。

圖2 PCA-Adabbost 與中證500 收益圖

圖3 為每次換倉(cāng)的勝率分布圖,按次統(tǒng)計(jì)平均勝率為51.5%,絕大部分次數(shù)勝率超過(guò)50。第2 類錯(cuò)誤比例高于第1 類錯(cuò)誤,且在大盤(pán)下跌時(shí)勝率會(huì)有所降低,存在改進(jìn)空間。

圖3 勝率統(tǒng)計(jì)圖

如圖4 所示,對(duì)不進(jìn)行主成分分析,直接將所有因子輸入Adaboost 模型所得策略與PCA_Adaboost策略比較,純Adaboost 策略累計(jì)收益較小且回撤較大,總體效果不如后者,PCA_Adaboost 策略對(duì)純Adaboost 策略有明顯提升。

圖4 PCA-Adabbost 與Adaboost 收益圖

如圖5 所示,預(yù)測(cè)標(biāo)簽值為1 的多組合比預(yù)測(cè)標(biāo)簽值為-1 的空組合收益更高。若交易規(guī)則允許做空或通過(guò)融券做空,做多多組合,做空空組合,測(cè)試結(jié)果在回測(cè)時(shí)間段內(nèi)收益為10.55%,夏普比率為2.88,組合最大回撤-2.6%。多空組合策略收益穩(wěn)定,效果顯著。

圖5 多空組合效果圖

3 結(jié)論與展望

以上實(shí)驗(yàn)可觀察出PCA_Adaboost 策略對(duì)標(biāo)的指數(shù)中證500 有明顯的超額收益,當(dāng)決策樹(shù)最大深度為3,子樹(shù)再劃分最小樣本數(shù)為30,葉子節(jié)點(diǎn)最小深度為5,弱學(xué)習(xí)器最大個(gè)數(shù)為250 時(shí),策略換倉(cāng)平均勝率超過(guò)50%,且收益最高,回撤較小,組合阿爾法的夏普率最高,對(duì)比純Adaboost 的策略效果更佳,優(yōu)化效果明顯。做多預(yù)測(cè)標(biāo)簽值為1,做空預(yù)測(cè)標(biāo)簽值為-1 的多空策略亦保持高收益率。綜上所述,PCA_Adaboost 投資策略具有穩(wěn)定的超額收益,小的波動(dòng),在A 股上市公司投資中有一定的應(yīng)用前景。另一方面,此策略仍有改進(jìn)空間。通過(guò)對(duì)比觀察圖2 與圖3,急跌行情中勝率下降,但Alpha 收益卻穩(wěn)步上升,代表個(gè)股權(quán)重或行業(yè)偏離對(duì)選股策略結(jié)果仍有所影響,而本次PCA_Adaboost 并未加以考慮。后續(xù)研究中,可結(jié)合權(quán)重修正、行業(yè)中性化等方向?qū)δP瓦M(jìn)行優(yōu)化。

猜你喜歡
勝率降維分類器
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降維打擊
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
主客場(chǎng)因素對(duì)大學(xué)生籃球聯(lián)賽戰(zhàn)績(jī)的影響研究
基于實(shí)例的強(qiáng)分類器快速集成方法
2014—2015年中國(guó)女子籃球職業(yè)聯(lián)賽單節(jié)得失分與比賽結(jié)果相關(guān)性分析
一種改進(jìn)的稀疏保持投影算法在高光譜數(shù)據(jù)降維中的應(yīng)用
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測(cè)
一種基于置換的組合分類器剪枝方法