岳書凝 邵波 王健
摘 要:目前我國的量化投資發(fā)展迅猛,其中最為熱門的便是多因子模型策略。如今已經(jīng)有不少成功的量化研究是以多因子選股模型為基礎(chǔ),基于打分法構(gòu)建的模型策略,以實際的應(yīng)用驗證了其可行性。但是多數(shù)的多因子模型仍是以投資組合理論為指導(dǎo)進行構(gòu)建的,而本文考慮到我國國情以及A股的實際情況,則創(chuàng)新性地從市場實際的歷史表現(xiàn)數(shù)據(jù)出發(fā),結(jié)合時下最新興的大數(shù)據(jù)分析,利用FP-Growth算法發(fā)掘多種因子數(shù)據(jù)表現(xiàn)與收益的關(guān)聯(lián)規(guī)則,反向選擇出最優(yōu)因子和最優(yōu)權(quán)重,構(gòu)建更加針對市場特征的實用型投資策略。
關(guān)鍵詞:FP-Growth關(guān)聯(lián)規(guī)則算法;多因子打分法模型;因子選擇;賦權(quán)
盡管從20世紀90年代到現(xiàn)在,我國證券市場日益趨于完善,國內(nèi)外眾多學(xué)者提供了很多理論上近乎完美的投資模型,但是在我國目前市場尚無法滿足這些模型的嚴格假設(shè)條件下,這些在國外運用成熟的量化投資模型在中國市場上并不定完全有效,真正能應(yīng)用于實踐的并不多。而要想在A股市場上獲取成功有效的持續(xù)的超額收益,就需要從我國市場的實際情況出發(fā),探索真正符合A股市場的本土化的投資模型。因此,本文將使用FP-Growth關(guān)聯(lián)規(guī)則算法研究如何選擇有效因子以及如何分配多因子權(quán)重,構(gòu)建一個真正的符合中國A股市場特征的個性化多因子選股模型,構(gòu)建在我國資本市場上可獲得超額收益的投資策略。
一、算法描述和多因子模型
(一)FP-Growth關(guān)聯(lián)規(guī)則算法
FP-tree的構(gòu)建,也就是將數(shù)據(jù)集進行壓縮,是一種緊湊的數(shù)據(jù)結(jié)構(gòu),與計算機學(xué)科中的樹結(jié)構(gòu)相似。不同的是FP-tree通過鏈接(link) 連接相似的元素,在條件FP-tree的基礎(chǔ)上進行頻繁項集的遞歸挖掘,頻繁模式由條件模式基中去除小于支持度計數(shù)的前綴路徑組成。此外FP-Growth算法將數(shù)據(jù)集壓縮到FP-tree中,從而大大地減少了掃描數(shù)據(jù)庫的次數(shù),以及存儲大量候選集的開銷。
圖1? FP-tree的實例
(二)多因子模型構(gòu)建
1.候選因子庫的創(chuàng)建
本文考慮到因子指標(biāo)的普遍性、數(shù)據(jù)可得性以及區(qū)別度等標(biāo)準(zhǔn),選擇并獲取如下數(shù)據(jù)類型并根據(jù)FP-Growth算法的原理加以分組分類
表1? (時間區(qū)間:六個月):
2.數(shù)據(jù)匯總及預(yù)處理
由于各個描述性因子所衡量的單位不同,導(dǎo)致因子數(shù)值范圍差異較大,因此在進行因子分析之前,必須對其進行標(biāo)準(zhǔn)化,本文將數(shù)據(jù)進行min-max標(biāo)準(zhǔn)化處理,即是通過對原始數(shù)據(jù)的線性變換,按照比例縮放,使之落入一個小的特定區(qū)間,如[-1,1],由此才能進一步導(dǎo)入算法來分析數(shù)據(jù)。公式近似為:
x* = (x - x_mean)/(x_max - x_min)
3.FP-Growth算法的實現(xiàn)
本文運用Java構(gòu)造FP-tree,創(chuàng)建FP-tree的具體步驟如下:
本文運用Java構(gòu)造FP-tree,創(chuàng)建FP-tree的具體步驟如下:
首先創(chuàng)建FP-tree的根結(jié)點,標(biāo)記為“NULL”.
對于數(shù)據(jù)集中的每個事務(wù)執(zhí)行以下操作:對事務(wù)中的頻繁項按照頻繁1-項集L中的順序進行排序,排序后的頻繁項表記為IP/PI,其中p是第一-個元素,而P是剩余元素的表.調(diào)用insert.tree{[p/PI]}.
具體的執(zhí)行過程如下:如果T有子女N使得Nitem_name=p.item_name,則N的計數(shù)增加1;否則創(chuàng)建一個新結(jié)點N,將其計數(shù)設(shè)置為1,鏈接到它的父結(jié)點T,并且通過結(jié)點鏈結(jié)構(gòu)將其鏈接到具有相同item_name的結(jié)點。如果P非空,遞歸地調(diào)用inser_tree(P,N).
按照支持度遞減的順序建立-一一個項頭表,這樣一顆完整的頻繁模式數(shù)就構(gòu)造完成。注:本文根據(jù)投資需求,只針對性的獲取以A組數(shù)據(jù)(漲跌幅%)為表頭,與其他因子的關(guān)聯(lián)度。即排除無關(guān)的關(guān)聯(lián)度分析,只得到體現(xiàn)各因子與收益率關(guān)系的FP-tree.4.經(jīng)典多因子打分法模型改進考慮到市場的多變性和不同的因子特性,本文將等權(quán)重打分改進為賦權(quán)打分。經(jīng)典的多因子打分法模型實質(zhì)是計算綜合因子(得分)—即因子標(biāo)準(zhǔn)化后等權(quán)重求和的選股過程。本文則根據(jù)因子暴露與收益率之間的關(guān)系,兼顧因子的偏好方向,成比例地形成投資組合。彌補了經(jīng)典打分法因權(quán)重不定帶來的不穩(wěn)定性。
二、應(yīng)用與檢驗
(一)賦權(quán)多因子模型的構(gòu)建
從wind金融終端數(shù)據(jù)庫導(dǎo)出滬深300個股票六個月前(2019.05)的候選數(shù)據(jù),將其標(biāo)準(zhǔn)化處理后導(dǎo)入FP-Growth算法進行挖掘,支持度設(shè)為50,調(diào)倉頻率(每月調(diào)倉一次)。
得如下結(jié)果:
表2? 算法挖掘的上跌幅與各因子指標(biāo)結(jié)果
關(guān)于該結(jié)果的解釋分析:
1.在支持度下,不存在與A1、A4關(guān)聯(lián)的因子,因此在該時間段多數(shù)股票漲跌幅適中,無頻繁大漲大跌。
2.由于A2為跌幅分組,所以不列入買點分析范圍內(nèi)。
3.通過計算得出,A3關(guān)聯(lián)占比呈現(xiàn)近似于3:0:2:1.5。即不選擇C所代表的因子,且得出因子權(quán)重。
在同花順mindgo平臺上,利用多因子打分法策略,加入賦權(quán)進行模擬操作。
設(shè)定最大持股數(shù)(30只)、初始金額(10,000,000元)
(二)模型回測結(jié)果分析
1.模型回測結(jié)果
圖2? 收益曲線
圖3? 權(quán)重和等權(quán)重收益率對比
2.回測結(jié)果分析
在回測期內(nèi),改進后的FP-Growth算法賦權(quán)多因子模型收益率為9.49%,收益率均超過基準(zhǔn)收益和等權(quán)重模型,且各項指標(biāo)的表現(xiàn)較于等權(quán)重模型均更為優(yōu)化,可認為改良后模型因子選擇及賦權(quán)有效,具有更強的盈利能力和普適性。
三、結(jié)論和存在的問題
本文通多運用FP-Growth算法,探究指標(biāo)變化與收益率的直接關(guān)系,個性化的挑選最合適的有效因子;同時驗證了且采用多因子選股模型時,選取的有效因子權(quán)重也不是固定不變的。本文模型可以針對不同的板塊、周期、市場的實際情況和宏觀經(jīng)濟狀況進行不斷的更新和調(diào)整,以保證其持續(xù)有效性,有針對性地獲取更個性化的投資收益。同時在模型構(gòu)建的過程中,也發(fā)現(xiàn)了一些日后可進行優(yōu)化的問題。
由于數(shù)據(jù)的可得性和計算量限制,只能選取部分指標(biāo),今后可以考慮加入更全面的技術(shù)指標(biāo),如KDJ、BOLL等??紤]到程序運行量較大,數(shù)據(jù)選取時間范圍較小,只能針對短線投資,后續(xù)可針對長期龐大數(shù)據(jù)量改進算法。受到FP-grouth算法的局限性,數(shù)據(jù)只能進行離散處理,因此不能對數(shù)據(jù)進行連續(xù)性的分析。
四、展望
本文所述可以為量化投資提供一個新的思路,與以往基于經(jīng)驗判斷定性選擇模型中的因子等權(quán)重分配不同,而是運用大數(shù)據(jù)分析,從市場表現(xiàn)出發(fā),反向思考,創(chuàng)新性的改進經(jīng)典的多因子打分法策略。該策略除了能夠更深程度的運用于量化選股,還可以針對個股特性及其所處在的周期一對一分析,使投資者對于所選中的優(yōu)質(zhì)股有更精準(zhǔn)的操作。同時基于FP-Growth關(guān)聯(lián)規(guī)則算法的多因子打分法選擇及賦權(quán)改進,還可以擴展向宏觀經(jīng)濟分析等其他金融領(lǐng)域,可以實時、準(zhǔn)確、多維度、智能化的為政府和研究機構(gòu)的政策制定、經(jīng)濟分析提供有力的數(shù)據(jù)支持。甚至可以應(yīng)用至商業(yè)、醫(yī)療、教育、農(nóng)業(yè)等其他領(lǐng)域。
參考文獻:
[1]朱濤.基于FP-growth關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D].南昌大學(xué),2010(01)07.
[2]劉藝.張海濤.劉奇燕.石碩.基于分解數(shù)據(jù)庫的FP_growth算法關(guān)聯(lián)規(guī)則研究[J].計算機與數(shù)字工程,2018(07)1306-1416.
[3]苗苗.多因子選股模型在投資組合管理中的應(yīng)用研究[D].南京審計大學(xué),2018(05):17.
[4]楊世林.基于聚寬量化投資平臺的股票多因子策略應(yīng)用楊世林[D].浙江大學(xué),2018(06).
[5]林文強.加性風(fēng)險模型下量化投資策略及其實現(xiàn)[J]科技經(jīng)濟導(dǎo)刊,2019,27(10)4-6.
[6]黃東賓.有效因子綜合偏好強度與CVaR整合優(yōu)化模型[J]運籌與管理,2019,03(3)24-30.
[7]趙子銘.基于有效因子復(fù)合檢驗法的多因子選股策略[N]廣州航海學(xué)院學(xué)報,2019,09(3)74-78.
通訊作者:邵波(1980-),男,杭州,講師,博士,微生物量化金融研究,量化金融大數(shù)據(jù)挖掘。