《基于FP-Growth關(guān)聯(lián)規(guī)則算法的多因子打分法模型因子的選擇與賦權(quán)研究》

2020-03-25 02:50:38岳書凝邵波王健

現(xiàn)代營銷·經(jīng)營版 2020年3期

岳書凝邵波王健

摘要：目前我國的量化投資發(fā)展迅猛，其中最為熱門的便是多因子模型策略。如今已經(jīng)有不少成功的量化研究是以多因子選股模型為基礎(chǔ)，基于打分法構(gòu)建的模型策略，以實際的應(yīng)用驗證了其可行性。但是多數(shù)的多因子模型仍是以投資組合理論為指導(dǎo)進行構(gòu)建的，而本文考慮到我國國情以及A股的實際情況，則創(chuàng)新性地從市場實際的歷史表現(xiàn)數(shù)據(jù)出發(fā)，結(jié)合時下最新興的大數(shù)據(jù)分析，利用FP-Growth算法發(fā)掘多種因子數(shù)據(jù)表現(xiàn)與收益的關(guān)聯(lián)規(guī)則，反向選擇出最優(yōu)因子和最優(yōu)權(quán)重，構(gòu)建更加針對市場特征的實用型投資策略。

關(guān)鍵詞：FP-Growth關(guān)聯(lián)規(guī)則算法;多因子打分法模型;因子選擇;賦權(quán)

盡管從20世紀90年代到現(xiàn)在，我國證券市場日益趨于完善，國內(nèi)外眾多學(xué)者提供了很多理論上近乎完美的投資模型，但是在我國目前市場尚無法滿足這些模型的嚴格假設(shè)條件下，這些在國外運用成熟的量化投資模型在中國市場上并不定完全有效，真正能應(yīng)用于實踐的并不多。而要想在A股市場上獲取成功有效的持續(xù)的超額收益，就需要從我國市場的實際情況出發(fā)，探索真正符合A股市場的本土化的投資模型。因此，本文將使用FP-Growth關(guān)聯(lián)規(guī)則算法研究如何選擇有效因子以及如何分配多因子權(quán)重，構(gòu)建一個真正的符合中國A股市場特征的個性化多因子選股模型，構(gòu)建在我國資本市場上可獲得超額收益的投資策略。

一、算法描述和多因子模型

（一）FP-Growth關(guān)聯(lián)規(guī)則算法

FP-tree的構(gòu)建，也就是將數(shù)據(jù)集進行壓縮，是一種緊湊的數(shù)據(jù)結(jié)構(gòu)，與計算機學(xué)科中的樹結(jié)構(gòu)相似。不同的是FP-tree通過鏈接（link）連接相似的元素，在條件FP-tree的基礎(chǔ)上進行頻繁項集的遞歸挖掘，頻繁模式由條件模式基中去除小于支持度計數(shù)的前綴路徑組成。此外FP-Growth算法將數(shù)據(jù)集壓縮到FP-tree中，從而大大地減少了掃描數(shù)據(jù)庫的次數(shù)，以及存儲大量候選集的開銷。

圖1? FP-tree的實例

（二）多因子模型構(gòu)建

1.候選因子庫的創(chuàng)建

本文考慮到因子指標(biāo)的普遍性、數(shù)據(jù)可得性以及區(qū)別度等標(biāo)準(zhǔn)，選擇并獲取如下數(shù)據(jù)類型并根據(jù)FP-Growth算法的原理加以分組分類

表1? （時間區(qū)間：六個月）：

2.數(shù)據(jù)匯總及預(yù)處理

由于各個描述性因子所衡量的單位不同，導(dǎo)致因子數(shù)值范圍差異較大，因此在進行因子分析之前，必須對其進行標(biāo)準(zhǔn)化，本文將數(shù)據(jù)進行min-max標(biāo)準(zhǔn)化處理，即是通過對原始數(shù)據(jù)的線性變換，按照比例縮放，使之落入一個小的特定區(qū)間，如[-1，1]，由此才能進一步導(dǎo)入算法來分析數(shù)據(jù)。公式近似為：

x* = （x - x_mean）/（x_max - x_min）

3.FP-Growth算法的實現(xiàn)

本文運用Java構(gòu)造FP-tree，創(chuàng)建FP-tree的具體步驟如下：

首先創(chuàng)建FP-tree的根結(jié)點，標(biāo)記為“NULL”.

對于數(shù)據(jù)集中的每個事務(wù)執(zhí)行以下操作：對事務(wù)中的頻繁項按照頻繁1-項集L中的順序進行排序，排序后的頻繁項表記為IP/PI，其中p是第一-個元素，而P是剩余元素的表.調(diào)用insert.tree{[p/PI]}.

具體的執(zhí)行過程如下：如果T有子女N使得Nitem_name=p.item_name，則N的計數(shù)增加1;否則創(chuàng)建一個新結(jié)點N，將其計數(shù)設(shè)置為1，鏈接到它的父結(jié)點T，并且通過結(jié)點鏈結(jié)構(gòu)將其鏈接到具有相同item_name的結(jié)點。如果P非空，遞歸地調(diào)用inser_tree（P，N）.

按照支持度遞減的順序建立-一一個項頭表，這樣一顆完整的頻繁模式數(shù)就構(gòu)造完成。注：本文根據(jù)投資需求，只針對性的獲取以A組數(shù)據(jù)（漲跌幅%）為表頭，與其他因子的關(guān)聯(lián)度。即排除無關(guān)的關(guān)聯(lián)度分析，只得到體現(xiàn)各因子與收益率關(guān)系的FP-tree.4.經(jīng)典多因子打分法模型改進考慮到市場的多變性和不同的因子特性，本文將等權(quán)重打分改進為賦權(quán)打分。經(jīng)典的多因子打分法模型實質(zhì)是計算綜合因子（得分）—即因子標(biāo)準(zhǔn)化后等權(quán)重求和的選股過程。本文則根據(jù)因子暴露與收益率之間的關(guān)系，兼顧因子的偏好方向，成比例地形成投資組合。彌補了經(jīng)典打分法因權(quán)重不定帶來的不穩(wěn)定性。

二、應(yīng)用與檢驗

（一）賦權(quán)多因子模型的構(gòu)建

從wind金融終端數(shù)據(jù)庫導(dǎo)出滬深300個股票六個月前（2019.05）的候選數(shù)據(jù)，將其標(biāo)準(zhǔn)化處理后導(dǎo)入FP-Growth算法進行挖掘，支持度設(shè)為50，調(diào)倉頻率（每月調(diào)倉一次）。

得如下結(jié)果：

表2? 算法挖掘的上跌幅與各因子指標(biāo)結(jié)果

關(guān)于該結(jié)果的解釋分析：

1.在支持度下，不存在與A1、A4關(guān)聯(lián)的因子，因此在該時間段多數(shù)股票漲跌幅適中，無頻繁大漲大跌。

2.由于A2為跌幅分組，所以不列入買點分析范圍內(nèi)。

3.通過計算得出，A3關(guān)聯(lián)占比呈現(xiàn)近似于3：0：2：1.5。即不選擇C所代表的因子，且得出因子權(quán)重。

在同花順mindgo平臺上，利用多因子打分法策略，加入賦權(quán)進行模擬操作。

設(shè)定最大持股數(shù)（30只）、初始金額（10，000，000元）

（二）模型回測結(jié)果分析

1.模型回測結(jié)果

圖2? 收益曲線

圖3? 權(quán)重和等權(quán)重收益率對比

2.回測結(jié)果分析

在回測期內(nèi)，改進后的FP-Growth算法賦權(quán)多因子模型收益率為9.49%，收益率均超過基準(zhǔn)收益和等權(quán)重模型，且各項指標(biāo)的表現(xiàn)較于等權(quán)重模型均更為優(yōu)化，可認為改良后模型因子選擇及賦權(quán)有效，具有更強的盈利能力和普適性。

三、結(jié)論和存在的問題

本文通多運用FP-Growth算法，探究指標(biāo)變化與收益率的直接關(guān)系，個性化的挑選最合適的有效因子;同時驗證了且采用多因子選股模型時，選取的有效因子權(quán)重也不是固定不變的。本文模型可以針對不同的板塊、周期、市場的實際情況和宏觀經(jīng)濟狀況進行不斷的更新和調(diào)整，以保證其持續(xù)有效性，有針對性地獲取更個性化的投資收益。同時在模型構(gòu)建的過程中，也發(fā)現(xiàn)了一些日后可進行優(yōu)化的問題。

由于數(shù)據(jù)的可得性和計算量限制，只能選取部分指標(biāo)，今后可以考慮加入更全面的技術(shù)指標(biāo)，如KDJ、BOLL等?？紤]到程序運行量較大，數(shù)據(jù)選取時間范圍較小，只能針對短線投資，后續(xù)可針對長期龐大數(shù)據(jù)量改進算法。受到FP-grouth算法的局限性，數(shù)據(jù)只能進行離散處理，因此不能對數(shù)據(jù)進行連續(xù)性的分析。

四、展望

本文所述可以為量化投資提供一個新的思路，與以往基于經(jīng)驗判斷定性選擇模型中的因子等權(quán)重分配不同，而是運用大數(shù)據(jù)分析，從市場表現(xiàn)出發(fā)，反向思考，創(chuàng)新性的改進經(jīng)典的多因子打分法策略。該策略除了能夠更深程度的運用于量化選股，還可以針對個股特性及其所處在的周期一對一分析，使投資者對于所選中的優(yōu)質(zhì)股有更精準(zhǔn)的操作。同時基于FP-Growth關(guān)聯(lián)規(guī)則算法的多因子打分法選擇及賦權(quán)改進，還可以擴展向宏觀經(jīng)濟分析等其他金融領(lǐng)域，可以實時、準(zhǔn)確、多維度、智能化的為政府和研究機構(gòu)的政策制定、經(jīng)濟分析提供有力的數(shù)據(jù)支持。甚至可以應(yīng)用至商業(yè)、醫(yī)療、教育、農(nóng)業(yè)等其他領(lǐng)域。

參考文獻：

[1]朱濤.基于FP-growth關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D].南昌大學(xué)，2010（01）07.

[2]劉藝.張海濤.劉奇燕.石碩.基于分解數(shù)據(jù)庫的FP_growth算法關(guān)聯(lián)規(guī)則研究[J].計算機與數(shù)字工程，2018（07）1306-1416.

[3]苗苗.多因子選股模型在投資組合管理中的應(yīng)用研究[D].南京審計大學(xué)，2018（05）：17.

[4]楊世林.基于聚寬量化投資平臺的股票多因子策略應(yīng)用楊世林[D].浙江大學(xué)，2018（06）.

[5]林文強.加性風(fēng)險模型下量化投資策略及其實現(xiàn)[J]科技經(jīng)濟導(dǎo)刊，2019，27（10）4-6.

[6]黃東賓.有效因子綜合偏好強度與CVaR整合優(yōu)化模型[J]運籌與管理，2019，03（3）24-30.

[7]趙子銘.基于有效因子復(fù)合檢驗法的多因子選股策略[N]廣州航海學(xué)院學(xué)報，2019，09（3）74-78.

通訊作者：邵波（1980-），男，杭州，講師，博士，微生物量化金融研究，量化金融大數(shù)據(jù)挖掘。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

《基于FP-Growth關(guān)聯(lián)規(guī)則算法的多因子打分法模型因子的選擇與賦權(quán)研究》