基于深度強化學(xué)習(xí)算法的投資組合策略與自動化交易研究

2024-09-14 00:00:00楊旭劉家鵬越瀚張芹

現(xiàn)代電子技術(shù) 2024年6期

摘 "要：投資組合策略問題是金融領(lǐng)域經(jīng)久不衰的一個課題，將人工智能技術(shù)用于金融市場是信息技術(shù)時代一個重要的研究方向。目前的研究較多集中在股票的價格預(yù)測上，對于投資組合及自動化交易這類決策性問題的研究較少。文中基于深度強化學(xué)習(xí)算法，利用深度學(xué)習(xí)的BiLSTM來預(yù)測股價的漲跌，以強化學(xué)習(xí)的智能體進行觀測，更好地判斷當(dāng)期情況，從而確定自己的交易動作；同時，利用傳統(tǒng)的投資組合策略來建立交易的預(yù)權(quán)重，使智能體可以在自動化交易的過程中進行對比，從而不斷優(yōu)化自己的策略選擇，生成當(dāng)期時間點內(nèi)最優(yōu)的投資組合策略。文章選取美股的10支股票進行實驗，在真實的市場模擬下表明，基于深度強化學(xué)習(xí)算法的模型累計收益率達(dá)到了86.5%，與其他基準(zhǔn)策略相比，收益最高，風(fēng)險最小，具有一定的實用價值。

關(guān)鍵詞：投資組合策略；自動化交易；深度強化學(xué)習(xí)； BiLSTM；深度確定性策略梯度（DDPG）；權(quán)重對比

中圖分類號： TN911?34 " " " " " " " " " " " " " "文獻標(biāo)識碼： A " " " " " " " " " " " 文章編號： 1004?373X（2024）06?0154?07

Research on investment portfolio strategy and automated trading based on deep reinforcement learning algorithm

YANG Xu1， LIU Jiapeng2， YUE Han1， ZHANG Qin1

（1. College of Economics and Management， China Jiliang University， Hangzhou 310018， China;

2. College of Business， Zhejiang Wanli University， Ningbo 315100， China）

Abstract： The problem of investment portfolio strategy is an enduring topic in the financial field， and the application of artificial intelligence techniques in financial markets is an important research direction in the information technology era. Current research is more focused on price prediction of stocks， and less on decision?making problems such as investment portfolio and automated trading. Based on the deep reinforcement learning algorithm， the BiLSTM of deep learning is used to predict the rise and fall of stock prices， and the reinforcement learning agents is used to observe and better assess the current situation， so as to determine one's own trading actions. Intelligent agents can comparison during automated trading processes by using traditional investment portfolio strategy to establish pre weights for transactions， so as to continuously optimize their strategy choices and generate the optimal investment portfolio strategy at the current time point. 10 stocks from the US stock market are selected for experiments. Under real market simulations， the results show that the cumulative return of the model based on deep reinforcement learning algorithm can reach 86.5%. In comparison with other benchmark strategies， it has the highest return and the lowest risk， and has a certain practical value.

Keywords： investment portfolio strategy; automated trading; deep reinforcement learning;BiLSTM;DDPG; weighting comparison

0 "引 "言

投資組合策略的目標(biāo)是指對所購買的金融產(chǎn)品的權(quán)重進行調(diào)節(jié)以盡可能控制并縮小風(fēng)險，擴大收益。傳統(tǒng)的投資組合模型往往伴隨著較多的假設(shè)和約束，但當(dāng)今金融市場瞬息萬變，數(shù)據(jù)海量，傳統(tǒng)的投資組合模型已經(jīng)不能適應(yīng)現(xiàn)實的需要，亟待有新的方法來解決不同情境下的投資組合管理問題。

近年來，隨著科技的進步與硬件設(shè)施的發(fā)展，人工智能在各行各業(yè)上的優(yōu)勢逐步顯現(xiàn)。在金融科技領(lǐng)域，深度學(xué)習(xí)算法常常被國內(nèi)外學(xué)者用于股價預(yù)測[1?3]方面。強化學(xué)習(xí)屬于近些年的一個新興方向，在金融領(lǐng)域的應(yīng)用較少；但是依據(jù)強化學(xué)習(xí)的基本原理和運作模式，其非常適合于金融領(lǐng)域的一些決策性活動。因此在已有的研究里，強化學(xué)習(xí)常常被用于量化交易和資產(chǎn)組合方面[4]。

近年來，學(xué)者們已經(jīng)在金融市場中進行了廣泛的深度學(xué)習(xí)和強化學(xué)習(xí)，主要總結(jié)其在量化交易上的成果。Liang等人通過比較PPO、DDPG和PG算法在投資組合市場中的應(yīng)用，發(fā)現(xiàn)基于策略梯度（PG）的算法要優(yōu)于其他算法[5]。Xiong等人訓(xùn)練了一個深度強化學(xué)習(xí)代理，獲得自適應(yīng)交易策略，并將其與道瓊斯工業(yè)平均水平和傳統(tǒng)的最小變化投資組合分配策略進行了比較，發(fā)現(xiàn)該系統(tǒng)在夏普比率和累積回報方面都優(yōu)于其他兩個基準(zhǔn)[6]。Buehler等人提出了一種DRL框架，通過強化學(xué)習(xí)方法，直接利用歷史價格來解決投資組合問題[7]。Gao等人將DQN算法用于股票市場的投資組合管理，為了使DQN適應(yīng)金融市場，將行動空間離散為不同資產(chǎn)中投資組合的權(quán)重[8]。

在實驗上，選取了5支美國股票來測試該模型。結(jié)果表明，基于DQN策略的表現(xiàn)優(yōu)于其他10種傳統(tǒng)策略，DQN算法的利潤比其他策略的利潤高30%。此外，夏普比率表明，使用DQN制定的政策風(fēng)險最低。Weng等人提出了一種三維注意門網(wǎng)絡(luò)，它對上升時期的資產(chǎn)賦予更高的權(quán)重[9]。在不同的市場條件下，這個系統(tǒng)獲得了更大的回報，大大提高了夏普比率，并且風(fēng)險指數(shù)遠(yuǎn)低于傳統(tǒng)算法。

Lei等人提出了一個基于時間驅(qū)動的特征感知聯(lián)合深度強化學(xué)習(xí)模型（TFJ?DRL），結(jié)合門控循環(huán)單元（GRU）和策略梯度算法，實施股票交易[10]。Lee等人提出了一個HW_LSTM_RL結(jié)構(gòu)，它首先使用了小波轉(zhuǎn)換以消除股票數(shù)據(jù)中的噪聲，然后基于深度強化學(xué)習(xí)分析股票數(shù)據(jù)，做出交易決策[11]。許杰等人提出了一種將CNN和LSTM相結(jié)合的自動交易算法，通過CNN模型對股票數(shù)據(jù)進行分析，從中提取動態(tài)特征；然后使用LSTM模型對股票數(shù)據(jù)的動態(tài)時間序列進行循環(huán)學(xué)習(xí)，通過強化學(xué)習(xí)制定相應(yīng)的交易策略[12]。實證表明，該方法比標(biāo)準(zhǔn)模型具有更好的魯棒性。

現(xiàn)有的研究大多只將深度強化學(xué)習(xí)算法直接用于股票的投資組合決策中，而本文引入傳統(tǒng)的投資組合理論，使強化學(xué)習(xí)算法可以不斷優(yōu)化自己的權(quán)重選擇；不同于僅僅單一用深度強化學(xué)習(xí)算法，用神經(jīng)網(wǎng)絡(luò)預(yù)測股價的下一步走勢，使強化學(xué)習(xí)智能體在做出交易決策時可以更好地把握下一時刻的股價信息。

1 "整體模型建立

1.1 "BiLSTM預(yù)測股票價格

1.1.1 "LSTM網(wǎng)絡(luò)結(jié)構(gòu)

LSTM中引入了3個門以及與隱藏狀態(tài)形狀相同的記憶細(xì)胞，通過門來控制信息的流動。

[t]時期的輸入包括前期輸出[ht-1]、當(dāng)期市場信息[xt]以及前期細(xì)胞記憶[Ct-1]。遺忘門[ft]對前期細(xì)胞信息進行選擇。其計算公式如下：

[ft=σWf?ht-1，xt+bf] （1）

式中：[σ]表示非線性函數(shù)；[Wf]表示遺忘門的權(quán)重系數(shù)；[ht-1]是LSTM單元的隱藏狀態(tài)；[bf]是偏置項；“*”符號代表向量點乘。

通過對[xt]、[ht-1]的函數(shù)映射機制，可以得到當(dāng)期市場信息的臨時細(xì)胞記憶[Ct～]。具體計算公式如下：

[it=σWi?ht-1，xt+bi] （2）

[Ct～=tanhWC?ht-1，xt+bC] （3）

式中：[it]表示記憶現(xiàn)在某些信息；[tanh]是雙曲正切函數(shù)；[Wi]、[WC]表示對應(yīng)門的權(quán)重系數(shù)；[bi]、[bC]表示偏置項。

通過遺忘門和輸入門得到新的輸入信息的記憶[Ct]，公式為：

[Ct=ft·Ct-1+it·Ct～] （4）

式中[Ct]表示將過去與現(xiàn)在信息合并。

[tanh]函數(shù)將單元格狀態(tài)規(guī)范到-1～1之間，并乘以sigmoid門輸入，作為最終的結(jié)果。

[ot=σWo?ht-1，xt+bo] （5）

[ht=ot·tanhCt] （6）

式中：[ot]表示輸出門輸出；[Wo]是輸出門輸入權(quán)重參數(shù)；[bo]是偏置項，每個單元的相同門的輸入?yún)?shù)共享。

1.1.2 "BiLSTM預(yù)測股票漲跌

BiLSTM（Bi?directional Long Short?Term Memory）是LSTM網(wǎng)絡(luò)的一種改進模型，也稱為雙向LSTM網(wǎng)絡(luò)，它利用了后續(xù)時間信息對于當(dāng)前時間進行判斷，可以獲得更加準(zhǔn)確的預(yù)測效果。實驗設(shè)計的BiLSTM網(wǎng)絡(luò)整體的輸入序列為樣本個數(shù)（samples）、時間步長（time steps）和特征（features）。實驗過程是：首先將選擇好的數(shù)據(jù)進行歸一化處理；接下來采用滑動窗口的方式來構(gòu)建預(yù)測模型的數(shù)據(jù)集；再使用Keras框架進行模型的構(gòu)建與訓(xùn)練，采用Adam算法更新，將數(shù)據(jù)分批輸入模型；然后測試不同時間步長下預(yù)測模型的性能，對比時間步長為3、7、10、20，找出最優(yōu)的時間步長；最后測試模型最優(yōu)時間步長下最小的RMSE和MAPE。

1.2 "投資組合權(quán)重分配

本文以馬科維茨的投資組合理論為基礎(chǔ)建立資產(chǎn)配置的權(quán)重模型，它包含了均值?方差模型和投資組合有效邊界模型。投資者可以預(yù)先確定一個期望收益，進一步確定投資者在每個項目上的權(quán)重，使其總投資風(fēng)險最小，故不同的期望收益對應(yīng)著不同的最小方差組合。在有效邊界模型中，將收益率作為縱軸，收益率標(biāo)準(zhǔn)差作為橫軸，繪制出所有包含最小方差的點，構(gòu)成投資組合理論中的有效邊界。該理論的核心思想是將不同的投資資產(chǎn)組合在一起，以實現(xiàn)最小化投資組合風(fēng)險和最大化預(yù)期收益率。投資組合的風(fēng)險和收益率是由其中每種資產(chǎn)的風(fēng)險和收益率以及它們之間的相關(guān)性所決定的，通過組合不同風(fēng)險和收益率的資產(chǎn)，可以降低整個投資組合的風(fēng)險，同時最大化預(yù)期收益率。

本文以馬科維茨的投資組合理論為基礎(chǔ)，去除交易成本限制，用數(shù)據(jù)訓(xùn)練生成一組最優(yōu)的投資組合權(quán)重。首先輸入股票數(shù)量，隨機生成一組權(quán)重；接著計算該權(quán)重下的收益率標(biāo)準(zhǔn)差和收益率，重復(fù)該過程，得出最優(yōu)邊界；最后，在最優(yōu)邊界上可以找到最小風(fēng)險和最大收益的投資組合權(quán)重。將此過程建模為MPT模型。

1.3 "強化學(xué)習(xí)算法

1.3.1 "股票市場定義

將投資組合過程近似看作是一個馬爾科夫決策過程（MDP）。MDP定義為元組[S，A，P，r]，其中[S]是狀態(tài)空間，[A]是動作空間，[PSt+1St，at]表示在[at∈Α]、[st∈S]到下一個狀態(tài)[St+1]的概率，[rSt，at，St+1]表示在狀態(tài)[St]采取行動的直接回報，同時達(dá)到新狀態(tài)[St+1]。強化學(xué)習(xí)的具體操作是選擇最佳的投資組合權(quán)重向量，并根據(jù)前后的向量之差進行交易，計算收益（或正或負(fù)），從而達(dá)到最大化累計收入，并且盡可能降低風(fēng)險以及交易成本的目的。

本文預(yù)設(shè)初始資金為1 000 000美元，基于強化學(xué)習(xí)對于股票市場的描述如下：

1）狀態(tài)空間（state）。[ct]：[t]時刻的可用余額；[Otyst]：[t]時刻每支股票的持有市值；[Closet]：[t]時刻后10天每天的收盤價。

2）動作空間（action）。在投資組合交易問題中，智能體的工作是計算出每種股票的買入和賣出量。允許投資者在行動空間內(nèi)做多和做空資產(chǎn)，但是在做空時，賣出要從價格最低的進行賣出，以獲得最大的收益。對于單個股票，動作空間被定義為[-k，…，-1，0，1，…，k]，其中[k]和[-k]代表可以買賣的股票數(shù)量，[k≤hmax]。[hmax]是一個預(yù)定義的參數(shù)，用于設(shè)置每次購買行為的最大股份數(shù)量；操作空間歸一化為[-1，1]，這也意味著操作空間是連續(xù)的。在每個狀態(tài)的操作選擇之后，首先進行判斷，對每支股票是執(zhí)行賣出操作，還是執(zhí)行買入或持有操作。

3）股票支數(shù)[M]。本文定義的股票支數(shù)為[M=10]。

4）投資組合向量。第i項表示投資總預(yù)算與第i項資產(chǎn)的比率，即：

[wt=w1，t，w2，t，…，wM，tT∈RM] （7）

式中[wt]的每一個元素[wi，t∈0，1]，且[i=1Mwi，t-1=1]。

5）調(diào)整后的收盤價。本文將股票i在時間[t]的調(diào)整后的收盤價記為[pi，t]。

6）資產(chǎn)價格。本文定義資產(chǎn)在[t]時期的價格為：

[Vt=i=1Mhi，t-1·pi，t+ct-1] （8）

7）持股情況。本文定義在時間[t]股票i的持股為：

[hi，t=Vt·wi，tpi，t] （9）

8）獎勵函數(shù)（Reward Function）。將獎勵函數(shù)定義為：

[Rt=Vt-Vt-1] （10）

9）為增加預(yù)期投資匯報，設(shè)置投資組合交易深度強化學(xué)習(xí)框架中的動作向量為：

[at=wt] （11）

式中[wt]的每一個元素[wt，j∈0，1]，且[j=0mwt，j=1]。

1.3.2 "DDPG算法

深度確定性策略梯度（DDPG）算法采用的是經(jīng)典的Actor?Critic架構(gòu)，Actor網(wǎng)絡(luò)為策略[μ]，Critic網(wǎng)絡(luò)為價值函數(shù)[Q]。Actor網(wǎng)絡(luò)輸入環(huán)境的狀態(tài)，輸出在該狀態(tài)下價值[Q]最大的動作[a]，以此構(gòu)成確定性策略[μ]。該網(wǎng)絡(luò)直接對價值函數(shù)[Q]做梯度下降，其目的是找到最大的動作[a]。這里的[Q]來源于上一輪Critic網(wǎng)絡(luò)的輸出。根據(jù)策略梯度定理推導(dǎo)出確定性策略梯度定理：

[?θμ=ESt～pβ?aQs，aθQS=St，a=μ（st）·?θμμ（sθμ）s=st] （12）

Critic網(wǎng)絡(luò)輸入環(huán)境的狀態(tài)，Actor網(wǎng)絡(luò)輸出動作[a]、輸出擬合[Q]。該網(wǎng)絡(luò)的Label為通過Bellman最優(yōu)方程計算出的價值，描述最優(yōu)動作的Bellman等式為：

[Q?（s，a）=Er（s，a）+γmaxQ?（s'，a'）] （13）

DDPG的Q?learning算法使用目標(biāo)網(wǎng)絡(luò)實現(xiàn)目標(biāo)的表達(dá)式為：

[ρ=r+γ（1-d）maxQ?（s'，a'）] （14）

綜上，整體的模型結(jié)構(gòu)如圖1所示。

2 "實驗過程

2.1 "數(shù)據(jù)準(zhǔn)備

本實驗的數(shù)據(jù)來源是雅虎財經(jīng)網(wǎng)站，選擇具有代表性的10支上市公司的股票，分別為谷歌（GOOGL）、蘋果（APPL）、亞馬遜（AMZN）、高通（QCOM）、特斯拉（TSLA）、微軟（MSFT）、好市多（COST）、迪許網(wǎng)路（DISH）、卡康斯特（CMCSA）和易趣（EBAY）。選取美股市場的股票原因在于市場比較穩(wěn)定，更利于訓(xùn)練和分析模型。

本實驗的數(shù)據(jù)范圍是2013年1月29日—2022年12月30日之間10年的數(shù)據(jù)，除周六、周日以及節(jié)假日外所有交易日共2 500條數(shù)據(jù)。其中，將訓(xùn)練集與測試集按7∶3的比例劃分。在數(shù)據(jù)字段中以收盤價作為主要的標(biāo)準(zhǔn)數(shù)據(jù)，以蘋果（APPL）的部分股票基本數(shù)據(jù)為例，如表1所示。

同時，選取4類技術(shù)指標(biāo)作為輔助，以便更好地提取股票的特征，技術(shù)指標(biāo)的選取如表2所示。

2.2 "實驗環(huán)境

本實驗的代碼整體上使用Python進行編寫，LSTM網(wǎng)絡(luò)預(yù)測模型在基于TensorFlow的Keras框架下進行建立，并利用Python提供的sklearn、numpy等第三方工具庫進行輔助，實現(xiàn)了數(shù)據(jù)的預(yù)處理以及預(yù)測結(jié)果的可視化工作。本次實驗所使用的環(huán)境信息如表3所示。

2.3 "評估指標(biāo)

2.3.1 "BiLSTM評價指標(biāo)

本文選取RMSE（均方根誤差）和MAPE（平均絕對百分比誤差）來作為預(yù)測模型結(jié)果的評價指標(biāo)。

其中，RMSE為MSE的平方根。MSE定義為預(yù)測數(shù)據(jù)與原始數(shù)據(jù)對應(yīng)點誤差的平方和的均值，公式如下：

[MSE=1ni=1nyi-yi2] （15）

[RMSE=MSE] （16）

且RMSE越小，表明結(jié)果越好。

MAPE的公式如下：

[MAPE=1ni=1nyi-yiyi×100%] （17）

且MAPE越小，表明結(jié)果越好。

2.3.2 "投資組合策略評價指標(biāo)

本文使用累計收益率、夏普比率、最大回撤、Alpha和Beta等5個指標(biāo)對投資組合策略結(jié)果進行評估。

股票的累計收益率（CR）是衡量投資組合管理在時間期間上投資結(jié)果的常用指標(biāo)，即投資組合的累計收益除以本金。夏普比率反映了單位風(fēng)險資產(chǎn)凈值增長率超過無風(fēng)險收益率的程度，是用股票的凈值增長率的平均值減無風(fēng)險利率再除以股票的凈值增長率的標(biāo)準(zhǔn)差，是最主流的評價投資組合策略績效的指標(biāo)。其計算公式如下所示：

[Sharpe=ERp-Rfσp] （18）

最大回撤是指在任一時間點向后推，產(chǎn)品凈值到達(dá)最低點時，收益率回撤幅度的最大值。這一指標(biāo)描述了投資者買入某資產(chǎn)可能出現(xiàn)的最為糟糕的情況，其計算公式如下所示：

[max down=minXi-XjXj×100%] （19）

Alpha值是用來衡量模型相較于基準(zhǔn)模型獲得的超額收益。Alpha值越大，表示相較于基準(zhǔn)獲得的額外回報越多，其計算公式如下所示：

[Alpha=Rp-Rf+βpRm-Rf] （20）

式中：[Rp]表示組合收益率；[Rf]表示無風(fēng)險收益率；[Rm]代表市場收益率（本文選取道瓊斯指數(shù)作為基準(zhǔn)市場）。

Beta值是用來評估模型到基準(zhǔn)市場的相對于評估模型系統(tǒng)風(fēng)險的指標(biāo)。如果Beta值大于1，則模型的波動性大于基準(zhǔn)；如果Beta值小于1，則模型小于基準(zhǔn)；如果Beta值等于1，則波動率模型的性能與基準(zhǔn)測試的性能相同。其計算公式如下所示：

[Beta=CovRp，Rmσ2m] （21）

式中[σ2m]表示基準(zhǔn)市場即道瓊斯市場的方差。

2.3.3 "基準(zhǔn)策略

本文選取4個基準(zhǔn)策略和所提投資組合模型進行對比，即道瓊斯工業(yè)平均指數(shù)（DJI）、買入持有計劃（BAH）、集成有三個Actor?Critic算法的強化學(xué)習(xí)模型（ES）[13]以及基于主成分分析和小波去噪的方法（PCAamp;DWT）[14]。

3 "實驗結(jié)果

3.1 "BiLSTM預(yù)測效果

根據(jù)BiLSTM網(wǎng)絡(luò)的預(yù)測結(jié)果進行如下評估。首先對模型預(yù)測效果進行分析，由于每支股票有其數(shù)據(jù)特性，因此在訓(xùn)練時，常選取不同的網(wǎng)絡(luò)進行預(yù)測。本文選取APPL作為展示結(jié)果，模型的預(yù)測值與真實值的對比結(jié)果如圖2所示。

圖b）、a）、c）分別為尺度為5、50、200的真實值與預(yù)測值的對比。由圖中可見在局部的振蕩上預(yù)測值準(zhǔn)確，在整體上的趨勢預(yù)測也能準(zhǔn)確實現(xiàn)，且得到的評價指標(biāo)分別為：RMSE是8.145；MAPE是0.836%?？芍A(yù)測結(jié)果較好。

對APPL預(yù)測模型的損失評估如圖3所示。訓(xùn)練輪次達(dá)到70次左右時，模型收斂，得到的誤差結(jié)果在0.042 5左右，此時模型誤差最小。再增加訓(xùn)練輪次時，模型訓(xùn)練效果會產(chǎn)生過擬合，使模型效果變差。

3.2 "DDPG決策效果

基于相同的市場數(shù)據(jù)來對比投資組合方法的優(yōu)劣，各個算法的評價結(jié)果如表4和圖4所示。

由表4可知：本文提出的模型在累計收益率上高于其他4個模型；本文的交易策略有著最高的夏普比率，這表明與其他策略相比，本文模型可以在同等風(fēng)險水平下獲得更高的回報。由于本文模型相較于其他模型有最低的最大回撤值，這表明可能發(fā)生的最大虧損幅度是最小的；相較于其他模型，本文的模型基于基準(zhǔn)市場有著最高的Alpha值，這說明同等情況下，本文的模型可能會獲得更多的額外收益；Beta值最低，說明本文的模型相較于基準(zhǔn)市場存在的系統(tǒng)風(fēng)險最低。綜上所述，本文模型在同等市場條件下，可以獲得較高的收益，且風(fēng)險水平較小，具有一定的實用意義。

4 "結(jié) "論

本文基于深度強化學(xué)習(xí)技術(shù)，提出一種適合于個人投資者的智能投資組合優(yōu)化方法及交易模型。通過使用股票的價格數(shù)據(jù)以及技術(shù)指標(biāo)數(shù)據(jù)作為BiLSTM的輸入，引入注意力機制，預(yù)測市場下一步的價格走勢，強化學(xué)習(xí)智能體在此基礎(chǔ)上進行股票的買賣操作；與此同時，將經(jīng)典的馬科維茨投資組合理論進行建模，在本文的權(quán)重選擇過程中，不斷與其進行對比，使本文的權(quán)重選擇不斷趨于更優(yōu)解。本研究有助于個人投資者在不確定的市場環(huán)境中做出理性投資決策，提升投資風(fēng)險管理意識，同時獲得更高的投資回報。本文基于真實的市場數(shù)據(jù)進行實證分析，且豐富了現(xiàn)代投資組合理論與金融實證研究，為人工智能技術(shù)在經(jīng)濟學(xué)和管理學(xué)中的深入研究提供了參考。

深度強化學(xué)習(xí)作為人工智能的前沿技術(shù)，已經(jīng)在投資組合和自動化交易方面展現(xiàn)了優(yōu)勢之處，是未來金融市場發(fā)展的重要方向。未來的工作也許可以從以下幾個方面考慮：

1）股價波動受到多種因素的共同影響，以往的工作將多種信息并行拼接，而忽略了各種信息之間的內(nèi)在聯(lián)系。因此，如何利用各個信息之間的關(guān)系重構(gòu)向量是未來研究的一個重要方向。

2）金融市場是一個復(fù)雜的系統(tǒng)，憑借單一的不變的模型不可能一直獲利，因此需要構(gòu)建一種多資產(chǎn)投資組合的動態(tài)交易模型，根據(jù)不同的市場環(huán)境和不同的限制要求來滿足投資者的需求。

3）情緒因素也是影響金融市場變動的一個重要因素，如何將情感量化加入股票的買賣之中，也是一個值得研究的課題。

注：本文通訊作者為劉家鵬。

參考文獻

[1] SHAHI T B， SHRESTHA A， NEUPANE A， et al. Stock price forecasting with deep learning： a comparative study [J]. Mathematics， 2020， 8（9）： 1441.

[2] JI Y， LIEW W C， YANG L. A novel improved particle swarm optimization with long?short term memory hybrid model for stock indices forecast [J]. IEEE access， 2021（9）： 23660?23671.

[3] 翁曉健，林旭東，趙帥斌.基于經(jīng)驗?zāi)B(tài)分解與投資者情緒的長短期記憶網(wǎng)絡(luò)股票價格漲跌預(yù)測模型[J].計算機應(yīng)用，2022，42（z2）：296?301.

[4] 梁天新，楊小平，王良，等.基于強化學(xué)習(xí)的金融交易系統(tǒng)研究與發(fā)展[J].軟件學(xué)報，2019，30（3）：20.

[5] LIANG Z， HAO C， ZHU J， et al. Adversarial deep reinfor?cement learning in portfolio management [EB/OL]. [2023?08?07]. https：//arxiv.org/pdf/1808.09940.

[6] XIONG Z， LIU X Y， SHAN Z， et al. Practical deep reinfor?cement learning approach for stock trading [EB/OL]. [2023?02?15]. http：//arxiv.org/pdf/1811.07522.

[7] BUEHLER H， GONON L， TEICHMANN J， et al. Deep hedging [J]. Quantitative finance， 2019， 19（8）： 1271?1291.

[8] GAO Z， GAO Y， HU Y， et al. Application of deep q?network in portfolio management [C]// 2020 5th IEEE International Conference on Big Data Analytics. [S.l.]： IEEE， 2020： 268?275.

[9] WENG L， SUN X， XIA M， et al. Portfolio trading system of digital currencies： a deep reinforcement learning with multidimensional attention gating mechanism [J]. Neurocomputing， 2020， 402： 171?182.

[10] LEI K， ZHANG B， LI Y， et al. Time?driven feature?aware jointly deep reinforcement learning for financial signal representation and algorithmic trading [J]. Expert systems with applications， 2019， 140： 112872.

[11] LEE J， KOH H， CHOE H J. Learning to trade in financial time series using high?frequency through wavelet transformation and deep reinforcement learning [J]. Applied intelligence， 2021（2）： 1?22.

[12] 許杰，祝玉坤，邢春曉.基于深度強化學(xué)習(xí)的金融交易算法研究[J].計算機工程與應(yīng)用，2022，29（3）：1?11.

[13] YANG H， LIU X Y， ZHONG S， et al. Deep reinforcement learning for automated stock trading： an ensemble strategy [EB/OL]. [2022?12?07]. https：//blog.csdn.net/weixin_37958272/article/details/121506666.

[14] LI L. An automated portfolio trading system with feature preprocessing and recurrent reinforcement learning [EB/OL]. [2023?04?11]. http：//arxiv.org/abs/2110.05299v1.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度強化學(xué)習(xí)算法的投資組合策略與自動化交易研究