国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強化學(xué)習(xí)的金融交易系統(tǒng)

2018-02-24 13:55:24傅聰郝泳濤
電腦知識與技術(shù) 2018年34期
關(guān)鍵詞:強化學(xué)習(xí)交易系統(tǒng)時間序列

傅聰 郝泳濤

摘要:強化學(xué)習(xí)(Reinforcement Learning)是解決序列化決策問題的途徑之一,其在圍棋、電子游戲、物理控制等確定環(huán)境下解決問題的能力已經(jīng)得到證明。該文將強化學(xué)習(xí)應(yīng)用到自動交易系統(tǒng)(Automated Trading System)的設(shè)計中,通過實驗討論了強化學(xué)習(xí)方法在混沌、動態(tài)環(huán)境下的表現(xiàn),為自動交易系統(tǒng)的設(shè)計提出新的可能。不同于傳統(tǒng)自動交易系統(tǒng)分別設(shè)計預(yù)測算法與策略算法的做法,基于強化學(xué)習(xí)的算法將兩者合二為一,簡化了設(shè)計步驟。該文第1章簡述了強化學(xué)習(xí)發(fā)展現(xiàn)狀;第2章闡述了金融交易問題的建模方法;第3章中通過實驗,討論了策略梯度算法與特征編碼方式(RNN、CNN)在處理金融時序數(shù)據(jù)時的優(yōu)劣。實驗表明,使用RNN編碼特征的方法有比較好的短期效果。最后,第4章總結(jié)了使用強化學(xué)習(xí)理論設(shè)計交易系統(tǒng)的優(yōu)勢與劣勢。

關(guān)鍵詞: 強化學(xué)習(xí); 交易系統(tǒng); 時間序列; 梯度下降

中圖分類號:TP18? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? 文章編號:1009-3044(2018)34-0172-04

1 引言

1.1 強化學(xué)習(xí)

隨著AlphaGo[1]的成功,強化學(xué)習(xí)受到的關(guān)注日益增加,并被視為強人工智能的實現(xiàn)途徑之一。作為機器學(xué)習(xí)的分支領(lǐng)域,強化學(xué)習(xí)基于Markov理論[2],其思想是模擬智能體在與環(huán)境交互中學(xué)習(xí)的過程,非常適合處理序列化決策問題。

近年來,隨著深度學(xué)習(xí)理論與硬件處理能力的發(fā)展,不少傳統(tǒng)強化學(xué)習(xí)模型與深度學(xué)習(xí)理論相結(jié)合,使其能夠處理的問題規(guī)模大大增加。例如經(jīng)典的Q-Learning,在與神經(jīng)網(wǎng)絡(luò)結(jié)合之后,Deep Q Network算法(DQN)[3]在相當(dāng)一部分Atari游戲中的表現(xiàn)超過了人類玩家。文獻(xiàn)[4]證明了訓(xùn)練過程中最大化收益的過程就是沿著“策略梯度”優(yōu)化參數(shù)的過程,基于這個理論的策略梯度算法在許多方面得到了成功應(yīng)用。此外,與對抗網(wǎng)絡(luò)(GAN)非常相似的演員-評論家(Actor-Critic)模型也是研究熱點之一,該強化學(xué)習(xí)模型在學(xué)習(xí)過程中同時訓(xùn)練Actor與Critic兩個網(wǎng)絡(luò),由Actor網(wǎng)絡(luò)提出執(zhí)行的動作,由Critic網(wǎng)絡(luò)評估動作可能獲得的收益,以此在交互過程中尋求最大收益。但是,由于AC模型的參數(shù)量的大,訓(xùn)練收斂速度不能得到保證,因此不少研究以加快AC模型的收斂速度為目標(biāo),例如文獻(xiàn)[4],提出了目標(biāo)網(wǎng)絡(luò)技術(shù),提高訓(xùn)練穩(wěn)定性與收斂速度。

除了基礎(chǔ)理論與訓(xùn)練技巧,不少研究著重于使用強化學(xué)習(xí)解決實際問題。文獻(xiàn)[5]使用AC模型,設(shè)計了水下機器人的自治控制算法;文獻(xiàn)[6]研究了DQN在連續(xù)控制問題上的應(yīng)用,為機器人連續(xù)控制問題提出了新的研究方向。強化學(xué)習(xí)在金融問題的應(yīng)用也有一定的研究[7]闡述了強化學(xué)習(xí)主要算法應(yīng)用到交易問題時需要做出的調(diào)整。文獻(xiàn)[8]以DQN為基礎(chǔ),構(gòu)造了Buy/Sell,Signal/Order 4個agent,設(shè)計交易系統(tǒng),其在1999.1-2000.12的約30000個價格數(shù)據(jù)上訓(xùn)練,在2001.1-2005.12時間段內(nèi)獲得了最大約1138%的增長。

1.2 自動交易系統(tǒng)

交易過程可以看作一個序列化決策問題。在研究中,諸如股價、交易量等金融數(shù)據(jù)往往被研究者建模為時間序列,進(jìn)而以統(tǒng)計分析、博弈論等方法為基礎(chǔ),分別設(shè)計自動交易系統(tǒng)的各個模塊。交易系統(tǒng)的設(shè)計過程與各個模塊如圖1所示。據(jù)文獻(xiàn)[9]所述,預(yù)測與決策是交易系統(tǒng)的兩大主要組成部分,現(xiàn)有的研究大都只著眼于預(yù)測或者策略部分,少有將預(yù)測與交易策略結(jié)合在一起的研究。

本文將強化學(xué)習(xí)理論應(yīng)用到交易系統(tǒng)的設(shè)計中,基于策略梯度算法設(shè)計了自動交易系統(tǒng),并通過實驗展示了交易系統(tǒng)的效果,同時比較了不同特征編碼方式對于交易系統(tǒng)的影響,為交易系統(tǒng)的設(shè)計與研究提出新的可能。

3 實驗

3.1 實驗數(shù)據(jù)

實驗主要使用上證指數(shù)000300自2017.01.01-2017.12.31分鐘級別收盤價,共58560個數(shù)據(jù)點作為實驗數(shù)據(jù)(圖3),挑選了前15000個數(shù)據(jù)點作為訓(xùn)練數(shù)據(jù)接下來的5000個數(shù)據(jù)點作為測試數(shù)據(jù)(圖4)。

3.2 實驗結(jié)果

實驗使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,layer1、2、3為3個全連接層,節(jié)點個數(shù)為128,64,32,數(shù)據(jù)經(jīng)過正則化,選區(qū)當(dāng)前時刻前45分鐘,以及前3小時、5小時、1天、3天、10天的共50個數(shù)據(jù)點做為特征。不同于其他問題,交易環(huán)境是動態(tài)、不固定的,比起通常的網(wǎng)絡(luò)訓(xùn)練,由于金融環(huán)境的動態(tài)性,訓(xùn)練過程極易發(fā)生過擬合現(xiàn)象。如圖6所示,在訓(xùn)練數(shù)據(jù)上,經(jīng)過2k次迭代后獲得了800%的收益,而在測試數(shù)據(jù)上的平均收益僅為0.43%并且出現(xiàn)了相當(dāng)多的虧損情況。因此,在每個全連接層后加入了dropout,經(jīng)過10k次迭代后,訓(xùn)練數(shù)據(jù)平均收益為1136.19%,測試數(shù)據(jù)平均收益為85.87%。

此外,訓(xùn)練中一個交易過程為15000個數(shù)據(jù)點,上述測試只用了5000個數(shù)據(jù)點。圖7反映了交易時長與收益的關(guān)系??梢钥闯觯?dāng)不使用特殊編碼方式時,收益隨交易時長波動較大,同時由于交易環(huán)境的不穩(wěn)定性,隨著時間偏差越大,收益越來越少。當(dāng)使用CNN編碼特征后,隨著交易時長的增加,收益略微增加。并且由于其平滑了特征,波動較小。RNN編碼特征的效果最好,雖然波動較大,但是其注重特征的近期變化,始終著眼于特征近期的變化,環(huán)境的不穩(wěn)定性對于其影響較小,因此收益隨時間的累計效應(yīng)明顯。

4 結(jié)論與展望

本文基于強化學(xué)習(xí)理論設(shè)計了自動交易系統(tǒng),相比傳統(tǒng)的交易系統(tǒng)設(shè)計,使用強化學(xué)習(xí)理論的優(yōu)勢在于簡化了設(shè)計,免去了耦合預(yù)測、博弈算法的煩瑣過程。此外,傳統(tǒng)預(yù)測方法在預(yù)測價格時往往需要實時計算偏、正相關(guān)因數(shù)等統(tǒng)計學(xué)特征,以確定算法的參數(shù)(例如ARMA、GARCH等算法),計算量大,耗時嚴(yán)重。而前沿強化學(xué)習(xí)理論與深度學(xué)習(xí)結(jié)合緊密,使得使用RNN、CNN等各類特征編碼器動態(tài)編碼特征非常方便,減輕了人工設(shè)計特征的負(fù)擔(dān)。

基于強化學(xué)習(xí)理論的交易系統(tǒng)也有不足,其缺陷主要分為以下兩類:

一是由于強化學(xué)習(xí)還處在發(fā)展期,理論有待完善,能解決的問題也有限。比如當(dāng)前后動作有邏輯依賴時難以定義狀態(tài)-價值函數(shù),比如在交易問題中,買入達(dá)到資金上限后,在賣出前不能買入;同理持有量為0時,不能做出賣出操作。本文同大部分研究者一樣,將看漲、看平、看衰作為動作空間的定義,以此計算值函數(shù)與收益函數(shù)。有不少文獻(xiàn)針對該問題進(jìn)行研究,例如文獻(xiàn)[11],將三個動作作為特征,分別訓(xùn)練另外兩個買入、賣出模型,使模型更加符合實際。

另一個難點在于金融環(huán)境的復(fù)雜與動態(tài)。不同時期的金融環(huán)境往往大不相同,沒有一個模型能普世地在所有時期都能盈利。因此,如何將風(fēng)險控制機制加入模型中也是研究的方向之一。

參考文獻(xiàn):

[1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.

[2] Bradtke S J, Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press, 1994:393-400.

[3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 2015, 518(7540):529.

[4] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.

[5] Cui R, Yang C, Li Y, et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(6):1019-1029.

[6] Zhao D, Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(2):346-356.

[7] Eilers D, Dunis C L, Mettenheim H J V, et al. Intelligent trading of seasonal effects: A decision support algorithm based on reinforcement learning[J]. Decision Support Systems, 2014, 64(3):100-108.

[8] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2007, 37(6):864-877.

[9] Cavalcante R C, Brasileiro R C, Souza V L F, et al. Computational Intelligence and Financial Markets: A Survey and Future Directions[J]. Expert Systems with Applications, 2016, 55(C):194-211.

[10] Du X, Zhai J, Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions, 2016, 1: 1.

[11] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 864-877.

【通聯(lián)編輯:唐一東】

猜你喜歡
強化學(xué)習(xí)交易系統(tǒng)時間序列
山東首套ETC匝道準(zhǔn)自由流預(yù)交易系統(tǒng)正式運行
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
下一代高性能交易所數(shù)據(jù)儲存和備份的探討
基于強化學(xué)習(xí)的在線訂單配送時隙運能分配
論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
智能交通車流自動導(dǎo)引系統(tǒng)
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
基于時間序列的我國人均GDP分析與預(yù)測
商(2016年32期)2016-11-24 16:20:57
基于線性散列索引的時間序列查詢方法研究
軟件工程(2016年8期)2016-10-25 15:43:57
基于組合模型的能源需求預(yù)測
建德市| 宁远县| 兴隆县| 安泽县| 祁连县| 广东省| 枣强县| 南澳县| 凉山| 平远县| 苗栗市| 云浮市| 体育| 砀山县| 台山市| 东兰县| 沈丘县| 南木林县| 乡宁县| 静海县| 林西县| 武强县| 元朗区| 江达县| 红河县| 龙口市| 太谷县| 永胜县| 兰溪市| 甘泉县| 汤原县| 会泽县| 上饶市| 大安市| 华坪县| 庐江县| 文昌市| 安阳市| 蕲春县| 德化县| 霍邱县|