張明英,華冰,張宇光,李海東,鄭墨泓
基于鴿群的魯棒強化學(xué)習(xí)算法
張明英1,華冰2,張宇光1,李海東1,鄭墨泓3
(1. 中國電子技術(shù)標準化研究院,北京 100007;2. 南京航空航天大學(xué)航天學(xué)院,江蘇 南京 211106;3. 中國電子科技集團公司第七研究所,廣東 廣州 510000)
強化學(xué)習(xí)是一種人工智能算法,具有計算邏輯清晰、模型易擴展的優(yōu)點,可以在較少甚至沒有先驗信息的前提下,通過和環(huán)境交互并最大化值函數(shù),調(diào)優(yōu)策略性能,有效地降低物理模型引起的復(fù)雜性。基于策略梯度的強化學(xué)習(xí)算法目前已成功應(yīng)用于圖像智能識別、機器人控制、自動駕駛路徑規(guī)劃等領(lǐng)域。然而強化學(xué)習(xí)高度依賴采樣的特性決定了其訓(xùn)練過程需要大量樣本來收斂,且決策的準確性易受到與仿真環(huán)境中不匹配的輕微干擾造成嚴重影響。特別是當強化學(xué)習(xí)應(yīng)用于控制領(lǐng)域時,由于無法保證算法的收斂性,難以對其穩(wěn)定性進行證明,為此,需要對強化學(xué)習(xí)進行改進??紤]到群體智能算法可通過群體協(xié)作解決復(fù)雜問題,具有自組織性及穩(wěn)定性強的特征,利用其對強化學(xué)習(xí)進行優(yōu)化求解是一個提高強化學(xué)習(xí)模型穩(wěn)定性的有效途徑。結(jié)合群體智能中的鴿群算法,對基于策略梯度的強化學(xué)習(xí)進行改進:針對求解策略梯度時存在迭代求解可能無法收斂的問題,提出了基于鴿群的強化學(xué)習(xí)算法,以最大化未來獎勵為目的求解策略梯度,將鴿群算法中的適應(yīng)性函數(shù)和強化學(xué)習(xí)結(jié)合估計策略的優(yōu)劣,避免求解陷入死循環(huán),提高了強化學(xué)習(xí)算法的穩(wěn)定性。在具有非線性關(guān)系的兩輪倒立擺機器人控制系統(tǒng)上進行仿真驗證,實驗結(jié)果表明,基于鴿群的強化學(xué)習(xí)算法能夠提高系統(tǒng)的魯棒性,降低計算量,減少算法對樣本數(shù)據(jù)庫的依賴。
鴿群算法;強化學(xué)習(xí);策略梯度;魯棒性
強化學(xué)習(xí)是一種典型的人工智能算法,具有需要先驗信息少、計算邏輯清晰等優(yōu)點,適用于機器人控制、路徑規(guī)劃、游戲策略等問題求解,近年來在多個領(lǐng)域獲得了廣泛應(yīng)用[1-7]。當強化學(xué)習(xí)應(yīng)用于控制領(lǐng)域時,具有僅需要少量先驗信息、甚至無須對物理系統(tǒng)建模的優(yōu)點,能夠有效地降低物理模型引起的復(fù)雜性,且可以靈活地處理不確定性問題。然而,強化學(xué)習(xí)應(yīng)用于控制領(lǐng)域存在計算量較大和魯棒性較差的問題,且由于無法保證算法的收斂性,難以對其進行穩(wěn)定性證明。
強化學(xué)習(xí)主要包括3類[8-15]:策略梯度(policy gradient)、值函數(shù)學(xué)習(xí)、結(jié)合兩者的演員?評論家(actor-critic)模型?;诓呗蕴荻确椒ㄒ蛑苯觾?yōu)化策略,可實現(xiàn)隨機策略(stochastic policy)的求解,且具有較好的收斂性。因此,基于策略梯度的強化學(xué)習(xí)算法得到了廣泛的應(yīng)用,其主要計算復(fù)雜度體現(xiàn)在策略梯度的求解。群體智能算法啟發(fā)于具有社會行為的昆蟲群體,對其行為進行模擬,包括狼群算法、粒子群算法、蟻群算法、遺傳算法、鴿群算法等。鴿群算法是一種新型優(yōu)化計算方法,具有執(zhí)行效率高的優(yōu)點。本文采用鴿群算法對基于確定性策略梯度的強化學(xué)習(xí)算法進行改進,一方面基于鴿群算法的演化規(guī)律減少迭代過程,從而優(yōu)化求解其策略梯度,減小計算量以及對樣本數(shù)據(jù)庫的依賴;另一方面,通過及時糾正迭代的方向,增強系統(tǒng)魯棒性。
基于策略梯度的強化學(xué)習(xí)根據(jù)式(1)更新策略。
圖1 基于群體智能優(yōu)化算法改進強化學(xué)習(xí)算法的流程
Figure 1 Process of improving reinforcement learning algorithm based on swarm intelligence optimization algorithm
經(jīng)典鴿群算法[16-20]是基于鴿子在歸巢過程中的動態(tài)導(dǎo)航過程發(fā)展而成的,鴿子依靠地球磁場以及太陽的位置進行導(dǎo)航,在到達目的地附近時依靠地標進行導(dǎo)航。鴿群算法存在兩個算子:地圖指南針算子和地標算子。
1.2.1 地圖指南針算子
1.2.2 地標算子
經(jīng)典鴿群算法在經(jīng)過一定次數(shù)的地圖指南針算子的迭代之后,將切換至地標算子進行運算以達到快速收斂以及對之前迭代中產(chǎn)生的精英個體篩選保留的目的。其演化規(guī)律可表達如下:
基于鴿群改進的強化學(xué)習(xí)算法流程如圖2所示。
圖2 基于鴿群改進的強化學(xué)習(xí)方法流程
Figure 2 Process of improved reinforcement learning method based on pigeon-inspired optimization
步驟6 計算頭鴿位置。
步驟7 更新種群位置和鴿群迭代次數(shù)。
步驟9 計算策略梯度。
其中,
考慮沿直線運動的情況,即
需要注意的是,基于鴿群的強化學(xué)習(xí)算法無須對物理系統(tǒng)進行建模,式(17)~式(24)的兩輪倒立擺機器人模型僅用于搭建數(shù)值仿真中的動力學(xué)與運動學(xué)模塊。
(1)數(shù)據(jù)庫與任務(wù)匹配
(2)數(shù)據(jù)庫與任務(wù)不匹配
圖3 數(shù)據(jù)庫樣例
Figure 3 Sample database
本節(jié)驗證上述基于鴿群改進的強化學(xué)習(xí)算法應(yīng)用于控制任務(wù)時的性能,并與無改進基于策略梯度的強化學(xué)習(xí)算法進行對比,仿真參數(shù)如表1所示。其中,數(shù)據(jù)庫采用式(17)~式(24)構(gòu)建的物理系統(tǒng)輸入指定的控制力矩后產(chǎn)生的數(shù)據(jù)進行構(gòu)建。
表1 仿真參數(shù)
兩輪倒立擺機器人系統(tǒng)參數(shù)如表2所示。
表2 兩輪倒立擺機器人系統(tǒng)參數(shù)
仿真要求兩輪倒立擺機器人跟蹤隨時間變化的目標姿態(tài)。
算例1的仿真結(jié)果如圖4所示,在數(shù)據(jù)庫與任務(wù)匹配的前提下,基于鴿群的魯棒強化學(xué)習(xí)算法能夠完成控制任務(wù)。
圖4 算例1的仿真結(jié)果
Figure 4 Simulation results of example 1
算例2的仿真結(jié)果如圖5所示,由圖5(b)可知,數(shù)據(jù)庫與任務(wù)不匹配,但采用基于鴿群改進的強化學(xué)習(xí)算法控制后,機器人仍能完成控制任務(wù)。
算例3的仿真結(jié)果如圖6所示,在數(shù)據(jù)庫與任務(wù)匹配時,基于策略梯度的強化學(xué)習(xí)算法可以完成控制任務(wù)。
算例4的仿真結(jié)果如圖7所示,在數(shù)據(jù)庫與任務(wù)不匹配時,基于策略梯度的強化學(xué)習(xí)算法難以判斷控制力矩更新的方向,無法完成控制任務(wù)。
圖5 算例2的仿真結(jié)果
Figure 5 Simulation results of example 2
圖6 算例3的仿真結(jié)果
Figure 6 Simulation results of example 3
圖7 算例4的仿真結(jié)果
Figure 7 Simulation results of example 4
算例1~算例4的控制力矩誤差隨時間變化如圖8所示,無論數(shù)據(jù)庫與任務(wù)匹配與否,基于鴿群的魯棒強化學(xué)習(xí)算法都能得到較小的誤差;基于策略梯度的強化學(xué)習(xí)算法在數(shù)據(jù)庫與任務(wù)匹配時存在誤差狀況不穩(wěn)定的情況,在數(shù)據(jù)庫與任務(wù)不匹配時誤差明顯,不能完成控制任務(wù)。
圖8 算例1~算例4的控制力矩誤差
Figure 8 Control torque errors from example 1 to example 4
算例1~算例4的對比如表3所示,得到以下結(jié)論。
1) 當數(shù)據(jù)庫與任務(wù)匹配時,基于鴿群的魯棒強化學(xué)習(xí)算法和基于策略梯度的強化學(xué)習(xí)算法均能完成控制任務(wù)。
表3 算例對比
2) 當數(shù)據(jù)庫與任務(wù)不匹配時,基于鴿群的魯棒強化學(xué)習(xí)算法仍能較好地完成控制任務(wù),而基于策略梯度的強化學(xué)習(xí)算法無法完成控制任務(wù)。
3) 針對同一個控制任務(wù),基于鴿群的魯棒強化學(xué)習(xí)算法完成1次訓(xùn)練的時間小于基于策略梯度的強化學(xué)習(xí)算法。
綜上所述,相比基于策略梯度的強化學(xué)習(xí)算法,基于鴿群改進的強化學(xué)習(xí)算法具有以下優(yōu)點。
1) 計算量小,并且不存在無法判斷策略梯度的情況,無須強制跳出循環(huán)。
2) 基于鴿群的魯棒強化學(xué)習(xí)算法的收斂速度更快,控制精度更高,因此,基于鴿群的魯棒強化學(xué)習(xí)算法的魯棒性優(yōu)于基于策略梯度的強化學(xué)習(xí)算法。
3) 當任務(wù)時間較長時,由于迭代過程更復(fù)雜,基于鴿群的魯棒強化學(xué)習(xí)算法的計算量稍大,但可以通過修改種群規(guī)模減小計算量。
強化學(xué)習(xí)是一種基于機器學(xué)習(xí)的算法,具有需要先驗信息少等優(yōu)點,適用于圖像識別、控制、路徑規(guī)劃等領(lǐng)域。當強化學(xué)習(xí)應(yīng)用于控制領(lǐng)域時,能夠有效地降低物理模型引起的復(fù)雜性,且靈活地處理不確定性問題。然而,強化學(xué)習(xí)應(yīng)用于控制領(lǐng)域存在計算量較大和魯棒性較差的問題,且由于無法保證算法的收斂性,難以對其進行穩(wěn)定性證明。本文采用鴿群算法對強化學(xué)習(xí)進行改進,優(yōu)化算法性能,采用鴿群改進強化學(xué)習(xí)算法能夠大幅度增加魯棒性,降低了計算量,同時減少了算法對樣本數(shù)據(jù)庫的依賴。
[1] PETERS J, SCHAAL S. Policy gradient methods for robotics[C]//2006 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2006: 2219-2225.
[2] BAUM Y, AMICO M, HOWELL S, et al. Experimental deep reinforcement learning for error-robust gate-set design on a superconducting quantum computer[J]. PRX Quantum, 2021, 2(4): 040324.
[3] HUA J, ZENG L, LI G, et al. Learning for a robot: deep reinforcement learning, imitation learning, transfer learning[J]. Sensors, 2021, 21(4): 1278.
[4] SIVAK V V, EICKBUSCH A, LIU H, et al. Model-free quantum control with reinforcement learning[J]. Physical Review X, 2022, 12(1): 011059.
[5] AGARWAL N, HAZAN E, MAJUMDAR A, et al. A regret minimization approach to iterative learning control[C]//International Conference on Machine Learning (PMLR). 2021: 100-109.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems. 2012: 1097-1105.
[7] YARATS D, FERGUS R, LAZARIC A, et al. Reinforcement learning with prototypical representations[C] //International Conference on Machine Learning (PMLR). 2021: 11920-11931.
[8] DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011: 30-42.
[9] HAOXIANG W, SMYS S. Overview of configuring adaptive activation functions for deep neural networks—a comparative study[J]. Journal of Ubiquitous Computing and Communication Technologies (UCCT), 2021, 3(1): 10-22.
[10] MISHRA A, LATORRE J A, Pool J, et al. Accelerating sparse deep neural networks[J]. arXiv preprint arXiv:2104.08378, 2021.
[11] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529: 484.
[12] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575: 350-354.
[13] HEESS N, WAYNE G, SILVER D, et al. Learning continuous control policies by stochastic value gradients[C]//Advances in Neural Information Processing Systems. 2015: 28
[14] CHEN Z, CHEN B, XIE S, et al. Efficiently training on-policy actor-critic networks in robotic deep reinforcement learning with demonstration-like sampled exploration[C]//2021 3rd International Symposium on Robotics & Intelligent Manufacturing Technology (ISRIMT). 2021: 292-298.
[15] WANG C, LING Y. Actor-critic tracking with precise scale estimation and advantage function[J]. Journal of Physics Conference Series, 2021, 1827(1): 012064.
[16] ZHANG S, DUAN H. Gaussian pigeon-inspired optimization approach to orbital spacecraft formation reconfiguration [J]. Chinese Journal of Aeronautics, 2015, 28 (1): 200-205.
[17] ZHANG B, DUAN H. Three-dimensional path planning for uninhabited combat aerial vehicle based on predator-prey pigeon-inspired optimization in dynamic environment[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2017, 14 (1): 97-107.
[18] 周雨鵬. 基于鴿群算法的函數(shù)優(yōu)化問題求解[D]. 長春: 東北師范大學(xué), 2016.
ZHOU Y P. Function optimization problem solving based on pigeon swarm algorithm[D]. Changchun: Northeast Normal University, 2016.
[19] 顧清華, 孟倩倩. 優(yōu)化復(fù)雜函數(shù)的粒子群?鴿群混合優(yōu)化算法[J].計算機工程與應(yīng)用, 2019, 55(22): 46-52.
GU Q H, MENG Q Q. Hybrid particle swarm optimization and pigeon—inspired optimization algorithm for solving complex functions[J]. Computer Engineering and Applications, 2019, 55(22): 46-52.
[20] 胡耀龍, 馮強, 海星朔, 等. 基于自適應(yīng)學(xué)習(xí)策略的改進鴿群優(yōu)化算法[J]. 北京航空航天大學(xué)學(xué)報, 2020, 46(12): 2348-2356.
HU Y L, FENG Q, HAI X S, et al. Improved pigeon-inspired optimization algorithm based on adaptive learning strategy[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(12) : 2348-2356.
Robust reinforcement learning algorithm based on pigeon-inspired optimization
ZHANG Mingying1, HUA Bing2, ZHANG Yuguang1, LI Haidong1, ZHENG Mohong3
1. China Electronics Standardization Institute, Beijing 100007, China 2. College of Astronautics, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China 3. The 7th Research Institute of China Electronics Technology Group Corporation, Guangzhou 510000, China
Reinforcement learning(RL) is an artificial intelligence algorithm with the advantages of clear calculation logic and easy expansion of the model. Through interacting with the environment and maximizing value functions on the premise of obtaining little or no prior information, RL can optimize the performance of strategies and effectively reduce the complexity caused by physical models . The RL algorithm based on strategy gradient has been successfully applied in many fields such as intelligent image recognition, robot control and path planning for automatic driving. However, the highly sampling-dependent characteristics of RL determine that the training process needs a large number of samples to converge, and the accuracy of decision making is easily affected by slight interference that does not match with the simulation environment. Especially when RL is applied to the control field, it is difficult to prove the stability of the algorithm because the convergence of the algorithm cannot be guaranteed. Considering that swarm intelligence algorithm can solve complex problems through group cooperation and has the characteristics of self-organization and strong stability, it is an effective way to be used for improving the stability of RL model. The pigeon-inspired optimization algorithm in swarm intelligence was combined to improve RL based on strategy gradient. A RL algorithm based on pigeon-inspired optimization was proposed to solve the strategy gradient in order to maximize long-term future rewards. Adaptive function of pigeon-inspired optimization algorithm and RL were combined to estimate the advantages and disadvantages of strategies, avoid solving into an infinite loop, and improve the stability of the algorithm. A nonlinear two-wheel inverted pendulum robot control system was selected for simulation verification. The simulation results show that the RL algorithm based on pigeon-inspired optimization can improve the robustness of the system, reduce the computational cost, and reduce the algorithm’s dependence on the sample database.
pigeon-inspired optimization algorithm, strengthen learning, policy gradient, robustness
TP393
A
10.11959/j.issn.2096?109x.2022064
2022?05?22;
2022?07?15
張明英,zhangmy@cesi.cn
科技創(chuàng)新2030重大項目(2020AAA0107804)
Science and Technology Innovation 2030 Major Project (2020AAA0107804)
張明英, 華冰, 張宇光, 等. 基于鴿群的魯棒強化學(xué)習(xí)算法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報, 2022, 8(5): 66-74.
Format: ZHANG M Y, HUA B, ZHANG Y G, et al. Robust reinforcement learning algorithm based on pigeon-inspired optimization[J]. Chinese Journal of Network and Information Security, 2022, 8(5): 66-74.
張明英(1985?),男,廣西北海人,中國電子技術(shù)標準化研究院高級工程師,主要研究方向為人工智能、知識圖譜、大數(shù)據(jù)。
華冰(1978?),女,江蘇南京人,南京航空航天大學(xué)副研究員,主要研究方向為飛行器導(dǎo)航、智能數(shù)據(jù)處理。
張宇光(1991?),男,內(nèi)蒙古包頭人,中國電子技術(shù)標準化研究院工程師,主要研究方向為數(shù)據(jù)安全、人工智能安全、個人信息保護、計算機視覺、視覺生成。
李海東(1992?),男,湖北孝感人,中國電子技術(shù)標準化研究院工程師,主要研究方向為人工智能安全、大數(shù)據(jù)安全、個人信息保護。
鄭墨泓(1995?),女,廣東潮陽人,中國電子科技集團公司第七研究所助理工程師,主要研究方向為航天器姿態(tài)控制、無人機組網(wǎng)。