基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究綜述

2022-11-25 02:56:00林澤陽(yáng)陳希亮

計(jì)算機(jī)技術(shù)與發(fā)展 2022年11期

林澤陽(yáng)，賴俊，陳希亮

(陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京 210007)

0 引言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning，RL)作為機(jī)器學(xué)習(xí)分支之一，在人工智能領(lǐng)域具有重要地位[1]：智能體在環(huán)境中通過(guò)“交互-試錯(cuò)”獲取正/負(fù)獎(jiǎng)勵(lì)值，調(diào)整自身的動(dòng)作策略，從而生成總獎(jiǎng)勵(lì)值最大的動(dòng)作策略模型[2]。

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在有限狀態(tài)空間和動(dòng)作空間的任務(wù)中能夠取得較好的收斂效果[3]，但復(fù)雜空間狀態(tài)任務(wù)往往具有很大的狀態(tài)空間和連續(xù)的動(dòng)作空間，尤其當(dāng)輸入數(shù)據(jù)為圖像和聲音時(shí)，傳統(tǒng)強(qiáng)化學(xué)習(xí)很難處理，會(huì)出現(xiàn)維度爆炸問(wèn)題[4-5]。解決上述問(wèn)題的一個(gè)方法，就是將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)結(jié)合，用多層神經(jīng)網(wǎng)絡(luò)來(lái)顯式表示強(qiáng)化學(xué)習(xí)中的值函數(shù)和策略函數(shù)[6]。

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning，DRL)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合[7]，近年來(lái)在人工智能領(lǐng)域迅猛發(fā)展，例如Atari游戲[8-9]、復(fù)雜機(jī)器人動(dòng)作控制[10-11]，以及圍棋AlphaGo智能的應(yīng)用[12]等，2015年機(jī)器學(xué)習(xí)領(lǐng)域著名專家Hinton、Bengio、Lecun在《Nature》上發(fā)表的深度學(xué)習(xí)綜述一文將深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要發(fā)展方向[13]。

盡管在過(guò)去三十年間取得很大進(jìn)步，但由于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)智能體的初始設(shè)定都是隨機(jī)策略，在簡(jiǎn)單環(huán)境中通過(guò)隨機(jī)探索和試錯(cuò)，能夠達(dá)成較好的訓(xùn)練效果[14]。但在復(fù)雜環(huán)境中由于狀態(tài)空間的復(fù)雜性、獎(jiǎng)勵(lì)信號(hào)的稀疏性，強(qiáng)化學(xué)習(xí)從環(huán)境中獲取樣本的成本不斷提高，學(xué)習(xí)時(shí)間過(guò)長(zhǎng)，從而影響了智能體的有效探索[15]。

解決上述問(wèn)題的一個(gè)有效途徑，就是將課程學(xué)習(xí)(Curriculum Learning，CL)和深度強(qiáng)化學(xué)習(xí)相結(jié)合[16]。2009年，以機(jī)器學(xué)習(xí)領(lǐng)軍人物Bengio為首的科研團(tuán)隊(duì)在國(guó)際頂級(jí)機(jī)器學(xué)習(xí)會(huì)議ICML上首次提出課程學(xué)習(xí)的概念[17]，引起機(jī)器學(xué)習(xí)領(lǐng)域的巨大轟動(dòng)。課程學(xué)習(xí)借鑒人類從簡(jiǎn)單到復(fù)雜的學(xué)習(xí)思想，首先在任務(wù)集中篩選出部分簡(jiǎn)單任務(wù)進(jìn)行學(xué)習(xí)以產(chǎn)生訓(xùn)練課程，而后在剩余的復(fù)雜任務(wù)中利用訓(xùn)練課程進(jìn)行學(xué)習(xí)，最后在整個(gè)訓(xùn)練集中進(jìn)行訓(xùn)練。將課程學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合，可以有以下兩個(gè)方面的作用[18]：(1)可以加快訓(xùn)練模型的收斂速度，避免訓(xùn)練初期對(duì)于復(fù)雜任務(wù)投入過(guò)多訓(xùn)練時(shí)間；(2)提高模型的泛化能力，增強(qiáng)對(duì)復(fù)雜任務(wù)的學(xué)習(xí)能力。

該文首先對(duì)課程學(xué)習(xí)進(jìn)行簡(jiǎn)要描述，從四個(gè)角度對(duì)深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類整理，之后對(duì)近三年的基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)新算法進(jìn)行了總結(jié)分析，最后討論了基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的發(fā)展前景和挑戰(zhàn)。

1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)

課程學(xué)習(xí)的目標(biāo)是自動(dòng)設(shè)計(jì)和選擇完整序列的任務(wù)(即課程)M1,M2,…,Mt對(duì)智能體進(jìn)行訓(xùn)練，從而提高對(duì)目標(biāo)任務(wù)的學(xué)習(xí)速度或性能[19]，課程學(xué)習(xí)流程如圖1所示。

課程馬爾可夫決策過(guò)程(Curriculum Markov Decision Process，CMDP)[20]是一個(gè)6元組(S,A,p,r,Δs0,Sf)，其中S是狀態(tài)空間集，A是動(dòng)作空間集，p(s'|s,a)代表智能體在狀態(tài)s時(shí)采取動(dòng)作a后轉(zhuǎn)移到狀態(tài)s'的概率，r(s,a,s')代表在狀態(tài)s采取動(dòng)作a到達(dá)狀態(tài)s'所獲得的即時(shí)獎(jiǎng)勵(lì)，Δs0代表初始狀態(tài)分布，Sf代表最終狀態(tài)集。

常見(jiàn)的課程創(chuàng)建方法有以下兩種[21]：(1)在線創(chuàng)建課程，根據(jù)智能體對(duì)給定頂點(diǎn)樣本的學(xué)習(xí)進(jìn)度動(dòng)態(tài)添加邊；(2)離線創(chuàng)建課程，在訓(xùn)練前生成圖，并根據(jù)與不同頂點(diǎn)相關(guān)聯(lián)的樣本的屬性選擇邊。課程設(shè)計(jì)流程如圖2所示。

課程學(xué)習(xí)方法可認(rèn)為包括三部分[22]：任務(wù)生成、排序和遷移學(xué)習(xí)。任務(wù)生成是創(chuàng)建一組好的中間任務(wù)的過(guò)程，從中獲取經(jīng)驗(yàn)樣本。排序研究了如何在一組經(jīng)驗(yàn)樣本上創(chuàng)建部分排序D，也就是說(shuō)，如何生成課程圖的邊。遷移學(xué)習(xí)主要研究如何將知識(shí)從一個(gè)或多個(gè)源任務(wù)直接轉(zhuǎn)移到目標(biāo)任務(wù)。為了評(píng)價(jià)源任務(wù)遷移到目標(biāo)任務(wù)的性能優(yōu)劣[23-24]，有以下指標(biāo)可以量化。(1)學(xué)習(xí)速度提升。即智能體在遷移知識(shí)的前提下能夠以多快的速度學(xué)習(xí)到最優(yōu)策略，從而在目標(biāo)任務(wù)上實(shí)現(xiàn)預(yù)期的性能值GO≥δ，其中δ是總?cè)蝿?wù)期望的性能閾值。(2)初始性能提升。通過(guò)從源任務(wù)進(jìn)行遷移，觀察智能體在學(xué)習(xí)過(guò)程中對(duì)目標(biāo)任務(wù)的初始性能提升來(lái)衡量遷移效果。(3)漸近性能提升。通過(guò)比較智能體在使用遷移與不使用遷移時(shí)目標(biāo)任務(wù)收斂后的最終性能來(lái)衡量遷移效果。

2 深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)研究進(jìn)展

對(duì)于強(qiáng)化學(xué)習(xí)智能體來(lái)說(shuō)，自主學(xué)習(xí)一項(xiàng)復(fù)雜任務(wù)需要很長(zhǎng)的時(shí)間。在深度強(qiáng)化學(xué)習(xí)中應(yīng)用課程學(xué)習(xí)，可以通過(guò)利用一個(gè)或多個(gè)源任務(wù)的知識(shí)來(lái)加速或改善復(fù)雜目標(biāo)任務(wù)的學(xué)習(xí)[25]。

Felipe等人提出了新方法[26]：(1)將目標(biāo)任務(wù)劃分為簡(jiǎn)單任務(wù)；(2)在盡量小的專家經(jīng)驗(yàn)支持下，根據(jù)面向?qū)ο蟮娜蝿?wù)描述自動(dòng)生成課程；(3)使用生成的課程來(lái)跨任務(wù)重用知識(shí)。實(shí)驗(yàn)表明在人工指定和生成子任務(wù)方面都取得了更好的性能。

為了提高多智能體的學(xué)習(xí)性能，Jayesh等人應(yīng)用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network，F(xiàn)NN)完成協(xié)同控制任務(wù)[27]，包括離散和連續(xù)動(dòng)作任務(wù)，Daphna等人提出了推斷課程(Inference Curriculum，IC)的方法[28]，從另一個(gè)網(wǎng)絡(luò)遷移學(xué)習(xí)的方式，接受不同任務(wù)的訓(xùn)練。為了解決從稀疏和延遲獎(jiǎng)勵(lì)中學(xué)習(xí)的局限性問(wèn)題，Atsushi提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(Progressive Neural Network，PNN)的課程學(xué)習(xí)方法[29]，帶參數(shù)的模塊被附加上預(yù)先確定的參數(shù)，該策略比單組參數(shù)的效果更好。

2.1 基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)

傳統(tǒng)課程學(xué)習(xí)對(duì)于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯，但在大規(guī)模多智能體環(huán)境中，由于環(huán)境和智能體之間的復(fù)雜動(dòng)態(tài)以及狀態(tài)-動(dòng)作空間的維度爆炸，這仍然具有挑戰(zhàn)性，所以如何更好地學(xué)習(xí)和產(chǎn)生更有效的任務(wù)課程是課程學(xué)習(xí)的研究重點(diǎn)。

王維塤等人設(shè)計(jì)了一種新的動(dòng)態(tài)多智能體課程學(xué)習(xí)(Dynamic Multi-agent Curriculum Learning，DyMA-CL)來(lái)解決大規(guī)模智能體學(xué)習(xí)的問(wèn)題[30]，從一個(gè)小規(guī)模的多智能體場(chǎng)景開(kāi)始學(xué)習(xí)，逐步增加智能體的數(shù)量。網(wǎng)絡(luò)設(shè)計(jì)里有三種遷移機(jī)制：緩存復(fù)用(Buffer Reuse，BR)、基于KL散度的課程蒸餾(Curriculum Distillation，CD)和模型重載(Model Reload，MR)。

DyAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，由于不同課程間智能體數(shù)量以及觀測(cè)維度變化，緩存復(fù)用和基于KL散度的課程蒸餾機(jī)制不能直接用于DyMA-CL框架中，王維塤等人提供了一個(gè)語(yǔ)義映射函數(shù)φ(·)，將語(yǔ)義信息從每個(gè)智能體的觀察值中抽取出來(lái)，從而找出不同狀態(tài)空間之間的映射關(guān)系。

傳統(tǒng)的課程學(xué)習(xí)主要是針對(duì)單一類型智能體和固定的動(dòng)作空間進(jìn)行設(shè)計(jì)，Wu等人引入主從智能體的概念[31]，采用異步策略共享感知網(wǎng)絡(luò)，在不同的動(dòng)作空間內(nèi)同時(shí)訓(xùn)練多個(gè)智能體。

主從智能體以異步方式同時(shí)學(xué)習(xí)相應(yīng)的控制策略，以不同的頻率運(yùn)行，其中主智能體占用一半的線程，從智能體共享其余的一半線程。

2.2 基于多智能體合作的課程學(xué)習(xí)

不同的多智能體合作控制問(wèn)題需要智能體在實(shí)現(xiàn)各自目標(biāo)的同時(shí)為全局目標(biāo)的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給目前針對(duì)單一的全局獎(jiǎng)勵(lì)設(shè)置的算法帶來(lái)兩個(gè)問(wèn)題[32]：(1)需要高效的學(xué)習(xí)探索，既要實(shí)現(xiàn)智能體的個(gè)體目標(biāo)，又要為其他智能體的成功而進(jìn)行合作；(2)不同智能體的行動(dòng)和目標(biāo)之間相互作用的信度分配。

為解決這兩個(gè)問(wèn)題，Yang等人推導(dǎo)出一種基于多目標(biāo)多智能體的梯度策略算法[33]，并采用信度分配函數(shù)進(jìn)行局部信度分配，使用一個(gè)增強(qiáng)函數(shù)來(lái)連接價(jià)值函數(shù)和策略函數(shù)。多目標(biāo)多智能體的梯度策略如圖4所示。

階段1：作者在N=1和隨機(jī)目標(biāo)采樣的誘導(dǎo)式MDP中訓(xùn)練了一個(gè)演員π1(a|o,g)和一個(gè)評(píng)論家Q1(s1,a,g)，與完整的多智能體環(huán)境相比，這種方法使用的樣本數(shù)量要少得多。

L(θQC)=

(1)

?θJ(π)=

在多智能體游戲中，隨著智能體數(shù)量的增加，環(huán)境的復(fù)雜性會(huì)呈指數(shù)級(jí)增長(zhǎng)，所以在大規(guī)模智能體的前提下學(xué)習(xí)好的策略尤其具有挑戰(zhàn)性。為解決這一挑戰(zhàn)，Long等人引入了進(jìn)化種群課程(Evolutionary Population Curriculum，EPC)[34]，使用種群進(jìn)化的方法來(lái)解決整個(gè)課程中的一個(gè)客觀錯(cuò)位問(wèn)題[35]：早期訓(xùn)練的規(guī)模較小智能體模型，未必是應(yīng)用到后期大規(guī)模智能體訓(xùn)練的最佳模型。Long等人在訓(xùn)練的各個(gè)階段維護(hù)多個(gè)智能體集，對(duì)各個(gè)智能體集進(jìn)行混合匹配和微調(diào)，篩選出最佳適應(yīng)性的智能體集進(jìn)入下個(gè)階段。種群不變Q函數(shù)如圖5所示。

如圖5所示，左半部分中，作者利用注意力機(jī)制組合來(lái)自不同觀察動(dòng)作編碼器fi的嵌入，右半部分是fi的詳細(xì)說(shuō)明，作者還利用注意力模塊將M個(gè)不同的實(shí)體組合到一個(gè)觀察值中。

在強(qiáng)化學(xué)習(xí)中，以往的任務(wù)排序方法都以減少模型訓(xùn)練時(shí)間并達(dá)到給定性能水平為目標(biāo)進(jìn)行探索。Francesco等人定義了一個(gè)通用的任務(wù)排序優(yōu)化框架[36]，并評(píng)估了常用的元啟發(fā)式搜索方法在多個(gè)任務(wù)上的性能。

給定一個(gè)評(píng)估指標(biāo)P:C≤L×M→，它為一個(gè)特定的最終任務(wù)評(píng)估課程，考慮找到一個(gè)最優(yōu)課程C的問(wèn)題，如下：

P(c*,mf)≥P(c,mf)?c∈C≤L

(3)

2.3 基于能力評(píng)估的課程學(xué)習(xí)

與其他自監(jiān)督的強(qiáng)化學(xué)習(xí)方法(如內(nèi)在驅(qū)動(dòng)方法)相比，多智能體的競(jìng)爭(zhēng)可能會(huì)隨著環(huán)境復(fù)雜性的提高而更加激烈，并導(dǎo)致智能體產(chǎn)生類似于人類技能的行為[37]。Bowen等人提出一種以遷移和微調(diào)作為定量評(píng)估目標(biāo)能力的方法[38]，并且在一組特定領(lǐng)域的智力測(cè)驗(yàn)中將捉迷藏智能體和內(nèi)在驅(qū)動(dòng)與隨機(jī)初始化基準(zhǔn)值進(jìn)行了比較。

在復(fù)雜的任務(wù)中，比如那些組合行動(dòng)空間大的任務(wù)，隨機(jī)探索的效率太低，當(dāng)前的學(xué)習(xí)進(jìn)展比較緩慢。Gregory等人使用一個(gè)漸進(jìn)增長(zhǎng)的動(dòng)作空間的課程來(lái)加速學(xué)習(xí)[39]，智能體可以通過(guò)最初限制其動(dòng)作空間來(lái)設(shè)置內(nèi)部課程。Gregory的方法使用非策略強(qiáng)化學(xué)習(xí)來(lái)同時(shí)估計(jì)多個(gè)動(dòng)作空間的最優(yōu)值函數(shù)，并有效地將數(shù)據(jù)、值函數(shù)估計(jì)和狀態(tài)表示從受限的動(dòng)作空間遷移到完整的任務(wù)。

(4)

因?yàn)槊總€(gè)動(dòng)作空間都是較大動(dòng)作空間的嚴(yán)格子集，因此在最壞的情況下，智能體總是可以退回到使用更受限制的動(dòng)作空間的策略。

課程學(xué)習(xí)方法通常依靠啟發(fā)式方法來(lái)估計(jì)訓(xùn)練實(shí)例的難度和模型的學(xué)習(xí)能力[40]。John P等人提出了基于能力評(píng)估的課程學(xué)習(xí)動(dòng)態(tài)數(shù)據(jù)選擇(Dynamic Data Selection for Curriculum Learning via Ability Estimation，DDaCLAE)策略[41]，該策略在每個(gè)訓(xùn)練階段根據(jù)模型在該階段的能力評(píng)估動(dòng)態(tài)選擇最佳訓(xùn)練實(shí)例。

算法 1：DDaCLAE

輸入：數(shù)據(jù)(X,Y)，模型φ，難度D，num_epochs

輸出：訓(xùn)練好的模型φ

1： forein num_epochs do

5: train(φ,Xe,Ye)

6： end for

11：end procedure

DDaCLAE的訓(xùn)練過(guò)程見(jiàn)算法1，John P等人使用評(píng)分函數(shù)估計(jì)模型能力，使用完整的訓(xùn)練集而不是更新模型參數(shù)來(lái)獲取響應(yīng)數(shù)據(jù)。John P等人發(fā)現(xiàn)，在GLUE分類任務(wù)上，使用學(xué)習(xí)困難參數(shù)的模型優(yōu)于基于啟發(fā)式的課程學(xué)習(xí)模型。

2.4 基于功能函數(shù)的課程學(xué)習(xí)

通過(guò)課程來(lái)訓(xùn)練智能體以提高智能體的性能和學(xué)習(xí)速度，Andrea等人提出了一種基于任務(wù)復(fù)雜度的自動(dòng)課程生成方法[42]，引入了不同的進(jìn)程函數(shù)，包括基于智能體性能的自主在線任務(wù)進(jìn)程。與其他基于任務(wù)的課程學(xué)習(xí)方法不同，這種方法的進(jìn)階函數(shù)決定了智能體在每個(gè)中間任務(wù)上應(yīng)該訓(xùn)練多長(zhǎng)時(shí)間。通過(guò)在網(wǎng)格世界[43]和復(fù)雜模擬導(dǎo)航領(lǐng)域[44]中與兩種最先進(jìn)的課程學(xué)習(xí)算法的性能進(jìn)行對(duì)比分析，證明了自動(dòng)課程生成方法的優(yōu)點(diǎn)和廣泛的適用性。

傳統(tǒng)課程學(xué)習(xí)的數(shù)值方法只提供了最初的啟發(fā)式解決方案，幾乎不能保證它們的質(zhì)量。Francesco等人定義了一個(gè)新的灰盒函數(shù)[45]，該函數(shù)包含一個(gè)合適的調(diào)度問(wèn)題，可以有效地用來(lái)重構(gòu)課程學(xué)習(xí)問(wèn)題。

通過(guò)引入灰盒函數(shù)ψ:n×n→R，可以用參數(shù)(u,p)來(lái)計(jì)算課程c，并返回遺憾值Pr(c)。利用灰盒函數(shù)ψ，問(wèn)題可以重新表示為：

(5)

(7)

(8)

3 算法分析與總結(jié)

強(qiáng)化學(xué)習(xí)是處理序列決策任務(wù)的流行范式[46]，盡管在過(guò)去的三十年中取得了許多進(jìn)步，但在許多領(lǐng)域的學(xué)習(xí)仍然需要與環(huán)境進(jìn)行大量的交互，導(dǎo)致模型的訓(xùn)練時(shí)間過(guò)長(zhǎng)，收斂速度過(guò)慢。為了解決這個(gè)問(wèn)題，課程學(xué)習(xí)被用于強(qiáng)化學(xué)習(xí)，這樣在一個(gè)任務(wù)中獲得的經(jīng)驗(yàn)可以在開(kāi)始學(xué)習(xí)下一個(gè)更難的任務(wù)時(shí)加以利用。然而，盡管課程學(xué)習(xí)理論、算法和應(yīng)用研究在國(guó)內(nèi)外已普遍開(kāi)展，并且也已經(jīng)取得了較多的研究成果[47-48]，但仍然有許多問(wèn)題還亟待解決。

3.1 強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)算法理論分析與對(duì)比

在算法和理論方面，傳統(tǒng)課程學(xué)習(xí)對(duì)于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯，但在大規(guī)模多智能體環(huán)境中，由于環(huán)境和智能體之間的復(fù)雜動(dòng)態(tài)以及狀態(tài)-行動(dòng)空間的爆炸，因此在實(shí)際問(wèn)題的解決上進(jìn)展不大[49]。得益于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理能力，使用深度神經(jīng)網(wǎng)絡(luò)表示回報(bào)函數(shù)，避免了特征提取工作，當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法在實(shí)驗(yàn)場(chǎng)景中應(yīng)用于StarCraft[50]、grid-world[51]、hide-and-seek[52]、Sokoban[53]等經(jīng)典強(qiáng)化學(xué)習(xí)問(wèn)題的解決。隨著課程學(xué)習(xí)技術(shù)的發(fā)展，算法在智能決策[54]、困難編隊(duì)下的合作導(dǎo)航[55]、在SUMO交通模擬器中協(xié)商多車輛變道[56]以及在Checkers環(huán)境下的戰(zhàn)略合作[57]等領(lǐng)域也取得了一定的成功。

該綜述分四個(gè)角度對(duì)目前強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)方法進(jìn)行分類并介紹，希望能夠?yàn)橄嚓P(guān)研究人員提供一點(diǎn)幫助。為方便了解和對(duì)比，該文分析、對(duì)比了這幾類方法的優(yōu)缺點(diǎn)，并歸納在表1中。

表1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法匯總

(1)基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)。解決大規(guī)模問(wèn)題的方法是從小型多智能體場(chǎng)景開(kāi)始學(xué)習(xí)，逐步增加智能體的數(shù)量，最終學(xué)習(xí)目標(biāo)任務(wù)。使用多種傳輸機(jī)制以加速課程學(xué)習(xí)過(guò)程，課程設(shè)計(jì)是影響課程遷移成績(jī)的關(guān)鍵因素。如何選擇合適的課程(包括如何決定每個(gè)任務(wù)的訓(xùn)練步長(zhǎng)，如何選擇合適的學(xué)習(xí)模型重新加載等)是至關(guān)重要的。如何自動(dòng)生成多智能體課程可能是目前尚存在的主要局限性，這將在今后的工作中進(jìn)一步研究[58]。

(2)基于多智能體合作的課程學(xué)習(xí)。是根據(jù)全局目標(biāo)和個(gè)體目標(biāo)之間的關(guān)系進(jìn)行學(xué)習(xí)探索，使用信度分配[33]、種群進(jìn)化課程[34]、任務(wù)排序框架[36]，通過(guò)函數(shù)增強(qiáng)方案來(lái)連接價(jià)值和策略函數(shù)的階段，在具有高維狀態(tài)空間的多目標(biāo)多智能體環(huán)境中執(zhí)行高挑戰(zhàn)性任務(wù)性能較好，缺點(diǎn)是沖突較為頻繁、更高的方差和無(wú)法維持合作解決方案[59]，目前難以推廣到非齊次系統(tǒng)或沒(méi)有已知目標(biāo)分配的設(shè)置的工作。

(3)基于能力評(píng)估的課程學(xué)習(xí)。通過(guò)限制其最初行動(dòng)空間來(lái)設(shè)置內(nèi)部課程，使用非策略強(qiáng)化學(xué)習(xí)同時(shí)估計(jì)多個(gè)行動(dòng)空間的最優(yōu)值函數(shù)，建立技能、表述和有意義的經(jīng)驗(yàn)數(shù)據(jù)集，從而避免從頭開(kāi)始學(xué)習(xí)，加快學(xué)習(xí)效率。缺點(diǎn)是集群對(duì)每個(gè)狀態(tài)都會(huì)改變[60]，這可能會(huì)干擾泛化，因?yàn)闆](méi)有一致的語(yǔ)義。

(4)基于功能函數(shù)的課程學(xué)習(xí)。通過(guò)設(shè)定級(jí)數(shù)函數(shù)和映射函數(shù)來(lái)為智能體量身定制在線課程，通過(guò)高斯過(guò)程定義智能體函數(shù)，學(xué)習(xí)策略在單位之間共享，以鼓勵(lì)合作行為。使用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來(lái)估計(jì)動(dòng)作-價(jià)值函數(shù)，并提出一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)幫助單位平衡它們的移動(dòng)和攻擊。缺點(diǎn)是只提供最初的啟發(fā)式解決方案[61]，而且質(zhì)量不能得到保證。

3.2 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究方向

通過(guò)對(duì)最新課程學(xué)習(xí)算法理論的研究分析，本節(jié)對(duì)當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)存在的開(kāi)放性問(wèn)題和可能的研究方向進(jìn)行討論。

(1)自動(dòng)創(chuàng)建任務(wù)課程。

任務(wù)創(chuàng)建是課程學(xué)習(xí)方法的重要組成部分，任務(wù)質(zhì)量會(huì)影響課程的生成質(zhì)量，任務(wù)數(shù)量會(huì)影響課程排序算法的搜索空間和效率?，F(xiàn)有課程學(xué)習(xí)中的任務(wù)大多由人工創(chuàng)建，減少任務(wù)創(chuàng)建過(guò)程中的人工輸入量是未來(lái)工作的重要發(fā)展方向[62]。

(2)遷移不同類型知識(shí)。

課程任務(wù)之間，知識(shí)必須從一個(gè)任務(wù)遷移到另一個(gè)任務(wù)。目前大部分研究中，知識(shí)遷移的類型是固定的。例如，Narvekar等人在任務(wù)之間遷移價(jià)值函數(shù)[63]，而Svetlik等人遷移成型獎(jiǎng)勵(lì)[64]。這種知識(shí)遷移類型的局限性在于，不同的任務(wù)對(duì)于知識(shí)類型的需求可能是不同的，因此可以從不同任務(wù)中分別提取知識(shí)進(jìn)行組合。例如，從一個(gè)任務(wù)中提取一個(gè)選項(xiàng)，從另一個(gè)任務(wù)中提取模型，從而達(dá)成更好的學(xué)習(xí)效果。

(3)課程重用的成本分?jǐn)偂?/p>

當(dāng)前課程學(xué)習(xí)方法的另一個(gè)局限性是，生成課程的時(shí)間可能比直接學(xué)習(xí)目標(biāo)任務(wù)的時(shí)間更長(zhǎng)。原因在于，課程通常是為每個(gè)智能體和目標(biāo)任務(wù)獨(dú)立學(xué)習(xí)的。因此，分?jǐn)偝杀镜囊环N方法是學(xué)習(xí)一門課程來(lái)訓(xùn)練多個(gè)不同的智能體[65]，或解決多個(gè)不同的目標(biāo)任務(wù)。

4 結(jié)束語(yǔ)

該文對(duì)基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)進(jìn)行了回顧，由淺入深地對(duì)課程學(xué)習(xí)進(jìn)行了分析，介紹了課程學(xué)習(xí)的概念理論、經(jīng)典算法、研究進(jìn)展和發(fā)展展望等，從基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)、基于多智能體合作的課程學(xué)習(xí)、基于能力評(píng)估的課程學(xué)習(xí)、基于功能函數(shù)的課程學(xué)習(xí)四個(gè)角度對(duì)強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類梳理、對(duì)比分析，最后對(duì)基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的未來(lái)展望進(jìn)行簡(jiǎn)要分析。

根據(jù)當(dāng)前深度強(qiáng)化學(xué)習(xí)中存在的狀態(tài)空間復(fù)雜、維數(shù)災(zāi)難、學(xué)習(xí)時(shí)間長(zhǎng)等問(wèn)題，課程學(xué)習(xí)會(huì)是未來(lái)的一個(gè)發(fā)展方向。課程學(xué)習(xí)算法可以將目標(biāo)任務(wù)分解成多個(gè)子任務(wù)，結(jié)合大多數(shù)的強(qiáng)化學(xué)習(xí)算法，使用多種傳輸機(jī)制以加速?gòu)?qiáng)化學(xué)習(xí)進(jìn)程，大大提高了學(xué)習(xí)探索效率和通用性。最后，目前課程算法在大規(guī)模多智能體場(chǎng)景的研究進(jìn)展緩慢，其主要原因在于多智能體場(chǎng)景的復(fù)雜性。然而大規(guī)模多智能體場(chǎng)景更加貼近現(xiàn)實(shí)，優(yōu)質(zhì)的課程學(xué)習(xí)算法能夠在很大程度上提高學(xué)習(xí)探索的效率。因此，相信課程學(xué)習(xí)算法會(huì)成為深度強(qiáng)化學(xué)習(xí)的熱門方向，加快深度強(qiáng)化學(xué)習(xí)的發(fā)展速度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡