国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究綜述

2022-11-25 02:56:00林澤陽(yáng)陳希亮
關(guān)鍵詞:深度函數(shù)智能

林澤陽(yáng),賴 俊,陳希亮

(陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

0 引 言

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)分支之一,在人工智能領(lǐng)域具有重要地位[1]:智能體在環(huán)境中通過(guò)“交互-試錯(cuò)”獲取正/負(fù)獎(jiǎng)勵(lì)值,調(diào)整自身的動(dòng)作策略,從而生成總獎(jiǎng)勵(lì)值最大的動(dòng)作策略模型[2]。

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在有限狀態(tài)空間和動(dòng)作空間的任務(wù)中能夠取得較好的收斂效果[3],但復(fù)雜空間狀態(tài)任務(wù)往往具有很大的狀態(tài)空間和連續(xù)的動(dòng)作空間,尤其當(dāng)輸入數(shù)據(jù)為圖像和聲音時(shí),傳統(tǒng)強(qiáng)化學(xué)習(xí)很難處理,會(huì)出現(xiàn)維度爆炸問(wèn)題[4-5]。解決上述問(wèn)題的一個(gè)方法,就是將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)結(jié)合,用多層神經(jīng)網(wǎng)絡(luò)來(lái)顯式表示強(qiáng)化學(xué)習(xí)中的值函數(shù)和策略函數(shù)[6]。

深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合[7],近年來(lái)在人工智能領(lǐng)域迅猛發(fā)展,例如Atari游戲[8-9]、復(fù)雜機(jī)器人動(dòng)作控制[10-11],以及圍棋AlphaGo智能的應(yīng)用[12]等,2015年機(jī)器學(xué)習(xí)領(lǐng)域著名專家Hinton、Bengio、Lecun在《Nature》上發(fā)表的深度學(xué)習(xí)綜述一文將深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要發(fā)展方向[13]。

盡管在過(guò)去三十年間取得很大進(jìn)步,但由于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)智能體的初始設(shè)定都是隨機(jī)策略,在簡(jiǎn)單環(huán)境中通過(guò)隨機(jī)探索和試錯(cuò),能夠達(dá)成較好的訓(xùn)練效果[14]。但在復(fù)雜環(huán)境中由于狀態(tài)空間的復(fù)雜性、獎(jiǎng)勵(lì)信號(hào)的稀疏性,強(qiáng)化學(xué)習(xí)從環(huán)境中獲取樣本的成本不斷提高,學(xué)習(xí)時(shí)間過(guò)長(zhǎng),從而影響了智能體的有效探索[15]。

解決上述問(wèn)題的一個(gè)有效途徑,就是將課程學(xué)習(xí)(Curriculum Learning,CL)和深度強(qiáng)化學(xué)習(xí)相結(jié)合[16]。2009年,以機(jī)器學(xué)習(xí)領(lǐng)軍人物Bengio為首的科研團(tuán)隊(duì)在國(guó)際頂級(jí)機(jī)器學(xué)習(xí)會(huì)議ICML上首次提出課程學(xué)習(xí)的概念[17],引起機(jī)器學(xué)習(xí)領(lǐng)域的巨大轟動(dòng)。課程學(xué)習(xí)借鑒人類從簡(jiǎn)單到復(fù)雜的學(xué)習(xí)思想,首先在任務(wù)集中篩選出部分簡(jiǎn)單任務(wù)進(jìn)行學(xué)習(xí)以產(chǎn)生訓(xùn)練課程,而后在剩余的復(fù)雜任務(wù)中利用訓(xùn)練課程進(jìn)行學(xué)習(xí),最后在整個(gè)訓(xùn)練集中進(jìn)行訓(xùn)練。將課程學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合,可以有以下兩個(gè)方面的作用[18]:(1)可以加快訓(xùn)練模型的收斂速度,避免訓(xùn)練初期對(duì)于復(fù)雜任務(wù)投入過(guò)多訓(xùn)練時(shí)間;(2)提高模型的泛化能力,增強(qiáng)對(duì)復(fù)雜任務(wù)的學(xué)習(xí)能力。

該文首先對(duì)課程學(xué)習(xí)進(jìn)行簡(jiǎn)要描述,從四個(gè)角度對(duì)深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類整理,之后對(duì)近三年的基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)新算法進(jìn)行了總結(jié)分析,最后討論了基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的發(fā)展前景和挑戰(zhàn)。

1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)

課程學(xué)習(xí)的目標(biāo)是自動(dòng)設(shè)計(jì)和選擇完整序列的任務(wù)(即課程)M1,M2,…,Mt對(duì)智能體進(jìn)行訓(xùn)練,從而提高對(duì)目標(biāo)任務(wù)的學(xué)習(xí)速度或性能[19],課程學(xué)習(xí)流程如圖1所示。

課程馬爾可夫決策過(guò)程(Curriculum Markov Decision Process,CMDP)[20]是一個(gè)6元組(S,A,p,r,Δs0,Sf),其中S是狀態(tài)空間集,A是動(dòng)作空間集,p(s'|s,a)代表智能體在狀態(tài)s時(shí)采取動(dòng)作a后轉(zhuǎn)移到狀態(tài)s'的概率,r(s,a,s')代表在狀態(tài)s采取動(dòng)作a到達(dá)狀態(tài)s'所獲得的即時(shí)獎(jiǎng)勵(lì),Δs0代表初始狀態(tài)分布,Sf代表最終狀態(tài)集。

常見(jiàn)的課程創(chuàng)建方法有以下兩種[21]:(1)在線創(chuàng)建課程,根據(jù)智能體對(duì)給定頂點(diǎn)樣本的學(xué)習(xí)進(jìn)度動(dòng)態(tài)添加邊;(2)離線創(chuàng)建課程,在訓(xùn)練前生成圖,并根據(jù)與不同頂點(diǎn)相關(guān)聯(lián)的樣本的屬性選擇邊。課程設(shè)計(jì)流程如圖2所示。

課程學(xué)習(xí)方法可認(rèn)為包括三部分[22]:任務(wù)生成、排序和遷移學(xué)習(xí)。任務(wù)生成是創(chuàng)建一組好的中間任務(wù)的過(guò)程,從中獲取經(jīng)驗(yàn)樣本。排序研究了如何在一組經(jīng)驗(yàn)樣本上創(chuàng)建部分排序D,也就是說(shuō),如何生成課程圖的邊。遷移學(xué)習(xí)主要研究如何將知識(shí)從一個(gè)或多個(gè)源任務(wù)直接轉(zhuǎn)移到目標(biāo)任務(wù)。為了評(píng)價(jià)源任務(wù)遷移到目標(biāo)任務(wù)的性能優(yōu)劣[23-24],有以下指標(biāo)可以量化。(1)學(xué)習(xí)速度提升。即智能體在遷移知識(shí)的前提下能夠以多快的速度學(xué)習(xí)到最優(yōu)策略,從而在目標(biāo)任務(wù)上實(shí)現(xiàn)預(yù)期的性能值GO≥δ,其中δ是總?cè)蝿?wù)期望的性能閾值。(2)初始性能提升。通過(guò)從源任務(wù)進(jìn)行遷移,觀察智能體在學(xué)習(xí)過(guò)程中對(duì)目標(biāo)任務(wù)的初始性能提升來(lái)衡量遷移效果。(3)漸近性能提升。通過(guò)比較智能體在使用遷移與不使用遷移時(shí)目標(biāo)任務(wù)收斂后的最終性能來(lái)衡量遷移效果。

2 深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)研究進(jìn)展

對(duì)于強(qiáng)化學(xué)習(xí)智能體來(lái)說(shuō),自主學(xué)習(xí)一項(xiàng)復(fù)雜任務(wù)需要很長(zhǎng)的時(shí)間。在深度強(qiáng)化學(xué)習(xí)中應(yīng)用課程學(xué)習(xí),可以通過(guò)利用一個(gè)或多個(gè)源任務(wù)的知識(shí)來(lái)加速或改善復(fù)雜目標(biāo)任務(wù)的學(xué)習(xí)[25]。

Felipe等人提出了新方法[26]:(1)將目標(biāo)任務(wù)劃分為簡(jiǎn)單任務(wù);(2)在盡量小的專家經(jīng)驗(yàn)支持下,根據(jù)面向?qū)ο蟮娜蝿?wù)描述自動(dòng)生成課程;(3)使用生成的課程來(lái)跨任務(wù)重用知識(shí)。實(shí)驗(yàn)表明在人工指定和生成子任務(wù)方面都取得了更好的性能。

為了提高多智能體的學(xué)習(xí)性能,Jayesh等人應(yīng)用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)完成協(xié)同控制任務(wù)[27],包括離散和連續(xù)動(dòng)作任務(wù),Daphna等人提出了推斷課程(Inference Curriculum,IC)的方法[28],從另一個(gè)網(wǎng)絡(luò)遷移學(xué)習(xí)的方式,接受不同任務(wù)的訓(xùn)練。為了解決從稀疏和延遲獎(jiǎng)勵(lì)中學(xué)習(xí)的局限性問(wèn)題,Atsushi提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(Progressive Neural Network,PNN)的課程學(xué)習(xí)方法[29],帶參數(shù)的模塊被附加上預(yù)先確定的參數(shù),該策略比單組參數(shù)的效果更好。

2.1 基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)

傳統(tǒng)課程學(xué)習(xí)對(duì)于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動(dòng)態(tài)以及狀態(tài)-動(dòng)作空間的維度爆炸,這仍然具有挑戰(zhàn)性,所以如何更好地學(xué)習(xí)和產(chǎn)生更有效的任務(wù)課程是課程學(xué)習(xí)的研究重點(diǎn)。

王維塤等人設(shè)計(jì)了一種新的動(dòng)態(tài)多智能體課程學(xué)習(xí)(Dynamic Multi-agent Curriculum Learning,DyMA-CL)來(lái)解決大規(guī)模智能體學(xué)習(xí)的問(wèn)題[30],從一個(gè)小規(guī)模的多智能體場(chǎng)景開(kāi)始學(xué)習(xí),逐步增加智能體的數(shù)量。網(wǎng)絡(luò)設(shè)計(jì)里有三種遷移機(jī)制:緩存復(fù)用(Buffer Reuse,BR)、基于KL散度的課程蒸餾(Curriculum Distillation,CD)和模型重載(Model Reload,MR)。

DyAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由于不同課程間智能體數(shù)量以及觀測(cè)維度變化,緩存復(fù)用和基于KL散度的課程蒸餾機(jī)制不能直接用于DyMA-CL框架中,王維塤等人提供了一個(gè)語(yǔ)義映射函數(shù)φ(·),將語(yǔ)義信息從每個(gè)智能體的觀察值中抽取出來(lái),從而找出不同狀態(tài)空間之間的映射關(guān)系。

傳統(tǒng)的課程學(xué)習(xí)主要是針對(duì)單一類型智能體和固定的動(dòng)作空間進(jìn)行設(shè)計(jì),Wu等人引入主從智能體的概念[31],采用異步策略共享感知網(wǎng)絡(luò),在不同的動(dòng)作空間內(nèi)同時(shí)訓(xùn)練多個(gè)智能體。

主從智能體以異步方式同時(shí)學(xué)習(xí)相應(yīng)的控制策略,以不同的頻率運(yùn)行,其中主智能體占用一半的線程,從智能體共享其余的一半線程。

2.2 基于多智能體合作的課程學(xué)習(xí)

不同的多智能體合作控制問(wèn)題需要智能體在實(shí)現(xiàn)各自目標(biāo)的同時(shí)為全局目標(biāo)的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給目前針對(duì)單一的全局獎(jiǎng)勵(lì)設(shè)置的算法帶來(lái)兩個(gè)問(wèn)題[32]:(1)需要高效的學(xué)習(xí)探索,既要實(shí)現(xiàn)智能體的個(gè)體目標(biāo),又要為其他智能體的成功而進(jìn)行合作;(2)不同智能體的行動(dòng)和目標(biāo)之間相互作用的信度分配。

為解決這兩個(gè)問(wèn)題,Yang等人推導(dǎo)出一種基于多目標(biāo)多智能體的梯度策略算法[33],并采用信度分配函數(shù)進(jìn)行局部信度分配,使用一個(gè)增強(qiáng)函數(shù)來(lái)連接價(jià)值函數(shù)和策略函數(shù)。多目標(biāo)多智能體的梯度策略如圖4所示。

階段1:作者在N=1和隨機(jī)目標(biāo)采樣的誘導(dǎo)式MDP中訓(xùn)練了一個(gè)演員π1(a|o,g)和一個(gè)評(píng)論家Q1(s1,a,g),與完整的多智能體環(huán)境相比,這種方法使用的樣本數(shù)量要少得多。

L(θQC)=

(1)

?θJ(π)=

在多智能體游戲中,隨著智能體數(shù)量的增加,環(huán)境的復(fù)雜性會(huì)呈指數(shù)級(jí)增長(zhǎng),所以在大規(guī)模智能體的前提下學(xué)習(xí)好的策略尤其具有挑戰(zhàn)性。為解決這一挑戰(zhàn),Long等人引入了進(jìn)化種群課程(Evolutionary Population Curriculum,EPC)[34],使用種群進(jìn)化的方法來(lái)解決整個(gè)課程中的一個(gè)客觀錯(cuò)位問(wèn)題[35]:早期訓(xùn)練的規(guī)模較小智能體模型,未必是應(yīng)用到后期大規(guī)模智能體訓(xùn)練的最佳模型。Long等人在訓(xùn)練的各個(gè)階段維護(hù)多個(gè)智能體集,對(duì)各個(gè)智能體集進(jìn)行混合匹配和微調(diào),篩選出最佳適應(yīng)性的智能體集進(jìn)入下個(gè)階段。種群不變Q函數(shù)如圖5所示。

如圖5所示,左半部分中,作者利用注意力機(jī)制組合來(lái)自不同觀察動(dòng)作編碼器fi的嵌入,右半部分是fi的詳細(xì)說(shuō)明,作者還利用注意力模塊將M個(gè)不同的實(shí)體組合到一個(gè)觀察值中。

在強(qiáng)化學(xué)習(xí)中,以往的任務(wù)排序方法都以減少模型訓(xùn)練時(shí)間并達(dá)到給定性能水平為目標(biāo)進(jìn)行探索。Francesco等人定義了一個(gè)通用的任務(wù)排序優(yōu)化框架[36],并評(píng)估了常用的元啟發(fā)式搜索方法在多個(gè)任務(wù)上的性能。

給定一個(gè)評(píng)估指標(biāo)P:C≤L×M→,它為一個(gè)特定的最終任務(wù)評(píng)估課程,考慮找到一個(gè)最優(yōu)課程C的問(wèn)題,如下:

P(c*,mf)≥P(c,mf)?c∈C≤L

(3)

2.3 基于能力評(píng)估的課程學(xué)習(xí)

與其他自監(jiān)督的強(qiáng)化學(xué)習(xí)方法(如內(nèi)在驅(qū)動(dòng)方法)相比,多智能體的競(jìng)爭(zhēng)可能會(huì)隨著環(huán)境復(fù)雜性的提高而更加激烈,并導(dǎo)致智能體產(chǎn)生類似于人類技能的行為[37]。Bowen等人提出一種以遷移和微調(diào)作為定量評(píng)估目標(biāo)能力的方法[38],并且在一組特定領(lǐng)域的智力測(cè)驗(yàn)中將捉迷藏智能體和內(nèi)在驅(qū)動(dòng)與隨機(jī)初始化基準(zhǔn)值進(jìn)行了比較。

在復(fù)雜的任務(wù)中,比如那些組合行動(dòng)空間大的任務(wù),隨機(jī)探索的效率太低,當(dāng)前的學(xué)習(xí)進(jìn)展比較緩慢。Gregory等人使用一個(gè)漸進(jìn)增長(zhǎng)的動(dòng)作空間的課程來(lái)加速學(xué)習(xí)[39],智能體可以通過(guò)最初限制其動(dòng)作空間來(lái)設(shè)置內(nèi)部課程。Gregory的方法使用非策略強(qiáng)化學(xué)習(xí)來(lái)同時(shí)估計(jì)多個(gè)動(dòng)作空間的最優(yōu)值函數(shù),并有效地將數(shù)據(jù)、值函數(shù)估計(jì)和狀態(tài)表示從受限的動(dòng)作空間遷移到完整的任務(wù)。

(4)

因?yàn)槊總€(gè)動(dòng)作空間都是較大動(dòng)作空間的嚴(yán)格子集,因此在最壞的情況下,智能體總是可以退回到使用更受限制的動(dòng)作空間的策略。

課程學(xué)習(xí)方法通常依靠啟發(fā)式方法來(lái)估計(jì)訓(xùn)練實(shí)例的難度和模型的學(xué)習(xí)能力[40]。John P等人提出了基于能力評(píng)估的課程學(xué)習(xí)動(dòng)態(tài)數(shù)據(jù)選擇(Dynamic Data Selection for Curriculum Learning via Ability Estimation,DDaCLAE)策略[41],該策略在每個(gè)訓(xùn)練階段根據(jù)模型在該階段的能力評(píng)估動(dòng)態(tài)選擇最佳訓(xùn)練實(shí)例。

算法 1:DDaCLAE

輸入:數(shù)據(jù)(X,Y),模型φ,難度D,num_epochs

輸出:訓(xùn)練好的模型φ

1: forein num_epochs do

5: train(φ,Xe,Ye)

6: end for

11:end procedure

DDaCLAE的訓(xùn)練過(guò)程見(jiàn)算法1,John P等人使用評(píng)分函數(shù)估計(jì)模型能力,使用完整的訓(xùn)練集而不是更新模型參數(shù)來(lái)獲取響應(yīng)數(shù)據(jù)。John P等人發(fā)現(xiàn),在GLUE分類任務(wù)上,使用學(xué)習(xí)困難參數(shù)的模型優(yōu)于基于啟發(fā)式的課程學(xué)習(xí)模型。

2.4 基于功能函數(shù)的課程學(xué)習(xí)

通過(guò)課程來(lái)訓(xùn)練智能體以提高智能體的性能和學(xué)習(xí)速度,Andrea等人提出了一種基于任務(wù)復(fù)雜度的自動(dòng)課程生成方法[42],引入了不同的進(jìn)程函數(shù),包括基于智能體性能的自主在線任務(wù)進(jìn)程。與其他基于任務(wù)的課程學(xué)習(xí)方法不同,這種方法的進(jìn)階函數(shù)決定了智能體在每個(gè)中間任務(wù)上應(yīng)該訓(xùn)練多長(zhǎng)時(shí)間。通過(guò)在網(wǎng)格世界[43]和復(fù)雜模擬導(dǎo)航領(lǐng)域[44]中與兩種最先進(jìn)的課程學(xué)習(xí)算法的性能進(jìn)行對(duì)比分析,證明了自動(dòng)課程生成方法的優(yōu)點(diǎn)和廣泛的適用性。

傳統(tǒng)課程學(xué)習(xí)的數(shù)值方法只提供了最初的啟發(fā)式解決方案,幾乎不能保證它們的質(zhì)量。Francesco等人定義了一個(gè)新的灰盒函數(shù)[45],該函數(shù)包含一個(gè)合適的調(diào)度問(wèn)題,可以有效地用來(lái)重構(gòu)課程學(xué)習(xí)問(wèn)題。

通過(guò)引入灰盒函數(shù)ψ:n×n→R,可以用參數(shù)(u,p)來(lái)計(jì)算課程c,并返回遺憾值Pr(c)。利用灰盒函數(shù)ψ,問(wèn)題可以重新表示為:

(5)

(7)

(8)

3 算法分析與總結(jié)

強(qiáng)化學(xué)習(xí)是處理序列決策任務(wù)的流行范式[46],盡管在過(guò)去的三十年中取得了許多進(jìn)步,但在許多領(lǐng)域的學(xué)習(xí)仍然需要與環(huán)境進(jìn)行大量的交互,導(dǎo)致模型的訓(xùn)練時(shí)間過(guò)長(zhǎng),收斂速度過(guò)慢。為了解決這個(gè)問(wèn)題,課程學(xué)習(xí)被用于強(qiáng)化學(xué)習(xí),這樣在一個(gè)任務(wù)中獲得的經(jīng)驗(yàn)可以在開(kāi)始學(xué)習(xí)下一個(gè)更難的任務(wù)時(shí)加以利用。然而,盡管課程學(xué)習(xí)理論、算法和應(yīng)用研究在國(guó)內(nèi)外已普遍開(kāi)展,并且也已經(jīng)取得了較多的研究成果[47-48],但仍然有許多問(wèn)題還亟待解決。

3.1 強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)算法理論分析與對(duì)比

在算法和理論方面,傳統(tǒng)課程學(xué)習(xí)對(duì)于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動(dòng)態(tài)以及狀態(tài)-行動(dòng)空間的爆炸,因此在實(shí)際問(wèn)題的解決上進(jìn)展不大[49]。得益于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理能力,使用深度神經(jīng)網(wǎng)絡(luò)表示回報(bào)函數(shù),避免了特征提取工作,當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法在實(shí)驗(yàn)場(chǎng)景中應(yīng)用于StarCraft[50]、grid-world[51]、hide-and-seek[52]、Sokoban[53]等經(jīng)典強(qiáng)化學(xué)習(xí)問(wèn)題的解決。隨著課程學(xué)習(xí)技術(shù)的發(fā)展,算法在智能決策[54]、困難編隊(duì)下的合作導(dǎo)航[55]、在SUMO交通模擬器中協(xié)商多車輛變道[56]以及在Checkers環(huán)境下的戰(zhàn)略合作[57]等領(lǐng)域也取得了一定的成功。

該綜述分四個(gè)角度對(duì)目前強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)方法進(jìn)行分類并介紹,希望能夠?yàn)橄嚓P(guān)研究人員提供一點(diǎn)幫助。為方便了解和對(duì)比,該文分析、對(duì)比了這幾類方法的優(yōu)缺點(diǎn),并歸納在表1中。

表1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法匯總

(1)基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)。解決大規(guī)模問(wèn)題的方法是從小型多智能體場(chǎng)景開(kāi)始學(xué)習(xí),逐步增加智能體的數(shù)量,最終學(xué)習(xí)目標(biāo)任務(wù)。使用多種傳輸機(jī)制以加速課程學(xué)習(xí)過(guò)程,課程設(shè)計(jì)是影響課程遷移成績(jī)的關(guān)鍵因素。如何選擇合適的課程(包括如何決定每個(gè)任務(wù)的訓(xùn)練步長(zhǎng),如何選擇合適的學(xué)習(xí)模型重新加載等)是至關(guān)重要的。如何自動(dòng)生成多智能體課程可能是目前尚存在的主要局限性,這將在今后的工作中進(jìn)一步研究[58]。

(2)基于多智能體合作的課程學(xué)習(xí)。是根據(jù)全局目標(biāo)和個(gè)體目標(biāo)之間的關(guān)系進(jìn)行學(xué)習(xí)探索,使用信度分配[33]、種群進(jìn)化課程[34]、任務(wù)排序框架[36],通過(guò)函數(shù)增強(qiáng)方案來(lái)連接價(jià)值和策略函數(shù)的階段,在具有高維狀態(tài)空間的多目標(biāo)多智能體環(huán)境中執(zhí)行高挑戰(zhàn)性任務(wù)性能較好,缺點(diǎn)是沖突較為頻繁、更高的方差和無(wú)法維持合作解決方案[59],目前難以推廣到非齊次系統(tǒng)或沒(méi)有已知目標(biāo)分配的設(shè)置的工作。

(3)基于能力評(píng)估的課程學(xué)習(xí)。通過(guò)限制其最初行動(dòng)空間來(lái)設(shè)置內(nèi)部課程,使用非策略強(qiáng)化學(xué)習(xí)同時(shí)估計(jì)多個(gè)行動(dòng)空間的最優(yōu)值函數(shù),建立技能、表述和有意義的經(jīng)驗(yàn)數(shù)據(jù)集,從而避免從頭開(kāi)始學(xué)習(xí),加快學(xué)習(xí)效率。缺點(diǎn)是集群對(duì)每個(gè)狀態(tài)都會(huì)改變[60],這可能會(huì)干擾泛化,因?yàn)闆](méi)有一致的語(yǔ)義。

(4)基于功能函數(shù)的課程學(xué)習(xí)。通過(guò)設(shè)定級(jí)數(shù)函數(shù)和映射函數(shù)來(lái)為智能體量身定制在線課程,通過(guò)高斯過(guò)程定義智能體函數(shù),學(xué)習(xí)策略在單位之間共享,以鼓勵(lì)合作行為。使用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來(lái)估計(jì)動(dòng)作-價(jià)值函數(shù),并提出一個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)幫助單位平衡它們的移動(dòng)和攻擊。缺點(diǎn)是只提供最初的啟發(fā)式解決方案[61],而且質(zhì)量不能得到保證。

3.2 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究方向

通過(guò)對(duì)最新課程學(xué)習(xí)算法理論的研究分析,本節(jié)對(duì)當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)存在的開(kāi)放性問(wèn)題和可能的研究方向進(jìn)行討論。

(1)自動(dòng)創(chuàng)建任務(wù)課程。

任務(wù)創(chuàng)建是課程學(xué)習(xí)方法的重要組成部分,任務(wù)質(zhì)量會(huì)影響課程的生成質(zhì)量,任務(wù)數(shù)量會(huì)影響課程排序算法的搜索空間和效率?,F(xiàn)有課程學(xué)習(xí)中的任務(wù)大多由人工創(chuàng)建,減少任務(wù)創(chuàng)建過(guò)程中的人工輸入量是未來(lái)工作的重要發(fā)展方向[62]。

(2)遷移不同類型知識(shí)。

課程任務(wù)之間,知識(shí)必須從一個(gè)任務(wù)遷移到另一個(gè)任務(wù)。目前大部分研究中,知識(shí)遷移的類型是固定的。例如,Narvekar等人在任務(wù)之間遷移價(jià)值函數(shù)[63],而Svetlik等人遷移成型獎(jiǎng)勵(lì)[64]。這種知識(shí)遷移類型的局限性在于,不同的任務(wù)對(duì)于知識(shí)類型的需求可能是不同的,因此可以從不同任務(wù)中分別提取知識(shí)進(jìn)行組合。例如,從一個(gè)任務(wù)中提取一個(gè)選項(xiàng),從另一個(gè)任務(wù)中提取模型,從而達(dá)成更好的學(xué)習(xí)效果。

(3)課程重用的成本分?jǐn)偂?/p>

當(dāng)前課程學(xué)習(xí)方法的另一個(gè)局限性是,生成課程的時(shí)間可能比直接學(xué)習(xí)目標(biāo)任務(wù)的時(shí)間更長(zhǎng)。原因在于,課程通常是為每個(gè)智能體和目標(biāo)任務(wù)獨(dú)立學(xué)習(xí)的。因此,分?jǐn)偝杀镜囊环N方法是學(xué)習(xí)一門課程來(lái)訓(xùn)練多個(gè)不同的智能體[65],或解決多個(gè)不同的目標(biāo)任務(wù)。

4 結(jié)束語(yǔ)

該文對(duì)基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)進(jìn)行了回顧,由淺入深地對(duì)課程學(xué)習(xí)進(jìn)行了分析,介紹了課程學(xué)習(xí)的概念理論、經(jīng)典算法、研究進(jìn)展和發(fā)展展望等,從基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)、基于多智能體合作的課程學(xué)習(xí)、基于能力評(píng)估的課程學(xué)習(xí)、基于功能函數(shù)的課程學(xué)習(xí)四個(gè)角度對(duì)強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類梳理、對(duì)比分析,最后對(duì)基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的未來(lái)展望進(jìn)行簡(jiǎn)要分析。

根據(jù)當(dāng)前深度強(qiáng)化學(xué)習(xí)中存在的狀態(tài)空間復(fù)雜、維數(shù)災(zāi)難、學(xué)習(xí)時(shí)間長(zhǎng)等問(wèn)題,課程學(xué)習(xí)會(huì)是未來(lái)的一個(gè)發(fā)展方向。課程學(xué)習(xí)算法可以將目標(biāo)任務(wù)分解成多個(gè)子任務(wù),結(jié)合大多數(shù)的強(qiáng)化學(xué)習(xí)算法,使用多種傳輸機(jī)制以加速?gòu)?qiáng)化學(xué)習(xí)進(jìn)程,大大提高了學(xué)習(xí)探索效率和通用性。最后,目前課程算法在大規(guī)模多智能體場(chǎng)景的研究進(jìn)展緩慢,其主要原因在于多智能體場(chǎng)景的復(fù)雜性。然而大規(guī)模多智能體場(chǎng)景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的課程學(xué)習(xí)算法能夠在很大程度上提高學(xué)習(xí)探索的效率。因此,相信課程學(xué)習(xí)算法會(huì)成為深度強(qiáng)化學(xué)習(xí)的熱門方向,加快深度強(qiáng)化學(xué)習(xí)的發(fā)展速度。

猜你喜歡
深度函數(shù)智能
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
深度理解一元一次方程
函數(shù)備考精講
深度觀察
深度觀察
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
涿州市| 江阴市| 白银市| 吉首市| 阳新县| 吴桥县| 吐鲁番市| 六盘水市| 桐庐县| 科技| 张家界市| 乌兰浩特市| 芮城县| 丹寨县| 闽侯县| 错那县| 云林县| 梨树县| 苍山县| 固原市| 灵石县| 庐江县| 铁力市| 吉安市| 湖口县| 灯塔市| 天津市| 自治县| 封丘县| 左云县| 西安市| 泗阳县| 高雄县| 龙里县| 辽宁省| 奉节县| 精河县| 阿克陶县| 峨边| 台中县| 顺昌县|