国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模型的機(jī)器人強(qiáng)化學(xué)習(xí)研究綜述

2022-02-17 05:58孫世光蘭旭光張翰博鄭南寧
模式識(shí)別與人工智能 2022年1期
關(guān)鍵詞:動(dòng)力學(xué)狀態(tài)函數(shù)

孫世光 蘭旭光 張翰博 鄭南寧

傳統(tǒng)的機(jī)器人控制大多基于定制化程序解決固定任務(wù),只適合簡(jiǎn)單的結(jié)構(gòu)化環(huán)境.而對(duì)于各種復(fù)雜環(huán)境下的復(fù)雜任務(wù),機(jī)器人本身的最優(yōu)行為并不唯一,缺乏固定范式,因此無(wú)法對(duì)機(jī)器人策略進(jìn)行預(yù)編程[1].近年來(lái),學(xué)習(xí)算法的快速發(fā)展使解決此類(lèi)問(wèn)題成為可能.機(jī)器人學(xué)習(xí)(Robot Learning)是機(jī)器學(xué)習(xí)和機(jī)器人技術(shù)的交叉領(lǐng)域,目的是研究讓機(jī)器人通過(guò)與環(huán)境自主交互和學(xué)習(xí),獲得新技能以適應(yīng)環(huán)境,使機(jī)器人能完成復(fù)雜任務(wù).機(jī)器人學(xué)習(xí)涉及計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、機(jī)器人控制等多個(gè)領(lǐng)域的研究.

在強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)[2]中,機(jī)器人可通過(guò)與世界環(huán)境交互,從環(huán)境中獲得反饋并優(yōu)化自己的行動(dòng)策略.深度強(qiáng)化學(xué)習(xí)(Deep RL, DRL)結(jié)合深度學(xué)習(xí),使用神經(jīng)網(wǎng)絡(luò)表征策略和狀態(tài),對(duì)復(fù)雜的環(huán)境更魯棒,更適用于機(jī)器人學(xué)習(xí)中的復(fù)雜任務(wù).而基于模型的強(qiáng)化學(xué)習(xí)(Model-Based RL, MBRL)作為強(qiáng)化學(xué)習(xí)的一個(gè)主要分支,通常會(huì)基于交互信息學(xué)習(xí)一個(gè)環(huán)境動(dòng)力學(xué)模型(Dynamics Model),并基于該模型生成數(shù)據(jù)優(yōu)化行動(dòng)策略,或利用模型進(jìn)行規(guī)劃.無(wú)模型的強(qiáng)化學(xué)習(xí)(Model-Free RL, MFRL)不需要建模,簡(jiǎn)單直觀,樣本效率較低,但是漸進(jìn)性能較高,適用于游戲領(lǐng)域.而基于模型的強(qiáng)化學(xué)習(xí)需要學(xué)習(xí)模型,學(xué)到模型后會(huì)有較高的樣本效率,但缺陷是對(duì)于有些復(fù)雜任務(wù),模型不容易學(xué)到.在機(jī)器人控制領(lǐng)域,模型都有確定的物理規(guī)律作為指導(dǎo),動(dòng)作空間相對(duì)較小,模型容易學(xué)到,因此基于模型的強(qiáng)化學(xué)習(xí)算法更適用.

目前在機(jī)器人控制領(lǐng)域,強(qiáng)化學(xué)習(xí)算法取得重要進(jìn)展,OpenAI等[3]通過(guò)深度強(qiáng)化學(xué)習(xí)和虛擬到現(xiàn)實(shí)(Sim to Real)的方法,訓(xùn)練一只可玩魔方的機(jī)械手,靈活性甚至超過(guò)人類(lèi).相比無(wú)模型算法,基于模型的強(qiáng)化學(xué)習(xí)算法在機(jī)器人上應(yīng)用更廣泛.Levine等[4]基于引導(dǎo)策略搜索(Guided Policy Search),可讓機(jī)器人直接從攝像機(jī)原始像素中學(xué)習(xí)靈巧操作,實(shí)現(xiàn)端到端的機(jī)器人操作控制.Fazeli等[5]讓機(jī)器人學(xué)習(xí)融合視覺(jué)和觸覺(jué)的多模態(tài)的推理模型,結(jié)合規(guī)劃使機(jī)器人學(xué)會(huì)玩疊疊樂(lè)(Jenga).Fisac等[6]利用系統(tǒng)動(dòng)力學(xué)模型的近似知識(shí)結(jié)合貝葉斯機(jī)制,構(gòu)建機(jī)器人控制的通用安全框架,有效提升機(jī)器人操作中的安全性.基于模型的機(jī)器人學(xué)習(xí)算法可從樣本中學(xué)習(xí)一個(gè)環(huán)境模型,基于模型學(xué)習(xí)操作技能,更適合高維圖像輸入,更接近人類(lèi)的學(xué)習(xí)方式,有助于構(gòu)建人類(lèi)期望中的機(jī)器人.

本文首先從機(jī)器人學(xué)習(xí)問(wèn)題的建模入手,介紹馬爾科夫決策過(guò)程的相關(guān)概念,并將機(jī)器人學(xué)習(xí)問(wèn)題形式化.詳細(xì)介紹機(jī)器人學(xué)習(xí)中基于模型的強(qiáng)化學(xué)習(xí)方法,包括主流的模型學(xué)習(xí)及模型利用的方法.主流的模型學(xué)習(xí)方法具體介紹前向動(dòng)力學(xué)模型、逆向動(dòng)力學(xué)模型和隱式模型.模型利用的方法具體介紹基于模型的規(guī)劃、基于模型的策略學(xué)習(xí)和隱式規(guī)劃,并對(duì)其中存在的問(wèn)題進(jìn)行探討.最后,結(jié)合現(xiàn)實(shí)中機(jī)器人學(xué)習(xí)任務(wù)面臨的問(wèn)題,介紹基于模型的強(qiáng)化學(xué)習(xí)在其中的應(yīng)用,并展望基于模型的強(qiáng)化學(xué)習(xí)未來(lái)的研究方向.

1 機(jī)器人學(xué)習(xí)問(wèn)題的形式化

將具有相似結(jié)構(gòu)的任務(wù)建模為一個(gè)MDP的集合(MDPs),稱為一個(gè)任務(wù)族.使用P(M)表示任務(wù)的分布,每個(gè)MDP都是一個(gè)特定的任務(wù).任務(wù)族中所有任務(wù)的動(dòng)作空間都是相同的,由機(jī)器人決定.但是任務(wù)之間的狀態(tài)空間可能有所不同.第i個(gè)任務(wù)的狀態(tài)空間可表示為機(jī)器人自身的狀態(tài)空間和第i個(gè)任務(wù)環(huán)境的狀態(tài)空間的笛卡爾積:

Ri=C+Gi,

其中,C表示任務(wù)族中公共環(huán)境背景的損失函數(shù),Gi表示第i個(gè)任務(wù)的獎(jiǎng)勵(lì)函數(shù).任務(wù)族中的多數(shù)任務(wù)環(huán)境可視為物體集合,因此也可由描述任務(wù)相關(guān)物體的變量集合描述.可將環(huán)境模型進(jìn)一步分解為物體狀態(tài)的集合:

2 基礎(chǔ)理論

2.1 強(qiáng)化學(xué)習(xí)概念

強(qiáng)化學(xué)習(xí)一般通過(guò)馬爾科夫決策過(guò)程建模,目標(biāo)是求解特定任務(wù)的最優(yōu)策略.機(jī)器人學(xué)習(xí)中的長(zhǎng)時(shí)決策問(wèn)題也可建模成一個(gè)MDP,因此強(qiáng)化學(xué)習(xí)適合作為機(jī)器人學(xué)習(xí)的算法.無(wú)模型強(qiáng)化學(xué)習(xí)過(guò)程如圖 1所示.強(qiáng)化學(xué)習(xí)的主體稱為智能體(Agent).智能體首先對(duì)環(huán)境進(jìn)行觀測(cè),得知自身目前所處的狀態(tài)s,根據(jù)當(dāng)前狀態(tài)進(jìn)行決策,執(zhí)行某個(gè)動(dòng)作a,環(huán)境接收到智能體的動(dòng)作后會(huì)轉(zhuǎn)移到一個(gè)新的狀態(tài)s′,同時(shí)反饋給智能體一個(gè)獎(jiǎng)勵(lì)r=R(s,a,s′),智能體再次對(duì)環(huán)境進(jìn)行觀測(cè)執(zhí)行動(dòng)作,直到到達(dá)終止?fàn)顟B(tài).智能體和環(huán)境進(jìn)行一次完整的交互,這個(gè)過(guò)程稱為一幕(Episode).記錄交互過(guò)程中的狀態(tài)動(dòng)作,以時(shí)間序列的形式保存,稱為軌跡(Trajectory),表示為

τ={s0,a0,……,st,at,st+1,at+1,…}.

一次交互過(guò)程結(jié)束時(shí)的累積獎(jiǎng)勵(lì)記為

圖1 無(wú)模型強(qiáng)化學(xué)習(xí)Fig.1 Model-free reinforcement learning

累積獎(jiǎng)勵(lì)中折扣因子γ的存在降低未來(lái)回報(bào)對(duì)當(dāng)前的影響.強(qiáng)化學(xué)習(xí)的最終目標(biāo)是最大化累積獎(jiǎng)勵(lì).強(qiáng)化學(xué)習(xí)過(guò)程中智能體通過(guò)策略和環(huán)境交互,策略是狀態(tài)到動(dòng)作的映射,可分為隨機(jī)策略和確定性策略.隨機(jī)策略會(huì)輸出一個(gè)動(dòng)作的分布

a=π(·|s),

而確定性策略會(huì)輸出一個(gè)確定性的動(dòng)作a=π(s).

為了優(yōu)化策略,需要評(píng)價(jià)策略的好壞,直觀方法是對(duì)比不同策略在某一特定狀態(tài)下的累計(jì)獎(jiǎng)勵(lì).在隨機(jī)策略π下,計(jì)算累積獎(jiǎng)勵(lì)Gt會(huì)有多個(gè)可能值,無(wú)法進(jìn)行對(duì)比,但可對(duì)Gt求期望,進(jìn)行對(duì)比.因此定義累積獎(jiǎng)勵(lì)在狀態(tài)s處的期望為狀態(tài)值函數(shù)(Value Function),簡(jiǎn)稱值函數(shù),記為

Vπ(s)=E[Gt|st=s].

在某一狀態(tài)s處,選擇不同的動(dòng)作a會(huì)導(dǎo)致不同的累積獎(jiǎng)勵(lì).定義在狀態(tài)s處選擇動(dòng)作a的累積獎(jiǎng)勵(lì)的期望為狀態(tài)-動(dòng)作值函數(shù)(QFunction),簡(jiǎn)稱Q值函數(shù),記為

Qπ(s,a)=E[Gt|st=s,at=a].

值函數(shù)和Q值函數(shù)關(guān)系如下[8]:

在強(qiáng)化學(xué)習(xí)問(wèn)題中,策略與值函數(shù)一一對(duì)應(yīng),最優(yōu)策略對(duì)應(yīng)的值函數(shù)稱為最優(yōu)值函數(shù).可證明,最優(yōu)策略與最優(yōu)值函數(shù)具有等價(jià)性,該最優(yōu)值函數(shù)滿足貝爾曼最優(yōu)性原理[2]:

通常情況下,可通過(guò)迭代解法近似求解最優(yōu)值函數(shù)[2].求出最優(yōu)值函數(shù)后,可根據(jù)最優(yōu)值函數(shù)與最優(yōu)策略的關(guān)系進(jìn)一步導(dǎo)出最優(yōu)策略:

2.2 基于模型的強(qiáng)化學(xué)習(xí)

無(wú)模型強(qiáng)化學(xué)習(xí)和基于模型的強(qiáng)化學(xué)習(xí)的主要區(qū)別是機(jī)器人決策過(guò)程中是否需要環(huán)境的動(dòng)力學(xué)模型.無(wú)模型的強(qiáng)化學(xué)習(xí)方法中,機(jī)器人無(wú)法知道環(huán)境模型,只能通過(guò)不斷與環(huán)境交互,收集樣本,優(yōu)化策略以學(xué)習(xí).基于模型的強(qiáng)化學(xué)習(xí)會(huì)學(xué)習(xí)一個(gè)環(huán)境模型,并基于此模型進(jìn)行策略優(yōu)化或規(guī)劃.基于模型的強(qiáng)化學(xué)習(xí)可定義為:基于一個(gè)已知或習(xí)得的模型,學(xué)習(xí)近似一個(gè)全局值函數(shù)或策略以求解MDP[9],過(guò)程如圖2所示.

圖2 基于模型的強(qiáng)化學(xué)習(xí)Fig.2 Model-based reinforcement learning

根據(jù)這個(gè)定義中的2個(gè)關(guān)鍵點(diǎn)——模型學(xué)習(xí)和策略優(yōu)化,可以將基于模型的強(qiáng)化學(xué)習(xí)劃分為3類(lèi)[9].

1)模型已知,只需要通過(guò)規(guī)劃學(xué)習(xí)一個(gè)全局值函數(shù)或策略.

2)模型未知,需要學(xué)習(xí)模型,基于模型進(jìn)行規(guī)劃而不需要學(xué)習(xí)全局值函數(shù)或策略.

3)模型未知,需要同時(shí)學(xué)習(xí)模型和全局值函數(shù)或策略.

在機(jī)器人操作領(lǐng)域,大多時(shí)候無(wú)法直接得到環(huán)境模型,因此第1類(lèi)基于模型的強(qiáng)化學(xué)習(xí)方法應(yīng)用較少.對(duì)于一些棋牌游戲,規(guī)則是人類(lèi)事先設(shè)定,可直接得到模型,如用于圍棋的AlphaGo Zero[10].第2類(lèi)方法和第3類(lèi)方法都需要學(xué)習(xí)環(huán)境模型,在機(jī)器人操作領(lǐng)域應(yīng)用較多.本文涉及的方法以第2類(lèi)和第3類(lèi)為主.

3 學(xué)習(xí)環(huán)境的動(dòng)力學(xué)模型

3.1 模型學(xué)習(xí)概要

基于模型的強(qiáng)化學(xué)習(xí),學(xué)習(xí)環(huán)境的動(dòng)力學(xué)模型是算法中不可或缺的一步.本文將動(dòng)力學(xué)模型分為3類(lèi):1)前向動(dòng)力學(xué)模型,2)逆向動(dòng)力學(xué)模型,3)隱式模型.具體如圖3所示.

圖3 動(dòng)力學(xué)模型分類(lèi)Fig.3 Dynamics model taxonomy

前向動(dòng)力學(xué)模型根據(jù)當(dāng)前時(shí)刻狀態(tài)和當(dāng)前動(dòng)作預(yù)測(cè)下一時(shí)刻的狀態(tài),即(st,at) →st+1,這是目前應(yīng)用最廣的動(dòng)力學(xué)模型.逆向動(dòng)力學(xué)模型通過(guò)當(dāng)前時(shí)刻狀態(tài)和下一時(shí)刻狀態(tài)推斷當(dāng)前時(shí)刻應(yīng)采用的動(dòng)作,即(st,st+1) →at,這種模型大多應(yīng)用在基于圖像為輸入的任務(wù)上.隱式模型不關(guān)注對(duì)下一時(shí)刻狀態(tài)的精確預(yù)測(cè).

模型的學(xué)習(xí)主要有參數(shù)化方法和非參數(shù)化方法兩種.參數(shù)化方法是當(dāng)前通用的模型近似方法,最基本的形式是表格模型,但僅能應(yīng)用于離散狀態(tài)空間,在早期的強(qiáng)化學(xué)習(xí)方法[11-12]中較常見(jiàn),應(yīng)用受限,泛化性較差.機(jī)器人操作任務(wù)的狀態(tài)空間和動(dòng)作空間通常都是連續(xù)的,例如,狀態(tài)可以是物體的連續(xù)位姿、機(jī)械臂的關(guān)節(jié)位置,動(dòng)作是機(jī)械臂各關(guān)節(jié)的扭矩.因此環(huán)境模型也均為連續(xù)模型,故本文不再討論表格模型.參數(shù)化方法另一形式是函數(shù)近似,通過(guò)擬合一個(gè)函數(shù)以描述系統(tǒng)動(dòng)力學(xué)模型.近似方法有多種,如線性回歸[13-14]、動(dòng)態(tài)貝葉斯回歸(Dynamic Bayesian Networks, DBN)[15]、最近鄰[16]、隨機(jī)森林[17]、支持向量回歸[18]和神經(jīng)網(wǎng)絡(luò)[19-20].隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已變?yōu)槟P蛯W(xué)習(xí)中最廣泛的方法.深度神經(jīng)網(wǎng)絡(luò)具有較優(yōu)的特征提取能力和良好的非線性函數(shù)逼近能力,能擴(kuò)展到高維圖像輸入,契合機(jī)器人學(xué)習(xí)問(wèn)題.

非參數(shù)化的方法主要有高斯過(guò)程(Gaussian Processes)[21]和局部加權(quán)回歸(Locally Weighted Regression)[22].這類(lèi)模型雖然泛化性能有限,但樣本效率較高.此外,高斯過(guò)程還可用于描述模型中的不確定性.由于非參數(shù)化方法的計(jì)算復(fù)雜度取決于樣本數(shù)據(jù)集的大小,導(dǎo)致其難以擴(kuò)展到高維問(wèn)題.從某種意義上說(shuō),用于存放經(jīng)驗(yàn)樣本的重放緩沖區(qū)(Replay Buffer)[23]也算是一種非參數(shù)化的模型.van Hasselt等[24]討論重放緩沖區(qū)和參數(shù)化模型的區(qū)別,并說(shuō)明參數(shù)化模型在強(qiáng)化學(xué)習(xí)中的應(yīng)用時(shí)機(jī).

動(dòng)力學(xué)模型還可分為全局模型和局部模型.全局模型近似整個(gè)狀態(tài)空間,學(xué)習(xí)到的模型對(duì)整個(gè)狀態(tài)空間都是有效的.而局部模型只對(duì)動(dòng)力學(xué)模型進(jìn)行局部近似,圍繞局部模型進(jìn)行規(guī)劃.局部模型的優(yōu)點(diǎn)是在近似環(huán)境時(shí)可選擇簡(jiǎn)單函數(shù),如線性函數(shù),從而可配合某些特定的規(guī)劃算法.

此外,對(duì)于某些基于強(qiáng)化學(xué)習(xí)的算法來(lái)說(shuō),還需要學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)模型.例如,利用潛在動(dòng)力學(xué)模型進(jìn)行策略學(xué)習(xí)過(guò)程依賴于定義在潛在空間上的獎(jiǎng)勵(lì)函數(shù).

3.2 前向動(dòng)力學(xué)模型

3.2.1 普通前向動(dòng)力學(xué)模型

本節(jié)描述的普通前向動(dòng)力學(xué)模型是指環(huán)境模型中的狀態(tài)可表示為低維向量的前向動(dòng)力學(xué)模型,即輸入當(dāng)前狀態(tài)和動(dòng)作得到下一時(shí)刻的狀態(tài),一般形式是一個(gè)確定性函數(shù)f(st,at)=st+1或一個(gè)隨機(jī)分布

f(st,at)=P(st+1|st,at),

結(jié)構(gòu)如圖4所示.

圖4 前向動(dòng)力學(xué)模型結(jié)構(gòu)圖Fig.4 Structure of forward dynamics model

模型的學(xué)習(xí)一般通過(guò)監(jiān)督學(xué)習(xí)的方式進(jìn)行.給定當(dāng)前狀態(tài),機(jī)器人執(zhí)行一個(gè)動(dòng)作和環(huán)境交互,到達(dá)下一個(gè)狀態(tài),從而得到一組數(shù)據(jù)樣本{st,at,st+1}.收集足夠樣本后,可用監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)模型.在基于模型的強(qiáng)化學(xué)習(xí)算法中,模型的學(xué)習(xí)和策略的優(yōu)化通常迭代進(jìn)行,先通過(guò)監(jiān)督學(xué)習(xí)學(xué)到一個(gè)模型,基于此模型進(jìn)行策略優(yōu)化,然后用新策略和環(huán)境交互得到數(shù)據(jù),再學(xué)一個(gè)更精確的模型,如此迭代進(jìn)行.

學(xué)習(xí)到的動(dòng)力學(xué)模型會(huì)存在不確定性.不確定性可分為2種:1)固有的隨機(jī)性,也稱為任意不確定性(Aleatoric Uncertainty),2)認(rèn)知不確定性(Epistemic Uncertainty)[25].固有的隨機(jī)性是指模型在預(yù)測(cè)下一步狀態(tài)時(shí),會(huì)有一個(gè)自帶的隨機(jī)性.例如,擲一個(gè)骰子,落下時(shí)朝上的一面是隨機(jī)的.認(rèn)知不確定性是指因?yàn)閿?shù)據(jù)樣本不可能完全覆蓋整個(gè)狀態(tài)空間,所以模型在狀態(tài)空間的某些區(qū)域必定是不準(zhǔn)確的.

隨機(jī)性在機(jī)器人操作任務(wù)中很常見(jiàn)[22,26],通常使用概率模型捕捉噪聲并近似估計(jì)下一時(shí)刻狀態(tài)的分布.例如,在均方誤差損失上訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)f(st,at)時(shí),實(shí)際上該神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)輸出下一時(shí)刻狀態(tài)的均值和方差[27],通常使用這個(gè)均值和方差組成高斯分布,在分布中采樣得到下一時(shí)刻的狀態(tài).

模型的認(rèn)知不確定性不同于隨機(jī)性.隨機(jī)性源于事物本身,無(wú)法減少.而認(rèn)知不確定性源于數(shù)據(jù)不足,理論上可通過(guò)增加樣本數(shù)據(jù)以減小.在解決認(rèn)知不確定性上較成功的方法是非參數(shù)的貝葉斯方法.貝葉斯方法建立概率動(dòng)力學(xué)模型,捕捉模型預(yù)測(cè)中的不確定性[21,28].基于核的高斯過(guò)程是目前學(xué)習(xí)動(dòng)力學(xué)模型通用的貝葉斯方法之一[21,29].Deisenroth等[30]提出PILCO (Probabilistic Inference for Learning Control),使用高斯過(guò)程對(duì)環(huán)境動(dòng)力學(xué)進(jìn)行建模,得到概率動(dòng)力學(xué)模型,可表達(dá)學(xué)習(xí)到的動(dòng)力學(xué)模型的不確定性,并將模型不確定性集成到長(zhǎng)期的規(guī)劃和決策中.高斯過(guò)程存在的問(wèn)題是難以擴(kuò)展到高維情況.Gal等[31]使用貝葉斯網(wǎng)絡(luò)代替高斯回歸模型,成功將PILCO擴(kuò)展到高維系統(tǒng)中.

在神經(jīng)網(wǎng)絡(luò)中解決認(rèn)知不確定性的典型方法如下.Kurutach等[32]提出模型集成(Model-Ensemble)方法,使用相同真實(shí)世界中的樣本數(shù)據(jù)擬合一組動(dòng)力學(xué)模型集合{fφ1,fφ2,…,fφk}.這些模型的不同僅在于初始權(quán)重不同及訓(xùn)練時(shí)從真實(shí)世界中抽取樣本的抽取小批量(Mini-batches)樣本的順序不同.此外在策略優(yōu)化的過(guò)程中隨機(jī)選擇一個(gè)模型預(yù)測(cè)給定當(dāng)前狀態(tài)和動(dòng)作的下一個(gè)狀態(tài).模型集成的方法減小不確定性,使學(xué)習(xí)的過(guò)程更穩(wěn)定,簡(jiǎn)單靈活,在基于模型的強(qiáng)化學(xué)習(xí)中被廣泛應(yīng)用.模型不確定性目前仍是基于模型的強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的熱點(diǎn)問(wèn)題之一.

學(xué)習(xí)到環(huán)境模型之后,可進(jìn)行規(guī)劃.規(guī)劃過(guò)程會(huì)得到一條決策序列.上述涉及的均是單步預(yù)測(cè)模型,在規(guī)劃過(guò)程中反復(fù)利用模型進(jìn)行單步預(yù)測(cè),但是由于存在隨機(jī)性和不確定性,學(xué)到的模型中會(huì)存在誤差.而在多次單步預(yù)測(cè)過(guò)程中,會(huì)累積模型誤差,從而導(dǎo)致序列與真實(shí)情況相背離.這一問(wèn)題廣泛存在于基于模型的強(qiáng)化學(xué)習(xí)中[33-34].

如何獲得更好的多步預(yù)測(cè),目前主要有2種方法.1)改進(jìn)損失函數(shù).Abbeel等[35]提出在模型的訓(xùn)練過(guò)程中包括多步的預(yù)測(cè)損失.通過(guò)最大似然法得到模型網(wǎng)絡(luò)參數(shù):

模型仍然是單步預(yù)測(cè),但是不同于預(yù)測(cè)下一時(shí)刻狀態(tài)的普通模型,該模型的損失函數(shù)中包括多步之后的預(yù)測(cè)損失.

2)Asadi等[36]提出學(xué)習(xí)一個(gè)預(yù)測(cè)n步的動(dòng)力學(xué)模型.模型可表示為

Tn(s,s′,π)=Pr(st+n=s′|st=s,π),

即基于當(dāng)前時(shí)刻的狀態(tài)和未來(lái)的動(dòng)作序列預(yù)測(cè)當(dāng)前時(shí)刻之后第n步的狀態(tài)分布.通過(guò)實(shí)驗(yàn)說(shuō)明此模型長(zhǎng)期預(yù)測(cè)的累積誤差小于單步預(yù)測(cè)模型.相比預(yù)測(cè)n步的動(dòng)力學(xué)模型,Mishra等[37]進(jìn)一步提出預(yù)測(cè)整個(gè)序列的模型.對(duì)于多步預(yù)測(cè)的模型,如何更好地衡量模型性能也是一個(gè)問(wèn)題.

利用環(huán)境動(dòng)力學(xué)模型可大幅提高強(qiáng)化學(xué)習(xí)的樣本效率,但模型誤差會(huì)降低基于模型的強(qiáng)化學(xué)習(xí)的性能,因此學(xué)習(xí)模型時(shí)如何降低模型的不確定性及控制模型誤差是當(dāng)前的主要挑戰(zhàn).

3.2.2 基于圖像的動(dòng)力學(xué)模型

本節(jié)討論基于圖像的動(dòng)力學(xué)模型的學(xué)習(xí).人類(lèi)感知環(huán)境最基本的方式是視覺(jué).類(lèi)似于人類(lèi),機(jī)器人也可通過(guò)攝像頭感知環(huán)境.此時(shí)機(jī)器人能接收到的原始狀態(tài)就是攝像頭傳遞的圖像輸入,通常稱為觀測(cè)(Observation).相比普通狀態(tài),圖像輸入的顯著特點(diǎn)就是維度變大.普通低維狀態(tài)可能從幾維到幾十維,而以一幅64×64的RGB圖像作為狀態(tài),維度高達(dá)12 288維.高維的難點(diǎn)在于:1)維度增加,計(jì)算量也會(huì)大幅增加,即維度詛咒;2)高維圖像輸入中有許多冗余信息,影響機(jī)器人的學(xué)習(xí).

高維圖像的動(dòng)力學(xué)模型幾乎只能靠深度神經(jīng)網(wǎng)絡(luò)完成.Levine等[4]實(shí)現(xiàn)端到端的機(jī)器人操作,輸入圖像,輸出動(dòng)作.經(jīng)過(guò)巧妙推導(dǎo),得出不需要學(xué)習(xí)一個(gè)圖像轉(zhuǎn)移模型,而是需要學(xué)習(xí)一個(gè)狀態(tài)轉(zhuǎn)移模型p(xt+1|xt,ut) 和一個(gè)觀測(cè)分布p(ot|xt)的結(jié)論,并且只在訓(xùn)練中需要觀測(cè)分布,在測(cè)試時(shí)不需要.雖然實(shí)現(xiàn)策略以圖像輸入作為狀態(tài)產(chǎn)生動(dòng)作,但是算法訓(xùn)練過(guò)程仍需要知道系統(tǒng)的狀態(tài)xt,狀態(tài)不僅需要包含機(jī)器人本身的信息,還需要知道物體的位置信息等.

Finn等[38]真正提出可應(yīng)用于機(jī)器人的基于圖像的環(huán)境動(dòng)力學(xué)模型,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM),可預(yù)測(cè)從當(dāng)前幀到下一幀的隨機(jī)像素流變換(Pixel Flow Transformation),可在先前幀直接獲取圖像的背景信息,合并兩者,能更好地預(yù)測(cè)未來(lái)多步視頻序列.該模型真正實(shí)現(xiàn)輸入機(jī)器人狀態(tài)、動(dòng)作和圖像,輸出下一幀圖像,而不需要標(biāo)簽物體的信息.此后,F(xiàn)inn等[39]進(jìn)一步將該模型結(jié)合規(guī)劃算法,真正應(yīng)用在機(jī)器人控制上.

Ebert等[40]基于Finn等的工作進(jìn)一步改進(jìn)模型,提出SNA(Skip Connection Neural Advection Model).SNA可使用時(shí)間上的跳躍連接處理遮擋問(wèn)題,當(dāng)一個(gè)像素被機(jī)器人手臂或其它物體遮擋時(shí),仍可在序列的后面重新出現(xiàn).

基于圖像的動(dòng)力學(xué)模型還存在部分可觀測(cè)的(Partial Observability)問(wèn)題.當(dāng)觀測(cè)(Observation)不能提供關(guān)于MDP真實(shí)狀態(tài)的所有信息時(shí),MDP會(huì)產(chǎn)生部分可觀測(cè)性.圖像觀測(cè)多數(shù)時(shí)無(wú)法反映真實(shí)狀態(tài)的所有信息,如環(huán)境中有遮擋,無(wú)法知道遮擋后的物體信息.Levine等[4]的方法需要知道真實(shí)的狀態(tài)信息,因此規(guī)避部分可觀測(cè)性.部分可觀測(cè)性源于當(dāng)前觀測(cè)中信息的缺乏,但可通過(guò)納入以前的觀測(cè)信息以部分緩解,因此Finn和Ebert等提出的基于圖像的環(huán)境動(dòng)力學(xué)模型都使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)或LSTM,以此緩解部分可觀測(cè)帶來(lái)的問(wèn)題.

對(duì)于部分可觀測(cè)性還可通過(guò)串聯(lián)n個(gè)觀測(cè),作為一個(gè)狀態(tài)來(lái)處理.這在以圖像為輸入的強(qiáng)化學(xué)習(xí)中較常見(jiàn),DQN(DeepQ-Network)及其衍生系列算法[41-48]就使用這種方法.

3.2.3 潛在動(dòng)力學(xué)模型

基于圖像的動(dòng)力學(xué)模型的缺點(diǎn)在于需要重構(gòu)圖像,即使訓(xùn)練好模型,測(cè)試時(shí)也需要重構(gòu)圖像,耗費(fèi)算力.因此研究者們提出使用表示學(xué)習(xí)(Representation Learning)結(jié)合潛在的動(dòng)力學(xué)模型(Latent Dynamics Model)緩解此問(wèn)題.表示學(xué)習(xí)主要用于降維,本身也是機(jī)器學(xué)習(xí)一個(gè)重要研究領(lǐng)域.

一個(gè)潛在動(dòng)力學(xué)模型可分為3部分:1)編碼器(Encoder)zt=fφ(ot),將觀測(cè)結(jié)果ot映射到潛在狀態(tài)(Latent State)zt上;2)潛在狀態(tài)轉(zhuǎn)移函數(shù)zt+1=fθ(zt,at),根據(jù)當(dāng)前潛在狀態(tài)和動(dòng)作計(jì)算得到下一個(gè)潛在狀態(tài);3)解碼器(Decoder)ot+1=fψ(zt+1),將潛在狀態(tài)重新映射回觀測(cè).編碼器、轉(zhuǎn)移函數(shù)和解碼器均為深度神經(jīng)網(wǎng)絡(luò),φ、θ、ψ為對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù).

潛在動(dòng)力學(xué)模型的重點(diǎn)如下:1)要學(xué)到一個(gè)足夠好的緊湊表示;2)潛在轉(zhuǎn)移函數(shù)能確保進(jìn)行規(guī)劃.

當(dāng)前強(qiáng)化學(xué)習(xí)中較優(yōu)的表示學(xué)習(xí)方法是深度神經(jīng)網(wǎng)絡(luò),其中生成模型,如變分自編碼器(Variational Auto-Encoder, VAE)[49],應(yīng)用尤為廣泛.VAE通過(guò)最大化條件觀測(cè)p(ot|zt) 的似然函數(shù)進(jìn)行學(xué)習(xí)表示,即需要從潛在狀態(tài)對(duì)觀測(cè)進(jìn)行像素級(jí)的重構(gòu).許多基于模型的強(qiáng)化學(xué)習(xí)工作[50-52]在學(xué)習(xí)表示時(shí)都采用VAE.

學(xué)到足夠好的緊湊表示,意味著潛在狀態(tài)能盡可能多地編碼觀測(cè)中的有用信息.通過(guò)標(biāo)準(zhǔn)VAE學(xué)習(xí)表示需要進(jìn)行像素級(jí)重構(gòu),這表明其潛在狀態(tài)含有與任務(wù)無(wú)關(guān)的信息,不夠緊湊.目前有如下2種思路幫助學(xué)習(xí)緊湊的表示.1)加入先驗(yàn)知識(shí),學(xué)到一個(gè)緊湊表示.Diuk等[53]提出OO-MDPs(Object-Oriented MDPs),旨在學(xué)習(xí)到場(chǎng)景中的物體及其交互.這類(lèi)方法的難點(diǎn)在于如何加入先驗(yàn)知識(shí),一種方法是通過(guò)使用明確的物體識(shí)別器.例如,F(xiàn)ragkiadaki等[54]結(jié)合物體識(shí)別器學(xué)習(xí)場(chǎng)景中物體運(yùn)動(dòng)的規(guī)律以泛化到稍有不同的其它環(huán)境,Kansky等[55]結(jié)合物體識(shí)別器,試圖描述物體的局部因果關(guān)系并結(jié)合到規(guī)劃中.另一種方法是將先驗(yàn)知識(shí)嵌入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中.在圖神經(jīng)網(wǎng)絡(luò)的一些研究中[56-57],圖的節(jié)點(diǎn)對(duì)應(yīng)物體,邊對(duì)應(yīng)物體的關(guān)系,物體間的相互作用通過(guò)圖神經(jīng)網(wǎng)絡(luò)建模.Kipf等[58]提出C-SWMs(Contrastively Trained Structured World Models),通過(guò)圖神經(jīng)網(wǎng)絡(luò)對(duì)物體的關(guān)系進(jìn)行建模,并利用對(duì)比學(xué)習(xí)的損失函數(shù)進(jìn)行訓(xùn)練.Watters等[59]采用MONet(Multi-object Network)[60]學(xué)習(xí)場(chǎng)景的表示,MONet是一個(gè)自動(dòng)回歸的VAE,可在無(wú)監(jiān)督的情況下學(xué)習(xí)將場(chǎng)景分解為實(shí)體,用于學(xué)習(xí)更有效的表示.Veerapaneni等[61]提出OP3(Object-Centric Perception, Prediction, and Planning)框架,試圖讓機(jī)器人理解什么是對(duì)象.引入的先驗(yàn)知識(shí)為場(chǎng)景中的物體遵循相同的物理規(guī)律,故場(chǎng)景建??赊D(zhuǎn)為對(duì)物體和決定物體間交互的局部物理過(guò)程的建模,使用一個(gè)以物體為中心的函數(shù)(Entity-Centric Function)建模,再將此函數(shù)應(yīng)用于場(chǎng)景中的每個(gè)物體,簡(jiǎn)化多物體動(dòng)態(tài)場(chǎng)景.因此OP3可將潛在狀態(tài)分解為局部物體狀態(tài),每個(gè)局部狀態(tài)均可通過(guò)相同的函數(shù)進(jìn)行處理.

2)改進(jìn)損失函數(shù)以學(xué)習(xí)緊湊表示.典型的做法是結(jié)合對(duì)比學(xué)習(xí)(Contrastive Learning)的思想構(gòu)造對(duì)比損失.Ma等[62]結(jié)合對(duì)比學(xué)習(xí),在標(biāo)準(zhǔn)VAE中使用對(duì)比損失替換觀測(cè)重構(gòu)項(xiàng)p(ot|zt),學(xué)習(xí)一個(gè)緊湊表示.Sermanet等[63]構(gòu)造專家樣本時(shí)從不同視角記錄相同的動(dòng)作序列,構(gòu)造對(duì)比損失函數(shù)強(qiáng)制同一狀態(tài)不同視角在潛在空間中相互接近,以此學(xué)習(xí)好的表示.Ghosh 等[64]構(gòu)造基于兩個(gè)狀態(tài)之間相互抵達(dá)所需動(dòng)作次數(shù)的損失,使通過(guò)較少次數(shù)動(dòng)作就可相互抵達(dá)的狀態(tài)對(duì)在表示空間中也較接近.由此學(xué)得的緊湊表示更有利于規(guī)劃.改進(jìn)損失函數(shù)也可和先驗(yàn)知識(shí)結(jié)合,即通過(guò)改進(jìn)損失函數(shù)體現(xiàn)先驗(yàn)知識(shí).Jonschkowski等[65]將物理學(xué)規(guī)律作為先驗(yàn)知識(shí),通過(guò)改進(jìn)損失函數(shù)將其引入以學(xué)習(xí)緊湊表示.Kipf等[58]的方法也可看作引入先驗(yàn)知識(shí)和改進(jìn)損失函數(shù)兩者的結(jié)合.

潛在狀態(tài)轉(zhuǎn)移函數(shù)能確保進(jìn)行規(guī)劃意味著要保證轉(zhuǎn)移函數(shù)預(yù)測(cè)的下個(gè)潛在狀態(tài)與編碼的當(dāng)前觀測(cè)的潛在狀態(tài)在同個(gè)嵌入空間.通常做法是增加一個(gè)損失函數(shù),強(qiáng)制轉(zhuǎn)移函數(shù)預(yù)測(cè)的下個(gè)潛在狀態(tài)接近下一時(shí)刻真實(shí)觀測(cè)通過(guò)編碼器得到的潛在狀態(tài)[50].此外,有時(shí)還可對(duì)潛在狀態(tài)轉(zhuǎn)移函數(shù)進(jìn)行一些額外限制,以配合特定的規(guī)劃算法.例如,線性二次調(diào)節(jié)器(Linear Quadratic Regulator, LQR)適用于線性動(dòng)力學(xué)函數(shù),因此在一些工作[50-51]中,研究者將其潛在狀態(tài)轉(zhuǎn)移函數(shù)進(jìn)行局部線性化,可應(yīng)用線性二次調(diào)節(jié)器進(jìn)行規(guī)劃.

潛在動(dòng)力學(xué)模型的研究重點(diǎn)還是在表示學(xué)習(xí)上,一個(gè)好的表示能提升算法學(xué)習(xí)與性能.目前許多工作都集中在確保潛在狀態(tài)盡可能多地蘊(yùn)含有用信息,然而一個(gè)好的表示也需要盡可能剔除無(wú)關(guān)信息.如何引入先驗(yàn)知識(shí),使表示中更多地蘊(yùn)含有用信息同時(shí)剔除無(wú)關(guān)信息是一個(gè)值得研究的問(wèn)題.

3.3 逆向動(dòng)力學(xué)模型

與前向的潛在動(dòng)力學(xué)模型類(lèi)似,逆向動(dòng)力學(xué)模型在強(qiáng)化學(xué)習(xí)中通常也是和表示學(xué)習(xí)結(jié)合,即通過(guò)編碼器將觀測(cè)ot映射到潛在狀態(tài)st上,再通過(guò)前后兩個(gè)時(shí)刻的潛在狀態(tài)預(yù)測(cè)當(dāng)前時(shí)刻應(yīng)采取的動(dòng)作:(st,st+1) →at,結(jié)構(gòu)如圖5所示.逆向動(dòng)力學(xué)模型的引出是因?yàn)樵跔顟B(tài)表征復(fù)雜、前向動(dòng)力學(xué)模型學(xué)習(xí)困難的任務(wù)中,逆向動(dòng)力學(xué)結(jié)合某些先驗(yàn)知識(shí)效果更優(yōu),同時(shí)輸出動(dòng)作可作為監(jiān)督信息.

圖5 逆向動(dòng)力學(xué)模型結(jié)構(gòu)圖Fig.5 Structure of inverse dynamics model

Pathak等[66]提出 ICM(Intrinsic Curiosity Module),集成逆向模型和前向模型.作者認(rèn)為使用逆向模型可學(xué)習(xí)到有用的信息,忽視無(wú)關(guān)信息,由此學(xué)到一個(gè)好的表示.Agrawal等[67]聯(lián)合訓(xùn)練前向模型和逆向模型,在聯(lián)合訓(xùn)練中,逆向模型將觀測(cè)編碼為潛在狀態(tài),可為前向模型預(yù)測(cè)的潛在狀態(tài)提供監(jiān)督,實(shí)踐中聯(lián)合損失由逆向模型損失與前向模型損失之和構(gòu)成.

Shelhamer等[68]將逆向動(dòng)力學(xué)作為輔助的損失函數(shù).初衷是為了增加獎(jiǎng)勵(lì),對(duì)于強(qiáng)化學(xué)習(xí)任務(wù),獎(jiǎng)勵(lì)稀疏意味著缺乏監(jiān)督,逆向模型可從相鄰狀態(tài)預(yù)測(cè)動(dòng)作.作者指出此動(dòng)作和與環(huán)境交互的動(dòng)作的誤差可起到自監(jiān)督的作用.Zhang等[69]將表示學(xué)習(xí)、獎(jiǎng)勵(lì)函數(shù)、前向動(dòng)力學(xué)模型和逆向動(dòng)力學(xué)模型進(jìn)行解耦,并指出逆向模型在穩(wěn)定學(xué)習(xí)方面具有重要作用.

其它一些工作[70-72]試圖利用逆向動(dòng)力學(xué)學(xué)習(xí)環(huán)境中可控制的部分.逆向動(dòng)力學(xué)模型在應(yīng)用中通常是針對(duì)狀態(tài)表征復(fù)雜、前向動(dòng)力學(xué)模型學(xué)習(xí)困難的特殊任務(wù),和表示學(xué)習(xí)結(jié)合后形成逆向的潛在動(dòng)力學(xué)模型.主要挑戰(zhàn)是如何將逆向和先驗(yàn)知識(shí)有機(jī)結(jié)合,學(xué)到更好的表示.

3.4 隱式模型

一般的前向動(dòng)力學(xué)模型通過(guò)當(dāng)前狀態(tài)和動(dòng)作預(yù)測(cè)環(huán)境的下一時(shí)刻狀態(tài),這是典型的顯式模型.強(qiáng)化學(xué)習(xí)的最終目的是找到針對(duì)特定任務(wù)的最優(yōu)策略.因此真正值得關(guān)心的并非狀態(tài),而是最優(yōu)價(jià)值或最優(yōu)策略.隱式模型通過(guò)學(xué)習(xí)其它函數(shù),可達(dá)到與顯式模型相同的效果.相比顯式模型,隱式模型不關(guān)注下一時(shí)刻狀態(tài)的精確預(yù)測(cè).

Grimm等[73-74]提出價(jià)值等價(jià)模型(Value Equivalent Models),指出如果一個(gè)模型能預(yù)測(cè)價(jià)值,則狀態(tài)信息就不再重要,并說(shuō)明在相同的貝爾曼算子下,兩個(gè)模型對(duì)一組函數(shù)和一組策略能產(chǎn)生相同的更新,則這兩個(gè)模型是價(jià)值等價(jià)的.Farquhar等[75]進(jìn)一步提出自洽的價(jià)值等價(jià)模型.應(yīng)用價(jià)值等價(jià)模型的典型例子是MuZero[76].MuZero訓(xùn)練模型時(shí)從重放緩存區(qū)(Replay Buffer)中選擇一條軌跡,輸入第一個(gè)狀態(tài)和整個(gè)動(dòng)作序列,將模型展開(kāi)K步,其中展開(kāi)的每步動(dòng)作都是動(dòng)作序列中的真實(shí)動(dòng)作,預(yù)測(cè)獎(jiǎng)勵(lì)值、價(jià)值和策略.聯(lián)合損失函數(shù)表示如下:

價(jià)值等價(jià)模型更早要追溯到Silver等[77]工作.他們的工作與MuZero不同之處在于只接收一個(gè)狀態(tài)作為輸入而不需要?jiǎng)幼餍蛄?,展開(kāi)模型只預(yù)測(cè)該狀態(tài)的價(jià)值.價(jià)值預(yù)測(cè)網(wǎng)絡(luò)(Value Prediction Network, VPN)[78]與MuZero類(lèi)似,但預(yù)測(cè)獎(jiǎng)勵(lì)、價(jià)值和折扣因子.價(jià)值等價(jià)模型經(jīng)常也和表示學(xué)習(xí)結(jié)合,從某種意義上說(shuō),可作為一種先驗(yàn)知識(shí)以輔助學(xué)習(xí)緊湊表示.

隱式模型也存在著一些問(wèn)題.以價(jià)值等價(jià)模型為例,學(xué)到的預(yù)測(cè)都集中在價(jià)值和獎(jiǎng)勵(lì)信息上.而這些信息來(lái)源于獎(jiǎng)勵(lì)這一簡(jiǎn)單的標(biāo)量信息,因此可能會(huì)遺漏環(huán)境的一些相關(guān)信息.此外,目前的隱式模型針對(duì)的環(huán)境動(dòng)作空間較簡(jiǎn)單,大都為離散動(dòng)作空間,因此在機(jī)器人領(lǐng)域應(yīng)用較少.

4 模型利用

學(xué)習(xí)到環(huán)境模型之后,下一步就是如何利用學(xué)到的模型.通常在基于模型的強(qiáng)化學(xué)習(xí)中,模型主要有3種用途:1)基于模型的規(guī)劃,對(duì)應(yīng)2.2節(jié)中的第2類(lèi)方法;2)基于模型的策略學(xué)習(xí),對(duì)應(yīng)2.2節(jié)中的第3類(lèi)方法;3)隱式規(guī)劃,這是一類(lèi)特殊的基于模型的強(qiáng)化學(xué)習(xí)方法,兼有前兩類(lèi)的一些特點(diǎn).

4.1 基于模型的規(guī)劃

學(xué)習(xí)到環(huán)境的動(dòng)力學(xué)模型后,可直接利用模型進(jìn)行規(guī)劃.強(qiáng)化學(xué)習(xí)可轉(zhuǎn)化成一個(gè)最優(yōu)控制問(wèn)題,通過(guò)規(guī)劃算法得到最優(yōu)策略,也可利用規(guī)劃算法產(chǎn)生較好的樣本輔助學(xué)習(xí).規(guī)劃算法種類(lèi)繁多,應(yīng)用廣泛,按照交互方式主要可分為2類(lèi):開(kāi)環(huán)規(guī)劃與閉環(huán)規(guī)劃.開(kāi)環(huán)規(guī)劃中環(huán)境給出初始狀態(tài)s0,機(jī)器人根據(jù)動(dòng)力學(xué)模型規(guī)劃一條完整的動(dòng)作序列,如圖6(a)所示.閉環(huán)規(guī)劃中環(huán)境給出一個(gè)狀態(tài),機(jī)器人根據(jù)動(dòng)力學(xué)模型進(jìn)行規(guī)劃,執(zhí)行規(guī)劃動(dòng)作,模型接收到機(jī)器人的動(dòng)作后再給出下一個(gè)狀態(tài),往復(fù)循環(huán),如圖6(b)所示.

(a)開(kāi)環(huán)規(guī)劃 (b)閉環(huán)規(guī)劃(a)Open-loop planning (b)Closed-loop planning圖6 規(guī)劃過(guò)程Fig.6 Planning process

由于隨機(jī)性和不確定性,模型會(huì)存在誤差,如果僅在得知初始狀態(tài)后進(jìn)行規(guī)劃,可能造成很大的累積誤差.這是開(kāi)環(huán)規(guī)劃本身存在的問(wèn)題.為了解決這個(gè)問(wèn)題,引出模型預(yù)測(cè)控制(Model Predictive Control, MPC).MPC并非一個(gè)固定算法,而是一個(gè)控制框架,可對(duì)其進(jìn)行很多擴(kuò)展.MPC的思想如下.在每次迭代中,第一步,在執(zhí)行某個(gè)動(dòng)作后,根據(jù)環(huán)境動(dòng)力學(xué)模型預(yù)測(cè)下一個(gè)狀態(tài).第二步,求解一個(gè)開(kāi)環(huán)優(yōu)化問(wèn)題,這一步可應(yīng)用某些具體的開(kāi)環(huán)規(guī)劃算法,如CEM.第三步,執(zhí)行第二步求解的第1個(gè)動(dòng)作,如此反復(fù)進(jìn)行.可看到,MPC是閉環(huán)控制框架,但在每次迭代中都會(huì)優(yōu)化一個(gè)開(kāi)環(huán)控制問(wèn)題.MPC在基于模型的強(qiáng)化學(xué)習(xí)中應(yīng)用廣泛,機(jī)器人操作[39,79]、自動(dòng)駕駛[80]、無(wú)人機(jī)[81]等均有應(yīng)用.CEM經(jīng)常作為MPC第二步的開(kāi)環(huán)規(guī)劃算法,典型算法有Visual MPC[39]、PlaNet(Deep Planning Network)[82].MPC計(jì)算量較大,收斂較慢,適合簡(jiǎn)單模型.

閉環(huán)規(guī)劃在強(qiáng)化學(xué)習(xí)中應(yīng)用最廣泛的是蒙特卡羅樹(shù)搜索(Monte Carlo Tree Search, MCTS)和線性二次調(diào)節(jié)器(Linear Quadratic Regulator, LQR).MCTS適用于離散動(dòng)作空間,核心搜索過(guò)程可分為四步.第一步,選擇.從已知的樹(shù)節(jié)點(diǎn)中根據(jù)UCT(Upper Confidence Bounds for Trees)值選擇最值得探索的節(jié)點(diǎn).第二步,擴(kuò)展.從這個(gè)節(jié)點(diǎn)選擇一個(gè)沒(méi)被執(zhí)行過(guò)的行動(dòng),執(zhí)行這個(gè)行動(dòng)得到下一個(gè)狀態(tài),然后根據(jù)這個(gè)狀態(tài)創(chuàng)建節(jié)點(diǎn).第三步,根據(jù)擴(kuò)展出的子節(jié)點(diǎn),利用學(xué)到的模型進(jìn)行模擬,直至結(jié)束產(chǎn)生結(jié)果.第四步,回傳信息.模擬結(jié)束后,將結(jié)果回傳給前面所有的父節(jié)點(diǎn),更新它們的估計(jì)值.UCT值的計(jì)算公式為

其中,Q(st)表示某個(gè)狀態(tài)的價(jià)值,N(st)表示對(duì)某個(gè)狀態(tài)的探索次數(shù),st-1表示st的上一個(gè)狀態(tài),即父節(jié)點(diǎn).上式平衡探索和利用,等號(hào)后的第1項(xiàng)可看作當(dāng)前狀態(tài)的平均價(jià)值,第2項(xiàng)衡量探索次數(shù).參數(shù)C調(diào)整探索和利用之間的權(quán)重關(guān)系.可看到,一個(gè)節(jié)點(diǎn)要被選中,必須是價(jià)值較大或探索次數(shù)較少.MCTS適用于離散動(dòng)作空間,在自動(dòng)駕駛和機(jī)器人上均有應(yīng)用[83-84].

LQR適用于連續(xù)動(dòng)作空間,源于控制論,但在控制領(lǐng)域的符號(hào)表示和強(qiáng)化學(xué)習(xí)有所不同.觀測(cè)狀態(tài)st→xt,動(dòng)作at→ut,獎(jiǎng)勵(lì)函數(shù)變?yōu)閾p失函數(shù)r(s,a)→c(x,u),最大化問(wèn)題轉(zhuǎn)為最小化問(wèn)題.

假設(shè)獎(jiǎng)勵(lì)函數(shù)r(st,at)為一個(gè)二次函數(shù),而狀態(tài)轉(zhuǎn)移函數(shù)f(st,at)為一個(gè)線形函數(shù),其優(yōu)化問(wèn)題形式為

LQR包含反向計(jì)算和前向計(jì)算,具體過(guò)程可參考最優(yōu)控制.標(biāo)準(zhǔn)LQR中模型是線性確定的.針對(duì)隨機(jī)模型,可將高斯分布應(yīng)用到狀態(tài)轉(zhuǎn)移函數(shù)中,從而引入隨機(jī)性.LQR擴(kuò)展的迭代線性二次調(diào)節(jié)器(Iterative LQR, iLQR)可應(yīng)用到非線性模型中.iLQR中的動(dòng)力學(xué)模型近似是一階近似,將其擴(kuò)展到二階,就是微分動(dòng)態(tài)規(guī)劃(Differential Dynamic Programming, DDP).LQR及其擴(kuò)展方法在基于模型的強(qiáng)化學(xué)習(xí)中應(yīng)用廣泛.LQR適用于誤差較小的模型,基于引導(dǎo)策略搜索(Guided Policy Search)的一類(lèi)算法[4,85-86]是應(yīng)用LQR系列規(guī)劃方法的典型代表.

MPC、CEM存在的問(wèn)題是計(jì)算量較大,收斂較慢.應(yīng)用MPC、CEM,每輸入一個(gè)狀態(tài),需再次規(guī)劃才能獲取輸出動(dòng)作,而一個(gè)訓(xùn)練好的策略直接將狀態(tài)映射為動(dòng)作,實(shí)際應(yīng)用中訓(xùn)練好的策略比規(guī)劃算法更快.LQR本身有敏感性的問(wèn)題,初始動(dòng)作中一點(diǎn)微小的改變會(huì)導(dǎo)致下游狀態(tài)變化很大,模型存在誤差時(shí),這一點(diǎn)尤為嚴(yán)重.因而引導(dǎo)策略搜索一類(lèi)算法[4,85-86]中利用iLQR/DDP產(chǎn)生好的樣本以引導(dǎo)策略學(xué)習(xí),最終仍會(huì)得到一個(gè)策略.

4.2 基于模型的策略學(xué)習(xí)

模型的另一種用法就是和無(wú)模型的強(qiáng)化學(xué)習(xí)算法結(jié)合,利用模型輔助無(wú)模型強(qiáng)化學(xué)習(xí)訓(xùn)練策略.可細(xì)分為2種:1)通過(guò)模型的預(yù)測(cè)能力生成虛擬訓(xùn)練數(shù)據(jù),如圖7(a)所示;2)利用模型的可微性實(shí)現(xiàn)模型學(xué)習(xí)梯度的端到端反向傳播,如圖7(b)所示.

(a)模型生成虛擬訓(xùn)練數(shù)據(jù)(a)Imaginary training data generated by model

(b)利用模型的可微性進(jìn)行端到端學(xué)習(xí)(b)End-to-end learning based on model differentiability圖7 基于模型的策略學(xué)習(xí)Fig.7 Model-based policy learning

4.2.1 基于模型的虛擬數(shù)據(jù)生成

這類(lèi)算法主要是將模型虛擬展開(kāi),生成數(shù)據(jù),混合真實(shí)數(shù)據(jù)和虛擬數(shù)據(jù)以訓(xùn)練算法,這也是MBRL樣本效率較高的原因.該類(lèi)算法典型代表是文獻(xiàn)[11].由于隨機(jī)性和不確定性,模型會(huì)存在誤差.此外,用于近似模型的函數(shù)也可能存在近似誤差,同時(shí)模型誤差還會(huì)累積傳播形成復(fù)合誤差.如何減小模型誤差的影響是一個(gè)問(wèn)題.

Kurutach等[32]通過(guò)模型集成表達(dá)環(huán)境的不確定性,同時(shí)指出建模時(shí)數(shù)據(jù)較少的區(qū)域模型誤差會(huì)較大,而在這些區(qū)域探索會(huì)增加模型誤差的影響.因此作者在TRPO(Trust Region Policy Optimization)上增加一個(gè)迭代閾值,限制策略朝著環(huán)境不熟悉的地方迭代,以此減小模型誤差的影響.

Kalweit等[87]認(rèn)為誤差較大的模型提供的數(shù)據(jù)質(zhì)量較低,會(huì)影響算法的最終效果.因此作者把DDPG(Deep Deterministic Policy Gradient)的重放緩存區(qū)一分為二,傳統(tǒng)的重放緩存區(qū)存儲(chǔ)真實(shí)環(huán)境數(shù)據(jù),想象的重放緩存區(qū)存儲(chǔ)虛擬環(huán)境的數(shù)據(jù).通過(guò)計(jì)算Q值的不確定性,得到一個(gè)動(dòng)態(tài)概率P,以此決定從哪個(gè)重放緩存區(qū)中獲取數(shù)據(jù).這樣增加對(duì)真實(shí)數(shù)據(jù)的利用,減少對(duì)模型生成數(shù)據(jù)的利用,限制模型誤差的影響.

Gu等[88]針對(duì)環(huán)境模型預(yù)估不準(zhǔn)的問(wèn)題,采用基于時(shí)間序列的線性模型建模環(huán)境,但為了達(dá)到最佳效果,在訓(xùn)練中會(huì)啟發(fā)式地停用模型.Feinberg等[89]闡明上述方法可能是無(wú)效的,因此提出MVE(Model-Based Value Expansion),將模型的展開(kāi)保持在一個(gè)固定深度,控制模型的不確定性,目標(biāo)Q值是先通過(guò)環(huán)境模型模擬H步之后,再進(jìn)行Q值估計(jì).于是Q值的估計(jì)融合基于環(huán)境動(dòng)力學(xué)模型的短期預(yù)估及基于目標(biāo)Q值網(wǎng)絡(luò)的長(zhǎng)期預(yù)估,步數(shù)H限制復(fù)合誤差的累積,提高Q值的準(zhǔn)確性.

Buckman等[90]改進(jìn)MVE,提出STEVE(Stochastic Ensemble Value Expansion).文章指出MVE要想獲得好的效果,需要依賴調(diào)整展開(kāi)(Rollout)的步數(shù)H,但在復(fù)雜環(huán)境中H過(guò)大會(huì)引入較大誤差,而簡(jiǎn)單環(huán)境步數(shù)H過(guò)小又會(huì)減小Q值的估計(jì)精度.作者在不同環(huán)境中展開(kāi)特定步數(shù),計(jì)算每步的不確定性,動(dòng)態(tài)調(diào)整及整合不同步數(shù)之間Q值的權(quán)重,并且確保僅在不引入重大誤差時(shí)才使用模型,以此限制模型誤差的影響.

對(duì)于模型誤差的影響,有些學(xué)者試圖從理論上分析.Luo等[91]從理論上說(shuō)明模型誤差的表示,并量化模型不確定性的指標(biāo),提出SLBO(Stochastic Lower Bound Optimization),保證算法能單調(diào)提升.Janner等[92]針對(duì)環(huán)境模型和采樣可能導(dǎo)致的總偏差C,提出每次更新后,策略的累積回報(bào)在模型上的改善若大于C,就能保證在真實(shí)環(huán)境中提高策略性能.文章提出分支展開(kāi)(Branched Rollout),在軌跡中間采樣一個(gè)狀態(tài)后,該狀態(tài)作為分支點(diǎn),展開(kāi)模型,訓(xùn)練策略.但由于誤差的存在,只能在模型上展開(kāi)k步,文章對(duì)k值進(jìn)行理論分析,但是策略單調(diào)改善的理論分析不夠嚴(yán)謹(jǐn).

Lai等[93]提出BMPO(Bidirectional Model-Based Policy Optimization),建議另外構(gòu)造一個(gè)后向動(dòng)力學(xué)模型,同時(shí)使用前向模型和后向模型進(jìn)行展開(kāi).由于使用雙模型展開(kāi),當(dāng)展開(kāi)軌跡的總步數(shù)相等時(shí),前向模型和后向模型各自展開(kāi)的步數(shù)均小于僅使用前向模型展開(kāi)的步數(shù),因此復(fù)合誤差累積顯著小于完全使用單向模型的情形.作者通過(guò)理論分析和實(shí)驗(yàn)驗(yàn)證說(shuō)明BMPO比MBPO(Model-Based Policy Optimization)復(fù)合誤差更小,訓(xùn)練效果更優(yōu).

4.2.2 基于模型可微性的端到端學(xué)習(xí)

除了利用模型虛擬展開(kāi)生成數(shù)據(jù)外,如果模型是神經(jīng)網(wǎng)絡(luò)或其它可微函數(shù),還可同時(shí)利用模型可微的特點(diǎn)直接輔助策略的學(xué)習(xí),這種方法更進(jìn)一步利用模型.

Heess等[94]提出SVG(Stochastic Value Gradients),利用模型的可微性計(jì)算值函數(shù)的梯度.該文思想較簡(jiǎn)單,利用鏈?zhǔn)椒▌t和模型的可微性直接對(duì)值函數(shù)求導(dǎo),利用梯度上升法優(yōu)化值函數(shù),學(xué)習(xí)策略.對(duì)于隨機(jī)性的環(huán)境和策略,可通過(guò)重參數(shù)化技巧引入噪聲.SVG利用真實(shí)樣本擬合模型,利用模型的可微性優(yōu)化值函數(shù),在優(yōu)化過(guò)程中只利用真實(shí)樣本,并未利用模型產(chǎn)生虛擬數(shù)據(jù).這樣做的好處是可緩解模型不準(zhǔn)確造成的影響,但同時(shí)由于不利用模型產(chǎn)生虛擬數(shù)據(jù),樣本效率并未得到較高提升.

Clavera等[95]在SVG的基礎(chǔ)上更進(jìn)一步,采用執(zhí)行者-評(píng)論家(Actor-Critic)框架,提出MAAC(Model-Augmented Actor-Critic).除了利用模型的梯度外,采用H步自舉(Bootstrapping)的Q值函數(shù)作為強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù):

同時(shí)重放緩存區(qū)中的數(shù)據(jù)既有和真實(shí)環(huán)境交互的數(shù)據(jù)也有模型虛擬展開(kāi)的數(shù)據(jù).超參數(shù)H可使目標(biāo)函數(shù)在模型的準(zhǔn)確性和Q值函數(shù)的準(zhǔn)確性之間權(quán)衡.Hafner等[96]提出Dreamer,值函數(shù)估計(jì)采用另一種平衡方差和偏差的方式,但Dreamer是圖像輸入,學(xué)習(xí)潛在模型,利用潛在模型的H步展開(kāi)和可微性.

利用模型的可微性延時(shí)反向傳播計(jì)算梯度可能會(huì)遇到深度學(xué)習(xí)中存在的一類(lèi)問(wèn)題——梯度消失和梯度爆炸.MAAC中采用終端Q函數(shù)(TerminalQ-Function)[32]緩解此問(wèn)題,SVG和Dreamer并未討論這個(gè)問(wèn)題,在實(shí)現(xiàn)時(shí)使用梯度裁剪的技巧.此外,利用模型可微性還存在容易陷入局部最優(yōu)的問(wèn)題.

4.3 隱式規(guī)劃

隱式規(guī)劃是一種特殊的基于模型的強(qiáng)化學(xué)習(xí)方法,規(guī)劃過(guò)程可嵌入到計(jì)算圖中,如圖8所示.典型例子是值迭代網(wǎng)絡(luò)(Value Iteration Network, VIN)[97].

圖8 隱式規(guī)劃過(guò)程Fig.8 Process of implicit planning

VIN設(shè)計(jì)值迭代模塊,并嵌入CNN中.類(lèi)似的工作還有UPN(Universal Planning Networks)[98]和QMDP-Net[99].UPN在一個(gè)目標(biāo)導(dǎo)向的策略中嵌入可微分的規(guī)劃模塊.QMDP-Net在一個(gè)RNN中嵌入QMDP(QValues of the Underlying MDP)和貝葉斯濾波器,求解POMPD(Partially Observable MDP).

還有一類(lèi)隱式規(guī)劃是去學(xué)習(xí)規(guī)劃.在一系列任務(wù)中優(yōu)化規(guī)劃器,得到更好的規(guī)劃算法.典型例子是MCTSNets(Monte-Carlo Tree Search Networks)[100].MCTSNets優(yōu)化MCTS過(guò)程中的各個(gè)步驟,如選擇、回傳和最終的動(dòng)作輸出.另一個(gè)例子是I2As(Imagination-Augmented Agents)[101],設(shè)計(jì)想象核,先學(xué)習(xí)動(dòng)力學(xué)模型,使用此模型想象未來(lái)軌跡.想象的信息會(huì)被編碼并用于輔助策略的學(xué)習(xí).所有模塊都整合在一個(gè)計(jì)算圖中.類(lèi)似的工作還有IBP(Imagination-Based Planner)[102].

隱式規(guī)劃的缺陷是規(guī)劃過(guò)程中可能會(huì)利用任務(wù)中的無(wú)關(guān)特征,同時(shí)計(jì)算圖通常較大,計(jì)算要求較高,優(yōu)化容易不穩(wěn)定.這些缺點(diǎn)導(dǎo)致隱式規(guī)劃目前在機(jī)器人領(lǐng)域應(yīng)用較少.

5 在機(jī)器人領(lǐng)域的應(yīng)用與挑戰(zhàn)

5.1 在機(jī)器人領(lǐng)域的應(yīng)用

現(xiàn)實(shí)中的機(jī)器人學(xué)習(xí)任務(wù)面臨的問(wèn)題主要有如下3處.1)高維視覺(jué)輸入.類(lèi)似人通過(guò)眼睛觀察世界,視覺(jué)也是機(jī)器人感知環(huán)境的重要方式,研究者們希望機(jī)器人能以圖像為輸入完成操作任務(wù),不以視覺(jué)為輸入的機(jī)器人猶如盲人摸象,缺乏實(shí)際意義.2)樣本效率問(wèn)題.機(jī)器人學(xué)習(xí)的一個(gè)問(wèn)題是樣本效率低下,無(wú)模型的強(qiáng)化學(xué)習(xí)算法需要和環(huán)境交互,通過(guò)試錯(cuò)學(xué)習(xí),這需要大量樣本,對(duì)于機(jī)器人操作任務(wù),采樣通常麻煩且耗時(shí).3)安全問(wèn)題.機(jī)器人在學(xué)習(xí)時(shí)需要探索,真實(shí)環(huán)境中,無(wú)效探索增加機(jī)器人的磨損,因此需要好的探索方法.為了安全起見(jiàn),可以在虛擬環(huán)境中進(jìn)行訓(xùn)練,再遷移到現(xiàn)實(shí)世界中,在虛擬環(huán)境中訓(xùn)練策略往往比直接在現(xiàn)實(shí)世界中進(jìn)行更安全.本節(jié)從圖像輸入、樣本效率、探索和遷移介紹基于模型的強(qiáng)化學(xué)習(xí)在機(jī)器人上的應(yīng)用.

高維視覺(jué)輸入的難點(diǎn)主要有:1)數(shù)據(jù)維度較高,計(jì)算耗費(fèi)較大;2)視覺(jué)輸入往往是真實(shí)環(huán)境動(dòng)力學(xué)模型的非線性函數(shù),導(dǎo)致圖像動(dòng)力學(xué)模型的學(xué)習(xí)及基于此模型的規(guī)劃非常困難.基于模型的強(qiáng)化學(xué)習(xí)適合高維視覺(jué)輸入的任務(wù).Levine等[4]推導(dǎo)不需要學(xué)習(xí)圖像動(dòng)力學(xué)模型,而是需要學(xué)習(xí)一個(gè)狀態(tài)轉(zhuǎn)移模型p(xt+1|xt,ut) 和一個(gè)觀測(cè)分布p(ot|xt)的結(jié)論,并且僅在訓(xùn)練策略時(shí)需要觀測(cè)分布,測(cè)試時(shí)不再需要,實(shí)現(xiàn)端到端的機(jī)器人操作,輸入圖像,機(jī)器人會(huì)輸出動(dòng)作,實(shí)現(xiàn)操作任務(wù).Finn等[38]通過(guò)CNN和LSTM學(xué)習(xí)前后兩幀像素流的變換,結(jié)合先前幀中的背景信息,真正學(xué)到基于圖像的環(huán)境動(dòng)力學(xué)模型,可通過(guò)機(jī)器人當(dāng)前狀態(tài)、當(dāng)前幀和動(dòng)作預(yù)測(cè)下一幀,并結(jié)合規(guī)劃算法,應(yīng)用在真實(shí)機(jī)器人操作上.潛在動(dòng)力學(xué)模型結(jié)合表示學(xué)習(xí)將高維圖像觀測(cè)嵌入低維潛在空間中,在此低維潛在空間中學(xué)習(xí)動(dòng)力學(xué)模型及基于模型進(jìn)行規(guī)劃都相對(duì)容易.許多工作[51,103]結(jié)合潛在動(dòng)力學(xué)模型,都實(shí)現(xiàn)高維圖像輸入的真實(shí)機(jī)器人操作任務(wù).

基于模型的強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)是樣本效率較高,因?yàn)槟P涂商峁┨摂M樣本,因此在機(jī)器人控制中,利用機(jī)器人與環(huán)境交互得到的真實(shí)樣本學(xué)到一個(gè)模型,利用模型產(chǎn)生大量的虛擬樣本以學(xué)習(xí)策略,大幅提升樣本效率.但是模型誤差的存在會(huì)降低算法性能,因此需要更多的真實(shí)樣本以學(xué)習(xí)更精確的模型,提升算法性能,這相當(dāng)于降低樣本效率.PILCO[30]使用高斯過(guò)程表征模型的不確定性,并將不確定性集成到長(zhǎng)期決策中,將模型誤差納入算法的考慮范圍中.因此PILCO可提供高質(zhì)量的虛擬樣本,實(shí)驗(yàn)中只需要七八個(gè)迭代周期就解決真實(shí)小車(chē)倒立擺的控制問(wèn)題,只需約4 min就可學(xué)習(xí)一個(gè)復(fù)雜物塊堆疊任務(wù),同時(shí)使用知識(shí)遷移時(shí),時(shí)間可進(jìn)一步減少到90 s.E2C(Embed to Control)[50]學(xué)習(xí)一個(gè)局部線性的潛在動(dòng)力學(xué)模型,可結(jié)合iLQR進(jìn)行規(guī)劃,在倒立擺的實(shí)驗(yàn)中,平均15次實(shí)驗(yàn)就可達(dá)到90%的成功率.SOLAR(Stochastic Optimal Control with Latent Re-presentations)[51]利用概率圖模型結(jié)構(gòu)學(xué)習(xí)更精確的潛在動(dòng)力學(xué)模型,只需要訓(xùn)練2 h就可完成真實(shí)環(huán)境中以圖像為輸入的Baxter機(jī)器人操作任務(wù).

為了安全起見(jiàn),在機(jī)器人學(xué)習(xí)中,必須限制機(jī)器人在真實(shí)環(huán)境中的探索.當(dāng)學(xué)到環(huán)境動(dòng)力學(xué)模型后,可利用模型輔助探索.Lowrey等[104]學(xué)習(xí)多個(gè)值函數(shù)組成內(nèi)在獎(jiǎng)勵(lì),在規(guī)劃時(shí)用于指導(dǎo)探索,在MuJoCo(Multi-joint Dynamics with Contact)[105]任務(wù)和虛擬的機(jī)械臂操控魔方上都有不錯(cuò)效果.Sekar等[106]在規(guī)劃軌跡中計(jì)算內(nèi)在獎(jiǎng)勵(lì),使用基于模型的方法最大化規(guī)劃軌跡中的內(nèi)在獎(jiǎng)勵(lì),預(yù)測(cè)對(duì)未來(lái)軌跡的好奇心以增加探索.Nair等[103]學(xué)習(xí)一個(gè)狀態(tài)的密度模型,并從中選擇目標(biāo),訓(xùn)練機(jī)器人完成這個(gè)想象中的目標(biāo),在測(cè)試時(shí)機(jī)器人就有可能泛化完成新的目標(biāo).這一思想類(lèi)似Hindsight Experience Replay[107].

在虛擬環(huán)境中訓(xùn)練機(jī)器人再遷移到現(xiàn)實(shí)世界,可相對(duì)保證機(jī)器人的安全,是促進(jìn)機(jī)器人學(xué)習(xí)相關(guān)算法落地應(yīng)用的重要手段.虛擬到現(xiàn)實(shí)(Sim to Real)的遷移關(guān)鍵點(diǎn)為虛擬環(huán)境和虛擬到現(xiàn)實(shí)的差距(Simulation-to-Reality Gap).目前機(jī)器人學(xué)習(xí)領(lǐng)域常用的虛擬環(huán)境主要有MuJoCo[105], Pybullet和Gaze-bo[108].MuJoCo被廣泛用于作為強(qiáng)化學(xué)習(xí)算法性能的測(cè)試環(huán)境.MuJoCo和Pybullet與深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的相關(guān)庫(kù)結(jié)合較好,能提供快速訓(xùn)練.Gazebo被集成到機(jī)器人操作系統(tǒng)(Robot Operating System, ROS)中,更適合較復(fù)雜的場(chǎng)景.

而針對(duì)虛擬到現(xiàn)實(shí)的差距目前主要有兩類(lèi)方法——域隨機(jī)化(Domain Randomization)和域適應(yīng)(Domain Adaption).域隨機(jī)化的思想為,不去過(guò)多關(guān)注虛擬環(huán)境和現(xiàn)實(shí)的差距,而是盡可能隨機(jī)化生成虛擬環(huán)境,盡量覆蓋現(xiàn)實(shí)環(huán)境.域隨機(jī)化的具體做法有2類(lèi).1)視覺(jué)隨機(jī)化,隨機(jī)生成的域數(shù)據(jù)涉及工作臺(tái)上物體的形狀、數(shù)目、顏色、紋理、位置、工作臺(tái)的紋理、攝像機(jī)的位置角度、背景的噪聲等,這些不會(huì)改變環(huán)境動(dòng)力學(xué)模型,這方面的機(jī)器人學(xué)習(xí)研究主要有Tobin等[109]的工作.2)域隨機(jī)化是動(dòng)力學(xué)隨機(jī)化,虛擬環(huán)境中隨機(jī)生成的數(shù)據(jù)涉及摩擦系數(shù)、關(guān)節(jié)質(zhì)量、關(guān)節(jié)阻尼系數(shù)、動(dòng)作時(shí)間步長(zhǎng)等,這些數(shù)據(jù)的改變會(huì)影響環(huán)境動(dòng)力學(xué)模型,這方面的研究有Peng等[110]和Andrychowicz等[111]的工作.視覺(jué)隨機(jī)化和動(dòng)力學(xué)隨機(jī)化也可結(jié)合起來(lái),如OpenAI靈巧手操控魔方的工作[3].域適應(yīng)的重點(diǎn)是可獲取少量真實(shí)環(huán)境的一些知識(shí),結(jié)合到虛擬環(huán)境的訓(xùn)練中,提高完成真實(shí)環(huán)境中任務(wù)的性能.域適應(yīng)在純視覺(jué)領(lǐng)域應(yīng)用很多,結(jié)合機(jī)器人學(xué)習(xí)也有一些值得關(guān)注的工作[112-113].基于模型的強(qiáng)化學(xué)習(xí)算法可輔助機(jī)器人虛擬到現(xiàn)實(shí)的遷移.Christiano等[114]學(xué)習(xí)一個(gè)逆向動(dòng)力學(xué)模型,決定真實(shí)機(jī)器人執(zhí)行什么樣的動(dòng)作會(huì)更容易實(shí)現(xiàn)虛擬環(huán)境中下一時(shí)刻的狀態(tài),以此實(shí)現(xiàn)遷移.Nagabandi等[115]利用元學(xué)習(xí)(Meta-Lear-ning)訓(xùn)練動(dòng)力學(xué)模型先驗(yàn),再結(jié)合最新數(shù)據(jù)快速學(xué)習(xí)環(huán)境模型,實(shí)現(xiàn)快速遷移.

5.2 在機(jī)器人領(lǐng)域的挑戰(zhàn)

目前基于模型的強(qiáng)化學(xué)習(xí)也存在一些不足.首先,模型存在不確定性和近似誤差,雖然有很多工作緩解這個(gè)問(wèn)題,然而大多都是針對(duì)虛擬環(huán)境,而真實(shí)的機(jī)器人環(huán)境更復(fù)雜,因此對(duì)模型要求更高,如何在真實(shí)環(huán)境中減小模型誤差是一個(gè)問(wèn)題.其次,基于模型的強(qiáng)化學(xué)習(xí)的漸進(jìn)性能不如無(wú)模型的強(qiáng)化學(xué)習(xí),這是限制其應(yīng)用的一個(gè)原因,因此利用MBRL的高樣本效率的同時(shí)需要設(shè)法達(dá)到MFRL的高漸進(jìn)性能.針對(duì)視覺(jué)輸入,潛在動(dòng)力學(xué)模型是一個(gè)有效方法,但是通常需要學(xué)習(xí)一個(gè)表示,如何結(jié)合先驗(yàn)知識(shí)學(xué)習(xí)一個(gè)更好的表示也是未來(lái)值得研究的方向.此外,考慮安全問(wèn)題和采樣效率,機(jī)器人學(xué)習(xí)適合先在虛擬環(huán)境中訓(xùn)練再遷移到真實(shí)世界,這方面的研究可考慮集成遷移學(xué)習(xí)中域隨機(jī)化和域適應(yīng)的方法,是未來(lái)研究方向的一個(gè)重點(diǎn).最后,基于模型的強(qiáng)化學(xué)習(xí)通常有更多的超參數(shù)和網(wǎng)絡(luò)模型,可能存在計(jì)算量較大、不穩(wěn)定的問(wèn)題,這個(gè)問(wèn)題可能無(wú)法避免,需要在算法研究中盡量設(shè)法減輕.針對(duì)這些問(wèn)題,基于模型的強(qiáng)化學(xué)習(xí)還有很大的研究空間.

6 結(jié) 束 語(yǔ)

機(jī)器人學(xué)習(xí)作為人工智能領(lǐng)域的研究熱點(diǎn),受到研究者們的廣泛關(guān)注.強(qiáng)化學(xué)習(xí)由于適合解決決策問(wèn)題,因此被視為解決機(jī)器人學(xué)習(xí)的一種有效方法,而基于模型的強(qiáng)化學(xué)習(xí)(MBRL)存在許多優(yōu)點(diǎn),更接近人類(lèi)的學(xué)習(xí)方式,也更適合機(jī)器人學(xué)習(xí).本文首先介紹機(jī)器人學(xué)習(xí)的形式化.然后,介紹基于模型的強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)理論,詳細(xì)論述當(dāng)前MBRL中模型的學(xué)習(xí)和模型的利用.最后,基于MBRL的優(yōu)點(diǎn)介紹其在機(jī)器人學(xué)習(xí)中的應(yīng)用,并展望MBRL未來(lái)的研究方向.隨著基于模型的強(qiáng)化學(xué)習(xí)的發(fā)展,其在機(jī)器人學(xué)習(xí)中存在的問(wèn)題會(huì)逐一解決,機(jī)器人也將更多地出現(xiàn)在工程和生活之中.

猜你喜歡
動(dòng)力學(xué)狀態(tài)函數(shù)
《空氣動(dòng)力學(xué)學(xué)報(bào)》征稿簡(jiǎn)則
智珠二則
生命的另一種狀態(tài)
低汽氣比變換催化劑動(dòng)力學(xué)研究
低汽氣比變換催化劑動(dòng)力學(xué)研究
用動(dòng)力學(xué)觀點(diǎn)解決磁場(chǎng)常見(jiàn)問(wèn)題的研究
關(guān)于函數(shù)的一些補(bǔ)充知識(shí)
利用相對(duì)運(yùn)動(dòng)巧解動(dòng)力學(xué)問(wèn)題お
高中數(shù)學(xué)中二次函數(shù)應(yīng)用舉隅オ
無(wú)獨(dú)有偶 曲徑通幽
营山县| 星子县| 岗巴县| 时尚| 云龙县| 安塞县| 曲阜市| 南京市| 文昌市| 宁河县| 上思县| 新巴尔虎右旗| 黔东| 哈尔滨市| 金阳县| 临猗县| 翼城县| 罗城| 姚安县| 腾冲县| 瓮安县| 大化| 镇康县| 周口市| 新巴尔虎左旗| 福鼎市| 兰西县| 枣强县| 子洲县| 浠水县| 石家庄市| 平塘县| 吉林市| 涟源市| 乌兰浩特市| 六枝特区| 万载县| 榆林市| 金昌市| 云阳县| 定襄县|