国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器人學(xué)習(xí)方法綜述

2023-12-12 07:53:04曲威名劉天林林惟凱羅定生2
關(guān)鍵詞:機(jī)器人技能環(huán)境

曲威名 劉天林 林惟凱 羅定生2,

述評(píng)

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第59卷 第6期 2023年11月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 6 (Nov. 2023)

10.13209/j.0479-8023.2023.086

國(guó)家自然科學(xué)基金(62176004, U1713217)、東湖高新區(qū)國(guó)家智能社會(huì)治理實(shí)驗(yàn)綜合基地項(xiàng)目、北京大學(xué)新工科專項(xiàng)、北京大學(xué)–辛巴科技項(xiàng)目和北京大學(xué)高性能計(jì)算平臺(tái)資助

2022–11–28;

2023–04–25

機(jī)器人學(xué)習(xí)方法綜述

曲威名1,*劉天林1,*林惟凱1羅定生1,2,?

1.北京大學(xué)智能學(xué)院, 北京 100871; 2.北京大學(xué)武漢人工智能研究院, 武漢 430073; *同等貢獻(xiàn)作者; ?通信作者, E-mail: dsluo@pku.edu.cn

介紹與機(jī)器人學(xué)習(xí)有關(guān)的基本概念與核心問題, 梳理機(jī)器人學(xué)習(xí)的相關(guān)方法和最新進(jìn)展。依據(jù)數(shù)據(jù)類型, 將機(jī)器人學(xué)習(xí)的方法分為基于強(qiáng)化學(xué)習(xí)的方法、基于模仿學(xué)習(xí)的方法、基于遷移學(xué)習(xí)的方法和基于發(fā)展學(xué)習(xí)的方法, 并對(duì)相關(guān)研究進(jìn)行總結(jié)和分析, 探討機(jī)器人學(xué)習(xí)領(lǐng)域目前存在的挑戰(zhàn)和未來(lái)發(fā)展趨勢(shì)。

機(jī)器人學(xué)習(xí); 強(qiáng)化學(xué)習(xí); 模仿學(xué)習(xí); 遷移學(xué)習(xí); 發(fā)展學(xué)習(xí)

機(jī)器人學(xué)是一門綜合計(jì)算機(jī)科學(xué)、運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)、傳感技術(shù)、控制技術(shù)以及認(rèn)知發(fā)展理論等眾多科學(xué)理論的交叉學(xué)科。自 20 世紀(jì) 50 年代第一臺(tái)工業(yè)機(jī)器人手臂[1]問世以來(lái), 機(jī)器人領(lǐng)域引起諸多學(xué)者的研究興趣。機(jī)器人具有精度高、速度快、可交互和靈活機(jī)動(dòng)等特點(diǎn), 能夠幫助人甚至代替人完成各種困難危險(xiǎn)、繁瑣多變的工作。隨著人工智能技術(shù)和機(jī)器人技術(shù)的快速發(fā)展, 機(jī)器人研究在農(nóng)業(yè)生產(chǎn)、工業(yè)制造、醫(yī)療服務(wù)、航空航天和深海探索等領(lǐng)域已取得一系列的進(jìn)展, 并得到廣泛應(yīng)用。

如何使機(jī)器人獲得適應(yīng)真實(shí)環(huán)境的各項(xiàng)技能, 是機(jī)器人領(lǐng)域的核心課題。2015 年, 美國(guó)國(guó)防高等研究計(jì)劃署在加州舉辦 DARPA 機(jī)器人挑戰(zhàn)賽, 包括美國(guó)、德國(guó)、意大利、中國(guó)、日本和韓國(guó)在內(nèi)的 25 支隊(duì)伍參加該項(xiàng)賽事, 參賽的機(jī)器人包含多款世界上最先進(jìn)的仿人機(jī)器人, 例如 CHIMP, DRC-HUBO, IHMC 和 RoboSimian 等[2–3]。該賽事主要受到日本 2011 年福島核泄漏事故的啟發(fā), 專注于讓機(jī)器人面對(duì)各種災(zāi)難場(chǎng)景的救援任務(wù), 旨在通過(guò)比賽, 提高機(jī)器人在惡劣和危險(xiǎn)環(huán)境中的適應(yīng)水平, 幫助人類更好地面對(duì)這些問題。遺憾的是, 在比賽過(guò)程中, 機(jī)器人整體上表現(xiàn)欠佳, 不僅完成任務(wù)耗時(shí)很長(zhǎng), 還遇到一系列問題: 電機(jī)失效, 制動(dòng)失靈, 在行走過(guò)程中跌倒, 沒有找準(zhǔn)目標(biāo)就執(zhí)行任務(wù), 等等, 甚至需要技術(shù)人員當(dāng)場(chǎng)進(jìn)行修復(fù)。2017 年, 加州大學(xué)伯克利分校、谷歌和微軟等機(jī)構(gòu)發(fā)起第一屆機(jī)器人學(xué)習(xí)會(huì)議 CoRL, 目的是借助機(jī)器學(xué)習(xí)的方法, 有效地攻克機(jī)器人領(lǐng)域的難題[4]。此后, 越來(lái)越多的研究者開始關(guān)注機(jī)器人自主學(xué)習(xí)這一領(lǐng)域。到目前為止, 斯坦福大學(xué)[5]、加州大學(xué)伯克利分校[6]、DeepMind[7–8]、百度[9]、Google[10]和 ParisTech[11]等機(jī)構(gòu)圍繞機(jī)器人學(xué)習(xí)這一任務(wù)開展一系列深入的研究, 取得諸多進(jìn)展, 但仍存在諸多亟待解決的問題: 如何高效率、低成本地使機(jī)器人學(xué)習(xí)到新的技能; 如何使機(jī)器人學(xué)到的技能能更好的適應(yīng)新環(huán)境, 更快地適配于其他機(jī)器人, 等等。

1 基本概念及核心問題

機(jī)器人是一種能夠通過(guò)編程和自動(dòng)控制來(lái)執(zhí)行諸如作業(yè)或移動(dòng)等任務(wù)的機(jī)器[12]。1967 年, 機(jī)器人的定義首次被提出, 其中有兩個(gè)定義比較具有代表性。森政弘與合田周平提出“機(jī)器人是一種具有移動(dòng)性、個(gè)體性、智能性、通用性、半機(jī)械半人性、自動(dòng)性、奴隸性等 7 個(gè)特征的柔性機(jī)器”; 加藤一郎強(qiáng)調(diào)機(jī)器人應(yīng)當(dāng)具有仿人的特點(diǎn), 即具有如下 3 個(gè)條件的機(jī)器可以稱為機(jī)器人: 1)具有腦、手、腳等三要素的個(gè)體; 2)具有非接觸傳感器(用眼、耳接受遠(yuǎn)方信息)和接觸傳感器; 3)具有平衡覺和固有覺的傳感器。盡管他們對(duì)機(jī)器人的定義不盡相同, 但是可以發(fā)現(xiàn)一個(gè)共性: 機(jī)器人應(yīng)具有協(xié)助人或代替人執(zhí)行任務(wù)的能力, 即機(jī)器人應(yīng)具備一定的技能。機(jī)器人的技能指機(jī)器人在某個(gè)特定目的下執(zhí)行的連續(xù)動(dòng)作序列, 比如趨近技能、抓握技能、爬行技能和行走技能等[13]。因此, 如何使機(jī)器人獲得各項(xiàng)技能, 一直是機(jī)器人研究領(lǐng)域的核心課題。

機(jī)器人學(xué)習(xí)指機(jī)器人模擬實(shí)現(xiàn)人類的學(xué)習(xí)行為, 并像人類一樣通過(guò)不斷學(xué)習(xí)來(lái)改善自身的性能, 從而大幅提高自適應(yīng)能力和智能化水平。機(jī)器人從無(wú)到有獲得技能的這一過(guò)程稱為技能習(xí)得。傳統(tǒng)機(jī)器人的技能習(xí)得一般采用固定的編程方式, 通常通過(guò)人工示教的方式來(lái)完成。這種方式不僅費(fèi)時(shí)費(fèi)力, 當(dāng)機(jī)器人在長(zhǎng)期使用的過(guò)程中因機(jī)械磨損引起機(jī)械參數(shù)改變時(shí)需要重新校準(zhǔn), 而且隨著應(yīng)用的深入, 當(dāng)面臨復(fù)雜多變的非結(jié)構(gòu)化應(yīng)用場(chǎng)景時(shí)會(huì)顯得力有未逮。因此, 設(shè)計(jì)具有多模態(tài)感知和自主決策的機(jī)器人技能學(xué)習(xí)系統(tǒng), 使機(jī)器人像人一樣有能力在動(dòng)態(tài)變化的未知環(huán)境中通過(guò)與環(huán)境交互進(jìn)行自主學(xué)習(xí), 是更具潛力的途徑。

2 主要方法與最新進(jìn)展

目前的機(jī)器人學(xué)習(xí)主要以機(jī)器學(xué)習(xí)算法為基礎(chǔ)。我們對(duì)機(jī)器人學(xué)習(xí)的相關(guān)研究進(jìn)行總結(jié)梳理, 依據(jù)數(shù)據(jù)類型, 將機(jī)器學(xué)習(xí)的方法分為 4 類: 基于強(qiáng)化學(xué)習(xí)的方法、基于模仿學(xué)習(xí)的方法、基于遷移學(xué)習(xí)的方法和基于發(fā)展學(xué)習(xí)的方法。

2.1 基于強(qiáng)化學(xué)習(xí)的方法

在策略優(yōu)化階段, 機(jī)器人根據(jù)狀態(tài)值函數(shù)π()或動(dòng)作值函數(shù)π(,)對(duì)策略進(jìn)行優(yōu)化。

近年來(lái), 越來(lái)越多的機(jī)器人在強(qiáng)化學(xué)習(xí)框架下進(jìn)行學(xué)習(xí)[19]。2004 年, Kohl 等[20]提出一種機(jī)器學(xué)習(xí)方法來(lái)優(yōu)化四足機(jī)器人的前進(jìn)步態(tài)。他們使用策略梯度強(qiáng)化學(xué)習(xí)方法, 自動(dòng)搜索機(jī)器人可能的策略參數(shù)集, 以便找到最快的步態(tài)參數(shù)。實(shí)驗(yàn)結(jié)果在 Sony Aibo 機(jī)器人上得到驗(yàn)證, 如圖 1 所示。Kim 等[21]用非線性模型來(lái)擬合直升機(jī)的動(dòng)力學(xué)特性, 并基于強(qiáng)化學(xué)習(xí)框架用該模型來(lái)學(xué)習(xí)直升機(jī)的自主控制, 成功地實(shí)現(xiàn)直升機(jī)的自主飛行。Tedrake 等[22]提出一種基于統(tǒng)計(jì)的策略梯度方法, 優(yōu)化雙足機(jī)器人的在線行走控制, 使得機(jī)器人可以在 20 分鐘內(nèi)學(xué)會(huì)快速行走。Ko-ber 等[23]提出參數(shù)化運(yùn)動(dòng)基元(parametri-zed motor primitives)的概念, 并將策略梯度的方法與參數(shù)化運(yùn)動(dòng)基元相結(jié)合, 用于學(xué)習(xí)機(jī)器人手臂的復(fù)雜運(yùn)動(dòng)控制。

在強(qiáng)化學(xué)習(xí)過(guò)程中, “獲取觀察值—采取行動(dòng)”這一流程中經(jīng)常出現(xiàn)錯(cuò)誤, 導(dǎo)致系統(tǒng)只能得到局部最優(yōu)解。Luo 等[24]提出一種分層運(yùn)動(dòng)建模的方法, 用于解決機(jī)器人自主實(shí)現(xiàn)運(yùn)動(dòng)技能。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展, Levine 等[25]提出一種端到端的策略梯度強(qiáng)化學(xué)習(xí)算法, 用于機(jī)器人的視覺運(yùn)動(dòng)控制, 其策略利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net-work, CNN)來(lái)表示。Wei 等[26]在沒有任何運(yùn)動(dòng)策略先驗(yàn)的情況下, 提出一種基于雙 DQN 的深度強(qiáng)化學(xué)習(xí)框架, 用于實(shí)現(xiàn)輪式機(jī)器人對(duì)目標(biāo)高效、流程的追逐任務(wù), 并在 Turtlebot 機(jī)器人上得到驗(yàn)證。Yamada 等[27]結(jié)合運(yùn)動(dòng)規(guī)劃和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn), 提出基于運(yùn)動(dòng)規(guī)劃器增強(qiáng)的強(qiáng)化學(xué)習(xí)方法 MoPA-RL (Motion Planner Augmented RL)。該方法可用于在有障礙物條件下的機(jī)器人手臂操作任務(wù), 如圖 2 所示。同樣是將運(yùn)動(dòng)規(guī)劃和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái), Xia 等[5]提出針對(duì)機(jī)器人移動(dòng)操作(mobile manipulation)任務(wù)的 ReLMoGen 框架。該框架利用強(qiáng)化學(xué)習(xí)方法來(lái)預(yù)測(cè)子目標(biāo), 并通過(guò)運(yùn)動(dòng)規(guī)劃器來(lái)規(guī)劃完成子目標(biāo)所需的動(dòng)作序列。與單純的運(yùn)動(dòng)規(guī)劃不同, Bra-kel 等[9]提出基于自進(jìn)化的步態(tài)生成器來(lái)引導(dǎo)強(qiáng)化學(xué)習(xí)訓(xùn)練, 通過(guò)自主學(xué)習(xí), 機(jī)器人能探索出合理的步態(tài), 并穿越各種高難度場(chǎng)景。2022 年, Weerakoon等[28]采用一個(gè)經(jīng)過(guò)充分訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò), 實(shí)現(xiàn)機(jī)器人在不平整戶外地形中進(jìn)行可靠的自主導(dǎo)航。與之前的導(dǎo)航方法相比, 在高海拔地區(qū), 采用該方法的機(jī)器人軌跡的成功率提高 35.18%, 累計(jì)海拔梯度降低 26.14%。

與單純使用神經(jīng)網(wǎng)絡(luò)相比, 強(qiáng)化學(xué)習(xí)與環(huán)境交互實(shí)現(xiàn)自主學(xué)習(xí), 無(wú)需大量帶標(biāo)簽的數(shù)據(jù)集即可學(xué)到新的技能, 并且具有較好的理論保證。同時(shí), 強(qiáng)化學(xué)習(xí)的一般性、易擴(kuò)展性和泛化性也是其在機(jī)器人學(xué)習(xí)領(lǐng)域得到廣泛應(yīng)用的原因之一。

圖1 Aibo機(jī)器人以291 mm/s小跑的步態(tài)快照[20]

圖2 在有障礙物條件下的機(jī)器人手臂操作技能自主學(xué)習(xí)[27]

2.2 基于模仿學(xué)習(xí)的方法

盡管基于強(qiáng)化學(xué)習(xí)的方法通過(guò)與環(huán)境交互不斷試錯(cuò), 可以學(xué)習(xí)到很多復(fù)雜的技能, 但是由于需要大量的樣本, 過(guò)多的交互次數(shù)會(huì)對(duì)機(jī)器人硬件造成不可逆轉(zhuǎn)的損耗, 因此基于強(qiáng)化學(xué)習(xí)的方法的時(shí)間代價(jià)和成本代價(jià)非常龐大。通過(guò)現(xiàn)實(shí)環(huán)境中存在的大量示范數(shù)據(jù)去學(xué)習(xí)范例背后策略的模仿學(xué)習(xí)(imi-tation learning), 是解決這一問題的有效方法[29]。模仿學(xué)習(xí)又稱示教學(xué)習(xí)(learning from demonstration), 與純粹的強(qiáng)化學(xué)習(xí)不同, 模仿學(xué)習(xí)在降低學(xué)習(xí)過(guò)程中搜索空間的復(fù)雜度、減少學(xué)習(xí)過(guò)程所需的樣本量以及加快學(xué)習(xí)時(shí)間等方面具有非常顯著的效果。隨著人工智能技術(shù)的不斷發(fā)展, 模仿學(xué)習(xí)逐漸成為機(jī)器人學(xué)習(xí)領(lǐng)域的核心研究方向之一[29]。

模仿學(xué)習(xí)省去了傳統(tǒng)編程方式中機(jī)器人標(biāo)定和任務(wù)位置標(biāo)定等步驟, 只需示教者根據(jù)自己的任務(wù)要求進(jìn)行軌跡示教, 并通過(guò)動(dòng)作編碼回歸得到一條優(yōu)化的機(jī)器人運(yùn)動(dòng)軌跡[30]。傳統(tǒng)的模仿學(xué)習(xí)主要包括示教、引導(dǎo)和回放 3 個(gè)過(guò)程[31–32]。1996 年, Muench 等[33]提出一款全新的支持交互式示范編程的人機(jī)交互系統(tǒng), 用來(lái)探究如何形式化一個(gè)模仿學(xué)習(xí)的任務(wù)、如何在新的環(huán)境中復(fù)現(xiàn)已有技能以及如何評(píng)價(jià)模仿學(xué)習(xí)的好壞等機(jī)器人模仿學(xué)習(xí)中的關(guān)鍵問題, 并取得一定的成果。Hovland 等[34]根據(jù)人類示范數(shù)據(jù), 利用隱馬爾可夫模型(Hidden Markov Model, HMM)學(xué)習(xí)裝配技能。Schaal[35]研究模仿學(xué)習(xí)如何幫助仿人機(jī)器人學(xué)習(xí)技能, 并提出 3 個(gè)關(guān)鍵問題: 有效的運(yùn)動(dòng)學(xué)習(xí)、動(dòng)作和感知之間的聯(lián)系以及運(yùn)動(dòng)基元的模塊化運(yùn)動(dòng)控制, 成為眾多學(xué)者對(duì)機(jī)器人模仿學(xué)習(xí)研究的重要基礎(chǔ)。Calinon 等[36]提出基于目標(biāo)導(dǎo)向的模仿學(xué)習(xí)方法, 實(shí)現(xiàn)機(jī)器人提取演示任務(wù)的目標(biāo), 并成功地確定能夠滿足這些目標(biāo)的模仿策略。Peter 等[37]結(jié)合動(dòng)態(tài)運(yùn)動(dòng)基元(dynamic motion primitive, DMP), 實(shí)現(xiàn)機(jī)器人打乒乓球這項(xiàng)技能。

鑒于單純的使用模仿學(xué)習(xí)方法易使訓(xùn)練得到的策略陷入局部最優(yōu)解, 從而導(dǎo)致機(jī)器人運(yùn)動(dòng)技能的學(xué)習(xí)不如人意, 一些學(xué)者嘗試將模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。Luo 等[38]分別采用隨機(jī)策略梯度強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)來(lái)完成基于 DMP 模型的仿生策略學(xué)習(xí)過(guò)程, 并利用 DMP 模型的不變性, 采用高斯過(guò)程(Gauss process)回歸, 推廣推搡恢復(fù)策略, 最終實(shí)現(xiàn)一種在線自適應(yīng)推搡恢復(fù)控制策略。該策略在仿真機(jī)器人和實(shí)際雙足仿人機(jī)器人 PKU-HR5 上均得到有效的驗(yàn)證, 效果如圖 3 所示。

Guenter 等[39]基于一個(gè)由速度軌跡調(diào)制的動(dòng)態(tài)系統(tǒng)生成器, 通過(guò)與強(qiáng)化學(xué)習(xí)結(jié)合, 設(shè)計(jì)一款在受約束情況下能夠讓機(jī)器人手臂趨近任務(wù)的系統(tǒng), 以便允許其在面對(duì)有障礙物的情況下能夠快速調(diào)整軌跡。Hester 等[40]提出將示教數(shù)據(jù)添加到 DQN回放記憶單元(replay memory), 有效地提升學(xué)習(xí)效率。在預(yù)訓(xùn)練階段, 他們從演示數(shù)據(jù)中進(jìn)行小批量采樣, 并通過(guò) 4 種損失來(lái)更新網(wǎng)絡(luò): 1 步雙學(xué)習(xí)損失(1-step double-learning loss)、步雙學(xué)習(xí)損失(-step double-learning loss)、大邊緣分類損失(large margin classification loss)以及 L2 正則損失(L2 regularization loss)。損失函數(shù)計(jì)算公式如下所示:

其中,

隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展, 越來(lái)越多的研究者將深度學(xué)習(xí)的方法應(yīng)用于機(jī)器人模仿學(xué)習(xí)中, 其中一個(gè)廣泛使用的方法是由 Goodfellow 等[41]提出的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)。GAN 由生成器(generator)和判別器(discri-minator)兩部分組成, 生成器負(fù)責(zé)生成能夠騙過(guò)判別器的樣本, 判別器負(fù)責(zé)判斷樣本是真實(shí)的樣本還是生成器生成的樣本。Ho 等[42]把生成對(duì)抗網(wǎng)絡(luò)結(jié)合到模仿學(xué)習(xí)中, 提出生成對(duì)抗模仿學(xué)習(xí)(genera-tive adversarial imitation learning, GAIL)算法。該算法的生成器由策略模型表示, 判別器由回報(bào)函數(shù)模型表示。在此基礎(chǔ)上, Merel 等[43]基于GAIL 實(shí)現(xiàn)人體運(yùn)動(dòng)捕捉數(shù)據(jù)的模仿學(xué)習(xí), 使一個(gè)虛擬 3D 仿真機(jī)器人能夠?qū)W習(xí)人的多種運(yùn)動(dòng)行為, 如行走、跑步和起立等。隨后, Tsurumine 等[44]探索一種用于機(jī)器人布料操作任務(wù)的生成對(duì)抗模仿學(xué)習(xí)方法 P-GAIL。與 GAIL 不同的是, P-GAIL 采用基于價(jià)值函數(shù)的深度強(qiáng)化學(xué)習(xí)方法來(lái)訓(xùn)練, 可以在策略更新時(shí)考慮平滑度和因果熵, 從而實(shí)現(xiàn)快速穩(wěn)定的機(jī)器人模仿學(xué)習(xí)。盡管 GAIL 在模仿學(xué)習(xí)領(lǐng)域取得非常重要的進(jìn)展, 但由于 GAIL 的訓(xùn)練比較繁瑣, 形式比較復(fù)雜, 因此適用性不強(qiáng)。針對(duì)此問題, Peng 等[45]基于強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí), 提出一個(gè)可擴(kuò)展性很強(qiáng)的虛擬機(jī)器人運(yùn)動(dòng)生成框架DeepMimic。該框架不僅能夠模仿多種如跑步、跳躍、翻轉(zhuǎn)等復(fù)雜的運(yùn)動(dòng)技能, 還可以將模仿動(dòng)作的目標(biāo)與任務(wù)目標(biāo)相結(jié)合, 高效準(zhǔn)確地完成任務(wù)。Peng 等[46]將DeepMimic 方法用于四足機(jī)器人 Laikago 的運(yùn)動(dòng)控制中, 取得很好的效果, 如圖 4所示。

圖3 PKU-HR5推搡恢復(fù)策略演示[38]

Fig. 3 Illustration of PKU-HR5 push recovery with learned strategy[38]

Wei 等[47]提出一個(gè)基于模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)與知識(shí)融合的端到端機(jī)器人導(dǎo)航方法。該方法通過(guò)模仿學(xué)習(xí), 使得機(jī)器人獲取與導(dǎo)航有關(guān)的先驗(yàn)知識(shí), 并設(shè)計(jì)一個(gè)基于 CNN 的網(wǎng)絡(luò)模型, 用于提取激光雷達(dá)傳感器的特征, 最后利用強(qiáng)化學(xué)習(xí)算法, 學(xué)習(xí)一種高效穩(wěn)定的導(dǎo)航策略。Li 等[48]將模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合, 提出一個(gè)用于語(yǔ)義場(chǎng)景圖生成的學(xué)習(xí)框架, 使機(jī)器人能夠自主生成一條合適的路徑來(lái)探索環(huán)境。

盡管深度模仿學(xué)習(xí)在模仿學(xué)習(xí)這一領(lǐng)域已經(jīng)取得突出的成果, 但是收集示范數(shù)據(jù)比較復(fù)雜且代價(jià)高昂。因此通過(guò)少量訓(xùn)練數(shù)據(jù)使機(jī)器人學(xué)習(xí)到新的技能具有迫切的需求和重大的意義。一些研究者考慮利用元學(xué)習(xí)來(lái)研究機(jī)器人的模仿學(xué)習(xí)。元學(xué)習(xí), 即學(xué)習(xí)如何學(xué)習(xí), 是一種通過(guò)在包含少量標(biāo)記數(shù)據(jù)的大量相關(guān)任務(wù)的任務(wù)集上對(duì)策略進(jìn)行訓(xùn)練的訓(xùn)練方式, 能夠自動(dòng)學(xué)習(xí)任務(wù)集中的共有知識(shí)。2017年, Finn 等[49]提出與模型無(wú)關(guān)的元學(xué)習(xí)算法 MAML (model-agnostic meta-learning), 用于強(qiáng)化學(xué)習(xí)問題, 并系統(tǒng)地闡述 MAML 在少樣本模仿學(xué)習(xí)、元強(qiáng)化學(xué)習(xí)和少樣本目標(biāo)推斷中的應(yīng)用[50]。Duan 等[51]利用 MAML 形式化模仿學(xué)習(xí)問題, 提出一個(gè)基于模仿學(xué)習(xí)的元學(xué)習(xí)框架。由于該框架基于多種任務(wù)訓(xùn)練得到元學(xué)習(xí)策略, 基于新任務(wù)進(jìn)行一次示教即可學(xué)得實(shí)現(xiàn)該任務(wù)的技能, 因此也稱一次性模仿學(xué)習(xí)(one-shot imitation learning)。然而, 大多數(shù)元學(xué)習(xí)方法只專注于教機(jī)器人從單一的示范領(lǐng)域?qū)W習(xí)。鑒于人類可以從各種相關(guān)領(lǐng)域獲得并合并知識(shí), Hu 等[52]提出隨機(jī)領(lǐng)域自適應(yīng)元學(xué)習(xí)(random domain-adaptive meta-learning, RDAML)框架。該框架通過(guò)不同的隨機(jī)采樣參數(shù), 教機(jī)器人從多個(gè)演示領(lǐng)域(如人類演示+機(jī)器人演示)學(xué)習(xí)。一旦訓(xùn)練完成, 經(jīng)過(guò)訓(xùn)練的模型可以適應(yīng)新的環(huán)境, 并給出相應(yīng)的視覺演示。此外, 利用機(jī)器人過(guò)去的良好經(jīng)驗(yàn)決策是近年來(lái)提出的模仿學(xué)習(xí)策略的一個(gè)全新的思路。Oh 等[53]提出自我模仿學(xué)習(xí)(self-imitation learning, SIL)方法。Luo 等[54]提出基于規(guī)劃的自我模仿學(xué)習(xí)(self-imitation learning by planning)方法, 通過(guò)對(duì)當(dāng)前策略的訪問狀態(tài)進(jìn)行規(guī)劃來(lái)自動(dòng)收集用于模仿的演示數(shù)據(jù)。

每幅圖的第1行是參考動(dòng)作; 第2行是仿真機(jī)器人的動(dòng)作; 第3行是實(shí)體機(jī)器人的動(dòng)作

總體而言, 傳統(tǒng)的模仿學(xué)習(xí)方法和深度模仿學(xué)習(xí)方法基于示教數(shù)據(jù)對(duì)策略進(jìn)行初始化, 可以有效地提高機(jī)器人的學(xué)習(xí)效率, 但是, 獲得大量的示教樣本往往需要付出昂貴的代價(jià)。相比而言, 基于小數(shù)據(jù)學(xué)習(xí)的元學(xué)習(xí)模仿學(xué)習(xí)方法更具優(yōu)勢(shì), 但是目前的元學(xué)習(xí)還局限于新任務(wù)的測(cè)試階段, 明確機(jī)器人的訓(xùn)練環(huán)境和數(shù)據(jù)形式以及設(shè)計(jì)合適的元學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu), 是需要解決的關(guān)鍵問題。

2.3 基于遷移學(xué)習(xí)的方法

除元學(xué)習(xí)外, 遷移學(xué)習(xí)(transfer learning)也是一種可以利用少量訓(xùn)練數(shù)據(jù)使機(jī)器人學(xué)習(xí)到新技能的方法。遷移學(xué)習(xí)指機(jī)器人通過(guò)對(duì)過(guò)往經(jīng)驗(yàn)或已有知識(shí)的再利用, 加快學(xué)習(xí)執(zhí)行新任務(wù)的能力, 實(shí)現(xiàn)不同技能之間的遷移[55]。與先前學(xué)習(xí)技能有關(guān)的任務(wù)稱為源任務(wù), 新任務(wù)稱為目標(biāo)任務(wù)。在機(jī)器人學(xué)習(xí)領(lǐng)域, 遷移學(xué)習(xí)常常跟強(qiáng)化學(xué)習(xí)相結(jié)合, 將遷移學(xué)習(xí)中的任務(wù)形式化為強(qiáng)化學(xué)習(xí)中的 MDP, 即遷移強(qiáng)化學(xué)習(xí)[56–57]。遷移強(qiáng)化學(xué)習(xí)要實(shí)現(xiàn)不同 MDP 之間的遷移, 這些 MDP 有可能是動(dòng)作空間不同, 有可能是狀態(tài)空間不同, 也有可能是狀態(tài)轉(zhuǎn)移方程不同。遷移學(xué)習(xí)的一個(gè)直觀想法是直接在實(shí)體機(jī)器人上進(jìn)行任務(wù)遷移。Thrun 等[58]提出可以捕捉機(jī)器人及其環(huán)境的不變性的遷移學(xué)習(xí)方法, 實(shí)現(xiàn)移動(dòng)機(jī)器人在未知室內(nèi)環(huán)境的導(dǎo)航。Degrave 等[59]利用粒子群算法來(lái)實(shí)現(xiàn)四足機(jī)器人在不同地形上行走的遷移。Wang 等[60]利用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)來(lái)實(shí)現(xiàn)雙足仿人機(jī)器人從平面行走到斜坡行走的遷移。

直接在實(shí)體機(jī)器人上進(jìn)行任務(wù)遷移的做法雖然可行, 但會(huì)造成機(jī)器人與環(huán)境之間的交互次數(shù)過(guò)多, 加快機(jī)器人的機(jī)械磨損, 并減少其使用壽命。針對(duì)上述問題, 一種可行的方法是先在仿真環(huán)境中進(jìn)行訓(xùn)練, 然后在現(xiàn)實(shí)環(huán)境中部署(sim-to-real)。通過(guò)遷移學(xué)習(xí), 將在仿真環(huán)境中訓(xùn)練好的穩(wěn)定策略遷移到真實(shí)環(huán)境中, 策略在新環(huán)境中僅通過(guò)少量探索即可達(dá)到要求。然而, 仿真環(huán)境與現(xiàn)實(shí)環(huán)境通常因差距過(guò)大而不匹配, 即產(chǎn)生現(xiàn)實(shí)鴻溝(reality gap), 這是遷移學(xué)習(xí)中面臨的一個(gè)非常重要的問題。

一種可行的辦法是構(gòu)造更真實(shí)的物理模擬器, 使得仿真過(guò)程中的環(huán)境及其生成的數(shù)據(jù)更接近現(xiàn)實(shí)環(huán)境。Koenemann 等[61]在仿真環(huán)境 MuJoCo[62]中實(shí)現(xiàn)全身的模型預(yù)測(cè)控制器(model predictive control, MPC), 并將其應(yīng)用于實(shí)體機(jī)器人 HRP-2 的全身多點(diǎn)接觸實(shí)驗(yàn), 實(shí)現(xiàn)機(jī)器人在用桌子作為額外支撐來(lái)保持平衡的同時(shí)可以伸手觸摸到目標(biāo)物體, 如圖5 所示。

James 等[63]利用深度 Q 網(wǎng)絡(luò)在仿真環(huán)境中訓(xùn)練7 自由度的機(jī)器人手臂抓取物體, 并將策略直接遷移到實(shí)體機(jī)器人上。Johns 等[64]提出一個(gè)可以預(yù)測(cè)機(jī)器人手臂所有抓握姿勢(shì)的評(píng)價(jià)函數(shù), 用于平行爪抓取, 并綜合使用仿真環(huán)境和實(shí)體環(huán)境中的深度圖像數(shù)據(jù), 利用卷積神經(jīng)網(wǎng)絡(luò), 將深度圖像映射到實(shí)際的抓取中。Tan 等[65]通過(guò)改進(jìn)物理模擬器并學(xué)習(xí)可靠的策略來(lái)縮小仿真與現(xiàn)實(shí)的差距, 使四足機(jī)器人Minitaur 可以在仿真環(huán)境學(xué)習(xí)小跑和奔馳的步態(tài)控制后, 遷移到現(xiàn)實(shí)環(huán)境中。他們?cè)O(shè)計(jì)一個(gè)用來(lái)激勵(lì)快速向前運(yùn)動(dòng)并懲罰高量能耗的獎(jiǎng)勵(lì)函數(shù):

另一種方法是域適應(yīng)(domain adaptation)。與構(gòu)造更真實(shí)的物理模擬器不同, 它并不要求逼真的物理模擬器, 而是將仿真環(huán)境中(源域)訓(xùn)練得到的策略在現(xiàn)實(shí)環(huán)境(目標(biāo)域)中進(jìn)行再適應(yīng), 其背后的假設(shè)是, 不同的領(lǐng)域之間具有共同的特征, 在一個(gè)域中學(xué)習(xí)得到的行為和特征能夠幫助在另一個(gè)域中學(xué)習(xí)。Christiano 等[66]利用從現(xiàn)實(shí)環(huán)境中得到的數(shù)據(jù)訓(xùn)練一個(gè)逆動(dòng)力學(xué)模型, 并利用這個(gè)模型, 將仿真過(guò)程中學(xué)到的策略遷移到實(shí)體機(jī)器人 Fetch 上。Tzeng 等[67]利用成對(duì)約束(pairwise constraints)來(lái)學(xué)習(xí)不同域之間的共同特征, 在機(jī)器人狀態(tài)估計(jì)的背景下解決視覺輸入的域適應(yīng)問題。然而, 在遷移到現(xiàn)實(shí)環(huán)境中時(shí), 仍需要進(jìn)行域適應(yīng)訓(xùn)練, 域隨機(jī)化(domain randomization)可以有效地避免進(jìn)行適應(yīng)訓(xùn)練。這種方法的主要思想是, 如果隨機(jī)化仿真環(huán)境中的參數(shù)足夠多樣化, 那么也可以將真實(shí)環(huán)境視為仿真環(huán)境的一個(gè)變種。一種常見的方法是隨機(jī)化視覺特征參數(shù), 這種方法在基于視覺的機(jī)器人策略中經(jīng)常被使用。Tobin 等[68]用仿真器隨機(jī)化視覺特征參數(shù)后渲染得到的圖像來(lái)訓(xùn)練物體檢測(cè)器, 并將得到的物體檢測(cè)器用于在真實(shí)機(jī)器人上進(jìn)行抓取控制。除隨機(jī)化視覺特征參數(shù)外, 利用隨機(jī)化動(dòng)力學(xué)參數(shù)來(lái)訓(xùn)練操作策略也被廣泛應(yīng)用。Peng 等[69]在訓(xùn)練過(guò)程中隨機(jī)化仿真環(huán)境的動(dòng)力學(xué)參數(shù)(如質(zhì)量、摩擦力和阻尼系數(shù)等), 使生成的策略能夠適應(yīng)很多不同的動(dòng)力學(xué)參數(shù)。他們?cè)跈C(jī)器人手臂物體推動(dòng)任務(wù)中進(jìn)行方法驗(yàn)證, 成功地使機(jī)器人手臂可以將物體從隨機(jī)初始化的位置移動(dòng)到目標(biāo)位置。然而, 在他們的工作中, 隨機(jī)化仿真環(huán)境的動(dòng)力學(xué)參數(shù)需要手動(dòng)調(diào)整。為此, Chebotar 等[70]提出一種可以在與現(xiàn)實(shí)環(huán)境交互的過(guò)程中自動(dòng)學(xué)習(xí)仿真環(huán)境動(dòng)力學(xué)參數(shù)分布的域適應(yīng)方法。該方法被用于兩個(gè)任務(wù): 插入孔內(nèi)(swing-peg-in-hole)和打開抽屜(drawer opening)。也有研究者同時(shí)隨機(jī)化視覺特征參數(shù)和動(dòng)力學(xué)參數(shù)。Andrychowicz 等[71]利用強(qiáng)化學(xué)習(xí)方法, 在仿真環(huán)境中訓(xùn)練 Shadow 機(jī)器人靈巧手的操作策略, 并將得到的策略遷移到實(shí)體 Shadow 機(jī)器人靈巧手上, 成功地實(shí)現(xiàn)積木塊在靈巧手中通過(guò)視覺感知從初始狀態(tài)到目標(biāo)狀態(tài)的旋轉(zhuǎn)操作, 如圖6 所示。Du 等[6]提出一種通過(guò)迭代搜索過(guò)程, 自動(dòng)使仿真中系統(tǒng)參數(shù)分布接近現(xiàn)實(shí)世界中參數(shù)分布的方法。

除現(xiàn)實(shí)鴻溝外, 遷移學(xué)習(xí)中還經(jīng)常出現(xiàn)災(zāi)難性遺忘(catastrophic forget)問題, 即當(dāng)學(xué)習(xí)完成一項(xiàng)新任務(wù)時(shí), 會(huì)忘記之前的任務(wù)。針對(duì)這一問題, Rusu等[72]提出漸進(jìn)式網(wǎng)絡(luò)(progressive network), 該網(wǎng)絡(luò)橫向連接到先前任務(wù)習(xí)得的特征, 利用先驗(yàn)知識(shí)有效地避免遺忘。同年, 他們利用漸進(jìn)式網(wǎng)絡(luò), 將機(jī)器人手臂的策略從仿真環(huán)境遷移到現(xiàn)實(shí)環(huán)境中[73], 如圖 7 所示。Blum 等[74]采用記憶重放(memory re-place)方法, 對(duì)當(dāng)前以及之前的環(huán)境信息進(jìn)行聯(lián)合優(yōu)化, 有效地降低了災(zāi)難性遺忘的風(fēng)險(xiǎn)。Sharma 等[75]以機(jī)器人織物為背景, 研究自動(dòng)確定在模擬中訓(xùn)練的模型何時(shí)可以可靠地轉(zhuǎn)移到物理機(jī)器人上的策略。

圖6 靈巧手將木塊從初始狀態(tài)旋轉(zhuǎn)到目標(biāo)狀態(tài)[71]

2.4 基于發(fā)展學(xué)習(xí)的方法

相比于隱式地借鑒人的機(jī)理的模仿學(xué)習(xí), 發(fā)展學(xué)習(xí)指的是通過(guò)顯式地借鑒人的認(rèn)知發(fā)展機(jī)理來(lái)學(xué)習(xí)的機(jī)器人技能。皮亞杰提出關(guān)于兒童認(rèn)知發(fā)展的 4 個(gè)階段: 感知運(yùn)動(dòng)階段、前運(yùn)算階段、具體運(yùn)算階段和形式運(yùn)算階段。越往后的階段越能以更復(fù)雜的方式去理解世界, 該思想為機(jī)器人學(xué)習(xí)提供了理論基礎(chǔ)。Brooks 等[76]提出實(shí)現(xiàn)智能的 4 個(gè)關(guān)鍵要素: 發(fā)展、社交、具身和融合, 并根據(jù)這些要素設(shè)計(jì)一個(gè)類人的智能系統(tǒng)。Weng 等[77]系統(tǒng)地提出機(jī)器人自主心智發(fā)展這一概念, 認(rèn)為可以通過(guò)借鑒人從嬰兒到成人的智能發(fā)育過(guò)程來(lái)實(shí)現(xiàn)機(jī)器人的智能, 借助自身攜帶的傳感器和執(zhí)行器與外部環(huán)境進(jìn)行交互, 并像人一樣在交互過(guò)程中逐漸提升智能水平。Asada 等[78]提出認(rèn)知發(fā)展機(jī)器人(cognitive de-velopmental robotics, CDR), 這是設(shè)計(jì)仿人機(jī)器人的一種全新的方法。自此, 基于認(rèn)知發(fā)展思想來(lái)研究機(jī)器人學(xué)習(xí)的發(fā)展機(jī)器人學(xué)(developmental robotics)成為機(jī)器人領(lǐng)域的一個(gè)核心內(nèi)容[79–80]。

1998 年, Brooks等[81]研發(fā)的Cog機(jī)器人(圖8(a))是最早用在認(rèn)知發(fā)展機(jī)器人研究中的機(jī)器人之一, 用于社交學(xué)習(xí)[88]、主動(dòng)視覺和啟發(fā)式學(xué)習(xí)[89]等研究中。Kozima[82]開發(fā)的 Infanoid 機(jī)器人(圖 8(b))廣泛用于兒童與機(jī)器人的交互實(shí)驗(yàn)中, 用來(lái)研究人類的社交發(fā)展。SARCOS 公司[83]研發(fā)的 CB 機(jī)器人(圖8(c))用于研究運(yùn)動(dòng)控制和社會(huì)學(xué)習(xí)任務(wù), 以便更好地理解人與機(jī)器人之間的交互行為。Minato 等[84]開發(fā)的 CB2 機(jī)器人(圖 8(d)), 全身覆蓋分布式的觸覺傳感器, 主要用于研究機(jī)器人感知運(yùn)動(dòng)方面的發(fā)展。此后, 在歐盟第六和第七框架計(jì)劃支持下, 一款外形為兩歲兒童的仿人機(jī)器人 iCub(圖 8(e))被研發(fā)出來(lái)[85]。iCub 的軟件和硬件均是開源的, 使得它成為發(fā)展機(jī)器人研究中的一個(gè)基準(zhǔn)平臺(tái)。Ishihara等[86]開發(fā)一款嬰兒機(jī)器人 Affetto(圖 8(f)), 主要用于研究嬰兒機(jī)器人與人類看護(hù)者之間的情感交流。Kerzel 等[87]開發(fā)的仿人機(jī)器人 NICO(圖 8(g))用于神經(jīng)認(rèn)知建模和多模態(tài)人機(jī)交互方面的研究。此外, 還有 ASIMO[90], QRIO[91], Nao[92]和 PR2[93]等仿人機(jī)器人相繼研制。

圖7 仿真環(huán)境到真實(shí)環(huán)境的機(jī)器人手臂遷移學(xué)習(xí)[73]

圖8 用于研究認(rèn)知發(fā)展學(xué)習(xí)的機(jī)器人[81–87]

通過(guò)內(nèi)在動(dòng)機(jī)(intrinsic motivation)來(lái)驅(qū)動(dòng)機(jī)器人進(jìn)行自主探索學(xué)習(xí)是發(fā)展機(jī)器人研究中的常用方法。內(nèi)在動(dòng)機(jī)的概念最出現(xiàn)在心理學(xué)中。Baldas-sarre[94]將內(nèi)在動(dòng)機(jī)行為定義為生物體在沒有明確目標(biāo)情況下“自由”選擇的動(dòng)作。內(nèi)在動(dòng)機(jī)可以劃分為基于知識(shí)的內(nèi)在動(dòng)機(jī)和基于能力的內(nèi)在動(dòng)機(jī)。

1)基于知識(shí)的內(nèi)在動(dòng)機(jī)。可以分為基于新奇性的內(nèi)在動(dòng)機(jī)以及基于預(yù)測(cè)的內(nèi)在動(dòng)機(jī)兩類[95]。Huang 等[96]開發(fā)一個(gè)整合了新奇性、習(xí)慣機(jī)制和強(qiáng)化學(xué)習(xí)的用于發(fā)展機(jī)器人的評(píng)價(jià)系統(tǒng), 并在 SAIL移動(dòng)機(jī)器人平臺(tái)上得到了實(shí)驗(yàn)驗(yàn)證。Oudeyer 等[97]提出一個(gè)模擬內(nèi)在動(dòng)機(jī)的系統(tǒng) IAC(intelligent ada-ptive curiosity), 用于驅(qū)動(dòng)機(jī)器人在連續(xù)嘈雜的不均勻環(huán)境中自主發(fā)展學(xué)習(xí), 最終產(chǎn)生越來(lái)越復(fù)雜的行為模式。Oudeyer 等[98]和 Gottlieb 等[99]對(duì) IAC 系統(tǒng)做了進(jìn)一步的闡述和完善。Nguyen 等[100]將內(nèi)在動(dòng)機(jī)學(xué)習(xí)和模仿學(xué)習(xí)結(jié)合起來(lái), 提出一種社會(huì)指導(dǎo)性的內(nèi)在動(dòng)機(jī)系統(tǒng) SGIM-D(socially guided intrinsic motivation by demonstration), 可在連續(xù)的高維機(jī)器人感知運(yùn)動(dòng)空間中在線學(xué)習(xí)反模型。Hester 等[101]提出 Texplore-Vanir 算法, 將基于隨機(jī)森林的模型學(xué)習(xí)與兩種新穎性內(nèi)在獎(jiǎng)勵(lì)相結(jié)合, 一種探索模型預(yù)測(cè)不確定的地方, 另一種獲得其模型尚未經(jīng)過(guò)訓(xùn)練的新穎經(jīng)驗(yàn)。

2)基于能力的內(nèi)在動(dòng)機(jī)。Wei 等[102]借鑒人類跌倒時(shí)的表現(xiàn), 提出一種新的機(jī)器人跌倒保護(hù)方法。Luo 等[103]討論機(jī)器人像嬰兒一樣自主學(xué)習(xí)手臂趨近能力(reaching)這一問題, 借鑒嬰兒從出生到4 個(gè)月期間發(fā)展出手臂趨近能力的最新機(jī)理, 提出一個(gè)基于 motor babling 的三階段學(xué)習(xí)框架, 如圖 9所示。在第一階段, 提出一種基于自動(dòng)編碼器的本體感知模型, 用于發(fā)展機(jī)器人的本體感覺; 在第二階段, 提出一種簡(jiǎn)化的模擬注視功能的策略; 在第三階段, 提出一個(gè)新的正演模型和兩個(gè)反演模型。該框架在 PKU-HR6.0II 上得到驗(yàn)證, 表現(xiàn)出良好的適應(yīng)性。

圖9 機(jī)器人手臂趨近能力自主學(xué)習(xí)三階段框架圖[103]

受 Wei 等[102]和 Luo[103]等啟發(fā), Liu 等[104]借鑒人類學(xué)習(xí)擊鼓的過(guò)程, 提出機(jī)器人自主學(xué)習(xí)擊鼓技能的新途徑。機(jī)器人首先通過(guò)其運(yùn)動(dòng)系統(tǒng)和聲音之間的重復(fù)感覺運(yùn)動(dòng)經(jīng)驗(yàn)來(lái)發(fā)展學(xué)習(xí)它的內(nèi)部模型, 然后在開放式學(xué)習(xí)方式下, 根據(jù)聽覺反饋, 不斷地調(diào)整動(dòng)作, 該方法的整個(gè)框架如圖 10 所示。Qureshi等[105]提出一種用于從人機(jī)交互經(jīng)驗(yàn)中學(xué)習(xí)社交技能的強(qiáng)化學(xué)習(xí)框架, 機(jī)器人通過(guò)基于動(dòng)作的預(yù)測(cè)模型來(lái)獲得內(nèi)在動(dòng)機(jī)獎(jiǎng)勵(lì)。然而, 機(jī)器人并不能自主采樣目標(biāo), 進(jìn)行有效的探索。針對(duì)這一問題, Laver-sanne-Finot 等[11]提出內(nèi)在動(dòng)機(jī)驅(qū)動(dòng)的目標(biāo)探索框架IMGEPs (intrinsically motivated goal exploration pro-cesses), 用深度表示學(xué)習(xí)算法來(lái)學(xué)習(xí)目標(biāo)的表示, 并將學(xué)習(xí)得到的表示作為探索算法的目標(biāo)空間。隨后, Vulin 等[106]受嬰兒通過(guò)身體互動(dòng)探索世界這一內(nèi)在動(dòng)機(jī)的啟發(fā), 使用力傳感器來(lái)模擬觸覺感知, 并利用觸覺信息來(lái)提高機(jī)器人學(xué)習(xí)技能的能力。

除通過(guò)內(nèi)在動(dòng)機(jī)來(lái)驅(qū)動(dòng)機(jī)器人進(jìn)行自主探索學(xué)習(xí)外, 社交學(xué)習(xí)(social learning)也是發(fā)展機(jī)器人研究中的重要方法[95]。Meltzoff 等[107]發(fā)現(xiàn)新生兒出生后就展現(xiàn)出模仿他人表情和行為的本能。War-neken 等[108]在人類嬰兒與靈長(zhǎng)類動(dòng)物的比較心理學(xué)研究中表示, 2 歲左右的兒童傾向于無(wú)私合作, 而在黑猩猩群體中則沒有觀察到這種現(xiàn)象。這些發(fā)展心理學(xué)的研究實(shí)例為機(jī)器人社交學(xué)習(xí)領(lǐng)域的研究提供了堅(jiān)實(shí)的基礎(chǔ)。Demiris 等[109]基于 AIM兒童心理學(xué)模仿模型, 在 HAMMER 框架上實(shí)現(xiàn)機(jī)器人模仿技能的獲取。HAMMER 框架包括一組成對(duì)的正、逆模型, 其中正模型建立隨機(jī)運(yùn)動(dòng)與視覺、本體感覺或環(huán)境結(jié)果間的關(guān)聯(lián), 與嬰兒發(fā)展的運(yùn)動(dòng)蹣跚階段類似[109–111], 該框架的具體結(jié)構(gòu)如圖 11 所示。Do-miney 等[112]對(duì)合作與共享意圖的社交技能建模, 把一系列游戲動(dòng)作存儲(chǔ)為共享方案, 形成協(xié)作認(rèn)知表征的核心。

圖10 機(jī)器人自主學(xué)習(xí)擊鼓技能框架圖[104]

無(wú)論是基于內(nèi)在動(dòng)機(jī)的自主探索學(xué)習(xí)還是社交學(xué)習(xí), 都有效地借鑒了人從嬰兒到成人的智能發(fā)展和技能學(xué)習(xí)過(guò)程。相比于傳統(tǒng)的方法, 基于發(fā)展學(xué)習(xí)的方法的優(yōu)點(diǎn)主要體現(xiàn)在 3 個(gè)方面[97,113]: 開放式學(xué)習(xí)、促進(jìn)技能的再利用和層次化學(xué)習(xí)?;趶?qiáng)化學(xué)習(xí)的方法無(wú)需大量帶標(biāo)簽的數(shù)據(jù)即可學(xué)到新的技能, 并且擁有較好的理論保證, 但是需要與環(huán)境交互不斷試錯(cuò), 會(huì)對(duì)機(jī)器人硬件造成不可逆轉(zhuǎn)的損耗。基于模仿學(xué)習(xí)的方法無(wú)需與環(huán)境的交互數(shù)據(jù), 但是需要大量的示教數(shù)據(jù), 同樣產(chǎn)生昂貴的成本?;谶w移學(xué)習(xí)的方法有效地降低了獲取數(shù)據(jù)方面的代價(jià), 卻面臨現(xiàn)實(shí)鴻溝與災(zāi)難性遺忘等問題?;诎l(fā)展學(xué)習(xí)的方法另辟蹊徑, 不再單純以數(shù)據(jù)驅(qū)動(dòng)的方式訓(xùn)練模型來(lái)獲取技能, 而是通過(guò)借鑒人的行為機(jī)理, 讓機(jī)器人習(xí)得新技能。四類機(jī)器人學(xué)習(xí)方法的性能對(duì)比如表 1 所示。

3 存在的挑戰(zhàn)和未來(lái)趨勢(shì)

盡管當(dāng)前機(jī)器人學(xué)習(xí)領(lǐng)域已經(jīng)取得諸多成果, 但在降低訓(xùn)練成本、提高學(xué)習(xí)效率、減弱對(duì)數(shù)據(jù)的依賴性以及增強(qiáng)技能的魯棒性與泛化性等方面仍然存在一些亟待解決的問題。本文提出目前機(jī)器人學(xué)習(xí)領(lǐng)域存在的挑戰(zhàn), 同時(shí)對(duì)機(jī)器人學(xué)習(xí)的未來(lái)發(fā)展趨勢(shì)加以探討。

3.1 基于小數(shù)據(jù)的學(xué)習(xí)

無(wú)論是基于強(qiáng)化學(xué)習(xí)的方法還是基于遷移學(xué)習(xí)的方法, 若想使機(jī)器人能夠?qū)崿F(xiàn)自主學(xué)習(xí), 均需要大量的訓(xùn)練數(shù)據(jù)。獲得大量的訓(xùn)練數(shù)據(jù)往往代價(jià)高昂, 因此降低對(duì)數(shù)據(jù)的需求對(duì)機(jī)器人學(xué)習(xí)的發(fā)展具有重要價(jià)值。目前主流的研究方向大致可分成以下三類: 以在小數(shù)據(jù)下快速學(xué)習(xí)為主導(dǎo)思想的遷移學(xué)習(xí)[55]和元學(xué)習(xí)[49], 以有效利用舊數(shù)據(jù)為主導(dǎo)思想的離線強(qiáng)化學(xué)習(xí)(offline reinforcement learning)[114]和異策強(qiáng)化學(xué)習(xí)(off-policy reinforcement learning)[115–116], 以減少標(biāo)注工作為主導(dǎo)思想的無(wú)監(jiān)督、自監(jiān)督和半監(jiān)督模型。近年來(lái), 這 3 個(gè)方向的研究均已取得一定的成績(jī), 但降低對(duì)數(shù)據(jù)需求的方法目前差強(qiáng)人意, 有待進(jìn)一步的探索。

表1 4類機(jī)器人學(xué)習(xí)方法的特點(diǎn)對(duì)比

3.2 合理解決稀疏獎(jiǎng)勵(lì)問題

結(jié)合強(qiáng)化學(xué)習(xí)的模仿學(xué)習(xí)方法和結(jié)合強(qiáng)化學(xué)習(xí)的遷移學(xué)習(xí)方法可以獲得更好的性能, 因此可以在一定程度上認(rèn)為強(qiáng)化學(xué)習(xí)是機(jī)器人學(xué)習(xí)的基礎(chǔ), 也是實(shí)現(xiàn)具有自適應(yīng)性、自學(xué)習(xí)能力的智能機(jī)器人的重要途徑[117]。強(qiáng)化學(xué)習(xí)本身就是在嘗試獲得最大獎(jiǎng)勵(lì), 因此如何設(shè)計(jì)合理的回報(bào)函數(shù)直接影響最后學(xué)到的策略優(yōu)劣。然而, 很多強(qiáng)化學(xué)習(xí)問題的獎(jiǎng)勵(lì)往往是稀疏的(如 Montezuma’s Revenge 游戲[118]), 加上機(jī)器人龐大的狀態(tài)空間和動(dòng)作空間組合, 往往導(dǎo)致學(xué)習(xí)困難。針對(duì)上述問題, 很多研究者提出解決方法。一類方法是通過(guò)內(nèi)在動(dòng)機(jī)來(lái)驅(qū)動(dòng)機(jī)器人進(jìn)行自主探索學(xué)習(xí), 另一類方法則是改善或細(xì)化學(xué)習(xí)方式。HER 通過(guò)“后見之明”改善稀疏獎(jiǎng)勵(lì)下學(xué)習(xí)困難的問題[119], 逆強(qiáng)化學(xué)習(xí)(inverse reinforce-ment learning)[120]則從專家示教中學(xué)習(xí)回報(bào)函數(shù), 層次化學(xué)習(xí)(hierarchical reinforcement learning)也可以有效地解決上述問題[121–122]。然而, 目前大多數(shù)層次化學(xué)習(xí)工作都是人工指定并訓(xùn)練好層次[123–124], 這樣的層次化學(xué)習(xí)不具有通用性。因此, 如何在訓(xùn)練過(guò)程中自動(dòng)形成層次化結(jié)構(gòu), 逐漸成為層次化學(xué)習(xí)領(lǐng)域的前沿和熱點(diǎn)。對(duì)于層次的劃分有兩種, 一種是時(shí)間上連續(xù)動(dòng)作的抽象, 另一種是不同層級(jí)控制模塊的抽象。前者的主要想法是自動(dòng)學(xué)習(xí)連續(xù)的動(dòng)作序列, 如 DDO[125]和 MLSH[126–127]等; 后者的主要思想是上層生成子目標(biāo)交給下層完成, 如DIAYN[128], Chaining[129]和 DADS[130]等??傮w而言, 層次化學(xué)習(xí)解決問題的能力有所突破, 但仍有很大的改進(jìn)空間, 如何獲得更加有效、合理的層次化結(jié)構(gòu)的形成策略有待進(jìn)一步探索。

3.3 有效填補(bǔ)現(xiàn)實(shí)鴻溝

在仿真環(huán)境中訓(xùn)練模型可以大大減少實(shí)體機(jī)器人的交互次數(shù), 降低機(jī)器人的損耗, 從而有效地降低訓(xùn)練代價(jià)。同時(shí), 在仿真環(huán)境中訓(xùn)練還可以避免出現(xiàn)安全隱患, 并且可以采用并行訓(xùn)練的方法來(lái)提高訓(xùn)練速度[70]。然而, 模擬器對(duì)物理環(huán)境的建模存在一定的誤差, 因此在仿真環(huán)境中學(xué)習(xí)到的最優(yōu)策略難以直接在現(xiàn)實(shí)環(huán)境中應(yīng)用。盡管域適應(yīng)[66–67]、域隨機(jī)化[68–69,71,131]和漸進(jìn)式網(wǎng)絡(luò)[72–73]的提出與應(yīng)用在一定程度上解決了這一問題, 但是如何在具有較大差別的仿真環(huán)境與物理環(huán)境之間快速準(zhǔn)確地實(shí)現(xiàn)技能遷移, 仍然是機(jī)器人操作技能學(xué)習(xí)的重要研究方向。

除上述問題外, 如何讓機(jī)器人更好地借鑒生物的機(jī)理, 以便習(xí)得相應(yīng)技能; 如何提高習(xí)得技能的魯棒性, 使其可以快速適用于新的環(huán)境, 或適配于新的實(shí)體機(jī)器人; 如何管理已獲得的技能, 并將已有技能自主地結(jié)合, 形成新技能; 針對(duì)相同的任務(wù), 如何使機(jī)器人在不同的環(huán)境中自主選擇最優(yōu)策略等也可能會(huì)成為機(jī)器人學(xué)習(xí)這一領(lǐng)域未來(lái)的研究 熱點(diǎn)。

4 結(jié)論

與傳統(tǒng)的采用固定編程方式的機(jī)器人相比, 機(jī)器人學(xué)習(xí)可以使機(jī)器人具有一定的學(xué)習(xí)和決策能力, 充分適應(yīng)復(fù)雜多變的非結(jié)構(gòu)化應(yīng)用場(chǎng)景, 展現(xiàn)良好的自主性、適應(yīng)性與智能性, 是機(jī)器人能夠在農(nóng)業(yè)生產(chǎn)、工業(yè)制造和醫(yī)療服務(wù)等領(lǐng)域廣泛應(yīng)用的重要基礎(chǔ)。

隨著人工智能技術(shù)與機(jī)器人技術(shù)的快速發(fā)展, 基于強(qiáng)化學(xué)習(xí)的方法、基于模仿學(xué)習(xí)的方法、基于遷移學(xué)習(xí)的方法和基于發(fā)展學(xué)習(xí)的方法普遍應(yīng)用于機(jī)器人學(xué)習(xí)領(lǐng)域。同時(shí), 隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺、語(yǔ)音信號(hào)處理和自然語(yǔ)言處理等領(lǐng)域的廣泛應(yīng)用, 機(jī)器人學(xué)習(xí)方法與深度學(xué)習(xí)相結(jié)合也取得一系列重大成果。但是, 由于機(jī)器人運(yùn)動(dòng)場(chǎng)景和操作任務(wù)的特殊性, 機(jī)器人學(xué)習(xí)往往需要較高的時(shí)間代價(jià)和較昂貴的成本, 因此如何降低學(xué)習(xí)成本, 實(shí)現(xiàn)高效的技能學(xué)習(xí)是未來(lái)的一個(gè)重要研究方向。此外, 讓機(jī)器人習(xí)得的技能更具自主性與適應(yīng)性, 實(shí)現(xiàn)真正的智能化, 也將是機(jī)器人研究領(lǐng)域的前沿與熱點(diǎn)。最后, 由于深度學(xué)習(xí)的可解釋性較差, 基于深度學(xué)習(xí)的機(jī)器人學(xué)習(xí)方法仍然缺乏一定的理論支撐, 還需進(jìn)一步的研究和論證。

[1] Nof S Y. Handbook of industrial robotics. New Jersey: John Wiley & Sons, 1999

[2] Ackerman E, Guizzo E. Darpa robotics challenge: amazing moments, lessons learned, and what’s next. IEEE Spectrum, 2015, 3(7): 34–41

[3] Atkeson C G, Babu Benzun P W, Banerjee N, et al. What happened at the DARPA robotics challenge finals // The DARPA Robotics Challenge Finals: Humanoid Robots to the Rescue. Berlin: Springer, 2018: 667–684

[4] Michie D, Spiegelhalter D J, Taylor C C, et al. Machine learning. Neural and Statistical Classification. London: Ellis Horwood, 1994

[5] Xia F, Li C, Martín-Martín R, et al. Relmogen: Inte-grating motion generation in reinforcement learning for mobile manipulation // IEEE International Con-ference on Robotics and Automation (ICRA). Xi’an, 2021: 4583–4590

[6] Du Y, Watkins O, Darrell T, et al. Auto-tuned sim-to-real transfer // IEEE International Conference on Ro-botics and Automation (ICRA). Xi’an, 2021: 1290–1296

[7] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [EB/OL]. (2019–07–05)[2023–05–09]. https://arxiv.org/abs/1509. 02971

[8] Heess N, Dhruva T B, Sriram S, et al. Emergence of locomotion behaviours in rich environments [EB/OL]. (2017–07–10)[2023–05–09]. https://arxiv.org/abs/1707. 02286

[9] Brakel P, Bohez S, Hasenclever L, et al. Learning coordinated terrain-adaptive locomotion by imitating a centroidal dynamics planner // IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Kyoto, 2022: 10335–10342

[10] Levine S, Pastor P, Krizhevsky A, et al. Learning hand-eye coordination for robotic grasping with large-scale data collection // International Symposium on Experi-mental Robotics (ISER). Tokyo, 2016: 173–184

[11] Laversanne-Finot A, Péré A, Oudeyer P Y. Intrinsically motivated exploration of learned goal spaces. Frontiers in Neurorobotics, 2021, 14: 555271

[12] 郭彤穎, 安東. 機(jī)器人系統(tǒng)設(shè)計(jì)及應(yīng)用. 北京: 化學(xué)工業(yè)出版社, 2016

[13] Cangelosi A, Schlesinger M. Developmental robotics: from babies to robots. Cambridge: MIT press, 2015

[14] Sutton R S, Barto A G. Introduction to reinforcement learning. Cambridge: MIT Press, 1998

[15] Bellman R. A markovian decision process. Journal of Mathematics and Mechanics, 1957, 17(56): 679–684

[16] Sutton R S, Barto A G. Reinforcement learning: an introduction. Cambridge: MIT Press, 2018.

[17] 劉建偉, 高峰, 羅雄麟. 基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[D]. 北京: 中國(guó)石油大學(xué), 2019

[18] 劉乃軍, 魯濤, 蔡瑩皓, 等. 機(jī)器人操作技能學(xué)習(xí)方法綜述. 自動(dòng)化學(xué)報(bào), 2019, 45(3): 458–470

[19] Kober J, Bagnell J A, Peters J. Reinforcement learning in robotics: a survey. International Journal of Robotics Research, 2013, 32(11): 1238–1274

[20] Kohl N, Stone P. Policy gradient reinforcement lear-ning for fast quadrupedal locomotion // IEEE Internatio-nal Conference on Robotics and Automation (ICRA). New Orleans, 2004: 2619–2624

[21] Kim H J, Jordan M I, Sastry S, et al. Autonomous helicopter flight via reinforcement learning // Neural Information Processing Systems (NeurIPS). Vancou-ver, 2004: 799–806

[22] Tedrake R, Zhang T W, Seung H S. Learning to walk in 20 minutes. Fourteenth Yale Workshop on Adaptive and Learning Systems, 2005, 355: 1939–1412

[23] Kober J, Peters J R. Policy search for motor primitives in robotics. Neural Information Processing Systems (NIPS), 2008, 21: 849–856

[24] Luo D, Wang Y, Wu X. Autonomously achieving bipe-dal locomotion skill via hierarchical motion model- ling // IEEE 14th International Workshop on Advanced Motion Control (AMC). Auckland, 2016: 121–128

[25] Levine S, Finn C, Darrell T, et al. End-to-end training of deep visuomotor policies. The Journal of Machine Learning Research, 2016, 17(1): 1334–1373

[26] Wei Y, Liu T, Deng Y, et al. Learning to chase a ball efficiently and smoothly for a wheeled robot // IEEE 24th International Conference on Mechatronics and Machine Vision in Practice (M2VIP). Auckland, 2017: 1–6

[27] Yamada J, Lee Y, Salhotra G, et al. Motion Planner Augmented Reinforcement Learning for Robot Ma-nipulation in Obstructed Environments // Conference on Robot Learning (CoRL). London, 2021: 589–603

[28] Weerakoon K, Sathyamoorthy A J, Patel U, et al. Terp: Reliable planning in uneven outdoor environments using deep reinforcement learning // IEEE Internatio-nal Conference on Robotics and Automation (ICRA). Philadelphia, 2022: 9447–9453

[29] Argall B D, Chernova S, Veloso M, et al. A survey of robot learning from demonstration. Robotics and Au-tonomous Systems, 2009, 57(5): 469–483

[30] 于建均, 門玉森, 阮曉鋼, 等. 模仿學(xué)習(xí)在機(jī)器人仿生機(jī)制研究中的應(yīng)用. 北京工業(yè)大學(xué)學(xué)報(bào), 2016, 42(2): 210–216

[31] Lozano-Perez T. Robot programming. Proceedings of the IEEE, 1983, 71(7): 821–841

[32] Segre A, DeJong G. Explanation-based manipulator learning: acquisition of planning ability through obser-vation // IEEE International Conference on Robotics and Automation (ICRA). St Louis, 1985: 555–560

[33] Muench S, Kreuziger J, Kaiser M, et al. Robot pro-gramming by demonstration (RPD) – using machine learning and user interaction methods for the deve-lopment of easy and comfortable robot programming systems // International Symposium on Industrial Robots (ISIR). Pasadena, 1994: 685

[34] Hovland G E, Sikka P, McCarragher B J. Skill acqui-sition from human demonstration using a hidden Markov model // IEEE International Conference on Robotics and Automation (ICRA). Minneapolis, 1996: 2706–2711

[35] Schaal S. Is imitation learning the route to humanoid robots?. Trends in Cognitive Sciences, 1999, 3(6): 233–242

[36] Calinon S, Guenter F, Billard A. Goal-directed imita-tion in a humanoid robot // IEEE International Confe-rence on Robotics and Automation (ICRA). Barcelona, 2005: 299–304

[37] Peters J, Mülling K, Kober J, et al. Towards motor skill learning for robotics // The 14th International Sympo-sium ISRR. Lucerne, 2011: 469–482

[38] Luo D, Han X, Ding Y, et al. Learning push recovery for a bipedal humanoid robot with dynamical move-ment primitives // IEEE-RAS International Confe-rence on Humanoid Robots (Humanoids). Seoul, 2015: 1013–1019

[39] Guenter F, Hersch M, Calinon S, et al. Reinforcement learning for imitating constrained reaching move-ments. Advanced Robotics, 2007, 21(13): 1521–1544

[40] Hester T, Vecerik M, Pietquin O, et al. Deep Q-learning from demonstrations // Association for the Advance-ment of Artificial Intelligence (AAAI). New Orleans, 2018: 3223–3230

[41] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Gene-rative adversarial networks. Communications of the ACM, 2020, 63(11): 139–144

[42] Ho J, Ermon S. Generative adversarial imitation lear-ning // Neural Information Processing Systems (Neur-IPS). Barcelona, 2016: 4565–4573

[43] Merel J, Tassa Y, Dhruva T B, et al. Learning human behaviors from motion capture by adversarial imitation [EB/OL]. (2017–07–10) [2023–05–09]. https://arxiv. org/abs/1707.02201

[44] Tsurumine Y, Cui Y, Yamazaki K, et al. Generative adversarial imitation learning with deep p-network for robotic cloth manipulation // IEEE-RAS International Conference on Humanoid Robots (Humanoids). Toron-to, 2019: 274–280

[45] Peng X B, Abbeel P, Levine S, et al. Deepmimic: Example-guided deep reinforcement learning of phy-sics-based character skills. ACM Transactions on Gra-phics, 2018, 37(4): 1–14

[46] Peng X B, Coumans E, Zhang T, et al. Learning agile robotic locomotion skills by imitating animals [EB/ OL]. (2020–04–02)[2023–05–09]. https://arxiv.org/abs/ 2004.00784

[47] Wei Y, Fang S, Lin W K, et al. Acquiring robot navi-gation skill with knowledge learned from demonstra-tion // IEEE International Conference on Development and Learning (ICDL). Beijing, 2021: 1–6

[48] Li X, Guo D, Liu H, et al. Embodied semantic scene graph generation // Conference on Robot Learning (CoRL). London, 2021: 1585–1594

[49] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks // Inter-national Conference on Machine Learning (ICML). Sydney, 2017: 1126–1135

[50] Finn C. Learning to learn with gradients phdthes [D]. Berkeley: University of California, 2018

[51] Duan Y, Andrychowicz M, Stadie B, et al. One-shot imitation learning // Advances in neural information processing systems, Long Beach, 2017: 1087–1098

[52] Hu Z, Li W, Gan Z, et al. Learning with dual demon-stration domains: random domain-adaptive meta-lear-ning. IEEE Robotics and Automation Letters, 2022, 7(2): 3523–3530

[53] Oh J, Guo Y, Singh S, et al. Self-imitation lear- ning // International Conference on Machine Learning (ICML). Stockholm, 2018: 3878–3887

[54] Luo S, Kasaei H, Schomaker L. Self-imitation lear-ning by planning // IEEE International Conference on Robotics and Automation (ICRA). Xi’an, 2021: 4823–4829

[55] Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345–1359

[56] Taylor M E, Kuhlmann G, Stone P. Autonomous transfer for reinforcement learning // International Conference on Autonomous Agents and Multiagent Systems (AAMAS). Estoril, 2008: 283–290

[57] Taylor M E, Stone P. Transfer learning for reinfor-cement learning domains: a survey. Journal of Machine Learning Research, 2009, 10(7): 1633–1685

[58] Thrun S, Mitchell T M. Lifelong robot learning. Ro-botics and Autonomous Systems, 1995, 15(1/2): 25–46

[59] Degrave J, Burm M, Kindermans P J, et al. Transfer learning of gaits on a quadrupedal robot. Adaptive Behavior, 2015, 23(2): 69–82

[60] Wang Y, Han X, Liu Z, et al. Modelling inter-task relations to transfer robot skills with three-way rbms // IEEE International Conference on Mechatronics and Automation (ICMA). Beijing, 2015: 1276–1282

[61] Koenemann J, Del Prete A, Tassa Y, et al. Whole-body model-predictive control applied to the HRP-2 huma-noid // IEEE/RSJ International Conference on Intelli-gent Robots and Systems (IROS). Hamburg, 2015: 3346–3351

[62] Todorov E, Erez T, Tassa Y. MuJoCo: a physics engi-ne for model-based control // IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Lisbon, 2012: 5026–5033

[63] James S, Johns E. 3D simulation for robot arm control with deep Q-learning [EB/OL]. (2016–12–13) [2023–05–09]. https://arxiv.org/abs/1609.03759

[64] Johns E, Leutenegger S, Davison A J. Deep learning a grasp function for grasping under gripper pose uncer-tainty // IEEE/RSJ International Conference on Inte-lligent Robots and Systems (IROS). Daejeon, 2016: 4461–4468

[65] Tan J, Zhang T, Coumans E, et al. Sim-to-real: lear-ning agile locomotion for quadruped robots [EB/OL]. (2018–05–16)[2023–05–09]. https://arxiv.org/abs/1804. 10332

[66] Christiano P, Shah Z, Mordatch I, et al. Transfer from simulation to real world through learning deep inverse dynamics model [EB/OL]. (2016–10–11)[2023–05–09]. https://arxiv.org/abs/1610.03518

[67] Tzeng E, Devin C, Hoffman J, et al. Adapting deep visuomotor representations with weak pairwise con-straints // the 12th Workshop on the Algorithmic Foun-dations of Robotics (WAFR). Mesa, 2020: 688–703

[68] Tobin J, Fong R, Ray A, et al. Domain randomization for transferring deep neural networks from simulation to the real world // IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Vancouver, 2017: 23–30

[69] Peng X B, Andrychowicz M, Zaremba W, et al. Sim-to-real transfer of robotic control with dynamics randomization // IEEE International Conference on Robotics and Automation (ICRA). Brisbane, 2018: 3803–3810

[70] Chebotar Y, Handa A, Makoviychuk V, et al. Closing the sim-to-real loop: adapting simulation randomi-zation with real world experience // IEEE International Conference on Robotics and Automation (ICRA). Montreal, 2019: 8973–8979

[71] Andrychowicz M, Baker B, Chociej M, et al. Learning dexterous in-hand manipulation. International Journal of Robotics Research, 2020, 39(1): 3–20

[72] Rusu A A, Rabinowitz N C, Desjardins G, et al. Progressive neural networks [EB/OL]. (2022–10–12) [2023–05–09]. https://arxiv.org/abs/1606.04671

[73] Rusu A A, Ve?erík M, Roth?rl T, et al. Sim-to-real robot learning from pixels with progressive nets // Conference on Robot Learning (CoRL). Mountain View, 2017: 262–270

[74] Blum H, Milano F, Zurbrügg R, et al. Self-improving semantic perception for indoor localisation // Confe-rence on Robot Learning (CoRL). Auckland, 2022: 1211–1222

[75] Sharma S, Novoseller E, Viswanath V, et al. Learning switching criteria for sim2real transfer of robotic fabric manipulation policies // IEEE 18th International Conference on Automation Science and Engineering (CASE). Mexico, 2022: 1116–1123

[76] Brooks R A, Breazeal C, Irie R, et al. Alternative essences of intelligence // Association for the Advan-cement of Artificial Intelligence (AAAI). Madison, 1998: 961–968

[77] Weng J, McClelland J, Pentland A, et al. Autonomous mental development by robots and animals. Science, 2001, 291: 599–600

[78] Asada M, MacDorman K F, Ishiguro H, et al. Cognitive developmental robotics as a new paradigm for the de-sign of humanoid robots. Robotics and Autonomous Systems, 2001, 37(2/3): 185–193

[79] Lungarella M, Metta G, Pfeifer R, et al. Developmental robotics: a survey. Connection Science, 2003, 15(4): 151–190

[80] Asada M, Hosoda K, Kuniyoshi Y, et al. Cognitive developmental robotics: a survey. IEEE Transactions on Autonomous Mental Development, 2009, 1(1): 12–34

[81] Brooks R A, Breazeal C, Marjanovi M, et al. The Cog project: building a humanoid robot // International Workshop on Computation for Metaphors, Analogy, and Agents. Aachen, 1998: 52–87

[82] Kozima H. Infanoid // Socially intelligent agents. Amsterdam: Kluwer Academic Publisher, 2002: 157–164

[83] Cheng G, Hyon S H, Morimoto J, et al. CB: a humanoid research platform for exploring neuroscience. Advan-ced Robotics, 2007, 21(10): 1097–1114

[84] Minato T, Yoshikawa Y, Noda T, et al. CB2: a child robot with biomimetic body for cognitive develop-mental robotics // IEEE-RAS International Conference on Humanoid Robots (Humanoids). Washington, 2007: 557–562

[85] Vernon D, Metta G, Sandini G. The iCub cognitive architecture: interactive development in a humanoid robot // IEEE International Conference on Develop-ment and Learning (ICDL). London, 2007: 122–127

[86] Ishihara H, Yoshikawa Y, Asada M. Realistic child robot “affetto” for understanding the caregiver-child attachment relationship that guides the child deve-lopment // Joint IEEE International Conference on Development and Learning and Epigenetic Robotics (ICDL-EpiRob). Frankfurt, 2011: 1–5

[87] Kerzel M, Strahl E, Magg S, et al. NICO — neuro-inspired companion: a developmental humanoid robot platform for multimodal interaction // IEEE Inter-national Conference on Robot and Human Interactive Communication (RO-MAN). Lisbon, 2017: 113–120

[88] Scassellati B. Theory of mind for a humanoid robot. Autonomous Robots, 2002, 12(1): 13–24

[89] Fitzpatrick P M, Metta G. Towards manipulation-driven vision // IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Lausanne, 2002: 43–48

[90] Shigemi S, Goswami A, Vadakkepat P. ASIMO and humanoid robot research at Honda // Humanoid Ro-botics: A Reference. Dordrecht: Springer, 2018: 55–90

[91] Geppert L. Qrio, the robot that could. IEEE Spectrum, 2004, 41(5): 34–37

[92] Gouaillier D, Hugel V, Blazevic P, et al. Mechatronic design of NAO humanoid // IEEE International Con-ference on Robotics and Automation (ICRA). Kobe, 2009: 769–774

[93] Bohren J, Rusu R B, Jones E G, et al. Towards autonomous robotic butlers: lessons learned with the PR2 // IEEE International Conference on Robotics and Automation (ICRA). Shanghai, 2011: 5568–5575

[94] Baldassarre G. What are intrinsic motivations? A bio-logical perspective // Joint IEEE International Confe-rence on Development and Learning and Epigenetic Robotics (ICDL-EpiRob). Frankfurt, 2011: 1–8

[95] Cangelosi A, Schlesinger M. Developmental robotics: from babies to robots. Cambridge: MIT Press, 2015

[96] Huang X, Weng J. Novelty and reinforcement learning in the value system of developmental robots // Procee-dings Second International Workshop on Epigenetic Robotics. Lund, 2002: 47–55

[97] Oudeyer P Y, Kaplan F, Hafner V V. Intrinsic motivation systems for autonomous mental develop-ment. IEEE Transactions on Evolutionary Computa-tion, 2007, 11(2): 265–286

[98] Oudeyer P Y, Kaplan F. What is intrinsic motivation? A typology of computational approaches. Frontiers in Neurorobotics, 2007, 1: no. 6

[99] Gottlieb J, Oudeyer P Y, Lopes M, et al. Information-seeking, curiosity, and attention: computational and neural mechanisms. Trends in Cognitive Sciences, 2013, 17(11): 585–593

[100] Nguyen S M, Oudeyer P Y. Socially guided intrinsic motivation for robot learning of motor skills. Autono-mous Robots, 2014, 36(3): 273–294

[101] Hester T, Stone P. Intrinsically motivated model lear-ning for developing curious robots. Artificial Intelli-gence, 2017, 247: 170–186

[102] Wei Y, Deng Y, Han X, et al. Biped robot falling mo-tion control with human-inspired active compliance // IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, 2016: 3860–3865

[103] Luo D, Hu F, Zhang T, et al. How does a robot develop its reaching ability like human infants do?. IEEE Transactions on Cognitive and Developmental Sys-tems, 2018, 10(3): 795–809

[104] Liu T, Zhang J, Wu X, et al. Robot learning to play drums with an open-ended internal model // IEEE International Conference on Robotics and Biomimetics (ROBIO). Kuala Lumpur, 2018: 305-311

[105] Qureshi A H, Nakamura Y, Yoshikawa Y, et al. Intrinsically motivated reinforcement learning for human–robot interaction in the real-world. Neural Networks, 2018, 107: 23–33

[106] Vulin N, Christen S, Stevi S, et al. Improved learning of robot manipulation tasks via tactile intrinsic motivation. IEEE Robotics and Automation Letters, 2021, 6(2): 2194–2201

[107] Meltzoff A N, Moore M K. Newborn-infants imitate adult facial gestures. Child Development, 1983, 54(3): 702–709

[108] Warneken F, Chen F, Tomasello M. Cooperative active-ties in young children and chimpanzees. Child Deve-lopment, 2006, 77(3): 640–663

[109] Demiris Y, Meltzoff A. The robot in the crib: a developmental analysis of imitation skills in infants and robots. Infant and Child Development, 2008, 17 (1): 43–53

[110] Demiris Y, Hayes G. Imitation as a dual-route process featuring predictive and learning components: a biologically plausible computational model // Dauten-hahn K, Nehaniv C L. Imitation in Animals and Arti-facts. Cambridge: MIT Press, 2002

[111] Demiris Y, Johnson M. Distributed, predictive percep-tion of actions: a biologically inspired robotics ar-chitecture for imitation and learning. Connection Science, 2003, 15: 231–243

[112] Dominey P F, Warneken F. The basis of shared in-tentions in human and robot cognition. New Ideas in Psychology, 2011, 29(3): 260–274

[113] Baldassarre G, Mirolli M. Intrinsically motivated lear-ning in natural and artificial systems. Berlin Heidel-berg: Springer, 2013

[114] Pfau D, Vinyals O. Connecting generative adversarial networks and actor-critic methods [EB/OL]. (2017–01–18) [2023–05–09]. https://arxiv.org/abs/1610.01945

[115] Schulman J, Levine S, Moritz P, et al. Trust region policy optimization // International Conference on Ma-chine Learning (ICML). Lille, 2015: 1889–1897

[116] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [EB/OL]. (2017–08–28) [2023–05–09]. https://arxiv.org/abs/1707.06347

[117] 陳學(xué)松, 楊宜民. 強(qiáng)化學(xué)習(xí)研究綜述. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(8): 2834–2838

[118] Kulkarni T D, Narasimhan K, Saeedi A, et al. Hierar-chical deep reinforcement learning: integrating tem-poral abstraction and intrinsic motivation [EB/OL]. (2016–04–20) [2023–05–09]. https://arxiv.org/abs/1604. 06057

[119] Andrychowicz M, Wolski F, Ray A, et al. Hindsight experience replay. 31st Conference on Neural Infor-mation Processing Systems (NIPS 2017). Long Beach, 2018: 1–11

[120] Asada M, Hosoda K, Kuniyoshi Y, et al. Cognitive developmental robotics: a survey. IEEE Transactions on Autonomous Mental Development, 2009, 1(1): 12–34

[121] Sutton R S, Precup D, Singh S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning. Artificial intelligence, 1999, 112(1/2): 181–211

[122] Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition. Journal of Artificial Intelligence Research, 2000, 13: 227–303

[123] Le H, Jiang N, Agarwal A, et al. Hierarchical imita-tion and reinforcement learning // International Confe-rence on Machine Learning (ICML). Stockholm, 2018: 2917–2926

[124] Tessler C, Givony S, Zahavy T, et al. A deep hierar-chical approach to lifelong learning in Minecraft // Association for the Advancement of Artificial Intel-ligence (AAAI). San Francisco, 2017: 3–6

[125] Fox R, Krishnan S, Stoica I, et al. Multi-level disco-very of deep options [EB/OL]. (2017–10–05) [2023–05–09]. https://arxiv.org/abs/1703.08294

[126] Frans K, Ho J, Chen X, et al. Meta learning shared hierarchies [EB/OL]. (2017–10–26) [2023–05–09]. https://arxiv.org/abs/1710.09767

[127] Nachum O, Gu S S, Lee H, et al. Data-efficient hierarchical reinforcement learning // Neural Informa-tion Processing Systems (NeurIPS). Montreal, 2018: 1–11

[128] Eysenbach B, Gupta A, Ibarz J, et al. Diversity is all you need: learning skills without a reward function [EB/OL]. (2018–10–09) [2023–05–09]. https://arxiv. org/abs/1802.06070

[129] Bagaria A, Konidaris G. Option discovery using deep skill chaining // International Conference on Learning Representations (ICLR). Addis Ababa, 2020: 1–21

[130] Sharma A, Gu S, Levine S, et al. Dynamics-aware unsupervised discovery of skills // International Con-ference on Learning Representations (ICLR). Addis Ababa, 2020: 1–21

[131] Lin X, Wang Y, Held D. Learning visible connectivity dynamics for cloth smoothing // Conference on Robot Learning (CoRL). London, 2021: 256–266

A Review of Robot Learning

QU Weiming1,*, LIU Tianlin1,*, LIN Weikai1, LUO Dingsheng1,2,?

1. School of Intelligence Science and Technology, Peking University, Beijing 100871; 2. PKU-Wuhan Institute for Artificial Intelligence, Wuhan 430073; * These authors contributed equally to this work; ? Corresponding author, E-mail: dsluo@pku.edu.cn

The basic concepts and core issues related to robot learning are introduced and discussed, and the relevant researches are summarized and analyzed. Through comparing the relevant methods and recent progress, the authors classify the methods of robot learning into four categories based on data types and learning methods, namely reinforcement learning approach, imitation learning approach, transfer learning approach and developmental learning approach. Finally, current challenges and future trends in robot learning are listed.

robot learning; reinforcement learning; imitation learning; transfer learning; developmental learning

猜你喜歡
機(jī)器人技能環(huán)境
高級(jí)技能
長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
環(huán)境
秣馬厲兵強(qiáng)技能
拼技能,享豐收
畫唇技能輕松
Coco薇(2015年11期)2015-11-09 13:03:51
機(jī)器人來(lái)幫你
認(rèn)識(shí)機(jī)器人
中牟县| 桃园县| 双辽市| 阿克陶县| 新疆| 岑溪市| 南城县| 库伦旗| 仙桃市| 托克托县| 岱山县| 郓城县| 洛隆县| 阿克苏市| 九台市| 尉氏县| 崇阳县| 桑植县| 江永县| 绥中县| 万安县| 白山市| 晋宁县| 芜湖市| 伊宁县| 平和县| 千阳县| 太谷县| 泸州市| 宁津县| 吴忠市| 日照市| 沙田区| 临海市| 甘孜县| 从江县| 石渠县| 阜阳市| 平谷区| 南华县| 辉县市|