文/吳鴻敏 徐智浩 周雪峰
機(jī)器人被譽(yù)為“制造業(yè)皇冠頂端的明珠”,是衡量一個(gè)國家創(chuàng)新能力和產(chǎn)業(yè)競爭力的重要標(biāo)志,已經(jīng)成為全球新一輪科技和產(chǎn)業(yè)革命的重要切入點(diǎn)。隨著工業(yè)4.0和智能制造業(yè)的智能化和柔性化發(fā)展,機(jī)器人在智能化發(fā)展過程中也面臨較大的挑戰(zhàn)。一方面,產(chǎn)品生產(chǎn)方式呈現(xiàn)多樣化、小批量和定制化特征,需要更短的制造系統(tǒng)迭代周期,迫使機(jī)器人具備快速編程與對不同場景的高效適應(yīng)能力。另一方面,機(jī)器人正逐漸從工業(yè)環(huán)境的獨(dú)立操作轉(zhuǎn)化為與人類進(jìn)行人機(jī)協(xié)作,這就要求機(jī)器人具備類人的靈巧操作能力。
現(xiàn)有依賴于人為干預(yù)與反復(fù)調(diào)試的機(jī)器人編程方式只適用于特定任務(wù),當(dāng)遇到相近任務(wù)或不同環(huán)境時(shí),需要重新進(jìn)行編程,從而無法汲取過往的操作經(jīng)驗(yàn),存在效率低、適應(yīng)性差、靈巧性不足等問題。當(dāng)前,新一代人工智能技術(shù)研發(fā)取得了重大進(jìn)步,產(chǎn)品應(yīng)用也日益廣泛,隨著機(jī)器人應(yīng)用廣度與深度的不斷提升,探索如何利用人工智能技術(shù)讓機(jī)器人系統(tǒng)具備一定的自主決策和學(xué)習(xí)能力,進(jìn)而使機(jī)器人能夠?qū)W習(xí)到適應(yīng)于不同任務(wù)和環(huán)境的操作技能,避免對每個(gè)任務(wù)的繁瑣編程,是未來機(jī)器人研究和發(fā)展的重要趨勢。
2017年7月,國務(wù)院發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,將人工智能定位為國家戰(zhàn)略,明確提出了三步走戰(zhàn)略目標(biāo),即到2020年人工智能技術(shù)應(yīng)用成為改善民生的新途徑;到2025年人工智能成為帶動(dòng)我國產(chǎn)業(yè)升級(jí)和經(jīng)濟(jì)轉(zhuǎn)型的主要?jiǎng)恿Γ悄苌鐣?huì)建設(shè)取得積極進(jìn)展;到2030年人工智能理論、技術(shù)與應(yīng)用總體達(dá)到世界領(lǐng)先水平。國家和各省份都高度重視人工智能與機(jī)器人技術(shù)融合發(fā)展等方面的研究工作,部署實(shí)施了一批重大重點(diǎn)科技攻關(guān)項(xiàng)目,如,2018年科技部發(fā)布科技創(chuàng)新2030“新一代人工智能”重大項(xiàng)目,明確指出開展自主智能體靈巧精準(zhǔn)操作學(xué)習(xí);2020年廣東省重點(diǎn)領(lǐng)域研發(fā)計(jì)劃“新一代人工智能”重大專項(xiàng)也明確提出開展多自由度智能體復(fù)雜技能的自主學(xué)習(xí)研究及應(yīng)用等。由此可見,隨著人工智能與互聯(lián)網(wǎng)、大數(shù)據(jù)、云平臺(tái)等深度融合,在跨媒體感知、自主協(xié)同控制和優(yōu)化決策、機(jī)器學(xué)習(xí)、類腦智能計(jì)算等技術(shù)的支撐下,機(jī)器人的智能化與自主化水平將進(jìn)一步提升,未來的機(jī)器人將具有更多的感知與決策認(rèn)知能力,變得更加靈活、靈巧與通用,能夠高效適用于復(fù)雜多變的應(yīng)用場景。
如今,人們提出了借助人工智能技術(shù)讓機(jī)器人進(jìn)行自主決策與學(xué)習(xí)的方法,從而使機(jī)器人適應(yīng)于靈活多樣化的應(yīng)用需求。其中,機(jī)器人操作技能學(xué)習(xí)被認(rèn)為是最為有效的解決方案,主要是通過機(jī)器人與人類和環(huán)境交互的方式獲得操作技能。具體包括兩方面的內(nèi)容:一是使機(jī)器人從與人類交互的經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行高效率模仿學(xué)習(xí),充分利用人類的操作經(jīng)驗(yàn),實(shí)現(xiàn)人-機(jī)器人操作技能傳授,目的是賦予機(jī)器人具備“舉一反三”的能力;二是使機(jī)器人從與環(huán)境交互的經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行可持續(xù)增強(qiáng)學(xué)習(xí),并根據(jù)實(shí)際環(huán)境的變化構(gòu)建出自主操作策略模型,目的是賦予機(jī)器人具備“熟能生巧”的能力。特別是,模仿學(xué)習(xí)是增強(qiáng)學(xué)習(xí)初始化和提高技能學(xué)習(xí)效率的重要方式。
2018年8月,中國工程院院刊刊載的文章《走向新一代智能制造》中明確指出,新一代智能制造技術(shù)機(jī)理是人-信息-物理系統(tǒng),其典型特征是人將部分認(rèn)知轉(zhuǎn)移給信息系統(tǒng),使系統(tǒng)具有認(rèn)知與學(xué)習(xí)能力。在人-信息-物理系統(tǒng)中將人的操作經(jīng)驗(yàn)與靈巧性遷移到機(jī)器人系統(tǒng),使其獲得高度類人化操作能力,是機(jī)器人操作技能學(xué)習(xí)的一種重要方式,其實(shí)現(xiàn)過程有著不同的稱謂,如示教編程(programming by demonstration, PbD)、示教學(xué)習(xí)(learning from demonstration,LfD)、模仿學(xué)習(xí)(imitation learning),以及學(xué)徒學(xué)習(xí)(apprenticeship learning)等。特別地,根據(jù)該類機(jī)器人操作技能學(xué)習(xí)方法的特點(diǎn)以及實(shí)現(xiàn)過程,我們在此表述為機(jī)器人操作技能的高效率模仿學(xué)習(xí)。在實(shí)際應(yīng)用中,一般讓熟練的工人根據(jù)自身操作經(jīng)驗(yàn)通過拖動(dòng)示教、遠(yuǎn)程示教或虛擬示教等方式對機(jī)器人系統(tǒng)進(jìn)行示教,進(jìn)而通過人工智能技術(shù),從經(jīng)驗(yàn)數(shù)據(jù)中獲得機(jī)器人運(yùn)動(dòng)策略,最終實(shí)現(xiàn)機(jī)器人操作技能學(xué)習(xí),當(dāng)面臨相近的操作任務(wù)應(yīng)用需求時(shí),機(jī)器人可以高效地對所習(xí)得的操作技能進(jìn)行泛化處理,以生成新的操作技能來完成新的任務(wù),從而極大增加了機(jī)器人系統(tǒng)編程的效率及靈活性。
機(jī)器人操作技能的高效率模仿學(xué)習(xí)過程包括三個(gè)階段:
第一階段是人類對機(jī)器人進(jìn)行示教階段。一般以在線示教為主,在示教過程中機(jī)器人跟隨示教者進(jìn)行運(yùn)動(dòng),并同步采集到機(jī)器人本體、機(jī)器人與操作對象,以及環(huán)境的狀態(tài)信息,包括位姿、速度、力矩、剛度、相對位姿關(guān)系等。
第二階段是機(jī)器人操作技能的建模與學(xué)習(xí)階段。通過非線性動(dòng)態(tài)系統(tǒng)或軌跡編碼算法對經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行封裝,形成技能模型,并通過技能學(xué)習(xí)獲得模型參數(shù)。
第三階段是機(jī)器人操作技能的實(shí)例化與泛化應(yīng)用階段。通過智能感知技術(shù)對新任務(wù)的目標(biāo)進(jìn)行識(shí)別與定位,將學(xué)習(xí)到的技能模型適應(yīng)于環(huán)境的變化,并根據(jù)任務(wù)的需求選擇合適的機(jī)器人控制模式。其實(shí)現(xiàn)過程如圖1所示。
總體而言,機(jī)器人操作技能模仿學(xué)習(xí)是通過構(gòu)建“感知-動(dòng)作”的學(xué)習(xí)機(jī)制,賦予機(jī)器人“舉一反三”的操作能力,顯著提升機(jī)器人操作的編程效率與靈巧性,實(shí)現(xiàn)復(fù)雜任務(wù)下多樣化技能的高效習(xí)得。
圖1 機(jī)器人操作技能的模仿學(xué)習(xí)過程
增強(qiáng)學(xué)習(xí)(Reinforcement Learning)被認(rèn)為是人類通往通用人工智能(artif cial general intelligence, AGI)的有效途徑。在基于增強(qiáng)學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)中,機(jī)器人以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,并通過給定當(dāng)前狀態(tài)及其回報(bào)優(yōu)化下一步動(dòng)作,以最大化從環(huán)境獲得的預(yù)期回報(bào)進(jìn)行最優(yōu)操作技能策略學(xué)習(xí)。相比于玩電腦游戲、圍棋的增強(qiáng)學(xué)習(xí)問題,機(jī)器人操作技能的增強(qiáng)學(xué)習(xí)主要面臨著三個(gè)方面的挑戰(zhàn):一是需要對機(jī)器人的高維連續(xù)狀態(tài)與動(dòng)作空間進(jìn)行優(yōu)化;二是真實(shí)機(jī)器人與環(huán)境交互的數(shù)據(jù)采集成本高昂且安全性低;三是策略模型訓(xùn)練效率低。
為了應(yīng)對增強(qiáng)學(xué)習(xí)在機(jī)器人操作技能學(xué)習(xí)方面面臨的挑戰(zhàn),目前機(jī)器人操作技能增強(qiáng)學(xué)習(xí)方法主要有兩類:一是將機(jī)器人感知與控制模塊融合進(jìn)策略模型中,形成端到端的機(jī)器人操作技能策略模型,進(jìn)而可以直接將傳感器原始觀察作為輸入,并將底層執(zhí)行器的驅(qū)動(dòng)指令作為輸出。由于這一學(xué)習(xí)過程是對機(jī)器人完成任務(wù)的每一步動(dòng)作進(jìn)行優(yōu)化,也被稱為基于步驟的機(jī)器人操作技能增強(qiáng)學(xué)習(xí)方法,如圖2所示。
二是針對增強(qiáng)學(xué)習(xí)樣本利用率低和學(xué)習(xí)效率低的瓶頸問題,在模仿學(xué)習(xí)的基礎(chǔ)上,提出了一種基于運(yùn)動(dòng)基元表征(movement representation)的機(jī)器人操作技能增強(qiáng)學(xué)習(xí)方法,即將機(jī)器人完成任務(wù)的運(yùn)動(dòng)基元,例如,模仿學(xué)習(xí)中常用的動(dòng)態(tài)運(yùn)動(dòng)原語(Dynamic movement primitives, DMP )、 概 率 運(yùn)動(dòng) 基 元(probabilistic movement primitives, ProMP)和核化運(yùn)動(dòng)基元(kernelized movement primitives,KMP)等,進(jìn)行參數(shù)化后對這些運(yùn)動(dòng)基元的參數(shù)進(jìn)行學(xué)習(xí)與優(yōu)化,得到滿足任務(wù)需求的運(yùn)動(dòng)基元參數(shù)配置。具體技術(shù)方案如圖3所示。
通過結(jié)合模仿學(xué)習(xí)與增強(qiáng)學(xué)習(xí)的優(yōu)勢,將人類的操作經(jīng)驗(yàn)進(jìn)行知識(shí)化表達(dá)后再進(jìn)行學(xué)習(xí),具有較好的樣本利用率和學(xué)習(xí)效率,這也是近年來機(jī)器人操作技能學(xué)習(xí)的主要研究方向。
由此可見,機(jī)器人操作技能的增強(qiáng)學(xué)習(xí)方法是通過構(gòu)建“感知+控制”一體的機(jī)器人操作技能增強(qiáng)學(xué)習(xí)機(jī)制,不斷從與環(huán)境交互中進(jìn)行操作策略學(xué)習(xí)與持續(xù)優(yōu)化,賦予機(jī)器人“熟能生巧”的操作能力。
圖2 機(jī)器人裝配技能的增強(qiáng)學(xué)習(xí)方法
圖3 融合模仿學(xué)習(xí)與增強(qiáng)學(xué)習(xí)的機(jī)器人操作技能學(xué)習(xí)過程
目前,國內(nèi)外學(xué)者通過效仿人類進(jìn)行操作技能學(xué)習(xí)的內(nèi)在機(jī)制,將機(jī)器人操作技能學(xué)習(xí)系統(tǒng)劃分為四個(gè)功能模塊:機(jī)器人本體、感知與控制、技能模型與技能學(xué)習(xí)。其中,感知與控制是機(jī)器人本體與技能模型之間的中介層,通過視覺、觸覺、聽覺等傳感器實(shí)現(xiàn)對操作對象和環(huán)境的狀態(tài)感知,并由控制模塊實(shí)現(xiàn)機(jī)器人本體的運(yùn)動(dòng)控制與執(zhí)行。技能模型用于對經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行封裝,且不依賴于具體的機(jī)器人平臺(tái),可以由一定的參數(shù)配置實(shí)例化為具體的技能,其參數(shù)通常由技能學(xué)習(xí)實(shí)現(xiàn)。下面將針對技能模型與技能學(xué)習(xí)方法的不同,對目前機(jī)器人操作技能學(xué)習(xí)的相關(guān)研究進(jìn)行闡述。
為了賦予機(jī)器人“舉一反三”的操作能力,學(xué)界提出了機(jī)器人操作技能的高效率模仿學(xué)習(xí)方法,包括基于非線性動(dòng)態(tài)系統(tǒng)和軌跡編碼兩種技能模型。該方法能夠充分利用人類的操作經(jīng)驗(yàn),將人類的操作技能傳遞給機(jī)器人,具有高效率、低成本等優(yōu)點(diǎn)。
在動(dòng)態(tài)系統(tǒng)方面,德國馬 普研究所的智能自主系統(tǒng)研究團(tuán)隊(duì)通過利用一系列線性可微方程,對人類示教的機(jī)器人運(yùn)動(dòng)進(jìn)行建模,提出了基于動(dòng)態(tài)系統(tǒng)的操作技能模仿學(xué)習(xí)方法,命名為動(dòng)態(tài)運(yùn)動(dòng)原語(DMP)。該方法繼承了非線性動(dòng)態(tài)系統(tǒng)的條件收斂、對外界擾動(dòng)的魯棒性和時(shí)間獨(dú)立性等優(yōu)點(diǎn),無論受到何種外界干擾,模型都將收斂于目標(biāo)點(diǎn)。在此基礎(chǔ)上,瑞士聯(lián)邦理工學(xué)院的學(xué)習(xí)算法與系統(tǒng)實(shí)驗(yàn)室通過將機(jī)器人動(dòng)力學(xué)與創(chuàng)新學(xué)習(xí)算法相結(jié)合,提出了一種基于非線性動(dòng)態(tài)系統(tǒng)全局穩(wěn)定估計(jì)(stable estimator of dynamical systems,SEDS)的機(jī)器人操作技能模仿學(xué)習(xí)方法,將動(dòng)態(tài)系統(tǒng)與概率統(tǒng)計(jì)模型相結(jié)合,給出全局穩(wěn)定性的約束條件,將參數(shù)估計(jì)問題轉(zhuǎn)化為最優(yōu)化問題對未知參數(shù)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了動(dòng)態(tài)性很強(qiáng)的機(jī)器人復(fù)雜操作技能模仿學(xué)習(xí),具有較強(qiáng)的抗干擾性和全局穩(wěn)定性。國內(nèi),哈爾濱工業(yè)大學(xué)采用動(dòng)態(tài)運(yùn)動(dòng)原語與高斯回歸模 型(Gaussian mixture regression, GMR)進(jìn)行人機(jī)技能遷移學(xué)習(xí),提出了基于閾值的啟發(fā)式機(jī)器人操作任務(wù)分割算法,并在人機(jī)協(xié)作任務(wù)上進(jìn)行泛化應(yīng)用。華南理工大學(xué)提出了基于動(dòng)態(tài)運(yùn)動(dòng)原語與模糊高斯混合回歸模型的人機(jī)技能傳遞系統(tǒng),并利用徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器人運(yùn)動(dòng)學(xué)估計(jì),有效提升技能泛化的精度。廣東省科學(xué)院針對已有操作技能模型在未知環(huán)境下感知能力不足的問題,提出了基于動(dòng)態(tài)運(yùn)動(dòng)原語的機(jī)器人自感知操作技能模型(introspective movement primitives, IMPs),不僅具備傳統(tǒng)機(jī)器人操作技能的運(yùn)動(dòng)特性,還兼?zhèn)淞送饨绲母兄芰?,并結(jié)合有限狀態(tài)機(jī)在機(jī)器人裝配及物流裝箱任務(wù)中進(jìn)行了驗(yàn)證,實(shí)現(xiàn)了機(jī)器人復(fù)雜多步操作任務(wù)的增長式表征。
在軌跡編碼方面,瑞士Idiap研究所通過高斯混合模型(Gaussian mixture model, GMM )和高斯回 歸 模 型(Gaussian mixture regression, GMR),對人類示教的經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行軌跡編碼,構(gòu)建了操作空間的機(jī)器人操作技能模仿學(xué)習(xí)框架,且利用相對熵作為軌跡泛化性能的指標(biāo),保證了技能的穩(wěn)定性。德國達(dá)姆施塔特工業(yè)大學(xué)提出了概率運(yùn)動(dòng)基元(ProMP)對示范數(shù)據(jù)在時(shí)間和空間兩個(gè)維度的不確定性進(jìn)行聯(lián)合建模,使技能模型具有運(yùn)動(dòng)預(yù)測及增加中間過渡節(jié)點(diǎn)的能力。英國利茲大學(xué)在GMM/GMR模型的基礎(chǔ)上采用了核函數(shù)對回歸函數(shù)進(jìn)行建模,提出了核化運(yùn)動(dòng)基元(KMP)的機(jī)器人操作技能模仿學(xué)習(xí)方法,適用于高維輸入變量的情況。國內(nèi),華中科技大學(xué)針對人機(jī)技能模仿學(xué)習(xí)中任務(wù)約束的不確定性問題,提出了基于GMM/GMR模型的閉環(huán)式人機(jī)技能傳遞方法,有效提升技能模型泛化應(yīng)用的精度和魯棒性。中國科學(xué)院自動(dòng)化所提出了基于GMM/GMR的機(jī)器人微裝配技能模仿學(xué)習(xí)方法,實(shí)現(xiàn)了毫米級(jí)零件微米級(jí)精度的微裝配技能學(xué)習(xí),實(shí)現(xiàn)人機(jī)高精度裝配技能的遷移。
為了賦予機(jī)器人“熟能生巧”的操作能力,學(xué)界提出了機(jī)器人操作技能的可持續(xù)增強(qiáng)學(xué)習(xí)方法,讓機(jī)器人以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過最大化累計(jì)獎(jiǎng)賞的方式學(xué)習(xí)得到最優(yōu)操作技能策略。相比于模仿學(xué)習(xí),該方法主要適用于人類難以示教,甚至不能示教,以及具有較高不確定性因素影響的操作任務(wù),如打乒乓球、平底鍋翻餅、物體抓取等。
美國加州大學(xué)伯克利分校的機(jī)器人人工智能與學(xué)習(xí)實(shí)驗(yàn)室提出了針對機(jī)器人操作任務(wù)的端到端深度視覺策略(visuomotor policy),將感知與控制融合于策略模型中,實(shí)現(xiàn)了直接由原始的觀測狀態(tài),包括機(jī)器人關(guān)節(jié)角、關(guān)節(jié)速度、末端位姿、末端速度和RGB圖像作為策略模型輸入,輸出機(jī)器人關(guān)節(jié)力矩。該方法不僅實(shí)現(xiàn)了較為復(fù)雜的操作技能,而且避免技能學(xué)習(xí)對相機(jī)標(biāo)定、機(jī)器人動(dòng)力學(xué)模型、視覺特征提取算法的依賴,展現(xiàn)較強(qiáng)的通用泛化能力,并在需要視覺和控制之間密切協(xié)調(diào)的擰蓋子任務(wù)進(jìn)行了驗(yàn)證。谷歌大腦耗時(shí)4個(gè)月采集了14臺(tái)真實(shí)機(jī)器人總共隨機(jī)進(jìn)行80萬次抓取物體的數(shù)據(jù)進(jìn)行抓取技能學(xué)習(xí),成功率為82%;在此基礎(chǔ)上,為了提高效率,提出了一種off-policy的增強(qiáng)學(xué)習(xí)算法QT-Opt,并通過7臺(tái)真實(shí)機(jī)器人收集超過58萬次的抓取數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對未知物體抓取成功率達(dá)96%。谷歌大腦聯(lián)合劍橋大學(xué)在4臺(tái)真實(shí)機(jī)器人上采集視覺、慣性測量單元、關(guān)節(jié)編碼器等多模異構(gòu)信息融合的操作經(jīng)驗(yàn)數(shù)據(jù),并基于深度增強(qiáng)學(xué)習(xí)算法進(jìn)行機(jī)器人隨機(jī)目標(biāo)點(diǎn)到達(dá)和開門技能的學(xué)習(xí),平均成功率達(dá)90%。DeepMind提出了基于數(shù)據(jù)驅(qū)動(dòng)的技能學(xué)習(xí)框架,在常見物體的抓放、堆疊等2種技能應(yīng)用中的成功率分別為80%和60%,而該框架依賴于人工的偏好進(jìn)行新技能的學(xué)習(xí),需要重新設(shè)計(jì)網(wǎng)絡(luò)及經(jīng)歷8小時(shí)~12小時(shí)的調(diào)試后才能實(shí)現(xiàn)一個(gè)簡單的插入技能應(yīng)用。
國內(nèi),清華大學(xué)針對人類示教數(shù)據(jù)量不夠和質(zhì)量不高的問題,提出了基于示教的操作技能增強(qiáng)學(xué)習(xí)方法,將技能建模成一個(gè)帶約束的優(yōu)化問題,實(shí)現(xiàn)了在專家示教附近尋找最優(yōu)的技能策略,大幅度提升了技能學(xué)習(xí)效率。山東大學(xué)將機(jī)器人裝配任務(wù)劃分為兩個(gè)階段,先由視覺引導(dǎo)進(jìn)行精定位,再通過深度確定性策略網(wǎng)絡(luò)進(jìn)行精裝配,提出了基于力/力矩和機(jī)器人本體運(yùn)動(dòng)量等多模信息描述的機(jī)器人柔性裝配技能學(xué)習(xí)方法,并在卡扣式裝配任務(wù)進(jìn)行了驗(yàn)證。騰訊機(jī)器人實(shí)驗(yàn)室采用最小化操作技能逆動(dòng)力學(xué)差異的方法,分析了由觀測和牽引示教兩種方式進(jìn)行多自由度智能體技能學(xué)習(xí)的性能,并將相關(guān)方法在虛擬場景下進(jìn)行了驗(yàn)證。英特爾中國研究院提出了基于動(dòng)態(tài)運(yùn)動(dòng)單元的機(jī)器人學(xué)習(xí)系統(tǒng),通過DMP對機(jī)器人操作技能進(jìn)行表達(dá)后,采用增強(qiáng)學(xué)習(xí)算法實(shí)現(xiàn)投擲、做菜等任務(wù)。
機(jī)器人操作技能學(xué)習(xí)作為人工智能與機(jī)器人學(xué)的交叉領(lǐng)域,通過讓機(jī)器人從人類示教或與環(huán)境交互的經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行操作技能的自主獲取與優(yōu)化,并擴(kuò)展應(yīng)用于未知環(huán)境或任務(wù),是實(shí)現(xiàn)機(jī)器人快速編程、高效適應(yīng)和靈巧操作的有效途徑。由于算法、算力、算據(jù)作為人工智能技術(shù)發(fā)展的三大支柱,同樣也直接決定了機(jī)器人操作技能學(xué)習(xí)的上限。
一方面,利用深度學(xué)習(xí)已經(jīng)部分解決機(jī)器人通過視覺、觸覺、聽覺等傳感器進(jìn)行外界感知的問題,并且基于模仿學(xué)習(xí)和增強(qiáng)學(xué)習(xí)理論框架,機(jī)器人操作技能已取得初步的成效,讓機(jī)器人具備一定的自主決策與學(xué)習(xí)能力,但目前大部分工作尚處于理論研究階段,機(jī)器人所實(shí)現(xiàn)的操作技能相對簡單,與人類相比還有較大的差距。在這個(gè)問題上,麻省理工學(xué)院機(jī)器人專家Leslie Pack Kaebl ing于2020在Science上發(fā)表一篇名為“The Foundation of Eff cient Robot Learning”的文章,指出要想實(shí)現(xiàn)下一代機(jī)器人學(xué)習(xí)的技術(shù)革新,必須綜合考慮工程原理、生物學(xué)靈感、系統(tǒng)設(shè)計(jì)階段學(xué)習(xí)以及最終的在線學(xué)習(xí),才能打造出類人的智能機(jī)器人。
另一方面,目前機(jī)器人操作技能學(xué)習(xí)主要集中在單個(gè)機(jī)器人對單個(gè)任務(wù)的學(xué)習(xí),缺乏從多個(gè)機(jī)器人、多個(gè)任務(wù)以及不同任務(wù)之間進(jìn)行學(xué)習(xí)。為實(shí)現(xiàn)這一目標(biāo),需要對過往的操作經(jīng)驗(yàn)進(jìn)行知識(shí)化表達(dá),讓機(jī)器人學(xué)習(xí)到任務(wù)和環(huán)境的不變量并存儲(chǔ)起來,以便在學(xué)習(xí)新任務(wù)時(shí)利用它們,這就需要算力超強(qiáng)的“云端大腦”提供支撐,形成“云-邊-端”協(xié)同計(jì)算架構(gòu)的機(jī)器人操作技能學(xué)習(xí)與應(yīng)用平臺(tái)。
最后,在面臨算據(jù)不足的問題上,目前已提出了少樣本學(xué)習(xí)、遷移學(xué)習(xí)等理論框架,以及通過高逼真度的機(jī)器人物理仿真引擎,實(shí)現(xiàn)機(jī)器人操作技能的“虛-實(shí)”遷移,但都將難以消除“虛-實(shí)”之間的差異性。對此,構(gòu)建具備硬件無關(guān)、傳感共享、技能派生和群體智能特征的云機(jī)器人平臺(tái),將促進(jìn)機(jī)器人操作技能學(xué)習(xí)技術(shù)更好落地應(yīng)用。
機(jī)器人操作技能學(xué)習(xí)作為人工智能加持下的機(jī)器人編程新模式,已受到了社會(huì)各界的廣泛關(guān)注與認(rèn)可,隨著人工智能與機(jī)器人技術(shù)的不斷突破,我們有理由相信,機(jī)器人將成為人類日常生活的一部分,在工業(yè)、服務(wù)、醫(yī)療、教育和軍工等領(lǐng)域提供幫助,并逐漸改變原有的產(chǎn)業(yè)模式,甚至是人類的生存模式。