近日,上海交通大學(xué)本科校友、美國(guó)馬里蘭大學(xué)博士生劉睿和所在團(tuán)隊(duì),提出了一種適用于機(jī)器人輔助喂食的視覺模仿學(xué)習(xí)方法。
該方法可以有效處理多樣化的碗配置和食物類型,即使存在干擾物的情況下也表現(xiàn)出良好的適應(yīng)性和魯棒性。
通過在真實(shí)機(jī)器人上開展實(shí)驗(yàn),驗(yàn)證了本次方法的有效性,模型的成功度量指標(biāo)最高提高2.5倍。
通過此,他們展示了機(jī)器人輔助喂食領(lǐng)域的創(chuàng)新性進(jìn)展,也展示了在模仿學(xué)習(xí)和視覺感知方面的應(yīng)用,為機(jī)器人技術(shù)發(fā)展提供了新的參考。
作為一款輔助喂食型機(jī)器人,該機(jī)器人能應(yīng)對(duì)不同的喂食場(chǎng)景,包括不同容器、不同大小,不同屬性的食物,并能滿足用戶的不同偏好。
同時(shí), 它能被用于個(gè)人家庭、醫(yī)院、養(yǎng)老院等。預(yù)計(jì)機(jī)器人有潛力徹底改變輔助服務(wù),包括幫人做家務(wù)、輔助喂食、復(fù)健等。
其預(yù)計(jì)將能實(shí)現(xiàn)以下三大場(chǎng)景:
其一,服務(wù)于具有特殊需求的群體。
對(duì)于身體殘障人士、老年人和行動(dòng)不便人群,可以通過喂食機(jī)器人獲得自主性和獨(dú)立性
其二,服務(wù)于醫(yī)療應(yīng)用的場(chǎng)景。
在醫(yī)院和康復(fù)中心,喂食機(jī)器人可以幫助醫(yī)護(hù)人員減輕工作負(fù)擔(dān),提高患者的營(yíng)養(yǎng)攝入。它可以精確控制食物分配,定時(shí)提醒患者進(jìn)食,并記錄攝入量以供醫(yī)生評(píng)估。
其三,可用于兒童保育場(chǎng)景。
在托兒所和幼兒園,喂食機(jī)器人可以幫助保育員更有效地管理多個(gè)孩子的飲食,確保他們獲得充足的營(yíng)養(yǎng),同時(shí)降低過度依賴人工喂養(yǎng)的負(fù)擔(dān)。
預(yù)計(jì)到2050年,60歲及以上的人口數(shù)量將增加一倍,全世界的醫(yī)療保健系統(tǒng)和社會(huì)服務(wù)必須適應(yīng)人口老齡化。
隨著人口老齡化,老年人和殘疾人輔助喂食的需求變得越來越迫切。目前,有超數(shù)百萬(wàn)成年人需要援助才能實(shí)現(xiàn)獨(dú)立飲食,這直接影響他們的自尊和生活質(zhì)量。
不幸的是,由于醫(yī)護(hù)人員短缺和服務(wù)成本高昂,導(dǎo)致難以為所有有需要的人提供護(hù)理。
而輔助喂食機(jī)器人可以有效減輕醫(yī)療保健系統(tǒng)的壓力,特別是在醫(yī)護(hù)人員短缺的情況下。
目前,市面上已有的輔助喂食機(jī)器人,主要依賴于預(yù)編程的啟發(fā)式方法,無(wú)法處理具有不同質(zhì)地、幾何形狀、變形特性的食物。
基于此,課題組打算開發(fā)一款新型輔助喂食機(jī)器人,他們希望該機(jī)器人能學(xué)習(xí)并適應(yīng)各種不同的容器(碗、盤子)和不同的食物類型,最終改善需要輔助喂食的老年人和殘疾人的生活質(zhì)量。
在本次項(xiàng)目之中,該團(tuán)隊(duì)的重點(diǎn)目標(biāo)是實(shí)現(xiàn)輔助喂食功能。其中,裝有叉子或勺子的機(jī)械臂,可以叉取或舀取一部分的食物,并將其轉(zhuǎn)移到使用者的嘴中。
也就是說他們要開發(fā)一種機(jī)器人喂食系統(tǒng),利用深度學(xué)習(xí)技術(shù)、并建立新穎的感知策略和學(xué)習(xí)策略,從而該系統(tǒng)可以處理多種食物,并能提供個(gè)性化幫助。
課題組希望實(shí)現(xiàn)的是:當(dāng)機(jī)器人遇到看不見的食物時(shí),可以利用人工智能工具(例如ChatGPT)來獲取先驗(yàn)知識(shí),并通過模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的方式,使其能夠?qū)崿F(xiàn)成功喂食。
這是一種持續(xù)的學(xué)習(xí)過程,并且可以在機(jī)器人和食物之間進(jìn)行轉(zhuǎn)移。
例如,如果機(jī)器人系統(tǒng)已經(jīng)接受過西蘭花的訓(xùn)練,但是沒有接受過花椰菜的訓(xùn)練,那么考慮到這兩種食物在屬性上的相似之處,它就應(yīng)該傳輸應(yīng)對(duì)這兩種食物的知識(shí)。
這就需要整合感知(認(rèn)識(shí)到盤子上的東西是花椰菜)、語(yǔ)義理解(認(rèn)識(shí)到花椰菜和西蘭花具有相似的物理特征,因此學(xué)習(xí)可以遷移)、運(yùn)動(dòng)規(guī)劃(用叉子將花椰菜叉起來)。
與此同時(shí),該團(tuán)隊(duì)希望可以讓機(jī)器人從一小部分人類演示的數(shù)據(jù)中掌握控制策略,然后將知識(shí)轉(zhuǎn)移到之前沒有見過的食品上,從而避免收集大量人工數(shù)據(jù)帶來的成本。
研究中,如何獲取食物、如何檢測(cè)用戶位置、如何根據(jù)用戶的偏好和指令做出不同響應(yīng)、如何安全地將食物轉(zhuǎn)移到使用者口中,都是該團(tuán)隊(duì)要考慮的問題。
而在本次項(xiàng)目之中,他們更加關(guān)注如何獲取食物。因此,如何使機(jī)器人能從不同材質(zhì)、不同大小、不同位置的碗中舀取,包括顆粒狀、半固態(tài)和液態(tài)在內(nèi)的各種食物類型,并且即使在存在干擾物的情況下也能保持魯棒性和適應(yīng)性,是課題組的主要研究目標(biāo)。
為此,他們?cè)O(shè)計(jì)了一款名為自適應(yīng)視覺模仿學(xué)習(xí)(AVIL)的框架,并開發(fā)了空間注意力模塊。
AVIL框架是一個(gè)綜合型智能控制系統(tǒng),能用于實(shí)現(xiàn)輔助喂食機(jī)器人的自適應(yīng)和智能化。
而空間注意力模塊,則是AVIL框架中的一個(gè)重要組成部分。它通過對(duì)環(huán)境進(jìn)行感知和理解,實(shí)現(xiàn)對(duì)于碗和食物的精準(zhǔn)識(shí)別和精準(zhǔn)處理。
空間注意力模塊能以動(dòng)態(tài)的方式,調(diào)整圖像中不同區(qū)域的比重,從而讓模型可以集中注意于感興趣的區(qū)域(即碗和食物的位置)。
這樣一來,模型就可以準(zhǔn)確地舀取位于不同位置、不同大小的碗中食物,并且可以抵抗其他物體的干擾,從而提高模型的魯棒性。
研究中,他們還采用了一種名為行為克隆的模仿學(xué)習(xí)算法,將輸入的RGB圖像和機(jī)器人的關(guān)節(jié)位置,映射到相應(yīng)的機(jī)器人控制動(dòng)作。
而在數(shù)據(jù)收集和模型訓(xùn)練階段,課題組通過kinesthetic teaching(即人類操作員引導(dǎo)機(jī)器人模仿舀取動(dòng)作)收集數(shù)據(jù),并記錄RGB圖像和機(jī)器人關(guān)節(jié)位置,從而用于訓(xùn)練模型。
上述這些數(shù)據(jù)包括機(jī)器人在不同環(huán)境下的操作過程、碗和食物的特征、以及人類專家的行為示范等。
完成數(shù)據(jù)收集之后,他們針對(duì)模型開展訓(xùn)練,以便讓機(jī)器人運(yùn)動(dòng)軌跡和人類專家運(yùn)動(dòng)軌跡之間的誤差達(dá)到最小,從而讓機(jī)器人可以模仿人類專家的行為。
訓(xùn)練過程中,他們不斷地調(diào)整網(wǎng)絡(luò)參數(shù),以此來提高模型的準(zhǔn)確性和魯棒性。
完成模型訓(xùn)練之后,該團(tuán)隊(duì)又在一款名為“UR5”的真實(shí)機(jī)器人上進(jìn)行實(shí)驗(yàn),以驗(yàn)證本次方法的有效性。
其間,他們測(cè)試了不同材質(zhì)、不同大小、不同位置的碗,也測(cè)試了不同類型的食物包括顆粒狀谷物、半固態(tài)果凍和液態(tài)水。
為進(jìn)一步驗(yàn)證AVIL的有效性,課題組設(shè)計(jì)了一個(gè)Baseline的方法進(jìn)行比較。
Baseline方法使用RetinaNet算法(一種深度學(xué)習(xí)檢測(cè)算法)來進(jìn)行碗的檢測(cè),并能計(jì)算碗的中心點(diǎn),然后指導(dǎo)機(jī)器人移動(dòng)到該位置進(jìn)行舀取。
實(shí)驗(yàn)結(jié)果表明:AVIL在不同碗配置、不同食物類型、不同碗位置的性能比較之中,都比Baseline表現(xiàn)更佳。
值得一提的是,即使在沒有直接訓(xùn)練的情況下,即零樣本泛化情況之下,AVIL只在一個(gè)盛有顆粒狀谷物的透明玻璃碗的數(shù)據(jù)上接受了訓(xùn)練,但它卻展示了針對(duì)不同大小的塑料碗、和不同食物類型的有效性能。
此外,他們還模擬了存在干擾物的情況,以此來測(cè)試本次模型的魯棒性和適應(yīng)性。
結(jié)果發(fā)現(xiàn):對(duì)干擾物AVIL同樣表現(xiàn)出較好的魯棒性,即使存在干擾物的情況下也能保持性能。
最終,相關(guān)論文以《機(jī)器人輔助喂養(yǎng)的自適應(yīng)視覺模仿學(xué)習(xí)在不同的碗配置和食物類型》為題發(fā)表。
劉睿、阿米沙·巴斯卡、普拉塔普·托克卡爾是共同作者。
據(jù)介紹,本次研究?jī)H僅關(guān)注于如何獲取食物。下一步,該團(tuán)隊(duì)將研究如何將食物安全地送入使用者口中。
此外,其還計(jì)劃提升該系統(tǒng)的用戶友好度,以滿足不同用戶的偏好,并計(jì)劃通過合作方式,將視覺模仿網(wǎng)絡(luò)與其他類型的機(jī)器人加以集成,從而擴(kuò)展其應(yīng)用范圍。
此外, 課題組還將進(jìn)一步優(yōu)化本次模型,使其能夠處理更復(fù)雜的喂食場(chǎng)景。 (綜合整理報(bào)道)(策劃/萊西)