徐 凱,胡瑞珍,楊 鑫
幾何引導(dǎo)的主動(dòng)式三維感知與交互
徐 凱,胡瑞珍,楊 鑫
(1. 國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073; 2. 深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,廣東 深圳 518060; 3. 大連理工大學(xué)電信學(xué)部,遼寧 大連 116000)
隨著三維感知設(shè)備的發(fā)展和大規(guī)模三維數(shù)據(jù)的出現(xiàn),基于三維重建與理解的視覺感知技術(shù)得到了大量關(guān)注。與此同時(shí),智能圖形逐漸改變了傳統(tǒng)圖形系統(tǒng)在交互中的被動(dòng)角色,朝著任務(wù)引導(dǎo)的、感知驅(qū)動(dòng)的智能體對真實(shí)或虛擬環(huán)境的主動(dòng)交互發(fā)展??梢哉f,計(jì)算機(jī)圖形學(xué)正在突破“信息表達(dá)”這一傳統(tǒng)范疇,逐步拓展邁入“信息感知”領(lǐng)域;圖形學(xué)的交互技術(shù)也由傳統(tǒng)的人機(jī)交互,逐漸延伸和發(fā)展出面向智能任務(wù)的主動(dòng)三維交互。其中,數(shù)據(jù)驅(qū)動(dòng)三維幾何分析與建模的理論和方法,特別是在線重建與分析技術(shù),對三維感知和三維交互形成了重要支撐。本文從圖形學(xué)和視覺融合的視角,結(jié)合研究案例,介紹了主動(dòng)式三維感知與交互,討論了“主動(dòng)式”的特點(diǎn)、優(yōu)勢和挑戰(zhàn),并試圖探討這一方向的開放問題與發(fā)展趨勢。
幾何引導(dǎo);三維感知與交互;主動(dòng)感知與交互
傳統(tǒng)意義上講,計(jì)算機(jī)圖形學(xué)一般被認(rèn)為是計(jì)算機(jī)視覺的逆過程(圖1(a)):前者聚焦于真實(shí)對象的三維表達(dá)與呈現(xiàn);后者則研究從視覺信息推斷客觀對象。近年來,隨著視覺傳感設(shè)備的迅猛發(fā)展和大規(guī)模可視數(shù)據(jù)的爆炸式增長,上述認(rèn)知正在發(fā)生深刻變化。三維傳感設(shè)備的精準(zhǔn)化、實(shí)時(shí)化和低成本化,極大推動(dòng)了三維數(shù)據(jù)獲取的發(fā)展和普及。因此,基于三維傳感數(shù)據(jù)的視覺技術(shù)應(yīng)運(yùn)而生。與傳統(tǒng)的二維視覺相比,三維輸入提供了目標(biāo)環(huán)境或?qū)ο蟮奈蛔?、幾何、拓?fù)洹⒔Y(jié)構(gòu)等信息,極大豐富了感知素材,提高了感知能力。
三維幾何的重建[1]、處理[2]和分析[3-4]一直是圖形領(lǐng)域的重要研究方向。海量三維數(shù)據(jù)的涌現(xiàn)使得數(shù)據(jù)驅(qū)動(dòng)的三維感知成為可能。通過對大規(guī)模三維數(shù)據(jù)集進(jìn)行聯(lián)合分析,學(xué)習(xí)三維幾何的表征,挖掘三維結(jié)構(gòu)的先驗(yàn)知識(shí),以支持在線化、結(jié)構(gòu)化、語義化的三維感知(如三維對象或場景的建模和理解)[5-6]。三維感知結(jié)果可直接支持三維空間規(guī)劃和推理,以驅(qū)動(dòng)智能體與環(huán)境或?qū)ο蟮娜S交互(例如機(jī)器人環(huán)境導(dǎo)航和對象抓取)。圖1(b)展示了基于數(shù)據(jù)驅(qū)動(dòng)的幾何分析與理解對三維感知與交互的支撐。
圖1 傳統(tǒng)意義的圖形學(xué)與數(shù)據(jù)驅(qū)動(dòng)時(shí)代的圖形學(xué)之間的區(qū)別((a)傳統(tǒng)意義圖形學(xué)與視覺;(b)融合三維視覺和智能圖形學(xué)的三維感知與交互)
交互技術(shù)原本就是計(jì)算機(jī)圖形學(xué)的重要組成部分。傳統(tǒng)意義上講,圖形學(xué)的交互主要面向人機(jī)交互:交互的主體是人,交互對象一般是由圖形學(xué)合成的虛擬環(huán)境或?qū)ο?。人機(jī)交互系統(tǒng)通過向用戶呈現(xiàn)信息和理解用戶輸入,在信息空間和人的意識(shí)、意圖之間建立溝通。顯然,傳統(tǒng)的圖形交互系統(tǒng)并不能驅(qū)動(dòng)交互主體,只能被動(dòng)理解交互意圖并為交互主體提供反饋。面向機(jī)器人應(yīng)用,智能圖形系統(tǒng)將突破傳統(tǒng)圖形在交互中的被動(dòng)角色,以智能任務(wù)為牽引,以智能感知為驅(qū)動(dòng),讓智能體在真實(shí)或虛擬環(huán)境中完成對目標(biāo)對象的交互,包括交互對象的感知、交互策略的學(xué)習(xí)、交互方式的優(yōu)化、交互結(jié)果的反饋等等。因此,本文涉及的“主動(dòng)交互”主要體現(xiàn)了智能圖形系統(tǒng)在交互中的角色,突出對智能體的主動(dòng)交互引導(dǎo),以區(qū)別于傳統(tǒng)人機(jī)交互的被動(dòng)交互理解。
因此,計(jì)算機(jī)圖形學(xué)研究正在突破“信息表達(dá)”這一傳統(tǒng)范疇,逐步拓展邁入“信息感知”領(lǐng)域。圖形交互技術(shù)也由傳統(tǒng)的人機(jī)交互,逐漸延申至任務(wù)的智能體主動(dòng)三維交互。以數(shù)據(jù)驅(qū)動(dòng)三維幾何分析與建模的理論和方法,對三維感知形成重要支撐,并以此引導(dǎo)智能體與環(huán)境的三維交互。與此同時(shí),圖形學(xué)與視覺、人工智能的深度融合,引入基于三維幾何的視覺感知新問題、新方法、新理論,將延伸和拓展圖形學(xué)的學(xué)科內(nèi)涵和應(yīng)用范疇,促進(jìn)學(xué)科的交叉融合,推動(dòng)技術(shù)的實(shí)際應(yīng)用。
本文聚焦于三維幾何信息引導(dǎo)的主動(dòng)感知與交互技術(shù),以數(shù)據(jù)驅(qū)動(dòng)方法為基礎(chǔ),以智能機(jī)器人應(yīng)用為落腳點(diǎn),探討該方向的重要研究問題,介紹作者在該方向的研究案例,并嘗試討論未來趨勢和挑戰(zhàn)。
感知(perception)是外界刺激作用于感官時(shí),腦對外界整體的看法和理解,為人們對外界的感官信息進(jìn)行組織和解釋。認(rèn)知科學(xué)包括獲取信息、理解信息、篩選信息、組織信息。以智能體為載體,其獲取的信息主要是三維空間的顏色、深度等視覺信息,而在感知過程中如何對這些信息進(jìn)行理解、篩選、組織就顯得尤為重要。在計(jì)算圖形學(xué)領(lǐng)域,三維感知的最終目標(biāo)可以看成是對三維場景的結(jié)構(gòu)化語義重建,即在對三維場景的幾何、結(jié)構(gòu)、語義等多層次信息進(jìn)行有效提取的前提下進(jìn)行深度融合與組織,為后續(xù)的其他任務(wù)所服務(wù)。
交互(interaction)是2個(gè)對象之間的交流互動(dòng),而本文特指的交互對象是智能體與三維環(huán)境。人類的日?;顒?dòng)往往是通過與周圍環(huán)境中的三維物體進(jìn)行交互實(shí)現(xiàn)的,因此,為了讓計(jì)算機(jī)模擬人的思維過程和智能行為,引導(dǎo)智能體與三維環(huán)境進(jìn)行類人交互是其中極其重要的一個(gè)環(huán)節(jié)。具體地,計(jì)算圖形學(xué)領(lǐng)域目前所研究的智能體與三維環(huán)境的交互主要包括了智能體在三維空間中的路徑導(dǎo)航、對于三維物體的觸碰、抓取等方面的探索與優(yōu)化。
智能感知與智能交互的關(guān)聯(lián)性在認(rèn)知科學(xué)中有很好的對應(yīng)和解釋[7]。智能感知對應(yīng)于認(rèn)知科學(xué)的“構(gòu)造式感知”。傳感器獲取的信息往往具有片面性、間接性和模糊性,需要借助知識(shí)和推理來補(bǔ)充和校正獲取信息中的不完整和不準(zhǔn)確部分。智能交互可類比于認(rèn)知科學(xué)中的“注意力機(jī)制”[8],即目標(biāo)導(dǎo)向的主動(dòng)式感知和交互過程:面向特定任務(wù),智能體基于在線獲取的感知信息和預(yù)先習(xí)得的先驗(yàn)知識(shí),完成目標(biāo)環(huán)境的理解和任務(wù)相關(guān)的推理,引導(dǎo)智能體與環(huán)境交互來完成任務(wù);同時(shí),以環(huán)境理解程度和任務(wù)完成狀態(tài)為驅(qū)動(dòng),引導(dǎo)智能體進(jìn)一步的信息感知。因此,智能感知與交互是以感知引導(dǎo)交互,以交互驅(qū)動(dòng)感知,在目標(biāo)任務(wù)導(dǎo)向下感知和交互交替執(zhí)行、相互推進(jìn)的過程。
通過構(gòu)建目標(biāo)環(huán)境的三維表達(dá)在感知與交互之間形成關(guān)聯(lián)和互動(dòng)。由于機(jī)器人與對象或環(huán)境的交互發(fā)生在三維空間,構(gòu)建目標(biāo)物體或場景的三維幾何表示對三維交互尤為重要,可以類比于人類在大腦中對物體構(gòu)建的形狀恒常性(shape constancy,類似于形狀不變性)[9],以及對環(huán)境構(gòu)建的認(rèn)知地圖(cognitive map)[10]。這也解釋了為什么基于三維信息的導(dǎo)航和抓取已逐漸成為當(dāng)前機(jī)器人交互研究的主流趨勢。如,融合LiDAR和深度信息的視覺系統(tǒng),在各類機(jī)器人、無人車、無人機(jī)上已經(jīng)非常普遍;亞馬遜抓取挑戰(zhàn)賽(Amazon Picking Challenge)的絕大部分參賽團(tuán)隊(duì)均選擇了RGBD(圖像+深度信息)的視覺方案。
但測度幾何一般只能滿足局部導(dǎo)航、避障等低層次交互需求,無法支持更高層次的交互。如,當(dāng)機(jī)器人的任務(wù)是“打開瓶子倒出牛奶”時(shí),其必須識(shí)別出奶瓶(語義標(biāo)簽)并分辨出瓶身和蓋子(結(jié)構(gòu)和功能)。因此,高層次任務(wù)的完成需要目標(biāo)環(huán)境或?qū)ο蟮慕Y(jié)構(gòu)化、語義化三維表達(dá)。同時(shí),由于感知具有不確定性,交互過程必須不斷為感知提供反饋,以驅(qū)動(dòng)和引導(dǎo)智能體進(jìn)一步感知,逐步矯正和完善三維場景表達(dá)中的幾何、結(jié)構(gòu)和語義信息(圖2)。
以結(jié)構(gòu)化、語義化三維表達(dá)為基礎(chǔ),實(shí)現(xiàn)感知和交互的深度耦合,在二者之間形成反饋閉環(huán),是智能三維感知與交互的重要特征,也是其區(qū)別于現(xiàn)有相關(guān)研究的不同點(diǎn)。在以往工作中,感知一般是交互的前序工作,二者是串行化的,因而無法充分利用交互中的反饋來引導(dǎo)感知,且在交互過程中也無法得到進(jìn)一步的感知信息。事實(shí)上,人在完成任務(wù),特別是在未知環(huán)境中的復(fù)雜任務(wù),感知和交互往往是同時(shí)進(jìn)行的,其中的感知-交互耦合就是建立在人腦對目標(biāo)環(huán)境/對象構(gòu)建的三維空間“認(rèn)知地圖”上的。該思路具有生物啟發(fā)特性,有較好的可解釋性和科學(xué)意義。
圖2 智能三維感知與交互
智能任務(wù)的完成是驅(qū)動(dòng)智能體進(jìn)行感知與交互的核心動(dòng)力。智能體接受的智能任務(wù)方式,往往是一個(gè)抽象的任務(wù)描述,如人下達(dá)的任務(wù)指令和/或簡單任務(wù)描述。智能體必須將此任務(wù)描述轉(zhuǎn)化為一系列在具體環(huán)境中可執(zhí)行的感知和交互動(dòng)作。其中涉及任務(wù)的理解轉(zhuǎn)化和環(huán)境實(shí)例化。基于先驗(yàn)和知識(shí)庫,對任務(wù)進(jìn)行解析,形成智能體對目標(biāo)環(huán)境、對象的感知和交互意圖,驅(qū)動(dòng)智能體對感興趣的目標(biāo)進(jìn)行有的放矢的感知與交互,同時(shí)獲得信息反饋,以調(diào)整感知交互的目標(biāo)和策略。面向智能任務(wù)的主動(dòng)式三維感知與交互的主要特色在于智能體在任務(wù)的驅(qū)動(dòng)下,實(shí)現(xiàn)感知與交互的深度耦合,以感知來引導(dǎo)交互,以交互來增強(qiáng)感知,從而在兩者之間形成一個(gè)反饋閉環(huán),達(dá)到協(xié)同促進(jìn)的目標(biāo)。
相比于傳統(tǒng)的被動(dòng)式感知與交互(2個(gè)任務(wù)相獨(dú)立,采取的是僅以被動(dòng)獲取的信息為輸入的單線程模式),主動(dòng)式三維感知與交互的主要優(yōu)勢在于兩者之間形成的正向反饋和促進(jìn)的循環(huán)機(jī)制,通過交互補(bǔ)充和校正感知所獲取信息中的不完整和不準(zhǔn)確部分,并將增強(qiáng)后的信息更好地用于指導(dǎo)后續(xù)的交互行為。正是這種反饋增強(qiáng)的機(jī)制,使得智能體可以不斷地更正和調(diào)整,更加“聰明”和高效能地完成智能任務(wù)。
首先是智能任務(wù)的解析和場景實(shí)例化。如何將一個(gè)抽象描述的任務(wù)解析為機(jī)器人可理解、可執(zhí)行的感知交互序列,并如何將上述感知交互序列在目標(biāo)環(huán)境中進(jìn)行實(shí)例化,形成感知興趣點(diǎn)(如視點(diǎn))和交互目標(biāo)點(diǎn)(如被抓取物體),是驅(qū)動(dòng)智能體進(jìn)行主動(dòng)感知與交互首要解決的難題。
其次是感知與交互的耦合、反饋機(jī)制。主動(dòng)感知和交互基于目標(biāo)任務(wù)導(dǎo)向的注意力機(jī)制:面向某特定任務(wù),智能體基于在線感知和先驗(yàn)知識(shí),完成感知和交互相關(guān)的推理,并基于推理確定性來驅(qū)動(dòng)和引導(dǎo)智能體進(jìn)一步的感知和交互。在認(rèn)知科學(xué)中,這種任務(wù)相關(guān)的注意機(jī)制屬于自頂向下的方式,另一種自底向上的方式是純粹基于視覺激勵(lì)的前饋?zhàn)⒁鈾C(jī)制[11]。在人的認(rèn)知活動(dòng)中,兩者缺一不可,人的注意力既有任務(wù)、目標(biāo)導(dǎo)引的部分,也有視覺刺激觸發(fā)的成分,二者結(jié)合形成更全面、正確的認(rèn)知?,F(xiàn)有深度學(xué)習(xí)模型大多只針對某個(gè)或幾個(gè)分析、建?;蚪换サ娜蝿?wù)而設(shè)計(jì),并未考慮從獲取、建模、處理、分析、規(guī)劃到交互反饋的整個(gè)處理管線的完整感知與交互流程,無法實(shí)現(xiàn)這些任務(wù)的聯(lián)合學(xué)習(xí)。因此,如何實(shí)現(xiàn)2種注意機(jī)制的結(jié)合是三維感知和交互需要解決的重要問題。
對于未知環(huán)境的自主建圖與導(dǎo)航是實(shí)現(xiàn)智能體對于三維環(huán)境的主動(dòng)式感知與交互的首要任務(wù),也是當(dāng)前研究熱點(diǎn)之一。
如張量場引導(dǎo)的機(jī)器人自主導(dǎo)航與三維掃描[12]。在一個(gè)未知室內(nèi)場景中,如何讓移動(dòng)機(jī)器人在自主導(dǎo)航的同時(shí)實(shí)現(xiàn)場景的高質(zhì)量三維掃描,是當(dāng)前機(jī)器人領(lǐng)域很少觸及的難點(diǎn)。一方面,機(jī)器人要快速移動(dòng)到尚未掃描到的地方,同時(shí)保證移動(dòng)過程盡可能平滑。因?yàn)橐苿?dòng)過程中,突然的轉(zhuǎn)向和卡頓,均會(huì)嚴(yán)重影響重建質(zhì)量。如,機(jī)器人在探索中需要避障,為了保證掃描質(zhì)量,對于障礙物要提前預(yù)判,提早規(guī)劃路線,因?yàn)橥蝗晦D(zhuǎn)向?qū)呙栀|(zhì)量有很大影響。
為了解決此問題,文獻(xiàn)[12]提出一種基于時(shí)變方向場的自動(dòng)場景掃描算法(圖3(a))。機(jī)器人在掃描的過程中同時(shí)重建三維場景,該方法將實(shí)時(shí)重建的部分場景,投影到地面上,再以二維投影邊界的切向作為約束,計(jì)算一個(gè)方向場。于是,機(jī)器人沿著此方向場運(yùn)動(dòng),有2個(gè)好處:①由于方向場是以障礙物邊界的切向?yàn)榧s束計(jì)算的,沿著這個(gè)方向場移動(dòng),不會(huì)撞向障礙物;②方向場是二階連續(xù)的,可以保證機(jī)器人的移動(dòng)軌跡的連續(xù)性。這2個(gè)方面均是高質(zhì)量掃描的重要保證。
其實(shí)在機(jī)器人領(lǐng)域,基于向量場的機(jī)器人自動(dòng)導(dǎo)航已有很多研究,但是基于方向場的導(dǎo)航工作尚屬首次。相對于向量場,方向場有以下優(yōu)點(diǎn):①方向場由于只有方向沒有朝向,因此避免了由于朝向而產(chǎn)生的二義性,所以奇異點(diǎn)比向量場少得多;②方向場具有二階光滑性,因此通過場對流計(jì)算得到的機(jī)器人運(yùn)動(dòng)路徑足夠光滑;③方向場有限的奇異點(diǎn),可以使用流場的分裂線(separatrix lines)連接起來,從而形成場景的一個(gè)拓?fù)浣Y(jié)構(gòu),基于此可以實(shí)現(xiàn)機(jī)器人的全局導(dǎo)航;此外,該方法還可以對方向場進(jìn)行優(yōu)化,如讓鄰近的2個(gè)奇異點(diǎn)成對消除,或讓奇異點(diǎn)盡可能隱藏在障礙物附近,而不影響機(jī)器人的運(yùn)動(dòng)。
針對移動(dòng)機(jī)器人對大規(guī)模未知場景的主動(dòng)式探索、掃描和重建,需要解決如何高效率探索且高質(zhì)量重建的問題。文獻(xiàn)[13]提出了一種基于最優(yōu)質(zhì)量傳輸理論的多機(jī)協(xié)同掃描方法(圖3(b)),該方法不依賴于特定的機(jī)器人平臺(tái),相比于以往單個(gè)機(jī)器人掃描的工作,在高效率的同時(shí)得到高質(zhì)量的重建結(jié)果。
圖3 路徑導(dǎo)航案例((a)基于時(shí)變方向場的單機(jī)器人自動(dòng)掃描重建[3];(b)基于最優(yōu)質(zhì)量傳輸理論的多機(jī)協(xié)同掃描重建[4])
該方法的核心思想是將多機(jī)協(xié)同重建任務(wù)公式化為資源分配問題。通過對當(dāng)前已掃描重建模型的分析,提取需要額外掃描的區(qū)域并規(guī)劃掃描視角,將其作為重建任務(wù)的需求。機(jī)器人攜帶掃描設(shè)備,作為重建任務(wù)的供給。需求(多個(gè)掃描視角)和供給(多個(gè)機(jī)器人)分別表示為空間中的2個(gè)分布,構(gòu)成了資源分配問題?;谧顑?yōu)質(zhì)量傳輸理論(optimal mass transport,OMT),該工作提出了針對協(xié)同重建任務(wù)的目標(biāo)函數(shù)及其求解方法,求解得到機(jī)器人的任務(wù)分配,機(jī)器人通過完成掃描任務(wù)更新模型,從而迭代地完成漸進(jìn)式重建。
求解資源分配目標(biāo)函數(shù)的核心是如何利用OMT獲取近似最優(yōu)解。該目標(biāo)函數(shù)高度離散化,直接求解往往難以得到最優(yōu)解。文獻(xiàn)[13]提出基于勞埃德算法的近似求解方法,可以高效地求得近似最優(yōu)解。通過大量模擬實(shí)驗(yàn)和真機(jī)實(shí)驗(yàn),驗(yàn)證了該方法可在大規(guī)模未知場景中驅(qū)動(dòng)多個(gè)機(jī)器人自動(dòng)探索、掃描和重建高質(zhì)量的三維模型,在效率和效果上均超越了以往的多機(jī)協(xié)同方法。
觸碰抓取作為智能體與三維環(huán)境的主要交互方式,一直以來都是機(jī)器人領(lǐng)域的一個(gè)重要研究分支,而當(dāng)結(jié)合了圖形學(xué)技術(shù),將感知與交互進(jìn)行深度融合,以主動(dòng)觸碰來增強(qiáng)語義理解,以幾何感知來引導(dǎo)物體抓取,為這一方向的發(fā)展提供了新思路和新途徑。
針對復(fù)雜未知場景的物體分割,文獻(xiàn)[14]提出一種主動(dòng)式場景重建與物體分割方法,通過機(jī)器人主動(dòng)交互實(shí)現(xiàn)場景的分割(圖4(a))。其主要流程是,首先機(jī)器人掃描場景需同時(shí)進(jìn)行在線三維重建。對于重建場景,先做過分割,然后采用graph-cut的方法進(jìn)行初始分割。針對分割不確定的地方,該方法驅(qū)動(dòng)機(jī)器人推動(dòng)一下,就可以得到物理上的可分和不可分,從而得到準(zhǔn)確的分割結(jié)果。此外,機(jī)器人還可以在線學(xué)習(xí),對于推動(dòng)的東西,可以學(xué)習(xí)其分割,下次再遇到類似情況,可以直接預(yù)測分割結(jié)果,而不需要再進(jìn)行物理交互。
為驅(qū)動(dòng)機(jī)器人的主動(dòng)交互,需要度量場景中的不確定性。該方法主要考慮分割和重建2個(gè)方面的不確定性,計(jì)算2個(gè)因素的聯(lián)合熵。分割熵的計(jì)算相對直接,在graph-cut分割中,每一條被切割的圖邊均有一個(gè)切割概率,分割熵就是基于這些邊的切割概率計(jì)算。重建熵是該方法的核心技術(shù)貢獻(xiàn)。重建三維點(diǎn)云時(shí),一般采用的是泊松重建。該方法是基于點(diǎn)云計(jì)算的一個(gè)泊松場,該場的零值面表示被重建的曲面。泊松場的零值面有一個(gè)重要特點(diǎn),即該梯度剛好反映點(diǎn)云局部的確定性。點(diǎn)云越稀疏,噪聲外點(diǎn)越大,梯度越小,則重建不確定性越高;點(diǎn)云越稠密,噪聲外點(diǎn)越少,梯度越大,則重建不確定性越低。直觀上講,重建不確定的地方,點(diǎn)云就比較模糊;相反,重建確定的地方,點(diǎn)云比較清晰。因此該方法可以基于泊松場零值面的梯度來計(jì)算重建熵。
為了改善物體的抓取效果,文獻(xiàn)[15]提出了基于深度幾何表達(dá)的抓取優(yōu)化算法(圖4(b))。對于給定的RGBD圖像,該方法首先通過一個(gè)生成模型顯式地重建了物體的三維幾何,再通過投影得到相應(yīng)局部視角,兩者共同作為抓取預(yù)測網(wǎng)絡(luò)的輸入得到最終的抓取姿勢。相比于先前的不考慮物體幾何的抓取預(yù)測方法,該方法的抓取成功率有明顯的提升。此外,得益于完整的幾何表達(dá),該方法對于其他視角的抓取姿勢的生成也具有更好的泛化性,并能用于指導(dǎo)更優(yōu)抓取姿勢的規(guī)劃。
高自由度抓取是機(jī)器人靈巧操作的重要研究問題,具有廣闊地應(yīng)用前景。文獻(xiàn)[16]提出基于交互幾何表征學(xué)習(xí)的高自由度靈巧抓取(圖5)。該工作將機(jī)械手與物體之間的夾取交互表示為交互二分面(interaction bisector surface,IBS)。IBS源自于生物信息學(xué)領(lǐng)域,近年被引入到圖形學(xué)領(lǐng)域,用于描述場景中物體之間的交互關(guān)系以實(shí)現(xiàn)場景理解與建模。IBS可以很好地刻畫高自由度機(jī)械手的每一個(gè)手指與物體之間的細(xì)粒度空間交互關(guān)系,是一種非常有效的交互狀態(tài)表示。結(jié)合深度強(qiáng)化學(xué)習(xí),可以有效建模和學(xué)習(xí)抓取過程中二者間的動(dòng)態(tài)交互,從而以較高的樣本效率學(xué)習(xí)高自由度抓取控制策略。此外,基于這種幾何表征習(xí)得的控制模型具有較好的動(dòng)態(tài)適應(yīng)性和跨類別泛化性。
智能體的交互任務(wù)往往涉及智能決策,需要進(jìn)行在線的策略學(xué)習(xí)和動(dòng)作規(guī)劃。如,在裝配和物流行業(yè),基于機(jī)器人的拆、碼垛就是一個(gè)典型的涉及在線決策規(guī)劃的任務(wù)。但是,目前機(jī)械臂的智能化水平仍然較低,未對操控過程進(jìn)行合理優(yōu)化,而更多是根據(jù)預(yù)設(shè)的指令進(jìn)行操作。因此,如何利用智能圖形技術(shù),通過獲取到的幾何信息來自主引導(dǎo)機(jī)器臂的操控效率和操作步驟的優(yōu)化逐漸受到關(guān)注。
圖4 幾何引導(dǎo)的主動(dòng)交互與靈巧抓取((a)主動(dòng)交互場景分割[5];(b)基于深度幾何表征學(xué)習(xí)的抓取優(yōu)化[6])
圖5 基于交互二分面的動(dòng)態(tài)交互表征學(xué)習(xí)實(shí)現(xiàn)高自由度靈巧手抓取過程規(guī)劃
在物流倉儲(chǔ)場景中,無序混合紙箱碼垛機(jī)器人有著大量的應(yīng)用需求。對于亂序到來的、多種尺寸規(guī)格的箱子,如何用機(jī)器人實(shí)現(xiàn)自動(dòng)、高效地碼垛,在節(jié)省人力的同時(shí)提升物流周轉(zhuǎn)效率,是物流倉儲(chǔ)自動(dòng)化的一個(gè)難點(diǎn)問題。其核心是求解裝箱問題(bin packing problem,BPP)這一經(jīng)典的NP難題,即為每一個(gè)紙箱規(guī)劃在容器中的擺放位置,以滿足最大化容器的利用率。求解BPP問題的傳統(tǒng)方法大多是基于啟發(fā)式規(guī)則的搜索。在Online BPP問題中,機(jī)器人僅能觀察到即將到來的個(gè)箱子的尺寸信息(即前瞻個(gè)箱子),可稱其為BPP-k問題。對按序到來的箱子,機(jī)器人必須立即完成規(guī)劃和擺放,不允許對已經(jīng)擺放的箱子進(jìn)行調(diào)整,同時(shí)要滿足箱子避障和放置穩(wěn)定性的要求,最終目標(biāo)是最大化容器的空間利用率。Online BPP問題的復(fù)雜度由箱子規(guī)格、容器大小、箱子序列的分布情況和前瞻數(shù)量等因素共同決定。由于僅知道部分箱子序列的有限信息,以往的組合優(yōu)化方法難以勝任。
文獻(xiàn)[17]提出使用深度強(qiáng)化學(xué)習(xí)求解這一問題(圖6(a))。強(qiáng)化學(xué)習(xí)是一種通過自我演繹并從經(jīng)驗(yàn)中學(xué)習(xí)執(zhí)行策略的算法,很適合求解Online BPP這種基于動(dòng)態(tài)變化觀察的序列決策問題。同時(shí),堆箱子過程的模擬仿真非?!傲畠r(jià)”,因而強(qiáng)化學(xué)習(xí)算法可以在模擬環(huán)境中大量執(zhí)行,并從經(jīng)驗(yàn)中學(xué)習(xí)碼垛策略。然而,將強(qiáng)化學(xué)習(xí)算法應(yīng)用到Online BPP上有幾個(gè)方面的挑戰(zhàn),首先,如果將水平放置面劃分成均勻網(wǎng)格,BPP的動(dòng)作空間會(huì)非常大,而樣本效率低下的強(qiáng)化學(xué)習(xí)算法并不擅長應(yīng)對大動(dòng)作空間的問題。此外,如何讓強(qiáng)化學(xué)習(xí)算法更加魯棒、高效地學(xué)習(xí)箱子放置過程中的物理約束(如碰撞避免、穩(wěn)定支持等),也是需要專門設(shè)計(jì)的。
為了提升算法的學(xué)習(xí)效率,同時(shí)保證碼放的物理可行性和穩(wěn)定性,該方法在Actor-Critic框架基礎(chǔ)上引入了一種“預(yù)測-投影”的動(dòng)作監(jiān)督機(jī)制。該方法除了在學(xué)習(xí)Actor的策略網(wǎng)絡(luò)和Critic的Q值(未來獎(jiǎng)勵(lì)的期望)網(wǎng)絡(luò)之外,還讓智能體“預(yù)測”當(dāng)前狀態(tài)下的可行動(dòng)作空間(可行掩碼,feasibility mask)。在訓(xùn)練過程中,依據(jù)預(yù)測得到的可行掩碼將探索動(dòng)作“投影”到可行動(dòng)作空間內(nèi),再進(jìn)行動(dòng)作采樣。這樣的有監(jiān)督可行性預(yù)測方法,一方面可以讓強(qiáng)化學(xué)習(xí)算法快速學(xué)習(xí)到物理約束,另一方面也盡可能避免訓(xùn)練中箱子放置到不可行位置而提前終止序列,從而顯著提升訓(xùn)練效率。在實(shí)際應(yīng)用場景中,機(jī)器人往往無法預(yù)先看到傳送帶上即將到來的所有箱子,故無法對整個(gè)箱子序列進(jìn)行全局最優(yōu)規(guī)劃。因而現(xiàn)有的BPP方法無法被直接用于真實(shí)物流場景。事實(shí)上,人可以根據(jù)即將到來的幾個(gè)箱子的形狀尺寸,很快地做出決策,并不需要、也無法做到對整個(gè)箱子序列的全局規(guī)劃。該問題的求解對于開發(fā)真正實(shí)用的智能碼垛機(jī)器人有重要意義。在一項(xiàng)用戶調(diào)查中,該方法的擺放性能甚至超越了人類。在包含總共1 851個(gè)高難度隨機(jī)箱子的序列中,人類獲勝的次數(shù)是406次,平均性能表現(xiàn)是52.1%,而強(qiáng)化學(xué)習(xí)獲勝的次數(shù)是1 339次,平均性能表現(xiàn)是68.9%。
圖6 裝箱問題的在線優(yōu)化與規(guī)劃((a)在線裝箱優(yōu)化[7];(b)轉(zhuǎn)移裝箱優(yōu)化[8])
作為裝箱問題的一個(gè)變種,文獻(xiàn)[18]研究了轉(zhuǎn)移裝箱問題(transpose and pack,TAP),如圖6(b)所示。給定一組堆疊的貨物箱子,轉(zhuǎn)移TAP的目標(biāo)是逐個(gè)轉(zhuǎn)移這些箱子并將其緊湊地裝箱到目標(biāo)容器中,其為一個(gè)沒有中途緩存空間的拆垛與碼垛問題。由于初始堆疊帶來的箱子可接觸性限制,該問題必須在裝箱問題本就龐大的搜索空間中增加轉(zhuǎn)移規(guī)劃的維度,即找出一個(gè)最優(yōu)的轉(zhuǎn)移順序。該方法使用優(yōu)先級(jí)圖表示物體轉(zhuǎn)移的約束條件,并通過在強(qiáng)化學(xué)習(xí)訓(xùn)練中獎(jiǎng)勵(lì)有效且穩(wěn)定的轉(zhuǎn)移裝箱方案,訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)對解決方案的模式進(jìn)行編碼和學(xué)習(xí)。該網(wǎng)絡(luò)能在小規(guī)模樣本訓(xùn)練的基礎(chǔ)上,很好地拓展到對較大規(guī)模問題實(shí)例的求解,具有非常強(qiáng)的實(shí)際應(yīng)用價(jià)值。
三維感知與交互主要研究的是對于三維場景的視覺感知(包括幾何、結(jié)構(gòu)、語義等多層次信息的獲取與理解)和交互反饋(包括智能機(jī)器人或者虛擬角色在三維空間中的路徑導(dǎo)航、觸碰抓取等多方面操控的探索與優(yōu)化),是圖形學(xué)和虛擬現(xiàn)實(shí)的一個(gè)重要研究分支,也是圖形學(xué)、人工智能和機(jī)器人等多門學(xué)科進(jìn)行交叉融合的前沿研究方向。本文嘗試從4個(gè)方面探討該方向的開放問題和發(fā)展趨勢。
(1) 三維感知的全??晌⒎謨?yōu)化。機(jī)器學(xué)習(xí)技術(shù)的引入,特別是三維幾何深度學(xué)習(xí)的興起,極大促進(jìn)了數(shù)據(jù)驅(qū)動(dòng)三維幾何分析與建模的發(fā)展。然而,三維深度學(xué)習(xí)追求“端到端”可學(xué)習(xí)性,往往忽視了傳統(tǒng)幾何分析與建模的處理管線,帶來樣本效率低、模型泛化能力受限、可解釋性差等問題。更重要的是,現(xiàn)有深度學(xué)習(xí)模型大多只針對幾何建?;蚶斫獾哪硞€(gè)任務(wù)而設(shè)計(jì),缺乏從獲取、處理、重建到分析、理解的整個(gè)幾何計(jì)算管線的完整建模,無法面向智能感知任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)和優(yōu)化。如,如何借助幾何分析(“知”)的學(xué)習(xí)梯度來自動(dòng)優(yōu)化和調(diào)整前端的三維獲取過程(“感”),實(shí)現(xiàn)以“知”引導(dǎo)“感”的可微分優(yōu)化感知與建模,進(jìn)而打通智能任務(wù)對主動(dòng)感知過程的優(yōu)化和引導(dǎo)。如何將深度學(xué)習(xí)融入三維幾何獲取、重建、分析和理解的完整管線中,實(shí)現(xiàn)“全??晌⒎帧钡闹鲃?dòng)式三維環(huán)境感知與建模,是值得深入探索的研究方向。
(2) 目標(biāo)環(huán)境的幾何-結(jié)構(gòu)-語義聯(lián)合表達(dá)構(gòu)建。為支持面向智能任務(wù)的環(huán)境感知和交互,需要基于三維感知和建模的結(jié)果來構(gòu)建和維護(hù)目標(biāo)環(huán)境的結(jié)構(gòu)化、語義化三維表達(dá)。該表達(dá)的基礎(chǔ)是場景/對象的三維幾何表示。在幾何表示的基礎(chǔ)上,通過數(shù)據(jù)驅(qū)動(dòng)的場景分析,可以進(jìn)一步得到環(huán)境的結(jié)構(gòu)表達(dá)。結(jié)構(gòu)涵蓋了場景/對象的組成部分以及各部分之間的空間拓?fù)潢P(guān)系。結(jié)構(gòu)信息可用于支持結(jié)構(gòu)關(guān)系層面的中層次交互任務(wù),如拆卸和安裝等?;趲缀魏徒Y(jié)構(gòu)表示,還可以進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的語義分析,得到目標(biāo)環(huán)境的整體或局部語義標(biāo)簽、功能解析、屬性關(guān)聯(lián),以支持語義功能層面的高層次交互任務(wù)。如,讓智能體在理解人的意圖后執(zhí)行高級(jí)語義任務(wù)。因此,如何實(shí)現(xiàn)融合幾何-結(jié)構(gòu)-語義的目標(biāo)環(huán)境聯(lián)合表達(dá),以及該聯(lián)合表達(dá)的動(dòng)態(tài)更新,是實(shí)現(xiàn)智能三維感知與交互的基礎(chǔ)。
(3) 感知-交互的聯(lián)合優(yōu)化和反饋增強(qiáng)。由于感知與交互的耦合特性,如何在一個(gè)統(tǒng)一計(jì)算框架下實(shí)現(xiàn)面向智能任務(wù)的感知交互聯(lián)合優(yōu)化和反饋增強(qiáng),是值得研究的重要方向。一個(gè)可能的思路是,面向某個(gè)特定任務(wù),智能體對目標(biāo)環(huán)境進(jìn)行探索式環(huán)境感知,通過在線數(shù)據(jù)驅(qū)動(dòng)分析理解完成感知推理,基于推理結(jié)果和任務(wù)策略實(shí)現(xiàn)基于注意力機(jī)制的交互規(guī)劃,進(jìn)而驅(qū)動(dòng)和引導(dǎo)智能體對目標(biāo)環(huán)境的進(jìn)一步感知和交互,同時(shí)完成任務(wù)策略的學(xué)習(xí)更新,直到任務(wù)完成。
(4) 虛實(shí)融合環(huán)境下的感知-規(guī)劃-交互閉環(huán)。基于強(qiáng)化學(xué)習(xí)的交互策略學(xué)習(xí)已經(jīng)在一些挑戰(zhàn)性任務(wù)上取得了成功,如抓取、導(dǎo)航、運(yùn)動(dòng)合成等。但是,強(qiáng)化學(xué)習(xí)面臨樣本效率低、策略遷移困難等難題,極大地制約了其在復(fù)雜任務(wù)學(xué)習(xí)方面的應(yīng)用。特別是面向智能任務(wù)的從感知到規(guī)劃再到交互的端到端策略學(xué)習(xí)上,上述問題更加凸顯。為此,通過場景感知不斷構(gòu)建和更新真實(shí)目標(biāo)環(huán)境的虛擬鏡像,基于真實(shí)和虛擬樣本同時(shí)訓(xùn)練交互策略,在虛實(shí)同步的平行環(huán)境中實(shí)現(xiàn)感知-學(xué)習(xí)-規(guī)劃-交互的閉環(huán),可有效降低強(qiáng)化學(xué)習(xí)的采樣代價(jià),也有助于學(xué)習(xí)易于遷移的策略。當(dāng)前,數(shù)字孿生與強(qiáng)化學(xué)習(xí)的結(jié)合受到了工業(yè)和學(xué)術(shù)界越來越多的關(guān)注。此處,基于實(shí)時(shí)三維感知建立和維護(hù)虛實(shí)同步的學(xué)習(xí)環(huán)境是數(shù)字孿生學(xué)習(xí)的基礎(chǔ)。因此,感知將承擔(dān)學(xué)習(xí)環(huán)境建模(包括幾何、物理、語義、功能等多方面的建模)和智能交互引導(dǎo)的雙重角色。
[1] ZOLLH?FER M, STOTKO P, G?RLITZ A, et al. State of the art on 3D reconstruction with RGB-D cameras[J]. Computer Graphics Forum, 2018, 37(2): 625-652.
[2] PATANE G. STAR - Laplacian spectral kernels and distances for geometry processing and shape analysis[J]. Computer Graphics Forum, 2016, 35(2): 599-624.
[3] MITRA N J, PAULY M, WAND M, et al. Symmetry in 3D geometry: extraction and applications[J]. Computer Graphics Forum, 2013, 32(6): 1-23.
[4] HU R, SAVVA M, VAN KAICK O. Functionality representations and applications for shape analysis[J]. Computer Graphics Forum, 2018, 37(2): 603-624.
[5] XU K, KIM V G, HUANG Q X, et al. Data-driven shape analysis and processing[EB/OL]. [2022-07-10]. https://arxiv.org/abs/1502.06686.
[6] CHAUDHURI S, RITCHIE D, WU J J, et al. Learning generative models of 3D structures[J]. Computer Graphics Forum, 2020, 39(2): 643-666.
[7] GORDON I E. Theories of visual perception[M]. 3rd ed. Hove, East Sussex: Psychology Press, 2004: 117-142.
[8] LUCK S J, FORD M A. On the role of selective attention in visual perception[J]. Proceedings of the National Academy of Sciences of the United States of America, 1998, 95(3): 825-830.
[9] LI Y F, PIZLO Z. Depth cues versus the simplicity principle in 3D shape perception[J]. Topics in Cognitive Science, 2011, 3(4): 667-685.
[10] BARRY C, DOELLER C F. Neuroscience. 3D mapping in the brain[J]. Science, 2013, 340(6130): 279-280.
[11] BUSCHMAN T J, MILLER E K. Top-down versus bottom-up control of attention in the prefrontal and posterior parietal cortices[J]. Science, 2007, 315(5820): 1860-1862.
[12] XU K, ZHENG L T, YAN Z H, et al. Autonomous reconstruction of unknown indoor scenes guided by time-varying tensor fields[J]. ACM Transactions on Graphics, 2017, 36(6): 1-15.
[13] DONG S Y, XU K, ZHOU Q, et al. Multi-robot collaborative dense scene reconstruction[J]. ACM Transactions on Graphics, 2019, 38(4): 84.
[14] XU K, HUANG H, SHI Y F, et al. Autoscanning for coupled scene reconstruction and proactive object analysis[J]. ACM Transactions on Graphics, 2015, 34(6): 177.
[15] YAN X C, HSU J, KHANSARI M, et al. Learning 6-DOF grasping interaction via deep geometry-aware 3D representations[C]//2018 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 2018: 3766-3773.
[16] SHE Q J, HU R Z, XU J Z, et al. Learning high-DOF reaching-and-grasping via dynamic representation of gripper-object interaction[J]. ACM Transactions on Graphics, 2022, 41(4): 1-14.
[17] ZHAO H, SHE Q J, ZHU C Y, et al. Online 3D Bin packing with constrained deep reinforcement learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(1): 741-749.
[18] HU R Z, XU J Z, CHEN B, et al. TAP-Net: transport-and-pack using reinforcement learning[J]. ACM Transactions on Graphics, 2020, 39(6): 232.
Geometry-guided active 3D perception and interaction
XU Kai, HU Rui-zhen, YANG Xin
(1. School of Computer Science, National University of Defense Technology, Changsha Hunan 410073, China; 2. School of Computer and Software, Shenzhen University, Shenzhen Guangdong 518060 China; 3. Department of Telecommunications, Dalian University of Technology, Dalian Liaoning 116000, China)
With the proliferation of 3D sensors and the development of large-scale 3D data, visual perception based on 3D reconstruction and understanding has
much attention. Meanwhile, intelligent graphics also leads a breakthrough in active interaction, becoming task-driven and targeting both virtual and real environments. In this sense, computer graphics, which is traditionally a field of information expression, is now expanding into the territory of information sensing. The interaction of computer graphics is also moving towards active interaction driven by intelligent tasks. Alongside this trend, data-driven analysis and modeling of 3D data, especially the corresponding online techniques, have been playing a critical role. This article expounded on active 3D perception and interaction from the perspective of the fusion between graphics and vision, along with several concrete research examples. A special emphasis was put on the advantages and challenges of being active for 3D perception and 3D interaction, and tentative explorations were made on the open problems and trends along this direction.
geometric guidance; 3D perception and interaction; active perception and interaction
TP 391
10.11996/JG.j.2095-302X.2022061049
A
2095-302X(2022)06-1049-08
2022-08-08;
:2022-10-15
國家自然科學(xué)基金項(xiàng)目(62132021,61972067);科技創(chuàng)新2030項(xiàng)目(2022ZD0210500)
徐 凱(1982-),男,教授,博士。主要研究方向?yàn)閹缀谓?、三維視覺、數(shù)據(jù)驅(qū)動(dòng)的圖形學(xué)。E-mail:kevin.kai.xu@gmail.com
8 August,2022;
15 October,2022
National Natural Science Foundation of China (62132021, 61972067); National Key Research and Development Program of China (2022ZD0210500)
XU Kai (1982-), professor, Ph.D. His main research interests cover geometric modeling, 3D vision, data-driven graphics. E-mail:kevin.kai.xu@gmail.com