高春艷, 梁彧浩, 李滿宏, 張明路, 孫立新
(河北工業(yè)大學(xué)機械工程學(xué)院, 天津 300401)
人機協(xié)作(Human-robot collaboration, HRC)是指人與機器人共享協(xié)作工作空間,在同一目標(biāo)任務(wù)下,進(jìn)行協(xié)調(diào)或同步地聯(lián)合活動作業(yè)[1]。隨著人工智能和自動化技術(shù)的不斷發(fā)展,人機協(xié)作廣泛應(yīng)用在制造業(yè)、醫(yī)療、服務(wù)[2-4]等領(lǐng)域。
人機協(xié)作共融將人類強大的認(rèn)知推理和決策能力以及機器人高精度特性和高效的計算能力結(jié)合起來,實現(xiàn)復(fù)雜條件下的協(xié)同工作[5]。對于一些不可預(yù)知或動態(tài)的因素,人機協(xié)作共融也能夠使機器人精確識別人類意圖并適應(yīng)障礙,從而更好地完成作業(yè)任務(wù)。
自然、精確的人機交互是人機協(xié)作的基礎(chǔ)[6]。針對各種復(fù)雜的環(huán)境,機器人需要理解人類的意圖,識別協(xié)作環(huán)境中人體的運動情況,并采用適當(dāng)?shù)谋茏尣呗詠矸乐古鲎?并在發(fā)生意外或不可避免的撞擊時最大限度地減少對人的傷害[7]。因此,機器人的識別預(yù)測能力成為當(dāng)下人機協(xié)作環(huán)境中的研究重點。然而,人機協(xié)作過程中仍存在環(huán)境光照變化,目標(biāo)背景遮擋,人或機器人產(chǎn)生相對運動等復(fù)雜情況,現(xiàn)針對人機共融工作中機器人對于人的體態(tài)姿勢識別技術(shù)以及避碰策略進(jìn)行對比分析,并基于深度學(xué)習(xí)的方法及應(yīng)用進(jìn)行展望。
在人機共融場景中,機器視覺系統(tǒng)能使機器人對協(xié)作場景有全面的了解,便于后續(xù)機器人的決策和主動規(guī)劃[8]。
人體姿態(tài)識別通過圖像采集系統(tǒng)進(jìn)行數(shù)據(jù)采集,采用視覺傳感器收集圖像信息。協(xié)作環(huán)境下,單目相機由于視角限制會影響檢測結(jié)果的魯棒性,且對遮擋、光照變化較敏感,通過引入深度學(xué)習(xí)方法,可被應(yīng)用到3D姿態(tài)識別領(lǐng)域[9-10];立體相機[11]可采集和呈現(xiàn)立體圖像,魯棒性較強,但特征匹配難度高,標(biāo)定比較困難;深度相機可輸出3D深度信息,校準(zhǔn)和照明條件對識別結(jié)果影響較小;TOF和Kinect兩種包含彩色和深度傳感器的RGB-D相機,可在復(fù)雜場景下實現(xiàn)穩(wěn)定的識別效果。表1為各視覺系統(tǒng)傳感器的特征對比。
表1 各視覺系統(tǒng)傳感器特征對比
針對復(fù)雜協(xié)作場景的傳感器應(yīng)用,Ant?o等[12]采用ZED立體相機捕獲3D協(xié)作空間的點云數(shù)據(jù),用于后續(xù)未標(biāo)記的體素網(wǎng)格的創(chuàng)建,使用紅綠藍(lán)(red-green-blue,RGB)圖像和人機關(guān)節(jié)位置信息,標(biāo)記體素網(wǎng)格中的關(guān)鍵元素,在復(fù)雜背景下模擬的協(xié)作區(qū)域姿態(tài)識別效果較好。文獻(xiàn)[13]采用粒子濾波器并引入長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM),通過融合多個從深度相機中提取的二維關(guān)節(jié)位置來估計3D人體姿勢,結(jié)果表明在遮擋、不受約束的照明和運動模糊情況下均可增強協(xié)作場景的姿態(tài)識別性能。RGB-D相機可通過深度與顏色信息輔助識別陰影的形狀與位置,并判斷物體間的遮擋關(guān)系,具有較強的環(huán)境適應(yīng)性與實時性。Hu等[15]利用Kinect相機獲取人體關(guān)節(jié)信息,采用偏圓定界方法解決了人體關(guān)節(jié)偏移現(xiàn)象,從而實現(xiàn)運動情況下對人體關(guān)節(jié)點的精確估計。
協(xié)作場景的圖像處理過程中,機器人通過分析圖像或視頻中的像素信息來精準(zhǔn)識別人體部分關(guān)鍵特征,從而實現(xiàn)姿態(tài)識別。
1.2.1 表觀特征
表觀特征主要包括顏色、輪廓等視覺屬性,系統(tǒng)分析顏色時通過顏色直方圖或顏色矩來提取特征。在復(fù)雜的協(xié)作環(huán)境中,視覺系統(tǒng)對基于顏色的識別與分析結(jié)果易受到光照、陰影和膚色的影響而產(chǎn)生畸變?;诖?Al Naser等[17]開發(fā)一種結(jié)合Otsu方法和YCrCb色彩空間的新型算法,實現(xiàn)熱信息與顏色信息的數(shù)據(jù)融合來進(jìn)行人體部位檢測,與傳統(tǒng)OpenPose算法相比識別速度快5倍,且可減少光照及人體膚色的影響。Zabalza等[18]開發(fā)了一種基于低成本相機和基于色調(diào)、飽和度、亮度(hue-saturation-value, HSV)空間顏色檢測的機器視覺模塊,該模塊可使機器人意識到變化的環(huán)境并精確檢測障礙物,提升了光照以及移動情況下的識別精度。
1.2.2 局部特征
局部特征相較表觀特征對光線并不敏感,可通過預(yù)處理和歸一化的操作提升識別的質(zhì)量。尺度不變換特征(scale-invariant feature transform, SIFT)能在不同大小和旋轉(zhuǎn)方向的圖像中識別關(guān)鍵點并提取局部特征[19],抗遮擋干擾情況較好;ORB(oriented FAST and rotated BRIEF)將FAST(features from accelerated segment test)的高速特征檢測及BRIEF(binary robust independent elementary features)的高效特征描述結(jié)合起來,相比SIFT在計算速度上有更快的優(yōu)勢;方向梯度直方圖(histogram of oriented gradients, HOG)基于提取圖像中不同區(qū)域的梯度直方圖,并將其作為特征向量進(jìn)行人體姿態(tài)識別,對光照和視角變化具有一定的不變性。在遮擋條件下的協(xié)作環(huán)境中, Vinay等[20]提出一種基于ORB的交互式人臉識別框架,引入考慮遮擋等非線性因素的核主成分分析不相關(guān)分量,識別精度提高了5%。巫曉康等[21]提出一種采用HOG提取特征矩陣的骨架旋轉(zhuǎn)投影描述子(rotational and projective skeleton signature,RPSS)來識別人體骨架,該方法在動作序列的時空信息不充分的情況下,識別魯棒性和實時性均較好。
1.2.3 骨骼特征
復(fù)雜場景的完整人體模型通常不易識別,而骨骼特征通過定量描述關(guān)節(jié)位置和角度,可提取骨骼的空間與動態(tài)信息,免受照明和背景干擾且準(zhǔn)確性高[22]。
骨骼特征提取采用骨骼幾何信息構(gòu)成分類特征,通過骨骼識別算法提取人體15個骨骼關(guān)鍵點坐標(biāo)信息,如圖1所示。
1為頭;2為左肩;3為脖子;4為右肩;5為左肘;6為軀干;7為右肘;8為左手;9為左臀;10為右臀;11為右手;12為左膝;13為右膝;14為左腳;15為右腳
設(shè)bi=(x,y,z)為第i個關(guān)節(jié)點三維坐標(biāo)i=1,2,…,15,則bi,bj間的距離δ(bi,bj)計算公式為
δ(bi,bj)=
(1)
避免異構(gòu)需計算手肘肩膀及腳膝蓋臀部所構(gòu)成的角度θi,公式為
(2)
由式(1)和式(2)即可識別關(guān)節(jié)間距離與角度信息,由此類信息共同構(gòu)成所需特征。文獻(xiàn)[23]采用骨骼識別算法,從RGB圖像中恢復(fù)3D人體網(wǎng)格,通過關(guān)節(jié)回歸模塊估計單目視頻中的三維人體骨骼信息,解決了人體在環(huán)境中的姿勢和特征差異以及人體的部分遮擋問題。文獻(xiàn)[24]提出一種基于姿態(tài)運動的時空融合圖卷積網(wǎng)絡(luò),引入基于局部姿態(tài)運動的時間注意力模塊進(jìn)行骨骼信息提取,與語音交互相比準(zhǔn)確性較高且在時間域內(nèi)可高效抑制運動擾動信息。
1.2.4 運動特征
在移動情況下的協(xié)作環(huán)境,對運動特征的檢測識別也可保障人類安全。運動特征領(lǐng)域的典型研究方法包括差像法和光流法,可用于提取運動信息。差像法通過相鄰幀間的像素值進(jìn)行差分運算來檢測運動,適用于背景變化劇烈的情況。而光流法則通過分析鄰域像素之間的亮度變化,來估計每個像素的運動向量,適用于平緩運動[25]。
文獻(xiàn)[26]提出一種結(jié)合強特征提取器、注意力輪廓及中間特征的改進(jìn)光流法,在交互系統(tǒng)中可實現(xiàn)速度精度權(quán)衡,能更好地理解運動并精確地表示輪廓。Agarwal等[27]利用Vanilla-LSTM和Social-LSTM時間深度神經(jīng)網(wǎng)絡(luò)檢測人類運動軌跡,引入密集光流法,用以穩(wěn)定來自數(shù)據(jù)集中的輸入注釋并減少相機運動的影響。
協(xié)作環(huán)境中,視覺識別算法對從原始傳感器獲取的數(shù)據(jù)即人體肢體和姿態(tài)等進(jìn)行識別。姿態(tài)識別算法在目標(biāo)檢測基礎(chǔ)上,通過對目標(biāo)位置信息進(jìn)行分析和推理,推斷出目標(biāo)姿態(tài)。
應(yīng)用在協(xié)作領(lǐng)域的OpenPose[28-29]、Media-pipe[30-31]、DeepPose[32-33]、AlphaPose[34]等姿態(tài)識別算法可識別出人體關(guān)鍵點的坐標(biāo)信息。其中Open-Pose和Mediapipe屬于自底向上的方法,需要檢測圖像關(guān)鍵點,通過組合來形成人體姿態(tài),可能會因為遮擋、相同目標(biāo)距離較近等情況造成關(guān)鍵點的誤連接。DeepPose和AlphaPose是自頂向下的方法,通過神經(jīng)網(wǎng)絡(luò)監(jiān)測到人體實例,再根據(jù)關(guān)鍵點檢測算法檢測人體關(guān)節(jié)點,可以減少誤檢測與冗余檢測的情況。文獻(xiàn)[35]表明多目標(biāo)協(xié)作環(huán)境中,自頂向下的關(guān)鍵點檢測方法相較自底向上方法更適合近距離檢測。表2為幾種人體姿態(tài)識別算法的特征對比。
表2 人體姿態(tài)識別算法特征對比
OpenPose的魯棒性與精準(zhǔn)度優(yōu)良,適用于單人和多人環(huán)境及各類背景復(fù)雜的體態(tài)識別。Gao等[36]基于改進(jìn)OpenPose算法,對采用雙流注意模型分割的手部圖像進(jìn)行識別,通過加權(quán)融合方法結(jié)合骨架數(shù)據(jù),實現(xiàn)復(fù)雜環(huán)境的姿勢動態(tài)感知。文獻(xiàn)[37]提出一種采用OpenPose進(jìn)行關(guān)鍵點提取和基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)分類的新型KPE-DCNN模型,用于遮擋和移動等復(fù)雜協(xié)作場景的姿態(tài)識別,與CNN等標(biāo)準(zhǔn)算法相比提高了最少8.87%的識別精度。文獻(xiàn)[38]提出的Lightweight OpenPose輕量級方法,相較于 OpenPose 所占資源更少,適用于對硬件設(shè)備要求不高的場景。
機器人在協(xié)作過程中需根據(jù)先前行為信息進(jìn)行分類并預(yù)測人體運動軌跡,計算最佳避免碰撞路徑,以保證人體安全。預(yù)測運動軌跡的方法包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)。
2.1.1 監(jiān)督學(xué)習(xí)方式
監(jiān)督學(xué)習(xí)可通過建模人體動作序列并預(yù)測運動,具有高準(zhǔn)確性及快速決策的優(yōu)勢,常用于協(xié)作環(huán)境中的人體運動估計。幾種典型分類模型:隱馬爾可夫模型(hidden Markov model, HMM)基于時間序列數(shù)據(jù),可將獲取的行為數(shù)據(jù)特征向量化并利用向量序列來訓(xùn)練,在對動作序列建模和分類方面效果較好[39];馬爾可夫模型(Markov model, MM)相較HMM主要考慮狀態(tài)之間的轉(zhuǎn)移概率,對協(xié)作環(huán)境中的動態(tài)運動場景具有適應(yīng)性[40];支持向量機(support vector machine, SVM)通過將數(shù)據(jù)映射到高維空間,尋找最大間隔超平面來進(jìn)行分類實現(xiàn)運動預(yù)測[41];動態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayesian network, DBN)可對變量間的概率關(guān)系進(jìn)行建模和預(yù)測[42],與SVM融合可適當(dāng)降低系統(tǒng)復(fù)雜性并提高預(yù)測準(zhǔn)確性。HMM對光照及遮擋影響較敏感,而MM、SVM和DBN對這類因素具有不同程度的適應(yīng)能力,更適合復(fù)雜環(huán)境下的協(xié)作任務(wù)。
在運動下的人機協(xié)作場景中,Grigore等[43]從由人類工人組成的訓(xùn)練集中學(xué)習(xí)一個HMM,使用其在任務(wù)執(zhí)行期間對有關(guān)人類行為模式的信息進(jìn)行編碼,能夠隱式靈活地表示任務(wù)相關(guān)結(jié)構(gòu),并輔助預(yù)測機器人的運動。Wang等[44]將基于注意機制的擴展馬爾可夫遷移特征集成到傳統(tǒng)的MM中,通過解決人體運動的長期相關(guān)性和上下文依賴的問題,實現(xiàn)高性能的運動預(yù)測,經(jīng)評估表明,所提出的新型算法模型優(yōu)于傳統(tǒng)算法6.6%以上。董寧等[45]提出一種基于DBN的人體動作識別方法,通過提取人體的關(guān)節(jié)點并計算軀干角度,使用后驗概率動態(tài)調(diào)整SVM分類器和樸素貝葉斯分類器權(quán)重,使其互為補充來增加識別率,通過與單分類器的對比試驗驗證了對人體的運動預(yù)測。
2.1.2 無監(jiān)督學(xué)習(xí)方式
監(jiān)督學(xué)習(xí)方法存在兩大局限性:機器人在碰撞數(shù)據(jù)收集過程中可能會損壞;只有作為碰撞學(xué)習(xí)的場景才能被魯棒檢測[46]。而無監(jiān)督學(xué)習(xí)能自動發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)性并識別潛在特征,適用于處理未知類別訓(xùn)練樣本的情況。
高斯混合模型(Gaussian mixture model, GMM)可被用來對人體的關(guān)鍵點進(jìn)行建模和分析,建立人體動作數(shù)據(jù)集,運用回歸方式預(yù)測人體動作[47]。設(shè)GMM由m個高斯模型組成,每個高斯模型為一個分量,則GMM的概率密度函數(shù)為
(3)
式(3)中:x為D維特征向量,p(x|m)=N(x|μm,Σm)為第m個高斯模型的概率密度函數(shù),可以看作是第m個高斯模型選擇后產(chǎn)生的x概率,表達(dá)式為
(4)
Luo等[49]提出了一個由兩層的GMM庫組成的,用于無監(jiān)督在線人體運動識別和預(yù)測的框架,如圖2所示。該框架可以實時生成模型,能適應(yīng)新的人與動作,預(yù)測準(zhǔn)確率達(dá)到95.3%??到艿萚50-51]提出一種基于ROS的人體姿態(tài)的實時運動估計框架,利用GMM算法和期望最大化算法,根據(jù)采集到的坐標(biāo)點進(jìn)行聚類估計,并為每個類別添加標(biāo)簽來獲取關(guān)節(jié)的順序,該方法能夠準(zhǔn)確描述人體運動并做出預(yù)測。
Gn為庫中GMM;Xj為軌跡
無監(jiān)督學(xué)習(xí)不需要大規(guī)模的監(jiān)督數(shù)據(jù)集,也不需要傳統(tǒng)的訓(xùn)練過程和手工標(biāo)注,就可以構(gòu)建人體運動模型并進(jìn)行預(yù)測。但是在相對復(fù)雜的協(xié)作環(huán)境,采用無監(jiān)督學(xué)習(xí)模型的分類結(jié)果魯棒性較低,相比監(jiān)督學(xué)習(xí)有指導(dǎo)性和反饋機制的優(yōu)勢,其準(zhǔn)確性和效率還需提高。
深度學(xué)習(xí)方法是一種端到端的學(xué)習(xí)方法,不需要人工干預(yù),而是依靠算法自動提取特征??芍苯訌脑驾斎霐?shù)據(jù)開始,通過層次化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動完成特征提取和模型學(xué)習(xí)[52]。深度學(xué)習(xí)方法由神經(jīng)網(wǎng)絡(luò)發(fā)展而來,神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)學(xué)習(xí)過程中能夠辨識樣本數(shù)據(jù)內(nèi)部結(jié)構(gòu)特性與隱含規(guī)則,具有分析處理相似性數(shù)據(jù),表達(dá)非線性函數(shù)關(guān)系并找到系統(tǒng)輸入輸出關(guān)系的能力。
在協(xié)作環(huán)境下的預(yù)測領(lǐng)域,深度學(xué)習(xí)常用網(wǎng)絡(luò)模型有用于處理視覺信息的深度卷積神經(jīng)網(wǎng)絡(luò),以及用于特征學(xué)習(xí)的堆棧式自編碼網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)。鄭涵等[53]通過改進(jìn)的Faster R-CNN網(wǎng)絡(luò)進(jìn)行手部及其關(guān)鍵點檢測,使用MANO(hand model with articulated and non-rigid deformations)模型獲取手部關(guān)鍵點的三維坐標(biāo),最終得到手部的三維位姿估計結(jié)果,該方法能夠解決手部自遮擋和尺度問題,并提高檢測結(jié)果的準(zhǔn)確性。針對運動的復(fù)雜情況,陳鵬展等[54]提出一種融合骨骼耦合的預(yù)測方法,采用增加原始輸出處理層的改進(jìn)LSTM網(wǎng)絡(luò)模型框架,通過拉普拉斯評分算法和動態(tài)聚類算法實現(xiàn)基于骨骼耦合性的約束條件來減小關(guān)鍵點軌跡預(yù)測誤差,裝配協(xié)作場景中的準(zhǔn)確率達(dá)80%以上。Wang等[55]提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)和LSTM架構(gòu)的手部運動預(yù)測系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖3所示,引入優(yōu)化的機器人軌跡規(guī)劃算法,利用視覺模塊的預(yù)測進(jìn)行復(fù)雜協(xié)作環(huán)境的運動軌跡優(yōu)化計算。
圖3 安全協(xié)作系統(tǒng)結(jié)構(gòu)[56]
為提高協(xié)作避碰能力與安全性,Choi等[56]提出一種基于擴展現(xiàn)實的人機互助應(yīng)用程序來跟蹤人體骨骼和同步機器人,采用基于深度學(xué)習(xí)的分割和迭代最近點匹配算法實時測量人類操作員與機器人之間的安全距離。Zheng等[57]提出一種基于編碼器-解碼器網(wǎng)絡(luò)的人手運動預(yù)測模型,融合模型預(yù)測控制框架,能夠基于人體運動軌跡來規(guī)劃共享工作空間中的機器人無碰撞軌跡。
基于以上綜述,分析了部分方法中可能存在的不足,并做出總結(jié)與展望,具體如下。
(1)人機協(xié)作中,機器人需高度關(guān)注人類的識別感知。然而,目前的方法僅能通過可穿戴設(shè)備[58]對人體的局部進(jìn)行感知,或者僅能通過視覺檢測和骨骼識別來確定人體的粗略位置與建模,而不是準(zhǔn)確的3D幾何建模。為應(yīng)對復(fù)雜協(xié)作環(huán)境,計算機視覺領(lǐng)域中出現(xiàn)一種密集人體姿勢建模的趨勢,包括精密的身體姿態(tài)建模[59]和手部姿勢建模,被用于更精細(xì)的人體感知來應(yīng)對變化的環(huán)境,提高姿態(tài)估計精度。
(2)人機協(xié)同作業(yè)面臨環(huán)境復(fù)雜,視覺傳感器在協(xié)作過程中可能會存在延遲問題,而僅使用單一的視覺傳感器已不能滿足工作需求。因此,可采用觸覺、聽覺等多傳感器融合的方式,賦予機器人更立體的感知能力。除人體動作外,機器人對多模態(tài)信息的識別也影響著人體姿態(tài)預(yù)測,有學(xué)者采用肌電信號、腦電信號[60]融合等方式使機器人預(yù)測人類意圖,以支持更主動的人機協(xié)作。
人機協(xié)作的安全性和實時性是人工智能行業(yè)的重要問題,基于此探討了復(fù)雜協(xié)作環(huán)境的姿態(tài)識別與避碰策略。相較傳統(tǒng)方法,基于深度學(xué)習(xí)的人體姿態(tài)識別與預(yù)測方法擁有強大的學(xué)習(xí)能力、較高的準(zhǔn)確性、良好的實時性與適應(yīng)性,使其能夠有效應(yīng)對復(fù)雜動態(tài)人機共融環(huán)境的變化和不確定性,為實時交互提供可靠幫助,在復(fù)雜協(xié)作場景中的姿態(tài)預(yù)測領(lǐng)域有較大的學(xué)術(shù)潛力和研究價值。