黃靖敏,李萬益,林浩翔,楊康明,馮風(fēng)炎,郭澤佳
(廣東第二師范學(xué)院計算機(jī)學(xué)院,廣州 510303)
從多個視角估計三維人體運(yùn)動形態(tài)是計算機(jī)視覺領(lǐng)域研究的熱點(diǎn)問題,其目的是預(yù)測二維有限視角相應(yīng)的三維姿態(tài)模型(骨架模型)。該三維姿態(tài)模型數(shù)據(jù)具有多方面的應(yīng)用,例如,智能運(yùn)動姿態(tài)三維重構(gòu)或識別,基于姿態(tài)識別的無人駕駛控制等。
文獻(xiàn)[8,9]提及,可以通過一些卷積神經(jīng)網(wǎng)絡(luò)(CNN)實現(xiàn)三維姿態(tài)估計,但其估計效果仍有所欠缺,一些遮擋、歧義、準(zhǔn)確度等問題依然存在。三維姿態(tài)估計一般都通過估計相應(yīng)視角的二維姿態(tài),再通過二維姿態(tài)估計三維姿態(tài),但這樣的過程仍然需要性能更好的方法來實現(xiàn)。此外,如果二維姿態(tài)檢測不準(zhǔn)確,在真實的多視角視頻中建立多個交叉視角的三維姿態(tài)模型是極其困難的,其姿態(tài)有映射歧義,使得難以識別判定。
針對以上問題,本文提出一種基于多視角二維圖像信息收集且適用三維空間數(shù)據(jù)處理的姿態(tài)估計法,即張量與姿態(tài)回歸網(wǎng)絡(luò)估計法。兩個網(wǎng)絡(luò)都基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的架構(gòu),所提出方法的框架圖如圖1 所示。從圖1 可知,本文所提出的方法含有3個模塊,即各視角二維姿態(tài)的熱圖序列,熱圖序列的特征張量,神經(jīng)網(wǎng)優(yōu)化后的特征張量。通過3 個模塊的計算后,可得出相應(yīng)的含有相對空間位置的三維多人姿態(tài)。
圖1 張量與姿態(tài)回歸網(wǎng)絡(luò)估計法的算法框架圖
對于所提出的方法,本文采用三種常用的數(shù)據(jù)庫進(jìn)行測試,其中有Campus,Shelf以及CMU Panoptic數(shù)據(jù)庫。經(jīng)過與其他一些方法的比較測試,我們發(fā)現(xiàn)所提出的方法具有比較理想的實驗結(jié)果,且取得最好的實驗結(jié)果,尤其是前兩個數(shù)據(jù)庫測試。此外,我們還發(fā)現(xiàn)所提出的方法經(jīng)過訓(xùn)練可以準(zhǔn)確地合成熱圖的特征張量。熱圖的選用是因為其是一個高級圖像特征,它可以準(zhǔn)確區(qū)分原始圖像中的表征、光照等重要的特征。所以熱圖的選用很大程度上提高了該方法估計的準(zhǔn)確率。下文將詳細(xì)地對所提出方法進(jìn)行討論。
本文分別簡要回顧單人和多人三維姿態(tài)估計的方法,然后闡述所提出方法和以前方法的不同之處,并說明所提出方法的主要核心優(yōu)點(diǎn)。
前期的一些估計方法可以分為分析法和預(yù)測法,其中有些模型是有參數(shù)的,有些則是無參數(shù)的。一些分析方法還建立了二維姿態(tài)與三維姿態(tài)的幾何映射模型。當(dāng)多視角的鏡頭拍攝完成后,三維姿態(tài)可以通過各個視角投影幾何映射的計算進(jìn)行確定,但是由于視角有限,計算過程中依然出現(xiàn)估計不夠準(zhǔn)確的問題,一些主要關(guān)鍵點(diǎn)依然出現(xiàn)歧義或錯位。另一方面,如果在單視角的鏡頭下拍攝,歧義的姿態(tài)更加嚴(yán)重,一個二維圖像可以對應(yīng)很多種三維姿態(tài)。然而,之前的方法有提到使用低維姿態(tài)參數(shù)優(yōu)化法去消除歧義,這些方法也只是讓問題稍微得到了改善,在一定程度上提高了估計的準(zhǔn)確度。在預(yù)測法中,提出相關(guān)神經(jīng)網(wǎng)絡(luò)模型解決歧義問題的看法,各種網(wǎng)絡(luò)的改進(jìn)版本由此而生,這些網(wǎng)絡(luò)在某種程度上也提高了單人姿態(tài)估計的性能,相對之前的方法,取得了更準(zhǔn)確的結(jié)果,但是對于多人姿態(tài)估計所涉及的問題就不那么適用了。
對于多人的三維姿態(tài)估計,這里有兩個比較關(guān)鍵的問題需要解決。第一,需要在人群里識別屬于個人的姿態(tài)關(guān)鍵點(diǎn);第二,在二維關(guān)鍵點(diǎn)檢測時,需要解決多人相互遮擋以及單人自遮擋的問題。在一些圖形預(yù)測模型的文獻(xiàn)[3,13]中提及如何解決以上問題,但很多參數(shù)都是預(yù)設(shè)的,尤其是多人交互的參數(shù)優(yōu)化問題沒有得到很好的解決,這些都影響了三維姿態(tài)估計的準(zhǔn)確度。本文提出的方法能較好地解決以上問題,對于一些優(yōu)化過程中的問題,出現(xiàn)的局部最優(yōu)問題也可以較好地避免,而且無需預(yù)設(shè)二維圖像中的人數(shù),通過一些常用數(shù)據(jù)庫的測試,可以看到本文所提的方法比前人的方法結(jié)果更好。
為了解決以上問題,我們先提出一種特征張量模型,該模型裝載了一定數(shù)據(jù)的局部張量,里面含有二維圖像的熱圖數(shù)據(jù),這些數(shù)據(jù)會對后面姿態(tài)回歸網(wǎng)絡(luò)的訓(xùn)練有巨大的作用。
我們需要建立一個網(wǎng)絡(luò)裝載大量人體在三維空間的信息,將具有各個視角二維姿態(tài)的熱圖投影到三維空間的數(shù)據(jù)信息,其是一個離散數(shù)據(jù)模型,有助于后面姿態(tài)幀的細(xì)化。其網(wǎng)絡(luò)構(gòu)建示意如圖2所示。
圖2 特征張量網(wǎng)絡(luò)
式(1)中,為視角個數(shù)。在一些更高級的融合方法中,可以分配一個權(quán)重到式(1)的計算,這樣可以更好地反映每個視角在熱圖估計值的質(zhì)量。在本文提出方法中設(shè)計權(quán)重平均,即所有因素同等重要。
在做三維姿態(tài)估計時我們要對各個視角的人體進(jìn)行檢測,這就需要對相應(yīng)視角的人體位置邊框進(jìn)行檢測,如圖3所示。檢測中有概率顯示,越高的值表明位置越準(zhǔn)確,數(shù)值低的表明檢測效果不好,圖3中的灰色框就是這樣例子。
圖3 對各個視角人體位置邊界邊框檢測示意圖
為了實現(xiàn)這樣的檢測,本文設(shè)計一個低維特征張量來描述這些邊界邊框的值,這些數(shù)據(jù)有助于我們構(gòu)建一個全鏈接層來預(yù)測多人邊界邊框的值,得出置信值V。V∈R表示人體所在二維圖像位置的概率值。據(jù)此,我們可以計算真實的熱圖值V 來評價誤差。需要注意的是,真實姿態(tài)的根關(guān)鍵點(diǎn)及其邊界邊框是成對存在的,根據(jù)他們之間的距離可以計算出高斯分布概率值,這些數(shù)值就描述了邊框邊界位置是否準(zhǔn)確。如果處于多人的場景,則可以通過式(2)來建立訓(xùn)練模型的損失函數(shù):
式(2)中,我們設(shè)置2000 mm 的邊界長度,這樣可以足夠覆蓋人體姿態(tài)關(guān)鍵點(diǎn)的所有位置。
姿態(tài)回歸網(wǎng)絡(luò)的建立,是用于預(yù)測完整的三維姿態(tài)。
在空間位置張量建立的基礎(chǔ)上,我們就可以對人體姿態(tài)進(jìn)行三維空間定位了。這時,我們需要重新建立一個神經(jīng)網(wǎng)絡(luò)去估計姿態(tài),特征參數(shù)設(shè)置為2000 mm×2000 mm×2000 mm,所檢測的邊界長度為2000/64=31.25 mm。需要注意的是,姿態(tài)網(wǎng)絡(luò)可利用文獻(xiàn)[14]的技巧去降低估計時的量化誤差,來完成三維姿態(tài)估計。所有構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)圖類似于圖2,這里不再贅述。
我們估計一個三維姿態(tài)的熱圖H∈R ,其中含有三維姿態(tài)的關(guān)鍵點(diǎn),以此構(gòu)建特征張量。每個關(guān)鍵點(diǎn)的三維坐標(biāo)位置可以通過根節(jié)點(diǎn)的相對位置H來計算:
在式(3)中值得注意的是,我們不是獲取姿態(tài)關(guān)鍵點(diǎn)J的具體空間位置,而是通過計算機(jī)相對根關(guān)鍵點(diǎn)的最大相對值來求。這樣的計算方法有利于降低計算過程中的估計誤差。
對于所估計的關(guān)鍵點(diǎn),可以用式(4)來計算其與實三維模型關(guān)鍵點(diǎn)的誤差:
式(4)也可以和式(2)起到類似的作用,即可以用來作為姿態(tài)回歸網(wǎng)絡(luò)模型的損失函數(shù)。式(4)同樣也可以設(shè)置權(quán)重進(jìn)行訓(xùn)練,本文設(shè)置為相同的權(quán)重。
本文對二維回歸網(wǎng)絡(luò)進(jìn)行了20 個周期的訓(xùn)練。初始學(xué)習(xí)率設(shè)置為10,后面的幾個訓(xùn)練周期下降為10和10。訓(xùn)練主干網(wǎng)絡(luò)時,選用數(shù)據(jù)庫為COCO數(shù)據(jù)庫,這樣無需調(diào)整太多參數(shù)。
本 文 選 用 三 個 數(shù) 據(jù) 庫Campus Dataset,Shelf Dataset及CMU Panoptic Dataset對所提方法進(jìn)行測試。我們首先進(jìn)行相應(yīng)視角的二維姿態(tài)檢測,測試結(jié)果如圖4所示。所比較的方法采用HRNet,其測試結(jié)果如圖4 上一排圖所示,圖4 下一排圖為文本所提方法的測試結(jié)果。從測試結(jié)果可知,本文方法的檢測結(jié)果比HRNet 要準(zhǔn)確,HRNet 對一些不重要或不準(zhǔn)確的目標(biāo)也進(jìn)行了檢測,出現(xiàn)了一些不真實且不必要的二維姿態(tài)檢測結(jié)果,相比之下,本文所提的方法檢測更精準(zhǔn),其姿態(tài)的尺度和大小符合相應(yīng)鏡頭的視角比例。
圖4 二維姿態(tài)檢測結(jié)果
根據(jù)所提的方法,從二維圖像的檢測估計其三維姿態(tài)結(jié)果如圖5所示,最右側(cè)的一列是其三維姿態(tài)估計結(jié)果。從圖5結(jié)果可見,本文所提的方法可以很好地克服多人相互遮擋以及個人自遮擋問題,所估計出的三維姿態(tài)結(jié)果符合二維圖像各個視角的動作邏輯。
圖5 多視角估計多人三維姿態(tài)結(jié)果
與較新的研究方法比較,如文獻(xiàn)[2]的快速魯棒估計法,可以發(fā)現(xiàn)本文提出的方法效果更好、更準(zhǔn)確,其結(jié)果如圖6 所示。圖6 中圖A.1為真實數(shù)據(jù),圖A.2 為文獻(xiàn)[2]的快速魯棒估計法,圖A.3 為本文提出的方法,從測試結(jié)果可知,對于部分人的二維姿態(tài)檢測,文獻(xiàn)[2]的快速魯棒估計法在測試中發(fā)現(xiàn)有誤,而本文提出的方法可以準(zhǔn)確地檢測出相應(yīng)二維姿態(tài)的位置。檢測過程中有些數(shù)據(jù)出現(xiàn)歧義,本文方法比文獻(xiàn)[2]的快速魯棒估計法處理得要好。圖6 中圖B.1 和圖B.2 為本文所提方法的失敗案例,原因是一些視角沒有拍攝完全的人體姿態(tài)。
圖6 其他多人姿態(tài)檢測結(jié)果與估計失敗案例
經(jīng)過以上實驗測試,可以發(fā)現(xiàn)本文所提的張量與姿態(tài)回歸網(wǎng)絡(luò)方法可以較好地估計多視角多人的三維姿態(tài),其有克服多人遮擋、個人自遮擋以及數(shù)據(jù)歧義的估計性能。相比前期的一些研究方法,其估計效果更好。
本文提出了一種基于張量與姿態(tài)回歸網(wǎng)絡(luò)來估計多視角多人的三維姿態(tài)。相比前期的研究方法,本文所提出方法更容易識別姿態(tài)的三維空間位置信息,而且對于克服各個視角的二維圖像的噪聲及缺失信息具有良好的穩(wěn)定性。所提方法建立的特征張量模型對估計一般常見的人體運(yùn)動形態(tài)具有良好的適用性,可以克服多人姿態(tài)估計的歧義及遮擋問題,且可估計出較準(zhǔn)確的三維姿態(tài)模型。本文所提的方法在實驗時,多視角鏡頭參數(shù)都是設(shè)置普通常用鏡頭的參數(shù)。經(jīng)過實驗測試,本文提出的方法具有良好的估計性能,且具有一定的實用參考價值。