何進(jìn)英
摘要:人體姿態(tài)估計(jì)是指對(duì)圖像中人體關(guān)鍵部位和主要關(guān)節(jié)進(jìn)行檢測(cè)的過(guò)程,它是人體動(dòng)作識(shí)別和行為分析的關(guān)節(jié)技術(shù),在人機(jī)交互、自動(dòng)駕駛、活動(dòng)識(shí)別領(lǐng)域被廣泛地使用。
關(guān)鍵詞:人體姿態(tài)估計(jì);關(guān)節(jié)追蹤;人機(jī)交互;虛擬試衣;姿態(tài)分析
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)21-0108-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Teaching Research and Reform of Data Structure Course in Application-oriented Universities
HE Jin-ying
(Guangdong Ocean University Cunjin College, Zhanjiang 24094, China)
Abstract: Human pose estimation refers to the process of detecting key parts and main joints of the human body in images. It is the key technology of human movement recognition and behavior analysis and is widely used in the fields of human-computer interaction, automatic driving and activity recognition.
Key words:human pose estimation; joint tracking; human-computer interaction; virtual fit; posture analysis.
1 人體姿態(tài)估計(jì)的定義及其原理
人體姿態(tài)估計(jì)被定義為從圖像或視頻中檢測(cè)出人體關(guān)節(jié)、方向以及尺度的信息,它還被定義為在所有關(guān)節(jié)姿態(tài)的空間中搜索特定姿勢(shì)。
1.1 單人姿態(tài)估計(jì)
在2D姿勢(shì)估計(jì)方法中有兩個(gè)思路,一個(gè)是自底而上,先檢測(cè)出圖像中所有的關(guān)節(jié),比如所有頭部、左右手、膝蓋等,然后將這些關(guān)節(jié)關(guān)聯(lián)到人并一一組裝成行人。另一個(gè)是自頂而下,該方法是將多人姿態(tài)估計(jì)轉(zhuǎn)換成多個(gè)單人姿態(tài)估計(jì),經(jīng)典的算法有CPM、Hourglass、CPN、Simple Baselines、HRNet、MSPN等[1-10]。在此舉例CPM,它是使用神經(jīng)網(wǎng)絡(luò)同時(shí)學(xué)習(xí)圖片特征和空間信息,兩者是處理姿態(tài)估計(jì)問(wèn)題中必不可少的兩樣信息。CPM在每一個(gè)尺度下,計(jì)算各個(gè)部件的響應(yīng)圖,之后對(duì)于每個(gè)部件,累加所有尺度的響應(yīng)圖,得到總響應(yīng)圖,最后在每個(gè)部件的總響應(yīng)圖上,找出響應(yīng)最大的點(diǎn),為該部件的位置。CPM的貢獻(xiàn)在于使用順序化的卷積架構(gòu)來(lái)表達(dá)空間的信息和紋理的信息。它的特色在于用各部件響應(yīng)圖來(lái)表達(dá)各部件之間的空間約束。響應(yīng)圖和特征圖一起作為數(shù)據(jù)在網(wǎng)絡(luò)中傳遞;網(wǎng)絡(luò)分為多個(gè)階段,各個(gè)階段都有監(jiān)督訓(xùn)練,從而避免了過(guò)深網(wǎng)絡(luò)難以優(yōu)化的問(wèn)題;使用同一個(gè)網(wǎng)絡(luò),同時(shí)在多個(gè)尺度處理輸入的特征和響應(yīng),既能確保精度,又考慮了各個(gè)部件之間的遠(yuǎn)距離關(guān)系。
1.2 多人姿態(tài)估計(jì)
OpenPose是最流行的從底向上的多人姿態(tài)估計(jì)的方法之一,首先它會(huì)檢測(cè)出圖像中的關(guān)鍵點(diǎn),也就是重要部位,然后將部件分配并組裝成一個(gè)個(gè)的行人。OpenPose網(wǎng)絡(luò)先將多人照片放入到前幾層網(wǎng)絡(luò)中提取特征,然后將這些特征輸入到卷積層的兩個(gè)并行分支中,第一個(gè)分支會(huì)先預(yù)測(cè)出一組置信圖,每個(gè)置信圖表示了人體姿態(tài)骨架圖的關(guān)鍵點(diǎn)。而第二個(gè)分支則是預(yù)測(cè)另一組的部件之間的關(guān)鍵程度。剩余的步驟是細(xì)化每個(gè)分支做出的預(yù)測(cè),利用置信圖在部件之間形成二分圖,然后利用PAF值對(duì)二分圖中比較弱的連接進(jìn)行剪接,大概估計(jì)出人體姿勢(shì)骨架圖,最后組裝成一個(gè)個(gè)的人。
2 人體姿態(tài)估計(jì)的應(yīng)用
2.1 人機(jī)交互游戲
在交互式游戲中追蹤人體的運(yùn)動(dòng),利用紅外線傳感器數(shù)據(jù)來(lái)追蹤人類玩家的運(yùn)動(dòng),并使用它來(lái)渲染虛擬人物的動(dòng)作。在近幾年火爆的《絕地求生》游戲中其實(shí)就是利用了這一項(xiàng)的技術(shù),通過(guò)對(duì)人體姿態(tài)數(shù)據(jù)的收集和系統(tǒng)數(shù)據(jù)算法合成并渲染虛擬人物的具體動(dòng)作,以及觸碰到某個(gè)物體或是劇情產(chǎn)生的后續(xù)動(dòng)作?,F(xiàn)在的AR游戲中,也是通過(guò)3D姿勢(shì)估計(jì)來(lái)虛擬出一個(gè)動(dòng)畫(huà)的人物進(jìn)行交互,使用真實(shí)人體來(lái)控制虛擬人物,提高用戶的體驗(yàn)感。
2.2 自動(dòng)駕駛對(duì)行人的判斷
對(duì)人體姿態(tài)估計(jì)的技術(shù)還能夠運(yùn)用在交通駕駛上面,隨著科技的提高,自動(dòng)駕駛也更廣泛地在社會(huì)中進(jìn)行使用,自動(dòng)駕駛能部分替代人工駕駛的原因是它能有效及時(shí)地檢測(cè)行人是否即將出現(xiàn)在行駛范圍內(nèi)或者是已出現(xiàn)在駕駛可視區(qū)中,它能夠?qū)π腥说淖藙?shì)進(jìn)行判斷,提前避免了車禍的發(fā)生,有效地降低了交通事故發(fā)生率。之前有一則新聞,某司機(jī)原本正在行駛中,突然發(fā)現(xiàn)前方有不明物體,及時(shí)在不明物體前剎車,后來(lái)通過(guò)車主所曝光的行車記錄儀看到,那個(gè)不明物體是一名不滿5歲的小孩,因?yàn)楸O(jiān)護(hù)人沒(méi)有牽住小孩的手,落下小孩獨(dú)闖紅燈,慶幸的是司機(jī)及時(shí)地發(fā)現(xiàn)了,否則的話后果不堪設(shè)想。因此,如果人體姿態(tài)估計(jì)的技術(shù)再成熟一些的話,之后在開(kāi)啟安全駕駛的模式的時(shí)候,汽車能夠更快速地檢測(cè)到不明物體阻擋在行駛道路上,避免交通事故的發(fā)生。
2.3 活動(dòng)識(shí)別的姿態(tài)估計(jì)
通過(guò)追蹤人體在一段時(shí)間內(nèi)姿勢(shì)的變化,可實(shí)現(xiàn)人體活動(dòng)、手勢(shì)和步態(tài)識(shí)別。在醫(yī)療健康方面,通過(guò)監(jiān)控系統(tǒng)可以檢測(cè)這個(gè)人是否跌倒過(guò)或者是生病的狀態(tài);在警衛(wèi)安全中,通過(guò)姿勢(shì)捕獲再進(jìn)行系統(tǒng)數(shù)據(jù)的分析和判斷,能夠有效地識(shí)別某個(gè)人的行為舉止是否處于可疑的狀態(tài),該應(yīng)用如果能夠成熟并廣泛地應(yīng)用之后,對(duì)于及時(shí)抓捕小偷、劫匪或是暴徒有很大的幫助。