掌 靜,陳 志,岳文靜
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210023;2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
群體人物行為是指三個(gè)或者更多個(gè)相互作用、相互影響、有共同目標(biāo)的人物組成的群體的相對(duì)運(yùn)動(dòng)現(xiàn)象[1],具體在競(jìng)技體育場(chǎng)景中,主要表現(xiàn)為競(jìng)技雙方的團(tuán)隊(duì)成員為取得比賽勝利而產(chǎn)生的相互協(xié)同、相互競(jìng)爭(zhēng)的運(yùn)動(dòng)行為,具有廣泛的應(yīng)用。在經(jīng)典的群體人物行為語(yǔ)義分析算法中,Allett等人基于群體人物行為特點(diǎn)提出一種面向自我視覺的群體人物行為語(yǔ)義分析算法,該算法能夠有效利用群體人物社交關(guān)系推理行為語(yǔ)義,但是研究基于圖像中的群體人物,不能對(duì)群體人物行為語(yǔ)義進(jìn)行持續(xù)的跟蹤,并且基于視線范圍的群體人物模型可適用場(chǎng)景少,一定程度上限制了算法的應(yīng)用范圍[2]。Ibrahim等人提出了一種兩階段的分層深度時(shí)間模型,第一階段描述視頻序列中單個(gè)人物的動(dòng)作動(dòng)態(tài),第二階段融合第一階段得到的個(gè)人動(dòng)作信息推理群體人物行為語(yǔ)義。該模型充分利用了時(shí)間特征,但在人物遮擋、運(yùn)動(dòng)劇烈等情況下效果不佳[3]。
可見,普遍存在時(shí)空關(guān)系復(fù)雜的群體人物語(yǔ)義理解的應(yīng)用需求使得視頻中群體行為人物語(yǔ)義抽取算法設(shè)計(jì)需要解決以下問(wèn)題:
(1)人物遮擋問(wèn)題:群體人物的運(yùn)動(dòng)過(guò)程中,由于多個(gè)人物同時(shí)變動(dòng)位置,并且伴隨著人物間相互遮擋或環(huán)境中其他靜物遮擋等情況的發(fā)生[4],易造成獲取人物位置的獲取不準(zhǔn)確,甚至發(fā)生人物漏檢;
(2)人物追蹤問(wèn)題:群體人物的行為語(yǔ)義表現(xiàn)出人物間強(qiáng)烈的時(shí)間相關(guān)性和空間相關(guān)性[5],需要對(duì)群體人物運(yùn)動(dòng)軌跡進(jìn)行追蹤。在人物位置相似的情況下,易出現(xiàn)追蹤錯(cuò)誤,造成語(yǔ)義抽取偏差;
(3)應(yīng)用局限問(wèn)題:傳統(tǒng)的群體人物行為語(yǔ)義分析模型根據(jù)設(shè)計(jì)者的先驗(yàn)知識(shí)使用手工特征定義的結(jié)構(gòu)化模型描述群體人物間關(guān)系[6],針對(duì)不同的場(chǎng)景需要不斷地調(diào)整模型設(shè)計(jì),應(yīng)用范圍比較局限。
良好的視頻群體人物行為語(yǔ)義抽取算法需要具有較強(qiáng)的抗噪性和魯棒性,能夠克服人物遮擋給群體人物檢測(cè)帶來(lái)的困難,準(zhǔn)確追蹤人物的動(dòng)作變化推理群體行為語(yǔ)義。為此,結(jié)合特征掩碼和運(yùn)動(dòng)軌跡,設(shè)計(jì)一種視頻群體人物行為語(yǔ)義抽取算法,以解決上述問(wèn)題,提高在多遮擋環(huán)境中群體人物檢測(cè)的有效性和視頻序列中群體語(yǔ)義抽取的準(zhǔn)確率。
視頻群體人物定位檢測(cè)是指從不同復(fù)雜程度的背景中檢測(cè)出群體人物的位置,并將背景與人物分離開,從而完成后續(xù)的跟蹤、識(shí)別等任務(wù)[7]。群體人物定位檢測(cè)是理解群體人物行為語(yǔ)義的第一步,良好的群體人物定位檢測(cè)算法可以降低復(fù)雜背景、人物遮擋等因素對(duì)檢測(cè)結(jié)果的影響。
為準(zhǔn)確檢測(cè)人物、定位坐標(biāo),采用特征金字塔網(wǎng)絡(luò)[8]對(duì)視頻幀提取多尺度特征圖。相較于單一尺度特征圖,多尺度特征圖中融合了圖像的底層特征和高層特征,底層特征對(duì)中高級(jí)任務(wù)的幫助有限,但對(duì)人物位置的描述精準(zhǔn),高層特征回歸的人物位置模糊但含有豐富的高級(jí)語(yǔ)義[9],兩者的有效融合有助于提升定位檢測(cè)算法的性能。使用區(qū)域候選網(wǎng)絡(luò)[10],對(duì)視頻幀進(jìn)行人物粗檢測(cè),為了避免人物漏檢,粗檢測(cè)會(huì)盡量多抓取可能存在的人物對(duì)象。人物精檢測(cè)過(guò)程中,采用重復(fù)刪除網(wǎng)絡(luò)[11]篩除粗檢測(cè)中的重復(fù)結(jié)果,獲取檢測(cè)人物的準(zhǔn)確位置。
在實(shí)際檢測(cè)過(guò)程中,對(duì)視頻序列內(nèi)的T幀視頻幀進(jìn)行相同的人物定位檢測(cè)操作,第t幀視頻幀的人物定位檢測(cè)具體算法描述如下:
(1)判斷視頻序列中的視頻幀尺寸是否統(tǒng)一,設(shè)置標(biāo)準(zhǔn)視頻幀尺寸為H×W,如果輸入的視頻序列內(nèi)的T幀視頻幀尺寸與標(biāo)準(zhǔn)視頻幀尺寸不一致,采用雙線性內(nèi)差值算法[8]將輸入視頻幀縮放到標(biāo)準(zhǔn)視頻幀尺寸大小,其中H和W分別是視頻幀的高度和寬度;
(2)采用特征金字塔網(wǎng)絡(luò)對(duì)視頻幀提取多尺度融合特征圖,多尺度融合特征圖是視頻幀每個(gè)像素點(diǎn)特征值的集合,在此后的人物檢測(cè)和動(dòng)作分類過(guò)程中都被共享;
(3)對(duì)多尺度融合特征圖采用區(qū)域候選網(wǎng)絡(luò)進(jìn)行群體人物的粗檢測(cè),獲取粗檢測(cè)假設(shè),粗檢測(cè)假設(shè)結(jié)果由Boxt和Persont組成,其中Boxt表示第t幀視頻幀中抓取的目標(biāo)候選框的坐標(biāo),Persont表示目標(biāo)候選框是人物的概率,值越大表示該目標(biāo)候選框是人物的可能性越大;
(4)將Boxt通過(guò)重復(fù)刪除網(wǎng)絡(luò)去除重復(fù)的目標(biāo)候選框,比較去重后的目標(biāo)候選框的Persont大小,取值最大的n個(gè)目標(biāo)候選框,認(rèn)定這n個(gè)目標(biāo)候選框?yàn)樗惴z測(cè)到的人物邊界框,n是第t幀視頻幀檢測(cè)到的人物數(shù)量;
(5)根據(jù)人物邊界框的坐標(biāo),分別獲取每個(gè)人物邊界框區(qū)域像素點(diǎn)的特征值組成群體人物邊界框特征集合Ft以供后續(xù)人物的使用。
群體人物由多個(gè)單個(gè)人物組成,單個(gè)人物在視頻序列中的動(dòng)作變化最終構(gòu)成了群體人物行為語(yǔ)義,為了有效識(shí)別視頻群體人物的行為語(yǔ)義,理解單個(gè)人物的運(yùn)動(dòng)線索非常重要。下面對(duì)每個(gè)人物的邊界框采用全卷積網(wǎng)絡(luò)[12]擴(kuò)展一條特征掩碼分支[13],快速分析視頻中每個(gè)人物的動(dòng)作形態(tài),并持續(xù)追蹤每個(gè)人物的位置變化。具體算法描述如下:
(1)為了獲取人物在視頻序列內(nèi)的動(dòng)作分類結(jié)果,具體如下:
(a)采用全卷積網(wǎng)絡(luò)對(duì)第t幀視頻幀群體人物邊界框特征集合Ft進(jìn)行并行特征預(yù)測(cè),得到第t幀視頻幀群體人物預(yù)測(cè)特征掩碼集合;
(b)結(jié)合預(yù)測(cè)特征掩碼集合,使用softmax分類器對(duì)第t幀視頻幀所有人物進(jìn)行動(dòng)作分類,得到第t幀視頻幀所有人物的動(dòng)作集合;
(c)重復(fù)上述操作,直到遍歷完所有視頻幀,完成視頻序列內(nèi)所有人物的動(dòng)作分類。
(2)設(shè)置視頻序列中檢測(cè)到的人物集合為P,所有人物在視頻序列內(nèi)的運(yùn)動(dòng)軌跡集合為C,C中包含每個(gè)人物在視頻序列內(nèi)的動(dòng)作集合和預(yù)測(cè)特征掩碼集合;
(3)初始化人物集合P為第1幀視頻幀檢測(cè)到的所有人物,初始化運(yùn)動(dòng)軌跡集合C為第1幀視頻幀檢測(cè)到的所有人物的動(dòng)作和預(yù)測(cè)特征掩碼,從第一個(gè)人物開始對(duì)每個(gè)人物在視頻序列上的運(yùn)動(dòng)線索進(jìn)行跟蹤;
(4)在視頻群體人物行為語(yǔ)義分析過(guò)程中,為了獲取所有人物在視頻序列內(nèi)的完整運(yùn)動(dòng)線索,需要對(duì)視頻中的每個(gè)人物的動(dòng)作變化進(jìn)行動(dòng)態(tài)跟蹤,單個(gè)人物的動(dòng)態(tài)跟蹤具體原則如下:
(a)設(shè)當(dāng)前追蹤人物為pnow,pt為pnow在第t幀視頻幀追蹤到的人物,賦值pnow在第t幀視頻幀的預(yù)測(cè)特征掩碼e'now=et,et是pt的預(yù)測(cè)特征掩碼,根據(jù)式(1)分別計(jì)算第t幀視頻幀預(yù)測(cè)特征掩碼與第t+1幀視頻幀所有可追蹤人物預(yù)測(cè)特征掩碼的差異度Diff。
Diff=‖e'now-et+1‖22
(1)
其中,et+1是第t+1幀視頻幀可追蹤人物pt+1的預(yù)測(cè)特征掩碼,差異度Diff越小,表示pnow和pt+1是同一個(gè)人物的可能性越高;
(b)如果第t+1幀視頻幀存在可追蹤人物pt+1與pnow差異度Diff最小,且Diff (c)如果第t+1幀視頻幀不存在可追蹤人物,或第t+1幀視頻幀存在的所有可追蹤人物Diff≥Diffmax,認(rèn)定pnow在第t+1幀視頻幀追蹤中斷,更新當(dāng)前追蹤人物pnow在第t+1幀視頻幀的預(yù)測(cè)特征掩碼為et,在t+1幀視頻幀的動(dòng)作置空; (d)重復(fù)上述的追蹤行為,直到pnow追蹤遍歷完視頻序列。 (5)最后根據(jù)單個(gè)人物跟蹤原則,依次確認(rèn)每個(gè)人物在每個(gè)時(shí)刻的動(dòng)作,直到人物集合P中所有人物的視頻內(nèi)運(yùn)動(dòng)線索都檢索完畢,獲取全部更新后動(dòng)作變化集合C,完成視頻群體人物軌跡跟蹤。 人物動(dòng)作指的是因人物的肢體變化引起的基本運(yùn)動(dòng),人物行為由基本動(dòng)作組成[14],群體人物行為由多個(gè)人物行為關(guān)聯(lián)形成,為使語(yǔ)義抽取算法能夠分析出有效的群體行為語(yǔ)義,需要將時(shí)間序列內(nèi)的群體人物動(dòng)作關(guān)聯(lián)起來(lái),得到時(shí)序化的抽取結(jié)果。此外,行為通常描述周期性的全身運(yùn)動(dòng),在一個(gè)較短的時(shí)間序列內(nèi),群體行為語(yǔ)義不會(huì)發(fā)生頻繁的變化。具體算法描述如下: (1)為了獲取群體人物在視頻序列內(nèi)的行為語(yǔ)義,需要了解每一幀的群體人物動(dòng)作,結(jié)合更新后的運(yùn)動(dòng)線索集合C,提取新的t時(shí)刻人物動(dòng)作集合A't,包含N個(gè)人物在t時(shí)刻的動(dòng)作; (2)采用softmax分類器,根據(jù)群體人物表現(xiàn)出的動(dòng)作,預(yù)測(cè)群體人物在第t幀視頻幀行為語(yǔ)義; (3)重復(fù)以上操作,直到遍歷完視頻序列,設(shè)置視頻序列內(nèi)的群體行為語(yǔ)義集合G,G由每個(gè)幀視頻幀的群體人物行為語(yǔ)義組成; (4)統(tǒng)計(jì)G中的每種群體行為語(yǔ)義出現(xiàn)的次數(shù)gnum,如果gnum>Gmax表示行為關(guān)聯(lián)失敗,未能對(duì)群體人物行為語(yǔ)義進(jìn)行正確的抽取,其中Gmax表示視頻序列內(nèi)群體行為變化次數(shù)最大閾值; (5)認(rèn)定G中g(shù)num最大的群體人物行為語(yǔ)義為視頻序列最終的群體人物行為語(yǔ)義,如果出現(xiàn)多個(gè)群體人物行為語(yǔ)義的gnum最大,取出現(xiàn)最晚群體人物行為語(yǔ)義的作為最終群體人物行為語(yǔ)義,表示行為關(guān)聯(lián)成功,抽取出了視頻群體人物行為語(yǔ)義。 本章實(shí)驗(yàn)的數(shù)據(jù)集來(lái)源Volleyball數(shù)據(jù)集[3],這個(gè)數(shù)據(jù)集是目前公開可用的群體行為識(shí)別數(shù)據(jù)集,并且詳細(xì)標(biāo)注了視頻幀中的目標(biāo)人物位置、動(dòng)作類別以及群體行為語(yǔ)義類別。 這個(gè)數(shù)據(jù)集由55段收集于YouTube中公開的真實(shí)的排球比賽視頻組成,包含4 830幀標(biāo)簽視頻幀,每幀視頻幀的像素都是720×1 080。每個(gè)視頻幀的標(biāo)簽信息包含當(dāng)前視頻幀的編號(hào)、群體人物行為語(yǔ)義類別、所有球員的位置信息和個(gè)人動(dòng)作類別。群體行為類別共有8種,包括Right set、Right spike、Right pass、Right winpoint、Left winpoint、Left pass、Left spike、Left set。個(gè)人的位置信息由目標(biāo)人物的邊界框坐標(biāo)組成,分別為邊界框的左上角坐標(biāo)和邊界框的寬高。個(gè)人行為類別共有9種,包括Waiting、Setting、Digging、Falling、Spiking、Blocking、Jumping、Moving、Standing。本章所有實(shí)驗(yàn)均采用TensorFlow[15]開發(fā),運(yùn)行于Linux平臺(tái)。 本節(jié)實(shí)驗(yàn)過(guò)程中采用了Volleyball數(shù)據(jù)集,使用前39個(gè)視頻中3 493幀標(biāo)簽視頻幀進(jìn)行訓(xùn)練,后16個(gè)視頻中1 337幀標(biāo)簽視頻幀用于測(cè)試。實(shí)驗(yàn)過(guò)程中,輸入長(zhǎng)度為T的視頻序列,推理N個(gè)球員的動(dòng)作和群體行為語(yǔ)義,實(shí)驗(yàn)中定義T=10。分別取包含標(biāo)注視頻幀在內(nèi)的前4幀和后5幀總共10幀的視頻幀作為一個(gè)視頻序列片段,并且根據(jù)數(shù)據(jù)集中排球比賽的特點(diǎn)定義N=12。 為驗(yàn)證基于特征關(guān)聯(lián)的視頻中群體行為人物語(yǔ)義抽取算法(簡(jiǎn)稱MTCA算法)的有效性,實(shí)驗(yàn)過(guò)程中采用了Volleyball數(shù)據(jù)集進(jìn)行測(cè)試,將實(shí)驗(yàn)結(jié)果與Inception[16-17]算法、HDTM[3]算法進(jìn)行了對(duì)比,包括人物動(dòng)作語(yǔ)義和群體行為語(yǔ)義兩方面的比較。在MTCA算法實(shí)現(xiàn)過(guò)程中,也得到了單幀視頻幀的群體行為語(yǔ)義的抽取結(jié)果,為了多維對(duì)比數(shù)據(jù),將其納入算法對(duì)比,簡(jiǎn)稱為MTCA-Single算法。表1給出了Inception算法、HDTM算法、MTCA-Single算法和MTCA算法的準(zhǔn)確性比較。 表1 MTCA算法與各算法的準(zhǔn)確性比較 根據(jù)表1,MTCA-Single算法在人物動(dòng)作和群體行為語(yǔ)義兩方面都優(yōu)于上述兩種算法。個(gè)人動(dòng)作語(yǔ)義準(zhǔn)確率提高了,群體動(dòng)作語(yǔ)義準(zhǔn)確率提高了。融入了關(guān)聯(lián)的群體人物運(yùn)動(dòng)軌跡后,依靠精準(zhǔn)的群體人物追蹤,掌握了人物在視頻序列內(nèi)完整的運(yùn)動(dòng)線索,MTCA算法的語(yǔ)義抽取能力得到了進(jìn)一步增強(qiáng),相較于MTCA-Single算法,能夠更加準(zhǔn)確地描述視頻中的群體行為語(yǔ)義。 圖1為數(shù)據(jù)集部分視頻中人物動(dòng)作和群體行為語(yǔ)義抽取成功的示例。圖中繪制了該視頻幀中每個(gè)球員的動(dòng)作,并標(biāo)注了當(dāng)前的群體行為語(yǔ)義。 圖1 部分語(yǔ)義抽取成功示例 為解決存在人物遮擋、追蹤困難的視頻群體人物行為語(yǔ)義抽取問(wèn)題,提出了基于特征關(guān)聯(lián)的視頻中群體行為人物語(yǔ)義抽取算法。該算法提取多尺度融合特征圖,通過(guò)兩階段定位檢測(cè)確定群體人物的分布,然后結(jié)合特征掩碼匹配的結(jié)果對(duì)人物軌跡進(jìn)行跟蹤,最后根據(jù)群體人物行為特點(diǎn),抽取出視頻群體人物的行為。實(shí)驗(yàn)結(jié)果表明,該算法在存在復(fù)雜群體人物時(shí)空關(guān)系的場(chǎng)景下可以準(zhǔn)確地定位檢測(cè)視頻中的群體人物,跟蹤群體人物的運(yùn)動(dòng)軌跡,提高了群體行為語(yǔ)義抽取的準(zhǔn)確率和抗噪性。 在后續(xù)的研究中,可以考慮對(duì)視頻中的多個(gè)群體進(jìn)行分群檢測(cè)和多群體的行為語(yǔ)義分析,此外該算法的研究針對(duì)人物重疊程度不高、有較大部分軀體未被遮擋的情況,對(duì)于人物高度重疊的密集群體行為語(yǔ)義分析仍有較大研究發(fā)展的空間。3 基于運(yùn)動(dòng)軌跡的視頻群體人物行為關(guān)聯(lián)
4 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)準(zhǔn)備
4.2 結(jié)果分析
5 結(jié)束語(yǔ)