国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法

2024-01-01 00:00:00王猛楊觀賜*

文章編號(hào)10005269(2024)06007807

DOI:10.15958/j.cnki.gdxbzrb.2024.06.12

摘要:時(shí)間動(dòng)作檢測(cè)是視頻理解領(lǐng)域中具有挑戰(zhàn)性的任務(wù)。先前的時(shí)間動(dòng)作檢測(cè)模型主要關(guān)注視頻幀的分類,而忽略視頻幀之間的時(shí)序關(guān)系,導(dǎo)致時(shí)間動(dòng)作檢測(cè)模型的性能下降。為此,提出融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,設(shè)計(jì)了基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制的全局特征編碼器,關(guān)注相鄰幀的時(shí)序關(guān)系;其次,構(gòu)建基于上下文信息的時(shí)序特征增強(qiáng)模塊,融合上下文信息;最后,通過(guò)頭部輸出分類和回歸結(jié)果。實(shí)驗(yàn)結(jié)果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3數(shù)據(jù)集上的平均mAP(mean average precision,平均精度均值)分別達(dá)到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分別提升了0.7%和0.4%。利用視覺(jué)傳感器,所提出的模型可檢測(cè)出行為類別和持續(xù)時(shí)間。同時(shí),結(jié)合心率等生理信號(hào),可實(shí)現(xiàn)個(gè)體健康狀態(tài)管理,為遠(yuǎn)程醫(yī)療、智能監(jiān)控等提供了一種解決方案。

關(guān)鍵詞:時(shí)間動(dòng)作檢測(cè);時(shí)序關(guān)系;上下文信息;多頭注意力機(jī)制;視頻動(dòng)作理解

中圖分類號(hào):TP18

文獻(xiàn)標(biāo)志碼:A

當(dāng)前,隨著視頻內(nèi)容在互聯(lián)網(wǎng)上的爆炸式增長(zhǎng),對(duì)視頻進(jìn)行深入理解和分析已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的前沿課題。特別的是,時(shí)間動(dòng)作檢測(cè)的目的是在未修剪視頻中定位動(dòng)作實(shí)例的起止時(shí)刻并識(shí)別其類別,這對(duì)于實(shí)現(xiàn)高效視頻理解非常重要。該技術(shù)在智能監(jiān)控、運(yùn)動(dòng)性能分析、遠(yuǎn)程醫(yī)療康復(fù)等多個(gè)領(lǐng)域中有著廣泛的應(yīng)用潛力[1]。

為了尋求時(shí)間動(dòng)作檢測(cè)任務(wù)的最優(yōu)解,學(xué)者們進(jìn)行了相關(guān)研究。根據(jù)是否生成提案進(jìn)行劃分,時(shí)間動(dòng)作檢測(cè)方法主要分為一階段和二階段方法。

首先,二階段檢測(cè)方法是先生成動(dòng)作提議,然后模型再進(jìn)行分類和回歸。為降低邊界位置噪聲,文獻(xiàn)[2]提出了利用互補(bǔ)邊界回歸器和關(guān)系建模來(lái)生成時(shí)間建議的新框架,設(shè)計(jì)了基于嵌套跳躍連接的U形架構(gòu),捕獲豐富的上下文信息。同時(shí),為解決模型缺乏多層次位置感知的問(wèn)題,文獻(xiàn)[3]提出基于查詢的增強(qiáng)位置感知網(wǎng)絡(luò),設(shè)計(jì)了時(shí)態(tài)位置感知編碼器,對(duì)時(shí)態(tài)連續(xù)的位置感知上下文進(jìn)行建模,重新感知查詢內(nèi)部和查詢之間與位置相關(guān)的上下文信息。視頻會(huì)存在很多無(wú)效幀以及背景幀,其會(huì)造成視頻檢測(cè)和定位困難。針對(duì)背景信息混淆的問(wèn)題,文獻(xiàn)[4]提出新穎的“特征分離+聚類+定位”迭代過(guò)程。為在檢測(cè)效率和準(zhǔn)確性之間實(shí)現(xiàn)良好的權(quán)衡,文獻(xiàn)[5]提出了利用多尺度滑動(dòng)窗口機(jī)制從粗到細(xì)的分層時(shí)間動(dòng)作檢測(cè)方法,提高檢測(cè)的速度。黃金鉀等[6]提出全局與局部相互感知的圖網(wǎng)絡(luò)檢測(cè)方法,構(gòu)建了整體關(guān)系圖推理網(wǎng)絡(luò)。然而,上述二階段時(shí)間動(dòng)作檢測(cè)方法會(huì)忽略動(dòng)作片段幀之間的時(shí)序關(guān)系,且對(duì)超參數(shù)較為敏感,泛化能力較差,不利于時(shí)間動(dòng)作檢測(cè)的應(yīng)用與部署。

其次,一階段方法直接在模型中進(jìn)行分類和回歸,輸出視頻的定位結(jié)果。文獻(xiàn)[7]提出多時(shí)間尺度時(shí)空注意力模型,預(yù)測(cè)多個(gè)時(shí)間尺度的特征空間動(dòng)作,解決單個(gè)時(shí)間尺度的特征信息不足的問(wèn)題。胡聰?shù)龋?]提出基于注意力機(jī)制的動(dòng)作檢測(cè)模型,設(shè)計(jì)基于區(qū)分函數(shù)的優(yōu)化模型,提高了模型的準(zhǔn)確性。為解決背景幀與動(dòng)作幀混淆的問(wèn)題,文獻(xiàn)[9]引入?yún)f(xié)同前背景和動(dòng)作建模網(wǎng)絡(luò)來(lái)抑制背景和歧義性背景幀,以實(shí)現(xiàn)精確的時(shí)序動(dòng)作定位。王東祺等[10]提出全局時(shí)序關(guān)聯(lián)時(shí)間動(dòng)作檢測(cè)方法,構(gòu)建內(nèi)部時(shí)序關(guān)系建模,從而緩解模型背景幀識(shí)別不準(zhǔn)的問(wèn)題。然而,上述一階段方法受到卷積有限感知域的限制,導(dǎo)致上下文信息建模不足。同時(shí),由于在時(shí)間上只能使用局部上下文來(lái)提取某時(shí)刻的邊界信息,導(dǎo)致了長(zhǎng)期行動(dòng)被分裂和不準(zhǔn)確行動(dòng)等問(wèn)題。

我們注意到韓巖奇等[11]提出融合多注意力特征的分類模型,設(shè)計(jì)特征提取網(wǎng)絡(luò)以提高特征表現(xiàn)力。受此啟發(fā),本文提出了融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)模型,旨在更好地捕獲視頻數(shù)據(jù)中的時(shí)間上下文信息和相鄰幀的時(shí)序關(guān)系。首先,設(shè)計(jì)增強(qiáng)局部時(shí)序關(guān)系的多頭注意力機(jī)制,關(guān)注相鄰幀之間的時(shí)序關(guān)系,促進(jìn)全局特征信息交互。其次,設(shè)計(jì)基于上下文信息的時(shí)序特征增強(qiáng)模塊,促進(jìn)局部特征信息交互。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證,表明所提出的模型在兩個(gè)公開數(shù)據(jù)集上的平均精度均值(mean average precision,mAP)都得到了提升,有效檢測(cè)出了行為的類別及持續(xù)時(shí)間,為后續(xù)個(gè)人健康狀態(tài)管理提供行為數(shù)據(jù)支撐。

1融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法

在視頻中,相鄰幀之間存在著時(shí)序關(guān)系,不同幀的理解順序?qū)е乱曨l內(nèi)容理解偏差。正確理解時(shí)序關(guān)系和上下文信息建模可以幫助模型分析視頻中的內(nèi)容,從而提高模型的視頻理解能力。因此,本文提出了融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。ETRD模型總共包括全局特征編碼器、時(shí)序特征增強(qiáng)模塊及檢測(cè)層3部分。

首先,模型采用雙流I3D算法提取RGB視頻和光流中的特征信息。其次,提出基于增強(qiáng)局部時(shí)序關(guān)系的多頭注意力機(jī)制,分析相鄰幀之間的時(shí)序關(guān)系。設(shè)計(jì)基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制的全局特征編碼器,促進(jìn)全局特征信息交互。再次,設(shè)計(jì)了基于上下文信息的時(shí)序特征增強(qiáng)模塊,增強(qiáng)當(dāng)前時(shí)序特征信息,獲得豐富的特征信息。最后,采用金字塔網(wǎng)絡(luò)提取多尺度特征信息并融合,得到包含上下文信息的特征向量矩陣。特征向量矩陣通過(guò)檢測(cè)層中的頭部輸出分類和回歸結(jié)果,結(jié)果包含實(shí)例的動(dòng)作分類、開始邊界以及結(jié)束邊界。算法流程如算法1所示。

算法1融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法

輸入視頻X及光流XFlow,特征提取模型MF,動(dòng)作檢測(cè)模型Md,動(dòng)作類別C,視頻實(shí)例數(shù)N。

輸出視頻結(jié)果集合V{V1,…,Vm,…,VN}。

步驟1加載動(dòng)作檢測(cè)模型Md、特征提取模型MF、初始化學(xué)習(xí)率、幀數(shù)及動(dòng)量等超參數(shù)。加載數(shù)據(jù)集的類別數(shù)C,視頻實(shí)例數(shù)N。設(shè)定初始結(jié)果集合為V={},初始結(jié)果序列為VN={}。

步驟2加載視頻X和光流XFlow,模型MF提取X和XFlow中的特征信息,得到空間特征矩陣Fs和運(yùn)動(dòng)特征矩陣Fm。

步驟3模型MF將特征矩陣Fs和Fm進(jìn)行級(jí)聯(lián)融合,得到特征矩陣F。

步驟4全局特征編碼器Eg對(duì)特征矩陣F進(jìn)行編碼,得到全局特征信息交互的多尺度特征矩陣f{f1,…,fk}。

步驟5將特征矩陣f輸入到時(shí)序特征增強(qiáng)模塊Me,增強(qiáng)局部時(shí)序關(guān)系,得到特征矩陣xtem{xtem1,…,xtemk}。

步驟6金字塔網(wǎng)絡(luò)對(duì)多尺度特征矩陣xtem進(jìn)行線性運(yùn)算,融合多尺度特征信息,得到特征矩陣xFusion。

步驟7采用head頭部對(duì)特征矩陣xFusion進(jìn)行分類和回歸,輸出Ccls和Creg,得到視頻中第m實(shí)例的結(jié)果序列Vm{Ccls,tpres,tpree}。//m表示視頻中第m動(dòng)作實(shí)例,m為正整數(shù)。

步驟8如果m≤N,視頻的結(jié)果集合V=V∪Vm,否則,跳轉(zhuǎn)到步驟9。

步驟9輸出視頻結(jié)果集合V。

步驟1中初始化參數(shù)包括學(xué)習(xí)率r、動(dòng)量設(shè)置為0.9、類別數(shù)C。加載動(dòng)作檢測(cè)模型Md、特征提取模型MF。其中:Md模型是本文所提出的動(dòng)作檢測(cè)模型;MF模型是雙流I3D模型[12]、TSN模型[13]、Slowfast模型[14]。THUMOS14數(shù)據(jù)集上模型初始學(xué)習(xí)率設(shè)置為1e-4,類別數(shù)C為20;ActivityNet1.3數(shù)據(jù)集上設(shè)置為1e-3,類別數(shù)C為200。

步驟2中光流XFlow是通過(guò)特征提取模型MF對(duì)視頻X處理得到。

步驟4中編碼器Eg為基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制的全局特征編碼器。詳細(xì)結(jié)構(gòu)見下文1.1部分。fk的下標(biāo)k為金字塔網(wǎng)絡(luò)的層數(shù),本文模型默認(rèn)設(shè)置為6。

步驟5中的特征增強(qiáng)模塊Me為基于上下文信息的時(shí)序特征增強(qiáng)模塊,詳細(xì)結(jié)構(gòu)見下文1.2部分。

步驟6中采用的金字塔網(wǎng)絡(luò)為FPN金字塔網(wǎng)絡(luò)[15]。線性運(yùn)算指的是矩陣相加運(yùn)算。

步驟7中頭部包含分類和回歸頭部,均采用一維卷積實(shí)現(xiàn)。

步驟9輸出視頻結(jié)果集合V包含{V1,…,Vm,…,VN}。

1.1基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制的全局特征編碼器

特征提取是時(shí)間動(dòng)作檢測(cè)方法的關(guān)鍵步驟,可以為模型提供高質(zhì)量的視頻特征。本文的特征提取模型采用的是在Kinetics數(shù)據(jù)集[12]上進(jìn)行訓(xùn)練的雙流I3D模型。視頻特征提取模型I3D將視頻X={xn}Tn=1提取特征信息,得到輸入特征向量F={Fn}Tn=1∈RT×d。

雙流I3D模型從視頻中提取的特征信息只結(jié)合了局部時(shí)空信息,沒(méi)有關(guān)注相鄰幀之間的時(shí)序關(guān)系,造成了模型性能具有一定局限性。為此,本文提出基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制的全局特征編碼器,促進(jìn)相鄰幀之間的特征信息交互。其核心在于增強(qiáng)局部時(shí)序關(guān)系的多頭注意力機(jī)制(enhance local temporal relationships multi head attention mechanism,ELTR),它的架構(gòu)如圖1所示。

首先,特征矩陣F經(jīng)過(guò)一維卷積分別得到特征矩陣q、k、v;其次,特征矩陣k與經(jīng)過(guò)線性映射的k進(jìn)行相加,增強(qiáng)k矩陣所攜帶的全局特征信息,得到豐富局部時(shí)序關(guān)系的k矩陣;最后,再與q進(jìn)行矩陣內(nèi)積運(yùn)算,得到特征信息交互的A矩陣。如式(1)、(2)、(3)、(4)所示。

q=h1(F)(1)

k=h2(F)(2)

v=h3(F)(3)

A=softMax(q(k⊕L(k)))(4)

式中:h1、h2、h3分別代表著卷積核為3、步長(zhǎng)為1的一維卷積;L代表著線性映射操作;softMax代表著歸一化指數(shù)函數(shù)。之后,特征矩陣v與經(jīng)過(guò)深度可分離卷積處理的矩陣v進(jìn)行相加,增強(qiáng)v攜帶的局部特征信息,得到豐富全局特征信息的v矩陣,再與A矩陣進(jìn)行矩陣內(nèi)積運(yùn)算,得到相鄰幀之間時(shí)序關(guān)系信息的特征矩陣o。如式(5)所示。

o=Am(v⊕D(v))(5)

式中:D代表著卷積核為3的深度可分離卷積中的分組卷積;A代表著q和k相乘的特征信息交互矩陣;m代表著標(biāo)準(zhǔn)歸一化操作。

接著,介紹由基于增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制組成的全局特征編碼器。假設(shè)編碼器的輸入為I3D提取的特征F,經(jīng)過(guò)本文提出的增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制處理,得到包含相鄰幀之間時(shí)序關(guān)系的多尺度特征矩陣z。然后,經(jīng)過(guò)多層感知機(jī)提取,得到攜帶時(shí)序信息特征的特征矩陣f{f1,…,fk}。如式(6)、(7)、(8)所示。

o,M=E(m1(F))(6)

z=xM+d1(o)(7)

f=z+d2(MLP(m2(z))M)(8)

式中:o為經(jīng)過(guò)ELTR注意力機(jī)制處理后的特征矩陣;z為中間特征矩陣;f代表經(jīng)過(guò)全局特征編碼器處理后的特征矩陣;MLP代表多層感知機(jī);E代表增強(qiáng)局部時(shí)序關(guān)系注意力機(jī)制;m1、m2代表標(biāo)準(zhǔn)歸一化操作;d1、d2代表隨機(jī)丟包操作;M代表掩碼矩陣。

1.2基于上下文信息的時(shí)序特征增強(qiáng)模塊

視頻中的相鄰幀之間包含著豐富的時(shí)序關(guān)系,正確分析相鄰幀的時(shí)序關(guān)系并進(jìn)行上下文信息建模有助于模型更好地理解視頻內(nèi)容。因此,本文設(shè)計(jì)基于上下文信息的時(shí)序特征增強(qiáng)模塊(temporal feature enhancement module based on context information,TFEC),通過(guò)增強(qiáng)時(shí)序維度上的特征信息以聚合上下文信息,促進(jìn)視頻間上下文信息交互。

首先,特征向量矩陣f{f1,…,fk}經(jīng)過(guò)線性下采樣縮減通道數(shù)。有效的下采樣幫助模型關(guān)注視頻中的重要特征信息,從而促進(jìn)特征信息交互。其次,經(jīng)過(guò)平均池化操作得到相鄰幀之間的時(shí)序關(guān)系信息。最后,經(jīng)過(guò)線性上采樣恢復(fù)原來(lái)的通道數(shù),得到特征向量矩陣xtem{xtem1,…,xtemk}。如式(9)、(10)、(11)所示。

w=R(L(f))(9)

o=L(P(w))(10)

xtem=αL(o)+f(11)

式中:α為超參數(shù),用于平衡局部特征信息,α通過(guò)2.3節(jié)中的實(shí)驗(yàn)1)來(lái)確定最優(yōu)參數(shù);R代表ReLU激活函數(shù);P代表平均池化操作。

1.3損失函數(shù)

模型的損失函數(shù)包含分類損失和回歸損失兩部分。分類損失采用交叉熵?fù)p失,解決正負(fù)樣本不均衡的問(wèn)題,如式(12)所示。

ls=-ylog(p)-(1-y)log(1-p)(12)

式中:ls為分類損失;y為當(dāng)前樣本的標(biāo)簽,正樣本為1,負(fù)樣本為0;p為當(dāng)前樣本預(yù)測(cè)為正樣本的概率,p∈[0,1]。

回歸損失采用Generalized Intersection over Union損失,在訓(xùn)練過(guò)程中要避免梯度消失問(wèn)題。如式(13)所示。

lr=1-B∩BuB∪Bu+c-(B∪Bu)c(13)

式中:lr為模型的回歸損失;B和Bu分別為預(yù)測(cè)錨框和真實(shí)錨框;c為包含B和Bu的最小框。

最終,總損失函數(shù)如式(14)所示。

l=ls+βlr(14)

式中:l為模型的總損失函數(shù);β為回歸損失參數(shù),用于平衡回歸邊界。

2實(shí)驗(yàn)結(jié)果與分析

2.1數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

為了評(píng)估所提出模型的有效性,本文模型在兩個(gè)公開的基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

首先,介紹訓(xùn)練和測(cè)試使用的兩個(gè)基準(zhǔn)數(shù)據(jù)集。THUMOS14數(shù)據(jù)集[16]總共包括20種動(dòng)作類別,其中,有200個(gè)驗(yàn)證視頻和213個(gè)測(cè)試視頻,分別用于模型測(cè)試和訓(xùn)練。Activitynet1.3數(shù)據(jù)集[17]總共有200個(gè)類,20 000個(gè)視頻。本文將Activitynet1.3數(shù)據(jù)集以2∶1∶1的比例劃分,其中,訓(xùn)練視頻10 024個(gè),驗(yàn)證視頻4 629個(gè)。模型在訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上進(jìn)行測(cè)試。

其次,介紹模型的評(píng)價(jià)指標(biāo)。本文采用在不同時(shí)間窗口交并比(temporal intersection over union,tIoU)上的mAP來(lái)評(píng)價(jià)模型的性能。在給定tIoU閾值下,本文記錄了所有動(dòng)作類別的mAP,并進(jìn)一步記錄不同給定tIoU閾值下的平均mAP情況,以此來(lái)反映模型的有效性。

2.2實(shí)施細(xì)節(jié)

本文遵循Actionformer[18]中的部分實(shí)驗(yàn)參數(shù)設(shè)置,這些實(shí)驗(yàn)參數(shù)包括后處理階段的非極大值抑制參數(shù),特征提取和特征金字塔的層數(shù),梯度裁剪技術(shù)等。模型參數(shù)在不同的數(shù)據(jù)集上略微不同。其中,THUMOS14數(shù)據(jù)集上的輸入特征維度為2 304,約5 min的視頻。epochs設(shè)置為50,初始學(xué)習(xí)率為1e-4,使用10幀/s的速度劃分視頻幀和光流,訓(xùn)練輪次設(shè)置為2,mAP評(píng)價(jià)指標(biāo)中tIoU閾值為[0.3,0.1,0.7]。在ActivityNet1.3數(shù)據(jù)集上,模型初始學(xué)習(xí)率為1e-3,epochs設(shè)置為20,訓(xùn)練輪次設(shè)置為16,mAP評(píng)價(jià)指標(biāo)中tIoU閾值為[0.5,0.05,0.95]。

模型在PyTorch1.12.0上實(shí)現(xiàn)。模型在Windows11系統(tǒng)上使用第十二代Gen Intel Core i512400F CPU和12 GB的RTX3060Ti GPU在python3.8環(huán)境下進(jìn)行訓(xùn)練和測(cè)試。

2.3超參數(shù)選擇和分析

為評(píng)估本文所提出模塊的有效性,文中進(jìn)行了實(shí)驗(yàn),并遵循2.2節(jié)中的實(shí)驗(yàn)設(shè)置,在THUMOS14數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。

1)時(shí)序特征增強(qiáng)模塊α參數(shù)的選擇

針對(duì)式(11)中的α參數(shù),本文進(jìn)行了實(shí)驗(yàn)驗(yàn)證,以找到最優(yōu)的時(shí)間增強(qiáng)模塊下采樣參數(shù)。模型按照2.2中的實(shí)驗(yàn)參數(shù)設(shè)置,下采樣率r參數(shù)初始設(shè)置為4。只改變?chǔ)恋娜≈?,得到不同的模型。將模型在THUMOS14數(shù)據(jù)集上進(jìn)行訓(xùn)練測(cè)試,得出表1中不同α值的模型性能統(tǒng)計(jì)結(jié)果。

觀察表1中實(shí)驗(yàn)數(shù)據(jù)可知,當(dāng)α為0.5時(shí),模型的mAP@0.5為71.4%,在所有的α取值中為最優(yōu)的。tIoU從0.3到0.7的平均mAP為67.5%,為模型的最優(yōu)平均mAP。當(dāng)α為1.0時(shí),模型的mAP@0.5為71.0%,tIoU從0.3到0.7的平均mAP為67.2%。當(dāng)α為3.0時(shí),模型的mAP@0.5為70.8%,平均mAP為67.4%。當(dāng)α為4.0時(shí),模型的mAP@0.5為70.1%,平均mAP為66.8%。綜上,在后續(xù)的實(shí)驗(yàn)?zāi)P椭笑林挡捎?.5。

2)不同模塊的消融實(shí)驗(yàn)

為探索不同模塊的有效性,下面進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)參數(shù)設(shè)置遵循2.2節(jié)以及2.3節(jié)中的模型最佳性能參數(shù)選擇,加入模塊或者不加入模塊,形成不同的模型,在THUMOS14上進(jìn)行訓(xùn)練和測(cè)試。表2為兩個(gè)模塊不同組合的模型性能統(tǒng)計(jì)結(jié)果。其中,1代表不加模塊的基準(zhǔn)模型,2為加入增強(qiáng)局部時(shí)序關(guān)系的多頭注意力機(jī)制后形成的模型,3為加入時(shí)序特征增強(qiáng)模塊后形成的模型,4為兩個(gè)模塊都加后形成的模型。

觀察表2中的實(shí)驗(yàn)數(shù)據(jù)可知,從平均mAP的評(píng)價(jià)指標(biāo)來(lái)看,模型1為66.8%,模型2為66.9%,模型3為67.2%,模型4為67.5%。可以看出加入局部時(shí)序增強(qiáng)注意力機(jī)制后,模型平均mAP提高了0.1%。當(dāng)模型加入時(shí)序特征增強(qiáng)模塊時(shí),模型平均mAP提高了0.4%。當(dāng)局部時(shí)序增強(qiáng)注意力機(jī)制和時(shí)序特征增強(qiáng)模塊都加入時(shí),模型平均mAP提高了0.7%。從mAP@0.4來(lái)看,模型1為77.8%,模型2為77.9%,模型3為78.8%,模型4為79.0%??梢钥闯黾尤刖植繒r(shí)序增強(qiáng)注意力機(jī)制后,模型mAP@0.4提高了0.1%。當(dāng)模型加入時(shí)序特征增強(qiáng)模塊時(shí),模型mAP@0.4提高了1.0%。當(dāng)局部時(shí)序增強(qiáng)多頭注意力機(jī)制和時(shí)序特征增強(qiáng)模塊都加入時(shí),模型mAP@0.4提高了1.2%。

2.4對(duì)比實(shí)驗(yàn)

為綜合評(píng)估ETRD模型的有效性,本文將ETRD模型與代表性的模型進(jìn)行對(duì)比。表3中對(duì)比方法的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于原始論文中的實(shí)驗(yàn)數(shù)據(jù)。ETRD模型按照2.2和2.3節(jié)實(shí)驗(yàn)參數(shù)進(jìn)行設(shè)置,在THUMOS14數(shù)據(jù)集和ActivityNet1.3數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,得到表3不同模型的mAP性能指標(biāo)統(tǒng)計(jì)結(jié)果。

觀察表3的實(shí)驗(yàn)數(shù)據(jù)可知,從不同tIoU閾值的平均mAP上看,在THUMOS14數(shù)據(jù)集上tIoU閾值從0.3以0.1的步長(zhǎng)到0.7,TadTR模型的值為46.6%,STCLNet模型的值為38.9%,SGCANet模型的值為36.7%,ELAN模型的值為57.0%。Actionformer模型的值為66.8%,本文所提出的ETRD模型的值為67.5%,比Actionformer模型高出了0.7%,優(yōu)于所對(duì)比的代表性模型。在ActivityNet1.3數(shù)據(jù)集上tIoU閾值從0.5以0.05的步長(zhǎng)到0.95,SSLM模型的值為24.7%,MSST模型的值為34.1%,Actionformer模型的值為35.6%。ETRD模型的值為36.0%,比Actionformer模型高出了0.4%。

從固定tIoU閾值的mAP上來(lái)看,在THUMOS14數(shù)據(jù)集上,對(duì)于mAP@0.5評(píng)價(jià)指標(biāo),TadTR模型的值為49.2%,ELAN模型的值為59.9%,Actionformer模型的值為71.0%,本文所提出的模型為72.0%,比Actionformer高出了1.0%,優(yōu)于所比較的代表性的模型。在ActivityNet1.3數(shù)據(jù)集上,對(duì)于mAP@0.75評(píng)價(jià)指標(biāo),TadTR模型的值為32.6%,Actionformer模型的值為36.2%,SSLM模型的值為24.0%,ETRD模型的值為36.7%,比Actionformer模型高出了0.5%。

綜上,ETRD模型取得了不錯(cuò)的性能。具體來(lái)說(shuō),在THUMOS14數(shù)據(jù)集上tIoU從0.3以0.1的步長(zhǎng)到0.7的平均mAP為67.5%,在ActivityNet1.3數(shù)據(jù)集上tIoU從0.5以0.05的步長(zhǎng)到0.95的平均mAP為36.0%。

3結(jié)論

目前,時(shí)間動(dòng)作檢測(cè)方法大多是對(duì)空間維度上的特征信息進(jìn)行分類及回歸邊界。因此,本文構(gòu)建融合時(shí)序關(guān)系和上下文信息的時(shí)間動(dòng)作檢測(cè)方法,分析相鄰幀之間的時(shí)序關(guān)系,促進(jìn)特征信息的交互。實(shí)驗(yàn)結(jié)果表明,相較于基準(zhǔn)Actionformer模型,所提出的ETRD模型在THUMOS14和ActivityNet1.3數(shù)據(jù)集上均得到了提升。研究成果可以應(yīng)用到智能監(jiān)控、老人監(jiān)護(hù)和遠(yuǎn)程醫(yī)療等領(lǐng)域。鑒于視頻中存在語(yǔ)音數(shù)據(jù)或者文本數(shù)據(jù),構(gòu)建多模態(tài)數(shù)據(jù)融合的檢測(cè)方法可以幫助模型更好地理解視頻內(nèi)容。

參考文獻(xiàn):

[1]陳紀(jì)銘, 陳利平. 一種優(yōu)化FCN的視頻異常行為檢測(cè)定位方法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 33(1): 126134.

[2] SU H S, GAN W H, WU W, et al. BSN++: Complementary boundary regressor with scalebalanced relation modeling for temporal action proposal generation[C/OL]//Proceedings of the AAAI conference on artificial intelligence (AAAI). 2021, 35(3): 26022610(20210518)[20240508]. https://ojs.aaai.org/index.php/AAAI/article/view/16363/16170.

[3] CHEN G, ZHENG Y D, CHEN Z, et al. ELAN: enhancing temporal action detection with location awareness[C]//2023 IEEE International Conference on Multimedia and Expo (ICME). Brisbane: IEEE, 2023: 10201025.

[4] LIU Y Y, ZHOU N, ZHANG F Y, et al. APSL: actionpositive separation learning for unsupervised temporal action localization[J]. Information Sciences, 2023, 630: 206221.

[5] ZHAO F, WANG W, WU Y, et al. A coarsetofine temporal action detection method combining light and heavy networks[J]. Multimedia Tools and Applications, 2023, 82(1): 879898.

[6] 黃金鉀, 詹永照, 趙逸飛. 整體與局部相互感知的圖網(wǎng)絡(luò)時(shí)序動(dòng)作檢測(cè)[J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2024, 45(1): 6776.

[7] GAO Z, CUI X L, ZHUO T, et al. A multitemporal scale and spatialtemporal transformer network for temporal action localization[J]. IEEE Transactions on HumanMachine Systems, 2023, 53(3): 569580.

[8] 胡聰, 華鋼. 基于注意力機(jī)制的弱監(jiān)督動(dòng)作定位方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(3): 960967.

[9] MONIRUZZAMAN M, YIN Z Z. Collaborative foreground, background, and action modeling network for weakly supervised temporal action localization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(11): 69396951.

[10]王東祺, 趙旭. 類別敏感的全局時(shí)序關(guān)聯(lián)視頻動(dòng)作檢測(cè)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2022, 27(12): 35663580.

[11]韓巖奇,茍光磊,李小菲,等.融合多粒度注意力特征的小樣本分類模型[J/OL].計(jì)算機(jī)應(yīng)用研究,17(20240104) [20240508]. https://doi.org/10.19734/j.issn.10013695.2023.09.0513.

[12]CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii: IEEE, 2017: 62996308.

[13]WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks for action recognition in videos[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 41(11): 27402755.

[14]FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 62016210.

[15]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 936944.

[16]IDREES H, ZAMIR A R, JIANG Y G, et al. The THUMOS challenge on action recognition for videos “in the wild”[J]. Computer Vision and Image Understanding, 2017, 155: 123.

[17]HEILBRON F C, ESCORCIA V, GHANEM B, et al. ActivityNet: a largescale video benchmark for human activity understanding[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 961970.

[18]ZHANG C L, WU J, LI Y. Actionformer: localizing moments of actions with transformers[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 492510.

[19]LIU X L, WANG Q M, HU Y, et al. Endtoend temporal action detection with transformer[J]. IEEE Transactions on Image Processing, 2022, 31: 54275441.

[20]HUANG J, ZHAO P, WANG G Q, et al. Selfattentionbased long temporal sequence modeling method for temporal action detection[J/OL]. Neurocomputing,2023,554(20231014)[20240508]. https://www.sciencedirect.com/science/article/pii/S0925231223007403.

[21]FU J, GAO J Y, XU C S. Semantic and temporal contextual correlation learning for weaklysupervised temporal action localization[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023:116(20230619)[20240508]. https://ieeexplore.ieee.org/document/10155179.

[22]LI B R, PAN Y F, LIU R X, et al. Separately guided contextaware network for weakly supervised temporal action detection[J]. Neural Processing Letters, 2023, 55(5): 62696288.

[23]LI P, CAO J C, YUAN L, et al. Truncated attentionaware proposal networks with multiscale dilation for temporal action detection[J/OL]. Pattern Recognition,2023,142(20230516)[20240508]. https://www.sciencedirect.com/science/article/pii/S0031320323003825.

(責(zé)任編輯:曾晶)

Abstract:

Temporal action detection is a challenging task in the field of video understanding. Previous temporal action detection models mainly focus on the classification of video frames, while ignoring the temporal relationship between video frames, which leads to the performance degradation of temporal action detection models. To this end, a temporal action detection method based on enhanced temporal relationship and context information (ETRD) is proposed. First, a global feature encoder based on enhanced local temporal relationship attention mechanism is designed to focus on the temporal relationship between adjacent frames. Second, a temporal feature enhancement module based on context information is constructed to fuse context information. Finally, the classification and regression results are output through the head. Experimental results show that the proposed ETRD model achieves an average mAP of 67.5% and 36.0% on the THUMOS14 and ActivityNet1.3 datasets, respectively. Compared with the 66.8% and 35.6% of the Actionformer model, the average mAP of the ETRD model is improved by 0.7% and 0.4%, respectively. Using visual sensors, the proposed model can detect the behavior category and duration. At the same time, combined with physiological signals such as heart rate, individual health status management can be achieved. Thus, a solution for telemedicine or intelligent monitoring, etc. will be provided.

Key words:

temporal action detection;temporal relationship;context information;multi head attention mechanism;video action understanding

收稿日期:20240517

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62163007,62373116);貴州省科技計(jì)劃項(xiàng)目(黔科合平臺(tái)人才[2020]60072,黔科合支撐[2023]一般118)

作者簡(jiǎn)介:王猛(1998—),男,在讀碩士,研究方向:自主智能系統(tǒng)與機(jī)器人,Email:wm30252021@163.com.

*通訊作者:楊觀賜,Email:gcyang@gzu.edu.cn.

涿州市| 阳原县| 岱山县| 桑植县| 祁东县| 怀宁县| 西宁市| 措美县| 宣城市| 英吉沙县| 开阳县| 灵山县| 讷河市| 珠海市| 纳雍县| 根河市| 永丰县| 新田县| 精河县| 桐城市| 沂南县| 东莞市| 清新县| 兴宁市| 万源市| 万盛区| 丰原市| 潞西市| 剑阁县| 广汉市| 衡东县| 苏州市| 麻阳| 麻城市| 城市| 崇左市| 景谷| 卢湾区| 邻水| 昌吉市| 固阳县|