国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用多時間尺度卷積的視頻行為識別網(wǎng)絡(luò)

2023-06-10 07:08:58陳西江梁全恩韓賢權(quán)
國防科技大學(xué)學(xué)報 2023年3期
關(guān)鍵詞:時間尺度時空準(zhǔn)確率

陳西江,梁全恩,韓賢權(quán),安 慶

(1. 武漢理工大學(xué) 安全科學(xué)與應(yīng)急管理學(xué)院, 湖北 武漢 430070; 2. 長江科學(xué)院, 湖北 武漢 430010; 3. 武昌理工學(xué)院 人工智能學(xué)院, 湖北 武漢 430223)

得益于計算機(jī)設(shè)備的進(jìn)步與算力的提升,深度學(xué)習(xí)技術(shù)得到了快速發(fā)展。許多學(xué)者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別算法,如:AlexNet[1]、VGG[2]、ResNet[3]等。由于神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的優(yōu)勢,許多學(xué)者嘗試運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行為的識別與分類?;诓煌墓羌芫W(wǎng)絡(luò),行為識別網(wǎng)絡(luò)一般分為2D行為識別網(wǎng)絡(luò)與3D行為識別網(wǎng)絡(luò)。

2D的行為識別網(wǎng)絡(luò)使用2D卷積神經(jīng)網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò)進(jìn)行行為識別。Simonyan等[4]設(shè)計了包含兩個獨(dú)立卷積神經(jīng)網(wǎng)絡(luò)的雙流網(wǎng)絡(luò),其以密集的連續(xù)幀作為網(wǎng)絡(luò)輸入提取時序信息。但是密集的連續(xù)幀無法對動作進(jìn)行大時間尺度的建模。為改進(jìn)這一缺點(diǎn),Wang等設(shè)計了時間分割網(wǎng)絡(luò)(temporal segment network,TSN)[5]。TSN將視頻分段,將每段視頻輸入到雙流網(wǎng)絡(luò)中再對每段的結(jié)果進(jìn)行融合從而使網(wǎng)絡(luò)具有長時時空建模的能力。Zhou等提出時間關(guān)系網(wǎng)絡(luò)(temporal relation network,TRN)[6]。TRN主要關(guān)注不同時間尺度上的不同幀的相關(guān)性,其將圖像特征依照不同的時間尺度進(jìn)行時間關(guān)系推理得到不同時間尺度下的行為分類結(jié)果,最后融合多尺度的分類結(jié)果得到最終的分類結(jié)果。Zolfaghari等提出了一種高效的行為識別網(wǎng)絡(luò)[7],其創(chuàng)新在于在網(wǎng)絡(luò)底部使用3D卷積神經(jīng)網(wǎng)絡(luò)來獲得最后的分類結(jié)果?;趧幼髦黧w語義變化相較于動作變化本身更慢,Feichtenhofer等設(shè)計了SlowFast網(wǎng)絡(luò)[8],SlowFast網(wǎng)絡(luò)包含了兩個不同設(shè)計的卷積神經(jīng)網(wǎng)絡(luò),分別側(cè)重于提取不同變化速率的特征。Yang等[9]設(shè)計了一個金字塔結(jié)構(gòu)的時間金字塔網(wǎng)絡(luò)(temporal pyramid network,TPN)用以對動作的不同速率進(jìn)行采樣,其利用不同層次網(wǎng)絡(luò)的輸出特征,應(yīng)用不同的空間采樣率與時間采樣率進(jìn)行采樣,最后將采樣后的特征融合獲得行為的分類結(jié)果。劉董經(jīng)典等出了2D時空卷積密集連接神經(jīng)網(wǎng)絡(luò)[10]。他們選取視頻中用于表征行為的幀,將這些幀依照不同的時空次序組成藍(lán)綠紅(blue green red,BGR)格式的數(shù)據(jù),將組成的圖片數(shù)據(jù)輸入2D時空卷積密集連接神經(jīng)網(wǎng)絡(luò)以對行為進(jìn)行識別分類。

3D的行為識別網(wǎng)絡(luò)利用3D卷積核構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò),卷積核本身擴(kuò)張了時間維度,從而在卷積過程直接提取輸入圖像間的時序信息。3D卷積神經(jīng)網(wǎng)絡(luò)C3D[11]由Tran等首次提出用于行為識別。但3D卷積核擴(kuò)展維度會使網(wǎng)絡(luò)的參數(shù)量成倍增加。因此,Qiu等提出了Pseudo-3D網(wǎng)絡(luò)[12],P3D網(wǎng)絡(luò)將3D卷積核進(jìn)行了分解以降低參數(shù)量。Tran等提出了R(2+1)D網(wǎng)絡(luò)[13],其思路與P3D網(wǎng)絡(luò)的思路相似,但在分解卷積核時保持了參數(shù)量一致。張小俊等[14]借鑒P3D網(wǎng)絡(luò),但相比直接替換卷積核,他們設(shè)計了一種雙流的網(wǎng)絡(luò)結(jié)構(gòu)。Carreira等設(shè)計了一個雙流3D卷積神經(jīng)網(wǎng)絡(luò)I3D[15],他們探討了如何應(yīng)用圖像分類和識別模型的預(yù)訓(xùn)練參數(shù)于3D卷積神經(jīng)網(wǎng)絡(luò)中。Xie等提出了S3D網(wǎng)絡(luò)[16],S3D在I3D網(wǎng)絡(luò)的基礎(chǔ)上對I3D網(wǎng)絡(luò)內(nèi)的Inception block中的3D卷積核進(jìn)行分解。Qiu等[17]基于分組卷積設(shè)計了一個提取時空特征的卷積模塊組分解模塊(grouped decomposed module, GDM)并構(gòu)建了行為識別網(wǎng)絡(luò)組分解網(wǎng)絡(luò)(grouped decomposed network, GDN)。GDM將輸入特征沿通道分為三部分,分別使用不同的卷積核計算,最后將計算結(jié)果沿通道拼接從而融合不同時空信息。郭明祥等提出三維殘差稠密的行為識別網(wǎng)絡(luò)[18]。他們將DenseNet中的卷積核替換為3D卷積核,利用網(wǎng)絡(luò)本身的密集連接融合不同層級的時空特征,使用自適應(yīng)的局部特征與全局聚合來學(xué)習(xí)行為的局部密集特征與全局特征。

基于2D卷積神經(jīng)網(wǎng)絡(luò)的行為識別網(wǎng)絡(luò)在卷積過程缺少對時空特征的提取,因而限制了其性能。Lin等提出了時間位移模塊(temporal shift module,TSM)[19]嘗試解決2D的行為識別網(wǎng)絡(luò)存在的問題。本文受TSM的啟發(fā)提出了多時間尺度卷積。相比TSM,本文提出的多時間尺度卷積能夠更好地融合前后多幀的信息到當(dāng)前幀中,使網(wǎng)絡(luò)獲得更好的時空建模能力。本文討論了多時間尺度卷積的具體設(shè)計與其在骨架網(wǎng)絡(luò)ResNet50中插入的位置與數(shù)量,構(gòu)建了行為識別網(wǎng)絡(luò),并在大型開源數(shù)據(jù)集Something-Something v2上進(jìn)行實驗對比。

1 多時間尺度卷積設(shè)計與網(wǎng)絡(luò)構(gòu)建

1.1 卷積神經(jīng)網(wǎng)絡(luò)與殘差神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)由多個卷積層、池化層與全連接層組成。卷積層一般由卷積核和激活函數(shù)或其他組件組合而成。這些基礎(chǔ)的組件以串聯(lián)或并聯(lián)的方式連接,輸入的圖像特征依照順序送入每一個組件最后得到該卷積層的輸出。卷積層計算式可以表達(dá)為:

O=f(W(θ)(x))

(1)

式中,x為卷積層輸入,O為卷積層輸出,W代表卷積核,f為激活函數(shù),θ為卷積核參數(shù)。輸入圖像經(jīng)過多個卷積層的計算被提取為高維特征,之后將高維特征展開以一維向量的形式輸入到全連接層中得到分類結(jié)果。得益于卷積核強(qiáng)大的特征提取能力,卷積神經(jīng)網(wǎng)絡(luò)在多個數(shù)據(jù)集上的性能表現(xiàn)都超過了滑動窗口、手工特征、多層感知機(jī)等傳統(tǒng)方法。同時卷積核共享參數(shù)的特性使得卷積神經(jīng)網(wǎng)絡(luò)計算更高效且易于訓(xùn)練。

殘差神經(jīng)網(wǎng)絡(luò)ResNet是由He等提出的一系列卷積神經(jīng)網(wǎng)絡(luò),其在多個開源數(shù)據(jù)集上取得了較高的分類準(zhǔn)確率。ResNet依照網(wǎng)絡(luò)層數(shù)不同可以劃分為ResNet18、ResNet34、ResNet50等網(wǎng)絡(luò)。以ResNet50為例,如表1所示,其網(wǎng)絡(luò)由49個卷積核和1個全連接層組成,依照不同輸出特征大小,這些卷積核被分入不同的網(wǎng)絡(luò)層。在網(wǎng)絡(luò)層中,這些卷積核又被組織成瓶頸結(jié)構(gòu)的形式。

表1 ResNet 50結(jié)構(gòu)

瓶頸結(jié)構(gòu)如圖1所示,每個瓶頸結(jié)構(gòu)包含參數(shù)為1×1,3×3和1×1的三個卷積核。兩個大小為1×1的卷積核置于串聯(lián)結(jié)構(gòu)的頂部與底部,大小為3×3的卷積核置于結(jié)構(gòu)的中部。瓶頸結(jié)構(gòu)中1×1卷積核將輸入特征的通道進(jìn)行壓縮與還原,3×3卷積核在計算過程中保持通道數(shù)不變。瓶頸結(jié)構(gòu)通過降低中間特征的通道數(shù),顯著地減少網(wǎng)絡(luò)的參數(shù)量并加快網(wǎng)絡(luò)的訓(xùn)練速度。

圖1 瓶頸結(jié)構(gòu)Fig.1 Bottleneck block

ResNet在卷積核后使用激活函數(shù)ReLU和歸一層BN。BN層通過歸一化網(wǎng)絡(luò)輸出,加快網(wǎng)絡(luò)訓(xùn)練的收斂速度,緩解梯度爆炸或梯度彌散的出現(xiàn),同時抑制網(wǎng)絡(luò)過擬合現(xiàn)象,因此BN層被廣泛應(yīng)用于各種神經(jīng)網(wǎng)絡(luò)中。BN層的計算公式為:

(2)

式中:x為輸入數(shù)據(jù);μ為輸入數(shù)據(jù)的均值;σ2為輸入數(shù)據(jù)的方差;γ與β為可訓(xùn)練參數(shù)參與到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,用于還原數(shù)據(jù)的分布。

激活函數(shù)ReLU將輸入數(shù)據(jù)中小于0的數(shù)值置為0,大于0的數(shù)值保持不變,增加卷積神經(jīng)網(wǎng)絡(luò)的非線性因素。激活函數(shù)ReLU可以表述為:

ReLU(x)=max(0,x)

(3)

如圖1所示,ResNet的瓶頸結(jié)構(gòu)引入了殘差連接。通常,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)增加可以對輸入特征進(jìn)行更細(xì)致地擬合,但是隨著網(wǎng)絡(luò)層增加,網(wǎng)絡(luò)變得難以訓(xùn)練,且其性能也不一定超越淺層網(wǎng)絡(luò)。殘差連接的提出有效地解決了深層網(wǎng)絡(luò)的以上問題。設(shè)xin為輸入特征,xout為輸出特征,φ(xin,ω)為卷積層代表的輸入到輸出的映射,其中ω為卷積運(yùn)算。一個包含殘差連接的瓶頸結(jié)構(gòu)的計算過程可以表示為:

xout=xin+φ(xin,ω)

(4)

當(dāng)映射φ(xin,ω)的值逼近于0時有xin≈xout,此時認(rèn)為該層網(wǎng)絡(luò)沒有學(xué)習(xí)到新的特征,即該層網(wǎng)絡(luò)是輸入到輸出的一個近似的恒等映射。通過殘差連接,使網(wǎng)絡(luò)在層數(shù)增加時更易訓(xùn)練,并且維持網(wǎng)絡(luò)性能不會退化。

表2是不同層數(shù)ResNet網(wǎng)絡(luò)在ImageNet[20]數(shù)據(jù)集上進(jìn)行圖像分類的準(zhǔn)確率。由表2可以看到,隨著網(wǎng)絡(luò)層數(shù)增加網(wǎng)絡(luò)的識別準(zhǔn)確率呈現(xiàn)上升趨勢,說明殘差連接有效地解決了前文提到深層網(wǎng)絡(luò)存在的問題。

表2 ResNet在ImageNet數(shù)據(jù)集上的準(zhǔn)確率

ResNet系列網(wǎng)絡(luò)結(jié)構(gòu)簡單,適合根據(jù)需求對其進(jìn)行不同修改。通過對比表2中不同層數(shù)ResNet的準(zhǔn)確率與參數(shù)量,選取在兩者之間取得較好平衡的ResNet50作為本文的骨架網(wǎng)絡(luò)。

1.2 TSM

TSM由Lin等提出。TSM通過移動輸入特征的部分通道將相鄰兩幀的部分特征引入當(dāng)前幀中達(dá)到信息融合的目的,使骨架網(wǎng)絡(luò)獲得時空建模能力。TSM的結(jié)構(gòu)如圖2所示,其中不同顏色的行對應(yīng)不同時間點(diǎn)T的圖像特征,兩個箭頭分別為前向移動與后向移動。前向移動將部分特征沿著時間維度的順序向前移動一個時間單位,通過前向移動每一幀都將融合后一幀的部分信息。后向移動沿著時間維度將部分特征向后移動一個時間單位,從而使每一幀獲得前一幀的部分信息。T0與T4的部分通道由于移動會出現(xiàn)數(shù)據(jù)缺失,TSM中使用零值進(jìn)行填充,對于超出時間范圍的特征則舍去。TSM使用α控制移動的通道數(shù),通過參數(shù)控制,在不影響骨架網(wǎng)絡(luò)空間建模能力的基礎(chǔ)上最大限度地融合前后幀的信息。此外,TSM可以不經(jīng)修改原網(wǎng)絡(luò)結(jié)構(gòu)快速地插入到任意ResNet系列的網(wǎng)絡(luò)中實現(xiàn)即插即用。

圖2 TSM結(jié)構(gòu)Fig.2 Architecture of TSM

TSM的通道移動操作主要涉及數(shù)據(jù)在內(nèi)存之中的移動,本文結(jié)合文獻(xiàn)[19]說明TSM可以視作一個特殊的卷積模塊。設(shè)輸入特征F含有n幀圖像,設(shè)t1,t2,…,tn為F中不同幀的圖像特征對應(yīng)的時間點(diǎn)。將每一幀特征的通道分為三部分,Fforward為TSM中需要前向移動的特征,Fbackward為需要后向移動的特征,Fremain為不需要移動的特征。又設(shè)三個固定參數(shù)的3D卷積核為c1、c2、c3,將其時間維度的參數(shù)設(shè)為[0,0,1],[1,0,0],[0,1,0]。將c1、c2與c3分別與Fforward、Fbackward、Fremain進(jìn)行卷積計算。以c1與Fforward進(jìn)行卷積計算為例,F′forward為輸出特征,計算過程為:

(5)

式(5)中的時間范圍為t1~tn。該式中上標(biāo)為t0與tn+1的F的值設(shè)為0,其為卷積過程中為維持特征大小不變所設(shè)置的參數(shù)。由式(5),與c1計算后,Fforward中當(dāng)前時間點(diǎn)的特征變?yōu)榱撕笠粫r間點(diǎn)的特征。同理可推c2與Fbackward,c3與Fremain相應(yīng)的計算過程。經(jīng)推導(dǎo)可知,通過固定卷積核時間維度上不同位置參數(shù),可以使卷積舍去或保留不同時間點(diǎn)的特征,從而等價于不同的移動操作。綜上所述,TSM的移動過程可以表達(dá)為:

F′=CCat[c1(Fforward),c2(Fbackward),c3(Fremain)]

(6)

式中,CCat為拼接操作。由上述討論,TSM的通道移動操作可以視為使用不同的固定參數(shù)的3D卷積核與特征不同部分的通道進(jìn)行卷積。與普通卷積核不同的是這些卷積核在訓(xùn)練過程中不學(xué)習(xí)參數(shù)。

1.3 多時間尺度卷積

TSM證明了在2D骨架網(wǎng)絡(luò)的基礎(chǔ)上,使用部分輸入特征進(jìn)行信息融合可以使模型具有捕獲時空信息的能力。受TSM的啟發(fā),本文設(shè)計了多時間尺度卷積(multi time-scale convolution,MTSC)提取融合幀間時空特征。多時間尺度卷積由兩個時間1D卷積核組成:其一為大小3×1×1的時間1D卷積核用于提取當(dāng)前幀及鄰近前后兩幀的特征,時間跨度為3幀;其二為大小3×1×1的空洞時間1D卷積核,用于提取當(dāng)前幀及前后隔幀的特征,時間跨度為5幀。MTSC的運(yùn)算過程如圖3所示,首先將原特征沿著通道順序分割為截取特征Fconv與保留特征Funconv,之后將截取特征分別輸入到兩個不同的時間1D卷積核中進(jìn)行計算以提取不同尺度的時空的信息,最后將卷積輸出特征相加融合再依照通道順序與保留特征拼接。如1.2小節(jié)討論,TSM可以視作對特征的不同部分進(jìn)行固定參數(shù)的卷積計算,但其存在兩個缺點(diǎn):參數(shù)不能學(xué)習(xí);部分通道出現(xiàn)信息缺失。多時間尺度卷積使用可訓(xùn)練的時間1D卷積解決了以上兩個問題,其表達(dá)式為:

圖3 多時間尺度卷積Fig.3 Multi time-scale convolution

Fout=CCat[k1(Fconv)+k2(Fconv),Funconv]

(7)

式中,k1,k2代表兩個時間尺度的時間1D卷積。通過融合不同時間尺度的特征,輸入中的每一幀特征獲得前后不同時間尺度上的信息從而使網(wǎng)絡(luò)具有更好的時空建模能力。

1.4 行為識別網(wǎng)絡(luò)設(shè)計

行為識別網(wǎng)絡(luò)由若干個多時間尺度卷積嵌入ResNet50構(gòu)成,因此本文提出的行為識別網(wǎng)絡(luò)同時考慮了多時間尺度卷積結(jié)構(gòu)與多時間尺度卷積的嵌入位置。

提出的多時間尺度卷積的結(jié)構(gòu)為圖3中截取特征的通道數(shù)量。截取特征通道數(shù)量不僅影響多時間尺度卷積提取融合時空特征的能力,并且隨著通道數(shù)的增加,多時間尺度卷積的參數(shù)量也會上升。本文參考TSM,使用參數(shù)α來控制截取特征的通道數(shù)。α代表輸入特征總通道數(shù)Cin與截取特征通道數(shù)Cconv的比值。

(8)

多時間尺度卷積的嵌入位置指多時間尺度在骨架網(wǎng)絡(luò)中具體嵌入的層數(shù)與數(shù)量。本文選取的骨架網(wǎng)絡(luò)ResNet50含有多個瓶頸結(jié)構(gòu),多時間尺度卷積可以方便地嵌入到瓶頸結(jié)構(gòu)之前。插入多時間尺度卷積的數(shù)量影響著網(wǎng)絡(luò)的時空特征提取能力,并且嵌入多時間尺度卷積的數(shù)量也在影響模型的參數(shù)量,因此需要研究如何取得性能與參數(shù)之間的平衡。如表1所示, ResNet50包含網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4四個網(wǎng)絡(luò)層,將多時間尺度卷積插入不同網(wǎng)絡(luò)層的瓶頸結(jié)構(gòu)前并進(jìn)行對比,研究多時間尺度卷積在骨架網(wǎng)絡(luò)中的最佳插入位置與數(shù)量。

本文提出的基于多時間尺度卷積的行為識別網(wǎng)絡(luò)總體結(jié)構(gòu)如圖4所示。首先對視頻進(jìn)行稀疏采樣,每個視頻抽取8幀圖像堆疊組成網(wǎng)絡(luò)的輸入。然后網(wǎng)絡(luò)使用多個卷積層對輸入圖像進(jìn)行特征提取。最后將卷積層輸出的特征平鋪為一維向量輸入到fc層中,將fc層的輸出相加并按幀數(shù)取均值得到識別結(jié)果。

圖4 行為識別網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.4 Overall of behavior recognition network

算法1 Top-1準(zhǔn)確率與Top-5準(zhǔn)確率

2 實驗與結(jié)果

2.1 網(wǎng)絡(luò)性能評價指標(biāo)與數(shù)據(jù)集

使用行為識別領(lǐng)域中常用的Top-1準(zhǔn)確率與Top-5準(zhǔn)確率作為性能評價指標(biāo)。Top-1準(zhǔn)確率是指網(wǎng)絡(luò)的輸出中概率最高的類別和視頻實際類別一致的比例,Top-5準(zhǔn)確率是指網(wǎng)絡(luò)輸出中概率最高的前五個類別中包含視頻實際類別的比例。Top-1準(zhǔn)確率與Top-5準(zhǔn)確率的偽代碼見算法1。

Something-Something v2數(shù)據(jù)集是一個大型的開源行為識別數(shù)據(jù)集。Something-Something v2數(shù)據(jù)集涵蓋了174個行為類別,包括日常中常見的行為如:移動某物靠近某物、上移某物、打開某物等。Something-Something v2數(shù)據(jù)集中的動作類別注重時空上的關(guān)系,對于模型理解動作主客體之間的交互要求較高。Something-Something v2數(shù)據(jù)集共包含220 847個視頻,其中訓(xùn)練集168 913個視頻,測試集27 157個視頻,驗證集24 777個視頻。為了在實驗階段快速驗證網(wǎng)絡(luò)性能,本文對訓(xùn)練集中所有類行為的視頻進(jìn)行等比例選取,選取比例為1/5,構(gòu)成了包含33 689個視頻的訓(xùn)練集子數(shù)據(jù)集(后文簡稱為訓(xùn)練子集),數(shù)據(jù)集劃分情況如圖5所示。

圖5 數(shù)據(jù)集劃分Fig.5 Splits of dataset

2.2 訓(xùn)練測試設(shè)置

實驗環(huán)境為Ubuntu16.04,一塊NVIDIA RTX 2080ti GPU,Pytorch版本1.4,Cuda版本10.0。由前文所述,選擇ResNet50作為骨架網(wǎng)絡(luò)并使用ImageNet預(yù)訓(xùn)練參數(shù)。本文選擇SGD作為優(yōu)化器,初始的學(xué)習(xí)率設(shè)置為0.01,在第20和第40輪次時學(xué)習(xí)率下降為當(dāng)前學(xué)習(xí)率的1/10,優(yōu)化器動量momentum為0.8,模型訓(xùn)練的輪次為50epoch。全連接層的dropout設(shè)置為0.5。使用梯度累加將批大小模擬為64。在訓(xùn)練時,在視頻中抽取8幀的視頻切片,將視頻切片中的每一幀圖像隨機(jī)剪裁出224×224大小的圖像,之后重新組成一個視頻切片輸入網(wǎng)絡(luò)。在測試階段與驗證階段,選取8幀視頻切片,每一幀圖像都在中心剪裁224×224大小的圖像,之后重新堆疊輸入網(wǎng)絡(luò)進(jìn)行測試。在實驗部分,使用訓(xùn)練子集訓(xùn)練網(wǎng)絡(luò)研究多時間尺度卷積的設(shè)計與卷積插入的層數(shù)選擇。在進(jìn)行與其他網(wǎng)絡(luò)性能對比時,將使用完整的訓(xùn)練集訓(xùn)練網(wǎng)絡(luò)。由于Something-Something v2數(shù)據(jù)集的測試集并未提供標(biāo)簽信息,因此將在提供標(biāo)簽信息的驗證集上測試網(wǎng)絡(luò)的性能。

2.3 實驗

2.3.1 最優(yōu)α值確定

參考TSM的研究,選取了三個α值分別為2、4、8。在該實驗中,多時間尺度卷積與TSM插入的位置為網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4的瓶頸結(jié)構(gòu)前。表3為在訓(xùn)練子集上對不同α值的網(wǎng)絡(luò)進(jìn)行訓(xùn)練并在驗證集上測試的結(jié)果。α值越小代表圖3中截取特征的通道數(shù)越多。

表3 不同α值對應(yīng)不同的網(wǎng)絡(luò)精度

表中Top-1與Top-5分別為Top-1 準(zhǔn)確率與Top-5 準(zhǔn)確率,在無其他說明的情況下后文中的其余表格與此相同。針對Top-1準(zhǔn)確率,由表3可明顯看出,α=4時的網(wǎng)絡(luò)精度相對α=2與α=8的網(wǎng)絡(luò)分別提升1.67%和0.74%,同時比TSMα=4時提升0.74%。針對Top-5準(zhǔn)確率,α=4時的網(wǎng)絡(luò)精度相對α=2與α=8的網(wǎng)絡(luò)分別提升1.97%和1.37%,同樣比TSMα=4時的網(wǎng)絡(luò)精度提升了0.98%。因此,當(dāng)α=2與α=8時,網(wǎng)絡(luò)的性能都有不同程度的下降。根據(jù)文獻(xiàn)[19]可以確定,造成該現(xiàn)象的原因如下:當(dāng)α=2時,輸入特征每一幀的特征都只保留了一半的原特征,這造成了較為嚴(yán)重的信息丟失,因此損害了網(wǎng)絡(luò)的空間建模能力,進(jìn)而導(dǎo)致網(wǎng)絡(luò)性能下降。當(dāng)α=8時,雖然保留了輸入特征的絕大部分特征,但是時序信息融合較少,因此網(wǎng)絡(luò)性能仍有上升空間。從表3可以看到,α=8時多時間尺度卷積的性能與TSMα=4時的性能相似,證明了多尺度卷積比TSM具有更好的時空信息提取融合能力,能使用較少的通道數(shù)達(dá)到TSM中移動較多通道的效果。通過該實驗可以確定α=4時網(wǎng)絡(luò)取得了最優(yōu)性能,因此,多時間尺度卷積的最優(yōu)α值為4。

圖6展示了部分行為類別在不同α值下的識別情況。由圖6可以看到在α為2時,網(wǎng)絡(luò)對某些類別的識別正確率下降嚴(yán)重,如“扭某物”。“扭某物”類別對空間信息較為敏感,因此可以印證前文的推測即α取值過大導(dǎo)致網(wǎng)絡(luò)空間建模能力下降。

圖6 不同α對應(yīng)的部分類別識別結(jié)果Fig.6 Classification result of some behavior categories by different α setting

2.3.2 多時間尺度卷積插入位置確定

多時間尺度卷積可以簡單地插入骨架網(wǎng)絡(luò)中,將多時間尺度卷積分別在不同層內(nèi)的瓶頸結(jié)構(gòu)之前插入。選擇了3種插入位置組合:[1,2,3,4]、[2,3,4]、[3,4]。[1,2,3,4]代表在第1、2、3、4層的每一個瓶頸結(jié)構(gòu)前插入多時間尺度卷積,其余以此類推。在該實驗中,多時間尺度卷積與TSM的α=4。實驗結(jié)果見表4。

表4 不同插入位置的網(wǎng)絡(luò)精度

可以看到,隨著插入層數(shù)的減少網(wǎng)絡(luò)性能呈現(xiàn)下降趨勢,這說明卷積插入數(shù)量的提升可以顯著地增強(qiáng)網(wǎng)絡(luò)的時空建模能力。但隨著卷積核數(shù)量增加,網(wǎng)絡(luò)的參數(shù)和計算消耗也會增大,因此對于部分計算量敏感的應(yīng)用場景可以選擇插入較少的層次如[2,3,4]。圖7展示了不同插入位置對應(yīng)的部分類別識別結(jié)果,說明隨著插入層數(shù)的增加即插入多時間尺度卷積的數(shù)量增加,有利于模型的識別性能提高。

圖7 不同插入位置對應(yīng)的部分類別識別結(jié)果 Fig.7 Classification result of some behavior categories by different insertion position setting

2.4 模型性能對比

通過2.3.1節(jié)與2.3.2節(jié)的討論,行為識別網(wǎng)絡(luò)在多時間尺度卷積的α=4、插入層次為[1,2,3,4]時取得最好的性能。本節(jié)利用Something-Something v2數(shù)據(jù)集驗證本文提出的網(wǎng)絡(luò)與TSN、TRN、TRN-2Stream等網(wǎng)絡(luò)的性能,使用Top-1和Top-5準(zhǔn)確率對不同方法性能進(jìn)行比較,結(jié)果見表5。

表5 與其他模型的對比

TSN為早期方法,其使用16幀圖像作為輸入僅取得了30%的Top-1準(zhǔn)確率,落后于其他行為識別模型。由表5可以看出,針對Top-1準(zhǔn)確率,基于多時間尺度卷積的行為識別網(wǎng)絡(luò)超過了TRN以及使用光流輸入的TRN-2Stream 10.67%和3.97%。相比于TSN+TPN與GDN網(wǎng)絡(luò),MTSC的Top-1準(zhǔn)確率分別提升了4.27%與1.87%。同時,MTSC超過了相同設(shè)置的TSM 0.77%。針對Top-5準(zhǔn)確率,以8幀作為輸入的TSM和以16幀作為輸入的GDN網(wǎng)絡(luò)性能與以8幀作為輸入的MTSC接近,但仍然低于MTSC 0.07%和0.44%。同時,以8幀作為輸入,MTSC的Top-5準(zhǔn)確率明顯高于TRN、TRN-2Stream及GDN。圖8顯示了部分類別的分類情況,對于TSM難以識別的“推某物使其旋轉(zhuǎn)”類別,使用多時間尺度卷積取得了較大的提升,其他類別的識別數(shù)也獲得了不同幅度的增加。這說明多時間尺度卷積使骨架網(wǎng)絡(luò)獲得了更強(qiáng)的時空特征提取能力。

圖8 TSM與多時間尺度卷積的部分類別識別情況 Fig.8 Classification result of some behavior categories of TSM and MTSC

3 結(jié)論

本文研究了TSM,并利用公式推導(dǎo)了TSM可以等效為一組特殊的固定參數(shù)卷積核。同時,在分析過往基于卷積神經(jīng)網(wǎng)絡(luò)的行為識別模型的基礎(chǔ)上,提出了多時間尺度卷積提取融合不同時間尺度的時空特征,以ResNet50為骨架構(gòu)建了行為識別網(wǎng)絡(luò)。

在行為識別網(wǎng)絡(luò)構(gòu)建方面,研究了多時間尺度卷積插入位置和控制截取特征通道數(shù)的參數(shù)α的取值對模型性能的影響。實驗表明,當(dāng)截取特征通道數(shù)為原通道數(shù)的1/4,插入位置為網(wǎng)絡(luò)層1至網(wǎng)絡(luò)層4時網(wǎng)絡(luò)取得最好性能。通過實驗對比驗證了本文提出的網(wǎng)絡(luò)優(yōu)于TSM及其他網(wǎng)絡(luò),在Something-Something v2數(shù)據(jù)集上取得了59.47%的Top-1準(zhǔn)確率。后續(xù),將深入研究多時間尺度卷積瓶頸結(jié)構(gòu)插入位置、如何選取截取特征以及降低網(wǎng)絡(luò)參數(shù)量等問題,并更仔細(xì)地設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)以取得更好的識別性能。

猜你喜歡
時間尺度時空準(zhǔn)確率
時間尺度上非完整系統(tǒng)的Noether準(zhǔn)對稱性與守恒量
跨越時空的相遇
時間尺度上Lagrange 系統(tǒng)的Hojman 守恒量1)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
交直流混合微電網(wǎng)多時間尺度協(xié)同控制
能源工程(2021年1期)2021-04-13 02:06:12
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
鏡中的時空穿梭
玩一次時空大“穿越”
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
新安县| 延庆县| 蒙阴县| 元谋县| 鄢陵县| 仪征市| 天峻县| 封丘县| 寻甸| 怀远县| 惠州市| 浏阳市| 永平县| 白水县| 左云县| 乌拉特前旗| 梁河县| 玉溪市| 巫山县| 十堰市| 东乌珠穆沁旗| 双辽市| 都匀市| 广昌县| 东丽区| 夹江县| 衢州市| 天祝| 丹阳市| 乐至县| 乌海市| 梧州市| 怀来县| 宝清县| 淅川县| 太白县| 安泽县| 杭锦旗| 晋中市| 竹北市| 库尔勒市|