国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視頻描述中多參考語(yǔ)義生成網(wǎng)絡(luò)

2022-11-17 03:44:44楊大偉
關(guān)鍵詞:殘差語(yǔ)義特征

高 航,楊大偉,毛 琳

(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)

視頻語(yǔ)義信息常被用來(lái)提升視頻描述性能,但視頻中場(chǎng)景、對(duì)象和行為等因素較為復(fù)雜,語(yǔ)義特征不能夠?qū)σ曨l內(nèi)容充分表示,影響視頻描述準(zhǔn)確性。目前主流的視頻描述模型多采用編碼-解碼框架,提取視頻特征的編碼器一般采用卷積神經(jīng)網(wǎng)絡(luò)[1](Convolutional Neural Networks,CNN)、長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)[2,3]等循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]作為解碼器生成文本描述。語(yǔ)義特征作為一種有效的編碼特征在視頻描述中較為常見(jiàn),Tu等[5,6]通過(guò)Fast R-CNN獲取目標(biāo)語(yǔ)義特征,將其與卷積特征一同送入LSTM輸出視頻描述,該方法有效捕捉了視頻中的目標(biāo),但不能充分地表示其屬性和行為。Nayyer等[7]使用目標(biāo)檢測(cè)算法和3D卷積獲取目標(biāo)和行為語(yǔ)義信息[8],得到較好的視頻描述結(jié)果,表明豐富的特征內(nèi)容有利于提升網(wǎng)絡(luò)性能。Vasili等[9]提出多模態(tài)視頻描述,將視覺(jué)特征、聲音特征和表示視頻主題的行為語(yǔ)義特征作為輸入,融合多個(gè)信息源以求得到準(zhǔn)確的文本描述,但并非所有聲音特征都能表達(dá)視頻場(chǎng)景,存在特征冗余問(wèn)題,且少量標(biāo)簽的語(yǔ)義特征不能充分地表達(dá)視頻內(nèi)容。為解決上述問(wèn)題,Gan等[10]提出用于圖像和視頻描述的語(yǔ)義檢測(cè)網(wǎng)絡(luò)SCN,采用多層感知機(jī)[11](Multilayer Perceptron,MLP)提取更多分類標(biāo)簽的詞匯語(yǔ)義特征,但視頻或圖像中場(chǎng)景等因素較為復(fù)雜,簡(jiǎn)單MLP獲取的語(yǔ)義信息不夠豐富,從而影響描述效果。Chen等[12]提出語(yǔ)義輔助視頻描述網(wǎng)絡(luò)SAVC(Semantic-assisted video captioning network),采用卷積網(wǎng)絡(luò)提取視覺(jué)特征,將語(yǔ)義特征作為視覺(jué)特征的輔助生成文本描述,與SCN類似,MLP獲取的語(yǔ)義特征表達(dá)能力不足,影響文本描述效果。

為獲取表征能力更強(qiáng)的詞匯語(yǔ)義信息,提升視頻描述性能,本文提出視頻描述中多參考語(yǔ)義生成網(wǎng)絡(luò)(Multi-Reference Semantic Generation Network for Video Captioning,MRNet)。該網(wǎng)絡(luò)通過(guò)多參考MLP結(jié)構(gòu)生成語(yǔ)義特征,在MLP獲取語(yǔ)義特征過(guò)程中引入視覺(jué)信息,利用視覺(jué)信息對(duì)特征進(jìn)行補(bǔ)充和調(diào)整,豐富語(yǔ)義特征內(nèi)容并提高其準(zhǔn)確程度。MRNet還具備殘差結(jié)構(gòu)緩解網(wǎng)絡(luò)退化現(xiàn)象等優(yōu)點(diǎn),在保證視覺(jué)信息完整表達(dá)的基礎(chǔ)上,實(shí)現(xiàn)了語(yǔ)義特征表達(dá)能力的增強(qiáng)。

1 MRNet算法

MLP獲取的語(yǔ)義信息常被用來(lái)提升視頻描述性能。SAVC網(wǎng)絡(luò)利用語(yǔ)義信息輔助視覺(jué)特征生成文本描述[12],語(yǔ)義信息輔助的網(wǎng)絡(luò)一般形式如圖1。

語(yǔ)義生成網(wǎng)絡(luò)獲取語(yǔ)義特征y的數(shù)學(xué)表達(dá)如下:

y=σ3(F3(σ2(F2(σ1(F1(x))))));

(1)

F(x)=Wx+b。

(2)

式中:x為輸入的視覺(jué)特征;F1、F2和F3為MLP三層處理函數(shù),獲得途徑如式(2);σ(·)表示相應(yīng)層激活函數(shù)。

圖1 SAVC結(jié)構(gòu)示意圖

由于常規(guī)MLP結(jié)構(gòu)提取語(yǔ)義特征的能力有限,由此構(gòu)建多參考語(yǔ)義生成網(wǎng)絡(luò)—MRNet,在語(yǔ)義提取過(guò)程中融合視覺(jué)信息,以視覺(jué)信息為參考對(duì)特征進(jìn)行補(bǔ)充和修正,增強(qiáng)特征有效性和準(zhǔn)確性,參考型MLP分為單參考和多參考兩種形式,多參考MLP由單參考MLP結(jié)構(gòu)復(fù)用而來(lái),可以進(jìn)一步提升語(yǔ)義特征的表達(dá)能力。

1.1 單參考MLP結(jié)構(gòu)

本文在MLP基礎(chǔ)上引入其他通道信息,形成單參考MLP結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖2。

圖2 單參考MLP結(jié)構(gòu)

單參考MLP結(jié)構(gòu)數(shù)學(xué)表達(dá)如下:

y1=x;

(3)

y2=σ(F(x)+x1);

(4)

F(x)=Wx+b;

(5)

x1=G(x)。

(6)

式中:x是雙通道網(wǎng)絡(luò)結(jié)構(gòu)的輸入;C1、C2代表通道1和通道2;y1和y2是兩個(gè)通道的輸出;函數(shù)F(x)表示MLP對(duì)特征的處理;W和b是權(quán)重和偏置,W與x做全連接計(jì)算。x1是輸入特征x的恒等映射,當(dāng)F(x)與x維度不一致時(shí),G(x)采用池化或resize上下采樣等方式調(diào)整x的維度,x可表示為x={s0,s1, …,sn},x1、y2均為此形式特征向量,且x1、y2維度相同。

特征x在通道1直接輸出,與簡(jiǎn)單MLP結(jié)構(gòu)不同,通道2的單參考MLP結(jié)構(gòu)引入了參考信息x1,在MLP對(duì)特征進(jìn)行萃取的過(guò)程中,以其他通道信息作為參考和補(bǔ)充使特征表達(dá)更加充分,增強(qiáng)特征的表征能力。且該結(jié)構(gòu)與殘差類似,以捷徑連接方式將MLP處理結(jié)果與原始特征相加,通過(guò)優(yōu)化殘差單元得到更有效的輸出特征,由于在特征提取過(guò)程中融入原始特征x,故可保證原始信息的完整表達(dá)。

1.2 多參考MLP結(jié)構(gòu)

隨著分類能力需求的增強(qiáng),MLP的層數(shù)逐漸增多,由此可將單參考結(jié)構(gòu)復(fù)用,形成多參考MLP結(jié)構(gòu)如圖3。

圖3 多參考MLP結(jié)構(gòu)

多參考MLP結(jié)構(gòu)數(shù)學(xué)表達(dá)如下:

y2=σn(Fn(…(σ2(F2(σ1(F1(x)+x1))+x2))…)+xn);

(7)

Fn=Wnσn-1(Fn-1+xn-1)+bn。

(8)

式中:x是網(wǎng)絡(luò)的輸入;y1、y2是兩個(gè)通道輸出;F1、F2、…、Fn表示MLP每一層處理;x1、x2、…、xn表示特征x的恒等映射,此處將調(diào)整維度的G(x)省略。

將MLP每一層輸出與x的恒等映射相加,其本質(zhì)是一種逐層嵌套的殘差MLP,利用這種本質(zhì)形式直觀地分析多參考MLP的結(jié)構(gòu)特點(diǎn)如圖4。

圖4 多參考MLP結(jié)構(gòu)的本質(zhì)分析

多參考MLP結(jié)構(gòu)的本質(zhì)分析數(shù)學(xué)表達(dá)如下:

Hn(x)=Fn(…(F2(F1(x)+x1)+x2)…)+xn;

(9)

An(x)=Fn(…(F2(F1(x)+x1)+x2)…) ;

(10)

Hn(x) =An(x)+xn。

(11)

將公式(7)中激活函數(shù)省略,且第n層輸出定義為Hn(x),得到公式(9)。將引入xn之前的處理設(shè)為An(x),則有公式(11),可知網(wǎng)絡(luò)第n層確是一種殘差連接,且進(jìn)一步可知多參考MLP的每一層均實(shí)現(xiàn)了這種殘差連接,可有效解決網(wǎng)絡(luò)退化等問(wèn)題。不同的是,本文在每一層引入原始x,可確保特征中原始信息的完整表達(dá),利用原始特征的補(bǔ)充和參考作用豐富特征內(nèi)容進(jìn)而提升其表達(dá)能力。

1.3 網(wǎng)絡(luò)模型

為獲取表達(dá)能力較強(qiáng)的視頻語(yǔ)義特征,基于本文提出的以上結(jié)構(gòu)設(shè)計(jì)多參考語(yǔ)義生成網(wǎng)絡(luò)MRNet,以視覺(jué)特征為參考,由3層多參考MLP結(jié)構(gòu)生成語(yǔ)義特征,將該語(yǔ)義生成網(wǎng)絡(luò)應(yīng)用于視頻描述任務(wù),通過(guò)獲取表達(dá)能力更強(qiáng)的語(yǔ)義特征,提升視頻描述網(wǎng)絡(luò)的整體性能,網(wǎng)絡(luò)模型如圖5。

圖5 視頻描述網(wǎng)絡(luò)結(jié)構(gòu)圖

算法流程如下:

(1)輸入數(shù)據(jù)集視頻,對(duì)視頻預(yù)處理得到固定的幀數(shù)和圖像尺寸;

(2)分別采用3D卷積和2D卷積提取視頻特征,將兩種特征級(jí)聯(lián),得到視覺(jué)特征;

(3)將視覺(jué)特征傳遞到雙通道網(wǎng)絡(luò)中,在第一通道直接輸出視覺(jué)特征,在第二通道MRNet中輸出語(yǔ)義特征;

(4)將視覺(jué)特征和語(yǔ)義特征送入LSTM網(wǎng)絡(luò),生成文本描述。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

選擇MSR-VTT[13]和MSVD[14]兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。MSR-VTT數(shù)據(jù)集包含10 000個(gè)長(zhǎng)度約為10 s的短視頻,內(nèi)容涉及生活中的各種場(chǎng)景,每個(gè)視頻配有人工標(biāo)注的文本描述作為Ground Truth,在實(shí)驗(yàn)中將7 010個(gè)視頻用于訓(xùn)練,2 990個(gè)視頻用于測(cè)試。MSVD數(shù)據(jù)集中共有1 970個(gè)視頻,將1 300個(gè)視頻用于訓(xùn)練,670個(gè)視頻用于測(cè)試。

2.2 實(shí)驗(yàn)設(shè)計(jì)

在TensorFlow深度學(xué)習(xí)框架下使用Python語(yǔ)言編程實(shí)現(xiàn),在Ubuntu16.04系統(tǒng)中采用單張NVIDIA 1080Ti顯卡訓(xùn)練和測(cè)試。

對(duì)于整體視頻描述網(wǎng)絡(luò),首先對(duì)視頻進(jìn)行預(yù)處理,對(duì)每個(gè)視頻均勻提取32幀圖像后剪裁為固定尺寸256×256,利用預(yù)訓(xùn)練的ECO[15]和ResNeXt[16]網(wǎng)絡(luò)獲取3D和2D特征,得到3 584維視覺(jué)特征向量,采用多參考語(yǔ)義生成網(wǎng)絡(luò)獲取語(yǔ)義特征,將其與視覺(jué)特征共同送入LSTM,重新訓(xùn)練后輸出文本描述。訓(xùn)練時(shí)將學(xué)習(xí)率設(shè)置為0.000 4,批次大小為64,迭代次數(shù)為50,采用Adam算法優(yōu)化模型。

使用視頻描述任務(wù)最常用的四個(gè)評(píng)價(jià)指標(biāo)衡量文本描述的準(zhǔn)確程度,分別為BLEU-4、CIDEr、METEOR和ROUGE-L,四個(gè)指標(biāo)綜合考慮準(zhǔn)確度、召回度、句子的流暢性、近義詞等多方面因素對(duì)句子進(jìn)行評(píng)價(jià),計(jì)算公式如式(12)~式(15)。

(12)

式中:pn表示生成句子中連續(xù)的n個(gè)詞語(yǔ)(n元詞)的預(yù)測(cè)精度,即統(tǒng)計(jì)n元詞是否在生成句子和參考句子中同時(shí)出現(xiàn);wn表示該n元詞的權(quán)重(本文n=4);BP是對(duì)過(guò)短句子的懲罰因子。

(13)

式中:c是生成句子;s是參考句子;M是參考句子的數(shù)量;gn(·)表示基于n元詞的TF-IDF向量(統(tǒng)計(jì)一個(gè)詞語(yǔ)在語(yǔ)料庫(kù)或文件中出現(xiàn)的頻率進(jìn)而判斷其重要程度)。

Meteor=Fmean(1-p) 。

(14)

式中:Fmean表示1元詞的調(diào)和平均值(將精度和召回率以一定權(quán)重組合);p為懲罰因子(抑制1元詞的調(diào)和平均值,有利于生成準(zhǔn)確的詞組)。

ROUGE-L=(1+β2)RlcsPlcs/(Rlcs+β2Plcs)。

(15)

式中,Rlcs和Plcs是根據(jù)生成句子和參考句子的最大公共子序列長(zhǎng)度計(jì)算獲得的召回率和準(zhǔn)確率。

對(duì)于MRNet,將MLP每一層神經(jīng)元個(gè)數(shù)設(shè)置為512、512、300。學(xué)習(xí)率為0.000 2,批次大小為128,迭代次數(shù)設(shè)置為1 000。語(yǔ)義特征的Ground Truth是人工標(biāo)注的300維特征向量,第i個(gè)視頻的語(yǔ)義Ground Truth可表示為

(16)

其中每個(gè)值代表某個(gè)詞匯在視頻中是否涉及。在網(wǎng)絡(luò)中,采用準(zhǔn)確率accuracy衡量語(yǔ)義特征的準(zhǔn)確程度,如式(17),Nt為預(yù)測(cè)的全部單詞個(gè)數(shù)300,Nr為300維向量中預(yù)測(cè)正確的單詞個(gè)數(shù)。accuracy值越大,說(shuō)明語(yǔ)義特征越準(zhǔn)確。

(17)

2.3 視覺(jué)特征參考強(qiáng)度的實(shí)驗(yàn)與分析

為驗(yàn)證MRNet參考結(jié)構(gòu)的有效性,引入不同數(shù)量的視覺(jué)特征參考如圖6,分析參考強(qiáng)度對(duì)性能的影響。

a)No reference b)R=1 c)R=2 d)R=3圖6 參考強(qiáng)度示意圖

圖6a為無(wú)參考的語(yǔ)義生成網(wǎng)絡(luò)為基準(zhǔn),圖6b、圖6c和圖6d為逐漸增加參考數(shù)量,且由相關(guān)實(shí)驗(yàn)可知參考特征的位置和順序?qū)π阅軣o(wú)顯著影響。在MSR-VTT和MSVD數(shù)據(jù)集上不同參考數(shù)量的性能對(duì)比結(jié)果見(jiàn)表1。

表1 兩數(shù)據(jù)集不同參考數(shù)量性能對(duì)比結(jié)果

網(wǎng)絡(luò)僅引入一條特征參考時(shí),生成的詞匯語(yǔ)義特征準(zhǔn)確率有所降低,卻得到了視頻描述性能的顯著提升,可知參考型MLP結(jié)構(gòu)可以增強(qiáng)語(yǔ)義有效性。整體來(lái)看,語(yǔ)義特征的準(zhǔn)確率隨參考數(shù)量的增加逐步提升,視頻描述的四個(gè)評(píng)價(jià)指標(biāo)也整體呈上升趨勢(shì),當(dāng)參考特征數(shù)量為3時(shí)性能達(dá)到最佳,驗(yàn)證了在每一階段引入視覺(jué)特征參考的必要性和有效性。

2.4 與殘差結(jié)構(gòu)對(duì)比的實(shí)驗(yàn)與分析

為驗(yàn)證MRNet優(yōu)于殘差MLP結(jié)構(gòu),對(duì)兩種結(jié)構(gòu)進(jìn)行對(duì)比如圖7。圖7a和圖7b分別是殘差MLP和多參考MLP結(jié)構(gòu),除捷徑連接方式,兩種結(jié)構(gòu)的參數(shù)均相同。

a) 殘差MLP b) 多參考MLP圖7 MLP結(jié)構(gòu)對(duì)比示意圖

在MSR-VTT和MSVD數(shù)據(jù)集上兩種結(jié)構(gòu)的性能對(duì)比結(jié)果見(jiàn)表2。

表2 在兩個(gè)數(shù)據(jù)集上兩種結(jié)構(gòu)的性能對(duì)比結(jié)果

在兩個(gè)數(shù)據(jù)集中,多參考MLP在四個(gè)評(píng)價(jià)指標(biāo)上均優(yōu)于殘差MLP結(jié)構(gòu),表明多參考MLP結(jié)構(gòu)并非捷徑連接的簡(jiǎn)單堆疊,在具備殘差優(yōu)點(diǎn)的基礎(chǔ)上,可以增強(qiáng)語(yǔ)義特征的表達(dá)能力,進(jìn)而提升視頻描述模型性能。

2.5 多參考MLP層數(shù)確定

為確定多參考MLP最佳網(wǎng)絡(luò)層數(shù),進(jìn)行如下對(duì)比實(shí)驗(yàn)。MLP網(wǎng)絡(luò)層數(shù)由1到5逐漸遞增,且在每一層都引入視覺(jué)特征參考。視頻描述性能對(duì)比見(jiàn)表3。當(dāng)層數(shù)為1時(shí)性能較低,從1層到3層網(wǎng)絡(luò)性能逐漸提升且達(dá)到最優(yōu),此后趨于穩(wěn)定,且未發(fā)生明顯網(wǎng)絡(luò)退化現(xiàn)象。

表3 在MSR-VTT和MSVD數(shù)據(jù)集上網(wǎng)絡(luò)層數(shù)性能對(duì)比

2.6 算法整體性能對(duì)比

在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)仿真,得到了較好的視頻描述結(jié)果,在MSR-VTT數(shù)據(jù)集上,將MRNet與其他13種現(xiàn)有模型進(jìn)行對(duì)比,結(jié)果見(jiàn)表3。BLEU-4和ROUGE-L兩個(gè)評(píng)價(jià)指標(biāo)優(yōu)于現(xiàn)有同類方法,CIDEr和METEOR兩個(gè)指標(biāo)也表現(xiàn)較好。

在MSVD數(shù)據(jù)集上的性能對(duì)比見(jiàn)表4。四個(gè)評(píng)價(jià)指標(biāo)均有不同程度的提升,且優(yōu)于現(xiàn)有同類方法。

將兩種視頻描述方法的結(jié)果進(jìn)行對(duì)比如圖8。相比于無(wú)參考的視頻描述方法,MRNet可以得到更準(zhǔn)確的文本描述。圖8a中MRNet可以準(zhǔn)確識(shí)別“數(shù)學(xué)”這一視頻語(yǔ)義;圖8b中可以準(zhǔn)確表達(dá)“一個(gè)男孩正在與一組評(píng)委談話”這一場(chǎng)景;圖8c更全面地指出活動(dòng)地點(diǎn)為籃球場(chǎng);圖8d則表達(dá)了“正在被采訪”這一具體行為。以上四個(gè)實(shí)例驗(yàn)證了MRNet的優(yōu)越性。

表4 MSR-VTT數(shù)據(jù)集視頻描述性能對(duì)比

續(xù)4 MSR-VTT數(shù)據(jù)集視頻描述性能對(duì)比

表5 MSVD數(shù)據(jù)集視頻描述性能對(duì)比

3 結(jié) 語(yǔ)

針對(duì)視頻描述中語(yǔ)義特征表達(dá)能力不足導(dǎo)致的文本描述不準(zhǔn)確問(wèn)題,本文提出多參考語(yǔ)義生成網(wǎng)絡(luò)MRNet。該網(wǎng)絡(luò)采用多參考MLP結(jié)構(gòu)獲取語(yǔ)義特征,在MLP語(yǔ)義萃取過(guò)程中融入視覺(jué)信息,以視覺(jué)信息為參考對(duì)特征進(jìn)行修正和補(bǔ)充,且該結(jié)構(gòu)具備殘差網(wǎng)絡(luò)的優(yōu)點(diǎn),可以消除網(wǎng)絡(luò)退化現(xiàn)象,增強(qiáng)特征的表達(dá)能力,同時(shí)確保視覺(jué)信息的完整表達(dá)。通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了多參考結(jié)構(gòu)的有效性和必要性,且MRNet優(yōu)于現(xiàn)有同類方法,在ROUGE-L指標(biāo)上平均提升了0.99%。在后續(xù)工作中,將對(duì)通道間特征的參考方式做進(jìn)一步研究。

圖8 視頻描述結(jié)果對(duì)比

猜你喜歡
殘差語(yǔ)義特征
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
語(yǔ)言與語(yǔ)義
如何表達(dá)“特征”
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
平穩(wěn)自相關(guān)過(guò)程的殘差累積和控制圖
河南科技(2015年8期)2015-03-11 16:23:52
認(rèn)知范疇模糊與語(yǔ)義模糊
太保市| 上饶市| 辉南县| 祁连县| 三河市| 泰宁县| 安西县| 临高县| 盐边县| 开化县| 凭祥市| 成安县| 平邑县| 甘孜| 林口县| 尼勒克县| 四会市| 庆阳市| 额敏县| 广德县| 车险| 东丽区| 青河县| 芦溪县| 诸城市| 城口县| 平顶山市| 商城县| 仙游县| 静安区| 共和县| 遂昌县| 盈江县| 翁源县| 伊宁县| 信阳市| 万山特区| 吐鲁番市| 光山县| 增城市| 铜鼓县|