摘要:文章研究了基于L2正則化優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò)在數(shù)字視頻媒體內(nèi)容自動(dòng)理解與分析中的應(yīng)用。具體來(lái)說(shuō),文章分析了視頻理解與分析問(wèn)題,聚焦于DCNN的理論研究,引入了L2正則化方法來(lái)對(duì)方法進(jìn)行優(yōu)化,在實(shí)驗(yàn)部分使用YouTube-VOS數(shù)據(jù)集對(duì)方法進(jìn)行了驗(yàn)證與比較,通過(guò)F1分?jǐn)?shù)和交并比指標(biāo)評(píng)估了優(yōu)化方法相較于標(biāo)準(zhǔn)DCNN提升效果。實(shí)驗(yàn)結(jié)果表明,該方法在視頻對(duì)象分割任務(wù)中取得了優(yōu)異的效果,驗(yàn)證了L2正則化在深度學(xué)習(xí)模型優(yōu)化中的有效性。
關(guān)鍵詞:數(shù)字視頻;視頻分析;深度卷積神經(jīng)網(wǎng)絡(luò);正則化
中圖分類號(hào):TP37 文獻(xiàn)標(biāo)志碼:A
0 引言
近年來(lái),隨著數(shù)字視頻媒體的迅猛發(fā)展和廣泛應(yīng)用,如何高效、準(zhǔn)確地理解和分析視頻內(nèi)容成了計(jì)算機(jī)視覺和多媒體領(lǐng)域的研究熱點(diǎn)[1-2]。視頻媒體內(nèi)容的自動(dòng)理解與分析不僅在智能監(jiān)控、視頻檢索、自動(dòng)駕駛等實(shí)際應(yīng)用中具有重要價(jià)值,而且在推動(dòng)人工智能技術(shù)進(jìn)步方面也具有深遠(yuǎn)的意義[3-4]。傳統(tǒng)的視頻理解與分析方法主要依賴于人工特征提取和淺層學(xué)習(xí)模型,這些方法在面對(duì)復(fù)雜多變的場(chǎng)景時(shí)往往表現(xiàn)出局限性,難以充分捕捉視頻中的高層語(yǔ)義信息[5-6]。
近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks, DCNN)的出現(xiàn)為視頻內(nèi)容的自動(dòng)理解與分析提供了新的思路[7-8]。DCNN通過(guò)多層非線性變換能夠自動(dòng)學(xué)習(xí)到數(shù)據(jù)的高層特征表示,從而在圖像和視頻理解任務(wù)中取得了顯著的效果。然而,現(xiàn)有基于DCNN的方法在應(yīng)用于視頻分析時(shí)仍然面臨一些挑戰(zhàn),例如:模型的泛化能力、訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題以及高計(jì)算復(fù)雜度等。
該研究的重點(diǎn)在于探索基于DCNN的場(chǎng)景理解和語(yǔ)義分析方法。具體而言,文章分析了場(chǎng)景理解和語(yǔ)義中的DCNN存在的問(wèn)題,研究了該模型的基本原理。為了提高DCNN的性能,文章引入基于L2正則化[9-10]的優(yōu)化方法以期抑制過(guò)擬合現(xiàn)象。該論文結(jié)合實(shí)際數(shù)據(jù)集,對(duì)所提出的方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證與性能評(píng)估。通過(guò)理論研究和實(shí)驗(yàn)測(cè)試,文章旨在進(jìn)一步推進(jìn)視頻媒體內(nèi)容自動(dòng)理解與分析技術(shù)的發(fā)展,提升現(xiàn)有方法在處理復(fù)雜視頻場(chǎng)景時(shí)的有效性和魯棒性。
1 基本原理與問(wèn)題分析
DCNN作為視頻理解與分析領(lǐng)域的主要技術(shù)之一,其核心原理在于通過(guò)多個(gè)卷積層和池化層的堆疊,從視頻幀中提取多層次的特征。具體而言,DCNN對(duì)輸入視頻幀進(jìn)行卷積操作來(lái)提取圖像的局部特征,例如邊緣、紋理等,每個(gè)卷積層的輸出通過(guò)激活函數(shù)引入非線性,再經(jīng)由池化層進(jìn)行降維和去冗余操作,從而保留關(guān)鍵特征并減少計(jì)算量。在完成特征提取后,特征圖被展平并輸入全連接層進(jìn)行分類或回歸任務(wù)。
然而,DCNN在其應(yīng)用也存在一些局限性。該模型通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,而獲取大規(guī)模高質(zhì)量的標(biāo)注視頻數(shù)據(jù)集成本高昂且耗時(shí)并且標(biāo)準(zhǔn)DCNN容易出現(xiàn)過(guò)擬合現(xiàn)象,特別是在訓(xùn)練數(shù)據(jù)量不足或數(shù)據(jù)分布不均衡的情況下。過(guò)擬合導(dǎo)致模型在訓(xùn)練集上表現(xiàn)良好,但在測(cè)試集或?qū)嶋H應(yīng)用場(chǎng)景中性能顯著下降。
針對(duì)上述標(biāo)準(zhǔn)DCNN的局限性,文章引入L2正則化優(yōu)化方法來(lái)改善DCNN在該場(chǎng)景下的性能。具體而言,L2正則化在優(yōu)化過(guò)程中加入了參數(shù)平方和懲罰項(xiàng),使得權(quán)重參數(shù)趨向于較小的值,防止模型過(guò)度擬合訓(xùn)練數(shù)據(jù)。這不僅有助于提升模型在測(cè)試集上的表現(xiàn),還能增強(qiáng)其在實(shí)際應(yīng)用場(chǎng)景中的魯棒性和穩(wěn)定性。此外,L2正則化能夠簡(jiǎn)化模型,減少不必要的復(fù)雜度,從而降低計(jì)算成本和資源需求,提高模型訓(xùn)練和推理的效率。
2 引入L2正則化的DCNN優(yōu)化方法
2.1 標(biāo)準(zhǔn)DCNN模型
設(shè)輸入圖像為一個(gè)張量X,其中,X∈RH×W×C,H為圖像高度,W為圖像寬度,C為圖像通道數(shù)。卷積層的核心操作是卷積運(yùn)算。在卷積運(yùn)算中,卷積核K作用于輸入圖像的局部區(qū)域并得到輸出特征圖Y,其計(jì)算方法為:
Yi,j,k=∑Hfm=1∑Wfn=1∑Cc=1Xi+m-1,j+n-1,c·Km,n,c,k+bk(1)
其中,Hf和Wf分別為卷積核的高度和寬度,Km,n,c,k為卷積核的權(quán)重,bk為偏置項(xiàng)。
卷積操作完成后,激活函數(shù)(·)被應(yīng)用于卷積輸出來(lái)引入非線性映射。常用的激活函數(shù)為修正線性單元,其表達(dá)式為:
(x)=max(0,x)(2)
后續(xù)的池化層用于降維和減少參數(shù)量,常用的池化操作為最大池化:
Yi,j,k=max(m,n)∈RXi+m-1,j+n-1,k(3)
其中,R表示池化窗口的區(qū)域。在卷積和池化操作之后,特征圖被展平并輸入全連接層。全連接層的輸出z通過(guò)線性變換和激活函數(shù)得到,其計(jì)算公式為:
z=(Wh+b)(4)
其中,W為權(quán)重矩陣,h為輸入向量,b為偏置項(xiàng)。在訓(xùn)練過(guò)程中,該模型通過(guò)最小化損失函數(shù)L(θ)來(lái)優(yōu)化模型參數(shù)θ,常用的損失函數(shù)為交叉熵?fù)p失,其表達(dá)式為:
L(θ)=-∑Ni=1yilog(y^i)+(1-yi)log(1-y^i)(5)
其中,N為樣本數(shù)量,yi為真實(shí)標(biāo)簽,y^i為預(yù)測(cè)概率。該過(guò)程中,梯度下降算法被用于優(yōu)化損失函數(shù),該方法通過(guò)計(jì)算損失函數(shù)對(duì)參數(shù)的梯度θL(θ),按照學(xué)習(xí)率η更新參數(shù):
θ←θ-ηθL(θ)(6)
通過(guò)反復(fù)迭代,DCNN模型的參數(shù)逐步被優(yōu)化,最終實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的高效學(xué)習(xí)與分類。
2.2 基于L2正則化的優(yōu)化方法
為了改善DCNN的性能,文章引入了L2正則化方法來(lái)抑制過(guò)擬合并提升模型的泛化能力。L2正則化通過(guò)在損失函數(shù)中增加一個(gè)正則項(xiàng)來(lái)實(shí)現(xiàn)該目的,正則項(xiàng)用于懲罰模型的復(fù)雜度,使得權(quán)重參數(shù)趨向于較小的值。具體而言,L2正則化的損失函數(shù)定義為:
Lreg(θ)=L(θ)+λ∑iθ2i(7)
其中,L(θ)為原始的交叉熵?fù)p失函數(shù),θ表示模型的參數(shù),λ為正則化系數(shù),控制正則化項(xiàng)的權(quán)重。正則項(xiàng)∑iθ2i是所有權(quán)重參數(shù)的平方和,旨在防止權(quán)重參數(shù)過(guò)大導(dǎo)致的過(guò)擬合現(xiàn)象。
在反向傳播算法中,參數(shù)優(yōu)化目標(biāo)為最小化正則化后的損失函數(shù)Lreg(θ)。因此,參數(shù)的梯度計(jì)算也需要包括正則化項(xiàng)的影響,具體來(lái)說(shuō),參數(shù)θ的梯度更新方法為:
θLreg(θ)=θL(θ)+2λθ(8)
其中,θL(θ)是原始損失函數(shù)L(θ)對(duì)參數(shù)θ的梯度,2λθ是正則化項(xiàng)對(duì)參數(shù)θ的梯度。最終,參數(shù)更新方法為:
θ←θ-η(θL(θ)+2λθ)(9)
式(9)表明,在每次迭代中,模型參數(shù)不僅根據(jù)原始損失函數(shù)的梯度進(jìn)行更新還要考慮正則化項(xiàng)的影響,從而使得權(quán)重參數(shù)趨向于較小的值。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
YouTube-VOS數(shù)據(jù)集是一個(gè)大規(guī)模、高質(zhì)量的視頻對(duì)象分割數(shù)據(jù)集,特別適用于視頻內(nèi)容理解和分析任務(wù)。該數(shù)據(jù)集包含大量真實(shí)世界的多種類視頻片段,每個(gè)視頻幀都附有精確的對(duì)象分割標(biāo)注,覆蓋了豐富的場(chǎng)景和多樣的物體類別。該數(shù)據(jù)集因其數(shù)據(jù)量大、標(biāo)注精細(xì)、類別多樣,成為視頻理解領(lǐng)域的重要基準(zhǔn)數(shù)據(jù)集,廣泛應(yīng)用于視頻場(chǎng)景理解等研究任務(wù)中。為了對(duì)文章中研究的方法進(jìn)行評(píng)估,實(shí)驗(yàn)采用了YouTube-VOS數(shù)據(jù)集對(duì)方法進(jìn)行了測(cè)試,實(shí)驗(yàn)環(huán)境配置如表1所示。
3.2 效果分析
該實(shí)驗(yàn)以YouTube-VOS數(shù)據(jù)集為基準(zhǔn),利用如表1配置的實(shí)驗(yàn)環(huán)境對(duì)文章中的基于L2正則化的DCNN優(yōu)化方法進(jìn)行測(cè)試,具體步驟包括:對(duì)YouTube-VOS數(shù)據(jù)集進(jìn)行預(yù)處理,提取視頻幀并進(jìn)行數(shù)據(jù)增強(qiáng);構(gòu)建并訓(xùn)練DCNN模型,使用L2正則化項(xiàng)優(yōu)化損失函數(shù),控制過(guò)擬合并提高泛化能力;在訓(xùn)練過(guò)程中,監(jiān)控驗(yàn)證集的損失和準(zhǔn)確率,通過(guò)超參數(shù)調(diào)優(yōu)確保模型性能最佳;訓(xùn)練完成后,使用獨(dú)立的測(cè)試集評(píng)估模型的實(shí)際性能,測(cè)量其在視頻對(duì)象分割任務(wù)中的準(zhǔn)確性和魯棒性;將實(shí)驗(yàn)結(jié)果進(jìn)行可視化展示,分析方法的有效性和優(yōu)勢(shì),從而驗(yàn)證該DCNN優(yōu)化方法在數(shù)字媒體視頻內(nèi)容理解與分析中的應(yīng)用效果。
為了對(duì)實(shí)驗(yàn)效果進(jìn)行綜合分析,該實(shí)驗(yàn)對(duì)比評(píng)估了標(biāo)準(zhǔn)DCNN和文章中基于L2正則化的DCNN優(yōu)化方法,使用了F1分?jǐn)?shù)和交并比(Intersection over Union, IoU)作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表2所示。
在視頻對(duì)象分割任務(wù)中,文章中的優(yōu)化方法相較于標(biāo)準(zhǔn)DCNN模型表現(xiàn)出顯著的提升。從F1分?jǐn)?shù)來(lái)看,優(yōu)化方法達(dá)到了0.92,而標(biāo)準(zhǔn)DCNN模型僅為0.85,說(shuō)明該方法在模型的精確率和召回率之間取得了更好的平衡,對(duì)目標(biāo)物體的識(shí)別和分割更為準(zhǔn)確和全面。通過(guò)IoU指標(biāo)的評(píng)估,所研究方法(0.83)遠(yuǎn)高于標(biāo)準(zhǔn)DCNN模型的0.78,表明所研究的優(yōu)化方法預(yù)測(cè)的目標(biāo)物體區(qū)域與真實(shí)標(biāo)注區(qū)域的重疊度更高,具有更好的空間匹配性和精準(zhǔn)度。這些結(jié)果充分驗(yàn)證了引入L2正則化的優(yōu)化方法在DCNN中的有效性,能有效控制過(guò)擬合現(xiàn)象,提升模型在復(fù)雜場(chǎng)景下的穩(wěn)定性和泛化能力。因此,該方法不僅在理論上有所突破,也在實(shí)驗(yàn)結(jié)果上得到了充分的驗(yàn)證和支持,為視頻內(nèi)容理解與分析領(lǐng)域的進(jìn)一步研究和應(yīng)用提供了重要參考。
4 結(jié)語(yǔ)
文章通過(guò)引入L2正則化優(yōu)化方法,成功改善了DCNN模型在數(shù)字視頻媒體內(nèi)容理解與分析中的性能。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,該研究證明了優(yōu)化方法相對(duì)于傳統(tǒng)DCNN在精確度和目標(biāo)完整性上的顯著改善。未來(lái)的研究方向可進(jìn)一步探索更復(fù)雜的數(shù)據(jù)集和場(chǎng)景,進(jìn)一步優(yōu)化模型結(jié)構(gòu)與參數(shù),以提升模型的普適性和魯棒性。該成果為數(shù)字媒體內(nèi)容理解技術(shù)的進(jìn)一步發(fā)展提供了有力支持,對(duì)于提高視頻內(nèi)容分析的自動(dòng)化水平具有重要的理論和實(shí)際意義。
參考文獻(xiàn)
[1]顧曰國(guó).多媒體、多模態(tài)學(xué)習(xí)剖析[J].外語(yǔ)電化教學(xué),2007(2):3-12.
[2]朱云,凌志剛,張雨強(qiáng).機(jī)器視覺技術(shù)研究進(jìn)展及展望[J].圖學(xué)學(xué)報(bào),2020(6):871-890.
[3]張?zhí)煊?,閔巍慶,韓鑫陽(yáng),等.視頻中的未來(lái)動(dòng)作預(yù)測(cè)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2023(6):1315-1338.
[4]黃凱奇,陳曉棠,康運(yùn)鋒,等.智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015(6):1093-1118.
[5]趙祥模.自動(dòng)駕駛測(cè)試與評(píng)價(jià)技術(shù)研究進(jìn)展[J].交通運(yùn)輸工程學(xué)報(bào),2023(6):10-77.
[6]尹宏鵬,陳波,柴毅,等.基于視覺的目標(biāo)檢測(cè)與跟蹤綜述[J].自動(dòng)化學(xué)報(bào),2016(10):1466-1489.
[7]劉楊濤,徐鑫.基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)實(shí)現(xiàn)[J].南陽(yáng)理工學(xué)院學(xué)報(bào),2020(6):58-63.
[8]王容霞,賀芬,楊偉煌,等.融合DCNN的面部特征檢測(cè)在駕駛員危險(xiǎn)駕駛中的應(yīng)用研究[J].商丘職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022(2):71-76.
[9]楊浩,馬建紅.正則化參數(shù)求解方法研究[J].計(jì)算機(jī)測(cè)量與控制,2017(8):226-229.
[10]呂國(guó)豪,羅四維,黃雅平,等.基于卷積神經(jīng)網(wǎng)絡(luò)的正則化方法[J].計(jì)算機(jī)研究與發(fā)展,2014(9):1891-1900.
(編輯 王永超)
Automatic understanding and analysis of digital video media content
TANG Kai
(Huai’an Senior Vocational and Technically School, Huai’an 223005, China)
Abstract: The article investigates the application of deep convolutional neural networks based on L2 regularization optimization in automatic understanding and analysis of digital video media content. Specifically, the article analyzed the basic principles of DCNN and introduced L2 regularization method to optimize the method. In the experimental section, the YouTube VOS dataset was used to validate and compare the method. The F1 score and intersection to union ratio index were used to evaluate the improvement effect of the optimization method compared to standard DCNN. The experimental results show that this method has achieved excellent results in video object segmentation tasks, verifying the effectiveness of L2 regularization in deep learning model optimization.
Key words: digital video; video analysis; deep convolutional neural network; regularization