摘要 秦腔,作為中國傳統(tǒng)戲曲藝術(shù)的瑰寶,擁有深厚的歷史底蘊。然而,秦腔早期的影像資料常受噪聲和失真影響,導(dǎo)致畫質(zhì)不佳,嚴(yán)重妨礙了秦腔數(shù)字檔案的保存品質(zhì)。目前應(yīng)用的視頻去噪技術(shù)在處理秦腔那色彩豐富、紋理復(fù)雜的服飾時,往往沒有充分利用視頻幀序列的時間連貫性,使得去噪效果并不理想,難以有效保留視頻幀的核心特征?;谧⒁饬C制的秦腔視頻去噪算法開展研究,針對現(xiàn)有視頻去噪算法忽略幀間時序相關(guān)性導(dǎo)致效果不佳的問題,提出了一種新的視頻去噪算法,該算法利用雙門控注意力機制進行時序信息的融合。首先,通過時序融合模塊,將視頻連續(xù)幀的時序信息進行有效整合;其次,利用雙門控注意力去噪網(wǎng)絡(luò)精確識別并消除時序上的噪聲;最后,通過多頭交互注意力精煉模塊進一步細化特征,以消除去噪過程中可能產(chǎn)生的偽影并恢復(fù)丟失的細節(jié),從而提升去噪后圖像的質(zhì)量。實驗結(jié)果表明,與DVDNet、ViDeNN以及FastDVDNet等現(xiàn)有方法相比,該方法可以更好地利用視頻的時序信息,達到干凈且高效的秦腔視頻去噪效果。
關(guān)鍵詞 秦腔;視頻去噪;注意力機制;時序融合
中圖分類號:TP391" DOI:10.16152/j.cnki.xdxbzr.2025-01-014
Qin Opera video denoising algorithm basedon attention mechanism
SHI Qingaoxue1,2, YANG Chaoran1,2, LIU Xinda1,2, GENG Guohua1,2
(1.National and Local Joint Engineering Research Center for Cultural Heritage Digitization, Northwest University,Xi’an 710127, China; 2.Institute of Visualization Technology, Northwest University, Xi’an 710127, China)
Abstract Qin Opera, as a treasure of Chinese traditional theatre art, has a profound historical heritage. However, the early video materials of Qin Opera are often affected by noise and distortion, resulting in poor picture quality, which seriously hampers the preservation quality of Qin Opera digital archives. Currently applied video denoising techniques often do not make full use of the temporal coherence of the video frame sequence when dealing with the colorful and complex texture of Qin Opera’s costumes, which makes the denoising effect unsatisfactory and makes it difficult to effectively retain the core features of the video frames. In this paper, we carry out research on the Qin Opera video denoising algorithm based on the attention mechanism, and the main research contents are as follows: Aiming at the existing video denoising algorithms ignoring the temporal correlation between frames which leads to the problem of poor effect, we propose a new video denoising algorithm, which makes use of the double gating attention mechanism for the fusion of the temporal sequence information. The algorithm firstly integrates the timing information of consecutive video frames effectively through the timing fusion module; then accurately identifies and eliminates the timing noise using the dual-gated attention denoising network; finally, the features are further refined through the multi-head interactive attention refining module to eliminate the artifacts that may be generated during the denoising process and recover the lost details, to enhance the quality of the denoised image. The experimental results demonstrate that compared with existing methods such as DVDNet, ViDeNN, and FastDVDNet, this method can make better use of the timing information of the video to achieve clean and efficient denoising of Qin Opera" videos.
Keywords Qin Opera; video denoising; attention mechanism; temporal fusion
秦腔,作為中國戲曲藝術(shù)的重要組成部分,是中華文化寶庫中的璀璨明珠。信息技術(shù)的應(yīng)用極大地促進了秦腔等文化遺產(chǎn)的數(shù)字化記錄,便于其再現(xiàn)與再利用。然而,秦腔數(shù)字化過程中面臨諸多挑戰(zhàn),如老舊錄音錄像資料的噪聲和失真問題。盡管秦腔擁有深厚的歷史底蘊和豐富的藝術(shù)表現(xiàn)形式,但歷史遺留下來的錄音和錄像資料往往因質(zhì)量低下而受到噪聲和失真的困擾。受限于存儲與技術(shù)水平,部分秦腔資料已損壞或不完整,影響了數(shù)據(jù)的完整性和可用性。
隨著科技的不斷進步,秦腔這一傳統(tǒng)藝術(shù)形式迎來了新的傳播和發(fā)展空間。人工智能和數(shù)字化技術(shù)的應(yīng)用,不僅為秦腔藝術(shù)的保護、展示和傳承提供了有力支持,而且極大地提升了秦腔藝術(shù)的數(shù)字化展示效果。在這個過程中,確保秦腔數(shù)字資源的品質(zhì)至關(guān)重要,是維護和傳遞秦腔文化的核心環(huán)節(jié)。 在秦腔圖像處理的領(lǐng)域中, 去噪技術(shù)的應(yīng)用成為了一個關(guān)鍵步驟。 這一過程首先需要對秦腔表演的圖像進行預(yù)處理, 包括調(diào)整圖像的灰度和尺寸等, 以便更好地適應(yīng)后續(xù)處理流程。 其次, 通過先進的圖像處理技術(shù), 對圖像中的噪點進行識別和分析, 從而確定噪點的類型和具體位置。 針對秦腔表演圖像的獨特性, 選擇恰當(dāng)?shù)娜ピ胨惴ㄊ侵陵P(guān)重要的, 不僅能夠有效地消除圖像中的噪點和干擾, 還能確保圖像的核心信息和細節(jié)得到保留。 在去噪操作完成后, 通過一些后處理步驟, 例如圖像銳化和對比度優(yōu)化, 可以進一步提升圖像質(zhì)量, 從而獲得清晰、 生動的秦腔表演圖像。
圖像去噪在計算機視覺領(lǐng)域扮演著至關(guān)重要的角色,且致力于精確地消除圖像中的噪聲并恢復(fù)其原始風(fēng)貌。該技術(shù)不僅能提升圖像的視覺感知品質(zhì),還能為圖像識別、分析和理解等后續(xù)處理任務(wù)提供更為清晰和精確的數(shù)據(jù)基礎(chǔ)。圖像去噪的應(yīng)用增強了數(shù)字化圖像記錄的品質(zhì),確保了圖像保存的清晰度和真實感,對于秦腔等藝術(shù)形式的記錄和傳播至關(guān)重要,有助于其藝術(shù)表現(xiàn)的長久保存與廣泛傳播。
隨著數(shù)字化技術(shù)的發(fā)展,文化遺產(chǎn)的保護工作已經(jīng)進入了一個新階段。在這一領(lǐng)域,周明全等人在其著作中全面探討了文化遺產(chǎn)數(shù)字化保護的技術(shù)和應(yīng)用[1],為該領(lǐng)域的研究者提供了寶貴的知識資源。本研究提出的秦腔視頻去噪算法,不僅在視頻處理領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,也為文化遺產(chǎn)的數(shù)字化保護與活化提供了強有力的技術(shù)支持。這一成果與耿國華等人所強調(diào)的觀點相呼應(yīng),他們指出文化遺產(chǎn)的活化迫切需要創(chuàng)新技術(shù)的支撐[2]。因此,針對現(xiàn)有視頻去噪算法在保留秦腔圖像重要細節(jié)等方面,未能有效利用幀之間高度相關(guān)的內(nèi)容的問題,提出了一種基于雙門控注意力的時序融合視頻去噪算法(twin gate attention-temporal fusion network,TGA-TFNet)。該算法首先通過時序融合模塊整合連續(xù)幀之間的信息,并利用時序上的連續(xù)性和冗余信息來提升去噪性能。其次,采用雙門控注意力去噪網(wǎng)絡(luò),有效識別并去除時序上的噪聲,同時保留重要的時序信息,例如運動細節(jié)和連貫性。最后,通過多頭交互注意力精煉模塊對特征進行再次細化,以消除去噪過程可能產(chǎn)生的偽影,并恢復(fù)因去噪導(dǎo)致的過度平滑而丟失的一些細節(jié),從而提高去噪結(jié)果的質(zhì)量。
與將視頻分割成單幀處理的現(xiàn)有方法相比,本研究能夠更好地挖掘視頻的時序信息,從而提高去噪性能。這一創(chuàng)新性方法不僅有助于數(shù)字化技術(shù)在文化遺產(chǎn)保護中的應(yīng)用,也為秦腔文化的數(shù)字化保護與傳承開辟了新的可能性,為秦腔藝術(shù)的傳承與發(fā)展注入了新的活力。
1 相關(guān)工作
視頻去噪是計算機視覺領(lǐng)域中一個重要的研究方向,其目標(biāo)是從含有噪聲的視頻中恢復(fù)清晰的圖像。早期視頻去噪技術(shù)主要使用幀內(nèi)和幀間的濾波方法[3],然而這些方法難以充分利用視頻的時空信息。隨著深度學(xué)習(xí)的興起,視頻去噪得到了新的解決方案,能夠更有效地捕捉視頻數(shù)據(jù)的復(fù)雜性。最近,自監(jiān)督學(xué)習(xí)領(lǐng)域也取得了進展,例如Liu等人提出的FeaSC方法[4],通過減少視圖間的互信息,增強了自監(jiān)督預(yù)訓(xùn)練的有效性。Maggioni等人成功地利用視頻的時空信息進行了去噪[5],但是該方法在處理復(fù)雜場景時仍存在一定的限制。為了克服這一問題,Davy等人提出了基于深度學(xué)習(xí)的時空去噪網(wǎng)絡(luò)[6],通過學(xué)習(xí)視頻數(shù)據(jù)的深層特征來進行去噪,相比傳統(tǒng)方法,該方法能夠更好地恢復(fù)細節(jié)并減少模糊。然而,這種方法的網(wǎng)絡(luò)參數(shù)較多,需要大量計算資源。而Tassano等人提出的DVDNet通過創(chuàng)新的雙路徑網(wǎng)絡(luò)結(jié)構(gòu)有效地融合了幀內(nèi)和幀間信息[7],用于視頻去噪。但該方法的性能受限于高計算資源需求并且對相鄰幀質(zhì)量的依賴較高。另外,Xue等人提出的TOFlow通過端到端可訓(xùn)練的網(wǎng)絡(luò)[8],將運動估計與視頻處理集成在一起,顯著提高了性能。盡管這種方法能夠?qū)W習(xí)特定任務(wù)的運動表示,優(yōu)于傳統(tǒng)的光流方法,但可能需要較大的計算資源,并且可能受到實時應(yīng)用的限制。Wang等人提出的FITVNet通過先對單幀圖像進行去噪[9],然后應(yīng)用時空去噪模塊來處理整個視頻,有效地解決了快速移動物體邊界模糊的問題,尤其提高了物體邊界處的去噪質(zhì)量。然而,該方法的去噪能力在極端情況下有限,并且在處理非常復(fù)雜的場景時可能受到限制。Mehta等人提出的EVRNet采用輕量級的網(wǎng)絡(luò)設(shè)計[10],能夠顯著降低參數(shù)和計算成本,同時還能保持與同時期方法相競爭的性能。
Tassano等人提出了FastDVDNet[11],結(jié)合了注意力機制和端到端學(xué)習(xí),在無需顯式運動補償?shù)那闆r下實現(xiàn)了實時視頻去噪。該方法顯著提高了視頻去噪的效率并保持了良好的去噪效果。然而,在極端噪聲條件下,該方法的去噪效果仍有改進的空間。Vaksman等人引入了補丁工藝幀的概念[12],通過拼接匹配的補丁構(gòu)建與真實幀相似的人工幀,并將視頻序列與補丁工藝幀結(jié)合后送入CNN,從而顯著提高了去噪性能。然而,當(dāng)處理大量數(shù)據(jù)以生成每個輸出幀時,可能需要較大的計算資源,這可能限制了在資源受限環(huán)境中的應(yīng)用。Maggioni等人提出了EMVD[13],通過循環(huán)方式應(yīng)用多個級聯(lián)處理階段,包括時間融合、空間去噪和時空細化。該方法遞歸地利用自然視頻中固有的時空相關(guān)性,可以顯著降低模型復(fù)雜性,同時不會嚴(yán)重影響性能。Song等人提出了TempFormer[14],使用小波變換預(yù)處理降低視頻分辨率以提高效率,并通過空間時間Transformer塊和聯(lián)合空間時間混合模塊來學(xué)習(xí)空間和時間注意力。Li等人提出的方法可以隱式地捕捉幀間的多幀聚合對應(yīng)關(guān)系[15],通過引入分組空間位移,獲得廣闊的有效感受野,并有效地聚合幀間信息。Liang等人提出的VRT方法聚合視頻序列的局部和全局特征信息,并對相鄰幀進行融合[16]。該方法具有平行幀預(yù)測和長距離時間依賴性建模的能力。
綜上所述,盡管當(dāng)前的視頻去噪算法在提升視頻流暢度方面取得了顯著成效,但它們在處理特定類型的視頻內(nèi)容如秦腔視頻時,仍然面臨一系列獨特的挑戰(zhàn)。秦腔視頻的去噪工作不僅要求提高視頻的流暢度,更關(guān)鍵的是要消除偽影和恢復(fù)因過度平滑而丟失的細膩表情與動作細節(jié),這些是秦腔藝術(shù)表現(xiàn)力的核心。秦腔視頻因其獨特的古典美感、豐富的表情變化和傳統(tǒng)文化背景而備受關(guān)注,使得其去噪處理不僅要注重技術(shù)性能,還要考慮到文化傳承的準(zhǔn)確性。
秦腔視頻的質(zhì)量問題,往往與視頻的動態(tài)范圍、色彩飽和度和紋理細節(jié)的保留緊密相關(guān)。這些因素在傳統(tǒng)的視頻去噪算法中可能未被充分考慮,導(dǎo)致在去噪的同時損失了秦腔視頻的藝術(shù)特色。因此,設(shè)計一種能夠兼顧時序融合、細節(jié)保留、計算效率和適應(yīng)性的秦腔視頻去噪算法,成為本研究的核心目標(biāo)。
本研究將深入分析秦腔視頻的特性,如其特有的表演節(jié)奏、面部表情的微妙變化以及服飾的精細紋理,從而開發(fā)出更具針對性的去噪算法。通過這種針對性的設(shè)計,旨在提升秦腔視頻質(zhì)量的處理能力,確保在去噪過程中能夠最大限度地保留秦腔的藝術(shù)魅力。該方法不僅能夠提高視頻的觀賞性,也為保護和傳承這一珍貴文化遺產(chǎn)提供了技術(shù)支持。
2 TGA-TFNet
本文提出了一種基于雙門控注意力的時序融合視頻去噪算法(twin gate attention-temporal fusion network,TGA-TFNet)。該算法能夠有效捕捉相鄰幀之間的相關(guān)性,保證去噪結(jié)果的時序一致性,并避免引入偽影以及修復(fù)因過度平滑而損失的細節(jié),從而生成高質(zhì)量的去噪視頻。TGA-TFNet主要由時序融合模塊、雙門控注意力去噪網(wǎng)絡(luò)以及多頭交互注意力精煉模塊組成,這些組成部分旨在解決秦腔視頻去噪過程中的關(guān)鍵挑戰(zhàn)。通過與秦腔視頻特征的緊密結(jié)合,TGA-TFNet在保持視頻時序性的同時,充分保留了視頻細節(jié),提高了去噪效果,展現(xiàn)出對秦腔視頻處理的顯著優(yōu)勢。下面將詳細介紹這些模塊的功能和作用。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的基于雙門控注意力的時序融合視頻去噪算法如圖1所示。該方法的具體流程包括時序融合、去噪、精煉與細化3個步驟。輸入包括當(dāng)前噪聲幀noisy(t)和先前幀序列的特征融合特征fused(t-1),輸出為當(dāng)前幀以及當(dāng)前幀的去噪與細化結(jié)果refine(t)。
本文提出的基于雙門控注意力的時序融合視頻去噪方法,包括如下步驟。
1)時序融合。將輸入的兩個幀noisy(t)和fused(t-1)傳入時序融合模塊,得到新的融合特征fused(t)。該步驟的目標(biāo)是利用視頻中固有的時間相關(guān)性,最大程度地減少圖像中的噪聲,同時不引入任何時間偽影。
2)去噪。將上一步驟得到的融合特征fused(t)輸入雙門控注意力去噪網(wǎng)絡(luò),進行去噪處理,得到去噪后的視頻幀denoised(t)。此步驟的目的是利用融合特征fused(t)中的時間冗余信息,精確且高效地去除噪聲。
3)精煉與細化。該步驟的輸入由上兩步驟生成的denoised(t)和fused(t),以及先前幀序列的去噪與細化結(jié)果refine(t-1)的卷積結(jié)果組成。將這兩個輸入送入多頭交互注意力精煉模塊,對去噪后的視頻幀進行精煉和細化,得到經(jīng)過去噪和細化處理的干凈視頻幀refine(t)。該步驟的目的是消除去噪過程中引入的偽影,并恢復(fù)因過度平滑而損失的細節(jié)。
2.2 時序融合模塊
在視頻去噪過程中,有效利用時序信息是提高去噪性能的關(guān)鍵。由于視頻幀與幀之間的內(nèi)容具有高度相關(guān)性,這種相關(guān)性可以用來增強單個幀中的信號并抑制噪聲。然而,傳統(tǒng)的視頻去噪網(wǎng)絡(luò)通常只關(guān)注單幀內(nèi)的特征提取,而忽視了幀與幀之間的時序關(guān)聯(lián)。為了克服這一限制,本文設(shè)計了一個時序融合模塊(temporal fusion model,TFM)。
該模塊的主要目的是整合連續(xù)幀之間的信息,以增強當(dāng)前幀的信號并減少噪聲。通過引入先前幀的融合特征和當(dāng)前的噪聲幀,該模塊旨在利用時序上的連續(xù)性和冗余信息來提升去噪性能。如圖2所示,首先進行拼接操作,將當(dāng)前的噪聲幀noisy(t)與先前幀中的融合特征fused(t-1)結(jié)合,以整合時間維度上的信息。其次,利用兩個連續(xù)的3×3卷積層(使用ReLU激活函數(shù))對融合后的數(shù)據(jù)進行特征提取,從而增強有用信號并抑制噪聲。隨后,采用另一個帶有Sigmoid激活函數(shù)的3×3卷積層,動態(tài)地調(diào)整特征圖中每個元素的重要性。接下來,將先前的融合結(jié)果與Sigmoid輸出相乘,這一步驟使網(wǎng)絡(luò)能夠有選擇地增強關(guān)鍵特征,得到的結(jié)果再與將先前的融合結(jié)果相加。最后,利用另一個3×3卷積層對特征進行整合和細化,得到當(dāng)前幀的融合特征fused(t),為下一階段的去噪網(wǎng)絡(luò)提供保留更多時序特征的特征集。通過設(shè)計時序融合模塊(TFM),該方法能夠更有效地利用視頻序列中的時序冗余性,不僅提高去噪網(wǎng)絡(luò)對時間相關(guān)特征的捕捉能力,而且增強網(wǎng)絡(luò)在處理高動態(tài)場景時的穩(wěn)健性。
2.3 雙門控注意力去噪網(wǎng)絡(luò)
本小節(jié)提出了一種基于HIN的雙門控注意力去噪網(wǎng)絡(luò)(twin gated attention denoising network,TGADNet),該網(wǎng)絡(luò)采用HIN的整體結(jié)構(gòu),并引入雙門控注意力模塊(twin gated attention model,TGAM),專門處理視頻序列的時序特征。
HINet利用半實例歸一化(half instance normalization,HIN)結(jié)合了批量歸一化(batch normalization,BN)和實例歸一化(instance normalization,IN)的特性。通過在BN和IN之間建立平衡,HINet能夠保持圖像內(nèi)容的穩(wěn)定性,同時增強網(wǎng)絡(luò)對于圖像細節(jié)和紋理的恢復(fù)能力。然而,這些方法仍然不足以滿足視頻去噪的需求。因此,引入了TGAM作為HINet編碼器和解碼器之間的橋梁,以幫助模型更好地理解和重建秦腔視頻幀之間的動態(tài)變化。TGAM使網(wǎng)絡(luò)能夠識別和調(diào)節(jié)對空間噪聲特征的關(guān)注,并根據(jù)視頻幀之間的動態(tài)變化調(diào)整注意力分布。通過這樣的設(shè)計,本小節(jié)提出的TGADNet在處理秦腔視頻序列時能夠有效地識別和去除時序上的噪聲,同時保留重要的秦腔視頻時序信息,例如運動細節(jié)和連貫性。
如圖3所示,TGADNet由兩個子網(wǎng)絡(luò)組成,這兩個子網(wǎng)絡(luò)通過跨階段特征融合模塊(cross-stage feature fusion,CSFF)和監(jiān)督注意模塊(supervised attention module,SAM)進行連接。這兩個模塊的設(shè)計靈感來自于Zamir的方法[17]。
首先,將帶有時序信息的融合特征送入第一個子網(wǎng)絡(luò),對視頻幀進行第一階段的去噪。在去噪過程中,每一層所產(chǎn)生的特征以及第一階段的去噪結(jié)果分別通過跨階段特征融合模塊(cross-stage feature fusion,CSFF)和監(jiān)督注意模塊(supervised attention module,SAM)傳遞到下一個階段進行聚合。CSFF模塊用于豐富下一階段的多尺度特征,而SAM模塊則用于強調(diào)重要特征并抑制次要信息。接下來,第二個子網(wǎng)絡(luò)接收第一個子網(wǎng)絡(luò)提供的輸入,進行第二階段的去噪,并輸出去噪后的特征denoised。
每個子網(wǎng)絡(luò)都采用U-Net結(jié)構(gòu)。對于每個階段的U-Net,首先通過單層卷積獲取待去噪特征圖的淺層特征,然后將特征送入編解碼架構(gòu)中(4個下采樣+4個上采樣)。編碼器部分使用HIN Block來提取每個尺度的特征,并在下采樣過程中增加通道數(shù)。編碼器最底部的輸出被送入一組TGAM中,以從編碼器特征中獲取關(guān)鍵的去噪線索。TGAM將經(jīng)過門控注意力加權(quán)的特征送入解碼器中。解碼部分通過Pixel Shuffle進行上采樣,以避免傳統(tǒng)上采樣方法引入偽影或模糊問題,并恢復(fù)或增加圖像的細節(jié)和清晰度。同時,解碼部分使用ResBlock來提取高級特征,并與HIN Block提取的特征進行融合,以補償反復(fù)采樣導(dǎo)致的信息損失。最終,輸出每個階段的去噪結(jié)果。
自注意力(self-attention,SA)模塊對于去噪很有幫助,因為它可以捕獲遠程依賴關(guān)系,從而增加接受野。然而,由于SA模塊需要計算序列中每對元素之間的相互作用,因此在處理高分辨率圖像時,這些模塊通常具有很高的計算復(fù)雜性。門控注意力(gate attention,GA)是對傳統(tǒng)自注意力機制的一種改進。
為了在減少計算負擔(dān)的同時提高去噪過程的效率,本小節(jié)采用了TGAM。TGAM通過引入額外的門控機制來動態(tài)調(diào)整注意力的聚焦程度,以調(diào)節(jié)不同元素之間注意力權(quán)重的分配。這樣可以使模型更加專注于噪聲密集或重要區(qū)域,從而提高去噪的效率和性能。此外,TGAM通過擴展特征圖的通道并將其分流送入可學(xué)習(xí)矩陣,以對頻域中的依賴性進行建模,從而捕獲特征中的長距離依賴關(guān)系,并大大降低了計算成本。
TGAM的結(jié)構(gòu)圖如圖4所示。
首先,輸入特征圖Fin經(jīng)過LayerNorm層進行歸一化。其次,通過1×1卷積將特征圖的通道數(shù)從c擴展到(2r1+r2)c,其中r1≤1和r2≤1是用于控制通道冗余的縮減因子的超參數(shù)。(2r1+r2)c通道被分為3個流,每個流具有r1c,r1c和r2c數(shù)量的通道,以捕獲遠程依賴關(guān)系。接下來,在兩個流中分別兩次捕獲頻域中的遠程依賴關(guān)系,得到F0和F1。最后,通過一系列點乘和1×1卷積的降維操作,并與Fin進行殘差連接,得到經(jīng)過門控注意力加權(quán)的特征圖Fout。上述提到的兩次捕獲頻域中的遠程依賴關(guān)系是通過學(xué)習(xí)一個H×W×C的矩陣ω(與特征映射的大小相同)來建模的。與普通卷積相比,這樣的計算成本更低。以圖4中的F1流為例,首先使用二維快速傅里葉變換[18](2D FFT)將特征映射轉(zhuǎn)換到頻域,得到FFFT;其次,將學(xué)習(xí)到的矩陣ω與FFFT相乘,以捕捉頻域的依賴關(guān)系,得到特征F’FFT;最后,將F’FFT作為來自r2c通道的特征映射的門控信號,執(zhí)行門控注意力并最終輸出F1。相比于普通卷積[19],這種方式將計算復(fù)雜度從卷積運算的O(N2)降低到元素矩陣乘法的O(N),其中N表示特征映射中的所有像素點。
2.4 多頭交互注意力精煉模塊
任何去噪方法都有可能引入偽影和圖像細節(jié)的丟失,特別是當(dāng)輸入圖像的信噪比較差或模型的復(fù)雜性受到明顯約束時。因此,為了恢復(fù)因去噪而丟失的精細細節(jié)和紋理,并進一步提高去噪效果和精煉特征表示,提出了一種多頭交互注意力精煉模塊(multi-head interaction attention model,MIAM)。MIAM綜合考慮了仍帶有噪聲的圖像、無噪聲的去噪圖像以及經(jīng)過精煉的上一幀圖像。它將這些圖像結(jié)合起來,用于精煉去噪后的特征。該模塊通過整合當(dāng)前幀的去噪特征和時間維度上的信息(噪聲圖像特征和上一個細化幀的融合特征),旨在增強特征表示并實現(xiàn)更好的時序一致性。使用MIAM模塊的目的是在特征級別上提高去噪效果,同時恢復(fù)丟失的細節(jié)和紋理。這種方法能夠處理復(fù)雜的噪聲情況,并提供更準(zhǔn)確的圖像去噪結(jié)果。
交互注意力(inteaction attention,IA)中將去噪后的特征作為支持特征FS∈RN×C,攜帶著噪聲特征和細化特征幀的融合特征,作為參考特征FR∈RN×C,其中N表示通道內(nèi)的像素數(shù)。參考特征的查詢QR、支持幀的鍵KS和值VS通過線性層表示為
QR=FRPQ, KS=FSPK, VS=FSPV(1)
式中:PQ、PK、PV∈RC×C是線性層。接下來的IA注意力計算公式為
IA(FR,F(xiàn)S)=SoftmaxQR(KS)TCVS(2)
受多頭自注意力的啟發(fā),將輸入分組,生成多組查詢、鍵、值;然后將多組查詢、鍵、值并行地進行注意力計算,將結(jié)果匯聚拼接;最后,經(jīng)過一個全連接層,最終得到輸出。以這樣的方式交互注意力成為多頭交互注意力(multi-head interaction attention,MIA),這樣網(wǎng)絡(luò)可以同時關(guān)注輸入的不同部分,從而更好地捕捉輸入特征中的信息。
多頭交互注意力精煉模塊的工作流程表示為式(3),F(xiàn)1表示當(dāng)前需要細化的特征,F(xiàn)2則是上一個細化幀與噪聲圖像特征的融合結(jié)果。MIA(F1,F(xiàn)2)代表了通過對齊操作,利用F2對F1進行多頭交互注意力的處理。Concat表示通道拼接操作,MLP(x)表示多層感知機(multilayer perceptron),而LN(x)表示層歸一化(layer normalization)操作。首先,對F1和F2進行兩次多頭交互注意力計算,將得到的注意力結(jié)果分別表示為Y1和Y2。其次,將Y1和Y2進行通道拼接操作,將其輸入到多層感知機中,以進行通道縮減。將多層感知機的輸出結(jié)果與F1進行殘差連接,得到特征F3。最后,對F3進行層歸一化操作,將其輸入到另一個多層感知機中,進行進一步的特征轉(zhuǎn)換。將多層感知機的輸出結(jié)果與輸入的F3進行殘差連接,即可獲得經(jīng)過細化和精煉后的視頻幀F(xiàn)out。
Y1,Y2=MIA(F1,F(xiàn)2),MIA(F2,F(xiàn)1)
F3=MLP(Concat(Y1,Y2))+F1(3)
Fout=MLP(LN(F3))+F3
通過MIAM,網(wǎng)絡(luò)能夠利用融合特征中的噪聲圖像信息,更精細地區(qū)分噪聲和有用信號,從而在去噪后的視頻中保留更多的細節(jié)和紋理信息,恢復(fù)因去噪而模糊或丟失的圖像細節(jié)。同時,通過融合特征中上一幀的特征,網(wǎng)絡(luò)可以更好地理解幀與幀之間的關(guān)系,能夠在保留重要細節(jié)的同時,識別并減少去噪過程中引入的不自然偽影。此外,在去噪過程中還能保持視頻的時間連貫性,避免去噪后視頻出現(xiàn)抖動或不自然的過渡。
2.5 損失函數(shù)
本小節(jié)旨在通過使用峰值信噪比(PSNR)和時間一致性損失作為優(yōu)化目標(biāo),來提高視頻序列中圖像的質(zhì)量,并確保幀與幀之間的時間連續(xù)性和一致性。這不僅有助于減少噪聲,還有效避免對秦腔表演中精細的面部表情和復(fù)雜的服飾紋理造成損害,具體描述如下。
2.5.1 峰值信噪比(PSNR)
峰值信噪比(PSNR)是最常用的衡量圖像重建質(zhì)量的指標(biāo)之一。它通過比較原始圖像與去噪圖像之間的最大可能像素值差異和實際像素值誤差的比率來評估圖像的質(zhì)量。PSNR的計算公式為
LPSNR=10 log10I2maxeMSE(4)
式中:I2max表示圖像可能的最大像素值,對于8位圖像,該值通常為255;eMSE(均方誤差)是原始圖像和去噪圖像之間平均誤差的平方。PSNR值越高,表示去噪圖像與原始圖像越接近,圖像質(zhì)量越好。在本小節(jié)中,通過最大化PSNR值來優(yōu)化圖像的視覺質(zhì)量,對于秦腔這類傳統(tǒng)藝術(shù)形式來說尤為重要,因為它們通常包含豐富的細節(jié)和紋理,需要在去噪的同時保留其獨特的藝術(shù)特點。
2.5.2 時間一致性損失
在處理秦腔這類傳統(tǒng)戲曲藝術(shù)視頻時,除了在單個圖像幀上進行高質(zhì)量重建之外,視頻去噪還需要考慮幀與幀之間的時間一致性。為此引入了時間一致性損失函數(shù),以確保相鄰幀之間的去噪結(jié)果在視覺上保持連續(xù)性和一致性。這在秦腔視頻去噪中尤為重要,因為秦腔的表演藝術(shù)強調(diào)唱、念、做、打的連貫性,任何幀與幀之間的不連貫都可能破壞其藝術(shù)表現(xiàn)力。時間一致性損失通過比較連續(xù)幀的去噪輸出與原始視頻幀之間的差異來計算,其計算公式為
Ltemp=1N-1∑N-1i=1‖f(di)-f(di+1)-(oi-oi+1)‖2(5)
式中:di和di+1表示連續(xù)的去噪幀;oi和oi+1表示對應(yīng)的原始幀; f(x)表示特征提取函數(shù);N是視頻序列中的總幀數(shù)。該損失項旨在鼓勵模型生成的去噪幀在時間上保持一致性,減少視覺抖動。
2.5.3 總損失
首先,采用PSNR來調(diào)整每個完整圖像的像素值差異,以提高單幀去噪圖像的質(zhì)量,并保留圖像中的顏色和紋理特征,這對于秦腔表演中豐富的表情和服飾細節(jié)尤為重要。其次,使用時間一致性損失函數(shù)聚焦于視頻的時序特征,以確保去噪過程不會引入任何不自然的幀間跳動或抖動,從而保持視頻播放的平滑性和連貫性,這對于秦腔表演的流暢性和整體藝術(shù)表現(xiàn)至關(guān)重要??倱p失函數(shù)表示為
Ltotal=αLPSNR+βLtemp(6)
式中:LPSNR和Ltemp分別代表PSNR損失和時間一致性損失;α和β是用于平衡兩種損失貢獻的權(quán)重參數(shù)。
3 實驗與分析
在提升秦腔視頻的去噪品質(zhì)中,TGA-TFNet方法凸顯了其卓越性。該方法在確保去噪后視頻序列的時間連貫性方面表現(xiàn)突出,同時避免了偽影的產(chǎn)生,并有效恢復(fù)了因過度平滑而損失的細節(jié)。為了全面評估TGA-TFNet在秦腔視頻去噪方面的表現(xiàn),本節(jié)將此方法與其他去噪算法在多個數(shù)據(jù)集上進行了對比分析。實驗涵蓋了詳盡的實驗設(shè)置、數(shù)據(jù)集的選擇、評估指標(biāo)的確定、對比實驗的執(zhí)行以及消融實驗的探究。通過這些嚴(yán)謹(jǐn)?shù)膶嶒灹鞒?,能夠確保秦腔視頻中的藝術(shù)性和細節(jié)得到最大程度的保留,同時去除噪聲,使得秦腔的韻味和藝術(shù)表現(xiàn)力在數(shù)字化處理中得以傳承和發(fā)展。
3.1 實驗設(shè)置
本實驗使用Python 3.8和PyTorch 1.7,以及NVIDIA 3090顯卡進行訓(xùn)練。在實驗中,利用DAVIS訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集中添加了標(biāo)準(zhǔn)差為[5,50]的高斯噪聲,并構(gòu)建了帶噪干凈對,作為網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)。于每個訓(xùn)練周期中,提取了128 000個訓(xùn)練樣本進行訓(xùn)練,每個訓(xùn)練樣本是一個96×96的7幀序列塊,批處理大小設(shè)置為32。在訓(xùn)練過程中,使用Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)進行優(yōu)化。網(wǎng)絡(luò)模型總共進行了35個周期的訓(xùn)練。前15個周期的學(xué)習(xí)率設(shè)置為10-3,接下來的10個周期學(xué)習(xí)率變?yōu)?0-4,最后剩余的10個周期的學(xué)習(xí)率設(shè)置為10-6。
3.2 數(shù)據(jù)集
深度學(xué)習(xí)任務(wù)需要大量的數(shù)據(jù)樣本來對模型進行訓(xùn)練。為了獲取豐富的樣本,將使用添加了高斯噪聲的DAVIS[20]數(shù)據(jù)集作為實驗的訓(xùn)練集,用于對模型進行訓(xùn)練。同時,為了驗證所提出的視頻去噪方法的有效性,將使用添加了不同強度噪聲的DAVIS測試數(shù)據(jù)集以及秦腔戲曲數(shù)據(jù)集對模型進行測試。接下來,將介紹DAVIS數(shù)據(jù)集和自建數(shù)據(jù)集的詳細情況。
DAVIS數(shù)據(jù)集是專為視頻分析和理解而設(shè)計的重要資源,在計算機視覺研究領(lǐng)域得到廣泛應(yīng)用。該數(shù)據(jù)集旨在提供一個標(biāo)準(zhǔn)化的平臺,用于評估和比較不同視覺算法在處理動態(tài)場景中的性能。DAVIS數(shù)據(jù)集提供了一系列高質(zhì)量的視頻,每個視頻都附帶了精細的像素級手工標(biāo)注,描述了視頻中的主要對象和場景。數(shù)據(jù)集的設(shè)計考慮了多樣性和復(fù)雜性,包含了從簡單到復(fù)雜的各種場景,以模擬計算機視覺系統(tǒng)在現(xiàn)實世界中可能面臨的挑戰(zhàn)。自首次發(fā)布以來,DAVIS數(shù)據(jù)集經(jīng)歷了多次更新和擴展,每個新版本在視頻數(shù)量、場景復(fù)雜度和標(biāo)注質(zhì)量方面都有所提升。例如,數(shù)據(jù)集從最初的單對象跟蹤和分割擴展到了多對象場景,以適應(yīng)計算機視覺領(lǐng)域的發(fā)展需求。DAVIS數(shù)據(jù)集的一個顯著特點是其高質(zhì)量的手工標(biāo)注,為研究人員提供了一個準(zhǔn)確的基準(zhǔn)來評估他們的算法。這些標(biāo)注覆蓋了視頻的每一幀,為各種視覺任務(wù)(如對象檢測、跟蹤、分割等)提供了實驗基礎(chǔ)。由于其豐富的場景和精確的標(biāo)注,DAVIS數(shù)據(jù)集適用于廣泛的計算機視覺任務(wù),包括但不限于視頻分割、對象跟蹤、場景理解和動作識別。它為算法開發(fā)者和研究人員提供了一個共同的基準(zhǔn),以驗證和比較他們的技術(shù)在真實世界條件下的性能。
秦腔戲曲視頻數(shù)據(jù)集是通過收集現(xiàn)場演出的視頻、訪問數(shù)字檔案和圖書館資源整理而成的,該數(shù)據(jù)集包含了15個秦腔戲曲視頻。
3.3 消融實驗
為了驗證本文方法的有效性,本小節(jié)進行了消融實驗,分別針對時序融合模塊、雙門控注意力模塊以及多頭交互注意力精煉模塊進行了實驗。接下來將詳細介紹這些實驗以及實驗結(jié)果。
3.3.1 TFM的消融實驗
時序信息的充分利用可聚焦于視頻幀之間高度相關(guān)的內(nèi)容。相較于單層3×3卷積,TFM能更充分地利用時序上的連續(xù)性和冗余信息,以提升去噪性能。為了驗證TFM的有效性,在DAVIS數(shù)據(jù)集上分別測試了以TFM作為融合模塊的去噪網(wǎng)絡(luò)和以單層3×3卷積作為融合模塊的去噪網(wǎng)絡(luò),相關(guān)實驗結(jié)果如表1所示。從實驗結(jié)果中可以明顯觀察到,TFM作為融合模塊的去噪網(wǎng)絡(luò)相較于單層3×3卷積,更加專注于視頻幀之間高度相關(guān)的內(nèi)容,從而實現(xiàn)更佳的去噪性能。
3.3.2 TGAM的消融實驗
為了驗證TGAM的有效性,在DAVIS數(shù)據(jù)集上添加了σ=50的高斯噪聲,并進行了相應(yīng)的實驗。為了避免冗余卷積,引入了可學(xué)習(xí)的H×W×C矩陣ω,用以替代傳統(tǒng)的卷積操作。在相同參數(shù)數(shù)量的情況下,這一改進將PSNR從31.09 dB提高到31.94 dB,實驗結(jié)果如表2所示。此外,當(dāng)在頻域中捕獲兩次遠程依賴關(guān)系時,與僅捕獲一次依賴關(guān)系相比,在相同參數(shù)數(shù)量下PSNR進一步提高了0.46 dB,表明雙重相互作用在捕獲遠程依賴關(guān)系方面具有優(yōu)勢。此外,在計算速度方面,由于通過學(xué)習(xí)矩陣ω對頻域中的依賴性進行建模,成功捕獲兩次遠程依賴關(guān)系,將計算時間從169 ms縮短到143 ms。
同時,為了研究通道數(shù)對性能的影響,對兩個超參數(shù)r1和r2進行了調(diào)優(yōu)。實驗結(jié)果如表3所示,當(dāng)r1=0.5,r2=1時,PSNR達到最佳。而當(dāng)r1=1和r2=1時,PSNR下降了0.51 dB,說明增加信道數(shù)會降低性能,因為不同信道上的特征存在冗余。
3.3.3 MIAM的消融實驗
通過對去噪后的圖像進行細化處理,可以恢復(fù)因去噪而被去除的精細細節(jié)和紋理。為了驗證MIAM的有效性,在DAVIS數(shù)據(jù)集上添加了σ=50的高斯噪聲,并進行了相應(yīng)的實驗。實驗結(jié)果如表4所示,在引入MIAM后,PSNR從31.66 dB提高到31.94 dB,SSIM從0.866 1提高到了0.874 9。
3.4 對比實驗
本小節(jié)將對TGA-TFNet視頻去噪算法進行了全面的評估。實驗結(jié)果表明,TGA-TFNet在DAVIS測試集上對不同強度的高斯噪聲具有卓越的去噪性能。如表5所示,TGA-TFNet在PSNR和SSIM這兩個關(guān)鍵客觀評價指標(biāo)上均優(yōu)于DVDNet[7]、FastDVDNet[11]和ViDeNN[21]方法。
此外,為了直觀展示TGA-TFNet的性能,隨機選取了DAVIS數(shù)據(jù)集中兩個視頻序列,并展示了它們經(jīng)過不同去噪方法處理后的結(jié)果(見圖5)。從定性的角度分析,相較于其他去噪方法,TGA-TFNet在保留細節(jié)信息和防止圖像過度平滑化方面的優(yōu)越性。
為了驗證TGA-TFNet在特定領(lǐng)域如秦腔戲曲視頻數(shù)據(jù)集上的應(yīng)用效果,對其進行了測試,測試視頻被添加了σ=50的高斯噪聲。測試結(jié)果如圖6所示,TGA-TFNet在秦腔視頻的去噪結(jié)果上,不僅視覺上更為舒適,而且在色彩保真度上也有出色表現(xiàn)。即便在復(fù)雜光照條件下,TGA-TFNet去噪后的秦腔視頻依然能夠保持色彩的鮮艷度和亮度的一致性,沒有出現(xiàn)色彩偏移或明顯的亮度變化。
3.5 實驗結(jié)果與分析
本文旨在解決現(xiàn)有視頻去噪算法忽略運動細節(jié)和時序連貫性等時序信息的問題,并提出了一種基于門控注意力的視頻去噪算法(TGA-TFNet)。該方法主要由時序融合模塊(TFM)、雙門控注意力去噪網(wǎng)絡(luò)(TGADNet)和多頭交互注意力精煉模塊(MIAM)組成,本節(jié)對這3個部分的結(jié)構(gòu)和原理進行了詳細的闡述。為了驗證TGA-TFNet方法的有效性,本節(jié)對TGA-TFNet方法在DAVIS數(shù)據(jù)集和秦腔戲曲數(shù)據(jù)集上進行了實驗對比。實驗結(jié)果表明,TGA-TFNet在這些數(shù)據(jù)集上取得了出色的去噪性能。此外,本節(jié)還通過消融實驗驗證了TFM模塊、TGADNet模塊和MIAM模塊對TGA-TFNet方法性能提升的重要作用。
本研究考慮了圖像增強技術(shù)和視頻修復(fù)技術(shù)在處理秦腔視頻時可能產(chǎn)生的效果,這些技術(shù)雖然在提升視頻視覺效果方面具有潛力,但它們與去噪算法的主要區(qū)別在于,它們更側(cè)重于改善視頻的視覺表現(xiàn)或修復(fù)物理損傷,而不是減少噪聲。在處理秦腔視頻時,這些技術(shù)需要與去噪算法協(xié)同工作,以確保在提升視頻質(zhì)量的同時,不破壞秦腔表演的藝術(shù)性和傳統(tǒng)特色。
4 結(jié)語
在深入研究視頻去噪技術(shù)的基礎(chǔ)上,針對秦腔視頻這一特定類型的視頻材料,本文提出了改進和優(yōu)化方法。秦腔作為中國西北地區(qū)廣為流傳的傳統(tǒng)戲曲藝術(shù)形式,其視頻資料的清晰度和流暢度對于傳承和推廣這一非物質(zhì)文化遺產(chǎn)至關(guān)重要。因此,本文提出了一種基于雙門控注意力的時序融合視頻去噪算法(TGA-TFDNet),特別適用于秦腔視頻的去噪處理。該算法利用幀與幀之間的相關(guān)性,避免了重復(fù)計算,在提高了去噪效率的同時,又保留了去噪結(jié)果中的重要細節(jié),這對于秦腔表演中精細的面部表情和復(fù)雜的服飾紋理的保留尤為重要。通過采用TFM來利用時序上的連續(xù)性和冗余信息,以提升去噪性能,同時引入了TGADNet以實現(xiàn)雙重門控機制,不僅能識別和調(diào)節(jié)對空間噪聲特征的關(guān)注,而且能夠通過MIAM利用幀與幀之間的注意力交互來消除去噪過程中產(chǎn)生的偽影,并恢復(fù)因過渡平滑而損失的細節(jié),從而生成高質(zhì)量的去噪視頻幀序列。實驗結(jié)果表明,相較于目前先進的視頻去噪算法,該方法在去噪質(zhì)量和計算效率上具有強大的競爭力。然而,在極端噪聲或低光照條件下,視頻序列中的有效信息會大大減少,使得去噪過程更加困難。因此,未來將改進現(xiàn)有的雙門控注意力機制,以提高算法在極端噪聲條件下的魯棒性。同時,還計劃擴充秦腔視頻數(shù)據(jù)集,并繼續(xù)進行實驗,以更充分驗證該方法在秦腔視頻去噪任務(wù)上的有效性。
參考文獻
[1] 周明全, 耿國華, 武仲科. 文化遺產(chǎn)數(shù)字化保護技術(shù)及應(yīng)用[M].北京:高等教育出版社, 2011.
[2] 耿國華, 何雪磊, 王美麗, 等. 文化遺產(chǎn)活化關(guān)鍵技術(shù)研究進展[J].中國圖象圖形學(xué)報, 2022, 27(6): 1988-2007.
GENG G H, HE X L, WANG M L, et al. Research progress on key technologies of cultural heritage activation[J].Journal of Image and Graphics, 2022, 27(6): 1988-2007.
[3] TICO M. Multi-frame image denoising and stabilization[C]∥2008 16th European Signal Processing Conference. Lausanne: IEEE, 2008: 1-4.
[4] LIU X, ZHU Y, LIU L, et al. Feature-suppressed contrast for self-supervised food pre-training[C]∥Proceedings of the 31st ACM International Conference on Multimedia. Ottawa: ACM, 2023: 4359-4367.
[5] MAGGIONI M, HUANG Y, LI C, et al. Efficient multi-stage video denoising with recurrent spatio-temporal fusion[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual: IEEE, 2021: 3466-3475.
[6] DAVY A, EHRET T, MOREL J M, et al. A non-local CNN for video denoising[C]∥2019 IEEE International Conference on Image Processing (ICIP). Taipei: IEEE, 2019: 2409-2413.
[7] TASSANO M, DELON J, VEIT T. Dvdnet: A fast network for deep video denoising[C]∥2019 IEEE International Conference on Image Processing (ICIP). Taipei: IEEE, 2019: 1805-1809.
[8] XUE T, CHEN B, WU J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125.
[9] WANG C, ZHOU S K, CHENG Z W. First image then video: A two-stage network for spatiotemporal video denoising[EB/OL].(2020-01-22)[2024-06-20].https:∥arxiv.org/abs/2001.00346v2.
[10]MEHTA S, KUMAR A, REDA F, et al. Evrnet: Efficient video restoration on edge devices[C]∥Proceedings of the 29th ACM International Conference on Multimedia. Virtual: ACM, 2021: 983-992.
[11]TASSANO M, DELON J, VEIT T. Fastdvdnet: Towards real-time deep video denoising without flow estimation[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 1354-1363.
[12]VAKSMAN G, ELAD M, MILANFAR P. Patch craft: Video denoising by deep modeling and patch matching[C]∥2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 2157-2166.
[13]MAGGIONI M, HUANG Y, LI C, et al. Efficient multi-stage video denoising with recurrent spatio-temporal fusion[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 3466-3475.
[14]SONG M, ZHANG Y, AYDIN T O. Tempformer: Temporally consistent transformer for video denoising[C]∥European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 481-496.
[15]LI D, SHI X, ZHANG Y, et al. A simple baseline for video restoration with grouped spatial-temporal shift[C]∥2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 9822-9832.
[16]LIANG J, CAO J, FAN Y, et al. Vrt: A video restoration transformer[J]. IEEE Transactions on Image Processing, 2024,33: 2171-2182.
[17]ZAMIR S W, ARORA A, KHAN S, et al. Multi-stage progressive image restoration[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 14821-14831.
[18]COOLEY J W, TUKEY J W. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of Computation, 1965, 19(90): 297-301.
[19]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[20]PONT-TUSET J, PERAZZI F, CAELLES S, et al. The 2017 DAVIS challenge on video object segmentation[EB/OL].(2018-03-01)[2024-06-20].https:∥arxiv.org/abs/1704.00675v3.
[21]CLAUS M, VAN GEMERT J. Videnn: Deep blind video denoising[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE," 2019: 1843-1852.
(編 輯 張 歡)
基金項目:國家自然科學(xué)基金(62271393);文化和旅游部重點實驗室項目(1222000812,cr2021K01);西安市社會發(fā)展科技創(chuàng)新示范項目(2024JH-CXSF-0014)。
第一作者:師秦高雪,女,從事虛擬現(xiàn)實、圖像處理研究,shiqingaoxue@stumail.nwu.edu.cn。
通信作者:耿國華,女,教授,博士生導(dǎo)師,從事智能信息處理、虛擬現(xiàn)實與可視化研究,ghgeng@nwu.edu.cn。