国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于矢量量化生成對(duì)抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法研究

2022-04-19 02:34王雨田
現(xiàn)代電影技術(shù) 2022年4期
關(guān)鍵詞:頻域時(shí)域老電影

王 童 王雨田 王 暉 張 勤

(中國(guó)傳媒大學(xué)媒介音視頻教育部重點(diǎn)實(shí)驗(yàn)室,北京 100024)

1 引言

隨著科技手段的進(jìn)步,電影錄音設(shè)備和錄音工藝在不斷改進(jìn),從最早的無(wú)聲電影到光學(xué)錄音,再到如今廣泛使用的數(shù)字錄音,電影音質(zhì)越來(lái)越清晰,觀眾獲得的聽感也越來(lái)越舒適。雖然運(yùn)用的感光膠片作為聲音存放媒介的時(shí)代已經(jīng)終結(jié),但是這些老電影具有其特殊的歷史價(jià)值,記錄了膠片電影時(shí)代影視工作者珍貴的勞動(dòng)成果和智慧,是值得被好好保護(hù)和留存的。由于受到當(dāng)時(shí)錄音手段和存放條件的限制,這一時(shí)期的老電影音頻出現(xiàn)了嚴(yán)重的背景噪聲。因此如何對(duì)這些受到噪聲 “污染”的老電影音頻進(jìn)行修復(fù),讓這些老電影煥然新生成為了值得關(guān)注的問題。

1930年至1950年間,我國(guó)各大電影制片廠使用的錄音設(shè)備都是光學(xué)錄音機(jī)。其錄音方法是將聲音轉(zhuǎn)變?yōu)楣庑盘?hào),再使用感光膠片作為媒介記錄聲音。受到錄音設(shè)備和錄音原理的限制,使用光學(xué)錄音機(jī)在記錄聲音時(shí)本身就會(huì)產(chǎn)生細(xì)小的片面噪聲,影響語(yǔ)音質(zhì)量。另外,感光膠片對(duì)存放條件的要求也很苛刻,如果存放不當(dāng),使得膠片上出現(xiàn)霉斑、污漬、劃痕、手印等痕跡,就會(huì)對(duì)音頻產(chǎn)生損傷,致使還音時(shí)出現(xiàn)噪聲。

目前對(duì)老電影的音頻修復(fù)主要依賴于人工,使用iZotope和DE-Noise等插件進(jìn)行聲音的數(shù)字化修復(fù)。數(shù)字化修復(fù)需要培養(yǎng)專門的修復(fù)人員,使用特定軟件一幀一幀手動(dòng)降噪,對(duì)修復(fù)人員的專業(yè)素質(zhì)要求很高,而且修復(fù)時(shí)間很長(zhǎng)。一段90分鐘的電影音頻,從還音到修復(fù)平均需要約20天的時(shí)間,這使得老電影音頻的修復(fù)效率難以提高。隨著人工智能的發(fā)展,將深度學(xué)習(xí)的方法引入到膠片數(shù)字化修復(fù)當(dāng)中,為老電影音頻修復(fù)提供了新的思路。該方法通過訓(xùn)練網(wǎng)絡(luò)來(lái)達(dá)到降噪的目的,可以大大減少人力,提高修復(fù)效率。

本文將一個(gè)基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)SEGAN應(yīng)用到了老電影音頻降噪當(dāng)中。該模型是一個(gè)端到端的網(wǎng)絡(luò),在網(wǎng)絡(luò)訓(xùn)練前不需要再對(duì)音頻做變換處理,能夠盡最大可能重構(gòu)音頻的幅度和相位信息,保留老電影音頻特點(diǎn),降低對(duì)人工的依賴,使老電影音頻降噪自動(dòng)化成為可能。但該模型存在以下兩個(gè)問題:(1)判別器性能過于強(qiáng)大,易導(dǎo)致生成器失去生成方向;(2)生成器的損失函數(shù)只包含時(shí)域損失,不適用于寬帶噪聲、脈沖型噪聲和交流電聲等老電影音頻中普遍存在的噪聲。因此本文針對(duì)該模型的問題提出了兩點(diǎn)改進(jìn)舉措:(1)在判別器中加入矢量量化層,用來(lái)減少信息冗余,削弱判別器性能,提高判別器和生成器的性能匹配程度;(2)在生成器的損失函數(shù)中加入頻域損失,使生成器生成的增強(qiáng)音頻不但在時(shí)域上能更接近干凈音頻,在頻域上也可以更加相似。結(jié)果表明,本文所提出的方法能夠進(jìn)一步提高老電影音頻的降噪效果,語(yǔ)音質(zhì)量感知評(píng)估PESQ 和可懂度評(píng)價(jià)STOI分別提高了0.18和0.05。

2 國(guó)內(nèi)外研究現(xiàn)狀

目前,針對(duì)老電影音頻存在的各類噪聲,國(guó)內(nèi)外都沒有一個(gè)很好的以不破壞原本音質(zhì)為前提,盡可能去除雜音的解決辦法。當(dāng)前主流的方法還是采用人工修復(fù),先使用光學(xué)還音機(jī)將感光膠片轉(zhuǎn)換為數(shù)字聲音格式,再使用軟件修復(fù)插件對(duì)噪聲進(jìn)行去除。該方法一方面需要培養(yǎng)專業(yè)的修復(fù)人員,修復(fù)周期長(zhǎng),無(wú)法大批量操作;另一方面,這些軟件的核心算法大多采用傳統(tǒng)的語(yǔ)音增強(qiáng)方法,比如譜減法和維納濾波法等,存在一定的局限性。譜減法假定加性噪聲與語(yǔ)音相互獨(dú)立,即從帶噪語(yǔ)音的功率譜中減去噪聲功率譜來(lái)進(jìn)行語(yǔ)音降噪。但是使用譜減法進(jìn)行降噪時(shí)會(huì)產(chǎn)生明顯的 “音樂噪聲”。維納濾波法則是通過帶噪語(yǔ)音確定濾波器的沖激響應(yīng),將帶噪語(yǔ)音經(jīng)過該濾波器后得到干凈語(yǔ)音。以上這些插件中所使用的方法在降噪時(shí)需要手動(dòng)進(jìn)行參數(shù)設(shè)置,而且針對(duì)不同類型的噪聲還需要使用不同的操作方法,對(duì)于人工的依賴程度很大,費(fèi)時(shí)費(fèi)力,無(wú)法滿足海量修復(fù)的需求。

為了能夠?qū)崿F(xiàn)自動(dòng)且快速的修復(fù),有學(xué)者提出使用非負(fù)矩陣分解的方法來(lái)進(jìn)行老電影音頻的降噪。這種方法將帶噪音頻視為非帶噪語(yǔ)音和噪聲相加后的結(jié)果,將語(yǔ)音增強(qiáng)問題轉(zhuǎn)換為盲源分離問題,即從帶噪音頻中分別提取出干凈語(yǔ)音信號(hào)和噪聲。通過建立老電影音頻噪聲庫(kù),提取噪聲的先驗(yàn)特征,再利用非負(fù)矩陣分解,將噪聲從老電影音頻中提取出來(lái)。這種方法相比于人工修復(fù)能夠節(jié)省部分時(shí)間,減少人工干預(yù),但是由于很難從現(xiàn)有的老電影中獲取大量的純粹噪聲片段,其降噪效果受到了很大的限制。

近十幾年來(lái),深度學(xué)習(xí)發(fā)展迅速,眾多學(xué)者都在語(yǔ)音增強(qiáng)方面進(jìn)行了大量的研究工作,為語(yǔ)音降噪提供了新的思路和方法。將其應(yīng)用在老電影音頻修復(fù)當(dāng)中,或?qū)?shí)現(xiàn)海量電影的自動(dòng)修復(fù)。

基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法大致可以分為兩類:其中一類是基于時(shí)頻掩蔽的方法,另一類則是基于特征映射的方法?;跁r(shí)頻掩蔽的語(yǔ)音增強(qiáng)算法利用神經(jīng)網(wǎng)絡(luò)來(lái)判斷帶噪語(yǔ)音的每一個(gè)時(shí)頻點(diǎn)是由語(yǔ)音主導(dǎo)還是由噪聲主導(dǎo),若是由語(yǔ)音主導(dǎo)則保留,若是由噪聲主導(dǎo)則去除。2012年Wang首次提出了理想二值掩蔽 (Ideal Binary Mask,IBM)和理想浮值掩蔽 (Ideal Ratio Mask,IRM),將語(yǔ)音增強(qiáng)問題轉(zhuǎn)化為時(shí)頻單元的分類問題。基于特征映射的方法則是將帶噪語(yǔ)音的特征直接映射為相應(yīng)的干凈語(yǔ)音特征。這類方法使用大量的帶噪語(yǔ)音及其配對(duì)的干凈語(yǔ)音進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)學(xué)習(xí)到帶噪語(yǔ)音和干凈語(yǔ)音的映射關(guān)系,從而達(dá)到降噪的目的。

本文將一個(gè)基于時(shí)域特征映射的語(yǔ)音增強(qiáng)模型SEGAN 應(yīng)用到了老電影音頻修復(fù)當(dāng)中,并針對(duì)老電影音頻存在的噪聲類型對(duì)模型進(jìn)行了改進(jìn),提高了增強(qiáng)效果。在使用該模型進(jìn)行修復(fù)時(shí),不需要人工設(shè)置參數(shù),增加了其修復(fù)海量音頻的可行性;也不用像論文[9]中使用的非負(fù)矩陣分解的方法一樣,需要提前獲取大量的老電影噪聲片段,為網(wǎng)絡(luò)訓(xùn)練建立專門的老電影音頻數(shù)據(jù)庫(kù),因此更具有普遍性。

3 基于生成對(duì)抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)方法

本章節(jié)詳細(xì)描述了基于矢量量化生成對(duì)抗網(wǎng)絡(luò)的老電影音頻增強(qiáng)方法,主要分為以下兩個(gè)部分進(jìn)行闡述:第一部分簡(jiǎn)述了SEGAN 的網(wǎng)絡(luò)結(jié)構(gòu),并分析了該模型存在的一些問題;第二部分針對(duì)其問題提出了相應(yīng)的改進(jìn)方法。

3.1 SEGAN 生成對(duì)抗網(wǎng)絡(luò)

SEGAN (Speech Enhancement Generative Adversarial Network)是一個(gè)采用生成對(duì)抗網(wǎng)絡(luò)GAN來(lái)進(jìn)行端到端語(yǔ)音增強(qiáng)的經(jīng)典模型。該模型利用生成器G 和判別器D 之間的博弈對(duì)音頻進(jìn)行降噪處理。生成器用來(lái)生成降噪后的音頻,判別器將生成器生成的音頻判別為假,將真實(shí)的干凈音頻判別為真。SEGAN 采用對(duì)抗訓(xùn)練的方式進(jìn)行學(xué)習(xí)。首先,生成器先生成一段音頻交給判別器,判別器評(píng)判該音頻為真的概率,也就是告訴生成器該音頻與干凈音頻的相似程度。接著,生成器根據(jù)反饋調(diào)整自己的網(wǎng)絡(luò)參數(shù),生成新的音頻送入判別器。如此循環(huán)往復(fù),直到生成器生成的樣本可以 “欺騙”過判別器,二者達(dá)到納什平衡。

雖然將SEGAN 模型應(yīng)用在老電影音頻降噪中,能夠在一定程度上解決噪聲污染的問題,但是該模型存在以下兩個(gè)問題。

(1)判別器性能過于強(qiáng)大,與生成器不匹配。如果判別器的性能遠(yuǎn)遠(yuǎn)大于生成器的性能,那么無(wú)論生成器如何改進(jìn),判別器都可以判別出真假,導(dǎo)致生成器難以根據(jù)判別器的反饋有目的的調(diào)整網(wǎng)絡(luò)參數(shù),使音頻生成朝著干凈音頻的方向進(jìn)行改進(jìn)。圖1 (a)展示了SEGAN 的訓(xùn)練情況,其中D_fake表示的是將生成器生成的音頻判別為假的錯(cuò)誤率,D_real表示的是將干凈音頻判別為真的錯(cuò)誤率。從圖1 (a)中可以看出,判別器損失在很早的時(shí)候就降為了0,這說(shuō)明SEGAN 的判別器在早期就可以對(duì)樣本的真假進(jìn)行正確判斷,無(wú)論生成器生成什么樣的語(yǔ)音,都無(wú)法 “欺騙”判別器,以致判別器對(duì)生成器失去了有效的指導(dǎo)作用。

圖1 改進(jìn)前后SEGAN 網(wǎng)絡(luò)判別器的訓(xùn)練情況

(2)SEGAN 網(wǎng)絡(luò)訓(xùn)練所使用的時(shí)域損失函數(shù)不適用于老電影音頻。SEGAN 生成器訓(xùn)練的損失函數(shù)定義如式(1)所示。

相比于其他音頻,老電影音頻存在的噪聲更多的為高斯白噪聲等寬帶噪聲,或是爆破聲、咔嗒聲等脈沖型噪聲以及交流電聲等噪聲。這些噪聲在時(shí)域和頻域上具有不同的特點(diǎn)。

圖2展示了不同噪聲類型的時(shí)域表現(xiàn)和頻域特征,其中,第一行為被各種噪聲污染的音頻時(shí)域波形,第二行分別為其對(duì)應(yīng)的頻譜。第一列為干凈音頻的時(shí)頻域特。通過對(duì)比可以觀察到,第二列所示的寬帶噪聲在時(shí)域上看起來(lái)雜亂無(wú)章,頻域上所占用的頻帶較寬,與有用信息重合度高。脈沖型噪聲在時(shí)域上表現(xiàn)為持續(xù)時(shí)間很短的沖激信號(hào),表現(xiàn)在頻域上就為全頻帶的噪聲,如第三列所示。第四列展示的是交流電噪聲,它所造成的影響在時(shí)域中表現(xiàn)并不明顯,但是通過頻譜可以看出,這種噪聲會(huì)在某些頻率上有規(guī)律地產(chǎn)生新的諧波結(jié)構(gòu),且分布比較分散,中頻和低頻部分易和有用的語(yǔ)音信號(hào)產(chǎn)生重疊。但當(dāng)和寬帶噪聲同時(shí)存在時(shí),兩種噪聲的頻譜范圍有所重疊,可能不易察覺出交流電噪聲的存在。

圖2 不同噪聲類型的時(shí)域波形和頻譜

通過上面的分析可知,在老電影音頻中常出現(xiàn)的這幾種噪聲當(dāng)中,有的在時(shí)域上就可以很好地辨別,比如寬帶噪聲;有一部分在時(shí)域上持續(xù)時(shí)間短,而在頻域上占有較寬的頻帶,比如脈沖型噪聲;還有像交流電噪聲這類在時(shí)域中不易察覺但可通過頻域區(qū)分的噪聲。因此生成器使用如式(1)所示的損失函數(shù),僅在時(shí)域上判別生成器生成音頻的好壞并不全面,可能導(dǎo)致網(wǎng)絡(luò)無(wú)法捕捉到某類噪聲獨(dú)特的特征,學(xué)習(xí)到有用信息。

以上兩個(gè)問題均限制了使用SEGAN 網(wǎng)絡(luò)進(jìn)行老電影音頻降噪的效果,針對(duì)這些問題進(jìn)行了如下改進(jìn):(1)在判別器中加入矢量量化(Vector Quantization)層,縮減判別器中的信息,以此來(lái)削弱判別器的性能,從而解決SEGAN 網(wǎng)絡(luò)生成器和判別器性能不匹配的問題;(2)在生成器的損失函數(shù)中增加頻域損失,在時(shí)域和頻域兩個(gè)方面同時(shí)約束網(wǎng)絡(luò)訓(xùn)練,增加網(wǎng)絡(luò)捕捉特征的能力,進(jìn)一步提高音頻修復(fù)的效果。

3.2 基于矢量量化的生成對(duì)抗網(wǎng)絡(luò)算法

3.2.1 在判別器中加入矢量量化層

矢量量化 (VQ)的思想來(lái)源于VQ-VAE,其最大特點(diǎn)是將編碼后的向量離散化。將VQ 加入到判別器中,對(duì)編碼器的輸出進(jìn)行量化,限制網(wǎng)絡(luò)所使用的特征數(shù)量,忽略特別細(xì)節(jié)的東西,從而控制網(wǎng)絡(luò)性能。

改進(jìn)后的判別器結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)的輸入為帶噪音頻和干凈音頻的拼接向量。網(wǎng)絡(luò)首先經(jīng)過四層卷積層,每層卷積后都使用非線性單元PRe LU來(lái)增加模型的非線性程度。接著對(duì)卷積后得到的深層特征使用矢量量化。網(wǎng)絡(luò)中先隨機(jī)生成一組含有k個(gè)向量的碼本e,e……e,對(duì)應(yīng)圖中綠色的部分。接著,將語(yǔ)音通過編碼器后得到的隱變量Z與碼本中的每一個(gè)向量e進(jìn)行比較,找到最接近的e,并用其替換相應(yīng)的Z,得到矢量量化后的隱變量Z。最后,將Z輸入到后續(xù)的全連接層中便可得到判別結(jié)果。

圖3 改進(jìn)后的SEGAN 判別器網(wǎng)絡(luò)結(jié)構(gòu)

在生成器中加入矢量量化的好處是可以把編碼器輸出的相似特征向量統(tǒng)一為一種表示形式,減少信息的冗余,使網(wǎng)絡(luò)更加關(guān)注于整體的重要信息,而忽略一些特別細(xì)節(jié)的特征。在SEGAN 的判別器中加入VQ 后的訓(xùn)練情況如圖1 (b)所示??梢钥闯觯c未加入VQ 的網(wǎng)絡(luò)相比,判別器的損失下降趨緩,一直到訓(xùn)練后期仍可對(duì)生成器起到指導(dǎo)作用,說(shuō)明在判別器中加入矢量量化可以有效地改善SEGAN 網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的缺點(diǎn)。

3.2.2 在生成器的損失函數(shù)中加入頻域損失

本文使用encoder-decoder結(jié)構(gòu)作為生成器的模型結(jié)構(gòu),如圖4所示。網(wǎng)絡(luò)輸入為帶噪音頻的時(shí)域波形,編碼器是由若干卷積層和PReLU 激活函數(shù)連接而成的,隨著卷積塊的堆疊,網(wǎng)絡(luò)提取的特征逐漸加深。解碼是編碼的逆過程,使用與編碼器相對(duì)稱的結(jié)構(gòu),通過反卷積和上采樣操作重構(gòu)出干凈音頻。該生成器在編碼器和解碼器之間還加入了跳過連接,使編碼器各層輸出的多尺度特征影響解碼。

圖4 生成器網(wǎng)絡(luò)結(jié)構(gòu)

原始SEGAN 生成器的損失函數(shù)如式 (1)所示,僅在時(shí)域上評(píng)判生成音頻與干凈音頻的相似程度,而沒有考慮頻域特征。由3.1節(jié)分析可知,老電影音頻中存在的某一些噪聲在時(shí)域上不好捕捉,在頻域上卻具有很明顯的特性,如脈沖型噪聲和交流電噪聲等。因此本文在原有損失函數(shù)的基礎(chǔ)上增加了頻域上的約束,如式(2)所示。

4 實(shí)驗(yàn)與結(jié)果

本實(shí)驗(yàn)使用的訓(xùn)練數(shù)據(jù)是由Valentini等人發(fā)表的voice bank語(yǔ)料庫(kù)提供的。該語(yǔ)料庫(kù)的訓(xùn)練集中包含28個(gè)說(shuō)話人和10種不同的噪聲,例如辦公室環(huán)境噪聲、談話聲和鳴笛聲等。噪聲分別以信噪比為15dB、10dB、5dB和0d B與干凈語(yǔ)音信號(hào)進(jìn)行混合,共計(jì)產(chǎn)生40種不同的噪聲條件。所有音頻的采樣率均為16k HZ。

網(wǎng)絡(luò)訓(xùn)練時(shí),先將音頻以50%的重疊進(jìn)行分幀。不夠長(zhǎng)度的音頻幀用0進(jìn)行填充,以匹配批處理中最大的音頻長(zhǎng)度。本文使用0.00005的學(xué)習(xí)率和RMSProp優(yōu)化器用于基于隨機(jī)梯度下降 (Stochastic Gradient Descent,SGD)的優(yōu)化。

本文使用一段從老電影中截取的九分鐘的音頻片段進(jìn)行測(cè)試。該片段是從電影資料館獲得的,并且具有人工手動(dòng)修復(fù)的結(jié)果。在客觀評(píng)價(jià)時(shí),使用手動(dòng)修復(fù)的結(jié)果作為參考音頻。增強(qiáng)音頻的客觀評(píng)價(jià)結(jié)果如表1 所示。PESQ 是語(yǔ)音質(zhì)量感知評(píng)價(jià),取值范圍為[—1.5,4.5],得分越高表明語(yǔ)音失真越小。短時(shí)客觀可懂度STOI分值越高表明語(yǔ)音越容易被理解,取值范圍為 [0,1]。CSIG、CBAK、COVL分別表示語(yǔ)音失真程度、背景噪聲影響和總體質(zhì)量,取值范圍均為[0,5],分?jǐn)?shù)越高代表降噪效果越好。表中的SEGAN 為本文的基線模型SEGAN。rSEGAN 和SEGAN-attn 分別表示使用相對(duì)loss的SEGAN 和加入自注意力機(jī)制的增強(qiáng)模型。VQ-SEGAN 和VQ-SEGAN-tfloss為本文提出的改進(jìn)后的模型。從表中可以看出,本文改進(jìn)后的模型VQ-SEGAN 在各項(xiàng)評(píng)價(jià)指標(biāo)中均有提升,CSIG、STOI等四項(xiàng)指標(biāo)可以達(dá)到最優(yōu)。同樣,在使用時(shí)頻損失之后,音頻的增強(qiáng)效果也有所提高,其中PESQ 可以取得所有對(duì)比模型中的最大值,比基線模型提高了0.19。

表1 客觀評(píng)價(jià)指標(biāo)結(jié)果

圖5 (a)展示的是電影從1分58秒至2分10秒的一段聲音。第一行代表的分別是老電影原聲、使用降噪插件手動(dòng)修復(fù)、使用原始SEGAN 降噪,以及使用本文改進(jìn)后的算法進(jìn)行去噪的音頻時(shí)域波形,第二行分別為對(duì)應(yīng)的頻譜。從第一列所示的電影原聲的時(shí)域波形和頻譜中可以看出,該段音頻中存在著寬帶噪聲以及少量脈沖型噪聲。使用原始的SEGAN 網(wǎng)絡(luò)進(jìn)行修復(fù),對(duì)于寬帶噪聲的去除有一定的效果,但是由于網(wǎng)絡(luò)性能的不匹配,生成器失去優(yōu)化方向,導(dǎo)致在增強(qiáng)后的音頻中產(chǎn)生了額外的噪聲。而本文提出的方法可以更有效地去除寬帶噪聲和部分脈沖型噪聲,對(duì)于寬帶噪聲的去除甚至比人工手動(dòng)修復(fù)的更為干凈。圖5 (b)截取的是5分15秒至5分20秒這五秒的音頻片段。原始的SEGAN 對(duì)寬帶噪聲具有一定的去除能力,但依然保留了微弱的交流電噪聲。在生成器使用了時(shí)頻域損失函數(shù)之后,能夠在去除寬帶噪聲的基礎(chǔ)上,進(jìn)一步降低交流電噪聲對(duì)音頻的影響。

圖5 不同修復(fù)方法的修復(fù)結(jié)果

本文還對(duì)修復(fù)的結(jié)果進(jìn)行了主觀測(cè)試,在9分鐘的老電影音頻中隨機(jī)截取了三段長(zhǎng)度為10到20秒的音頻,作為試聽樣本。本實(shí)驗(yàn)共有15名被試者參加測(cè)試,采用平均意見得分MOS (Mean Opinion Score)的5 級(jí)評(píng)價(jià)方法進(jìn)行測(cè)試,標(biāo)準(zhǔn)如表2 所示,得分越高說(shuō)明音頻的聽感越好。在所有被試者都打完分?jǐn)?shù)之后,計(jì)算其平均值作為最終的主觀評(píng)價(jià)結(jié)果。表3列出了人工修復(fù)以及不同模型的主觀評(píng)價(jià)分?jǐn)?shù)。

表2 主觀評(píng)價(jià)打分標(biāo)準(zhǔn)

表3 主觀評(píng)價(jià)結(jié)果

從表3中可以看出,人工修復(fù)的音頻獲得了最高的主觀評(píng)價(jià)分?jǐn)?shù),這說(shuō)明對(duì)于該段老電影音頻來(lái)說(shuō),手動(dòng)修復(fù)的老電影音頻具有最好的聽覺效果,其失真程度更小,語(yǔ)音質(zhì)量更高,聽起來(lái)更加自然流暢。使用深度學(xué)習(xí)模型自動(dòng)修復(fù)的效果均不如人工的好。尤其是本文的基線模型SEGAN,僅得到了1.89的分?jǐn)?shù),說(shuō)明修復(fù)后的音頻失真嚴(yán)重,語(yǔ)音質(zhì)量很差。但是使用本文改進(jìn)后的模型進(jìn)行修復(fù)后,MOS得分提高到了3.84,與人工修復(fù)的結(jié)果僅相差了0.6。這說(shuō)明本文提出的模型在老電影修復(fù)任務(wù)上比原始SEGAN 模型更加具有優(yōu)勢(shì),噪聲去除得更為干凈,降噪后語(yǔ)音失真程度更小。

總的來(lái)說(shuō),本文提出的基于矢量量化對(duì)抗生成網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法具有以下幾個(gè)優(yōu)點(diǎn):(1)在修復(fù)時(shí)不依賴于人工,且不需要提前獲取大量的老電影噪聲片段,提高了使用機(jī)器代替人工進(jìn)行老電影音頻增強(qiáng)的可行性;(2)改善了SEGAN 網(wǎng)絡(luò)中存在的判別器和生成器性能不匹配這一問題,提高判別器對(duì)生成器的指導(dǎo)作用;(3)在時(shí)域和頻域兩個(gè)方面對(duì)網(wǎng)絡(luò)優(yōu)化方向進(jìn)行約束,提高網(wǎng)絡(luò)學(xué)習(xí)能力,進(jìn)一步提高老電影音頻修復(fù)質(zhì)量。

5 結(jié)論

本文提出了一種基于矢量量化對(duì)抗生成網(wǎng)絡(luò)的老電影音頻增強(qiáng)算法,在不需要建立大量老電影修復(fù)數(shù)據(jù)的前提下,使用機(jī)器學(xué)習(xí)的方法代替人工修復(fù),大大降低了老電影音頻修復(fù)的人力支出,提高了修復(fù)效率。同時(shí),本文提出的方法在訓(xùn)練時(shí)能夠更有效地學(xué)習(xí)帶噪音頻到干凈音頻的映射關(guān)系,提高去除老電影音頻中普遍存在的寬帶噪聲、脈沖型噪聲和交流電噪聲的能力。但是從實(shí)際聽感出發(fā),使用本文所提出的模型修復(fù)后的老電影音頻,要比人工修復(fù)后的在某些地方具有更大的語(yǔ)音失真,語(yǔ)音質(zhì)量還存在一定的差距。在今后的研究中,筆者將考慮如何有針對(duì)性地去除背景噪聲,以最佳方案保留配樂和腳步聲等配音效果。

猜你喜歡
頻域時(shí)域老電影
晚霞淺淡少年糖
女報(bào)(2020年7期)2020-08-17
到哪里去看老電影?
一種海上浮式風(fēng)電基礎(chǔ)頻域動(dòng)力響應(yīng)分析新技術(shù)
智慧農(nóng)業(yè)物聯(lián)網(wǎng)節(jié)點(diǎn)故障處理分析
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)在電子信息工程中的運(yùn)用
基于MATLAB 的信號(hào)時(shí)域采樣及頻率混疊現(xiàn)象分析
兩種常用漂浮式風(fēng)力機(jī)平臺(tái)動(dòng)態(tài)特性分析
不同入射角風(fēng)波流海上漂浮式風(fēng)力機(jī)頻域與時(shí)域動(dòng)態(tài)特性