国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于殘差注意力U-Net 結構的端到端歌聲分離模型

2021-10-26 08:23:54斌,
關鍵詞:解碼殘差音頻

汪 斌, 陳 寧

(華東理工大學信息科學與工程學院,上海 200237)

大多數(shù)音樂錄制文件,例如來自YouTube、Spotify、網(wǎng)易云音樂的文件,以多個音源共享一個音軌的混合形式發(fā)布。將混合音頻分離成單個音源的過程稱為音樂源分離(Music Source Separation, MSS)。歌聲分離(Singing Source Separation, SVS)是音樂源分離的一種特例,分離過程中將所有的樂器都視為一個音源,目標是將混合音頻分離為歌唱人聲和背景音樂伴奏兩種音源[1]。近年來,由于在音樂旋律提取[2]、音樂流派分類[3]、歌聲檢測[4]、歌手識別[5]等方面的潛在應用,SVS 已成為音樂信息檢索(Music Information Retrieval, MIR)領域的研究熱點。

基于非負矩陣分解(Non-negative Matrix Factorization,NMF)[6]的方法以及基于F0 估計的方法[7]是用于歌聲分離任務的傳統(tǒng)監(jiān)督方法。隨著深度學習技術在音樂信息檢索領域的迅猛發(fā)展[8],基于深度神經(jīng)網(wǎng)絡的歌聲分離技術受到了學術界的關注。文獻[9]第一次將卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)結構引入SVS 任務,但是所提出模型的層數(shù)較深,訓練比較困難,同時由于用于SVS 任務的公開數(shù)據(jù)集較小,因此模型的泛化能力很難得到保證。為了解決上述問題,一種最初用于醫(yī)學圖像語義分割任務的編-解碼器結構U-Net[10]在文獻[11]中被首次應用于SVS 任務。該方法利用U-Net 結構分析混合音頻的語譜圖,然后通過預測對應于單個音源的時頻掩碼來達到分離音源的目的。U-Net 結構在SVS任務中的優(yōu)勢是:一方面,其編-解碼結構使得其在有限的訓練樣本下進行有效的訓練成為可能;另一方面,編碼塊和解碼塊中包含的多個連通卷積層有助于從語譜圖中提取語義特征。

然而,基于U-Net 語譜圖掩碼分析的SVS 模型僅僅采用語譜圖的幅度譜作為模型輸入,將分離出的單個音源的幅度譜與混合音頻的相位譜相結合后使用逆短時傅里葉變換來恢復單個音源音頻。越來越多的研究結果表明,相位信息的缺失對源分離的性能有很大影響,因此文獻[12]提出了一種Wave-UNet 的端到端SVS 模型。與U-Net 使用語譜圖的幅度譜作為模型輸入不同,Wave-U-Net 模型直接采用混合音樂的原始波形作為輸入。最近,越來越多的基于Wave-U-Net 的SVS 模型被相關研究者提出。文獻[13]提出應用最小超球能(Minimum Hyperspherical Energy, MHE)正則化來進一步提高Wave-U-Net 的分離性能。文獻[14] 提出在Wave-U-Net 結構中整合遞歸層來探索音頻信號中更長的時間相關性。從模型設計角度,本文認為基于Wave-U-Net 的SVS 模型的性能可以從以下幾個方面進一步提升:

(1)傳統(tǒng)的Wave-U-Net 結構中,編碼塊和解碼塊都是由具有校正線性單元(Rectified Linear Units,ReLUs)激活函數(shù)的單個卷積層組成,當前層只與前一層相關并且只影響下一層。眾所周知,深度學習模型可以通過隱藏層的不斷加深來抽象組合更高層次的語義特征,但是這種結構下層數(shù)的增加很容易使模型陷入梯度消失問題[15]。

(2)傳統(tǒng)的Wave-U-Net 結構通過跳躍連接將編碼塊中對應卷積層的輸出與解碼塊中當前層的前一層輸出直接拼接。然而,由于前者包含通過淺層的卷積層獲得的低級特征,后者包含通過深層的卷積層獲得的高級特征,因此兩者的直接拼接很容易造成語義鴻溝問題[16]。

針對第1 個問題,文獻[17]首次在SVS 任務中引入Muti-Res 模塊[16]。該模塊是Resnet[15]中殘差單元的擴展,由3 個濾波器尺寸逐漸增大的連續(xù)卷積層和一個殘差連接組成。但是不同類型的殘差單元是否會對基于Wave-U-Net 的SVS 模型的性能產(chǎn)生不同的影響目前仍不得而知。為此本文研究了3 種不同的殘差單元對模型性能的影響,并最終選擇一種最合適的殘差單元用于SVS 任務中。

針對第2 個問題,本文提出在Wave-U-Net 跳躍連接部分設計并引入注意力門控機制。

在MUSDB18 數(shù)據(jù)集上的實驗結果表明,本文提出的RA-WaveUNet 模型在分離性能上優(yōu)于傳統(tǒng)的Wave-U-Net 模型;采用殘差單元和注意力門控機制有助于提高模型的性能。

1 算法模型

RA-WaveUNet 模型框圖如圖1 所示。與Wave-U-Net 相比,其不同之處在于:首先,編碼和解碼塊中的普通神經(jīng)單元被替換為專門設計的殘差單元(記為R);其次,在跳躍連接中添加注意力門控結構(記為A)。模型的具體結構細節(jié)如表1 所示,其中EResidual 單元和D-Residual 單元分別表示編碼和解碼塊中的殘差單元。

圖1 RA-WaveUNet 模型框圖Fig. 1 Block diagram of RA-WaveUNet model

表1 RA-WaveUNet 模型結構細節(jié)Table 1 Architecture details of RA-WaveUNet model

1.1 傳統(tǒng)的Wave-U-Net 結構

傳統(tǒng)的Wave-U-Net 結構中,輸入的混合音頻首先經(jīng)過12 層連續(xù)下采樣一維卷積層,每層的時間分辨率減少為前一層的一半,然后最終編碼的低分辨率特征表示再經(jīng)過12 層連續(xù)上采樣一維卷積層輸入尺寸相同的輸出。同時,為了保持時間的連續(xù)性并避免產(chǎn)生高頻噪聲,在每個上采樣層中進行線性插值。

1.2 殘差單元

基于時域分析的源分離方法的性能很大程度上取決于特征提取的性能。為了在不引發(fā)梯度消失的前提下通過加深網(wǎng)絡提取更高層次語義特征,本文在Wave-U-Net 模型的編碼和解碼塊中都引入了殘差單元,即在整個網(wǎng)絡中除主干路之外的每一對具有相同尺寸特征圖的相鄰卷積層之間搭建了支路。對比跳躍連接中的拼接層,編碼和解碼模塊中采用融合層,將上一層卷積與下一層卷積得到的特征圖進行特征維度的融合,融合完成后再回到主干路。引入殘差單元后網(wǎng)絡的整體結構變得更密集,增強了層與層之間特征信息傳遞,最大程度提高了網(wǎng)絡層中特征信息的利用率。

圖2 示出了普通神經(jīng)單位與3 種不同殘差單元的對比結果。傳統(tǒng)的Wave-U-Net 結構中采用的普通神經(jīng)單元如圖2(a)中的紅框所示。第i層普通神經(jīng)單元的輸入xi和輸出x(i+1)之間的關系如下:

圖2 普通神經(jīng)單位與3 種不同殘差單元的對比Fig. 2 Comparison between the plain neural unit and three different kinds of residual units

其中:f(xi;φi) 表示普通神經(jīng)單元之間的映射關系;φi為可訓練的參數(shù)。

文獻[15] 中提出的常規(guī)殘差單元包含卷積層、ReLU 激活層、批歸一化(BN)層和映射連接。映射連接可以分為恒等映射連接和卷積映射連接,前者卷積層為輸入和輸出設置相同的特征維度用實線表示,后者設置卷積濾波器的尺寸為1 以調節(jié)輸出的尺寸,在圖2 中用虛線表示[15]。如圖2(b) 和圖2(c)中紅框所示,Residual unit 1 和Residual unit 2 分別表示選擇維度匹配和維度不匹配的映射連接的情況。模型設計過程中為了方便對比,引入了Residual unit 1 和Residual unit 2 的Wave-U-Net 的 模 型 效 果,如圖2(b) 和圖2(c) 中藍框所示,兩者處理輸入數(shù)據(jù)的R0 部分相同。Residual unit 1 和Residual unit 2的輸入xi和輸出x(i+1)之間的關系分別如式(2)和式(3)所示:

其中:f(xi;φi) 表示殘差單元之間的映射關系; φi為可訓練的參數(shù)。相加是對應通道間兩個特征圖逐個元素相加,因此如果xi和xi+1維度不同,需要給xi進行一個線性映射 ω 來匹配維度。

卷積神經(jīng)網(wǎng)絡通過逐層抽象的方式提取目標特征,在這過程中如果感受野設置太小,只能觀察到局部的特征,設置太大,則會獲取過多的無效信息。Residual unit 2 中采用卷積核尺寸為1 的卷積映射連接,它只能解決尺寸匹配問題。在不違反Resnet 核心思想的前提下,為了進一步探索更好的特征提取能力,本文提出了圖2(d)所示的Residual unit 3,并應用 在RA-WaveUNet 模型中。Residual unit 3 的架構類似于Residual unit 2,兩者的區(qū)別在于卷積映射連接中采用的卷積核尺寸不同。RA-WaveUNet 的編碼和解碼塊中的Residual unit 3 分別采用濾波器大小為15 和5 的卷積捷徑連接,與殘差學習部分中卷積層采用的濾波器大小保持一致。

為了使殘差單元更適合SVS 任務,本文提出的3 種殘差單元均去除了Resnet 的常規(guī)殘差單元中的BN 層。去除原因是:一方面,在端到端的SVS 模型中,為了加速訓練,音頻輸入和小批量 (Mini-batch)數(shù)據(jù)的大小通常被設置得很小,例如傳統(tǒng)的Wave-UNet 中分別設置為0.74 s 和16。樂音隨時間變化非???,因此每個音頻片段之間的內(nèi)部關聯(lián)性不穩(wěn)定,這樣不同批次之間的均值和方差差異很大。另一方面,訓練與預測階段BN 層的計算并不完全相同,訓練階段BN 層會計算每個小批量的均值和方差,而在測試階段采用的則是移動平均估計下的全局均值和方差,這種不一致會造成密集樣本值預測的精度損失。

1.3 注意力門控機制

傳統(tǒng)的Wave-U-Net 結構為了獲取編碼塊中提取的細節(jié)信息,將編碼塊的輸出直接與用于音源合成的解碼塊相應層的前一層輸出相拼接,然而,這種直接拼接并沒有考慮兩者之間的語義鴻溝。與文獻[16] 提出的在跳躍連接部分添加幾個CNN 層和非線性變換不同,本文引入注意力門控機制來縮小從編碼塊中提取的低級特征和解碼塊中高級語義特征之間的語義差距。

注意力機制是一種區(qū)域權重學習問題,已經(jīng)在圖像語義分割領域取得了很好的效果[18]。可訓練的注意力模型可以分為硬注意力模型和軟注意力模型。在硬注意力模型中,每個區(qū)域的注意力權重被設為0 或1,模型的訓練通常依賴于參數(shù)更新的強化學習,導致模型訓練的難度很大。在軟注意力模型中,每個區(qū)域的注意力權重可以是0 到1 之間的任何值,在訓練階段通常采用標準的反向傳播,并且可以在無需蒙特卡洛采樣 (Monte Carlo Sampling)的情況下訓練模型。此外為了消除訓練過程中模型對外部門控信息的依賴,文獻[19]提出了一種基于特征圖和分配權重的自我學習的注意力機制。本文提出的注意力門控機制屬于自我學習的軟注意力門控機制。

2 實驗結果

2.1 數(shù)據(jù)集和評估標準

圖3 注意力門控結構Fig. 3 Architecture of attention gate

實驗采用公開數(shù)據(jù)集MUSDB18[20]作為實驗對象。該數(shù)據(jù)集包含150 首不同類型的音樂曲目,總時長590 min,分別由訓練集(100 首音頻)和測試集(50 首音頻)組成。每個樣本由4 種音源組成:人聲、貝斯、鼓聲和其他。所有音頻均為立體聲信號,并以44.1 kHz 編碼。為了對本文提出的模型和基線模型[12]進行性能對比,實驗中將MUSDB18 數(shù)據(jù)集分為3 個子集:訓練集(75 首音頻)、驗證集(25 首音頻)和測試集(50 首音頻)。此外,實驗還采用了CCMixter數(shù)據(jù)集[21]擴充訓練集,該數(shù)據(jù)集包含50 首不同類型的全長音樂曲目,總時長192.5 min。每個樣本由2 種音源組成:人聲和背景音樂聲。所有音頻都被下采樣到22050 Hz,并保留立體聲。

音源分離評價指標(BSSEval)[22]中的SDR (Source to Distortion Ratio)是源分離性能評估的常用指標。實驗中計算比較了整個數(shù)據(jù)集中每首歌單個源的SDR 中位值(Med.)、均值(Mean)、中值絕對差(MAD)和標準差(SD)。對于中位值和均值,數(shù)值越大則表示源分離性能越好。

2.2 實驗結果與分析

在訓練階段,每首歌2~3 min 的音頻被隨機分為包含16384 個樣本點的音頻片段用作模型的輸入,實驗使用隨機值初始化模型參數(shù),然后基于Adam 優(yōu)化算法[23]通過反向傳播進行訓練。批數(shù)據(jù)大小設置為16,學習率從0.0001 開始,如果20 次迭代后的驗證準確性沒有改善,則降低至0.00001,這種提前終止訓練的方式將有效防止過擬合問題。訓練過程通過最小化估計源的波形和相應的樣本源之間的均方誤差 (Mean Square Error, MSE)實現(xiàn)。

2.2.1 結合不同殘差單元的Wave-U-Net 性能對比為了研究不同殘差單元對基于Wave-U-Net 的SVS模型的適用性,并驗證Residual unit 3 在SVS 任務中的優(yōu)勢,表2 示出了傳統(tǒng)Wave-U-Net[12](M4)、Wave-U-Net 結 合Residual unit 1 (M4-R1)、Wave-U-Net 結合Residual unit 2 (M4-R2)、Wave-U-Net 結合Residual unit 3 (M4-R3)的性能。結果顯示,對于人聲估計,M4-R3 模型獲得了最高的中位值(5.04 dB)和最高的均值(1.43 dB)。

表2 引入不同類型殘差單元后Wave-U-Net 的性能對比Table 2 Performance comparison of Wave-U-Net with different types of residual units

2.2.2 BN 層對源分離性能的影響 為了驗證去除常規(guī)殘留單元中BN 層對于SVS 任務的必要性,實驗對比了在Wave-U-Net 中有和沒有BN 層的殘差單元的性能,結果如表3 所示。實驗結果表明去除常規(guī)殘差單元中的BN 層明顯有助于提高源分離性能。

表3 BN 層對源分離性能的影響Table 3 Influence of BN layer on the separation performance

2.2.3 M4-R3 的 模 型 復 雜 度 和 性 能 的 權 衡 M4-R3 在編碼和解碼塊中均包含12 層,可實現(xiàn)最佳性能,但是之前的實驗發(fā)現(xiàn)M4-R3 模型的訓練參數(shù)規(guī)模大,訓練耗時長,因此實驗測試并比較了包含8、10、12 層的M4-R3 模型的分離性能,分別表示為M4-R3-8、M4-R3-10、M4-R3-12,希望在M4-R3 的模型復雜度和性能之間進行權衡。圖4 示出了不同層數(shù)的M4-R3 模型的訓練參數(shù)數(shù)量對比結果。由圖4可以看出,M4-R3-12 模型的訓練參數(shù)數(shù)量分別約是M4-R3-10 模型和M4-R3-8 模型的兩倍和三倍。圖5示出了不同層數(shù)M4-R3 模型的性能對比結果??梢钥闯?,對于M4-R3 模型,更多的層數(shù)對應于更好的性能;3 種M4-R3 模型均優(yōu)于M4,證明了在傳統(tǒng)的Wave-U-Net 的編碼和解碼塊中引入Residual unit 3 有助于提高源分離性能;M4-R3-8 模型在均值方面其人聲分離性能遠低于M4-R3-12 模型。然而,M4-R3-10 模型的性能與M4-R3-12 模型相當,但是訓練參數(shù)數(shù)量要少得多。因此,本文認為M4-R3-10 模型可以在模型復雜度和性能之間達到較好的平衡。

圖4 不同層數(shù)M4-R3 模型的訓練參數(shù)數(shù)量對比Fig. 4 Parameter numbers comparison of M4-R3 models with different numbers of layers

圖5 不同層數(shù)M4-R3 模型的性能對比Fig. 5 Performances achieved by M4-R3 models with different numbers of layers

2.2.4 引入注意力門控機制的必要性 為了驗證注意力門控機制的引入對性能增強的貢獻,比較了M4、結合注意力門控機制的M4(表示為M4-A)、M4-R3-10、結合了Residual unit 3 和注意力門控機制的RA-WaveUNet 4 種模型的性能,結果見表4,其中對應于同一列中的最佳性能值以黑體顯示。

表4 注意力門控機制對性能的影響Table 4 Contribution of the attention gate to the performance

實驗結果表明:RA-WaveUNet 性能優(yōu)于M4-R3-10,驗證了注意力門控機制的引入進一步提高了分離性能;RA-WaveUNet 的性能優(yōu)于M4-A 和M4-R3-10,驗證了以上兩種改進之間存在互補性;M4-A 和M4-R3-10 的性能均優(yōu)于M4,驗證了以上兩種改進均有助于增強Wave-U-Net 的分離性能。

2.2.5 SVS 算法 性能對比 在MUSDB18 數(shù) 據(jù)集的測試集上將RA-WaveUNet 模型與其他4 種最新的端到端SVS 模型[12-14,17]進行對比,結果如表5 所示??梢钥闯?,RA-WaveUNet 模型在人聲估計方面的分離性能略差于HydraNet+H7 模型,但是在背景音樂估計方面明顯優(yōu)于該模型,并且所有分離性能指標均優(yōu)于Wave-U-Net 模型、MHE0 模型以及U310 模型。實驗結果表明RA-WaveUNet 模型取得了與最新的端到端SVS 模型相當或更好的分離性能。

表5 與最新SVS 模型的性能對比Table 5 Performance comparison with state-of-the-arts SVS models

3 結 論

本文對傳統(tǒng)的基于Wave-U-Net 的SVS 模型進行了改進以提高其源分離的準確性。在特征提取和合成階段,在Wave-U-Net 的編碼和解碼模塊中設計并引入了殘差單元來解決梯度消失問題。這樣可以構建更深的體系結構以提取更深層語義特征;在Wave-U-Net 的跳躍連接中設計并引入了注意力門控機制,利用從解碼塊提取的特征來調整從編碼塊轉換的特征的權重,以減少它們之間存在的語義鴻溝。在MUSDB18 數(shù)據(jù)集上的實驗結果表明,RAWaveUNet 模型優(yōu)于傳統(tǒng)的Wave-U-Net 模型和大部分最新的端到端SVS 模型,同時,以上改進均對模型性能的提高有幫助。未來我們將引入GAN 進行數(shù)據(jù)增強去解決SVS 領域由于訓練樣本少所引發(fā)的泛化能力差的問題。

猜你喜歡
解碼殘差音頻
《解碼萬噸站》
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學習的自適應無人機目標跟蹤算法
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
自動化學報(2019年6期)2019-07-23 01:18:32
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
洛扎县| 龙江县| 蓬莱市| 祥云县| 老河口市| 望谟县| 清涧县| 寿宁县| 尼勒克县| 右玉县| 额敏县| 东平县| 墨竹工卡县| 宜川县| 凤阳县| 双流县| 象州县| 三台县| 洞口县| 碌曲县| 柳江县| 儋州市| 会昌县| 天镇县| 武功县| 中山市| 丽水市| 高邑县| 句容市| 留坝县| 南宫市| 玉林市| 元江| 宁德市| 丰都县| 汽车| 萝北县| 正镶白旗| 博野县| 盖州市| 新余市|