国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合SE與BiSRU的Unet的音樂源分離方法

2022-01-27 07:39:14張瑞峰白金桐關(guān)欣李鏘
關(guān)鍵詞:音源時(shí)域音頻

張瑞峰 白金桐 關(guān)欣 李鏘

(天津大學(xué) 微電子學(xué)院,天津 300072)

音樂源分離是音頻信號(hào)處理中的核心研究領(lǐng)域之一,它的主要目標(biāo)是在提取一個(gè)或多個(gè)目標(biāo)源的同時(shí)抑制其他音源和噪聲。比如在音樂源分離的SiSec Mus評(píng)估活動(dòng)[1]中,就將原始混合音樂音頻分離為鼓、低音音軌、人聲和其他音軌。音樂源分離是特殊的源分離問題,由于音樂自身結(jié)構(gòu)的復(fù)雜性而更具挑戰(zhàn),但在實(shí)際應(yīng)用中又十分重要。利用分離后的音頻可以更好地完成音樂信息檢索(MIR)的許多任務(wù),例如音樂-歌詞對(duì)齊、歌詞轉(zhuǎn)錄、音樂轉(zhuǎn)錄(和弦轉(zhuǎn)錄、鼓轉(zhuǎn)錄、節(jié)拍跟蹤)、人聲旋律提取以及歌手識(shí)別、情感流派多標(biāo)簽分類等問題。

音樂源分離的方法大致可分為兩大類:基于聲源假設(shè)的方法和數(shù)據(jù)驅(qū)動(dòng)方法[2]。基于聲源假設(shè)的方法是假設(shè)主音或其他伴奏各聲源具有各自的特性,然后根據(jù)這些假設(shè)設(shè)計(jì)算法進(jìn)行分離。比如在人聲與伴奏分離問題中,用諧波結(jié)構(gòu)為人聲建模[3],并且將伴奏視為多余的部分,尋找可用于音源分離的重復(fù)信息[4- 5]。但是基于假設(shè)模型的分離方法有一個(gè)主要的問題,即它們的核心假設(shè)可能不完全適用于所研究的信號(hào)。例如,待分離的主聲源可能不具有諧波結(jié)構(gòu),或者人聲或伴奏可能不具有重復(fù)結(jié)構(gòu),而總是在變化的,以及可能不能將伴奏部分看作多余的等。在這種情況下,基于聲源假設(shè)的方法容易出現(xiàn)較大偏差,分離性能不佳。數(shù)據(jù)驅(qū)動(dòng)方法的模型不依賴假設(shè),而是讓模型從大量有代表性的示例數(shù)據(jù)中學(xué)習(xí)。例如,Ozerov等[6]提出了一種貝葉斯模型。首先利用高斯混合模型(GMMs)和梅爾頻率倒譜系數(shù)(MFCC)將一首混合音樂音頻分成人聲和非人聲部分,然后利用最大后驗(yàn)概率方法[7],在音樂的非人聲部分上改進(jìn)了一個(gè)通用的音樂模型。由于模型改進(jìn)自非人聲部分,所以該模型對(duì)音樂中人聲與非人聲的比例、音樂相似性有一定要求。Boulanger等[8]提出將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)正則化引入非負(fù)矩陣分解(NMF)框架,在分解過程中對(duì)激活矩陣進(jìn)行時(shí)間約束。此種方法直接對(duì)整首音樂建模,不需對(duì)音源進(jìn)行限制,但是其沒有對(duì)NMF和RNN模型進(jìn)行聯(lián)合優(yōu)化。傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法模型復(fù)雜度有限,從而限制了模型的學(xué)習(xí)能力和表示能力。

近些年,隨著海量數(shù)據(jù)的積累和計(jì)算機(jī)算力的提升,出現(xiàn)了更多深層的學(xué)習(xí)網(wǎng)絡(luò)。一些深度神經(jīng)網(wǎng)絡(luò)架構(gòu)已經(jīng)超越了傳統(tǒng)淺層方法,獲得了目前為止最優(yōu)的性能。這些深度學(xué)習(xí)方法按所處理音頻數(shù)據(jù)的形式分為頻域和時(shí)域方法。

從音頻頻域數(shù)據(jù)出發(fā)的頻域方法一般采用編碼器、分離網(wǎng)絡(luò)和解碼器框架。編碼器處理的是由短時(shí)傅里葉變換(STFT)生成的頻譜圖,在每個(gè)幀和每個(gè)源的幅度譜上生成一個(gè)掩碼,后續(xù)解碼器部分通過對(duì)掩碼頻譜圖進(jìn)行短時(shí)傅里葉逆變換,重新混合輸入相位來生成輸出音頻。其中的分離網(wǎng)絡(luò)可以是各種各樣的網(wǎng)絡(luò)。Jansson等[9]將廣泛應(yīng)用于醫(yī)學(xué)圖像處理的Unet[10]結(jié)構(gòu)引入音樂源分離中。Takahashi等[11]提出MMDenseLSTM,將Dense-net[12]與處理時(shí)間序列的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[13]結(jié)合,目前在SiSec活動(dòng)中取得了最好的性能。值得一提的是,除了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化外,Nugraha等[14]的研究工作表明,維納濾波是基于頻譜圖模型的有效后處理步驟。目前頻域方法中所有分離效果較好的模型均采用了維納濾波進(jìn)行后處理。但是頻域方法存在以下缺點(diǎn):①模型訓(xùn)練僅利用了幅度譜,沒有充分利用音頻的相位信息;②分離性能無法超過所采用的理想掩膜,因此存在性能上限;③可能存在比STFT更好的特征表示方法,比如MFCC等其他基于心理聲學(xué)的特征表示方法。針對(duì)頻域方法的上述問題,出現(xiàn)了時(shí)域類方法。

從時(shí)域波形出發(fā)的時(shí)域方法有兩種思路。一種是通過數(shù)據(jù)學(xué)習(xí)特征表示的基函數(shù),替代STFT中固定的余弦基函數(shù),并且和分離網(wǎng)絡(luò)一起聯(lián)合優(yōu)化。Conv_Tasnet[15]是遵循這個(gè)思路的一種語(yǔ)音分離模型,它通過學(xué)習(xí),替代STFT變換及其逆變換,從而能夠更好地表達(dá)原始音頻數(shù)據(jù)。Défossez等[16]將其進(jìn)行了適合處理音樂源分離問題的改進(jìn),取得了此類時(shí)域方法的最優(yōu)性能。另一種時(shí)域方法的思路則是直接學(xué)習(xí)混合音頻和分離音頻之間的映射關(guān)系,不進(jìn)行顯式的特征變換,是一種從混合時(shí)域波形到分離時(shí)域波形的端到端模型,此類方法聚焦于模型網(wǎng)絡(luò)設(shè)計(jì),目前還處于探索起步階段。由Stoller等[17]提出的Wave-U-Net是時(shí)域方法中最具代表性的一種,它改進(jìn)自Unet,采用深層端到端模型,但其信號(hào)失真比(SDR)[18]指標(biāo)僅為3.23 dB。Perez等[19]借鑒了圖像分類中采用的最小超球面能量(MHE)損失函數(shù),通過多樣化濾波器形式提升了分類性能,將其引入Wave-U-Net后,SDR指標(biāo)進(jìn)一步提升為3.56 dB。由Défossez等[16]提出的Demucs采用一種廣義的編碼器-解碼器體系結(jié)構(gòu),它由廣義卷積編碼器、雙向LSTM和廣義卷積解碼器組成,編碼器和解碼器通過Unet的跳過連接鏈接,在MUSDB18數(shù)據(jù)集上SDR取得了平均5.58 dB的分離性能,為先前端對(duì)端模型中性能最優(yōu)的方法。雖然較深的網(wǎng)絡(luò)和較多的通道數(shù)帶來了性能的提升,但卻使模型巨大而難以收斂。

為了尋求更適合音樂源分離的時(shí)域端對(duì)端網(wǎng)絡(luò)結(jié)構(gòu),在Demucs基礎(chǔ)框架上,文中的方法主要在以下3個(gè)方面進(jìn)行改進(jìn):①改進(jìn)擠壓-激勵(lì)塊(SE)[20],使其適用于一維音頻信號(hào),并將其引入廣義編碼層與解碼層,該模塊所提供的注意力機(jī)制可以根據(jù)待分離音頻的類型有選擇地提取特征;②在一維卷積后增加組歸一化(GN)[21]層,對(duì)輸入分布進(jìn)行歸一化處理,以應(yīng)對(duì)可能存在的梯度爆炸和梯度消失問題,從而穩(wěn)定學(xué)習(xí)過程;③將雙向LSTM改進(jìn)為雙向簡(jiǎn)單循環(huán)單元(BiSRU)[22],進(jìn)一步提高訓(xùn)練速度,降低模型參數(shù)量。

1 Unet-SE-BiSRU音樂源分離方法

文中提出的Unet-SE-BiSRU方法,其原理框圖如圖1所示,它呈類似Unet的網(wǎng)絡(luò)結(jié)構(gòu),模型輸入端為原始音樂混合音頻,其波形幅值y為經(jīng)過廣義編碼層、循環(huán)網(wǎng)絡(luò)層和廣義解碼層,輸出端為J個(gè)雙聲道音源。在Demucs基礎(chǔ)框架上,文中的模型在廣義編碼層和解碼層中增加了組歸一化和擠壓-激勵(lì)模塊。橋連接部分采用了雙向簡(jiǎn)單循環(huán)單元結(jié)構(gòu)。

圖1 Unet-SE-BiSRU原理框圖

(1)

對(duì)于該網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過對(duì)比實(shí)驗(yàn),訓(xùn)練時(shí)的目標(biāo)函數(shù)采用了L1范數(shù):

(2)

以衡量多個(gè)音源與原始音樂音頻在時(shí)域波形幅度上的差異。

1.1 橋連接的改進(jìn)

考慮到音樂本身具有時(shí)間序列的特性,在橋連接中采用RNN。但RNN對(duì)于音樂源分離中這種較長(zhǎng)的時(shí)間序列,在模型訓(xùn)練時(shí)經(jīng)常出現(xiàn)梯度消失的問題。針對(duì)這種問題,目前RNN大多采用具有“門機(jī)制”的LSTM或GRU[23]等網(wǎng)絡(luò)結(jié)構(gòu)。

而對(duì)于LSTM或GRU等網(wǎng)絡(luò)結(jié)構(gòu)來說,又存在難以并行化的問題。以LSTM為例,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,其遺忘門Ft、輸入門It以及單元狀態(tài)Ct不僅依賴當(dāng)前時(shí)刻的輸入,還需要前一時(shí)刻隱藏單元的輸出Ht-1,這就只能串行處理,從而阻礙了運(yùn)算的并行性。

為此,Unet-SE-BiSRU方法中采用了雙向SRU[22],其單元結(jié)構(gòu)如圖2(b)所示。其中,當(dāng)前時(shí)刻t輸入為Zt,當(dāng)前時(shí)刻輸出隱藏層狀態(tài)Ht、輸出單元狀態(tài)Ct如式(3)和(4)所示:

(a)LSTM單元結(jié)構(gòu)示意圖

Ht=Rt⊙g(Ct)+(1-Rt)⊙ct

(3)

Ct=Ft⊙Ct-1+(1-Ft)⊙ct

(4)

式中,⊙為矩陣對(duì)應(yīng)元素之間的點(diǎn)乘運(yùn)算,g為tanh激活函數(shù),遺忘門Ft、復(fù)位門Rt、中間輸出狀態(tài)ct的定義如式(5)至式(7)所示:

Ft=σ(WFZt+bF)

(5)

Rt=σ(WRZt+bR)

(6)

ct=WZt

(7)

式中,σ表示Sigmoid激活函數(shù),WF、WR、W分別為待學(xué)習(xí)的遺忘門、復(fù)位門、輸入到中間輸出狀態(tài)變換的參數(shù)矩陣,bF和bR為對(duì)應(yīng)偏置。

在傳統(tǒng)的RNN比如LSTM中,每個(gè)門狀態(tài)(圖2(a)中的遺忘門Ft、輸入門It、輸出門Ot)的計(jì)算都依賴于上一時(shí)刻隱藏層的輸出(圖2(a)中的Ht-1)和當(dāng)前時(shí)刻的輸入Zt。而SRU依據(jù)式(5) 和(6)僅依靠當(dāng)前時(shí)刻的輸入Zt,解除了連續(xù)時(shí)刻狀態(tài)間的強(qiáng)制約性,從而使得門狀態(tài)的計(jì)算只依賴于當(dāng)前時(shí)刻的輸入信息,因此SRU能夠極大提高并行化程度,從而提高了模型的訓(xùn)練速度。而Ct和Ht的時(shí)間上依賴性正是RNN這類網(wǎng)絡(luò)的特點(diǎn),SRU雖然無法解除其連續(xù)時(shí)刻狀態(tài)間的強(qiáng)制約性,但這些計(jì)算僅為矩陣對(duì)應(yīng)元素之間的相乘,而非計(jì)算門狀態(tài)時(shí)的矩陣相乘,因而計(jì)算速度較快。

對(duì)于給定輸入序列{z1z2…zl},在所有時(shí)間步中批量分配矩陣乘法,可以顯著提高計(jì)算效率(比如GPU使用率),批處理乘法如式(8)所示:

(8)

其中,l為序列長(zhǎng)度,VT∈Rl×3h,h為隱藏層參數(shù)。

1.2 廣義編碼層與解碼層的改進(jìn)

在傳統(tǒng)的卷積、池化過程中,默認(rèn)特征圖的每個(gè)通道都是同樣重要的,即給予同樣的權(quán)重,但在音樂源分離問題中,不同的通道往往具有不同的重要程度。為了進(jìn)一步提升模型性能,Unet-SE-BiSRU在卷積運(yùn)算后加入了SE塊,SE的注意力機(jī)制使模型能自適應(yīng)地賦予不同通道不同的權(quán)重,從而進(jìn)一步提升模型的表示能力。由于SE塊最初應(yīng)用于二維圖像,為了適用于一維的音頻信號(hào),在Unet-SE-BiSRU中對(duì)其進(jìn)行了改進(jìn)。除SE外,較流行的注意力機(jī)制還有SK[24]塊,它使用不同大小的多個(gè)卷積核執(zhí)行卷積操作,并給予不同權(quán)重,但文中實(shí)驗(yàn)表明SE塊更適用于此網(wǎng)絡(luò)模型。另外,Unet-SE-BiSRU為了進(jìn)一步加速模型的收斂,在模型中加入了GN層作歸一化處理。

1.2.1 適用于一維音頻信號(hào)的擠壓-激勵(lì)塊

由Hu等[20]提出的SE關(guān)注核函數(shù)之間的關(guān)系,自動(dòng)學(xué)習(xí)不同核函數(shù)所提取特征的重要程度,通過顯式建模網(wǎng)絡(luò)卷積特征通道之間的相互依賴關(guān)系來提高網(wǎng)絡(luò)的表示能力。

為適用于一維音頻信號(hào),改進(jìn)后的SE仍由擠壓和激勵(lì)部分構(gòu)成,其中擠壓部分收集數(shù)據(jù)的全局信息,而激勵(lì)部分進(jìn)行自適應(yīng)重新校準(zhǔn),給予不同通道以不同的權(quán)重。其基本結(jié)構(gòu)如圖3所示,藍(lán)色虛線部分為基本的一維卷積操作,輸入P∈RL′×Q′,其中Q′為通道數(shù),L′為音頻幀數(shù)。經(jīng)過一維卷積Ftr后,得到特征U。之后進(jìn)行壓縮Fsq傳遞特征U,即圖3中的紅色虛線部分。通過時(shí)間維度將特征U壓縮成通道描述符T∈Rq,該描述符包含通道維度特征的全局信息,供較低層利用。其中T的第q個(gè)元素為

(9)

接下來是自適應(yīng)重新校準(zhǔn),為圖3綠色虛線部分。它實(shí)現(xiàn)了網(wǎng)絡(luò)特征的重新校準(zhǔn)。通過該機(jī)制,網(wǎng)絡(luò)可以利用全局信息有選擇地增強(qiáng)有效特征,并抑制不太有用的特征。最終通過顯式建模卷積特征通道之間的相互依賴關(guān)系提高網(wǎng)絡(luò)的表示能力,具體的計(jì)算公式為

圖3 改進(jìn)后的SE原理框圖

S=Fex(T,X)=φ(X2φ(X1T))

(10)

該塊的最終輸出通過對(duì)特征U進(jìn)行重新縮放,為圖3中的黑色虛線部分:

(11)

SE塊通過對(duì)一維卷積的通道重新校準(zhǔn)所提升的性能可以在整個(gè)網(wǎng)絡(luò)中累積,而且SE塊在計(jì)算上是輕量級(jí)的,只會(huì)增加很小的模型復(fù)雜性和計(jì)算負(fù)擔(dān)。

1.2.2 改進(jìn)的歸一化層

這一層對(duì)數(shù)據(jù)進(jìn)行歸一化處理。在傳統(tǒng)的深度網(wǎng)絡(luò)中,過高的學(xué)習(xí)率可能會(huì)導(dǎo)致梯度爆炸或消失,歸一化有助于解決這一問題。

通過對(duì)整個(gè)網(wǎng)絡(luò)的激活值進(jìn)行歸一化,可以防止訓(xùn)練陷入非線性飽和狀態(tài)。目前,大多采用批歸一化(BN)方式[26]。BN通過減少內(nèi)部協(xié)變量偏移來提升訓(xùn)練速度,由于其沿批處理軸歸一化,需要足夠大的批處理尺寸,所以占用大量?jī)?nèi)存。若減小BN的批處理尺寸,會(huì)導(dǎo)致批處理統(tǒng)計(jì)信息不全面,從而大大增加模型誤差,所以,許多模型采用非常大的批量尺寸,進(jìn)而限制了模型的復(fù)雜度。

文中采用組歸一化GN[21]作為BN的改進(jìn)方案,其不同之處如圖4所示。GN將通道劃分為組,然后歸一化每個(gè)組內(nèi)特征,不利用批次維度的數(shù)據(jù),并且其計(jì)算與批尺寸無關(guān)。

(a)BN

首先,與其他歸一化方法相同,GN也要進(jìn)行式(12)所示的計(jì)算:

(12)

式中,η為輸入數(shù)據(jù)均值,μ為標(biāo)準(zhǔn)差,w=(wN,wY,wE)是按(N,Y,E)順序索引特征的3D矢量,其計(jì)算公式分別為

(13)

(14)

式中,ε為一個(gè)小常數(shù),Dw為根據(jù)音頻幀計(jì)算的平均值和標(biāo)準(zhǔn)差集合,m為該集合的大小,如式(15)所示,這也是GN和其他特征標(biāo)準(zhǔn)化的主要不同之處。

(15)

類似于其他歸一化方法,GN也學(xué)習(xí)了每組通道的線性變換以補(bǔ)償可能的性能損失,最終輸出如式(16)所示:

(16)

式中,γ和β為可學(xué)習(xí)的縮放系數(shù)和偏移量。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集及評(píng)估指標(biāo)

實(shí)驗(yàn)所用數(shù)據(jù)為開源數(shù)據(jù)集MUSDB18,其中包括150首音樂,100首為訓(xùn)練集、50首為測(cè)試集。每首音樂都由混合音頻及其對(duì)應(yīng)的人聲、鼓聲、貝斯和其他組成。所有音樂音頻數(shù)據(jù)均為雙聲道,采樣率為44.1 kHz。

為提升分離網(wǎng)絡(luò)的泛化能力,實(shí)驗(yàn)中對(duì)原始數(shù)據(jù)集進(jìn)行了如下擴(kuò)充[27- 28]:①為每個(gè)音源隨機(jī)交換左右聲道;②對(duì)音源的振幅進(jìn)行隨機(jī)縮放;③將每個(gè)音源隨機(jī)分塊,構(gòu)成序列,然后隨機(jī)混合來自不同曲目的音源;④每個(gè)音源波形乘以±1。

這些數(shù)據(jù)擴(kuò)充方法也被當(dāng)前大多數(shù)音樂源分離方法,如MMDenseLSTM[11]、Demucs[16]、Open-Unmix[29]等采用,擴(kuò)充后的數(shù)據(jù)可達(dá)約1 200首音樂。

(17)

式中,starget、einterf、enoise、eartif分別代表可能存在失真的音源、干擾項(xiàng)、噪聲項(xiàng)和偽影誤差項(xiàng)。

SDR則定義為

(18)

該指標(biāo)數(shù)值越高說明分離效果越好,實(shí)驗(yàn)部分計(jì)算結(jié)果為MUSD18數(shù)據(jù)集中50首測(cè)試數(shù)據(jù)SDR指標(biāo)的中位數(shù)。類似地,文獻(xiàn)[18]還定義了SIR、SAR音樂源分離指標(biāo)。

(19)

(20)

2.2 實(shí)驗(yàn)設(shè)置

本文分離網(wǎng)絡(luò)性能實(shí)驗(yàn)的環(huán)境如下:Ubuntu16.04操作系統(tǒng);3張12G GeForce RTX 2080ti顯卡;PyTorch深度學(xué)習(xí)框架。其中,批尺寸均設(shè)置為12,各層網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。

表1 Unet-SE-BiSRU網(wǎng)絡(luò)參數(shù)

2.3 對(duì)比實(shí)驗(yàn)

在實(shí)驗(yàn)初期對(duì)比了3種損失函數(shù),分別基于1范數(shù)L1、2范數(shù)L2和平滑后的1范數(shù)Smooth L1,其實(shí)驗(yàn)結(jié)果如表2所示,最終在Unet-SE-BiSRU網(wǎng)絡(luò)中選取了分離性能最好的基于L1范數(shù)的損失函數(shù)作為優(yōu)化目標(biāo)。

表2 不同損失函數(shù)網(wǎng)絡(luò)模型性能對(duì)比Table 2 Model performance comparison with different loss funtions

2.3.1 注意力機(jī)制SE塊的有效性

SE特征加權(quán)的有效性可以通過觀察每個(gè)編碼層中SE激活值的分布情況進(jìn)行驗(yàn)證。以測(cè)試集中的兩首音樂為例,第1、5個(gè)編碼層上SE的激活值分別如圖5所示。

(a)第1個(gè)編碼層

從圖5(a)可見,第1個(gè)編碼層中SE的激活值分布幾乎集中在0.4~0.6之間,而且兩首測(cè)試音樂的激活值在各個(gè)通道具有高度相似的分布,這說明對(duì)于音樂源分離問題而言,網(wǎng)絡(luò)淺層可能提取的是音頻信號(hào)所共有的特征。隨著網(wǎng)絡(luò)加深,網(wǎng)絡(luò)提取的特征開始側(cè)重于表示不同音源的差異性。從圖5(b)可以看出,隨著網(wǎng)絡(luò)的加深,SE的激活值分布逐漸分化,SE的作用逐漸變得明顯。

為了比對(duì)兩首音樂在第5個(gè)編碼層上激活值的不同,各通道激活值相減的結(jié)果如圖6所示,SE對(duì)不同曲目進(jìn)行自適應(yīng)重新校準(zhǔn),可以通過不同的激活值選擇性地增強(qiáng)有效特征的權(quán)重,同時(shí)抑制不太有用的特征通道,進(jìn)而提高網(wǎng)絡(luò)的表示能力。

圖6 兩首音樂在第5個(gè)編碼層上SE中的激活值之差Fig.6 Difference of activation values of two music in SE on the fifth coding layer

網(wǎng)絡(luò)特征表示能力的提升促進(jìn)了分離效果的改善,如圖7所示,在加入SE后,SDR指標(biāo)在訓(xùn)練時(shí)的各輪次均高于未加入SE的Unet-BiSRU網(wǎng)絡(luò)。

圖7 Unet-BiSRU、Unet-SE-BiSRU的SDR指標(biāo)

2.3.2 不同典型注意力機(jī)制模塊的對(duì)比

實(shí)驗(yàn)中比較了SE和SK兩種注意力機(jī)制的分離性能和訓(xùn)練耗時(shí),實(shí)驗(yàn)結(jié)果如表3所示,在相同實(shí)驗(yàn)條件下,Unet-SE-BiSRU和Unet-SK-BiSRU支持的最大批尺寸分別為12和6,其SDR分別為5.68 dB和5.21 dB。實(shí)驗(yàn)表明,在同樣的顯存大小限制下,SE相對(duì)于SK更適用于文中網(wǎng)絡(luò)模型。其原因?yàn)椋菏紫?,雖然采用SK的模型所增加的參數(shù)量與SE基本持平,但是SK額外的卷積計(jì)算會(huì)產(chǎn)生大量的中間變量,并且隨著網(wǎng)絡(luò)深度增加,通道數(shù)也隨之增加,最終導(dǎo)致模型占用過多的顯存;其次,SK采用的是批歸一化,批尺寸最大只能為6,過小會(huì)導(dǎo)致其性能下降。

表3 采用不同注意力塊的模型性能對(duì)比Table 3 Performance comparison of models with different attention blocks

為了探索SE和SK在相同批尺寸大小下的表現(xiàn),將SK的BN修改為GN,實(shí)驗(yàn)結(jié)果如表3所示。實(shí)驗(yàn)表明,在相同較低批尺寸為6的情況下,Unet-SK-BiSRU(GN)的性能比Unet-SE-BiSRU有微小的提升,但仍遠(yuǎn)低于相同顯存大小限制下,批尺寸可為12的Unet-SE-BiSRU。

2.3.3 橋連接部分采用BiLSTM與BiSRU的性能對(duì)比

為了選取循環(huán)網(wǎng)絡(luò),對(duì)比了BiLSTM、BiSRU兩種方案,其訓(xùn)練和測(cè)試時(shí)各輪次損失值如圖8所示。從圖中可以看出BiLSTM的收斂速度略優(yōu)于BiSRU,但BiSRU驗(yàn)證損失略優(yōu)于BiLSTM。由于SRU網(wǎng)絡(luò)結(jié)構(gòu)能夠在GPU上并行處理,所以BiSRU的訓(xùn)練速度優(yōu)于BiLSTM,BiLSTM每輪次訓(xùn)練需要18 min,而BiSRU僅需要12 min。而且BiSRU參數(shù)量(3.328×104)僅為BiLSTM參數(shù)量(6.656×104)的一半。兩種網(wǎng)絡(luò)的SDR分別為5.68、5.55 dB。選取BiSRU改善了網(wǎng)絡(luò)的時(shí)間復(fù)雜度、分離性能,具有擴(kuò)大通道容量的可能,為進(jìn)一步提升分離性能提供了空間。

圖8 采用不同循環(huán)網(wǎng)絡(luò)時(shí)各輪次損失值

2.3.4 采用不同歸一化方式時(shí)的性能對(duì)比

當(dāng)未加入歸一化層時(shí),模型難以收斂,甚至損失值不但不下降,反而出現(xiàn)了上升的現(xiàn)象,如圖9所示。對(duì)比BN與GN,采用BN模型的訓(xùn)練損失一直高于采用GN的模型。對(duì)比兩種方法最終得到的SDR指標(biāo),GN(5.68 dB)可比BN(5.34 dB)

圖9 采用不同歸一化策略的各輪次損失值

提高0.34 dB。本實(shí)驗(yàn)中,批尺寸為12,并且使用3張顯卡,所以實(shí)際每張顯卡所處理的批尺寸僅為4,如1.2.2節(jié)所言,當(dāng)批尺寸較小時(shí)仍采用BN策略會(huì)降低網(wǎng)絡(luò)性能。而GN不受批尺寸的影響,所以當(dāng)批尺寸僅為4時(shí),仍能得到不錯(cuò)的網(wǎng)絡(luò)性能。

2.4 Unet-SE-BiSRU各創(chuàng)新點(diǎn)對(duì)分離性能提升的貢獻(xiàn)情況

Unet-SE-BiSRU模型中進(jìn)行了通道加權(quán)SE、橋連接SRU和組歸一化GN 3處改進(jìn),綜合3處改進(jìn)的實(shí)驗(yàn)結(jié)果如表4所示。這3處改進(jìn)中,通道加權(quán)SE對(duì)分離性能SDR的影響最大,組歸一化GN的影響次之,橋連接SRU相對(duì)最小。這點(diǎn)從表中可以看出,Unet-SE-BiSRU去掉通道加權(quán)SE模塊后,雖然能節(jié)省少量訓(xùn)練時(shí)間,分離性能指標(biāo)SDR卻會(huì)下降0.43 dB,與之相較,組歸一化GN的影響為0.34 dB,而橋連接SRU替換為L(zhǎng)STM或GRU性能分別下降0.13 dB和0.31 dB。從表中還可以看出,3處改進(jìn)中,橋連接SRU能大幅縮短訓(xùn)練時(shí)間,同時(shí)在一定程度上提升分離性能。

表4 不同結(jié)構(gòu)網(wǎng)絡(luò)模型性能對(duì)比Table 4 Model performance comparison of different structures

綜上所述,通道加權(quán)SE、組歸一化GN在不增加時(shí)間復(fù)雜度的同時(shí),顯著提升了網(wǎng)絡(luò)的分離性能,而橋連接SRU大幅降低了網(wǎng)絡(luò)的時(shí)間復(fù)雜度。

2.5 Unet-SE-BiSRU與基準(zhǔn)模型Demucs的性能比較

在進(jìn)行Unet-SE-BiSRU與Demucs對(duì)比實(shí)驗(yàn)時(shí),取通道數(shù)分別為16、32、64,由于顯卡內(nèi)存限制,未能給出通道數(shù)為96時(shí)Unet-SE-BiSRU模型的性能指標(biāo),對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。從表中可以看出,隨著通道數(shù)的增長(zhǎng),Demucs與Unet-SE-BiSRU的模型性能都得到了顯著的提升。值得注意的是:在通道數(shù)為64時(shí),Unet-SE-BiSRU就已經(jīng)超越了Demucs在通道數(shù)100時(shí)的性能。從通道個(gè)數(shù)增加時(shí)各性能參數(shù)的變化趨勢(shì)看,當(dāng)Unet-SE-BiSRU通道數(shù)提升到96時(shí),有可能獲得更好的性能。另外,在通道數(shù)相同時(shí),Unet-SE-BiSRU的訓(xùn)練速度明顯快于Demucs。源64通道Demucs模型訓(xùn)練總時(shí)長(zhǎng)為4 800 min(20 min×240),Unet-SE-BiSRU訓(xùn)練總時(shí)長(zhǎng)為1 920 min(12 min×160),約為源模型的2/5。

表5 不同通道數(shù)時(shí)Unet-SE-BiSRU與Demucs的性能對(duì)比Table 5 Performance comparison between Unet-SE-BiSRU and Demucs with different channel numbers

組歸一化雖然不受批尺寸限制,但卻受通道個(gè)數(shù)限制。而模型采用的GN歸一化的組數(shù)是32,即2個(gè)通道認(rèn)為是同一組,所以通道數(shù)為16時(shí),修改了模型,將GN歸一化組數(shù)減小為16。同通道數(shù)為32一樣,當(dāng)組數(shù)與通道數(shù)剛好相等時(shí),GN處于一種特殊情況,即實(shí)例歸一化(IN)。如圖10所示,它只能依靠空間維度來計(jì)算均值和方差,并且錯(cuò)過了利用信道依賴的機(jī)會(huì),這是在16、32通道數(shù)時(shí),Unet-SE-BiSRU性能不如Demucs的可能原因。

圖10 實(shí)例歸一化示意圖

此外,在實(shí)際應(yīng)用場(chǎng)景時(shí),前向推斷時(shí)間較模型訓(xùn)練時(shí)間更重要,本文將64通道下的Demucs和Unet-SE-BiSRU的實(shí)際測(cè)試時(shí)間進(jìn)行對(duì)比。實(shí)驗(yàn)使用Ubuntu16.04操作系統(tǒng)以及1張12 G GeForce RTX 2080ti顯卡,測(cè)試數(shù)據(jù)為MUSDB18數(shù)據(jù)集中的所有歌曲(50首wav格式、采樣率為44.1 kHz的音頻文件),總時(shí)長(zhǎng)約195.7 min,Demucs和Unet-SE-BiSRU所需分離時(shí)間分別為46.4和37 min,即分離1 min的音頻分別需14.2和11 s,故Unet-SE-BiSRU在實(shí)際應(yīng)用時(shí)的分離速度也較Demucs有較大提升。

2.6 Unet-SE-BiSRU與典型模型的性能比較

在MUSDB18數(shù)據(jù)集上,對(duì)當(dāng)前最具代表性的模型針對(duì)各具體音源的最好分離性能進(jìn)行了比較,SDR結(jié)果如表6所示,可見Unet-SE-BiSRU具有目前較好的綜合分離性能。具體到音源,Unet-SE-BiSRU網(wǎng)絡(luò)在鼓聲和低音部分的分離效果與其他類最優(yōu)方法相當(dāng),甚至有更高的SDR指標(biāo),但在人聲部分和其他音軌的分離效果上并非最優(yōu)。值得一提的是,還有一個(gè)MMDenseLSTM模型使用了8倍于MUSDB18的訓(xùn)練集,也就是804首額外的訓(xùn)練數(shù)據(jù)后,其SDR指標(biāo)能夠達(dá)到6.04 dB。從分離性能角度考慮,這在一定程度上顯示了訓(xùn)練數(shù)據(jù)量的重要性。

表6 在MUSDB18數(shù)據(jù)集下不同模型的性能對(duì)比Table 6 Performance comparison of different models under the MSUSDB18 dataset

3 結(jié)論

文中提出了一種用于音樂源分離的Unet-SE-BiSRU端對(duì)端網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果顯示,Unet-SE-BiSRU網(wǎng)絡(luò)在目前檢索到的文獻(xiàn)的音樂源分離時(shí)域端到端模型中的SDR最高,接近于頻域方法和時(shí)域非端對(duì)端方法的最好性能。在相同實(shí)驗(yàn)條件下,Unet-SE-BiSRU網(wǎng)絡(luò)的SDR指標(biāo)比基準(zhǔn)Demucs模型提高了0.34 dB,訓(xùn)練總時(shí)長(zhǎng)僅約為基準(zhǔn)模型的2/5。對(duì)于網(wǎng)絡(luò)中增加的SE、BiSRU、GN 3個(gè)模塊的對(duì)比試驗(yàn),驗(yàn)證了各模塊對(duì)于提升模型性能均有顯著貢獻(xiàn)。通過對(duì)實(shí)驗(yàn)結(jié)果的分析,可以得出如下結(jié)論和進(jìn)一步深入研究的著眼點(diǎn):①時(shí)域端到端網(wǎng)絡(luò)的表示能力仍有很大的提升空間,更好地提取音頻特征有利于獲得更好的源分離效果;②增加通道數(shù)有利于提取輸入音頻中更多的有效信息,從而能夠進(jìn)一步提升模型的分離性能;③更多的音頻數(shù)據(jù)可以使模型更好地學(xué)習(xí)、逼近音頻數(shù)據(jù)真實(shí)的特征分布情況,從而提升模型的泛化性;④Unet-SE-BiSRU網(wǎng)絡(luò)模型在對(duì)人聲的表征方面還有待進(jìn)一步的深入研究。

猜你喜歡
音源時(shí)域音頻
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
MIDI音源及其應(yīng)用之研究
大眾文藝(2018年3期)2018-07-12 09:26:06
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
淺議現(xiàn)代計(jì)算機(jī)音樂制作中的音源
黃河之聲(2016年20期)2016-02-02 20:55:42
基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
基于時(shí)域波形特征的輸電線雷擊識(shí)別
洞头县| 镇宁| 汝城县| 区。| 博客| 逊克县| 墨脱县| 依安县| 巴南区| 临海市| 当雄县| 阿荣旗| 顺昌县| 谢通门县| 北宁市| 浦江县| 庆云县| 靖州| 昭苏县| 临汾市| 宁海县| 翼城县| 镇远县| 龙山县| 晋城| 扎囊县| 安阳市| 鄂尔多斯市| 张家口市| 江油市| 茌平县| 新宾| 兴海县| 宁海县| 溆浦县| 磴口县| 峡江县| 尼玛县| 海原县| 靖边县| 平武县|