基于跳躍連接注意力網(wǎng)絡(luò)的音樂分離

2022-04-27 07:32王嵐

電聲技術(shù) 2022年2期

王嵐

（中國傳媒大學(xué)，北京 100024）

0 引言

隨著移動互聯(lián)網(wǎng)的發(fā)展，大量形式多樣的音樂不斷涌現(xiàn)，人們對音樂分離的需求也逐步增多。分離技術(shù)被廣泛應(yīng)用于許多領(lǐng)域，并成為許多領(lǐng)域的預(yù)處理步驟，如卡拉OK[1]、歌詞自動識別、歌手識別等，在一些商業(yè)應(yīng)用中發(fā)揮著至關(guān)重要的作用。單聲道的歌聲與伴奏分離是指用一個聲道來記錄包含歌聲和伴奏的音樂信息，并盡可能徹底地分離它們。本文針對單聲道的音樂進行分離技術(shù)的研究。

雞尾酒問題[2]由COLIN CHERRY 在1953 年首次提出，指的是在多人同時交談的雞尾酒會，一個人可以專注于一個人的講話，而忽略另一個人的干擾，建模過濾掉目標語言的模型。歌聲和伴奏的分離已經(jīng)進行了半個多世紀的研究，研究方法分為傳統(tǒng)的分離方法和基于深度學(xué)習(xí)的分離方法。傳統(tǒng)的分離方法主要是基于信號處理統(tǒng)計和基于心理聲學(xué)的方法，對音樂中非線性關(guān)系的處理表現(xiàn)出了局限性。近年來，神經(jīng)網(wǎng)絡(luò)在音樂信號中非線性關(guān)系的處理方面表現(xiàn)出良好的非線性能力，可以處理更高維度的數(shù)據(jù)，因此在音樂分離系統(tǒng)中的應(yīng)用變得越來越普遍。

近年來，基于卷積編解碼器的分離模型[3]取得了良好的分離效果。卷積編解碼器把輸入音頻轉(zhuǎn)換成圖像的形式進行處理，取得了顯著的成功。但頻譜圖通過瓶頸層時被壓縮，重新縮放到目標頻譜的大小后會損失重要頻譜信息，而損失的信息影響著分離的效果。為解決這個問題，本文提出在卷積編解碼器的跳躍連接上加入注意力機制。注意力可在遠距離上捕捉到信息間的關(guān)聯(lián)，將注意力機制應(yīng)用到分離模型，能夠指導(dǎo)解碼部分重構(gòu)目標源頻譜，以解決網(wǎng)絡(luò)丟失重要信息問題，提升分離性能。

1 分離方法

1.1 分離模型

本文所提的整體分離流程如圖1 所示。音樂數(shù)據(jù)為歌聲與伴奏混合而成的數(shù)據(jù)。音樂數(shù)據(jù)進入分離模型前需進行預(yù)處理步驟，預(yù)處理使用短時傅里葉變換把音樂信號從時域變換到頻域，得到幅度譜和相位譜，取出其幅度譜輸入到分離模型得到時頻掩膜，將時頻掩膜和混合聲源進行運算，進而得到預(yù)測聲源的幅度譜，最后將預(yù)測聲源的幅度譜與原始的相位譜對應(yīng)元素相乘得到預(yù)測的音源即歌聲和伴奏。本文的基線模型為卷積編解碼模型[3]，此模型由6 層編碼器和6 層解碼器組成。

圖1 分離流程圖

圖2 為混合了歌聲和伴奏的聲源，圖3 是使用基線模型分離出的音頻的歌聲部分，圖4 是真實干凈的歌聲部分聲源。

圖2 混合歌聲和伴奏的頻譜圖

圖3 基線模型分離出的歌聲頻譜圖

觀察頻譜圖可知，圖2 中混合了歌聲和伴奏的音頻的頻譜更為豐富，伴奏與歌聲的頻域信息在時間上重疊交錯，從圖中難以區(qū)分歌聲頻譜；圖4 中真實干凈的歌聲頻譜諧波結(jié)構(gòu)較為清晰，沒有諧波的時間段為僅有伴奏演奏并無人聲演唱的部分；使用基線模型分離的音頻頻譜圖的開始部分出現(xiàn)干擾音源引入的現(xiàn)象，即黑框部分為模型引入的噪聲，相比于圖4 中干凈聲源頻譜在縱軸上出現(xiàn)斷續(xù)現(xiàn)象，這是因為分離模型隨著模型層數(shù)的增加丟失了有效信息，從而不能更好地恢復(fù)頻譜信息。針對分離模型出現(xiàn)丟失恢復(fù)重要信息的問題，本文改進后的模型如圖5 所示。

圖4 真實干凈歌聲頻譜圖

圖5 跳躍連接注意力模型

本文的跳躍連接注意力模型由6 層編解碼結(jié)構(gòu)組成，每層編碼器由卷積、批歸一化[4]和ReLU激活函數(shù)組成，編碼器層的目標是提取音樂信號特征，是把圖像的分辨率從大逐步變到小的過程，經(jīng)過最后一個編碼器得到目標源信號的高維特征，經(jīng)由解碼器恢復(fù)。解碼部分由反卷積、批歸一化及ReLU 激活函數(shù)組成，解碼器把圖像的分辨率由小恢復(fù)到大。跳躍連接使用適應(yīng)音樂分離的注意力機制，使編碼器和解碼器進行信息的交流，以有效恢復(fù)頻譜信息。本文將注意力機制加入到跳躍連接上，以解決網(wǎng)絡(luò)丟失重要頻譜信息的問題。

1.2 注意力機制

跳躍連接注意力模型中，注意力機制的具體構(gòu)造如圖6 所示。注意力機制由卷積和Sigmoid 激活函數(shù)構(gòu)成，符號⊕表示將信號按照通道數(shù)相加，符號?表示哈達瑪乘積。輸入為每層編碼器和解碼器分別經(jīng)過二維卷積然后把編碼器和解碼器的信息融合，經(jīng)激活函數(shù)進行非線性轉(zhuǎn)換，再經(jīng)過卷積和激活函數(shù)為信息分配權(quán)重，最后與解碼器運算，以指導(dǎo)解碼器恢復(fù)頻譜信息。注意力機制的設(shè)計遵循為信息分配不同權(quán)重的思想，重要的信息分配更大的權(quán)值。

圖6 注意力機制具體結(jié)構(gòu)

1.3 訓(xùn)練目標及損失函數(shù)

本文的訓(xùn)練目標為時頻掩膜。分離模型輸出歌聲和伴奏的時頻掩膜y^1和y^2，輸出的時頻掩膜與混合信號z進行哈達瑪運算得到預(yù)測的歌聲和伴奏即和，如式（1）和式（2）所示，符號⊙表示哈達瑪運算。

損失函數(shù)采用最小絕對值偏差損失函數(shù)，定義如式（3）所示，預(yù)測的歌聲和伴奏的值與真實的值進行反向傳播，更新模型參數(shù)。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集

實驗的數(shù)據(jù)集為開源數(shù)據(jù)集MUSDB18，此數(shù)據(jù)集由150 條全長英文音軌組成，分為訓(xùn)練集文件和測試集文件，其中訓(xùn)練集由100 條音軌組成，時長大概400 min，測試集由50 條音軌組成，時長大約200 min。每個音頻文件都包含混合音頻及其相應(yīng)的源，即包括混合聲源、歌聲、鼓、貝司以及其他聲源。由于本文評估歌聲和伴奏，因此將除歌聲以外的其他聲源混合，得到伴奏的獨立聲源，以反向傳播更新參數(shù)。該實驗在100 個訓(xùn)練集文件進行模型訓(xùn)練，在50 個測試集上進行模型的測試。

2.2 客觀評測指標

歌聲和伴奏的分離通常在盲源分離評測指標[5]中進行評估，評測的3 個指標分別是源失真比（Signal Distortion Ratio，SDR）、源干擾比（Signal to Interference Ratio，SIR）以及源偽像比（Signal to Artifact Ratio，SAR）。源失真比表示總體的分離效果，也是最為重要的分離指標，源干擾比表示分離模型對干擾信號的抑制程度，源偽像比表示分離算法抑制引入噪聲的能力。SDR，SIR，SAR 的單位都是dB，都是分數(shù)越大代表分離效果越好。SDR，SIR，SAR 的計算方式如式（4）、式（5）和式（6）所示。

式中：Starget表示混合信號中的目標信號，Sinterf表示混合信號中的干擾信號，Sartif表示混合信號中除去目標信號和干擾信號剩下的部分，是分離算法所引入的噪聲。

不同的音樂信號有不同的源失真比，為了更公平地比較分離性能，使用歸一化源失真比（Normalization Signal Distortion Ratio，NSDR）。NSDR 表示預(yù)測信號相對于原始混合信號在SDR上的提升，如公式（7）所示。

為了評測分離算法在整個數(shù)據(jù)集的分離性能，引入全局N 歸一化源失真比（Global Normalization Signal Distortion Ratio，GNSDR）、全局源偽像比（Global Signal to Artifact Ratio，GSAR）以及全局源干擾比（Global Signal to Interference Ratio，GSIR），分別如式（8）、式（9）、式（10）所示。

式中：m表示歌曲的數(shù)量，wm表示每首音樂歌曲的長度。

2.3 實驗結(jié)果及分析

分離模型的客觀評測結(jié)果如表1 所示。相比于基線模型，改進模型的歌聲和伴奏分離結(jié)果在GNSDR 上分別提升了4.344%和9.984%，改進后的模型可以更好地還原目標聲源的頻譜結(jié)構(gòu)。圖7為使用基線模型分離的歌聲，基線模型的開頭和中間出現(xiàn)偽影。圖8 為使用跳躍連接注意力模型分離的頻譜圖，由圖可知，改進的模型可以更好地恢復(fù)目標源頻譜結(jié)構(gòu)。