基于深度神經(jīng)網(wǎng)絡(luò)的低延遲聲源分離方法

2018-06-25 07:34鐘秀章

無線互聯(lián)科技 2018年6期

鐘秀章

摘要：文章提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的低延遲（≦算法延遲20 ms）聲源分離方法。方法利用了擴(kuò)展的過去的上下文，輸出軟時(shí)頻掩碼用于分離音頻信號(hào)，比基本的NMF有更好的分離性能。實(shí)驗(yàn)表明，基于DNN的方法比起基本的低延遲的NMF方法在不同幀長的處理幀和分析幀上，SDR+均至少提升1 dB，尤其是當(dāng)處理幀較短時(shí)，效果尤為顯著。

關(guān)鍵詞：聲源分離；深度神經(jīng)網(wǎng)絡(luò)；低延遲

聲源分離的目的是恢復(fù)由多個(gè)聲源混合而成的混合音中的單個(gè)聲音。這種技術(shù)最常見的用途有語音識(shí)別，語音去噪和助聽器。所有這些應(yīng)用都可以采用在線的方式處理聲源分離，其中助聽器對(duì)處理延遲的要求最高，因?yàn)楫?dāng)延遲超過20 ms時(shí)，聽者的不適感顯著提高。另外聽者能夠感受到最低延遲為3 ms?？紤]到這樣的應(yīng)用，開發(fā)出一種能夠處理幀長非常短的聲源分離方法就變得很有必要。

有兩種流行的聲源分離方法：（l）基于組合模型的方法[1]，如非負(fù)矩陣分解（Nonnegative Matrix Factor， NMF）或某種等價(jià)的概率潛在成分分析（Probabilistic LatentComponent Analysis，PLCA）。（2）基于深層神經(jīng)網(wǎng)絡(luò)的方法?；诮M合模型的方法基于固有結(jié)構(gòu)，將復(fù)雜的聲學(xué)混合信號(hào)線性分解成更簡單的子單元或組件。另一方面，深神經(jīng)網(wǎng)絡(luò)本質(zhì)上是非線性模型，能夠?qū)W習(xí)復(fù)雜的非線性輸入和輸出之間的映射，輸入和輸出的關(guān)系被嵌入在隱藏層中的權(quán)重中。深度神經(jīng)網(wǎng)絡(luò)（ Deep Neural Networks，DNN）技術(shù)在聲源分離問題中的應(yīng)用越來越廣泛，比起基于組合模型的方法表現(xiàn)出更好的性能。

對(duì)于低延遲的聲源分離，文獻(xiàn)[2]提出了一種監(jiān)督的、基于字典的方法。該方法對(duì)更前面的上下文數(shù)據(jù)進(jìn)行因式分解生成短幀掩碼，來預(yù)測單通道語音分離中相對(duì)困難的場景里用到的分離濾波器的權(quán)重。類似的方法可用于基于DNN分離的方法中，可以為非線性的數(shù)據(jù)建模提供更大的可能。

本文方法主要應(yīng)用在對(duì)低延遲有比較高要求的場景，例如助聽器。我們使用來自聲音混合信號(hào)的頻譜特征向量作為DNN的輸入，再預(yù)測出時(shí)頻掩碼。我們發(fā)現(xiàn)把過去時(shí)間的上下文加入到DNN的輸入中，可以提高短幀低延時(shí)處理的性能。我們研究了這種加入時(shí)間上下文的時(shí)長對(duì)分離性能的影響，并將結(jié)果與基本的NMF進(jìn)行了比較。

本文的結(jié)構(gòu)如下：第2節(jié)介紹了提出的方法。第3節(jié)介紹實(shí)驗(yàn)使用的樣本數(shù)據(jù)，用于評(píng)估的指標(biāo)，還有實(shí)驗(yàn)設(shè)置和結(jié)果。第4部分對(duì)論文進(jìn)行總結(jié)。

1 基于神經(jīng)網(wǎng)絡(luò)的聲源分離

在一般的基于頻譜的使用DNN進(jìn)行聲源分離的方法中，混合聲音信號(hào)的頻譜特征作為DNN的輸入向量，然后在輸出端預(yù)測時(shí)頻掩碼。這些掩碼濾波器被應(yīng)用到混合聲音頻譜的中，以獲得重構(gòu)的單一源譜。在本文的方法中，我們把輸入的時(shí)域信號(hào)進(jìn)行分塊處理。為了確保低延遲，運(yùn)算在被稱為處理幀的短塊上進(jìn)行。延遲取決于該幀的長度，因?yàn)樵趹?yīng)用離散傅里葉變換（ Discrete Fourier Transform，DFT）獲得頻譜特征之前，必須先緩沖所有的樣本。我們建議使用更長的過去時(shí)間上下文來生成與當(dāng)前處理幀相對(duì)應(yīng)的網(wǎng)絡(luò)輸入。這種擴(kuò)展的時(shí)間上下文被稱為分析幀。因此，由分析幀導(dǎo)出的頻譜特征，作為DNN輸入用于預(yù)測處理幀的聲源分離的掩碼，這個(gè)過程如圖l所示。

1.1輸入特征

當(dāng)前分析幀的頻譜特征，是通過短時(shí)傅里葉變換（Short-Time Fourier Transform，STFT）產(chǎn)生的。本文使用的窗長等于處理幀的幀長，重疊率為50%。分析幀比處理幀長，它可以生成一組特征向量，再串聯(lián)成更長的分析特征向量提供給每個(gè)處理幀，下面現(xiàn)在詳細(xì)闡述時(shí)頻掩碼的生成過程。

1.2時(shí)頻掩碼

本文提出的有監(jiān)督的語音分離方法，目的是為了估計(jì)一個(gè)合適的時(shí)頻掩碼，可以提高分離出來的語音信號(hào)的分離度和清晰度。本文方法中使用的掩碼是一個(gè)軟時(shí)頻掩碼，定義為：

t是某處理幀的索引，/是離散傅里葉變換的索引。Sl和S2是對(duì)應(yīng)語音信號(hào)的STFT特征向量。掩碼的值的范圍是[0，1]，保證了數(shù)值的穩(wěn)定性，為神經(jīng)網(wǎng)絡(luò)的反向梯度訓(xùn)練提供一個(gè)的目標(biāo)輸出。

訓(xùn)練時(shí)，對(duì)于每個(gè)處理幀，通過等式l得到了DNN目標(biāo)輸出。DNN網(wǎng)絡(luò)的權(quán)值是通過相應(yīng)的分析幀的特征和相應(yīng)的處理幀的目標(biāo)輸出進(jìn)行調(diào)整的。其目的是從訓(xùn)練數(shù)據(jù)中獲取相關(guān)特征，以生成合適的掩碼輸出。為了使系統(tǒng)的算法延遲較低，處理幀和相應(yīng)的掩碼需要相應(yīng)地保持得比較短，因?yàn)樵谒行枰臉颖颈痪彌_完之前，不能計(jì)算DFT。

1.3源重構(gòu)

通過掩碼M（t，f），可以從混合譜Y（t，f）中分離出己分離信號(hào)的STFT復(fù)數(shù)譜：S，S，等式為：

這里，*表示元素相乘。通過離散傅立葉逆變換（InverseDiscrete Fourier Transform，IDFT）和疊加處理，在線從復(fù)數(shù)譜中重構(gòu)出時(shí)域源信號(hào)的估計(jì)。同時(shí)，混合信號(hào)的頻譜的相位也被用于源重構(gòu)。

2估計(jì)

本節(jié)闡述評(píng)估中使用的指標(biāo)、數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置以及最終得到的結(jié)果。我們用有10 000個(gè)基原子的NMF作為基線。大的字典有更好的分離性能，因?yàn)樗鼈兡芨脤?duì)混合信號(hào)進(jìn)行建模。NMF配置使用的是文獻(xiàn)[2]中具有最好性能的NMF配置，從而為基于DNN的系統(tǒng)提出一個(gè)很好的基線。

2.1訓(xùn)練數(shù)據(jù)

本文使用CMU北極數(shù)據(jù)集‘31來評(píng)估基于DNN的語音分離方法。數(shù)據(jù)集里5對(duì)說話人中有3名男性和2名女性。說話人分別為：US-awb，US-clb，US-jmk，US-ksp和US-slt。總共有兩對(duì)男男混合，兩對(duì)男女混合，一對(duì)女女混合。為了生成每個(gè)說話人的訓(xùn)練數(shù)據(jù)，從數(shù)據(jù)庫的語音集A中隨機(jī)選出32條語音。給每一對(duì)說話人總共生成所有可能的排列共1 024條混合信號(hào)作為訓(xùn)練集。測試集是來源于CMU北極數(shù)據(jù)集B，以確保訓(xùn)練，驗(yàn)證和測試集不相交。每個(gè)說話人有10條語音，考慮所有可能的排列，則每對(duì)說話人有100條語音。在出現(xiàn)兩語音長度不一樣時(shí)，較短的語音進(jìn)行補(bǔ)零。所有的語音都為16 kHz的采樣率。用于訓(xùn)練DNN的訓(xùn)練集也被用于生成基本的NMF的字典。

2.2評(píng)估指標(biāo)

使用BSS-EVAL評(píng)估工具包評(píng)估分離性能。它包括3種指標(biāo)：SIR （Source to Interference Ratio）、SAR （Source toArtifacts Ratio）、SDR（ Source to Distortion Ratio）。其中SDR衡量整體的分離性能。在評(píng)估時(shí)，原時(shí)域混合信號(hào)以及相對(duì)應(yīng)的時(shí)域分離信號(hào)被用來計(jì)算這些指標(biāo)。

2.3 DNN的結(jié)構(gòu)和訓(xùn)練

使用Keras深度學(xué)習(xí)框架來訓(xùn)練DNN。分別為五對(duì)說話人訓(xùn)練單獨(dú)的DNN。DNN有3個(gè)隱藏層，每層有250個(gè)神經(jīng)元。隱藏層和輸出層的激活函數(shù)都是Sigmoid函數(shù)，損失函數(shù)是均方誤差（Mean Square Error，MSE），優(yōu)化方法為Adam。學(xué)習(xí)率η=0.001，decay分別為β1=0.9，β2=0.999，這3個(gè)參數(shù)也是Adam優(yōu)化中的缺省參數(shù)。為了防止過擬合，使用了dropout正則化，批規(guī)范化。批規(guī)范化，除了保證更快的收斂性外，也能在驗(yàn)證集上取得更好的性能。需要注意的是批規(guī)范化使用在隱藏層之間且在隱藏層的Sigmoid激活函數(shù)之后。另外，DNN訓(xùn)練時(shí)還使用了early stop，若20 epochs后，驗(yàn)證集的損失沒有降低就停止訓(xùn)練。

2.4測試條件

對(duì)每對(duì)說話人，都用2.2節(jié)的評(píng)估指標(biāo)來評(píng)估NMF和DNNs。處理幀長分別為5，10和20 ms（見表1）。當(dāng)涉及低延遲的應(yīng)用如助聽器時(shí)，較長的處理幀長度就不合適了。此外，每種長度的處理幀，都結(jié)合過去的上下文進(jìn)行研究。具體而言，分別利用5，10，20，40，80，和160 ms的分析幀的長度進(jìn)行研究。

2.5結(jié)果

計(jì)算了5對(duì)說話人的分離性能指標(biāo)，并取平均得出最終結(jié)果。不同的分析幀長度的DNN的分離性能如圖2所示。據(jù)觀察，結(jié)合過去時(shí)間上下文使得處理幀為5 ms和10 ms的性能得到提升，尤其是5 ms。隨著上下文時(shí)間的變長，性能開始下降，當(dāng)分析幀是處理幀2-4倍時(shí)，性能提升最大。當(dāng)處理幀長度為20 ms時(shí)，性能沒有提升。同時(shí)，不管處理幀，分析幀的幀長是多少，DNN的分離性能都比NMF好。DNN和NMF的性能比較如表1所示。5 ms和10 ms的處理幀對(duì)應(yīng)5，10，20，和40 ms的分析幀。可以看出，基于DNN方法的性能一直優(yōu)于其對(duì)應(yīng)NMF。在SDR上，5 ms的處理幀的至少有1.5 dB的提升，10 ms的處理幀至少有l(wèi) dB的提升。

3結(jié)語

本文提出了一種低延遲的基于DNN的單通道盲源分離方法，比起具有最好性能的低延遲基本NMF，它提供了一個(gè)更好的分離性能。實(shí)驗(yàn)證明結(jié)合過去的上下文可以提高分離性能，尤其是處理幀的長度較短時(shí)如5ms，性能提升尤為顯著，這一觀察結(jié)果與報(bào)告的結(jié)果一致。

應(yīng)該指出的是，分析幀長度增加時(shí)，DNN的輸入特征向量的維數(shù)也增加了。這種情況下，使用的DNN結(jié)構(gòu)可能是次優(yōu)的，通過增加隱藏層神經(jīng)元數(shù)目或隱藏層層數(shù)可能有助于提高分離性能。此外，增加訓(xùn)練數(shù)據(jù)量也將有助于提高分離性能。本研究利用傳統(tǒng)的前饋DNN結(jié)構(gòu)。若使用能對(duì)時(shí)間依賴性進(jìn)行建模的網(wǎng)絡(luò)結(jié)構(gòu)，如長短時(shí)記憶（Long ShortTerm Memory， LSTM）有望進(jìn)一步提高分離性能。

[參考文獻(xiàn)]

[IlVIRTANEN T， GEMMEKE J F. RAJ B. et aI.Compositional models for audio processing： Uncovering the structure of sound

mixtures[J] .IEEE Signal Processing Magazine. 2015 （ 2）： 125-144.

[2lBARKER T. VIRTANEN T. PONTOPPIDAN N H.Lowlatency sound-source-separation using non-negative matrix factorisation with

coupled analysis and synthesis dictionaries[Cl.Brisbane： IEEE International Conference on Acoustics， Speech and Signal Processing

（ICASSP） . 2015.

[3lKOMINEK J A. BLACK W.The CMU arctic speech database[J].Processing of Isca Speech Synthesis Workshop， 2004 （ 4）： 223-224.

無線互聯(lián)科技2018年6期

無線互聯(lián)科技的其它文章: 短距離無線通信技術(shù)與應(yīng)用研究; 高速并行總線接口信號(hào)的完整性及設(shè)計(jì)優(yōu)化; TDCS/CTC與TDMS5.0系統(tǒng)網(wǎng)絡(luò)接口的改進(jìn)與實(shí)施; 計(jì)算機(jī)通信網(wǎng)絡(luò)安全與防護(hù)策略的幾點(diǎn)思考; 六脈波雙變量交——交變頻自然無環(huán)流運(yùn)行方式研究; 信息通信技術(shù)在物聯(lián)網(wǎng)中的應(yīng)用分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度神經(jīng)網(wǎng)絡(luò)的低延遲聲源分離方法