鐘秀章
摘要:文章提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的低延遲(≦算法延遲20 ms)聲源分離方法。方法利用了擴(kuò)展的過去的上下文,輸出軟時(shí)頻掩碼用于分離音頻信號(hào),比基本的NMF有更好的分離性能。實(shí)驗(yàn)表明,基于DNN的方法比起基本的低延遲的NMF方法在不同幀長的處理幀和分析幀上,SDR+均至少提升1 dB,尤其是當(dāng)處理幀較短時(shí),效果尤為顯著。
關(guān)鍵詞:聲源分離;深度神經(jīng)網(wǎng)絡(luò);低延遲
聲源分離的目的是恢復(fù)由多個(gè)聲源混合而成的混合音中的單個(gè)聲音。這種技術(shù)最常見的用途有語音識(shí)別,語音去噪和助聽器。所有這些應(yīng)用都可以采用在線的方式處理聲源分離,其中助聽器對(duì)處理延遲的要求最高,因?yàn)楫?dāng)延遲超過20 ms時(shí),聽者的不適感顯著提高。另外聽者能夠感受到最低延遲為3 ms??紤]到這樣的應(yīng)用,開發(fā)出一種能夠處理幀長非常短的聲源分離方法就變得很有必要。
有兩種流行的聲源分離方法:(l)基于組合模型的方法[1],如非負(fù)矩陣分解(Nonnegative Matrix Factor, NMF)或某種等價(jià)的概率潛在成分分析(Probabilistic LatentComponent Analysis,PLCA)。(2)基于深層神經(jīng)網(wǎng)絡(luò)的方法?;诮M合模型的方法基于固有結(jié)構(gòu),將復(fù)雜的聲學(xué)混合信號(hào)線性分解成更簡單的子單元或組件。另一方面,深神經(jīng)網(wǎng)絡(luò)本質(zhì)上是非線性模型,能夠?qū)W習(xí)復(fù)雜的非線性輸入和輸出之間的映射,輸入和輸出的關(guān)系被嵌入在隱藏層中的權(quán)重中。深度神經(jīng)網(wǎng)絡(luò)( Deep Neural Networks,DNN)技術(shù)在聲源分離問題中的應(yīng)用越來越廣泛,比起基于組合模型的方法表現(xiàn)出更好的性能。
對(duì)于低延遲的聲源分離,文獻(xiàn)[2]提出了一種監(jiān)督的、基于字典的方法。該方法對(duì)更前面的上下文數(shù)據(jù)進(jìn)行因式分解生成短幀掩碼,來預(yù)測單通道語音分離中相對(duì)困難的場景里用到的分離濾波器的權(quán)重。類似的方法可用于基于DNN分離的方法中,可以為非線性的數(shù)據(jù)建模提供更大的可能。
本文方法主要應(yīng)用在對(duì)低延遲有比較高要求的場景,例如助聽器。我們使用來自聲音混合信號(hào)的頻譜特征向量作為DNN的輸入,再預(yù)測出時(shí)頻掩碼。我們發(fā)現(xiàn)把過去時(shí)間的上下文加入到DNN的輸入中,可以提高短幀低延時(shí)處理的性能。我們研究了這種加入時(shí)間上下文的時(shí)長對(duì)分離性能的影響,并將結(jié)果與基本的NMF進(jìn)行了比較。
本文的結(jié)構(gòu)如下:第2節(jié)介紹了提出的方法。第3節(jié)介紹實(shí)驗(yàn)使用的樣本數(shù)據(jù),用于評(píng)估的指標(biāo),還有實(shí)驗(yàn)設(shè)置和結(jié)果。第4部分對(duì)論文進(jìn)行總結(jié)。
1 基于神經(jīng)網(wǎng)絡(luò)的聲源分離
在一般的基于頻譜的使用DNN進(jìn)行聲源分離的方法中,混合聲音信號(hào)的頻譜特征作為DNN的輸入向量,然后在輸出端預(yù)測時(shí)頻掩碼。這些掩碼濾波器被應(yīng)用到混合聲音頻譜的中,以獲得重構(gòu)的單一源譜。在本文的方法中,我們把輸入的時(shí)域信號(hào)進(jìn)行分塊處理。為了確保低延遲,運(yùn)算在被稱為處理幀的短塊上進(jìn)行。延遲取決于該幀的長度,因?yàn)樵趹?yīng)用離散傅里葉變換( Discrete Fourier Transform,DFT)獲得頻譜特征之前,必須先緩沖所有的樣本。我們建議使用更長的過去時(shí)間上下文來生成與當(dāng)前處理幀相對(duì)應(yīng)的網(wǎng)絡(luò)輸入。這種擴(kuò)展的時(shí)間上下文被稱為分析幀。因此,由分析幀導(dǎo)出的頻譜特征,作為DNN輸入用于預(yù)測處理幀的聲源分離的掩碼,這個(gè)過程如圖l所示。
1.1輸入特征
當(dāng)前分析幀的頻譜特征,是通過短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)產(chǎn)生的。本文使用的窗長等于處理幀的幀長,重疊率為50%。分析幀比處理幀長,它可以生成一組特征向量,再串聯(lián)成更長的分析特征向量提供給每個(gè)處理幀,下面現(xiàn)在詳細(xì)闡述時(shí)頻掩碼的生成過程。
1.2時(shí)頻掩碼
本文提出的有監(jiān)督的語音分離方法,目的是為了估計(jì)一個(gè)合適的時(shí)頻掩碼,可以提高分離出來的語音信號(hào)的分離度和清晰度。本文方法中使用的掩碼是一個(gè)軟時(shí)頻掩碼,定義為:
t是某處理幀的索引,/是離散傅里葉變換的索引。Sl和S2是對(duì)應(yīng)語音信號(hào)的STFT特征向量。掩碼的值的范圍是[0,1],保證了數(shù)值的穩(wěn)定性,為神經(jīng)網(wǎng)絡(luò)的反向梯度訓(xùn)練提供一個(gè)的目標(biāo)輸出。
訓(xùn)練時(shí),對(duì)于每個(gè)處理幀,通過等式l得到了DNN目標(biāo)輸出。DNN網(wǎng)絡(luò)的權(quán)值是通過相應(yīng)的分析幀的特征和相應(yīng)的處理幀的目標(biāo)輸出進(jìn)行調(diào)整的。其目的是從訓(xùn)練數(shù)據(jù)中獲取相關(guān)特征,以生成合適的掩碼輸出。為了使系統(tǒng)的算法延遲較低,處理幀和相應(yīng)的掩碼需要相應(yīng)地保持得比較短,因?yàn)樵谒行枰臉颖颈痪彌_完之前,不能計(jì)算DFT。
1.3源重構(gòu)
通過掩碼M(t,f),可以從混合譜Y(t,f)中分離出己分離信號(hào)的STFT復(fù)數(shù)譜:S,S,等式為:
這里,*表示元素相乘。通過離散傅立葉逆變換(InverseDiscrete Fourier Transform,IDFT)和疊加處理,在線從復(fù)數(shù)譜中重構(gòu)出時(shí)域源信號(hào)的估計(jì)。同時(shí),混合信號(hào)的頻譜的相位也被用于源重構(gòu)。
2估計(jì)
本節(jié)闡述評(píng)估中使用的指標(biāo)、數(shù)據(jù)集、實(shí)驗(yàn)設(shè)置以及最終得到的結(jié)果。我們用有10 000個(gè)基原子的NMF作為基線。大的字典有更好的分離性能,因?yàn)樗鼈兡芨脤?duì)混合信號(hào)進(jìn)行建模。NMF配置使用的是文獻(xiàn)[2]中具有最好性能的NMF配置,從而為基于DNN的系統(tǒng)提出一個(gè)很好的基線。
2.1訓(xùn)練數(shù)據(jù)
本文使用CMU北極數(shù)據(jù)集‘31來評(píng)估基于DNN的語音分離方法。數(shù)據(jù)集里5對(duì)說話人中有3名男性和2名女性。說話人分別為:US-awb,US-clb,US-jmk,US-ksp和US-slt。總共有兩對(duì)男男混合,兩對(duì)男女混合,一對(duì)女女混合。為了生成每個(gè)說話人的訓(xùn)練數(shù)據(jù),從數(shù)據(jù)庫的語音集A中隨機(jī)選出32條語音。給每一對(duì)說話人總共生成所有可能的排列共1 024條混合信號(hào)作為訓(xùn)練集。測試集是來源于CMU北極數(shù)據(jù)集B,以確保訓(xùn)練,驗(yàn)證和測試集不相交。每個(gè)說話人有10條語音,考慮所有可能的排列,則每對(duì)說話人有100條語音。在出現(xiàn)兩語音長度不一樣時(shí),較短的語音進(jìn)行補(bǔ)零。所有的語音都為16 kHz的采樣率。用于訓(xùn)練DNN的訓(xùn)練集也被用于生成基本的NMF的字典。
2.2評(píng)估指標(biāo)
使用BSS-EVAL評(píng)估工具包評(píng)估分離性能。它包括3種指標(biāo):SIR (Source to Interference Ratio)、SAR (Source toArtifacts Ratio)、SDR( Source to Distortion Ratio)。其中SDR衡量整體的分離性能。在評(píng)估時(shí),原時(shí)域混合信號(hào)以及相對(duì)應(yīng)的時(shí)域分離信號(hào)被用來計(jì)算這些指標(biāo)。
2.3 DNN的結(jié)構(gòu)和訓(xùn)練
使用Keras深度學(xué)習(xí)框架來訓(xùn)練DNN。分別為五對(duì)說話人訓(xùn)練單獨(dú)的DNN。DNN有3個(gè)隱藏層,每層有250個(gè)神經(jīng)元。隱藏層和輸出層的激活函數(shù)都是Sigmoid函數(shù),損失函數(shù)是均方誤差(Mean Square Error,MSE),優(yōu)化方法為Adam。學(xué)習(xí)率η=0.001,decay分別為β1=0.9,β2=0.999,這3個(gè)參數(shù)也是Adam優(yōu)化中的缺省參數(shù)。為了防止過擬合,使用了dropout正則化,批規(guī)范化。批規(guī)范化,除了保證更快的收斂性外,也能在驗(yàn)證集上取得更好的性能。需要注意的是批規(guī)范化使用在隱藏層之間且在隱藏層的Sigmoid激活函數(shù)之后。另外,DNN訓(xùn)練時(shí)還使用了early stop,若20 epochs后,驗(yàn)證集的損失沒有降低就停止訓(xùn)練。
2.4測試條件
對(duì)每對(duì)說話人,都用2.2節(jié)的評(píng)估指標(biāo)來評(píng)估NMF和DNNs。處理幀長分別為5,10和20 ms(見表1)。當(dāng)涉及低延遲的應(yīng)用如助聽器時(shí),較長的處理幀長度就不合適了。此外,每種長度的處理幀,都結(jié)合過去的上下文進(jìn)行研究。具體而言,分別利用5,10,20,40,80,和160 ms的分析幀的長度進(jìn)行研究。
2.5結(jié)果
計(jì)算了5對(duì)說話人的分離性能指標(biāo),并取平均得出最終結(jié)果。不同的分析幀長度的DNN的分離性能如圖2所示。據(jù)觀察,結(jié)合過去時(shí)間上下文使得處理幀為5 ms和10 ms的性能得到提升,尤其是5 ms。隨著上下文時(shí)間的變長,性能開始下降,當(dāng)分析幀是處理幀2-4倍時(shí),性能提升最大。當(dāng)處理幀長度為20 ms時(shí),性能沒有提升。同時(shí),不管處理幀,分析幀的幀長是多少,DNN的分離性能都比NMF好。DNN和NMF的性能比較如表1所示。5 ms和10 ms的處理幀對(duì)應(yīng)5,10,20,和40 ms的分析幀。可以看出,基于DNN方法的性能一直優(yōu)于其對(duì)應(yīng)NMF。在SDR上,5 ms的處理幀的至少有1.5 dB的提升,10 ms的處理幀至少有l(wèi) dB的提升。
3結(jié)語
本文提出了一種低延遲的基于DNN的單通道盲源分離方法,比起具有最好性能的低延遲基本NMF,它提供了一個(gè)更好的分離性能。實(shí)驗(yàn)證明結(jié)合過去的上下文可以提高分離性能,尤其是處理幀的長度較短時(shí)如5ms,性能提升尤為顯著,這一觀察結(jié)果與報(bào)告的結(jié)果一致。
應(yīng)該指出的是,分析幀長度增加時(shí),DNN的輸入特征向量的維數(shù)也增加了。這種情況下,使用的DNN結(jié)構(gòu)可能是次優(yōu)的,通過增加隱藏層神經(jīng)元數(shù)目或隱藏層層數(shù)可能有助于提高分離性能。此外,增加訓(xùn)練數(shù)據(jù)量也將有助于提高分離性能。本研究利用傳統(tǒng)的前饋DNN結(jié)構(gòu)。若使用能對(duì)時(shí)間依賴性進(jìn)行建模的網(wǎng)絡(luò)結(jié)構(gòu),如長短時(shí)記憶(Long ShortTerm Memory, LSTM)有望進(jìn)一步提高分離性能。
[參考文獻(xiàn)]
[IlVIRTANEN T, GEMMEKE J F. RAJ B. et aI.Compositional models for audio processing: Uncovering the structure of sound
mixtures[J] .IEEE Signal Processing Magazine. 2015 ( 2) : 125-144.
[2lBARKER T. VIRTANEN T. PONTOPPIDAN N H.Lowlatency sound-source-separation using non-negative matrix factorisation with
coupled analysis and synthesis dictionaries[Cl.Brisbane: IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP) . 2015.
[3lKOMINEK J A. BLACK W.The CMU arctic speech database[J].Processing of Isca Speech Synthesis Workshop, 2004 ( 4) : 223-224.