朱文博,王謀,張曉雷,Susanto Rahardja
(西北工業(yè)大學航海學院智能聲學與臨境通信研究中心,陜西西安 710072)
語音分離的目的是將多個音源的混合語音分離成其對應成分。在本文中,我們研究了基于深度學習的說話人無關情況下的語音分離,其中說話人無關的情況是指訓練時所用到的說話人與測試中的說話人可以不相同[1]。Hershey 等人首先提出用深度聚類的方法來解決語音分離問題[2]。在此之后,針對語音分離問題又提出了多種方法,例如置換不變訓練[3-4],深度吸引子網絡[5]。在這些方法中,被廣泛應用的聲學特征是短時傅里葉變換的幅度譜(short -time Fourier transform,STFT)。然而,在從分離后的幅度譜恢復成時域信號的過程中,所用到的是含有噪聲的相位譜,這會導致得到次優(yōu)的性能。
為了克服這一缺陷,數(shù)據(jù)驅動的從時域到時頻域變換的可學習特征成為了新的趨勢。其中代表性的就是一維卷積濾波器(1D-conv)[6-9]。由于該變換是與分離網絡聯(lián)合訓練的,并且不需要額外的人工操作,因此該變換相比于STFT來說使語音分離的性能得到了提升。在這些時域方法中,Conv-Tasnet在幀長設置為僅2 毫秒的低時延情況下得到了杰出的分離性能,從而受到了廣泛的關注。
近期有一些工作旨在研究Conv-Tasnet 的聲學特征。例如,Ditter 和Gerkmann 用人工設計特征[10],即多相位gammatone濾波器組(MPGTF)來代替Conv-Tasnet中編碼器部分的可學習特征,并在尺度無關信噪比(scale-invariant source-to-noise,SI-SNR)上帶來了提升。Pariente 等人將參數(shù)化濾波器擴展為了復值的解析濾波器[11-12],同時他們也提出了類似的一維卷積濾波器的解析版本。解析的一維卷積濾波器相比于原始的Conv-Tasnet 也有性能上的提升。上述結果表明,人工設計特征和參數(shù)化特征與目前最先進的可學習特征相比也具有競爭力。
然而,目前缺少對于可學習特征,人工設計特征以及參數(shù)化特征的比較。受到用人工設計特征來代替編碼器或解碼器的可學習特征的啟發(fā),在這篇文章中我們將三種類型的特征在Conv-Tasnet 框架下進行了比較。同時為了了解這三種特征之間的聯(lián)系,我們將多相位gammatone 濾波器組和參數(shù)化特征進行了結合,提出了參數(shù)化多相位gammatone 濾波器組(ParaMPGTF)。其中,ParaMPGTF的中心頻率和帶寬將與分離網絡聯(lián)合訓練。我們在WSJ0-2mix 數(shù)據(jù)集[2]上比較了STFT、MPGTF、ParaMPGTF 以及可學習特征。實驗結果表明:如果解碼器是可學習特征,將編碼器設置為參與比較特征中的任意一種都產生了相似的性能。我們還比較了將STFT、MPGTF、ParaMPGTF 作為編碼器,它們的逆變換作為解碼器。實驗結果表明:我們所提出的ParaMPGTF 比其他兩種人工設計特征的性能要好。
本文將以下面所述進行組織編排。第二節(jié)介紹了比較的框架以及所提出的ParaMPGTF,第三節(jié)展示實驗結果。第四節(jié)總結了我們的發(fā)現(xiàn)。
本文研究的基礎分離框架是Conv-Tasnet。如圖1 所示,它由三個主要部分構成:編碼器,分離網絡和解碼器。編碼器和解碼器采用小幀長來顯著降低系統(tǒng)時延。編碼器和解碼器是可學習的一維卷積濾波器,他的作用是在時域信號和時頻特征之間進行類似的轉換。分離網絡是一個由一維擴張卷積塊堆疊成的全卷積的分離模塊[13-14],以SI-SNR 為損失進行優(yōu)化。其作用是為每個音源產生一個掩模。
圖1 Conv‐Tasnet的框架圖
我們使用WSJ0-2mix 數(shù)據(jù)集對雙說話人語音分離性能進行比較[2]。它包含了30個小時的訓練數(shù)據(jù),10 小時的驗證數(shù)據(jù)以及5 小時的測試數(shù)據(jù)。WSJ0-2mix中的混合語音是通過在Wall Street Journal(WSJ0)訓練集si_tr_s 中隨機選擇不同的說話者和句子產生的,并將它們以-5分貝到5分貝范圍中的隨機信噪比混合。測試集中的句子來自于WSJ0數(shù)據(jù)集中si_dt_05 和si_et_05 中16個訓練中未用到的說話人。WSJ0-2mix中所有的語音均被重采樣至8000赫茲。
該網絡在4秒長的片段上進行了200個周期的訓練。優(yōu)化器采用Adam 優(yōu)化器,初始學習率為0.001。如果在驗證集上連續(xù)5個周期性能沒有提升則學習率減半。同時,當驗證集上的性能在過去的10個周期內都沒有提升時,網絡訓練將會被停止。網絡的超參數(shù)設置遵循Conv-Tasnet 中的網絡超參數(shù)[10],其中濾波器數(shù)目為512。時序卷積網絡(Temporal Convolutional Networks,TCN)的掩模函數(shù)分別被設置為sigmoid 函數(shù)和修正線性單元(rectified linear unit,Re-LU)。對于ParaMPGTF,我們將階數(shù)設置為2,幅度設置為1。我們將和的初始值設置為其經驗值,即我們將SI-SNR 作為評價指標。所報告的結果均是3000 句測試混合語音的平均結果。
我們首先比較了解碼器為可學習特征,編碼器為STFT,MPGTF,ParaMPGTF和可學習特征時的情況,表1 列出了比較結果。從表1 中可以看出,這四種特征并沒有產生很大的性能差異。如果我們仔細比較,我們發(fā)現(xiàn)STFT特征在測試集和驗證集都達到最高的性能。MPGTF 和ParaMPGTF 性能比較接近,ParaMPGTF 在驗證集上略好于MPGTF,而在測試集上略差于MPGTF。
表1 當解碼器為可學習特征時,不同特征作為編碼器的比較
圖2 所示的是用MPGTF,ParaMPGTF,STFT 和可學習特征作為編碼器,解碼器為可學習特征的幅度譜圖,由于STFT 的實部部分和虛部部分有相似的形狀[17],因此我們這里只繪制了從1 到256 頻點的STFT。濾波器在0 到4000 赫茲的范圍內均勻分布。從圖中可以看出,ParaMPGTF 和MPGTF 的幅度譜圖是相似的。這一現(xiàn)象不僅說明了它們的性能相似,而且也說明了參數(shù)化特征能夠被成功地優(yōu)化。不僅如此,圖2也表明了(1)MPGTF是一個良好的人工設計特征,(2)可學習的解碼器能夠有效的學習到編碼器的反變換。表2 列出了人工設計特征MPGTF 的和以及ParaMPGTF 中優(yōu)化得到的和。從表中我們可以看出兩組參數(shù)十分接近,這也進一步解釋了MPGTF和ParaMPGTF相似的性能。
表2 當解碼器為可學習特征時,MPGT和ParaMPGTF中和的比較
表2 當解碼器為可學習特征時,MPGT和ParaMPGTF中和的比較
圖2 不同設置的編碼器和解碼器的幅度譜圖的可視化。左邊為基于MPGTF的編碼器,中間為基于ParaMPGTF的編碼器,右邊為基于STFT的編碼器。
在該實驗中,我們將分別將編碼器設置為STFT,MPGTF,ParaMPGTF,并將解碼器設置為其對應的逆變換。表3 列出了STFT,MPGTF,ParaMPGTF 以及它們逆變換分別作為編碼器和解碼器的實驗結果。從表中我們可以看出,這三種比較方法的性能大體上是相似的。
表3 編碼器和解碼器為不同特征及其逆變換時的比較
如果我們仔細研究細節(jié),我們發(fā)現(xiàn)在測試集和驗證集上,我們所提出的ParaMPGTF 都達到了最好的性能,這也表明了參數(shù)化訓練的策略有改進傳統(tǒng)人工設計特征的潛力。圖3展示的是將解碼器為編碼器的逆變換時所訓練的模型在驗證集上的收斂曲線。圖中我們可以發(fā)現(xiàn)可學習特征比人工設計特征和參數(shù)化特征收斂的更快。盡管人工設計特征和ParaMPGTF 在前期以相似的速度收斂,然而ParaMPGTF 收斂的更快。
圖3 不同編碼器‐解碼器的收斂曲線
在本文中,我們提出了一種參數(shù)化的多相位gammatone 濾波器組。Para MPGTF將MPGTF中的核心參數(shù)與網絡進行聯(lián)合訓練。我們還在同一個實驗框架中比較了人工設計特征,參數(shù)化特征和可學習特征。據(jù)我們所知,這是第一個將三種特征放在一起比較。所比較的特征有STFT,MPGTF,ParaMPGTF 和可學習特征。實驗結果表明:當解碼器設置為可學習特征時,這四種特征的表現(xiàn)相似。STFT 比其他特征的性能稍好。當解碼器設置為編碼器的逆變換時,ParaMPGTF比其他人工設計特征的性能好。