国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習語音分離技術的研究現(xiàn)狀與進展

2016-08-22 09:54:50劉文舉聶帥梁山張學良
自動化學報 2016年6期
關鍵詞:時頻幅度噪音

劉文舉 聶帥 梁山 張學良

?

基于深度學習語音分離技術的研究現(xiàn)狀與進展

劉文舉1聶帥1梁山1張學良2

現(xiàn)階段,語音交互技術日益在現(xiàn)實生活中得到廣泛的應用,然而,由于干擾的存在,現(xiàn)實環(huán)境中的語音交互技術遠沒有達到令人滿意的程度.針對加性噪音的語音分離技術是提高語音交互性能的有效途徑,幾十年來,全世界范圍內的許多研究者為此投入了巨大的努力,提出了很多實用的方法.特別是近年來,由于深度學習研究的興起,基于深度學習的語音分離技術日益得到了廣泛關注和重視,顯露出了相當光明的應用前景,逐漸成為語音分離中一個新的研究趨勢.目前已有很多基于深度學習的語音分離方法被提出,但是,對于深度學習語音分離技術一直以來都缺乏一個系統(tǒng)的分析和總結,不同方法之間的聯(lián)系和區(qū)分也很少被研究.針對這個問題,本文試圖對語音分離的主要流程和整體框架進行細致的分析和總結,從特征、模型以及目標三個方面對現(xiàn)有的前沿研究進展進行全面而深入的綜述,最后對語音分離技術進行展望.

神經網絡,語音分離,計算聽覺場景分析,機器學習

引用格式劉文舉,聶帥,梁山,張學良.基于深度學習語音分離技術的研究現(xiàn)狀與進展.自動化學報,2016,42(6):819-833

現(xiàn)實環(huán)境中,感興趣的語音信號通常會被噪音干擾,嚴重損害了語音的可懂度,降低了語音識別的性能.針對噪音,前端語音分離技術是最常用的方法之一.一個好的前端語音分離模塊能夠極大地提高語音的可懂度和自動語音識別系統(tǒng)的識別性能[1-6].然而,在真實環(huán)境中,語音分離技術的性能遠沒有達到令人滿意的程度,特別是在非平穩(wěn)噪音和單聲道的情況下,語音分離依然面臨著巨大的挑戰(zhàn).本文重點探討單聲道條件下語音分離技術.

幾十年來,單聲道條件下的語音分離問題被廣泛地研究.從信號處理的角度來看,許多方法提出估計噪音的功率譜或者理想維納濾波器,比如譜減法[7]和維納濾波法[8-9].其中維納濾波是最小均方誤差意義下分離純凈語音的最優(yōu)濾波器[9].在假定語音和噪音的先驗分布的條件下,給定帶噪語音,它能推斷出語音的譜系數(shù).基于信號處理的方法通常假設噪音是平穩(wěn)的或者是慢變的[10].在滿足假設條件的情況下,這些方法能夠取得比較好的分離性能.然而,在現(xiàn)實情況下,這些假設條件通常很難滿足,其分離性能會嚴重地下降,特別在低信噪比條件下,這些方法通常會失效[9].相比于信號處理的方法,基于模型的方法利用混合前的純凈信號分別構建語音和噪音的模型,例如文獻[11-13],在低信噪比的情況下取得了重要的性能提升.但是基于模型的方法嚴重依賴于事先訓練的語音和噪音模型,對于不匹配的語音或者噪音,其性能通常會嚴重下降.在基于模型的語音分離方法中,非負矩陣分解是常用的建模方法,它能挖掘非負數(shù)據(jù)中的局部基表示,目前已被廣泛地應用到語音分離中[14-15].然而非負矩陣分解是一個淺層的線性模型,很難挖掘語音數(shù)據(jù)中復雜的非線性結構.另外,非負矩陣分解的推斷過程非常費時,很難應用到實際應用中.計算聽覺場景分析是另一個重要的語音分離技術,它試圖模擬人耳對聲音的處理過程來解決語音分離問題[16].計算聽覺場景分析的基本計算目標是估計一個理想二值掩蔽,根據(jù)人耳的聽覺掩蔽來實現(xiàn)語音的分離.相對于其他語音分離的方法,計算聽覺場景分析對噪音沒有任何假設,具有更好的泛化性能.然而,計算聽覺場景分析嚴重依賴于語音的基音檢測,在噪音的干擾下,語音的基音檢測是非常困難的.另外,由于缺乏諧波結構,計算聽覺場景分析很難處理語音中的清音成分.

語音分離旨在從被干擾的語音信號中分離出有用的信號,這個過程能夠很自然地表達成一個監(jiān)督性學習問題[17-20].一個典型的監(jiān)督性語音分離系統(tǒng)通常通過監(jiān)督性學習算法,例如深度神經網絡,學習一個從帶噪特征到分離目標(例如理想掩蔽或者感興趣語音的幅度譜)的映射函數(shù)[17].最近,監(jiān)督性語音分離得到了研究者的廣泛關注,取得了巨大的成功.作為一個新的研究趨勢,相對于傳統(tǒng)的語音增強技術[9],監(jiān)督性語音分離不需要聲源的空間方位信息,且對噪音的統(tǒng)計特性沒有任何限制,在單聲道,非平穩(wěn)噪聲和低信噪比的條件下顯示出了明顯的優(yōu)勢和相當光明的研究前景[21-23].

從監(jiān)督性學習的角度來看,監(jiān)督性語音分離主要涉及特征、模型和目標三個方面的內容.語音分離系統(tǒng)通常利用時頻分解技術從帶噪語音中提取時頻域特征,常用的時頻分解技術有短時傅里葉變換(Short-time Fourier transform,STFT)[24]和Gammatone聽覺濾波模型[25].相應地,語音分離特征可以分為傅里葉變換域特征和Gammatone濾波變換域特征.Wang和Chen等在文獻[26-27]中系統(tǒng)地總結和分析了Gammatone濾波變換域特征,提出了一些列組合特征和多分辨率特征.而Mohammadiha、Xu、Weninger、Le Roux、Huang等使用傅里葉幅度譜或者傅里葉對數(shù)幅度譜作為語音分離的輸入特征[14,18,20,23,28-29].從建模單元來區(qū)分,語音分離的特征又可分為時頻單元級別的特征和幀級別的特征.時頻單元級別的特征從一個時頻單元的信號中提取,幀級別的特征從一幀信號中提取,早期,由于模型學習能力的限制,監(jiān)督性語音分離方法通常對時頻單元進行建模,因此使用時頻單元級別的特征,例如文獻[1]和文獻[30-34].現(xiàn)階段,監(jiān)督性語音分離主要使用幀級別的特征[17-21,23,35-36].監(jiān)督性語音分離系統(tǒng)的學習模型主要分為淺層模型和深層模型.早期的監(jiān)督性語音分離系統(tǒng)主要使用淺層模型,比如高斯混合模型(Gaussian mixture model,GMM)[1]、支持向量機(Support vector machine,SVM)[26,30,32]和非負矩陣分解(Nonnegative matrix factorization,NMF)[14].然而,語音信號具有明顯的時空結構和非線性關系,淺層結構在挖掘這些非線性結構信息的能力上非常有限.而深層模型由于其多層次的非線性處理結構,非常擅長于挖掘數(shù)據(jù)中的結構信息,能夠自動提取抽象化的特征表示,因此,近年來,深層模型被廣泛地應用到語音和圖像處理中,并取得了巨大的成功[37].以深度神經網絡(Deep neural network,DNN)為代表的深度學習[37]是深層模型的典型代表,目前已被廣泛應用到語音分離中[5,18,20,22,29,38-39].最近,Le Roux、Hershey和Hsu等將NMF擴展成深層結構并應用到語音分離中,取得了巨大的性能提升[23,40-41],在語音分離中顯示了巨大的研究前景,日益得到人們的重視.理想時頻掩蔽和目標語音的幅度譜是監(jiān)督性語音分離的常用目標,如果不考慮相位的影響,利用估計的掩蔽或者幅度譜能夠合成目標語音波形,實驗證明利用這種方法分離的語音能夠顯著地抑制噪音[42-43],提高語音的可懂度和語音識別系統(tǒng)的性能[38,44-49].但是,最近的一些研究顯示,相位信息對于語音的感知質量是重要的[50].為此,一些語音分離方法開始關注相位的估計,并取得了分離性能的提升[51-52].為了將語音的相位信息考慮到語音分離中,Williamson等將浮值掩蔽擴展到復數(shù)域,提出復數(shù)域的掩蔽目標,該目標在基于深度神經網絡的語音分離系統(tǒng)中顯著地提高了分離語音的感知質量[53].

語音分離作為一個重要的研究領域,幾十年來,受到國內外研究者的廣泛關注和重視.近年來,監(jiān)督性語音分離技術取得了重要的研究進展,特別是深度學習的應用,極大地促進了語音分離的發(fā)展.然而,對監(jiān)督性語音分離方法一直以來缺乏一個系統(tǒng)的分析和總結,盡管有一些綜述性的工作被提出,但是它們往往局限于其中的一個方面,例如,Wang等在文獻[17]中側重于監(jiān)督性語音分離的目標分析,而在文獻[26]中主要比較了監(jiān)督性語音分離的特征,并沒有一個整體的總結和分析,同時也沒有對這些工作的相互聯(lián)系以及區(qū)別進行研究.本文從監(jiān)督性語音分離涉及到的特征、模型和目標三個主要方面對語音分離的一般流程和整體框架進行了詳細的介紹、歸納和總結.以此希望為該領域的研究及應用提供一個參考.

本文的組織結構如下:第1節(jié)概述了語音分離的主要流程和整體框架;第2~5節(jié)分別介紹了語音分離中的時頻分解、特征、目標、模型等關鍵模塊;最后,對全文進行了總結和展望,并從建模單元、目標和訓練模型三個方面對監(jiān)督性語音分離方法進行了比較和分析.

1 系統(tǒng)結構

圖1給出了語音分離的一般性結構框圖,主要分為5個模塊:1)時頻分解,通過信號處理的方法(聽覺濾波器組或者短時傅里葉變換)將輸入的時域信號分解成二維的時頻信號表示.2)特征提取,提取幀級別或者時頻單元級別的聽覺特征,比如,短時傅里葉變換譜(FFT-magnitude)、短時傅里葉變換對數(shù)譜(FFT-log)、Amplitude modulation spectrogram(AMS)、Relative spectral transform and perceptual linear prediction(RASTA-PLP)、Melfrequency cepstral coefficients(MFCC)、Pitchbased features以及Multi-resolution cochleagram (MRCG).3)分離目標,利用估計的分離目標以及混合信號合成目標語音的波形信號.針對語音分離的不同應用特點,例如針對語音識別,語音分離在分離語音的過程中側重減少語音畸變和盡可能地保留語音成分.針對語音通訊,語音分離側重于提高分離語音的可懂度和感知質量.常用的語音分離目標主要分為時頻掩蔽的目標、目標語音幅度譜估計的目標和隱式時頻掩蔽目標,時頻掩蔽目標訓練一個模型來估計一個理想時頻掩蔽,使得估計的掩蔽和理想掩蔽盡可能相似;目標語音幅度譜估計的方法訓練一個模型來估計目標語音的幅度譜,使得估計的幅度譜與目標語音的幅度譜盡可能相似;隱式時頻掩蔽目標將時頻掩蔽技術融合到實際應用的模型中,用來增強語音特征或估計目標語音,隱式掩蔽并不直接估計理想掩蔽,而是作為中間的一個計算過程來得到最終學習的目標,隱式掩蔽作為一個確定性的計算過程,并沒有參數(shù)需要學習,最終的目標誤差通過隱式掩蔽的傳導來更新模型參數(shù).4)模型訓練,利用大量的輸入輸出訓練對通過機器學習算法學習一個從帶噪特征到分離目標的映射函數(shù),應用于語音分離的學習模型大致可分為淺層模型(GMM,SVM,NMF)和深層模型(DNN,DSN,CNN,RNN,LSTM,Deep NMF).5)波形合成,利用估計的分離目標以及混合信號,通過逆變換(逆傅里葉變換或者逆Gammatone濾波)獲得目標語音的波形信號.

圖1 監(jiān)督性語音分離系統(tǒng)的結構框圖Fig.1 A block diagram of the supervised speech separation system

2 時頻分解

時頻分解是整個系統(tǒng)的前端處理模塊,通過時頻分解,輸入的一維時域信號能夠被分解成二維的時頻信號.常用的時頻分解方法包括短時傅里葉變換[24]和Gammatone聽覺濾波模型[25].

假設w(t)=w(-t)是一個實對稱窗函數(shù),X(t,f)是一維時域信號x(k)在第t時間幀、第f個頻段的短時傅里葉變換系數(shù),則

對應的傅里葉能量幅度譜px(t,f)為

其中,|·|表示復數(shù)域的取模操作.為了簡化符號表示,用向量表示時間幀為t的幅度譜,這里F是傅里葉變換的頻帶數(shù).短時傅里葉變換是完備而穩(wěn)定的[54],可以通過短時傅里葉逆變換(Inverse short-time Fourier transform,ISTFT)從X(t,f)精確重構x(k).也就是說,可以通過估計目標語音的短時傅里葉變換系數(shù)來實現(xiàn)語音的分離或者增強,用來表示估計的目標語音的短時傅里葉變換系數(shù),那么目標語音的波形可以通過ISTFT計算

如果不考慮相位的影響,語音分離過程可以轉換為目標語音幅度譜的估計問題,一旦估計出目標語音的幅度譜,聯(lián)合混合語音的相位,通過ISTFT,能得到目標語音的估計波形[17].

Gammatone聽覺濾波使用一組聽覺濾波器g(t)對輸入信號進行濾波,得到一組濾波輸出G(k,f).濾波器組的沖擊響應為

其中,濾波器階數(shù)l=4,b為等效矩形帶寬(Equivalent rectangle bandwidth,ERB),f為濾波器的中心頻率,Gammatone濾波器組的中心頻率沿對數(shù)頻率軸等間隔地分布在[80Hz,5kHz].等效矩形帶寬與中心頻率一般滿足式(5),可以看出隨著中心頻率的增加,濾波器帶寬加寬.

對于4階的Gammatone濾波器,Patterson等[25]給出了帶寬的計算公式

然后,采用交疊分段的方法,以20ms為幀長,10ms為偏移量對每一個頻率通道的濾波響應做分幀加窗處理.得到輸入信號的時頻域表示,即時頻單元.在計算聽覺場景分析系統(tǒng)中,時頻單元被認為是處理的最小單位,用T-F表示.通過計算時頻單元內的內毛細胞輸出(或者聽覺濾波器輸出)能量,就得到了聽覺譜(Cochleagram),本文用GF(t,f)表示時間幀t頻率為f的時頻單元T-F的聽覺能量.

3 特征

語音分離能夠被表達成一個學習問題,對于機器學習問題,特征提取是至關重要的步驟,提取好的特征能夠極大地提高語音分離的性能.從特征提取的基本單位來看,主要分為時頻單元級別的特征和幀級別的特征.時頻單元級別的特征是從一個時頻單元的信號中提取特征,這種級別的特征粒度更細,能夠關注到更加微小的細節(jié),但是缺乏對語音的全局性和整體性的描述,無法獲取到語音的時空結構和時序相關性,另外,一個時頻單元的信號,很難表征可感知的語音特性(例如,音素).時頻單元級別的特征主要用于早期以時頻單元為建模單元的語音分離系統(tǒng)中,例如,文獻[1,26,30-32],這些系統(tǒng)孤立地看待每個時頻單元,在每一個頻帶上訓練二值分類器,判斷每一個頻帶上的時頻單元被語音主導還是被噪音主導;幀級別的特征是從一幀信號中提取的,這種級別的特征粒度更大,能夠抓住語音的時空結構,特別是語音的頻帶相關性,具有更好的全局性和整體性,具有明顯的語音感知特性.幀級別的特征主要用于以幀為建模單元的語音分離系統(tǒng)中,這些系統(tǒng)一般輸入幾幀上下文幀級別特征,直接預測整幀的分離目標,例如,文獻[17-20,27,35].近年來,隨著語音分離研究的深入,已有許多聽覺特征被提出并應用到語音分離中,取得了很好的分離性能.下面,我們簡要地總結幾種常用的聽覺特征.

1)梅爾倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC).為了計算MFCC,輸入信號進行20ms幀長和10ms幀移的分幀操作,然后使用一個漢明窗進行加窗處理,利用STFT計算能量譜,再將能量譜轉化到梅爾域,最后,經過對數(shù)操作和離散余弦變換(Discrete cosine transform,DCT)并聯(lián)合一階和二階差分特征得到39維的MFCC.

2)PLP(Perceptual linear prediction).PLP能夠盡可能消除說話人的差異而保留重要的共振峰結構,一般認為是與語音內容相關的特征,被廣泛應用到語音識別中.和語音識別一樣,我們使用12階的線性預測模型,得到13維的PLP特征.

3)RASTA-PLP (Relative spectral transform PLP).RASTA-PLP引入了RASTA濾波到PLP[55],相對于PLP特征,RASTA-PLP對噪音更加魯棒,常用于魯棒性語音識別.和PLP一樣,我們計算13維的RASTA-PLP特征.

4)GFCC(Gammatone frequency cepstral coefficient).GFCC特征是通過Gammatone聽覺濾波得到的.我們對每一個Gammatone濾波輸出按照100Hz的采樣頻率進行采樣.得到的采樣通過立方根操作進行幅度壓制.最后,通過DCT得到GFCC.根據(jù)文獻[56]的建議,一般提取31維的GFCC特征.

5)GF(Gammatone feature).GF特征的提取方法和GFCC類似,只是不需要DCT步驟.一般提取64維的GF特征.

6)AMS(Amplitude modulation spectrogram).為了計算AMS特征,輸入信號進行半波整流,然后進行四分之一抽樣,抽樣后的信號按照32ms幀長和10ms幀移進行分幀,通過漢明窗加窗處理,利用STFT得到信號的二維表示,并計算STFT幅度譜,最后利用15個中心頻率均勻分布在15.6~400Hz的三角窗,得到15維的AMS特征.

7)基于基音的特征(Pitch-based feature).基于基音的特征是時頻單元級別的特征,需要對每一個時頻單元計算基音特征.這些特征包含時頻單元被目標語音主導的可能性.我們計算輸入信號的Cochleagram,然后對每一個時頻單元計算6維的基音特征,詳細的計算方法可以參考文獻[26,57].

8)MRCG (Multi-resolution cochleagram).MRCG的提取是基于語音信號的Cochleagram表示的.通過Gammatone濾波和加窗分幀處理,我們能得到語音信號的Cochleagram表示,然后通過以下步驟可以計算MRCG.

步驟1.給定輸入信號,計算64通道的Cochleagram,CG1,對每一個時頻單元取對數(shù)操作.

步驟2.同樣地,用200ms的幀長和10ms的幀移計算CG2.

步驟3.使用一個長為11時間幀和寬為11頻帶的方形窗對CG1進行平滑,得到CG3.

步驟4.和CG3的計算類似,使用23×23的方形窗對CG1進行平滑,得到CG4.

步驟5.串聯(lián)CG1,CG2,CG3和CG4得到一個64×4的向量,即為MRCG.

MRCG是一種多分辨率的特征,既有關注細節(jié)的高分辨率特征,又有把握全局性的低分辨率特征.

9)傅里葉幅度譜(FFT-magnitude).輸入的時域信號進行分幀處理,然后對每幀信號進行STFT,得到STFT系數(shù),然后對STFT進行取模操作即得到STFT幅度譜.

10)傅里葉對數(shù)幅度譜(FFT-log-magnitude). STFT對數(shù)幅度譜是在STFT幅度譜的基礎上取對數(shù)操作得到的,主要目的是凸顯信號中的高頻成分.

以上介紹的聽覺特征是語音分離的主要特征,這些特征之間既存在互補性又存在冗余性.研究顯示,對于單個獨立特征,GFCC和RASTA-PLP分別是噪音匹配條件和噪音不匹配條件下的最好特征[26].基音反映了語音的固有屬性,基于基音的特征對語音分離具有重要作用,很多研究顯示基于基音的特征和其他特征進行組合都會顯著地提高語音分離的性能,而且基于基音的特征非常魯棒,對于不匹配的聽覺條件具有很好的泛化性能.然而,在噪音條件下,準確地估計語音的基音是非常困難,又因為缺乏諧波結構,基于基音的特征僅能用于濁音段的語音分離,而無法處理清音段,因此在實際應用中,基于基音的特征很少應用到語音分離中[26],實際上,語音分離和基音提取是一個“雞生蛋,蛋生雞”的問題,它們之間相互促進而又相互依賴.針對這一問題,Zhang等巧妙地將基音提取和語音分離融合到深度堆疊網絡(Deep stacking network,DSN)中,同時提高了語音分離和基音提取的性能[34].相對于基音特征,AMS同時具有清音和濁音的特性,能夠同時用于濁音段和清音段的語音分離,然而,AMS的泛化性能較差[58].針對各個特征之間的不同特性,Wang等利用Group Lasso的特征選擇方法得到AMS+RASTA-PLP+MFCC的最優(yōu)特征組合[26],這個組合特征在各種測試條件下取得了穩(wěn)定的語音分離性能而且顯著地優(yōu)于單獨的特征,成為早期語音分離系統(tǒng)最常用的特征.在低信噪比條件下,特征提取對于語音分離至關重要,相對于其他特征或者組合特征,Chen等提取的多分辨率特征MRCG表現(xiàn)了明顯的優(yōu)勢[27],逐漸取代AMS+RASTA-PLP+MFCC的組合特征成為語音分離最常用的特征之一.在傅里葉變換域條件下,F(xiàn)FT-magnitude或FFT-log-magnitude是最常用的語音分離特征,由于高頻能量較小,相對于FFT-magnitude,F(xiàn)FT-log-magnitude能夠凸顯高頻成分,但是,一些研究表明,在語音分離中,F(xiàn)FT-magnitude要略好于FFT-log-magnitude[28].

語音分離發(fā)展到現(xiàn)階段,MRCG和FFT-magnitude分別成為Gammtone域和傅里葉變換域下最主流的語音分離特征.此外,為了抓住信號中的短時變化特征,一般還會計算特征的一階差分和二階差分,同時,為了抓住更多的信息,通常輸入特征會擴展上下文幀.Chen等還提出使用ARMA模型(Auto-regressive and moving average model)對特征進行平滑處理,來進一步提高語音分離性能[27].

4 目標

語音分離有許多重要的應用,總結起來主要有兩個方面:1)以人耳作為目標受體,提高人耳對帶噪語音的可懂度和感知質量,比如應用于語音通訊;2)以機器作為目標受體,提高機器對帶噪語音的識別準確率,例如應用于語音識別.對于這兩個主要的語音分離目標,它們存在許多密切的聯(lián)系,例如,以提高帶噪語音的可懂度和感知質量為目標的語音分離系統(tǒng)通??梢宰鳛檎Z音識別的前端處理模塊,能夠顯著地提高語音識別的性能[59],Weninger等指出語音分離系統(tǒng)的信號失真比(Signal-to-distortion ratio,SDR)和語音識別的字錯誤率(Word error rate,WER)有明顯的相關性[5],Weng等將多說話人分離應用于語音識別中也顯著地提高了識別性能[6].盡管如此,它們之間仍然存在許多差別,以提高語音的可懂度和感知質量為目標的語音分離系統(tǒng)側重于去除混合語音中的噪音成分,往往會導致比較嚴重的語音畸變,而以提高語音識別準確率為目標的語音分離系統(tǒng)更多地關注語音成分,在語音分離過程中盡可能保留語音成分,避免語音畸變.針對語音分離兩個主要目標,許多具體的學習目標被提出,常用的分離目標大致可以分為三類:時頻掩蔽、語音幅度譜估計和隱式時頻掩蔽.其中時頻掩蔽和語音幅度譜估計的目標被證明能顯著地抑制噪音,提高語音的可懂度和感知質量[17-18].而隱式時頻掩蔽通常將掩蔽技術融入到實際應用模型中,時頻掩蔽作為中間處理過程來提高其他目標的性能,例如語音識別[5,60]、目標語音波形的估計[21].

4.1時頻掩蔽

時頻掩蔽是語音分離的常用目標,常見的時頻掩蔽有理想二值掩蔽和理想浮值掩蔽,它們能顯著地提高分離語音的可懂度和感知質量.一旦估計出了時頻掩蔽目標,如果不考慮相位信息,通過逆變換技術即可合成目標語音的時域波形.但是,最近的一些研究顯示,相位信息對于提高語音的感知質量具有重要的作用[50].為此,一些考慮相位信息的時頻掩蔽目標被相繼提出,例如復數(shù)域的浮值掩蔽(Complex ideal ratio mask,CIRM)[53].

1)理想二值掩蔽(Ideal binary mask,IBM).理想二值掩蔽(IBM)是計算聽覺場景分析的主要計算目標[61],已經被證明能夠極大地提高分離語音的可懂度[44-47,62].IBM 是一個二值的時頻掩蔽矩陣,通過純凈的語音和噪音計算得到.對于每一個時頻單元,如果局部信噪比SNR(t,f)大于某一局部閾值(Local criterion,LC),掩蔽矩陣中對應的元素標記為1,否則標記為0.具體來講,IBM的定義如下:

其中,SNR(t,f)定義了時間幀為t和頻率為f的時頻單元的局部信噪比.LC的選擇對語音的可懂度具有重大的影響[63],一般設置LC小于混合語音信噪比5dB,這樣做的目的是為了保留足夠多的語音信息.例如,混合語音信噪比是-5dB,則對應的LC設置為-10dB.

2)目標二值掩蔽(Target binary mask,TBM).類似于IBM,目標二值掩蔽(TBM)也是一個二值的時頻掩蔽矩陣.不同的是,TBM是通過純凈語音的能量和一個固定的參照噪音(Speech-shaped noise,SSN)的能量計算得到的.也就是說,在式(7)中的SNR(t,f)項是用參考的SSN而不是實際的噪音計算的.盡管TBM的計算獨立于噪音,但是實驗測試顯示TBM取得了和IBM相似的可懂度提高[63].TBM能夠提高語音的可懂度的原因是它保留了與語音感知密切相關的時空結構模式,即語音能量在時頻域上的分布.相對于IBM,TBM可能更加容易學習.

3)Gammtone域的理想浮值掩蔽(Gammtone ideal ratio mask,IRM_Gamm)

理想浮值掩蔽定義如下:

其中,S2(t,f)和N2(t,f)分別定義了混合語音中時間幀為t和頻率為f的時頻單元的語音和噪音的能量.β是一個可調節(jié)的尺度因子.如果假定語音和噪音是不相關的,那么IRM在形式上和維納濾波密切相關[9,64].大量的實驗表明β=0.5是最好的選擇,此時,式(8)和均方維納濾波器非常相似,而維納濾波是最優(yōu)的能量譜評估[9].

4)傅里葉變換域的理想浮值掩蔽(FFT ideal ratio mask,IRM_FFT).類似于Gammtone域的理想浮值掩蔽,傅里葉域的理想浮值掩蔽IRM_FFT的定義如下:

其中,Ys(t,f)和Yn(t,f)是混合語音中純凈的語音和噪音的短時傅里葉變換系數(shù).Ps(t,f)和Pn(t,f)分別是它們對應的能量密度.

5)短時傅里葉變換掩蔽(Short-time Fourier transform mask,F(xiàn)FT-Mask).不同于IRM_FFT,F(xiàn)FT-Mask的定義如下:

其中,Ys(t,f)和X(t,f)是純凈的語音和混合語音的短時傅里葉變換系數(shù).IRM_FFT的取值范圍在[0,1],顯然FFT-Mask的取值范圍可以超過1.

6)最優(yōu)浮值掩蔽 (Optimalratiotimefrequency mask,ORM).理想浮值掩蔽(IRM)是假定在語音和噪音不相關的條件下,能夠取得最小均方誤差意義下最大信噪比增益[42-43].然而在真實環(huán)境中,語音和噪音通常存在一定的相關性,針對這個問題,Liang等[42-43]推導出一般意義下的最小均方誤差的最優(yōu)浮值掩蔽,定義如下:

其中,?(·)表示取復數(shù)的實部,?表示共軛操作.相對于IRM,ORM考慮了語音和噪音的相關性,其變化范圍更大,估計難度也更大.

7)復數(shù)域的理想浮值掩蔽(Complex ideal ratio mask,CIRM).傳統(tǒng)的IRM定義在幅度域,而CIRM定義在復數(shù)域.其目標是通過將CIRM作用到帶噪語音的STFT系數(shù)得到目標語音的STFT系數(shù).具體地,給定帶噪語音在時間幀為t和頻率為f的時頻單元的STFT系數(shù)X,那么目標語音在對應時頻單元的STFT系數(shù)Y可以通過下式計算得到:

其中,×定義復數(shù)乘法操作,M 定義時間幀為t和頻率為f的時頻單元的CIRM.通過數(shù)學推導我們能計算得到:

其中,Xr和Yr分別是X和Y的實部,Xi和Yi分別是X和Y的虛部,j是虛數(shù)單位.定義Mr和Mi分別是M的實部和虛部,那么,

在實際語音分離中通常不會直接估計復數(shù)域的M,而是通過估計其實部Mr和虛部Mi.但Mr和Mi的取值可能會超過[0,1],這往往會增大Mr和Mi估計難度.因此,在實際應用中通常會利用雙曲正切函數(shù)對Mr和Mi進行幅度壓制.

4.2語音幅度譜估計

如果不考慮相位的影響,語音分離問題可以轉化為目標語音幅度譜的評估,一旦從混合語音中評估出了目標語音的幅度譜,利用混合語音的相位信息,通過逆變換即可得到目標語音的波形.常見的幅度譜包括Gammtone域幅度譜和STFT幅度譜.

1)Gammtone域幅度譜 (Gammatone frequency power spectrum,GF-POW).時域信號經過Gammtone濾波器組濾波和分幀加窗處理,可以得到二維的時頻表示Cochleagram.直接估計目標語音的Gammtone域幅度譜(GF-POW)能夠實現(xiàn)語音的分離.對于Gammtone濾波,由于沒有直接的逆變換方法,我們可以通過估計的GFPOW和混合語音的GF-POW構造一個時頻掩蔽來合成目標語音的波形,其中,分別是純凈語音和混合語音在Gammtone域下時間幀為t和頻帶為f的時頻單元的能量.

2)短時傅里葉變換幅度譜(Short-time Fourier transform spectral magnitude,F(xiàn)FT-magnitude).時域信號經過分幀加窗處理,然后通過STFT,可以得到二維的時頻表示,如果不考慮相位的影響,我們可以直接估計目標語音的STFT幅度譜,利用原始混合語音的相位,通過IFTST可以估計得到目標語音的時域波形.

4.3隱式時頻掩蔽

語音分離旨在從混合語音中分離出語音成分,盡管可以通過估計理想時頻掩蔽來分離目標語音,但理想時頻掩蔽是一個中間目標,并沒有針對實際的語音分離應用直接優(yōu)化最終的實際目標.針對這些問題,隱式時頻掩蔽被提取,在這些方法中,時頻掩蔽作為一個確定性的計算過程被融入到具體應用模型中,例如識別模型或者分離模型,它們并沒有估計理想時頻掩蔽,其最終的目標是估計目標語音的幅度譜甚至是波形,或者提高語音識別的準確率.

Huang等提出將掩蔽融合到目標語音的幅度譜估計中[19,28].在文獻[29]中,深度神經網絡作為語音分離模型,時頻掩蔽函數(shù)作為額外的處理層加入到網絡的原始輸出層,如圖2所示,通過時頻掩蔽,目標語音的幅度譜從混合語音的幅度譜中估計出來.其中時頻掩蔽函數(shù)Ms和Mn通過神經網絡原始輸出(語音和噪音幅度譜的初步估計)計算得到的,如下:

圖2 Huang等提出的聲源分離系統(tǒng)的網絡結構[28]Fig.2 The network structure of the proposed source separation system by Huang et al.[28]

一旦時頻掩蔽被計算出來,就可以通過掩蔽技術從混合語音的幅度譜X估計出語音和噪音的幅度譜

需要注意的是原始的網絡輸出并不用來計算誤差函數(shù),僅僅用來計算時頻掩蔽函數(shù),時頻掩蔽函數(shù)是確定性的,并沒有連接權重,掩蔽輸出用來計算誤差并以此來更新模型參數(shù).

Wang等提出將時頻掩蔽融合到目標語音波形估計中[21],在文獻[21]中,時頻掩蔽作為神經網絡的一部分,掩蔽函數(shù)從混合語音的STFT幅度譜估計目標語音的STFT幅度譜,然后通過ISTFT,利用混合語音的相位信息和估計的STFT幅度譜合成目標語音的時域波形,如圖3所示,估計的時域波形與目標波形計算誤差,最后通過反向傳播更新網絡權重.假設是最后一個隱層的輸出,它可以看成是估計的掩蔽,用來從混合語音的STFT幅度譜中估計目標語音的STFT幅度譜

d=F/2,F(xiàn)是傅里葉變換的分析窗長.flipud定義了向量的上下翻轉操作,?是復數(shù)的共軛操作.下標m:n取向量從m到n的元素的操作.

圖3 Wang等提出的語音分離系統(tǒng)的網絡結構[21]Fig.3 The network structure of the proposed speech separation system by Wang et al.for speech separation[21]

Narayanan等[60]提出將時頻掩蔽融入到語音識別的聲學模型中,時頻掩蔽作為神經網絡的中間處理層,從帶噪的梅爾譜特征中掩蔽出語音的梅爾譜特征,然后輸入到下層網絡中進行狀態(tài)概率估計,如圖4所示.注意時頻掩蔽僅僅是神經網絡的中間處理層的輸出,并不是以理想時頻掩蔽作為目標學習而來的,確切地說是根據(jù)語音識別的狀態(tài)目標學習而來的,實驗結果顯示,時頻掩蔽輸出具有明顯的降噪效果,這從側面顯示了語音識別與語音分離之間存在密切聯(lián)系.

圖4 Narayanan等提出的神經網絡的結構[60]Fig.4 The structure of the proposed network by Narayanan et al.[60]

以上介紹的是監(jiān)督性語音分離的主要目標.在時頻掩蔽目標中,理想二值掩蔽具有最為簡單的形式,而且具有聽覺感知掩蔽的心理學依據(jù),是早期監(jiān)督性語音分離最常用的分離目標,其分離的語音能夠極大地提高語音的可懂度,然而語音的聽覺感知質量往往得不到提高.理想浮值掩蔽具有0到1的平滑形式,近似于維納濾波,不僅能夠提高分離語音的可懂度而且能夠顯著地提高語音的感知質量,在語音和噪音獨立的情況下能夠取得最優(yōu)信噪比增益.相比于理想二值掩蔽,最優(yōu)浮值掩蔽是更為一般意義下的最優(yōu)信噪比增益目標,它考慮了語音和噪音之間的相關性,但是最優(yōu)浮值掩蔽的學習難度也相對較大,目前尚未應用到監(jiān)督性語音分離中.之前大部分時頻掩蔽,都沒有考慮語音的相位信息,而研究表明相位信息對于提高語音的感知質量具有重要作用.復數(shù)域的理想浮值掩蔽考慮了語音的相位信息,被應用到監(jiān)督性語音分離中,取得了顯著的性能提高.語音幅度譜估計的目標直接估計目標語音的幅度譜,相對于時頻掩蔽目標,更為直接也更為靈活,然而其學習難度也更大,常用的語音幅度譜估計的目標是短時傅里葉變換域的語音幅度譜.隱式時頻掩蔽目標并沒有直接估計理想時頻掩蔽,而是將時頻掩蔽融入到實際應用的模型中,直接估計最終的目標,例如目標語音的波形或者語音識別的狀態(tài)概率,這種方式學習到的時頻掩蔽和實際目標最相關,目前,正廣泛應用于語音分離系統(tǒng)中.

5 模型

語音分離能夠很自然地表達成一個監(jiān)督性學習問題,一個典型的監(jiān)督性語音分離系統(tǒng)利用學習模型學習一個從帶噪特征到分離目標的映射函數(shù).目前已有許多學習模型應用到語音分離中,常用的模型大致可以分為兩類:淺層模型和深層模型.在早期的監(jiān)督性語音分離中[1,14,31],淺層模型通常直接對輸入的帶噪時頻單元的分布進行概率建模或區(qū)分性建模,例如GMM[1]和SVM[31],或者直接對輸入的帶噪特征數(shù)據(jù)進行矩陣分解,以推斷混合數(shù)據(jù)中語音和噪音的成分,例如NMF[14].由于淺層模型沒有從數(shù)據(jù)中自動抽取有用特征的能力,因此,它們嚴重依賴于人工設計的特征,另外,淺層模型對高維數(shù)據(jù)處理的能力通常比較有限,很難通過擴展上下文幀來挖掘語音信號中的時頻相關性.深層模型是近幾年來受到極大關注的學習模型,在語音和圖像等領域都取得了巨大的成功.由于深層模型層次化的非線性處理,使得它能夠自動抽取輸入數(shù)據(jù)中對目標最有力的特征表示,相比于淺層模型,深層模型能夠處理更原始的高維數(shù)據(jù),對特征設計的知識要求相對較低,而且深層模型擅長于挖掘數(shù)據(jù)中的結構化特性和結構化輸出預測.由于語音的產生機制,語音分離的輸入特征和輸出目標都呈現(xiàn)了明顯的時空結構,這些特性非常適合用深層模型來進行建模.許多深層模型廣泛應用到語音分離中,包括DNN[18]、DSN[33[22]、RNN[19-20,28]、Deep NMF[23]和LSTM[39].

5.1淺層模型

1)高斯混合模型(GMM).高斯混合模型能夠刻畫任意復雜的分布,Kim等[1]利用GMM分別對每一個頻帶被目標語音主導的時頻單元和被噪音主導的時頻單元進行建模,這里各個頻帶是獨立建模的,在測試階段,給定時頻單元的輸入特征,計算被目標語音主導和被噪音主導的概率,然后進行貝葉斯推斷,判斷時頻單元是被目標語音主導還是被噪音主導,如果被語音主導標記為1,否則標記為0,當所有的時頻單元被判斷出來,則二值掩蔽被估計出來.最后,利用估計的二值掩蔽和混合語音的Gammtone濾波輸出合成目標語音的時域波形.

高斯混合模型是一種生成式的模型,目標語音主導的時頻單元的概率分布和噪音主導的時頻單元的概率分布有很多重疊部分,并且它不能挖掘特征中的區(qū)分信息,不能進行區(qū)分性訓練.孤立地對每一個頻帶建模,無法利用頻帶間的相關性,同時會導致訓練和測試代價過大,很難具有實用性.

2)支持向量機(SVM).支持向量機能夠學習數(shù)據(jù)中的最優(yōu)分類面,以區(qū)分不同類別的數(shù)據(jù).Han等[32]提出用SVM對每一個頻帶的時頻單元進行建模,學習被目標語音主導的時頻單元和被噪音主導的時頻單元最優(yōu)區(qū)分面.在測試階段,輸入時頻單元的特征,通過計算到分類面的距離實現(xiàn)時頻單元的分類.

相比于GMM,SVM取得了更好的分類準確性和泛化性能.這主要得益于SVM的區(qū)分性訓練.但是SVM仍然是對每一個時頻單元進行單獨建模,忽略了它們之間的相關性和語音的時空結構特性,同時SVM是淺層模型,并沒有特征抽象和層次化學習的能力.

3)非負矩陣分解(NMF).非負矩陣分解是著名的表示學習方法,它能挖掘隱含在非負數(shù)據(jù)中的局部表示.給定非負矩陣X∈R+,非負矩陣分解將X近似分解成兩個非負矩陣的乘積,X≈WH,其中W 是非負基矩陣,H是對應的激活系數(shù)矩陣.當非負矩陣分解應用到純凈語音或者噪音的幅度譜時,NMF能挖掘出語音或者噪音的基本譜模式.在語音分離中,首先在訓練階段,在純凈的語音和噪音上分別訓練NMF模型,得到語音和噪音的基矩陣.然后,在測試階段,聯(lián)合語音和噪音的基矩陣得到一個既包含語音成分又包含噪音成分的更大的基矩陣,利用得到的基矩陣,通過非負線性組合重構混合語音幅度譜,當重構誤差收斂時,語音基和噪音基對應的激活矩陣被計算出來,然后利用非負線性組合即可分離出混合語音中的語音和噪音.

NMF是單層線性模型,很難刻畫語音數(shù)據(jù)中的非線性關系,另外,在語音分離過程中,NMF的推斷過程非常費時,很難達到實時性要求,大大限制了NMF在語音分離中的實際應用.

5.2深層模型

1)深度神經網絡(DNN).DNN是最常見的深層模型,一個典型的DNN通常由一個輸入層,若干個非線性隱含層和一個輸出層組成,各個層依次堆疊,上層的輸出輸入到下一層中,形成一個深度的網絡.層次化的非線性處理使得DNN具有強大的表示學習的能力,能夠從原始數(shù)據(jù)中自動學習對目標最有用的特征表示,抓住數(shù)據(jù)中的時空結構.然而,深度網絡的多個非線性隱含層使得它的優(yōu)化非常困難,往往陷入性能較差的局部最優(yōu)點.為解決這個問題,2006年Hinton等提出了一種無監(jiān)督的預訓練方式,極大地改善了深度神經網絡的優(yōu)化問題[65].自此,深度神經網絡得到廣泛的研究,在語音和圖像等領域取得巨大的成功.Xu等將DNN應用于語音分離中,取得了顯著的性能提升.在文獻[18]中,DNN被用來學習一個從帶噪特征到目標語音的對數(shù)能量幅度譜的映射函數(shù),如圖5所示.上下文幀的對數(shù)幅度譜作為輸入特征,通過兩個隱層的非線性變換和輸出層的線性變換,估計得到對應幀的目標語音的對數(shù)幅度譜.最后,使用混合語音的相位,利用ISTFT得到目標語音的時域波形信號.

圖5 Xu等提出的基于DNN的語音分離系統(tǒng)的網絡結構[18]Fig.5 The structure of the proposed DNN-based speech separation system by Xu et al.[18]

實驗結果顯示Xu等提出的方法在大規(guī)模訓練數(shù)據(jù)上取得了優(yōu)異的語音分離性能.然而,直接估計目標語音的對數(shù)幅度譜是一個非常困難的任務,需要大量的訓練數(shù)據(jù)才能有效地訓練模型,同時其泛化性能也是一個重要的問題.

2)深度堆疊網絡(DSN).語音信號具有很強的時序相關性,探究這些特性能夠提高語音分離的性能,為此,Nie等[33]利用DSN的層次化模塊結構對時頻單元的時序相關性進行建模,定義為DSN-TS,如圖6所示.DSN的基本模塊是一個由一個輸入層,一個隱層和一個線性輸出層組成的前向傳播網絡.模塊之間相互堆疊,每一個模塊依次對應一個時刻幀,前一個模塊的輸出連接上下一個時刻的輸入特征作為下一個模塊的輸入,如此類推,便可估計所有時刻的時頻單元的掩蔽.

圖6 Nie等提出的基于DSN-TS的語音分離系統(tǒng)的網絡結構[33]Fig.6 The structure of the proposed DSN-TS-based speech separation system by Nie et al.[33]

相比于之前的模型,DSN-TS考慮了時頻單元之間的時序關系,在分離性能上取得進一步提高.然而,DSN-TS對每一個頻帶單獨建模,忽略了頻帶之間的相關性.

基音是語音的一個顯著的特征,在傳統(tǒng)的計算聽覺場景分析中常被用作語音分離的組織線索.基于基音的特征也常被用于語音分離,然而,噪音環(huán)境下,基音的提取是一個挑戰(zhàn)性的工作,Zhang等[34]巧妙地將噪聲環(huán)境下的基音提取和語音分離融合到DSN中,定義為DSN-Pitch,如圖7所示.在DSNPitch中,基音提取和語音分離交替進行,相互促進. DSN-Pitch同時提高了語音分離的性能和基音提取的準確性,然而,DSN-Pitch依然對每一個時頻單元單獨建模,嚴重忽略了它們之間的時空相關性.

3)深度循環(huán)神經網絡(Deep recurrent neural network,DRNN).由于語音的產生機制,語音具有明顯的長短時譜依賴性,這些特性能夠被用來幫助語音分離.盡管DNN具有強大的學習能力,但是DNN僅能通過上下文或者差分特征對數(shù)據(jù)中的時序相關性進行有限的建模,而且會極大地增加輸入數(shù)據(jù)的維度,大大地增加了學習的難度.RNN是非常常用的時序模型,利用其循環(huán)連接能夠對時序數(shù)據(jù)中長短時依賴性進行建模.Huang等將RNN應用到語音分離中,取得比較好的語音分離性能[29].標準的RNN僅有一個隱層,為了對語音數(shù)據(jù)進行層次化抽象,Huang等[29]使用深度的RNN作為最終的分離模型,如圖8所示.

圖8 Huang等提出的基于DRNN的語音分離系統(tǒng)的網絡結構[29]Fig.8 The structure of the proposed DRNN-based speech separation system by Huang et al.[29]

相對于DNN,DRNN能夠抓住數(shù)據(jù)中時序相關性,但是由于梯度消失的問題,DRNN不容易訓練,對長時依賴的建模能力有限.實驗結果表明,相對于DNN,DRNN在語音分離中的性能提升比較有限.

4)長短時記憶網絡(Long short-term memory,LSTM).作為RNN的升級版本,在網絡結構上,LSTM增加了記憶單元、輸入門、遺忘門和輸出門,這些結構單元使得LSTM相比于RNN在時序建模能力上得到巨大的提升,能夠記憶更多的信息,并能有效抓住數(shù)據(jù)中的長時依賴.語音信號具有明顯的長短時依賴性,Weninger等將LSTM應用到語音分離中,取得了顯著的性能提升[5,39].

5)卷積神經網絡(Convolutional neural network,CNN).CNN在二維信號處理上具有天然的優(yōu)勢,其強大的建模能力在圖像識別等任務已得到驗證.在語音分離中,一維時域信號經過時頻分解技術變成二維的時頻信號,各個時頻單元在時域和頻域上具有很強的相關性,呈現(xiàn)了明顯的時空結構. CNN擅長于挖掘輸入信號中的時空結構,具有權值共享,形變魯棒性特性,直觀地看,CNN適合于語音分離任務.目前CNN已應用到語音分離中,在相同的條件下取得了最好的分離性能,超過了基于DNN的語音分離系統(tǒng)[22,66].

6)深度非負矩陣分解(Deep nonnegative matrix factorization,Deep NMF).盡管NMF能抓住隱含在非負數(shù)據(jù)中的局部基表示,但是,NMF是一個淺層線性模型,很難對非負數(shù)據(jù)中的結構特性進行層次化的抽象,也無法處理數(shù)據(jù)中的非線性關系.而語音數(shù)據(jù)中存在豐富的時空結構和非線性關系,挖掘這些信息能夠提高語音分離的性能.為此,Le Roux等將NMF擴展成深度結構,在語音分離應用上取得巨大的性能提升[23,40-41].

總結以上介紹的語音分離模型,可以看到:淺層模型,復雜度低但泛化性能好,無法自動學習數(shù)據(jù)中的特征表示,其性能嚴重依賴于人工設計的特征,基于淺層模型的語音分離系統(tǒng)其性能和實用性有限;深度模型,復雜度高建模能力強,其泛化性能可以通過擴大訓練數(shù)據(jù)量來保證,另外,深度模型能夠自動學習數(shù)據(jù)中有用的特征表示,因此對特征設計的要求不高,而且,能夠處理復雜的高維數(shù)據(jù),可以通過將上下文幀級聯(lián)輸入到深度模型中,以便為語音分離提供更多的信息.同時,深度模型具有豐富的結構,能夠抓住語音數(shù)據(jù)的很多特性,例如時序性、時空相關性、長短時譜依賴性和自回歸性等.深度模型能夠處理復雜的結構映射,因此,能夠為基于深度模型的語音分離設計更加復雜的目標來提高語音分離的性能.目前,監(jiān)督性語音分離的主流模型是深度模型,并開始將淺層模型擴展成深度模型.

6 總結與展望

6.1總結

本文從時頻分解、特征、目標和模型四個方面對基于深度學習的語音分離技術的整體框架和主要流程進行綜合概述和分析比較.對于時頻分解,聽覺濾波器組和傅里葉變換是最常用的技術,它們在分離性能上沒有太大的差異.聽覺濾波器組在低頻具有更高的分辨率,但是計算復雜度比較高,傅里葉變換具有快速算法而且是一個可逆變換,在監(jiān)督性語音分離中日益成為主流.對于特征,目前幀級別的MRCG和FFT-magnitude分別是Gammtone域下和傅里葉變換域下最主流的特征,已經在許多研究中得到驗證,是目前語音分離使用最多的特征.時頻掩蔽是監(jiān)督性語音分離最主要的分離目標,浮值掩蔽在可懂度和感知質量上都優(yōu)于二值掩蔽,目前是語音分離的主流目標.然而,時頻掩蔽并不能優(yōu)化實際的分離目標,傅里葉幅度譜是一種更接近實際目標的分離目標,相對于時頻掩蔽具有更好的靈活性,能夠進行區(qū)分性學習,日益得到研究者的重視,但是,其學習難度更大.目前結合時頻掩蔽和傅里葉幅度譜的隱式掩蔽目標顯示了光明的研究前景,正被日益廣泛地應用到語音分離中,而且各種變形的隱式掩蔽目標正不斷地被提出.自從語音分離被表達成監(jiān)督性學習問題,各種學習模型被嘗試著應用到語音分離中,在各種模型中,深度模型在語音分離任務中顯示了強大的建模能力,取得了巨大的成功,目前已經成為語音分離的主流方法.

語音分離在近幾年來得到研究者的廣泛關注,針對時頻分解,特征、目標和模型都有許多方法被提出.對現(xiàn)存的方法,我們從建模單元、分離目標和學習模型三個方面進行簡單的分類總結:

1)建模單元.語音分離的建模單元主要有兩類:a)時頻單元的建模;b)幀級別的建模.時頻單元的建模對每一個時頻單元單獨建模,通過分類模型估計每一個時頻單元是被語音主導還是被噪音主導,早期,基于二值分類的監(jiān)督性語音分離通常是基于時頻單元建模的.幀級別的建模將一幀或者若干幀語音的所有時頻單元看成一個整體,同時對它們進行建模,估計的目標也是幀級別的.相對于時頻單元的建模,幀級別的建模能夠抓住語音的時頻相關性,一般認為幀級別的建模能取得更好的語音分離性能.目前,幀級別的建模已成為監(jiān)督性語音分離的主流建模方法,從時頻單元到幀級別的建模單元轉變是一個巨大的進步,這主要得益于深度學習強大的表示與學習能力,能夠進行結構性輸出學習.傳統(tǒng)的淺層學習能力很難學習結構復雜的高維度的輸出.

2)分離目標.語音分離的目標主要分為三類:a)時頻掩蔽;b)目標語音的幅度譜估計;c)隱式時頻掩蔽.時頻掩蔽是語音分離的主要目標,許多監(jiān)督性語音分離系統(tǒng)從帶噪特征中估計目標語音的二值掩蔽或者浮值掩蔽,然而,時頻掩蔽是一個中間目標,并沒有直接優(yōu)化實際的語音分離目標.相對于時頻掩蔽,估計目標語音的幅度譜更接近實際的語音分離目標,而且更為靈活,能夠更充分利用語音和噪音的特性構造區(qū)分性的訓練目標.但是,由于幅度譜的變化范圍比較大,在學習難度上要比時頻掩蔽目標的學習難度大.深度學習具有強大的學習能力,現(xiàn)在已有許多基于深度學習的語音分離方法直接估計目標語音的幅度譜.隱式的時頻掩蔽方法將時頻掩蔽融合到深度神經網路中,并不直接估計理想時頻掩蔽,而是作為中間處理層幫助實際目標的估計.在這里,時頻掩蔽并不是神經網絡學習的目標,它是通過實際應用的目標的估計誤差隱式地得到的.相對于時頻掩蔽和目標語音幅度譜估計的方法,隱式時頻掩蔽方法融合了時頻掩蔽和目標語音幅度譜估計方法的優(yōu)勢,能夠取得更好的語音分離性能,目前已有幾個基于隱式的時頻掩蔽方法的監(jiān)督性語音分離方法被提出,并且取得了顯著的性能提升.

3)學習模型.監(jiān)督性語音分離的學習模型主要分為兩類:a)淺層模型;b)深層模型.早期的監(jiān)督性語音分離主要使用淺層模型,一般對每一個頻帶的時頻單元單獨建模,并沒有考慮時頻單元之間的時空相關性.基于淺層模型的語音分離系統(tǒng)分離的語音的感知質量通常比較差.隨著深度學習的興起,深層模型開始廣泛應用到語音分離中,目前已經成為監(jiān)督性語音分離最主流的學習模型.深層模型具有強大的建模能力,能夠挖掘數(shù)據(jù)中的深層結構,相對于淺層模型,深層模型分離的語音不僅在感知質量和可懂度方便都得到巨大的提升,而且隨著數(shù)據(jù)的增大,其泛化性能和分離性能得到不斷的提高.

6.2展望

最近幾年,在全世界研究者的共同努力下,監(jiān)督性語音分離得到巨大的發(fā)展.針對監(jiān)督性語音分離的特征、目標和模型三個主要方面都進行了深入細致的研究,取得許多一致性的共識.目前,監(jiān)督性語音分離的框架基本成熟,即利用深度模型學習一個從帶噪特征到分離目標的映射函數(shù).很難在框架層面進行重大的改進,針對現(xiàn)有的框架,特別是基于深度學習的語音分離框架,我們認為,未來監(jiān)督性語音分離可能在下面幾個方面.

1)泛化性.盡管監(jiān)督性語音分離取得了很好的分離性能,特別是深度學習的應用,極大地促進了監(jiān)督性語音分離的發(fā)展.但在聽覺條件或者訓練數(shù)據(jù)不匹配的情況下,例如噪音不匹配和信噪比不匹配的情況下,分離性能會急劇下降.目前解決這個問題最有效方法是擴大數(shù)據(jù)的覆蓋面,但現(xiàn)實情況很難做到覆蓋大部分的聽覺環(huán)境,同時訓練數(shù)據(jù)增大又帶來訓練時間的增加,不利于模型更新.我們認為解決這個問題的兩個可行的方向是:a)挖掘人耳的聽覺心理學知識,例如將計算聽覺場景分析的知識融入到監(jiān)督性語音分離模型中.人耳對于聲音的處理具有很好的魯棒性.早期計算聽覺場景分析的許多研究表明基音和聽覺掩蔽等對噪音是非常魯棒的,將這些積累的人工知識和計算聽覺場景分析的處理過程有效融入到監(jiān)督性語音分離中可能會提高監(jiān)督性語音分離的泛化性能.b)更多地關注和挖掘語音的固有特性.由于人聲產生的機理,人聲具有很多明顯的特性,例如稀疏性、時空連續(xù)性、明顯的諧波結構、自回歸性、長短時依賴性等,對于噪音,這些特性具有明顯的區(qū)分性,而且,對于不同的人發(fā)出的人聲,不同的語言和內容,人聲都具有這些特性.而噪音的變化卻多種多樣,很難找到共有的模式.因此應該將更多的精力放到對語音固有特性的研究和挖掘上而不是只關注噪音.將語音固有的特性融入到監(jiān)督性語音分離模型中可能會提高語音分離的性能和泛化能力.

2)生成式模型和監(jiān)督性模型聯(lián)合.人耳對聲音的處理過程可能是模式驅動的,即在大腦高層可能存儲有許多關于語音的基本模式,當我們聽到帶噪語音的時候,帶噪語音會激發(fā)大腦中相似的語音模式響應,這些先后被激活的語音模式組合起來即可形成大腦可理解的語義單元,使得人們能從帶噪語音中聽清語音.而這些語音模式一方面是從父母繼承而來的,一方面是后天學習來的.我們可以利用生成式模型從大量純凈的語音中學習語音的基本譜模式,然后利用監(jiān)督性學習模型來估計語音基本譜模式的激活量,利用這些激活的基本譜模式可以重構純凈的語音.基本譜模式的學習可以利用很多生成式模型,而它們之間的融合也可以有多種形式,這方面有許多內容值得進一步探討.

References

1 Kim G,Lu Y,Hu Y,Loizou P C.An algorithm that improves speech intelligibility in noise for normal-hearing listeners.The Journal of the Acoustical Society of America,2009,126(3):1486-1494

2 Dillon H.Hearing Aids.New York:Thieme,2001.

3 Allen J B.Articulation and intelligibility.Synthesis Lectures on Speech and Audio Processing,2005,1(1):1-124

4 Seltzer M L,Raj B,Stern R M.A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition.Speech Communication,2004,43(4):379-393

5 Weninger F,Erdogan H,Watanabe S,Vincent E,Le Roux J,Hershey J R,Schuller B.Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR.In:Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation.Liberec,Czech Republic:Springer International Publishing,2015.91 -99

6 Weng C,Yu D,Seltzer M L,Droppo J.Deep neural networks for single-channel multi-talker speech recognition.IEEE/ ACM Transactions on Audio,Speech,and Language Processing,2015,23(10):1670-1679

7 Boll S F.Suppression of acoustic noise in speech using spectral subtraction.IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(2):113-120

8 Chen J D,Benesty J,Huang Y T,Doclo S.New insights into the noise reduction wiener filter.IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1218 -1234

9 Loizou P C.Speech Enhancement:Theory and Practice. New York:CRC Press,2007.

10 Liang S,Liu W J,Jiang W.A new Bayesian method incorporating with local correlation for IBM estimation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(3):476-487

11 Roweis S T.One microphone source separation.In:Proceedings of the 2000 Advances in Neural Information Processing Systems.Cambridge,MA:The MIT Press,2000.793-799

12 Ozerov A,Vincent E,Bimbot F.A general flexible framework for the handling of prior information in audio source separation.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(4):1118-1133

13 Reddy A M,Raj B.Soft mask methods for single-channel speaker separation.IEEE Transactions on Audio,Speech,and Language Processing,2007,15(6):1766-1776

14 Mohammadiha N,Smaragdis P,Leijon A.Supervised and unsupervised speech enhancement using nonnegative matrix factorization.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(10):2140-2151

15 Virtanen T.Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria.IEEE Transactions on Audio,Speech,and Language Processing,2007,15(3):1066-1074

16 Wang D L,Brown G J.Computational Auditory Scene Analysis:Principles,Algorithms,and Applications.Piscataway:IEEE Press,2006.

17 Wang Y X,Narayanan A,Wang D L.On training targets for supervised speech separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(12):1849-1858

18 Xu Y,Du J,Dai L R,Lee C H.An experimental study on speech enhancement based on deep neural networks.IEEE Signal Processing Letters,2014,21(1):65-68

19 Huang P S,Kim M,Hasegawa-Johnson M,Smaragdis P. Deep learning for monaural speech separation.In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence:IEEE,2014. 1562-1566

20 Weninger F,Hershey J R,Le Roux J,Schuller B.Discriminatively trained recurrent neural networks for single-channel speech separation.In:Proceedings of the 2014 IEEE Global Conference on Signal and Information Processing.Atlanta,GA:IEEE,2014.577-581

21 Wang Y X,Wang D L.A deep neural network for timedomain signal reconstruction.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech,and Signal Processing.South Brisbane:IEEE,2015.4390-4394

22 Simpson A J,Roma G,Plumbley M D.Deep karaoke:extracting vocals from musical mixtures using a convolutional deep neural network.In:Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation.Liberec,Czech Republic:Springer International Publishing,2015.429-436

23 Le Roux J,Hershey J R,Weninger F.Deep NMF for speech separation.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech,and Signal Processing. South Brisbane:IEEE,2015.66-70

24 Gabor D.Theory of communication.Part 1:the analysis of information.Journal of the Institution of Electrical Engineers— Part III:Radio and Communication Engineering,1946,93(26):429-441

25 Patterson R,Nimmo-Smith I,Holdsworth J,Rice P.An efficient auditory filterbank based on the gammatone function. In:Proceedings of the 1987 Speech-Group Meeting of the Institute of Acoustics on Auditory Modelling.RSRE,Malvern,1987.2-18

26 Wang Y X,Han K,Wang D L.Exploring monaural features for classification-based speech segregation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(2):270-279

27 Chen J T,Wang Y X,Wang D L.A feature study for classification-based speech separation at low signal-to-noise ratios.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(12):1993-2002

28 Huang P S,Kim M,Hasegawa-Johnson M,Smaragdis P. Singing-voice separation from monaural recordings using deep recurrent neural networks.In:Proceedings of the 15th International Society for Music Information Retrieval. Taipei,China,2014.

29 Huang P S,Kim M,Hasegawa-Johnson M,Smaragdis P. Joint optimization of masks and deep recurrent neural networks for monaural source separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(12):2136-2147

30 Wang Y X,Wang D L.Towards scaling up classificationbased speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(7):1381-1390

31 Han K,Wang D L.A classification based approach to speech segregation.The Journal of the Acoustical Society of America,2012,132(5):3475-3483

32 Han K,Wang D L.Towards generalizing classification based speech separation.IEEE Transactions on Audio,Speech,and Language Processing,2013,21(1):168-177

33 Nie S,Zhang H,Zhang X L,Liu W J.Deep stacking networks with time series for speech separation.In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence:IEEE,2014. 6667-6671

34 Zhang H,Zhang X L,Nie S,Gao G L,Liu W J.A pairwise algorithm for pitch estimation and speech separation using deep stacking network.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech,and Signal Processing.South Brisbane:IEEE,2015.246-250

35 Han K,Wang Y X,Wang D L,Woods W S,Merks I,Zhang T.Learning spectral mapping for speech dereverberation and denoising.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(6):982-992

36 Nie S,Xue W,Liang S,Zhang X L,Liu W J,Qiao L W,Li J P.Joint optimization of recurrent networks exploiting source auto-regression for source separation.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany,2015.

37 Dahl G E,Yu D,Deng L,Acero A.Context-dependent pretrained deep neural networks for large-vocabulary speech recognition.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42

38 Wang Y X.Supervised Speech Separation Using Deep Neural Networks[Ph.D.dissertation],The Ohio State University,USA,2015.

39 Weninger F,Eyben F,Schuller B.Single-channel speech separation with memory-enhanced recurrent neural networks. In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence:IEEE,2014.3709-3713

40 Hershey J R,Le Roux J,Weninger F.Deep unfolding:model-based inspiration of novel deep architectures.arXiv:1409.2574,2014.

41 Hsu C C,Chien J T,Chi T S.Layered nonnegative matrix factorization for speech separation.In:Proceedings of the 16th Annual Conference of the International Speech Communication Association.Dresden,Germany:ICSA,2015. 628-632

42 Liang S,Liu W J,Jiang W,Xue W.The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio.The Journal of the Acoustical Society of America,2013,134(5):EL452-EL458

43 Liang S,Liu W J,Jiang W,Xue W.The analysis of the simplification from the ideal ratio to binary mask in signal-tonoise ratio sense.Speech Communication,2014,59:22-30

44 Anzalone M C,Calandruccio L,Doherty K A,Carney L H.Determination of the potential benefit of time-frequency gain manipulation.Ear and Hearing,2006,27(5):480-492

45 Brungart D S,Chang P S,Simpson B D,Wang D L.Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation.The Journal of the Acoustical Society of America,2006,120(6):4007-4018

46 Li N,Loizou P C.Factors influencing intelligibility of ideal binary-masked speech:implications for noise reduction.The Journal of the Acoustical Society of America,2008,123(3):1673-1682

47 Wang D L,Kjems U,Pedersen M S,Boldt J B,Lunner T. Speech intelligibility in background noise with ideal binary time-frequency masking.The Journal of the Acoustical Society of America,2009,125(4):2336-2347

48 Hartmann W,F(xiàn)osler-Lussier E.Investigations into the incorporation of the ideal binary mask in ASR.In:Proceedings of the 2011 IEEE International Conference on Acoustics,Speech,and Signal Processing.Prague:IEEE,2011.4804-4807

49 Narayanan A,Wang D L.The role of binary mask patterns in automatic speech recognition in background noise.The Journal of the Acoustical Society of America,2013,133(5):3083-3093

50 Paliwal K,W′ojcicki K,Shannon B.The importance of phase in speech enhancement.Speech Communication,2011,53(4):465-494

51 Mowlaee P,Saiedi R,Martin R.Phase estimation for signal reconstruction in single-channel speech separation.In:Proceedings of the 2012 International Conference on Spoken Language Processing.Portland,USA:ISCA,2012.1-4

52 Krawczyk M,Gerkmann T.STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(12):1931-1940

53 Williamson D S,Wang Y X,Wang D L.Complex ratio masking for monaural speech separation.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(3):483-492

54 Mallat S.A Wavelet Tour of Signal Processing.Burlington:Academic Press,1999.

55 Hermansky H,Morgan N.Rasta processing of speech.IEEE Transactions on Speech and Audio Processing,1994,2(4):578-589

56 Shao Y,Jin Z Z,Wang D L,Srinivasan S.An auditory-based feature for robust speech recognition.In:Proceedings of the 2009 IEEE International Conference on Acoustics,Speech,and Signal Processing.Taipei,China:IEEE,2009.4625-4628

57 Hu G N,Wang D L.A tandem algorithm for pitch estimation and voiced speech segregation.IEEE Transactions on Audio,Speech,and Language Processing,2010,18(8):2067 -2079

58 Han K,Wang D L.An SVM based classification approach to speech separation.In:Proceedings of the 2011 IEEE International Conference on Acoustics,Speech,and Signal Processing.Prague:IEEE,2011.4632-4635

59 Narayanan A,Wang D L.Investigation of speech separation as a front-end for noise robust speech recognition.IEEE/ ACM Transactions on Audio,Speech,and Language Processing,2014,22(4):826-835

60 Narayanan A,Wang D L.Improving robustness of deep neural network acoustic models via speech separation and joint adaptive training.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(1):92-101

61 Wang D L.On ideal binary mask as the computational goal of auditory scene analysis.Speech Separation by Humans and Machines.US:Springer,2005.181-197

62 Healy E W,Yoho S E,Wang Y X,Wang D L.An algorithm to improve speech recognition in noise for hearing-impaired listeners.The Journal of the Acoustical Society of America,2013,134(4):3029-3038

63 Kjems U,Boldt J B,Pedersen M S,Lunner T,Wang D L.Role of mask pattern in intelligibility of ideal binarymasked noisy speech.The Journal of the Acoustical Society of America,2009,126(3):1415-1426

64 Srinivasan S,Roman N,Wang D L.Binary and ratio timefrequency masks for robust speech recognition.Speech Communication,2006,48(11):1486-1501

65 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507

66 Sprechmann P,Bruna J,LeCun Y.Audio source separation with discriminative scattering networks.In:Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation.Liberec,Czech Republic:Springer International Publishing,2015.259-267

劉文舉中國科學院自動化研究所研究員.主要研究方向為計算聽覺場景分析,語音增強,語音識別,聲紋識別,聲源定位和聲音事件檢測.本文通信作者.

E-mail:lwj@nlpr.ia.ac.cn

(LIU Wen-JuProfessor at the Institute of Automation,Chinese Academy of Sciences.His research interest covers computational auditory scene analysis,speech enhancement,speech recognition,speaker recognition,source location,and voice event detection.Corresponding author of this paper.)

聶 帥中國科學院自動化研究所博士研究生.2013年獲得內蒙古大學學士學位.主要研究方向為語音信號處理技術,深度學習,語音分離,計算聽覺場景分析.

E-mail:shuai.nie@nlpr.ia.ac.cn

(NIEShuaiPh.D.candidate at the Institute of Automation,Chinese Academy of Sciences.He received his bachelor degree from Inner Mongolia University in 2013. His research interest covers acoustic and speech signal processing,deep learning,speech separation,and computational auditory scene analysis.)

梁 山中國科學院自動化研究所助理研究員.2008年獲得西安電子科技大學學士學位,2014年獲得中國科學院自動化研究所博士學位.主要研究方向為語音信號處理技術,語音分離,計算聽覺場景分析,語音識別.

E-mail:sliang@nlpr.ia.ac.cn

(LIANG ShanAssistant professor at the Institute of Automation,Chinese Academy of Sciences.He received his bachelor degree from Xidian University in 2008,and Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in 2014.His research interest covers acoustic and speech signal processing,speech separation,computational auditory scene analysis,and speech recognition.)

張學良內蒙古大學副教授.2003年獲得內蒙古大學學士學位,2005年獲得哈爾濱工業(yè)大學碩士學位,2010年獲得中國科學院自動化研究所博士學位.主要研究方向為語音分離,計算聽覺場景分析,語音信號處理.

E-mail:cszxl@imu.edu.cn

(ZHANGXue-LiangAssociate professor at Inner Mongolia University.He received his bachelor degree from Inner Mongolia University in 2003,master degree from Harbin Institute of Technology in 2005,and Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in 2010,respectively.His research interest covers speech separation,computational auditory scene analysis,and speech signal processing.)

Deep Learning Based Speech Separation Technology and Its Developments

LIU Wen-Ju1NIE Shuai1LIANG Shan1ZHANG Xue-Liang2

Nowadays,speech interaction technology has been widely used in our daily life.However,due to the interferences,the performances of speech interaction systems in real-world environments are far from being satisfactory.Speech separation technology has been proven to be an effective way to improve the performance of speech interaction in noisy environments.To this end,decades of efforts have been devoted to speech separation.There have been many methods proposed and a lot of success achieved.Especially with the rise of deep learning,deep learning-based speech separation has been proposed and extensively studied,which has been shown considerable promise and become a main research line. So far,there have been many deep learning-based speech separation methods proposed.However,there is little systematic analysis and summary on the deep learning-based speech separation technology.We try to give a detail analysis and summary on the general procedures and components of speech separation in this regard.Moreover,we survey a wide range of supervised speech separation techniques from three aspects:1)features,2)targets,3)models.And finally we give some views on its developments.

Neural network,speech separation,computational auditory scene analysis,machine learning

10.16383/j.aas.2016.c150734

Liu Wen-Ju,Nie Shuai,Liang Shan,Zhang Xue-Liang.Deep learning based speech separation technology and its developments.Acta Automatica Sinica,2016,42(6):819-833

2015-11-04錄用日期2016-04-01
Manuscript received November 4,2015;accepted April 1,2016
國家自然科學基金(61573357,61503382,61403370,61273267,911 20303,61365006)資助
Supported by National Natural Science Foundation of China (61573357,61503382,61403370,61273267,91120303,61365006)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.中國科學院自動化研究所模式識別國家重點實驗室 北京 100190 2.內蒙古大學計算機系呼和浩特010021
1.National Laboratory of Patten Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 1001902. College of Computer Science,Inner Mongolia University,Huhhot 010021

猜你喜歡
時頻幅度噪音
噪音,總是有噪音!
無法逃避的噪音
微波超寬帶高速數(shù)控幅度調節(jié)器研制
噪音的小把戲
白噪音的三種用法
Coco薇(2017年9期)2017-09-07 22:09:28
基于ANSYS的四連桿臂架系統(tǒng)全幅度應力分析
基于時頻分析的逆合成孔徑雷達成像技術
2014年中期預增(降)幅度最大的50家上市公司
對采樣數(shù)據(jù)序列進行時頻分解法的改進
雙線性時頻分布交叉項提取及損傷識別應用
思茅市| 宜黄县| 佛坪县| 沙湾县| 游戏| 万盛区| 崇义县| 阜新| 望江县| 北宁市| 郴州市| 伊通| 内丘县| 阿鲁科尔沁旗| 大姚县| 交城县| 郴州市| 广河县| 陈巴尔虎旗| 东莞市| 昌宁县| 广元市| 镇康县| 大英县| 岱山县| 龙泉市| 图木舒克市| 花莲县| 库尔勒市| 青海省| 京山县| 集安市| 房产| 汝南县| 托克逊县| 文成县| 远安县| 丹巴县| 门头沟区| 杭州市| 辽源市|