史秋瑩 鄭鐵然
Abstract: Environment Sound Recognition(ESR) is an efficient way to perceive surrounding scenes, which is widely used in many application scenarios like robotic navigation, mobile robots, audio retrieval, audio forensics and other wearable, context-aware applications. Classifiers used in most ESR problems is too simple to express features and classify the environment sounds accurately. Deep Neural Network(DNN) is a multilayer, efficient neural network, which also can provide a better way for describing features and solving pattern recognition problems. In this paper, deep learning is used in ESR problem, and for sufficient using audio features, different audio features are fusioned by feature-fusion method. Based on the above, the paper classifies the environment sound by training the Deep Belief Network(DBN). Experimental results show that DBN and feature-fusion method could achieve better performance.
引言
第一次以文學形式記載下來的環(huán)境聲音識別的研究出現在1997年,具體是由來自麻省理工學院(Massachusetts Institute of Technology, MIT)的Sawhney和Maes首度提出并創(chuàng)建問世[1],該研究的數據庫使用包括人群、地鐵、交通、人聲和其它5種語料,而且利用循環(huán)神經網絡(Recurrent Neural Network, RNN) 和K-近鄰(K-Nearest Neighbor, KNN) 方法分別進行5種環(huán)境聲音的分類,最終使用頻帶特征和RNN 分類器獲得68%的準確率。1998年,同樣來自MIT的研究者通過在去往超市途中和在超市內佩戴麥克風的方式獲取連續(xù)的語音流,并對獲取的語音流加以分割,得到不同的特征地點如街道、房間、超市等總共10類場景,為了進行環(huán)境場景的分類,研究選用了隱馬爾科夫(Hidden Markov Model, HMM)[2]。同時,實驗心理學領域的研究者著重研究人們理解和感知聲音場景的過程,Ballas 發(fā)現識別音頻場景的速度和準確率與自然聲音的刺激、發(fā)生頻率等因素直接密切相關[3]。Peltonen等人則發(fā)現人們識別音頻場景是受特定的聲音事件的效果影響的,如人類說話聲、汽車引擎轟鳴聲等,同時還在識別25類聲音場景中獲得70%的準確率,平均響應時間為20 s[4]。在心理聲學相關研究以及MIT研究者[1-2]的影響下,環(huán)境聲音識別受到了廣泛的關注。
目前在環(huán)境聲音識別問題中,已推出了一些成熟解決方法,如GMM、HMM、KNN 等,這些都屬于常用的機器學習方法。但是這些架構都是淺層結構,可以對簡單問題或者完全約束問題取得良好的效果。但是當處理復雜的自然信號如環(huán)境聲音、自然語言時,由于缺少對復雜信號的表達能力和建模能力,淺層模型往往無法滿足識別性能的要求。而從淺層學習到深度學習的過程則可以視作為機器學習的一條清晰發(fā)展脈絡。
1962年,由Rosenblatt 第一次引入感知器, 從此感知器作為神經網絡中的一個分支概念[5] 而進入學界視野。在此基礎上,Raudys提出單層感知器[6],其中只包含輸入層和輸出層,且兩者直接相連,而單層感知器也是一種最簡單的神經網絡。1989年提出的多層感知器[7],組成結構即是在單層感知器的設計上加入了一層隱藏層,多層感知器是最早具備深層結構的神經網絡。在1986年,由Rumelhart等人提出誤差反向傳播算法(Error Back Propagation, BP)[8],給基于統(tǒng)計模型的機器學習帶來了發(fā)展契機,但是BP 算法并不適用于多個隱藏層的網絡,所以在20世紀80年代末期,雖然找到了求解神經網絡權值的有效方法,但卻只能繼續(xù)應用在多層感知器上,并不能從本質上脫離淺層網絡。由于受到這一現實問題阻隔,神經網絡的研究曾一度擱置,轉而研究支持向量機(Support Vector Machine, SVM) 和條件隨機場(Conditional Random Field, CRF) 理論等其它淺層機器學習方法,而這些淺層網絡及相關理論的研究為深度學習的研究提供了良好的理論依據和經驗基礎。
玻爾茲曼機(Boltzmann Machine, BM) 由Hinton 和 Sejnowski 在1986年成功構建推出的[8],且是一種基于統(tǒng)計力學的隨機神經網絡。同年,Sejnowski又進一步提出了RBM[9]。RBM 是包含有一個可見層、一個隱藏層的層間全連接、層內無連接的網絡,并具有許多優(yōu)良的性質,其中的重要成果即是文獻[10],從理論上證明了只要隱藏單元足夠多,RBM 可以擬合任意離散分布。而2002年提出的對比散度算法(Contrastive Divergence, CD)[11],也由此而吸引了研究者對RBM 以及CD 算法的研究矚目。直到2006年,深度學習才正式亮相,在學術領域占據一席之地。另外,Hinton的研究表明訓練一個全連接的深層網絡是完全可行的[12]。從2006年開始,深度學習作為一個新的機器學習領域受到了更多學者的青睞,也已開始陸續(xù)應用在語音處理、圖像處理等眾多研究領域中,而且均已取得了豐碩成果。
綜上研究可知,深度學習已經具有完整的理論框架和豐厚的經驗基礎,將其應用在環(huán)境聲音識別中即已成為呈現利好應用前景的研究嘗試。本文擬對此展開如下研究論述。
1說話人識別基本框架
基于深度學習的環(huán)境聲音識別流程如圖1所示。流程中包括音頻輸入、前端處理、DBN分類和分類結果4個部分。文中重點論述了前端處理和DBN分類這2部分內容。其中,前端處理包括梅爾倒譜系數(Mel Frequency Cepstrum Coefficient, MFCC)和能量譜密度(Power Spectral Density, PSD)的提取,并在提取后進行特征拼接。研究過程詳見如下。
1.1前端處理
聲音信號是帶有聲波頻率、幅度變化等信息的載體,聲音信號的前端處理過程主要是對音頻信號進行特征提取。聲音信號除了根本性的基頻、諧波、幅度等特征外,當特定對應于不同問題,也需要提取一些符合具體問題背景的音頻特征。特征提取的目的是為了去掉原始音頻數據中的冗余信息,減少實驗數據量,而在進行音頻特征提取時,往往可以從時域和頻域2個方面分別考慮。音頻信號在時域上的變化較為快速,不易觀察,而在頻域上通??梢约僭O音頻信號在一個較短時間內具有穩(wěn)定性,所以音頻信號的前端處理過程往往選擇在頻域上獲得實現。
在環(huán)境聲音識別問題中,MFCC 特征較其它音頻特征常常更顯研究優(yōu)勢,本文在MFCC 特征的基礎上,嘗試加入其它音頻特征以提升識別性能。在本文中即選擇使用了能量譜密度(Power Spectral Density, PSD) 特征與MFCC 特征融合。為此,在本節(jié)中將首先給出MFCC 特征和PSD 特征的研究闡釋,然后對音頻特征的拼接方法提供完整的設計表述與分析。
1.1.1梅爾倒譜系數
20世紀40年代,Stevens 和 Volkmann 的研究表明,人類對于不同頻率的聲音反應有不同的聽覺靈敏度。在1 KHz以下,聽覺系統(tǒng)所感知的聲音頻率(Mel)與該聲音的物理頻率(Hz)逼近于線性關系;而在1 KHz以上,聲音頻率與物理頻率不再遵循線性關系,而是接近于對數關系,且聲音頻率越高,人耳的聽覺靈敏度越差[13]?;谶@一理論事實,1980年,文獻[14]全新提出了MFCC 特征,重點用于刻畫聲音在Mel 刻度頻率上提取得出的倒譜系數,此外,MFCC 還可以對卷積信道產生的失真生成良好的補償能力??偟貋碚f,MFCC就是將人耳的聽覺感知特性和語音的產生機制二者相結合。由此可知,人耳對于高頻率聲音的聽覺靈敏度較差,故而,在實際應用中,往往只保留低頻MFCC 特征,而舍棄高頻MFCC 特征。MFCC的提取過程如圖2所示。本文設計的主要流程包括6個部分,分別為:音頻預處理、快速傅里葉變換(Fast Fourier Transform, FFT)、取模平方、通過Mel 濾波器組、取對數能量和離散余弦變換(Discrete Consine Transform, DCT)。