国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于正弦注意力表征網絡的環(huán)境聲音識別

2022-01-19 09:10彭寧陳愛斌周國雄陳文潔劉晶
應用科學學報 2021年4期
關鍵詞:梅爾類別音頻

彭寧,陳愛斌,周國雄,陳文潔,劉晶

1.中南林業(yè)科技大學人工智能應用研究所,湖南長沙410004

2.中南林業(yè)科技大學智慧物流技術湖南省重點實驗室,湖南長沙410004

3.中南林業(yè)科技大學計算機與信息工程學院,湖南長沙410004

環(huán)境聲音識別主要通過聲音對場景進行分類,因采集成本較低而廣泛應用于智慧城市、智能交通等鄰域。早期的音頻識別方法包括模板匹配、隱形馬爾科夫鏈(hidden Markov model,HMM)、高斯混合模型(Gaussian mixturemodel,GMM)、支持向量機(support vector machine,SVM)、隨機森林等機器學習方法。隨著算力的提高,深度學習技術發(fā)展日新月異并進入了各個領域。在2012年,以卷積神經網絡(convolutional neural network,CNN)為基礎框架的模型AlexNet在ImageNet比賽中1 000類物體的識別上遠超深度神經網絡(deep neural network,DNN)模型,顯示出CNN強大的圖像提取能力[1],于是研究人員開始嘗試將CNN應用于音頻識別。使用CNN對音頻進行識別的方法主要將聲音轉化為音頻特征圖像,借助自身強大的圖像特征提取能力對音頻圖像進行特征提取,并可以在以下兩方面進行改進:1)在輸入端口音頻特征的選取方面,選擇圖像上更明顯的音頻特征,比如梅爾頻譜圖、對數(shù)梅爾頻譜圖、梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)等。2)在特征框架的提取方面,采用具有強特征提取能力的CNN模型結構,如深度卷積神經網絡、殘差網絡等。

2015年,Piczak首次將CNN應用于環(huán)境聲音識別,選用對數(shù)梅爾頻譜圖作為輸入特征,以簡單的兩層CNN作為特征提取器[2]評估ESC-10、ESC-50、Urban Sound 8K這3個數(shù)據(jù)集,與傳統(tǒng)音頻識別模型進行對比的結果顯示,以CNN作為特征提取器的方法更優(yōu)。文獻[3]將對數(shù)梅爾頻譜圖空洞卷積和LeakyReLU激活函數(shù)結合起來,在Urban Sound 8K上得到的準確率為81.9%,隨后陸續(xù)出現(xiàn)了許多改進的CNN模型,用以提高環(huán)境聲音識別的準確性。然而,音頻圖像不同于一般的普通圖像,始終包含時間維度的信息,若用CNN提取音頻特征,則會忽略時間維度上的信息。為了盡可能地保留音頻維度上的特征,研究人員選用循環(huán)神經網絡(recurrent neural networks,RNN)提取音頻。因為在RNN中后一隱藏層特征與前隱藏層特征相關,所以能夠有效提取時域維度的特征。文獻[4]將對數(shù)梅爾頻譜圖特征與注意力機制、門控循環(huán)單元(gated recurrent unit,GRU)相結合,在環(huán)境聲音識別方面取得了較好的結果。

本文基于文獻[5]提出了正弦注意力表征網絡(attention sinusoidal representation network,A-SIREN),首先用GRU網絡提取MFCC音頻特征;然后將正弦表征網絡與注意力機制相結合,以周期函數(shù)表示隱式神經,更好地抓住了音頻重點信息;最后將全連接層與Softmax分類器結合對識別結果進行分類,實驗結果表明了本文算法的有效性。

1 基于A-SIREN的環(huán)境聲音識別

1.1 網絡框架

本文結構如圖1所示,首先提取音頻MFCC特征并將數(shù)據(jù)劃分為訓練集與測試集;然后利用GRU網絡進一步提取MFCC音頻特征,借助A-SIREN模塊重新分配MFCC特征中每一幀的權重,使模型專注于音頻重要區(qū)域;最后將全連接層結合Softmax分類器對音頻進行最終判別。

圖1 總體框架圖Figure 1 Overall framework diagram

因為本文音頻長度不一致,所以將音頻長度零填充至所有音頻中最大音頻長度,同時設定A-SIREN層長度為174。最后將全連接層大小設為10,可以表示10種類別的輸出概率。網絡參數(shù)結構如表1所示。

表1 整體網絡參數(shù)模型Table 1 Model of overall network parameter

1.2 M FCC特征提取

選擇合適的音頻特征可以提高音頻識別率。音頻特征分為時域特征和頻域特征兩大類,其中時域特征反映音頻序列隨時間變化的影響程度。過零點決定音頻的頻率特征,振幅決定音頻的響度變化。為了使音頻特征具有更高的保真度,研究人員往往選用較大的采樣率,因此時域特征很密集,顯示在圖像上更像是噪點,很難體現(xiàn)其特征。此外,音頻響度雖然對音頻識別影響較小,但作為音頻判別特征會影響最終識別,因而很少有研究者將時域音頻特征作為網絡的輸入音頻特征。

頻域特征包含時域信號信息,同時體現(xiàn)音頻的頻率特征。在現(xiàn)有模型中,常用的頻域特征主要包括頻譜圖、梅爾頻譜圖、對數(shù)梅爾頻譜圖、MFCC等。MFCC適用于人耳且能準確描述包絡特征,于是本文將此特征作為模型輸入。將時域特征進行傅里葉變換得到頻譜圖,傅里葉變換公式為

式中:y(t)為時域信號,x為頻域信號,w(t?τ)表示中心位置位于τ的漢明窗(Hamming window),f為頻率,τ為幀長。將所有音頻零填充至最長音頻時間長度4 s[6]。

梅爾濾波依照人耳特性設計,主要作用是突出低頻,抑制高頻。梅爾濾波公式為

式中:fmel為經過濾波后的梅爾頻率。對梅爾頻譜特征取對數(shù),最后進行離散余弦變換得到MFCC特征。MFCC特征提取可視化如圖2所示。

圖2 MFCC特征提取可視化Figure 2 MFCC feature extraction visualization

在圖2中,紅色虛線框代表窗口大小,黃色框代表幀重疊區(qū)域。

2 A-SIREN

本文所提出的環(huán)境聲音識別模型主要包括兩部分:GRU網絡與A-SIREN網絡。

2.1 GRU網絡

GRU網絡屬于RNN的變體,考慮到早期RNN會產生梯度消失與梯度爆炸問題,Hochreiter等對RNN進行改進后提出了長短期記憶(long short-term memory,LSTM)神經網絡[7],解決了RNN層次過深所產生的梯度消失與梯度爆炸問題。文獻[8]提出的GRU不但在多項任務中超越LSTM網絡,而且訓練參數(shù)較少。因此,本文借助GRU網絡使單個門控單元能同時控制遺忘門與輸出門,同樣具有參數(shù)較少的特點。重置門公式為

式中:h(t)為隱藏層向量,包含所有輸出的權重;U為輸入權重;W為循環(huán)權重;σ為sigmoid激活函數(shù);u代表更新門,主要保留當前重要信息;r代表遺忘門,決定信息的保留與丟棄;x(t)為當前輸入向量。更新門與遺忘門的公式為

2.2 A-SIREN

本文將注意力機制與正弦激活函數(shù)結合為A-SIREN,對音頻中重要信息進行高權重分配。其中注意力機制首次在機器翻譯領域提出[9],并成功應用于圖像識別、音頻識別等領域。由于大多數(shù)音頻數(shù)據(jù)中包含冗余信息,提取音頻中重要信息可以提高機器辨識效率。本文使用A-SIREN激活函數(shù)對注意力機制加以改進,首先用正弦函數(shù)激活GRU的隱藏層得分使其歸一化為(?1,1);然后對歸一化結果進行Softmax處理,并為隱藏層分配權重;最后將重新分配權重后的隱藏層作為A-SIREN的輸出。正弦激活函數(shù)適合表示復雜的語音信號及其導數(shù),可以使關注點更容易集中到重要區(qū)域,從而更好地捕捉音頻重要特征。A-SIREN公式為

式中:vi代表第i個隱藏層的得分,由當前隱藏層的權值進行正弦函數(shù)激活;αi代表第i個隱藏層歸一化后的得分,使用Softmax將vi得分映射為0到1之間并作為權重。最后的輸出為所有隱藏層得分αi及其對應隱藏層hi的乘積。A-SIREN模型的結構如圖3所示,音頻幀長遠遠超過5幀,為了視覺效果僅顯示部分圖像。

圖3 A-SIREN模型Figure 3 A-SIREN model

3 實驗結果與分析

3.1 數(shù)據(jù)集

本文選取Urban Sound 8K數(shù)據(jù)集作為研究對象,該數(shù)據(jù)集由Justin Salamon等創(chuàng)建,包含來自10個類別的8 732個標記聲音(≤4 s)[10]。數(shù)據(jù)集聲音類型分別為空調、汽車鳴笛、小孩玩鬧、犬吠、電鉆、發(fā)動機空轉、槍聲、手持式鑿巖機、警笛和街道音樂。

3.2 參數(shù)設置

本文采用Tensorf low框架,編程環(huán)境為Python 3.7,硬件環(huán)境為英偉達(NVIDA)泰坦(TITAN)Xp顯卡,CPU為Intel i9。Urban Sound 8K共8 732個樣本,隨機打亂樣本序列后按照8∶2的比例劃分訓練集與測試集。音頻采樣率為22 050 Hz,窗口長度為2 048,步長為512,幀之間的重疊率為窗口大小的1/4。實驗使用Librosa工具包[11]提取40維度的MFCC特征,4 s音頻對應于174幀,則音頻MFCC特征維度為40×174。將GRU中隱藏層的神經元數(shù)量設定為300,訓練時將Dropout設定為0.5,測試時不使用Dropout,以免網絡出現(xiàn)過擬合現(xiàn)象。優(yōu)化器選用Adam優(yōu)化器,批次大小設定為200。

3.3 A-SIREN實驗

Urban Sound 8K數(shù)據(jù)集中存在類別不平衡問題,其中汽笛與槍聲的類別遠少于其他音頻類別。針對數(shù)據(jù)集類別不平衡問題,本文采用focal loss損失函數(shù),并與交叉熵(cross entropy)損失函數(shù)進行實驗比較。Focal loss損失函數(shù)在目標檢測任務中首次提出[12],主要用于減少易分類樣本的權重,使模型在訓練時更專注于難分類的樣本,從而解決了背景與前景的類別不平衡問題。對于相同的模型,focal loss損失函數(shù)與cross entropy損失函數(shù)的實驗結果如表2所示。

表2 不同損失函數(shù)的實驗對比Table 2 Experimental comparison of different loss functions

由表2可以發(fā)現(xiàn):focal loss損失函數(shù)的準確率高達93.5%,這一結果優(yōu)于cross entropy損失函數(shù)的實驗結果,顯示出focal loss損失函數(shù)在音頻數(shù)據(jù)集的有效性。此外,為了突出模型的有效性,將本文模型與其他模型進行對比實驗,結果如表3所示。

表3 與其他模型的實驗比較Table 3 Experimental comparison with other models

將表3中實驗1~3與實驗4~8進行對比可以得出:以RNN為基礎框架的網絡在識別效果方面優(yōu)于大部分CNN及其變體網絡模型,如實驗3僅用GRU網絡模型結合梅爾頻譜特征就可以獲得較好的實驗結果,這一結果超越了文獻[2,13]CNN模型的實驗結果。音頻特征的時間維度不可忽略,而GRU網絡在時間維度上具有很強的提取能力,正好可以作為本文的基礎模型。將實驗1與2進行對比的結果表明:本文提出的A-SIREN模型能將音頻特征權重集中于分配于重要區(qū)域,從而提高環(huán)境聲音識別的準確率,比原有GRU網絡的模型提高5.2%。

在A-SIREN模型訓練過程中,訓練準確率與測試準確率隨迭代次數(shù)的變化曲線如圖4中的(a)所示,損失值隨迭代次數(shù)的變化曲線如圖4中的(b)所示。每50次迭代輸出一個識別準確率。觀察圖4測試集與訓練集的曲線變化規(guī)律發(fā)現(xiàn):訓練曲線模型在僅10次迭代時的識別率高達0.78,在第3 100次迭代時達到平穩(wěn)狀態(tài)(振幅≤0.005);最終識別率在0.93左右且波動小于0.003,表明該模型經過7 000步迭代已經收斂到最優(yōu)值附近。在整個訓練過程中,在訓練集與測試集上的識別率相差小于0.10,且在穩(wěn)定后訓練集和測試集的損失值相差小于0.07,屬于正常值范圍,表明該網絡擬合效果正常,并未出現(xiàn)過擬合現(xiàn)象。因此,A-SIREN模型既能較快較平穩(wěn)地收斂,同時又能獲得更好的實驗結果,證明該模型可以有效地學習到音頻類別規(guī)律信息。

圖4 訓練集與測試集上準確率和損失值的變化Figure 4 Change of accuracy rate and loss in training set and test set

本文以混淆矩陣[16]記錄真實樣本與預測樣本的值,全局把握整體網絡擬合效果,如圖5顯示。

該混淆矩陣顯示了所有測試集的預測情況,橫坐標代表預測標簽,縱坐標代表真實值標簽。顏色代表樣本數(shù)量,顏色越深表示識別出正確的標簽數(shù)量就越多,對角線數(shù)值越大表示模型的識別效果越好。在混淆矩陣中,數(shù)字1~10依次代表空調、汽車鳴笛、小孩玩鬧、犬吠、電鉆、發(fā)動機空轉、槍聲、手持式鑿巖機、警笛和街道音樂。汽車鳴笛(類別2)與槍聲(類別7)的數(shù)據(jù)少于其他音頻類別的數(shù)據(jù),其顏色淺于其他類別的顏色。本文根據(jù)混淆矩陣計算出每個類別的精確率Precision、召回率Recall、F1-score如表4所示。

表4顯示了混淆矩陣各類指標的結果,其中街道音樂的精確度最低僅為0.86,分析原因如下:在識別街道音樂時,街道音樂會參雜小孩玩耍、車鳴等聲音,其識別效果受到了影響,因此精確度遠低于其他類別的精確度;同時從圖5也可以觀察出街道音樂與小孩玩耍的聲音相互混淆。

表4 混淆矩陣分析結果Table 4 Analysis results of confusion matrix

圖5 GUR-A-SIREN混淆矩陣Figure 5 Confusion matrix of GUR-A-SIREN

4 結語

本文總結分析了以往的環(huán)境聲音分類系統(tǒng),提出了A-SIREN模型。首先在音頻特征的選取上以MFCC特征作為輸入特征;其次在模型的構建上選擇對傳統(tǒng)的GRU網絡模型進行改進,利用GRU網絡進一步提取MFCC特征,同時結合注意力機制和正弦函數(shù)將音頻每一幀的注意力隱藏層得分重新映射。實驗結果表明:A-SIREN利用了正弦函數(shù)的周期性與可導不變性,故在Urban Sound 8K數(shù)據(jù)集的準確率比MGCC-CNN模型的準確率高出5.8%。在后續(xù)的研究中,我們會繼續(xù)研究并改進音頻模型。

猜你喜歡
梅爾類別音頻
基于梅爾頻譜分離和LSCNet的聲學場景分類方法
梅爾維爾鯨
女詩人梅爾詩集《十二背后》三人談
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
“熊”視眈眈
音頻分析儀中低失真音頻信號的發(fā)生方法
服務類別
Pro Tools音頻剪輯及修正
論類別股東會