摘要: 為提高多聲音事件檢測任務(wù)的性能,本文深入研究速動壓縮非對稱諧振器級聯(lián)CARFAC 數(shù)字耳蝸模型,并提出了基于聽覺融合特征的多聲音事件檢測方法. 該方法首先利用CARFAC 提取混疊聲音的神經(jīng)活動模式圖NAP,然后將NAP 與GFCC 拼接后生成融合聽覺特征,并將其送入CRNN 神經(jīng)網(wǎng)絡(luò)進(jìn)行全監(jiān)督學(xué)習(xí),以實現(xiàn)對城市聲音事件的檢測. 實驗表明,在低信噪比且重疊事件較多的情況下,融合聽覺特征較單獨的NAP、MFCC 以及GFCC 等特征具有更好的魯棒性和多聲音事件檢測性能.
關(guān)鍵詞: 數(shù)字耳蝸模型; 神經(jīng)活動模式; 融合聽覺特征; 聲音事件檢測; 四折交叉驗證
中圖分類號: TP391. 4 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 043006
1 引言
在嘈雜的雞尾酒會中,盡管同時存在許多不同的聲音,例如:音樂聲、談話聲以及笑聲等,人們?nèi)匀豢梢詫@些聲音進(jìn)行分類識別,并專注于自己感興趣的聲音,這一現(xiàn)象被稱為“ 雞尾酒會效應(yīng)”[1]. 可見,模擬人耳聽覺系統(tǒng)實現(xiàn)對聲音信號的高效處理具有重要的意義.
人耳聽覺系統(tǒng)主要由聽覺外周和聽覺中樞組成. 耳蝸作為聽覺外周系統(tǒng)中最為重要的部分,負(fù)責(zé)完成聲音信號到神經(jīng)元電脈沖信號的轉(zhuǎn)換. 當(dāng)聲音信號傳入耳蝸時,耳蝸內(nèi)的液體隨之運動,基底膜也隨之發(fā)生振動,使得外毛細(xì)胞發(fā)束產(chǎn)生神經(jīng)沖動,并刺激內(nèi)毛細(xì)胞纖毛彎曲,從而改變電阻以產(chǎn)生動作電位[2]. 目前大多使用Mel 濾波器、Gammatone 濾波器等模型用于模擬人耳耳蝸,這些模型生成的MFCC、GFCC 等參數(shù)廣泛應(yīng)用于語音識別、說話人識別等任務(wù)中,并取得了不錯的性能. 但這些聽覺模型僅對聲音在基底膜上的頻率分解進(jìn)行了分析,并未考慮內(nèi)、外毛細(xì)胞對整個耳蝸的作用,這使得在低信噪比的情況下,識別性能下降.
速動壓縮非對稱諧振器級聯(lián)(Cascade ofAsymmetric Resonators with Fast-Acting Compression,CARFAC)模型不僅考慮基底膜特性,還加入了內(nèi)、外毛細(xì)胞以及耦合通道的自動增益控制模塊,提取的神經(jīng)活動模式圖(Neural Activity Pattern,NAP)和穩(wěn)定聽覺圖像(Stable Auditory Image,SAI)可應(yīng)用于多種類型的語音處理項目. Xu等[3,4]基于CARFAC 設(shè)計了聲源定位系統(tǒng),該系統(tǒng)利用CARFAC 對雙耳信號提取NAP,并計算雙耳NAP 中每個通道的瞬時相關(guān)性以生成聲音的相關(guān)譜圖,將所得相關(guān)譜圖送入CNN 神經(jīng)網(wǎng)絡(luò)以回歸聲源方向角,實驗表明NAP 能較好實現(xiàn)聲音定位功能. Islam 等[5]對比了NAP 與其他特征參數(shù)在說話人識別中的性能,該項研究結(jié)果表明,針對低信噪比情況,NAP 特征參數(shù)較MFCC、FDLP、GFCC等參數(shù)在說話人識別中更具魯棒性,且識別率更優(yōu).
針對聲音事件檢測任務(wù)在聲音重疊和低信噪比下性能下降問題,本文基于數(shù)字耳蝸融合特征提出了聲音事件檢測方法. 該方法首先利用CARFAC 數(shù)字耳蝸模型模擬人耳耳蝸,對混疊的聲音信號進(jìn)行頻譜分析生成NAP,并將NAP 與GFCC 拼接后生成的融合聽覺特征送入CRNN 神經(jīng)網(wǎng)絡(luò)進(jìn)行全監(jiān)督學(xué)習(xí). 對比發(fā)現(xiàn),該融合參數(shù)較MFCC、GFCC 等聲音特征有著更好的魯棒性和多聲音事件檢測性能.
2 聲音事件檢測
隨著語音識別、說話人識別等技術(shù)的發(fā)展趨于成熟,聲音事件檢測(Sound Events Detection,SED)也得到廣泛關(guān)注. SED 任務(wù)旨在分析不同的聲音信號,提取聲音特征用于識別聲音事件的種類,并檢測出事件發(fā)生的起止時間,如圖1 所示.
早期的SED 任務(wù)是基于語音識別方法實現(xiàn)的,利用幅度譜或者梅爾頻率倒譜系數(shù)作為聲音輸入特征,基于SVM、HHM 的算法作為學(xué)習(xí)聲音特征向量的分類器,從而識別出語音[6]. 但生活中發(fā)生的聲音事件通常是多個且重疊的,將這些方法應(yīng)用于多重疊聲源或者復(fù)雜噪聲環(huán)境下的聲音事件檢測并不可靠. 隨著對人耳聽覺模型的深入了解以及深度學(xué)習(xí)的快速發(fā)展,不少語音處理相關(guān)任務(wù)得到進(jìn)一步突破. 通過學(xué)習(xí)人耳結(jié)構(gòu),模擬人耳對聲音的處理以獲得更為精細(xì)、更具分辨能力的聲音特征. 同時將前饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 及其變體LSTM、GRU 應(yīng)用于聲音事件檢測,尤其在低SNR 下,使得性能進(jìn)一步得到提升[7]. Cakir 等[8]和Adavanne等[9]針對CNN 不能捕捉音頻段中的長時依賴性問題,將CNN 優(yōu)秀的特征提取能力與RNN 捕獲時序信息的能力結(jié)合,提出了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN)的多聲音事件檢測模型,得到良好的檢測性能.
3 特征參數(shù)提取
在SED 系統(tǒng)中,特征選取非常關(guān)鍵,優(yōu)質(zhì)的聽覺特征能加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練以及提高檢測性能. 目前最常用的音頻特征有幅度譜、MFCC、GFCC 等.
3. 1 MFCC 的提取
MFCC 特征參數(shù)在語音識別以及說話人識別等領(lǐng)域被廣泛運用. MFCC 依據(jù)人的主觀感知在頻域劃分臨界帶,從而構(gòu)成Mel 濾波器組用于模擬人耳基底膜的頻率分解. 提取MFCC 參數(shù)的具體過程如下.
1) 首先對語音進(jìn)行預(yù)處理(預(yù)加重、分幀、加窗等);
2) 之后通過FFT 將每幀語音映射到頻譜上進(jìn)行分析,計算出每幀數(shù)據(jù)的譜線能量;
3) 通過Mel 濾波器組求得Mel 濾波能量;
4) 對Mel 濾波能量取對數(shù)后計算DCT.
MFCC 參數(shù)的計算如公式(1)所示.
式中S ( i,m ) 為第i 幀第m 個Mel 濾波器能量,n 為DCT 后的譜線.
3. 2 GFCC 的提取
GFCC 與MFCC 的提取過程相似,不同之處在于Mel 濾波器是在頻域上設(shè)置了一系列的三角形帶通濾波器,而GFCC 是利用Gammatone 濾波器組提取的特征. 每個Gammatone 濾波器的峰值較Mel 濾波器的三角峰值更加平緩,可用于解決濾波器能量不足的問題,能更好地體現(xiàn)聽覺濾波器組的相關(guān)特性. 此外,Gammatone 濾波器采用ERB 頻率尺度來劃分中心頻率,相比于Mel 頻率尺度更符合人耳聽覺感知的特征. Gammatone 濾波器可用1 個因果的沖激響應(yīng)函數(shù)來描述其濾波特性,其時域表達(dá)式為:
gi (t ) = Ctn - 1 e-2πbi t cos (2πfi t + ?i )U (t ) (2)
式中1 ≤ i ≤ N, i 代表第i 個濾波器,n 為濾波器階數(shù),C 為濾波器增益,bi 為衰減因子,f i 為濾波器的中心頻率,?i 為相位.
3. 3 NAP 的提取
CARFAC 主要包括4 個部分:CAR 基底膜模型、DOHC 外毛細(xì)胞模型、DIHC 內(nèi)毛細(xì)胞模型以及AGC 環(huán)路濾波器,其結(jié)構(gòu)如圖2 所示.
CARFAC 利用多個PZFC 零極點濾波器級聯(lián)模擬基底膜,以完成對聲音的頻率分解,單個濾波器傳遞函數(shù)見式(3).
式中g(shù) 為直流增益,r 為極點半徑參數(shù). PZFC 濾波器通過改變零極點位置r,實現(xiàn)對阻尼系數(shù)的修改. 阻尼系數(shù)越小,該級濾波器頻率響應(yīng)幅度越大.
DIHC 內(nèi)毛細(xì)胞模型對基底膜的運動進(jìn)行檢測以及半波整流,感知基底膜運動狀態(tài)并用作輸入. 利用高通濾波器抑制經(jīng)耳蝸蝸孔短路反射產(chǎn)生的20 Hz 以下的頻率,同時進(jìn)一步通過自適應(yīng)非線性機制完成動態(tài)壓縮,將信號轉(zhuǎn)換為神經(jīng)放電速率用于輸出,生成NAP 神經(jīng)活動圖.
DOHC 外毛細(xì)胞模型通過基底膜的局部震動速率v,依照非線性NLF 函數(shù)曲線(如式(4)所示),對PZFC 濾波器中的零極點位置進(jìn)行調(diào)整,以實現(xiàn)基底膜的頻率選擇非線性以及人耳聽覺動態(tài)范圍壓縮.
由4 個單級平滑濾波器級聯(lián)并聯(lián)構(gòu)成的AGC環(huán)路濾波器,可以利用相鄰?fù)ǖ赖脑鲆鎭砑s定當(dāng)前通道的增益,以實現(xiàn)通道間的耦合. 這種能力被稱為側(cè)向抑制,并廣泛應(yīng)用于聽覺處理系統(tǒng)中[10-12]. AGC 環(huán)路濾波器輸出反饋參數(shù)b,該參數(shù)與NLF 非線性函數(shù)共同影響基底膜模型中PZFC濾波器的極點半徑,如式(5)表示,實現(xiàn)協(xié)調(diào)DIHC模型的期望輸出與濾波器所需阻尼因子的匹配,從而形成閉環(huán)回路.
r = rmin + drz (1 - b) NLF (v) (5)
其中rmin 為最小半徑參數(shù),該參數(shù)與各級PZFC 濾波器的中心頻率CF 相關(guān),可用于計算最大阻尼.參數(shù)drz 用于控制相對負(fù)阻尼( 1 - b ) NLF( v ) 對極點半徑r 的影響比例.
3. 4 融合聽覺特征的提取
實驗表明(如表2~表4 所示),GFCC 在無噪環(huán)境下進(jìn)行多聲音事件檢測任務(wù)的性能較好,但在低信噪比下,檢測性能急劇下降. 而NAP 在低信噪比,且無多個聲音事件重疊時,檢測性能較好,但隨著重疊事件的數(shù)量增多,性能急劇下降.針對上述問題,本文提出將NAP 和GFCC 參數(shù)進(jìn)行拼接融合,生成融合聽覺特征用于實現(xiàn)多聲音事件的檢測.
4 實驗?zāi)P?/p>
本實驗采用CRNN 神經(jīng)網(wǎng)絡(luò)完成多聲音事件的檢測任務(wù),結(jié)構(gòu)如圖3 所示.
網(wǎng)絡(luò)由4 部分組成:第1 部分是特征提取,對每幀混疊聲音提取相應(yīng)的特征參數(shù),用作神經(jīng)網(wǎng)絡(luò)的輸入. 不同特征參數(shù)的提取方法在第3 節(jié)中已介紹.
第2 部分由3 層二維卷積層組成,每層含有32個二維卷積核,卷積核大小為3×3. 卷積層從輸入的特征中學(xué)習(xí)位移不變特征,經(jīng)過ReLUs 激活函數(shù)的非線性運算后,再通過池化核為2 的最大池化層來降低時頻分辨率.
第3 部分是1 層雙向的GRU 神經(jīng)網(wǎng)絡(luò),從上一層的輸出中繼續(xù)學(xué)習(xí)時頻結(jié)構(gòu),經(jīng)過tanh 激活函數(shù)的非線性運算獲取深層信息輸入到線性層網(wǎng)絡(luò)中.
第4 部分是經(jīng)過1 個全連接層對網(wǎng)絡(luò)提取的特征進(jìn)行分類. 為實現(xiàn)多分類回歸任務(wù),全連接層輸出節(jié)點數(shù)為N=8,并利用sigmoid 激活函數(shù)輸出,代表數(shù)據(jù)集中8 種不同的聲音事件發(fā)生的概率. 若該類事件發(fā)生的概率大于閾值0. 5,認(rèn)為此事件發(fā)生.
5 實驗
5. 1 實驗環(huán)境
本實驗采用環(huán)境如下:windows 11 操作系統(tǒng),CPU 使用i5-12490F,GPU 采用Nvidia GeforceRTX3060 12 GB,內(nèi)存使用雙通道8 GB 3200 MHzddr4,硬盤采用512 GB SSD 和1 TB HDD. 深度學(xué)習(xí)開發(fā)環(huán)境為Pytorch1. 10. 2+cuda11. 8,安裝有numpy 1. 23. 3、scipy 1. 8. 0 包.
5. 2 實驗數(shù)據(jù)
實驗數(shù)據(jù)來源于TUT Sound Events 2018[13]聲音事件檢測與定位中提供的類別和時間標(biāo)簽,對Urbansound8K[14]中的音頻信號降采樣為8 kHz后,利用該標(biāo)簽合成每條語音. 根據(jù)最多可重疊的聲音事件數(shù)量,又分為ov1、ov2、ov3 這3 個數(shù)據(jù)集,分別表示同一時間最多可重疊事件數(shù)為1、2、3的數(shù)據(jù)集. 每個數(shù)據(jù)集中共有300 條時長30 s 的語音. 每條由8 個聲音事件類組成,分別為:狗吠、鉆井聲、槍聲、警笛、街頭音樂、手提鉆、引擎發(fā)動聲和汽笛聲. 將每個數(shù)據(jù)集中60 條語音用作測試集,剩下240 條語音通過四折交叉驗證[15]將原始數(shù)據(jù)分為4 組,不重復(fù)地抽取其中1 組的數(shù)據(jù)作為驗證集,將剩下3 組數(shù)據(jù)合成訓(xùn)練集. 通過分組訓(xùn)練得到4 個模型,將這些模型的訓(xùn)練結(jié)果取平均,得到最終的結(jié)果,如圖4 所示. 此外,為研究不同信噪比下的檢測性能,對語音加入粉紅噪聲進(jìn)行實驗.
5. 3 實驗參數(shù)
對于特征參數(shù)的提取,每條語音均采用幀長為32 ms,幀移為8 ms 進(jìn)行分幀,窗函數(shù)選用漢明窗. 分幀后對每幀數(shù)據(jù)提取相應(yīng)的特征參數(shù),用作神經(jīng)網(wǎng)絡(luò)的輸入.
對于神經(jīng)網(wǎng)絡(luò)模型,設(shè)訓(xùn)練輪數(shù)epoch=200,批處理大小Batch_size=256,學(xué)習(xí)率Lr=0. 0002,采用Adam 優(yōu)化器,二分類交叉熵?fù)p失函數(shù)計算損失.
此外,為研究特征維度的選擇對實驗結(jié)果的影響,選擇在SNR=10 dB 且最多有2 個事件重疊的情況下,分別對32 維NAP+32 維GFCC、32 維NAP+64 維GFCC、64 維NAP+32 維GFCC、64維NAP+64 維GFCC、82 維+82 維的融合特征參數(shù)進(jìn)行對比,實驗結(jié)果如表1 所示.
由表1 結(jié)果所示(評價指標(biāo)見5. 4 節(jié)),對特征增加一定維度,可以提升檢測性能. 但隨著維度的繼續(xù)增加,相應(yīng)的噪聲成分也會增加,且在一定程度上增加了模型的計算復(fù)雜度和訓(xùn)練時長. 因此,本文選擇64 維NAP 和64 維GFCC 進(jìn)行拼接,作為檢驗融合特征參數(shù)的標(biāo)準(zhǔn).
5. 4 評價指標(biāo)
對于SED 二分類任務(wù),測出來是某類事件有無發(fā)生的情況,二分類模型中的個案預(yù)測有4 種結(jié)局:
1) 真陽性TP:預(yù)測事件發(fā)生,實際該事件發(fā)生;
2) 偽陽性FP:預(yù)測事件發(fā)生,實際該事件沒發(fā)生;
3) 真陰性TN:預(yù)測事件沒發(fā)生,實際該事件沒發(fā)生;
4) 偽陰性FN:預(yù)測事件沒發(fā)生,實際該事件發(fā)生.
F 如式(6)所示,其值越大越好. ER 用于表示檢測的錯誤率,表達(dá)式如(7)所示.
其中N ( k ) 為實際上聲音事件發(fā)生的總數(shù),S ( k )、D ( k )、 I (k) 如下式所示.
S ( k )= min ( FN ( k ),F(xiàn)P ( k ) (8)
D ( k )= max ( 0,F(xiàn)N ( k )- FP ( k ) ) (9)
I ( k )= max ( 0,F(xiàn)P ( k )- FN ( k ) ) (10)
其中K 取所有測試語音的幀的總數(shù),即以幀為單位計算F、ER,并計算出SED 評分,如式(11).SED 越低,性能越好.
SED =ER+(1- F)/2 (11)
6 實驗結(jié)果
圖5 和圖6 分別給出了是否引用四折交叉驗證下的訓(xùn)練損失和驗證損失曲線. 可以看出,在未引入四折交叉驗證時,過擬合現(xiàn)象較為嚴(yán)重,出現(xiàn)訓(xùn)練集損失下降,而驗證集損失上升. 引入交叉驗證后,過擬合現(xiàn)象得以改善.
表2~表4 給出了不同信噪比下,各個參數(shù)在ov1、ov2、ov3 測試集中的F、ER 以及總分SED. 在表2 中可以看出,在無噪情況下,隨著最多重疊事件數(shù)目的增多,基于NAP 的檢測性能急劇下降,而MFCC、GFCC 在多聲音事件重疊下檢測性能更高. 對比表3 和表4 中ov1 數(shù)據(jù)集下的單事件檢測性能,可以看出隨著信噪比降低,MFCC、GFCC 參數(shù)的檢測效果急劇下降. 而融合聽覺特征因結(jié)合有NAP 和GFCC 各自的特點,在低信噪比和多聲音事件重疊的情況下,有著更低的SEDscore,表現(xiàn)出更高的檢測性能.
7 結(jié)語
針對低信噪比下多聲音事件檢測的性能下降問題,本文基于數(shù)字耳蝸融合特征提出了多聲音事件檢測方法,該方法首先利用數(shù)字耳蝸模型提取混疊聲音的NAP 特征,將NAP 與GFCC 拼接后生成融合聽覺參數(shù). 在本文合成的數(shù)據(jù)集中,融合聽覺參數(shù)在低信噪比以及聲音事件重疊數(shù)較多的情況下,擁有更低的SEDscore,說明該融合聽覺參數(shù)較其他特征參數(shù)擁有更高的魯棒性,可用于低信噪比下的多聲音事件檢測任務(wù).
雖然融合聽覺參數(shù)具有良好的魯棒性,但對于多個混疊聲音的事件檢測任務(wù),還有值得改進(jìn)的地方,比如可以對混疊聲音進(jìn)行一定程度地聲音分離后,再利用魯棒的聽覺融合特征對其進(jìn)行識別與檢測. 為此,我們接下來會進(jìn)行聲音分離方面的研究,力求應(yīng)用于多聲音事件檢測任務(wù)中.
參考文獻(xiàn):
[1] Bronkhorst A W. The cocktail party phenomenon: Areview of research on speech intelligibility in multipletalkerconditions[ J]. Acta Acust, 2000, 86: 117.
[2] Zhai H Q, Zhang J P, Wang D, et al. Survey on auditorymodel [J]. Mech Eng, 2014, 273: 19.[霍慧強, 張金萍, 王丹等. 聽覺模型綜述[J]. 機械工程師, 2014, 273: 19.]
[3] Xu Y, Afshar S, Singh R K, et al. A binaural soundlocalization system using deep convolutional neuralnetworks [C] //2019 IEEE International Symposiumon Circuits and Systems(ISCAS). Sapporo, Japan:IEEE, 2019: 1.
[4] Xu Y, Afshar S, Wang R, et al. A biologically inspiredsound localisation system using a silicon cochleapair[ J]. Appl Sci, 2021, 11: 1519.
[5] Islam M A, Xu Y, Monk T. Noise robust textdependentspeaker identification using cochlear models[ J]. J Acoust Soc Am, 2022, 500: 151.
[6] Shao J X, Ni J J. Let you understand speech recognitiontechnology[J]. China Inf Technol Edu, 2021,21: 75.[邵建勛, 倪俊杰. 帶你了解語音識別技術(shù)[J]. 中國信息技術(shù)教育, 2021, 21: 75.]
[7] Mcloughlin I, Zhang H, Xie Z, et al. Robust soundevent classfication using deep neural networks [J].IEEE-ACM T Audio Spe, 2015, 23: 540.
[8] Cakir E, Parascandolo G, Heittola T, et al. Convolutionalrecurrent neural networks for polyphonicsound event detection [J]. IEEE-ACM T AudioSpe, 2017, 25: 1291.
[9] Adavanne S, Politis A, Nikunen J, et al. Sound eventlocalization and detection of overlapping sources usingconvolutional recurrent neural networks [J]. IEEE JSTSP,2018, 13: 34.
[10] Shamma S. Speech processing in the auditory systemII:Lateral inhibition and the processing of speechevoked activity in the auditory nerve[J]. J AcoustSoc Am, 1985, 78: 1622.
[11] James E, Barros A K, Yoshinori T, et al. Speechenhancement by lateral inhibition and binaural masking[C]//Proceedings of the 2004 14th IEEE SignalProcessing Society Workshop Machine Learning forSignal Processing. Sao Luis, Brazil: IEEE, 2004,14: 365.
[12] Lu X G, Chen D W. Computational auditory modeland its application in robust speech signal recognition[ J]. Acta Acust, 2000(6): 492.[盧緒剛, 陳道文. 聽覺計算模型在魯棒性語音識別中的應(yīng)用[J].聲學(xué)學(xué)報, 2000(6): 492.]
[13] Adavanne S, Nikunen J, Politis A, et al. TUTsound events 2018-ambisonic, reverbera-nt and reallifeimpulse response dataset [DB/OL].(2020-01-24)[2022-09-15]. https://doi. org/10. 5281/zenodo.1237703.
[14] Salamon J, Jacoby C, Bello J P. A dataset and taxonomyfor urban sound research [DB/OL].(2014-11-03)[2022-09-05]. https://zenodo. org/records/1203745.
[15] Wang X Q, Liu S, Li Q Y, et al. Classification anddiscrimination of surrounding rock of tunnel based onSVM of K-Fold cross validation [J]. Min MetalEng, 2021. 41:126.[汪學(xué)清, 劉爽, 李秋燕, 等. 基于K 折交叉驗證的SVM 隧道圍巖分級判別[J]. 礦冶工程, 2021, 41: 126.]
(責(zé)任編輯: 白林含)
基金項目: 國家自然科學(xué)基金聯(lián)合基金項目(U1733109)