基于Mel 頻率和HMM 的兒童咳嗽識別方法

2020-12-16 08:52單寶娟段文睿

電聲技術(shù) 2020年7期

單寶娟，段文睿

（北京信息科技大學儀器科學與光電工程學院，北京 100192）

1 引言

咳嗽是兒童期常見的臨床癥狀，表現(xiàn)為通過高速、高壓氣流來清除兒童呼吸道異物和有害分泌物，本質(zhì)是一種生理防御機制［1］。但是，隨著咳嗽強度和頻率的增加，咳嗽不僅會影響兒童的正常生活，甚至會引起呼吸系統(tǒng)疾病，對生命健康造成威脅。研究顯示，以咳嗽為主要癥狀的兒童肺炎是致使全球5 歲以下兒童死亡的主要原因［2］。目前，配合藥物治療能夠緩解相應(yīng)癥狀，但對兒童身心健康造成了一定影響。如果能在咳嗽初期盡早發(fā)現(xiàn)咳嗽異常盡早治療，將會減小呼吸系統(tǒng)患病幾率?？人允呛粑兰膊〉闹饕Y狀，因此可通過評估兒童咳嗽聲音狀況為兒童呼吸道疾病的診斷和預防提供依據(jù)。近年來，語音識別技術(shù)因檢測速度快、無接觸等優(yōu)點，在兒童語音自動檢測方面得到了廣泛應(yīng)用。

目前，國內(nèi)外有部分研究者應(yīng)用語音識別技術(shù)研究人咳嗽聲的分類識別。Hirtum［3］等通過提取聲音功率譜密度作為特征參數(shù)實現(xiàn)不同種類咳嗽的自動識別；俞一奇［4］等人提取Mel 頻率刻度的小波能量作為特征參數(shù)，使用隱馬爾科夫模型（Hidden Markov Models，HMM）對兒童咳嗽音的干濕性進行分類；Swarnkar V［5］等人應(yīng)用Logistics回歸模型開發(fā)出一種自動化技術(shù)，實現(xiàn)了對兒童咳嗽的干濕性進行分類。以上研究分別從特征參數(shù)提取、模型識別算法等不同方面實現(xiàn)了對人咳嗽性質(zhì)的研究，并取得了較好的識別效果。但是，準確分辨咳嗽和非咳嗽是能夠進行更深入研究的前提和關(guān)鍵。因此，如何在輸入的一段語音中有效檢測出咳嗽聲音尤為重要。目前，石銳［6］等采用高斯混合模型對咳嗽聲音進行了識別；Yusuf A A［7］等人提取共振峰、短時過零率、梅爾頻率倒譜系數(shù)（Mel Frequency Cepstrum Coefficient，MFCC）等特征參數(shù)，對比TDNN 模型和LDA 模型的分類器識別性能，提出了一種能夠從兒科錄音中對咳嗽聲自動識別的方法。

本文設(shè)計一種新的語音識別系統(tǒng)，采集兒童的4 種常見聲音——哭聲、笑聲、尖叫聲、咳嗽聲作為研究對象，采用預加重、端點檢測和分幀加窗的技術(shù)實現(xiàn)兒童語音信號的預處理，提取MFCC+ΔMFCC 作為語音特征參數(shù)，構(gòu)建基于HMM的兒童咳嗽音識別模型，實現(xiàn)了對兒童咳嗽音的準確識別，以期用于后續(xù)有關(guān)兒童咳嗽的定量分析和定性分析。

2 實驗與方法

本文采集6 名學齡期兒童（3 女3 男，5～12歲）的640段錄音，其中包含每名兒童的哭聲、笑聲、尖叫聲、咳嗽聲各20～40 段不等，并將文件保存為wav 格式。針對上述4 種兒童語音樣本建立兩個數(shù)據(jù)集——訓練數(shù)據(jù)集（每種語音80 段，共320段語音）和測試數(shù)據(jù)集（每種語音80 段，共320 段語音），分別用作后續(xù)語音識別中的模型訓練和模型測試。該系統(tǒng)算法框架如圖1 所示。

2.1 預處理

2.1.1 端點檢測

采集到的兒童語音信號包含靜音片段。為了縮短后續(xù)特征參數(shù)提取時間，需要去掉語音中的靜音成分，獲取語音的有效片段，提高語音識別系統(tǒng)識別效率。端點檢測算法能夠從包含靜音片段的一段信號中準確定位語音片段的起止點，區(qū)分靜音和語音。本研究采用基于短時平均過零率和短時能量為特征參數(shù)的雙門限算法進行端點檢測。第i幀語音信號的短時平均過零率Z(i)和短時能量E(i)的計算公式為：

式中，L為幀長，xi(n)為第i幀數(shù)據(jù)上所對應(yīng)的第n個采樣點值，sgn[·]為符號函數(shù)，即：

采用雙門限算法對兒童語音信號的端點檢測結(jié)果如圖2 所示。

2.1.2 分幀操作

語音信號具有短時平穩(wěn)性，在10～30 ms 通?？蓪⒄Z音信號視為穩(wěn)態(tài)時不變信號。因此，可以對語音信號進行分幀操作，將其分割為一幀一幀的短時穩(wěn)態(tài)信號，進而可對語音信號作短時分析。常用的分幀手段是采用窗函數(shù)的平滑移動來實現(xiàn)分幀操作。漢明窗函數(shù)的主瓣較窄，能夠保證聲音信號的相鄰幀之間具有更好的連續(xù)性。此外，它的第一旁瓣較主瓣的衰減最大，使得聲音信號的頻譜泄露最小。因此，本文選用漢明窗函數(shù)對聲音信號進行分幀處理。分幀過程中，采用交疊分幀的方法對語音信號進行分幀操作，以確保在分幀過程中造成的信號遺漏。同時，相鄰兩幀之間的交疊部分能確保幀與幀之間的平滑過渡，有效保證聲音信號的平穩(wěn)性和連續(xù)性。

漢明窗函數(shù)定義如下：

式中，L為窗長。

2.2 特征參數(shù)提取

人耳在嘈雜混亂的環(huán)境中仍然能夠分辨出各種聲音信號，這一特殊功能主要得益于耳蝸的功能。人的耳蝸等同于一個濾波器組，對頻率范圍在1 000 Hz 以下的語音信號進行線性尺度上的濾波，對頻率范圍在1 000 Hz 以上的信號進行對數(shù)尺度上的濾波。這決定了人耳對低頻信號較高頻信號具有更高的敏感度。Mel 頻率濾波器組具有人耳耳蝸的感知特性。組成梅爾濾波器組的每一個濾波器的中心頻率是在梅爾頻率尺度上均勻排列的。

Mel 頻率與實際頻率遵循如下關(guān)系：

MFCC 是在梅爾刻度頻率域中提取出來的倒譜參數(shù)。MFCC 是基于人的聽覺機理實現(xiàn)對語音頻譜的分析，能夠反映人的語音特征，具有良好的識別性能和抗干擾能力。標準的MFCC 特征參數(shù)只反映語音參數(shù)的靜態(tài)特性，難以獲得全面的語音特征信息。通過加入ΔMFCC，能夠更好地描述語音信號的動態(tài)特性。本文選用24 維MFCC+ΔMFCC 參數(shù)作為特征參數(shù)，將采集到的兒童語音信號經(jīng)過預處理后，對每一幀信號進行快速傅里葉變換以獲得頻域信號，再對頻域信號進行平方運算，計算每一幀頻域數(shù)據(jù)的譜線能量。將每幀信號的能量譜先通過Mel 濾波器，再將Mel 濾波器的輸出能量取對數(shù)后作離散余弦變換，從而獲得12 維MFCC，然后加入一階差分系數(shù)得到24 維MFCC。MFCC 的計算過程如圖3 所示。

不同聲音的MFCC+ΔMFCC 參數(shù)三維視圖如圖4 所示，其中X、Y、Z軸分別代表維數(shù)、幀數(shù)和梅爾頻率倒譜系數(shù)值。從MFCC 幅值變化范圍來看，咳嗽聲和尖叫聲的變化大，哭笑聲變化小。

2.3 分類識別

在語音識別領(lǐng)域中，常用的識別方法有支持向量機、矢量量化模型以及DTW 算法等，其中隱馬爾可夫模型因其穩(wěn)定性良好［8］、算法成熟等優(yōu)點而備受青睞［9］。因此，本文選取HMM 模型來識別兒童咳嗽聲。HMM模型可以由模型參數(shù)λ=(π,A,B)表示，其中π表示初始狀態(tài)概率，A表示狀態(tài)轉(zhuǎn)移概率矩陣，B表示觀測概率矩陣。π、A用來描述Markov鏈，輸出狀態(tài)序列。B用來描述由狀態(tài)產(chǎn)生觀測值的隨機過程，輸出觀測值序列。HMM 的訓練和識別流程如圖5 所示。

2.3.1 訓練流程

輸入訓練數(shù)據(jù)集的語音樣本作為已知信號，經(jīng)預處理后，對每一幀的數(shù)據(jù)提取特征參數(shù)MFCC+ΔMFCC。獲得的特征向量作為隱馬爾科夫訓練模型的觀測序列Otraining，應(yīng)用Baum-Welch 算法對每種類型聲音i建立相應(yīng)的HMM 模型參數(shù)λi。Baum-Welch 算法是一種基于最大似然估計的局部最優(yōu)算法。給定觀測序列Otraining，為確定P(Otraining|λ)的最大值，利用遞歸思想，使P(Otraining|λ)局部極大，最終確定HMM 的模型參數(shù)λ=(π,A,B)。

2.3.2 識別流程

輸入測試數(shù)據(jù)集的語音樣本作為待測信號，經(jīng)預處理后，對每一幀的數(shù)據(jù)提取特征參數(shù)MFCC+△MFCC。獲得的特征向量作為隱馬爾科夫識別模型的觀測序列Otesting，應(yīng)用Viterbi 算法計算同一觀測序列Otesting在所有可能的模型λi下對應(yīng)的概率P(Otraining|λi)，其中可能性最高的模型被認為是代表最可能的語音類型，即i*=arg max[P(Otraining|λi)]。Viterbi 算法實質(zhì)上是利用動態(tài)規(guī)劃求解最佳狀態(tài)序列Q*，以解決隱馬爾科夫模型的譯碼問題。Q*是指P(Q,Otesting|λ)達到最大時確定的狀態(tài)序列。

3 結(jié)果與討論

應(yīng)用Matlab 進行算法仿真，其中在HMM 訓練過程中，笑聲、咳嗽聲、哭聲、尖叫聲分別迭代39次、33 次、28 次、21 次達到模型收斂，后應(yīng)用Viterbi算法進行模型匹配，給出識別結(jié)果。本實驗采用識別率（正確識別個數(shù)占該種類聲音測試樣本總數(shù)的比例）和誤識別率（被誤識別為該種聲音的其他聲音數(shù)量占其他聲音測試樣本總數(shù)的比例）兩個指標來描述系統(tǒng)識別性能，結(jié)果如表1 所示。

表1 識別結(jié)果

由表1 可知，該系統(tǒng)對咳嗽聲的識別率達到92.5%，誤識別率達到9.17%，具有良好的識別性能，能夠?qū)和人月曔M行準確判別和計數(shù)，確保在一定時間周期內(nèi)的咳嗽次數(shù)如果超過正常范圍能夠自動提醒看護人員及時檢查排除隱患。綜上所述，該系統(tǒng)可以為兒童呼吸道疾病的在線監(jiān)測和預警提供新的方法參考，能夠用于后續(xù)有關(guān)兒童咳嗽的定量分析。