陳承義,高俊芬
CHEN Chengyi1,GAO Junfen2
1.柳州鐵道職業(yè)技術學院,廣西 柳州 545007
2.廣西師范大學,廣西 桂林 541004
病態(tài)嗓音的識別與研究
陳承義1,高俊芬2
CHEN Chengyi1,GAO Junfen2
1.柳州鐵道職業(yè)技術學院,廣西 柳州 545007
2.廣西師范大學,廣西 桂林 541004
通過分析嗓音的發(fā)音機理,提取正常與病態(tài)嗓音的傳統(tǒng)聲學參數(shù):基頻、共振峰、Mel倒譜系數(shù)(MFCC),以及非線性特征參數(shù):計盒維數(shù)與截距,作為病態(tài)嗓音識別的特征矢量集。應用高斯混合模型(GMM)對156例正常嗓音與146例病態(tài)嗓音進行建模與識別。結(jié)果表明:非線性特征參數(shù)計盒維數(shù)與截距能很好地區(qū)分正常與病態(tài)嗓音,它們與傳統(tǒng)聲學參數(shù)基頻和共振峰的組合,能夠取得92.60%的識別率。
高斯混合模型;病態(tài)嗓音;計盒維數(shù);截距
物體振動發(fā)出聲音,聲帶是嗓音產(chǎn)生的主要振動體。聲帶的質(zhì)量、韌性,覆蓋粘膜的病變等均會影響其振動的頻率、振幅和持續(xù)時間[1]。語音信號作為信息傳遞的重要載體,通過對病態(tài)嗓音信號的聲學檢測,分析嗓音信號的基頻(F0)、共振峰、頻率微擾、振幅微擾、Mel倒譜系數(shù)(MFCC)等各種聲學參數(shù),對異常嗓音特征作出定量分析。但它們在有效檢測病態(tài)嗓音方面存在一定的局限。語音信號是一種非線性、非平穩(wěn)的信號,而傳統(tǒng)的聲學參數(shù)的提取均是將語音信號近似為線性信號,這樣就嚴重影響了特征的有效性。分形理論作為非線性信號的有效描述手段,能夠有效地分析非線性語音信號。應用分形理論提取的計盒維數(shù)與截距,可以作為病態(tài)嗓音識別的特征參數(shù)。實驗證明,計盒維數(shù)與截距比傳統(tǒng)聲學參具有優(yōu)越性,它們與傳統(tǒng)聲學參數(shù)相結(jié)合時,用GMM進行建模和識別,取得較好的識別率,作為一種無損傷的檢測方法,對喉病臨床診斷具有一定的實用價值,給臨床醫(yī)生提供了可靠的參考。
實驗數(shù)據(jù)來源于臨床病例,采集數(shù)據(jù)時的環(huán)境要求在安靜的室內(nèi)進行;時間1.5~3.0 s;受試聲樣為漢語元音“a”,分別對正常人和患有各類喉科疾病的對象進行兩次語音采樣,采樣頻率為16 kHz和48 kHz。正常對照組156例,年齡18~40周歲,平均年齡25周歲,經(jīng)詢問近期無喉部疾病者;病態(tài)嗓音組146例,年齡15~50周歲,平均年齡27周歲,為前來醫(yī)院就診臨床病例。實驗時,將采樣頻率為48 kHz的語音降采樣為16 kHz,在保證一個說話人的語音不同時出現(xiàn)在訓練集和測試集的情況下,將數(shù)據(jù)庫的156例正常嗓音和146例病態(tài)嗓音隨機分割成兩部分,其中取正常嗓音78例和病態(tài)嗓音73例作為模型訓練集;其余部分作為測試集,分別為78例正常嗓音與73例病態(tài)嗓音[2]。
3.1 傳統(tǒng)聲學參數(shù)特征提取
傳統(tǒng)的嗓音分析聲學參數(shù)有很多,本實驗選用在病態(tài)嗓音醫(yī)學臨床檢測中廣泛應用的基頻、共振峰和Mel倒譜系數(shù)(MFCC)[3]這3個特征參數(shù)。基頻是指聲帶振動的頻率,共振峰表征了聲道參數(shù)的特性,MFCC充分考慮人耳聽覺結(jié)構(gòu)和人類發(fā)聲和接受聲音的機理。當聲帶發(fā)生病變時,嗓音信號的這3個特征參數(shù)值就會偏離正常范圍,從而可以區(qū)分正常與病態(tài)嗓音。
3.2 計盒維數(shù)與截距特征參數(shù)提取
假定上述極限存在,其中Nσ(F)在本文中定義為:覆蓋F的邊長為σ的最小立方體個數(shù)。
本實驗中采用計算量較小的多點擬合來計算Db。具體過程如下:
(1)取M個σ值,記σi(i=1,2,…,M)。
(2)計算Nσi(F)。先將語音信號歸一化到單位正方形區(qū)域[4],即
中南大學在2016級、2017級冶金、工管、能器、機械、臨床等非計算機專業(yè)約840名學生的“數(shù)據(jù)庫技術與應用”課程進行了連續(xù)兩年交叉融合的教學模式的實踐,課程共48課時,為期12周,獲得了比對效果較好的應用數(shù)據(jù)。
F={s(t)|min(s(t))=0,max(s(t))=1,0≤t≤1}
s(t)表示為歸一化后的語音信號,取最小正方形的邊長為σ,易知在區(qū)間In=[(n-1)σ,nσ]內(nèi),覆蓋F的最小正方形數(shù)為:Nn=[(maxs(t)-mins(t))/σ],t∈In
[X]表示不小于X的最小正整數(shù),因此在[0,1]區(qū)間內(nèi)覆蓋F的總正方形個數(shù)為:
語音信號是一個復雜的非線性過程,其中存在著產(chǎn)生混沌的機制[4]。分形理論是描述混沌信號的一種有效的手段,是一種分析非線性語音信號的新方法。分形的度量有多種描述方法,常用的有計盒維數(shù)、容量維數(shù)、關聯(lián)維數(shù)、Hausdorff維等。本文采用計盒維數(shù)。
定義(計盒維數(shù))N維歐氏空間子集F的計盒維數(shù)Db定義為[5]:
(3)令xi=lg(1/σ),yi=lgNσ(F),分別計算點( ) xi,yi,按最小均方誤差擬合一條直線y=kx+b,則此直線的斜率k為計盒維數(shù)Db,b為截距,即:
模式識別的方法有人工神經(jīng)網(wǎng)絡、隱馬爾科夫模型、支持向量機等,本文采用高斯混合模型[6]。
混合高斯模型是一種多維的概率密度函數(shù),采用M個高斯成員加權和來表示,即
其中 xk,k=1,2,…,n,為一組在高維(d維)空間的點,μ代表此密度函數(shù)的中心點,Σ代表此密度函數(shù)協(xié)方差矩陣,wi為混合權重,并滿足:
則完整的高斯混合模型參數(shù)表示為:
訓練之前,對混合高斯模型的參數(shù)λ進行初始化,一般假設w1=w2=…wm=1/M,并使用K-means算法來計算群聚中心點,作為μi的初始值。設定初始參數(shù)值λ={wi,μi,Σi}。
訓練時,用EM算法不斷迭代調(diào)整參數(shù)λ,重新計算參數(shù)為λ?=(w?i,μ?i,Σ?i),直到|λ-λ?|小于某一個極小值的容忍值為止。
識別時,計算輸入語音的特征在每個模型(正常與病態(tài)嗓音)下的概率,找出概率最大者,即可判斷其為哪一類嗓音。
本文實驗采用GMM模型作識別系統(tǒng),在數(shù)據(jù)庫156例正常嗓音和146例病態(tài)嗓音中,在保證一個說話人的語音不同時出現(xiàn)在訓練集和測試集的情況下,隨機分割,其中訓練集包括正常嗓音78例和病態(tài)嗓音73例,測試集包括正常嗓音78例和病態(tài)嗓音73例。實驗取特征參數(shù):基頻、共振峰、MFCC、計盒維數(shù)、截距;將特征進行編號為:1、2、3、4、5。
實驗特征參數(shù)處理說明:語音幀長為512,幀移為256;基頻、計盒維數(shù)和截距都是一維的數(shù)據(jù),本實驗共振峰取前3個F1、F2、F3,共三維;MFCC作為特征參數(shù)時,一般都加入能夠表征語音動態(tài)特性的MFCC一階差分參數(shù),組成24維特征參數(shù)。
首先,研究GMM的混合數(shù)對識別性能的影響,本實驗主要分兩類問題,通過大量實驗證明,本實驗的最佳GMM混合數(shù)為2。其次,研究每一個特征對病態(tài)嗓音識別的貢獻,所得到每個特征的GMM識別結(jié)果,按識別率從大到小排列,見表1。最后,根據(jù)表1的識別結(jié)果,按識別率從高到低逐漸增加特征個數(shù),所得到的GMM識別率結(jié)果見表2。
表1 單個特征的GMM識別率從大到小排列
表2 根據(jù)表1逐漸增加特征組合的識別率
實驗結(jié)果分析:從表1可以看出分形特征參數(shù)計盒維數(shù)和截距對GMM的識別率貢獻較大,能夠有效地區(qū)分正常與病態(tài)嗓音,分別取得87.34%和87.43%的識別率;傳統(tǒng)的聲學參數(shù)對GMM的識別率貢獻較小。再看表2,分形參數(shù)計盒維數(shù)與截距的組合,所得到的GMM識別率為90.89%;傳統(tǒng)的聲學參數(shù)基頻、MFCC和共振峰的組合,所得到的GMM識別率為69.91%。由此可見,本實驗所選的傳統(tǒng)聲學參數(shù)在診斷正常與病態(tài)嗓音時不具有絕對的優(yōu)勢,而分形特征參數(shù)具有一定的優(yōu)越性。當分形特征參數(shù)與傳統(tǒng)聲學參數(shù)相組合時,識別率有所提高,見表2,計盒維數(shù)、截距與共振峰組合時,所得到的GMM識別率為91.40%;當計盒維數(shù)、截距與共振峰、基頻組合時,能得到最大識別率為92.60%。由此可見,分形特征和傳統(tǒng)聲學參數(shù)結(jié)合,提高了病態(tài)嗓音的GMM識別率,分形特征參數(shù)可以彌補傳統(tǒng)聲學參數(shù)的不足,提高了分析病態(tài)嗓音的能力。當繼續(xù)增加MFCC特征參數(shù)進行組合時,識別率下降為69.91%。病態(tài)嗓音自動檢測和評價時,提取特征參數(shù)的一般原則是盡可能把相關特征納入特征集,其結(jié)果就很難避免各種特征的相關和冗余信息,對隨后的識別率和檢測帶來負面影響,因此本實驗剔除對識別率貢獻較小的MFCC特征參數(shù)。
實驗結(jié)果表明,本文實驗提取的5個特征參數(shù)中,分形特征參數(shù)能夠有效地區(qū)分正常與病態(tài)嗓音,彌補了傳統(tǒng)聲學參數(shù)的不足。當分形特征參數(shù)計盒維數(shù)、截距與基頻、共振峰組合時,取得了92.60%的較高識別率。
分形理論是描述非線性信號的有力工具,是近年來處理語音信號的一個新的非線性分析方法。本文實驗提取的分形特征參數(shù)計盒維數(shù)與截距,彌補了傳統(tǒng)的聲學分析參數(shù)的不足,提高了分析病態(tài)嗓音的能力,能有效地區(qū)分正常與病態(tài)嗓音,且與傳統(tǒng)聲學參數(shù)基頻和共振峰組合,獲得了92.60%的識別率,給臨床醫(yī)生提供了可靠的分析工具。
[1]胡維平,王修信,曾恩恩,等.噪音頻域分析中的特征研究[J].廣西物理,1998,19(1):30-33.
[2]龔英姬,胡維平.基于HHT變換的病態(tài)嗓音特征提取及識別研究[J].計算機工程與應用,2007,43(34):217-219.
[3]趙力.語音信號處理[M].2版.北京.機械工業(yè)出版社,2009:31-78.
[4]ThompsonC,Mulpur A,Mehta V.Tranditiontochaos in acoustically driven flow(acoustic streaming)[J].Acoust Soc Am,1991,90:2097-2103.
[5]韋崗,陸以勤,歐陽景正.混沌、分形理論與語音信號處理[J].電子學報,1996,24(1):34-38.
[6]于燕平,胡維平.病態(tài)嗓音特征的小波變換及識別研究[J].計算機工程與應用,2009,45(22):194-195.
1.Liuzhou Railway Vocational Technical College,Liuzhou,Guangxi 545007,China
2.Guangxi Normal University,Guilin,Guangxi 541004,China
By analyzing the mechanism of pronunciation,normal and pathological voice of traditional acoustic parameters:fundamental frequency,formant,Mel Frequency Cepstrum Coefficient(MFCC),and non-linear feature parameters:box-counting dimension and intercept,are extracted as feature vectors of recognition of pathological voice.156 normal voice samples and 146 pathological voice samples are recognized based on Gaussian Mixture Model(GMM).The results show that the nonlinear feature parameters of box-counting dimension and intercept can well distinguish between normal and pathological voice.The combination of box-counting dimension,intercept and the traditional acoustic parameters-fundamental frequency and formant can achieve a better recognition rate of 92.60%.
Gaussian Mixture Model(GMM);pathological voice;box-counting dimension;intercept
A
TP39
10.3778/j.issn.1002-8331.1108-0133
CHEN Chengyi,GAO Junfen.study and recognition of pathological voice.Computer Engineering and Applications, 2013,49(7):123-125.
廣西自然科學基金(No.2010GXNSFA013128)。
陳承義(1959—),男,講師,主要研究領域為信號處理;高俊芬(1987—),通訊作者,女,碩士研究生。E-mail:396372100@qq.com
2011-08-31修回日期:2011-12-30
1002-8331(2013)07-0123-03