袁亞南,何凌+,龔曉峰,尹 恒,李 楊
(1.四川大學 電氣信息學院,四川 成都610041;2.四川大學 華西口腔醫(yī)院,四川 成都610041)
近年來,語音信號處理技術被越來越多的應用于病理語音的研究。由于腭裂語音數據采集的瓶頸,目前國內外對腭裂語音信號處理技術僅局限于少量語音樣本的簡單分析,如頻譜與共振峰分析[1]、兒童腭裂語音的自動評估[2]等。其中對于高鼻音化的語音分析已經有了相對較為成熟的理論基礎[3-5],但在腭裂語音輔音發(fā)音錯誤方面只有一些聽覺感官上的,或是聲學上的主觀研究,如腭裂語音輔音的聲學特征[6]等。
從臨床表現和語音學常識可知,元音的形成不依賴于口腔壓力,而輔音必需口腔壓力形成,因此輔音的表現是患者發(fā)音方法和腭咽功能的反映,輔音發(fā)音的正確率直接映射患者語音的清晰度。常見的腭裂語音輔音發(fā)音錯誤為輔音省略,即音節(jié)中輔音被省去,只剩下元音的現象。
目前國際各唇腭裂治療中心通用的腭裂語音評估 “金標準”為語音師主觀判聽,但這種診斷方式過多的依賴于語音師的主觀經驗和判定,周圍環(huán)境也會對判定結果造成一定的影響?;谏鲜霰尘?,臨床上迫切需要一種非人為執(zhí)行的判定方式,以期獲得對腭裂語音客觀、準確的判定。本文提出自動腭裂語音識別系統(tǒng),以實現對腭裂語音輔音省略的自動識別,為臨床語音師提供客觀、非侵入性、經濟便捷的輔助診斷,具有重要的臨床意義和廣泛的社會應用前景。
漢語普通話共包含有21個輔音,包括/b/,/p/,/m/,/f/,/d/,/t/,/n/,/l/,/g/,/k/,/h/,/j/, /q/,/x/,/z/,/c/,/s/,/zh/,/ch/,/sh/,/r/, 其 中 只 有/m/,/n/,/l/,/r/有聲帶振動,即為存在語音周期的濁音,另外17個輔音則是無明顯聲學特性的清音。如圖1所示的語音信號時域波形圖,可以看出/ma/在輔音和元音上并無清濁音分界,而/ha/可以明顯的看出/h/和/a/的清濁音分界。
圖1 語音信號時域波形
這種特性對于音節(jié)中含有濁音輔音的元輔音分離有一定的困難,目前并沒有一種算法可以比較準確的做到元輔音分離,而人工分離又會造成不必要的誤差,降低系統(tǒng)識別率?;谝陨系碾窳颜Z音輔音特性,本文提出的自動識別算法以字 (普通話中,通常一個漢字即為一個音節(jié))作為識別單位。
常見的腭裂語音的輔音發(fā)音錯誤為輔音省略。圖2所示為正常發(fā)音 (發(fā)音/na/)和輔音省略 (即/n/被省略,只剩下/a/)情況下的語譜圖。
在語譜圖上,橫杠表現出了元音的共振峰變化的聲學特征,而輔音在語譜圖上的聲學特征則由沖直條、空白間隙和擦音亂紋這3種基本紋樣的任意組合展現。腭裂患者由于腭部存在裂隙,導致其構音功能障礙,但相當一部分腭裂患者在手術修復治療后仍存在腭部發(fā)音障礙。造成這種現象的原因是雖然修補了裂隙肌肉,但腭咽功能并未修復,在口腔內氣流需要產生并保持一定壓力的時候,就不能蓄足充足的口腔氣流,使得輔音的成阻和持阻能量不足,表現在語譜圖上就是沖直條不明顯,空白間隙減少。
圖2 正常發(fā)音和輔音省略情況下的語譜
由圖2可以看出,/na/的兩種發(fā)音 (正常發(fā)音、輔音省略)表現在語譜圖上,除了橫杠的不同 (這可能是由于腭裂語音的高鼻音或鼻漏氣所造成),在沖直條和空白間隙上也展現出了在時間和頻率上的很大區(qū)別。由于選用的鼻音n,所以擦音亂紋并沒有明顯體現。
本文旨在將腭裂輔音的特征通過語音特征表現出來,并建立一個適用的聲學模型,實現對腭裂語音輔音省略的自動識別。
圖3所示為提出的腭裂語音輔音發(fā)音錯誤識別系統(tǒng)流程圖。訓練語音信號以及典型的輔音缺省發(fā)音經過預處理后,提取美爾頻率倒譜系數 (mel frequency cepstrum coefficient,MFCC)特征參數,經過隱馬爾科夫模型 (hidden markov model,HMM)訓練建立腭裂語音模型。測試用語音信號經過同樣的預處理、MFCC 參數提取及HMM 模型訓練后,與已經得到的模型進行viterbi匹配,以實現輔音發(fā)音錯誤類型的識別。
由于實驗所用信號為患者在語音診療室所錄制,且錄制地點為保證少兒的精神放松,以達到其最真實、自然的語音數據供后期治療,所以錄音中會含有部分雜音、噪音,包括患兒的口齒不清及吞咽聲等,也會包括語音師的領讀聲、儀器聲等,所以在對語音信號進行特征參數提取之前需要先經過預處理。
圖3 基于MFCC腭裂語音輔音發(fā)音錯誤識別系統(tǒng)
由于上述噪聲干擾的不規(guī)則性,不可用簡單地帶通濾波器進行濾波。對于人為的噪聲,例如吞咽聲及語音診斷師的領讀聲,在實驗中大多采取人工切割的方式將這些干擾切割掉;對于儀器聲等,考慮到其不可預測性,系統(tǒng)采用自適應濾波器實現去噪處理。自適應濾波器可以在噪聲情況不可知的情況下根據輸入信號的時變性隨時調整參數,從而得到最優(yōu)的輸入信號。本文采用LMS 濾波器算法實現濾波。
經過濾波后的語音信號還需要進行預加重處理。一般通過傳遞函數為H(z)=1-az-1的一階FIR 高通數字濾波器來實現預加重。本文中預加重系數為0.9375。
由于語音信號的短時平穩(wěn)性,所以通常對其進行加窗分幀處理。本文選擇漢明窗,幀長為24ms,幀移為12ms。
預處理的最后一步是對語音信號進行端點檢測,其目的是在一段含有語音的信號中區(qū)分出語音的起止點和終止點,從而將語音分離出來。在腭裂語音識別中,語音信號本身就具有很多腭裂兒童所發(fā)出的不必要的口唇音,而端點檢測可有效地去除這些干擾。本文采用短時能量和過零率相結合的端點檢測算法。
美爾頻率倒譜系數 (MFCC),是一種根據人耳聽覺特性構造的一種語音特征參數。由于人耳所聽到的聲高與頻率并不是線性對應關系,而Mel頻率尺度更能準確的對應人耳的聽覺特性。Mel頻率尺度與實際頻率大體上呈現出對數分布關系,其轉換關系可近似為式 (1)
美爾頻率倒譜系數計算步驟如下:
(1)原始語音信號S(n)經過一系列預處理后得到幀信號x(n),對幀信號進行離散傅里葉變換。得到其線性頻率譜X(k)
其中,0≤K ≤N ,N 為傅里葉變換的點數。
(2)求幀信號能量譜,即上式求得的離散頻率普的平方。通過M 個美爾尺度的三角型濾波器對能量譜進行帶通濾波。M 通常取24~40個,在本文中M 取24。
(3)求濾波器組輸出的對數能量
其中,0≤m ≤M ,Hm(k)為濾波器傳遞函數。
(4)經離散余弦變換 (DCT)得到MFCC系數
其中,0≤n≤M 。
將MFCC選作腭裂語音的特征參數進行分析,是因為MFCC不依賴于全極點形式的語音產生模型,對于含有噪音的語音信號有較好的魯棒性,可以在一定程度上消弱腭裂語音中各種可能性的語音干擾。文獻 [7-9]同時對于非特定人的語音識別系統(tǒng)也有減小因不同人之間的說話差異而可能造成的系統(tǒng)精確度下降[10]。
HMM,即隱馬爾科夫模型。隱馬爾科夫鏈的狀態(tài)形式,也即隱馬爾科夫模型的拓撲結構,決定了狀態(tài)間轉移的方式。從語音信號來考慮,信號中的音素是按照從左至右的方式發(fā)出的,所以使用自左至右的狀態(tài)間轉移方式相對合理。且在漢語中,音素省略現象很少出現,尤其是針對于本文所處理的單音節(jié)發(fā)音中則幾乎不存在。所以在本文中采用的是無跳轉狀態(tài)模型[11],如圖4所示。
圖4 HMM 無跳轉狀態(tài)模型
狀態(tài)轉移矩陣A= [aij],1≤i,j≤N,其中i>j時,aij=0。
狀態(tài)輸出概率函數矩陣B= [bj(x)],1≤j≤N。
采用GM (gaussian mixtures)來計算狀態(tài)輸出概率函數矩陣,計算式如下
其中,bjm(x)符合N [x,μjm,Ujm]的正態(tài)多維高斯分布。
高斯混合的作用本質為求各個混合概率的加權,起到包絡平滑的作用?;旌蠑礛 的選取需要考慮到兩方面的要求:其一是要均勻分布模型數據,另外是需考慮不同長度的語音信號幀數不同引起的消極影響。經過實驗比對,本文選取M=3。
考慮到本文實驗所用的實驗數據量相對較大,傳統(tǒng)Baum-Welch算法的高運算量和所需的巨大存儲空間使其并不適用于本實驗,本文選擇了分段K 平均算法進行模型訓練。步驟如下:
(1)將訓練數據的語音信號進行狀態(tài)的初始分割。
(2)對狀態(tài)相同的語音特征矢量挑選出來,使用Kmeans方法對這些矢量求其B矩陣的模型估計。
(3)根據模型估計,對訓練數據語音信號進行狀態(tài)重新分割。
(4)將舊的模型替換為新的模型,并根據模型是否收斂判斷選連是否結束。若不收斂,則轉步驟 (2)。
模型訓練完畢就可以對實驗數據進行模型匹配,得到系統(tǒng)識別結果了。本文采用viterbi算法,viterbi是一種運算簡便,正確率較高的識別算法,可以同時得到概率和狀態(tài)序列。
設已知模型序列O=O1,O2,……,OT和HMM 模型λ= [π,A,B],定 義δi(i)是 時 刻t 沿 路 徑q1,q2,……,qt,且
算法步驟如下:
(1)初始化
其中,1≤i≤N 。
(2)遞歸
其中,2≤i≤T,1≤j≤N 。
(3)終止
(4)回溯最佳路徑
其中,1≤t≤T-1。
本文所用語音信號采集于四川大學華西口腔醫(yī)院唇腭裂外科。四川大學華西口腔醫(yī)院唇腭裂外科是國內最大唇腭裂???,其 “腭裂術后語音治療中心”,長期開展腭裂術前術后的腭咽功能和語音評估,有著成熟的標準化的評估流程和評估機制。
實驗所用的訓練和測試語音信號的選取見表1和表2。
訓練語音為正常發(fā)音狀態(tài)下的語音信號。其中,/a/是選取的為由于輔音缺省而導致的只有元音/a/的情況。
表1 所選取的訓練語音信號
表2 所選取的測試語音信號
腭裂語音輔音錯誤類型識別正確率如表3至表5所示。
表3 發(fā)音正常情況下自動語音識別正確率
表4 輔音省略情況下自動語音識別正確率
表5 發(fā)音正常及發(fā)生輔音省略情況下自動語音識別系統(tǒng)正確率
從表3和表5可以看出,系統(tǒng)對于發(fā)音正常的語音有較高的識別率。實驗所采用的輔音省略的測試數據,為臨床語音師多次判聽后進行標注。從表4和表5的實驗結果可知,提出的自動腭裂語音輔音發(fā)音錯誤識別算法,對輔音省略的識別率較高,可有效輔助臨床語音師實現對腭裂患者語音發(fā)音錯誤的類型判別及矯正。系統(tǒng)對于發(fā)音正常的/a/音識別率高于輔音省略的/a/音原因是:輔音省略后的/a/音中個別還含有聽覺系統(tǒng)不能察覺的微少輔音信息反映在提取出的MFCC 參數上,從而造成系統(tǒng)的錯誤識別。而這種錯誤識別也相應的可以為臨床語音師提供判斷患兒的腭咽功能的恢復程度的參考。
針對國內外研究者由于信號數目不足而導致的腭裂語音研究缺漏的問題,通過腭裂語音輔音發(fā)音錯誤的特征進行分析,本文提出了基于MFCC 和HMM 的腭裂語音輔音發(fā)音錯誤的自動識別算法。實驗結果表明,提出的自動識別系統(tǒng)能較好的實現對輔音發(fā)音正確率、發(fā)音錯誤的輔音名稱的自動識別。說明該系統(tǒng)可實現對腭裂語音發(fā)音的輔助評估,為臨床語音師提供一種非主觀性的診斷輔助措施。
[1]SHI Xinghui,CHEN Ning,XING Shuzhong,et al.Study on spectrum features of speech before and after repair in cleft palate patients[J].Stomatology,2008,28 (2):65-69 (in Chinese).[施星輝,陳寧,邢樹忠,等.腭裂患者手術前后語音頻譜特點的研究 [J].口腔醫(yī)學,2008,28 (2):65-69.]
[2]Andreas Maier,Florian Honig,Christian Hacker,et al.Automatic evaluation of characteristic speech disorders in children with cleft lip and palate [C]//Proc of Interspeech,2008:1757-1760.
[3]S Murillo,J R Orozco,J F Vargas,et al.Automatic detection of hypernasality in children [G].LNCS 6687:New Challenges on Bioinspired Applications.Berlin:Springer Berlin Heidelberg,2011:167-174.
[4]Pruthi T,Wilson C Y.Acoustic parameters for the automatic detection of vowel nasalization [C]//Proc of Interspeech,2007:1925-1928.
[5]Vijayalakshmi P,Ramasubba M,O'Shaughnessy D.Acoustic analysis and detection of hypernasality using agroup delay function [J].IEEE Trans,2007:54 (4):621-629.
[6]CHEN Xin,TANG Enyi,LU Yong,et al.Acoustic characterristics of the consonants in patients with post-palatoplasty velopharyngeal incompetence [J].Shandong Medical Journal,2011,51 (42):6-7 (in Chinese). [陳欣,唐恩溢,魯勇,等.腭裂術后VPI 患者的輔音發(fā)聲特點 [J].山東醫(yī)藥,2011,51 (42):6-7.]
[7]Arias-Londoo J D,Godino-Llorente J I,Sáenz-Lechón N,et al.Automatic detection of pathological voices using complexity measures,noise parameters and mel-cepstral coefficients [J].IEEE Trans,2011,58 (2):370-379.
[8]Orozco J R,Murillo S,Vargas J F,et al.Nonlinear dynamics for hypernasality detection [G].LNCS 7015:Advances in Nonlinear Speech Processing.Berlin:Springer Berlin Heidelberg,2011:207-214.
[9]FENG Xiaoliang,MENG Zihou.Distinctive parameter survey of mandarin consonants for speech evaluation [J].Technical Acoustics,2010,29 (3):297-305 (in Chinese). [馮曉亮,孟子厚.面向普通話輔音檢測的區(qū)別特征參數測量 [J].聲學技術,2010,29 (3):297-305.]
[10]Orozco J R,Murillo S,lvarez A,et al.Automatic selection of acoustic and non-linear dynamic features in voice signals for hypernasality detection [C]//Proc of Interspeech,2011:529-32.
[11]Mikhajlovich V E,Stanislavocich D S,Viktorovich L D,et al.Method of detecting pathology of voice leading speech[P].RU Patent:2010104610,2011-08-20.