云南機(jī)電職業(yè)技術(shù)學(xué)院 陳瑤玲
語(yǔ)音信號(hào)不僅可以傳遞語(yǔ)義信息,還可以傳遞語(yǔ)種信息,說(shuō)明語(yǔ)音信號(hào)中包含了語(yǔ)種信息特征,語(yǔ)種識(shí)別的特征參數(shù)提取就是利用數(shù)字信號(hào)處理的方法,從語(yǔ)音信號(hào)中把這些特征參數(shù)提取出來(lái),以實(shí)現(xiàn)語(yǔ)種識(shí)別。在語(yǔ)種識(shí)別中對(duì)特征參數(shù)的要求是:(l)能有效地代表各語(yǔ)種特征,具有很好的區(qū)分性;(2)各階參數(shù)之間具有良好的獨(dú)立性和魯棒性;(3)特征參數(shù)的計(jì)算要簡(jiǎn)單方便,要可以擁有高效的計(jì)算方法,用以保證語(yǔ)種識(shí)別算法的快速實(shí)現(xiàn)。在本文中,主要介紹美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、第一共振峰(F1)、基音頻率(F0)、短時(shí)能量(En)、韻律節(jié)奏等6種聲學(xué)特征參數(shù)及其派生參數(shù)。
美爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)[1]考慮了人耳的感知頻率以及音強(qiáng)時(shí)具有的非線性特性,被認(rèn)為具有良好的語(yǔ)音識(shí)別性能和抗噪聲能力,現(xiàn)在已被廣泛的應(yīng)用于語(yǔ)種識(shí)別和說(shuō)話人識(shí)別中。
線性預(yù)測(cè)倒譜參數(shù)(LPCC)已被廣泛地應(yīng)用在語(yǔ)音識(shí)別上[2]。由于倒頻譜(Cepstrum)具有將頻譜上的高低頻分開(kāi)的優(yōu)點(diǎn),所以只要取前面幾項(xiàng)參數(shù),就可以代表語(yǔ)音信號(hào)的特性,使得識(shí)別率提高,線性預(yù)測(cè)倒譜參數(shù)就是屬于倒頻域上的語(yǔ)音特征。
第一共振峰代表了發(fā)音信息的直接來(lái)源,是反映聲道特性的重要參數(shù),人在語(yǔ)音感知中也利用了共振峰信息。一般認(rèn)為共振峰信息包含在語(yǔ)音頻譜包絡(luò)中,譜包絡(luò)中的最大值就是共振峰。
線性預(yù)測(cè)分析可以導(dǎo)出聲道濾波器,根據(jù)聲道濾波器就可以找出共振峰。一般來(lái)說(shuō),共振峰采用基于線性預(yù)測(cè)的方法估計(jì)頻譜包絡(luò)。
用來(lái)反映語(yǔ)音激勵(lì)源參數(shù)的叫基音頻率,對(duì)于像漢語(yǔ)這樣有聲調(diào)的語(yǔ)言,基音頻率是語(yǔ)音信號(hào)中非常重要的參數(shù)。發(fā)濁音時(shí)聲帶振動(dòng)的周期性稱為基音周期,基音頻率就是基音周期的倒數(shù)。因?yàn)榛糁芷诘臏?zhǔn)周期性,可以采用基音檢測(cè) (Pitch detection)的方法來(lái)計(jì)算基音周期,而實(shí)際上這就是一種進(jìn)行短時(shí)平均的方法,基音頻率就是這個(gè)參數(shù)的倒數(shù)?;纛l率是重要的超音段特征。
要計(jì)算基音頻率,基音檢測(cè)是一個(gè)需要重點(diǎn)研究的課題?;魴z測(cè)主要分為預(yù)處理、自相關(guān)基音檢測(cè)、基音檢測(cè)后處理等部分。然而迄今為止,雖然提出了許多種基音檢測(cè)的方法,但這些方法都存在它們的局限性,至今尚未找到一個(gè)可以適用于不同語(yǔ)種、不同環(huán)境的基音檢測(cè)方法。
短時(shí)能量首先可以用來(lái)區(qū)分清音和濁音,語(yǔ)音信號(hào)中濁音部分的能量要遠(yuǎn)遠(yuǎn)大于清音部分的能量,在語(yǔ)音信號(hào)中進(jìn)行短時(shí)能量分析,主要是用來(lái)描述語(yǔ)音幅度及能量的變化。處理語(yǔ)音信號(hào)時(shí),短時(shí)能量一般采用一維參數(shù)來(lái)描述語(yǔ)音信號(hào)能量的大小以及超音段的信息。
在自然語(yǔ)音中,人們利用重音,節(jié)奏和語(yǔ)調(diào)等方式來(lái)表達(dá)情感和意義,這些特征是自然語(yǔ)音的重要組成部分。
重音,節(jié)奏和語(yǔ)調(diào)這些特征是通過(guò)特征頻率,音強(qiáng),音高,音長(zhǎng)的變化而表現(xiàn)出來(lái)的,因此韻律節(jié)奏參數(shù)的提取是把每個(gè)語(yǔ)種識(shí)別的語(yǔ)句音節(jié)數(shù)與語(yǔ)句發(fā)音時(shí)間的比值作為語(yǔ)速特征參數(shù),統(tǒng)計(jì)每個(gè)語(yǔ)句中有聲段和無(wú)聲段的比例,得到2維的韻律特征參數(shù)集。
根據(jù)以往實(shí)驗(yàn)結(jié)果可以看出,基音頻率應(yīng)用在語(yǔ)種識(shí)別中的一個(gè)較優(yōu)越的特征。這也和以往的很多相關(guān)的研究是吻合的[3][4],基音頻率(F0)是語(yǔ)種識(shí)別中區(qū)分效果最好的一類特征,它在不同語(yǔ)種之間的差異性最好。實(shí)驗(yàn)結(jié)果也表明,MFCC參數(shù)的識(shí)別效果也不錯(cuò),這也是因?yàn)镸FCC參數(shù)表現(xiàn)的是語(yǔ)音的頻譜信息,而頻譜信息的變化對(duì)語(yǔ)種識(shí)別的貢獻(xiàn)比較大。短時(shí)能量(En)和第一共振峰(F1)在實(shí)驗(yàn)中也有不錯(cuò)的表現(xiàn),它們的識(shí)別效果相近,也可以選作進(jìn)行語(yǔ)種識(shí)別的特征。韻律節(jié)奏的識(shí)別率最低,說(shuō)明韻律節(jié)奏是所采用的特征中用于語(yǔ)種識(shí)別最不適合的特征參數(shù)。
[1]徐翔俊,畢福昆,楊鑒.基于支持向量機(jī)的民族語(yǔ)口音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(13),pp.71-73.
[2]M Sugiyama. Automatic Language Recognition Using Acoustic Features. International Conference on Acousti[C].Speech and Signal Proeessing.Toronto,1991,pp.423-430.
[3]徐永華,楊鑒,陳江,陳瑤玲.一個(gè)面向少數(shù)民族語(yǔ)種識(shí)別的電話語(yǔ)音數(shù)據(jù)庫(kù)[J].第十屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,蘭州,2009,pp.54-57.
[4]S Yildirimeral,An acoustic study of emotions expressed in speech[C].ICSLP-2004,2004,pp.2193-2196.