王永飛
(銅陵職業(yè)技術(shù)學(xué)院,安徽銅陵 244000)
■哲學(xué)·政治·法學(xué)研究
基于MATLAB語音信號(hào)處理一體化方法分析構(gòu)建
王永飛
(銅陵職業(yè)技術(shù)學(xué)院,安徽銅陵 244000)
隨著語音信息應(yīng)用重要性突顯,語音信息的分析方法是當(dāng)前計(jì)算機(jī)應(yīng)用的一個(gè)熱點(diǎn)。通過隨機(jī)采集的語音數(shù)據(jù),分析語音數(shù)據(jù)信息,可以尋求一種“一體化”語音數(shù)據(jù)分析方法,對(duì)清音和濁音進(jìn)行實(shí)驗(yàn)論證,與其它語音數(shù)據(jù)方法比較,能更好分析語音數(shù)據(jù)。
“一體化”分析法;激勵(lì);線性預(yù)測(cè)分析
MATLAB是一種用于數(shù)據(jù)可視化和數(shù)據(jù)分析等方面的標(biāo)準(zhǔn)計(jì)算軟件。語音信息是人類重要的信息交換形式。語音信號(hào)處理是將數(shù)字信號(hào)處理技術(shù)與語音學(xué)和心理學(xué)等多學(xué)科相結(jié)合的新興交叉學(xué)科,也是目前信息學(xué)研究領(lǐng)域的前沿。本研究通過對(duì)隨機(jī)采樣的語音信息從產(chǎn)生機(jī)理和信息特征兩方面進(jìn)行探索,提出了“一體化”研究語音方法,并識(shí)別清音、濁音,期望能為語音在線識(shí)別研究提供一定的依據(jù)。
語音是聲門氣流通過聲道時(shí)產(chǎn)生振動(dòng)而形成的,并與發(fā)音時(shí)的嘴型有關(guān),按其激勵(lì)方式可分為清音和濁音。設(shè)定每次聲帶開閉時(shí)長(zhǎng)為一個(gè)基音周期,基音的頻率范圍一般在80-450HZ左右,聲道改變形狀時(shí),通過聲道管的共振峰(聲道管諧振頻率)可識(shí)別濁音。
經(jīng)驗(yàn)表明,聲道面積在10-20ms內(nèi),語音音效可認(rèn)為是穩(wěn)態(tài)的,準(zhǔn)周期脈沖發(fā)濁音,隨機(jī)噪聲發(fā)清音,語音形成過程可仿真為一個(gè)漸變的線性模型。
語音信號(hào)自1940年Dudley聲碼器語音信號(hào)起,出現(xiàn)了數(shù)字濾波器、傅立葉變換、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)等語音信號(hào)處理技術(shù);1990年后,魯棒語音識(shí)別結(jié)合隱馬爾可夫模型處理技術(shù)語音處理技術(shù)的熱點(diǎn)[1],提出了一種平行子狀態(tài)隱馬爾可夫模型用作噪聲魯棒語音識(shí)別的聲學(xué)模型。本文提出的“一體化”分析方法是基于語音產(chǎn)生機(jī)理分析,目前,還未見到這種分析方法介紹,是一種探索語音信號(hào)處理技術(shù)的新途徑。
本研究從產(chǎn)生語音的聲門、聲道振動(dòng)和發(fā)音時(shí)嘴型變化出發(fā),整合聲門、聲振和發(fā)音時(shí)嘴型變化等特征,建立相應(yīng)的模擬函數(shù),形成語音“一體化”分析方法,其工作原理如圖1所示。
圖1 “一體化”分析方法工作原理
根據(jù)Nyquist定理,語音取樣率須是信號(hào)帶寬的2倍以上,保證取樣過程中不丟失信息[2]。對(duì)輸入的語音信號(hào)先濾波,截樣頻率由語音實(shí)際帶寬確定,語音波形動(dòng)態(tài)范圍一般為55dB。本研究采用量化位數(shù)為10位以上,以保證實(shí)驗(yàn)效果。語音信號(hào)數(shù)字分析前,需要高頻提升和分幀處理等預(yù)處理。分幀時(shí)每幀時(shí)長(zhǎng)約為10-20ms。將此段語音信號(hào)進(jìn)行取樣,獲取以時(shí)間為基礎(chǔ)的離散數(shù)字信號(hào)。我們隨機(jī)選取一段采樣率為44100HZ,16位量化,時(shí)長(zhǎng)5s的語音,內(nèi)容為“我是中國(guó)人,我來自安徽”的音頻作為實(shí)驗(yàn)數(shù)據(jù)。
本研究隨機(jī)采集的語音波形如圖2所示。為進(jìn)一步驗(yàn)證“一體化”法有效性,實(shí)驗(yàn)中再隨機(jī)選取一段采樣率為44100HZ,16位量化,時(shí)長(zhǎng)5s的白噪聲,波型如圖3所示。實(shí)驗(yàn)采集的語音加入白噪聲及濾波后如圖4所示。
圖2 采集的語音波形
圖3 白噪音波形
圖4 加白噪音及濾波后波形
通過“一體化”分析方法,對(duì)上述兩部分語音數(shù)據(jù)段進(jìn)行16K、8K和4K抽樣和恢復(fù)比較,實(shí)驗(yàn)結(jié)果如圖5。
圖5 16K、8K和4K抽樣和恢復(fù)比較
實(shí)驗(yàn)表明,原始數(shù)據(jù)信息與含有白噪音語音段在不同頻率段中的波型相似度較高,恢復(fù)比較實(shí)驗(yàn)中不同頻率的頻譜信息高度相似。表明“一體化”方法處理后對(duì)語音數(shù)據(jù)處理的有效性。
清音和濁音是語音信息中最重要的組成部分,語譜圖直接反映語音能量分布[3]。我們先對(duì)合成語音數(shù)據(jù)繪制語譜圖,窗長(zhǎng)分別為512和128,如圖6所示。
圖6 合成語音數(shù)據(jù)語譜圖
通過圖示的語音信號(hào)能量分布比,濁音因其準(zhǔn)周期性,顯示為條紋圖形,清音部分的圖形顯示為細(xì)密,由圖6可初步識(shí)別清、濁音分布情況。為了更進(jìn)一步驗(yàn)證“一體化”在識(shí)別清音和濁音上的有效性,我們從以下幾個(gè)方面進(jìn)行深入探討。
3.2.1 從過零角度分析
計(jì)算過零率如圖7。
圖7 過零率
由圖7可知,不同的窗口長(zhǎng)度,過零率接近相同。雖然濁音能量相對(duì)清音能量高,濁音過零率較清音過零率低,但清音和濁音能量有部分相互交疊,僅僅依據(jù)過零率高低來準(zhǔn)確判別清音和濁音很不合理。為準(zhǔn)確識(shí)別清音和濁音,我們考慮從其它角度分析語音特征。
3.2.2 從能量和幅度角度分析
圖8 語音能量
圖9 語音幅度
實(shí)驗(yàn)表明,因語音基音周期值時(shí)變性,從語音能量和語音幅度兩個(gè)角度入手,對(duì)語音數(shù)據(jù)進(jìn)行分幀處理,對(duì)語音數(shù)據(jù)一體化處理后,清、濁音由圖9可更直接識(shí)別。
3.2.3 從發(fā)音機(jī)理角度分析
我們對(duì)實(shí)驗(yàn)數(shù)據(jù)利用上述的矩形窗函數(shù)結(jié)合自修正函數(shù)對(duì)第5幀(清音幀)和第10幀(濁音幀)信息分幀分析如圖10所示。
圖10 語音信息分幀分析
實(shí)驗(yàn)表明,從語音能量和幅度識(shí)別第5幀是清音幀、第10幀是濁音幀。我們從發(fā)音機(jī)理角度對(duì)識(shí)別的清音幀和濁音幀進(jìn)行相關(guān)性驗(yàn)證,實(shí)驗(yàn)結(jié)果證明了“一體化”分析語音的有效性。
線性預(yù)測(cè)分析是目前研究語音信息的一種重要方式。線性預(yù)測(cè)分析經(jīng)常采用的模型有3類,分別是AR(全極點(diǎn)模型)、MA(全零點(diǎn)模型)和ARMA(既有零點(diǎn)又有極點(diǎn)的模型)[4]。線性預(yù)測(cè)分析是在假定語音短時(shí)平穩(wěn)基礎(chǔ)上進(jìn)行的,實(shí)踐表明LPC參數(shù)是反映語音信號(hào)特征的良好參數(shù)。
線性預(yù)測(cè)分析采用AR模型對(duì)本研究數(shù)據(jù)處理如圖11所示,在語音能量大的區(qū)域(譜峰)LPC譜和信號(hào)譜匹配較好;而在能量低(谷底)的區(qū)域譜匹配不理想。另外,對(duì)于濁音譜在諧波成分處比諧波間匹配程度好。與圖9和圖10比對(duì)后,經(jīng)“一體化”法處理后的數(shù)據(jù),更能直接和準(zhǔn)確的反映語音基本特征。
圖11 線性預(yù)測(cè)分析
本研究通過對(duì)隨機(jī)采樣的語音信息進(jìn)行研究,構(gòu)建了語音“一體化”分析方法,通過“一體化”分析方法對(duì)語音進(jìn)行合成、抽樣和恢復(fù)分析;結(jié)合不同的窗函數(shù)對(duì)清音和濁音從不同的角度進(jìn)行判別;與線性預(yù)測(cè)分析進(jìn)行比對(duì),驗(yàn)證了“一體化”分析方法的更優(yōu)性。
[1] 王艷芬,劉衛(wèi)東.信號(hào)處理課程群專業(yè)課“語音信號(hào)處理”的改革實(shí)踐[J].中國(guó)電力教育,2013(7):75-76.
[2] 王玉靜.語音信號(hào)的盲源分離算法研究[D].無錫:江南大學(xué),2012.
[3] 趙力.語音信號(hào)處理[M].2版.北京:機(jī)械工業(yè)出版社,2010.
[4] 陶華偉,査誠(chéng),梁瑞宇,張昕然,趙力,王青云.面向語音情感識(shí)別的語譜圖特征提取算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,05:817-821.
[責(zé)任編輯朱毅然]
AStudyontheMethodsoftheSpeechSoundsSignalProcessingConstructionBasedonMATLAB
WANGYong-fei
(TonglingVocationalTechnologyCollege,Tongling244000,China)
As it is more and more important of speech sounds application, the analysis methods of speech sounds is a hot topics today. This paper analyzed the data information of speech sounds, proposed the countermeasure methods, did the practical demonstration, compared with other data analyzing methods by deeply researching the randomly collecting data information.
unified analyzing methods; encouragement; linear prediction analysis
2017-03-15;
:2017-04-11
安徽省教育廳人文重點(diǎn)課題(SK2016A0941)
王永飛,男,安徽池州人,銅陵職業(yè)技術(shù)學(xué)院副教授,主要研究方向:智能信息處理。
TP391
: A
: 2095-770X(2017)09-0135-05
http://sxxqsfxy.ijournal.cn/ch/index.aspxdoi: 10.11995/j.issn.2095-770X.2017.09.030