趙 楠,武明虎,熊 煒,陳晶晶
(湖北工業(yè)大學(xué) 電氣與電子工程學(xué)院,武漢 430068)
基于Android語(yǔ)音信號(hào)處理教學(xué)平臺(tái)的設(shè)計(jì)
趙 楠,武明虎,熊 煒,陳晶晶
(湖北工業(yè)大學(xué) 電氣與電子工程學(xué)院,武漢 430068)
以智能移動(dòng)設(shè)備作為載體,具有語(yǔ)音信號(hào)的采集、語(yǔ)音分析和處理及圖形顯示等功能的基于Android的語(yǔ)音信號(hào)處理教學(xué)演示平臺(tái),不僅節(jié)約了教學(xué)成本,激發(fā)學(xué)生的學(xué)習(xí)興趣,而且有助于學(xué)生對(duì)課程基本理論的理解以及分析問(wèn)題和動(dòng)手實(shí)踐能力的提高。同時(shí),該平臺(tái)涉及到多個(gè)學(xué)科領(lǐng)域,能擴(kuò)展到其他課程的教學(xué)實(shí)踐中,為現(xiàn)代化教學(xué)改革提供新思路和手段。
語(yǔ)音信號(hào)處理;Android;移動(dòng)教學(xué)平臺(tái);實(shí)踐經(jīng)驗(yàn)
語(yǔ)音信號(hào)處理(speech signal processing,SSP)是利用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行分析和處理的一門(mén)學(xué)科,涉及數(shù)字信號(hào)處理、語(yǔ)音學(xué)、信息論、隨機(jī)過(guò)程、模式識(shí)別等許多學(xué)科領(lǐng)域[1-3],是一門(mén)理論性強(qiáng)、實(shí)用廣、難度大的交叉學(xué)科。該課程所涉及的知識(shí)理論性強(qiáng),基本概念抽象,傳統(tǒng)板書(shū)或簡(jiǎn)單的PPT教學(xué)方式很難讓學(xué)生深入地理解和掌握其基本原理[4-6]。
近年來(lái),隨著無(wú)線移動(dòng)技術(shù)的發(fā)展,移動(dòng)學(xué)習(xí)充分利用可便攜設(shè)備實(shí)現(xiàn)了跨越地域限制的學(xué)習(xí)方式,逐漸受到研究者的青睞[7-8]。而作為移動(dòng)設(shè)備發(fā)展最為迅速的Android系統(tǒng)平臺(tái),其各種應(yīng)用層出不窮,在高校中擁有龐大的用戶群體。
湖北工業(yè)大學(xué)電氣學(xué)院通信教研組經(jīng)過(guò)多年探索和嘗試,希望將Android系統(tǒng)與移動(dòng)學(xué)習(xí)理念引入語(yǔ)音信號(hào)處理課堂教學(xué)中,開(kāi)發(fā)了基于Android系統(tǒng)的語(yǔ)音信號(hào)處理移動(dòng)輔助教學(xué)軟件,以圖形方式形象地展示語(yǔ)音信號(hào)的特點(diǎn),從而豐富學(xué)生的感性認(rèn)識(shí),提高其學(xué)習(xí)主動(dòng)性。同時(shí),學(xué)生可隨時(shí)隨地在手邊的Android移動(dòng)設(shè)備上進(jìn)行課程內(nèi)容的演示和學(xué)習(xí),既省時(shí)又便捷。這種靈活、多樣、自主的學(xué)習(xí)方式,能夠幫助學(xué)生建立對(duì)抽象的“信號(hào)”的認(rèn)識(shí),為相關(guān)理論的學(xué)習(xí)和研究打下基礎(chǔ)。
Android系統(tǒng)是當(dāng)今移動(dòng)終端使用量最大的操作系統(tǒng)。本文利用其普及性、移動(dòng)便捷、快速運(yùn)算等特點(diǎn),開(kāi)發(fā)了基于Android系統(tǒng)的語(yǔ)音信號(hào)處理教學(xué)輔助平臺(tái)(SSP educational platform by Hbut,SEPH)。用戶只需在其移動(dòng)終端上安裝SEPH軟件,借助無(wú)線移動(dòng)通信技術(shù),即可實(shí)現(xiàn)隨時(shí)隨地移動(dòng)學(xué)習(xí)[9]。SEPH改變了現(xiàn)有的單一教學(xué)手段,將虛擬實(shí)驗(yàn)與課堂理論有機(jī)結(jié)合,能極大地激發(fā)學(xué)生的學(xué)習(xí)興趣。其良好的移動(dòng)性和交互性,在節(jié)約教學(xué)成本的同時(shí),能有效地提高教學(xué)效果。
SEPH平臺(tái)實(shí)現(xiàn)基本的語(yǔ)音分析和處理功能,包括時(shí)域分析、頻譜分析、倒譜分析、線性預(yù)測(cè)編碼技術(shù)(linear predictive coding,LPC)等。
基音周期是語(yǔ)音信號(hào)處理中的一個(gè)非常重要的參數(shù),能夠準(zhǔn)確地檢測(cè)出基音周期對(duì)語(yǔ)音信號(hào)的分析、合成、編碼以及識(shí)別,具有重要的意義[1]。短時(shí)自相關(guān)函數(shù)法和倒譜分析法是基音周期估計(jì)較為常用的方法。本節(jié)基于SEPH系統(tǒng),探討在基音檢測(cè)教學(xué)中如何利用語(yǔ)音分析技術(shù)對(duì)實(shí)際的語(yǔ)音信號(hào)進(jìn)行分析與檢測(cè)。
2.1 基于倒譜分析法的基音檢測(cè)
語(yǔ)音信號(hào)的倒譜分析是估計(jì)語(yǔ)音生成模型的有效方法,通常用于語(yǔ)音編碼、合成、識(shí)別等方面[2]。根據(jù)語(yǔ)音產(chǎn)生理論,語(yǔ)音信號(hào)s(n)由語(yǔ)音信號(hào)的聲門(mén)激勵(lì)信息e(n)通過(guò)聲道h(n)產(chǎn)生,在頻域,語(yǔ)音信號(hào)可表示為:于是,s(n)的對(duì)數(shù)幅度譜為:
借助傅里葉變換技術(shù),lg|S(ω)|中與激勵(lì)信息E(ω)相關(guān)的高頻部分和與聲道信息H(ω)相關(guān)的低頻部分被有效地分離,從而獲得聲道共振峰的特性和基音周期。
清音幀沒(méi)有周期性和強(qiáng)烈的峰起,而濁音幀存在明顯的尖峰,其峰值的位置就是濁音基音周期的良好估值。同時(shí),利用低時(shí)窗,將倒譜的低時(shí)部分的聲道信息h(n)提取出來(lái),能夠獲得該段語(yǔ)音信號(hào)的共振峰頻率。因此,利用倒譜分析,不僅能進(jìn)行清、濁音的判別,而且能夠估計(jì)語(yǔ)音信號(hào)的共振峰頻率和濁音的基音周期。語(yǔ)音的基音頻率隨著聲音的變化情況,如圖1所示。
圖1 基音頻率圖(倒譜法)
2.2 基于短時(shí)自相關(guān)函數(shù)法的基音檢測(cè)
對(duì)于語(yǔ)音信號(hào)x(n)來(lái)說(shuō),其短時(shí)自相關(guān)定義為:
式中,k為延遲點(diǎn)數(shù)。
圖2 基音頻率圖(短時(shí)自相關(guān)函數(shù)法)
清音幀的短時(shí)自相關(guān)序列雜亂無(wú)章,類(lèi)似于噪聲,而濁音幀的短時(shí)自相關(guān)序列具有周期性。通過(guò)估計(jì)該自相關(guān)序列的周期,可以獲得該濁音幀的基音周期。基音檢測(cè)圖如圖2所示??梢灾庇^地看出,在發(fā)聲的整個(gè)過(guò)程中,濁音語(yǔ)音的基音頻率隨著聲音的變化幅度波動(dòng)很大,縱坐標(biāo)值為零的語(yǔ)音段是清音語(yǔ)音。
同時(shí),根據(jù)圖1和圖2的基音頻率圖,學(xué)生能清晰地理解這兩種檢測(cè)方法的原理和作用。自相關(guān)函數(shù)法算法簡(jiǎn)單直觀,但準(zhǔn)確率不高,容易產(chǎn)生倍基音;倒譜法能較好地檢測(cè)出語(yǔ)音信號(hào)的基音周期,但計(jì)算量大。通過(guò)對(duì)比實(shí)驗(yàn),將以前枯燥的語(yǔ)音特性分析與基音檢測(cè)原理,變?yōu)橹庇^的、形象的視覺(jué)效果,來(lái)展示不同類(lèi)型語(yǔ)音信號(hào)和檢測(cè)方法的特點(diǎn),激發(fā)了學(xué)生的學(xué)習(xí)興趣,有利于學(xué)生迅速理解相關(guān)知識(shí)。
在語(yǔ)音信號(hào)處理中,共振峰頻率表征發(fā)音時(shí)聲道特性的關(guān)鍵參數(shù),在語(yǔ)音合成、語(yǔ)音識(shí)別等方面有著重要的應(yīng)用價(jià)值。本節(jié)結(jié)合常見(jiàn)的倒譜法和LPC法,來(lái)說(shuō)明在共振峰檢測(cè)方面使用SEPH的優(yōu)勢(shì)。
3.1 基于倒譜法的共振峰檢測(cè)
倒譜將基音諧波和聲道的頻譜包絡(luò)分離,其低時(shí)部分可用于分析聲道、聲門(mén)等信息。利用低時(shí)窗提取倒譜信息,再進(jìn)行DFT后的輸出,即為平滑后的對(duì)數(shù)模函數(shù)。這一平滑對(duì)數(shù)譜表現(xiàn)出語(yǔ)音段的諧振結(jié)構(gòu),即譜的峰值基本上對(duì)應(yīng)于共振峰的頻率。因此,通過(guò)對(duì)平滑對(duì)數(shù)譜的峰值進(jìn)行定位,可以有效地估計(jì)共振峰頻率[10]。圖3給出了前3個(gè)共振峰頻率的軌跡圖。
圖3 共振峰軌跡圖(倒譜法)
3.2 基于LPC法的共振峰檢測(cè)
在語(yǔ)音信號(hào)處理技術(shù)中,LPC分析是一種譜估計(jì)的方法[11],一個(gè)語(yǔ)音的采樣能夠用過(guò)去若干個(gè)語(yǔ)音采樣的線性組合來(lái)逼近,即:
式中,p為L(zhǎng)PC階數(shù),ak為線性預(yù)測(cè)系數(shù),e(n)為線性預(yù)測(cè)誤差。
在最小均方誤差意義上,通過(guò)線性預(yù)測(cè)得到的采樣逼近實(shí)際語(yǔ)音采樣,從而獲得一組唯一的預(yù)測(cè)系數(shù),即線性組合中的加權(quán)系數(shù)[12]。
對(duì)于p階線性預(yù)測(cè)來(lái)說(shuō),有:
為了分析語(yǔ)音信號(hào)的頻域特性,該LPC功率譜可表示為:
式中,G為模型增益。
用戶通過(guò)手指在SEPH界面中選擇某一語(yǔ)音幀(光標(biāo)所在位置如圖4(a)所示),其對(duì)應(yīng)的LPC譜就會(huì)出現(xiàn)在演示界面的上半部分。通過(guò)這樣靈活生動(dòng)的用戶體驗(yàn),形象直觀地展示語(yǔ)音特性,既調(diào)動(dòng)了學(xué)生的積極性,又活躍了課堂氣氛。
圖4(a)顯示了濁音幀及其相應(yīng)的LPC譜,學(xué)生可直觀看出語(yǔ)音的LPC特性以及峰值對(duì)應(yīng)的共振峰頻率。通過(guò)對(duì)預(yù)測(cè)多項(xiàng)式系數(shù)的分解,可以確定共振峰的中心頻率和帶寬[1]。給出濁音和清音共振峰頻率隨著聲音的變化情況如圖4(b)所示。
從圖3和圖4(b)的共振峰軌跡圖中可以看出,倒譜法頻譜曲線的波動(dòng)較小,估計(jì)共振峰參數(shù)的效果較好,但計(jì)算量大;LPC法用一個(gè)全極點(diǎn)模型逼近語(yǔ)音譜,但較難匹配含有零點(diǎn)的語(yǔ)音,同時(shí)亦受LPC階數(shù)p的影響。在教學(xué)過(guò)程中,可以引導(dǎo)學(xué)生根據(jù)不同方法的特點(diǎn)自主進(jìn)行分析驗(yàn)證,通過(guò)靈活地更改參數(shù)設(shè)置,動(dòng)態(tài)地讓學(xué)生理解共振峰檢測(cè)的基本原理,加深其對(duì)課程內(nèi)容的理解和掌握。
圖4 LPC法
語(yǔ)音信號(hào)處理知識(shí)理論性強(qiáng)、概念抽象。針對(duì)該課程教學(xué)特點(diǎn),本文基于Android系統(tǒng)開(kāi)發(fā)了一個(gè)移動(dòng)教學(xué)演示平臺(tái),其良好的移動(dòng)性和交互性、直觀的圖形展示、靈活的參數(shù)配置和豐富的語(yǔ)音分析及處理功能,不僅減少了相關(guān)教學(xué)平臺(tái)的投入成本,而且極大激發(fā)了學(xué)生的自主學(xué)習(xí)、自主探究的興趣,有效提高了學(xué)生分析問(wèn)題和動(dòng)手實(shí)踐能力。該教學(xué)演示平臺(tái)不但可應(yīng)用于本科生和研究生相關(guān)教學(xué)實(shí)踐,而且為后續(xù)研究奠定了較好的基礎(chǔ)。
[1]胡航.語(yǔ)音信號(hào)處理(修訂版)[M].黑龍江:哈爾濱工業(yè)大學(xué)出版社,2002.
[2]劉衛(wèi)東,孟曉靜,王艷.語(yǔ)音信號(hào)處理實(shí)驗(yàn)教學(xué)研究探索[J].實(shí)驗(yàn)室研究與探索,2008,27(4):72-74.
[3]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[4]謝斌,蔡自興.項(xiàng)目驅(qū)動(dòng)式教學(xué)在語(yǔ)音信號(hào)處理課程改革中的嘗試[J].計(jì)算機(jī)教育,2012(18):63-66.
[5]張雪英.數(shù)字語(yǔ)音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010.
[6]楊毅,鄧北星,馬曉紅.《語(yǔ)音信號(hào)處理》實(shí)驗(yàn)教學(xué)研究與實(shí)踐[J].實(shí)驗(yàn)科學(xué)與技術(shù),2012,10(6): 112-116.
[7]李云飛.移動(dòng)學(xué)習(xí)系統(tǒng)及其相關(guān)學(xué)習(xí)模式[J].開(kāi)放教育研究,2012,18(1):152-158.
[8]楊佳.M-Learning中的學(xué)習(xí)活動(dòng)設(shè)計(jì)[J].軟件導(dǎo)刊(教育技術(shù)),2011,10(1):89-91.
[9]薛建強(qiáng).大學(xué)英語(yǔ)移動(dòng)學(xué)習(xí)模式的構(gòu)建與發(fā)展研究[J].實(shí)驗(yàn)技術(shù)與管理,2014,31(3):176-179.
[10]肖正安.基于MATLAB分析語(yǔ)音信號(hào)頻域特征[J].湖北第二師范學(xué)院學(xué)報(bào),2011,28(8):35-37.
[11]趙淑敏.基于MATLAB實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)頻譜分析[J].江西通信科技,2010(4):15-17.
[12]蓋正杰.基于矢量量化的說(shuō)話人識(shí)別分析與研究[D].長(zhǎng)春:長(zhǎng)春理工大學(xué),2009.
Design of Teaching Platform of Speech Signal Processing Based on Android
ZHAO Nan,WU Minghu,XIONG Wei,CHEN Jingjing
(School of Electrical&Electronic Engineering,Hubei University of Technology,Wuhan 430068,China)
An attractive Android-based mobile educational platform for teaching speech signal processing is presented in this paper.The proposed platform has the advantages of high portability,strong affordability,adequate interactivity,and easy adoptability with high-hierarchy graphic user interface and extensive hands-on experiences.The experimental results show that this platform can significantly cultivate students’learning interest,improve their practical ability,and consolidate theoretical concepts.The platform is also appropriate for the signal-processing related courses,which can provide new ideas and means for the construction of modern teaching reform.
speech signal processing;Android;mobile teaching platform;practice experience
TN911.7
A
10.3969/j.issn.1672-4550.2016.05.017
2015-01-11;修改日期:2015-03-11
湖北工業(yè)大學(xué)教學(xué)研究項(xiàng)目(校2015014)。
趙 楠(1983-),女,博士,講師,主要從事語(yǔ)音信號(hào)處理、通信信號(hào)處理方面的研究。