劉夢(mèng)君+陳雅詩(shī)
摘 要:伴隨著現(xiàn)代科學(xué)與計(jì)算機(jī)技術(shù)的發(fā)展,人們意識(shí)到了語(yǔ)音識(shí)別技術(shù)所具有的重要理論價(jià)值和廣闊的應(yīng)用前景,而語(yǔ)音識(shí)別技術(shù)也成為了現(xiàn)代計(jì)算機(jī)技術(shù)研究和發(fā)展的重要領(lǐng)域之一??记谑窃u(píng)價(jià)學(xué)生平時(shí)成績(jī)的重要指標(biāo),傳統(tǒng)的點(diǎn)名方式效率低下,真實(shí)性得不到保證,而目前實(shí)施的點(diǎn)名系統(tǒng)無法改善此類現(xiàn)象。針對(duì)上述問題,設(shè)計(jì)一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音點(diǎn)名識(shí)別系統(tǒng)來提高點(diǎn)名的準(zhǔn)確率。在基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別點(diǎn)名系統(tǒng)中,通過比對(duì)說話人聲音特征的方式來確定學(xué)生的出勤,從大量的實(shí)驗(yàn)數(shù)據(jù)中可以發(fā)現(xiàn),此種點(diǎn)名方式可有效地提高點(diǎn)名的準(zhǔn)確率。
關(guān)鍵詞:語(yǔ)音識(shí)別 特征提取 神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)02(b)-0016-02
考勤是評(píng)價(jià)學(xué)生平時(shí)成績(jī)的重要指標(biāo),但其準(zhǔn)確率和真實(shí)性卻往往得不到保證。在過去的點(diǎn)名方式中,比較為人們所熟知的有:老師喊學(xué)生名字,學(xué)生回答“到”。這是最為傳統(tǒng)的一種,但是此種方式的弊端也顯而易見——在學(xué)生達(dá)到30人及以上時(shí),由于人數(shù)過多,老師難以準(zhǔn)確制止學(xué)生之間相互代答的現(xiàn)象,導(dǎo)致學(xué)生“渾水摸魚”,蒙混過關(guān),考勤成績(jī)不具有真實(shí)、準(zhǔn)確性;另外,在手機(jī)的快速發(fā)展和普及下,一種APP點(diǎn)名方式也逐漸興起。在需要點(diǎn)名時(shí)打開手機(jī)APP點(diǎn)擊簽到即可,點(diǎn)名的時(shí)間不固定,老師通過簽到的情況來確定學(xué)生是否缺勤。但這其中忽略的問題則是雖然點(diǎn)名時(shí)間是隨機(jī)的,但是出勤的同學(xué)可以用多種方式來告知缺勤的同學(xué)使其完成簽到,這種情況下,考勤結(jié)果依然無法辨別。
針對(duì)上述問題,設(shè)計(jì)出一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音點(diǎn)名識(shí)別系統(tǒng)來提高點(diǎn)名的準(zhǔn)確率。在課堂點(diǎn)名的時(shí)候,錄入學(xué)生的實(shí)時(shí)語(yǔ)音,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括聲音的預(yù)加重、加窗分幀處理與端點(diǎn)檢測(cè)等。語(yǔ)音信號(hào)經(jīng)過預(yù)處理后,再進(jìn)行特征參數(shù)提取。在訓(xùn)練階段,對(duì)特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模板,保存為模板庫(kù)。在識(shí)別階段,語(yǔ)音信號(hào)經(jīng)過相同的方法得到語(yǔ)音參數(shù),生成測(cè)試模板,與參考模板進(jìn)行匹配,將匹配相似度最高的參考模板作為識(shí)別結(jié)果。通過識(shí)別結(jié)果來判斷是否為同一個(gè)學(xué)生回答,這樣則可減少老師點(diǎn)名工作的繁雜度,并且可以大幅增加考勤的有效性以及準(zhǔn)確率,來更好地達(dá)到“考勤”這一行為的預(yù)期目的。
通過實(shí)驗(yàn)表明,該系統(tǒng)具有較高的準(zhǔn)確率。從之前的老師點(diǎn)名學(xué)生回答和APP點(diǎn)名等方式對(duì)真實(shí)性的一無所知、無法預(yù)測(cè)到現(xiàn)如今該系統(tǒng)可以使考勤的準(zhǔn)確率達(dá)到85%以上,都表明了這種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音點(diǎn)名識(shí)別系統(tǒng)可以有效地減少學(xué)生代替答到的行為并提高學(xué)校考勤的準(zhǔn)確率,使評(píng)價(jià)學(xué)生平時(shí)成績(jī)的重要指標(biāo)——考勤結(jié)果更加真實(shí)、可靠。
1 具體方案
1.1 模型庫(kù)建立
1.1.1 語(yǔ)音識(shí)別的預(yù)處理
語(yǔ)音信號(hào)的預(yù)處理是語(yǔ)音識(shí)別的基礎(chǔ)與前提,包括語(yǔ)言的預(yù)濾波、采樣、預(yù)加重、加窗分幀處理與端點(diǎn)檢測(cè)等。
(1)預(yù)濾波、采樣。
預(yù)濾波的目的是:抑制語(yǔ)音信號(hào)中超過f/2(f為采樣頻率)的分量對(duì)語(yǔ)音產(chǎn)生混疊的現(xiàn)象;有效地實(shí)現(xiàn)對(duì)50 Hz電源干擾的抑制。
濾波時(shí)使用的是個(gè)帶通濾波器,采樣定理要求采樣頻率至少要是語(yǔ)音頻率的兩倍。
在濾波和采樣結(jié)束后,將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。
(2)預(yù)加重。
聲音信號(hào)中,處于低頻段的信號(hào)能量比較大,集中了語(yǔ)音信號(hào)的絕大多數(shù)信息量。預(yù)加重就是將語(yǔ)音信號(hào)在輸入端對(duì)高頻部分進(jìn)行增大,達(dá)到提高信噪比的目的[1-2]。
(3)分幀與加窗。
分幀可以采用連續(xù)分段的方法,但是為了使幀與幀之間能夠平滑過渡,保持很好的連續(xù)性,現(xiàn)在一般采用交疊分段的方法。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長(zhǎng)的比值一般取0~1/2。
在語(yǔ)音信號(hào)處理中常用的窗函數(shù)是矩形窗和漢明(Hamm ing)窗等。由于漢明窗的旁瓣高度是最小的,而主瓣是最高的,其對(duì)抑制頻譜的泄露比較有效果,漢明窗有比其他窗函數(shù)更好的低通性[3]。
1.1.2 語(yǔ)音識(shí)別的特征參數(shù)提取
特征提取是指從說話人的語(yǔ)音信號(hào)中獲得一組能夠描述語(yǔ)音信號(hào)的特征參數(shù)的過程,人們發(fā)現(xiàn)說話人語(yǔ)音的個(gè)性特征在很大程度上取決于說話人的發(fā)音聲道。特征參數(shù)可以是能量、共振峰值、零相交率等語(yǔ)音參數(shù)。因?yàn)椴煌娜怂f出語(yǔ)音的各項(xiàng)特征參數(shù)不相同,因此,可以將特征參數(shù)作為判斷兩段語(yǔ)音是否為同一個(gè)人的重要判斷依據(jù)[4]。
1.2 語(yǔ)音識(shí)別
1.2.1 人工肝神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
人工神經(jīng)網(wǎng)絡(luò)(ANN)簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò),使用計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)模擬生物神經(jīng)網(wǎng)絡(luò)的智能計(jì)算系統(tǒng)。它是基于人腦神經(jīng)元的原理,模擬人腦神經(jīng)元的結(jié)構(gòu)和活動(dòng)建立的一種識(shí)別模型,其最終目的是建成一種具有自學(xué)習(xí)能力、聯(lián)想能力、識(shí)別能力的系統(tǒng)[5]。
1.2.2 BP神經(jīng)網(wǎng)絡(luò)
BP算法,也稱為EBA算法,也就是誤差反向傳播算法,系統(tǒng)地解決了多層神經(jīng)元網(wǎng)絡(luò)中隱單元層連接權(quán)的學(xué)習(xí)問題,并在數(shù)學(xué)上給出了完整的推導(dǎo)[7]。
按照神經(jīng)元之間的連接方式,可將神經(jīng)網(wǎng)絡(luò)分為兩大類:分層網(wǎng)絡(luò)和互聯(lián)型網(wǎng)絡(luò)[8]。
2 實(shí)驗(yàn)過程與討論
程序的起始界面如圖3。
在該系統(tǒng)中,聲音文件的格式均為.wav格式,頻率默認(rèn)為8 000。
首先在錄入學(xué)生信息時(shí)采集學(xué)生的語(yǔ)音,一并存入數(shù)據(jù)庫(kù),通過預(yù)處理、特征提取等工作提取出每個(gè)學(xué)生的聲音特征,例如速度、能量等,將這些數(shù)據(jù)存入模型庫(kù)文件trainer中,提供給之后的神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用以及作為課堂點(diǎn)名時(shí)的聲音樣本。在日常上課點(diǎn)名時(shí)實(shí)時(shí)采集每個(gè)學(xué)生回答同樣話語(yǔ)的聲音,經(jīng)過預(yù)處理及特征提取等同樣的步驟放入文件夾speaker中來與模型庫(kù)中的語(yǔ)音樣本進(jìn)行比對(duì),文件名為該學(xué)生學(xué)號(hào)。若是同一人回答,則會(huì)顯示trainer** matches speaker** ,兩者文件名數(shù)字相同;若顯示匹配的數(shù)字不相同,則代表可能不是同一人。
圖4為一段語(yǔ)音的特征參數(shù)圖形。
由圖4可以更加直觀地看出,不同的語(yǔ)音所具有的特征參數(shù)波形圖是不一樣的,我們就可以利用這個(gè)特性來達(dá)到分辨是否為同一個(gè)人回答的目的。
3 結(jié)語(yǔ)
語(yǔ)音識(shí)別、神經(jīng)網(wǎng)絡(luò)都是現(xiàn)在學(xué)術(shù)界的研究熱點(diǎn),以基于人工網(wǎng)絡(luò)的語(yǔ)音識(shí)別為基礎(chǔ),對(duì)語(yǔ)音識(shí)別的過程進(jìn)行了系統(tǒng)和深入的研究?;谡Z(yǔ)音識(shí)別的原理和過程,結(jié)合BP神經(jīng)網(wǎng)絡(luò)的理論和特點(diǎn),研究了基于MFCC的語(yǔ)音識(shí)別,完成了相關(guān)算法與軟件的編寫,結(jié)合神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別等知識(shí),運(yùn)行出了一個(gè)簡(jiǎn)易的點(diǎn)名系統(tǒng)??梢源蟠鬁p少學(xué)生代替答到的現(xiàn)象,塑造一個(gè)良好的課堂環(huán)境并得到可靠的考勤結(jié)果。符合科技日益發(fā)展的現(xiàn)代社會(huì)的需要,課堂與生活一起與時(shí)俱進(jìn)。
參考文獻(xiàn)
[1] 王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D].浙江大學(xué)計(jì)算機(jī)學(xué)院,2008.
[2] 張穩(wěn).基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)[D].成都理工大學(xué),2013.
[3] 吳煒燁.基于神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別算法的研究[D].中南大學(xué),2009.
[4] 雷濤.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究[D].浙江工業(yè)大學(xué),2005.
[5] 施彥,韓立群.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方法與實(shí)例分析[D].北京郵電大學(xué),2009.
[6] 余建潮,張瑞林.基于MFCC和LPCC的說話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.
[7] 王明.基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)研究與實(shí)現(xiàn)[D].電子科技大學(xué),2012.
[8] 李昌立,吳善陪.數(shù)字語(yǔ)音-語(yǔ)音編碼實(shí)用教程[M].北京郵電出版社,2004.