周春榮
摘要:語音識別技術(shù)是人機(jī)實(shí)現(xiàn)互動的主要方式之一,本文對該技術(shù)進(jìn)行探究。文章首先概述了語音識別技術(shù)的原理及方法;其次分析了語音識別技術(shù)在機(jī)器人控制中的設(shè)計(jì)與實(shí)踐,包括系統(tǒng)總體結(jié)構(gòu)、系統(tǒng)各個功能模塊、機(jī)器人語音控制流程三大模塊以及具體的實(shí)踐分析;最后對提取特征參數(shù)以及語音識別算法進(jìn)行改進(jìn),對改進(jìn)后的機(jī)器人運(yùn)動情況進(jìn)行測試,并提出筆者的思考。
關(guān)鍵詞:語音識別技術(shù);機(jī)器人控制;改進(jìn)措施;應(yīng)用實(shí)踐
中圖分類號:TN912. 3 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)01-0001-02
語音識別、自然語言理解以及語音合成是人機(jī)交互的三種主要方式,為充分發(fā)揮計(jì)算機(jī)的作用,多數(shù)學(xué)者對人機(jī)交互的技術(shù)進(jìn)行了深入的探究,并提出較多的技術(shù)措施,本文重點(diǎn)從語音識別角度對人機(jī)交互進(jìn)行探究,在利用現(xiàn)有的技術(shù)進(jìn)行設(shè)計(jì)實(shí)踐之后,分析了其中可改進(jìn)的部分,并對改進(jìn)后的技術(shù)進(jìn)行了實(shí)踐,以期為其他相關(guān)研究人員提供一定的參考。
1 語音識別技術(shù)的原理及方法
1.1 語音識別技術(shù)的基本原理
語音識別技術(shù)出現(xiàn)的時間雖然相對較短,但是多為學(xué)者對此進(jìn)行了深入的研究,并且提出了多種設(shè)計(jì)方案,雖然方案各有不同,但是其原理基本一致,即通過一個模式識別系統(tǒng)使語音轉(zhuǎn)換為計(jì)算機(jī)可以識別的數(shù)據(jù)。該模式主要包括三個基本單元,即特征提取、模式匹配以及參考模式庫,其中語音信號預(yù)處理階段主要是對原始語音的端點(diǎn)檢測、語音分幀等,從而為后續(xù)的設(shè)計(jì)提供參數(shù)依據(jù);特征提取階段主要是對能夠反映語音信號特征的關(guān)鍵參數(shù)進(jìn)行提??;通過參考模型庫中的樣本語音等對相似度進(jìn)行度量,最后進(jìn)行識別。
1.2 語音識別的基本方法
當(dāng)前語音識別的基本方法主要有四種,分別是隱馬爾可夫模型、矢量量化技術(shù)、動態(tài)時間規(guī)整技術(shù)以及人工神經(jīng)網(wǎng)絡(luò)。其中隱馬爾可夫模型主要是通過對語音特征分布的概率進(jìn)行統(tǒng)計(jì)得出語音信號的時變序列,進(jìn)行語音識別;矢量量化技術(shù)主要是通過對數(shù)據(jù)壓縮,將語音信號波形矢量化,對每一幀進(jìn)行分析,最后進(jìn)行語音識別;動態(tài)時間規(guī)整技術(shù)主要是通過將原始語音樣本語音進(jìn)行時間規(guī)整,進(jìn)行語音識別;人工神經(jīng)網(wǎng)絡(luò)則是依據(jù)生物神經(jīng)網(wǎng)絡(luò)的特征所構(gòu)建的一種算法模型,通過學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系來實(shí)現(xiàn)語音的識別。
2 語音識別技術(shù)在機(jī)器人控制中的設(shè)計(jì)與實(shí)踐
2.1 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
語音識別技術(shù)在機(jī)器人控制中應(yīng)用,主要是通過語音輸入設(shè)備輸入語音,再通過相應(yīng)的軟件、程序等使計(jì)算機(jī)分辨出人類語音的內(nèi)容,實(shí)現(xiàn)人與計(jì)算機(jī)之間的交互。故而語音識別系統(tǒng)的總體結(jié)構(gòu)設(shè)計(jì)應(yīng)包括語音控制端以及機(jī)器人運(yùn)動控制端,具體的結(jié)構(gòu)設(shè)計(jì)如圖1所示。
2.2 系統(tǒng)各個功能模塊的設(shè)計(jì)
機(jī)器人語音識別系統(tǒng)各個功能模塊直接影響著系統(tǒng)運(yùn)行的質(zhì)量,具體來說,該系統(tǒng)主要包括七大模塊,分別是運(yùn)動輸出模塊、圖像采集系統(tǒng)模塊、運(yùn)用控制模塊、機(jī)器人主控系統(tǒng)模塊、語音識別模塊、語音輸入模塊以及端口程序模塊。
該系統(tǒng)的協(xié)作主要通過初始化模型、請求/應(yīng)答模式、命令模式以及時間模式實(shí)現(xiàn)。其中命令模式主要是完成啟動或者停止語音識別的命令,事件模式則是依據(jù)客觀實(shí)際情況自動停止語音識別活動,且顯示識別結(jié)果。
2.3 機(jī)器人語音控制流程設(shè)計(jì)
機(jī)器人語音識別系統(tǒng)中機(jī)器人語音控制是最為重要的部分,設(shè)計(jì)情況直接影響著整個系統(tǒng)的運(yùn)行,也影響著系統(tǒng)的功能的完成情況。具體來說,計(jì)算機(jī)控制系統(tǒng)的功能主要包括三大部分,分別是語音識別、機(jī)器人的運(yùn)動控制以及各項(xiàng)數(shù)據(jù)流管理,依據(jù)以上功能,設(shè)定機(jī)器人語音控制流程。
2.4 機(jī)器人運(yùn)動情況測試與分析
在系統(tǒng)構(gòu)建完成之后進(jìn)行測試,分別在安靜環(huán)境以及嘈雜環(huán)境中進(jìn)行,分別的測試數(shù)據(jù)如表1與表2所示。
由上可以看出,在固有技術(shù)上進(jìn)行的測試,嘈雜環(huán)境中識別率較低,故而需進(jìn)行完善。
3 提取特征參數(shù)以及語音識別算法的改進(jìn)及實(shí)踐
經(jīng)過分析,筆者改進(jìn)了LPC譜估計(jì)共振峰參數(shù)構(gòu)造了新的語音特征參數(shù),并且選用了TSMS算法以及DTW高效算法,并依據(jù)以上的模型進(jìn)行重新架構(gòu),流程不變,最后構(gòu)成的計(jì)算機(jī)語音識別系統(tǒng)在安靜環(huán)境中以及嘈雜環(huán)境中的識別效果如表3與表4所示。
由上可知,改進(jìn)之后語音識別系統(tǒng)在嘈雜環(huán)境中的識別效率也有提升,可以看出計(jì)算機(jī)語音識別系統(tǒng)仍有較大的提升空間。
4 結(jié)語
本文是對語音識別技術(shù)在機(jī)器人控制中應(yīng)用的探究,文章在概述了語音識別技術(shù)的相關(guān)理論之后針對改進(jìn)前后的語音識別技術(shù)進(jìn)行了實(shí)踐,并提出自己的思考,以期為其他研究人員提供一定的參考,同時拋磚引玉,希望有更多的學(xué)者參與其中進(jìn)行探究,以優(yōu)化語音識別技術(shù),從而促進(jìn)人機(jī)的進(jìn)一步交互。
參考文獻(xiàn)
[1]張鳳美.基于語音識別的移動機(jī)器人遠(yuǎn)程控制系統(tǒng)研究[D].武漢科技大學(xué),2013.
[2]劉旸.面向機(jī)器人對話的語音識別關(guān)鍵技術(shù)的研究[D].西安電子科技大學(xué),2016.