廣州市輕工高級技工學(xué)校 何 波
語音是人們實現(xiàn)日常交流的基本工具之一,而通過不同語言指令科學(xué)控制機(jī)器,完成相關(guān)工作任務(wù),很早就是相關(guān)科學(xué)家們對語言研究的重要方向之一。這也就是業(yè)內(nèi)人士常說的語音識別技術(shù)。尤其是近些年來,隨著通信網(wǎng)絡(luò)的完善、電子技術(shù)的發(fā)展和各類新型智能家居的出現(xiàn),語音識別技術(shù)已在社會很多行業(yè)都得到了廣泛應(yīng)用,輕松實現(xiàn)了各種機(jī)器的智能語音控制功能。
語音識別作為一門交叉性較強的學(xué)科,通常又被相關(guān)研究人員稱作“自動語音識別”,它既是模式識別研究的一個重要分支,也是語音信號處理的基本研究方向之一。雖然語音識別的研究內(nèi)容十分復(fù)雜,經(jīng)常需要涉及到語言學(xué)、生理學(xué)、人體行為學(xué)和計算機(jī)信號處理學(xué)等多個學(xué)科的相關(guān)知識,但其最終的研究目的卻非常明確即充分實現(xiàn)人類和機(jī)器的自然語言通信。通俗地說就是將人類語音中的各項詞匯內(nèi)容科學(xué)轉(zhuǎn)換成計算機(jī)系統(tǒng)能夠識別的二進(jìn)制編碼、字符序列等相關(guān)內(nèi)容。人類對語音識別的研究最早是從20世紀(jì)50年代開始的,當(dāng)時貝爾研究所的Davis等研究人員成功研究出了世界上第一個能夠精確識別出10個英文數(shù)字發(fā)音的語音識別系統(tǒng)。在1960年時,英國Denes等研究人員又開發(fā)出了世界上第一個計算機(jī)語音識別系統(tǒng)。此后語音識別開始逐漸發(fā)展并被逐步被社會各行業(yè)應(yīng)用。而語音識別技術(shù)的具體應(yīng)用一般需要通過語音撥號技術(shù)、語音導(dǎo)航技術(shù)、室內(nèi)設(shè)備控制技術(shù)、語音文檔檢索技術(shù)和簡單的聽寫數(shù)據(jù)錄入技術(shù)等各個環(huán)節(jié)的科學(xué)協(xié)調(diào)配合才能完成。通過語音識別,在人機(jī)之間實現(xiàn)自然語言通信的關(guān)鍵環(huán)節(jié)就是語音識別的模型和算法。而最常用和最成功的一種語音識別模型與算法就是以現(xiàn)代統(tǒng)計學(xué)為基礎(chǔ)的隱馬可夫語音識別模型和算法。語言識別技術(shù)的開發(fā)一般是以不同的硬件平臺為基礎(chǔ)的,其中專業(yè)人員應(yīng)用最廣泛的硬件是數(shù)字信號處理器( DSP)、嵌入式( ARM)與單片機(jī)(MCU)。相較于數(shù)字信號處理器( DSP)、嵌入式( ARM),單片機(jī)(MCU)在作為語言識別的主要開發(fā)硬件方面頗具優(yōu)勢。不但CPU運行速率快、價格經(jīng)濟(jì)、語言識別軟件開發(fā)的成本低,而且配置的語音函數(shù)庫的資源量大,語音識別系統(tǒng)軟件開發(fā)的整個過程較為簡化[1]。
在實際的應(yīng)用過程中,語音識別系統(tǒng)依據(jù)不同的分類標(biāo)準(zhǔn),可以分成為不同的系統(tǒng)類型。比如從識別詞匯量的大小方面講,語音識別系統(tǒng)可分為小詞匯量語音識別系統(tǒng)、中等詞匯量語音識別系統(tǒng)、大詞匯量語音識別系統(tǒng)與無限詞匯量語音系統(tǒng)這四種類型;而從對發(fā)音人發(fā)音方式的要求方面講,語音識別系統(tǒng)又可分為孤立型、連接字型與連續(xù)型這三種系統(tǒng)類型;若從對發(fā)音人的依賴程度講,它又經(jīng)常被分為特定人語音識別系統(tǒng)與非特定人語音識別系統(tǒng)這兩種類型。但無論哪種語音識別系統(tǒng),在其實現(xiàn)過程中,雖然細(xì)節(jié)略有差別,但其遵循的基本功能原理,采用的基本技術(shù)是一致的。
正如圖1所示,一般語音識別系統(tǒng)之所以能夠充分實現(xiàn)其語音識別功能,主要是得益于其以下四點運行原理的支持。第一,科學(xué)進(jìn)行語音預(yù)處理。通常語音識別預(yù)處理主要是對語音信號進(jìn)行采樣,通過反混疊帶通濾波功能有效去除語音信號中的個體發(fā)音差異與采樣設(shè)備、采樣環(huán)境等對其的噪聲影響。同時有針對性地選擇語音識別基元和相應(yīng)的檢測端。第二,規(guī)范化進(jìn)行語音特征提取。所謂語音特征提取就是依據(jù)標(biāo)準(zhǔn)程序提取語音的聲學(xué)參數(shù)。這種聲學(xué)參數(shù)一般語音平均能量、語音振峰、語音平均跨零率等內(nèi)容,它們能夠準(zhǔn)確反映出語音的本質(zhì)特征。第三,重復(fù)的語音訓(xùn)練。該環(huán)節(jié)主要是讓說話人重復(fù)發(fā)音,之后從說話人的原始語音樣本中逐一去除其中的多余語音信息,僅保存一部分關(guān)鍵性語音數(shù)據(jù),再依據(jù)相關(guān)規(guī)劃科學(xué)分類匯總分類這些關(guān)鍵性數(shù)據(jù),組建成一個語音模式庫。第四,精確的語音模式匹配。語音模式匹配是整個語音識別系統(tǒng)的功能核心,它是根據(jù)相關(guān)語音規(guī)則、專業(yè)語音學(xué)科知識、計算機(jī)輸入特點與已經(jīng)構(gòu)建的語音庫模式之間的整體相似度(構(gòu)詞方法、語義規(guī)則等等)精確判斷輸入語音的相關(guān)語意[2]。
圖1 語言識別系統(tǒng)基本原理圖
本案例設(shè)計的基于單片機(jī)的智能語音識別機(jī)器人主要以SPCE061A單片機(jī)為基本的系統(tǒng)控制器。然后由工作人員為控制器編寫好相關(guān)的系統(tǒng)控制程序,而單片機(jī)的管腳在接收到不同的語音命令信號后,會隨之發(fā)出預(yù)先設(shè)置好的高低不同電平。最后由控制機(jī)智能語音識別機(jī)器人的電機(jī)依據(jù)實際出現(xiàn)的不同電平值科學(xué)指揮機(jī)器人做出相應(yīng)的行為動作,這樣就通過人類語音充分實現(xiàn)了對機(jī)器人的行為控制。同時還可以及時利用單片機(jī)自帶的揚聲器,同步播放對智能語音識別機(jī)器人的語音控制結(jié)果。
本案例設(shè)計主要預(yù)設(shè)了10條不同的語音命令,然后分三步實現(xiàn)人機(jī)的自然語言交流。第一,在 Flash 存儲器中科學(xué)儲存好提前訓(xùn)練好的相應(yīng)語音命令。而語音命令的具體內(nèi)容可由設(shè)計者自行決定。第二,連接好系統(tǒng)的各個線路,并接通電源,使系統(tǒng)處于工作狀態(tài)。第三,設(shè)計人員發(fā)出相應(yīng)的訓(xùn)練語音,而語音識別系統(tǒng)在接收到訓(xùn)練語音信號時,便會給予相應(yīng)的回答,同時通過編制好的程序科學(xué)變換單片機(jī)管腳的預(yù)先設(shè)置的電平值,成功控器機(jī)器人的行為動作[3]。
第一,科學(xué)進(jìn)行相應(yīng)的語音答復(fù)。設(shè)計人員可通過PC機(jī)上自帶的錄音機(jī)自行錄制和保存10條單聲道、8.000K大小,16位屬性的wav格式聲頻文件。然后將錄制好的文件壓縮成S480格式或 A2000格式都可以。壓縮完成后,隨之將文件輸入到語言識別資源庫中,之后將其載入到語音識別系統(tǒng)的語音資源索引表。這樣錄制的語音答復(fù)就能夠依據(jù)編制好的系統(tǒng)程序相應(yīng)播放了。第二,準(zhǔn)確進(jìn)行語音識別。正如前面內(nèi)容所講,語音識別依據(jù)不同的分類標(biāo)準(zhǔn),可以分類不同的識別類型。本案例設(shè)計采用的語音識別類型是特定人語音識別和連續(xù)語音識別。因為特定人的語音識別必須在經(jīng)過相關(guān)訓(xùn)練后,才能成功實現(xiàn),所以本案例只有在完成相關(guān)的語音樣板訓(xùn)練后,才能成功實現(xiàn)語音識別功能。所謂語音樣板訓(xùn)練,主要是將待識別的語音命令科學(xué)進(jìn)行相應(yīng)的頻譜分析,之后精確提取相關(guān)的聲間特征參數(shù),作為實現(xiàn)語音識別功能的標(biāo)準(zhǔn)模式。而儲存這些標(biāo)準(zhǔn)模式(語音樣板)的空間,我們稱它為“詞庫”。而語音識別系統(tǒng)則是將提取到的語音信息的相關(guān)聲音特征參數(shù)與“詞庫”中的語音樣板相匹配,而其中匹配度最高的語音樣板命令序號就是本次案例語音識別的最終結(jié)果[4]。
綜上所述,語音識別主要是在人機(jī)之間充分實現(xiàn)自然語言通信,因為單片機(jī)自身在作為語音識別硬件方面的眾多優(yōu)勢,所以它已經(jīng)成為現(xiàn)代智能語音識機(jī)器人的主要硬件平臺。在基于單片機(jī)的智能語音識別機(jī)器人的具體設(shè)計開發(fā)過程中,通常需要做好系統(tǒng)硬件設(shè)計、系統(tǒng)軟件設(shè)計、系統(tǒng)語音答復(fù)、系統(tǒng)語音識別等多個環(huán)節(jié)的工作,這就要求相關(guān)技術(shù)人員熟練掌握各項技術(shù)要點,并將其正確應(yīng)用到實踐設(shè)計過程中。只有這樣才能更好地完成相關(guān)的智能語音識別機(jī)器人設(shè)計任務(wù),推動語音識別技術(shù)的進(jìn)一步發(fā)展與廣泛應(yīng)用。
[1]任枚琪.基于單片機(jī)的語音識別機(jī)器人的設(shè)計[J].電子制作,2016,(3):11,10.
[2]高強.基于DSP和51單片機(jī)的語音識別與控制系統(tǒng)的設(shè)計[D].西安理工大學(xué),2015.
[3]莫榮.基于語音識別的表情機(jī)器人設(shè)計[J].小作家選刊,2015,(35):247.
[4]郭世通,李娜.基于單片機(jī)的智能語音機(jī)器人的設(shè)計與實現(xiàn)[J].商業(yè)故事,2016,(5):37.