關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語音識別;人機交互系統(tǒng)
中圖分類號:TP273 文獻標識碼:A
0 引言
在互聯(lián)網(wǎng)時代背景下,機器人技術(shù)應(yīng)運而生,并且在人機交互領(lǐng)域中發(fā)揮了重要應(yīng)用優(yōu)勢,使人機交互系統(tǒng)得到廣泛的推廣和普及[1]。但是,市面上的語音識別人機交互系統(tǒng)處理過程復(fù)雜,受到口音、語速、語調(diào)以及背景噪聲等多種因素的影響,增加了語音識別的難度。此外,當前技術(shù)尚未完全成熟,無法完全準確地捕捉和解讀所有語音信息 ,為解決以上問題,保證語音識別人機交互系統(tǒng)交互能力,本文應(yīng)用基于改進一維向量卷積神經(jīng)網(wǎng)絡(luò)(1-dimensional convolution neural network,1DCNN)的英語語音識別技術(shù),對新型英語語音識別人機交互系統(tǒng)進行設(shè)計,有效提高了英語語音識別的精確度,滿足了用戶精確識別和處理英語語音的需求。
1 基于改進1DCNN的英語語音識別技術(shù)概述
在信息時代背景下,隨著機器人不斷推廣和普及,市面上出現(xiàn)多種多樣的語音識別人機交互系統(tǒng)。現(xiàn)階段,語音識別人機交互系統(tǒng)主要采用對話交流的方式,為用戶提供人機交流互動服務(wù),為幫助機器人智能化回復(fù)和應(yīng)答用戶英語語音信息相關(guān)問題,本文應(yīng)用基于改進1DCNN 的英語語音識別技術(shù),研發(fā)和設(shè)計相應(yīng)的英語語音識別人機交互系統(tǒng)。在圖像處理領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用廣泛,因此該系統(tǒng)主要運用卷積神經(jīng)網(wǎng)絡(luò)來保證系統(tǒng)語音識別功能的實現(xiàn)效果。在提取英語語音信號時,技術(shù)人員需借助本文系統(tǒng)提取的圖像參數(shù),但這種操作容易增大最終提取結(jié)果的誤差。為避免這些問題的出現(xiàn),技術(shù)人員在保留一維語音信號特征的基礎(chǔ)上,提出一種基于改進1DCNN 的英語語音識別技術(shù)。該語音識別技術(shù)應(yīng)用流程如下:首先,技術(shù)人員借助話筒等語音采集設(shè)備,對所需要的英語語音信號進行采集和轉(zhuǎn)換,使其轉(zhuǎn)換為相應(yīng)的電信號,并將該電信號直接發(fā)送和存儲至特定的識別系統(tǒng)中,由該識別系統(tǒng)運用前端處理技術(shù)對所接收的電信號進行統(tǒng)一化處理。其次,在前端處理結(jié)束之后,技術(shù)人員精確化提取所需要的語音信號特征,并且采用測度估計方法,估計和匯總相關(guān)特征參數(shù),并結(jié)合最終特征參數(shù)結(jié)果來提出一種新模式。利用該新模式和用戶最終主觀估計結(jié)果,完成測度估計。最后,結(jié)合制定的識別方案,針對不同的新模式,計算和獲取最終的識別結(jié)果。基于改進1DCNN 的英語語音識別技術(shù)應(yīng)用流程如圖1 所示。在本文系統(tǒng)對語音信號進行離散變換處理期間,通常會涉及語音信號取樣環(huán)節(jié),通過執(zhí)行該環(huán)節(jié),可以為用戶提供完整、真實、可靠的語音信號,從而達到再現(xiàn)和還原真實信號的目的。在語音信號取樣處理結(jié)束后,技術(shù)人員需在降低語言信號幅值的基礎(chǔ)上,對原始信號進行預(yù)處理,使整個音頻具有較高的高頻分量值。
2 基于改進1DCNN的英語語音識別人機交互系統(tǒng)設(shè)計
人機交互系統(tǒng)同時含有人臉、表情、文本、語音等多種模態(tài)信息。為提高人機交互系統(tǒng)的交互能力,本文基于改進1DCNN 的英語語音識別技術(shù),以英語語音為輸入內(nèi)容,以視頻、音頻為輸出結(jié)果,設(shè)計了一個英語語音識別人機交互系統(tǒng)[2]。系統(tǒng)架構(gòu)設(shè)計圖如圖2 所示。
從圖2 中可以看出,系統(tǒng)主要包含以下模塊:①語音識別模塊。該模塊在具體設(shè)計時,需輸入用戶語音等數(shù)據(jù),運用卷積神經(jīng)網(wǎng)絡(luò),對所需要的語音數(shù)據(jù)進行精確化提取、分幀等一系列預(yù)處理操作。②語音對話模塊。該模塊主要用于系統(tǒng)音頻模態(tài)的智能化采集和輸出。該模塊在具體設(shè)計時,主要應(yīng)用語音合成技術(shù)對所需要的文本數(shù)據(jù)進行采集,并結(jié)合最終采集數(shù)據(jù)結(jié)果,生成相應(yīng)的音頻。③視頻展示模塊。該模塊主要用于系統(tǒng)視頻模態(tài)的智能化輸出[3]。該模塊在具體設(shè)計時,需采用人臉表情動畫技術(shù),精確化采集和輸出相關(guān)視頻信息,同時,從所生成的視頻信息中采集和整理人臉表情參數(shù),完成對3D人臉網(wǎng)絡(luò)體系的構(gòu)建[4]。④語音處理模塊。該模塊負責(zé)接收用戶的英語語音輸入,并對其進行預(yù)處理和特征提取,通過基于改進的1DCNN 模型進行語音識別,最終將識別結(jié)果轉(zhuǎn)換為文本輸出。
系統(tǒng)具體實現(xiàn)流程如下:首先,技術(shù)人員應(yīng)用基于改進1DCNN 的英語語音識別技術(shù),對特定用戶的關(guān)鍵語音信息進行智能化采集和獲取,并結(jié)合最終采集數(shù)據(jù)結(jié)果,強化對語音信息中聲學(xué)特征信息的提取。其次,為提高系統(tǒng)的運行性能,技術(shù)人員對所需要的音頻數(shù)據(jù)進行合成處理。最后,應(yīng)用3D 動畫技術(shù),結(jié)合所采集的語音情緒信息,有針對性地設(shè)計不同人臉表情,從而完成對人臉3D 模型的構(gòu)建。借助人臉3D 模型,為用戶提供良好的視頻交互、音頻交互體驗。在設(shè)計系統(tǒng)時,環(huán)境變化會對語音數(shù)據(jù)最終采集結(jié)果產(chǎn)生直接影響,為保證語音數(shù)據(jù)采集的全面性和完整性,技術(shù)人員需結(jié)合用戶個性化使用需求,有針對性地設(shè)計一種功能強大的語音處理模塊,從而避免因環(huán)境引發(fā)的信號噪聲污染現(xiàn)象[5]。同時,技術(shù)人員運用小波變換方法,對語音信息進行采集、歸類和降噪處理,以保證語音效果。
3 基于改進1DCNN的英語語音識別人機交互系統(tǒng)測試
為研究和測試本文系統(tǒng)語音識別性能,并且驗證其有效性和可行性,技術(shù)人員重點分析和評價了系統(tǒng)的語音數(shù)據(jù)處理效果。系統(tǒng)語音數(shù)據(jù)處理效果圖如圖3 所示。從圖3a 中可以看出,在本次測試研究中,所選擇的原始信號呈現(xiàn)出明顯的變化狀態(tài)。同時,整個信號曲線中出現(xiàn)大量的毛刺信號,這說明原始信號存在嚴重的噪聲污染現(xiàn)象。圖3b中的波形圖存在少量的毛刺信號,曲線較為光滑,能夠為用戶呈現(xiàn)出清晰、全面的語音信息。這說明本文系統(tǒng)在精確識別語音信息的基礎(chǔ)上,可以保證降噪處理的質(zhì)量和效率。
此外,運用混合語音法對本文系統(tǒng)的識別能力進行測試。系統(tǒng)語音識別能力測試結(jié)果如圖4所示。從圖4a 中可以看出,本文系統(tǒng)可以精確判斷和識別用戶語音中的喜、怒、哀、樂等多種情緒。圖4b中的1、0 分別代表識別成功、識別失敗,結(jié)合最終混合語音識別結(jié)果,可以發(fā)現(xiàn),在30次系統(tǒng)測試中,當混合語音數(shù)量為1 時,本文系統(tǒng)識別成功率高達100%;當混合語音數(shù)量為2~4時,本文系統(tǒng)識別成功率達到93.33%;當混合語音數(shù)量為5時,本文系統(tǒng)識別成功率達到90.00%。由此可知,本文系統(tǒng)在識別用戶語音情緒方面具有較高的識別成功率,識別成功率高達90.00% 以上,滿足用戶精確識別和判斷多種語音信息的需求,有效提高了用戶的人機交互體驗。
4 結(jié)語
在人工智能背景下,英語語音識別人機交互系統(tǒng)的研發(fā)和應(yīng)用雖然給人們的日常生活和工作提供了便利,但部分人機交互系統(tǒng)存在語音識別成功率低等問題。因此,本文研發(fā)和設(shè)計了一種基于改進1DCNN 的英語語音識別人機交互系統(tǒng),并對該系統(tǒng)的性能進行測試。結(jié)果表明,該系統(tǒng)具有語音處理能力強、語音識別成功率高等特點,方便用戶將噪聲信號快速處理和轉(zhuǎn)換為具有高識別度的光滑信號。