楊磊 劉美枝
摘要
隨著現(xiàn)代高端小區(qū)住戶對(duì)家庭生活智能化要求逐漸提高,智能家居相關(guān)配套模型產(chǎn)品在很多售樓部宣傳展示,但其應(yīng)用模式基本都是隨樓盤銷售、整體裝修于一體,售價(jià)昂貴、性價(jià)比低.文章主要研究家庭照明系統(tǒng)的語音識(shí)別控制,以家庭成員語音輸入信號(hào)進(jìn)行自動(dòng)增益控制、預(yù)加重、分幀、加窗,端點(diǎn)檢測(cè),提取梅爾頻率倒譜系數(shù)(MFCC)特征參數(shù),建立隱馬爾科夫模型(HMM)訓(xùn)練語音信號(hào)模板庫(kù)。在識(shí)別階段,對(duì)語音信號(hào)預(yù)處理、特征參數(shù)提取后進(jìn)行模板匹配,結(jié)果輸出給照明系統(tǒng),滿足家庭生活服務(wù)的個(gè)性化定制。
【關(guān)鍵詞】語音識(shí)別 MFCC HMM
語音識(shí)別屬于模式識(shí)別范疇,現(xiàn)代家庭對(duì)產(chǎn)品控制智能化要求提高,使得語音識(shí)別技術(shù)的應(yīng)用在家庭生活服務(wù)中發(fā)揮重要作用。通過語音識(shí)別技術(shù)使機(jī)器理解人類語言層和語義層含義,對(duì)語音信號(hào)指令要求做出正確的響應(yīng),進(jìn)而控制智能家庭照明系統(tǒng),提高人們生活舒適程度。本文研究家庭室內(nèi)照明控制系統(tǒng)的語音識(shí)別技術(shù),針對(duì)小詞匯量特定人孤立詞語音信號(hào)進(jìn)行識(shí)別,用戶可根據(jù)需求自定義語音輸入信號(hào),系統(tǒng)前端完成信號(hào)增益調(diào)節(jié)、消噪濾波,經(jīng)過預(yù)加重、分幀、加窗等預(yù)處理后根據(jù)人類語音發(fā)聲機(jī)理提取語音信號(hào)的梅爾頻率倒譜系數(shù)(MFCC)特征參數(shù),建立基于隱馬爾科夫(HMM)的聲道數(shù)學(xué)模型,最后訓(xùn)練出家庭成員語音信號(hào)模板庫(kù)。在系統(tǒng)識(shí)別過程中,提取語音輸入信號(hào)的MFCC特征參數(shù),根據(jù)一定的搜索和匹配策略與模板庫(kù)中的語音模板進(jìn)行比較,輸出最優(yōu)的匹配和識(shí)別結(jié)果,將指令通過無線控制模塊發(fā)送給照明系統(tǒng)的開關(guān)控制節(jié)點(diǎn)。在家庭語音信號(hào)低信噪比前提下,系統(tǒng)識(shí)別率高、響應(yīng)快、靈活性強(qiáng),可擴(kuò)展到其他智能家用產(chǎn)品的語音識(shí)別控制,采用嵌入式開發(fā)以較高的性價(jià)比滿足家庭智能生活需求。
1 系統(tǒng)總體設(shè)計(jì)
語音信號(hào)識(shí)別系統(tǒng)工作分為兩個(gè)階段:第一階段為學(xué)習(xí)階段,建立家庭照明控制系統(tǒng)所常用的語音指令數(shù)據(jù)庫(kù),對(duì)語音指令信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理后,提取MFCC特征參數(shù),采用HMM模型對(duì)語音指令信號(hào)進(jìn)行訓(xùn)練學(xué)習(xí),建立照明控制系統(tǒng)的語音指令模板庫(kù);第二階段為語音測(cè)試信號(hào)的在線識(shí)別階段,將家庭成員發(fā)出的開燈、關(guān)燈以及具體房間位置燈等語音指令信號(hào)實(shí)時(shí)輸入給語音識(shí)別系統(tǒng),經(jīng)過對(duì)語音指令信號(hào)預(yù)處理、MFCC特征參數(shù)提取,與HMM訓(xùn)練模板庫(kù)進(jìn)行匹配,最終把響應(yīng)信號(hào)輸出給照明系統(tǒng)接收節(jié)點(diǎn),完成家庭照明系統(tǒng)的智能化控制。語音信號(hào)識(shí)別系統(tǒng)結(jié)構(gòu)圖如圖1所示。
2 語音信號(hào)分析與處理
2.1 語音信號(hào)的預(yù)處理
語音信號(hào)由于在短時(shí)間內(nèi)頻譜特性和物理特征參數(shù)保持恒定,所以經(jīng)過預(yù)處理后將非平穩(wěn)的語音信號(hào)處理為平穩(wěn)信號(hào),以方便特征參數(shù)提取。首先通過自動(dòng)增益控制使輸入的語音弱信號(hào)線性放大同時(shí)保證一定的幅值壓縮比例,再經(jīng)過A/D轉(zhuǎn)換電路后使語音信號(hào)數(shù)字化。
對(duì)采集的語音數(shù)字信號(hào)預(yù)加重,目的是提升信號(hào)在傳輸過程中的高頻衰減部分,使信號(hào)在整個(gè)頻帶內(nèi)具有相同的信噪比,頻譜相對(duì)平坦。由于語音信號(hào)一般在10ms到30ms之間,且具有短時(shí)平穩(wěn)性,對(duì)語音信號(hào)采用漢明窗函數(shù)進(jìn)行分幀和加窗。漢明窗的幅頻特性是旁瓣衰減較大,低通特性較平滑,加窗后能夠較好的反應(yīng)短時(shí)語音信號(hào)的頻率特性。
采用短時(shí)平均幅度和短時(shí)平均過門限率對(duì)加窗后的語音信號(hào)進(jìn)行端點(diǎn)檢測(cè),設(shè)定合適的閾值上下限,檢測(cè)出輸入的整個(gè)語音序列的起點(diǎn)和終點(diǎn)。
2.2 MFCC特征參數(shù)提取
由于梅爾頻率值作為新的量度相對(duì)于頻率量度具有更接近人耳的聽覺機(jī)理特性。根據(jù)梅爾頻率的計(jì)算公式將短時(shí)語音信號(hào)頻率譜的頻率上下限范圍內(nèi)的值對(duì)應(yīng)到梅爾區(qū)間,在梅爾頻率軸上配置N通道的三角形帶通濾波器組,讓梅爾坐標(biāo)上的能量譜經(jīng)過此濾波器組,對(duì)每個(gè)濾波器組輸出的能量譜做對(duì)數(shù)運(yùn)算,將得到的梅爾刻度譜做離散余弦反變換(IDCT)獲取MFCC特征參數(shù)。
2.3 建立HMM模型
在隱馬爾科夫過程中,觀測(cè)值序列就是語音信號(hào)的特征向量MFCC參數(shù),隱含狀態(tài)為不同指令的小詞匯量語音詞,每種語音詞對(duì)應(yīng)的MFCC參數(shù)概率不同,根據(jù)隱馬爾科夫過程的概率統(tǒng)計(jì)描述,建立隱馬爾科夫模型(HMM)描述含有未知參數(shù)的統(tǒng)計(jì)模型。采用Viterbi算法實(shí)現(xiàn)語音信號(hào)解碼,該算法不僅可以找到一條最優(yōu)的狀態(tài)轉(zhuǎn)移路徑,還可以得到該路徑所對(duì)應(yīng)的輸出概率,在時(shí)間復(fù)雜度和空間復(fù)雜度上相對(duì)于全概率公式較小。
3 軟件仿真
3.1 語音信號(hào)訓(xùn)練
首先建立訓(xùn)練樣本庫(kù),將麥克風(fēng)錄制的wav格式的語音信號(hào)通過MATLAB軟件的wavread()函數(shù)轉(zhuǎn)換成矩陣形式讀入工作空間。調(diào)用預(yù)處理及特征參數(shù)提取函數(shù)mfcc()、端點(diǎn)檢測(cè)函數(shù)vad()、HMM初始化函數(shù)inithmm()、Viterbi算法函數(shù)等對(duì)預(yù)先設(shè)定的語音指令信號(hào)訓(xùn)練模版庫(kù)。
3.2 語音信號(hào)識(shí)別
將語音指令信號(hào)輸入計(jì)算機(jī)系統(tǒng),在MATLAB軟件中預(yù)處理、MFCC特征參數(shù)提取后進(jìn)行模板匹配,計(jì)算概率最大值輸出決策結(jié)果。
4 結(jié)論
本文采用語音識(shí)別技術(shù)結(jié)合現(xiàn)代家庭智能生活需求設(shè)計(jì)了智能照明系統(tǒng),經(jīng)過MATLAB軟件仿真分析,系統(tǒng)實(shí)時(shí)穩(wěn)定,符合家庭自住裝修設(shè)計(jì)低成本的需求,給人們生活帶來便利。
參考文獻(xiàn)
[1]彭輝,魏瑋,陸建華.特定人孤立詞的語音識(shí)別系統(tǒng)研究[J].控制工程,2011,18(03):397-400.
[2]Thomas F.Quatieri著,趙勝輝,劉家康,謝湘等譯.離散時(shí)間語音信號(hào)處理—原理與應(yīng)用[M].電子工業(yè)出版社,2004,8.
[3]王稚慧.基于HIOhf建模的語音識(shí)別算法的研究[D].西安建筑科技大學(xué),2005.