滕 宇
(上海交通大學(xué) 電子工程系, 上?!?00240)
?
改進(jìn)的蓋爾圓數(shù)目估計(jì)方法在智能家居語(yǔ)音識(shí)別場(chǎng)景中的應(yīng)用
滕宇
(上海交通大學(xué) 電子工程系, 上海200240)
介紹了蓋爾圓法則,提出了一種應(yīng)用在智能家居語(yǔ)音識(shí)別場(chǎng)景中的改進(jìn)的蓋爾圓數(shù)目估計(jì)方法?;谏w爾圓圓心信息對(duì)蓋爾圓半徑的獨(dú)立壓縮,利用協(xié)方差在矩陣應(yīng)用中的特性,壓縮蓋爾圓半徑,分離噪聲功率干擾,提高信號(hào)源數(shù)目估計(jì)的可靠性。試驗(yàn)結(jié)果表明,改進(jìn)的蓋爾圓數(shù)目估計(jì)方法能更好地識(shí)別智能家居聲控設(shè)備的語(yǔ)音控制指令,提高了語(yǔ)音識(shí)別率。
智能家居; 語(yǔ)音識(shí)別場(chǎng)景; 改進(jìn)的蓋爾圓評(píng)估方法; 數(shù)目估計(jì); 噪聲信號(hào)濾波
作為智能家居用戶體驗(yàn)的核心構(gòu)件,語(yǔ)音控制技術(shù)的重要性在實(shí)際應(yīng)用中日益凸顯,其語(yǔ)音識(shí)別技術(shù)對(duì)于智能家居設(shè)備的控制準(zhǔn)確性和用戶體驗(yàn)越來(lái)越重要。語(yǔ)音識(shí)別是一個(gè)復(fù)雜過(guò)程,如何在噪雜的環(huán)境中快速獲得有用的聲源信號(hào),對(duì)于智能家居產(chǎn)品控制系統(tǒng)至關(guān)重要。
現(xiàn)實(shí)中的聲源環(huán)境多種多樣,為了保持采樣噪聲的一致性,通常會(huì)采用白噪聲作為背景噪聲。然而即使是白噪聲也并不完全理想,因?yàn)槠渲幸舶岁囋g相關(guān)的、不同方向功率不等的復(fù)雜色噪聲,而對(duì)于噪聲源多、色噪聲不同的復(fù)雜環(huán)境,如一般家居產(chǎn)品的語(yǔ)音識(shí)別場(chǎng)景,通常會(huì)帶來(lái)更多的困擾。常規(guī)的做法是在主控制器上加裝麥克風(fēng)識(shí)別裝置,但即使目前最佳的雙通道輸入采集方法仍存在一定局限性,也無(wú)法做到快速有效的識(shí)別。
一般,家居室內(nèi)環(huán)境的背景聲場(chǎng)十分復(fù)雜。因此要快速獲得有用的聲源信號(hào),必須設(shè)計(jì)一種有效的去干擾特征信號(hào)提取算法,提高對(duì)聲源數(shù)目的識(shí)別速度和精準(zhǔn)度,有效降低對(duì)聲源信號(hào)數(shù)據(jù)后期處理的復(fù)雜度,創(chuàng)造良好的用戶體驗(yàn)。
本文提出一種改進(jìn)的蓋爾圓估計(jì)方法,完善設(shè)備在復(fù)雜色噪聲環(huán)境下的語(yǔ)音控制信號(hào),提高識(shí)別效率,較常規(guī)的單麥克風(fēng)語(yǔ)音識(shí)別系統(tǒng),在-8~0 dB范圍內(nèi)提高80%以上的識(shí)別率。
蓋爾圓法則是一種利用觀測(cè)信號(hào)的協(xié)方差矩陣信號(hào)與蓋爾圓半徑具有不同大小的特點(diǎn)實(shí)現(xiàn)的源數(shù)目估計(jì)方法[1-3]。通常協(xié)方差矩陣信號(hào)的蓋爾圓和噪聲的蓋爾圓并沒(méi)有明顯的區(qū)分度[4],但通過(guò)協(xié)方差矩陣的轉(zhuǎn)化,新協(xié)方差矩陣信號(hào)蓋爾圓半徑會(huì)顯著高于噪聲蓋爾圓半徑,進(jìn)一步壓縮后可以實(shí)現(xiàn)噪聲的隔離區(qū)分。在此基礎(chǔ)上,依據(jù)蓋爾圓半徑實(shí)現(xiàn)對(duì)源信號(hào)數(shù)目的估計(jì),其信號(hào)識(shí)別可靠性將進(jìn)一步提升。
1.1蓋爾圓準(zhǔn)則
設(shè)矩陣A為一個(gè)實(shí)或復(fù)矩陣,其第i(i=1,2,…,N)行第j(j≠i)列元素定義為元素aij,定義:
(1)
若以O(shè)i表示復(fù)平面上以aij為圓心、ri為半徑的圓,則該圓被稱為蓋爾圓。矩陣A的所有特征值位于其所有值所構(gòu)成的蓋爾圓并集內(nèi),且如果有k個(gè)蓋爾圓與其他蓋爾圓相互隔離,則A有k個(gè)特征值位于蓋爾圓的并集之中。
1.2基本蓋爾圓盤法
蓋爾圓盤法則[1]并不利用自相關(guān)矩陣的特征值,而是利用蓋爾圓半徑來(lái)進(jìn)行信號(hào)源數(shù)目的估計(jì)。其方法是將自相關(guān)矩陣進(jìn)行酉變換。變換后的噪聲蓋爾圓會(huì)遠(yuǎn)離信息量蓋爾圓,并使噪聲蓋爾圓半徑進(jìn)一步縮小。
對(duì)A的自相關(guān)矩陣H作變換,得:
H2=CTHC
(2)
式中:UN-1——HN-1特征向量構(gòu)成的酉矩陣;
HN-1——H去除末行末列后構(gòu)成的子矩陣。
經(jīng)過(guò)變換之后,可得:
(3)
常規(guī)定義的蓋爾圓半徑估計(jì)信源數(shù)目的準(zhǔn)則:
(4)其中,k為1~N-1,D(M)為與樣本數(shù)M有關(guān)的調(diào)整因子,在有限次取樣的情況下,D(M)值應(yīng)為0~1。
一般蓋爾圓盤法不是利用自相關(guān)矩陣的特征值,而是利用蓋爾圓半徑來(lái)進(jìn)行信號(hào)源數(shù)目的估計(jì),因此存在進(jìn)一步改進(jìn)的空間。本文提出一種改進(jìn)的蓋爾圓盤法,將對(duì)現(xiàn)有蓋爾圓盤法的協(xié)方差矩陣進(jìn)一步作酉變換,以加速其分離速度,并對(duì)不同功率信號(hào)互相的干擾有一定抑制作用。
2.1酉變換加速分離
先對(duì)式(3)進(jìn)行酉變換,使變換后的噪聲蓋爾圓更加遠(yuǎn)離信號(hào)蓋爾圓,同時(shí)噪聲蓋爾圓的半徑更加縮小,即:
R′=G-1RTG
(5)
式中:G——N×N維對(duì)角陣。
(6)
由式(6)可知,變換后的分離法解決了半徑分離問(wèn)題,可以在給予經(jīng)驗(yàn)調(diào)整因子的情況下,針對(duì)不同功率信號(hào)源進(jìn)行更好的估計(jì),有效防止最長(zhǎng)半徑對(duì)其他半徑的影響。再將變換后的R′代入式(4),取適配的經(jīng)驗(yàn)值D(T)即可實(shí)施。
為了檢驗(yàn)改進(jìn)的蓋爾圓源數(shù)目估計(jì)算法性能,智能家居設(shè)備在高斯白噪聲背景下使用改進(jìn)的蓋爾圓算法與常規(guī)信息論準(zhǔn)則(Akaike Informaction Criterion,AIC)、信號(hào)相干性準(zhǔn)則(Minimum Description Length,MDL)算法進(jìn)行了對(duì)比分析。
基本仿真條件:接收麥克風(fēng)整列為8個(gè)元的均勻線陣列(模擬智能家居環(huán)境中插座類產(chǎn)品單間內(nèi)的普遍安裝數(shù)目),陣元之間間距為在窄帶信號(hào)中心頻率的半波長(zhǎng);1~3個(gè)遠(yuǎn)場(chǎng)隨機(jī)獨(dú)立點(diǎn)陣源的MIMO模型[5];
y=hx+n
(7)
式中:x——發(fā)送信號(hào);
y——接收信號(hào);
h——信道沖激響應(yīng);
n——高斯白噪聲。
采樣頻率f=10 kHz,信噪比為-20~20 dB,調(diào)整后的蓋爾圓準(zhǔn)則調(diào)整因子取0.6。
以MIMO模型在文獻(xiàn)[6]類似的設(shè)備放置結(jié)構(gòu)下執(zhí)行測(cè)試:8個(gè)采集元呈均勻線陣列,2個(gè)信號(hào)源隨機(jī)放置。高斯白噪聲背景干擾下的2個(gè)隨機(jī)信號(hào)源識(shí)別情況如圖1所示。
圖1 高斯白噪聲背景干擾下的2個(gè)隨機(jī)信號(hào)源識(shí)別情況
由圖1可知,蓋爾圓分離情況(識(shí)別數(shù)目為2),隨機(jī)信噪比大都能準(zhǔn)確識(shí)別數(shù)目。
后端識(shí)別技術(shù)運(yùn)用與文獻(xiàn)[6]提到的盲源分析法進(jìn)行后端訓(xùn)練識(shí)別。被控室內(nèi)設(shè)備安裝方式如圖2所示。6個(gè)帶麥克風(fēng)插座與觸控屏位置按均勻圓陣列放置,保持與常規(guī)家居市場(chǎng)的設(shè)備安裝場(chǎng)景基本一致。在前端仍使用改進(jìn)后的蓋爾圓方法對(duì)采集信號(hào)進(jìn)行源數(shù)據(jù)分離,找出更有價(jià)值的信號(hào)源(非噪聲源),為后端的盲源分析提供可靠的信號(hào)支持。最后,采用盲源分析法測(cè)試后端信號(hào)識(shí)別率,如圖3所示。
圖2 被控室內(nèi)設(shè)備實(shí)裝方式
圖3 后端信號(hào)識(shí)別率
由圖3可知,改進(jìn)的蓋爾圓方法可以顯著提高語(yǔ)音識(shí)別率,在同類信號(hào)白噪聲的背景噪聲下,其低信噪比區(qū)(-4~0 dB)識(shí)別率介于AIC信號(hào)分離方法與MDL信號(hào)分離方法之間。理論上MDL和AIC無(wú)法在色噪聲環(huán)境下使用,而改進(jìn)的蓋爾圓方法則沒(méi)有限制。在智能家居的復(fù)雜場(chǎng)景中(包括色噪聲環(huán)境),改進(jìn)的蓋爾圓方法適用性更廣泛。故采用該算法設(shè)計(jì)的智能家居聲控設(shè)備語(yǔ)音識(shí)別系統(tǒng),可以大大提升產(chǎn)品在語(yǔ)音識(shí)別方面的穩(wěn)定性。
另外,改進(jìn)的蓋爾圓數(shù)目評(píng)估方法可用于智能家居聲控設(shè)備的語(yǔ)音識(shí)別系統(tǒng),以提高前端識(shí)別分離度。如某智能家居,常規(guī)安裝6~8個(gè)內(nèi)嵌麥克風(fēng)(采集元)的控制開(kāi)關(guān)(包括一個(gè)單麥克風(fēng)主控制器),直接采集麥克風(fēng)的語(yǔ)音信息(一般方案由2~3人作為信號(hào)源)。采用改進(jìn)的蓋爾圓方法配合盲源分析方法,可以準(zhǔn)確分辨語(yǔ)音是否屬于系統(tǒng)認(rèn)可的關(guān)鍵字,并及時(shí)作出正確的操作信號(hào)響應(yīng)。
本文提出了改進(jìn)的蓋爾圓數(shù)目估計(jì)方法。試驗(yàn)結(jié)果表明,在模擬的智能家居應(yīng)用場(chǎng)景中,改進(jìn)的蓋爾圓數(shù)目評(píng)估方法在低信噪比的情況下更好地識(shí)別語(yǔ)音控制指令,較單個(gè)麥克風(fēng)采樣能明顯提升識(shí)別率,較常規(guī)信號(hào)源分離方案也有顯著提高。
[1]WAX M,KAILATH T.Detection of signals by information theoretic criteria[J].IEEE Trans.on ASSP,1985,33(2):387-392.
[2]貢彥飛.基于蓋爾圓準(zhǔn)則的信源個(gè)數(shù)估計(jì)算法比較[J].無(wú)線電通信,2012,38(4):57-59.
[3]董姝敏,梁國(guó)龍.改進(jìn)的蓋爾圓源數(shù)目估計(jì)方法[J].哈爾濱工程大學(xué)學(xué)報(bào) 2013,34(4):440-444.
[4]王永良,陳輝,彭應(yīng)宇,等.空間譜估計(jì)理論與算法[M].北京:清華大學(xué)出版社,2004.
[5]CASPARY O,NUS P,CECCHIN T.The source number estimation based on Gerschgorin radii[C]//Acoustics,Speech and Signal Processing,Proceedings of the 1998 IEEE International Conference on,1998,4:1993-1996.
[6]ZHONG Z M,CHEN J,ZHONG P,et al.Application of the blind source separation method to feature extraction of machine sound signals[J].Int.J.Adv.Manuf.Technoly,2006,28:855-862.
Application of Gerschgorin Disk Estimation in SpeechRecognition Scene of Smart Home Environment
TENG Yu
(Department of Electronic Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
This paper introduced the Gerschgorin rule,and put forward a modified Gerschgorin disk estimation which was used in the speech recogniton scene of smart home.Based on the center information of Gerschgorin disks minimized the radii of Gerschgorin disks,by using of the property of the covariance matrix,the Gerschgorin disk radii were compressed,the noise disturbing was separated,which improved the reliability of source number estimation.The results show that the modified Gerschgorin disk estimation can better identify the speech control commands,which imroves the speech recognition rate.
smart home; speech recogniton scene; modified Gerschgorin disk estimation; number estimation; noise signal filtering
滕宇(1988—),男,碩士研究生,研究方向?yàn)橥ㄐ怕晫W(xué)處理。
TU 855
A
1674-8417(2016)06-0015-04
10.16618/j.cnki.1674-8417.2016.06.004
2016-05-16