戴紅霞 ,王 劍,趙 力*
(1.江蘇信息職業(yè)技術(shù)學(xué)院 電子信息工程系,江蘇 無錫 214153;2.東南大學(xué) 信息科學(xué)與工程學(xué)院,南京 210096)
隨著社會的老齡化及先天因素,很多人都有不同程度的聽力障礙。助聽器(hearing aid)一切有助于聽力殘疾者改善聽覺障礙,進(jìn)而提高與他人會話交際能力的工具、設(shè)備、裝置和儀器等。但是,現(xiàn)實中,許多種類的噪聲影響了聲音質(zhì)量,造成助聽效果的下降。麥克風(fēng)陣列在選擇性增強(qiáng)感興趣的語音信號并同時壓制噪聲和干擾有相當(dāng)重要的實用價值[1]。
傳統(tǒng)的基于傳感器陣列的聲源定位技術(shù)分為基于最大輸出功率的可控波束形成法[2]、高分辨率譜估計法[3]和到達(dá)時間差(Time Difference Of Arrival,TDOA)[4]的聲源定位法?;谧畲罂煽仨憫?yīng)功率的波束形成方法是早期的一種定位方法,但是其理論和實際的性能差異很大,而且依賴于聲源信號的頻譜特性?;谧涌臻g技術(shù)的聲源定位算法來源于現(xiàn)代高分辨譜估計技術(shù),具有較高的空間分辨率,但是在噪聲和混響嚴(yán)重的情況下,定位效果不佳。基于時延估計的方法運(yùn)算量相對較小,實時性較好,但用于多聲源定位時,性能嚴(yán)重下降。當(dāng)在陣列間距足夠大,陣元足夠多的情況下,不同麥克風(fēng)陣元接收到的信號差異大,定位的參數(shù)(如TDOA)比較容易獲得,上述傳統(tǒng)方法都容易達(dá)到較高的定位精度??墒?,實際應(yīng)用中,麥克風(fēng)陣列的尺寸有嚴(yán)格的限制,如智能的聽力設(shè)備[5]。由于聲源傳播的物理特性本身的限制,陣元間間隔越小,有效的定位參數(shù)越小,對于間隔1 mm 的陣元,如果要獲得8 位分辨率的TDOA,就要求采樣頻率至少為100 MHz。采樣頻率越高意味著要實時處理的數(shù)據(jù)越多,實時性越差,而且頻率越高,功耗越大,也越容易受電路噪聲影響。而且語音是寬帶信號,以往的窄帶信號算法都不再適用。另外,語音的混響和有色噪聲的存在,都是影響語音質(zhì)量和算法性能的很重要的因素,必須予以相當(dāng)?shù)闹匾?,考慮解決辦法。
麥克風(fēng)陣列的應(yīng)用能夠提高助聽器的效果。在這樣的應(yīng)用背景和目的下,本文對助聽器算法開發(fā)平臺及相關(guān)算法進(jìn)行了設(shè)計?,F(xiàn)在適于音頻應(yīng)用開發(fā)的硬件器件種類很多,關(guān)于語音和麥克風(fēng)陣列也有很多效果顯著的算法,但在助聽器應(yīng)用背景下,結(jié)合實時性的特殊要求和限制,不得不對硬件的搭配以及算法進(jìn)行合理的取舍。在綜合考慮功耗限制,算法復(fù)雜度,數(shù)據(jù)處理能力,多路音頻輸入及接口限制等等因素后,選擇了以TI 公司的TMS320C6747DSP 芯片及TLV320AIC32 立體聲音頻編解碼器作為主要部件,搭建了助聽器算法開發(fā)平臺。并且在該平臺上,本文對聲源定位算法做了詳細(xì)研究,提出了提高語音質(zhì)量的方法。
系統(tǒng)框圖如圖1所示。
圖1 麥克風(fēng)陣數(shù)字助聽器系統(tǒng)框圖
系統(tǒng)主要包括DSP模塊(TMS320C6747 芯片),音頻采集模塊(TLV320AIC32),外部存儲模塊(External Memory),麥克風(fēng)陣列(Microphone Array)與耳機(jī)(Headphone)。麥克風(fēng)陣列,可嘗試采取不同的拓?fù)浣Y(jié)構(gòu),但由于是用于助聽器,尺寸大小必然是受到限制的,而不論采用將陣列佩戴在胸前,或者置于眼鏡架的方式,都不可能過大。
本方案選擇TI 公司的高性能浮點(diǎn)DSP 芯片TMS320C6747 作為信號處理核心,考慮如下:(1)助聽器系統(tǒng)對實時性的要求很高,算法所涉及到的運(yùn)算比較復(fù)雜,且隨著麥克風(fēng)數(shù)量的調(diào)整及其拓?fù)浣Y(jié)構(gòu)的變化,算法的復(fù)雜度可能增加。控制優(yōu)化類DSP 系列TMS320C2000 芯片和低功耗DSP 系列TMS320C5000 系列都不能滿足實時處理的要求。(2)C674X 系列DSP 芯片為浮點(diǎn)型DSP,可實現(xiàn)算法高精度和信號大動態(tài)范圍。(3)助聽器屬于便攜式產(chǎn)品,且為了延長其單次使用時間,應(yīng)盡量降低其功耗,與其他C6000 系列DSP 相比,TMS320C6747芯片有突出的低功耗的優(yōu)點(diǎn)。
低功耗立體聲音頻編解碼器TLV320AIC32[6],這款TI 公司的低功耗立體聲具有6 路音頻輸入引腳,適于麥克風(fēng)陣列的應(yīng)用。DSP 與音頻編解碼器的接口,根據(jù)完成的功能分為兩個接口。
首先是控制接口。DSP 可以依據(jù)不同的條件和需要,對編解碼器內(nèi)部寄存器進(jìn)行設(shè)置來靈活地配置編解碼器的工作方式。音頻編解碼器的控制接口與DSP 的IIC 接口相連接。
其次,音頻數(shù)據(jù)接口與DSP 的MCASP 接口,以IIS模式相連接。
其中,BCLK 是AIC32 的比特時鐘信號,由于AIC 一般情況下工作于從模式,所以該信號由DSP生成,并通過ACLKX 引腳傳送給AIC32。由于DSP與AIC32 的通信是相互獨(dú)立的全雙工通信,所以需要雙向的幀同步信號以協(xié)調(diào)通信,由AFSX——LRCIN,LRCOUT——AFSR 兩條 通道完 成。Serializer1——DIN 以及DOUT——Serializer2為雙向數(shù)據(jù)通道。連接關(guān)系圖2所示。
圖2 DSP 與音頻編解碼器的音頻數(shù)據(jù)接口
聲源定位是麥克風(fēng)陣列很重要的一個功能,即判別聲源相對于陣列處所處的位置。采用2種模型[7]:近場模型和遠(yuǎn)場模型。在助聽器應(yīng)用中,一般情況下,聲源與陣列的距離遠(yuǎn)大于陣列的大小,故采用遠(yuǎn)場模型。在遠(yuǎn)場模型的條件下,同一聲源傳播各麥克風(fēng)的路徑被認(rèn)為是相互平行的,因而無法或者很難借助于三角知識估計聲源到麥克風(fēng)陣列的距離。我們的任務(wù)是,估計聲源到陣列的直接傳播路徑與某一參照之間的夾角,比如選擇陣列中軸線作為參照。
本文所設(shè)計的平臺最多可接納6 路麥克風(fēng)輸入,由于不同的麥克風(fēng)拓?fù)浣Y(jié)構(gòu)有顯著的復(fù)雜度差異以及時延估計方法。
基本原理:利用麥克風(fēng)陣列進(jìn)行聲源定位,等同于對麥克風(fēng)信號的時延估計(TDE,即Time Delay Estimation)[7]。假設(shè)我們使用的麥克風(fēng)陣為N個麥克風(fēng)的線性排列,聲源為s(k),經(jīng)過聲音傳播路徑到達(dá)第n個麥克風(fēng)時為xn(k),第n個麥克風(fēng)在k 時刻接收到的信號為yn(k),噪聲為vn,為了表示出實際情況中的混響[8],我們假設(shè)聲源到第n個麥克風(fēng)之間的信道的信道沖激響應(yīng)為gn,并且假設(shè)在短時間內(nèi)該信道沖激響應(yīng)是恒定不變的,可用一個長度為L 有限長濾波器(FIR)來表示為gn=[gn,1gn,2… gn,L]T。這樣,信號模型應(yīng)該為
先討論不受噪聲影響的情況,即假設(shè)Vn=0。
那么,在沒有噪聲時有
若另外定義第n個麥克風(fēng)受到按時間的降序排列的信號向量
則可用向量的乘法等效替代式(1)中的卷積運(yùn)算[9]得到
定義
但以上的基本方法只考慮了無噪聲,當(dāng)然也可以容易的推導(dǎo)至白噪聲的情況。但實際應(yīng)用中,有色噪聲的情況是常見的。利用廣義特征值分解進(jìn)一步推廣,可以提高算法在存在有色噪聲,且信噪比不高的情況下時延估計的精確性。
在存在有色噪聲的情況下,則接受信號的自相關(guān)陣為
根據(jù)上述原理,通過自適應(yīng)算法,我們可以求得信道的實驗估計。
仿真中所用的信道響應(yīng)采用的模型借鑒了Stephen G.McGovern 的方法[10],簡單的說,即是假設(shè)在一個矩形的房間內(nèi),聲源位置與陣列位置固定,忽略其他物品對聲音的反射,僅考慮前后左右上下六面墻壁對聲音的多次反射,反射系數(shù)恒定,且可人為設(shè)定。在該模型下,在一個長寬高分別為4 m、5 m、3 m 的房間內(nèi),在某一位置,單一聲源到2個相距13 cm 的麥克風(fēng)的信道響應(yīng)分別為g0和g1,如圖3所示。
圖3 信道幅度響應(yīng)
可以看到2個信道響應(yīng)中,除了各自的直接路徑響應(yīng)外(第一個非零點(diǎn)),還存在許多混響,這符合室內(nèi)語音傳播的實際情況。同時,混響也是在室內(nèi)影響和制約各種語音信號算法的最重要因素。我們的目標(biāo)就是估計出2 條直接路徑間的時延差。
仿真算法采用了GEVD 的自適應(yīng)算法。利用上面的信道響應(yīng),在16 kHz 采樣率下,假設(shè)存在有色噪聲,且初始信噪比約為10 dB。算法得到的時延估計收斂到真實值的時間如圖4所示。橫坐標(biāo)單位為采樣點(diǎn)數(shù)。
圖4 時延估計收斂時間
經(jīng)過大量實驗,可以看到使用一幀數(shù)據(jù)后,收斂時間在20 ms~30 ms 之間波動,基本上滿足助聽器的實時性需要。但在這樣的收斂速率下,16 ksample/s的采樣率是必須的,采用更高的采樣率則收斂速率將更快,倘若更低,將無法滿足估計時延所需的數(shù)據(jù)量要求。
麥克風(fēng)陣列的應(yīng)用能夠提高助聽器的效果。在這樣的應(yīng)用背景和目的下,本文對助聽器算法開發(fā)平臺及相關(guān)算法進(jìn)行了設(shè)計?,F(xiàn)在適于音頻應(yīng)用開發(fā)的硬件器件種類很多,關(guān)于語音和麥克風(fēng)陣列也有很多效果顯著的算法,但在助聽器應(yīng)用背景下,結(jié)合實時性的特殊要求和限制,不得不對硬件的搭配以及算法進(jìn)行合理的取舍。在綜合考慮功耗限制,算法復(fù)雜度,數(shù)據(jù)處理能力,多路音頻輸入及接口限制等等因素后,選擇了以TI 公司的TMS320C6747DSP 芯片及TLV320AIC32 立體聲音頻編解碼器作為主要部件,搭建了助聽器算法開發(fā)平臺。
[1]杜江,朱柯.智能麥克風(fēng)陣列語音分離和說話人跟蹤技術(shù)研究[J].電子學(xué)報,2005,33(2):382-384.
[2]Shao L,Yang DG,Li B,et al.Development of Acoustic Vidicon Based on Binocular Vision and Microphone Array[J].Chinese Journal of Scientific Instrument,2009,30(4):823-827.
[3]Sarradj E.A Fast Signal Subspace Approach for the Determination of Absolute Levels from Phased Microphone Array Measurements[J].Journal of Sound and Vibration,2010,329(9):1553-1569.
[4]Cai W Q,Wang S K,Wu Z Y.Accelerated Steered Response Power Method for Sound Source Localization Using Orthogonal Linear Array[J].Applied Acoustics,2010,71(2):134-139.
[5]Miles R N,Hoy R R.The Development of a Biologically-Inspired Directional Microphone for Hearing Aids[J].Audiology and Neuro-Otology,2006,11(2):86-94.
[6]白樺,馮立杰,杜宇,等.基于DM6446 的嵌入式語音傳輸平臺設(shè)計[J].微計算機(jī)信息,2009,25(10-2):44,72-73.
[7]Benesty J,Chen J,Huang Y,et al.Microphone Array Signal Processing[J].The Journal of the Acoustical Society of America,2009,125(6):4097-4098
[8]Champagne B,Bedard S,Stephenne A.Performance of Time-Delay Estimation in the Presence of Room Reverberation[J].Speech and Audio Processing,IEEE Transactions on,1996,4(2):148-152.
[9]Stewart G W.The Decompositional Approach to Matrix Computation[J].Computing in Science & Engineering,2000,2(1):50-59.
[10]Allen J B,Berkley D A.Image Method for Efficiently Simulating Small-Room Acoustics[J].Journal of the Acoustical Society of America,1979,65(4):943-950.