陳又圣,曹智亮,夏林中,張春曉,林煒臻
深圳信息職業(yè)技術(shù)學(xué)院,廣東深圳518000
Bark 域是由Eberhard Zwicker 提出的一種心理聲學(xué)尺度和信號頻帶劃分方法。在人耳中,存在24個頻率位置會產(chǎn)生共振,因而可以劃分出從1到24的共24個臨界頻帶,即Bark域。Bark域?qū)︻l率不均勻劃分的思想,有助于對低頻信號給予更高的分辨率,對高頻信號給予相對較低的分辨率,在噪聲分類和抑制[1-3]、特征分析和特征提?。?-7]、助聽器[8]、語音增強[9-12]、語音測試和評估[13]、語音識別[14]、語音端點檢測[15]等方面都有廣泛應(yīng)用。在電子耳蝸領(lǐng)域應(yīng)用中,Bark 域可用于信號處理和言語處理策略的設(shè)計[16-17]。電子耳蝸包括體外器件和體內(nèi)植入體兩部分,體外器件的主要部分是言語處理器,該處理器進(jìn)行頻帶劃分、參數(shù)提取和信號調(diào)制等過程[18-20]。目前電子耳蝸的頻帶劃分也參考了Bark 域的心理聲學(xué)尺度,按照低頻劃分密、高頻劃分疏的方式來實現(xiàn)。但是,目前的頻帶劃分是固定的,對于確定電極數(shù),濾波器所劃分的頻帶和子帶中心頻率是固定的,不利于針對不同采樣率參數(shù)來設(shè)置不同的頻帶劃分模式。另一方面,目前的電子耳蝸電極數(shù)不超過24 個,但是,隨著技術(shù)的進(jìn)步和電極制作工藝的改善,未來植入電極數(shù)有望增加,所對應(yīng)的體外言語處理器的濾波器組需要劃分更多的頻帶。Bark 域各個臨界頻帶所對應(yīng)的是離散的頻率點,可對離散的頻率點進(jìn)行曲線擬合,然后通過插值方式來實現(xiàn)針對不同參數(shù)進(jìn)行自適應(yīng)的頻帶劃分。Schroeder、Zwicker、Sekey、Gersho等眾多學(xué)者早期提出Bark域的擬合方法,但這些擬合公式不夠精簡,例如擬合公式中所含有的反三角函數(shù)不利于電子耳蝸在言語處理器中的計算實現(xiàn)。另外,目前的有關(guān)Bark域的擬合公式主要是從曲線本身進(jìn)行分析,并沒有根據(jù)電子耳蝸應(yīng)用場景中的低頻頻段和高頻頻段不同特征來進(jìn)行擬合。本文基于Bark 域的特征研究電子耳蝸頻帶劃分的方法,通過對Bark域進(jìn)行擬合來形成簡化的頻帶-頻率分布曲線,并提出適合應(yīng)用于電子耳蝸的頻帶劃分方法。
Bark域所劃分的24個臨界頻帶及對應(yīng)的中心頻率如表1所示。
表1 Bark域的24個臨界頻帶及對應(yīng)的中心頻率Tab.1 Twenty-four critical frequency bands in Bark domain and the corresponding center frequencies
目前的文獻(xiàn)對Bark 域有多種方式進(jìn)行擬合,但表達(dá)式復(fù)雜,本文提出根據(jù)Bark 域的低頻頻段和高頻頻段進(jìn)行不同處理的方式來進(jìn)行擬合。用臨界頻帶編號為橫坐標(biāo)(用n表示),所在頻帶的中心頻率為縱坐標(biāo)(用fcen表示)來探討其函數(shù)關(guān)系,如圖1所示。
圖1 臨界頻帶編號(n)和頻帶的中心頻率(fcen)的關(guān)系和平面分布Fig.1 Relationship and planar distribution of critical frequency band number(n)and the center frequency(fcen)
圖1a 表示臨界頻帶編號(n)和頻帶的中心頻率(fcen)的函數(shù)關(guān)系,n越大,fcen也越大。從圖中進(jìn)一步觀察可以看到,低頻頻段的n和fcen具有較好的線性關(guān)系,高頻頻段的n和fcen則呈現(xiàn)指數(shù)關(guān)系。如果對fcen取對數(shù),則得到圖1b 中的n和ln(fcen)關(guān)系,從圖中可以看到,fcen取自然對數(shù)后的高頻頻段具有良好的線性關(guān)系,而低頻頻段則不具備線性關(guān)系。
從圖1可知,低頻頻段和高頻頻段的n和fcen呈現(xiàn)不同的函數(shù)關(guān)系。通過比較和計算圖1a和圖1b中點的分布,可以設(shè)置一個頻率分界點來劃分出高低頻段的具體位置,讓圖1a中的低頻各點和圖1b中的高頻各點都近似線性分布,進(jìn)而可以擬合曲線的簡化。通過計算和比較,第9頻帶的頻率值(數(shù)值為1 000 Hz)可作為分界點,通過該頻率點劃分后的各頻率點的分布呈良好的線性分布,如圖2所示。從圖2a可以看出,n和fcen在1~9頻帶具有非常好的線性關(guān)系,從圖2b可以看出,n和ln(fcen)在9~24頻帶具有非常好的線性關(guān)系。因此,可以把頻帶分成低頻段和高頻段分別進(jìn)行近似簡化,并擬合出Bark域的n~fcen函數(shù)。
圖2 選取第9頻帶劃分出高低頻帶后的臨界頻帶編號(n)和中心頻率(fcen)的關(guān)系和平面分布Fig.2 Relationship and planar distribution of critical frequency band number(n)and the center frequency(fcen)after dividing the high and low bands from the 9th frequency band
在圖2a中,通過兩個端點(1,60)和(9,1 000)計算出直線的函數(shù)解析式。用n表示自變量,fcen(n)表示函數(shù)(因變量),則可以得到通過端點(1, 60)和(9, 1 000)的直線解析式,如式(1)所示:
在圖2b 中,以n為自變量,ln(fcen(n))為因變量的直線經(jīng)過兩個端點(9,ln1 000)和(24,ln13500),n為和fcen滿足以下的關(guān)系:
對式(2)經(jīng)過簡化并求解fcen(n)的表達(dá)式,可以得到式(3):
綜合式(1)和式(2)可以得到經(jīng)過簡化和擬合后的Bark 域臨界頻帶編號(n)和頻帶中心頻率(fcen)的關(guān)系表達(dá)式,如式(4)所示:
本文所提出的對Bark 域的擬合表達(dá)式具有簡潔的優(yōu)點,并且從公式的推導(dǎo)和分析中對低頻和高頻有明確不同的處理模式,探討了心理聲學(xué)尺度和信號頻帶劃分,擬合后的頻率分布對比如圖3所示。從圖3可以看出,本文提出對Bark域的擬合方法所得到的各個頻帶的頻率值與Bark 域本身的值非常接近。該方法的擬合公式簡單,能保持足夠的準(zhǔn)確度,并且對低頻頻段的信號和高頻頻段的信號有不同的分析模式,可應(yīng)用于電子耳蝸的頻帶劃分。
圖3 曲線擬合后的中心頻率(fcen)與Bark域的對比Fig.3 Comparison of the center frequency(fcen)of the frequency band after curve fitting with that in Bark domain
Bark域是離散的點,通過擬合的曲線可用于自適應(yīng)地確定所劃分的頻帶。目前電子耳蝸所劃分的頻帶基本是固定的,例如,諾爾康的18通道電子耳蝸的中心頻率分別是:213.0、335.0、456.5、578.0、700.0、822.0、944.0、1 066.0、1 249.0、1 523.0、1 858.0、2 254.0、2 711.0、3 259.5、3 960.5、4 814.0、5 849.5和7 098.5 Hz;而22通道電子耳蝸的中心頻率分別是:213.0、335.0、456.5、578.0、700.0、822.0、944.0、1 066.0、1 218.5、1 401.0、1 583.5、1 797.0、2 071.5、2 406.5、2 772.0、3 168.5、3 625.5、4 173.5、4 813.5、5 514.5、6 337.0和7 281.5 Hz??梢钥吹?,諾爾康的18通道電子耳蝸和22通道電子耳蝸的濾波器組所對應(yīng)的各子帶的中心頻率是固定的,而且前8個通道的頻率值是相同的。
對于采樣率可變的情形來說,采用固定的頻率就會不合適,而本文所提出的Bark 域擬合曲線可適用于采樣率變化的情形。對于采樣率fs,按照采樣定理,信號的最高頻率不能超過0.5fs,只要在0~0.5fs范圍內(nèi)選取一個最低頻率fL和最高頻率fH,可以在此范圍內(nèi)通過擬合曲線確定中間的其他通道的頻率值。由于本文通過離散點擬合出曲線,因此式(4)在具體應(yīng)用時n可以取非整數(shù)值。本文提出的對電子耳蝸進(jìn)行頻帶劃分的方式可以依據(jù)擬合的Bark 曲線進(jìn)行,具體的算法流程通過以下幾步實現(xiàn):
第一步:0~0.5fs范圍內(nèi)選取fL和fH,具體選取時要求0<fL<1 000,1 000<fH<0.5fs。
第二步:根據(jù)擬合曲線及式(4)計算得到fL和fH對應(yīng)的nL和nH值,具體計算公式如式(5)和式(6)所示:
第三步:根據(jù)通道數(shù)i確定中間的i-1 個n的值,計算公式如式(7)所示:
第四步:根據(jù)各個nj的值代入式(4)計算出對應(yīng)的頻率值fj,進(jìn)而可以得到全部的i通道電子耳蝸濾波器組的子帶中心頻率值。
從上述頻帶劃分的步驟和具體的實現(xiàn)方式來看,本文提出的頻帶劃分和曲線擬合方法是高效的。目前已有的Bark 域的擬合方法,一方面,計算量更大,另一方面,文獻(xiàn)檢索并未查詢到有學(xué)術(shù)論文闡述有關(guān)電子耳蝸頻帶劃分的具體實現(xiàn)方式。因此,上述的方法可為自適應(yīng)頻帶劃分提供思路,也為未來更加微型化電極和更多電極條件下匹配的濾波器組的頻帶劃分提供實施方案。
本文研究Bark 域的心理聲學(xué)尺度特征和信號頻帶劃分模式,并提出基于Bark 域的曲線擬合算法。本文所提出的算法具有簡潔、準(zhǔn)確度高、易于算法實現(xiàn)等優(yōu)點。Bark 域的擬合曲線對低頻頻段采取線性化的處理方式,對高頻頻段采取指數(shù)化的處理方式,并將擬合曲線用于電子耳蝸濾波器組的頻帶劃分。本文所提出的基于Bark 域的擬合曲線的電子耳蝸頻帶劃分算法具有自適應(yīng)的特征,并結(jié)合心理聲學(xué)尺度特征,可用于多模式復(fù)雜場景的頻帶劃分,相對于固定頻率的劃分模式具有更強的適應(yīng)性。