陳又圣,杜軍
深圳信息職業(yè)技術學院電子與通信學院,廣東深圳518000
據世界衛(wèi)生組織官網報告(數(shù)據更新日期為2018年3月15日),全世界患有殘疾性聽力損失的人數(shù)高達4.66 億,其中包含0.34 億兒童患者,并且聽力損失的患者在迅速增長,到2050年,患有殘疾性聽力損失的人數(shù)將會超過9 億。2017年,第70 屆世界衛(wèi)生大會通過一項有關預防耳聾以及聽力損失的決議,協(xié)助世界衛(wèi)生組織的成員國制定相應的規(guī)劃,并把耳部和聽力初級保健納入本國的衛(wèi)生保健系統(tǒng)。不同的聽力損失情況可以采用不同的治療方式,例如藥物治療、佩帶助聽器、植入電子耳蝸等,其中,對于重度耳聾患者和極重度耳聾患者來說,植入電子耳蝸是目前最為有效的方式。電子耳蝸既可以單獨使用,也可以和助聽器進行結合并形成雙耳的模式[1-5]。電子耳蝸處于噪聲環(huán)境以及應用場景中的各類失配都會導致言語識別率的大幅度降低,為了提高電子耳蝸的言語識別率,近年來學者們在電流導引[6]、電子耳蝸的精細結構編碼[7]、虛擬電極[8-9]、光學耳蝸[10-11]、麥克風陣列[12-13]等方面做了很多努力和研究工作。
電子耳蝸包括體外和體內兩個模塊,其中體外部分通過麥克風采集聲音信號,傳入言語處理器中,信號被特定的電子耳蝸言語處理策略處理,進行參數(shù)提取、信號調制、編碼、壓縮等系列過程,然后通過無線方式把有效信號和能量傳輸?shù)襟w內植入體中,體內植入體的線圈接收信號,并通過解碼等過程把目標參數(shù)提取并傳輸?shù)诫姌O陣列上,電極陣列以特定的刺激參數(shù)和模式刺激對應位置的聽覺神經并讓聽力患者產生聽覺感知,恢復部分的聽力。目前國外電子耳蝸的生產商主要有3 家,即澳大利亞的COCHLEAR 公司、奧地利的MED-EL 公司和美國的AB 公司,而國內則只有諾爾康公司推出電子耳蝸臨床產品,其中,COCHLEAR 公司是全球最大的電子耳蝸生產商,占了全球市場份額的60%~70%。由于電子耳蝸的復雜性,其價格一直很高,限制了其應用的廣度和深度。據報導,目前電子耳蝸的市場滲透率在發(fā)達國家也只有20%,而在發(fā)展中國家則不到1%。近幾年這種情況有所改觀,有學者研究和統(tǒng)計指出[14],近年來3家國外公司(COCHLEAR、MED-EL和AB)和一家國內公司(諾爾康)在中國政府投標價格中有了大幅度的下降,從2011年的每個25 000 美元到2016年的6 030 美元再到2017年的5 490 美元。價格的大幅度降低有助于促進電子耳蝸在中國大陸的進一步使用,但是漢語本身是音調語言,音調對漢字的識別比英語重要得多,因此,直接把國外電子耳蝸中的言語處理策略移植并應用在漢語人群中是不適合的。本研究選取目前廣泛使用的基于信號特征的電子耳蝸言語處理策略進行研究,并探討其頻帶選取的特性以及對信號特征變化的影響,為電子耳蝸新言語處理策略的開發(fā)以及電子耳蝸國產化提供基礎。
從大類來說,電子耳蝸的言語處理策略可以劃分為基于濾波器組的算法和不基于濾波器組的算法,其中,基于濾波器組的算法是目前的主流方法。而從刺激模式來看,基于濾波器組電子耳蝸的言語處理策略可以進一步劃分為非信號特征的模式(即規(guī)律性循環(huán)刺激模式)和基于信號特征的刺激模式。規(guī)律性循環(huán)刺激模式與信號本身的特性無關,該言語處理策略是按預先設計好的刺激模式進行,例如連續(xù)交替采樣模式[15-17]、連續(xù)交替等間隔刺激模式[18]。而基于信號特征的刺激模式是基于信號本身的實時變化特征的,例如可以選取頻帶中若干個最大的頻帶用于電極刺激,常見模式包括SPEAK 策略[19]、ACE 策略[20]、n of m 策略、FFC 策略、信號精細結構策略等。目前研究領域和應用領域應用最廣泛的是基于信號特征的言語處理策略,而該類策略的主要特點是基于信號特征的頻帶選取模式,本文的實驗測試和參數(shù)分析是基于該類言語處理策略進行研究的。
本文的信號采集采用KNOWLES 麥克風模塊,為了便于進行信號采集,麥克風模塊與STM32 開發(fā)板進行連接,實現(xiàn)按鍵控制聲音的錄入播放,并將麥克風采集的聲音進行處理并寫入flash,生成wav音頻文件。采集的信號保存在SD 卡中,可便攜地進行不同場景的信號采集,而需要進行算法研究時,SD卡插入計算機中,用Matlab 讀取聲音文件并進行算法處理??紤]到電子耳蝸使用者面對面交流的使用場景,本文的信號采集實驗的麥克風與目標聲源(音箱)的距離設置為1 m,語料為女聲發(fā)音的漢語“中國醫(yī)學物理學雜志”。電子耳蝸不同的言語處理策略的程序代碼已經用Matlab 提前編寫好,所采集的信號經過不同算法處理后,用于進行進一步的參數(shù)提取和分析。
用所搭建的硬件系統(tǒng)采集目標信號,保存在計算機,然后分別用Matlab 所編寫的電子耳蝸言語處理進行信號處理,生成并合成用于表征原始信號編碼和傳入電極陣列的新信號,進而用于算法比較。本研究選用目前應用最為廣泛的兩種基于信號特征的電子戰(zhàn)耳蝸言語處理策略,即ACE 策略和SPEAK策略,來進行算法研究和參數(shù)比較。其中,ACE 策略選用常見的22 通道濾波器組并選取8 個頻帶用于電極刺激,而SPEAK 選用常見的20 通道濾波器組并選取6個頻帶用于電極刺激。
原始采集的目標信號、經過ACE 策略和SPEAK策略處理后并合成的新信號,它的信號頻譜圖的對比如圖1所示。
圖1表示信號經過ACE策略和SPEAK策略處理后的信號和原始信號的對比。從圖1a 可以看到,原始信號在每個時間幀均包含不同頻率成分的信號,其中紅色是高能量的部分,顏色越深對應的能量越大。而對比圖1b 和圖1c 可以看到,ACE 策略和SPEAK 策略處理后的信號在每個時間幀開始集中在特定的幾個頻率上。在圖1b和圖1c中標記了對應濾波器組每個頻帶的中心頻率,通過比較可以看到,經過算法處理后的信號能量集中在對應的若干頻率位置上,該頻率位置對應所在濾波器組每個通道的中心頻率。而進一步比較圖1b和圖1c中每個時間幀所選取的頻帶來看,算法選取的是能量最大的若干個頻帶,頻譜中顯示的是紅色和深紅色區(qū)域,其中,ACE 策略選取的是能量最大的8 個通道的信號,而SPEAK 策略選取的是能量最大的6 個通道的信號。對于不同的時間幀來說,由于原始信號的能量分布隨著時間的變化而不同,因此,算法所提取的頻帶也不同,頻帶的選取與原始信號的能量強度分布有關。
圖1 信號的頻譜比較Fig.1 Comparison of signal frequency spectra
不同時間幀所選取的信號的頻帶不同,可以對所選取的各個頻帶進行統(tǒng)計。在所采集的語料為“中國醫(yī)學物理學雜志”的語音信號里,該語音信號的長度為1.95 s,算法中的每一幀的長度為512點,整個信號一共劃分為61幀。然后對每一幀所選取的頻帶編號進行統(tǒng)計和分析,可以發(fā)現(xiàn)以下的規(guī)律:ACE策略中每一個時間幀選取8個頻帶,其中低頻的頻帶經常被選取,同樣,SPEAK 策略中每一個時間幀選取6 個頻帶,也是低頻的頻帶經常被選取。進一步統(tǒng)計每個頻帶被選取的次數(shù)并由大到小排列,則ACE 策略中被選取次數(shù)最多的前5個頻帶依次是:通道2、通道1、通道4、通道5、通道3,對應被選取的次數(shù)分別是:51、50、45、44、43。而SPEAK 策略中被選取次數(shù)最多的前5 個頻帶依次是:通道1、通道2、通道3、通道4、通道5,對應被選取的次數(shù)分別是:48、45、36、35、30。由于實驗中的語音信號共劃分為61 幀,因此,計算得到ACE 策略的通道1、通道2、通道3、通道4、通道5 的被選取的概率分別是:81.97%、83.61%、70.49%、73.77%和72.13%,SPEAK 策略的通道1、通道2、通道3、通道4、通道5 的被選取的概率分別是:78.69%、73.77%、59.02%、57.38%和49.18%。因此,從分析和統(tǒng)計上看,基于信號特征的電子耳蝸言語處理策略在頻帶選取上傾向于選取低頻的頻帶,這種頻帶選取的模式一方面可以保留語音中低頻的較高的能量信息,另一方面容易丟失中高頻的細致信息。
從前面的分析看到,低頻的頻帶容易被選擇,而中頻和高頻的頻帶選取情況也有所差異,進一步詳細統(tǒng)計各個頻帶的選取概率,其頻帶選取概率曲線如圖2所示。
圖2 ACE策略和SPEAK策略的頻帶選取概率曲線Fig.2 Probability curves of frequency-band selection for ACE strategy and SPEAK strategy
圖2為ACE策略和SPEAK策略的頻帶選取概率曲線,從曲線上可以看到,低頻通道所對應的頻帶選取概率較高,中頻和高頻的選取概率較低。另一方面,兩組曲線均在中間位置有一個下凹,表示ACE 策略和SPEAK 策略對中頻頻段的選取概率是最低的。從圖1a 中原始信號的頻譜中可以看到,原始信號的能量分布總體上是沿著從低頻到高頻有下降的趨勢,中頻頻段的能量并沒有明顯比高頻頻段的能量少。但是,由于ACE 策略和SPEAK 策略在頻帶劃分上都是高頻的頻帶寬,低頻的頻帶窄。因此,高頻頻段所包括的頻帶內的信號成分更多,也有助于提高所在通道被選取的概率,而中頻頻段既沒有低頻通道的能量集中特性,也沒有高頻通道的頻帶寬特性,反而是被選取概率最低的。
本研究基于信號特征的電子耳蝸言語處理策略的頻帶選取特性,總結了ACE 策略和SPEAK 策略等算法在頻帶選取上傾向于低頻頻帶的特征。通過譜分析和電子耳蝸通道選取的統(tǒng)計,對比高低頻頻帶的電子耳蝸不同時間幀的通道選取和參數(shù)?;谛盘柼卣鞯碾娮佣佈哉Z處理策略在頻帶選取上更多選取能量集中的低頻信號,部分選取高頻信號,較少選擇中頻信號。該選擇模式有助于傳遞目標語音信號的主要信息,但中高頻通道被選取的概率偏低,導致中高頻信息丟失,后續(xù)的算法研究和改進需要結合該特性研究降低中高頻信號失配的補償模式,尤其是中頻信號的提升方法。