項麗陽 李娟娟 韓彥 王金劍 楊典 楊婷君 銀力 黃穗
當前主流的多通道人工耳蝸產(chǎn)品均能讓大部分植入者在安靜環(huán)境下聽清和交流,但在噪聲或混響環(huán)境中,植入者的言語識別能力下降,因此提高植入者在噪聲環(huán)境下的言語可懂度依舊是人工耳蝸研究領(lǐng)域的一大挑戰(zhàn)。一個重要解決方式是引入或改進聲音信號處理技術(shù),尤其是音頻降噪算法。然而,單一的聲音處理策略難以應(yīng)對現(xiàn)實復(fù)雜的使用環(huán)境,較為理想的做法是針對不同的環(huán)境噪聲特點開啟特異性降噪算法。傳統(tǒng)的實現(xiàn)方式是讓植入者在使用過程中根據(jù)所處場景手動選擇合適的聽聲程序,但絕大部分的植入者因為怕麻煩或不夠?qū)I(yè)而始終使用標準程序[1]。為此,聲音場景識別算法被引入到人工耳蝸等輔聽設(shè)備中[2,3],搭載此算法模塊的智能輔聽系統(tǒng)能夠自動識別所處場景,并開啟合適的聲音處理策略,從而避免手動切換聽聲程序,方便植入者自如應(yīng)對復(fù)雜環(huán)境。諾爾康智能輔聽系統(tǒng)主要分為三大模塊(圖1):聲音場景識別模塊、策略配置模塊以及語音增強模塊。聲音場景識別技術(shù)從聲音信號中識別出所處的場景環(huán)境后,由策略配置模塊根據(jù)場景對語音增強模塊的各個算法策略進行統(tǒng)籌配置,選擇最適合當前場景的處理策略。語音增強模塊中包含諸多聲音處理策略,供策略配置模塊調(diào)用,通過對聲音數(shù)字信號進行算法處理,提升語音的舒適度、清晰度和可懂度。其中搭載了自動增益控制、單麥降噪技術(shù)“EVoice”、雙麥降噪技術(shù)“ABeam”以及增強音調(diào)感知的“CTone”策略等。EVoice降噪技術(shù)基于單通道信噪比估算聯(lián)合使用改進的維納濾波法進行降噪,在相對較低的信噪比下且背景噪聲較穩(wěn)定時具有明顯的降噪效果,能夠使語譜噪聲下的言語接受閾(speech reception threshold,SRT)降低2.2 dB[4]。CTone策略通過加強與基頻(F0)變化相關(guān)的時域振幅包絡(luò)而增強植入者對音調(diào)的感知,能夠在安靜環(huán)境下改善植入者對聲調(diào)、單音節(jié)以及雙音節(jié)的識別準確度,提高漢語的可懂度[5]。ABeam是一種基于延時相加、差分麥克風陣列以及維納濾波的自適應(yīng)雙麥降噪技術(shù),可動態(tài)追蹤信號源和噪聲源的來源方向,自適應(yīng)控制算法參數(shù), 整體算法復(fù)雜度適中,降噪效果較好。本文將介紹ABeam策略的臨床實驗方案及結(jié)果。
1.1聲音場景識別模塊構(gòu)建
1.1.1模型數(shù)據(jù)庫構(gòu)建 聲音場景識別支持5個分類:語音、噪聲、帶噪語音、音樂和安靜。其中安靜的識別是通過檢測輸入聲音的能量是否超過閾值來實現(xiàn),而其余四類則是通過場景識別分類器進行判別。用于聲音場景識別模型訓練的音頻樣本主要來源于網(wǎng)絡(luò)公開的聲音樣本庫下載和實地場景采集,將搜集到的聲音樣本進行人工分類和篩選。帶噪語音樣本來源于實地采集和后期合成。將音頻統(tǒng)一預(yù)處理成單聲道16 kHz采樣率的wav格式,并按照1 s時長進行裁切,之后設(shè)置合適的閾值線刪去聲壓級較低的樣本。最終獲得的數(shù)據(jù)庫樣本包括59 138 s的語音、71 395 s的噪聲、39 607 s的音樂以及59 387 s的帶噪語音。為使類別平衡,隨機選取每個類別39 000個樣本(10.8 h)用于模型構(gòu)建,其余樣本部分用于后續(xù)的實時聲音場景識別性能評估。
1.1.2聲音場景識別模型構(gòu)建
1.1.2.1特征篩選 前期實驗通過遞歸特征消除(recursive feature elimination)、隨機森林(random forest,RF)和極限樹(extra-trees,ET)等特征選擇法,依據(jù)重要度排序,從大量音頻特征中篩選出了16個對場景識別較為重要的特征,包括基于頻域的6個特征和基于倒譜域的10個梅爾倒譜系數(shù)(mel-frequency cepstral coefficients,MFCC)。頻域的6個特征包括3個帶通能量率(band energy ratio)相關(guān)的特征[直流分量比值、低頻(0~1 000 Hz)能量比值以及高頻(4 500~7 750 Hz)能量比值]、譜熵(spectral entropy)、譜通量(spectral flux)以及譜互相關(guān)系數(shù)(spectral cross-correlation coefficient)。
1.1.2.2分類模型篩選 在上述大數(shù)據(jù)集中每個分類隨機選取3 000個樣本構(gòu)建一個較小的數(shù)據(jù)集,其中,80%作為訓練集,20%作為測試集。對每個樣本提取上述16個特征值構(gòu)建特征值庫。之后,構(gòu)建和訓練不同的模型學習特征值輸入到場景輸出的映射。這些機器學習模型包括支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)、極限樹(extra-trees,ET)、全連接神經(jīng)網(wǎng)絡(luò)(fully-connected neural network,FC)、長短時記憶網(wǎng)絡(luò)(long short term memory networks,LSTM)、門控循環(huán)網(wǎng)絡(luò)(gated recurrent unit,GRU)以及卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)。訓練每種模型時,調(diào)節(jié)模型的參數(shù)設(shè)置,使得模型在測試集上的預(yù)測準確度盡可能高。
1.1.2.3場景識別模型構(gòu)建與性能評估 確定模型架構(gòu)后,在前述較大的數(shù)據(jù)集上進行模型訓練和性能評估。通過10次五折交叉驗證的方法,將數(shù)據(jù)集分成5份,輪流用其中4份做訓練集剩余1份做測試集,記錄訓練好的模型在測試集上的識別結(jié)果,上述過程重復(fù)10次,以50個預(yù)測結(jié)果的均值來評估模型的預(yù)測性能。
1.1.3聲音場景識別綜合決策模塊 在模型預(yù)測后加入一個場景綜合決策模塊,該模塊基于動態(tài)累積投票積分,綜合考慮歷史場景識別結(jié)果,只有在系統(tǒng)穩(wěn)定識別為某個場景的情況下才會發(fā)生場景切換,如此便可以盡量保證場景切換的穩(wěn)定性,防止聲音處理策略頻繁更換給植入者帶來不良的聽聲體驗。
1.1.4實時聲音場景預(yù)測性能測試 將上述包括綜合決策模塊在內(nèi)的整個聲音場景識別系統(tǒng)在人工耳蝸數(shù)字信號處理器(DSP)上實現(xiàn),通過藍牙傳輸方式,將預(yù)測結(jié)果顯示在手機應(yīng)用程序界面。隨機挑選一些不在模型訓練庫中的測試聲音樣本,拼接成5 min的測試文件,每個測試文件中的樣本來源于同一類聲音場景。音樂測試文件包括純音樂和帶人聲音樂兩類。測試文件數(shù)分別為語音9個,噪聲8個,帶噪語音8個,純音樂7個,帶人聲音樂6個。用揚聲器(Edifier R1600TIII)播放測試文件,人工耳蝸麥克風距離揚聲器0.5 m,播放白噪聲,調(diào)節(jié)揚聲器音量使人工耳蝸麥克風處的聲壓級達到75 dB SPL。測試過程中人工記錄app界面每次場景變化時的音頻播放時間以及預(yù)測結(jié)果。
1.2策略配置模塊 聲音處理策略配置模塊根據(jù)場景識別結(jié)果,自動配置合適的策略,改善植入者在各場景下的聽聲體驗。諾爾康的策略配置模塊見圖1,橫向箭頭指代特定場景下開啟哪種策略,例如:安靜場景下開啟自動增益,噪聲場景下開啟單/雙麥降噪算法。
1.3語音增強模塊
1.3.1研究對象 為評估語音增強模塊中的ABeam技術(shù)的降噪效果,招募13例人工耳蝸植入者(6男7女),年齡18~50歲(中位年齡46歲)。所有受試者均為成年語后聾植入者,母語均為漢語,單耳植入諾爾康人工耳蝸(植入體為CS-10A),測試時植入者的體外機換為三代機聲音處理器Voyager,并將其調(diào)試圖下載到處理器中聲音編碼策略為高級峰值選擇(advanced peak selection,APS),對應(yīng)下文所述的“OFF”程序。受試者均可在安靜環(huán)境下進行有效交流,并在測試前簽訂知情同意書。
1.3.2臨床實驗流程 實驗過程中首先評估植入者在相對安靜情況下對開啟“ABeam”的主觀聽聲反饋。植入者被邀請至一間較為安靜(本底噪低于40 dB A)的房間進行面對面的交流,先測試“ON”后測試“OFF”程序,每個程序試聽時長為0.5~1 h,詢問并記錄受試者的主觀聽聲感受反饋。之后在環(huán)形聲場中進行噪聲環(huán)境下的言語識別率(speech recognition score,SRS)測試,測試的兩個程序分別為ABeam開啟“ON”和關(guān)閉“OFF”?!癘N”時Abeam策略作為一個預(yù)處理步驟整合到APS策略中(通道峰值選擇之前)。測試的噪聲源角度包括90°、180°和270°三個角度,噪聲類別為語譜噪聲(speech shaped noise,SSN),目標語音來自中文言語評估測試短句(Mandarin speech perception test-sentences,MSP)[6],包含10個句表,每個句表包含10個短句,每句有7個字。實驗測試條件為組合3個播放角度、2個程序共計6種,為每位受試者無重復(fù)偽隨機選擇其中6個句表的目標語音對應(yīng)6種實驗條件(受試者、測試語句的組別選擇與測試條件的對應(yīng)均做了一定的平衡考慮,盡可能做到各個情況出現(xiàn)的概率均等)。
1.3.3環(huán)形聲場及控制平臺 實驗在隔聲室(本底噪聲低于30 dB A)進行,內(nèi)置環(huán)形聲場,12個揚聲器以30°的角度等間隔環(huán)形排列,半徑為1 m,每個揚聲器距離地面高度為1 m(圖2)。使用基于Matlab軟件開發(fā)的聲場控制實驗平臺的控制揚聲器播放。實驗前在揚聲器陣列的圓心位置放置一個全向麥克風接收聲音輸入用于反饋調(diào)整揚聲器的輸出聲壓級,用于自動校準揚聲器,實驗時移走。
圖2 環(huán)形聲場實驗室示意圖
1.4測試指標
1.4.1場景識別系統(tǒng)的預(yù)測性能
1.4.1.1不同種類模型在較小數(shù)據(jù)集測試集上的預(yù)測準確率 將訓練優(yōu)化好的各模型在小數(shù)據(jù)集測試集上的預(yù)測結(jié)果與相應(yīng)的人工標注結(jié)果進行比較,如果兩者相符,記為識別正確,計算每個模型預(yù)測正確的概率,即正確預(yù)測總數(shù)占整體測試樣本數(shù)的百分比。
1.4.1.2全連接神經(jīng)網(wǎng)絡(luò)模型在較大數(shù)據(jù)集測試集上的預(yù)測準確率 每次訓練完畢,將在大數(shù)據(jù)集上訓練好的神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果與人工標注結(jié)果進行比較,如果兩者相符,記為識別正確,計算模型在整個測試集上預(yù)測正確的概率,即正確預(yù)測總數(shù)占整體測試樣本數(shù)的百分比作為該次模型的整體預(yù)測準確率。類似的,對于每個分類而言,統(tǒng)計每類真實標簽的樣本中被正確識別的總數(shù)占該類樣本總數(shù)的百分比作為模型對該類模型的預(yù)測準確率。之后,計算10次五折交叉驗證結(jié)果的整體預(yù)測準確率以及各分類的預(yù)測準確率。
1.4.1.3DSP實時場景識別準確率 對于每個測試文件,根據(jù)手動記錄的手機app界面顯示的場景切換時刻以及場景預(yù)測結(jié)果,分析每個預(yù)測分類的顯示時間占比,以正確分類的時間占比作為場景識別系統(tǒng)對該文件的識別準確率。之后,計算系統(tǒng)對每個分類下各個測試文件的識別準確率。
1.4.1.4DSP實時場景識別切換次數(shù) 對于每個測試文件,根據(jù)手動記錄的app界面顯示的場景切換時刻以及場景預(yù)測結(jié)果,獲得場景切換次數(shù)的結(jié)果。之后,計算系統(tǒng)對每個分類下各個測試文件的識別結(jié)果的切換次數(shù)。
1.4.2ABeam主觀聽聲效果VAS評估 使用視覺模擬評分法(visual analogue scale,VAS)量化受試者各個維度的主觀聽聲感受(表1),分別給兩個程序的使用感受進行評分。主觀評價指標主要包括背景噪聲、語音清晰度、聽聲舒適度、語音失真情況以及聽聲響度。
表1 聽聲效果VAS評估
1.4.3ABeam言語識別率評估 固定目標語音的播放角度為0°(受試者正對面方向),聲壓級為70 dB SPL;噪聲播放聲壓級由聲場控制實驗平臺程序自動根據(jù)設(shè)定的信噪比決定,本實驗中設(shè)定信噪比為5 dB。每組語料中的一句話播放結(jié)束時,要求受試者復(fù)述所聽內(nèi)容,通過麥克風傳達給隔聲室外的測試者,由測試者操作程序界面選擇受試者正確復(fù)述出的字詞,之后進入該組下一句的播放,一組10句話測試完畢,程序自動統(tǒng)計受試者對整組語料的言語識別率。
1.5統(tǒng)計學方法 采用Matlab 2016a軟件對數(shù)據(jù)進行統(tǒng)計分析。組間比較采用配對t檢驗,檢驗水平α=0.05。P<0.05為差異有統(tǒng)計學意義。
2.1模型篩選實驗結(jié)果 在小數(shù)據(jù)集上的模型篩選實驗結(jié)果表明在特征輸入保持一致的情況下,使用若干機器學習模型所能達到的預(yù)測準確度差異不大(表2)。從計算量、模型性能以及在DSP上的實現(xiàn)容易度等多方面綜合考慮,選擇使用人工神經(jīng)網(wǎng)絡(luò)模型。通過調(diào)整模型架構(gòu)(包括網(wǎng)絡(luò)層數(shù)和每層的節(jié)點數(shù)量),發(fā)現(xiàn)雙隱含層(每個隱含層包括10個神經(jīng)元節(jié)點)的神經(jīng)網(wǎng)絡(luò)模型(圖3)已經(jīng)能獲得預(yù)期性能(在此小數(shù)據(jù)集上達到95%以上的預(yù)測準確率)。
表2 不同種類模型的場景識別預(yù)測性能評估
圖3 人工神經(jīng)網(wǎng)絡(luò)模型架構(gòu)
2.2場景識別系統(tǒng)模型性能評估結(jié)果
2.2.1模型在測試集上的預(yù)測性能 通過10次五折交叉驗證的方法統(tǒng)計模型在較大數(shù)據(jù)集上的預(yù)測性能,整體識別準確率為(90±0.5)%,其中語音98%±0.3%,噪聲92%±0.8%,音樂81%±1%,帶噪語音88%±2%。
2.2.2DSP實時場景預(yù)測性能 實時場景預(yù)測系統(tǒng)對各個測試文件的識別準確率以及場景切換次數(shù)統(tǒng)計結(jié)果見表3??梢?本系統(tǒng)對每個分類的識別準確度均可達90%以上,在5 min的測試過程中平均場景切換次數(shù)少于兩次。
表3 聲音場景識別系統(tǒng)對各個測試文件在人工耳蝸上的實時預(yù)測性能
2.3ABeam臨床測試結(jié)果
2.3.1聽聲效果VAS評估結(jié)果 13例受試者中有2例主觀反饋結(jié)果(VAS評估結(jié)果)遺失(言語識別率結(jié)果并未遺失),表4統(tǒng)計了剩余11例的聽聲效果VAS評估結(jié)果,可見,是否開啟ABeam對背景噪聲強度、語音清晰度、聽聲舒適度以及聽聲響度有顯著影響(P<0.05),而對語音失真并無顯著影響(P>0.05)。
表4 不同程序下聽聲效果VAS統(tǒng)計結(jié)果(分,
2.3.2言語識別率統(tǒng)計結(jié)果 各噪聲源角度下,13例受試者在開啟(“ON”)和關(guān)閉(“OFF”)ABeam算法時的SRS統(tǒng)計結(jié)果見表5。可見,在5 dB信噪比下,開啟ABeam算法受試者的SRS結(jié)果與不開啟有極顯著差異(t=4.23,μ=38,P<0.001)。當噪聲源位于180°時,開啟ABeam算法能顯著提升SRS(t=3.80,μ=12,P<0.01);而其它角度下,盡管是否開啟ABeam算法對SRS結(jié)果無顯著影響(P>0.05),但從均值上可以看出開啟后受試者SRS有上升趨勢。綜合三個噪聲源角度的測試結(jié)果,開啟ABeam后SRS平均可提升15.92%。
表5 不同程序下不同噪聲源角度言語識別率統(tǒng)計結(jié)果
本文重點介紹了諾爾康人工耳蝸智能輔聽系統(tǒng)的聲音場景識別模塊以及雙麥降噪算法ABeam的臨床測試結(jié)果。前者在各個測試場景下的識別準確度均可達到較高水平,且識別較為穩(wěn)定。但當前支持的場景數(shù)量較少,僅有語言、噪聲、帶噪語音、音樂和安靜5種,分類不夠細致,尤其是噪聲類別,這會限制聲音處理策略的優(yōu)化配置,未來將增設(shè)常見的特定噪聲種類的識別,如風噪、車噪等。其他產(chǎn)品當前所支持的場景識別數(shù)量都與本研究所用的諾爾康產(chǎn)品相差不大,如Cochlear人工耳蝸的Smart Sound iQ技術(shù)支持6種場景識別[3],Med-EL人工耳蝸支持5個場景,Advanced Bionics人工耳蝸支持場景數(shù)稍多,為7個。因此,人工耳蝸上搭載的場景識別技術(shù)普遍還有較大的改進空間。然而,人工耳蝸設(shè)備的實時性和低功耗要求在一定程度上限制了較復(fù)雜的場景識別算法的應(yīng)用,如何在較低的算力資源下改進聲音場景識別的預(yù)測性能成為這一研究領(lǐng)域的挑戰(zhàn)。此外,不止場景識別模塊,其他各聲音處理策略的開發(fā)也都需要兼顧算力和算法性能。
當前的策略配置模塊采用固定的場景-策略搭配模式,這種搭配方式,盡管開發(fā)者認為較為優(yōu)化,但其實并未顧及到每個人的聽聲需求,更為合理的一種做法是獲取植入者的使用習慣和偏好,并對策略配置進行個體化的調(diào)控,這也是未來智能輔聽系統(tǒng)的一個發(fā)展方向。
在噪聲源和信號源空間分離的情況下,相較使用單麥降噪算法,基于雙麥克風輸入信號的方向性麥克風技術(shù)能更加有效地提高輸出信號的信噪比,顯著提升植入者的聽聲感受[7,8]。本文對ABeam策略的臨床使用性能做了一個初步探索,結(jié)果表明開啟ABeam(“ON”)較不開啟(“OFF”)能夠有效改善受試者的主觀聽聲效果,且能在一定程度上抑制來自側(cè)后方的背景噪聲,提升植入者的語音可懂度。但本研究受試者數(shù)量及實驗條件組合較少,未來將增設(shè)更多情況下的測試,如改變信噪比、噪聲種類、噪聲源方向、噪聲源數(shù)量、室內(nèi)存在回聲和使用移動噪聲源方式(噪聲源位置在測試中隨時間發(fā)生變化)等,還將增加受試植入者數(shù)量及加入兒童人工耳蝸植入者,對ABeam算法在更多情況下的表現(xiàn)性能做評估。
本文僅對整個智能輔聽系統(tǒng)的性能進行了初步研究,選用的研究方法是從各個子模塊各自的實現(xiàn)性能上來間接反應(yīng)整個系統(tǒng)的實現(xiàn)性能;更直接的方式是招募更多植入者,設(shè)計安靜和不同噪聲環(huán)境的測試情景,以植入者自身作為對照,對比使用智能輔聽系統(tǒng)和各自平時所用的標準程序這兩種情況下的聽聲效果。
人工耳蝸從最初的單電極刺激方式發(fā)展到如今的多通道刺激,植入者的聽聲效果在不斷改善,而與此同時,植入者對產(chǎn)品的期待也越來越高,希望能獲得與正常聽力者相近甚至趕超的聽聲效果。智能輔聽系統(tǒng)的出現(xiàn)和應(yīng)用是人工耳蝸發(fā)展與成熟的必經(jīng)之路,如何在有限的計算資源前提下提高可識別場景的種類以及識別準確度,并根據(jù)聲音場景特點開發(fā)和配置合適的聲音處理策略是該領(lǐng)域的研究重點和難點。