国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語音特征融合的帕金森疾病診斷

2023-09-20 06:37:24牟新剛陶佳昕
數(shù)字制造科學(xué) 2023年3期
關(guān)鍵詞:語譜帕金森聲學(xué)

牟新剛,陶佳昕,陳 龍

( 武漢理工大學(xué) 機(jī)電工程學(xué)院,湖北 武漢 430070)

帕金森病(PD, parkinson′s disease)是一種神經(jīng)退行性疾病,分為運動特征和非運動特征,包括震顫、強(qiáng)直、運動遲緩、認(rèn)知障礙、睡眠障礙和抑郁等[1],該病主要影響中樞神經(jīng)系統(tǒng),導(dǎo)致帕金森患者的功能障礙[2],據(jù)統(tǒng)計全世界大約有4%的帕金森患者年齡在50歲以下,呈年輕化的趨勢。因此,探討帕金森的早期診斷對控制患者的疾病和延長其壽命具有重要意義。

研究發(fā)現(xiàn),90%的患者在其早期癥狀中有聲帶損傷。構(gòu)音障礙作為非運動癥狀之一,是指產(chǎn)生語言的肌肉的運動減少,構(gòu)音障礙會影響患者的呼吸、發(fā)聲、共鳴和發(fā)音,呼吸問題會干擾患者的聲音響度,發(fā)聲期間的聲帶振動會在語音中產(chǎn)生周期性模式,因此研究人員研究了語音特征來診斷帕金森病。

Sakar等[3]使用流行的機(jī)器學(xué)習(xí)技術(shù)研究了帕金森數(shù)據(jù)集,采用多種錄音的聲學(xué)特征的平均值以及標(biāo)準(zhǔn)偏差。Chethan等[4]從MDVR-KCL(mobile device voice recording at king′s college London)[5]語音數(shù)據(jù)集中提取了13個聲學(xué)特征(其包括基頻微擾、振幅微擾、音調(diào)和諧波噪聲比),并使用KNN(k-nearest neighbor)分類器來預(yù)測PD,其精度達(dá)到85%。Berus等[6]使用這些特征以及一些附加的聲學(xué)特征對來自UCI(university of california Irvine)機(jī)器學(xué)習(xí)數(shù)據(jù)庫的帕金森數(shù)據(jù)集采用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,得到了86.47%的準(zhǔn)確性。Jeancolas等[7]提出使用梅爾頻率倒譜系數(shù)結(jié)合高斯混合模型來檢測PD,獲得的分辨率為79.5%。由于大多數(shù)研究都基于UCI數(shù)據(jù)庫提供的已經(jīng)處理好的聲學(xué)特征信息,針對實際應(yīng)用過程中的原始語音信號,受到外部因素如環(huán)境、口音的影響,往往分類效果表現(xiàn)不佳。

近年來,由卷積神經(jīng)網(wǎng)路和遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN, convolutional recurrent neural network)[8]在語音識別領(lǐng)域很受歡迎,并在相關(guān)領(lǐng)域達(dá)到了最新水平。但是,CRNN上的大多數(shù)工作僅利用簡單的光譜信息。因此,筆者提出基于語譜圖和聲學(xué)特征的語音識別模型,旨在從語音中獲取更豐富的信息,通過傅里葉變換轉(zhuǎn)換成語譜圖,結(jié)合手工提取的聲學(xué)特征,更好地捕捉語音的動態(tài)病理特征,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行PD檢測,為了評估所提方法的性能,使用來自PC-GITA數(shù)據(jù)集的帕金森病語音記錄,與UCI數(shù)據(jù)庫中提取好的特征信息數(shù)據(jù)不同,該數(shù)據(jù)集提供完整的原始語音信號,結(jié)果表明,得到了84.1%的分類準(zhǔn)確率。

1 語音特征融合算法

1.1 模型提出

模型總體結(jié)構(gòu)如圖1所示。所提出的模型融合了手工提取的聲學(xué)特征和語譜圖深度特征。語譜圖深度特征由門限循環(huán)單元GRU(gated recurrent unit)進(jìn)行編碼。最后將得到的特征進(jìn)行拼接,輸入到全連接層進(jìn)行帕金森疾病診斷。

圖1 算法模型圖

筆者提出了一種新的聲學(xué)特征融合模型,該模型采用雙通道來實現(xiàn)語音特征的聯(lián)合學(xué)習(xí),其中語譜圖特征是由原始語音信號分幀加窗后經(jīng)過短時傅里葉變換得到,對于語譜圖,在經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取特征后,輸入RNN(recurrent neural network)中進(jìn)行遞歸編碼。 對于手工提取的聲學(xué)特征,輸入到一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后將處理過后的語譜圖特征與聲學(xué)特征拼接后使用全連接層進(jìn)行預(yù)測。

使用門限循環(huán)單元GRU[9]進(jìn)行遞歸,用于捕捉語音信號的時間序列特征,相比于長短時記憶網(wǎng)絡(luò)(long short term memory,LSTM),GRU結(jié)構(gòu)更為簡單,能在更少計算的基礎(chǔ)上獲得不亞于LSTM的結(jié)果。

通過卷積模塊進(jìn)行深度特征提取,利用卷積層中卷積核進(jìn)行特征提取和映射,在池化層中進(jìn)行下采樣,對特征圖進(jìn)行稀疏處理,減少運算量,使用歸一化層使數(shù)據(jù)盡量接近標(biāo)準(zhǔn)分布,上述各層堆疊構(gòu)成最小單元進(jìn)行雙層堆疊,最后介入展平層將多維輸入轉(zhuǎn)換成一維,再連接dropout層,訓(xùn)練時使部分神經(jīng)元失活,有效避免過擬合的發(fā)生。最后通過GRU獲取語音信號的時序特征,對特征作進(jìn)一步提取,提取后的特征作為全連接層的輸入,經(jīng)過Softmax計算類別概率,完成帕金森語音識別。

所提出的帕金森語譜圖和聲學(xué)特征框架用于特征提取,在這兩種特征提取方法之前,為了將數(shù)據(jù)輸入分類器,首先要進(jìn)行信號預(yù)處理,也就是通過語音信號得到所需的語譜圖和手工聲學(xué)特征。

1.2 語譜圖特征提取

將語音信號轉(zhuǎn)換成語譜圖,語譜圖是隨時間變化的信號頻譜的可視化表示,由于語音信號是一維時域信號,雖然目前針對帕金森語音障礙的特征提取方式有很多但無法確定提取的特征是否能夠真正用于帕金森診斷,故而引入語譜圖的方式,將語音一維信號轉(zhuǎn)化成二維的時頻圖來進(jìn)行深度特征提取,即同時在時域和頻域中進(jìn)行特征提取已充分描述它們的性質(zhì)。為此,需要對原始的語音信號分幀操作并使用漢寧窗進(jìn)行加窗,逐幀進(jìn)行短時傅里葉變換(STFT, short-time fourier transform),STFT通過在短重疊窗口上計算離散傅里葉變換來表示時頻域中的信號。函數(shù)中FFT(fast fourier transform)窗口大小為2 048個樣本點,對應(yīng)16 000 Hz采樣率下2.5 s的持續(xù)時間。帕金森患者的語音信號時域波形和頻譜圖如圖2所示。

圖2 帕金森患者的語音信號時域波形和頻域圖

從語音信號得到的語譜圖大小被縮放到240×240,采用的模型有兩層Conv2D,其中第一層的卷積核大小為55,激活函數(shù)為ReLU,卷積層后面有一個內(nèi)核大小為33的最大池化層,第二層的卷積核大小為33,激活函數(shù)為ReLU,卷積層后面同樣有一個內(nèi)核大小為33的最大池化層。另外,在每一層中引入批量歸一化層,進(jìn)行歸一化處理,提高網(wǎng)絡(luò)的泛化能力,最后從這些獲得的三維矩陣通過展平層轉(zhuǎn)換為一維向量矩陣,用于接下來的特征拼接。

1.3 聲學(xué)特征提取

帕金森已被證明即使在早期也會影響言語,因此,言語特征已成功地用于評估帕金森并監(jiān)測其在醫(yī)療后的演變。 基于Jitter和Shimmer的特征、基頻參數(shù)、諧波參數(shù)、循環(huán)周期密度熵(recurrence period density entropy, RPDE)、去趨勢波動分析(detrended fluctuation analysis, DFA)和窗口周期熵(pitch period entropy, PPE)是PD研究中常用的語音特征。梅爾頻率倒譜系數(shù)(mel-scale frequency cepstral coefficients, MFCC)能模仿人耳的特性,在自動語音識別、生物醫(yī)學(xué)語音識別和帕金森診斷等不同任務(wù)中被稱為穩(wěn)健的特征提取器,能檢測到帕金森語音的失真部分。小波變換(wavelet transform, WT)是檢測長時元音全周期區(qū)域尺度波動的重要工具??烧{(diào)Q因子小波變換(tunable Q-factor wavelet transform, TQWT)是另一種特征提取方法[10],應(yīng)用上述信號處理技術(shù),依靠Praat聲學(xué)分析軟件提取,每個特征的詳細(xì)信息和特征個數(shù)如表1所示。

由基頻特征、時頻特征、梅爾頻率倒譜系數(shù)、小波變換特征、聲帶特征和可調(diào)Q因子小波變換特征組成的手工特征集,先歸一化以將數(shù)據(jù)集中的每個特征向量的值改變?yōu)楣渤叨?而不扭曲值范圍的差異。然后,引入一維CNN(convolutional neural network)模型訓(xùn)練。所提出的模型中有兩個模塊,其中每一塊都有卷積層,最大池化層和防止過擬合的dropout層。輸入被傳遞到這兩個模塊之后,第二個模塊的輸出全連接層即可進(jìn)行后續(xù)特征拼接。進(jìn)行訓(xùn)練和測試以驗證模型,訓(xùn)練階段將數(shù)據(jù)分為兩組,訓(xùn)練集和測試集,其中20%的總數(shù)據(jù)被分割以用于測試模型,其余80%的數(shù)據(jù)用于訓(xùn)練網(wǎng)絡(luò)模型,以提高分類精度。

2 語譜圖聲學(xué)特征融合實驗

2.1 數(shù)據(jù)集

PC-GITA數(shù)據(jù)庫[11]用于評估所提出的模型。該語料庫包括50名帕金森患者和50名健康受試者的錄音,在這項研究中考慮了兩個錄音任務(wù),參與者被要求在一次呼吸中發(fā)出盡可能長的元音/a/。所有參與者都簽署了事先獲得哥倫比亞麥德林諾埃爾診所倫理委員會批準(zhǔn)的知情同意書。語音信號是使用舒爾SM63L麥克風(fēng)和專業(yè)聲卡在隔音室中記錄的。音頻以44.1 kHz的頻率錄制,分辨率為16位。每組參與者包含25名男性和25名女性演講者。語料庫在年齡上也是平衡的(獨立樣本的t檢驗,p=0.77)。所有患者均由神經(jīng)科醫(yī)生診斷。數(shù)據(jù)集詳細(xì)數(shù)據(jù)如表2所示,UPDRS為帕金森綜合評分。

表2 數(shù)據(jù)集詳細(xì)數(shù)據(jù)

2.2 實驗設(shè)置

為了驗證所提方法的有效性,將提出的算法與以下4種方法比較:

(1)單一語譜圖(single-spectrum),將輸入的語音信號轉(zhuǎn)換為語譜圖后,輸入卷積神經(jīng)網(wǎng)絡(luò),最后使用全連接層進(jìn)行帕金森診斷。

(2)單一語譜圖配合循環(huán)神經(jīng)網(wǎng)絡(luò)(spectrum with GRU),將語譜圖輸入卷積神經(jīng)網(wǎng)絡(luò)后,再輸入到GRU門限循環(huán)單元進(jìn)行編碼,最后使用全連接層進(jìn)行帕金森診斷。

(3)單一聲學(xué)特征(single-acoustic),從語音信號提取出多維手工特征后,輸入一維卷積神經(jīng)網(wǎng)絡(luò),最后使用全連接層進(jìn)行帕金森診斷。

(4)單一聲學(xué)特征配合循環(huán)神經(jīng)網(wǎng)絡(luò)(acoustic with GRU),將手工特征輸入到一維卷積神經(jīng)網(wǎng)絡(luò),再輸入到GRU門限循環(huán)單元進(jìn)行編碼,最后使用全連接層進(jìn)行帕金森診斷。

2.3 實驗結(jié)果

對上述4種方法進(jìn)行測試,表3為引入門控循環(huán)網(wǎng)絡(luò)GRU實驗的對比結(jié)果。

表3 引入GRU前后的對比實驗結(jié)果

相較于普通CNN模型,單一語譜圖特征在引入GRU后的模型識別率在數(shù)據(jù)庫上有了2.56%的提升,證明GRU能夠有效地提取語譜圖特征中的動態(tài)病態(tài)信息,提升帕金森疾病的識別性能。單一聲學(xué)特征在引入GRU模型后識別率反而降低了10.05%,因為聲學(xué)特征直接不存在時序關(guān)系或先后順序,無需引入GRU循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時間或者序列依賴性的特征。

為了驗證不同特征融合的最佳結(jié)果,將引入GRU前后的單一聲學(xué)和語譜圖特征兩兩融合,對比實驗結(jié)果如表4所示。

表4 融合方式對比實驗結(jié)果

實驗結(jié)果表明,單語譜圖與聲學(xué)特征融合的分類準(zhǔn)確率為83.52%,引入GRU模型后的語譜圖再與聲學(xué)特征融合的分類結(jié)果可達(dá)84.19%,而引入GRU模型后的聲學(xué)特征與語譜圖特征拼接后準(zhǔn)確率有所下降,這是由于聲學(xué)特征不存在時序關(guān)系或先后順序,因此所提出的由CNN和GRU提取語譜圖特征融合CNN提取的聲學(xué)特征的模型更能捕捉語音信號的深層信息,所得的分類準(zhǔn)確率和馬修斯相關(guān)系數(shù)都是最高的。

另外,為了進(jìn)一步說明所提出的模型在帕金森疾病診斷時的分類精度,實驗比較了3種之前常用于帕金森語音檢測的機(jī)器學(xué)習(xí)模型[12]。得到的分類結(jié)果如表5所示。

表5 機(jī)器學(xué)習(xí)分類實驗結(jié)果

表5中展現(xiàn)了不同機(jī)器學(xué)習(xí)方法的對比,包含了SVM(support vector machine),KNN以及MLP(multilayer percetron),雖然處理時間降低,但分類效果不如所提出的門控卷積循環(huán)網(wǎng)絡(luò)好。

3 討論

在語音PD檢測任務(wù)中,基于機(jī)器學(xué)習(xí)方法的性能主要受語音特征和機(jī)器學(xué)習(xí)模型架構(gòu)的影響。目前在UCI帕金森公開語音數(shù)據(jù)集中,采用機(jī)器學(xué)習(xí)的方法能獲得90%以上的分類準(zhǔn)確率。但當(dāng)使用原始語音信號進(jìn)行分類時,結(jié)果降低了一定的準(zhǔn)確率。筆者基于門控卷積神經(jīng)網(wǎng)絡(luò),融合語譜圖與聲學(xué)特征,在持續(xù)元音輸入下獲得了更高的分類精度,結(jié)果表明,帕金森檢測系統(tǒng)得益于這兩種方法的結(jié)合(基于動態(tài)語音特征的GRU模型和CNN模型)。在實際檢測環(huán)境下輸入信號為原始語音信號,而UCI數(shù)據(jù)集所提供的為提取好的特征值,本文提出的模型在實際診斷環(huán)節(jié)展現(xiàn)更好的魯棒性。由于更復(fù)雜的網(wǎng)絡(luò)架構(gòu)(如具有更多層的深度混合模型或深度強(qiáng)化學(xué)習(xí)模型)尚未在本研究中進(jìn)行實驗,因此可以看到進(jìn)一步改進(jìn)模型架構(gòu)的空間。

4 結(jié)論

筆者研究了使用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下的帕金森疾病檢測任務(wù),提出了雙通道卷積門控循環(huán)網(wǎng)絡(luò)以充分利用聲學(xué)特征以及來自語音頻譜的深度信息,分析了50名PD患者和50名健康對照者的錄音,參與者以恒定的音調(diào)進(jìn)行元音/a/的持續(xù)發(fā)聲。從錄音中提取語音特征。結(jié)果表明,融合聲學(xué)特征和CRNN學(xué)習(xí)的語譜圖特征能為帕金森疾病識別提供更豐富的病例信息,對于持續(xù)元音,最高準(zhǔn)確率可達(dá)到84.19%。

猜你喜歡
語譜帕金森聲學(xué)
一對一心理護(hù)理對帕金森伴抑郁癥患者的影響
多巴胺不敏感型帕金森綜合征診斷及治療的研究進(jìn)展
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識別研究
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
基于時頻域特征的場景音頻研究
語譜圖二次傅里葉變換特定人二字漢語詞匯識別
2013~2015年廣東同江醫(yī)院門診抗帕金森藥應(yīng)用分析
新巴尔虎右旗| 孟连| 贵阳市| 揭阳市| 遂川县| 九寨沟县| 赞皇县| 奉节县| 砀山县| 汶川县| 沭阳县| 北川| 建德市| 威远县| 东城区| 井陉县| 葫芦岛市| 桂东县| 崇信县| 浙江省| 南丰县| 沾化县| 开封县| 南安市| 巫溪县| 含山县| 河北区| 武胜县| 衡阳市| 准格尔旗| 石嘴山市| 绿春县| 昆山市| 高碑店市| 新邵县| 名山县| 三原县| 开原市| 涡阳县| 玉环县| 防城港市|