季 薇 楊茗淇 李 云 鄭慧芬
①(南京郵電大學(xué)通信與信息工程學(xué)院 南京 210003)
②(南京郵電大學(xué)計算機學(xué)院 南京 210023)
③(南京醫(yī)科大學(xué)附屬老年醫(yī)院 南京 210024)
帕金森病(Parkinson's Disease,PD)是一種常見的慢性神經(jīng)系統(tǒng)疾病[1]。研究表明,帕金森病與語言障礙[2–4]之間存在一定的病理關(guān)系。超過90%的帕金森病患者報告了至少一種最常見的聲學(xué)相關(guān)癥狀,包括聲音衰減、發(fā)音不準(zhǔn)確等[5]。
近年來,一些學(xué)者基于語音進行了帕金森病診斷方面的研究,并取得了一些進展。其中,帕金森病患者的語音特征學(xué)習(xí)是帕金森病診斷方案的重要組成部分,主要包括特征選擇和特征提取。Little等人[6]從采集的持續(xù)元音語音/a/中提取了包括頻率微擾(Jitter)和振幅微擾(Shimmer)在內(nèi)的17種聲學(xué)特征,分析了利用機器學(xué)習(xí)技術(shù)進行帕金森病診斷的可行性。Tsanas等人[7]在此基礎(chǔ)上使用了多種語音信號處理算法得到了相關(guān)病理特征,用于區(qū)分帕金森病患者和健康人。M oro-Velazquez等人[8]介紹了利用小波變換等方法提取帕金森病語音特征并用于帕金森病診斷和評估的方法。在語音特征提取方面,近年來出現(xiàn)了深度特征學(xué)習(xí)方法,通過對原始特征進行多層非線性變換,可獲得具有更好判別能力的新特征。國內(nèi)外學(xué)者嘗試在語音數(shù)據(jù)中應(yīng)用有監(jiān)督的深度學(xué)習(xí)實現(xiàn)帕金森病的診斷,并取得了積極的成果[9–13]。
與有監(jiān)督的方法相比,自監(jiān)督方法可以從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的底層結(jié)構(gòu)表示,從而有助于提高下游任務(wù)的性能和收斂速度[14]。目前,自監(jiān)督的特征提取方法已經(jīng)在語音信號處理領(lǐng)域取得了很好的效果。對比預(yù)測編碼(Contrastive Predictive Coding,CPC)使用多層卷積神經(jīng)網(wǎng)絡(luò)編碼過去的語音表示序列,可在對比二進制分類任務(wù)下預(yù)測潛在的語音表示序列[15]。自回歸預(yù)測編碼(Autoregressive Predictive Coding,APC)則使用自回歸模型對過去語音表示序列的時間信息進行編碼[16]。CPC和APC都屬于未來預(yù)測編碼,這類方法的一個顯著不足在于它們只能按照語音的前向順序進行單向分解。然而,對模型架構(gòu)的單向性約束將使模型無法很好地預(yù)測潛在的語音表示序列,限制了語音表示學(xué)習(xí)的潛力。與前兩種方法不同的是,掩蔽預(yù)測編碼(M asked Predictive Coding,MPC)從原始語音序列中提取部分語音表示進行掩蔽,根據(jù)剩余的語音表示重構(gòu)出被掩蔽的語音表示;MPC模型使用了同自然語言處理中BERT算法的掩蔽語言模型(M asked Language M odel,M LM)相類似的結(jié)構(gòu),本質(zhì)是對基于T ransform er的模型進行預(yù)測編碼[17]。通過T ransformer編碼器的使用,MPC可以對語音序列從前后兩個方向進行表示學(xué)習(xí),從而克服了CPC和APC方法的單向性約束,實現(xiàn)了語音的深度雙向預(yù)測編碼[18]。此外,掩蔽自監(jiān)督模型還擁有更快的訓(xùn)練速度,能夠更好地利用相關(guān)語音序列信息[17]。在許多語音識別基準(zhǔn)測試中,掩蔽自監(jiān)督模型的性能明顯優(yōu)于單向自監(jiān)督學(xué)習(xí)模型[19,20]。
本文將掩蔽自監(jiān)督模型用于帕金森病患者語音特征的提取,來實現(xiàn)基于語音的帕金森病檢測。首先,從帕金森病患者的原始語音中提取出富含病理信息的M el語譜圖特征,對患者語音進行全局時序化表示;然后,利用掩蔽自監(jiān)督模型來掩蔽部分Mel語譜圖特征并對其進行重構(gòu),從而學(xué)習(xí)到帕金森病患者語音的更高級特征表示,并利用后續(xù)的帕金森病檢測結(jié)果來評估所提的掩蔽自監(jiān)督模型的性能。其中,為解決帕金森病語音數(shù)據(jù)稀缺的問題,先在LibriSpeech公開數(shù)據(jù)集上對掩蔽自監(jiān)督模型進行預(yù)訓(xùn)練,然后基于遷移學(xué)習(xí)的思想,利用帕金森病語音數(shù)據(jù)對預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型進行微調(diào)和加權(quán)求和,以提升該模型特征表示學(xué)習(xí)的性能。結(jié)果表明,與傳統(tǒng)的M el語譜圖特征檢測方法相比,所提方法在準(zhǔn)確率、敏感度、特異度性能上分別提高了3.8%,14.5%,3%以上;與其他經(jīng)典自監(jiān)督特征提取方法相比,所提方法的檢測準(zhǔn)確率、敏感度、特異度性能分別提高了4.3%,4%,4.4%以上。
時域分析和頻域分析是語音信號的常規(guī)分析方法。然而,單一的時域波形和頻域頻譜都有局限性,無法綜合展現(xiàn)語音信號的時頻域變化關(guān)系。因此,人們常使用短時傅里葉變換,將語音的時域信息和頻域信息同時轉(zhuǎn)化到時頻域,實現(xiàn)語音的時頻化表示[21]。
持續(xù)元音可以評估發(fā)音困難的程度,與其他持續(xù)元音相比,元音/a/發(fā)音更簡單,且攜帶更多的臨床有用信息,因而使用持續(xù)元音/a/進行帕金森病診斷可以取得更好的效果[6]。健康人(Healthy Controls,HC)和帕金森病患者的語音信號在時域波形和頻域頻譜圖上均存在明顯的差異。在時域上,二者語音信號振幅的相對變化不同,帕金森病患者的波形常伴有異常的波動;在頻域上,二者的頻譜能量在高頻和低頻處的分布也存在差異,帕金森病患者的高頻能量明顯增加;在時頻域的語譜圖上,健康人語音信號的能量分布的范圍更加集中,在低頻處分布更加均勻,在高頻處能量更低[22]。
語音特征的選取對基于語音的帕金森病檢測有重要影響。語譜圖能夠綜合展現(xiàn)語音信號的時頻域變化關(guān)系,因此常被用作語音分析的有效工具。本文中使用了常見的3種與語譜圖相關(guān)的特征,分別為M el語譜圖、Fbank和MFCC。其中,M el語譜圖可通過對原始語音信號進行預(yù)加重、分幀、加窗、短時傅里葉變換、M el濾波等步驟獲得。對M el語譜圖特征取對數(shù)即可獲得Fbank特征,對Fbank特征做離散余弦變換可以得到MFCC特征。
需要指出的是,離散余弦變換可以消除與音素判別關(guān)系不大的諧波,保留包絡(luò)信息。但是,作為一種線性變換,離散余弦變換會丟失語音信號中的一些非線性信息。為最大限度地保留帕金森病語音中的信息,本文后續(xù)將以M el語譜圖作為特征提取模塊的輸入。
對比預(yù)測編碼(CPC)由Van den Oord等人[15]提出,該方法通過在對比二進制分類任務(wù)下對未來語音幀進行預(yù)測,實現(xiàn)了從高維語音信號中學(xué)習(xí)潛在語音表示的目的。CPC模型的主要結(jié)構(gòu)包括非線性編碼器ge和自回歸模型ga。首先,ge將輸入語音序列xt(t=1, 2, ···, n)映射為隱藏語音表示r t=ge(x t),然后將r t饋送到ga以產(chǎn)生潛在表示w t=ga(r≤t)。為了預(yù)測語音序列的未來值x t+k,構(gòu)造概率密度函數(shù)f k(x t+k,w t),用于保留x t+k和w t之間的互信息。為了優(yōu)化編碼器ge和自回歸模型ga,將對比損失最小化
其中,N表示X={x1,x2,···,x N}中樣本個數(shù),其中一個來自分布p(x t+k|w t)的正樣本,其余為來自分布p(x t+k)的負(fù)樣本。
和對比預(yù)測編碼一樣,自回歸預(yù)測編碼(APC)[16]也屬于預(yù)測編碼模型。但與前者不同的是,自回歸預(yù)測編碼使用自回歸模型對未來語音幀進行預(yù)測,并且直接優(yōu)化輸入語音序列和輸出語音序列之間的L 1損失。在輸入序列x t(t=1,2,···,n)和輸出序列y t(t=1,2,···,n)的情況下,L 1損失定義為
為更好地提取帕金森病患者語音中的病理信息,提升評估和檢測的準(zhǔn)確率,本文提出一種基于掩蔽自監(jiān)督表示學(xué)習(xí)的帕金森病檢測方法。圖1展示了所提的基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測模型及其訓(xùn)練過程。其中,掩蔽自監(jiān)督語音特征提取模型的訓(xùn)練包括源域預(yù)訓(xùn)練和目標(biāo)域微調(diào)兩個部分。首先,對LibriSpeech公開語音數(shù)據(jù)集[23]進行預(yù)處理和語譜圖特征提取,將結(jié)果輸入掩蔽自監(jiān)督模型進行預(yù)訓(xùn)練;然后,基于遷移學(xué)習(xí)的思想將預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型參數(shù)遷移至目標(biāo)域,利用帕金森病數(shù)據(jù)集對模型進行微調(diào),在目標(biāo)域?qū)δP瓦M行微調(diào)和加權(quán)求和,并更新模型參數(shù);最終,得到用于帕金森病檢測的語音特征表示。后續(xù),可將提取出的語音特征表示送入分類器,完成下游的帕金森病檢測任務(wù)。
本文將文獻[18]的掩蔽預(yù)測編碼思想引入帕金森病語音特征的表示學(xué)習(xí),提出基于掩蔽自監(jiān)督的語音特征提取模型,該模型使用T ransform er編碼器[17]實現(xiàn)了雙向編碼[24],具體結(jié)構(gòu)如圖2所示。
將從原始語音信號中提取出的M el語譜圖特征x t(t=1,2,···,n)作為掩蔽自監(jiān)督語音特征提取模型的輸入。根據(jù)文獻[17]附錄C.2節(jié)中的實驗結(jié)果選取最優(yōu)掩蔽策略,即選擇每個輸入序列中15%的幀進行掩蔽,被選擇的幀在80%的時間內(nèi)將被零向量替換,10%的時間內(nèi)替換為隨機位置的其他幀,剩余10%的時間內(nèi)保持不變,掩蔽規(guī)則如圖3所示。
圖3 以M el語譜圖為例的隨機掩蔽規(guī)則
原始語音信號的語音幀數(shù)據(jù)量大,需要降低輸入序列維度。在本文所提的掩蔽自監(jiān)督語音特征模型中,對掩蔽后的輸入序列進行3倍下采樣,將長度為n的輸入序列變?yōu)殚L度為n/3的序列。由于T ransform er編碼器不包含遞歸和卷積,所以使用位置編碼來使模型了解輸入序列的順序[25]。由于聲學(xué)特征可以為任意長度且具有高方差[26],因此在模型中引入正余弦位置編碼
其中,pos表示語音序列中的位置,i表示語音幀的位置,dmodel表示語音幀的維度。在位置編碼中引入正余弦函數(shù),使得對于任意間距長度k的語音幀,其位置編碼PE(pos+k)可以由PE(pos)經(jīng)過線性函數(shù)計算得到。
將經(jīng)過3倍下采樣后的輸入序列與位置編碼相加,作為T ransform er編碼層的輸入。通過3層的T ransformer編碼器提取到帕金森病患者的語音表示c t(t=1,2,···,n/3),其中,每個編碼器層有兩個子層,分別為多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層,模型中的所有編碼器層以及其子層輸出維度均為n/3。
最后,經(jīng)過全連接層得到重構(gòu)后的M el語譜圖z t(t=1,2,···,n/3),并通過上采樣重新映射成長度為n的序列。在輸入的M el語譜圖特征與重構(gòu)后的Mel語譜圖特征之間計算L1損失,其計算可參考式(2)。
深度學(xué)習(xí)模型的性能很大程度上依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模。由于帕金森病語音數(shù)據(jù)的稀缺性,直接將帕金森病語音數(shù)據(jù)用于掩蔽自監(jiān)督模型的預(yù)訓(xùn)練,將難以得到很好的模型性能,且容易過擬合。
本文采用遷移學(xué)習(xí),將說話人識別領(lǐng)域中的LibriSpeech語音數(shù)據(jù)集中100 h子集的語音作為源域數(shù)據(jù)集,通過學(xué)習(xí)不同的語音來進行說話人分類檢測任務(wù),訓(xùn)練過程如圖1橘色虛線框所示。將帕金森病語音檢測為目標(biāo)域檢測任務(wù),帕金森病語音數(shù)據(jù)集作為目標(biāo)域的訓(xùn)練樣本,訓(xùn)練過程如圖1綠色虛線框所示。將上述預(yù)訓(xùn)練模型中的參數(shù)作為目標(biāo)域模型的初始化參數(shù)。
基于遷移學(xué)習(xí)的掩蔽自監(jiān)督模型訓(xùn)練過程通過在源域數(shù)據(jù)集上進行預(yù)訓(xùn)練,再將模型遷移到目標(biāo)域數(shù)據(jù)集上進行微調(diào),從而大幅提升掩蔽自監(jiān)督模型的泛化性能。
利用掩蔽自監(jiān)督模型提取語音特征本質(zhì)上是提取T ransformer編碼器的輸出。本文采用了3種提取編碼器輸出的方法:直接從T ransform er編碼器的最后一層提取、微調(diào)后提取、經(jīng)過加權(quán)求和后提取。
微調(diào)后提取的方法是將預(yù)訓(xùn)練后的掩蔽自監(jiān)督模型在帕金森病語音數(shù)據(jù)集上微調(diào)2個epoch,更新了掩蔽自監(jiān)督模型的參數(shù)后,再從T ransform er編碼器的最后一層提取輸出。
經(jīng)過加權(quán)求和后提取的方法則是采用來自3層T ransform er編碼器輸出的混合表示,通過softmax函數(shù)進行權(quán)重計算,其公式可以表示為
其中,以第j層編碼器輸出為例,h j為第j層編碼器輸出值,L為編碼層總層數(shù),S(h j)則為第j層編碼器輸出的權(quán)重。將3個編碼層的輸出進行權(quán)重分配并求和來整合所有層的輸出,其計算公式為
其中,f為經(jīng)過加權(quán)求和后的輸出特征,l為當(dāng)前計算層數(shù),L為編碼層總層數(shù),s l為第l層的歸一化權(quán)重,h l為第l層編碼器輸出值。
本文使用了3個語音數(shù)據(jù)集,包括LibriSpeech公開語音數(shù)據(jù)集[23]、M ax Little帕金森病語音數(shù)據(jù)集[27]和本課題組自采的帕金森病中文語音數(shù)據(jù)集。
LibriSpeech數(shù)據(jù)集是由Vassil Panayotov發(fā)布的一個包含約1000 h英語語音的大型數(shù)據(jù)集[23]。本文從中選取總計100 h的語音數(shù)據(jù)子集(train-clean-100)作為自監(jiān)督模型的預(yù)訓(xùn)練數(shù)據(jù)集,預(yù)訓(xùn)練數(shù)據(jù)集包含251名說話人的音頻數(shù)據(jù)。經(jīng)剪輯整理成每條10 s左右的音頻文件,形成采樣率為16 kHz的WAV格式音頻文件集合。
M axLittle數(shù)據(jù)集是由牛津大學(xué)的Max Little與科羅拉多州丹佛的國家語音中心合作創(chuàng)建的帕金森病檢測數(shù)據(jù)集[27],數(shù)據(jù)采集均在安靜的室內(nèi)環(huán)境進行,采集內(nèi)容為持續(xù)元音/a/,受試者包括23名帕金森病患者和8名健康人,每人重復(fù)發(fā)聲6次。經(jīng)剪輯整理后,生成41條健康人語音數(shù)據(jù)和46條帕金森病患者語音數(shù)據(jù),共計87條語音實驗數(shù)據(jù)。
自采帕金森病語音數(shù)據(jù)集是由本課題組與南京醫(yī)科大學(xué)附屬老年醫(yī)院的帕金森病診療中心合作采集的。受試者包含56位帕金森病患者(PD)和22位健康人(HC)。數(shù)據(jù)采集均在安靜的室內(nèi)環(huán)境進行。采集內(nèi)容為持續(xù)元音/a/,每人重復(fù)發(fā)聲2~3次。經(jīng)剪輯整理后,生成59條健康人語音數(shù)據(jù)和56條帕金森病患者語音數(shù)據(jù),共計115條語音實驗數(shù)據(jù)。該數(shù)據(jù)集的統(tǒng)計信息見表1,其中,HY(Hoeh & Yahr)分期對帕金森病變程度的評估,3期以前屬于輕中度,3期以后癥狀越來越嚴(yán)重。括號內(nèi)為數(shù)據(jù)標(biāo)準(zhǔn)差。
表1 自采帕金森病語音數(shù)據(jù)集信息統(tǒng)計
實驗基于PyTorch深度學(xué)習(xí)框架實現(xiàn)所有算法。對所有的語音數(shù)據(jù)集提取[361,140]維的M el特征,采用幀長為25ms和幀移為10ms的滑動窗口對語音信號進行分幀,同時使用Librosa音頻處理庫去除語音首尾的靜音幀。
自監(jiān)督模型在LibriSpeech數(shù)據(jù)集的train-clean-100子集上進行了預(yù)訓(xùn)練,并使用帕金森病患者語音數(shù)據(jù)集對模型進行微調(diào)。具體地,預(yù)訓(xùn)練在4個GPU上進行,總批大小為256,步數(shù)為500k。使用Adam優(yōu)化器[28]改變學(xué)習(xí)率,其中學(xué)習(xí)率在500k總訓(xùn)練步驟的前7%上升至峰值4e–4,然后線性衰減。
對所提取的語音特征,使用不同的分類器進行分類,通過10折交叉驗證完成下游的帕金森病檢測任務(wù)。為驗證算法的有效性,本文使用準(zhǔn)確率(Accuracy,ACC)、敏感度(T rue Positive Rate,TPR)、特異度(T rue Negative Rate,TNR)作為實驗結(jié)果的評估準(zhǔn)則。準(zhǔn)確率表示準(zhǔn)確區(qū)分帕金森病患者和健康人的概率,敏感度代表正確檢測出帕金森病患者的概率,而特異度表示正確識別健康人的概率。其計算公式為
其中,TP表示分類正確的帕金森病樣本,TN表示分類正確的健康人樣本,F(xiàn)P表示將健康人樣本誤分類成帕金森病樣本,F(xiàn)N表示將帕金森病樣本誤分類成健康人樣本。
4.3.1輸入特征比較
為驗證M el特征在帕金森病檢測中的有效性,本文在自采數(shù)據(jù)集上進行了對比實驗,實驗結(jié)果如表2和表3所示。其中,M el,Fbank,MFCC所對應(yīng)的方案表示直接將Mel,Fbank,MFCC特征作為后續(xù)分類器的輸入。Mel-unsupervised,Fbank-unsu-pervised,M FCC-unsupervised所對應(yīng)的方案則是分別將M el,Fbank,MFCC特征作為本文所提掩蔽自監(jiān)督模型的輸入,將自監(jiān)督特征提取后得到的用于帕金森病檢測的語音特征表示作為后續(xù)分類器的輸入。表2是使用支持向量機作為分類器時的帕金森病檢測實驗結(jié)果,表3則是使用隨機森林作為分類器時的帕金森病檢測實驗結(jié)果。為了進行更細(xì)致的分析,表2和表3還針對男性測試數(shù)據(jù)(Male)以及女性測試數(shù)據(jù)(Female)進行了進一步的細(xì)分。
表2 結(jié)合支持向量機分類器進行帕金森病檢測的實驗結(jié)果(%)
表3 結(jié)合隨機森林分類器進行帕金森病檢測的實驗結(jié)果(%)
比較表2和表3的結(jié)果可以發(fā)現(xiàn),使用支持向量機作為分類器能獲得更好的帕金森病檢測性能;在不同性別以及全體數(shù)據(jù)上,基于M el語譜圖特征的帕金森病檢測性能要高于基于Fbank特征和基于MFCC特征的情況,基于M el-unsupervised的帕金森病檢測性能通常要高于基于Fbank-unsupervised和基于MFCC-unsupervised的情況。
4.3.2自監(jiān)督模型間比較
為檢驗本文提出的掩蔽自監(jiān)督語音特征提取模型的性能,本文首次將在說話人識別領(lǐng)域有良好表現(xiàn)的CPC模型[15]和APC模型[16]引入基于語音的帕金森病檢測領(lǐng)域,對不同自監(jiān)督模型在帕金森病檢測領(lǐng)域的表現(xiàn)進行比較。根據(jù)4.3.1節(jié)實驗結(jié)果,本實驗使用支持向量機作為分類器,以獲得更好的帕金森病檢測性能。
為證明自監(jiān)督模型在不同語言的數(shù)據(jù)集上均具有良好的可遷移性,將自監(jiān)督模型分別在MaxLittle數(shù)據(jù)集和自采數(shù)據(jù)集上進行了實驗對比,實驗結(jié)果如表4和表5所示。其中,M el+SVM對應(yīng)的是直接將M el特征作為后續(xù)SVM分類器的輸入進行帕金森病的檢測的方案;本文-ft2和本文-w s分別為微調(diào)兩個epoch的模型和經(jīng)過加權(quán)求和后的模型。從表中可以觀察到,在不同數(shù)據(jù)集上,基于自監(jiān)督語音特征提取的帕金森病檢測方法性能總體上要優(yōu)于M el+SVM方案的情況;而基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法性能要優(yōu)于基于APC模型和基于CPC模型的情況,對掩蔽自監(jiān)督模型進行微調(diào)和加權(quán)求和可以提高模型的帕金森病檢測性能。
表4 MaxLittle數(shù)據(jù)集上的對比實驗結(jié)果(%)
表5 自采數(shù)據(jù)集上的對比實驗結(jié)果(%)
為了驗證帕金森病檢測結(jié)果的有效性,在自采數(shù)據(jù)集中將基于M el語譜圖特征和基于掩蔽自監(jiān)督語音特征的帕金森病檢測結(jié)果的混淆矩陣進行了對比。其中,真正例為將樣本正確識別為帕金森病患者的次數(shù),真反例為將樣本正確識別為健康人的次數(shù),假正例為將樣本錯誤識別為帕金森病患者的次數(shù),假反例為將樣本錯誤識別為健康人的次數(shù)。基于M el語譜圖特征的帕金森病檢測結(jié)果的混淆矩陣中有45個真正例、47個真反例、12個假正例、11個假反例。而基于掩蔽自監(jiān)督語音特征的帕金森病檢測結(jié)果的混淆矩陣中則有51個真正例、54個真反例、5個假正例、5個假反例。從結(jié)果可以看出,基于自監(jiān)督語音特征提取的帕金森病檢測方法不僅對受試者的患病情況實現(xiàn)了較好的預(yù)測,而且對健康人也有較少的誤判。
本文提出了一種基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法,該方法利用掩蔽自監(jiān)督模型來掩蔽部分M el語譜圖特征并對其進行重構(gòu),從而學(xué)習(xí)到帕金森病患者語音的更高級特征表示。本文采用遷移學(xué)習(xí)解決帕金森病語音數(shù)據(jù)稀缺的問題,并且在帕金森病檢測任務(wù)上通過對掩蔽自監(jiān)督模型進行微調(diào)和加權(quán)求和來提升模型的帕金森病檢測性能。自采數(shù)據(jù)集和M axLittle數(shù)據(jù)集上的實驗結(jié)果驗證了該方法的有效性。未來的研究工作將集中在利用掩蔽自監(jiān)督模型對帕金森病患者進行不同病情嚴(yán)重程度的分類。