王 娟,徐志京
(上海海事大學(xué) 信息工程學(xué)院,上海 201306) E-mail:wangjuan_y@foxmail.com
帕金森病(Parkinson′s Disease,PD)屬于常見的神經(jīng)系統(tǒng)退行性疾病,目前尚不能治愈[1].因此探討PD的早期診斷對(duì)控制PD患者的病情,延長(zhǎng)其生命具有重要意義[2].研究發(fā)現(xiàn),90%的PD患者早期癥狀中存在聲帶損傷[3],經(jīng)聲學(xué)分析表現(xiàn)為高振幅微擾,高基頻微擾,低諧信噪比,低基頻[4].考慮患者的嗓音特點(diǎn),可以通過提取語(yǔ)音信號(hào)中的聲學(xué)特征進(jìn)行PD的早期檢測(cè),此方法具有非入侵性,便利性,高效率等優(yōu)點(diǎn),被國(guó)內(nèi)外居民廣泛接受.
國(guó)內(nèi)外學(xué)者主要采用傳統(tǒng)的特征提取方法和機(jī)器學(xué)習(xí)算法,通過分析語(yǔ)音信號(hào)實(shí)現(xiàn)PD識(shí)別.Max Little等[5]在2009年收集持續(xù)的元音發(fā)聲/a/作為首個(gè)語(yǔ)音數(shù)據(jù)庫(kù).隨后,Max Little等證明元音足以進(jìn)行PD檢測(cè)[6,7].2013年,Sakar等分析了從PD患者收集的多種類型的語(yǔ)音用于PD診斷[8].為提高識(shí)別準(zhǔn)確率,Benba等在Sakar提供的數(shù)據(jù)集上繼續(xù)研究,分別利用梅爾頻率倒譜系數(shù)(Frequency Cepstrum Cofficient,MFCC)及其一階、二階導(dǎo)數(shù)[9],平均值來壓縮提取的MFCC[10],人因子倒譜系數(shù)(Human Factor Cepstral Coefficients,HFCC)[11]提取聲紋特征參數(shù),結(jié)合不同核函數(shù)的SVM分類器進(jìn)行分類.MFCC、HFCC等存在對(duì)高階音頻的聲紋特征表征能力差、參數(shù)階數(shù)選擇復(fù)雜及特征缺失或冗余問題,基于小樣本的淺層機(jī)器學(xué)習(xí)分類器如SVM,k-最近鄰分類器(k-Nearest Neighbor,KNN)以及球面聚類方法[12]調(diào)參困難且計(jì)算量大.
近年來,深度學(xué)習(xí)在語(yǔ)音處理中的應(yīng)用如語(yǔ)音增強(qiáng)、情感識(shí)別和病理檢測(cè),取得了很好的效果,為通過聲紋特征識(shí)別PD患者提供了基礎(chǔ).Lucijano Berus等[13]使用原始音頻數(shù)據(jù)[8]輸入到人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)微調(diào)后進(jìn)行分類,但直接處理語(yǔ)音信號(hào)較復(fù)雜;師等[14]采用Alexnet對(duì)語(yǔ)譜圖分類,在數(shù)據(jù)集[8]上達(dá)到86.67%的精確度.將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,可以利用神經(jīng)網(wǎng)絡(luò)識(shí)別并提取與研究目標(biāo)相關(guān)的重要聲紋特征以自動(dòng)對(duì)圖像進(jìn)行分類.目前,最受歡迎的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)VGGNets中的VGG16模型是用于圖像識(shí)別和分類的主要工具.VGG16具有拓展性很強(qiáng)、泛化性好等優(yōu)點(diǎn),在其他領(lǐng)域的圖像數(shù)據(jù)集上達(dá)到很好的效果,作為一種數(shù)據(jù)驅(qū)動(dòng)模型,依賴大量樣本.但現(xiàn)階段用于帕金森研究的音頻數(shù)據(jù)少且樣本獲取困難,導(dǎo)致深度學(xué)習(xí)算法過度擬合,達(dá)不到好的效果[15].因此,采用深度學(xué)習(xí)算法診斷帕金森病時(shí),樣本擴(kuò)充是亟待解決的問題.
生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)被Goodfellow等[16]提出以來,產(chǎn)生諸多變體并被應(yīng)用于半監(jiān)督和監(jiān)督學(xué)習(xí)領(lǐng)域的圖像處理或合成等工作.目前成熟的GAN框架深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Network,DCGAN)[17]通過合成或生成圖像數(shù)據(jù)進(jìn)行樣本擴(kuò)充,已經(jīng)應(yīng)用于半監(jiān)督學(xué)習(xí)領(lǐng)域的高光譜圖像分類[15],肝臟病變分類[18]以及合成人工腦電圖信號(hào)(electroencephalographic,EEG)[19]等領(lǐng)域.但是DCGAN生成高分辨率圖像時(shí)易發(fā)生模型崩潰,訓(xùn)練不穩(wěn)定問題導(dǎo)致生成效果差.本文將DCGAN模型引入到聲紋識(shí)別領(lǐng)域,提出了一種基于DCGAN和特征匹配方法的高分辨率深度卷積生成對(duì)抗網(wǎng)絡(luò)(High Resolution Deep Convolutional Generative Adversarial Network,HR-DCGAN)模型.首先將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,利用語(yǔ)譜圖聯(lián)合時(shí)頻分析方法,采用HR-DCGAN-VGG16混合模型對(duì)小樣本擴(kuò)充,并應(yīng)用到帕金森患者的識(shí)別工作中,與無(wú)樣本擴(kuò)充相比,提高了小樣本下的PD患者識(shí)別準(zhǔn)確率,并比較了不同擴(kuò)充系數(shù)下達(dá)到的識(shí)別效果.
利用HR-DCGAN模型擴(kuò)充樣本,VGG16提取聲紋特征并進(jìn)行分類識(shí)別,本文構(gòu)建了小樣本帕金森識(shí)別模型如圖1所示.首先將原始語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,經(jīng)HR-DCGAN模型生成PD患者和健康人的語(yǔ)譜圖,根據(jù)SSIM指標(biāo)篩選語(yǔ)譜圖用于擴(kuò)充數(shù)據(jù)集,擴(kuò)充樣本和原始樣本輸入到VGG16模型進(jìn)行分類,實(shí)現(xiàn)帕金森識(shí)別.
由于環(huán)境背景噪聲,發(fā)音器官與音頻采集設(shè)備產(chǎn)生的混疊干擾、諧波失真等,采集到的語(yǔ)音信號(hào)質(zhì)量參差不齊,因此對(duì)原始的語(yǔ)音信號(hào)進(jìn)行預(yù)處理是必要的,且是影響識(shí)別準(zhǔn)確率的重要過程.預(yù)處理包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè)四個(gè)過程[10].經(jīng)預(yù)處理后,本文將語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖,作為二維圖譜可以聯(lián)合時(shí)頻分析方法提取譜特征.像素灰度值表示對(duì)應(yīng)時(shí)間和頻率的語(yǔ)音能量信息,并且語(yǔ)譜圖可以保留更多的高頻信息并更好地呈現(xiàn)參與者的聲紋,尤其是其中所包含的聲紋特征信息如頻譜,基音,共振峰等.另外,可直接提取語(yǔ)譜圖中的聲紋特征,解決了傳統(tǒng)譜特征中相鄰幀之間相關(guān)性被忽略及特征冗余問題.
圖1 小樣本帕金森識(shí)別模型Fig.1 Parkinson′s Disease recognition model with a small number of samples
語(yǔ)譜圖的生成過程步驟如下:
1)對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行傅里葉變換[14],如公式(1)所示.
(1)
其中w(n)是窗函數(shù)類型,本文采用漢明窗.Xn(ejw)是關(guān)于w和n的函數(shù).
2)令w=2πk/N,(0≤k≤N-1),N代表快速傅里葉變換(Fast Fourier Transform,FFT)的點(diǎn)數(shù),對(duì)每一幀信號(hào)做FFT,得到短時(shí)傅里葉變換如公式(2).
(2)
3)計(jì)算短時(shí)功率譜Sn(ejw).
Sn(ejw)=Xn(ejw)·Xn(ejw)=|Xn(ejw)|2
(3)
其中:
Rn(k)為x(n)的短時(shí)自相關(guān)函數(shù),Sn(ejw)為Rn(k)的傅里葉變換.n,w分別為橫縱坐標(biāo),Sn(ejw)的值為點(diǎn)(n,w)的像素灰度級(jí)表示.
4)灰度圖映射:依次連接每幀的灰度級(jí)表示,便生成灰度語(yǔ)譜圖.為提高圖像內(nèi)容的可辨識(shí)度,采用Matlab2016a中的偽彩色映射函數(shù)colormap(map)(其中map為采用的偽彩色映射矩陣,默認(rèn)為jet)進(jìn)行功率譜偽彩色顯示[20]便得到偽彩色語(yǔ)譜圖.
為方便網(wǎng)絡(luò)模型的處理以及更清晰地可視化語(yǔ)譜圖的共振峰、基頻和諧波的變化,本文采用分辨率為256×256×3的語(yǔ)譜圖進(jìn)行研究.圖2為健康人和PD患者發(fā)出元音/a/時(shí)的窄帶語(yǔ)譜圖.健康人的語(yǔ)譜圖其諧波的變化范圍為(0,16000),基頻區(qū)域紋理清晰,中高頻區(qū)域噪聲極少且諧波紋理規(guī)則.PD患者的語(yǔ)譜圖其諧波變化范圍為(0,6000),語(yǔ)音能量主要在基頻附近和中低頻區(qū),高于2000Hz左右的高頻區(qū)域諧波紋理分布不連續(xù),出現(xiàn)斷裂和消失,共振峰不完整,高于6000Hz的諧波基本消失.相比傳統(tǒng)的時(shí)域序列或頻譜特性,PD對(duì)聲音系統(tǒng)造成的損傷更好的呈現(xiàn)在語(yǔ)譜圖上.兩者的明顯區(qū)別在于諧波的范圍,中高頻區(qū)諧波分布是否連續(xù)有規(guī)則,共振峰是否完整,噪聲是否增多.
圖2 健康人和PD患者發(fā)出元音/a/時(shí)的語(yǔ)譜圖Fig.2 Spectrogram of healthy people and PD patients who are pronouncing the vowel /a/
綜上,語(yǔ)譜圖表現(xiàn)的不同特征信息對(duì)于PD患者和健康人有較好的區(qū)分度.另外,通過處理語(yǔ)譜圖間接地處理語(yǔ)音信號(hào),能夠利用GAN強(qiáng)大的圖像生成能力,并且避免GAN直接處理連續(xù)語(yǔ)音信號(hào)的復(fù)雜性難題.同時(shí)利用語(yǔ)譜圖聯(lián)合時(shí)頻分析方法,以提取到時(shí)域和頻域的聲紋特征,比傳統(tǒng)的MFCC、HFCC保留更多有用信息,保證較高分類精度.利用GAN擅長(zhǎng)生成更注重紋理而沒有結(jié)構(gòu)限制的圖像類別的優(yōu)勢(shì)[21],所以能更好的捕捉語(yǔ)譜圖的紋理特征.
2.2.1 GAN原理
GAN由生成器G和判別器D構(gòu)成,根據(jù)對(duì)抗思想采用極大極小策略無(wú)監(jiān)督的生成新圖像.生成器的目的是輸入服從概率分布Pz(均勻分布或高斯分布)中采樣的隨機(jī)噪聲矢量z,不斷學(xué)習(xí)真實(shí)訓(xùn)練樣本x的分布,輸出近似于真實(shí)樣本潛在分布的假樣本G(z).判別器的實(shí)質(zhì)是分類器,輸入G(z)或x,計(jì)算輸入屬于Pdata的概率,判斷輸入來自真實(shí)樣本Pdata還是假樣本G(z).兩者對(duì)抗訓(xùn)練并交替更新D和G的參數(shù),最大化D區(qū)分度的同時(shí)最小化G(z)和Pdata之間的數(shù)據(jù)分布誤差,最終達(dá)到納什均衡.當(dāng)D無(wú)法正確估計(jì)出輸入是來自于G(z)還是Pdata時(shí),G能夠擬合真實(shí)樣本的分布.GAN的損失函數(shù)[16]如下:
(4)
由于GAN在訓(xùn)練時(shí)不穩(wěn)定,因此本文采用DCGAN模型.它具有特定的架構(gòu)約束并且D和G均采用CNN結(jié)構(gòu),適用于圖像處理任務(wù).DCGAN能夠無(wú)監(jiān)督的學(xué)習(xí)表征,用于有監(jiān)督學(xué)習(xí)[17].最初的DCGAN模型用于生成分辨率為64×64的圖像,隨后在分辨率為28×28的MNIST數(shù)據(jù)集以及分辨率為32×32的CIFAR-10數(shù)據(jù)集上能夠生成高質(zhì)量的樣本.目前,DCGAN依據(jù)其結(jié)構(gòu)優(yōu)勢(shì)能夠?yàn)閺V泛的數(shù)據(jù)集提供相對(duì)穩(wěn)定的訓(xùn)練.本文構(gòu)建更深的DCGAN網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合特征匹配方法,提出HR-DCGAN模型,以構(gòu)建更深入的生成模型,提高模型在生成高分辨率的語(yǔ)譜圖圖像時(shí)的生成能力和穩(wěn)定性.
2.2.2 HR-DCGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)
HR-DCGAN模型中G和D的架構(gòu)設(shè)計(jì)是基于DCGAN模型結(jié)構(gòu)以適應(yīng)分辨率為256×256×3的語(yǔ)譜圖.通過增加G的網(wǎng)絡(luò)層數(shù),逐層增加生成圖像的尺寸,其變化過程為4×4→8×8→16×16→32×32→64×64→128×128→256×256,最終生成高分辨率的語(yǔ)譜圖.D網(wǎng)絡(luò)根據(jù)輸入圖像的大小,增加網(wǎng)絡(luò)層數(shù)以適應(yīng)解卷積過程中高分辨率圖像的逐層下采樣,其特征圖的變化過程為256×256→128×128→64×64→32×32→16×16→8×8→4×4.為提高模型生成高分辨率圖像時(shí)的穩(wěn)定性,本文引入特征匹配方法.特征匹配指生成器產(chǎn)生的“偽”樣本與真實(shí)樣本通過判別器卷積層時(shí)輸出的特征圖盡可能相同[22].添加到生成樣本的過程中,阻止D過度訓(xùn)練的同時(shí),促進(jìn)G捕捉語(yǔ)譜特征圖中的紋理信息,生成與真實(shí)樣本的統(tǒng)計(jì)數(shù)據(jù)近似的“偽”樣本.
設(shè)f(x)為判別器網(wǎng)絡(luò)中間層輸出的特征圖,最小化G和D特征圖之間的誤差,目標(biāo)函數(shù)為:
min(w)=‖Ex~pdataf(x)-Ez~pzf(G(z))‖2
(5)
D的損失函數(shù)不變,按預(yù)設(shè)的方式最大化判別網(wǎng)絡(luò)輸出.G的損失函數(shù)變?yōu)橛?xùn)練時(shí)生成“偽”樣本的誤差和特征匹配過程的誤差,公式如下:
(6)
HR-DCGAN中的G和D的網(wǎng)絡(luò)模型圖如圖3所示.本文采用偽彩色語(yǔ)譜圖,所以G的輸出和D的輸入為三通道.另外,G和D在第一個(gè)卷積層的維度設(shè)置為64,在第一個(gè)全連接層的維度設(shè)置為2048.
圖3 HR-DCGAN的網(wǎng)絡(luò)架構(gòu)Fig.3 Network architecture of HR-DCGAN
如圖3所示,G包含7層網(wǎng)絡(luò),將服從高斯分布的100維向量作為噪聲z輸入,用上采樣到4×4空間范圍的卷積表示,其具有2048個(gè)特征圖,產(chǎn)生4×4×2048張量.h0~h5層為微步幅卷積層,包括5×5的卷積核大小,步幅為2,G的學(xué)習(xí)過程即進(jìn)行空間上采樣.經(jīng)批量標(biāo)準(zhǔn)化(Batch Normalization,BN)后[17],每個(gè)隱層的單元都通過歸一化為零均值和單位方差,以此來穩(wěn)定學(xué)習(xí)過程,解決了因初始化不良導(dǎo)致的生成模型崩潰問題,使梯度能更深層次傳播.然后采用Relu激活函數(shù)進(jìn)行激活.每經(jīng)過一個(gè)微步幅卷積層,生成的特征圖的尺寸加倍,數(shù)量減半.h6層為tanh函數(shù)激活,最終輸出256×256×3的語(yǔ)譜圖圖像,并作為D的“偽”數(shù)據(jù)的輸入.
D包含7層網(wǎng)絡(luò),h0~h5為卷積層,采用5×5卷積核,步幅為2.所有層均有BN層和leakey Relu激活函數(shù)的非線性映射,D的輸入層除外.卷積層對(duì)輸入的語(yǔ)譜圖進(jìn)行特征提取,每經(jīng)過一個(gè)卷積層進(jìn)行下采樣,特征圖的尺寸減少一半,數(shù)目加倍.h6層利用Sigmoid激活函數(shù)判別真實(shí)樣本和生成的“偽”樣本,其輸出表示輸入圖像是來自真實(shí)樣本的概率.
本文的HR-DCGAN模型中G和D的網(wǎng)絡(luò)層數(shù)加深,并添加了特征匹配項(xiàng)的約束.分別將不同類別的原始語(yǔ)譜圖輸入到HR-DCGAN模型,以適應(yīng)其無(wú)監(jiān)督式的訓(xùn)練過程,生成具有相似紋理特征的高分辨率樣本擴(kuò)充原始數(shù)據(jù)集.
2.2.3 分類器設(shè)計(jì)
PD患者的聲紋識(shí)別過程包括聲紋特征提取和分類,本文直接將原始語(yǔ)譜圖樣本和經(jīng)樣本擴(kuò)充后的訓(xùn)練樣本分別添加類別標(biāo)簽后輸入到VGG16中,自動(dòng)提取聲紋特征并分類.本文采用的VGG16模型由3×3的卷積核和2×2的最大池化層構(gòu)成,共13個(gè)卷積層和3個(gè)全連接層[23].相比8層的Alexnet網(wǎng)絡(luò),其采用較小的卷積核,堆疊多層卷積層增加了網(wǎng)絡(luò)深度,以提取更深層次的聲紋特征,增強(qiáng)網(wǎng)絡(luò)的擬合能力.本文采用遷移學(xué)習(xí)的思想,利用基于ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的VGG16模型參數(shù),保留前13層并釋放后3層的權(quán)重,微調(diào)后進(jìn)行特征提取和分類.本文的VGG16模型圖如圖4所示.
圖4 VGG16模型結(jié)構(gòu)圖Fig.4 Structure of VGG16 model
為適應(yīng)VGG16輸入層的要求,采用python的pillow庫(kù)中crop操作,設(shè)定固定的裁剪區(qū)域?qū)?56×256分辨率的語(yǔ)譜圖統(tǒng)一裁剪為224×224,再輸入到卷積層.具體方法如下:
已知pillow坐標(biāo)系統(tǒng)的原點(diǎn)(0,0)位于圖像的左上角,坐標(biāo)中數(shù)字的單位為像素點(diǎn).裁剪區(qū)域表示為(xmin,ymin,xmax,ymax),其中(xmin,ymin)為圖像左上角的橫縱坐標(biāo),(xmax,ymax)為圖像右下角的橫縱坐標(biāo).由于語(yǔ)譜圖的基音頻率、諧波等紋理信息都集中在中低頻區(qū)即語(yǔ)譜圖的中下部和底部區(qū)域,高頻區(qū)域含有的有用信息較少,所以本文將裁剪區(qū)域設(shè)為(32,32,256,256).裁減掉位于語(yǔ)譜圖頂端和左側(cè)邊緣區(qū)域的影響較小或無(wú)用的信息,保留語(yǔ)譜圖底部區(qū)域有效特征信息,使裁剪后的語(yǔ)譜圖最大化保留聲紋特征信息,便于輸入到網(wǎng)絡(luò)的同時(shí),也能對(duì)網(wǎng)絡(luò)性能和輸出準(zhǔn)確率影響較小.
由于本研究進(jìn)行二分類,修改VGG16的Fc7層的輸出神經(jīng)元個(gè)數(shù)為1024個(gè)和Fc8層的輸出神經(jīng)元個(gè)數(shù)為2個(gè).由于訓(xùn)練的特征數(shù)量非常大,容易使訓(xùn)練出的模型過擬合.本文在最后一個(gè)池化層和Fc7全連接層后加入Dropout層[18],并將Dropout率設(shè)為0.5,改變網(wǎng)絡(luò)架構(gòu)以抑制過擬合問題.通過模型訓(xùn)練對(duì)前13層的權(quán)重進(jìn)行微調(diào),更新全連接層的權(quán)重,實(shí)現(xiàn)對(duì)語(yǔ)譜圖的分類識(shí)別.
采用訓(xùn)練的VGG16模型預(yù)測(cè)測(cè)試集的標(biāo)簽,根據(jù)準(zhǔn)確度(Accuracy,ACC),特異性(Specificity,SPE)和靈敏度(Sensitivity,SEN)指標(biāo)[11],評(píng)估分類器的分類結(jié)果,從而評(píng)估所提出的算法的性能.通過HR-DCGAN樣本擴(kuò)充后,再利用VGG16分類識(shí)別的網(wǎng)絡(luò)模型稱作HR-DCGAN-VGG16混合模型.
評(píng)估GAN生成的圖像的質(zhì)量是一項(xiàng)復(fù)雜的工作,且通過主觀視覺評(píng)估和選取樣本的方法實(shí)踐困難、說服力差.本文將結(jié)構(gòu)相似度(Structural Similarity Index,SSIM)指標(biāo)作為生成的語(yǔ)譜圖樣本的選取標(biāo)準(zhǔn),以判斷是否用于擴(kuò)充訓(xùn)練樣本.
SSIM公式[24]如下:
(7)
其中,μx,μg,σx,σg分別為真實(shí)圖像x和生成圖像g的像素值的均值和方差,σxg為x和g的協(xié)方差.c1=(k1*L)2,c2=(k2*L)2是用于維持穩(wěn)定的常數(shù),L=255是圖像像素值的最大值,k1=0.01,k2=0.03.
SSIM的值域?yàn)閇0,1],其值的大小與兩個(gè)圖像在像素級(jí)別的相似度成正比.由于語(yǔ)譜圖圖像的像素間存在很強(qiáng)的相關(guān)性,這些相關(guān)性攜帶著與語(yǔ)音信號(hào)的能量以及共振峰、諧波等聲紋特征相關(guān)的重要信息.因此,SSIM指標(biāo)能夠表示生成圖像和真實(shí)圖像的相似度.為選取高相似度的語(yǔ)譜圖樣本,本文設(shè)置SSIM的閾值為0.85,通過計(jì)算生成的語(yǔ)譜圖和原始語(yǔ)譜圖樣本之間的SSIM,當(dāng)SSIM指標(biāo)的值大于或等于閾值時(shí),可用作樣本擴(kuò)充,否則不用作樣本擴(kuò)充.
實(shí)驗(yàn)環(huán)境配置如下,64 bit Windows10操作系統(tǒng),CPU為Intel(R)Core(TM)i7-7800X 3.50GHz,內(nèi)存16GB,GPU為NVIDIA GeForce GTX 1080 Ti,顯存為11GB,CUDA 9.0和cuDNN 7.0加速包支持.軟件要求:Python3.6.6,Tensorflow1.10.0框架,Matlab2016a.
本文采用UCI數(shù)據(jù)集,由Sakar等人收集[8],訓(xùn)練集包括20名PD患者(6名女性和14名男性)和20名健康人(10名女性和10名男性)發(fā)出/a/,/o/和/u/三種元音的語(yǔ)音信號(hào),共120個(gè)語(yǔ)音樣本.PD患者的診斷時(shí)間介于0至6年之間,年齡在43歲至77歲之間.健康人的年齡在45歲至83歲之間.測(cè)試集包括28名PD患者發(fā)出/a/,/o/兩種語(yǔ)音信號(hào),共56個(gè)語(yǔ)音樣本.患者的診斷時(shí)間介于0至13年之間,年齡在39至79歲之間.錄音設(shè)備為 Trust MC-1500 麥克風(fēng).參與者的每個(gè)/a/,/o/和/u/語(yǔ)音樣本中包含3次連續(xù)的發(fā)音,每次發(fā)音過程持續(xù)6s的時(shí)間.所有的語(yǔ)音記錄都為立體聲模式和wav格式.
數(shù)據(jù)集共計(jì)176個(gè)語(yǔ)音信號(hào).分別將每次發(fā)音分割成時(shí)間為2s的語(yǔ)音片段,所以一個(gè)wav格式的語(yǔ)音文件可以分割為3個(gè)2s的語(yǔ)音片段,包括原始語(yǔ)音片段,可以將數(shù)據(jù)集初步擴(kuò)大四倍.再對(duì)每個(gè)語(yǔ)音片段利用Matlab2016a進(jìn)行語(yǔ)音信號(hào)預(yù)處理后分別生成256×256×3分辨率的JPEG格式的語(yǔ)譜圖.已知語(yǔ)音信號(hào)的采樣頻率為44.1kHz,本文將NFFT點(diǎn)數(shù)設(shè)為2048,幀長(zhǎng)為46.44ms,幀移為幀長(zhǎng)的1/4,幀重疊部分取為幀長(zhǎng)的3/4,此時(shí)生成的語(yǔ)譜圖諧波紋理清晰且聲紋特征明顯,參數(shù)設(shè)置如表1所示.
表1 語(yǔ)音信號(hào)轉(zhuǎn)換為語(yǔ)譜圖的參數(shù)設(shè)置數(shù)據(jù)表
Table 1 Parameter settings data table for extracting speech signals into spectrogram
參 數(shù)值窄帶語(yǔ)譜圖幀長(zhǎng)46.44msNFFT點(diǎn)數(shù)2048傅里葉變換窗長(zhǎng)度2048overlap長(zhǎng)度1536幀移11.61ms幀重疊34.83ms頻率范圍[0,10000Hz]
原始數(shù)據(jù)集共704張語(yǔ)譜圖,并添加one_hot編碼格式的類別標(biāo)簽.健康人和PD患者的語(yǔ)譜圖對(duì)應(yīng)的標(biāo)簽分別為“01”,“10”.
3.3.1 HR-DCGAN模型的訓(xùn)練
分別用PD患者的語(yǔ)譜圖樣本和健康人的語(yǔ)譜圖樣本訓(xùn)練HR-DCGAN模型.均值為零,標(biāo)準(zhǔn)差為0.02的高斯分布作為G的輸入并初始化網(wǎng)絡(luò)權(quán)重,本文采用批量隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)訓(xùn)練,Batch size設(shè)置為16,Leaky Relu的斜率為0.2,用Adam優(yōu)化器調(diào)節(jié)超參數(shù),learning rate為0.0002,momentum termβ1設(shè)置為0.5時(shí)可以穩(wěn)定訓(xùn)練.D訓(xùn)練兩次,G訓(xùn)練一次,Epoch數(shù)目設(shè)置為600.每隔10個(gè)Epoch輸出一次SSIM的平均值,作為選取擴(kuò)充樣本的標(biāo)準(zhǔn).
3.3.2 VGG16模型的訓(xùn)練
本文首先按7∶3的比例將704張帶標(biāo)簽的語(yǔ)譜圖劃分為訓(xùn)練集和測(cè)試集,Batch_size設(shè)置為16,迭代次數(shù)為1000,微調(diào)添加Dropout層的預(yù)訓(xùn)練模型VGG16以實(shí)現(xiàn)自動(dòng)特征提取和分類.將選取SSIM值大于等于0.85的生成語(yǔ)譜圖并添加標(biāo)簽,用于擴(kuò)充訓(xùn)練樣本.根據(jù)SSIM值首先取第110,150,200,220,240,300,320,350,400,450 Epoch下的生成語(yǔ)譜圖將數(shù)據(jù)集擴(kuò)大10倍后,按照7∶3劃分訓(xùn)練集和測(cè)試集,統(tǒng)一裁剪后輸入到VGG16模型進(jìn)行識(shí)別和分類.
根據(jù)不同Epoch下的SSIM值,選取高相似度的生成語(yǔ)譜圖,將數(shù)據(jù)集擴(kuò)大不同的倍數(shù)分組訓(xùn)練VGG16模型,對(duì)比不同樣本擴(kuò)充系數(shù)對(duì)PD識(shí)別結(jié)果的影響.樣本擴(kuò)充系數(shù)在1~30倍之間,并比較分類結(jié)果.
首先,本文可視化了HR-DCGAN模型訓(xùn)練的結(jié)果.對(duì)PD患者和健康人的語(yǔ)譜圖訓(xùn)練過程中g(shù)_loss,d_loss前期出現(xiàn)震蕩,最終分別穩(wěn)定收斂到1.08027147和1.38497926,1.00317682和1.29376531.隨機(jī)取不同Epoch下的生成圖像,部分生成結(jié)果如圖5、圖6.其中(a)~(h)表示HR-DCGAN模型訓(xùn)練時(shí)Epoch的數(shù)字順序.
圖5 不同Epoch下生成的PD患者的語(yǔ)譜圖Fig.5 Generated PD patients′ spectrogram after different epochs
由圖5和圖6可以看出,第 0 Epoch時(shí),生成的全是噪聲點(diǎn)和語(yǔ)譜圖的色彩輪廓;第50 Epoch 生成基音頻率和共振峰位置明顯但紋理模糊的圖像;第100 Epoch 時(shí),基音頻率和共振峰較清晰;第200 Epoch時(shí),語(yǔ)譜圖的諧波紋理清晰,基頻和中高頻噪聲平滑;第300、400 Epoch時(shí),可看出共振峰是否完整和各次諧波的分布,紋理更加清晰;第500、599 Epoch時(shí),共振峰突出,諧波紋理較清晰.由不同Epoch下的語(yǔ)譜圖可以看出模型收斂速度較快,肉眼可見生成的語(yǔ)譜圖質(zhì)量穩(wěn)定提高.
然后根據(jù)SSIM的閾值選取高相似度的生成語(yǔ)譜圖添加標(biāo)簽后用于擴(kuò)充樣本,由于訓(xùn)練前期網(wǎng)絡(luò)的生成效果不好,所以前100 Epoch的生成圖像不予考慮.100 Epoch后,PD患者和健康人的生成語(yǔ)譜圖和原始語(yǔ)譜圖計(jì)算得到的SSIM值范圍為0.7835~0.9374,由于訓(xùn)練前期訓(xùn)練不收斂以及語(yǔ)譜圖中共振峰和諧波等聲紋特征的位置、范圍和結(jié)構(gòu)的多樣變化,以及噪聲的平滑化引起像素值的變化,導(dǎo)致SSIM值不穩(wěn)定.隨著網(wǎng)絡(luò)逐漸穩(wěn)定,SSIM值大多數(shù)處于0.85~0.90之間,表明HR-DCGAN生成的語(yǔ)譜圖樣本在紋理、顏色、色彩對(duì)比度等方面和真實(shí)樣本相似.并且模型的測(cè)試結(jié)果顯示紋理清晰且聲紋特征明顯的分辨率為256×256×3的語(yǔ)譜圖.因此通過對(duì)抗學(xué)習(xí)和特征匹配不斷提高特征的質(zhì)量,能夠較好的保留語(yǔ)譜圖中的聲紋特征,訓(xùn)練和測(cè)試結(jié)果表明HR-DCGAN模型在生成高分辨率語(yǔ)譜圖的穩(wěn)定性.
圖6 不同Epoch下生成的健康人的語(yǔ)譜圖Fig.6 Generated healthy people′s spectrogram after different epochs
在分類訓(xùn)練和測(cè)試階段,在相同數(shù)據(jù)集下,分別將VGG16網(wǎng)絡(luò)直接處理語(yǔ)譜圖提取聲紋的特征提取方式與MFCC[10]、HFCC[11]對(duì)比,并與KNN、SVM、ANN[13]、Alexnet[14]分類器比較,最后進(jìn)行有無(wú)樣本擴(kuò)充的對(duì)比;針對(duì)VGG16模型討論不同樣本擴(kuò)充系數(shù)的對(duì)比.
當(dāng)沒有樣本擴(kuò)充時(shí),傳統(tǒng)的HFCC特征提取方法結(jié)合SVM分類器優(yōu)于采用神經(jīng)網(wǎng)絡(luò)的分類方法,表明傳統(tǒng)機(jī)器學(xué)習(xí)方法在小樣本下的適用性,但分類性能取決于特征選擇和分類器選擇,而提取特征時(shí)倒譜系數(shù)的選擇、分類器核函數(shù)或聚類中心k的確定過程復(fù)雜.而語(yǔ)譜圖作為圖像可直接被神經(jīng)網(wǎng)絡(luò)處理,同時(shí)提取到時(shí)頻域的聲紋特征并實(shí)現(xiàn)分類.由于初始樣本有限且VGG16網(wǎng)絡(luò)需要大量訓(xùn)練樣本驅(qū)動(dòng),Dropout層在一定程度上抑制過擬合,僅達(dá)到77.5%的準(zhǔn)確率,其低于利用ANN和Alexnet分類的識(shí)別準(zhǔn)確率.樣本擴(kuò)充后,VGG16網(wǎng)絡(luò)中的Dropout層達(dá)到一定的正則化效果,加快CNN的收斂速度,且精度較高,準(zhǔn)確率增加到90.5%.因此本文的HR-DCGAN模型通過擴(kuò)展訓(xùn)練樣本的數(shù)量,加強(qiáng)了分類器的訓(xùn)練,進(jìn)一步提高了模型泛化性能.通過與其他特征提取方式和分類方法對(duì)比,對(duì)有無(wú)樣本擴(kuò)充的語(yǔ)譜圖分類發(fā)現(xiàn),
表2 有無(wú)樣本擴(kuò)充的模型分類結(jié)果
Table 2 Model classification results with or
without sample augmentation
特征提取分類器ACCSENSPEMFCCMLP核SVM82.5%80%85%HFCCLIN核SVM87.5%9085HFCCKNN(k=5)73.75%75%72.5% ANN86.47%88.91%84.02% Alexnet86.67%90%83.34% VGG1677.5%80%75% HR-DCGAN-VGG1690.5%91%90%
HR-DCGAN生成的高分辨率語(yǔ)譜圖圖像進(jìn)行樣本擴(kuò)充的有效性,VGG16自動(dòng)提取語(yǔ)譜圖的聲紋特征的能力和分類性能在大量數(shù)據(jù)驅(qū)動(dòng)情況下的優(yōu)越性.不同模型分類性能對(duì)比以及有無(wú)樣本擴(kuò)充的分類器性能對(duì)比,如表2所示.HR-DCGAN-VGG16模型在不同樣本擴(kuò)充系數(shù)下進(jìn)行訓(xùn)練和測(cè)試,對(duì)語(yǔ)譜圖的分類識(shí)別準(zhǔn)確率對(duì)比如圖7所示.樣本擴(kuò)充系數(shù)為0~10倍時(shí),隨著訓(xùn)練樣本的增加以及Dropout層的使用,逐步解決VGG16深層網(wǎng)絡(luò)的過擬合問題,對(duì)PD患者和健康人的語(yǔ)譜圖的分類結(jié)果得到顯著改善.當(dāng)擴(kuò)充系數(shù)為10時(shí),達(dá)到最高的識(shí)別準(zhǔn)確率90.5%.繼續(xù)增加訓(xùn)練集樣本,當(dāng)擴(kuò)充系數(shù)為10~30倍時(shí),識(shí)別準(zhǔn)確率不再繼續(xù)增加,達(dá)到飽和度約90.5%.由于有限樣本中語(yǔ)譜圖的特征有限,再添加更多的生成樣本未能繼續(xù)改善分類效果.
圖7 HR-DCGAN-VGG16模型在不同樣本擴(kuò)充系數(shù)下的識(shí)別率的分布Fig.7 Distribution of recognition rate with HR-DCGAN-VGG16 model under different sample augmentation factors
實(shí)驗(yàn)結(jié)果表明,HR-DCGAN-VGG16混合模型能夠?qū)D患者和健康人的語(yǔ)譜圖實(shí)現(xiàn)樣本擴(kuò)充、特征提取和分類,獲得最佳識(shí)別準(zhǔn)確率為90.5%,其優(yōu)于無(wú)樣本擴(kuò)充的ANN、Alexnet和其他傳統(tǒng)的機(jī)器學(xué)習(xí)方法.所以在小樣本情況下,一方面可以通過HR-DCGAN模型的對(duì)抗學(xué)習(xí)策略和特征匹配方法,提取語(yǔ)譜圖紋理特征并生成高分辨率圖像,結(jié)合SSIM標(biāo)準(zhǔn)作為一種樣本擴(kuò)充的方式,彌補(bǔ)采用深度學(xué)習(xí)方法進(jìn)行PD患者識(shí)別診斷時(shí)音頻樣本的不足;另一方面,原始數(shù)據(jù)集進(jìn)行特定倍數(shù)的樣本擴(kuò)充后,輸入到深層的CNN如VGG16模型中提取特征并分類,有效防止過擬合的同時(shí)也能夠提高分類精度和帕金森的識(shí)別率.
PD患者和健康人的語(yǔ)譜圖具有顯著性差異,對(duì)其采用聯(lián)合時(shí)頻分析方法解決了傳統(tǒng)的特征提取方式參數(shù)選擇復(fù)雜以及特征缺失和冗余問題.HR-DCGAN模型能生成高分辨率的語(yǔ)譜圖樣本且訓(xùn)練過程穩(wěn)定,通過設(shè)置SSIM閾值保證了樣本擴(kuò)充的有效性.Dropout層優(yōu)化VGG16模型改善過擬合的同時(shí)提高了網(wǎng)絡(luò)收斂速度和泛化性能.實(shí)驗(yàn)結(jié)果表明,在小樣本下,本文提出的HR-DCGAN-VGG16混合模型得到最佳的分類識(shí)別準(zhǔn)確率,說明了PD數(shù)據(jù)集采用GAN進(jìn)行樣本擴(kuò)充的可行性和有效性.此方法可有效改善小樣本下聲紋識(shí)別率低的問題,提高了帕金森篩查率.未來的工作將繼續(xù)深入研究不同的樣本擴(kuò)充方法并改進(jìn)分類識(shí)別方法,專注于改善在小樣本下對(duì)帕金森病的識(shí)別準(zhǔn)確率.