張若凡 黃俊 古來
摘要:針對老年人的語音情感識別問題,提出一種基于語譜圖的老年人語音情感識別方法。首先采用一種改進的基于先驗信噪比的維納濾波算法,針對老人語音情感庫EESDB進行語音增強,選取合適的語音情感庫,對語音進行語譜圖特征提取與規(guī)范化,然后分析卷積神經(jīng)網(wǎng)絡(luò)(CNN)的結(jié)構(gòu)并選定Cifar10網(wǎng)絡(luò)對語譜圖進行分類,最后采用3種方案進行對比實驗。實驗結(jié)果取得了較高的情感識別率,表明了該方法的有效性和可行性。
關(guān)鍵詞:老年人語音情感識別;語譜圖;維納濾波;卷積神經(jīng)網(wǎng)絡(luò)
DOIDOI:10.11907/rjdk.181094
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2018)009002804
英文標題Speech Emotion Recognition for the Elderly Based on Spectrogram and CNNs
--副標題
英文作者ZHANG Ruofan,HUANG Jun,GU Lai,XU Ermin,GU Zhixing
英文作者單位(School of Telecommunications and Information Engineering,Chongqing University of Posts and Telecommunication,Chongqing 400065,China)
英文摘要Abstract:To solve the problem of speech emotion recognition for the old people,a method of speech emotion recognition based on spectrogram is proposed.Firstly,the method used an improved Wiener filtering speech enhancement algorithm based on the prior SNR to remove the background noise and enhance the EESDB emotional database,merging the old emotional database EESDB and the Chinese emotional voice database together and extracting the spectrogram feature and standardizing the spectrogram.Then the convolutional neutral network was analyzed and the cifar10 iss chosen for the classification of spectrogram.Finally,the performance of this method was accessed by computer simulations and a higher recognition rates was achieved.The results show that the proposed method in this paper is effective.
英文關(guān)鍵詞Key Words:speech emotion recognition for the old people;spectrogram;Wiener filter ;convolutional neutral networks(CNNs)
0引言
情感識別一直是情感計算領(lǐng)域的關(guān)注熱點,主要通過計算機對用戶的生理信號進行分析與處理,得出用戶的情感狀態(tài)。語音作為人類交流最重要的方式之一,不僅能傳達豐富的信息,還攜帶了說話者大量情感因素。因此,如何讓計算機自動從語音中識別出說話者的情感狀態(tài)一直是情感識別領(lǐng)域的研究重點[13]。隨著我國人口老齡化的加劇,老年人的養(yǎng)老問題日益突出。語言表達是反映老人精神狀態(tài)好壞的一個重要方面,關(guān)注老人的精神生活狀態(tài),首先要關(guān)注老年人的語音情感狀態(tài)。
尋找智能、高效的老年人語音情感識別方法(Speech Emotion Recognition System)是智慧養(yǎng)老的關(guān)鍵問題之一[4]。國內(nèi)外針對語音情感識別的研究已有20多年歷史[5]。20世紀80年代后期,麻省理工大學(xué)情感計算研究人員借助采樣識別人類情感,并讓機器對不同情感作出響應(yīng)[6]。2000年,美國Picard等[7]證明了聲學(xué)特征參數(shù)與情感的關(guān)聯(lián);2004年,我國東南大學(xué)趙力[8]首先針對語音中包含的情感信息進行研究,采用GMM(高斯混合模型)識別方法對4種情感進行識別,識別率最高可達95%;2009年,慕尼黑工業(yè)大學(xué)Schuller等針對情感識別框架提出了許多構(gòu)想。
本文在已有方法的基礎(chǔ)上,針對老年人的語音進行情感識別。該方法流程主要包括語音樣本預(yù)處理、情感特征提取、情感識別3部分[9]。語音樣本預(yù)處理以選取的數(shù)據(jù)集作為基本輸入,通過語音增強、數(shù)據(jù)集融合獲得去噪后的純凈數(shù)據(jù)集;情感特征提取通過分幀、加窗、FFT獲得語譜圖圖像特征;情感識別則采用目前使用較廣的卷積神經(jīng)網(wǎng)絡(luò)對情感信息進行分類識別。
1語音情感識別方法整體流程
本方法的整體思路是對選取的數(shù)據(jù)集進行預(yù)處理[10],在此基礎(chǔ)上通過變換得出語譜圖圖像特征,最后將規(guī)范化的語譜圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,配合分類器進行情感識別與分類,如圖1所示。
2語音情感數(shù)據(jù)庫準備
本文首先選取老人語音情感庫EESDB[11],EESDB是針對老年人建立的情感語料庫??紤]到捕捉自然情感的老人語音庫較少,該語料庫取自反映老人生活的電視劇《老人的故事》。首先從電視劇中截取包含情感的語音數(shù)據(jù),志愿者再對其進行情感標定。共截取語音992條,采樣率為44kHz,并進行16bit量化,情感類型包括高興、傷心、中性、生氣、害怕和驚奇6種。
本文同時選取中國科學(xué)院自動化所漢語情感語料庫CASIA[12]作為語音情感數(shù)據(jù)庫的補充。CASIA漢語情感語料庫由中科院自動化所制作,由4個專業(yè)發(fā)音人(2男2女)對500條語句進行錄制,情感類型也包括高興、傷心、中性、生氣、害怕和驚奇6種。CASIA語料庫以16kHz采樣,并進行16bit量化,經(jīng)過篩選,最終保留9 600句。表1為不同語料庫對比。
3語音樣本預(yù)處理
語音樣本預(yù)處理是訓(xùn)練識別前的準備工作,包括針對EESDB語料庫的語音增強和語料庫融合,如圖2所示。
CASIA是由專業(yè)錄音人員在無背景噪聲的理想實驗室錄制,而EESDB則取自于電視劇,來源于真實環(huán)境,因此存在背景噪聲。不同的語音情感數(shù)據(jù)庫在錄制過程中,聲學(xué)條件會因為混響、背景噪音以及所使用錄制設(shè)備的聲學(xué)屬性而產(chǎn)生變化,進而導(dǎo)致在語音情感識別系統(tǒng)中提取的情感特征失準。目前的語音情感識別大多是在理想實驗室條件下進行,因此提取的特征和識別得到的結(jié)果都是在單個純凈的語料庫上得到的。針對EESDB存在背景噪聲的情況,采用一種改進的基于先驗信噪比的維納濾波算法對語音進行去噪。
4情感特征提取
情感特征提取算法步驟為:①對語料庫進行分幀、加窗、傅里葉變換(FFT,F(xiàn)ast Fourier Transform)生成語譜圖[13];②對語譜圖進行尺度一致化調(diào)整為256*256的RGB圖;③將語譜圖轉(zhuǎn)換為LMDB格式;④求語譜圖均值。情感特征提取算法流程如圖3所示。
4.1分幀
語音信號在一個很短的時間段內(nèi)可看作穩(wěn)定狀態(tài)。通常將語音信號進行分幀[14],每一幀長度是20ms~30ms,在該時間段內(nèi),語音信號可視作穩(wěn)定狀態(tài)。
4.2加窗
分幀之后原本的語音信號變?yōu)榱擞邢扌盘?,在調(diào)用傅里葉變換函數(shù)時將導(dǎo)致高頻部分泄露,因此可通過加窗處理降低泄露[15]。信號加窗使用最多的窗函數(shù)有矩形窗與漢明窗。
矩形窗:
w(n)=1,0≤n≤(N-1)0,其他(1)
漢明窗:
w(n,α)=1-α-αcos(2πnN-1)0,其他(2)
其中α是系數(shù),取值一般為0.46。
4.3語譜圖特征提取
語譜圖(Spectrogram)是可以反映語音頻譜隨時間變化的二維可視平面圖。語譜圖中包含了大量有用信息,如語音基頻、清音、爆破音等,因而被廣泛應(yīng)用于語音研究中。語譜圖的橫坐標表示時間,縱坐標表示頻率。每個像素的灰度值表示某時刻對應(yīng)頻率的信號能量密度,信號能量密度強弱用相應(yīng)點灰度或顏色深淺表示[16]。通過對語音樣本進行分幀加窗、快速傅里葉變換(FFT,F(xiàn)ast Fourier Transform)得出語譜圖,樣本語譜圖如圖4所示。
5CNN訓(xùn)練識別
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),由于該網(wǎng)絡(luò)不需要對圖像進行復(fù)雜的前期預(yù)處理,近年來被廣泛應(yīng)用于模式識別領(lǐng)域,尤其是人臉檢測、語音監(jiān)測、文字識別等領(lǐng)域[17]。不同于大多數(shù)采用全連接的深度神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采用部分連接的網(wǎng)絡(luò)模型,極大地提高了學(xué)習(xí)效率。
典型的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)包括卷積層、降采樣層和全連接層,如圖5所示[18]。卷積層直接對輸入樣本(如語譜圖)進行卷積操作。卷積核大小可自主設(shè)置,通過不同卷積核進行卷積后,在每一層產(chǎn)生特征映射圖,特征映射圖中每組像素再進行求和、加權(quán)及加偏置操作。卷積核之間共享相同的權(quán)重矩陣和偏置項。
非線性降采樣層也稱為池化層,在卷積層之后,對卷積層輸出進行空間和特征類型壓縮,減少參數(shù)與計算量。實踐證明,池化不僅可以降低輸入特征維數(shù),還可以改善結(jié)果。其具體操作與卷積層操作基本相同,區(qū)別在于降采樣層的卷積核只取對應(yīng)位置的最大值(最大池化,Max Pooling)或平均值(平均池化,Mean Pooling)等。全連接層是指輸入的每個神經(jīng)元與本層的每個神經(jīng)元相連,即連接所有特征,再將輸出值直接輸送給Softmax分類器。
6實驗與分析
實驗環(huán)境采用Ubuntu系統(tǒng),8G內(nèi)存,軟件為Matlab 2012b,并采用Caffe框架[19]。語音樣本選取中科院自動化所CASIA漢語情感數(shù)據(jù)庫與EESDB老人語音情感庫的數(shù)據(jù)。實驗隨機選取EESDB中相同發(fā)音的40句共800條語音,CASIA相同發(fā)音的50句共1 200條語音作為實驗數(shù)據(jù),總共2 000條語音,其中1 200條為訓(xùn)練數(shù)據(jù),800條為驗證數(shù)據(jù)。
目前語音情感識別算法中常用的分類器有隱馬爾科夫模型、K近鄰分類、Softmax分類器與支持向量機(SVM,Support Vector Machine)等[20] 。實驗選取Softmax分類器,核函數(shù)使用識別效果好且參數(shù)比較容易設(shè)置的多項式核函數(shù)。
CNN在Caffe框架下搭建,采用的結(jié)構(gòu)與圖5結(jié)構(gòu)相同。第一組卷積核設(shè)置為5個,大小為8×6,降采樣層大小為1×4;第二組卷積核設(shè)置為10個,大小為6×4,降采樣層大小為1×3。兩層采用平均池化方法,全連接層節(jié)點數(shù)為500。
采用跨庫訓(xùn)練方案,更改CASIA和EESDB在訓(xùn)練集和測試集中的比例[21]。選用的實驗方案包含以下3種:①選用EESDB全部語句共800條,CASIA中240條語句作為訓(xùn)練集,剩余960條語句作為驗證集進行訓(xùn)練;②選用CASIA全部語句1 200條作為訓(xùn)練集,EESDB全部語句800條作為測試集進行訓(xùn)練;③選用CASIA中600條語句、EESDB中600條語句,共1 200條作為訓(xùn)練集,CASIA剩余600條語句作為測試集。表2是基于3種方案的識別率。
7結(jié)語
本文提出一種基于語譜圖的老年人語音情感識別方法。首先選取合適的語音情感庫,對其進行預(yù)處理,提取語譜圖情感特征對語譜圖進行尺度一致化調(diào)整,將語譜圖轉(zhuǎn)換為訓(xùn)練學(xué)習(xí)要求的格式,然后輸入CNN進行訓(xùn)練,將識別結(jié)果輸入分類器進行分類,最后得出情感識別結(jié)果。本文提出的利用語譜圖特征進行語音情感識別的方法為研究老年人語音情感提供了新思路,語譜圖圖像特征可作為一類新特征進一步增強語音情感識別系統(tǒng)的性能。
參考文獻參考文獻:
[1]NWE T L,F(xiàn)OO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.
[2]AYADI M E,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572587.
[3]薛文韜.語音情感識別綜述[J].軟件導(dǎo)刊,2016,15(9):143145.
[4]席恒,任行,翟紹果.智慧養(yǎng)老:以信息化技術(shù)創(chuàng)新養(yǎng)老服務(wù)[J].老齡科學(xué)研究,2014(7):1220.
[5]NWE T L,F(xiàn)OO S W,SILVA L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603623.
[6]PICARD R W.Affective computing:challenges[J].International Journal of Human Computer Studies,2003,59(1):5564.
[7]PICARD R.Computers that recognize and respond to user emotion[J].IBM Systems Journal,2000,39:705719.
[8]趙力,錢向民,鄒采榮,等.語音信號中的情感特征分析和識別的研究[J].電子學(xué)報,2004,32(4):606609.
[9]韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學(xué)報,2014,25(1):3750.
[10]徐濟仁,陳家松,徐屹.語音信號預(yù)處理技術(shù)綜述[J].信息化研究,2001,27(6):2627.
[11]王坤俠.語音情感識別方法研究[D].合肥:合肥工業(yè)大學(xué),2015.
[12]劉志勇,楊關(guān),馮國燦.基于 Gabor 小波和局部二值模式的步態(tài)識別[J].中山大學(xué)學(xué)報:自然科學(xué)版,2014,53(4):17.
[13]李富強,萬紅,黃俊杰.基于MATLAB的語譜圖顯示與分析[J].微計算機信息,2005,21(10X):172174.
[14]蘇偉博.一種語音端點檢測方法及裝置[P].CN102097095A,2011.
[15]鐘林鵬.說話人識別系統(tǒng)中的語音信號處理技術(shù)研究[D].成都:電子科技大學(xué),2013.
[16]陶華偉,査誠,梁瑞宇,等.面向語音情感識別的語譜圖特征提取算法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2015,45(5):817821.
[17]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用,2016,36(9):25082515.
[18]蔡娟,蔡堅勇,廖曉東,等.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢識別初探[J].計算機系統(tǒng)應(yīng)用,2015,24(4):113117.
[19]JIA Y,SHELHAMER E, DONAHUA J,et al.Caffe:convolutional architecture for fast feature embedding[J].Computer Vision and Pattern Recognition,2014:675678.
[20]朱永生,張優(yōu)云.支持向量機分類器中幾個問題的研究[J].計算機工程與應(yīng)用,2003,39(13):3638.
[21]金赟,宋鵬,鄭文明,等.半監(jiān)督判別分析的跨庫語音情感識別[J].聲學(xué)學(xué)報,2015(1):2027.
責(zé)任編輯(責(zé)任編輯:黃?。?/p>