趙小蕾 許喜斌
1(中山大學新華學院信息科學學院 廣東 廣州 510520)2(廣東工程職業(yè)技術學院 廣東 廣州 510520)
語音情感識別(Speech Emotion Recognition,SER)是模式識別領域的研究熱點,是新型人機交互系統及人工智能發(fā)展不可或缺的重要技術[1]。SER技術主要分為語音信號采集、特征提取和情感識別三個階段[2],其中關鍵的模塊是特征提取和情感識別模塊。針對特征提取技術研究者們多年來進行了細致的分析和研究,情感特征主要包括韻律特征、頻域特征和音質特征[3],這些特征在傳統語音情感識別中起到關鍵作用,輔以一定的特征選擇算法針對特定數據集可以取得優(yōu)異識別性能。值得一提的是,學者們嘗試將時頻兩域的情感特征進行結合,提出了語譜圖特征提取方法,并應用于語音識別[4]和語音情感識別相關領域[5]。在識別模型研究方面,從淺層學習的支持向量機(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學習的卷積神經網絡(CNN)[9]、深度置信網絡(DBN)[11]和遞歸神經網絡等(RNN)[10]。與傳統的機器學習模型相比,深度學習能夠提取高層的特征,近年來在計算機視覺領域具有出色的表現,其中卷積神經網絡在語音識別、圖像識別等領域取得了前所未有的成功[11]。許多研究者們也逐步將深度學習引入到SER任務中。黃晨晨等[11]利用深度信念網絡自動提取語音情感特征,合并連續(xù)多幀語音情感特征構造一個高維的特征,最后輸入到支持向量機(SVM)進行分類。Mao等[12]基于CNN網絡提取顯著特征,從而提升復雜場景下的SER情感識別性能,實驗證明該方法具有較高的魯棒性和穩(wěn)定性。Huang等[13]訓練了一個改進的CNN模型,能夠提取顯著語音情感特征,進而提高情感識別率。Lee等[14]提取了高層特征并使用RNN進行預測,在IEMOCAP數據庫上取得62%的識別準確率。Niu等[15]提出了數據預處理算法,通過改變頻譜圖的大小獲得更多的數據,并輸入到深度神經網絡模型AlexNet中,在IEMOCAP數據集上獲得了48.8%平均準確率。Fayek等[16]研究了適用于SER任務的前饋神經網絡和遞歸神經網絡及其變體,并在副語言語音識別中驗證了深度學習結構的有效性。文獻[17]提出了一種利用卷積神經網絡識別語譜圖特征的語音情感識別方法,首先提取灰度語譜圖特征,隨后利用Gabor小波和分塊PCA進行特征再提取和降維,最后送入CNNs進行識別分類,取得了不錯的效果。
雖然深度學習在SER中取得了一定的成績,但以往的傳統語音情感識別(淺層學習)也并非沒有任何價值,淺層學習模型訓練速度快,參數少,所提取的特征具有針對性,而深度學習網絡結構復雜,需要大量的訓練數據,調參復雜。文獻[18]指出深度學習不需要人工參與進而缺乏先驗知識的引導,故提出使用淺層學習引導深度學習的方法,說明淺層學習仍有特定意義。
對于語音情感識別問題雖然是大數據的時代,但獲取的有效數據卻有限,而淺層學習在小樣本數據集上具有優(yōu)勢,能否突破數據集的數量限制,充分發(fā)揮二者的優(yōu)勢,形成優(yōu)勢互補,是值得研究的課題。因此,本文提出了融合深度學習和淺層學習且適用于小樣本語音的語音情感識別的模型。構建了兩種識別模型:傳統語音識別——淺層學習和深度學習框架——PCANET模型[19],最后通過有效決策層融合兩類模型。研究目標是充分利用淺層學習和深度學習的優(yōu)勢以避免不足,提高識別率和魯棒性。傳統聲學特征具有針對性但主觀性較強,深度學習網絡可以自動提取特征,但會受樣本數量和參數影響,通過有效的決策融合方法,可以綜合利用二者的優(yōu)勢,得到穩(wěn)定的高識別率。
本文方法框架流程如圖1所示,主要分為三個模塊:淺層學習特征提取模塊、深度學習特征提取模塊、分類決策融合模塊。淺層學習特征提取模塊,使用人工特征提取方法,并通過特征選擇,選取有效的特征;深度學習特征提取模塊,鑒于PCANET在圖像處理上具有絕對優(yōu)勢,故獲取具有豐富情感信息的灰度語譜圖作為輸入,最后經過有效的決策融合取得最終結果。
圖1 本文方法框架流程
PCANET網絡輸入為灰度語譜圖,故深度學習特征提取模塊涉及兩部分:灰度語譜圖生成算法以及PCANET網絡計算過程。
語譜圖的生成流程如圖2所示。
圖2 語譜圖獲取流程
具體步驟描述如下:
步驟1對語音情感信號加窗分幀。假設第i個語音情感信號用si表示,則加窗分幀后用si(m,n)表示,m為分幀的個數,n為幀長,加窗采用漢明窗,本文實驗采用的窗長為1 024。
步驟2加窗并進行傅里葉變換。計算傅里葉系數Xi(m,n):
(1)
式中:N代表序列長度;k代表序數。
步驟3采用對數能量方法生成灰度語譜圖。設在點(a,b)上的灰度值為gi(a,b):
gi(a,b)=log10|Xi(m,n)|
(2)
步驟4采用最大最小歸一化方法對語譜圖進行歸一化。得到歸一化灰度語譜圖Gi(a,b):
(3)
式中:gmax(a,b)、gmin(a,b)分別為語譜圖Gi(a,b)灰度級中的最大值和最小值。
步驟5將語譜圖量化成0~255的灰度級圖像Gi′(a,b)。
步驟2第一階段PCA處理。假設第一階段PCA濾波參數為L1,用來表示PCA中對特征值排序后的前L1個特征值。隨后取L1個最大的特征值對應的特征向量組成L1個PCA卷積核。用PCA對樣本集X進行計算:
(4)
s.t.VTV=IL1
式中:IL1為L1×L2的單位矩陣。
對應的PCA濾波器如下:
(5)
式中:matk1k2為將向量從Rk1k2空間投影到Rk1×k2空間的函數;ql(XXT)表示計算XXT的第l個主成分特征向量。
通過訓練將樣本變換到新的空間:
(6)
步驟3第二階段PCA處理。在步驟2得到的卷積圖像上再次進行相似的操作。此次取L2個最大的特征值對應的特征向量,得到L2個PCA卷積核。得到的特征變換為:
(7)
步驟4輸出層處理。為了使特征表達能力更強,使用赫維賽德階躍函數O(x)對特征值進行二值化[20],最終獲得的二值化及加權處理后的結果如下:
(8)
將輸出S分為B塊,每個塊分別進行直方圖統計,得到的最終特征:
(9)
式中:fi表示第i個語譜圖經過PCANET網絡得到的特征表示;Bh表示分塊直方圖統計。
為了實現淺層學習和深度學習模型的優(yōu)勢互補,采用了決策層融合方法。SVM分類器在小樣本語音情感識別中具有廣泛的應用,PCANET模型原采用SVM,可取得較佳效果[15],投票機制是決策層融合常用有效方法,且SVM采用投票機制。綜上分析本文基于投票決策提出了有效的差異性投票機制,差異性投票機制體現在兩個方面:兩類特征的識別精度差異性,各自分類器類別之間的差異性。綜合兩個SVM分類器統計總票數,判定得票最高的類別為最終決策的類別。本文設采用深度學習特征的SVM分類器為D-SVM,采用淺層學習的分類器為S-SVM。
步驟2計算每個模型類別間的差異性信息。對于識別N個類別的“一對一”SVM分類,有N(N-1)/2個子分類器,各子分類器根據到各個類別的距離進行兩兩投票。為了保證票數的有效性,舍棄距離小于一定閾值的無效投票,描述如下:(1)計算閾值t(取樣本所有子分類器的平均距離值);(2)舍去兩兩子分類器距離小于t的投票。
步驟3計算N個類別的最終投票分別為V1,V2,…,VN,其中Vi=Dd×vdi+Ds×vsi,vdi為深度學習第i個類別的有效投票數,vsi為淺層學習第i個類別的有效投票數。最終結果為result=max(V1,V2,…,VN)。
在兩個數據庫上進行驗證,其具體信息如下:
數據庫1:柏林數據庫(EMO-DB)。由柏林工業(yè)大學錄制的德語情感語音庫包含535個語音數據,采樣率為16 kHz,16 bit量化,由10個不同的人(5男5女)錄制而成,包含7種不同的情感,分別為中性、害怕、厭惡、喜悅、厭煩、悲傷和生氣。
數據庫2:課題組自行錄制的語音情感語音數據庫SPSED[21]。包含6種情感:高興、傷心、驚奇、生氣、害怕和厭惡。由5男6女錄制,每人錄制每種情感的15個語料(本文選用5男5女)。
實驗方案:采用5折交叉驗證方法,將情感語料分成5份,4份用于訓練,剩下的一份作為測試,經過5次輪換訓練及測試,取平均值作為最終的識別結果。
將語譜圖作為PCANET網絡的輸入。給出語譜圖示例圖(部分),圖像經過降采樣最終大小為384×301,如圖3和圖4所示,可以看出不同情感的語譜圖信息具有顯著的差異性。
圖4 EMO-DB情感語音庫灰度語譜圖(部分)
針對淺層學習(人工統計)特征識別方法,為了觀察特征降維后特征大小對識別率的影響,在兩個數據庫上進行實驗,求得各情感類別識別率平均值,最初提取的特征為能量相關、基音頻率相關及共振峰系數等101維特征,并采用序列浮動前向選擇(SFFS)方法進行特征選擇,實際降維到61維。
對PCANET網絡的各參數設置,通過實驗給出對比,并確定最終的參數值。為了觀察PCANET網絡中塊大小的選取對識別率的影響,在兩個數據庫上,塊大小分別取3×3、5×5、7×7、9×9、11×11(單位:像素,通常選用奇數),測試本文方法的平均識別率,固定其他參數L1=L2=8,重疊率為50%,直方圖塊大小為兩階段分別取2,其結果如圖5所示??梢钥闯?,塊大小(實際為選取的窗口大小)為5×5時可以獲得最佳效果。
圖5 塊大小參數對識別率的影響
為了觀察濾波器選取參數對識別率的影響,測試了不同取值下的識別率,如圖6所示。固定其他參數塊大小選取5×5,直方圖塊大小選取2,重疊率為50%。可以看出,兩階段都選擇8時效果為最佳。實驗也測試了直方圖塊大小和重疊率的影響,選擇2為最佳,重疊率在30%以上已經可以取得較好效果,為了保險起見本文選擇50%。
圖6 濾波器個數選擇對識別率的影響
為了驗證融合淺層學習和深度學習的有效性,測試僅使用淺層學習識別方法(傳統方法中的人工統計特征,記為方法1)、深度學習識別方法(記為方法2)、本文方法,實驗結果如表1所示??梢钥闯觯趦蓚€數據庫上方法2識別率明顯高于方法1,說明采用語譜圖+PCANET提取特征+SVM方法較傳統人工統計特征+SVM方法更佳。而本文方法較方法2取得了更高的識別率,在SPSED上較融合之前的方法2提高了2.54個百分點,較方法1提高了6.1個百分點;在柏林數據庫上,本文方法較方法2提高了2.93個百分點,較傳統方法提高了3.86個百分點。實驗結果表明,本文方法是有效的,這是因為其充分利用了兩種識別模型的優(yōu)勢,豐富了情感信息的獲取途徑。
表1 融合方法有效性驗證實驗 %
為了進一步驗證本文決策層融合方法的有效性,分別與下述方法進行比較實驗:特征層融合方法(方法1),該方法采用特征級聯,然后使用SVM分類器識別,以及常用的決策融合方法:線性加權融合方法(方法2,權重取0.5)、證據理論融合方法(方法3)、貝葉斯融合方法(方法4)。為了驗證融合淺層學習和深度學習方法的有效性,與較有代表性的語音情感識別方法進行了對比,如文獻[11]和文獻[13]。對比實驗結果如表2所示。可以看出,本文方法取得了最佳結果。方法1是特征級聯融合方法,方法2-方法4的特征決策融合方法均比方法1略高些,說明采用決策融合方法更為合理。本文方法與文獻[11]和文獻[13]相比也取得了明顯的優(yōu)勢,驗證了本文方法在小樣本數據集上可以取得較好的效果。
表2 與其他方法的對比實驗 %
本文分析了淺層學習和深度學習模型的優(yōu)缺點,為了實現兩種模型的優(yōu)勢互補提出了淺層學習和深度學習模型決策層融合方法,并應用于小樣本語音情感識別中。淺層學習采用傳統的人工統計特征,提取具有針對性的有效特征,深度學習階段獲取了情感語音的語譜圖信息,并將語譜圖按照圖像處理方式,使用PCANET提取特征,將兩類特征分別輸入到SVM識別模型中,隨后使用提出的有效差異性投票機制的決策融合方法進行融合。在兩個數據庫上進行驗證實驗,對比了特征層、決策層常用融合策略以及具有代表性的語音情感識別方法,本文方法取得了相對較高的識別率。下一步工作是研究利用淺層學習的先驗知識引導深度學習端到端的識別策略。