周 慧,魏霖靜
(甘肅農業(yè)大學 信息科學技術學院,甘肅 蘭州 730070)
隨著計算機技術的發(fā)展,傳統(tǒng)的計算機已不能滿足人們日益增長的需求,如何讓計算機和人的交流不僅能體現(xiàn)基本的信息,還能識別人類豐富的情感是是當前國內外眾多領域研究的熱點問題。
目前,很多的方法被使用到情感語音的識別中。如文獻[1]利用神經網絡,文獻[2]利用特征空間分解方法,文獻[3]實現(xiàn)了利用KNN方法的情感語音的識別。文中利用LS-SVM分類,實現(xiàn)了對4種基本情感的分類識別。
LS-SVM最小二乘支持向量機是標準SVM的一種推廣形式,它具有SVM的優(yōu)點,也具有自身的特點。其基本理論如下[4-5]:
假設訓練樣本集為(xi,yi),i=1,2,3,…,n,xi∈Rn為訓練樣本的輸入,yi∈R為訓練樣本的輸出。利用一非線性映射將樣本從原空間映射 φ(·)到高維特征空間 φ(xi),在高維特征空間中構造最優(yōu)決策函數(shù):
利用結構風險最小化原則,尋找(1)式中的最優(yōu) ω和b值:
上式中:‖ω‖2為控制模型的復雜度,C為正規(guī)化參數(shù),Remp為損失函數(shù)ε,也稱為經驗風險。損失函數(shù)ε的不同,支持向量機模型就不同。在最小二乘支持向量機中損失函數(shù)ε,即Remp=。
基于結構風險最小化原則來確定決策函數(shù)最優(yōu)ω和b值可轉換為求解以下最優(yōu)解:
利用拉格朗日方法求解這個優(yōu)化問題:
根據(jù)優(yōu)化條件:
得到函數(shù)的估計為:
其中核函數(shù)K(xi,xj)=φ(xi)·φ(xj),從而優(yōu)化問題轉變?yōu)榫€性方程組的解:
得到非線性決策函數(shù):
人類的情感是一個復雜且不容易準確描述的問題,至今也沒有一種統(tǒng)一的定義。文中作為初步探索,將情感種類按常見的4種分類憤怒,高興,中性,悲傷劃分,并邀請4名學生在誘惑情感的情況下錄制了20句實驗語音。
情感語音信號的特征參數(shù)涉及到時域、頻域、倒譜域及統(tǒng)計等方面,文中選取了短時能量,基頻相關參數(shù),語速,共振峰作為特征[6-7]。
語音信號的能量是隨時間的變化而變化的,在語音信號中的清音和濁音之間能量差別是顯著的。根據(jù)語音信號自身非平穩(wěn),準周期等特點,對語音信號分幀加窗后來計算10~30 ms時間內的能量。
設初始的語音信號為x(l),進行分幀后得到第n幀的語音信號為xn(m),則第n幀的語音信號的短時能量En可以表示為:
上式中的N為窗長。
文中得到的不同情感的平均短時能量關系為:憤怒(0.16)>高興(0.08)>悲傷(0.04)>中性(0.01)。
發(fā)出的聲音可分為清音和濁音。當發(fā)出濁音的時候由于聲帶振動而引起的振動頻率稱為基頻,語音中的基頻直接決定了語音中音調的高低。不同情感下語音的基頻差異也很大。對于基頻的獲取,可以采用多種方法。如自相關法,小波變換法,線性預測殘差倒譜法等等,不同的方法有缺點也不同。文中選取了比較典型的自相關方法提取相關語音的基頻。
語速,指發(fā)音的速度。無外界因素時,每一個人的語速是基本恒定的。當有外界因素的影響時,語速就會變的不穩(wěn)定,加快或者放慢。根本上來講,語速的變化實際上是不同情感的一種體現(xiàn)。憤怒時語速加快,悲傷時語速就會自然的變慢。在實驗中,可用下列公式來描述語速:
在語音學中,可以用來描述人類聲道共振現(xiàn)象。當元音激勵進入聲道時會引起共振特性,產生一組共振頻率,這就是共振峰,一般包括共振峰頻率位置和頻帶寬度。同一個說話人攜帶不同情感說話時的共振峰差異也是明顯的,因此語音信號的前3~4個共振峰也經常用作情感識別的特征參數(shù)。
在最小二乘支持向量機分類時,要對核函數(shù)進行選取。文中采用了徑向基函數(shù)(RBF)核函數(shù),利用交叉驗證的方法確定其中的兩個參數(shù)。
圖1 情感語音識別原理圖Fig.1 Schematic diagram of emotional speech recognition
文中將錄制的情感語音數(shù)據(jù)進行了預處理,然后提取出了相應的情感特征參數(shù),并將特征參數(shù)實現(xiàn)數(shù)據(jù)的歸一化處理。隨機抽取80%的數(shù)據(jù)樣本,建立基于LS-SVM的分類識別模型,并進行了集內測試和集外測試。
表1 情感語音識別結果Tab.1 Results of emotional speech recognition
文中利用LS-SVM實現(xiàn)了4種基本情感分類的情感語音識別,從識別率來看,基本情感在集內測試中識別率高。但在整個的實驗過程中還是存在著不足,比如訓練和測試中高興和憤怒的情感特征區(qū)分度相對其他情感較低,因此增加情感的分類和特征的表示還是今后需要研究的重點。
[1]石瑛,胡學鋼.基于神經網絡的語音情感識別[J].計算機工程與應用,2008,44(24):191-193.
SHIYing,HU Xue-gang.Research ofspeech emotion recognition based on acoustic features and ann[J].Computer Engineeringand Applications,2008,44(24):191-193.
[2]黃程韋,金赟,王青云,等.基于特征空間分解與融合的語音情感識別[J].信號處理,2010,26(6):835-839.
HUANG Cheng-wei,JIN Yun,WANG Qing-yun,et al.Speech emotion recognition based on decomposition[J].Signal Proce-ssing,2010,26(6):835-839.
[3]Lee C M.Classifying emotions in human-machine spoken dialogs [C]//Multimedia and Expro Proceeding.2002 IEEE International Conference,2002:737-740.
[4]YANG Hong,LOU Fei,XU Yu-ge,et al.GA Based LS-SVM Classifier for Waste Water Treatment Process[C]//Proc.of the 27th Chinese Control Conference,2008(7):436-439.
[5]Adankon M M,Cheriet M.Model Selection for the LS-SVM.Application to Handwriting Recognition[J].Pattern Recognition,2009(42):3264-3270.
[6]楊行峻,遲惠生.語音信號數(shù)字處理[M].北京:電子工業(yè)出版社,1995.
[7]余伶俐,蔡自興,陳明義.語音信號的情感特征分析與識別研究綜述[J].電路與系統(tǒng)學報,2007,12(4):76-82.
YU Ling-li,CAI Zi-xing,CHEN Ming-yi.Study on emotion feature analysis and recognition in speech signal:an overview[J].Journal of Circuits and Systems, 2007,12(4):76-82.
[8]李鋒,袁軍社.BP神經網絡在結構邊界參數(shù)識別中的應用[J].火箭推進,2009(4):30-33.
LI Feng,YUAN Jun-she.Application of BP neural network in characteristics identification of frame structure[J].Journal of Rocket Propulsion,2009(4):30-33.