,,
腫瘤病人由于受到病情、治療水平、護(hù)理水平和家庭環(huán)境等多方面因素影響,通常會(huì)呈現(xiàn)出多種心理情感狀況,如部分病人由于身體疼痛、情緒應(yīng)激等原因,容易出現(xiàn)害怕、恐懼等心理,甚至出現(xiàn)輕生現(xiàn)象;部分病人受到家人關(guān)心,性格開(kāi)朗,對(duì)康復(fù)持樂(lè)觀態(tài)度,能積極配合醫(yī)護(hù)人員治療[1]。及時(shí)分析腫瘤病人心理情感狀況,針對(duì)病人不同心理特點(diǎn),針對(duì)性地進(jìn)行護(hù)理干預(yù),有利于促進(jìn)腫瘤病人身心健康恢復(fù)、提高其生活質(zhì)量[2]。語(yǔ)音情感分析系統(tǒng)可以實(shí)時(shí)檢測(cè)腫瘤病人心理狀態(tài),及時(shí)判別出病人心理情感,當(dāng)病人負(fù)面情緒較為強(qiáng)烈時(shí),可以提示護(hù)理人員加強(qiáng)對(duì)病人的心理干預(yù);當(dāng)病人處于正面情緒時(shí),可以適當(dāng)降低對(duì)其的心理干預(yù),從而降低護(hù)理人員工作負(fù)擔(dān)。
心理情感識(shí)別主要分為3個(gè)方面:病人語(yǔ)音特征提取、構(gòu)造情感特征向量和對(duì)特征向量進(jìn)行分類判斷。要想對(duì)病人心理情感進(jìn)行正確判斷,就需要按照一定規(guī)則對(duì)心理情感進(jìn)行分類,由于人類的心理情感較為復(fù)雜,目前業(yè)內(nèi)還未形成定論,因此針對(duì)分類方法和種類數(shù)目存在多種版本[3]。
人類語(yǔ)音產(chǎn)生的機(jī)制較為復(fù)雜,需要人體多個(gè)器官密切配合,其中包括口腔、咽喉、肺部和鼻腔等器官,這些器官根據(jù)其作用原理又可分為發(fā)聲部分(前庭襞、喉室、聲襞)、管道部分(上鼻道、咽鼓管圓枕、咽鼓管咽口、軟腭、會(huì)厭)、共鳴腔體部分(額竇、蝶竇)[4],見(jiàn)圖1。其中,喉部肌肉聲帶之間有裂縫,叫聲門裂。由于聲帶松緊程度不同,聲門裂的長(zhǎng)短、大小存在差異。當(dāng)肺部呼出的氣體經(jīng)過(guò)聲門裂時(shí),聲帶發(fā)生振動(dòng),且受其影響喉腔空氣流動(dòng),從而發(fā)出聲音。
1—前庭襞;2—喉室;3—聲襞;4—上鼻道;5—咽鼓管圓枕;6—咽鼓管咽口;7—軟腭;8—會(huì)厭;9—額竇;10—蝶竇
為了使聲音變成計(jì)算機(jī)可以識(shí)別、處理的信號(hào),通常需要將語(yǔ)音轉(zhuǎn)換成數(shù)字信號(hào),再?gòu)臄?shù)字信號(hào)中提取出心理情感特征,即語(yǔ)音預(yù)處理。具體流程為:采樣-分幀、加窗-端點(diǎn)檢測(cè)-特征提取[5]。
語(yǔ)言信號(hào)雖是一種時(shí)變非平穩(wěn)信號(hào),但在短時(shí)間內(nèi)(10 ms ~30 ms)狀態(tài)相對(duì)平穩(wěn),從而為分幀加窗提取,將一段較長(zhǎng)的語(yǔ)音信號(hào)分成若干幀提供了可能[6]。
利用端點(diǎn)檢測(cè)技術(shù)可以判斷一段語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn),將提取的語(yǔ)音先后通過(guò)雜聲過(guò)濾、降低雜聲數(shù)據(jù)量、剔除冗余數(shù)據(jù),可以有效提升系統(tǒng)的反應(yīng)速度和心理狀態(tài)判斷準(zhǔn)確率。檢測(cè)結(jié)果見(jiàn)圖2。
圖2 語(yǔ)音端點(diǎn)檢測(cè)
不同腫瘤病人說(shuō)話內(nèi)容、語(yǔ)境等均不相同,這些因素均會(huì)對(duì)心理狀態(tài)判斷準(zhǔn)確率造成影響,因此在語(yǔ)音情感分析過(guò)程中通常需要對(duì)語(yǔ)音特征提取后再進(jìn)行判斷。
本研究主要提取了基于韻律學(xué)的短時(shí)語(yǔ)音能量和基于譜特征的Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC),并通過(guò)計(jì)算其統(tǒng)計(jì)量來(lái)表征情感特征,包括均值、方差及差分的 MFCC(D-MFCC)[7]。
語(yǔ)音能量是語(yǔ)音信號(hào)中較為基本的特征,其計(jì)算方式為:
其中,En為語(yǔ)音能量,n為語(yǔ)音幀數(shù),χ為語(yǔ)音信號(hào)。
MFCC以人耳聽(tīng)覺(jué)特性為基礎(chǔ),與頻率成非線性對(duì)應(yīng)關(guān)系,其提取流程見(jiàn)圖3[8]。
圖3 MFCC提取流程
心理情感識(shí)別模型主要分為兩部分:訓(xùn)練部分和測(cè)試部分。訓(xùn)練部分主要是將心理情感特征和情感標(biāo)簽輸入到分類器模型中進(jìn)行訓(xùn)練,得到相應(yīng)的分類規(guī)律,目的是利用訓(xùn)練得到分類模型,對(duì)測(cè)試語(yǔ)音的心理情感特征進(jìn)行分類,通過(guò)模型計(jì)算、判斷,給出相應(yīng)的分類結(jié)果。
本研究采用的模型主要為支持向量機(jī)(support vector machine,SVM)[9]。SVM模型利用概率統(tǒng)計(jì)的思想,以結(jié)構(gòu)風(fēng)險(xiǎn)最小為基石,不僅可以解決線性問(wèn)題,還可以應(yīng)用于小樣本、高維度、非線性場(chǎng)合[10]。該模型通過(guò)二次規(guī)劃方式將訓(xùn)練數(shù)據(jù)分割在最優(yōu)分類平面兩側(cè),實(shí)現(xiàn)了數(shù)據(jù)分類,其訓(xùn)練過(guò)程就是尋找最優(yōu)劃分平面,分類平面間距最大的分類即最佳分類[11]。詳見(jiàn)圖4。
圖4 SVM最優(yōu)分類法示意圖
若X={(x1,y1),(x2,y2),…(xN,yN) },i=1,2,…,N,xi∈Rd為數(shù)據(jù)集,yi∈{1,-1}為種類的標(biāo)簽。在線性可分的d維空間中,線性判別表達(dá)式為:g(x)=wTx+b,其中w為分類器的法向量,因此超平面的方程為:
g(x)=wTx+b(2)
上式中,b即為閾值。對(duì)判別函數(shù)進(jìn)行歸一化處理,使訓(xùn)練集中兩類數(shù)據(jù)都滿足|g(x) |≥1,此時(shí)即可求得兩者之間的間距2/‖w‖。每個(gè)向量xi都存在與之對(duì)應(yīng)的w和b,且二者滿足下列不等式:
yi(wTx+b)-1≥0 (3)
當(dāng)以上不等式成立,且‖w‖的二范數(shù)為最小值時(shí),該分類平面即為最優(yōu)分類平面。如圖4所示,實(shí)線即為最優(yōu)分類平面,與實(shí)線平行的兩條虛線上的數(shù)據(jù)即為支持向量,此時(shí)公式(3)中等號(hào)成立。
在訓(xùn)練數(shù)據(jù)集可分的情況下,可將最優(yōu)平面求解轉(zhuǎn)換為下式約束優(yōu)化函數(shù)問(wèn)題:
s.t.yi(wTx+b)-1≥0,i=1,2,…,N(5)
本研究實(shí)驗(yàn)驗(yàn)證主要采用中科院自動(dòng)化研究所情
感語(yǔ)料庫(kù)(CASIA),該語(yǔ)料庫(kù)的錄音人員為4人,語(yǔ)音為漢語(yǔ),包含高興(happiness)、中性(neutral)、驚訝(surprise)、憤怒(anger)、悲傷(sadness)5種情感,每種情感語(yǔ)句均為200句?;谡Z(yǔ)音的心理情感識(shí)別原理見(jiàn)圖5。實(shí)驗(yàn)流程為:①準(zhǔn)備訓(xùn)練數(shù)據(jù);②對(duì)數(shù)據(jù)集進(jìn)行相應(yīng)整理;③選取對(duì)應(yīng)的核函數(shù);④交叉驗(yàn)證選擇最佳模型參數(shù);⑤利用最近參數(shù)對(duì)全部數(shù)據(jù)進(jìn)行訓(xùn)練,得到模型;⑥利用獲得的模型對(duì)心理情感進(jìn)行判斷。
圖5 心理情感識(shí)別系統(tǒng)原理
首先通過(guò)對(duì)原始語(yǔ)音進(jìn)行的分幀、端點(diǎn)檢測(cè)等預(yù)處理方式獲取有效語(yǔ)音信號(hào),為后續(xù)的特征提取和分類識(shí)別提供數(shù)據(jù)基礎(chǔ);在特征提取時(shí),主要采用12階的MFCC及短時(shí)語(yǔ)音能量;選取徑向基(RBF)為核函數(shù)對(duì)多個(gè)分類器進(jìn)行訓(xùn)練,該函數(shù)具有訓(xùn)練速度快、精度高等特點(diǎn),數(shù)學(xué)表達(dá)式為[12]:
K(x,y)=e-g‖x2-y2 ‖(6)
采用未參與訓(xùn)練的語(yǔ)音特征進(jìn)行識(shí)別實(shí)驗(yàn),檢測(cè)模型的泛化能力。將測(cè)試語(yǔ)音的特征參數(shù)輸入到這10個(gè)模型中,由于這10個(gè)SVM模型都有唯一的輸出,因此可以獲得10個(gè)識(shí)別結(jié)果。將這10個(gè)識(shí)別結(jié)果進(jìn)行投票,得票最多的情感即為最終情感結(jié)果。
利用 MFCC 參數(shù)進(jìn)行SVM模型的心理情感識(shí)別實(shí)驗(yàn),結(jié)果顯示:當(dāng)將生氣的語(yǔ)音特征輸入到模型中時(shí),判斷生氣的概率為70%,開(kāi)心的概率為22%,中性的概率為2%,悲傷的概率為0,驚訝的概率為6%,以此類推?;贛FC的心理情感判斷準(zhǔn)確率較高,能夠較好地識(shí)別出說(shuō)話人的心理情感狀況,但在開(kāi)心、生氣的情感判斷中,準(zhǔn)確率仍有較大提升空間。各心理情感判斷結(jié)果見(jiàn)表1。
表1 基于MFCC的心理情感判斷結(jié)果
將判斷特征中加入短時(shí)語(yǔ)音能量后,心理情感判斷準(zhǔn)確率得到一定程度提高,其中悲傷的判斷準(zhǔn)確率可以達(dá)到96%。各心理情感判斷結(jié)果見(jiàn)表2。
表2 基于MFCC+短時(shí)語(yǔ)音能量的各心理情感判斷結(jié)果
由于之前的實(shí)驗(yàn)部分只考慮到語(yǔ)音信號(hào)各幀的靜態(tài)特性,未考慮MFCC動(dòng)態(tài)變化對(duì)心理情感判斷準(zhǔn)確率的影響,因此在實(shí)驗(yàn)中可加入D-MFCC特征進(jìn)行分類實(shí)驗(yàn)。通常D-MFCC對(duì)情感分類沒(méi)有MFCC敏感,但D-MFCC能夠從另一個(gè)角度反映情感的不同狀態(tài),同時(shí)采用D-MFCC及短時(shí)語(yǔ)音能量可以提高心理情感判斷的準(zhǔn)確率,詳見(jiàn)表3。當(dāng)加入特征D-MFCC后,生氣和開(kāi)心判斷準(zhǔn)確率均有一定程度提高,悲傷和驚訝判斷準(zhǔn)確率略微下降,總體判斷準(zhǔn)確率由84.4%上升為84.8%,證明加入D-MFCC對(duì)整個(gè)系統(tǒng)的判斷準(zhǔn)確率有一定的促進(jìn)作用。
表3 基于MFCC+D-MFCC+短時(shí)語(yǔ)音能量的心理情感分類實(shí)驗(yàn)結(jié)果
腫瘤病人情緒多變,如不能及時(shí)發(fā)現(xiàn)病人過(guò)多的負(fù)面情緒并加以疏導(dǎo),容易導(dǎo)致病人生理、心理病情雙重惡化,不利于進(jìn)一步康復(fù)治療[13]。本研究采用SVM模型通過(guò)提取語(yǔ)音特征進(jìn)行心理情感判斷,判斷準(zhǔn)確率較高,有利于醫(yī)護(hù)人員及時(shí)把握病人心理狀態(tài),進(jìn)行情感信息反饋,對(duì)病人心理健康及醫(yī)學(xué)治療的順利實(shí)施有一定意義。
但本系統(tǒng)也存在一定缺陷,如病房等較為嘈雜的環(huán)境容易對(duì)系統(tǒng)判斷產(chǎn)生消極影響;本系統(tǒng)僅通過(guò)語(yǔ)音判斷病人心理狀況,形式單一,未來(lái)可考慮對(duì)圖像、文本內(nèi)容等多方式進(jìn)行融合,全面對(duì)病人的心理狀態(tài)進(jìn)行實(shí)時(shí)檢測(cè)。