王忠民,趙玉鵬,鄭镕林,賀 炎,張嘉雯,劉 洋
1.西安郵電大學 計算機學院,西安710121
2.陜西省網(wǎng)絡數(shù)據(jù)分析與智能處理重點實驗室,西安710121
3.西安市大數(shù)據(jù)與智能計算重點實驗室,西安710121
情緒是人在外界刺激條件下所產生的一種綜合狀態(tài)。良好的情緒狀態(tài)有利于保持身心健康,而長期的不良情緒對人的心理健康和生理健康都有極大的影響。例如,長期的不良情緒容易引發(fā)抑郁癥,影響人的社會功能和人際交往,甚至會威脅到生命安全;對于心腦血管疾病患者來說,憤怒、焦慮等極端情緒會增加發(fā)病的風險;駕駛員在駕駛過程中產生的憤怒情緒,容易引發(fā)路怒癥,嚴重影響駕駛員和其他交通參與者的生命安全等。綜上所述,情緒對人類生活的各個方面都產生著重要的影響,因此,準確地識別情緒顯得尤為重要。
現(xiàn)階段情緒識別的方式主要分為兩方面:一是通過人的面部表情、語音聲調、身體姿態(tài)等非生理信號進行識別,由于這些非生理信號可以通過偽裝等手段進行人為控制,導致有時不能獲取到可以代表情緒的真實信號,從而無法準確地識別出真實的情緒狀態(tài)。另一方面可以利用腦電信號(electroencephalography,EEG)、眼電信號(electrooculogram,EOG)、心電信號(electrocardiogram,ECG)、肌電信號(electromyography,EMG)、皮膚電流反應(galvanic skin response,GSR)等生理信號進行情緒識別。由于伴隨情緒所產生的生理信號是由人體的神經系統(tǒng)和內分泌系統(tǒng)自發(fā)產生的,不易受到人為因素的影響,生理信號能夠更準確地反映人類的情緒狀態(tài),基于生理信號的情緒識別能獲得更加客觀真實的結果,也更有利于實際應用。
腦電是由中樞神經系統(tǒng)產生的一種空間離散的非平穩(wěn)隨機信號,可以直接記錄頭皮電位的變化情況,相比其他生理信號更能真實可靠地反映人的情緒狀態(tài)。隨著腦科學的不斷發(fā)展和信號處理技術的不斷進步,腦電信號在情緒識別領域受到了越來越多研究者的青睞,并取得了一定的研究成果。
傳統(tǒng)的研究方法通常是通過提取腦電信號的線性和非線性特征來進行情緒識別,忽略了腦區(qū)之間的信息交互。近些年來,越來越多的學者將復雜網(wǎng)絡理論引入到腦電情緒識別研究中,通過構建腦功能網(wǎng)絡來探尋情緒產生機理,進而進行情緒識別。
本文從腦電情緒識別研究基礎、特征提取和選擇、腦網(wǎng)絡構建和屬性提取以及分類識別方法等方面出發(fā),詳細介紹了腦電情緒識別的相關理論以及使用腦電信號進行情緒識別的主要方法和研究進展,最后對目前存在的問題以及未來的挑戰(zhàn)進行了總結和展望。
情緒是在外界刺激條件下的人的復雜的生理物理變化過程,具有3 種成分:主觀體驗,即人對于不同情緒的自我感受;外部表現(xiàn),即人處在不同情緒時身體各部分動作的量化反應形式,包括面部表情、姿態(tài)表情和語調表情;生理喚醒,即由情緒的變化所引起的生理信號的變化,生理喚醒是一種生理的激活水平,不同情緒的生理反應模式是不一樣的。
目前,情緒識別相關研究大多在可控的實驗環(huán)境下進行,情緒識別研究的一個重要條件就是誘發(fā)出被試的不同情緒,Picard 等人將情緒誘發(fā)方法分為兩種,一種是主體誘發(fā),一種是事件誘發(fā)。主體誘發(fā)是指通過讓被試做情緒所需要的表情,或者回憶帶有某種情緒的事件,來使被試產生相應的情緒。事件誘發(fā)是一種通過文字、圖片、聲音、視頻片段等刺激素材來誘發(fā)被試特定情緒狀態(tài)的方法。主體誘發(fā)方法雖然能有效地誘發(fā)出目標情緒,但是由于它需要被試有意識的合作,會導致實驗條件不可控。為了使實驗更加可控,很多研究者選擇使用事件誘發(fā)方式來進行情緒誘發(fā)相關實驗。在事件誘發(fā)方法中,使用視頻片段作為刺激素材同時綜合了聽覺、視覺情緒刺激的優(yōu)點,能夠更有效地誘發(fā)情緒,因此視頻片段情緒誘發(fā)方法被廣泛應用。目前最常用的情緒誘發(fā)方法是通過圖片、音樂和視頻等外部刺激誘發(fā)被試的不同情緒。Koelstra 等人通過音樂視頻材料的刺激誘發(fā)被試情緒,采集了32 名被試觀看音樂視頻時的32 導腦電信號,并且記錄了被試對誘發(fā)視頻的效價(valence)、喚醒(arousal)、喜好(liking)、支配(dominance)心理量表以及前22 名被試的面部表情視頻,提出了一個用于分析人類情緒狀態(tài)的多模態(tài)數(shù)據(jù)集(DEAP 數(shù)據(jù)集)供研究者們使用。上海交通大學的呂寶糧教授領導的BCMI 實驗室提供了SEED 數(shù)據(jù)集供研究者們下載使用,該數(shù)據(jù)集通過視頻材料的刺激誘發(fā)被試情緒,其中影片剪輯經過仔細選擇,以引起積極(positive)、消極(negative)和中性(neutral)等不同類型的情緒,采集了15 名中國受試者在觀看15 個中國電影片段時的62 導腦電信號,其中男性7 名,女性8 名,平均年齡為23~27 歲。
情緒識別的另一問題是如何劃分情緒,也就是建立情緒分類模型。采用一個世界通用的分類標準將有利于不同研究結果間的可比性和推廣性?,F(xiàn)有的情緒量化模型主要有離散模型和連續(xù)模型兩種。在離散模型中,情緒空間由離散而有限的基本情緒構成,例如著名心理學家Ekman 提出的6 種基本情緒類別(憤怒(anger)、厭惡(disgust)、恐懼(fear)、高興(happiness)、悲傷(sadness)、驚訝(surprise))在情緒識別領域得到廣大學者的認可。隨著情緒研究的深入,人們認識到情緒的產生和消失是一個持續(xù)不斷的過程,從而提出了連續(xù)模型。連續(xù)模型認為每種情緒都是一個連續(xù)體上的一部分,每種情緒狀態(tài)都可以在二維空間或者三維空間中找到與之對應的一點。常用的連續(xù)模型是二維情緒模型,基于認知評價將情緒空間劃分為效價和喚醒兩個維度,效價表示情緒是積極還是消極的,喚醒度反映情緒的強烈程度,如圖1 所示,在維度模型中,各種復雜的情緒都可以用這兩個維度的線性組合來表示。
圖1 二維情緒分類模型Fig.1 Two-dimensional emotion classification model
腦電信號(EEG)是大腦中大量神經元放電活動中突觸后電位引起的細胞外場電位的總和,它是一種使用電生理指標記錄大腦活動的方法。腦電信號大體上可分兩種:(1)自發(fā)腦電。無任何特定的外加刺激時,神經系統(tǒng)自發(fā)產生的大腦電位變化。(2)誘發(fā)腦電。對人施加某種感官刺激(如聲、光、圖像、體感等)時,在腦中相應部位誘發(fā)的電位變化。腦電信號的產生機理復雜,卻蘊含著豐富的信息。EEG是一種空間離散的非平穩(wěn)時變信號,時域波形較不規(guī)則,難以總結規(guī)律,從頻域上看,它具有節(jié)律性,各個節(jié)律和具體描述如表1 所示。
表1 腦電信號的不同頻帶及其描述Table 1 Different frequency bands of EEG signal and their description
腦電信號的采集一般是通過將物理電極放置在頭皮處實現(xiàn)的,采集方式主要分為侵入式和非侵入式兩種。侵入式采集方法得到的腦電信號具有更高的精度和更低的噪聲,但是為了安全起見,非侵入式的采集方法仍然被廣泛使用。根據(jù)采集設備的不同,非侵入式采集方式主要分為干電極采集設備和濕電極采集設備兩種,如圖2 所示。濕電極采集設備需要在電極和大腦皮層之間添加一些導電介質,可以減少電阻干擾,有利于采集信號的穩(wěn)定性,但是導電介質容易消耗磨損,使用周期較短,因此不利于持續(xù)性長時間的腦電信號采集。此外,在頭皮上涂抹粘稠的電解質也會影響被試的體驗。干電極采集設備的優(yōu)點是不需要添加導電介質,可以減少受試者長時間參與實驗產生的不適感,更有利于腦電采集實驗的進行以及腦電可穿戴設備的普及和應用。缺點是電極與頭皮間的接觸不靈敏,受到的干擾較大,導致采集的信號強度較弱,在后續(xù)實驗過程中增大特征提取的難度。由于兩種采集設備各有優(yōu)缺點,在研究過程中可以根據(jù)實驗時長等因素選擇合適的設備進行腦電信號采集。
圖2 非侵入式腦電采集設備Fig.2 Non-invasive EEG acquisition equipment
腦電采集設備上帶有很多電極用于采集頭皮腦電信號,不同采集設備的電極數(shù)量不同,常用的有16電極、32 電極和64 電極等。這些電極根據(jù)10-20 系統(tǒng)電極放置法放置在大腦頭皮的不同位置,用于采集不同腦區(qū)的腦電信號。圖3 是目前使用最廣泛的10-20 系統(tǒng)電極安放位置,其中10 和20 表示相鄰電極間的實際距離是前后或者左右頭骨的距離的10%或者20%。
圖3 國際標準10-20 腦電記錄系統(tǒng)電極安放位置Fig.3 International standard 10-20 EEG recording system electrode placement
在腦電數(shù)據(jù)采集過程中,由于外界環(huán)境、眼動、肌肉運動等因素的影響,會引入一些干擾噪聲。數(shù)據(jù)預處理就是為了去除原始腦電信號中的干擾噪聲,得到可以用來進行情緒識別的較為純凈的腦電信號。目前比較常用的預處理方法主要包括濾波、主成分分析、獨立成分分析等。濾波可以去除一些頻段比較固定的干擾,比如工頻干擾可以通過帶通濾波或低通濾波的方式進行過濾。對于那些不易通過濾波去除的腦電噪聲,如眼電噪聲、肌電噪聲等可以采用主成分分析、獨立成分分析等方法進行處理。主成分分析(principal component analysis,PCA)是在EEG 各導聯(lián)分布的基礎上,把腦電信號分解為互相獨立的成分,去掉不需要的干擾部分,再重構EEG,以達到去偽跡的效果。由于主成分分析方法是利用正交原理將原始EEG 信號分解為互相獨立的成分,對于一些和EEG 波形相似的偽跡,主成分分析就無法進行有效分離。獨立成分分析(independent component analysis,ICA)是一種盲源信號分離方法,由于腦電信號中的心電、眼電等偽跡都是由獨立的信號源產生的,通過ICA 便可以對原始數(shù)據(jù)進行解混,剔除心電、眼電等干擾信號,從而得到干凈的腦電信號。ICA 去偽跡時不需要專門記錄偽跡的參考電極,分解之后各分量相互獨立,偽跡去除的精度較高,已被廣泛應用于腦電信號的預處理當中,使用Matlab 的工具箱EEGLAB、Python 的工具包MNE 等都可以對腦電數(shù)據(jù)進行獨立成分分析。
Bartels 等人將盲源分離和支持向量機相結合,提出了一種去除腦電信號中的眼電(EOG)和肌電(EMG)偽跡的預處理方法。結果表明,使用該方法預處理過的數(shù)據(jù)可以大大提高識別性能,進而表明該預處理算法是有效的。Zhang 等人利用離散小波變換和獨立成分分析相結合來分離偽跡分量,提出了一種基于先驗偽跡信息的數(shù)據(jù)預處理算法,通過情緒腦電數(shù)據(jù)進行驗證,結果表明采用提出的預處理方法進行偽跡去除能在一定程度上提高情緒識別的準確率。Yang 等人為了解決傳統(tǒng)方法去除眼電偽跡需要額外電極來記錄眼電信號的弊端,提出了一種基于深度學習網(wǎng)絡的眼電偽跡去除方法。該方法不需要額外附加電極,并且可以分析任意通道數(shù)量的EEG 數(shù)據(jù),具有很強的泛化能力,與經典的去偽跡方法相比具有更好的處理效果。
利用腦電信號進行情緒識別的主要步驟包括腦電信號采集、數(shù)據(jù)預處理、特征提取和分類識別,如圖4 所示。其中,特征提取分為傳統(tǒng)特征和腦網(wǎng)絡特征兩部分。
圖4 腦電情緒識別框架Fig.4 EEG emotion recognition framework
在基于EEG 的情緒識別研究過程中,特征提取主要是為了降低腦電數(shù)據(jù)的維數(shù)從而提取出與情緒相關的特征,用來對被試的情緒狀態(tài)進行研究。作為情緒識別的關鍵環(huán)節(jié),特征的優(yōu)劣直接決定了情感識別模型的性能,提取表征性好、與情緒高度相關的特征對情緒識別來說至關重要。目前,常用的EEG 信號特征主要有四類:時域特征、頻域特征、時頻特征和非線性特征。
腦電信號的采集大多是以時域形式進行的,因此時域特征是最直觀易得的。腦電信號的時域特征很早就被用來進行腦電的相關研究,常用的腦電信號時域特征主要包括:幅值、方差、均值、均方根、過零點分析、方差分析、直方圖分析、峰值檢測、波形參數(shù)分析以及線性預測等。
Kashihara通過刺激被試獲取事件相關電位,將信號均值、標準差等統(tǒng)計特征作為EEG特征。Tripathi等人在DEAP 數(shù)據(jù)集上提取了EEG 信號的偏斜度和峰度等特征,分別使用深度神經網(wǎng)絡(deep neural networks,DNN)和卷積神經網(wǎng)絡(convolutional neural networks,CNN)在效價和喚醒兩個維度上進行情感識別研究,取得了較好的分類識別效果。Zhang等人將對稱電極間的振幅差作為腦電特征,和面部表情等特征相結合進行情緒識別。
時域分析表現(xiàn)的是腦電波形隨時間的變化情況,而頻域分析表現(xiàn)的是腦電波形隨頻率的變化情況。頻域分析的主要思想是將時域中的信號通過某種算法變換到頻域上,體現(xiàn)出信號隨頻率變化的特性,從而更直觀地觀察到EEG 中的各個節(jié)律的分布變化情況。頻域分析通常將EEG 信號分為delta 頻段(0~4 Hz)、theta 頻段(4~8 Hz)、alpha(8~13 Hz)、beta(13~25 Hz)和gamma 頻段(25~50 Hz)進行特征提取。常用的EEG 頻域特征有功率、功率譜密度和能量等,這些特征的提取通常都建立在功率譜估計的基礎上。其特點是計算方便,對信號的適應性強,物理意義明顯。
傅里葉變換(Fourier transfer,F(xiàn)T)是一種線性的積分變換,通常被用來進行腦電信號時域到頻域的轉換,連續(xù)時間信號()的傅里葉變換為:
離散時間序列(1),(2),…,()的傅里葉變換為:
一般通過上述時頻域轉換之后再分別提取功率、功率譜密度等頻域特征進行情緒識別。
功率譜密度是最常用的腦電信號頻域特征,它定義為單位頻帶內信號的功率大小,功率譜曲線橫坐標是腦電頻率,縱坐標是功率大小,表現(xiàn)的是腦電信號功率在不同頻段上的分布狀況。設()為離散時間序列(1),(2),…,(),則信號的功率譜密度可以定義為:
Zouridakis 等人采用帶通濾波得到delta(0~4 Hz)、theta(4~8 Hz)、alpha(8~13 Hz)、beta(13~25 Hz)和gamma(25~50 Hz)5 個頻段的腦電信號,然后計算5 個頻段的功率譜密度作為腦電特征進行情緒識別。Gadade 等人使用快速傅里葉變換將EEG 數(shù)據(jù)從時域轉換到頻域,然后使用帶通濾波得到theta、alpha、beta 和gamma 4 個頻段的腦電信號,計算各個頻段功率特征,采用Relief-F 算法進行特征選擇,在效價、喚醒、支配和喜歡4 個維度進行情緒分類識別,平均準確率均在85%~92%。Al-Nafjan 等人使用從EEG 中提取的功率譜密度特征與深度神經網(wǎng)絡相結合,對情緒進行分類。Li 等人使用短時傅里葉變化 進行時頻轉換,分別計算了theta、alpha、beta 和gamma 波段的功率譜密度特征和面部表情特征,進行融合,使用長短期記憶網(wǎng)絡進行情緒識別,取得了較好的識別效果。
腦電信號是一種非平穩(wěn)信號,通過頻域分析只能觀察到信號中有哪些頻率成分,無法獲知各個成分出現(xiàn)的時間。為了研究信號頻率隨時間的變化情況,時頻分析應運而生。所謂時頻分析,就是既考慮了信號的時域特征,又考慮信號的頻域特征,描述信號隨時間和頻率的變化情況,時頻分析可以更全面地反映出腦電信號的特征信息。時頻分析通常是劃分一定數(shù)目的時間窗,把整個時域信號分解成數(shù)個等長的小過程,每個小過程可以看作是平穩(wěn)的,然后對每個小過程的信號進行時域到頻域的轉換,之后提取頻域特征,滑動時間窗可處理不同時段,可以得到信號在各個時刻的瞬時頻率和幅值,從而可以估算某種情緒開始和持續(xù)的時間。常用的時頻分析方法有:短時傅里葉變換(short-time Fourier transform,STFT)、小波變換(wavelet transform,WT)、希爾伯特-黃變換(Hilbert-Huang transform,HHT)等。
短時傅里葉變換是Gabor 于1946 年提出的一種時頻分析方法,其實質是加了窗函數(shù)的傅里葉變換,在對信號進行傅里葉變換之前引入窗函數(shù),假定信號在短時間內是平穩(wěn)的,窗函數(shù)隨著時間軸移動,把腦電信號分割成等長的時間單元,然后對每個信號單元進行傅里葉變換:
之后求出各窗函數(shù)內的頻域特征,就可以得到信號頻率隨時間的變化關系。對于短時傅里葉變換來說,選擇合適的時間窗長度至關重要,時間窗過窄的話,窗內信號太少,會導致頻域分析不夠精準;時間窗太寬的話又會導致時間不夠精細,時域分辨率降低。目前情緒識別研究中效果好的時間窗長度多為1~2 s。
小波變換是Morlet 于1982 年提出的另一種時頻分析方法,它繼承和發(fā)展了短時傅里葉變換局部化的思想,將短時傅里葉變換的時間窗函數(shù)變?yōu)榱丝梢噪S頻率改變的可變窗口,改進了其時窗不可變的缺點,小波變換計算方法:
其中,是縮放因子,當||<1 時,基小波被壓縮,對應到高頻;反之,當||>1 時,對應到低頻,是平移參數(shù),用來移動基小波的位置,不同頻率的信號段,可用不同寬度的基小波時窗函數(shù)進行約束,時頻域特征都能夠進行準確高效的分析。當式中參數(shù)、取連續(xù)值時,稱為連續(xù)小波變換,當參數(shù)、取離散值時,稱為離散小波變換。
小波變換的思想是在短時傅里葉變換的基礎上將時窗函數(shù)變?yōu)榱丝勺冮L度時窗截取變換,繼承了時頻分析的特點,改進了其時窗不可變的缺點,時窗的變化可隨信號頻率改變。小波變換主要有兩種基本類型:連續(xù)小波變換(continuous wavelet transform,CWT)、離散小波變換(discrete wavelet transform,DWT)。
希爾伯特-黃變換是一種非線性的時頻特征提取方法,主要包括經驗模態(tài)分解(empirical mode decomposition,EMD)和希爾伯特譜分析(Hilbert spectrum analysis,HSA)兩部分。希爾伯特-黃變換處理非平穩(wěn)信號的過程:首先使用EMD 得到固有模態(tài)函數(shù)(intrinsic mode functions,IMF),IMF 是基于信號的時間尺度特征將其分解為有限個平穩(wěn)的單分量信號。假設通過個IMF 來表征EEG 信號:
其中,()表示殘余函數(shù),殘余函數(shù)由任意信號()減去每一個IMF 分量得到。之后對IMF()進行Hilbert變換:
上述幾種時頻分析方法各有優(yōu)缺點,在進行情緒識別的研究時可以根據(jù)實驗需要,從多個角度出發(fā)選擇合適的時頻分析方法進行時頻特征的提取。Murugappan 等人利用離散小波變換提取子頻帶能量、子頻帶能量所占比率和Alpha 頻帶小波系數(shù)均方根作為EEG 特征,進行了高興、厭惡、恐懼、驚訝四情緒分類。Chen 等人基于重構腦電信號源提取的時頻域情感特征分析方法,提高了分類識別準確率。陳萌等人采用了經驗模態(tài)分解(EMD)的方法對腦電數(shù)據(jù)進行時頻分析,提取了波動指數(shù)作為特征進行腦電信號和個人情緒狀態(tài)的關聯(lián)性分析研究。
腦電信號是產生于復雜大腦系統(tǒng)的一種非平穩(wěn)時變信號,具有顯著的非線性和混沌性,線性分析方法會丟失很多腦電信號的原始信息,因此將非線性系統(tǒng)和復雜度分析應用到腦電的分析方法應運而生。非線性分析方法主要是解釋大腦的動力學特征和不同情緒狀態(tài)之間的關系,探索不同腦區(qū)在不同情感下的活動變化,為采用腦電進行情緒識別等相關研究提供可靠的技術支持。常用的腦電信號非線性特征包括各種類型的熵、相關維數(shù)、分形維數(shù)等。
Hosseini 等人提取腦電信號的近似熵、小波熵特征,利用支持向量機(support vector machine,SVM)進行情緒識別,正確率達到了73.25%。Liu 等人通過提取腦電的分型維數(shù)等非線性特征進行六種情緒分類,取得了不錯的效果并搭建了實時應用系統(tǒng),輔助治療疼痛、抑郁等癥狀。柳長源等人提取了腦電信號的頻帶能量、微分熵以及不對稱特征,使用遺傳算法優(yōu)化的支持向量機進行情緒分類識別,結果表明和傳統(tǒng)的特征相比,不對稱熵特征的識別率有明顯提高,在DEAP 數(shù)據(jù)集上平均識別率為88.63%。
大腦是一個復雜的系統(tǒng),情緒活動的過程大腦并非是一個腦區(qū)獨立工作的結果,而是由多個腦區(qū)信息交互共同完成的。傳統(tǒng)的基于時頻特征的情緒識別方法沒有考慮腦區(qū)之間的信息交互。近年來,為了找出和人的情緒狀態(tài)變化最為相關的腦區(qū),為腦電信號在情緒識別領域的研究和應用提供理論基礎,越來越多的研究者將復雜網(wǎng)絡理論應用于腦電信號情緒識別研究中。
為了對基于腦網(wǎng)絡的情緒識別研究現(xiàn)狀進行分析,通過關鍵詞Emotion Recognition、EEG Network、腦網(wǎng)絡、情緒識別,在Web of Science、谷歌學術以及中國知網(wǎng)等網(wǎng)站進行檢索,篩選出17 篇基于腦網(wǎng)絡進行情緒識別研究的文章,對文章采用的腦網(wǎng)絡構建方法和度量指標進行統(tǒng)計,結果如表2 所示。通過表2 可以發(fā)現(xiàn),相位鎖值(phase locking value,PLV)在面向情緒識別的腦網(wǎng)絡構建中應用較多。
表2 基于腦網(wǎng)絡的情緒識別研究Table 2 Research on brain network-based emotion recognition
腦網(wǎng)絡是借助復雜網(wǎng)絡理論將腦電信號抽象成物理中的網(wǎng)絡,腦網(wǎng)絡構建大致包括三個步驟:選擇網(wǎng)絡節(jié)點、節(jié)點之間連接邊的定義、選擇合適的閾值將連接矩陣轉二值化。一般選取采集數(shù)據(jù)的通道作為網(wǎng)絡節(jié)點,然后選擇合適的功能連接方法得到功能連接矩陣。根據(jù)功能連接矩陣構建方法的不同,腦網(wǎng)絡可以分為功能腦網(wǎng)絡和因效性腦網(wǎng)絡。
功能性腦網(wǎng)絡,主要用來描述腦網(wǎng)絡中各個節(jié)點之間的連接關系,依賴模型本身,而不依賴時間,是一種相互之間的信息模式,是無向網(wǎng)絡,如圖5(a)所示。因效性腦網(wǎng)絡,本質上是一種特殊的功能性腦網(wǎng)絡,它在數(shù)據(jù)預處理和節(jié)點定義上都與功能性腦網(wǎng)絡相同,不同之處在于因效性腦網(wǎng)絡可以反映出不同腦區(qū)之間的信息流向,使功能性腦網(wǎng)絡的無向圖變成了有向圖,如圖5(b)所示。表3 列舉了常用的功能性腦網(wǎng)絡和因效性腦網(wǎng)絡構建方法。
圖5 面向情緒識別的腦網(wǎng)絡分類Fig.5 Brain network classification for emotion recognition
表3 常用腦網(wǎng)絡構建方法Table 3 Common brain network construction methods
(1)互相關
互相關函數(shù)表示兩時間序列之間的線性同步性,計算得到的是時域中兩通道之間的相關程度。預處理后的多通道腦電數(shù)據(jù)中任意兩通道腦電信號(),(),=1,2,…,之間的相關函數(shù)定義為:
(2)相位鎖值
相位同步分析可以將腦電信號中的相位成分與振幅成分分離開來,對腦電信號進行精確分析,有利于挖掘腦電信號中隱含的重要信息。相位鎖值(PLV)是一個用于度量相位同步性的量化值,表示的是某一時間段內的兩個信號之間的同步程度。PLV的定義如式(9)所示。
其中,Δφ()=Δφ()-Δφ()表示表示信號與信號在時刻的相位差,為該時間段內的樣本點總數(shù)。PLV 的值域范圍為0~1,值越大代表兩個信號之間的同步性越強,PLV 最小值為0,表示兩個信號完全不同步,PLV 最大值為1,表示兩個信號之間完全相位同步。
(3)互信息
互信息(mutual information,MI)是信息論中用來評價兩個隨機變量之間的依賴程度的一種常用的信息度量,代表的是一個隨機變量中包含的關于另一個隨機變量的信息量,在腦電情緒識別領域,MI 也被用來估計兩個電極中腦電信號之間的同步性大小。兩個隨機變量間的互信息可以定義為:
(4)相位滯后指數(shù)
相位滯后指數(shù)(phase lag index,PLI)是一種基于相位的功能連接分析方法,可以用來測量兩個通道信號之間的相位同步程度,適用于研究多通道腦電信號之間的功能連接。它的最大優(yōu)點是可以減少電極間容積傳導效應帶來的影響,更多地關注信號之間的耦合關系。PLI鄰接矩陣的計算方法如下:
其中,表示時間點,Δ(t)表示兩個信號在時間t處的相位差,sign 是一個符號函數(shù),當自變量為正值時其輸出為1,當自變量為負值時其輸出為-1,當自變量為0 時其輸出為0。PLI 的值介于0 和1 之間,若PLI 的值為0,則相位差分布完全對稱,反之,則信號的相位始終滯后(超前)于信號。并且滯后越一致,相位差的分布越不對稱。
(5)格蘭杰因果關系
“因果”這一概念最先由經濟學家Granger 于1969 年首次提出,文章認為,如果用和現(xiàn)在的值預測的未來值比僅僅使用現(xiàn)在的值預測的未來值效果好,那么說明對的未來發(fā)展趨勢有影響,即是的格蘭杰原因。1982 年Geweke 將和之間的格蘭杰因果關系稱為反饋,文章認為任意兩個時間序列之間要么相互獨立,要么存在反饋作用。Friston 在大腦相關研究中引入格蘭杰因果關系,用來衡量腦區(qū)之間的因效連接,即假如腦區(qū)可以幫助預測腦區(qū)的未來,則認為在某種程度上是腦區(qū)的原因。格蘭杰因果關系分析可以得到兩個時間序列之間是否存在因果聯(lián)系以及因果相對強度,定義如下:
假設有兩個時間序列()、(),定義()、()的自回歸模型為:
()、()的聯(lián)合回歸模型為:
(6)部分定向相干
部分定向相干(partial directed coherence,PDC)分析是在格蘭杰因果關系的基礎上發(fā)展出來的一種方法,可以對多通道腦電數(shù)據(jù)進行建模,用來研究各腦電通道之間的相互聯(lián)系。PDC 是一種因效性腦網(wǎng)絡構建方法,與傳統(tǒng)的功能連接方法不同的是,PDC是測量通道之間的因果影響,因此是具有方向性的。對于一個通道的EEG 信號:
可以用一個多變量的自回歸模型MVAR 來描述:
對模型的稀疏矩陣()做變換可得:
其中,為回歸模型的階數(shù),為相應的頻率?,F(xiàn)定義:
則當頻率為時,通道對通道的PDC 值為:
在構建好腦功能網(wǎng)絡之后,基于圖論對復雜網(wǎng)絡進行分析,網(wǎng)絡中的基本元素有節(jié)點和邊,通常電極位置代表節(jié)點,節(jié)點之間的邊代表著兩通道之間是否有信息交互。描述網(wǎng)絡的拓撲結構以及網(wǎng)絡中不同的變化的常用屬性有:度、聚類系數(shù)、路徑長度、全局效率和局部效率等。
(1)聚類系數(shù)
聚類系數(shù)是用來量化網(wǎng)絡中節(jié)點間聚集程度的一種網(wǎng)絡屬性。節(jié)點的聚類系數(shù)C定義為該節(jié)點和鄰居節(jié)點間已有連接邊數(shù)和該節(jié)點可能連接的最大邊數(shù)的比值,如式(21)所示。
其中,E代表節(jié)點和鄰居節(jié)點間已有連接邊的數(shù)目;k表示節(jié)點的全部鄰接點數(shù)目;k(k-1)/2 表示k個相鄰節(jié)點之間可能存在的邊數(shù)。
(2)平均最短路徑長度
兩節(jié)點間的最短路徑長度是指從一個節(jié)點到另一節(jié)點所經過的最小邊數(shù)。最短路徑長度描述網(wǎng)絡內節(jié)點之間信息傳遞的性能,反映腦區(qū)間功能整合水平的高低,網(wǎng)絡的最短路徑長度越短,網(wǎng)絡節(jié)點間傳遞信息的速率就越快,則網(wǎng)絡全局效率越高,腦區(qū)的功能整合水平越高。平均最短路徑長度是指兩節(jié)點之間最短路徑長度的均值,平均最短路徑長度的定義如式(22)所示。
其中,d表示節(jié)點到節(jié)點之間的最短路徑長度。
(3)全局效率
全局效率定義為任意兩節(jié)點的最短路徑的調和平均值的倒數(shù),如式(23)所示。全局效率可以用來度量網(wǎng)絡的全局信息處理和傳輸能力以及網(wǎng)絡的整合程度,全局效率的降低說明腦區(qū)之間的信息傳輸和交互效率降低。
其中,d表示節(jié)點和節(jié)點之間的最短路徑長度。
(4)局部效率
局部效率反映的是網(wǎng)絡中節(jié)點間的分化程度,同時也代表著網(wǎng)絡的局部信息傳輸能力和網(wǎng)絡防御隨機攻擊的能力。節(jié)點的局部效率計算如式(24)所示。
其中,G表示節(jié)點的鄰居節(jié)點和節(jié)點間的連接邊所構成的子圖,d表示從節(jié)點到節(jié)點所要經過的最短路徑長度。
Costa 等人構建了基于相位同步的靜態(tài)腦功能連接,用來研究不同情緒狀態(tài)下大腦區(qū)域之間的相互依賴模式,結果表明在高興狀態(tài)下額葉和枕葉間的相位同步明顯增強,在悲傷狀態(tài)下所有腦區(qū)之間的相位同步現(xiàn)象明顯增強。Gonuguntla 等人通過相位鎖值構建腦網(wǎng)絡進行研究表明,相位同步分析可以識別和情緒相對應的腦功能網(wǎng)絡模式和區(qū)域。Wang 等人通過構建PLV 腦網(wǎng)絡將腦電數(shù)據(jù)時頻特征建模為圖數(shù)據(jù),采用圖卷積神經網(wǎng)絡進行情緒識別,取得了較好的識別效果。Lee 等人使用相干性、相關性和相位同步三種方法構建了靜態(tài)功能連接網(wǎng)絡,利用不同情緒狀態(tài)下功能連接模式的差異性對積極、中性、消極三種情緒進行分類,取得了79%的識別準確率,結果表明不同情緒狀態(tài)下大腦的功能連接模式存在明顯區(qū)別,可以用來進行情緒狀態(tài)的識別和預測。
分類識別是腦電情緒識別研究的重要一環(huán),主要任務是通過提取的各種類型的腦電特征來確定不同情緒狀態(tài)對應的腦電模式,然后未經訓練的腦電信號特征進行分類。雖然特征提取是決定情緒識別是否準確的一個關鍵環(huán)節(jié),但是選擇一個好的分類識別方法對情緒識別來說也至關重要,可以在一定程度上提高準確率。常用的EEG 情緒識別分類方法主要有無監(jiān)督學習、半監(jiān)督學習和有監(jiān)督學習。目前,常用的分類器有自組織映射(self-organizing map,SOM)、支持向量機(SVM)、近鄰(-nearest neighbor,NN)等。
自組織映射(SOM)是一種常用的無監(jiān)督學習方法,在對模型進行訓練時,只需要輸入樣本數(shù)據(jù),不需要輸入樣本的標簽信息,學習過程中通過對所有樣本內在信息進行挖掘,找到樣本間的關系,使得特性相近的樣本聚集在一起,而特性相異的樣本之間互相遠離,最終實現(xiàn)樣本的分類。
Khosrowabadi 等人采用圖片作為刺激材料,采集了26 名被試在四種不同情緒刺激下的8 通道腦電信號,由于各種原因的影響導致被試誘發(fā)出的情緒可能會與所期望的不同,采用自組織映射的無監(jiān)督學習方法來找到不同情緒間的邊界,對樣本進行情緒類別的劃分,然后提取相應的腦電特征,對平靜、高興、悲傷和恐懼四種情緒進行分類,識別準確率達到了84.5%。
支持向量機(SVM)是在腦電情緒分類中最常用的一種方法,它的核心思想是將在低維上不可分的數(shù)據(jù)集映射到高維空間上,找到使得不同類別樣本間的邊緣最大化的超平面,然后實現(xiàn)對低維空間上數(shù)據(jù)樣本的分類。SVM 中常見的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等,核函數(shù)的選擇對于其性能的表現(xiàn)有至關重要的作用,通過控制核函數(shù)可以決定判決邊界的線性或非線性,線性核函數(shù)支持向量機的優(yōu)點是復雜度較低,速度快,非線性核函數(shù)支持向量機的優(yōu)點是在很多情況下能夠更好地擬合出不同類別間的邊界。支持向量機是一種快速可靠的分類算法,可以在有限數(shù)據(jù)量的情況下很好地完成分類任務,因此被廣泛應用在腦電情緒識別研究當中。
近鄰法(NN)的核心思想是在對某個測試樣本進行分類時,首先計算這個測試樣本和它周圍其他樣本間的歐氏距離,找出距離最近的個樣本,然后將此樣本歸類為這個樣本中出現(xiàn)次數(shù)最多的類別。近鄰法是一種相對簡單的非線性有監(jiān)督分類器,原理通俗易懂,廣泛應用于擁有較大訓練集的分類實驗當中。
Degirmenci 等人提出了一種基于經驗模態(tài)分解的EEG 情緒分類識別方法,提取腦電信號的功率譜密度特征,對比了支持向量機、線性判別分析、樸素貝葉斯分類器的識別效果,研究表明,SVM 分類器可以更好地區(qū)分情緒,是一種方便、高精度的情緒識別分類算法。Qing 等人在DEAP 數(shù)據(jù)集上提取腦電信號的一階、二階差分特征,在SEED 數(shù)據(jù)集上提取微分熵特征,選擇決策樹、近鄰和隨機森林作為分類器,進行情緒分類研究。
近年來,隨著深度學習的快速發(fā)展,越來越多的學者將深度學習方法應用于基于腦電信號的情緒識別研究當中。在腦電情緒識別領域常用的深度學習方法包括卷積神經網(wǎng)絡(CNN)、循環(huán)神經網(wǎng)絡(recurrent neural network,RNN)、深度信念網(wǎng)絡(deep belief network,DBN)等。上海交通大學的鄭偉龍等人引入DBN 構建了對積極、中性、消極三種情緒的EEG情緒分類模型,結果表明,基于DBN 的腦電情緒識別可以獲得較高的分類精度,與積極、中性和消極情緒相關的神經特征確實存在,并且它們在個體之間具有共性。Xing 等人將堆棧自動編碼器和長短期記憶神經網(wǎng)絡相結合,提出了一種新的情緒識別框架,在效價和喚醒度上分別取得了81.10%和74.38%的識別效果。Chen 等人提出了一種基于估計熵的深度信念網(wǎng)絡情緒識別框架,對高興、冷靜、悲傷和恐懼四種情緒的識別準確率達到了83.34%。
深度神經網(wǎng)絡能夠對腦電信號的預處理、特征圖提取和分類進行端到端的自動學習,基于深度學習算法的腦電情緒識別比人工設計的特征維度更高,識別用時更短。然而,在研究過程中,研究者們忽略了腦電信號和情緒產生之間的內在關系,如何將傳統(tǒng)的腦電信號特征提取方式與深度學習算法相結合,探索新的情緒特征提取方式,提高特征提取和分類識別性能是以后在腦電情緒識別領域的重點研究方向。
腦電信號的非平穩(wěn)特性和個體差異限制了情緒識別模型在不同時間、不同受試者之間的泛化,為了解決該問題,研究者們提出了基于遷移學習的跨被試/實驗時間的情緒識別分類研究。傳統(tǒng)的機器學習針對不同的域和任務分別訓練模型。遷移學習中,不同的域和任務可共享知識,從一個域/任務中獲取的信息,可用于另一個域/任務中的模式識別任務。李勁鵬為了解決EEG 情緒識別模型的跨被試適配問題,提出了一種多源遷移學習框架。選擇合適的源,在每個合適的源上,消減目標和源的差異,使源上的分類器直接用于推斷目標中樣本的情緒標簽。在多分類器集成框架下,實現(xiàn)了對目標域的高精度分類。蔡梓良等人為了解決跨被試、跨時間情緒分類的問題,提出了最大分類器差異域對抗方法,通過建立神經網(wǎng)絡情感識別模型,將淺層特征提取器分別對抗域分類器和情感分類器,進而使特征提取器產生域不變表達,在實現(xiàn)近似聯(lián)合分布適配的同時訓練分類器學習任務特異性的決策邊界,提高了情感腦機接口在實際應用中的泛化能力,為情感腦機接口走向實際應用提供了新的方法。
近年來,基于EEG 的情緒識別研究取得了一定的進展,各種算法的性能也在不斷提升。但是,基于EEG 的情緒識別研究還遠未結束,依照目前的發(fā)展現(xiàn)狀,目前該領域還有一些關鍵性的問題有待進一步研究。
缺少權威且覆蓋面廣、數(shù)據(jù)量足夠大、公開可免費獲取的數(shù)據(jù)集:面對相同的實驗材料,不同個體對情緒的反應強烈程度不同,因此得到的腦電信號通用性較差,導致可使用的訓練數(shù)據(jù)有限。目前較為常用的數(shù)據(jù)集有DEAP 和SEED,兩個數(shù)據(jù)集的受試者人數(shù)較少,數(shù)據(jù)量較小且沒有覆蓋到各個年齡段和不同性格特征的人群;此外,還有很多研究者基于自己采集的腦電數(shù)據(jù)進行研究,很難與其他研究者的成果進行對比分析,不利于該領域的進一步發(fā)展。因此建立一個權威的、覆蓋面廣、數(shù)據(jù)量足夠大、公開可免費獲取的數(shù)據(jù)集對基于腦電信號的情緒識別研究非常重要。
最能反映情緒變化的電極尚未明確:目前,腦電情緒識別大多根據(jù)全通道的腦電信號進行研究,全通道腦電信號的采集不便于后續(xù)便攜式設備的開發(fā),且全通道腦電信號中存在大量冗余信息,為后續(xù)計算增加了難度。隨著可穿戴技術的發(fā)展,使用可穿戴腦電設備進行實時情緒識別應用前景廣泛,因此采用通道選擇技術來減少電極數(shù)量是當前研究熱點之一。目前,哪些電極與情緒狀態(tài)高度相關、最能反映情緒變化尚沒有普遍認可的標準。
缺少統(tǒng)一的情感識別方法集成框架:近些年來,隨著神經網(wǎng)絡、深度學習等技術的發(fā)展和應用,基于EEG 的情緒識別研究方法也越來越豐富,許多新方法也取得了良好的效果。但是,要將基于EEG 的情緒識別技術應用到實際生活中,還需要建立一個統(tǒng)一的綜合性方法框架,該框架應具有良好的普適性,能夠屏蔽不同性格、不同年齡層次、不同性別、不同種族、不同地區(qū)用戶的差異。
情感產生機理有待深入研究:情緒是如何產生的,情緒產生和哪些腦區(qū)高度相關,情緒產生過程中各腦區(qū)之間的連通性有什么變化,不同腦區(qū)之間如何協(xié)同工作,情緒轉換過程中腦功能網(wǎng)絡拓撲結構的動態(tài)變化特點,這些問題都有待進一步研究,以揭示情緒產生過程中大腦的內部機理。
綜上所述,情緒對人類的社交生活、行為調控、心理健康等各方面都有重要的影響,情緒識別研究具有十分重要的理論意義和應用價值。隨著腦電采集技術和信號處理技術的不斷進步,利用腦電信號進行情緒識別的相關研究越來越多,并且已經取得了一些被廣泛認可的研究成果。在目前已有的研究成果之上,不斷優(yōu)化基于腦電信號的情緒識別方法,找到和情緒狀態(tài)高度相關的腦區(qū)和頻段,開發(fā)出可靠的非用戶依賴的可穿戴情緒識別設備,發(fā)揮出腦電情緒識別研究的應用價值和社會效益是未來需要開展的重要工作。