郭柳君,張雪英,陳桂軍
(太原理工大學(xué) 信息與計算機學(xué)院,山西 太原 030024)
腦機接口(brain-computer interface,BCI)是一種不依賴外圍神經(jīng)肌肉,只通過腦電信號便可直接操控電腦或開動機器、實現(xiàn)人與外部信息交互的新技術(shù)。目前,人們普遍認為基于事件相關(guān)電位(event related potential,ERP)的BCI系統(tǒng)(ERP-BCI)較為高效和穩(wěn)定[1]。視覺和聽覺是人類獲取信息最主要的兩種感覺通道,且視聽交互結(jié)合優(yōu)于單個感覺通道。但關(guān)于視、聽覺的ERP-BCI大多數(shù)僅采用視覺或聽覺單一模態(tài)刺激,近年來,一些學(xué)者開始針對視聽交互刺激的BCI范式進行研究:Cui等[2]將相同圖片在8個不同位置隨機出現(xiàn)與8個不同單音節(jié)語音刺激相結(jié)合來構(gòu)建視聽交互刺激;Barbosa等[3]將視覺單詞圖片與對應(yīng)的語音發(fā)聲刺激相結(jié)合來構(gòu)建視聽交互刺激。上述研究均得到視聽雙模態(tài)刺激具有更好性能的結(jié)論,但采用的BCI范式都基于腦電信號的某一特征,能夠提供的有用信息較少。Pfurtscheller和Allison等提出混合腦機接口的概念。Yu等[4]將SSVEP和運動想象(motor imagery,MI)結(jié)合提出一種混合反饋范式,實現(xiàn)了患者意圖的檢測。為此,本文提出了基于視聽交互刺激的混合腦機接口,分別設(shè)計了混合運動視覺誘發(fā)電位(motion-onset visual evoked potential,mVEP)和P300的語義一致的視聽覺誘發(fā)實驗、混合mVEP和P300的語義不一致的視聽覺誘發(fā)實驗,并以基于mVEP的視覺誘發(fā)實驗和基于P300的聽覺誘發(fā)實驗為對照進行研究,研究驗證了視聽混合誘發(fā)范式的優(yōu)越性。
本實驗招募了7名年齡在21歲-25歲的健康被試,其中男生2名,女生5名,均為在校研究生,都有正常的聽力以及正?;虺C正到正常的視力,實驗前都簽署知情同意書,并在實驗后給予一定的報酬。
實驗包括視覺、聽覺和視聽覺3類刺激,見表1。其中視覺、聽覺刺激分別有目標刺激和非目標刺激兩種形式,視聽覺刺激有目標刺激、非目標刺激以及兩者的組合刺激3種形式。實驗采用Oddball范式[5],目標刺激和組合刺激出現(xiàn)的概率共占20%,非目標刺激出現(xiàn)的概率占80%。如圖1所示,數(shù)字0-9所在的矩形區(qū)域按順時針方向均勻的分布在整個界面內(nèi),每個區(qū)域的寬為6.1°,高為1.7°。刺激程序由E-prime 3.0編寫,呈現(xiàn)在17寸顯示器上。視覺刺激采用mVEP刺激范式,從刺激開始時刻到刺激后200 ms內(nèi),一個小正方形隨機地快速從其中一個區(qū)域的左邊向右邊運動,若該區(qū)域是目標數(shù)字所在區(qū)域,則該刺激為視覺目標刺激(V),否則,為視覺非目標刺激(v)。聽覺刺激為0-9對應(yīng)的自然語音的錄音,持續(xù)時間為200 ms,由頭戴式耳機呈現(xiàn),刺激開始后,若出現(xiàn)的是目標數(shù)字對應(yīng)的自然語音,則該刺激為聽覺目標刺激(A),否則,為聽覺非目標刺激(a)。視聽覺刺激由視覺和聽覺刺激同時呈現(xiàn),共有5種不同類型的刺激,分別為視聽覺目標刺激(VA)、視覺目標刺激聽覺非目標刺激(Va)、視覺非目標刺激聽覺目標刺激(vA)、語義一致的視聽覺非目標刺激(va_c)、語義不一致的視聽覺非目標刺激(va_ic)。
表1 刺激類型
圖1 刺激界面
實驗在屏蔽室中進行,被試距離顯示器50 cm,保持舒適的坐姿,眼睛注視屏幕正中央。對于每個試次,上述9種刺激隨機出現(xiàn),刺激呈現(xiàn)時間為200 ms,刺激間隔為1000 ms-1800 ms的隨機間隔。每組實驗有375個試次(目標和組合試次共75個,所有試次偽隨機呈現(xiàn)),共6組(目標數(shù)字的順序在不同被試間平衡)。每組實驗結(jié)束后,被試可根據(jù)實際情況休息一段時間。實驗過程中要求被試同時注意視覺和聽覺通道的信息,并對目標刺激以及組合刺激盡快地做出按鍵反應(yīng)。正式實驗之前,每名受試者都進行50個試次的練習(xí)。實驗過程中要求被試頭盡量保持不動,并且少眨眼。
使用NeuroScan SynAmps2系統(tǒng)采集受試者的腦電信號。64導(dǎo)電極位置參照國際10-20系統(tǒng),參考電極在Fz和Cz之間,接地電極在Fz和FPz之間,放大器采用0 Hz-100 Hz濾波,采樣頻率為1000 Hz,頭皮與電極之間的阻抗小于5 kΩ。實驗的行為數(shù)據(jù)(被試是否進行按鍵反應(yīng)以及從刺激開始到被試做出反應(yīng)的時間)用E-prime 3.0記錄。在ERP分析前,采集到的腦電數(shù)據(jù)需用EEGLAB進行如下預(yù)處理:將參考電位轉(zhuǎn)換為左右乳突的平均值,并對原始信號進行0.1 Hz-30 Hz的帶通濾波。按照刺激呈現(xiàn)時間的-200 ms-800 ms對濾波后的信號進行分段,以-200 ms-0 ms為基準進行基線校正。結(jié)合行為學(xué)數(shù)據(jù),手動剔除被試反應(yīng)錯誤的段。同時,包含較大偽跡的段也被剔除。最后,使用獨立成分分析的方法去除眼電偽跡。然而在分類性能的研究中,對刺激后0 ms-650 ms的數(shù)據(jù)進行0.1 Hz-20 Hz的8階帶通濾波,并且保留所有的數(shù)據(jù)段。
1.4.1 行為學(xué)數(shù)據(jù)分析
對于需要反應(yīng)的5種刺激類型(見表1),分別將實驗記錄的每個被試是否對該類型試次進行反應(yīng),以及反應(yīng)時間的數(shù)據(jù)進行統(tǒng)計。將所有被試對該類型刺激的反應(yīng)時間和反應(yīng)的正確率(反應(yīng)正確的試次數(shù)與需要反應(yīng)的總試次數(shù)的比值)求平均值得到該刺激類型的平均反應(yīng)時間和平均反應(yīng)正確率。為了研究被試對視聽雙模態(tài)刺激與視或聽單模態(tài)刺激的反應(yīng)在行為學(xué)上的差異,用SPSS 17.0分別對V和VA、V和Va、A和VA、A和vA這4對刺激的反應(yīng)時間和反應(yīng)正確率進行配對樣本t檢驗,檢驗的顯著性水平為p<0.05。
1.4.2 ERP統(tǒng)計分析
對目標刺激以及組合刺激的ERP數(shù)據(jù)進行分析。首先,將每個被試的ERP按不同刺激類型分類疊加平均,然后,計算所有被試每個刺激類型的總平均波形。在進行分析時,僅考慮我們感興趣的ERP成分幅值較大的12個電極,分別為F3、Fz、F4、FC3、FCz、FC4、C3、Cz、C4、CP3、CPz和CP4。為了對比不同刺激類型的ERP成分幅值的差異,我們計算刺激后0 ms-600 ms的波形分別在每30 ms時間窗內(nèi)的平均幅值,利用SPSS 17.0分別對V和VA、V和Va、A和VA、A和vA這4對刺激的每個時間窗內(nèi)的平均幅值進行三因素重復(fù)測量方差分析:刺激類型×橫向電極(r1,r2,r3,r4)×縱向電極(c1,c2,c3)。檢驗的顯著性水平為p<0.05,分析結(jié)果經(jīng)過Greenhouse-Geisser校正。若兩個或兩個以上因素之間交互效應(yīng)顯著,則進行簡單效應(yīng)分析[6]。
1.4.3 空-頻域腦電特征提取及分類識別
本文提出一種特征提取方法(CSP-PSD),該方法將共空間模式(common spatial pattern,CSP)和功率譜密度(power spectrum density,PSD)相結(jié)合,有效利用了腦電信號的空域及頻域信息,圖2為該方法的流程。
圖2 空-頻域腦電特征提取流程
具體過程如下:X1∈RNc×Nt和X2∈RNc×Nt分別為目標刺激和非目標刺激所誘發(fā)的腦電信號,其中Nc為腦電信號的通道數(shù),Nt為采樣點數(shù)[7]。
X歸一化后的協(xié)方差矩陣R為
(1)
式中:XT表示矩陣X的轉(zhuǎn)置,traceX表示矩陣對角線元素的和。
對復(fù)合協(xié)方差矩陣進行對角化分解
(2)
將特征值進行降序排列,白化矩陣為
(3)
(4)
對S進行主分量分解,得
(5)
可以證明矩陣S1的特征向量和矩陣S2的特征向量相等,即B1=B2=V,同時,兩個特征值的對角陣α1與α2之和為單位矩陣,即α1+α2=I。S1的最大特征值對應(yīng)的特征向量對應(yīng)S2最小特征值,反之亦然[8]。對白化腦電信號的最大特征值的特征向量進行變換,可以獲得兩個信號矩陣的最優(yōu)分離方差。投影矩陣W表示為
W=BT×P
(6)
將X經(jīng)過構(gòu)造的空間濾波器W可得到
Z0=W×X
(7)
對Y求平均功率譜密度[9]
C=EFYt·Yt+τ
(8)
式中:E{ }為求均值,F(xiàn)[ ]為求其傅里葉變換。
特征向量f=f1,f2,…,f2mT∈R2m×1定義為
(9)
為了研究不同類型刺激下目標和非目標腦電信號的分類準確率,對預(yù)處理后的腦電信號進行下采樣,下采樣率為25。采用支持向量機(support vector machine,SVM)對其進行分類,分類結(jié)果經(jīng)過6-fold交叉驗證進行矯正。為了驗證本文提出的CSP-PSD特征的有效性,將該特征的分類準確率與原始采樣點下采樣特征和CSP特征進行對比。
如圖3所示(圖中**表示p≤0.001),與單一視覺刺激相比,加入與視覺刺激語義一致的聽覺刺激時,受試者更容易識別到目標刺激,表現(xiàn)為反應(yīng)時間的顯著減少(V vs. VA,t=-5.721,p=0.001)以及較低的平均反應(yīng)錯誤率;而加入與視覺刺激語義不一致的聽覺刺激時,對視覺目標刺激的識別沒有明顯的促進作用,也沒有明顯的抑制作用。與單一聽覺刺激相比,加入與聽覺刺激語義一致的視覺刺激時,受試者也更容易識別到目標刺激,同樣表現(xiàn)為反應(yīng)時間的顯著減少(A vs. VA,t=-8.041,p<0.001)以及較低的平均反應(yīng)錯誤率;而加入與聽覺刺激語義不一致的視覺刺激時,對聽覺目標刺激的識別沒有明顯的促進作用,也沒有明顯的抑制作用。通過以上分析發(fā)現(xiàn),語義一致的視聽刺激促進認知,而語義不一致的視聽刺激則沒有促進作用。
圖3 行為學(xué)分析結(jié)果
ERP可以很好反應(yīng)大腦的思維活動,這里主要討論幅值較大的N1、P2、P3成分。N1是早期聽覺注意最重要的成分,P2表征大腦對無關(guān)刺激的抑制能力,而P3表征大腦資源的調(diào)用情況。為了對比不同類型的刺激下大腦的響應(yīng)特性,采用重復(fù)測量方差分析以及簡單效應(yīng)分析對其ERP進行研究,分析結(jié)果通過圖4呈現(xiàn)。
結(jié)合ERP時域波形(圖4左,陰影部分表示兩種腦電信號的幅值在該時間范圍內(nèi)存在顯著差異,即p<0.05)以及重復(fù)測量方差分析結(jié)果(表2第二列)可得到:與V相比,VA誘發(fā)的N1、P3成分的幅值更大;與V相比,Va誘發(fā)的N1、P2成分幅值更大;與A相比,VA誘發(fā)的P3成分幅值更大;與A相比,vA誘發(fā)的P2、P3成分幅值更大。N1成分幅值略小。我們注意到,無論視聽覺刺激是否語義一致,視聽雙模態(tài)刺激總是誘發(fā)出更大幅值的ERP(除視聽覺刺激誘發(fā)的N1成分比單一聽覺刺激誘發(fā)的N1成分幅值略小外)。
圖4 不同刺激類型的腦電信號時域波形圖(左)及地形圖(右)
表2 重復(fù)測量方差分析及簡單效應(yīng)分析結(jié)果
結(jié)合腦電地形圖(圖4右)及簡單效應(yīng)分析結(jié)果(表2第三、四、五列)可得到:①N1成分:視覺N1成分幅值較小,聽覺N1成分在額區(qū),額中央?yún)^(qū),中央?yún)^(qū)幅值較大,視聽覺VA的N1成分在額區(qū)、額中央?yún)^(qū)的中線附近幅值較大,視聽覺Va的N1成分在額區(qū)幅值較大,視聽覺vA的N1成分在額中央?yún)^(qū)的中線左側(cè)幅值較大。由表2可得,V和VA的N1成分的交互效應(yīng)在額區(qū)、額中央?yún)^(qū)、中央?yún)^(qū)的中線附近比其它區(qū)域更顯著。A和vA的N1成分的交互效應(yīng)在額中央?yún)^(qū)的中線右側(cè)更顯著。②P2成分:視覺、聽覺、視聽覺VA的P2成分幅值較小,視聽覺Va的P2成分在額中央?yún)^(qū)、中央?yún)^(qū)的中線附近幅值較大,視聽覺vA的P2成分在額中央?yún)^(qū)的中線附近幅值較大。V和Va的P2成分的交互效應(yīng)在額中央?yún)^(qū)的中線及中線右側(cè)顯著。A和vA的P2成分的交互效應(yīng)在中線處顯著。③P3成分:聽覺P3成分幅值較小,視覺P3成分在中央?yún)^(qū)、中央頂葉區(qū)、頂葉區(qū)的中線附近幅值較大,視聽覺VA和Va的P3成分在整個中央?yún)^(qū)、中央頂葉區(qū)、頂葉區(qū)幅值較大,視聽覺vA的P3成分在頂葉區(qū)幅值較大,A和VA的P3成分的交互效應(yīng)在額中央?yún)^(qū)、中央?yún)^(qū)、中央頂葉區(qū)的中線附近更顯著。
如圖5所示,每種刺激類型的最高分類準確率均是由被試2取得,且語義一致的視聽覺刺激的分類準確率為85.56%,顯著高于其它刺激類型。值得注意的是,每個被試的最高分類準確率都在VA或Va類型的刺激時達到,其中,被試2,3,5,6在VA的分類準確率略高于Va。而所有被試各個刺激類型的平均分類準確率也表明VA(74.19%)和Va(74.31%)明顯高于其它刺激類型。
圖5 不同刺激類型的分類準確率
以VA刺激類型為例來驗證本文提出的特征提取方法,如圖6所示。傳統(tǒng)的CSP相比于原始采樣點下采樣特征的分類準確率有了很大的提高,其中被試4提高了29.77%(最多),被試2提高了10.66%(最少),驗證了該方法對于本數(shù)據(jù)集的適用性。采用本文提出的CSP-PSD特征后所有被試的平均分類準確率與傳統(tǒng)CSP相比提高了4.92%,每個被試的分類準確率都達到95%以上,被試2和被試5的分類準確率均達到99.11%。
圖6 不同特征提取方法的分類準確率
以往關(guān)于字符拼寫矩陣的研究大多采用黑色背景刺激界面,而本文采用的白色背景刺激界面具有更好的性能[10]。實驗采用的刺激呈現(xiàn)方式為SC范式,即在每次刺激呈現(xiàn)時僅閃爍一個刺激單元。該范式不易受近鄰干擾及雙閃問題的影響,同時也不易引起眼睛的不適,雖然犧牲了信息傳輸速率,但對于數(shù)字拼寫這樣的小尺寸矩陣來說有一定的優(yōu)勢。實驗中視聽覺刺激呈現(xiàn)的時間一致性以及要求被試分配注意(即同時注意視覺和聽覺通道的信息)都有利于視聽覺信息整合,從而誘發(fā)更有利的腦電信號。本文采用的mVEP,具有較大的特異性波幅、較小的被試間以及被試內(nèi)差異,并且與SSVEP相比不易讓被試產(chǎn)生視覺疲勞[11]。
研究采用行為學(xué)分析和ERP分析,行為學(xué)結(jié)果顯示,語義一致的視聽覺刺激促進認知,而語義不一致的視聽覺刺激則沒有促進作用。ERP分析結(jié)果顯示,從視覺角度來看,聽覺刺激的加入在額區(qū)以及額中央?yún)^(qū)誘發(fā)出更大幅值以及更廣范圍的N1成分。N1成分被認為是早期聽覺注意最重要的成分。而從聽覺角度來看,視覺刺激的加入使得誘發(fā)出N1成分的幅值減小,這是由于實驗要求被試分配注意,視、聽覺通道同時刺激使得被試對聽覺的關(guān)注有所減少。語義一致的視聽覺刺激比單一視覺或聽覺在中央頂葉區(qū)以及頂葉區(qū)誘發(fā)出的P3成分幅值更大,P3幅值的大小反應(yīng)大腦資源的調(diào)用情況,幅值越大,調(diào)用資源越多。說明大腦在處理語義一致的視聽覺信息時調(diào)用更多的資源。語義不一致的視聽覺刺激比單一視覺或聽覺在額中央?yún)^(qū)中線附近誘發(fā)出P2的幅值更大,P2反應(yīng)大腦對無關(guān)刺激的抑制能力,非目標刺激的加入,使得誘發(fā)出的P2成分幅值更大。
分類性能分析結(jié)果表明,VA和Va兩種刺激范式表現(xiàn)出良好的性能,這得益于其誘發(fā)出較大的ERP幅值,尤其是Va不僅誘發(fā)出很大幅值的P3成分,也誘發(fā)出較大幅值的P2成分。對于VA,本文提出的CSP-PSD特征相比于傳統(tǒng)CSP特征的平均分類準確率提高了4.92%。
將視聽覺語義一致與否作為變量去設(shè)計字符拼寫應(yīng)用是本研究與前人研究的不同之處。視聽雙模態(tài)刺激誘發(fā)的ERP幅值更大,也因此具有更高的分類準確率。值得注意的是,語義不一致的視聽覺刺激誘發(fā)出較大幅值的P2成分,這為一直以來依賴P3成分識別目標刺激的腦機接口提供了新的思路。因P2成分潛伏期比P3成分短,有望成為提高腦機接口的信息傳輸速率的一個方法。而且,本文提出的CSP-PSD特征也可以用在其它腦電信號的特征提取中。