章杭奎,劉棟軍,孔萬增
(1.杭州電子科技大學(xué) 計算機學(xué)院,浙江 杭州 310018; 2.浙江省腦機協(xié)同智能重點實驗室,浙江 杭州310018)
基于計算機視覺的目標圖像檢索應(yīng)用廣泛,然而有些目標具有偽裝、遮擋、環(huán)境變化以及不確定等特性,機器識別由于場景泛化能力弱、本征抽象難導(dǎo)致它對這類復(fù)雜目標難以準確識別[1-3]。而基于快速序列視覺呈現(xiàn)(rapid serial visual presentation, RSVP)的目標圖像檢索借助于人腦在看到目標圖像時產(chǎn)生的ERP來完成目標圖像檢索。RSVP實驗范式是通過快速呈現(xiàn)給被試一系列圖像,使得被試在發(fā)現(xiàn)目標圖像后腦電信號中產(chǎn)生事件相關(guān)電位(event-related potentials,ERP)。通過檢測ERP來判斷當前被試是否發(fā)現(xiàn)目標圖像。得益于人腦強大的泛化能力,其能夠?qū)Υ嬖趥窝b、遮擋的復(fù)雜目標圖像進行識別。ERP是腦電圖(electroencephalogram, EEG)中的一個誘發(fā)電位,其包含P300、N170、N200等成分,可以通過聽覺或者視覺等刺激來進行誘發(fā)[4]。
值得注意的是,在經(jīng)典的RSVP范式中ERP是基于單試次的,相比于基于多試次疊加檢測ERP的拼寫器范式,存在較大的難度。此外,在應(yīng)用RSVP范式進行在線的目標圖像檢測時往往存在跨時段甚至跨被試的問題??鐣r段檢測會受到被試個人精神狀態(tài)變化、腦電帽電極位置偏移、外部環(huán)境變化等因素的干擾,跨被試檢測還會受到被試間個體差異的影響[5]。
為了尋求更好的方法來提高單試次ERP檢測的準確率。Solis-Escalante等[6]提出了基于經(jīng)驗?zāi)B(tài)分解的單試次檢測方法,從P300的訓(xùn)練集中分解平均事件響應(yīng),在事件響應(yīng)分解上提供了一個很好的方向;Krusienski等[7]使用逐步線性判別分析(stepwise linear discriminant analysis, SWLDA)來對P300進行判別,在判別器層面提供了一個改進方向;Rivet等[8-9]提出了一種通過構(gòu)造一個空間濾波器來提高EEG數(shù)據(jù)信噪比的xDAWN算法,在EEG數(shù)據(jù)信噪比提升的方法改善上做出了貢獻;Lawhern等[10]提出了一個緊湊的卷積神經(jīng)網(wǎng)絡(luò)模型架構(gòu)EEGNet,為EEG數(shù)據(jù)的模式識別提供了一個優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型基線。然而這些模型都沒有對跨被試情況下的模式識別進行專門的優(yōu)化設(shè)計。
為了增強模型的跨被試性能,遷移學(xué)習(xí)被引入到EEG數(shù)據(jù)的模式識別當中,其思路是利用源域的信息來提高目標域的學(xué)習(xí)性能。Zanini等[11]提出了一種遷移學(xué)習(xí)方法,稱為RA-MDRM,通過利用來自其他被試的輔助數(shù)據(jù)來提高MDRM分類器的準確率。值得注意的是,該方法還需要用到來自新被試的少量有標簽的EEG數(shù)據(jù)。何赫等[12]提出了一種歐式空間EEG數(shù)據(jù)對齊的方法,通過將每個試次EEG數(shù)據(jù)的平均協(xié)方差矩陣映射到單位矩陣上來達到數(shù)據(jù)對齊的目的,這個方法無需用到來自新被試的標簽。但是這些方法只使用了單一特征來進行分類,可以考慮使用多特征方法來整合它們,從而進一步提高模型穩(wěn)定性[13]。
本文在以往研究者對RSVP、ERP檢測以及跨被試研究的基礎(chǔ)上,提出了一種面向跨被試RSVP的多特征低維子空間嵌入的ERP檢測方法。
圖1給出了使用本文多特征低維子空間嵌入方法這一特征聯(lián)合方法對腦電信號數(shù)據(jù)處理的整個流程。
圖1 腦電信號處理流程圖Fig.1 Flowchart of EEG signal processing
首先需要對腦電信號進行歐式空間對齊,將不同被試的腦電信號都對齊到同一個歐式空間,使得數(shù)據(jù)層面上各被試的數(shù)據(jù)表征更接近。
歐式空間對齊(euclidean space data alignment,EA)是一種遷移學(xué)習(xí)方法。其可以在不需要任何來源于新被試的EEG數(shù)據(jù)標簽的情況下,使得來自不同被試的EEG數(shù)據(jù)分布更加接近,即在歐式空間內(nèi)對齊被試的EEG數(shù)據(jù)[12]。目的在于通過這種方法來使得在原數(shù)據(jù)集上訓(xùn)練的分類器,在新的被試上同樣具有較優(yōu)表現(xiàn)。
假設(shè)一個被試有n個試次的EEG數(shù)據(jù),其中第i個試次的EEG數(shù)據(jù)為Xi,可以通過這n個試次計算參考矩陣。
接下來分為兩路對腦電信號進行處理,以此構(gòu)建腦電信號的多特征,防止單一特征在跨被試時對腦電信號的評價存在偏見。
1.2.1 腦電信號表層特征提取
第一路,負責提取腦電信號中人類能夠識別的表層特征,即其信號幅值。ERP在原始的時域上形成的波形具備一定的辨識度,因此對其信號幅值的觀察中會包含一些重要信息。由于直接使用信號幅值作為特征,易出現(xiàn)對訓(xùn)練集被試過擬合的問題。為了防止對訓(xùn)練集被試過度擬合,本文在此路中對信號進行了降采樣操作,并且采用xDAWN空域濾波器來提升ERP響應(yīng)的信噪比。
xDAWN是一種空域濾波的方法,旨在提高ERP響應(yīng)的信噪比。xDAWN最初是為 P300 誘發(fā)電位設(shè)計的,通過參照非目標響應(yīng)來增強目標響應(yīng),后來被推廣到ERP的檢測中。
xDAWN依據(jù)誘發(fā)電位的特點揭示了一個響應(yīng)模式
式中:S∈表示腦電信號,其中Nt表示采樣點個數(shù),Ns表示通道個數(shù);D∈ RNt×Ne是一個托普利茲矩陣(Toeplitz matrix),當存在刺激時其第一列的值被固定為1,A∈ RNe×Ns表示目標刺激的同步響應(yīng),Ne表示包含ERP的樣本數(shù)量;N表示大腦的持續(xù)活動及偽影。
1.2.2 腦電信號深層特征提取
第二路,負責提取腦電信號中深層的特征。由于被試間存在一定的個體差異,本文對由信號得到的特征多次使用標簽進行檢驗,以此讓特征中包含更多跨被試且ERP相關(guān)的信息。首先使用xDAWN空域濾波器提高信號信噪比;其次計算信號的協(xié)方差矩陣作為特征,減少跨被試時電極位置偏移的影響;最后將信號投影到切線空間,獲取其深層信息。
切線空間投影能夠?qū)⒁唤M協(xié)方差矩陣投影到它們的切線空間,該操作可以看成一個核操作[14-15]。切線空間投影可以看成是一個局部近似的流形學(xué)習(xí),在轉(zhuǎn)換樣本協(xié)方差矩陣的同時保留了流形的內(nèi)部結(jié)構(gòu)。
式中: δR表示協(xié)方差矩陣在黎曼空間距離的度量,可以采用梯度下降的方法求解出Cref。
下一步計算出Ci在切線空間的投影
其中,upper表示取矩陣的上三角矩陣,并將其向量化。在向量化的過程中,對主對角線的元素保持不變,非主對角線的元素乘。
在采用不同的特征提取方法獲得特征集F={f1,f2,···,fn}后,本文借用線性判別分析的思想來對數(shù)據(jù)進行有監(jiān)督降維,其主要目的是使得類內(nèi)離散度盡可能低,類間離散度盡可能高[17]。
首先借助標簽將特征集分成兩個集合F1,F2,分別表示0類和1類的特征集合。接著在原特征空間內(nèi)計算兩個集合的均值向量:
計算這兩類的類內(nèi)離散度矩陣:
總類內(nèi)離散度矩陣:
類間離散度矩陣定義是
接著計算S-1Sb最大特征值對應(yīng)的特征向量
w
ω,該特征向量即為特征一維化的投影方向。最終得到一維化后的特征
其中fi表示第i個樣本對應(yīng)的特征。
由于兩路特征采用不一樣的提取方法,位于不同的特征空間,如何將其聯(lián)合是一個關(guān)鍵點。
傳統(tǒng)方法中,直接將處于不同特征空間的特征合并到一個高維的混合的特征空間。其特征既存在相同部分(來源于一個特征空間的特征),也存在差異部分(來源于兩個特征空間的特征),而分類器本身不知道當前特征來源于哪一個特征空間,這會對分類器的分類任務(wù)增加困難,信息量的增加反而可能導(dǎo)致識別精度下降。
本文提出的方法是先將兩路得到的特征進行有監(jiān)督的降維,分別投影到兩個一維特征空間,再將兩個一維特征空間的特征合并看成兩個維度,重構(gòu)出二維的聯(lián)合特征空間,每一維的特征都是對先前提取的特征的高度凝練,不同的特征位于不同的維度,互不干擾。
設(shè)來源于兩個特征空間的特征集分別為Fa∈Rta×n和Fb∈ Rtb×n,通過特征一維化技術(shù)計算得到的兩個特征空間的投影方向分別為 ωa∈ Rta×1和ωb∈Rtb×1,則轉(zhuǎn)換后的特征:
得到轉(zhuǎn)換后的特征集Fc∈ R2×n位于新構(gòu)建的聯(lián)合特征空間。
在PhysioNetRSVP數(shù)據(jù)集和清華RSVP數(shù)據(jù)集下進行測試。數(shù)據(jù)集均為RSVP范式下的數(shù)據(jù)集,RSVP實驗過程如圖2所示。
圖2 RSVP實驗范式圖Fig.2 RSVP experiment diagram
該數(shù)據(jù)集來自PhysioNet,包含來自11個健康被試的EEG數(shù)據(jù)[18]。每個被試都被要求坐在屏幕前接受快速序列視覺呈現(xiàn),視覺呈現(xiàn)的頻率分別為5、6和10 Hz。用于刺激呈現(xiàn)的圖像是來自谷歌地圖的衛(wèi)星影像,可以分為包含飛機的目標圖像和沒有飛機的非目標圖像兩類。以2 048 Hz頻率記錄的8通道的腦電信號。通道分布遵循10-20國際標準導(dǎo)聯(lián)系統(tǒng)(PO8, PO7, PO3, PO4, P7, P8,O1 和 O2),最終采用記錄的腦電信號來識別圖像是否為目標圖像。
本文選取了其中視覺呈現(xiàn)頻率為5 Hz (1 s 5張圖像)版本的腦電信號,經(jīng)過[0.15,28]Hz濾波,并將來源于該數(shù)據(jù)集的腦電信號降采樣到256 Hz,其中目標和非目標的比例為1∶9。
該數(shù)據(jù)集來自清華腦機接口研究組,其包含來自64個健康被試的EEG數(shù)據(jù)。每個被試同樣被要求坐在屏幕前接受快速序列視覺呈現(xiàn),刺激頻率為10 Hz (1 s 10張圖像)。刺激圖片從麻省理工大學(xué)計算機科學(xué)與人工智能圖書館下載。刺激圖像是兩類街景圖像:包含人類的目標圖像和沒有人類的非目標圖像。以1 000 Hz頻率記錄的64通道的腦電信號,通道分布遵循10-20國際標準導(dǎo)聯(lián)系統(tǒng),最終采用記錄的腦電信號來識別圖像是否為目標圖像。
本文選取了其中前10位被試的EEG數(shù)據(jù)來檢驗?zāi)P?,EEG數(shù)據(jù)已降采樣到250 Hz,并且經(jīng)過[2,30]Hz濾波,根據(jù)數(shù)據(jù)集原文建議刪除了第33個、第43個信號較差的通道[19],其中目標和非目標的比例約為1∶49。
本文采用留一被試法來對結(jié)果進行交叉驗證,即每次選定一個被試的腦電數(shù)據(jù)作為測試集,其他被試的數(shù)據(jù)作為訓(xùn)練集。分類器均固定為收縮協(xié)方差矩陣的線性判別分析[20].
由于目標圖像和非目標圖像的比例較為懸殊,存在樣本不均衡的現(xiàn)象。單純的準確率指標無法有效體現(xiàn)不均衡數(shù)據(jù)集的真實表現(xiàn),而平衡準確率 (balanced classification accuracy,BCA)能較好的對不平衡樣本的識別結(jié)果進行評價,因此本文采用平衡準確率來作為評價指標。
將標簽為1的樣本稱為正樣本,標簽為0的樣本稱為負樣本。TP表示正樣本預(yù)測正確,F(xiàn)P表示負樣本預(yù)測錯誤,F(xiàn)N表示正樣本預(yù)測錯誤,TN表示負樣本預(yù)測正確。
將清華RSVP數(shù)據(jù)集中的第一位被試看到目標圖像時的腦電信號疊加,如圖3所示??梢钥吹狡湓诩s300 ms時腦前區(qū)的信號幅值較大,屬于ERP中的P300成分,說明了該被試確有P300被誘發(fā)。
圖3 被試1對齊前目標腦電信號圖Fig.3 The EEG signal of target before alignment of S1
從圖4可以看到對齊后目標腦電信號圖相比對齊前,多數(shù)通道信號的變化更為平穩(wěn)、均勻,這有助于縮小被試間的差異。通過觀察圖3、4、5、6,對比被試1和被試10對齊前后的腦電信號可以發(fā)現(xiàn),歐式空間對齊使得原本來源于不同被試的差異較大的腦電信號更為接近。
圖4 被試1對齊后目標腦電信號圖Fig.4 The EEG signal of target after alignment of S1
圖6 被試10對齊后目標腦電信號圖Fig.6 The EEG signal of target after alignment of S10
本文在此處對不同方法提取到的特征采用t-sne進行降維可視化[21]。
從圖7中可以僅采用一種特征提取方法對于在使用t-sne降維到二維空間后僅有小范圍的目標樣本聚集,目標樣本的類內(nèi)離散度較高,其與非目標樣本直接的類間離散度較低。
圖7 聯(lián)合前特征降維Fig.7 Feature dimensionality reduction before union
從圖8對比直接特征聯(lián)合和本文特征聯(lián)合方法之間的差別,直接特征聯(lián)合由于切線空間投影的數(shù)據(jù)尺度相比xDAWN的數(shù)據(jù)尺度較大,xDAWN包含的信息被忽視,使得降維后的樣本分布與切線空間投影相似。而本文特征聯(lián)合方法重構(gòu)得到的二維空間下的樣本,由于預(yù)先采用了標簽數(shù)據(jù)進行學(xué)習(xí),相比于直接特征聯(lián)合能夠更清晰地區(qū)分正負樣本。
圖8 聯(lián)合后特征降維Fig.8 Feature dimensionality reduction after union
在這里本文展現(xiàn)了不同特征提取方法在采用不同長度分段的情況下跨被試分類的平衡準確率。長度分段是指在對腦電數(shù)據(jù)進行分割時采用的時長t,以當前試次開始點為時間零點,截取時間間隔[0,t]的腦電數(shù)據(jù)作為當前試次對應(yīng)腦電樣本。
表1給出了其在 PhysioNetRSVP 數(shù)據(jù)集下的表現(xiàn),從中可以看出以下幾點現(xiàn)象。首先,使用歐式空間對齊數(shù)據(jù)的分類效果普遍比不對齊數(shù)據(jù)要好。驗證了本文在特征聯(lián)合的同時使用對齊數(shù)據(jù)策略的正確性。其次,在7個不同長度分段下,本文的特征聯(lián)合方法在其中5個長度分段下達到了最好的分類效果,而直接聯(lián)合只在1個長度分段下達到最優(yōu)。最后,本文特征聯(lián)合方法在7個長度的分段下,沒有遇到過分類效果最差的情況。
表1 PhysioNetRSVP下的平衡準確率Table 1 Balanced classification accuracy under PhysioNetRSVP
表2給出了其在清華 RSVP 數(shù)據(jù)集下的表現(xiàn),同樣可以發(fā)現(xiàn)使用歐式空間對齊數(shù)據(jù)策略的正確性,本文特征聯(lián)合方法在7個不同長度分段下,均達到了最優(yōu)效果。其標準差相較于其他方法也更低,即具備更優(yōu)的穩(wěn)定性。
表2 清華RSVP下的平衡準確率Table 2 Balanced classification accuracy under Tsinghua RSVP
值得注意的是,由于被試間個體差異較大[22-23],需要對同一模型在不同被試上的表現(xiàn)進行觀察。在這里,本文選用每個被試長度分段在0.7 s及以上且采用數(shù)據(jù)對齊的實驗結(jié)果做平均值,可以從圖9、10觀察各特征提取方法在不同被試上分類效果的表現(xiàn)。
圖9 PhysioNetRSVP不同被試的平衡準確率Fig.9 BCA of different subjects under PhysioNetRSVP
在 PhysioNetRSVP 數(shù)據(jù)集的11個被試中, 本文特征聯(lián)合方法在7個被試上達到了最優(yōu);在清華 RSVP 數(shù)據(jù)集的10個被試中,本文特征聯(lián)合方法在6個被試上達到了最優(yōu)。本文特征聯(lián)合方法在兩個數(shù)據(jù)集上的均值都達到了最優(yōu)。
圖10 清華RSVP不同被試的平衡準確率Fig.10 BCA of different subjects under Tsinghua RSVP
本文提出了一種面向跨被試RSVP的多特征低維子空間嵌入的ERP檢測方法。采用歐式空間對齊作為遷移方法,平衡準確率作為評價指標,留一被試法作為檢驗方法,分別在PhysioN-etRSVP數(shù)據(jù)集和清華RSVP數(shù)據(jù)集下,探索了該方法在不同腦電長度分段以及不同被試下的表現(xiàn),并且與切線空間投影特征提取方法、xDAWN特征提取方法以及直接特征聯(lián)合方法進行了對比。本文特征聯(lián)合方法在兩個數(shù)據(jù)集共計14個長度分段下,有12個長度分段達到最優(yōu)分類效果。在兩個數(shù)據(jù)集的超過半數(shù)被試上達到了最優(yōu)的分類效果。實驗結(jié)果表明,本文提出的特征聯(lián)合方法能夠有效整合來自兩個不同空間的特征,使得分類結(jié)果更具可靠性。