融合多尺度自注意力機制的運動想象信號解析

2023-06-07 08:30:40董澤浩王少華

計算機與生活 2023年6期

劉京，趙薇，董澤浩，王少華，王余

1.河北師范大學(xué)計算機與網(wǎng)絡(luò)空間安全學(xué)院，石家莊050024

2.河北師范大學(xué)軟件學(xué)院，石家莊050024

3.河北師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院，石家莊050024

腦電圖（electroencephalogram，EEG）是由Hans Berger 于1924 年首先檢測到并命名，是測量電極和基準參考電極所采集得到電位的差值，是兩個電極間大量神經(jīng)元自發(fā)性、節(jié)律性放電的電位差的記錄。EEG由于其簡單、安全和低廉的優(yōu)勢而被廣泛用于許多非侵入性腦機接口（brain-computer interface，BCI）系統(tǒng)的研究中[1]。BCI通過腦電信號和解碼技術(shù)在人腦和計算機之間建立直接通路。早期的BCI 系統(tǒng)主要用于中風康復(fù)或改善殘疾患者的生活質(zhì)量，如控制電動輪椅[2]、文字拼寫器[3]和假肢[4]等。近些年，BCI系統(tǒng)不僅僅局限于殘疾患者，還被廣泛應(yīng)用于健康人群[5]。在不同類型的EEG信號中，運動想象（motor imagery，MI）腦電信號作為一種經(jīng)典范例已經(jīng)研究和開發(fā)了數(shù)十年。其生理學(xué)基礎(chǔ)是，當人們用雙手、雙腳或舌頭想象或執(zhí)行動作時，在腦半球的對側(cè)和同側(cè)的感覺運動區(qū)域中，mu（8～12 Hz）和beta（16～26 Hz）節(jié)律的能量受到抑制或促進，即產(chǎn)生事件相關(guān)同步/去同步（ERS/ERD）現(xiàn)象[6]。

BCI 的關(guān)鍵問題是如何實現(xiàn)腦電信號的精確分類，盡管學(xué)者們在MI分類方面提出了許多方法，包括機器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法，但是仍然面臨著許多挑戰(zhàn)。首先，之前的方法主要選擇在感覺運動區(qū)域的電極（如C3、Cz、C4電極）記錄的腦電信號，但不同身體部位的MI可能會激活大腦的不同功能區(qū)域[7]，所有的大腦功能區(qū)域都會對不同的MI 任務(wù)產(chǎn)生一定的影響，而不僅僅是感覺運動區(qū)域。由于MIEEG 信號活動的幅值與響應(yīng)時間因人而異，無法確定哪個腦區(qū)與MI 最相關(guān)[8]。其次，MI 信號在時間上是連續(xù)的，具有低信噪比（signal-to-noise ratio，SNR）的特性，并且容易受到多種生物學(xué)因素（如眨眼、心臟跳動和肌肉活動產(chǎn)生的眼電、心電和肌電）或環(huán)境偽影（如機器的工頻噪聲）的影響。這些目前面臨的挑戰(zhàn)的組合使得以前的方法提取特征的能力有限，并且分類準確率較低。

為了克服如上問題，本文提出了一種基于注意力機制的多尺度時空自注意力網(wǎng)絡(luò)模型，用于原始MI-EEG信號的運動想象任務(wù)分類，該模型由特征提取模塊、特征融合模塊與特征分類模塊組成。本文方法假設(shè)在大腦活動過程中，與運動想象相關(guān)的通道應(yīng)分配更高的權(quán)重值。權(quán)重值根據(jù)本文提出的空間自注意力機制計算得到，該機制捕獲高級可區(qū)分的空間特征，并在原始MI-EEG信號數(shù)據(jù)的空間域中定義更緊湊、更集中的表現(xiàn)形式。MI-EEG信號是一種非平穩(wěn)時序信號，可以采用時間卷積神經(jīng)網(wǎng)絡(luò)（temporal convolutional neural networks，TCN）提取EEG信號隨時間變化的狀態(tài)和程度，且TCN 可以通過擴張卷積和改變卷積核大小的方式來保證淺層網(wǎng)絡(luò)獲得更大的感受野，同時其反向傳播路徑與序列的時間方向不同，因此TCN 在一定程度上可以避免梯度消失和爆炸的問題。本文在TCN 網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上，采用并行多尺度TCN 層，以解決MI-EEG 信號中時間域上存在的噪聲干擾的問題，同時可以提取不同尺度的時間域特征信息，與空間自注意力機制得到的空間域特征信息相結(jié)合，得到豐富的時空域特征信息，進一步提高分類性能。本文的主要工作如下：

（1）在空間域中，本文使用空間自注意力機制層提取任意兩個通道的腦電信號之間的潛在空間聯(lián)系。某一通道的特征通過加權(quán)求和的方式聚合所有通道上的特征來更新，其中的權(quán)重是通過相應(yīng)通道之間的特征相似性計算得到的。定義了一種新的原始MI-EEG信號空間域特征信息的表示形式，通過自動分配較高的值給運動相關(guān)的通道，較低的值給運動無關(guān)的通道來選擇最佳的通道。該層提高了分類精度，消除了人工選擇信號通道所產(chǎn)生的特征信息的丟失。

（2）在時間域中，MI-EEG 信號是連續(xù)的時序信號，具有信噪比低的特性，從原始腦電信號中提取與MI 相關(guān)的特征信息相對困難。因此，本文使用并行多尺度TCN 層消除時間域特征信息中的噪聲，并利用不同時間尺度的TCN網(wǎng)絡(luò)提取不同尺度下的時間域特征信息。

（3）將兩層得到的特征圖拼接融合，得到MIEEG空間域與時間域特征信息增強的特征圖。為了驗證所提出模型的性能，將該模型在三個公共數(shù)據(jù)集上進行了評估。相應(yīng)結(jié)果表明，本文方法在MI-EEG的分類任務(wù)上優(yōu)于幾種傳統(tǒng)方法（平均提高11.84%），與基于DL 的方法相比，本文方法也處于領(lǐng)先水平。為了直觀地從生理上驗證所提出的空間自注意力機制的合理性，本文繪制了MI-EEG 數(shù)據(jù)的腦地形圖，據(jù)此來說明MI 不僅激活了C3、C4、Cz 通道，而且還影響了其他的通道。

1 相關(guān)工作

針對MI-EEG 信號的分類已有許多研究。這些研究可以分為兩類：傳統(tǒng)研究方法和基于深度學(xué)習(xí)的方法。在傳統(tǒng)研究方法中，共空間模式（common spatial pattern，CSP）算法[9]及其變體，如濾波器組共空間模式（filter bank common spatial pattern，F(xiàn)BCSP）[10]，被廣泛用于從多通道EEG數(shù)據(jù)中提取特征的空間分布。Jin 等人[11]使用Pearson 的相關(guān)系數(shù)手動選擇包含最相關(guān)信息的通道，然后使用正則化的共空間模式（regularized common spatial pattern，RCSP）提取有效特征，并使用支持向量機（support vector machine，SVM）作為分類器。但是，特征選擇工程在很大程度上取決于手工特征的選擇，依賴于人類的經(jīng)驗。此外，由于MI-EEG具有有限的空間分布，易受噪聲干擾，信噪比（signal-to-noise ratio，SNR）低和隨時間發(fā)生變化的高動態(tài)特性，傳統(tǒng)方法無法實現(xiàn)高精度解碼。

目前，深度學(xué)習(xí)（deep learning，DL）在各個領(lǐng)域中均表現(xiàn)出優(yōu)越的性能，尤其是在計算機視覺、自然語言處理和語音識別方面取得了巨大成就，在各種醫(yī)學(xué)應(yīng)用中也表現(xiàn)出卓越的性能[12-14]。DL 的發(fā)展引起了BCI 領(lǐng)域研究人員的關(guān)注。相關(guān)研究包括基于深度學(xué)習(xí)模型的腦電特征提取[15]、癲癇病的預(yù)測和監(jiān)測[16-17]、分類[18-19]和聽覺音樂檢索[20]。

深度學(xué)習(xí)在基于MI-BCI系統(tǒng)的分類任務(wù)中發(fā)展迅速，根據(jù)網(wǎng)絡(luò)的輸入形式，基于DL 的MI 分為兩類：特征輸入網(wǎng)絡(luò)和原始信號輸入網(wǎng)絡(luò)。特征輸入網(wǎng)絡(luò)的MI腦電信號分類分兩個階段完成。首先，通過傳統(tǒng)的特征提取方法，如功率譜分析、小波變換和CSP 等，將MI-EEG 信號的空間、頻譜和時間信息組合在一起，將1D 的特征向量人工轉(zhuǎn)換為2D 的特征圖。然后，將這些特征圖輸入網(wǎng)絡(luò)，采用DL 訓(xùn)練模型對特征進行分類。Bashivan等人[18]將MI-EEG信號轉(zhuǎn)換為保留拓撲的多光譜圖像，并訓(xùn)練了一個深度遞歸卷積神經(jīng)網(wǎng)絡(luò)來進行分類。Kumar 等人[12]使用CSP 提取特征，然后將其輸入到多層感知器（multilayer perceptrons，MLPs）中。Tabar 和Halici[21]將通過短時傅里葉變換生成的時頻特征圖輸入具有5層堆疊式自動編碼器的CNN（convolutional neural networks）中進行分類，取得了很好的結(jié)果。Sakhavi等人[22]提出了一種新的特征表示方法，該方法結(jié)合了FBCSP 和Hilbert變換來提取空間域和時間域特征，隨后將特征輸入到5層的CNN網(wǎng)絡(luò)中進行分類。Zhu等人[23]提出了一種分離通道的卷積神經(jīng)網(wǎng)絡(luò)對多通道的MIEEG 數(shù)據(jù)進行編碼，將編碼后的特征拼接起來輸入到識別網(wǎng)絡(luò)中，來執(zhí)行最終的MI分類任務(wù)。

另外一種輸入形式是將原始時間序列MI-EEG信號（即C（通道）×T（時間點）矩陣）直接輸入DL神經(jīng)網(wǎng)絡(luò)中，該方法無需人工選擇特征即可從原始EEG 信號中獲得高級隱式特征，是一種端到端的方法。目前已經(jīng)提出了幾種性能較好的端到端DL 模型。受到FBCSP 的啟發(fā)，Schirrmeister 等人[24]提出了ShallowNet和DeepNet兩種卷積神經(jīng)網(wǎng)絡(luò)，與FBCSP相比，兩者均具有更高的精度。EEGNet[19]是一個通用型的EEG 任務(wù)分類網(wǎng)絡(luò)，它使用相對較少的參數(shù)在不同的EEG分類任務(wù)上實現(xiàn)了良好的性能。Azab等人[25]提出了一種新的加權(quán)遷移學(xué)習(xí)的方法，提高了MI-BCI系統(tǒng)分類的準確率。Song等人[26]通過將表示模塊、分類模塊和重構(gòu)模塊組合到端到端框架中，利用有限的MI-EEG 數(shù)據(jù)提高了分類性能。Li 等人[27]提出了一種通道投影混合尺度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，采用擴張卷積的方法擴大感受野，來提取不同尺度下的時間域特征，提高了分類性能。Amin 等人[28]采用一種用于融合具有不同特征和架構(gòu)的多層CNN方法，利用不同的卷積網(wǎng)絡(luò)從原始MI-EEG信號中提取空間域和時間域特征。Wu等人[29]提出了一種并行的多尺度濾波器組卷積神經(jīng)網(wǎng)絡(luò)的方法，通過不同尺度的卷積核來提取不同尺度下的原始MI-EEG 信號時間域特征，從而提高分類精度。Ingolfsson 等人[30]首次將TCN 應(yīng)用于MI-EEG 分類任務(wù)中，取得了很好的結(jié)果。

兩種輸入形式都有其優(yōu)點和缺點。特征輸入網(wǎng)絡(luò)的方法由于是人工選擇特征，具有強大的可解釋性，適用于小型數(shù)據(jù)集，并且優(yōu)于傳統(tǒng)方法。但是，人工選擇的特征會丟失一些潛在的信息，從而影響性能。而端到端模型可以從原始MI-EEG 信號數(shù)據(jù)中自動學(xué)習(xí)有用的潛在信息，并可以獲得令人滿意的結(jié)果。但是，對于小的訓(xùn)練數(shù)據(jù)集，端到端的方法很難訓(xùn)練出令人滿意的模型。從文獻中可以看出，為MI-EEG 分類設(shè)計可行的端到端深度神經(jīng)體系結(jié)構(gòu)仍然是一個挑戰(zhàn)。

2 本文方法

本文的網(wǎng)絡(luò)體系結(jié)構(gòu)如圖1所示。圖中，平行四邊形是不同層中的特征圖，它們對應(yīng)的大小在四邊形周圍標明。Ⅰ是特征提取層，其中空間自注意力機制層與并行多尺度TCN 層由橙色和藍色方塊表示；Ⅱ是特征融合層；Ⅲ是特征分類層。D為特征圖的個數(shù)，H為特征圖的高度，W為特征圖的寬度。輸入的運動想象原始信號M為22個采樣通道，1 125個時間采樣點。網(wǎng)絡(luò)架構(gòu)分為三個模塊：特征提取模塊、特征融合模塊、特征分類模塊。

圖1 所提方法的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig. 1 Schematic diagram of proposed method

首先介紹特征提取模塊，該模塊包含平行的空間自注意力層與并行多尺度TCN 層兩層，在空間域和時間域提取可區(qū)分的特征；然后介紹特征融合模塊，該層將特征提取模塊得到的兩組特征圖進行拼接融合；最后將得到的特征圖輸入到特征分類模塊中進行分類。

2.1 特征提取模塊

2.1.1 空間自注意力層

傳統(tǒng)方法通常是人工手動選擇EEG 通道，或者假設(shè)每個通道都起著同等的作用。然而，不同的人對于相同的MI動作的腦活動區(qū)域是不同的，這就意味著不同被試的MI信號的強度是不同的，同樣的被試在不同的試驗中MI信號的強度也存在差異。這種現(xiàn)象會導(dǎo)致較低的分類精度。因此，為了消除人工選擇信號通道造成的損失，本文提出了空間自注意力層，自動選擇最有用的信號通道來提取被試者的判別特征。

該層的相應(yīng)網(wǎng)絡(luò)架構(gòu)如圖2（其中M∈RH×W表示原始信號數(shù)據(jù)，A∈RD×H×W表示卷積之后得到的特征圖，D為特征圖的個數(shù)，H為特征圖的高度，W為特征圖的寬度。C、E表示重塑之后的特征圖，用于計算通道間的相似性。?表示矩陣乘法，⊕表示逐元素求和）所示，網(wǎng)絡(luò)參數(shù)如表1所示。由圖1，M∈RH×W為高度H=22 和寬度W=1 125 的運動想象腦電信號原始數(shù)據(jù)。首先將這些數(shù)據(jù)輸入一個卷積層（Conv11）得到特征圖A，其中A∈RD×H×W，D=8 表示特征圖的數(shù)量。由圖2，將A重塑為C∈RH×(D×W)和E∈R(D×W)×H，用來實現(xiàn)它們之間的矩陣乘法。最后，應(yīng)用Softmax 函數(shù)得出空間自注意力權(quán)重矩陣P∈RH×H，相應(yīng)公式如下式所示：

表1 空間自注意力機制層網(wǎng)絡(luò)的詳細說明Table 1 Detailed architecture of channel self-attention mechanism module network

圖2 空間自注意力機制層網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig. 2 Schematic diagram of channel self-attention mechanism module network

式中，f是相似性函數(shù)，使用矩陣點乘來計算相似度。P表示相似度，表示第i個通道和第j個通道的相似性，取值范圍為0～1（0 表示沒有相似性，而1 表示完全相似）。

之后由式（1）得到的P與M∈RH×W矩陣乘法來獲得信號F∈RH×W。信號F是通道預(yù)測信號，其中每個通道都是原始數(shù)據(jù)空間域中其他通道的加權(quán)和。該工作自動學(xué)習(xí)通道之間相似的權(quán)值，自適應(yīng)地集合所有通道的信號數(shù)據(jù)，并使用加權(quán)求和來更新每個通道。最后，本文通過將F與可學(xué)習(xí)的參數(shù)α相乘形成一個殘差塊，并對原始信號執(zhí)行逐元素求和運算，獲得最終的空間特征信號G∈RH×W，相應(yīng)公式如下：

其中，α初始化為0，并在整個深度學(xué)習(xí)模型的訓(xùn)練過程中逐漸更新被分配更合適的權(quán)重。G增強了跨被試分類的性能。這意味著當人們思考一個動作時，任何具有相似特征的通道都能相互促進，而不管它在大腦中的空間位置。

2.1.2 多尺度TCN層

MI-EEG 信號在時間域上具有連續(xù)且SNR 低的特性。因此，本文構(gòu)建了一個多尺度TCN 層，利用TCN能夠并行處理和增大感受野且一定程度上能夠避免梯度消失與爆炸的優(yōu)勢，采用不同的時間步長提取不同尺度的時間域特征信息，再將這些特征拼接融合，得到增強的時間域特征信息，同時消除噪聲影響，增加魯棒性，提高分類性能。該層的相應(yīng)網(wǎng)絡(luò)架構(gòu)如圖3，網(wǎng)絡(luò)參數(shù)如表2所示。

表2 多尺度TCN層網(wǎng)絡(luò)的詳細說明Table 2 Detailed architecture of multi-scale TCN module network

圖3 多尺度TCN層網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig. 3 Schematic diagram of multi-scale TCN module network

由圖1，將M∈RH×W輸入一個卷積層（Conv21）得到特征圖B∈RD×1×W，Conv21的卷積核大小為（22×1），此時特征圖B有16個，每個特征圖大小為（1,1 125）。如圖2，將特征圖B并行輸入4個不同尺度的TCN卷積層，每層TCN 的尺度由卷積核的大小體現(xiàn)。每層卷積核大小分別為（1×25）、（1×50）、（1×75）、（1×100），分別代表以100 ms、200 ms、300 ms、400 ms 的時間步長對MI-EEG特征圖進行卷積，得到4組時間特征圖T1,T2,T3,T4∈RD×1×W。其中，每層TCN 由若干個殘差塊組成，殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示，其中卷積核大小KT=2，膨脹系數(shù)d={1,2}。

圖4 TCN中的架構(gòu)元素Fig. 4 Architectural elements in TCN

TCN[31]與常規(guī)CNN的區(qū)別主要是由于其三種結(jié)構(gòu)：因果卷積、膨脹卷積和殘差塊[32]。

（1）因果卷積：TCN 的輸出與輸入的長度相同。為此，TCN使用1D全卷積網(wǎng)絡(luò)架構(gòu)[33]，其中每個隱藏層的大小與輸入層的大小相同，采用0填充的方式使后續(xù)層的長度與先前層相同。此外，因果卷積保證沒有信息從未來流向過去，簡而言之，時間t的輸入僅取決于時間t或更早的輸入。

（2）膨脹卷積：常規(guī)的因果卷積只能在網(wǎng)絡(luò)深度上線性增加其感受野大小，導(dǎo)致如果要獲得大的感受野大小，就需要一個非常深的網(wǎng)絡(luò)或者一個具有巨大卷積核的網(wǎng)絡(luò)，這是常規(guī)因果卷積最主要的一個缺點。為了解決這個問題，TCN 使用一系列膨脹卷積[34]，該卷積通過成倍增加膨脹因子d的方法，使感受野的大小與網(wǎng)絡(luò)深度成比例的方式增大。

（3）殘差塊：TCN 的殘差塊由兩層膨脹卷積組成，每一層除了因果卷積層，還具有批量歸一化、非線性激活和Dropout層。雖然TCN只有一維卷積，但將二維特征圖的第二維度視為深度維，仍然能夠處理二維深度圖。跳過連接將輸入添加到輸出特征映射中，并檢查輸入和輸出的深度是否相同，若不同，則會進行1×1卷積。

那么，膨脹基為b，卷積核大小k（k≥b），TCN的感受野大小l與殘差塊數(shù)n有：

在本網(wǎng)絡(luò)中，b=2，l=W=1 125，則有：

k取值為25、50、75、100，則對應(yīng)TCN 層的殘差塊數(shù)n為5、4、4、3，如圖3所示。

最后，將4 組特征圖T1,T2,T3,T4∈RD×1×W通過拼接函數(shù)融合為一組特征圖T∈R4D×1×W，T即最終獲得的消除噪聲且包含不同時間尺度信息的時間域特征圖。

2.2 特征融合模塊

本節(jié)將空間自注意力層的輸出G∈RH×W經(jīng)過一個卷積核大小為（22×1）的空間卷積層（Conv12）得到特征圖S∈RD×1×W，然后將S∈RD×1×W與T∈R4D×1×W按照深度維進行拼接融合，得到增強的時空信息特征圖N1∈R5D×1×W，其中D=16，W=1 125，方法如下：

該模塊的網(wǎng)絡(luò)架構(gòu)如圖1中的Ⅱ部分，參數(shù)如表3所示。

表3 特征融合模塊的詳細說明Table 3 Detailed architecture of feature fusion layer

2.3 特征分類模塊

本節(jié)將特征融合模塊得到的N1∈RD×1×W輸入到特征分類模塊中，該模塊的網(wǎng)絡(luò)架構(gòu)如圖1中的Ⅲ所示，網(wǎng)絡(luò)參數(shù)如表4 所示。該模塊包含兩個卷積層（Conv3 和Conv4，都包含批量歸一化與非線性激活層）、兩個平均池化層（AvgP1 和AvgP2，都包含Dropout 層）、一個全卷積層（FC）和一個LogSoftmax函數(shù)。

表4 特征分類模塊的詳細說明Table 4 Detailed architecture of feature classification layer

將N1經(jīng)過一個內(nèi)核大小為（1×75）的卷積（Conv3），采用0填充的方法得到與N1同樣大小的特征圖，將得到的特征圖應(yīng)用批量歸一化與非線性激活得到N2。將N2通過內(nèi)核大小為（1×8）的平均池化層（AvgP1），將輸入大?。?0，1，1 125）減小到（80，1，140）輸出得到N3。將N3經(jīng)過一個內(nèi)核大小為（1×25）的卷積（Conv4），采用0填充的方法得到與N3同樣大小的特征圖，將得到的特征圖應(yīng)用批量歸一化與非線性激活得到N4。N4再通過一個內(nèi)核大小為（1×8）的平均池化層（AvgP2），將輸入大小（80，1，140）減小到（80，1，17）輸出得到N5。將N5通過一個內(nèi)核大小為（1×17）的全卷積層（FC），其輸出的大小為N6（4，1，1）。最后，通過N6轉(zhuǎn)換為4 個標簽的條件概率，使用LogSoftmax函數(shù)執(zhí)行四分類。

2.4 訓(xùn)練策略

對于四類MI 分類，將Pytorch 中的NLLoss 函數(shù)定義為損失函數(shù)[35]，使用Xavier算法初始化網(wǎng)絡(luò)中的所有參數(shù)[24]，優(yōu)化算法采用Adam算法[36]。BCICIV2a和BCICIV2b 數(shù)據(jù)集的學(xué)習(xí)率為0.000 1，而HGD 數(shù)據(jù)集的學(xué)習(xí)率為0.001，批次大小為32。

由于3 個數(shù)據(jù)集均將訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集清晰地劃分出來，本節(jié)將訓(xùn)練數(shù)據(jù)集隨機分為訓(xùn)練集（80%）和驗證集（20%），所有測試數(shù)據(jù)集作為測試集。采用這種劃分方式可以使用在計算機視覺領(lǐng)域開發(fā)的早期停止策略。當驗證精度在預(yù)定時期內(nèi)沒有提高時，訓(xùn)練的第一階段停止。然后，使用使驗證數(shù)據(jù)集具有最高準確率的參數(shù)值，繼續(xù)對訓(xùn)練和驗證數(shù)據(jù)集進行訓(xùn)練。當驗證數(shù)據(jù)集上的損失函數(shù)下降到與第一個訓(xùn)練階段結(jié)束時的訓(xùn)練數(shù)據(jù)集的值相同時，訓(xùn)練結(jié)束。Dropout 層中的超參數(shù)以及批歸一化層中的常數(shù)和權(quán)重衰減率分別設(shè)置為0.4、10-5和0.1。

3 實驗結(jié)果與分析

為了驗證提出的模型的性能和可行性，對3個數(shù)據(jù)集進行了一系列實驗。單被試分類實驗?zāi)康氖球炞C本文的模型對單被試分類的性能。之后設(shè)計了跨被試遷移實驗，來驗證所提出方法的遷移能力。在跨被試實驗中，其他被試（除目標被試）的腦電信號用來預(yù)先訓(xùn)練模型，然后將該模型作為初始權(quán)重對網(wǎng)絡(luò)進行初始化，最后對目標被試進行測試實驗。

3.1 數(shù)據(jù)集說明

在這項研究中，本文采用了3個廣泛使用的公共MI-EEG數(shù)據(jù)集進行評估。它們之間的主要區(qū)別在于通道數(shù)量、試驗數(shù)量、被試數(shù)量、任務(wù)類別和采樣率。

第一個數(shù)據(jù)集是BCICIV2a[24]，該數(shù)據(jù)集記錄了由9 位不同的被試執(zhí)行的四類運動想象任務(wù)（左手、右手、雙腳和舌頭），采樣率為250 Hz，共25 個通道（22 個腦電通道和3 個眼電通道），每個通道都經(jīng)過0.5～100 Hz帶通濾波器的預(yù)處理。對于每個被試者，在不同的日子里共記錄了兩個時間段（session）的腦電數(shù)據(jù)。每個session 包含6 個運行（run），中間有短暫的休息。一個run 包括48 個試驗（4 種可能的類別各12 個），每個session 總共288 個試驗（trial）。本文使用一個session 作為訓(xùn)練集，另一個session 用于測試分類器和評估性能。因此，訓(xùn)練集由第一個session的288個試驗組成，而測試集由第二個session的288個試驗組成。此外，每個試驗都使用相同的時間窗[-0.5,4]（單位：s）提取22個腦電通道的運動想象信號。因此，在數(shù)據(jù)集中，顯式分離了9個訓(xùn)練集和9個測試集。在子集中，每個類別有72 個trial，并未提供反饋。因此，去除3 個眼電通道信號后，每次試驗獲得22×1 125 個數(shù)據(jù)點。

第二個數(shù)據(jù)集是BCICIV2b[24]，該數(shù)據(jù)集包含了6個通道（3 個腦電通道和3 個眼電通道），記錄了9 個不同的被試兩類運動想象任務(wù)（左手、右手）。對于每個被試，運動想象任務(wù)分為5個session，BCICIV2b數(shù)據(jù)集中的前兩個session 在運行時沒有反饋，其余session具有反饋。

第三個數(shù)據(jù)集是HGD 數(shù)據(jù)集[24]，該數(shù)據(jù)集包含了44 個腦電通道，記錄了14 位健康被試進行的4 類運動想象任務(wù)，對想象運動進行4 s 試驗。每個被試包含13 個session，每個session 包括80 次試驗。這4類運動包括左手、右手、雙腳和休息（不動）。對于每個被試，訓(xùn)練集由大約880個試驗（除了最后兩個session 的其他session）組成，測試集由大約160 個試驗（最后兩個session）組成。HGD 的采樣率為500 Hz。為了與BCICIV2a 進行公平的比較，對HGD 重新采樣，采樣率為250 Hz，并使用相同的4.5 s 時間窗，因此每個試驗獲得44×125 個數(shù)據(jù)點。

3.2 評估指標

本文方法在3個公共數(shù)據(jù)集BCICIV2a、BCICIV2b和HGD 上進行評估，以準確率作為評價指標。計算公式為：

其中，TP為真陽性數(shù)，TN為真陰性數(shù)，F(xiàn)P為假陽性數(shù)，F(xiàn)N為假陰性數(shù)。

3.3 單被試分類實驗定量評價

3.3.1 BCICIV2a數(shù)據(jù)集的比較

為了驗證提出方法的有效性和準確性，首先使用BCICIV2a進行了單被試分類實驗，并將本文方法的準確率與基于DL 的方法EEGNet[19]、M3DCNN[37]、CPMixedNet[27]、MSFBCNN[29]、DMTLCNN[26]、MCCNN[28]、WTL[25]、EEG-TCNet[30]和基于ML 的方法FBCSP[10]進行比較，結(jié)果見表5（最優(yōu)的準確率加粗顯示）。

表5 BCICIV2a數(shù)據(jù)集在單被試分類中的準確率Table 5 Accuracy on BCICIV2a dataset for intra-subject classification 單位：%

表5 列出了各種方法中每個被試者的準確率以及BCICIV2a 數(shù)據(jù)集的平均準確率。本文方法明顯優(yōu)于其他基于DL的方法，對單被試分類的平均準確率為79.26%。此外，圖5（a）中給出了MI任務(wù)的混淆矩陣和測試集上的實驗結(jié)果。FBCSP 是一種基于ML 的基線方法，被廣泛用于識別振蕩的MI-EEG 數(shù)據(jù)，該方法使用支持向量機作為分類器。它選擇最優(yōu)的空間濾波器來提取特征，并且在BCI比賽中運行BCICIV2a時表現(xiàn)最好。但其在所有被試者中的平均準確率僅為67.42%，比本文方法低了11.84 個百分點。因此，與傳統(tǒng)的機器學(xué)習(xí)方法相比，本文方法擁有更好的結(jié)果。

圖5 運動想象（MI）任務(wù)的混淆矩陣Fig. 5 Confusion matrices for motor imagery(MI)task

這里介紹的其他基于DL 的方法是具有較高準確率的最新技術(shù)。在此任務(wù)中，它們的平均準確率值的范圍是65.43%至77.35%。M3DCNN 模型結(jié)合了新的EEG三維表示形式，采用多分支三維CNN和相應(yīng)的分類策略，來增強其對不同被試的抗過擬合能力。M3DCNN的最大貢獻是證明原始MI-EEG的復(fù)雜表示形式可以幫助改善性能。但是，其準確率為75.01%，比本文方法低4.25個百分點。DMTLCNN和WTL 使用遷移學(xué)習(xí)技術(shù)使分類準確率顯著提高，分別達到75.21%和75.56%。與這兩種方法相比，本文方法準確率分別提高了4.05個百分點和3.70個百分點，MCCNN模型采用不同的濾波器大小和深度提取不同類型的時空特征，融合不同架構(gòu)的CNN模塊，提高MIEEG分類精度。吳等人提出的并行的MSFBCNN，利用特征提取網(wǎng)絡(luò)從腦電數(shù)據(jù)中充分提取潛在的時空特征[29]。Li 等人提出的端到端的腦電解碼框架采用原始多通道腦電數(shù)據(jù)作為輸入，利用CPMixedNet 和振幅擾動數(shù)據(jù)增強技術(shù)來提高精度[27]。與上述模型相比，本文的平均準確率分別提高了3.54個百分點、3.68 個百分點和4.66 個百分點。EEG-TCNet 是一種端到端的DL模型，擁有一個空間卷積和一個時間卷積，之后輸入到TCN網(wǎng)絡(luò)中進行特征提取，最后由全卷積網(wǎng)絡(luò)進行分類。該網(wǎng)絡(luò)第一次將TCN網(wǎng)絡(luò)應(yīng)用于MI-EEG 分類領(lǐng)域，并取得很好的結(jié)果，可以證明TCN 適合于MI-EEG 的分類研究。但是該網(wǎng)絡(luò)沒有考慮到不同尺度的時間域特征信息。與EEG-TCNet方法相比，本文方法平均準確率高出1.91個百分點。

以上結(jié)果表明，對于4 類MI-EEG 分類，本文方法優(yōu)于傳統(tǒng)方法，平均提高11.84 個百分點。與目前最新的基于DL 的方法相比，本文方法在BCICIV2a數(shù)據(jù)集的單被試分類實驗上取得了更好的結(jié)果。除了平均準確率外，本文也在兩個被試者（被試2、被試5）上取得了最好的結(jié)果。

3.3.2 BCICIV2b和HGD數(shù)據(jù)集的比較

為了進一步驗證所提出方法的自適應(yīng)性和魯棒性，本文對另外兩個具有挑戰(zhàn)性的數(shù)據(jù)集BCICIV2b和HGD（見3.1 節(jié)）進行單被試分類實驗來評估提出的模型的性能，網(wǎng)絡(luò)結(jié)構(gòu)并未進行改動，其中對二分類數(shù)據(jù)集BCICIV2b進行實驗時，LogSoftmax的輸出分類為二分類。由于目前最先進的方法僅提供了BCICIV2b 和HGD 的平均精度值，在比較時，本文僅將平均精度分別列于表6和表7中（最優(yōu)準確率加粗顯示），相應(yīng)的混淆矩陣如圖5（b）、圖5（c）所示。

表6 BCICIV2b數(shù)據(jù)集在單被試分類中的平均準確率Table 6 Average accuracy on BCICIV2b dataset for intra-subject classification 單位：%

表7 HGD數(shù)據(jù)集在單被試分類中的平均準確率Table 7 Average accuracy on HGD dataset for intra-subject classification 單位：%

表6 所列的數(shù)據(jù)表明，BCICIV2b 的結(jié)果與其他最先進的方法相比有了良好的改進。本文方法獲得了85.90%的準確率，而次優(yōu)方法MSFBCNN 獲得了84.30%的準確率，準確率提高了近1.6個百分點。表7 數(shù)據(jù)表明，本文方法在HGD 的實驗結(jié)果取得了顯著的提高，達到了96.96%的準確率。實驗結(jié)果表明，提出的網(wǎng)絡(luò)模型對不同的腦電數(shù)據(jù)集及不同的分類任務(wù)具有較好的自適應(yīng)性和魯棒性。

3.4 BCICIV2a 數(shù)據(jù)集跨被試分類實驗定量評價

為了驗證所提出方法的遷移學(xué)習(xí)能力，本文進行了跨被試分類實驗。本文采用遷移學(xué)習(xí)技術(shù)，利用其他被試（除目標被試）的腦電數(shù)據(jù)在BCICIV2a數(shù)據(jù)集上訓(xùn)練一個模型，然后將該模型作為網(wǎng)絡(luò)的初始權(quán)值進行初始化，之后加載新被試者（目標被試）的數(shù)據(jù)進行進一步測試。這樣，訓(xùn)練后的模型可以整合其他被試者的信息，從而使其更具魯棒性。

表8 給出了每個被試者對應(yīng)的分類結(jié)果（最優(yōu)準確率加粗顯示）。由于每個被試的MI-EEG活動的幅值和響應(yīng)時間有差別，不同被試者之間差異較大，故而表8中的結(jié)果并不優(yōu)于單被試者分類的結(jié)果（如表5所示）。圖6為BCICIV2a數(shù)據(jù)集跨被試分類結(jié)果的混淆矩陣。與其他先進的DL 方法（僅DeepCNN、DMTLCNN、STSACNN 提供跨被試分類實驗比較結(jié)果）相比，本文方法平均準確率為73.78%，9個被試者中2個被試（被試2、被試9）取得最優(yōu)。

表8 BCICIV2a數(shù)據(jù)集上跨被試遷移學(xué)習(xí)分類結(jié)果Table 8 Results of inter-subject transfer learning classification on BCICIV2a dataset 單位：%

圖6 MI任務(wù)的混淆矩陣（BCICIV2a跨被試分類）Fig. 6 Confusion matrices for MI task(inter-subject classification of BCICIV2a)

結(jié)果表明，本文方法不僅可以由網(wǎng)絡(luò)自動學(xué)習(xí)與MI相關(guān)的通道信息，消除了手動選擇信號通道的影響，同時為MI腦電信號的分類提供了更通用的特征表示，具有更好的魯棒性和更高的分類準確率。

3.5 BCICIV2a數(shù)據(jù)集交叉驗證實驗定量評價

為了驗證本文所提出的模型的預(yù)測性能和泛化能力，本文進行了10 倍交叉驗證實驗。在數(shù)據(jù)集有限的情況下，本文結(jié)合BCICIV2a 的訓(xùn)練集和測試集，每個被試者有576個試驗，將它們隨機分為10個相等的部分。每次運行使用9 個子集作為訓(xùn)練集，1個子集作為測試集，即518 個和58 個試驗分別用于訓(xùn)練和測試。最終的準確率是通過取10次最佳值的平均值得到的。

表9 給出了10 倍交叉驗證的結(jié)果（最優(yōu)準確率加粗顯示）。與本文之前使用的288個訓(xùn)練試驗和288個測試試驗相比，10倍交叉驗證顯著增加了訓(xùn)練集的數(shù)量，因此平均準確率提高了11.82%，達到了91.08%。除了平均準確率外，該數(shù)據(jù)集9名被試均取得最佳結(jié)果。這再次證明了數(shù)據(jù)量小確實是DL 方法的瓶頸。

表9 BCICIV2a數(shù)據(jù)集上使用十倍交叉驗證單被試分類結(jié)果Table 9 Intra-subject classification of 10-fold cross-validation results on BCICIV2a dataset 單位：%

3.6 BCICIV2a數(shù)據(jù)集消融實驗定量評價

為了驗證所提出的空間自注意力層和多尺度TCN層的作用，本文進行了基于BCICIV2a的消融實驗，該實驗采用去除其中一層來測試另一層的作用，其中MSTCN-CAMNet 表示本文提出的網(wǎng)絡(luò)結(jié)構(gòu)，MSTCN 表示只包含多尺度TCN 層的網(wǎng)絡(luò)結(jié)構(gòu)，CAMNet 表示只包含空間自注意力層的網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)果如表10所示。

表10 基于BCICIV2a數(shù)據(jù)集消融實驗Table 10 Ablation experiments on BCICIV2a dataset

從表10 中數(shù)據(jù)可以看出，兩層對所提出網(wǎng)絡(luò)的準確率都有明顯提升效果，驗證了所提出兩層的有效性。其中，對于空間自注意力機制層，多尺度TCN網(wǎng)絡(luò)層對所提出方法的作用更大。

3.7 BCICIV2a數(shù)據(jù)集T-SNE實驗定性評價

前幾節(jié)進行了一系列定量評價任務(wù)，定量評價的標準為4 類MI 腦電分類準確率和混淆矩陣，混淆矩陣對角線上的值表示對每個運動想象分類任務(wù)的正確預(yù)測準確率。本節(jié)進行了t 分布隨機鄰域嵌入（T-SNE）定性評價任務(wù)。T-SNE 被廣泛用于評價特征向量的判別能力，它可以將高維數(shù)據(jù)投影到二維散點圖上。在T-SNE 可視化的情況下，評價標準如下：一個類的實例越多，可以從其他類的實例中分離出來，相關(guān)特征的表現(xiàn)就越好。本文所有的實驗都在BCICIV2a上進行，使用相同的訓(xùn)練策略進行單被試分類實驗。

如圖7所示，被試者1的原始MI-EEG數(shù)據(jù)的所有類別標簽均勻分布在T-SNE 圖中。其中，數(shù)字0 到3代表MI-EEG信號的4類標簽（左手、右手、腳和舌頭）。

圖7 被試者1在BCICIV2a原始數(shù)據(jù)上的T-SNE映射Fig. 7 T-SNE mapping of subject 1 on BCICIV2a raw data

被試者1的混淆矩陣及其對應(yīng)的T-SNE圖如圖8所示。從圖中可以看出，混淆矩陣中最大的誤差發(fā)生在左手和右手之間以及腳和舌頭之間。將腳分類為舌，錯誤率為23.04%，將舌頭分類為腳，錯誤率為10.59%。這一趨勢與圖8的T-SNE圖是一致的，在圖8的T-SNE圖中，誤分程度最大的是label 2和label 3之間，對應(yīng)的是腳和舌。從上面的實驗可以表明，TSNE 圖和相應(yīng)的混淆矩陣具有相同的變化趨勢：一個類的實例越多，可以從其他類的實例中分離出來，在四分類MI-EEG實驗中獲得更好的分類性能。

圖8 被試1的混淆矩陣和相應(yīng)的T-SNE映射Fig. 8 Confusion matrices and corresponding T-SNE mapping for subject 1

4 討論

圖9中（電極Cz位于頭部的中心，C3、C4分別位于左右兩側(cè)。紅色表示正相關(guān)，即表示幅值增加（ERD）；藍色表示負相關(guān)，即表示幅值減少（ERS）），本文使用來自BCICIV2a 數(shù)據(jù)集的四類MI-EEG 信號，并畫出與每個單被試分類結(jié)果相對應(yīng)的大腦活動相關(guān)圖。當人們想象或執(zhí)行左手、右手、雙腳和舌頭運動時，mu（8～12 Hz）和beta（16～26 Hz）節(jié)律的能量會在大腦半球?qū)?cè)和同側(cè)的感覺運動區(qū)域減少或增加，即ERS/ERD 現(xiàn)象。因此，在圖9 中本文將紅色定義為表示ERD 的正相關(guān)，紅色的色調(diào)越強烈，正相關(guān)性越強。將藍色定義為表示ERS 的負相關(guān)，藍色陰影越強烈，負相關(guān)性越強。例如，圖9 中的第一行顯示的是左手運動想象數(shù)據(jù)的大腦活動相關(guān)圖。本文的分類結(jié)果是針對左手運動的MI-EEG 信號，相應(yīng)的大腦活動相關(guān)圖顯示了左半球的ERS和右半球的ERD。

圖9 BCICIV2a數(shù)據(jù)集上本文方法分類結(jié)果的大腦活動相關(guān)圖Fig. 9 Brain active correlation map to classification results of proposed method on BCICIV2a dataset

圖9 是在BCICIV2a 數(shù)據(jù)集上對四類MI 腦電信號進行分類，得到對應(yīng)于本文方法分類結(jié)果的大腦活動相關(guān)圖。圖中所示的結(jié)果證明，當人們想象或執(zhí)行某個動作時，任何具有相似特征的通道都能相互促進，而不管它在大腦中的空間位置如何。本文首次使用自注意力與TCN網(wǎng)絡(luò)融合機制提取EEG信號的新時空特征表示形式，以提取可區(qū)分的時空特征。因此，從圖9 中的圖像中得出結(jié)論，本文方法在神經(jīng)生理學(xué)上得到了可信賴的結(jié)果。

5 結(jié)束語

本文提出了一種基于注意力機制的多尺度時空自注意力網(wǎng)絡(luò)模型，用于四類（左手、右手、雙腳和舌頭或休息）MI-EEG 分類。該模型由特征提取模塊、特征融合模塊、特征分類模塊三個模塊組成。其中特征提取模塊由空間自注意力機制層和多尺度TCN層兩個并行層組成，通過這兩層可以提取到空間域和時間域上特征增強的可區(qū)分的時空特征。

本文使用三個公共數(shù)據(jù)集（BCICIV2a、BCICIV2b和HGD）進行實驗，以驗證本文方法對不同數(shù)據(jù)的魯棒性和準確率。實驗結(jié)果表明，本文方法與現(xiàn)有的基于DL 的方法相比，具有更好的分類性能，并且適用于單被試與跨被試實驗，具有遷移學(xué)習(xí)的能力。同時，消融實驗也證明了本文方法的有效性。未來，計劃進一步完善模型，提高單被試與跨被試的分類性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡