徐 偉,姜羅羅
(溫州大學(xué)數(shù)理與電子信息工程學(xué)院,浙江溫州 325035)
大腦對(duì)身體的其它器官集中控制,控制著人類(lèi)的行為活動(dòng),本身也在連續(xù)不斷地發(fā)生變化.大腦通過(guò)產(chǎn)生肌肉活動(dòng)的模式和驅(qū)動(dòng)被稱(chēng)為激素的化學(xué)物質(zhì)的分泌而作用于身體其它部位,這種集中控制可以對(duì)環(huán)境變化做出快速而協(xié)調(diào)的反應(yīng).人體由各個(gè)器官系統(tǒng)組成,人體的機(jī)能會(huì)受到器官的影響,尤其是大腦,它的脆弱性會(huì)隨著年齡的增長(zhǎng)而迅速增加,并且有很多的臨床表現(xiàn).腦電圖(Electroencephalogram,EEG)是一種記錄大腦活動(dòng)的電生理監(jiān)測(cè)方法.
大腦活動(dòng)是幾個(gè)大腦區(qū)域之間的各種相互作用的動(dòng)態(tài)過(guò)程[1],它是由隨機(jī)和確定性過(guò)程組成的[2].非線(xiàn)性動(dòng)態(tài)腦電圖(EEG)活動(dòng)的量化是理解大腦隨著老化而發(fā)生的活動(dòng)模式變化的一個(gè)有效方法[2-3].腦-機(jī)接口(BCI)系統(tǒng)為人類(lèi)大腦和外部設(shè)備提供溝通橋梁和控制渠道,用于腦電行為分析.在大腦年齡層面,Pierce T W等人檢測(cè)了EEG因子結(jié)構(gòu)的年齡差異,發(fā)現(xiàn)老年人的EEG信號(hào)記錄比年輕人的產(chǎn)生了更多的因子[4].張夢(mèng)夢(mèng)利用EEG技術(shù)收集12名老年人和12名年輕人的靶刺激 EEG信號(hào),分析了老年人和年輕人視聽(tīng)覺(jué)整合加工過(guò)程中的差異,其結(jié)論為,整合成分的年老化差異在 alpha頻段最顯著[5].此外,杜飛等人通過(guò)多尺度符號(hào)熵分析法對(duì)少年和中年beta腦電信號(hào)進(jìn)行區(qū)分,發(fā)現(xiàn)隨著尺度的增加,少年的符號(hào)序列熵均高于中年[6].在研究方法層面,張夢(mèng)使用深度學(xué)習(xí)方法對(duì)不同年齡的EEG腦電信號(hào)進(jìn)行識(shí)別[7],Gaudreau H等人研究了受試者從兒童到中年不同年齡段的NREM睡眠腦電圖,結(jié)果表明兒童和中年人的NREM睡眠腦電圖信號(hào)主要變化并不僅限于慢波活動(dòng)(SWA),而且還包含theta、alpha、sigma和beta頻率波段[8].在信號(hào)表征層面,Wang等人提出了一個(gè)用于癲癇發(fā)作檢測(cè)的分層腦電分類(lèi)系統(tǒng),該系統(tǒng)主要使用小波包系數(shù)表示原始腦電信號(hào),并使用基于最佳基的小波包熵方法進(jìn)行特征提取,對(duì)獲得信號(hào)用機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi),準(zhǔn)確率很高[9].我們從大腦年齡、研究方法、信號(hào)表征等三個(gè)層面討論分析了不同年齡段的大腦通過(guò)EEG顯示出來(lái)的腦電信號(hào)存在的明顯差異.
如何提取腦電信號(hào)的相關(guān)特征來(lái)表征腦狀態(tài),實(shí)現(xiàn)對(duì)不同腦力工作的正確識(shí)別是目前很多研究者關(guān)注的問(wèn)題之一.如何快速、可靠地提取 EEG信號(hào)特征是精確分類(lèi)和翻譯腦電信號(hào)任務(wù)的關(guān)鍵因素.近年來(lái),提取不同腦電信號(hào)特征的方法很多,如功率譜估計(jì)、AR模型[10-11]和小波變換[12]等.通過(guò)功率譜估計(jì)提取波段能量需要確定主體特定的頻率波段,AR模型需要確定模型的適當(dāng)順序,小波分析需要選擇適當(dāng)?shù)哪感〔ǎ虼?,為了提取可以最好地反?yīng)不同的行為特征,本文提出了一種功率譜熵(Power Spectral Entropy,PSE)的腦電波年齡特征提取方法.由于不同年齡的腦電功率譜熵的腦電信號(hào)特征存在差異,所以通過(guò)對(duì)不同年齡的功率譜熵信號(hào)進(jìn)行分類(lèi),能夠獲得較好的分類(lèi)效果.基于香農(nóng)信息理論的PSE是一個(gè)不確定系統(tǒng)的復(fù)雜性度量指標(biāo),它對(duì)非線(xiàn)性動(dòng)態(tài)的變化具有很好的計(jì)量效果,并且只需要很少的數(shù)據(jù)就能夠表征受試者的行為決策特征,所以該方法非常適合用于EEG腦電信號(hào)的分析[13-14].
目前已有很多研究者提出,可以使用多種信息熵(小波熵、近似熵和功率譜熵等)方法去提取腦電信號(hào),然后再使用機(jī)器學(xué)習(xí)方法對(duì)具有信息熵特征的 EEG信號(hào)進(jìn)行分類(lèi),然而,目前很少有研究人員去探索研究腦電波在不同年齡之間的差異,基于此,本文使用傅里葉變換方法計(jì)算腦電信號(hào)的頻域信息,并且計(jì)算腦電波年齡信號(hào)的傅里葉成分的功率譜密度和功率譜熵,最后,使用Logistic Regression(LR)和XGBoost等機(jī)器學(xué)習(xí)分類(lèi)方法[15]得到功率譜熵?cái)?shù)據(jù)集(二分類(lèi):年輕人類(lèi)別為1,中老年人類(lèi)別為0).
傅里葉變換(Fast Fourier Transform,F(xiàn)FT)是計(jì)算序列的離散傅里葉變換(Discrete Fourier Transform,DFT).傅里葉分析把原始的腦電波信號(hào)從時(shí)域轉(zhuǎn)變到可表示的頻域[16].假設(shè)原始腦電信號(hào)序列是定義 x0, … ,為N個(gè)點(diǎn)的長(zhǎng)序列,這里序列長(zhǎng)度是700(反應(yīng)靶刺激前后的時(shí)間范圍為-199 – 500 ms),則DFT的公式如下:
其中Xk是計(jì)算得到的傅里葉成分,共有N個(gè)輸出.通過(guò)傅里葉成分計(jì)算功率譜密度(P):
其中 Pk是計(jì)算得到的功率譜密度,共有N個(gè)輸出.
將 Pk按總的譜功率進(jìn)行歸一化后得到功率譜密度分布函數(shù)為:
其中pki表示總共N個(gè)輸出中的第i個(gè)功率譜密度.
若用一個(gè)隨機(jī)變量X表示信息熵系統(tǒng)的狀態(tài),X的取值假設(shè)為:
對(duì)應(yīng)的取值概率為:
且:
則該系統(tǒng)的信息熵表示為:
因此,計(jì)算功率譜熵通過(guò)把式(3)代入式(7)所得.
1.2.1 XGBoost方法
為了區(qū)分年輕人和中老年人的功率譜熵腦電波信號(hào),本文使用XGBoost分類(lèi)器[15],XGBoost也稱(chēng)為Extreme Gradient Boosting,是從梯度提升算法的概念衍生出來(lái)的一個(gè)有監(jiān)督的可擴(kuò)展的樹(shù)形提升算法[17].與梯度提升算法相比,XGBoost提出以正則化的形式來(lái)防止模型過(guò)擬合,以推動(dòng)提升樹(shù)算法實(shí)現(xiàn)更好性能的計(jì)算資源限制的工程目標(biāo).
XGBoost模型是一組分類(lèi)和回歸樹(shù)(CART)的集成,每棵樹(shù)都有葉子和相應(yīng)的分?jǐn)?shù).集成樹(shù)的最終結(jié)果是所有個(gè)體樹(shù)的總和.對(duì)于K′樹(shù)集成模型的預(yù)測(cè)輸出:
XGBoost的目標(biāo)函數(shù)包括損失函數(shù)和正則化.損失函數(shù)評(píng)估每個(gè)真實(shí)類(lèi)別yi和診斷類(lèi)別y?i的差異,損失函數(shù)如交叉熵(Cross-Entropy),邏輯斯特(Logistic)和均方誤差等.正則化是XGBoost最突出的貢獻(xiàn),如果模型越復(fù)雜,它的懲罰就越大.
目標(biāo)函數(shù)定義如下:
正則化項(xiàng)有利于提供簡(jiǎn)單的模型結(jié)構(gòu)和函數(shù).更具體地說(shuō),第一項(xiàng)Ω,懲罰樹(shù)的復(fù)雜結(jié)構(gòu)(葉子越少則Ω越?。欢?,第二項(xiàng)懲罰項(xiàng)則懲罰單棵樹(shù)過(guò)重,以防失去平衡的樹(shù)去支配模型.因此,第二項(xiàng)有利于平滑學(xué)習(xí)樹(shù)的權(quán)重,以避免過(guò)擬合.
1.2.2 特征重要性
不同于使用特征向量計(jì)算診斷和歷史日之間的相似性,梯度提升構(gòu)建了提升樹(shù)以智能的方式獲得特征分?jǐn)?shù),從而表明了每個(gè)特征對(duì)訓(xùn)練模型的重要性.如果一個(gè)特征在提升樹(shù)中對(duì)關(guān)鍵決策越重要,那么它的得分就越高,算法主要通過(guò)“Gain(增益)”、“Frequency(頻率)”和“Cover(覆蓋)”來(lái)計(jì)算其重要性[18].Gain是樹(shù)分支特征重要性的主要參考因子,F(xiàn)requency是Gain的一個(gè)簡(jiǎn)單版本,它是所有構(gòu)造樹(shù)的特征數(shù)量,Cover是特征觀測(cè)的相對(duì)值.本文中,特征重要性為“Gain”.假設(shè)單棵決策樹(shù)為T(mén),Loh W Y等人[19]提出:)
每個(gè)分類(lèi)器特征Xl都有一個(gè)重要性分?jǐn)?shù),決策樹(shù)有J-1個(gè)內(nèi)部節(jié)點(diǎn),并且通過(guò)分類(lèi)特征Xl將該區(qū)域每個(gè)節(jié)點(diǎn)t處劃分成兩個(gè)子區(qū)域.計(jì)算J-1個(gè)節(jié)點(diǎn)的特征Xl的重要性平方值并求和,選擇它作為分類(lèi)特征.加和的M棵樹(shù)的重要性計(jì)算公式如下:
公式(12)是對(duì)M 棵樹(shù)的重要性計(jì)算,而公式(11)是對(duì)單棵決策樹(shù)的計(jì)算.
特征的重要性取決于當(dāng)這種特征被隨機(jī)噪聲取代時(shí),分類(lèi)性能是否發(fā)生顯著變化.而XGBoost算法中帶有特征重要性度量,XGBoost算法訓(xùn)練過(guò)程中,可以得到每個(gè)特征如何,有助于診斷性能.
2.1.1 實(shí)驗(yàn)流程
本次實(shí)驗(yàn)中,選擇了18個(gè)健康的受試者,其中6女12男.根據(jù)文獻(xiàn)[4-6],可以定義小于30歲的受試者為年輕類(lèi)(共9人,8男1女,男的年齡分別為20歲、25歲、26歲、26歲28歲、28歲、29歲、30歲,女的年齡為25歲),大于45歲的受試者為中老年類(lèi)(共9人,4男5女,男的年齡分別為48歲、48歲、53歲、63,女的年齡分別為46歲、46歲、50歲、50歲、54歲).本文的目的是通過(guò)功率譜熵提取受試者的腦電波特征得到功率譜熵的數(shù)據(jù)集并且用 XGBoost分類(lèi)方法區(qū)分年輕類(lèi)和中老年類(lèi)的腦電波,此外用XGBoost特征選擇方法對(duì)數(shù)據(jù)集的特征重要性進(jìn)行排序,實(shí)驗(yàn)流程如圖1所示.原始信號(hào)收集過(guò)程:1)EEG信號(hào)的采樣率設(shè)置為1 000 Hz,共有36個(gè)通道,即36個(gè)特征;2)在整個(gè)實(shí)驗(yàn)過(guò)程中,受試者需要一直穿戴電極帽,同時(shí),受試者需要根據(jù)電腦上的提示做出反應(yīng)選擇,做出選擇的代碼會(huì)傳輸?shù)搅硗庖慌_(tái)電腦上的記錄軟件上,并且保存下來(lái).
圖1 決策實(shí)驗(yàn)流程圖.Fig 1 The Experiment Flow Diagram of Decision-making (DM)
2.1.2 數(shù)據(jù)描述
通過(guò)決策實(shí)驗(yàn)獲得的原始腦電信號(hào)需要做分析處理:1)使用記錄軟件預(yù)處理,基線(xiàn)校準(zhǔn)、濾波、直流漂移預(yù)調(diào)和去除眼電和偽跡等;2)為了能夠覆蓋研究成分的潛伏期,當(dāng)靶刺激出現(xiàn)時(shí),原始腦電信號(hào)保留刺激前后-199 – 500 ms的時(shí)間序列數(shù)據(jù);3)通過(guò)FFT方法把原始腦電信號(hào)的時(shí)域信號(hào)變換到頻域信息,從而獲得功率譜密度成分,然后計(jì)算功率譜概率分布,最后計(jì)算得到功率譜信息熵,功率譜信息熵?cái)?shù)據(jù)集用來(lái)作為XGBoost分類(lèi)器的輸入數(shù)據(jù)集.
分類(lèi)數(shù)據(jù)集中共有36個(gè)特征,表1是這36個(gè)特征在大腦空間的具體位置描述.原始腦電信號(hào)共有36.5萬(wàn)左右的數(shù)據(jù)樣本,通過(guò)功率譜熵特征提取后的數(shù)據(jù)集中共有553個(gè)樣本,其中295個(gè)是正類(lèi),即年輕類(lèi),標(biāo)記為1,258個(gè)是負(fù)類(lèi),即中老年類(lèi),標(biāo)記為0.553個(gè)樣本按照20%的比例劃分為測(cè)試集和訓(xùn)練集,訓(xùn)練集442個(gè),測(cè)試集111個(gè).
為了估計(jì)XGBoost和LR兩個(gè)分類(lèi)模型的性能,本文使用了四個(gè)模型性能評(píng)價(jià)標(biāo)準(zhǔn):Accuracy(ACC)、Precision、Area under the receiver operating characteristic(ROC)curve(AUC)和F1-score.表2給出了算法性能的混淆矩陣.在表2中,結(jié)合我們的數(shù)據(jù)集定義如下:TP是把年輕類(lèi)診斷為年輕類(lèi);TN是把中老年類(lèi)診斷為中老年類(lèi);FP是把中老年類(lèi)診斷為年輕類(lèi);FN是把年輕類(lèi)診斷為中老年類(lèi).
根據(jù)混淆矩陣,性能評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算如下:
在分析處理原始腦電信號(hào)之前,對(duì)年輕人和中老年人的腦電信號(hào)可視化,如圖2所示.從18個(gè)受試者中隨機(jī)選擇了三個(gè)不同的年輕人和中老年人,比較發(fā)現(xiàn),在做決策實(shí)驗(yàn)時(shí),年輕人產(chǎn)生的電壓值普遍低于中老年人的,這表明中老年人在受到靶刺激時(shí)腦電信號(hào)比年輕人的波動(dòng)更大.
圖2 年輕人和中老年人原始EEG信號(hào)對(duì)比圖Fig 2 The Comparison Diagram of Original EEG Signal Between the Young and the Middle-aged or the Elderly
在分析年輕人和中老年人的原始腦電信號(hào)后,發(fā)現(xiàn)年輕人和中老年人在行為決策時(shí)所產(chǎn)生的腦電波存在著明顯差異.為了更好地分析腦電時(shí)間序列信號(hào),我們使用FFT方法把原始信號(hào)轉(zhuǎn)變到頻域,并計(jì)算其功率譜熵,獲得功率譜熵?cái)?shù)據(jù)集.同時(shí),選擇機(jī)器學(xué)習(xí)中常見(jiàn)的泛化能力強(qiáng)的兩種分類(lèi)器(LR和XGBoost)區(qū)分年輕人和中老年人的功率譜熵?cái)?shù)據(jù)集.在計(jì)算模型分類(lèi)精度之前,先對(duì)這兩個(gè)模型進(jìn)行調(diào)參操作,在獲得最佳參數(shù)后,再計(jì)算模型區(qū)分功率譜熵?cái)?shù)據(jù)集的分類(lèi)精度.為了比較兩個(gè)模型在功率譜熵?cái)?shù)據(jù)集的分類(lèi)性能,本文使用如表3所示的5種模型評(píng)價(jià)標(biāo)準(zhǔn).從表3可以明顯看出,XGBoost的ACC為91%,比LR的高了7.22%.比較其它四個(gè)評(píng)價(jià)指標(biāo),可知XGBoost模型比LR能更準(zhǔn)確地區(qū)分年輕人和中老年人的腦電波.因此,從整體上看,對(duì)于功率譜熵?cái)?shù)據(jù)集XGBoost比LR模型有更好的區(qū)分能力和泛化能力.
表3 LR和XGBoost分類(lèi)器的不同評(píng)價(jià)標(biāo)準(zhǔn)Table 3 The Different Evaluation Criterion with LR and XGBoost Classifiers
LR和XGBoost分類(lèi)器的受試者工作特征曲線(xiàn)(ROC)如圖3所示,圖中橫坐標(biāo)表示分類(lèi)器錯(cuò)認(rèn)為正類(lèi)的負(fù)實(shí)例占所有負(fù)實(shí)例的比例,縱坐標(biāo)表示分類(lèi)器識(shí)別出正實(shí)例占所有正實(shí)例的比例.從圖3中可以發(fā)現(xiàn),XGBoost的ROC比LR的更接近左上角,所以 XGBoost曲線(xiàn)下的面積比 LR的要大.因此,總體上說(shuō),XGBoost的分類(lèi)性能要優(yōu)于LR模型的.
為了分析功率譜熵?cái)?shù)據(jù)集的特征重要性,本文提出使用XGBoost增益方法計(jì)算數(shù)據(jù)集的特征重要性,并且以其重要性從大到小排序,如圖4所示,可以看出得分最高的兩個(gè)特征分別是C3和FC4.結(jié)合表1可發(fā)現(xiàn)年輕人和中老年人在做行為決策時(shí),在大腦中央?yún)^(qū)域和大腦的顳位置處他們的反應(yīng)差異較大,而分類(lèi)器更容易在這些特征區(qū)域?qū)?shù)據(jù)集做出更好的分類(lèi).
圖3 受試者工作特征曲線(xiàn)(ROC)Fig 3 The Receiver Operating Characteristic Curve (ROC)
圖4 特征重要性排序圖Fig 4 The Ordination Diagram of Weight of Feature
此外,為了更好地說(shuō)明特征重要性在分類(lèi)過(guò)程中所起的重要作用,給出了前兩個(gè)得分最高的特征C3和FC4下的功率譜熵?cái)?shù)據(jù)樣本的分類(lèi)過(guò)程,如圖5所示.對(duì)比兩幅圖可以看出,右邊的分類(lèi)界面能更好地區(qū)分正負(fù)樣本,而LR模型雖然將大部分正負(fù)樣本通過(guò)一條直線(xiàn)區(qū)分開(kāi)來(lái),但也有很多正樣本跑到負(fù)樣本中和負(fù)樣本跑到正樣本中的現(xiàn)象,這也是LR模型分類(lèi)精度不是很高的原因.LR模型考慮了所有樣本,試圖把所有樣本區(qū)分開(kāi),顯然這是不現(xiàn)實(shí)的.對(duì)比XGBoost的分類(lèi)界面,就會(huì)發(fā)現(xiàn)有很多中小的分類(lèi)界面,不限制與一條直線(xiàn),而是多條直接交叉在一起,這樣就會(huì)出現(xiàn)很多的分類(lèi)界面,從而提升了其分類(lèi)精度.顯然,不管從精度還是從分類(lèi)過(guò)程來(lái)看,在診斷腦電波年齡時(shí)XGBoost比LR的效果更好.
圖5 腦電波年齡的模型分類(lèi)過(guò)程圖Fig5 The Procedure Chart of Model Classification for Brain
本文利用功率譜信息熵方法提取年輕人和中老年人在做決策實(shí)驗(yàn)時(shí)所產(chǎn)生的腦電信號(hào)特征,并用LR和XGBoost機(jī)器學(xué)習(xí)分類(lèi)方法對(duì)提取到的功率譜信息熵?cái)?shù)據(jù)集進(jìn)行分類(lèi),診斷大腦年齡,并使用XGBoost增益指標(biāo)對(duì)數(shù)據(jù)特征重要性進(jìn)行分析.結(jié)果表明,在診斷年輕人和中老年人的行為決策腦電波時(shí),XGBoost模型具有精度高、區(qū)分度高和泛化能力強(qiáng)等優(yōu)點(diǎn).在診斷不同年齡的腦電波時(shí),增加樣本數(shù)據(jù)集、信號(hào)特征提取、算法改進(jìn)和提升精度是我們接下來(lái)的工作.