李冬梅,張洋,楊日東,陳子怡,田翔華,董楠,爾西丁·買買提,周毅,△
(1. 新疆醫(yī)科大學(xué),新疆 烏魯木齊 830011;2.新疆醫(yī)科大學(xué)第一附屬醫(yī)院神經(jīng)內(nèi)科,新疆 烏魯木齊 830011;3.中山大學(xué)中山醫(yī)學(xué)院生物醫(yī)學(xué)工程系,廣東 廣州 510080;4.中山大學(xué)附屬第一醫(yī)院神經(jīng)內(nèi)科,廣東 廣州 510080)
癲癇是一種常見的慢性腦部神經(jīng)疾病,其發(fā)作來源于大腦神經(jīng)元異常放電,引起中樞神經(jīng)系統(tǒng)功能短暫性失常,表現(xiàn)為意識(shí)、感覺等多方面功能障礙,具有不確定性、發(fā)作性,嚴(yán)重影響患者的日常生活和工作。腦電圖(electroencephalogram,EEG)的發(fā)展,對(duì)臨床試驗(yàn)探測大腦皮層的腦活動(dòng)和相關(guān)疾病提供了一種無創(chuàng)和低成本的有效技術(shù)[1]。腦電圖表示的是通過腦電電極所記錄到的各種腦電活動(dòng)的總和[2],癲癇患者的腦活動(dòng)通常包括發(fā)作間期和發(fā)作期(在一些病例中存在癲癇發(fā)作的前期和后期)。從一種狀態(tài)向另一種狀態(tài)演變時(shí),腦電信號(hào)會(huì)發(fā)生變化,大腦系統(tǒng)與此對(duì)應(yīng)的各種動(dòng)力學(xué)特征向量也隨之產(chǎn)生變化[3]。腦電信號(hào)具有非平穩(wěn)性和非線性特征,因此,對(duì)于腦電信號(hào)分析往往以傳統(tǒng)的時(shí)域、頻域或者時(shí)頻結(jié)合的方法為主[4-7],通過計(jì)算各種非線性的特征值來區(qū)分腦電信號(hào)[8]。大多數(shù)的數(shù)據(jù)預(yù)處理方法均是用小波變換對(duì)信號(hào)進(jìn)行分解,而分層數(shù)、基函數(shù)的選擇對(duì)結(jié)果有很大影響,不具備對(duì)信號(hào)自適應(yīng)的分解能力[9-10]。
對(duì)癲癇腦電信號(hào)進(jìn)行自動(dòng)檢測與識(shí)別的分類方法越來越多,主要有支持向量機(jī)(SVM)、決策樹(DT)、隨機(jī)森林(RandomForest)、模糊分類(FM)等。我們采用了代價(jià)敏感支持向量機(jī)(cost-sensitive support vector machine,CSVM)這一方法,其不僅具備了支持向量機(jī)(support vector machine,SVM)的特征,并且能夠考慮到樣本的不同誤分類代價(jià),實(shí)現(xiàn)代價(jià)敏感挖掘。本研究中,首先采用EMD算法將癲癇腦電數(shù)據(jù)進(jìn)行分解,選取主要IMF分量,計(jì)算樣本熵;使用核函數(shù)為RBF(rial basis function,RBF)的代價(jià)敏感支持向量機(jī)進(jìn)行分類,先選取一例患者的腦電信號(hào)作為訓(xùn)練數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練,然后選取不同的病例腦電信號(hào)作為測試數(shù)據(jù)進(jìn)行分類,并使用K-CV(k-fold cross validation,K-CV)算法進(jìn)行參數(shù)尋優(yōu),最后依據(jù)臨床醫(yī)師診斷得出分類結(jié)果。用這種測試方法不僅可以進(jìn)一步提高分類的準(zhǔn)確率,并且能對(duì)分類器的泛化能力和學(xué)習(xí)能力進(jìn)行更準(zhǔn)確的描述,對(duì)于臨床上研究癲癇實(shí)時(shí)信號(hào)檢測與識(shí)別更具有實(shí)際意義。
EMD(empirical mode decomposition,EMD)是一種自適應(yīng)信號(hào)時(shí)頻分析方法,在處理腦電信號(hào)這一類非平穩(wěn)非線性隨機(jī)信號(hào)上具有明顯的優(yōu)勢[11]。它可將信號(hào)分解成一系列的準(zhǔn)單分量信號(hào),即本征模函數(shù)(intrinsic mode function,IMF)。每一階IMF包含了原始信號(hào)的不同頻率信息,分析這些IMF即可獲得信號(hào)的局部信息特征。
經(jīng)驗(yàn)?zāi)J椒纸馐怯蒆uang等人提出的一種新的自適應(yīng)信號(hào)時(shí)頻處理方法,其本質(zhì)是通過信號(hào)的時(shí)間尺度獲得本征波動(dòng)模式。EMD有三大假設(shè)[12-13]:(1)信號(hào)至少有一個(gè)極大值點(diǎn)和一個(gè)極小值點(diǎn);(2)特征時(shí)間尺度由極值點(diǎn)的時(shí)間推移定義;(3)如果整個(gè)信號(hào)只包含曲折點(diǎn)而不包含極值點(diǎn),可以先微分一次或者多次找到極值點(diǎn),然后將所得到的分量進(jìn)行積分得到最后結(jié)果。這樣任何一個(gè)復(fù)雜信號(hào)都可以被分解成有限個(gè)具有物理意義的固有模態(tài)函數(shù)(IMF),其中任何一個(gè)IMF滿足以下兩個(gè)約束條件:
(1)數(shù)據(jù)段內(nèi),極值點(diǎn)和零點(diǎn)數(shù)目要想等或者最多相差1;
(2)任何一點(diǎn)處,分別由局部極大值點(diǎn)和局部極小值點(diǎn)確定的包絡(luò)線的均值為0。
EMD的具體步驟是:
(1)求出信號(hào)C(t)所有的極值點(diǎn),并分別用一條光滑的曲線連接,使得兩條曲線間包括所有的信號(hào)。上下包絡(luò)線emax(t)和emin(t)的均值記作m1(t),求出:
C(t)-m(t)=h1(t)
(1)
若h1(t)是一個(gè)固有模態(tài)分量,那么h1(t)就是C(t)的第一個(gè)分量。
(2)用h1(t)替代C(t),重復(fù)之前的步驟,直到h1k(t)為一個(gè)IMF,記C1(t)=h1k(t),并將C1(t)從信號(hào)C(t)中分離出來,得到:C(t)-c1(t)=r1(t),并令C(t)=r1(t);
(3)重復(fù)上述步驟,直到rN(t)或c1(t)滿足預(yù)設(shè)條件,C(t)的分解結(jié)束。
一般來說,EMD分解出來IMF的前幾個(gè)分量集中了原始信號(hào)中的主要信息。將EMD分解應(yīng)用到腦電分析中,可為研究人員提供有價(jià)值的信息,避免了人為因素的干擾,更有利于提高腦電信號(hào)的分類準(zhǔn)確率。
EEG信號(hào)是一種非線性時(shí)間序列。常見的非線性動(dòng)力學(xué)參數(shù)有關(guān)聯(lián)維數(shù)、Lyapunov指數(shù)、近似熵、樣本熵等,其中樣本熵(sample entropy,SampleEn)是由Richman和Moornan提出的一種新的時(shí)間序列復(fù)雜性測度方法??捎糜跍y量兩個(gè)新信息發(fā)生的條件率。樣本熵是一種與近似熵類似,但精度更好,可降低近似熵的誤差。其具體算法如下:
設(shè)原始數(shù)據(jù)為x(1),x(2),…,x(N),共N點(diǎn)。
(1)按序號(hào)連續(xù)順序組成一組m維矢量:
X(i)=[x(i),x(i+1),…,x(i+m-1)],i=1~N-m+1
(2)
(3)
(4)
(5)
(6)理論上此序列的樣本熵為:
(6)
當(dāng)N為有限值時(shí)上式表示為:
SampEn(m,r,N)=-ln[Bm+1(r)/Bm(r)]
(7)
SampEn的值顯然與m,r的取值有關(guān)。不同的嵌入維數(shù)m和相似容限r(nóng)對(duì)應(yīng)的樣本熵也不同。在一般情況下m=1或2,r=0.1SD~0.25SD(SD為標(biāo)準(zhǔn)差)計(jì)算得到的樣本熵具有較為合理的統(tǒng)計(jì)特性,故本文所有樣本熵的計(jì)算均取m=2,r=0.25SD。
大腦在癲癇發(fā)作時(shí),神經(jīng)元同步放電,各種腦功能都受到不同程度的抑制,因此與正常腦電活動(dòng)相比,復(fù)雜度會(huì)有所降低。癲癇患者從發(fā)作間期到發(fā)作期,樣本熵會(huì)有不同程度的下降,發(fā)作期結(jié)束后樣本熵又會(huì)逐漸升高。
傳統(tǒng)分類算法通常假定每個(gè)樣本的誤分類具有同樣的代價(jià)且每類樣本數(shù)大致相等。但是現(xiàn)實(shí)的數(shù)據(jù)挖掘中這種假設(shè)是不成立的,因此取得的結(jié)果也不理想。考慮到不同樣本的誤分類具有不同的代價(jià),提出代價(jià)敏感支持向量機(jī)(CSVM)的方法,對(duì)樣本的錯(cuò)分采用不同的懲罰參數(shù)重新構(gòu)造分類器,使其具有代價(jià)敏感的特性。
假設(shè)正常腦電為正類,癲癇腦電為負(fù)類。本研究對(duì)于正負(fù)類的訓(xùn)練錯(cuò)誤引入不同的懲罰參數(shù)C+和C_對(duì)支持向量機(jī)進(jìn)行訓(xùn)練,具體算法如下:
在訓(xùn)練集中T={(x1,y1)},…,(xl,yl)}∈(X×Y)lxi為輸入出樣本,yi為輸出樣本,其中,xi∈X=Rn,yi∈Y={-1,1},i=1,…,l。
選取徑向基核函數(shù)(gaussian radial basis function,RBF),其形式為:
K(xi,xj)=exp(-‖xi-xj‖2/σ2)
(8)
選取懲罰參數(shù),構(gòu)造并求解最優(yōu)問題:
subject toyi((ω·xi)+b)≥1-ξi,ξi≥0,i=1,…,l
(9)
根據(jù)Lagrange函數(shù),得到對(duì)偶問題:
0≤αi≤C+,i=1,2,…,l:yi=+1
0≤αi≤C-,i=1,2,…,l:yi=-1
(10)
(11)
f(x)=sgn((ω*·x)+b*)
(12)
實(shí)驗(yàn)數(shù)據(jù)來自于新疆醫(yī)科大學(xué)第一附屬醫(yī)院神經(jīng)科腦電圖室,采樣頻率均為200 Hz。采用新疆醫(yī)科大學(xué)第一附屬醫(yī)院神經(jīng)科腦電圖室某六位顳葉癲癇患者的數(shù)據(jù),對(duì)六例患者的腦電數(shù)據(jù)描述如下:一例16歲顳葉患者(1號(hào))的腦電數(shù)據(jù)診斷為發(fā)作間期118段與發(fā)作期118段,每段1500點(diǎn)數(shù)據(jù);一例22歲顳葉患者(2號(hào))的腦電數(shù)據(jù)發(fā)作間期至發(fā)作期330 s,共110段數(shù)據(jù),每段1 500點(diǎn)數(shù)據(jù)、代表時(shí)間3 s,其中臨床診斷在150~230 s為發(fā)作期,患者表現(xiàn)為左側(cè)上肢抽搐;一例46歲顳葉患者(3號(hào))的腦電數(shù)據(jù)發(fā)作間期至發(fā)作期160 s,共80段數(shù)據(jù),每段1 000點(diǎn)數(shù)據(jù)、代表時(shí)間2 s,其中臨床診斷在105~142 s為發(fā)作期,患者表現(xiàn)為雙上肢自動(dòng)癥、口咽部自動(dòng)癥;一例28歲顳葉患者(4號(hào))的腦電數(shù)據(jù)發(fā)作間期至發(fā)作期200 s,共100段數(shù)據(jù),每段1 000點(diǎn)數(shù)據(jù)、代表時(shí)間2 s,其中臨床診斷在85~126 s為發(fā)作期,患者表現(xiàn)為失神、左上肢自動(dòng)癥、口咽部自動(dòng)癥;一例39歲顳葉患者(5號(hào))的腦電數(shù)據(jù)發(fā)作間期至發(fā)作期160 s,共80段數(shù)據(jù),每段1 000點(diǎn)數(shù)據(jù)、代表時(shí)間2 s,其中臨床診斷在95~116 s為發(fā)作期,患者表現(xiàn)為咀嚼、左上肢強(qiáng)直、右上肢自動(dòng);一例15歲顳葉患者(6號(hào))的腦電數(shù)據(jù)發(fā)作間期至發(fā)作期160 s,共80段數(shù)據(jù),每段1 000點(diǎn)數(shù)據(jù)、代表時(shí)間2 s,其中臨床診斷在105~136 s為發(fā)作期,患者表現(xiàn)為愣神、雙上肢自動(dòng)癥。實(shí)驗(yàn)采用數(shù)據(jù)均為頭皮腦電數(shù)據(jù),采集后由臨床腦電圖儀進(jìn)行預(yù)處理后存儲(chǔ)于醫(yī)院數(shù)據(jù)庫中,因此可直接將其進(jìn)行研究。
基于EMD的數(shù)據(jù)分解及特征值分類、發(fā)作預(yù)測的過程見圖1。對(duì)輸入信號(hào)首先進(jìn)行EMD分解;對(duì)得到各階的IMF分量進(jìn)行傅里葉變換從而獲得頻譜能量;計(jì)算特征值,從中選擇合適的特征向量作為分類器的輸入,進(jìn)行分類,并對(duì)分類器進(jìn)行參數(shù)優(yōu)化,最后可以得到較為理想的分類結(jié)果。
圖1基于EMD分解的特征提取及分類優(yōu)化過程
Fig1EMDdecompositionbasedonfeatureextractionandclassificationoptimizationprocess
首先,利用1號(hào)患者的發(fā)作間期與發(fā)作期各118段數(shù)據(jù)進(jìn)行特征提取,將得到的236個(gè)樣本熵值輸入到分類器構(gòu)建算法中得到分類器。之后將剩余的5位患者腦電數(shù)據(jù)按順序各分為兩組,輸入到構(gòu)件號(hào)的分類器中進(jìn)行分類,得到分類結(jié)果。
由于記錄數(shù)據(jù)時(shí)數(shù)據(jù)量較大,因此結(jié)合統(tǒng)計(jì)學(xué)的關(guān)聯(lián)性分析,只選取關(guān)聯(lián)性較小的導(dǎo)聯(lián)數(shù)據(jù)進(jìn)行分析。對(duì)6例患者的腦電數(shù)據(jù)樣本進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,并對(duì)IMF分量做傅里葉變換,得到頻譜,主要頻譜能量集中在前三個(gè)IMF,因此提取前三個(gè)IMF分量的特征值。將已經(jīng)得到的特征值樣本利用CSVM分類器對(duì)其進(jìn)行分類實(shí)驗(yàn),其中核函數(shù)為徑向基(RBF)函數(shù),懲罰參數(shù)取c=1,核函數(shù)參數(shù)取g=0.01。信號(hào)分類實(shí)驗(yàn)結(jié)果見表1。
通過對(duì)訓(xùn)練樣本集進(jìn)行訓(xùn)練,得到分類模型后,利用測試集樣本對(duì)分類器進(jìn)行檢驗(yàn),得到的準(zhǔn)確率反應(yīng)了分類器的分類效果,但這種效果只關(guān)注了經(jīng)驗(yàn)風(fēng)險(xiǎn),因此這種評(píng)價(jià)有不足之處。為了量化地表示CSVM的學(xué)習(xí)能力和泛化能力,采取了交叉驗(yàn)證(cross validation,CV)中K-CV的方法對(duì)分類器的性能進(jìn)行驗(yàn)證。K-CV可以有效地避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服力。
表1 5位受試對(duì)象IMF能量譜特征提取方法分類結(jié)果
Table1No. 1subjectsoftheIMFenergyspectrumfeatureextractionmethodclassificationresults
數(shù)據(jù)組測試樣本數(shù)發(fā)作期發(fā)作間期正確識(shí)別率(%)2號(hào)110257691.823號(hào)80165791.254號(hào)1001862805號(hào)801058856號(hào)80155486.25
圖2 SVC參數(shù)尋優(yōu)
取2號(hào)患者數(shù)據(jù)對(duì)分類器的訓(xùn)練情況進(jìn)行分析。圖2是在網(wǎng)格搜索下的參數(shù)c和g的不同取值所對(duì)應(yīng)的分類準(zhǔn)確率所對(duì)應(yīng)的3D視圖及其等高線圖。圖中x軸表示c取以2為底的對(duì)數(shù)后的值,y軸表示g取以2為底的對(duì)數(shù)后的值,等高線表示的取相應(yīng)的c和g后對(duì)應(yīng)的K-CV方法的準(zhǔn)確率,通過圖中可以看出把c的范圍縮小到2^(-2)~2^(4),同時(shí)g的范圍可以縮小到2^(-4)~2^(4),這樣在上面粗略參數(shù)選擇的基礎(chǔ)上可以再利用SVMForClass進(jìn)行精細(xì)的參數(shù)選擇。
表3為5位受試者的樣本分類效果比較。與經(jīng)驗(yàn)參數(shù)下分類效果進(jìn)行比較,可以看出在參數(shù)優(yōu)化后,分類器的分類準(zhǔn)確率有了明顯提高。
表3 受試者腦電數(shù)據(jù)在兩類分類器下的準(zhǔn)確率
本研究表明,選取EMD對(duì)數(shù)據(jù)進(jìn)行分解處理時(shí),在一定程度上克服了傳統(tǒng)腦電算法處理不具備自適應(yīng)性信號(hào)處理的能力;并針對(duì)傳統(tǒng)分類算法中假定每個(gè)樣本的誤分類具有同樣的代價(jià)且每類樣本數(shù)大致相等的缺陷,提出了代價(jià)敏感支持向量機(jī)的方法,在分類器進(jìn)行設(shè)計(jì)時(shí),考慮樣本的不同誤分類代價(jià),從而實(shí)現(xiàn)代價(jià)敏感挖掘;對(duì)以構(gòu)建好的分類器進(jìn)行參數(shù)優(yōu)化,進(jìn)一步提高了分類的準(zhǔn)確率,較真實(shí)地反應(yīng)了分類器的學(xué)習(xí)能力和泛化能力。
目前,神經(jīng)科學(xué)的研究已成為生命科學(xué)研究的熱點(diǎn)?;诜蔷€性動(dòng)力學(xué)的方法,通過對(duì)神經(jīng)電信號(hào)的研究,定量描述腦電信號(hào)的某些特征,能夠?qū)Πd癇類神經(jīng)疾病進(jìn)行更加深入的探索研究。本研究利用經(jīng)驗(yàn)?zāi)J椒纸?EMD)在對(duì)非平穩(wěn)時(shí)變信號(hào)進(jìn)行多尺度分解,將代價(jià)敏感支持向量機(jī)運(yùn)用于癲癇腦電信號(hào)的分類,并對(duì)分類器進(jìn)行優(yōu)化,不僅可以提高臨床上癲癇腦電信號(hào)的檢測與識(shí)別的準(zhǔn)確率,還可用于實(shí)時(shí)監(jiān)測的在線分析,更好地幫助電生理醫(yī)生客觀準(zhǔn)確地分析腦電信號(hào),為后續(xù)癲癇病的研究提供基礎(chǔ)。