張遠(yuǎn)鵬,蔡可夫,姚 敏,姚登福,王 理
(1 南通大學(xué)醫(yī)學(xué)院醫(yī)學(xué)信息學(xué)系,南通 226019;2 香港理工大學(xué)醫(yī)療科技與資訊學(xué)系;南通大學(xué)附屬醫(yī)院3 神經(jīng)內(nèi)科,4 臨床醫(yī)學(xué)研究中心;南通大學(xué)5 信息科學(xué)技術(shù)學(xué)院,6 智能信息技術(shù)研究中心;7 南通先進(jìn)通信技術(shù)研究院有限公司)
腦電圖(electroencephalogram,EEG)作為生物標(biāo)志物在腦機(jī)接口(brain-computer interface,BCI)中發(fā)揮重要作用[1-2]。在臨床診斷中經(jīng)常使用EEG 來(lái)確定癲癇的存在和類型。近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,人工智能輔助診斷越來(lái)越受到人們的關(guān)注,且在許多場(chǎng)景中取得了空前的成功[3-4]?;谌斯ぶ悄艿陌d癇患者輔助診斷流程包含信號(hào)采集、信號(hào)處理、特征提取、特征選擇以及模型訓(xùn)練和測(cè)試。眾所周知,從EEG 信號(hào)中提取的原始特征不能直接用于模型訓(xùn)練,因?yàn)樗鼈兺ǔT诜浅8呔S的特征空間中表示。因此,特征選擇通常在模型訓(xùn)練之前執(zhí)行。本研究探討如何選擇有效的特征以保證高效的人工智能輔助臨床診斷癲癇。
1.1 一般資料 從波恩大學(xué)下載的癲癇EEG 數(shù)據(jù)將用于評(píng)估所提出的特征選擇模型。該數(shù)據(jù)集由5組子集(A~E 組)組成,其中每組由100 個(gè)單通道持續(xù)時(shí)間為23.6 s 的EEG 段組成。A~B 組的片段取自5 例健康受試者,C~E 組片段取自癲癇患者。數(shù)據(jù)結(jié)構(gòu)和收集條件見(jiàn)表1。每個(gè)組中1 個(gè)受試者的采集過(guò)程中的振幅見(jiàn)圖1。
圖1 每組一個(gè)受試者的振幅(從上到下分別對(duì)應(yīng)A、B、C、D、E 組)
表1 健康受試者與癲癇患者EEG 數(shù)據(jù)集
1.2 方法 假設(shè)用X=[x1,x2,…xn]∈Rd×n表示癲癇患者EEG 訓(xùn)練樣本集合,Y=[y1,y2,…yn]T∈Rn×c表示對(duì)應(yīng)的標(biāo)簽集合,其中Xi=[x1,x2,…xn]T∈Rd樣本特征空間,yi∈Rc表示xi對(duì)應(yīng)的標(biāo)簽空間,1≤i≤n。對(duì)于矩陣B,使用bij表示第i 行和第j 列的元素bi,和bj分別表示矩陣的第i 行向量和第j 向量。F.P.NIE 等[5]基于l2,1-范數(shù)提出了一種嵌入式稀疏回歸模型(E-JSRegression),用于高維數(shù)據(jù)的特征選擇,由于基于l2-范數(shù)的損失函數(shù)對(duì)離群點(diǎn)敏感,因此使用基于l2,1-范數(shù)的損失函數(shù)來(lái)消除離群點(diǎn)。此外,他們還使用l2,1-范數(shù)來(lái)正則化變換矩陣,從而可以進(jìn)行特征選擇。E-JS-Regression 目標(biāo)函數(shù)定義為:
其中θ 是正則化參數(shù),W∈Rd×c為變化矩陣。堆疊廣義原理作為集成學(xué)習(xí)策略可以為模型組合提供有效的方法。盡管堆疊廣義原理沒(méi)有像Boosting 和Bagging 那樣廣泛使用,但是它的巨大創(chuàng)新已經(jīng)在許多應(yīng)用場(chǎng)景中取得了成功。本研究以E-JS-Regression 為基本單元,構(gòu)建用于癲癇患者EEG 特征選擇的深度堆疊式稀疏回歸模型(SDE-JS-Regression),見(jiàn)圖2。
圖2 SDE-JS-Regression 的棧式深度結(jié)構(gòu)
SDE-JS-Regression 由m 個(gè)基本組件組成,這些基本組件以逐層方式連接。具體來(lái)說(shuō),當(dāng)?shù)谝粋€(gè)組件固定時(shí),后續(xù)組件的輸入由兩部分組成:原始輸入特征和上一層組件的輸出。本研究參照堆疊廣義原理,隨機(jī)生成投影矩陣,然后將隨機(jī)投影矩陣集成到原始輸入特征空間中,從而融合這兩個(gè)部分。因此,可以通過(guò)以下等式獲得第s 個(gè)組件(1<s≤m)的輸入,
其中Z∈Rc×d是隨機(jī)投影矩陣,每個(gè)元素在[0,1]的范圍內(nèi),σ 是一個(gè)正則化參數(shù)。利用這種結(jié)構(gòu),將原始輸入特征添加到一個(gè)連續(xù)的隨機(jī)投影中,從而將所有構(gòu)件進(jìn)行堆疊和橋接,形成本研究提出的特征選擇模型。從堆疊深度結(jié)構(gòu)中繼承的優(yōu)勢(shì)在于:添加到原始特征中的隨機(jī)投影可以堆疊的方式連續(xù)打開(kāi)原始特征輸入空間中存在的流形結(jié)構(gòu),使輸入特征空間變得線性可分。
當(dāng)通過(guò)SDE-JS-Regression 獲得變換矩陣W∈Rd×c時(shí),計(jì)算各列向量Wj的總和,然后對(duì)最終列向量中的元素從最大到最小排序。通過(guò)這種方式可以獲得用于指導(dǎo)特征選擇的特征等級(jí)列表。
1.3 實(shí)驗(yàn)設(shè)置 為了公平地評(píng)估SDE-JS-Regression 的特征選擇性能,引入E-JS-Regression[5]、mRMR[6]、RFE-SVM[7]和Relief[8]用于基準(zhǔn)測(cè)試。每種基準(zhǔn)模型的簡(jiǎn)要概述為:(1)E-JS-Regression:這是一個(gè)嵌入式特征選擇模型,也是本研究提出方法的基本組件。在實(shí)驗(yàn)中,其涉及的正則化參數(shù)γ 將由5 折交叉驗(yàn)證確定。(2)mRMR:這是一個(gè)基于最小冗余和最大相關(guān)性的過(guò)濾功能選擇模型。冗余是通過(guò)相互信息來(lái)衡量的。(3)RFE-SVM:這是一個(gè)包裝器特征選擇模型,與支持向量機(jī)(support vector machine,SVM)分類器結(jié)合使用以實(shí)現(xiàn)遞歸特征消除。支持向量機(jī)中的參數(shù)全部由5 折交叉驗(yàn)證確定。(4)Relief:這也是一個(gè)過(guò)濾要素選擇模型,它根據(jù)要素和類之間的相關(guān)性為每個(gè)要素分配權(quán)重。實(shí)驗(yàn)中最近鄰居的數(shù)量設(shè)置為10。
當(dāng)獲得由每個(gè)模型生成的特征排序列表時(shí),基于高斯核的SVM[9]和Ridge 回歸[10]被用來(lái)執(zhí)行分類任務(wù)。根據(jù)表2 中所示的癲癇腦電圖數(shù)據(jù),構(gòu)造了3個(gè)分類任務(wù)。
表2 針對(duì)所選特征的3 個(gè)分類任務(wù)
對(duì)于每個(gè)任務(wù),75%的樣本用于訓(xùn)練,25%的樣本用于測(cè)試?;诟咚箖?nèi)核的SVM 中的參數(shù)(內(nèi)核寬度和松弛變量)和Ridge 中的正則化參數(shù)由訓(xùn)練集上的5 折交叉驗(yàn)證確定。實(shí)驗(yàn)重復(fù)測(cè)試程序100 次,并記錄準(zhǔn)確度的平均結(jié)果,其中準(zhǔn)確度(Accuracy)定義為正確分類的樣本數(shù)與所有樣本數(shù)之比。
2.1 所選特征的分類性能 圖3~4 顯示了從相應(yīng)的特性排序列表中選擇的具有不同特征數(shù)量(從5~100,步長(zhǎng)為5)的5 個(gè)模型的分類性能,從3 個(gè)分類任務(wù)的比較結(jié)果中,觀察到SDE-JS-Regression 的性能優(yōu)于基準(zhǔn)模型,尤其是mRMR、RFE-SVM 和Relief。在任務(wù)3 上,無(wú)論是SVM 或Ridge,當(dāng)選擇的特征數(shù)目設(shè)>15 時(shí),SDE-JS-Regression 總是比E-JSRegression 的準(zhǔn)確度高。
圖3 支持向量機(jī)分類性能
2.2 所選特征的參數(shù)分析 圖5 顯示了參數(shù)敏感性分析結(jié)果,其中包含正則化參數(shù)θ 和分量數(shù)m,其中θ 的搜素范圍為[0.001、0.005、0.01、0.05、0.1、0.5、1、1.5、2、2.5],m 的搜索范圍為[1、2、3、4、5、6、7、8、9、10]。每個(gè)任務(wù)的準(zhǔn)確性都是從特征排序列表中選擇的前55 個(gè)特征獲得。從圖5 中,相對(duì)于θ,觀察到SDE-JS-Regression 在[0.001,0.05]的范圍內(nèi)表現(xiàn)良好。隨著θ 從0.05~2.5 的進(jìn)一步增加,分類性能開(kāi)始下降。但是,盡管當(dāng)θ 在[0.05,2.5]范圍內(nèi)時(shí)性能開(kāi)始下降,但是SDE-JS-Regression 的性能并未顯示出明顯的變化。
圖4 嶺回歸分類性能
圖5 關(guān)于θ 和m 參數(shù)敏感性分析
特征選擇在EEG 處理中扮演著重要角色。目前大多數(shù)特征選擇算法可以分為3 類:過(guò)濾式、嵌入式及包裹式。過(guò)濾式特征選擇算法獨(dú)立于分類器,主要是利用特征與對(duì)應(yīng)輸出之間的內(nèi)在關(guān)系進(jìn)行特征選擇。具有代表性的特征選擇算法包括mRMR、F-statistic[11]、Chi-square[12]、Relief 等。和過(guò)濾式不同,包裹式特征選擇算法是將特征選擇過(guò)程和分類器綁定,采用“嘗試”的方式獲得對(duì)分類器具有高區(qū)分度的特征。采用這類方式進(jìn)行特征選擇時(shí),往往需要消耗大量的時(shí)間。具有代表性的方法包括CSF[13]、RFESVM 等。嵌入式特征選擇和包裹式類似,也和分類器綁定。但是和包裹式不同的是將特征選擇的過(guò)程納入分類器的目標(biāo)優(yōu)化過(guò)程,而并非采用“嘗試”的策略。這使得特征選擇過(guò)程和分類過(guò)程渾然一體,具有代表性的算法包括E-JS-Regression 等。本研究在嵌入式特征選擇算法E-JS-Regression 上,提出基于深度堆疊式稀疏回歸模型SDE-JS-Regression 用于癲癇患者的EEG 特征選擇。從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),與mRMR、Relief 和RFE-SVM 相比,嵌入式特征選擇模型SDE-JS-Regression 和E-JS-Regression 獲得的特征對(duì)分類器的歸納性更高。這是因?yàn)榍度胧教卣鬟x擇模型在特征選擇過(guò)程中將分類訓(xùn)練誤差降至最低。因此,對(duì)于通過(guò)EEG 信號(hào)進(jìn)行的癲癇分類任務(wù)而言,嵌入式特征選擇模型更為合適。在3 個(gè)分類任務(wù)(尤其是任務(wù)3)上,SDE-JS-Regression 的性能優(yōu)于E-JS-Regression,這表明所提出的堆疊式深度結(jié)構(gòu)確實(shí)可以幫助選擇更多的分類成癮特征,從而提高分類性能。如前所述,從堆疊的深度結(jié)構(gòu)中繼承的好處在于,添加到原始特征中的隨機(jī)投影可以幫助我們以堆疊的方式連續(xù)打開(kāi)原始特征空間中存在的流形結(jié)構(gòu)。有了這些好處,輸入特征空間就變得線性可分。因此,提出的SDE-JS-Regression 對(duì)θ 具有一定魯棒性。對(duì)于本研究的3 個(gè)EEG 分類任務(wù),θ 可以設(shè)置為0.001~0.05。
SDE-JS-Regression 結(jié)構(gòu)中的層(組件)數(shù)決定了添加到輸入要素空間中的隨機(jī)移位數(shù)。從圖5 中可以看出,“層越多,性能越好”并不成立。在這3 個(gè)任務(wù)上,4~6 層可以保證相對(duì)較好的性能。太多的隨機(jī)投影會(huì)導(dǎo)致訓(xùn)練集的分布失真。
本研究提出了一種特征選擇模型SDE-JS-Regression,用于通過(guò)癲癇患者EEG 信號(hào)進(jìn)行人工智能輔助臨床診斷。SDE-JS-Regression 與現(xiàn)有的嵌入式模型有很大的不同,因?yàn)樗亩询B深度結(jié)構(gòu)是基于堆疊廣義原理以逐層方式構(gòu)造的。SDE-JS-Regression 源自E-JS-Regression,但性能優(yōu)于E-JS-Regression,因?yàn)樘砑拥皆继卣髦械碾S機(jī)投影可以幫助以堆疊方式連續(xù)打開(kāi)原始特征空間中存在的流形結(jié)構(gòu),這樣原始輸入特征空間就可以更線性地分離?;谒x功能構(gòu)建3 個(gè)分類任務(wù),以評(píng)估SDE-JSRegression 的有效性。
綜上所述,通過(guò)SDE-JS-Regression 選擇癲癇患者的EEG 信號(hào)特征更有意義,對(duì)分類器有所幫助,可比基準(zhǔn)模型產(chǎn)生更好的性能。