晏 潔,吳海鋒,,保 涵
(1.云南民族大學(xué) 電氣信息工程學(xué)院,云南 昆明 650500;2.云南民族大學(xué) 云南省高校智能傳感網(wǎng)絡(luò)及信息系統(tǒng)科技創(chuàng)新團(tuán)隊(duì),云南 昆明 650500)
近年來,靜息態(tài)核磁共振成像(rest-state functional magnetic resonance imaging,rs-fMRI)因其無創(chuàng)性、高分辨率且具有較好的安全性的特點(diǎn),已普遍應(yīng)用于腦部疾病的診斷[1-3].已有研究表明,輕度認(rèn)知障礙(mild cognitive impairment,MCI)一種功能性連接(functional connectivity,FC)喪失癥,表現(xiàn)為患者某些大腦區(qū)域的網(wǎng)絡(luò)連通性顯著下降.通過rs-fMRI可以很方便地構(gòu)建腦區(qū)網(wǎng)絡(luò),從而評(píng)判患者腦區(qū)網(wǎng)絡(luò)的連通性[4-6].采用rs-fMRI構(gòu)建腦區(qū)網(wǎng)絡(luò)的方法主要有相關(guān)法[7-9]、圖論[10]以及格蘭杰因果分析(GCA)[11]等,其中皮爾遜相關(guān)是一種常用方法.研究大腦的動(dòng)態(tài)變化時(shí)[12],可計(jì)算其加窗皮爾遜相關(guān)[13]建立動(dòng)態(tài)功能網(wǎng)絡(luò)連接(dynamic functional connectivity,DFC).然而,無論皮爾遜相關(guān)還是加窗皮爾遜相關(guān),若大腦感興趣區(qū)(region of interest,ROI)數(shù)目較多,計(jì)算的相關(guān)系數(shù)數(shù)量將非常龐大,如何從這些龐大的相關(guān)系數(shù)中提取有效的特征來評(píng)判腦區(qū)間的連通性是一件較困難的工作.由于個(gè)體的差異,每個(gè)被試的腦區(qū)連通性不盡相同,同時(shí),所計(jì)算的相關(guān)系數(shù)的數(shù)量龐大也會(huì)產(chǎn)生一些冗余信息,這些因素都增加了評(píng)判腦區(qū)連通性的難度.
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)(machine learning,ML)已逐漸地成為了一種輔助的醫(yī)學(xué)診斷方式[14-15],其本質(zhì)是利用分類器對(duì)兩類或兩類以上的對(duì)象進(jìn)行分類.在ML中,分類器性能依賴于所提取的特征,可表達(dá)組間顯著性差異的特征將會(huì)得到較高的分類準(zhǔn)確率.雖然將腦區(qū)連通性作為分類器的特征輸入[16]是近年來常用的一種分類方法,但如前所述,如何從龐大的特征提取有效特征仍是一項(xiàng)挑戰(zhàn).另外,即使提取出有效特征,特征的數(shù)目仍然巨大,如何進(jìn)行降維,避免維度詛咒[17]也是采用ML實(shí)現(xiàn)分類需要解決的一個(gè)問題.
針對(duì)以上問題,本文做了如下工作:第一,對(duì)由rs-fMRI所計(jì)算的加窗皮爾遜相關(guān)系數(shù)進(jìn)行特征選擇,通過計(jì)算最小類內(nèi)距離,篩選出更有效的特征.第二,對(duì)選擇后的特征通過最小二乘(least square,LS)擬合的方式進(jìn)行數(shù)據(jù)壓縮,減小了特征維度.實(shí)驗(yàn)采用一組公開的MCI和正常對(duì)照(normal control,NC)組來進(jìn)行分類,將經(jīng)過特征選擇和特征壓縮的數(shù)據(jù)作為分類器的輸入.實(shí)驗(yàn)結(jié)果表明,經(jīng)處理后特征的分類準(zhǔn)確率比未經(jīng)處理特征的分類準(zhǔn)確率要高8%.
對(duì)于rs-fMRI信號(hào),最常用的分析技術(shù)是基于種子的分析 (SBA)[18-19],其定義的種子點(diǎn)可將大腦劃分為116個(gè)ROI的自動(dòng)解刨標(biāo)記(anatomical automatic labeling,AAL)[20].通過AAL提取的數(shù)據(jù)維度本身較大,若再計(jì)算DFC,產(chǎn)生的數(shù)據(jù)不僅包含F(xiàn)C信息,還包含時(shí)間信息,數(shù)據(jù)量會(huì)更大,這會(huì)增加計(jì)算復(fù)雜度,導(dǎo)致信息冗余,故可采取特征選擇的方法.通常,特征選擇方法可分為3類:過濾法[21]、包裝法[22]和嵌入法[23].過濾法通過統(tǒng)計(jì)單變量的特征的基本屬性,設(shè)定閾值選擇特征.包裝法直接利用最終分類器的性能來評(píng)估特征選擇和分類的總體效果,需要多次交叉驗(yàn)證來訓(xùn)練分類器,花費(fèi)時(shí)間較多,但有比過濾法更準(zhǔn)確的分類結(jié)果[24].然而,由于使用的交叉驗(yàn)證,包裝法可能在不同的分類數(shù)據(jù)上選擇不同的特征[25].嵌入法與過濾法類似,但是它的特征選擇過程與分類器訓(xùn)練有關(guān)[26],又因?yàn)樵摲椒]有對(duì)特征子集進(jìn)行迭代評(píng)估,所以比包裝法的計(jì)算速度更快,但占用的計(jì)算資源較大.
較多的特征數(shù)不僅包含冗余信息,還易造成維度災(zāi)難問題[27],因此降維對(duì)分類具有重要意義.主成分分析(principal component analysis,PCA)是一種用于降低特征維數(shù)的技術(shù),其不僅被成功地用于描述疾病相關(guān)空間模式的生物學(xué)過程[28-29],還可提取神經(jīng)影像分類中的有效特征[30-31].然而,使用PCA降維的特征與原始特征的物理性質(zhì)沒有直接聯(lián)系,這使得分類的可解釋性變得復(fù)雜.線性判別分析(LDA)[32]試圖通過尋找在高斯分布假設(shè)下最大化類可分性的線性投影來消除PCA的這一缺點(diǎn).然而,無論是PCA還是LDA都不可避免的丟失了數(shù)據(jù)信息,是一種有損的數(shù)據(jù)降維方式.多元分類和回歸分析也可實(shí)現(xiàn)降維,在多元分類和回歸分析中,最常使用線性模型分析特定區(qū)域與認(rèn)知功能之間的相關(guān)性[33-35],其新特征集是原始特征的線性組合,因此降維后的數(shù)據(jù)可無損地恢復(fù)成原始數(shù)據(jù).遺憾的是,這方面研究分析通常依靠先驗(yàn)選,或者需要分析MCI和NC受試者的結(jié)構(gòu)連接模式差異,這給實(shí)際應(yīng)用帶來了一定困難.
首先對(duì)符合標(biāo)準(zhǔn)的rs-fMRI數(shù)據(jù)進(jìn)行預(yù)處理,再通過AAL模板提取ROI的血氧水平依賴(blood oxygen level dependent,BOLD)信號(hào),計(jì)算BOLD信號(hào)間的加窗皮爾遜相關(guān)系數(shù)得到DFC(由于DFC相關(guān)矩陣為對(duì)稱陣,故只需取其上三角部分即可),其次利用訓(xùn)練樣本中的最小類內(nèi)距離準(zhǔn)則選取合適的特征數(shù)目,然后對(duì)篩選后的數(shù)據(jù)進(jìn)行LS線性擬合,最后將得到的擬合系數(shù)作為支持向量機(jī)(support vector machine,SVM)分類器的特征輸入,其總體框架如圖1所示.下面,將對(duì)上述步驟做更詳細(xì)介紹.
圖1 系統(tǒng)框圖
根據(jù)k折交叉驗(yàn)證,將所有被試者組成的集合N劃分為兩個(gè)子集XS和XT,使其滿足
XS∪XT=N&XS∩XT=0&XS/XT=1-1/k.
(1)
若將xnj∈RT×K表示為將第j類的第n個(gè)被試的ROI時(shí)間序列矩陣,其中T表示時(shí)間點(diǎn)數(shù),K表示ROI數(shù)目,則對(duì)該矩陣計(jì)算第w個(gè)時(shí)間窗口的皮爾遜相關(guān)系數(shù)后將得到矩陣
(2)
其中w=1,2…W,j=1,2,…,J.
(a) 最小類內(nèi)距離
最小類內(nèi)距離指兩個(gè)類中距離最小的作為兩類距離,反之,最大類間表示兩個(gè)類中距離最大的作為兩類距離.先計(jì)算訓(xùn)練集的總體類內(nèi)距離,得到
(3)
(4)
(5)
Y=[r(p1),r(p2),...r(pM)].
(6)
(7)
J類訓(xùn)練集的組平均特征所構(gòu)成的矩陣就為
Δ=[A1,A2,…AJ].
(8)
(b)最大類間距離
計(jì)算類間距離,得到
(9)
(10)
與(5)同理,在組平均上也可得I個(gè)δ′,令其為δ′(i),由最大類間距離準(zhǔn)則所選擇的M個(gè)特征的位置可計(jì)算為
(11)
剩余步驟與最小類內(nèi)距離準(zhǔn)則一樣.
即使經(jīng)過特征選擇后,特征數(shù)目依舊龐大,為了避免維度詛咒問題,我們采用LS特征壓縮,即將每一被試經(jīng)特征選擇后的DFC矢量表達(dá)為聚類中心的線性組合(聚類中心由J類訓(xùn)練集的組平均特征所構(gòu)成),通過LS擬合求解該線性組合.將一被試者的特征選擇矢量表達(dá)為
Y=Δθ+ε.
(12)
其中,ε表示誤差矢量.根據(jù)LS估計(jì)求解,可得最后的壓縮系數(shù)
(13)
最后,將θn表示為第n個(gè)被試的特征壓縮矢量,將其與標(biāo)簽ln構(gòu)成一個(gè)元胞
Zn=<θn,ln>.
(14)
根據(jù)n所屬的集合,組成最終的訓(xùn)練集S和測(cè)試集T.上述計(jì)算步驟如下所示.
step 2:劃分集合,對(duì)DPABI預(yù)處理后的圖像劃分為訓(xùn)練集XS和測(cè)試集XT;
step 3:在集合XS中,根據(jù)(3)(9)分別獲得最小類內(nèi)距離和最大類間距離δ;
step 4:通過(5-11)篩選M個(gè)最小類內(nèi)距離和最大類間對(duì)應(yīng)的位置,并分別將其位置帶入(7)得到Aj;
step 5:將J類訓(xùn)練集的組平均特征作為聚類中心,得到Δ;
本實(shí)驗(yàn)所用rs-fMRI數(shù)據(jù)采用自阿爾茨海默病神經(jīng)影像學(xué)數(shù)據(jù)庫(alzheimer’s disease neuroimaging initiative,ADNI),參數(shù)設(shè)置如表1.
表1 rs-fMRI數(shù)據(jù)參數(shù)設(shè)置
該實(shí)驗(yàn)使用數(shù)據(jù)處理和腦成像分析(data processing &analysis of brain imaging,DPABI)工具箱[36]進(jìn)行數(shù)據(jù)預(yù)處理,下載地址為:http://rfmri.org/dpabi,處理步驟如下:
● 默認(rèn)去除原始數(shù)據(jù)前10幀圖像,以使圖像穩(wěn)定;
● 時(shí)間層矯正,以第48個(gè)切片為基準(zhǔn)使每個(gè)切片上的數(shù)據(jù)具有相同時(shí)間點(diǎn);
● 手動(dòng)調(diào)整被試圖像,使其與標(biāo)準(zhǔn)圖像位置保持一致,再將結(jié)構(gòu)像配到功能像,然后把結(jié)構(gòu)像分割成灰質(zhì)、白質(zhì)和腦脊液;
● 控制生理噪聲(包括全局信號(hào)、灰質(zhì)白質(zhì)中的噪聲等)和去除線性漂移;
● 校正所有被試者的頭部運(yùn)動(dòng),采用Friston 24頭動(dòng)參數(shù)模型(包括3個(gè)轉(zhuǎn)動(dòng)參數(shù)和3個(gè)平動(dòng)參數(shù));
● 進(jìn)行歸一化和平滑,并過濾數(shù)據(jù)的頻率范圍為
● 0.01~0.08 Hz,以此濾除低頻偏移和高頻噪聲;
● 使用AAL地圖集識(shí)別ROI;
● 再次調(diào)整頭動(dòng),設(shè)置頭動(dòng)排除標(biāo)準(zhǔn):大于 2 mm 位移和2°旋轉(zhuǎn)角度;
● 篩選配準(zhǔn)質(zhì)量好的結(jié)構(gòu)像與功能像,最后獲得32個(gè)MCI和32個(gè)NC圖像.
本文采用SVM來評(píng)估我們方法的分類性能.由于樣本數(shù)量有限,采用五折交叉驗(yàn)證,同時(shí),為避免交叉驗(yàn)證結(jié)果的偶然性,重復(fù)上述步驟十次,最后結(jié)果取平均.為了評(píng)估特征選擇和特征壓縮結(jié)合方法的有效性,本文還做了以下對(duì)比試驗(yàn),具體參數(shù)由表2列出,步驟簡(jiǎn)述如下:
● Pearson:計(jì)算兩兩ROI間BOLD信號(hào)的皮爾遜相關(guān)系數(shù);
● WP:將時(shí)間分割成若干份(即窗口),在每個(gè)窗口獨(dú)立地計(jì)算皮爾遜相關(guān)系數(shù);
● WP-FS:對(duì)加窗皮爾遜后的數(shù)據(jù)只進(jìn)行特征選擇,即通過最小類內(nèi)距離準(zhǔn)則或者最大類間距離準(zhǔn)則進(jìn)行特征篩選,以此減少特征數(shù)目;
● WP-FDM:對(duì)加窗皮爾遜后的數(shù)據(jù)進(jìn)行特征壓縮,即通過LS對(duì)聚類中心進(jìn)行線性擬合,以此降低特征維度.其中聚類中心采用有監(jiān)督方式獲得,即將MCI與NC的相關(guān)系數(shù)組平均分別作為聚類中心;
● P-FS-FDM:對(duì)傳統(tǒng)皮爾遜先進(jìn)行特征選擇,再進(jìn)行特征壓縮,其中聚類中心分別為MCI與NC經(jīng)特征選擇后的相關(guān)系數(shù)的組平均;
● WP-FS-FDM:對(duì)加窗皮爾遜先進(jìn)行特征選擇,再進(jìn)行特征壓縮,其中其中聚類中心分別為MCI與NC經(jīng)特征選擇后的相關(guān)系數(shù)的組平均;
● WP-FS-FDN:對(duì)加窗皮爾遜先特征選擇,后特征壓縮,其中聚類中心采用無監(jiān)督方式(K均值聚類)獲得;
表2 各算法參數(shù)設(shè)置
3.2.1 比較不同特征選擇方法的分類性能
首先,我們比較了兩種特征選擇的方法(包括最小類內(nèi)、最大類間)的平均分類準(zhǔn)確度.由圖2可知,兩種方法分別在不同的最優(yōu)值有最大的分類準(zhǔn)確率.當(dāng)特征數(shù)小于最優(yōu)值時(shí),分類準(zhǔn)確率都隨著特征數(shù)的增加而增加.當(dāng)特征數(shù)大于最優(yōu)值時(shí),準(zhǔn)確率沒有進(jìn)一步提高.其中,最小類內(nèi)的方法在特征數(shù)目為 2 000 左右時(shí),分類準(zhǔn)確率最高,達(dá)到73.25%.
圖2 不同特征選擇算法分類結(jié)果
3.2.2 LS特征壓縮
將被試用不同狀態(tài)的線性組合來表達(dá)動(dòng)態(tài)功能連接,分別得到MCI和NC兩組擬合系數(shù).如圖3所示,MCI和NC的數(shù)據(jù)由于類間距離較大以及類內(nèi)距離較小,故分別聚成兩簇.
圖3 擬合系數(shù)連接動(dòng)態(tài)模式差異
本文將MCI和NC的DFC組平均作為聚類中心,實(shí)質(zhì)是一種有監(jiān)督聚類方式,為驗(yàn)證本文提出的算法性能,我們比較了有監(jiān)督和無監(jiān)督聚類的LS特征分類準(zhǔn)確率,圖4(a)為十次五折交叉驗(yàn)證實(shí)驗(yàn)的均值,圖4(b)為每一次實(shí)驗(yàn)的結(jié)果.觀察可知,采用有監(jiān)督聚類的方法獲得的分類性能最好,無監(jiān)督聚類即便是聚5類獲得了最好的分類準(zhǔn)確率,還是遠(yuǎn)遠(yuǎn)低于有監(jiān)督聚類的LS特征分類結(jié)果.
圖5顯示了不同算法的分類性能,圖5(a)為十次五折交叉驗(yàn)證實(shí)驗(yàn)的均值,圖5(b)為每一次實(shí)驗(yàn)的結(jié)果.從圖5(a)中可以看出,本文提出的方法分類精度最高,相比傳統(tǒng)的Pearson方法提高了大約8%,WP、WP-FS、WP-FDM以及P-FS-FDM的分類準(zhǔn)確率分別為62%、69%、62%、72%.
為了觀察特征壓縮前后的數(shù)據(jù)特征,使用PCA技術(shù)將MCI和NC的樣本數(shù)據(jù)投影到二維空間中便于可視化,如圖6所示.一般同一類數(shù)據(jù)的特征之間具有高度相似性,易聚在一起.觀察可知,在使用本文算法前,兩類數(shù)據(jù)交錯(cuò)一體,難以分辨.算法后,兩類數(shù)據(jù)分別排布在分類線兩邊,易于區(qū)分.
圖4 有監(jiān)督和無監(jiān)督分類結(jié)果
圖5 組合算法分類結(jié)果
圖6 二維空間中樣本的分布情況
在使用rs-fMRI數(shù)據(jù)對(duì)MCI和NC分類的研究中,用特征選擇或降維來提升分類準(zhǔn)確度是可行的,但二者的結(jié)合會(huì)得到何種結(jié)果并未得到充分的討論.本文試圖結(jié)合最小類內(nèi)特征選擇和LS特征降維兩種方式來提高分類性能.特別地,LS降維可稱之為一種特征壓縮方法,因?yàn)榻?jīng)壓縮的特征的信息損失較少,可經(jīng)聚類中心重建.
本文的LS特征壓縮中,一個(gè)重要步驟是聚類,而聚類又可劃分為有監(jiān)督聚類和無監(jiān)督聚類.在傳統(tǒng)的DFC研究中,大多采用無監(jiān)督聚類,而本文采用有監(jiān)督的LS特征壓縮,其分類準(zhǔn)確率比無監(jiān)督聚類的分類結(jié)果上升了13%,一種可能的解釋是有監(jiān)督聚類的聚類簇明確.在有監(jiān)督方法中,若聚2類,則一類是MCI組平均,一類是NC組平均,用該簇中心點(diǎn)所表達(dá)的特征就具有明確結(jié)果.例如,一個(gè)MCI被試者的特征用該簇中心來線性表達(dá)時(shí),表達(dá)MCI簇的權(quán)重就較大,而NC的權(quán)重就較小,因?yàn)樵摫辉嚨奶卣髋cMCI簇更為接近.相反,無監(jiān)督聚類所獲得的聚類簇并不明確,可能同時(shí)存在MCI和NC被試者的特征,用此聚類中心表達(dá)的權(quán)重的指向性就不太明確.
特征選擇是篩選具有顯著組間差異性的特征,而降維是減少特征維數(shù)的過程.特征降維通常會(huì)帶來信息丟失,畢竟數(shù)據(jù)量經(jīng)降維后會(huì)相應(yīng)減少.PCA是典型的有損降維,而本文提出的LS壓縮可減少信息的丟失.為了觀察特征降維后的數(shù)據(jù)形態(tài),我們分別對(duì)比了這兩種算法降到二維的結(jié)果,發(fā)現(xiàn)經(jīng)PCA降維的特征矢量在二維空間中分布較為散亂,兩類數(shù)據(jù)互相交錯(cuò),難以區(qū)分.另一方面,經(jīng)LS壓縮的特征投射至二維空間后,兩類特征間的分類線可輕易找到.該結(jié)果說明,MCI和NC兩類樣本經(jīng)LS特征壓縮后比經(jīng)PCA降維后更易區(qū)分,這也印證了無損的壓縮可能比有損的壓縮具有更好的分類性能.
在實(shí)驗(yàn)中,還在算法中加入加窗皮爾遜的方法,目的在于測(cè)試該方法與特征選擇和壓縮間可能存在的關(guān)聯(lián).首先,總體看,加窗皮爾遜經(jīng)特征選擇后比無窗皮爾遜的分類準(zhǔn)確率高,這也在情理之中,畢竟加窗的方法增加了特征的動(dòng)態(tài)信息.其次,加窗皮爾遜只運(yùn)用特征選擇或者只采用特征壓縮時(shí),分類準(zhǔn)確率并不能達(dá)到最高,而同時(shí)選用兩種方法時(shí),分類準(zhǔn)確率將達(dá)到最高的76%.一個(gè)合理的解釋是,特征選擇可能去除了冗余信息,而特征壓縮消除了維度詛咒,兩種方法在提高分類準(zhǔn)確率上應(yīng)該都是必須的.這也證實(shí)了本文的一種重要結(jié)論:特征選擇和特征降維的結(jié)合可有效提升分類準(zhǔn)確率.
此外,本文本應(yīng)關(guān)注另一重要問題,FC的動(dòng)態(tài)特性.皮爾遜相關(guān)加窗后其實(shí)已具有了動(dòng)態(tài)性,但本文的重心還是在于加窗的特征維度變大后分類性能如何提高,并未對(duì)其動(dòng)態(tài)性做深入研究.本文的實(shí)驗(yàn)結(jié)果表明,FC的特征經(jīng)LS壓縮后投射到低維空間呈現(xiàn)了運(yùn)動(dòng)的形態(tài),且現(xiàn)有的研究已證實(shí),MCI的FC動(dòng)態(tài)性能與NC有所區(qū)別,因此,研究MCI和NC間LS壓縮特征的運(yùn)動(dòng)特性差異也將具有積極意義.在未來的工作中,我們可嘗試采用圖論的方法分析LS特征壓縮的時(shí)變規(guī)律,利用圖密度、平均路徑長(zhǎng)度和小世界性等指標(biāo)分析相關(guān)性能.