張 冉,吳世洋,葛海濤,胡俊峰,鞏 萍*
(1.徐州醫(yī)科大學(xué)醫(yī)學(xué)影像學(xué)院,江蘇徐州 221004;2.徐州醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院,江蘇徐州 221004)
帕金森病(Parkinson's disease,PD)是一種常見的神經(jīng)系統(tǒng)變性疾病,多見于老年人,平均發(fā)病年齡約為60歲。靜止性震顫、肌強(qiáng)直及運(yùn)動(dòng)減少是該病的主要臨床特征[1]。PD在病理上最主要的改變是中腦黑質(zhì)多巴胺能神經(jīng)元的變性死亡,導(dǎo)致紋狀體多巴胺的含量明顯減少[2]。目前臨床上一般根據(jù)英國(guó)帕金森病協(xié)會(huì)腦庫(kù)標(biāo)準(zhǔn)對(duì)PD患者進(jìn)行診斷。PD患者早期的癥狀難以察覺,易被忽略,被確診時(shí)病情大多已經(jīng)是中晚期,這導(dǎo)致絕大多數(shù)PD患者錯(cuò)失了早期治療的時(shí)機(jī)。因此,PD的早期智能診斷是目前急需解決的問題[3-5]。
擴(kuò)散張量成像(diffusion tensor imaging,DTI)近幾年發(fā)展迅速,為PD的早期診斷研究提供了新方法[6]。DTI是在擴(kuò)散加權(quán)成像(diffusion weighted imaging,DWI)的基礎(chǔ)上發(fā)展起來的,能直觀顯示白質(zhì)纖維束的改變,是目前唯一可在活體內(nèi)無創(chuàng)地研究腦白質(zhì)纖維的方法[7]。目前,針對(duì)PD患者的研究多集中在腦微觀結(jié)構(gòu)改變的層面上。如楊濤等[8]通過對(duì)比PD組與對(duì)照組雙側(cè)丘腦、尾狀核頭、黑質(zhì)、殼核及蒼白球的各向異性分?jǐn)?shù)(fractional anisotropy,F(xiàn)A)、表觀擴(kuò)散系數(shù)(apparent diffusion coefficient,ADC),發(fā)現(xiàn)早期 PD組較對(duì)照組減低。Zhang等[9]通過研究腦白質(zhì)感興趣區(qū)的FA值,認(rèn)為腦白質(zhì)的特定區(qū)域的FA值可以作為預(yù)測(cè)PD患者冷漠嚴(yán)重程度的一個(gè)標(biāo)志。Gattellaro等[10]通過在實(shí)驗(yàn)對(duì)象DTI腦圖像主要纖維束和黑質(zhì)核團(tuán)上繪制感興趣區(qū),發(fā)現(xiàn)額葉和頂葉白質(zhì)的廣泛的微結(jié)構(gòu)損傷在PD早期已經(jīng)發(fā)生。以上研究表明,PD患者早期已有腦白質(zhì)的微觀結(jié)構(gòu)改變。本文通過對(duì)正常對(duì)照組和PD組的DTI進(jìn)行預(yù)處理,以PANDA軟件自帶的John-Hopkins(約翰霍普金斯)白質(zhì)分區(qū)圖譜(即WMlabel圖譜)和纖維追蹤圖譜(即WMtract圖譜)為模板[11],分別提取各腦區(qū)的FA值并以此作為特征值進(jìn)行特征提取與降維,然后利用支持向量機(jī)(support vector machine,SVM)分類器對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練與測(cè)試,以實(shí)現(xiàn)PD的分類。
本文選取2014—2016年經(jīng)徐州醫(yī)科大學(xué)附屬醫(yī)院神經(jīng)科醫(yī)生診斷的36例PD患者為實(shí)驗(yàn)組(PD組),其中男21例、女15例,年齡50~80歲,平均年齡(63.7±6.24)歲。所有入組患者符合英國(guó)帕金森病協(xié)會(huì)腦庫(kù)原發(fā)性帕金森病臨床診斷標(biāo)準(zhǔn),左旋多巴制劑治療有效或曾經(jīng)有效。同時(shí)納入同期采集的36例健康志愿者作為正常對(duì)照組(正常組),其中男18例、女 18 例,年齡 50~80 歲,平均年齡(63.3±6.36)歲。2組的年齡(P=0.78>0.05)和性別(P=0.38>0.05)均無組間差異。2組被試者在年齡、性別、學(xué)歷上相匹配,并且均為右利手,無MRI禁忌、無明顯頭部外傷、無腦實(shí)質(zhì)病變、無藥物濫用、無酗酒等情況,其個(gè)人與家屬均已簽署知情同意書。本研究取得了醫(yī)院倫理委員會(huì)的批準(zhǔn)。
利用美國(guó)GE公司產(chǎn)3.0TDiscoveryMR750w MRI掃描儀對(duì)受試者進(jìn)行MRI掃描,采用單次激發(fā)平面回波成像(single-shot echo-planar-imaging,SS-EPI)序列,主要參數(shù):擴(kuò)散梯度因子b1 000 s/mm2,重復(fù)時(shí)間(repetition time,TR)5 900 ms,回波時(shí)間(echo time,TE)900ms,層厚2mm,層數(shù)72層,平面分辨力2 mm,加速因子為2。沿64個(gè)方向施加擴(kuò)散梯度脈沖,掃描平面為橫斷面。
在MATLAB2016a平臺(tái)上,利用北京師范大學(xué)國(guó)家認(rèn)知與心理研究所研制開發(fā)的PANDA軟件對(duì)采集的72個(gè)樣本進(jìn)行圖像預(yù)處理。首先將DTI的DICOM數(shù)據(jù)轉(zhuǎn)換成NIFTI格式,為減少DTI在擬合過程中的運(yùn)算量及提高后續(xù)配準(zhǔn)的準(zhǔn)確性,去掉頭皮等非腦組織結(jié)構(gòu)(如圖1、2所示)(正常組和PD組的DTI圖像并未存在明顯差異),為減少干擾因素的影響,進(jìn)行渦流校正和頭動(dòng)校正;然后將圖像以1 mm×1 mm×1 mm分辨力重新采樣,再將圖像空間標(biāo)準(zhǔn)化,得到配準(zhǔn)后的圖像[12]。
注:圖像均已去掉頭皮等非腦組織結(jié)構(gòu)
圖1 健康成年人的DTI圖像
對(duì)配準(zhǔn)后的圖像,按腦白質(zhì)結(jié)構(gòu)分別參考WM-label圖譜和WMtract圖譜對(duì)大腦進(jìn)行分區(qū),其中WMlabel圖譜將大腦分成了50個(gè)腦區(qū),WMtract圖譜將大腦分成了20個(gè)腦區(qū)。分別計(jì)算各腦區(qū)的FA平均值,以此作為原始特征子集。然后分別采用Relief算法和主成分分析(principal component analysis,PCA)法對(duì)原始特征子集進(jìn)行特征選擇與降維處理。Relief算法根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個(gè)閾值的特征子集將被移除。特征子集的權(quán)重越大,表示該特征的分類能力越強(qiáng),反之,表示該特征分類能力越弱[13]。PCA把數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系,以方差最大的方向作為坐標(biāo)軸方向。轉(zhuǎn)換后可發(fā)現(xiàn)前面的幾個(gè)主成分包含了原數(shù)據(jù)的絕大部分信息。貢獻(xiàn)率指某個(gè)主成分的方差占全部方差的比重,貢獻(xiàn)率越大,說明該主成分所包含的原始變量的信息越強(qiáng)。累積貢獻(xiàn)率指多個(gè)主成分疊加在一起所包含的信息占原始信息的百分比。一般選取累積貢獻(xiàn)率達(dá)到85%以上的前K個(gè)主成分。本文使用MATLAB工具箱princomp函數(shù)實(shí)現(xiàn)PCA。
對(duì)特征選擇與降維后的特征子集,利用SVM進(jìn)行分類研究。本文使用臺(tái)灣大學(xué)林智仁(Chin-Jen Lin)博士團(tuán)隊(duì)開發(fā)設(shè)計(jì)的通用SVM軟件包[14],核函數(shù)采用最常用的徑向基函數(shù)(radial basis function,RBF)。影響SVM系統(tǒng)性能的關(guān)鍵因素是RBF核函數(shù)中的懲罰因子c和參數(shù)g,選用網(wǎng)格搜索進(jìn)行分類器參數(shù)的尋優(yōu)。根據(jù)經(jīng)驗(yàn)初設(shè)c和g的搜尋范圍為2-8~28。重復(fù)進(jìn)行網(wǎng)格搜索,得到最優(yōu)參數(shù)best_c和best_g。由于研究中樣本數(shù)量較少,所以選擇留一法(leaveone-out)進(jìn)行交叉驗(yàn)證。留一法每次只留下一個(gè)樣本做測(cè)試集,其他樣本做訓(xùn)練集,這使得留一法中被實(shí)際評(píng)估的模型與期望評(píng)估的全部數(shù)據(jù)集訓(xùn)練出來的模型很相似,所以其評(píng)估結(jié)果比較準(zhǔn)確[15]。本實(shí)驗(yàn)共72例樣本,每次保留一個(gè)樣本用于測(cè)試,其余71例用于分類器的訓(xùn)練。
為了評(píng)價(jià)算法的好壞,采用分類精度、ROC曲線及AUC值來評(píng)價(jià)[16]。分類精度是用被分類的樣本數(shù)除以總樣本數(shù)計(jì)算得到的。一般來說,精度越高,分類性能越好。ROC曲線越靠近左上角,其AUC值越大,分類性能就越好。
2.1.1 基于Relief算法的特征提取結(jié)果
將各腦區(qū)FA值經(jīng)Relief排序后,基于WMlabel分區(qū)的前30個(gè)腦區(qū)權(quán)重為正,基于WMtract分區(qū)的前10個(gè)腦區(qū)權(quán)重為正。把每個(gè)腦區(qū)的FA值看作一個(gè)特征子集,如圖3、4所示。選用權(quán)重為正的特征子集進(jìn)行分類訓(xùn)練與測(cè)試。
圖3 基于WMlabel分區(qū)特征權(quán)重直方圖
2.1.2 基于PCA降維的特征提取結(jié)果
先分別將2種圖譜的各腦區(qū)FA值進(jìn)行主成分分析,取累積貢獻(xiàn)率大于85%的前K個(gè)主成分進(jìn)行分類訓(xùn)練和測(cè)試。如圖5、6所示,在累積貢獻(xiàn)率大于85%時(shí),WMlabel分區(qū)取前5個(gè)主成分,WMtract分區(qū)取前5個(gè)主成分。
2.2.1 基于Relief算法的分類結(jié)果
圖4 基于WMtrace分區(qū)特征權(quán)重直方圖
圖5 基于WMlabel分區(qū)PCA降維后帕累托圖
圖6 基于WMtract分區(qū)PCA降維后帕累托圖
對(duì)權(quán)重為正的腦區(qū)進(jìn)行模型訓(xùn)練后,發(fā)現(xiàn)基于WMlabel分區(qū)的累積前4個(gè)腦區(qū)和基于WMtract分區(qū)的累積前5個(gè)腦區(qū)的分類精度最高,如圖7、8所示。選用這些腦區(qū)的FA值作為最優(yōu)子集,其分類精度及AUC值見表1。
2.2.2 基于PCA降維的分類結(jié)果
對(duì)累積貢獻(xiàn)率大于85%的主成分進(jìn)行模型訓(xùn)練后,發(fā)現(xiàn)基于WMlabel分區(qū)的FA值在累積貢獻(xiàn)率為99%時(shí)分類精度最高,基于WMtract分區(qū)的FA值在累積貢獻(xiàn)率為90%時(shí)分類精度最高,如圖9、10所示。選擇累積貢獻(xiàn)率最高的前K個(gè)腦區(qū)的FA值作為最優(yōu)主成分,放入訓(xùn)練得到的模型中,其分類精度及AUC值見表2。
圖7 基于WMlabel分區(qū)的前30個(gè)腦區(qū)對(duì)應(yīng)的分類精度
圖8 基于WMtract分區(qū)的前10個(gè)腦區(qū)對(duì)應(yīng)的分類精度
表1 基于Relief算法的最高分類精度和AUC值
圖9 基于WMlabel分區(qū)累積貢獻(xiàn)率與分類精度關(guān)系圖
圖10 基于WMtract分區(qū)累積貢獻(xiàn)率與分類精度關(guān)系圖
表2 基于PCA的最高分類精度和AUC值
由表1~2可見,基于WMlabel分區(qū),Relief算法的分類精度及AUC值最大,分別為81.94%和0.846 5。正常組共36例,其中有31例被正確分類,5例被錯(cuò)誤分類到PD組;PD組共36例,其中有28例被正確分類,8例被錯(cuò)誤分類到正常組?;赪Mtract分區(qū),PCA的分類精度及AUC值最高,分別為73.61%和0.750 8。正常組共36例,其中有27例被正確分類,9例被錯(cuò)誤分類到PD組;PD組共36例,其中有26例被正確分類,10例被錯(cuò)誤分類到正常組。2種最佳分類方法下的ROC曲線如圖11所示。
圖11 分類精度最高的ROC曲線
PD是臨床常見的進(jìn)行性神經(jīng)變性疾病,主要是由黑質(zhì)致密部多巴胺能神經(jīng)元變性缺失所致,初期癥狀不明顯,患者確診時(shí)往往已處于中晚期。因此,PD的早期診斷是目前臨床中面臨的一大難題。目前,PD的診斷主要依靠病史、臨床表現(xiàn)和體格檢查。隨著MRI技術(shù)的發(fā)展,功能磁共振成像(functional MRI,fMRI)、DTI等作為新的MRI成像技術(shù),可以無創(chuàng)性獲取腦結(jié)構(gòu)和功能連接信息,為PD的早期診斷提供了新的影像學(xué)標(biāo)記。基于DTI的功能性腦網(wǎng)絡(luò)可以更直觀地顯示各腦區(qū)之間的纖維連接。DTI使無創(chuàng)性、非侵入性研究白質(zhì)纖維束成為可能,可以測(cè)量單個(gè)體素內(nèi)的FA值,從而間接反映白質(zhì)纖維束的完整性,并根據(jù)FA的方向追蹤白質(zhì)纖維束的方向。研究表明,與正常對(duì)照組相比,PD組雙側(cè)額頂部、放射冠、胼胝體和扣帶回的腦白質(zhì)FA明顯減低,因此FA作為一種有效的影像學(xué)特征為PD的早期診斷提供了可能。在PD的早期診斷中,大部分研究是基于統(tǒng)計(jì)學(xué)分析進(jìn)行的。近年來,隨著人工智能的發(fā)展,不少學(xué)者提出將模式識(shí)別方法應(yīng)用于PD的早期診斷。SVM作為一種模式識(shí)別分類器在解決非線性、小樣本問題上具有獨(dú)特優(yōu)勢(shì)。如龍丹[17]通過提取分析fMRI的區(qū)域一致性、低頻振幅和腦網(wǎng)絡(luò)指標(biāo),利用SVM進(jìn)行了PD的計(jì)算機(jī)輔助診斷,取得了不錯(cuò)的分類性能。熊嘉臻等[18]利用SVM對(duì)提取到的腦脊液、灰質(zhì)、白質(zhì)、低頻振幅、區(qū)域一致性等特征進(jìn)行了PD的分類研究,結(jié)果表明,基于MRI影像學(xué)分析方法可以對(duì)早期PD的出現(xiàn)進(jìn)行準(zhǔn)確率較高的預(yù)測(cè)。
本文選用2種圖譜作為模板,分別提取DTI圖像的FA值,通過預(yù)處理將MRI圖像信息轉(zhuǎn)化為計(jì)算機(jī)可讀取的特征向量,使用Relief算法和PCA方法對(duì)數(shù)據(jù)進(jìn)行特征選擇與降維,然后利用SVM分類器對(duì)PD組和正常組的特征進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明,基于WMlabel分區(qū)的Relief算法獲得了較高的分類精度,能夠?qū)崿F(xiàn)對(duì)正常組和PD組的有效分類。最早提出的Relief算法主要針對(duì)二分類問題,本實(shí)驗(yàn)數(shù)據(jù)具有明顯的二分類特性,所以采用Relief算法優(yōu)化訓(xùn)練集,能夠提高模型精度;并且SVM在解決非線性、高維模式識(shí)別和小樣本問題上具有明顯優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果表明本文所用方法取得了很好的分類效果。在后續(xù)研究中,可以考慮增加對(duì)PD多個(gè)亞型的分類,擴(kuò)大研究對(duì)象范圍,進(jìn)一步提高模型精度與泛化能力,為臨床診斷提供更有效的參考依據(jù)。