劉王亞, 郁磊, 任璐, 趙婭蓉, 李陽, 靳禎
(1.山西大學(xué) 復(fù)雜系統(tǒng)研究所,山西 太原 030006;2.山西大學(xué) 疾病防控的數(shù)學(xué)技術(shù)與大數(shù)據(jù)分析山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3.山西醫(yī)科大學(xué) 第一臨床醫(yī)學(xué)院,山西 太原 030001;4.山西醫(yī)科大學(xué) 第一醫(yī)院,山西 太原 030001)
阿爾茨海默病(Alzheimer′s disease,AD)[1]是一種起病隱匿且病程緩慢的中樞神經(jīng)系統(tǒng)退行性疾病,多發(fā)于65歲以上的老年人.據(jù)專家估計(jì),到2030年全球的發(fā)病人數(shù)將達(dá)到十億人[2].由于AD的早期癥狀比較隱匿,個(gè)人很難察覺,一般確診后就已達(dá)到錯(cuò)過最佳干預(yù)期的中后期,所以要做到早期發(fā)現(xiàn)早期預(yù)防.AD患者早期可能會出現(xiàn)不同程度的障礙,譬如計(jì)算能力障礙、記憶能力障礙、結(jié)構(gòu)能力障礙和言語能力障礙等[3],很多研究發(fā)現(xiàn)在AD早期甚至是在輕度認(rèn)知障礙(mild cognitive impairment,MCI)[4]階段患者就會出現(xiàn)結(jié)構(gòu)能力障礙,這使得應(yīng)用結(jié)構(gòu)能力評測輔助診斷AD成為可能[5].
目前臨床上對AD的篩查主要依靠由Folstein等[6]制定的簡明精神狀態(tài)量表(Mini Mental Status Examination,MMSE)[7],采取醫(yī)生提問患者回答的方式,這樣在很大程度上會受到雙方情緒的影響,且需花費(fèi)較長的時(shí)間.為了能在患病初期發(fā)現(xiàn)AD患者,本文設(shè)想將社區(qū)的老年人定期于社區(qū)集中,利用MMSE的結(jié)構(gòu)能力部分進(jìn)行初步篩查[8].然而當(dāng)人數(shù)過多時(shí),可能出現(xiàn)社區(qū)醫(yī)護(hù)人員人手不夠的問題,同時(shí)MMSE又要求評測醫(yī)生具備豐富的經(jīng)驗(yàn),這使得社區(qū)一般工作人員無法對患者所作圖形進(jìn)行評測.為了解決上述問題,本文基于隨機(jī)森林(Random Forest,RF)[9]建立了AD患者結(jié)構(gòu)能力智能評測模型,并對模型的泛化性進(jìn)行了討論和分析.
圖1 MMSE結(jié)構(gòu)能力測試
表1列出了實(shí)驗(yàn)招募的109名AD確診患者的基本資料,所有AD患者均來自山西醫(yī)科大學(xué)第一醫(yī)院,符合《阿爾茨海默病診治指南》中的診斷標(biāo)準(zhǔn)[10].參與本次實(shí)驗(yàn)的所有AD患者均簽署了知情同意書.
表1 AD確診者的基本資料
部分AD患者的五邊形復(fù)制結(jié)果如圖2所示,其中前6個(gè)(第一行4個(gè)及第二行前2個(gè))為得分為1的評測結(jié)果,后6個(gè)(第二行后2個(gè)及第三行)為得分為0的評測結(jié)果.從圖中可以直觀地看出,存在不同程度結(jié)構(gòu)能力障礙的AD患者的五邊形復(fù)制結(jié)果存在較大差異,即便是相同得分(均為0分或1分)的兩名AD患者的五邊形復(fù)制結(jié)果在圖形的大小、五邊形和四邊形的角度及邊長等方面亦存在較大差異.
圖2 部分AD患者的五邊形復(fù)制結(jié)果
從圖2可以看出,當(dāng)五邊形及四邊形的所有邊長和所有角度都確定時(shí),五邊形復(fù)制結(jié)果也隨之確定,因此實(shí)驗(yàn)提取了五邊形復(fù)制結(jié)果的形態(tài)學(xué)特征,具體包括:兩個(gè)五邊形和四邊形是否有效、兩個(gè)五邊形各自的長度、角度和交織形成的四邊形的長度、角度等特征.在提取特征時(shí)規(guī)定采取分段近似的方式得到有波折部分的長度,兩個(gè)端點(diǎn)未連接處的角度采用延長法,所有的邊長與角度采用逆時(shí)針方向依次獲得,邊長或角度不存在時(shí)記此項(xiàng)特征為0,所得特征均經(jīng)過歸一化處理.
采用隨機(jī)森林方法建立AD患者結(jié)構(gòu)能力智能評測模型,算法的詳細(xì)流程如圖3所示.首先,利用Bootstrap隨機(jī)抽樣[11]從訓(xùn)練集中隨機(jī)產(chǎn)生若干個(gè)樣本子集;其次,針對每個(gè)樣本子集建立決策樹二分類(0分和1分)子模型;接著,采用投票的方法對各個(gè)決策樹子模型進(jìn)行集成匯總,從而建立隨機(jī)森林模型;最后,將建立的隨機(jī)森林模型應(yīng)用于數(shù)據(jù)集樣本的分類預(yù)測.
圖3 算法的整體流程
從所有的實(shí)驗(yàn)對象(109名)中隨機(jī)抽取92名(85%)作為訓(xùn)練集,剩余的17名(15%)作為測試集.隨機(jī)森林中包含的決策樹棵數(shù)為500.
表2列出了分別使用長度特征、角度特征、長度和角度特征作為輸入時(shí)的模型泛化性能.從表中可以直觀地看出,當(dāng)同時(shí)提取五邊形復(fù)制結(jié)果的長度和角度特征時(shí),AD患者結(jié)構(gòu)能力智能評測模型的泛化性能達(dá)到最佳,準(zhǔn)確率可以達(dá)到97%以上.
表2 三種情況下的準(zhǔn)確率的統(tǒng)計(jì)學(xué)意義
從表2可以看出,盡管模型的準(zhǔn)確率達(dá)到97%以上,但仍然會存在一些識別錯(cuò)誤.經(jīng)過深入分析,總結(jié)出錯(cuò)誤的情況大致包括如下兩類:
(1)針對如圖4所示的AD患者五邊形復(fù)制結(jié)果,模型給出的預(yù)測值為0分,但評測醫(yī)生給出的評測值為1分.根據(jù)評判規(guī)則,兩個(gè)五邊形必須交織構(gòu)成一個(gè)四邊形才可以得1分.盡管圖中的每個(gè)五邊形都相對標(biāo)準(zhǔn),但交織部分右側(cè)五邊形的邊與左側(cè)五邊形的頂點(diǎn)“重合”,導(dǎo)致四邊形變?yōu)槿切危?/p>
圖4 模型與評測醫(yī)生結(jié)果相悖的情況1
(2)針對如圖5所示的AD患者五邊形復(fù)制結(jié)果,模型給出的預(yù)測值為1分,但評測醫(yī)生給出的評測值為0分.由于規(guī)定在人工提取五邊形和四邊形的角度和邊長特征時(shí),忽略抖動的影響,導(dǎo)致忽略了右側(cè)五邊形的不規(guī)范問題.但實(shí)際上,評測醫(yī)生在評測時(shí)認(rèn)為右側(cè)的圖像是一個(gè)六邊形,不是標(biāo)準(zhǔn)的五邊形,因此判定為0分.
綜上所述,盡管本文建立的AD患者結(jié)構(gòu)能力智能評測模型準(zhǔn)確率達(dá)到97%,但仍然有許多值得改進(jìn)和深入研究的地方:
圖5 模型與評測醫(yī)生結(jié)果相悖的情況2
(1)特征提取均由人工提取,在一定程度上仍然存在主觀性,在接下來的研究中將考慮采用深度學(xué)習(xí)方法建立無須人工提取特征的端到端(end-to-end)評測模型.
(2)為了精細(xì)刻畫AD患者的結(jié)構(gòu)能力,在接下來的研究中將考慮建立定量評測模型,構(gòu)建連續(xù)打分體系,譬如:將AD患者的結(jié)構(gòu)能力映射到0~100分范圍,將定性評測方式推廣至定量評測方式,彌補(bǔ)“天花板效應(yīng)”和“地板效應(yīng)”.
為了更早地發(fā)現(xiàn)AD,基于患者的MMSE結(jié)構(gòu)能力測試結(jié)果,采用隨機(jī)森林建立了AD患者結(jié)構(gòu)能力智能評估模型,并利用109名AD患者對模型進(jìn)行實(shí)驗(yàn)驗(yàn)證.實(shí)驗(yàn)結(jié)果表明,當(dāng)同時(shí)提取五邊形復(fù)制結(jié)果中五邊形和交織形成的四邊形的角度和長度特征時(shí),評測模型準(zhǔn)確率最高,達(dá)到97%以上,證實(shí)了所提出方法的可行性.研究結(jié)果為實(shí)現(xiàn)遠(yuǎn)程場景下無臨床醫(yī)生參與時(shí)的AD患者結(jié)構(gòu)能力智能評測奠定了基礎(chǔ).