侯玉梅朱亞楠朱立春吳 頌高秋燁
決策樹模型在2型糖尿病患病風(fēng)險預(yù)測中的應(yīng)用*
侯玉梅1△朱亞楠1朱立春2吳 頌2高秋燁3
目的探究決策樹模型在2型糖尿病患病風(fēng)險預(yù)測中的應(yīng)用,為預(yù)防和控制2型糖尿病的發(fā)生和發(fā)展提供臨床指導(dǎo)。方法收集數(shù)據(jù)并進行預(yù)處理,采用C5.0算法構(gòu)建分類模型,之后對其預(yù)測結(jié)果進行評估。結(jié)果采用決策樹構(gòu)建的三個模型的訓(xùn)練集準(zhǔn)確率分別為79.98%、98.26%、99.55%,測試集的準(zhǔn)確率分別為81.27%、98.16%、98.16%,預(yù)測準(zhǔn)確率都較高。結(jié)論采用C5.0算法構(gòu)建決策樹模型,對預(yù)測糖尿病的患病風(fēng)險具有一定的應(yīng)用價值。
2型糖尿病 決策樹 風(fēng)險預(yù)測
隨著我國人民生活水平的普遍提高以及生活節(jié)奏的加快,我國糖尿病患者數(shù)量正在以驚人的速度增長,且向低齡化發(fā)展[1]。最新調(diào)查顯示,我國成年人中的糖尿病患者高達1.14億,并呈現(xiàn)發(fā)病率高,知曉率、治療率和達標(biāo)率低的現(xiàn)象,同時也給家人和社會帶來了沉重的經(jīng)濟負(fù)擔(dān)。因此,預(yù)防2型糖尿病的發(fā)生,對于控制糖尿病發(fā)病人數(shù)具有重要意義。本文利用數(shù)據(jù)挖掘C 5.0算法構(gòu)建簡單個人水平預(yù)測、簡單臨床預(yù)測以及復(fù)雜臨床預(yù)測模型,以此發(fā)掘糖尿病患病的得病風(fēng)險規(guī)律,為健康人群的預(yù)防和醫(yī)生臨床診斷提供指導(dǎo)。
1.資料來源
本文中資料數(shù)據(jù)來源于河北省秦皇島市某醫(yī)院糖尿病患者病例以及健康人群的體檢數(shù)據(jù)共1922例,內(nèi)容包括與2型糖尿病患病相關(guān)的各項指標(biāo),分別為性別、年齡、吸煙情況、家族史情況(包括糖尿病家族史和高血壓家族史[2-3])、既往病史情況(包括心腦血管病史和冠心病史[4-5])、入院體檢與實驗室檢查情況(身高、體重、空腹血糖、舒張壓、收縮壓、甘油三酯、總膽固醇、低密度脂蛋白)等。
2.分析方法
(1)數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗 對原始數(shù)據(jù)進行分析整理,對超出取值范圍的不合理數(shù)據(jù)或個別有缺失值的變量用指定值替代[6]。Flag(標(biāo)志)型變量用False對應(yīng)的值替代,Set(集)型變量用第一個變量值替代,數(shù)值型變量,大于上限的用上限值替代,小于下限的用下限值替代,其余值用(最大值+最小值)/2替代。
數(shù)據(jù)變換 數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的格式,以適合數(shù)據(jù)的再處理[7]。在原始數(shù)據(jù)中,需要轉(zhuǎn)換的屬性有身高。一般身高是以厘米度量的,但是我們需要利用BMI指數(shù)變量,需要對身高變量進行轉(zhuǎn)換,轉(zhuǎn)換函數(shù)為:f(V)=V/100。
數(shù)據(jù)規(guī)約 規(guī)約后的數(shù)據(jù)不但保證了原始數(shù)據(jù)的完整性,而且減少了數(shù)據(jù)量,使得數(shù)據(jù)挖掘的效率和性能大大提高[8]。例如:將身高和體重變量進行規(guī)約,計算BMI指數(shù)(kg/m2)=體重/(身高×身高),然后根據(jù)中國體重指標(biāo)標(biāo)準(zhǔn)將BMI指數(shù)進行離散化生成新屬性BMI_set。類似地,本文生成年齡_set、舒張壓_set、收縮壓_set等其他新屬性。之后直接刪除原始數(shù)據(jù)中的冗余屬性。預(yù)處理后的數(shù)據(jù)不僅可以保持原始數(shù)據(jù)的完整性,而且提高了數(shù)據(jù)挖掘的運算效率。
(2)算法選擇
本文使用決策樹來建立分類模型,該方法可以很直觀地看出分類規(guī)則,且擅于處理非數(shù)值型數(shù)據(jù);具有效率高、分類精度高等優(yōu)點。目前,常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART等,它們的主要區(qū)別是“不同的決策樹算法的分枝策略不同”[9],其中C5.0是以信息論為指導(dǎo),以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和分割點,采用后修剪方法從葉節(jié)點向上逐層剪枝;C5.0算法可以生成推理規(guī)則集,更重要的是它采用Boosting方式,提高了預(yù)測準(zhǔn)確率和分類精度,所以本文采用C5.0算法。
(3)算法實現(xiàn)
本研究中C5.0算法由軟件Clementine 12.0實現(xiàn),通過分區(qū)將現(xiàn)有樣本集隨機分割成兩部分:訓(xùn)練集70%和測試集30%,有效地實現(xiàn)了決策樹模型的構(gòu)建。模型運行前,設(shè)置使用分區(qū)數(shù)據(jù),輸出類型選擇決策樹,并利用ChiMerge分箱法檢查當(dāng)前分組變量,使得到的分類樹較精簡,采用Boosting技術(shù)試驗10次和交叉驗證折疊10次建立模型,提高模型預(yù)測的穩(wěn)健性,Mode選用Expert,修剪純度設(shè)為75,采用全局修剪。
1.模型建立
(1)簡單個人水平模型
當(dāng)只考慮性別、年齡、身高、體重、生活習(xí)慣(煙齡)、家族史、既往病史等基本個人水平因素時,生成10個相關(guān)聯(lián)的模型,各模型的預(yù)測精度不同,最高為82.33%,最低為65.29%,應(yīng)用Boosting技術(shù)后,預(yù)測精度為84.1%,分類精度提高。其相關(guān)聯(lián)的變量重要性排序如圖1所示,表明糖尿病患病風(fēng)險與家族史和既往病史有著密切的關(guān)系。其中部分模型圖如圖2所示,這對于個人在簡單分析自己的身體水平及生活習(xí)慣方面,起著重要的作用。
圖1 簡單個人水平模型變量重要性排序
(2)簡單臨床模型
在簡單個人水平模型下,加入簡單臨床數(shù)據(jù)(包括空腹血糖、舒張壓、收縮壓等),也生成10個相關(guān)聯(lián)的模型,模型最高預(yù)測精度達到98.11%,最低為79.76%,相比簡單個人水平模型預(yù)測精度大大提高,應(yīng)用Boosting技術(shù)后,預(yù)測精度達到了99.2%。其中變量重要性排序如圖3,表明空腹血糖與糖尿病患病的關(guān)系尤為密切,并指出空腹血糖的臨界值為6.09mmol/L或6.08mmol/L,與醫(yī)學(xué)知識大體一致,這對分析簡單臨床數(shù)據(jù)具有指導(dǎo)意義。其中部分模型圖如圖4所示。
圖2 部分簡單個人水平模型圖
圖3 簡單臨床模型變量重要性排序
圖4 部分簡單臨床模型圖
(3)復(fù)雜臨床模型
在簡單臨床模型下,加入檢驗數(shù)據(jù)(包括甘油三酯、低密度脂蛋白、總膽固醇),形成復(fù)雜臨床模型,模型最高預(yù)測精度達到98.79%,最低為91.36%,相比簡單臨床模型預(yù)測精度有所提高,說明數(shù)據(jù)越多,變量越多,預(yù)測越準(zhǔn)確。其中變量重要性排序如圖5所示,綜合三個模型發(fā)現(xiàn),空腹血糖、糖尿病家族史、心腦血管病史、年齡這四個變量對是否患有糖尿病有重要作用。其中部分模型圖如圖6所示。
圖5 復(fù)雜臨床模型變量重要性排序
2.模型評估
(1)采用Analysis節(jié)點進行模型準(zhǔn)確性評價,決策樹對各個模型的訓(xùn)練集和測試集的預(yù)測結(jié)果準(zhǔn)確率如表1所示。
由表1可知,三個模型的預(yù)測準(zhǔn)確率都較高,而且訓(xùn)練集和測試集的結(jié)果相近,說明不存在訓(xùn)練集過度擬合的現(xiàn)象。通過比較發(fā)現(xiàn),考慮的輸入變量越多,模型預(yù)測精度越高,但是從測試集的準(zhǔn)確率來看,簡單臨床模型和復(fù)雜臨床模型基本一致,說明通過簡單臨床模型也可以發(fā)揮預(yù)測作用,方便居民隨時監(jiān)測身體狀況,從而及時預(yù)防2型糖尿病的發(fā)生。
圖6 部分復(fù)雜臨床模型圖
表1 三種模型的預(yù)測結(jié)果
(2)采用Kappa檢驗對三個決策樹模型進行一致性分析,其預(yù)測分類與實際分類的吻合情況如表2所示。
表2 三種模型的決策樹分類結(jié)果
通過比較三種模型的預(yù)測分類和實際分類,簡單個人水平模型的Kappa值為0.621,小于0.75,說明該模型的一致性一般。簡單臨床模型的Kappa值為0.964,復(fù)雜臨床模型的Kappa值為0.982,均高于0.75,說明兩種模型的一致性較高,預(yù)測結(jié)果與實際分類基本吻合,模型預(yù)測分類效果較佳。
(3)在預(yù)測模型的評價過程中,靈敏度、特異度和約登指數(shù)是其中重要的指標(biāo),指標(biāo)越高預(yù)示著該模型具有較強的預(yù)測判別性能[10]。本研究通過比較三種模型總的預(yù)測分類和實際分類,計算三種模型的靈敏度、特異度、錯判率和約登指數(shù)(見表3),比較發(fā)現(xiàn)簡單個人水平模型特異度遠遠高于靈敏度,說明簡單個人水平模型預(yù)測非患者的能力遠遠高于預(yù)測患者的能力。綜合比較發(fā)現(xiàn),復(fù)雜臨床模型的靈敏度和約登指數(shù)均較高,錯判率最低,說明復(fù)雜臨床模型的預(yù)測性能最好。但在簡單臨床條件下,三種指標(biāo)已經(jīng)達到了很高的水平,說明在此條件下進行預(yù)測和篩查就能達到很好的效果。
表3 三種模型的靈敏度、特異度、錯判率、約登指數(shù)的比較
糖尿病發(fā)病原因一直是世界糖尿病研究的重要課題。目前,國內(nèi)在糖尿病患病風(fēng)險預(yù)測中使用較多的方法有神經(jīng)網(wǎng)絡(luò)預(yù)測法、Markov預(yù)測法、C 4.5決策樹算法等[10-12]。與國內(nèi)預(yù)測方法不同的是,本文將決策樹C 5.0算法應(yīng)用到2型糖尿病的發(fā)病規(guī)律研究中,根據(jù)不同的預(yù)測條件,得出多個決策樹模型。其中與神經(jīng)網(wǎng)絡(luò)預(yù)測法[10]相比,本文利用決策樹算法建立的模型簡單明了,可以更好地提取發(fā)病規(guī)則;與Markov預(yù)測法[11]相比,Markov預(yù)測能夠有效地預(yù)測2型糖尿病未來幾年內(nèi)的發(fā)病概率,而本文是根據(jù)目前的身體條件,及時準(zhǔn)確地預(yù)測本人的發(fā)病情況,更具有實效性;與C 4.5決策樹算法[12]相比,本研究加入Boosting技術(shù),提高了模型準(zhǔn)確率和分類精度,并指導(dǎo)居民在不同生理水平條件下,做出相應(yīng)的風(fēng)險評估,從而為個人自我保健提供準(zhǔn)確的指導(dǎo),同時也為醫(yī)生的臨床診斷提供一定的幫助。從模型中可以明顯看出空腹血糖值、糖尿病家族史、心腦血管既往病史、年齡等因素在2型糖尿病發(fā)病規(guī)律中的重要性。此外,對模型的評估表明,預(yù)測的準(zhǔn)確性、可靠性以及一致性都比較高,說明該方法的應(yīng)用為探討不同條件下2型糖尿病的發(fā)病規(guī)律提供了一種新的手段。
由于在Clementine 12.0中沒有編程界面,因此,要獲得理想的預(yù)測模型,需要對相關(guān)窗口中的參數(shù)反復(fù)進行調(diào)整[13]。此外訓(xùn)練集和測試集的大小,缺失值和不合理數(shù)據(jù)的預(yù)處理方法,數(shù)據(jù)庫的質(zhì)量以及模型參數(shù)的調(diào)整,對決策樹模型的穩(wěn)定性和預(yù)測效果都有一定的影響。但是由于時間和人力資源有限,所采集的數(shù)據(jù)無法涵蓋研究所需要的所有信息,使得收集和處理過程經(jīng)常脫節(jié)[14],所采集的醫(yī)學(xué)數(shù)據(jù)也不是很完整,因此所建立的預(yù)測模型還有待進一步完善。本文貢獻在于為不同情況下2型糖尿病患者患病風(fēng)險提供一種風(fēng)險預(yù)測工具,同時提取出不同情況下影響2型糖尿病發(fā)病的重要因素。相信隨著數(shù)據(jù)挖掘技術(shù)的不斷改進,數(shù)據(jù)庫數(shù)據(jù)的不斷擴大,應(yīng)用C 5.0算法對糖尿病患病風(fēng)險預(yù)測的準(zhǔn)確性將不斷增加,從而對糖尿病高危人群的預(yù)防和醫(yī)生臨床診斷起到一定的指導(dǎo)和參考作用。
[1]王海鵬.我國診斷糖尿病疾病經(jīng)濟負(fù)擔(dān)趨勢預(yù)測研究.山東大學(xué),2013.
[2]吳雪霽,潘冰瑩,陳雄飛,等.廣州市家系高血壓與2型糖尿病和血脂異常關(guān)系的研究.中國熱帶醫(yī)學(xué),2014,14(11):1343-1346.
[3]胡靜,楊亞明,陳凱,等.宜興市居民2型糖尿病危險因素分析.江蘇預(yù)防醫(yī)學(xué),2012,23(5):11-12.
[4]劉茂玲,劉禮錦,鄒宇華.2型糖尿病危險因素病例對照研究.華南預(yù)防醫(yī)學(xué),2008,34(4):49-52.
[5]鄒宇華,張弛,張冬梅,等.2型糖尿病危險因素的非條件Logistic回歸分析.中國慢性病預(yù)防與控制,2004,12(1):12-14.
[6]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應(yīng)用.電子工業(yè)出版社,2010.
[7]羅森林,成華,張鐵梅,等.多維2型糖尿病實測數(shù)據(jù)的預(yù)處理技術(shù).計算機工程,2004,30(17):178-181.
[8]元昌安.?dāng)?shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典.電子工業(yè)出版社,2009.
[9]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(3):422-423.
[10]郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡(luò)模型在2型糖尿病患病風(fēng)險預(yù)測中的應(yīng)用.鄭州大學(xué)學(xué)報:醫(yī)學(xué)版,2014(2):180-183.
[11]羅森林,郭偉東,張笈,等.基于Markov的Ⅱ型糖尿病預(yù)測技術(shù)研究.北京理工大學(xué)學(xué)報,2011,31(12):1414-1418.
[12]羅森林,成華,顧毓清,等.C4.5算法在2型糖尿病分類規(guī)則建立中的應(yīng)用.計算機應(yīng)用研究,2004,21(7):174-176.
[13]于長春.決策樹模型在2型糖尿病患者腦梗死風(fēng)險預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2011,28(6):683-684.
[14]張銘.?dāng)?shù)據(jù)挖掘技術(shù)及在中醫(yī)藥領(lǐng)域中的應(yīng)用.全國商情·經(jīng)濟理論研究,2009(18):136-138.
(責(zé)任編輯:劉 壯)
2015年河北省研究生創(chuàng)新資助項目(00302-6370027);秦皇島市科技支撐計劃項目(201601B044)
1.河北省秦皇島市燕山大學(xué)經(jīng)濟管理學(xué)院(066004)
2.河北省秦皇島市中醫(yī)醫(yī)院
3.東華軟件股份有限公司
△通信作者:侯玉梅,E-mail:hym_1220@163.com