劉迷迷,蔡永銘
?
基于多層感知神經(jīng)網(wǎng)絡(luò)的糖尿病并發(fā)癥預(yù)測(cè)研究
劉迷迷1,蔡永銘2,3*
(1. 廣東藥科大學(xué) 公共衛(wèi)生學(xué)院,廣東 廣州 510006;2. 廣東藥科大學(xué) 醫(yī)藥信息工程學(xué)院,廣東 廣州 510006; 3. 廣東省中醫(yī)藥精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)工程技術(shù)研究中心,廣東 廣州 510006)
糖尿病并發(fā)癥患者的死亡率高于僅患糖尿病患者的死亡率,預(yù)測(cè)糖尿病并發(fā)癥有重要意義,以輔助臨床早發(fā)現(xiàn)和早治療糖尿病并發(fā)癥,降低糖尿病患者死于并發(fā)癥的風(fēng)險(xiǎn)。本研究目的是根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查信息,構(gòu)建預(yù)測(cè)糖尿病并發(fā)癥的多層感知神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP)模型,并篩選對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大的指標(biāo),以期提高糖尿病并發(fā)癥的診斷篩查。依據(jù)《實(shí)用內(nèi)科學(xué)》中關(guān)于糖尿病及其并發(fā)癥的診斷術(shù)語(yǔ)規(guī)范診斷結(jié)果的糖尿病并發(fā)癥種類。分別以尿常規(guī)檢查、生化檢查和糖化檢查的各項(xiàng)指標(biāo)為自變量,以糖尿病并發(fā)癥種類為因變量,應(yīng)用MLP算法建立糖尿病并發(fā)癥預(yù)測(cè)模型,并以Boosting方法提高M(jìn)LP模型預(yù)測(cè)準(zhǔn)確率,同時(shí)與統(tǒng)計(jì)模型Logistic回歸對(duì)比分析。MLP模型篩選出對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大的4項(xiàng)尿常規(guī)和6項(xiàng)生化檢查指標(biāo),其中影響最大的是患者的年齡。尿常規(guī)檢查和生化檢查的MLP模型準(zhǔn)確率較高,分別為87.56%、67.94%,且收益圖曲線上凸明顯,接近理想曲線。糖化信息的MLP模型準(zhǔn)確率低僅39.31%,收益圖曲線呈鋸齒狀上升,遠(yuǎn)離理想曲線。Logistic回歸模型的準(zhǔn)確率都較低,收益圖曲線均遠(yuǎn)離理想曲線?;谔悄虿』颊叩哪虺R?guī)檢查、生化檢查和糖化檢查等信息,構(gòu)建的尿常規(guī)檢查和生化檢查的MLP模型預(yù)測(cè)效果較好,并篩選出對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大指標(biāo),結(jié)果可用于輔助臨床醫(yī)生優(yōu)化診斷和治療糖尿病并發(fā)癥。MLP模型比Logistic回歸模型準(zhǔn)確率更高、收益更好,更適用于糖尿病并發(fā)癥的預(yù)測(cè)。
糖尿病;并發(fā)癥;多層感知神經(jīng)網(wǎng)絡(luò);MLP;Logistic回歸
糖尿病是目前影響全球人類健康的最重要的慢性非傳染性疾病之一,據(jù)國(guó)際糖尿病聯(lián)盟(IDF)統(tǒng)計(jì),2014年全球糖尿病患者人數(shù)達(dá)3.87億,預(yù)計(jì)到2035年全球糖尿病患者人數(shù)將增長(zhǎng)55%,接近6億[1]。糖尿病病程長(zhǎng),是目前醫(yī)學(xué)界公認(rèn)并發(fā)癥最多的疾病,不僅給患者自身肉體和精神帶來(lái)傷害,使患者壽命縮短,還給患者家庭、社會(huì)和國(guó)家?guī)?lái)沉重的經(jīng)濟(jì)負(fù)擔(dān)。許多研究發(fā)現(xiàn),糖尿病并發(fā)癥患者的死亡率明顯比只患糖尿病患者的死亡率高[2]。因此,對(duì)于糖尿病并發(fā)癥的預(yù)測(cè)研究具有重要意義,以實(shí)現(xiàn)并發(fā)癥的早預(yù)防、早發(fā)現(xiàn)和早治療,協(xié)助臨床醫(yī)生優(yōu)化診斷和治療,從而降低糖尿病并發(fā)癥的死亡率。本研究擬根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查等信息預(yù)測(cè)糖尿病并發(fā)癥,構(gòu)建糖尿病并發(fā)癥的多層感知神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP)模型。MLP是一種模式分類的神經(jīng)網(wǎng)絡(luò)模型,與單層感知神經(jīng)網(wǎng)絡(luò)相比,MLP可解決復(fù)雜線性不可分的多分類問(wèn)題,適用于醫(yī)療數(shù)據(jù)分析,例如,在肝硬化、高血壓等疾病的預(yù)測(cè)研究中效果甚好[3-5]。同時(shí)本研究利用MLP計(jì)算各檢查指標(biāo)對(duì)預(yù)測(cè)糖尿病并發(fā)癥的重要性,篩選出對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大的指標(biāo),在一定程度上輔助臨床決策。對(duì)比MLP和傳統(tǒng)Logistic回歸兩種模型對(duì)糖尿病并發(fā)癥的預(yù)測(cè)效果。
本研究資料來(lái)自于國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心提供的《糖尿病數(shù)據(jù)集》,利用其中的尿常規(guī)信息表、生化信息表和糖化信息表。共有399例糖尿病患者的尿常規(guī)檢查資料,499例糖尿病患者的生化檢查資料和443例糖尿病患者的糖化檢查資料,三個(gè)信息表包含患者性別、年齡和各檢查對(duì)應(yīng)的眾多指標(biāo)。
對(duì)尿常規(guī)檢查、生化檢查和糖化檢查的各項(xiàng)指標(biāo)進(jìn)行數(shù)據(jù)清洗、預(yù)處理和糾正非法值:刪除主題詞、申請(qǐng)序號(hào)、就診時(shí)間等無(wú)關(guān)或全部為空值的列數(shù)據(jù);分類型檢查指標(biāo)規(guī)范類標(biāo)號(hào);刪除糖尿病并發(fā)癥診斷結(jié)果為空值或“待查”的患者數(shù)據(jù);刪除檢查指標(biāo)值為非法值的患者數(shù)據(jù);糖尿病并發(fā)癥診斷若有多種結(jié)果,為了充分揭示原始數(shù)據(jù)信息,復(fù)制該例患者數(shù)據(jù),確保每例患者數(shù)據(jù)只有一種診斷結(jié)果。經(jīng)上述預(yù)處理后,402例糖尿病患者尿常規(guī)檢查的各項(xiàng)指標(biāo)定義及賦值見(jiàn)表1,524例糖尿病患者生化檢查的各項(xiàng)指標(biāo)定義及賦值見(jiàn)表2,496例糖尿病患者糖化檢測(cè)的各項(xiàng)指標(biāo)定義及賦值見(jiàn)表3。依據(jù)《實(shí)用內(nèi)科學(xué)》中關(guān)于糖尿病及其并發(fā)癥的診斷術(shù)語(yǔ)對(duì)尿常規(guī)檢查、生化檢查和糖化檢查的診斷結(jié)果進(jìn)行規(guī)范,本研究不區(qū)分1型和2型糖尿病,規(guī)范為糖尿病,規(guī)范后尿常規(guī)檢查、生化檢查和糖化檢查的診斷結(jié)果分別有14種、17種和 14種。
本研究應(yīng)用MLP算法,對(duì)患者尿常規(guī)檢查、生化檢查和糖化檢查數(shù)據(jù)分別構(gòu)建糖尿病并發(fā)癥預(yù)測(cè)模型。因?yàn)槟虺R?guī)檢查、生化檢查和糖化檢查的診斷結(jié)果種類較多,且各類樣本量較少,創(chuàng)建標(biāo)準(zhǔn)的MLP模型預(yù)測(cè)準(zhǔn)確率很低,分別為18.91%、18.70%和33.27%,所以本研究采用Boosting方法創(chuàng)建整體模型,由其生成多個(gè)模型序列以提高神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)準(zhǔn)確率[6]。Boosting方法創(chuàng)建多個(gè)模型,用加權(quán)投票方式整合多個(gè)模型的預(yù)測(cè),對(duì)樣本進(jìn)行整體地分類預(yù)測(cè)。防止模型過(guò)度擬合,在內(nèi)部將樣本劃分為模型構(gòu)建樣本集和防止過(guò)度擬合樣本集,后者作為獨(dú)立的樣本集,用于跟蹤訓(xùn)練過(guò)程中的錯(cuò)誤,以防止MLP對(duì)數(shù)據(jù)中的幾率變異進(jìn)行建模,本研究指定30%的樣本為防止過(guò)度擬合樣本集。插補(bǔ)缺失值,并計(jì)算各項(xiàng)指標(biāo)對(duì)預(yù)測(cè)糖尿病并發(fā)癥種類的重要性。按以上參數(shù)設(shè)置對(duì)MLP模型進(jìn)行訓(xùn)練。
表1 尿常規(guī)檢查的各項(xiàng)指標(biāo)定義及賦值
Tab.1 Definition and assignment of indicators of urinalyses
表2 生化檢查的各項(xiàng)指標(biāo)定義及賦值
Tab.2 Definition and assignment of indicators of biochemical examination
表3 糖化檢查的各項(xiàng)指標(biāo)定義及賦值
Tab.3 Definition and assignment of indicators of saccharification examination
根據(jù)糖尿病并發(fā)癥種類隨機(jī)分配樣本70%訓(xùn)練集和30%測(cè)試集,分別用于訓(xùn)練和測(cè)試Logistic回歸模型。因?yàn)榛颊吣虺R?guī)檢查、生化檢查和糖化檢查診斷結(jié)果有多個(gè)種類,所以建立多項(xiàng)式Logistic回歸模型,并用逐步法分步構(gòu)建方程,保證模型納入的是對(duì)糖尿病并發(fā)癥預(yù)測(cè)重要的指標(biāo)。指定糖尿病性肺部疾病為建模的參考種類,其他參數(shù)為默認(rèn)值,按以上參數(shù)設(shè)置對(duì)Logistic回歸模型進(jìn)行訓(xùn)練。最后,以分類準(zhǔn)確率和收益圖評(píng)價(jià)模型的預(yù)測(cè)效果。本研究構(gòu)建和評(píng)價(jià)上述兩類模型均在IBM SPSS Modeler 18.1軟件中實(shí)現(xiàn)。
按照《實(shí)用內(nèi)科學(xué)》中糖尿病及其并發(fā)癥的診斷術(shù)語(yǔ)對(duì)糖尿病患者尿常規(guī)檢查、生化檢查和糖化檢查的診斷結(jié)果規(guī)范后,統(tǒng)計(jì)三類檢查診斷結(jié)果的糖尿病并發(fā)癥分布,見(jiàn)表4。糖尿病患者中,除未患并發(fā)癥的患者外,糖尿病合并心臟病的患者比例最高,其次是糖尿病性腎病、肝膽疾病和高血壓等。
表4 糖尿病并發(fā)癥的統(tǒng)計(jì)分布
Tab.4 Statistical distribution of diabetic complications
MLP計(jì)算各項(xiàng)檢查指標(biāo)對(duì)預(yù)測(cè)糖尿病并發(fā)癥種類的重要性,按重要性降序排列,前10個(gè)指標(biāo)及其重要性見(jiàn)表5。每個(gè)MLP模型的指標(biāo)重要性之和為1.0,尿常規(guī)檢查中年齡、尿蛋白、性別和尿比重是尿常規(guī)檢查中對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響最大的4項(xiàng)指標(biāo)。生化檢查中對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大的指標(biāo)有年齡、肌酐、血清白蛋白、性別、直接膽紅素和總膽紅素,但各指標(biāo)的重要性區(qū)分度不大。糖化檢查的MLP模型預(yù)測(cè)效果不佳,由該模型計(jì)算的指標(biāo)重要性的參考價(jià)值可能不大??偟膩?lái)看,年齡是對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響最大的指標(biāo)。
表5 預(yù)測(cè)糖尿病并發(fā)癥的重要指標(biāo)
Tab.5 Important indicators for predictions of diabetic complications
本研究用分類準(zhǔn)確率,即正確分類的樣本例數(shù)占總的樣本例數(shù)的百分比,以及收益圖評(píng)價(jià)模型的分類效果,其中收益圖以各模型預(yù)測(cè)糖尿病性肺部疾病的收益圖為例。尿常規(guī)檢查、生化檢查和糖化檢查的MLP模型準(zhǔn)確率分別為87.56%、67.94%和39.31%,各MLP模型預(yù)測(cè)糖尿病性肺部疾病的收益圖見(jiàn)圖1(曲折上升的曲線即收益圖曲線)。尿常規(guī)檢查的MLP模型有很高的準(zhǔn)確率,并且收益圖曲線上凸明顯,迅速上升達(dá)到100%收益后平穩(wěn),十分接近理想曲線,模型預(yù)測(cè)效果好。生化檢查的MLP模型有較高的準(zhǔn)確率,收益圖曲線部分呈鋸齒狀上升,比較接近理想曲線,模型預(yù)測(cè)效果較好。糖化檢查的MLP模型準(zhǔn)確率低,收益圖曲線呈鋸齒狀上升,遠(yuǎn)離理想曲線,模型預(yù)測(cè)效果不好。因此,尿常規(guī)檢查和生化檢查的MLP模型預(yù)測(cè)效果較好,可用于糖尿病并發(fā)癥的預(yù)測(cè)。
尿常規(guī)檢查、生化檢查和糖化檢查的Logistic回歸模型準(zhǔn)確率分別為24.38%、23.85%和33.06%,各模型預(yù)測(cè)糖尿病性肺部疾病的收益圖見(jiàn)圖2(曲折上升的曲線即收益圖曲線)。各Logistic回歸模型準(zhǔn)確率都很低,收益圖曲線呈鋸齒狀上升,遠(yuǎn)離理想曲線,模型預(yù)測(cè)效果很差,不適用于糖尿病并發(fā)癥的預(yù)測(cè)。
圖1 MLP模型預(yù)測(cè)糖尿病性肺部疾病收益圖
圖2 Logistic回歸模型預(yù)測(cè)糖尿病性肺部疾病收益圖
本研究用MLP分別篩選出對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大4項(xiàng)尿常規(guī)檢查和6項(xiàng)生化檢查指標(biāo),臨床醫(yī)生預(yù)測(cè)或診斷患者糖尿病并發(fā)癥時(shí)可重點(diǎn)考慮患者的這幾項(xiàng)指標(biāo),以便快速評(píng)估患者患某種糖尿病并發(fā)癥可能。年齡是尿常規(guī)檢查和生化檢查MLP模型最重要的指標(biāo),醫(yī)生和患者應(yīng)重視年齡因素,以往的流行病學(xué)調(diào)查和回顧性分析的結(jié)果均發(fā)現(xiàn)年齡與糖尿病發(fā)病率密切相關(guān)[7,8]。評(píng)估糖尿病并發(fā)癥的獨(dú)立危險(xiǎn)因素研究的結(jié)果顯示,隨著患者年齡的增長(zhǎng),糖尿病并發(fā)癥的發(fā)生風(fēng)險(xiǎn)會(huì)隨之增加[9]。
本研究采用MLP構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,可以處理較為復(fù)雜的關(guān)系,且預(yù)測(cè)能力好,適用于疾病預(yù)測(cè)研究。Boosting 方法產(chǎn)生一系列“成分模型”,其中每個(gè)模型在整個(gè)數(shù)據(jù)集上構(gòu)建,在構(gòu)建后續(xù)成分模型時(shí)考慮了前一成分模型的結(jié)果,逐步生成多個(gè)模型序列的整體模型,該整體模型采用組合規(guī)則對(duì)新樣本進(jìn)行分類預(yù)測(cè),提高了模型的準(zhǔn)確率[10]。
MLP等神經(jīng)網(wǎng)絡(luò)模型是模擬人類大腦處理信息方式的簡(jiǎn)化模型,通常包含輸入層、隱藏層和輸出層三個(gè)部分,不容易對(duì)模型進(jìn)行解釋。傳統(tǒng)的統(tǒng)計(jì)模型更容易解釋因變量與自變量之間的關(guān)系,例如Logistic回歸模型,是一組用于在給定一組預(yù)測(cè)變量值的情況下推導(dǎo)出目標(biāo)類別概率的回歸方程,可以用于估計(jì)新樣本屬于某個(gè)類別的概率。本研究糖尿病性肺部疾病被視為基準(zhǔn)類別,Logistic回歸模型給出其他類別相對(duì)于基準(zhǔn)類別的對(duì)數(shù)優(yōu)勢(shì)比,每個(gè)類別的預(yù)測(cè)概率根據(jù)這些對(duì)數(shù)優(yōu)勢(shì)比推導(dǎo)得出。但是傳統(tǒng)的統(tǒng)計(jì)模型處理自變量類型多樣、變量間關(guān)系復(fù)雜的問(wèn)題時(shí),效果很差,本研究使用Logistic回歸模型預(yù)測(cè)糖尿病并發(fā)癥的準(zhǔn)確率和收益圖不如MLP模型[11-13]。綜上,本研究的目的是更準(zhǔn)確地預(yù)測(cè)糖尿病并發(fā)癥種類,模型的可解釋性不是最重要的,因此建立MLP模型以獲得良好的預(yù)測(cè)。
目前已用于預(yù)測(cè)糖尿病并發(fā)癥的研究方法主要有Logistic回歸、COX回歸、支持向量機(jī)、分類與決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型,以及結(jié)合Logistic回歸等統(tǒng)計(jì)方法進(jìn)行特征篩選再利用神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測(cè)模型[14]。其中利用神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的糖尿病并發(fā)癥預(yù)測(cè)模型準(zhǔn)確率較高,例如BP神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)[15-16]。但未見(jiàn)利用針對(duì)非線性復(fù)雜多分類問(wèn)題的MLP算法預(yù)測(cè)糖尿病并發(fā)癥的研究,且以往的研究大多只對(duì)一種糖尿病并發(fā)癥進(jìn)行預(yù)測(cè),最多的也只有7種,本研究依據(jù)《實(shí)用內(nèi)科學(xué)》中關(guān)于糖尿病及其并發(fā)癥的診斷術(shù)語(yǔ),全面規(guī)范了糖尿病并發(fā)癥的種類,然后建立模型對(duì)更多種糖尿病并發(fā)癥同時(shí)預(yù)測(cè)。
本研究根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查等信息構(gòu)建糖尿病并發(fā)癥預(yù)測(cè)模型,其中尿常規(guī)檢查和生化檢查的MLP模型預(yù)測(cè)效果較好,可用于輔助臨床診斷糖尿病并發(fā)癥,進(jìn)而改善患者生活質(zhì)量,降低糖尿病并發(fā)癥死亡率。同時(shí)篩選出對(duì)糖尿病并發(fā)癥預(yù)測(cè)影響較大4項(xiàng)尿常規(guī)檢查和6項(xiàng)生化檢查指標(biāo),影響最大的是患者的年齡,醫(yī)生可重點(diǎn)考慮這幾項(xiàng)指標(biāo),在一定程度上輔助臨床決策,優(yōu)化診斷和治療糖尿病并發(fā)癥。與傳統(tǒng)的統(tǒng)計(jì)模型Logistic回歸對(duì)比,MLP模型對(duì)自變量類型多樣、變量間關(guān)系復(fù)雜的糖尿病并發(fā)癥預(yù)測(cè)有更高的準(zhǔn)確率和更好的收益,更適用于預(yù)測(cè)糖尿病并發(fā)癥。
[1] International Diabetes Federation. IDF Diabetes Atlas Sixth editionposter update 2014[EB/OL]. http://www.Idf.Org/ diabetesatlas/update-2014. [2014-11-10].
[2] 王會(huì)奇, 何松明, 李東升. 2型糖尿病患者181例社區(qū)跟蹤十年并發(fā)癥和合并癥及治療情況變化分析[J]. 中國(guó)全科醫(yī)學(xué), 2012, 15(12C) : 4212-4215.
[3] 韓玲. 基于人工神經(jīng)網(wǎng)絡(luò)——多層感知器(MLP)的遙感影像分類模型[J]. 測(cè)繪通報(bào), 2004, (9): 29-30+42.
[4] Semra I, Sad?k K, Ays G. Comparison of multilayer perceptron training algorithms for portal venous doppler signals in the cirrhosis disease[J]. Expert Systems with Applications, 2006, (31): 406-413.
[5] Wang A, An N, et al. Predicting hypertension without measurement: A non-invasive, questionnaire-based approach[J]. Expert Systems with Applications, 2015, (42): 7601-7609.
[6] Schwenk H, Beng Y, et al. Boosting neural networks[J]. Neural Computation, 2000, 12( 8): 1869-1887.
[7] Chew B H, Ghazali S S, et al. Age≥60 years was aninde-pendent risk factor for diabetes-related complications despite goodcontrol of cardiovascular risk factors in patients with type 2 diabetesmellitus[J]. Exp Gerontol, 2013, 48(5): 485-491.
[8] Farshchi A, Esteghamati A, et al. The cost of diabeteschronic complications among Iranian people with type 2 diabete-smellitus[J]. J Diabetes Metab Disord, 2014, 13 (1): 42.
[9] 李偉芳, 李華, 董捷, 王鵬. 老年2型糖尿病慢性并發(fā)癥發(fā)病時(shí)間及危險(xiǎn)因素分析[J]. 中國(guó)全科醫(yī)學(xué), 2015, 18 (14): 1632 -1636.
[10] Zhou Z H, Wu J X, et al. Ensembling neural networks: Many could be better than all[J]. Artifical Intelligence, 2002, 137(1-2): 239-263.
[11] 馬莉雅. 基于決策樹(shù)、邏輯回歸和改進(jìn)神經(jīng)網(wǎng)絡(luò)的幾種慢性病的危險(xiǎn)因素分析研究(英文)[J]. 軟件, 2014, 35 (12): 58-65.
[12] Kurt I, Ture M, et al. Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease[J]. Expert Systems with Applications, 2008, 34(1): 366-374.
[13] 田興國(guó), 陳江濤, 呂建秋. 基于數(shù)據(jù)挖掘的獸藥質(zhì)量風(fēng)險(xiǎn)預(yù)測(cè)[J]. 現(xiàn)代食品科技, 2017, 33(11): 212-218.
[14] 李攀. 基于神經(jīng)網(wǎng)絡(luò)的2型糖尿病并發(fā)癥預(yù)測(cè)模型的研究[D]. 2016, 廣州中醫(yī)藥大學(xué).
[15] 崔純純. 基于神經(jīng)網(wǎng)絡(luò)的糖尿病并發(fā)癥預(yù)測(cè)系統(tǒng)研究[D]. 2018, 北京交通大學(xué).
[16] 李戈靳, 立忠. 基于學(xué)習(xí)向量量化網(wǎng)絡(luò)建立糖尿病并發(fā)癥預(yù)測(cè)模型[J]. 中國(guó)自然醫(yī)學(xué)雜志, 2006, 12(8): 254-258.
Predictions of Diabetic Complications Based on MLP
LIU Mi-mi1, CAI Yong-ming2,3*
(1. School of Public Health, Guangdong Pharmaceutical University , Guangzhou, 510006, China; 2. College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China; 3. Guangdong Chinese medicine big data engineering research center, Guangzhou 510006, China)
Objective The mortality of patients with diabetic complications is higher than that of patients with only diabetes, and it is of great significance to predict diabetic complications, so as to assist the early detection and early treatment of diabetic complications in clinical practice and reduce the risk of diabetes patients dying from complications. The aim of the present study was to according to the examinations information of diabetes patients, such as urinalyses, biochemical examination and saccharification examination, build multilayer perception neural networks (MLP) models for predicting the diabetic complications, and screen the important indicators for predictions of diabetic complications, to improve the diagnosis and screening of diabetic complications further. Methods The type of diabetic complications is standardized according to the diagnostic terminology of diabetes and its complications in. By the indicators of urinalyses, biochemical examination and saccharification examination as independent variables respectively, the type of diabetic complications as dependent variable, MLP algorithm was used to establish prediction models of diabetic complications, and Boosting method was applied to improve the predictive accuracy of MLP models. In addition, the MLP models were compared with the traditional statistical models (i.e., the Logistic regression models). Results The MLP models screened out four indicators of urinalyses and six indicators of biochemical examination that have great effects on prediction of diabetic complications, one of which most affected is age. The accuracy of the MLP model of urinalyses and biochemical examination was as high as 87.56% and 67.94% respectively, and in their gain charts, the practical curves were obviously convex close to the ideal curves. However, the accuracy of the saccharification information MLP model was only 39.31%, and in its gain chart the curve was jagged and away from the ideal curve. The Logistic regression models had low accuracy, and curves of those gain charts were away from the ideal curves. Conclusions The MLP models based on urinalyses and biochemical examination of diabetes patients have good prediction effects, and the examination indicators that have a great influence on the prediction of diabetic complications are screened out. These results can be used to assist clinicians in optimizing the diagnosis and treatment of diabetic complications. The MLP models have higher accuracy and better gains than the Logistic regression models, they are more suitable for the prediction of diabetic complications.
Diabetes mellitus; Complications; Multilayer perceptron; MLP; Logistic regression
TP311.5
A
10.3969/j.issn.1003-6970.2018.10.007
廣東省自然科學(xué)基金項(xiàng)目(項(xiàng)目編號(hào):2014A030313585);2016年廣東省創(chuàng)新強(qiáng)校項(xiàng)目“廣東省高?;谠朴?jì)算的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)工程技術(shù)研究中心”
劉迷迷(1993-),女,研究生,研究方向?yàn)榻】敌畔?shù)據(jù)挖掘。
蔡永銘(1975-),男,教授,研究方向?yàn)樾l(wèi)生信息系統(tǒng)集成、醫(yī)學(xué)信息處理,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)員(會(huì)員號(hào):20517M)。
劉迷迷,蔡永銘. 基于多層感知神經(jīng)網(wǎng)絡(luò)的糖尿病并發(fā)癥預(yù)測(cè)研究[J]. 軟件,2018,39(10):30-35