文/白旭飛
目前我國糖尿病等慢性病患者人數(shù)居世界首位,臨床研究顯示,隨著糖尿病發(fā)病率的上升,糖尿病的相關(guān)多種并發(fā)癥已經(jīng)成為人類致死主要的原因,因此糖尿病多種并發(fā)癥的研究有重要意義。糖尿病多種并發(fā)癥研究,其目的為找尋糖尿病較為高發(fā)的多種并發(fā)癥,并進(jìn)一步找尋對(duì)應(yīng)的哪些因素影響較大,是因果挖掘在輔助醫(yī)療方面的嘗試。糖尿病多種并發(fā)癥始于1977年,RobertTurner等人建立的第一個(gè)單一因素(血糖)KUPDSModels預(yù)測(cè)糖模型是世界首個(gè)相關(guān)模型。雖然多種并發(fā)癥模型發(fā)展較早,但是在中國該方法還處于起步階段。李戈等通過logistic回歸篩選變量并采用神經(jīng)網(wǎng)絡(luò)建立多種并發(fā)癥,在非神經(jīng)多種并發(fā)癥中研究較好;白云靜等將中醫(yī)方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合運(yùn)用在糖尿病腎病研究方面得到比較全面的診斷能力;宋鶴蘭等人通過神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)糖尿病胎兒的體重。
然而,目前研究仍然處于探索階段,大體分為兩個(gè)方向:糖尿病單一多種并發(fā)癥研究;糖尿病多種并發(fā)癥研究。單一多種并發(fā)癥研究相對(duì)發(fā)展較好,預(yù)測(cè)精確較高;而多種并發(fā)癥研究還沒有較好的方式方法?;诖耍疚慕Y(jié)合神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),提出了基于神經(jīng)網(wǎng)絡(luò)的糖尿病多種并發(fā)癥分析方法,并開展了相關(guān)的實(shí)驗(yàn)和分析。
本資源來自與國家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心(301醫(yī)院)提供的“糖尿病數(shù)據(jù)”,采用全血糖化血紅蛋白測(cè)定(簡(jiǎn)稱糖化)334條記錄、尿常規(guī)測(cè)定(簡(jiǎn)稱尿常規(guī))310條記錄、生化測(cè)定(簡(jiǎn)稱生化)條記錄三項(xiàng)數(shù)據(jù)集合,并將無關(guān)項(xiàng)如就診時(shí)間等刪除。參考聯(lián)合國世界衛(wèi)生組織糖尿病血糖診斷標(biāo)準(zhǔn)、中國國家統(tǒng)計(jì)局《中國成人血脂異常防治指南》和數(shù)據(jù)中的診斷結(jié)果等標(biāo)準(zhǔn),并結(jié)合部分醫(yī)院建議。本文對(duì)指標(biāo)進(jìn)行了賦值,其指標(biāo)選擇和評(píng)判標(biāo)準(zhǔn)如表1所示經(jīng)過簡(jiǎn)化(不區(qū)分1,2型糖尿病),糖化有效項(xiàng)為3項(xiàng),尿常規(guī)有效項(xiàng)為14項(xiàng),生化有效項(xiàng)為24項(xiàng),其數(shù)據(jù)集合詳細(xì)信息如表1,2,3所示(由于篇幅關(guān)系,僅展示部分)。
表1:全血糖化血紅蛋白測(cè)定3項(xiàng)指標(biāo)
表2:尿常規(guī)測(cè)定14項(xiàng)指標(biāo)(部分)
表3:生化測(cè)定24項(xiàng)指標(biāo)(部分)
表4:主要多種并發(fā)癥分布
表5:KMO 和 Bartlett 的檢驗(yàn)(生化)
表6:KMO 和 Bartlett 的檢驗(yàn)(尿常規(guī))
通過3個(gè)表可知,不同因素之間的量綱往往不同。比如鎂(mmol/L)和尿蛋白定性試驗(yàn)(mg/dl)的單位差距極大。因此為解決量綱問題,本文采用Z-Score標(biāo)準(zhǔn)化處理數(shù)據(jù),其公式為:
該公式中 為原始數(shù)據(jù)的標(biāo)準(zhǔn)差,σ為總體平均值,μ為某一個(gè)體的值。通過該方法,可以在數(shù)據(jù)大小關(guān)系的情況下,將有量綱的值轉(zhuǎn)換為無量綱的值,方便不同量綱值之間的比較和運(yùn)算。
由于糖尿病并發(fā)癥眾多,選擇哪些并發(fā)癥作為模型的研究將決定研究的價(jià)值所在。本文中,對(duì)于多種并發(fā)癥的確定,直接來源于數(shù)據(jù)中的“診斷”項(xiàng)。該數(shù)據(jù)經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn)腎病114例占10.52%(腎病綜合征36例占%3.32和慢性腎功能不全78例占7.20%)、高血壓94例占8.67%和冠心病90例占8.30%是糖尿病的主要多種并發(fā)癥。表4對(duì)主要的多種并發(fā)癥的數(shù)量和占比(占比大于2%的因素)進(jìn)行了詳細(xì)的表示。
圖1:生化因素累計(jì)解釋總方差%
圖2:尿常規(guī)因素累計(jì)解釋總方差%
經(jīng)過統(tǒng)計(jì),發(fā)現(xiàn)并發(fā)癥多集中于前五(占34.90%),因此本文中并發(fā)癥選擇了腎病、高血壓、冠心病、糖尿病酮癥、重癥肺炎五個(gè)相關(guān)并發(fā)癥,進(jìn)行下一步研究。
在研究建立模型之前,由于數(shù)據(jù)的因素量過多,模型的復(fù)雜度和耗時(shí)都會(huì)過高。并且糖尿病并發(fā)癥的多個(gè)因素之間往往有一定相關(guān)性,因此采用主成分因素分析,刪除因素中緊密相關(guān)的冗余項(xiàng)刪除,在保持因素信息不變的情況下減少因素?cái)?shù)量,降低模型復(fù)雜度。
在主成分前,先要進(jìn)行相關(guān)判斷,檢驗(yàn)相關(guān)因素能否進(jìn)行主成分因素分析。本文采用常見的KMO和Bartlett球形檢驗(yàn)。KMO檢驗(yàn)用于檢查變量間的相關(guān)性和偏相關(guān)性,取值在0~1之間,KMO統(tǒng)計(jì)量越接近于1,變量間的相關(guān)性越強(qiáng),偏相關(guān)性越弱,因子分析的效果越好;Bartlett球形檢驗(yàn)判斷如果相關(guān)陣是單位陣,則各變量獨(dú)立因子分析法無效,其結(jié)果越接近0分析越可行。對(duì)因素較多的尿常規(guī)和生化兩項(xiàng)進(jìn)行檢驗(yàn),可以得到表5、表6。
該表格中第一行值表示KMO值,最后一行值表示Bartlett球形檢驗(yàn)值。通過圖表可知,生化和尿常規(guī)的KMO值均大于50%,且Bartlett球形檢驗(yàn)小于40%,適合進(jìn)行因子分析。
經(jīng)過比對(duì),分別將生化和尿常規(guī)分類為11項(xiàng)和10項(xiàng),其解釋總方差(包含原始信息的百分百)如圖1、圖2。
如圖2、圖3所示,隨著因素的增加,累計(jì)解釋總方差不斷增加,一般取85%以上較為合適。因此這里分別選擇11項(xiàng)生化和10項(xiàng)尿常規(guī)因素,他們的解釋總方差分別為85.795%和88.767%。經(jīng)過因素分析得到如下結(jié)果(表7、表8)。
表7:尿常規(guī)主成分分析
表8:生化主成分分析
該表表示主成分分析結(jié)果,以生化表的性別項(xiàng)為例子,該項(xiàng)在第8組時(shí)概率最大(0.934),因此生化的性別項(xiàng)分在第8組。通過該方法,在有效的將生化和尿常規(guī)由24項(xiàng)和14項(xiàng)簡(jiǎn)化為11項(xiàng)和10項(xiàng)的同時(shí),保持了數(shù)據(jù)絕大多數(shù)的信息(>85%)。
由于糖尿病并發(fā)癥某些因素偏離正常值過多,這種極少數(shù)的數(shù)值由于boosting(見下文)會(huì)具有非常大的權(quán)值,反而導(dǎo)致結(jié)果偏離正常范圍。因此需要對(duì)異常數(shù)據(jù)進(jìn)行剔除。設(shè)某組影響因素組類的數(shù)據(jù):
其中:n為變量個(gè)數(shù),m為測(cè)試人員個(gè)數(shù)。
不妨設(shè)數(shù)據(jù)中正常范圍極限為xj1,計(jì)算m組數(shù)據(jù)的中位數(shù)M,均值μ和均方差σ。
如果m<30,則采用改進(jìn)格拉布斯(Grubbs)剔除異常值。計(jì)算個(gè)人的正常極限范圍剩余誤差絕對(duì)值|Vj|=|xj1-M|,選擇絕對(duì)誤差最大的一組數(shù)據(jù),求出值G:
對(duì)照格拉布斯臨界值表可以查詢出數(shù)據(jù)個(gè)數(shù)為n時(shí)的格拉布斯臨界值G(n,α),其中α為顯著性水平。比較G與G(n,α),如果G>G(n,α),則對(duì)應(yīng)的第j組個(gè)人數(shù)據(jù)為異常值,將其剔除。將剩余的數(shù)據(jù)重復(fù)進(jìn)行上述操作,知道沒有異常數(shù)據(jù)。
如果m>30,根據(jù)統(tǒng)計(jì)學(xué)原理會(huì)呈現(xiàn)正態(tài)分布,這時(shí)采用拉伊依達(dá)(Pauta)準(zhǔn)則。若對(duì)于某一誤差Vj=xj1-M,有:
即xj1?[μ-3σ, μ-3σ],可以認(rèn)定為異常數(shù)據(jù),將其剔除。并重復(fù)以上過程,直到?jīng)]有異常數(shù)據(jù)為止。
表9:未進(jìn)行主成分因素分析和異常值剔除的預(yù)測(cè)準(zhǔn)確度
表10:進(jìn)行主成分因素分析和異常值剔除的預(yù)測(cè)準(zhǔn)確度
神經(jīng)網(wǎng)絡(luò)構(gòu)建是研究的基礎(chǔ),如何得到更好的模型從而使得結(jié)果真實(shí)。實(shí)驗(yàn)確定參數(shù)和boosting算法分別解決了樣本數(shù)據(jù)量綱不同、神經(jīng)網(wǎng)絡(luò)何種結(jié)果最優(yōu)以及如何提高實(shí)驗(yàn)精度的問題。通過這三項(xiàng),建立出適合研究多種并發(fā)癥的神經(jīng)網(wǎng)絡(luò)模型,量綱問題在之前數(shù)據(jù)預(yù)處理中以及解決,這里主要對(duì)后兩者提出解決方案。
一般來說,在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)層數(shù)越多,訓(xùn)練結(jié)構(gòu)越精確,但同時(shí)訓(xùn)練的成本越高。由于判斷層數(shù)的方法并沒有很好的依據(jù),經(jīng)過實(shí)際測(cè)試,在采用4層64個(gè)神經(jīng)元,激勵(lì)函數(shù)relu,學(xué)習(xí)速率為0.1,初始參數(shù)為0時(shí),結(jié)果最好。
增加預(yù)測(cè)準(zhǔn)確性也是重中之重。并發(fā)癥作為輸出。其中生化指標(biāo)由于樣本較少、且種類豐富、因此預(yù)測(cè)準(zhǔn)確率很低,僅僅17.23%;糖化和尿常規(guī)預(yù)測(cè)準(zhǔn)確性分別為24.21%和44.59%。為了提高預(yù)測(cè)準(zhǔn)確率,采用Boosting增加正確性,其核心是將當(dāng)前未能成功的預(yù)測(cè)的項(xiàng)提高權(quán),為下一次學(xué)習(xí)提供重點(diǎn)。同時(shí)該方法將樣本集隨機(jī)分成K部分(本文中K為10),其中N部分(本文中N為7)作為訓(xùn)練集,另外K全部K作為驗(yàn)證集合,之后依次輪回,K部分中的每一部分都有一次作為訓(xùn)練集,對(duì)于過學(xué)習(xí)與欠學(xué)習(xí)等問題上擁有較好的解決效果,結(jié)果準(zhǔn)確度較高。建立過程如圖3所示。
分別對(duì)不同疾病進(jìn)行編號(hào)(0-正常、1-腎病、2-高血壓、3-冠心病、4-糖尿病酮癥和5-重癥肺炎),采用4層64個(gè)神經(jīng)元,激勵(lì)函數(shù)relu,學(xué)習(xí)速率為0.1,初始參數(shù)為0的神經(jīng)網(wǎng)絡(luò)進(jìn)行研究。其結(jié)果分別如圖4、圖5和表9,表10所示。
圖3:神經(jīng)網(wǎng)絡(luò)建立過程
ROC曲線中,曲線面積越大,其結(jié)果準(zhǔn)確性越大。對(duì)比圖5和圖4可以看出,經(jīng)過主成分因素分析和異常值剔除的ROC曲線,其結(jié)果遠(yuǎn)遠(yuǎn)超出未處理的曲線。
通過預(yù)測(cè)準(zhǔn)確度可以更精準(zhǔn)的對(duì)比主成分因素分析和異常值剔除對(duì)于神經(jīng)網(wǎng)絡(luò)準(zhǔn)確性的影響。
表9和表10可清晰的看出,預(yù)測(cè)準(zhǔn)確百分比進(jìn)行主成分因素分析和異常值剔除的神經(jīng)網(wǎng)絡(luò)遠(yuǎn)遠(yuǎn)優(yōu)于未進(jìn)行的神經(jīng)網(wǎng)絡(luò)。
通過分別對(duì)較高的6項(xiàng)多種并發(fā)癥進(jìn)行分類,找到6項(xiàng)主要因素對(duì)于多種并發(fā)癥的影響。之后采用常規(guī)的數(shù)學(xué)模擬方法,即通過spss軟件進(jìn)行擬合曲線,將這6項(xiàng)主要因素和他們對(duì)應(yīng)權(quán)值進(jìn)行了定量計(jì)算。
表11中部分結(jié)果因?yàn)闃颖静蛔銓?dǎo)致出錯(cuò),所以采用符合(*)表示,該表隨著數(shù)據(jù)的增加將可以更加完善。同時(shí)本文分別對(duì)糖尿病多種并發(fā)癥,通過糖化、生化以及尿常三項(xiàng)進(jìn)行分類研究。并進(jìn)一步找尋出其中較為重要的幾項(xiàng)指標(biāo),來快速估計(jì)患者的多種并發(fā)癥可能。其中經(jīng)過研究,年齡是最為可能的指標(biāo)。隨之年齡的增加,各項(xiàng)多種并發(fā)癥的風(fēng)險(xiǎn)會(huì)大幅度增加。通過神經(jīng)網(wǎng)絡(luò),可以處理較為復(fù)雜的問題,并且通過主成分劃分可以有效的對(duì)數(shù)據(jù)進(jìn)行分組和降維,而異常剔除又可以降低特異值對(duì)結(jié)果的影響,同時(shí)Boosting方法對(duì)于提高預(yù)測(cè)準(zhǔn)確性有著很好的幫助。通過對(duì)比,可以看出在研究并發(fā)癥上神經(jīng)網(wǎng)絡(luò)有著很好的實(shí)用性。
表11:重要影響因素對(duì)主要多種并發(fā)癥的定量表
圖4:未進(jìn)行主成分因素分析和異常值剔除的ROC曲線
本文主要開展了神經(jīng)網(wǎng)絡(luò)對(duì)糖尿病多種并發(fā)癥的研究,從糖化、生化和尿常規(guī)三個(gè)方面對(duì)多種并發(fā)癥進(jìn)行了預(yù)測(cè)并進(jìn)一步找尋哪些因素對(duì)結(jié)果有較大的影響。通過仿真驗(yàn)證了本文算法的有效性,對(duì)糖尿病多種并發(fā)癥的研究有一定的參考意義。由于糖尿病患者個(gè)體差異,今后將進(jìn)一步加強(qiáng)臨床分析,提高算法的適應(yīng)性。
圖5:進(jìn)行主成分因素分析和異常值剔除的ROC曲線