馮沁祺,彭博雅,李雅儒,翟興
中醫(yī)藥信息學(xué)
基于機(jī)器學(xué)習(xí)的2型糖尿病視網(wǎng)膜病變預(yù)測模型研究
馮沁祺1,彭博雅2,李雅儒2,翟興2,3
1.北京中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院,北京 100007;2.北京中醫(yī)藥大學(xué)管理學(xué)院,北京 100029;3.中國人民大學(xué)信息資源管理學(xué)院,北京 100872
通過構(gòu)建提升決策樹、決策森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等9個常用機(jī)器學(xué)習(xí)模型對2型糖尿病并發(fā)糖尿病視網(wǎng)膜病變進(jìn)行風(fēng)險預(yù)測,進(jìn)行模型評價。采用國家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))的糖尿病數(shù)據(jù)集數(shù)據(jù),采用SPSS20.0軟件進(jìn)行統(tǒng)計分析,通過卡方檢驗和檢驗篩選糖尿病視網(wǎng)膜病變相關(guān)因素進(jìn)入預(yù)測模型。對數(shù)據(jù)進(jìn)行預(yù)處理后,使用Azure Machine Learning Studio構(gòu)建9種二分類模型,采用十折交叉驗證方式測試算法效能,以準(zhǔn)確率、精確率、召回率、F1得分、AUC值為指標(biāo)對模型進(jìn)行評價。通過卡方檢驗和檢驗得到糖尿病視網(wǎng)膜病變的影響因素,共篩選出年齡、血肌酐等32項計量資料指標(biāo)的已有編號、指標(biāo)名與結(jié)果字段進(jìn)入預(yù)測模型。指標(biāo)評價結(jié)果顯示,提升決策樹模型具有明顯優(yōu)勢。提升決策樹模型在9種預(yù)測模型中具有明顯優(yōu)勢,可為2型糖尿病視網(wǎng)膜病變高危人群的篩檢與干預(yù)研究提供一定幫助。
2型糖尿??;糖尿病視網(wǎng)膜病變;機(jī)器學(xué)習(xí);風(fēng)險預(yù)測
糖尿病影響著全球約4.15億成年人的生命健康,預(yù)計到2030年糖尿病患者可達(dá)5.52億,2040年為6.42億[1]。其中,2型糖尿?。╰ype 2 diabetes mellitus,T2DM)患者約占90%~95%[2]。中國糖尿病患病率高,且男性高于女性[3]。隨著生活方式的改變及社會老齡化,我國糖尿病患病率呈快速增長趨勢。糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)是糖尿病最常見、最嚴(yán)重的微血管并發(fā)癥之一,嚴(yán)重影響患者生活質(zhì)量。DR損傷視網(wǎng)膜微血管系統(tǒng),出現(xiàn)毛細(xì)血管腫脹變形、血-視網(wǎng)膜屏障破壞、滲出,發(fā)生黃斑水腫、視力下降,若病情進(jìn)一步發(fā)展,新生血管可致視網(wǎng)膜微血管系統(tǒng)扭曲,導(dǎo)致視網(wǎng)膜脫離,甚至失明[4]。若能早期診斷并采取適當(dāng)預(yù)防措施,可在一定程度上減少DR所致的視力損害。
本研究以國家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的數(shù)據(jù)為對象,研究T2DM并發(fā)DR的相關(guān)影響因素,構(gòu)建9種常用機(jī)器學(xué)習(xí)模型,對T2DM并發(fā)DR進(jìn)行風(fēng)險預(yù)測,并對模型測試結(jié)果進(jìn)行分析和評價,以期為降低T2DM并發(fā)DR發(fā)病率及其早期診斷提供參考。
3000條數(shù)據(jù)均來源于國家人口健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的糖尿病數(shù)據(jù)集(http://101.201. 55.39/#/resource/2356),包含基本信息表、診斷表、檢查表、醫(yī)囑表、費用表、生化檢查表、糖化檢查表、尿常規(guī)檢查表等。
3000例患者基礎(chǔ)數(shù)據(jù)完整。男性1874例(62%),女性1126例(38%);年齡≤20歲1例,>20~30歲31例,>30~40歲125例,>40~50歲500例,>50~60歲1006例,>60~70歲910例,>70~80歲343例,>80~90歲83例,>90歲1例。T2DM并發(fā)DR者,男性933例,女性567例,年齡45.7~67.5歲,平均年齡56.6歲。數(shù)據(jù)分為T2DM組和T2DM并發(fā)DR組,各1500例。
使用機(jī)器學(xué)習(xí)的方法建立預(yù)測模型,實質(zhì)上是采用有結(jié)果標(biāo)簽的訓(xùn)練集對模型進(jìn)行訓(xùn)練,然后對模型的準(zhǔn)確性等各項評價指標(biāo)進(jìn)行測試和優(yōu)化,實現(xiàn)對未知結(jié)果的分類。本研究采用十折交叉驗證法測試算法效能,研究流程見圖1。
圖1 研究流程圖
2.2.1 缺失值處理
由于數(shù)據(jù)存在較多缺失值,故利用基于鏈?zhǔn)椒匠痰亩嘀夭逖a(bǔ)方法將缺失值替換成替補(bǔ)值,即在填充缺失值之前,使用數(shù)據(jù)中的其他變量有條件地對每個具有缺失數(shù)據(jù)的變量進(jìn)行建模。
2.2.2 特征歸一化
2.2.3 離群值
本研究2組樣本均為1500條數(shù)據(jù),離群值較少,故未進(jìn)行類別不均和離群值的處理。
使用Azure Machine Learning Studio(https:// studio.azureml.net/)構(gòu)建預(yù)測模型。預(yù)測模型的標(biāo)簽變量(即是否患?。儆诙诸愖兞浚什捎肁zure Machine Learning Studio中的9種二分類模型進(jìn)行實驗比較,各模型均使用默認(rèn)參數(shù)。公共參數(shù)見表1。
表1 Azure Machine Learning Studio模型構(gòu)建公共參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 創(chuàng)建訓(xùn)練器模式指定訓(xùn)練模型的方式;單個參數(shù):如果您知道如何配置模型;參數(shù)范圍:迭代提供的多種組合單個參數(shù) 隨機(jī)數(shù)種子鍵入一個整數(shù)值作為種子,確保實驗在所有運行中都具有可重復(fù)性2020 允許未知分類級別為訓(xùn)練和驗證集中的未知值創(chuàng)建一個組。對于已知值,該模型可能不太精確,但可以為新(未知)值提供更好的預(yù)測是
2.3.1 二分類提升決策樹
二分類提升決策樹(two-class boosted decision tree)是一種集成學(xué)習(xí)方法,基于多個決策樹的整體進(jìn)行預(yù)測,其中第二棵樹糾正第一棵樹的錯誤,第三棵樹糾正第一棵樹和第二棵樹的錯誤,依此類推[5]。參數(shù)設(shè)置見表2。
表2 二分類提升決策樹參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 每棵樹的最大葉數(shù)可以在任何樹中創(chuàng)建的最大終端節(jié)點(葉)數(shù)。通過增加該值,可能增加樹的大小并獲得更好的精度,但有過度擬合和較長訓(xùn)練時間的風(fēng)險20 每個葉節(jié)點的最小樣本數(shù)指定在樹中創(chuàng)建任何終端節(jié)點(葉)所需的案例數(shù)。通過增加該值,可增加創(chuàng)建新規(guī)則的閾值10 學(xué)習(xí)率輸入介于0和1之間的數(shù)字,該數(shù)字定義學(xué)習(xí)時的步長0.2 已構(gòu)建的樹數(shù)在集合中創(chuàng)建的決策樹的總數(shù)。通過創(chuàng)建更多的決策樹,可能獲得更好的覆蓋范圍,但訓(xùn)練時間會增加100
2.3.2 二分類邏輯回歸
二分類邏輯回歸(two-class logistic regression)通過將數(shù)據(jù)擬合到邏輯函數(shù)來預(yù)測事件發(fā)生的可能性,模型中最常使用梯度下降法獲得代價函數(shù)的最小值,通過給予一定的優(yōu)化條件,使方法得到更好的分類界限[6]。參數(shù)設(shè)置見表3。
表3 二分類邏輯回歸參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 優(yōu)化公差優(yōu)化模型時要使用的閾值1E-07 L1正則化權(quán)重正則化參數(shù)L1的值1 L2正則化權(quán)重正則化參數(shù)L2的值1 L-BFGS的內(nèi)存大小用于L-BFGS優(yōu)化的內(nèi)存量20
2.3.3 二分類貝葉斯點機(jī)
貝葉斯分類器通過某個對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類別的概率,貝葉斯分類預(yù)測模型則返回每個類別的預(yù)測概率,選擇具有最大后驗概率的類作為該對象所屬的類[7]。二分類貝葉斯點機(jī)(two-class Bayes point machine)通過選擇一個“平均”分類器貝葉斯點,有效地近似了線性分類器的理論上最優(yōu)的貝葉斯平均值。參數(shù)設(shè)置見表4。
表4 二分類貝葉斯點機(jī)參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 訓(xùn)練迭代次數(shù)指定消息傳遞算法迭代訓(xùn)練數(shù)據(jù)的頻率,通常應(yīng)設(shè)置為5~100范圍內(nèi)的值30 包括偏差是否將恒定特征或偏差添加到訓(xùn)練和預(yù)測中的每個實例是
2.3.4 二分類平均感知器
二分類平均感知器(two-class average perceptron)是神經(jīng)網(wǎng)絡(luò)的早期和非常簡單的版本,根據(jù)線性函數(shù)將輸入分類為幾個可能的輸出,然后將其與從特征向量派生的一組權(quán)重結(jié)合在一起[5]。參數(shù)設(shè)置見表5。
表5 二分類平均感知器參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 最大迭代次數(shù)算法檢查訓(xùn)練數(shù)據(jù)的次數(shù)10 學(xué)習(xí)率指定的值的學(xué)習(xí)速度1
2.3.5 二分類決策森林
二分類決策森林(two-class decision forest)是基于一般原理的集成方法,由幾種決策樹的預(yù)測組合成一個最終的預(yù)測,其原理為應(yīng)用集成思想提高決策樹準(zhǔn)確率,不依賴單個模型,而是通過創(chuàng)建多個相關(guān)模型并以某種方式組合它們,可以獲得更好的結(jié)果和更通用的模型[8]。參數(shù)設(shè)置見表6。
表6 二分類決策森林參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 重采樣方法選擇用于創(chuàng)建單個樹的方法。可選擇BAGGING或復(fù)制法BAGGING 決策樹數(shù)可在集合中創(chuàng)建的最大決策樹數(shù)。通過創(chuàng)建更多的決策樹可能獲得更好的覆蓋范圍,但訓(xùn)練時間會增加8 決策樹的最大深度限制任何決策樹的最大深度。增加樹的深度可能會提高精度,但存在過度擬合和訓(xùn)練時間增加的風(fēng)險32 每個節(jié)點的隨機(jī)分割數(shù)樹的每個節(jié)點要使用的分割數(shù)128 每個葉節(jié)點的最小樣本數(shù)在樹中創(chuàng)建任何終端節(jié)點(葉)所需的最小案例數(shù)1
2.3.6 二分類決策叢林
二分類決策叢林(two-class decision jungle)由一組決策有向無環(huán)圖(DAG)組成,是決策森林的一種拓展[5]。參數(shù)設(shè)置見表7。
表7 二分類決策叢林參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 重采樣方法選擇用于創(chuàng)建單個樹的方法BAGGING 決策DAG的數(shù)量可在集合中創(chuàng)建的最大圖形數(shù)量8 決策DAG的最大深度每個圖的最大深度32 決策DAG的最大寬度每個圖的最大寬度128 每個決策DAG層的優(yōu)化步驟數(shù)建每個DAG時要對數(shù)據(jù)執(zhí)行多少 次迭代2048
2.3.7 二分類局部深度支持向量機(jī)
二分類局部深度支持向量機(jī)(two-class locally deep SVM)用于將數(shù)據(jù)點映射到特征空間的內(nèi)核函數(shù),以減少訓(xùn)練所需的時間,同時保持大部分分類的準(zhǔn)確性[5]。參數(shù)設(shè)置見表8。
表8 二分類局部深度支持向量機(jī)參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 樹的深度可以由本地深度內(nèi)核學(xué)習(xí)SVM(LD- SVM)模型創(chuàng)建的樹的最大深度3 LAMBDA W正則化項的權(quán)重0.1 LAMBDA THETA區(qū)域邊界和最近的數(shù)據(jù)點之間應(yīng)保留多少空間0.01 LAMBDA THETA PRIME控制模型的決策邊界中允許的曲率量0.01 SIGMOID清晰度用于縮放參數(shù)Σ的值1 迭代次數(shù)算法應(yīng)使用示例的隨機(jī)子集更新分類器參數(shù)的次數(shù)15 000
2.3.8 二分類神經(jīng)網(wǎng)絡(luò)
二分類神經(jīng)網(wǎng)絡(luò)(two-class neural network)是一組相互連接的層,輸入是第一層,并通過包含加權(quán)邊和節(jié)點的非循環(huán)圖連接到輸出層。神經(jīng)網(wǎng)絡(luò)可以運用于分類和回歸問題,具有極強(qiáng)的容錯性和魯棒性[9]。參數(shù)設(shè)置見表9。
表9 二分類神經(jīng)網(wǎng)絡(luò)參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 隱藏層規(guī)范要創(chuàng)建的網(wǎng)絡(luò)體系結(jié)構(gòu)的類型完全連接 隱藏節(jié)點數(shù)隱藏節(jié)點的數(shù)目100 學(xué)習(xí)率每次迭代所采取步驟的大小0.1 迭代次數(shù)算法應(yīng)處理訓(xùn)練案例的最大次數(shù)100 初始學(xué)習(xí)權(quán)重直徑在學(xué)習(xí)過程開始時指定的節(jié)點權(quán)重0.1 動量在學(xué)習(xí)過程中應(yīng)用于先前迭代的節(jié)點 的權(quán)重0
2.3.9 二分類支持向量機(jī)
二分類支持向量機(jī)(two-class SVM)是最早的機(jī)器學(xué)習(xí)算法之一,所有輸入示例均以該空間中的點表示,并映射到輸出類別,以使類別被盡可能寬地分隔并消除空白[10]。支持向量機(jī)使用核函數(shù)將非線性問題變換為線性問題,其本質(zhì)是計算2個觀測數(shù)據(jù)之間的距離,所尋找的是能夠?qū)颖鹃g隔最大化的決策邊界,因此又被稱為大間距分類器。參數(shù)設(shè)置見表10。
表10 二分類支持向量機(jī)參數(shù)
參數(shù)名稱參數(shù)介紹參數(shù)值 迭代次數(shù)構(gòu)建模型時使用的迭代次數(shù)1 LAMBDA用作L1正則化的權(quán)重0.001 是否投影到單位空間在訓(xùn)練之前,數(shù)據(jù)點以0為中心并縮放為具有1個單位的標(biāo)準(zhǔn)偏差否
對2組數(shù)據(jù)資料中的86個因素進(jìn)行分組描述,并進(jìn)行差異性檢驗。其中,BUN、FIBRIN、M1_M2、TH2字段出現(xiàn)<30的情況,經(jīng)假設(shè)檢驗,與結(jié)果無相關(guān)性,予以剔除。2組數(shù)據(jù)一般資料比較見表11,實驗室指標(biāo)比較見表12。
計數(shù)資料中,性別、民族、婚姻狀況及動脈粥樣硬化、頸動脈狹窄、肝硬化、其他慢性肝病、胰腺外分泌疾病、神經(jīng)系統(tǒng)疾病、心功能不全及心力衰竭等患病率組間比較差異無統(tǒng)計學(xué)意義(>0.05);T2DM并發(fā)DR組患者高血壓、高脂血癥、腦卒中、脂肪肝、腎病、腎衰竭、冠心病、心肌梗死、下肢動脈病變、血液病、風(fēng)濕免疫疾病、其他內(nèi)分泌疾病、內(nèi)分泌腺瘤、消化系腫瘤、泌尿系腫瘤、婦科腫瘤、肺部腫瘤及其他腫瘤共18種相關(guān)疾病的患病率更高,差異有統(tǒng)計學(xué)意義(<0.05)。
計量資料中,身高、體質(zhì)量、心率、BMI、PL、PLT、LPS、TG、HDL_C、LP_A、GSP、CA199、INS、PTA、UCR共15項指標(biāo)組間比較差異無統(tǒng)計學(xué)意義(>0.05)。T2DM并發(fā)DR組收縮壓、舒張壓、SCR、SUA、BU、LDH_L、TC、LDL_C、GLU、GLU_2H、HBA1C、ESR、FBG、ALB_CR、UPR_24共15項指標(biāo)高于T2DM組,年齡、PCV、GLO、ALB、TP、DBILI、IBILI、TBILI、ALP、GGT、ALT、AST、HB、CRP、CP、APTT、PT共17項指標(biāo)低于T2DM組,差異有統(tǒng)計學(xué)意義(<0.05)。
將上述18種相關(guān)疾病和32項指標(biāo)作為T2DM并發(fā)DR的危險因素納入預(yù)測模型。
表11 2組數(shù)據(jù)一般資料比較(n=1500)
項目T2DM組T2DM并發(fā)DR組t/χ2值P值 男性[n(%)] 941(62.7) 933(62.2)0.9100.763 漢族[n(%)]1419(94.6)1401(93.4)2.1400.144 已婚[n(%)]1470(98.0)1466(97.7)0.2550.613 年齡(±s,歲) 59.0±11.2 56.6±10.95.9300.000 身高(±s,cm)166.5±6.3 166.4±8.30.3510.725 體質(zhì)量(±s,kg) 73.0±13.4 73.2±12.5-0.3480.728 收縮壓(±s,mmHg)135.0±20.0142.4±21.4-9.7270.000 舒張壓(±s,mmHg) 79.0±11.9 82.0±11.8-6.9590.000 心率(±s,次/min) 80.4±32.7 76.1±23.50.9220.358 BMI(±s)26.1±4.026.4±3.6-1.3590.174 高血壓[n(%)] 953(63.5)1093(72.9)30.1250.000 高脂血癥[n(%)] 407(27.1) 249(16.6)48.7050.000 動脈粥樣硬化[n(%)] 791(52.7) 752(50.1)2.0300.154 腦卒中[n(%)] 76(5.1)148(9.9)25.0100.000 頸動脈狹窄[n(%)] 56(3.7) 73(4.9)2.3420.126 脂肪肝[n(%)] 437(29.1) 500(33.3)6.1600.013 肝硬化[n(%)] 29(1.9) 18(1.2)2.6150.106 其他慢性肝病[n(%)] 210(14.0) 199(13.3)0.3430.558 胰腺外分泌疾病 [n(%)] 26(1.7) 22(1.5)0.3390.561 膽道疾病[n(%)] 197(13.1) 230(15.3)2.9740.085 腎病[n(%)] 347(23.1) 903(60.2)381.5540.000 腎衰竭[n(%)] 24(1.6) 159(10.6)106.0600.000 神經(jīng)系統(tǒng)疾病[n(%)] 97(6.5) 79(5.3)1.9560.162 冠心病[n(%)] 611(40.7) 374(24.9)84.9000.000 心肌梗死[n(%)] 123(8.2) 67(4.5)17.6210.000 心功能不全及心力 衰竭[n(%)] 110(7.3)102(6.8)0.3250.569 心律失常[n(%)] 95(6.3) 79(5.3)1.5620.211 呼吸系統(tǒng)疾病[n(%)] 250(16.7) 222(14.8)1.9710.160 下肢動脈病變[n(%)] 119(7.9) 357(23.8)141.4420.000 血液病[n(%)] 117(7.8) 327(21.8)116.5780.000 風(fēng)濕免疫疾病[n(%)] 66(4.4) 37(2.5)8.4550.004 妊娠哺乳期[n(%)] 6(0.4) 4(0.3)0.4010.526 其他內(nèi)分泌疾病 [n(%)] 398(26.5) 604(40.3)63.5910.000 內(nèi)分泌腺瘤[n(%)] 65(4.3) 43(2.9)4.6490.031 多囊卵巢綜合征 [n(%)] 2(0.1) 1(0.1)0.3340.564 消化系腫瘤[n(%)] 119(7.9) 34(2.3)46.7600.000 泌尿系腫瘤[n(%)] 22(1.5) 9(0.6)5.5090.019 婦科腫瘤[n(%)] 69(4.6) 30(2.0)15.8880.000 乳腺腫瘤[n(%)] 7(0.5) 3(0.2)1.6050.205 肺部腫瘤[n(%)] 46(3.1) 9(0.6)25.3560.000 顱內(nèi)腫瘤[n(%)] 11(0.7) 5(0.3)2.2620.133 其他腫瘤[n(%)] 173(11.5) 73(4.9)44.2810.000
表12 2組數(shù)據(jù)實驗室指標(biāo)比較(±s,n=1500)
注:值為Pearson相關(guān)系數(shù),“-”代表Pearson相關(guān)性檢驗>0.05
以準(zhǔn)確率、精確率、召回率、F1得分、AUC值為指標(biāo)對9種機(jī)器學(xué)習(xí)模型測試結(jié)果進(jìn)行評價,結(jié)果見表13??梢钥闯?,二分類提升決策樹模型AUC值最高,達(dá)0.984,其余各指標(biāo)在9種模型中均最高,表明其預(yù)測T2DM并發(fā)DR具有突出優(yōu)勢。
表13 9種模型測試結(jié)果評價指標(biāo)比較(±s)
Azure AI Gallery是一個社區(qū)驅(qū)動的站點,用于發(fā)現(xiàn)和共享使用Azure AI構(gòu)建的解決方案。該庫包含各種可用于開發(fā)的分析解決方案的資源。本實驗已發(fā)布于Azure AI Gallery(https://gallery.azure.ai/Experiment/ DR)。
通過文獻(xiàn)調(diào)研發(fā)現(xiàn),以往針對糖尿病的預(yù)測模型研究較多,有關(guān)DR進(jìn)展的相關(guān)危險因子研究也逐漸增多,采用數(shù)據(jù)挖掘算法對DR預(yù)測模型的研究與應(yīng)用已有一定的基礎(chǔ)。從研究對象來看可分為兩大類:一類是根據(jù)眼底相機(jī)或多焦視網(wǎng)膜電流圖等收集到的圖像對DR進(jìn)行智能診斷及對DR進(jìn)展程度的評估,如徐宏[11]根據(jù)彩色眼底圖像進(jìn)行基于眼底圖像的DR智能診斷,Schneck[12]根據(jù)多焦視網(wǎng)膜電流圖隱式時間和糖尿病的潛在危險因素,建立和測試模型預(yù)測非增生性糖尿病視網(wǎng)膜病變局部斑塊的發(fā)展;另一類是根據(jù)DR的影響因素建立不同模型,或選用一系列臨床數(shù)據(jù)研究,或重點研究某一個因素,或建立驗證模型,多為回顧性數(shù)據(jù)研究。一般來說,研究大部分采用logistic回歸模型,也有基于Meta分析logistic回歸模型的研究[13],較少使用其他模型,如Adaboost- FSVM模型[14]、COX回歸模型[15]等;少部分研究如眼底圖片預(yù)測模型研究對不同模型進(jìn)行了對比,AUC值提示隨機(jī)森林模型預(yù)測效果優(yōu)于logistic回歸模型[16]??傮w來說,DR預(yù)測模型的研究更多集中于圖像研究,而基于相關(guān)指標(biāo)預(yù)測DR的研究較為缺乏,或因數(shù)據(jù)搜集困難,或研究數(shù)據(jù)樣本量較小。DR相關(guān)危險因子的研究數(shù)據(jù)實證不夠充分,選用模型方法較為單一,對于預(yù)測模型的比較研究更為稀少。
本研究數(shù)據(jù)分析顯示,T2DM并發(fā)DR受到年齡、收縮壓、舒張壓的影響,而SCR(血肌酐)、SUA(血尿酸)、BU(血尿素)、LDH_L(乳酸脫氫酶)、TC(血清總膽固醇)、LDL_C(低密度脂蛋白膽固醇)、GLU(空腹血糖)、GLU_2H(餐后2 h血糖)、HBA1C(糖化血紅蛋白)、ESR(紅細(xì)胞沉降率)、FBG(纖維蛋白原)、ALB_CR(尿微量蛋白和尿肌酐比值)、UPR_24(24 h尿蛋白定量)與T2DM并發(fā)DR呈正相關(guān),PCV(紅細(xì)胞比積)、GLO(球蛋白)、ALB(白蛋白)、TP(總蛋白)、DBILI(直接膽紅素)、IBILI(間接膽紅素)、TBILI(總膽紅素)、ALP(堿性磷酸酶)、GGT(谷氨酰轉(zhuǎn)肽酶)、ALT(丙氨酸氨基轉(zhuǎn)移酶)、AST(天冬氨酸氨基轉(zhuǎn)移酶)、HB(血紅蛋白)、CRP(C反應(yīng)蛋白)、CP(慢性胰腺炎)、APTT(部分凝血活酶活化時間)、PT(凝血酶原時間)與T2DM并發(fā)DR呈負(fù)相關(guān)。查閱文獻(xiàn)發(fā)現(xiàn),通過統(tǒng)計分析篩選出的與DR相關(guān)因素大部分已有切實可靠的循證依據(jù),暫未發(fā)現(xiàn)CP、GLO、ALB、TP、ALP、ALT、AST與DR相關(guān)研究,有文獻(xiàn)提示肝功能對DR的發(fā)生無明顯影響[17],上述7項指標(biāo)的臨床應(yīng)用價值尚需前瞻性研究進(jìn)一步證實。
在預(yù)測模型選擇方面,提升決策樹模型的準(zhǔn)確率達(dá)93.3%,精確率93.1%,召回率93.6%,F(xiàn)1得分0.933,AUC值0.984,各項指標(biāo)明顯優(yōu)于其他模型,具有明顯優(yōu)勢,可較好地應(yīng)用于T2DM并發(fā)DR的預(yù)測,實現(xiàn)對未知結(jié)果的分類。建立并選用合適的預(yù)測模型對降低DR發(fā)病率、早期診斷和預(yù)防意義重大,本研究可為T2DM并發(fā)DR高危人群的篩檢與干預(yù)研究提供一定幫助,并為構(gòu)建T2DM并發(fā)DR的模型預(yù)測提供參考依據(jù)。
本研究尚存在一些不足:①部分具有研究意義的項目可能由于字段<30而在數(shù)據(jù)模型中未予采用,如BUN、FIBRIN、M1_M2、TH2字段經(jīng)假設(shè)檢驗提示與結(jié)果無相關(guān)性,仍需臨床大樣本數(shù)據(jù)檢驗。今后應(yīng)不斷改進(jìn)研究設(shè)計,采取更優(yōu)方式篩選更為合適的影響因素數(shù)目,以期得到更為準(zhǔn)確的結(jié)果,提高預(yù)測的敏感性和特異性。②很多因素未顯示與T2DM進(jìn)展為DR的強(qiáng)相關(guān)性,在建立模型時未人為進(jìn)行因素篩選,建立的模型準(zhǔn)確度與精確度均較好,但存在影響因素過多的問題。由于并無明顯強(qiáng)相關(guān)影響因素,人為篩選可能遺漏較多影響因素,進(jìn)而影響研究結(jié)果,可以考慮更改納入影響因素的值等改進(jìn)實驗設(shè)計。③數(shù)據(jù)資料未包含病程,而糖尿病微血管并發(fā)癥與糖尿病病程相關(guān)性較大[3,18],不同病程患者的疾病狀態(tài)不同,會對數(shù)據(jù)產(chǎn)生一定影響。今后搜集臨床資料時應(yīng)注意患者病程,或在建立預(yù)測模型時選用更合適的樣本。④本研究未將研究結(jié)果用于實際預(yù)測,今后可根據(jù)模型進(jìn)一步制作app或小程序提供給潛在患者,使研究結(jié)果服務(wù)于臨床。
致謝:感謝國家自然科學(xué)基金(81603499)資助及國家人口與健康科學(xué)數(shù)據(jù)中心(臨床醫(yī)學(xué))提供的數(shù)據(jù)支持。
[1] OGURTSOVA K, DA ROCHA FERNANDES J D, HUANG Y, et al. IDF Diabetes Atlas:Global estimates for the prevalence of diabetes for 2015 and 2040[J]. Diabetes Research and Clinical Practice,2017,128:40-50.
[2] Classification and diagnosis of diabetes:standards of medical care in diabetes-2019[J]. Diabetes Care,2019,42(Suppl 1):S13-S28.
[3] 中華醫(yī)學(xué)會糖尿病學(xué)分會.中國2型糖尿病防治指南(2017年版)[J].中國實用內(nèi)科雜志,2018,38(4):292-344.
[4] CALDERON G D, JUAREZ O H, HERNANDEZ G E, et al. Oxidative stress and diabetic retinopathy:development and treatment[J]. Eye (London, England),2017,31(8):1-6.
[5] Machine learning modules in Azure Machine Learning Studio[EB/OL].(2019-06-05)[2020-01-28].https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/machine- learning-modules.
[6] 邢秋菊,趙純勇,高克昌.基于GIS的滑坡危險性邏輯回歸評價研究[J].地理與地理信息科學(xué),2004,20(3):49-51.
[7] 吳新玲.基于貝葉斯方法的分類預(yù)測[J].計算機(jī)工程與應(yīng)用, 2004(33):195-197.
[8] 黃海新,吳迪,文峰.決策森林研究綜述[J].電子技術(shù)應(yīng)用,2016, 42(12):5-9.
[9] 王春峰,萬海暉,張維.基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險評估[J].系統(tǒng)工程理論與實踐,1999(9):24-32.
[10] 王蘊韜.人工智能算法梳理及解析[J].信息通信技術(shù),2018,12(1):63-68.
[11] 徐宏.基于眼底圖像的糖尿病視網(wǎng)膜病變智能診斷[D].成都:電子科技大學(xué),2019.
[12] SCHNECK M E, BEARSE JR M A,楊建剛.糖尿病視網(wǎng)膜病變進(jìn)展的定位預(yù)測模型的形成和評估[J].世界核心醫(yī)學(xué)期刊文摘:眼科學(xué)分冊, 2005(4):44.
[13] 劉小鈺.基于Meta-分析Ⅱ型糖尿病并發(fā)癥發(fā)病風(fēng)險的Logistic回歸模型研究[D].重慶:第三軍醫(yī)大學(xué),2016.
[14] 何禹德.基于數(shù)據(jù)挖掘技術(shù)的糖尿病臨床數(shù)據(jù)分析[D].長春:長春工業(yè)大學(xué),2016.
[15] 孟祥英.2型糖尿病患者心腦血管疾病風(fēng)險評分模型的構(gòu)建及意義[D].上海:第二軍醫(yī)大學(xué),2016.
[16] 曹文哲,應(yīng)俊,陳廣飛,等.基于Logistic回歸和隨機(jī)森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險預(yù)測及對比研究[J].中國醫(yī)療設(shè)備,2016, 31(3):33-38,69.
[17] 彭曉智,黎宗保,吳佩嫻.心肌酶譜與糖尿病視網(wǎng)膜病變相關(guān)性及其臨床診斷價值研究[J].臨床軍醫(yī)雜志,2018,46(8):961-963.
[18] SARTORE G, CHILELLI N C, BURLINA S, et al. Association between glucose variability as assessed by continuous glucose monitoring (CGM) and diabetic retinopathy in type 1 and type 2 diabetes[J]. Acta Diabetologica,2013,50(3):437-442.
Study on Prediction Model of Type 2 Diabetic RetinopathyBased on Machine Learning
FENG Qinqi1, PENG Boya2, LI Yaru2, ZHAI Xing2,3
To conduct risk prediction for type 2 diabetes complicated with diabetic retinopathy by constructing 9 commonly used machine learning models such as improving decision trees, decision forests, neural networks, support vector machines; To evaluate the model.The diabetes data set of National Health Science Data Center (Clinical Medicine) was used for statistical analysis with SPSS20.0 software, and the chi-square test andtest were used to screen the relevant factors of diabetic retinopathy into the prediction model. Azure Machine Learning Studio was used to build 9 binary classification models, and 10-fold cross-validation was used to test the algorithm performance. The model was evaluated with accuracy, precision, recall, F1 score, and AUC value as indicators.The influencing factors of diabetic retinopathy were obtained by chi-square test andtest. A total of 32 existing indicators such as age, SCR and other measurement data indicators were selected, and the indicator names and result fields were entered into the prediction model. It showed that the decision tree model has obvious advantages.In the 9 prediction models, the improved decision tree model has obvious advantages, and can provide some help for the screening and intervention research of high-risk population with type 2 diabetes complicated with diabetic retinopathy.
type 2 diabetes mellitus; diabetic retinopathy; machine learning; risk prediction
R259.872;R2-05
A
1005-5304(2021)06-0022-07
10.19879/j.cnki.1005-5304.201912483
國家自然科學(xué)基金(81603499);中央高?;究蒲袠I(yè)務(wù)費項目(2020-JYB-ZDGG-070)
翟興,E-mail:zhaix@bucm.edu.cn
(2019-12-29)
(2020-02-08;編輯:陳靜)