国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于H2O 平臺自動化機器學(xué)習的糖尿病視網(wǎng)膜病變預(yù)測模型的建立

2023-11-28 03:48:24王慧霞張玉婷朱曼輝
醫(yī)學(xué)信息 2023年22期
關(guān)鍵詞:篩查變量算法

王慧霞,張玉婷,朱曼輝

(蘇州大學(xué)理想眼科醫(yī)院斜視與小兒眼科1,病理科2,江蘇 蘇州 215000)

糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)是最常見且患病率較高的糖尿?。╠iabetic mellitus,DM)微血管并發(fā)癥之一,主要病理改變是視網(wǎng)膜血管閉塞性循環(huán)障礙[1]。DR 嚴重威脅著糖尿病患者的生存質(zhì)量,同時給社會帶來嚴重經(jīng)濟負擔。早期篩查防治DR,對于改善DM 患者遠期預(yù)后至關(guān)重要[2]。近年來,國內(nèi)外學(xué)者基于醫(yī)院或社區(qū)的橫斷面或病例對照研究,利用廣義線性模型算法,建立了一系列預(yù)測DM 患者發(fā)生DR 的模型及列線圖,展現(xiàn)出較好的預(yù)判能力和臨床運用效果[3,4]。廣義線性模型屬于機器學(xué)習中發(fā)展較早的統(tǒng)計學(xué)模型,而今機器學(xué)習飛速發(fā)展,算法不斷更新,在監(jiān)督學(xué)習中涌現(xiàn)出如支持向量機、決策樹、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)等算法[5]。算法的不斷更迭進步,伴隨而來是對建模者專業(yè)知識不斷增長的要求,這大大提高了臨床醫(yī)生利用機器學(xué)習算法的門檻。自動化機器學(xué)習(AutoML)可通過自動化建模和調(diào)參程序,大大降低建模人員的工作門檻和負擔[6]。本研究采集本院患者一般資料及實驗室檢查結(jié)果,利用H2O 運算平臺推出的AutoML 算法建立預(yù)測模型,旨在為DM 人群的DR 篩查提供新的思路。

1 資料與方法

1.1 一般資料 選取2019 年1 月-2021 年1 月于蘇州大學(xué)理想眼科醫(yī)院就診患者電子病歷數(shù)據(jù),采用ICD-10 疾病分類標準進行編碼。納入606 例DM 患者,根據(jù)眼底照相分為單純DM(DM 組)303 例及DM合并DR(DR 組)303 例。納入標準:所有患者診斷均符合最新國內(nèi)臨床指南[1,2]。排除標準:①其他原因?qū)е碌母哐?;②合? 型DM 急性并發(fā)癥;③妊娠及哺乳期女性;④合并顯著肝腎功能異常、嚴重的心腦血管疾病或惡性腫瘤等;⑤資料不全者。本研究已獲蘇州大學(xué)附屬理想眼科醫(yī)院倫理委員會批準(批準號SLER2018112),所有患者均簽署知情同意書。

1.2 臨床及實驗室檢測

1.2.1 人體數(shù)據(jù)測量 測量并記錄納入人群的身高、體重、血壓(SBP/DBP)、臀圍和腰圍,并計算體質(zhì)量指數(shù)(BMI)和腰臀比(WHR)。采集患者既往病史、服藥史、煙酒史,并通過計算代謝當量商(metabolic equivalent of task,MET)計算體力活動量。

1.2.2 DR 檢查方法 視網(wǎng)膜檢查使用免散瞳眼底數(shù)碼照相機(型號:TRC-NW300),由??萍紟熢跀z片暗室進行?;颊哌M入暗室休息5 min,待視覺適應(yīng)后,由技師應(yīng)用免散瞳眼底數(shù)碼照相機進行拍攝以黃斑為中心的視網(wǎng)膜彩色圖像,每只眼睛拍攝一張照片。照片由對此項研究盲法的眼科醫(yī)生進行閱讀。

1.2.3 血清學(xué)檢測 獲取所有納入者空腹靜脈血10 ml。將收集的血樣統(tǒng)一離心,立刻上機檢測或儲存于-80 ℃冰箱待檢。血清生化分析采用Mindray 邁瑞800 全自動生化分析儀。檢測項目包括:①糖代謝和胰島素功能相關(guān)指標:空腹血糖(FPG)、空腹胰島素(FINS)及糖化血紅蛋白(HbA1c),并計算穩(wěn)態(tài)模型胰島素抵抗指數(shù)(HOMA-IR);②肝酶指標:谷丙轉(zhuǎn)氨酶(ALT)、谷草轉(zhuǎn)氨酶(AST)及γ-谷氨酰轉(zhuǎn)肽酶(GGT);③脂質(zhì)代謝相關(guān)指標:三酰甘油(TG)、高密度脂蛋白膽固醇(HDL-C)及低密度脂蛋白膽固醇(LDL-C)。

1.3 評價方法 利用H2O 運算平臺推出的AutoML算法建立針對DR 二分類結(jié)局的機器學(xué)習預(yù)測模型,產(chǎn)生相應(yīng)預(yù)測結(jié)果,據(jù)此繪制受試者工作特征(ROC)曲線并建立混淆矩陣,計算特異度、敏感度、準確度及誤分類率,評價模型區(qū)分能力。

1.4 統(tǒng)計學(xué)方法 本研究建模及繪圖軟件包括:R(4.0.4 版)、H2O 包(H2O cluster 版本:h2o_3.32.1.7)、tableone 包(0.13.2 版本)及l(fā)ime 包(0.5.3 版本)。計量資料以(±s)或[M(P25,P75)]表示,組間比較采用Student'st檢驗或Mann-WhitneyU檢驗。計數(shù)資料采用[n(%)]表示,比較采用χ2檢驗。為進一步了解變量在模型中的重要性及分布情況,進行可視化分析,包括Shapley Additive exPlanations(SHAP 分析)、Partial dependence(部分依賴)及LIME 可視化。雙側(cè)P<0.05 為差異有統(tǒng)計學(xué)意義。

2 結(jié)果

2.1 兩組一般及臨床資料比較 DR 組糖尿病病程長于DM 組,吸煙、飲酒、高血壓、脂肪肝比例、腰臀比、BMI 及收縮壓高于DM 組,差異有統(tǒng)計學(xué)意義(P<0.05);DR 組 HDL -C 低 于 DM 組,F(xiàn)PG、FINS、HOMA-IR、HbA1c、ALT 和AST 均高于DM 組,差異有統(tǒng)計學(xué)意義(P<0.05),見表1。

表1 兩組一般及臨床資料比較[±s,M(P25,P75)]

表1 兩組一般及臨床資料比較[±s,M(P25,P75)]

2.2 模型建立判斷DR 發(fā)病風險 將上述單因素分析中存在差異的變量納入AutoML 機器學(xué)習工作環(huán)境中,利用H2O 平臺進行隨機分組、特征選擇、建模運算及驗證。將606 例DM 患者按照8∶2 比例隨機分組為Train 集(482 例)及Valid 集(124 例)。最佳模型為通用梯度回歸模型(generalized boosted regression model,GBM)。這是一種由多棵決策樹組成的迭代決策樹算法。該模型(基于Train 數(shù)據(jù)集的5 折交叉 驗 證):Gini 值0.914,R2為0.679,LogLoss 為0.260。模型中各變量的重要性見表2。其中在最佳模型GBM 中,重要性排名前3 的變量(即對模型貢獻的排名)分別為空腹血糖、糖尿病病程及空腹胰島素,其占比均超過10%。

表2 最佳模型中各變量重要性排名

2.3 變量在模型中的作用 在最佳模型GBM 中,各變量的SHAP 特征圖繪制在圖1 中。重要性排名前3 的變量是空腹血糖、糖尿病病程及空腹胰島素。三者在結(jié)局二分類中的分布,體現(xiàn)其標準化數(shù)值與發(fā)病呈正相關(guān)趨勢。圖2 為LIME 可視化,顯示是隨機抽取的8 個樣本(DM 組5 例,DR 組3 例),3 個重要變量對預(yù)測結(jié)果的重要性貢獻。圖3 顯示的3 個變量在模型中的部分依賴圖,可以看出三者與結(jié)果基本上呈現(xiàn)的是單調(diào)的上升趨勢。

圖1 最佳模型中各變量SHAP 特征

圖2 隨機樣本中變量重要性LIME 可視化

圖3 最佳模型中變量部分依賴圖

2.4 預(yù)測模型的區(qū)分能力 采用上述獲得的預(yù)測模型GBM 繪制預(yù)判DR 發(fā)病的ROC 曲線并建立混淆矩陣。在Train 數(shù)據(jù)集中,ROC 曲線下面積為0.942(95%CI:0.921~ 0.963)。利用混淆矩陣得到特異度為0.924,敏感度為0.959,準確度為0.942,誤分類率為0.058。在Valid 數(shù)據(jù)集中,ROC 曲線下面積為0.831(95%CI:0.764~0.897)。利用混淆矩陣得到特異度為0.828,敏感度為0.833,準確度為0.831,誤分類率為0.169,見表3。

表3 最佳預(yù)測模型GBM 在各個數(shù)據(jù)集中的區(qū)分能力

3 討論

隨著機器學(xué)習及深度學(xué)習的快速發(fā)展,選擇合適的模型并根據(jù)超參數(shù)不斷調(diào)整優(yōu)化模型,這一過程變得十分繁瑣且耗時。此外,它還對建模者的計算機知識提出了較高要求[5]。近幾年,各大科技公司陸續(xù)推出自動化學(xué)習平臺,如谷歌公司推出的Cloud AutoML、H2O 平臺的AutoML 等[6]。AutoML 可以自動化完成機器學(xué)習的前期工作:包括數(shù)據(jù)準備、編碼、功能選擇/提取以及工程化環(huán)境。同時,在模型生成過程中,如模型算法選擇、優(yōu)化、迭代以及驗證,AutoML 均可在少量代碼基礎(chǔ)上實現(xiàn)。

H2O AutoML 是H2O 平臺提供一種針對自動化工作流程的算法,主要功能涵蓋:輕數(shù)據(jù)準備、環(huán)境建立、模型選擇及優(yōu)化[6]。其中亮點包括:通過堆疊一組集成學(xué)習模型,自動化迭代模型。當前版本H2O AutoML 可建立并交叉驗證以下模型:廣義線性模型、隨機森林、極隨機森林、梯度提升機隨機網(wǎng)格、XGBoosts、深神經(jīng)網(wǎng)隨機網(wǎng)格以及相關(guān)的集成學(xué)習。H2O AutoML 的一大特點就是組合堆疊多個集成學(xué)習算法,以獲得比從單個成分學(xué)習算法更好的預(yù)測性能,廣泛運用在監(jiān)督學(xué)習中。許多流行的現(xiàn)代機器學(xué)習算法實際上都是集成學(xué)習。例如,隨機森林和梯度提升機都是通過組合弱學(xué)習算法(例如決策樹)并形成單一、強學(xué)習的集成學(xué)習法。

近年來,隨著人民群眾飲食結(jié)構(gòu)改變、人口老齡化等因素的影響,我國糖尿病患病率大幅增加。流行病調(diào)查顯示[7],我國大陸糖尿病患者中合并視網(wǎng)膜病變約占23%。由于DR 的早期隱蔽性、慢性進展性、不可逆性等特點,目前早期篩查工作仍然面臨諸多困難,選擇基于臨床資料、實驗室檢查的無創(chuàng)性篩查工具是DR 的防治工作重點[8]。DR 的發(fā)生發(fā)展是一個較復(fù)雜的病理生理過程,具體的機制尚不明確[9]。目前觀點認為[10],DM 患者機體能量代謝障礙,特別是胰島素抵抗和糖脂代謝紊亂可誘發(fā)視網(wǎng)膜病變。DR 在病程10 年以上的DM 患者中患病率高達80%,是全球中老年人視力喪失的首要病因[11]?;颊唠S著DM 病程的延長,一系列機體能量代謝功能紊亂逐漸發(fā)展并加重,其中如高血糖或血糖波動大、脂類代謝紊亂等都被證實是DR 的獨立危險因素。

及時的DR 篩查對于高危病例至關(guān)重要,通過全面的眼科檢查與干預(yù),來避免永久性的視力喪失。在過去幾年中,各個國家通過大型流行病學(xué)研究提出了綜合各類風險因素的個性化篩查方案,體現(xiàn)了較好的成本-效益比。DCCT 是北美地區(qū)一項開展了近40 年的大型隊列研究,該研究提示長病程、高HbA1c、高血壓等是DR 發(fā)生發(fā)展的獨立危險因素,為基于社區(qū)的篩查提供標記工具[12]。有研究[4]報道了一項跨我國多省份的橫斷面研究,發(fā)現(xiàn)DM 發(fā)病早、病程久、高血壓、高血糖及高HbA1c 是DR 的獨立危險因素;該團隊構(gòu)建了列線圖模型,為DR 早篩早診提供幫助。基于人工智能的新技術(shù),包括移動設(shè)備檢測系統(tǒng)、數(shù)字圖像算法等,將在未來改變篩查模式,再次改善成本-效益比[13,14]。

本研究收集單純DM 患者和合并DR 的DM 患者臨床資料及實驗室結(jié)果,利用H2O 平臺的AutoML算法進行自動化的變量篩選,發(fā)現(xiàn)高血糖、DM 病程、高空腹胰島素等是該地區(qū)DR 發(fā)生的重要獨立危險因素,這與國內(nèi)外研究相似[3,4,12]。采用上述因素建立的GBM 預(yù)測模型判斷DR 發(fā)病,顯示出較好區(qū)分能力以及均衡的敏感度和特異度,優(yōu)于基于線性模型算法的相關(guān)報道[3,15]。本研究中的機器學(xué)習模型在訓(xùn)練集和測試集中都展現(xiàn)了良好的特異性,作為一個初篩工具,可以用于社區(qū)高危人群的篩選,大大降低眼科衛(wèi)生機構(gòu)的工作壓力,避免醫(yī)療資源的浪費[16-18]。

本研究報道了利用AutoML 算法處理DM 患者數(shù)據(jù),為今后的DR 篩查提供參考和思路。該方法優(yōu)勢在于:一方面相比較傳統(tǒng)的邏輯回歸等統(tǒng)計模型,提高了模型準確率;另外,使用自動化算法,大大降低了醫(yī)務(wù)人員利用人工智能技術(shù)的門檻,為今后AutoML 在臨床科研領(lǐng)域的應(yīng)用提供參考[19,20]。本研究樣本是基于我院的單中心數(shù)據(jù),利用隨機分組和交叉驗證,具有較高的參考價值。但仍需多中心的外部驗證進一步評估該模型在DR 診斷中的作用。

綜上所述,本次利用AutoML 算法建立的通用梯度回歸DR 患病預(yù)測模型可用于DM 人群中DR的篩查。

猜你喜歡
篩查變量算法
點贊將“抑郁癥篩查”納入學(xué)生體檢
公民與法治(2022年1期)2022-07-26 05:57:48
抓住不變量解題
預(yù)防宮頸癌,篩查怎么做
NRS2002和MNA-SF在COPD合并營養(yǎng)不良篩查中的應(yīng)用價值比較
也談分離變量
基于MapReduce的改進Eclat算法
Travellng thg World Full—time for Rree
智力篩查,靠不靠譜?
幸福(2019年12期)2019-05-16 02:27:40
進位加法的兩種算法
一種改進的整周模糊度去相關(guān)算法
威远县| 平乐县| 家居| 西峡县| 洪洞县| 揭西县| 葵青区| 盐山县| 彭州市| 略阳县| 新野县| 宁河县| 旌德县| 绥宁县| 崇阳县| 南京市| 日照市| 寻乌县| 安陆市| 长汀县| 洞口县| 怀化市| 咸宁市| 杭锦后旗| 赤城县| 宝兴县| 南陵县| 中西区| 三明市| 吉安县| 洱源县| 延边| 文安县| 秭归县| 固阳县| 恩施市| 连州市| 新乡县| 萝北县| 新巴尔虎右旗| 枝江市|