〔摘要〕 目的 通過(guò)XGBoost算法構(gòu)建系統(tǒng)性紅斑狼瘡(systemic lupus erythematosus, SLE)中醫(yī)證型判別模型,探索XGBoost模型用于證型分類(lèi)的可行性。方法 通過(guò)問(wèn)卷調(diào)查法,收集符合標(biāo)準(zhǔn)的病例,建立SLE數(shù)據(jù)集。通過(guò)XGBoost算法構(gòu)建SLE中醫(yī)證型判別模型,采用隨機(jī)森林(random forest, RF)算法作為對(duì)照,比較兩種算法的準(zhǔn)確性。結(jié)果 本硏究共納入400例SLE患者,其中男性33例,女性367例。SLE患者排名前3的中醫(yī)證型為:脾腎陽(yáng)虛證、陰虛內(nèi)熱證和風(fēng)濕熱痹證,XGBoost算法模型分類(lèi)指標(biāo)和性能曲線評(píng)分總體優(yōu)于RF算法。結(jié)論 XGBoost算法用于證候建模準(zhǔn)確度較高,可用于證候研究中的分類(lèi)研究。
〔關(guān)鍵詞〕 系統(tǒng)性紅斑狼瘡;XGBoost算法;隨機(jī)森林算法;中醫(yī)證候
〔中圖分類(lèi)號(hào)〕R259" " " " "〔文獻(xiàn)標(biāo)志碼〕A" " " " " 〔文章編號(hào)〕doi:10.3969/j.issn.1674-070X.2024.12.021
Chinese medicine pattern differentiation model for systemic lupus erythematosus based on XGBoost algorithm
WEI Fangzhi1,2, PAN Chengdan1, SONG Yitian1, ZHUANG Yanping1, ZHANG Xuan1, ZENG Minyu1,"JIA Xiaokang1, GONG Aimin1*
1. School of Chinese Medicine, Hainan Medical University (Hainan Academy of Medical Sciences), Haikou, Hainan 571199, China; 2. Bo’ao Yiling Life Care Center, Qionghai, Hainan 571400, China
〔Abstract〕 Objective To construct a Chinese medicine (CM) pattern differentiation model for systemic lupus erythematosus (SLE) using the XGBoost algorithm and explore the feasibility of applying the XGBoost model for CM pattern classification. Methods Eligible cases were collected through a questionnaire survey to establish a SLE dataset. An XGBoost-based SLE CM pattern differentiation model was developed, and the random forest (RF) algorithm was used as a control for accuracy comparison. Results A total of 400 SLE patients were included in this study, including 33 males and 367 females. The top three CM patterns for SLE patients were yang deficiency of the spleen and kidney pattern, yin deficiency-induced internal heat pattern, and wind dampness and heat impediment pattern. The classification indicators and performance curve scores of the XGBoost algorithm model were overall superior to those of the RF algorithm. Conclusion XGBoost algorithm demonstrates high accuracy in CM pattern modeling and can be used for classification research in CM pattern studies.
〔Keywords〕 systemic lupus erythematosus; XGBoost algorithm; random forest algorithm; Chinese medicine pattern
系統(tǒng)性紅斑狼瘡(systemic lupus erythematosus, SLE)是一種涉及多器官、多組織的自身免疫疾病。我國(guó)患病率約為1/10 000,是西方國(guó)家的2倍[1]。SLE與中醫(yī)學(xué)“紅蝴蝶瘡”“紅斑痹”“陰陽(yáng)毒”等類(lèi)似。SLE初期多熱證,后期多陰虛證或陽(yáng)虛證,而瘀血始終貫穿其中。中醫(yī)藥能從整體角度調(diào)理SLE患者,不僅能改善SLE患者的癥狀,還能減少西藥的毒副作用[2-4]。辨證論治是中醫(yī)處方治療的核心,正確的辨證對(duì)SLE治療十分關(guān)鍵。但中醫(yī)辨證缺乏特異性指標(biāo),證型判讀缺乏客觀性、重復(fù)性和系統(tǒng)性。
近年來(lái),人工智能在輔助中醫(yī)診斷和治療等方面發(fā)揮巨大潛力價(jià)值,已成為中醫(yī)證候?qū)W客觀化研究的重要方法之一。目前,中醫(yī)藥領(lǐng)域常用的機(jī)器學(xué)習(xí)算法有聚類(lèi)分析、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)和隨機(jī)森林(random forest, RF)等[5],這些算法都存在一些弊端,如貝葉斯網(wǎng)絡(luò)需要得到先驗(yàn)概率,決策樹(shù)較容易過(guò)擬合且難以尋找到最佳的樹(shù),支持向量機(jī)選擇適當(dāng)?shù)暮撕瘮?shù)比較困難,RF處理小樣本效果欠佳。
XGBoost算法可以對(duì)小樣本、半定量的中醫(yī)數(shù)據(jù)進(jìn)行高效的處理,與中醫(yī)辨證思維有一定契合度,在證候分類(lèi)中具有潛在價(jià)值。本研究擬以SLE中醫(yī)證候判別模型為切入點(diǎn),運(yùn)用XGBoost算法構(gòu)建SLE證型判別模型,同時(shí)引入RF算法作為對(duì)照,對(duì)比兩種模型的性能。進(jìn)一步通過(guò)參數(shù)調(diào)優(yōu),根據(jù)優(yōu)化模型的分類(lèi)指標(biāo)和性能曲線評(píng)分,篩選出更適合本數(shù)據(jù)集的算法模型。
1 材料與方法
1.1" 研究對(duì)象
本研究病例主要來(lái)源于2020年7月至2022年1月在海南醫(yī)學(xué)院第一附屬醫(yī)院和海南醫(yī)學(xué)院附屬海南醫(yī)院門(mén)診和住院部就診的SLE患者。本研究經(jīng)海南醫(yī)學(xué)院倫理委員會(huì)批準(zhǔn),批準(zhǔn)號(hào)為HYLL-2022-239。
1.2" 診斷標(biāo)準(zhǔn)
1.2.1" SLE西醫(yī)診斷標(biāo)準(zhǔn)" 參照2019年歐洲抗風(fēng)濕病聯(lián)盟和美國(guó)風(fēng)濕病協(xié)會(huì)修訂的SLE診斷標(biāo)準(zhǔn)[6]。(1)抗核抗體陽(yáng)性:將抗核抗體至少一次陽(yáng)性列為強(qiáng)制性準(zhǔn)入標(biāo)準(zhǔn)。(2)臨床指標(biāo)和免疫學(xué)指標(biāo):7項(xiàng)臨床指標(biāo)(全身狀態(tài)、血液學(xué)、神經(jīng)心理學(xué)、皮膚黏膜、漿膜、肌肉骨骼、腎臟改變)和3個(gè)免疫學(xué)指標(biāo)(抗磷脂抗體、補(bǔ)體、SLE特異性抗體)。滿(mǎn)足至少一項(xiàng)臨床指標(biāo),免疫學(xué)指標(biāo)積分≥10分。
1.2.2" SLE中醫(yī)證型診斷標(biāo)準(zhǔn)" 參照2002年《中藥新藥臨床研究指導(dǎo)原則》[7]中的標(biāo)準(zhǔn)將SLE分為熱毒熾盛證、陰虛內(nèi)熱證、脾腎陽(yáng)虛證、肝腎陰虛證、瘀熱痹阻證、風(fēng)濕熱痹證和氣血兩虛證7種證型。
1.3" 納入、排除及剔除標(biāo)準(zhǔn)
1.3.1" 納入標(biāo)準(zhǔn)" (1)符合SLE西醫(yī)診斷標(biāo)準(zhǔn);(2)自愿參與本研究;(3)年齡為18~80歲。
1.3.2" 排除標(biāo)準(zhǔn)" (1)合并腦、心、肝、腎和造血系統(tǒng)等其他嚴(yán)重疾病者;(2)合并精神、神經(jīng)疾病者;(3)妊娠或哺乳期婦女;(4)不愿配合本試驗(yàn)者。
1.4" 樣本量的估算
多因素研究主要是根據(jù)研究因素來(lái)決定樣本量大小,在專(zhuān)家咨詢(xún)、文獻(xiàn)研究和前期小樣本驗(yàn)證下,設(shè)置80個(gè)研究因素。多因素研究的樣本量通常使用簡(jiǎn)單估算法,即樣本量至少為研究因素的5~10倍[8],因此,本研究共納入400例樣本。
1.5" SLE中醫(yī)調(diào)查表的制定
本研究通過(guò)2004年《中醫(yī)癥狀鑒別學(xué)》[9]、2005年《中醫(yī)臨床常見(jiàn)癥狀術(shù)語(yǔ)規(guī)范》[10]和“十三五”規(guī)劃教材《中醫(yī)診斷學(xué)》[11]進(jìn)行中醫(yī)四診術(shù)語(yǔ)規(guī)范化描述。在專(zhuān)家的指導(dǎo)下制定出《SLE中醫(yī)調(diào)查表》,其中癥狀、體征按程度分為無(wú)、輕、中、重,分別記為0、2、4、6分,舌脈按有、無(wú)分別記為2、0分。
1.6" 研究對(duì)象的篩選方法
對(duì)于符合標(biāo)準(zhǔn)的SLE受試者,由3位中醫(yī)醫(yī)師進(jìn)行基本信息、四診信息的收集和中醫(yī)證型的判讀,需同時(shí)滿(mǎn)足2位及以上醫(yī)師判讀結(jié)果一致方可納入研究。
1.7" 數(shù)據(jù)預(yù)處理及數(shù)據(jù)集的建立
將SLE四診信息條目按照f(shuō)1~f80依次編碼,熱毒熾盛證編碼為0,陰虛內(nèi)熱證編碼為1,脾腎陽(yáng)虛證編碼為2,肝腎陰虛證編碼為3,風(fēng)濕熱痹證編碼為4,瘀熱痹阻證編碼為5,氣血兩虛證編碼為6。將采集的SLE患者信息雙人背靠背錄入,檢查數(shù)據(jù)的完整性和一致性,建立適用于本研究的SLE數(shù)據(jù)集。詳見(jiàn)表1。
1.8" 算法初步模型的建立及優(yōu)化
1.8.1" RF算法原理" RF是一種包含多棵決策樹(shù)的集成學(xué)習(xí)算法,輸出結(jié)果由輸出類(lèi)別的平均數(shù)或眾數(shù)而定。其算法原理是基于集成學(xué)習(xí)的裝袋法,裝袋法是通過(guò)構(gòu)建多個(gè)相互獨(dú)立的弱分類(lèi)器,根據(jù)其預(yù)測(cè)結(jié)果來(lái)評(píng)估弱分類(lèi)器的效果。在分類(lèi)問(wèn)題中,其預(yù)測(cè)步驟如下:首先使用隨機(jī)構(gòu)建的分類(lèi)器測(cè)試數(shù)據(jù)結(jié)果,然后計(jì)算每種預(yù)測(cè)分類(lèi)結(jié)果的票數(shù),最后將獲得票數(shù)最高的分類(lèi)結(jié)果視為最終預(yù)測(cè)結(jié)果。
1.8.2" XGBoost算法原理" XGBoost是一種基于強(qiáng)分類(lèi)器的增強(qiáng)集成學(xué)習(xí)算法,輸出結(jié)果由強(qiáng)分類(lèi)器結(jié)果而定。該算法原理是基于集成學(xué)習(xí)的提升法,提升法是將多個(gè)弱分類(lèi)器集合成一個(gè)強(qiáng)分類(lèi)器[12]。其算法步驟為:
(1)初始目標(biāo)函數(shù):
①
初始目標(biāo)函數(shù)包含兩個(gè)部分:第一部分是模型的訓(xùn)練誤差,第二部分是正則化項(xiàng),正則化項(xiàng)是由K棵樹(shù)的正則化項(xiàng)相加而來(lái)。
(2)改寫(xiě)目標(biāo)函數(shù):
②
(3)目標(biāo)函數(shù)泰勒二階展開(kāi):
③
其中,gi為一階導(dǎo)數(shù),hi為二階導(dǎo)數(shù)。
(4)最優(yōu)目標(biāo)函數(shù):
④
該過(guò)程可總結(jié)為:XGBoost首先根據(jù)數(shù)據(jù)集生成一棵樹(shù),得到初始目標(biāo)函數(shù),并不斷對(duì)樹(shù)進(jìn)行添加,形成新的目標(biāo)函數(shù),并用新的目標(biāo)函數(shù)結(jié)果對(duì)上次的預(yù)測(cè)殘差進(jìn)行擬合。在所有數(shù)據(jù)集訓(xùn)練結(jié)束后,可得到n棵樹(shù)。根據(jù)樣本特征,找到每棵樹(shù)的葉子節(jié)點(diǎn)分?jǐn)?shù),將全部葉子節(jié)點(diǎn)分?jǐn)?shù)累加即為樣本的預(yù)測(cè)結(jié)果。
1.8.3" 計(jì)算機(jī)配置信息" CPU:Intel core i7-10700K CPU @ 3.8GHz處理器;顯卡:NVIDIA GeForce RTX 2070 SUPER(8G/微星);內(nèi)存:金士頓DDR4 3200MHz 32G。
1.8.4" 主要軟件和包" 主要軟件:Anaconda 3和Python 3.9.7。主要包:Numpy、Panda、Matplotlib、scikit-learn和XGBoost。
1.8.5" 算法建模的流程" (1)導(dǎo)入相應(yīng)的包;(2)導(dǎo)入SLE數(shù)據(jù)集;(3)分裂SLE數(shù)據(jù)集的特征和目標(biāo)值;(4)以7∶3的比例將SLE數(shù)據(jù)集拆分成訓(xùn)練集和測(cè)試集;(5)XGBoost建模預(yù)測(cè);(6)RF建模預(yù)測(cè)。
1.8.6" 模型的優(yōu)化" 初步建模后的模型通常不是最優(yōu)模型,需要根據(jù)數(shù)據(jù)特征和任務(wù)目標(biāo)進(jìn)一步調(diào)整相關(guān)算法的重要參數(shù),使構(gòu)建的模型更準(zhǔn)確和穩(wěn)定,以符合臨床使用要求。本研究運(yùn)用網(wǎng)格搜索法和3折交叉驗(yàn)證分?jǐn)?shù)篩選XGBoost和RF算法參數(shù)的最優(yōu)值,并結(jié)合預(yù)測(cè)準(zhǔn)確率驗(yàn)證最優(yōu)值的可靠性,完成對(duì)算法模型的優(yōu)化。在XGBoost中,n_estimators代表最大迭代次數(shù),eta代表學(xué)習(xí)率,max_depth代表樹(shù)的最大深度,min_child_weight代表最小葉子節(jié)點(diǎn)權(quán)重和,gamma代表節(jié)點(diǎn)分裂所需的最小損失下降值,subsample代表隨機(jī)采樣的比例,colsample_bytree代表隨機(jī)采樣占總樣本的比例。在RF中,n_estimators和max_depth與XGBoost含義相同,max_features代表最大特征數(shù),min_samples_leaf代表葉子節(jié)點(diǎn)所需的最少樣本數(shù),min_samples_split代表節(jié)點(diǎn)劃分需要的最小樣本數(shù),criterion代表分裂標(biāo)準(zhǔn)。XGBoost和RF重要參數(shù)取值范圍見(jiàn)表2,按表中參數(shù)順序依次篩選參數(shù)最佳值。
1.9" 模型的評(píng)價(jià)
為了評(píng)價(jià)各訓(xùn)練模型的表現(xiàn),本研究基于分類(lèi)指標(biāo)和性能曲線比較不同模型的性能,其中常用的分類(lèi)指標(biāo)有:交叉驗(yàn)證分?jǐn)?shù)、準(zhǔn)確率、平均準(zhǔn)確率、精準(zhǔn)率、召回率、F1值、科恩卡帕分?jǐn)?shù)、宏平均(以下簡(jiǎn)稱(chēng)“宏”)和微宏平均(以下簡(jiǎn)稱(chēng)“微”);性能曲線主要有:ROC曲線、PR曲線和學(xué)習(xí)曲線。交叉驗(yàn)證是將數(shù)據(jù)集劃分為較小子集的用于評(píng)估模型性能的方法,本次實(shí)驗(yàn)采用3折交叉驗(yàn)證平均分?jǐn)?shù)進(jìn)行模型性能評(píng)估。
2 結(jié)果
2.1" 基本資料
2.1.1" 性別" 本研究共納入400例SLE患者,男性患者33例,女性患者367例,男性占總?cè)藬?shù)的8.3%,女性占總?cè)藬?shù)的91.7%,男性∶女性=1∶11.1。
2.1.2" 年齡" 在400例SLE患者中,患者年齡18~79(35.78±13.55)歲。青年(18歲≤年齡lt;45歲)有290人,占72.5%。青年男性25人,占總數(shù)的6.25%;青年女性265人,占總數(shù)的66.25%。中年(45歲≤年齡lt;60歲)有84人,占21.0%。中年男性5人,占總數(shù)的1.25%;中年女性79人,占總數(shù)的19.75%。老年(年齡≥60歲)有26人,占6.5%。老年男性3人,占總數(shù)的0.75%;老年女性23人,占總數(shù)的5.75%。
2.2" 中醫(yī)四診信息結(jié)果
400例SLE患者中醫(yī)四診信息排序表見(jiàn)表3。該表將80項(xiàng)中醫(yī)四診信息按照頻數(shù)、頻率高低進(jìn)行降序排列。由表3可知,有19項(xiàng)中醫(yī)四診信息出現(xiàn)頻率高于20%,分別是:舌苔黃、發(fā)熱、皮膚紅斑、關(guān)節(jié)固定性疼痛、神疲乏力、齒痕舌、舌紅、舌淡白、脫發(fā)、舌淡紅、脈數(shù)、舌苔白、舌苔少或無(wú)、水腫、脈弱、舌苔膩、納差、皮疹和脈細(xì)。
2.3" 中醫(yī)證型結(jié)果
在本次調(diào)查的400例SLE患者中,最常見(jiàn)的中醫(yī)證型為脾腎陽(yáng)虛證(110人,占27.5%)。其次分別是陰虛內(nèi)熱證(25.3%)、風(fēng)濕熱痹證(15.8%)、熱毒熾盛證(11.0%)、瘀熱痹阻證(9.8%)、氣血兩虛證(6.3%)、肝腎陰虛證(4.5%)。詳見(jiàn)表4。
2.4" 算法調(diào)參結(jié)果
XGBoost重要參數(shù)調(diào)整最終結(jié)果為:n_estimators=40,eta=0.3,subsample=0.5,min_child_weight=1,colsample_bytree=1,objective=multi:softmax,num_class=7,random_state=420。RF重要參數(shù)調(diào)整最終結(jié)果為:n_estimators=51,max_depth=19,max_features=14,min_samples_leaf=2,min_samples_split=2,criterion=gini,random_state=420,其他未提及參數(shù)均為默認(rèn)值最佳。詳見(jiàn)圖1。
2.5" 模型評(píng)價(jià)與驗(yàn)證
2.5.1" 兩種算法分類(lèi)指標(biāo)結(jié)果" XGBoost算法模型整體的準(zhǔn)確率、3折交叉驗(yàn)證分?jǐn)?shù)、平衡準(zhǔn)確率、科恩卡帕系數(shù)、宏精準(zhǔn)率、加權(quán)精準(zhǔn)率、宏召回率、加權(quán)召回率分別為78.3%、73.9%、63.5%、72.1%、71.0%、79.0%、64.0%、78.0%。RF算法模型對(duì)應(yīng)指標(biāo)分?jǐn)?shù)分別為74.2%、74.3%、57.9%、66.6%、66.0%、74.0%、58.0%、74.0%。XGBoost算法模型各證型的精準(zhǔn)率分別為89%、86%、64%、0%、89%、71%、100%,RF算法模型各證型的精準(zhǔn)率分別為90%、86%、60%、0%、80%、67%、75%。詳見(jiàn)表5—6。
2.5.2" 兩種算法性能曲線結(jié)果" XGBoost和RF算法模型的ROC曲線見(jiàn)圖2和圖3。由圖可知,XGBoost模型在微、宏和各證型的AUC值分別為0.93、0.90、0.90、0.97、0.90、0.79、0.88、0.91和0.95;RF對(duì)應(yīng)類(lèi)型的AUC值分別為0.92、0.88、0.83、0.96、0.92、0.75、0.88、0.89和0.90。XGBoost和RF算法模型的PR曲線見(jiàn)圖4。由圖可知,XGBoost模型微、宏AP值分別為0.78和0.73;RF模型微、宏AP值分別為0.78和0.74。通過(guò)上述分類(lèi)指標(biāo)和性能曲線對(duì)模型進(jìn)一步評(píng)價(jià)及驗(yàn)證,可以發(fā)現(xiàn)XGBoost模型整體表現(xiàn)優(yōu)于RF模型。
3 討論
在400例SLE患者中,男性33例,女性367例,男∶女=1∶11.1。男性患病率顯著低于女性,與我國(guó)SLE患者男女比為1∶7~1∶13的報(bào)道結(jié)果相符[13]。SLE發(fā)病年齡以青年患者居多,占總?cè)藬?shù)的92%,其中青年女性占比高達(dá)總?cè)藬?shù)的66.25%,這與SLE以育齡期(20~40歲)女性多見(jiàn)的報(bào)道結(jié)果一致[14]。
對(duì)中醫(yī)四診信息結(jié)果分析發(fā)現(xiàn),頻率高于20%的四診信息與2002年《中藥新藥臨床研究指導(dǎo)原則》[7]上的SLE常見(jiàn)四診信息相符,也初步反映了??诘貐^(qū)SLE患者常見(jiàn)的癥狀、體征和舌脈象等中醫(yī)四診信息。
在400例SLE患者中,排行前3的證型為脾腎陽(yáng)虛證、陰虛內(nèi)熱證和風(fēng)濕熱痹證。??诘貐^(qū)SLE患者陰虛內(nèi)熱證發(fā)病率較高,“瘀熱”也較為常見(jiàn),這與既往研究結(jié)果相符[15]。此外,本地區(qū)SLE患者還有脾腎陽(yáng)虛證高發(fā)、病程多“夾濕”的特點(diǎn),這可能與SLE病機(jī)演變和??诘貐^(qū)的地域、氣候有關(guān)。??诘靥師釒П本墸瑲夂蜓谉岫酀?,居民又嗜好生冷,損傷脾陽(yáng),脾虛生濕,因此“夾濕”患者較為多見(jiàn)。研究結(jié)果也表明,海南地區(qū)患者具有脾虛夾濕的特點(diǎn)[16-18]。因此,研究不同地域相同疾病的中醫(yī)證候特點(diǎn),有利于豐富不同地區(qū)的中醫(yī)證候?qū)W資料,進(jìn)一步指導(dǎo)“因地制宜”的治療方案。
XGBoost和RF算法控制參數(shù)較多,初步建立的模型往往需要調(diào)參才能得到更準(zhǔn)確、更穩(wěn)定的模型。調(diào)參可以控制模型復(fù)雜度和泛化誤差大小,模型復(fù)雜度的高或低會(huì)導(dǎo)致模型過(guò)擬合或欠擬合。只有方差和偏差最小時(shí),模型才能達(dá)到復(fù)雜度最佳、泛化誤差最小和預(yù)測(cè)準(zhǔn)確率最高。XGBoost和RF模型均是復(fù)雜度高的模型,在本數(shù)據(jù)中兩者模型均存在過(guò)擬合,因此,調(diào)參目標(biāo)均是降低模型復(fù)雜度和方差,防止過(guò)擬合。
在分類(lèi)指標(biāo)上,XGBoost模型總的準(zhǔn)確率、平衡準(zhǔn)確率、科恩卡帕系數(shù)、宏精準(zhǔn)率、加權(quán)精準(zhǔn)率、宏召回率、加權(quán)召回率、宏F1值、加權(quán)F1值比RF模型高,但3折交叉驗(yàn)證分?jǐn)?shù)比RF模型低。在各中醫(yī)證型分類(lèi)指標(biāo)上,XGBoost模型各證型的精準(zhǔn)率、召回率、F1值均比RF模型高。顯然,XGBoost模型各證型的分類(lèi)指標(biāo)整體優(yōu)于RF模型。在性能曲線上,XGBoost模型微、宏和各證型的AUC值比RF模型高,說(shuō)明XGBoost模型微、宏和各證型的AUC值整體優(yōu)于RF模型。XGBoost模型微、宏AP值比RF模型低,說(shuō)明在PR曲線上兩者表現(xiàn)相當(dāng)。
多項(xiàng)研究表明[19-22],XGBoost在分類(lèi)預(yù)測(cè)中比貝葉斯網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)和RF等算法準(zhǔn)確率更高。本次結(jié)果顯示,XGBoost算法的分類(lèi)指標(biāo)和性能曲線評(píng)分也總體優(yōu)于RF算法,可能是因?yàn)閄GBoost算法與本數(shù)據(jù)集有更好的契合度。同時(shí),該建模方法可為其他病證的證候客觀化研究提供方法學(xué)指導(dǎo),在證候研究中可能發(fā)揮重要價(jià)值。
參考文獻(xiàn)
[1] TIAN J R, ZHANG D Y, YAO X, et al. Global epidemiology of systemic lupus erythematosus: A comprehensive systematic analysis and modelling study[J]. Annals of the Rheumatic Diseases, 2023, 82(3): 351-356.
[2] LI X B, HE Z Q, RU L, et al. Efficacy and safety of Qinghao Biejia Decoction in the treatment of systemic lupus erythematosus: A systematic review and meta-analysis[J]. Frontiers in Pharmacology, 2021, 12: 669269.
[3] WANG H Z, WANG B Z, HUANG J G, et al. Efficacy and safety of acupuncture therapy combined with conventional pharmacotherapy in the treatment of systemic lupus erythematosus: A systematic review and meta-analysis[J]. Medicine, 2023, 102(40): e35418.
[4] TIAN R, YUAN L, HUANG Y, et al. Perturbed autophagy intervenes systemic lupus erythematosus by active ingredients of traditional Chinese medicine[J]. Frontiers in Pharmacology, 2022, 13: 1053602.
[5] 夏淑潔, 楊朝陽(yáng), 周常恩, 等. 常見(jiàn)機(jī)器學(xué)習(xí)方法在中醫(yī)診斷領(lǐng)域的應(yīng)用述評(píng)[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào), 2021, 38(4): 826-831.
[6] THABAH M M, SEKAR D, PRANOV R, et al. Neuromyelitis optica spectrum disorder and systemic lupus erythematosus[J]. Lupus, 2019, 28(14): 1722-1726.
[7] 鄭筱萸. 中藥新藥臨床研究指導(dǎo)原則: 試行[M]. 北京: 中國(guó)醫(yī)藥科技出版社, 2002: 111-115.
[8] 胡江帥. 基于貝葉斯網(wǎng)絡(luò)技術(shù)對(duì)社區(qū)獲得性肺炎的中醫(yī)證型分析[D]. 昆明: 云南中醫(yī)藥大學(xué), 2020.
[9] 姚乃禮. 中醫(yī)癥狀鑒別學(xué)[M]. 北京: 人民衛(wèi)生出版社, 2004: 1-300.
[10] 黎敬波, 馬" 力. 中醫(yī)臨床常見(jiàn)癥狀術(shù)語(yǔ)規(guī)范[M]. 北京: 中國(guó)醫(yī)藥科技出版社, 2005: 1-90.
[11] 李燦東. 中醫(yī)診斷學(xué)[M]. 新世紀(jì)4版. 北京: 中國(guó)中醫(yī)藥出版社, 2016: 1-230.
[12] SHIN H. XGBoost regression of the most significant photoplethysmogram features for assessing vascular aging[J]. IEEE Journal of Biomedical and Health Informatics, 2022, 26(7): 3354-3361.
[13] 董志闊. 系統(tǒng)性紅斑狼瘡中醫(yī)體質(zhì)與證素的相關(guān)性研究[D]. 天津: 天津中醫(yī)藥大學(xué), 2023.
[14] ZHU J, NAUGHTON S, BOWMAN N, et al. Maternal antibody repertoire restriction modulates the development of lupus-like disease in BXSB offspring[J]. International Immunology, 2023, 35(2): 95-104.
[15] 宮愛(ài)民, 魏方志, 宋逸天. 系統(tǒng)性紅斑狼瘡中醫(yī)證型及客觀化研究進(jìn)展[J]. 中醫(yī)學(xué), 2020, 9(2): 98-103.
[16] 王秀蘭, 成佳黛, 卓進(jìn)盛. 基于全國(guó)名中醫(yī)林天東慢性咳嗽病案的中醫(yī)證候與證素分布規(guī)律研究[J]. 中國(guó)民間療法, 2021, 29(1): 4-5.
[17] 張冠壯, 黃宏敏, 許玉皎, 等. 海南地區(qū)中風(fēng)病患者急性期中醫(yī)證候的分布[J].世界中醫(yī)藥, 2017, 12(12): 3175-3178.
[18] 陳學(xué)武, 姜靖雯, 林海峰. 海南地區(qū)晚期非小細(xì)胞肺癌中醫(yī)證候分布規(guī)律研究[J]. 海南醫(yī)學(xué), 2016, 27(4): 564-566.
[19] LI J L, LIU S R, HU Y D, et al. Predicting mortality in intensive care unit patients with heart failure using an interpretable machine learning model: Retrospective cohort study[J]. Journal of Medical Internet Research, 2022, 24(8): e38082.
[20] WANG L Y, WANG X Y, CHEN A X, et al. Prediction of type 2 diabetes risk and its effect evaluation based on the XGBoost model[J]. Healthcare, 2020, 8(3): 247.
[21] HOU N Z, LI M Z, HE L, et al. Predicting 30-days mortality for MIMIC-III patients with sepsis-3: A machine learning approach using XGboost[J]. Journal of Translational Medicine, 2020, 18(1): 462.
[22] SHIN H. XGBoost regression of the most significant photoplethysmogram features for assessing vascular aging[J]. IEEE Journal of Biomedical and Health Informatics, 2022, 26(7): 3354-3361.
〔基金項(xiàng)目〕國(guó)家自然科學(xué)基金項(xiàng)目(30109065)。
〔通信作者〕*宮愛(ài)民,男,博士,教授,博士研究生導(dǎo)師,E-mail:422789075@qq.com。