余秋燕 趙 瑩 孫繼佳 邵建華
(上海中醫(yī)藥大學中藥學院數(shù)理教研室 上海 201203)
脂肪肝(Fatty Livers)是由多種疾病和病因所導致的肝臟脂肪代謝功能障礙,進而使肝內脂質蓄積過多的一種病理變化,也是一種臨床常見病癥?,F(xiàn)代醫(yī)學認為,脂肪肝不是一個獨立的疾病,常見的一些導致脂肪肝疾病因素有肥胖、酒精中毒、高脂血癥等[1],而甘油三酯、體重、舒張壓等危險因素指標是形成脂肪肝的主要危險因素[2]。雖然目前針對脂肪肝發(fā)生的危險因素研究有很多,但是脂肪肝的發(fā)病機制仍然不夠完全明確,通過應用數(shù)據(jù)科學的方法,尋找對脂肪肝影響的因素是科學且有效的。
機器學習可以通過自動學習大量輸入的數(shù)據(jù)樣本內在結構和規(guī)則,進而對新樣本進行智能的辨識,甚至實現(xiàn)對未來的預測[3]。隨著機器學習與大數(shù)據(jù)的結合,如今,越來越多的科研人員運用機器學習方法對醫(yī)藥領域進行探索,推動著疾病診療規(guī)范化的發(fā)展[4]。
本文根據(jù)所收集到的實際臨床體檢數(shù)據(jù)資料,應用5種典型的機器學習建模方法,對脂肪肝分類辯證進行分類預測和比較分析,旨在為脂肪肝分類辯證提供客觀、標準和規(guī)范的算法模型。
原始臨床數(shù)據(jù)來源于2017年上海市浦東新區(qū)某地段醫(yī)院60歲以上2337例老年人體檢的實際臨床資料。
首先,對2337例原始數(shù)據(jù)進行初步篩選,剔除部分有缺失和不完全等模糊的臨床記錄,通過篩選剩余1956例。研究中選取一些重點關注的臨床指標,運用R語言,通過主成分分析(PCA)進行降維并提取主成分,得到:臀圍(HIP)、總膽固醇(TC)、谷草轉氨酶(AST)、肌酐(CR)、收縮壓(SBP)、甘油三酯(TG)、白蛋白(ALB),總共7個主成分。將所有主成分臨床指標作為參數(shù)自變量,脂肪肝分類判別(FL)作為結果變量建立模型。同時,將脂肪肝分類當中的輕度脂肪、中度脂肪、脂肪歸為“有脂肪肝”,將無歸為“無脂肪肝”,分別編號1和0。資料顯示,有脂肪肝的病例為1044例,無脂肪肝的病例為912例。
數(shù)據(jù)預處理后,再對數(shù)據(jù)進行標準化,本文采用“0-1標準化”,即公式(1)所示:
(1)
本文將通過R語言機器學習相關工具包實現(xiàn)模型構建和預測,分別使用到:C5.0(決策樹)、nnet(神經(jīng)網(wǎng)絡)、e1071(支持向量機)、bnlearn(貝葉斯網(wǎng)絡)和randomForest(隨機森林)等5種R語言包。
本研究通過應用R語言來實現(xiàn)機器學習模型的建立,安裝加載“gmodels”添加包以輸出混淆矩陣,通過R包中的CrossTable()函數(shù)查看結果,例如,決策樹(Decision Tree, DT)模型預測結果如表1所示。
表1 決策樹DT的預測結果
Actual FLPredicted FL01Row Total0125(25.56%)105(21.47%)230141 (8.38%)218(44.58%)259Column Total166323489
在1956例臨床體檢數(shù)據(jù)中,模型的訓練集取75%,即1467例樣本用于訓練;測試集取25%,即489例樣本用于預測,五類機器學習模型的效度評價如表2所示。
觀察數(shù)據(jù),發(fā)現(xiàn)決策樹模型的預測準確率最高,達到了70%以上,支持向量機和神經(jīng)網(wǎng)絡模型次之,處于68%左右的水平,而貝葉斯網(wǎng)絡模型的預測性能最低,僅有62.17%。由此可見,決策樹模型的分類預測效果最優(yōu),應用在小樣本數(shù)據(jù)上有優(yōu)勢;同時,觀察貝葉斯網(wǎng)絡結構圖(圖1)和重要性評分,發(fā)現(xiàn)臀圍(HIP)和甘油三酯(TG)對脂肪肝分類的重要性評分最高,關聯(lián)密切,且對脂肪肝分類預測有直接和間接的影響因素。
表2 5類機器學習模型的效度評價
模型FL預測準確率(%)決策樹(Decision Tree, DT)70.14神經(jīng)網(wǎng)絡(Neural Network, NN)68.30支持向量機(Support Vector Machine, SVM)68.71貝葉斯網(wǎng)絡(Bayesian Network, BN)62.17隨機森林(Random Forest, RF)66.05
圖1 貝葉斯網(wǎng)絡結構圖
在脂肪肝分類預測研究中,機器學習方法的應用是研究的一個重要方向,而且也被廣泛應用在臨床研究當中。例如,呂航等[5]運用決策樹模型來探討糖尿病伴發(fā)非酒精性脂肪肝病的預測作用,構建風險模型;權蔚蔚等[6]將BP神經(jīng)網(wǎng)絡引入到脂肪肝的圖形識別中;韓秀芝等[7]使用LBP特征提取肝臟超聲圖像特征后,采用了支持向量機對脂肪肝等肝病進行了分類;張永媛[8]采用了貝葉斯網(wǎng)絡即概率圖模型,對非酒精性脂肪肝與代謝綜合癥之間的潛在雙向因果關系進行了推斷;白江梁等[9]探討了隨機森林在體檢人群糖尿病、脂肪肝的風險預測中的應用等。
本文所運用的5種典型機器學習算法在數(shù)據(jù)挖掘領域中是比較成熟且穩(wěn)定的,我們將其模型運用到體檢數(shù)據(jù)研究當中,提取了重要的指標作為參數(shù)并進行了比較分析,基于預測結果的準確率,驗證了各個模型的有效性和可行性,為脂肪肝疾病預測提供了基于數(shù)據(jù)科學的研究方法。