楊宏輝 朱利杰 高傳玉
分類樹模型與logistic回歸在高血壓危險因素預(yù)測中的應(yīng)用分析
楊宏輝 朱利杰 高傳玉
目的 擬利用我市2013年居民健康檔案相關(guān)數(shù)據(jù),探討logistic回歸和分類樹模型在高血壓危險因素中的應(yīng)用前景,并分析高血壓的相關(guān)危險因素。方法 抽取在我市25歲以上且居住5年以上的普通人群的代表性樣本9 950例,按照預(yù)設(shè)調(diào)查內(nèi)容開展問卷調(diào)查,利用logistic回歸模型和分類樹模型分析高血壓危險因素。結(jié)果 本次調(diào)查共抽取居民健康檔案9 950例,調(diào)查問卷經(jīng)篩查后有效問卷9 778份,有效率98.27%,滿足研究條件。logistic回歸分析顯示,女性及輕中度職業(yè)人群是高血壓的保護(hù)因素,而BMI高、未婚(獨居)、大于25歲年齡組、有高血壓家族史是高血壓的危險因素。分類樹分析顯示,其危險因素主要有年齡、性別、高血脂、吸煙、飲酒、中心型肥胖、超重。高危人群主要分布在第4、6、9、11、12共5個節(jié)點內(nèi):終點6表現(xiàn)為中心型肥胖+超重+飲酒者;終點12表現(xiàn)為高血脂+超重者;終點9和11表現(xiàn)為中心型肥胖+超重+高齡及男性煙民;終點4表現(xiàn)為吸煙+飲酒+中心型肥胖者。logistic回歸與分類樹分析預(yù)測效果中等。結(jié)論 中心型肥胖、超重、飲酒、高齡、高血脂癥是高血壓的危險因素,分類樹模型和logistic回歸模型都適合于高血壓危險因素的判斷,且前者的判斷能力更好、更直觀。
分類樹模型;logistic回歸模型;高血壓;危險因素
采用整群抽樣的方法,所有受試者均來自于2013年6—12月進(jìn)行的2個社區(qū)橫斷面調(diào)查。抽取在我市25歲以上且居住5年以上的普通人群的代表性樣本9 950例,簽署知情同意書后,完成篩查問卷。
納入標(biāo)準(zhǔn):(1)無明顯精神障礙、無聽力障礙和認(rèn)知障礙;(2)截至調(diào)查之日,于我市居住至少五年或以上的常住居民。
排除標(biāo)準(zhǔn)為:(1)有重癥疾病,無法配合調(diào)查患者;(2)繼發(fā)性高血壓及嚴(yán)重的肝腎疾病的患者。
1.2.1 調(diào)查內(nèi)容 對研究對象的基本人口學(xué)特征如:性別、年齡、吸煙、飲酒、家族史等情況進(jìn)行調(diào)查。
1.2.2 體格檢查 高血壓檢測根據(jù)《中國高血壓基層管理指南(2014年修訂版)》[4]中推薦的方法,選擇符合標(biāo)準(zhǔn)的水銀柱式血壓計,連續(xù)測量2次,取兩次測量數(shù)值的平均值作為最終血壓值;BMI=體質(zhì)量(kg)/身高2(m2)。高血壓:采用1992年WHO/ISH推薦標(biāo)準(zhǔn),舒張壓≥90 mmHg和/或收縮壓≥140 mmHg,或有既往高血壓史、目前正在服用抗高血壓藥物且血壓已低于上述標(biāo)準(zhǔn)者。
所有調(diào)查人員均經(jīng)過技術(shù)指導(dǎo)小組嚴(yán)格的培訓(xùn),其通過相關(guān)測試合格后才能進(jìn)行調(diào)查;每份調(diào)查問卷在完成后由專人進(jìn)行審核,以便及時發(fā)現(xiàn)錯誤并予以糾正。
采用SPSS 18.0統(tǒng)計軟件進(jìn)行數(shù)據(jù)分析,用CART 6.0軟件進(jìn)行分類樹分析,多因素logistic回歸分析高血壓病的相關(guān)危險因素,計算比值比(OR)及95%可信區(qū)間,P<0.05,表示差異具有統(tǒng)計學(xué)意義。
本次調(diào)查共抽取居民健康檔案9 950例,調(diào)查問卷經(jīng)篩查后有效問卷9 778份,有效率98.27%,滿足研究條件。平均年齡為(45.6±16.1)歲,男性4 537例,占46.4%;女性5 241例,占53.6%。9 778例有效調(diào)查對象中,已婚人群占絕大多數(shù),有7 816例,占79.9%。人群文化程度以初中及以上為主,占81.3%,文盲和小學(xué)文化水平占18.7%。此次調(diào)查對象主要是機(jī)關(guān)事業(yè)單位和工人群體,占比68.7%,其次是個體/經(jīng)營戶,占比16.1%,待業(yè)及其他合計占比15.2%。見表1。
表1 9 778例調(diào)查對象人口學(xué)特征
表2 高血壓危險因素的二分類logistic回歸分析
表3 高血壓危險因素分類樹分析
圖1 logistic回歸與分類樹分析的ROC曲線圖
對BMI、家族史、文化程度、職業(yè)、年齡、睡眠時間、鍛煉、吸煙及飲酒等因素進(jìn)行統(tǒng)計學(xué)分析,發(fā)現(xiàn)各危險因素(吸煙除外)與高血壓之間存在相關(guān)關(guān)系。
將可能的危險因素如年齡、性別、文化程度、婚姻狀況、職業(yè)、飲酒、吸煙、家族史、BMI、睡眠時間共10個變量納入多因素二分類logistic回歸方程進(jìn)行分析,結(jié)果見表2。其中女性及輕中度職業(yè)人群是高血壓的保護(hù)因素,而BMI高、未婚(獨居)、大于25歲年齡組、有高血壓家族史是高血壓的危險因素。
將9 778例(其中高血壓患者2 898例,對照6 880例)調(diào)查對象納入分類樹模型分析,共有12個終結(jié)點,11個中間節(jié)點。以BMI為參照,根據(jù)變量的相對重要性預(yù)測分?jǐn)?shù)排序得知,高血壓的危險因素主要有年齡、中心型肥胖、性別、高血脂、吸煙、飲酒、超重。高危人群主要分布在第4、6、9、11、12共5個節(jié)點內(nèi):終點6表現(xiàn)為中心型肥胖+超重+飲酒者;終點12表現(xiàn)為高血脂+超重者;終點9和11表現(xiàn)為中心型肥胖+超重+高齡及男性煙民;終點4表現(xiàn)為吸煙+飲酒+中心型肥胖者。5個結(jié)點的病例數(shù)占總病例數(shù)的80.91%。見表3。
ROC曲線的診斷界值是充分利用試驗結(jié)果的每一個值作為參考,以相應(yīng)的靈敏度作為縱坐標(biāo),以特異度為橫坐標(biāo)繪制而成的曲線,模型的合適與否根據(jù)曲線下面積的大小作為判斷標(biāo)準(zhǔn)。圖1顯示,logistic回歸及分類樹分析的預(yù)測值曲線都遠(yuǎn)離參考線,其ROC曲線下面積都位于0.7~0.9。
研究結(jié)果表明,高血壓的主要危險因素有中心型肥胖、超重、飲酒、性別、年齡、高血脂癥,這與其他研究相一致[5]。第8及第9終結(jié)點內(nèi)患病率分別是12.50%和30.19%,其以甘油三酯是0.898為界。說明甘油三酯、膽固醇及高密度脂蛋白對高血壓有獨立的影響。高血壓分類樹研究顯示,其高危人群主要分布于四大人群:中心型肥胖+超重+飲酒者;中心型肥胖+超重+高齡及男性煙民;高血脂+超重者;吸煙+飲酒+中心型肥胖者。吸煙沒有納入本研究中的logistic回歸分析模型中,分類樹中吸煙變量的相對重要性也比較低,提示其可能與本研究采用吸煙的標(biāo)準(zhǔn)有關(guān)。過往研究表明中心型肥胖對心血管疾病的影響大于BMI,而高血壓的影響因素卻是BMI強(qiáng)于中心型肥胖[6]。有研究顯示,血壓與BMI密切相關(guān),而血脂與中心型肥胖密切相關(guān),這與研究結(jié)果類似。各危險因素之間存在密切相關(guān)關(guān)系,其可能并不止單一的線性關(guān)系,還可能存在多重共線性關(guān)系,直接應(yīng)用logistic回歸分析將使分析誤差增加。
logistic回歸主要用于探討多個自變量對分類因變量回歸過程,是目前用途最廣泛的多元統(tǒng)計分析方法之一。根據(jù)因變量的分類性質(zhì),可以分為二分類回歸模型、多分類回歸模型和配對回歸模型,本研究采用二分類回歸模型探討高血壓的高危因素。多元logistic回歸模型顯示的因變量變異較少,不能很好的解釋存在的問題,該模型中高血壓的決定系數(shù)R2達(dá)到了0.401,其正確識別高血壓患者的能力僅為35.62%。近年來,大量研究致力于建立新的回歸技術(shù)解決經(jīng)典回歸中假設(shè)過于嚴(yán)格的問題,包括方差齊性、反應(yīng)變量的正態(tài)性、預(yù)測變量與反應(yīng)變量的線性關(guān)系等。分類樹分析是一種新的多因素分析方法,其結(jié)果易于解釋、簡潔、明了,在缺失數(shù)據(jù)及變量之間的共線性的處理方面有獨到優(yōu)勢,且對資料分布無任何要求。研究表明[7],分類樹模型對同一資料的分析結(jié)果好于logistic回歸。當(dāng)前的心血管疾病危險因素研究中,樹形分析應(yīng)用得比較少,logistic模型應(yīng)用得比較多,這可能與小樣本分類樹分析不穩(wěn)定有關(guān),直接導(dǎo)致模型結(jié)果失真,但是本次問卷調(diào)查屬于大樣本的研究,涉及人群超過9 000人,模型的穩(wěn)定性有保障。但是分類樹分析也有不足的地方,其是對每層固定來分析,導(dǎo)致所有的變量不是在同一個層面上進(jìn)行比較,De'Ath等[8]認(rèn)為這種結(jié)構(gòu)的算法存在“順序偏差”,其應(yīng)該與其他模型相結(jié)合而用。
綜上所述,中心型肥胖、超重、飲酒、高齡、高血脂癥是高血壓的危險因素,分類樹的模型和logistic回歸模型都適合于高血壓危險因素的判斷,且前者的判斷能力更好、更直觀。
[1] 隋輝,陳偉偉,王文. 《中國心血管病報告2015》要點解讀[J].中國心血管雜志,2016,21(4): 259-261.
[2] 黃燕惠,余昌澤,王家驥,等. 中山市鎮(zhèn)區(qū)成年人高血壓患病影響因素分析[J]. 中華疾病控制雜志,2014,18(10): 940-943.
[3] 王文. 中國高血壓基層管理指南(2014年修訂版)[J]. 中華高血壓雜志,2015,30(1): 18-40.
[4] Ostovar A,Vahdat K,Raiesi A,et al. Hypertension risk and conventional risk factors in a prospective cohort study in Iran: the Persian Gulf Healthy Heart Study[J]. Int J Cardiol,2014,172(3):620-621.
[5] 胡文斌,張婷,史建國,等. BMI與高血壓關(guān)聯(lián)強(qiáng)度劑量-反應(yīng)關(guān)系分析[J]. 中國衛(wèi)生統(tǒng)計,2015,32(6): 971-974.
[6] 胡莉華,雷仁生. 某農(nóng)村社區(qū)肥胖與高血壓、高血糖、高血脂的相關(guān)性[J]. 現(xiàn)代預(yù)防醫(yī)學(xué),2014,41(15): 2753-2754,2775.
[7] 張芬,余金明,王家宏,等. Exhaustive CHAID分類樹與logistic回歸在腦卒中危險因素中的應(yīng)用[J]. 中國預(yù)防醫(yī)學(xué)雜志,2011,12(7): 573-576.
[8] De'Ath G,F(xiàn)abricius K E. Classification and Regression Trees:A Powerful Yet Simple Technique for Ecological Data Analysis[J].Ecology,2000,81(11): 3178-3192.
Application of Classification Tree Model and Logistic Regression in Prediction Risk Factors of Hypertension
YANG Honghui ZHU Lijie GAO Chuanyu Department of Cardiology,People's Hospital of Zhengzhou University, Zhengzhou He’nan 450003, China
Objective To explore the application prospect of logistic regression and classification tree model in the risk factors of hypertension,and to analyze the related risk factors of hypertension by using the related data of the residents' health records in 2013. Methods 9 950 representative cases of the general population sample over 25 years old in our city at least 5 years of living were sampled and surveyed according to the preset questionnaire. Logistic regression model and classification tree model were used to analysis of risk factors of hypertension. Results In this survey,9 950 cases of residents' health records were selected and 9 778 valid questionnaires were taken after screening with the effective rate 98.27%.Logistic regression analysis showed that female and mild to moderate occupational population were the protective factors of hypertension, while high BMI, unmarried, older than 25 years old, and the family history of hypertension were the risk factors of hypertension. Classification tree analysis showed that the main risk factors were age, gender, hyperlipaemia,smoking, alcohol drinking, central obesity and overweight. High risk population was mainly distributed in 4, 6, 9, 11, 12, a total of 5 nodes:the end of 6 showed central obesity+overweight+drinkers; the end of 12 showed hyperlipidemia+overweight; the end of the 9 and 11 showed the central obesity+overweight+elderly and male smokers; the end of 4 showed smoking+alcohol+central obesity. The efficacy of predict the logistic regression and classification tree analysis were medium. Conclusion The risk factors for hypertension include central obesity, overweight, drinking,old age and hyperlipidemia. Classification tree model and logistic regression model are suitable for judgment of the risk factors for hypertension and the former model is better at judgment ability and more intuitive than the late model.
classification tree model; logistic regression model;hypertension; risk factor
R181
A
1674-9316(2017)24-0007-04
10.3969/j.issn.1674-9316.2017.24.004
河南省鄭州市鄭州大學(xué)人民醫(yī)院心內(nèi)科,河南 鄭州 450003
高血壓是一種常見的慢性疾病,以動脈血壓升高為主要特征。高血壓是引起慢性疾病死亡的最常見的危險因素,其與中風(fēng)、心臟病和其他嚴(yán)重疾病的風(fēng)險增加有關(guān),年齡、性別、吸煙、飲酒、高體質(zhì)量指數(shù)(Body mass index,BMI)等構(gòu)成高血壓的危險因素。世界衛(wèi)生組織(World Health Organization,WHO)全球疾病現(xiàn)狀報告顯示,55歲及以上的老年人高血壓的患病率為40%,每年近750萬人(占比12.8%)死于因高血壓相關(guān)疾病。最新研究顯示[1],成年高血壓患者的數(shù)量從1975年的5億9 400萬增加到了2015年的11億3 000萬,高血壓人數(shù)增加在很大程度上發(fā)生在低收入和中等收入國家。2015年中國心血管病報告表明,1958—1959年、1979—1980年、1991年和2002年共進(jìn)行過4次全國范圍內(nèi)的高血壓抽樣調(diào)查顯示,中國15歲以上人群高血壓患病率分別為5.1%、7.7%、13.6%和17.6%,呈上升趨勢[2]。
目前,關(guān)于人群高血壓的相關(guān)影響因素及流行情況的針對性研究很多,其分析所運用的統(tǒng)計方法主要是多元相關(guān)分析、多元回歸分析、因子分析、路徑分析等[3]。分類樹模型與logistic回歸分析在研究因子間的交互作用和混雜因素方面也有運用,logistic回歸分析作為應(yīng)用頻率較高的模型,其變量共線性一直不佳,而分類樹模型因其應(yīng)變量為分類變量,作為一種非參數(shù)回歸分析方法,能很好的解決變量間的共線性問題。本研究擬利用我市2013年居民健康檔案相關(guān)數(shù)據(jù),探討logistic回歸和分類樹模型在高血壓危險因素中的應(yīng)用前景,并分析高血壓的相關(guān)危險因素。