汪仁 邊迪 王樹奇 李雪萌 趙東升
近年來(lái),腦卒中作為一種死亡率高、復(fù)發(fā)率高、致殘率高的急性腦血管疾病逐漸成為世界第二大致死病。我國(guó)腦卒中患者數(shù)量居世界第二位,每年因腦卒中致死人數(shù)達(dá)上百萬(wàn),并且絕大多數(shù)腦卒中患者存在不同程度的后遺癥,給患者家庭和國(guó)家都帶來(lái)了沉重的負(fù)擔(dān)[1]。2009年,原國(guó)家衛(wèi)生部啟動(dòng)了“國(guó)家腦卒中防治工程”,并建立了“中國(guó)卒中數(shù)據(jù)中心”。截至目前,已收集存儲(chǔ)了從2011年以來(lái)對(duì)全國(guó)40歲以上人群進(jìn)行抽樣篩查的近700萬(wàn)篩查對(duì)象和高危人群的信息資料[2]。腦卒中篩查過(guò)程中,定義危險(xiǎn)因素包括:高血壓、血脂異常、糖尿病、房顫或瓣膜性心臟病、吸煙史、明顯超重或肥胖、缺乏運(yùn)動(dòng)、腦卒中家族史、TIA既往史、腦卒中既往史等。根據(jù)危險(xiǎn)因素的篩查結(jié)果,將被篩查者腦卒中風(fēng)險(xiǎn)分為3級(jí)(低危、中危、高危)。具有0~2個(gè)危險(xiǎn)因素且無(wú)慢性病危險(xiǎn)因素(高血壓、血脂異常、糖尿病)的檔案分類為低危;具有0~2個(gè)危險(xiǎn)因素且有慢性病危險(xiǎn)因素的檔案分類為中危;具有3個(gè)及以上危險(xiǎn)因素或有TIA既往史、腦卒中既往史檔案分類為高危。
在腦卒中篩查數(shù)據(jù)統(tǒng)計(jì)分析中,危險(xiǎn)級(jí)別檢出率、相對(duì)危險(xiǎn)度等統(tǒng)計(jì)指標(biāo)在對(duì)篩查工作質(zhì)量評(píng)定、臨床決策支持、相關(guān)醫(yī)療政策制定具有指導(dǎo)意義,這些統(tǒng)計(jì)指標(biāo)的計(jì)算需要使用到危險(xiǎn)分級(jí)字段[3]。在實(shí)際篩查數(shù)據(jù)中,由于采集時(shí)間限制、個(gè)人主觀性、檢查數(shù)據(jù)獲取成本高等原因造成原始數(shù)據(jù)中危險(xiǎn)因素字段存在不同程度的數(shù)據(jù)缺失,因而導(dǎo)致無(wú)法對(duì)這些被篩查者進(jìn)行腦卒中危險(xiǎn)評(píng)級(jí)。通常對(duì)這些缺失數(shù)據(jù)進(jìn)行刪除處理,但這樣會(huì)給統(tǒng)計(jì)分析的結(jié)果帶來(lái)誤差。對(duì)危險(xiǎn)分級(jí)的缺失數(shù)據(jù)進(jìn)行預(yù)測(cè)插補(bǔ),可以矯正數(shù)據(jù)分析結(jié)果、統(tǒng)計(jì)指標(biāo)準(zhǔn)確度。其中危險(xiǎn)因素與危險(xiǎn)分級(jí)數(shù)據(jù)缺失模式(圖1)。圖1中顯示了原始腦卒中篩查數(shù)據(jù)中危險(xiǎn)評(píng)級(jí)與危險(xiǎn)因素?cái)?shù)據(jù)的缺失情況,灰色顯示為正常數(shù)據(jù),黑色顯示為缺失數(shù)據(jù)。其中左圖為危險(xiǎn)評(píng)級(jí)數(shù)據(jù)與危險(xiǎn)因素?cái)?shù)據(jù)的缺失率柱圖,右圖顯示了危險(xiǎn)評(píng)級(jí)數(shù)據(jù)與危險(xiǎn)因素?cái)?shù)據(jù)的缺失分布??梢钥闯龇款澔虬昴ば孕呐K病數(shù)據(jù)與血脂異常數(shù)據(jù)的缺失率在7%左右,其余危險(xiǎn)因素?cái)?shù)據(jù)與危險(xiǎn)分級(jí)數(shù)據(jù)缺失率在2%左右。
近年來(lái),相關(guān)數(shù)據(jù)挖掘預(yù)測(cè)算法發(fā)展迅速,在數(shù)據(jù)插補(bǔ)以及各個(gè)場(chǎng)景之下得到了廣泛的應(yīng)用[4-6]。常用的數(shù)據(jù)插補(bǔ)算法有均值插補(bǔ)法、k最近鄰插補(bǔ)法[7]、決策樹插補(bǔ)法[8]、多重插補(bǔ)[9]。腦卒中篩查數(shù)據(jù)中缺失的危險(xiǎn)分級(jí)數(shù)據(jù)進(jìn)行預(yù)測(cè)并插補(bǔ),對(duì)相關(guān)腦卒中統(tǒng)計(jì)分析指標(biāo)的準(zhǔn)確性、新篩數(shù)據(jù)危險(xiǎn)分級(jí)預(yù)測(cè)起到重要的促進(jìn)作用,能夠提高腦卒中衛(wèi)生防治效率。
圖1 腦卒中篩查數(shù)據(jù)危險(xiǎn)因素與危險(xiǎn)分級(jí)缺失模式
2.1 材料 以2011—2017年腦卒中院外篩查數(shù)據(jù)作為研究對(duì)象。篩查數(shù)據(jù)覆蓋全國(guó)31個(gè)省市自治區(qū)及新疆生產(chǎn)建設(shè)兵團(tuán)總計(jì)454個(gè)篩查點(diǎn),數(shù)據(jù)采集時(shí)采用隨機(jī)選定城鄉(xiāng)社區(qū)的40歲及以上常駐人群進(jìn)行社區(qū)整群抽樣方法獲得。截至目前,累計(jì)收集并存儲(chǔ)了近700萬(wàn)人的院外篩查檔案。本文實(shí)驗(yàn)將對(duì)原始篩查數(shù)據(jù)隨機(jī)抽樣10 000條檔案作為實(shí)驗(yàn)數(shù)據(jù)集,并在實(shí)驗(yàn)數(shù)據(jù)集中隨機(jī)抽取70%為訓(xùn)練集、30%為測(cè)試集。數(shù)據(jù)包含相關(guān)腦卒中危險(xiǎn)因素(高血壓、糖尿病、房顫、血脂異常、吸煙、超重、缺乏運(yùn)動(dòng)、腦卒中家族史等)的初篩數(shù)據(jù),以及對(duì)高危人群的常見實(shí)驗(yàn)室檢查、既往病史及用藥信息、介入治療及手術(shù)信息等復(fù)篩數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理 腦卒中篩查數(shù)據(jù)采集與整理過(guò)程中,由于時(shí)間限制、篩查對(duì)象主觀性、信息獲取成本高等原因造成數(shù)據(jù)不規(guī)范、空值、字段不統(tǒng)一等問(wèn)題,所以在建立決策樹模型之前需要對(duì)原始篩查數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理操作。針對(duì)原始篩查數(shù)據(jù)進(jìn)行預(yù)處理的主要目標(biāo)包含:數(shù)據(jù)合并與字段類型的統(tǒng)一,由于篩查項(xiàng)目時(shí)間跨度長(zhǎng)、數(shù)據(jù)版本繁多,需要對(duì)數(shù)據(jù)進(jìn)行格式類型統(tǒng)一并合并;邏輯范圍外連續(xù)數(shù)據(jù)清洗,例如年齡低于40歲或大于110歲等。數(shù)據(jù)預(yù)處理流程圖(圖2)。
2.3 決策樹模型 根據(jù)相關(guān)腦卒中危險(xiǎn)因素調(diào)查研究報(bào)告以及實(shí)際腦卒中篩查數(shù)據(jù)的字段情況[10],選取部分基本信息、既往病史、相關(guān)醫(yī)學(xué)檢查作為決策樹建模的影響變量。具體影響變量選取(表1)。
具體分析流程(圖3):①對(duì)數(shù)據(jù)集進(jìn)行相關(guān)預(yù)處理,并劃分訓(xùn)練集與測(cè)試集。②從數(shù)據(jù)集中的個(gè)人信息、既往病史、醫(yī)學(xué)檢查信息中選取建立決策樹模型中的影響變量。③使用訓(xùn)練集進(jìn)行決策樹模型的建立。④使用測(cè)試集進(jìn)行決策樹模型的測(cè)試,并得出測(cè)試結(jié)果。
圖2 數(shù)據(jù)預(yù)處理流程
表1 訓(xùn)練數(shù)據(jù)集影響變量屬性說(shuō)明表
圖3 分析流程
采用C4.5決策樹算法進(jìn)行決策樹模型的訓(xùn)練與建立[11-12]。這種決策樹算法會(huì)根據(jù)統(tǒng)計(jì)檢驗(yàn)來(lái)確定自變量與分割點(diǎn),假設(shè)自變量與分割點(diǎn)相對(duì)獨(dú)立,在對(duì)其進(jìn)行卡方獨(dú)立檢驗(yàn)之后,將檢驗(yàn)P值小于設(shè)定的閾值的自變量加入決策樹模型,并使用“增益率”(gainratio)來(lái)選擇自變量的分割點(diǎn),這也是C4.5 決策樹算法相比J.RossQuinilan 提出的IDE3算法的重要改進(jìn)[13]。其中增益率的定義為:,其中
C4.5算法在處理連續(xù)性描述屬性的時(shí)候采取的二分法,這樣C4.5算法既能夠處理離散的描述屬性,也能夠處理連續(xù)的描述屬性[14]。決策樹建模工具使用R3.5.1 的PARTY軟件包。PARTY包是Hothorn等[15]于2006年開發(fā)的決策樹算法包,其中的CTree函數(shù)提供一種遞歸的分割、組合工具,用來(lái)構(gòu)建基于樹形的回歸和分類模型。
構(gòu)建出包含共計(jì)35個(gè)節(jié)點(diǎn)的決策樹模型,具體決策樹模型(圖4)。
通過(guò)使用測(cè)試集對(duì)危險(xiǎn)分類決策樹模型進(jìn)行驗(yàn)證,對(duì)測(cè)試集危險(xiǎn)分級(jí)預(yù)測(cè)的總體準(zhǔn)確率為85.03%,其中低危、中危、高危級(jí)別預(yù)測(cè)準(zhǔn)確率分別為87.19%、75.56%、77.07%;其中低危、中危、高危級(jí)別的F1度量值分別為0.93、0.64、0.57。
圖4 危險(xiǎn)分級(jí)決策樹模型圖(部分)
腦卒中發(fā)病同時(shí)伴隨著多種并發(fā)癥,其中部分會(huì)對(duì)腦卒中患者帶來(lái)永久性損傷。因此,及時(shí)對(duì)篩查人群的檔案進(jìn)行腦卒中危險(xiǎn)級(jí)別精準(zhǔn)劃分,及時(shí)進(jìn)行相關(guān)干預(yù)手段,對(duì)降低腦卒中患病率、發(fā)病率具有十分重要的促進(jìn)作用。對(duì)建立的危險(xiǎn)分級(jí)決策樹模型觀察得出,腦卒中危險(xiǎn)分級(jí)中影響因素最為密切的為高血壓疾病(node1)。其中高危的最為密切的影響因素為心腦血管疾病,所有的心腦血管病患者均預(yù)測(cè)為高危級(jí)別(node3、node24);分級(jí)為中危的關(guān)鍵影響因素為糖尿病、血脂異常等常見慢性病(node20、node26、node33);其中分級(jí)為低危的主要影響因素為年齡(node7、node8、node17)。可以看出腦卒中的危險(xiǎn)級(jí)別主要通過(guò)慢性疾病患病情況、心腦血管疾病患病情況以及年齡等因素進(jìn)行劃分。
通過(guò)與現(xiàn)行篩查項(xiàng)目腦卒中危險(xiǎn)分級(jí)的評(píng)價(jià)依據(jù)做對(duì)比,其中各個(gè)危險(xiǎn)級(jí)別的預(yù)測(cè)劃分情況與實(shí)際腦卒中危險(xiǎn)分級(jí)依據(jù)相符,但從決策樹分級(jí)模型中可以看出,腦血管病對(duì)中危、高危分級(jí)有著較為明顯的作用,而實(shí)際的危險(xiǎn)分級(jí)劃分依據(jù)中并沒有將腦血管疾病作為危險(xiǎn)因素進(jìn)行考量。
通過(guò)使用測(cè)試集對(duì)決策樹模型進(jìn)行評(píng)估結(jié)果看出,模型整體預(yù)測(cè)準(zhǔn)確度較高,各個(gè)危險(xiǎn)級(jí)別都能夠?qū)崿F(xiàn)較為精準(zhǔn)的預(yù)測(cè)。通過(guò)F1度量值可以明顯看出,在對(duì)于低危級(jí)別的預(yù)測(cè)最為穩(wěn)定,而在中危與高危級(jí)別預(yù)測(cè)結(jié)果穩(wěn)定性一般。雖然腦卒中篩查數(shù)據(jù)樣本大,但其中危險(xiǎn)分級(jí)為中危、高危級(jí)別的檔案數(shù)量較少,造成決策樹模型對(duì)中危、高危預(yù)測(cè)性能穩(wěn)定性上不如低危準(zhǔn)確。隨著腦卒中篩查項(xiàng)目的進(jìn)行,可以進(jìn)一步擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)集,同時(shí)可以考慮采用不同的數(shù)據(jù)抽取方法獲取數(shù)據(jù)集、引入不同的影響變量等方法,提高對(duì)中、高危人群分析預(yù)測(cè)的準(zhǔn)確度。
本文基于全國(guó)腦卒中篩查數(shù)據(jù),構(gòu)建了腦卒中危險(xiǎn)分級(jí)決策樹模型,可以較為精確的預(yù)測(cè)被篩查者的危險(xiǎn)級(jí)別,實(shí)現(xiàn)對(duì)原始腦卒中篩查數(shù)據(jù)中缺失的危險(xiǎn)級(jí)別數(shù)據(jù)進(jìn)行較為準(zhǔn)確的插補(bǔ),提高相關(guān)統(tǒng)計(jì)指標(biāo)的精確度,提高腦卒中數(shù)據(jù)統(tǒng)計(jì)分析與腦卒中防治的效率。
中國(guó)療養(yǎng)醫(yī)學(xué)2019年3期