張 彪
河北大學(xué)附屬醫(yī)院,河北 保定 071000
關(guān)聯(lián)規(guī)則在急性心肌梗死病案分析中的應(yīng)用
張 彪
河北大學(xué)附屬醫(yī)院,河北 保定 071000
目的:對(duì)急性心肌梗死的相關(guān)因素進(jìn)行研究,通過運(yùn)用數(shù)據(jù)挖掘算法形成關(guān)聯(lián)規(guī)則。方法:收集某醫(yī)院近三年的急性心肌梗死病案首頁(yè)信息,包括性別、年齡、化驗(yàn)信息、心電信息、個(gè)人史、既往史等。運(yùn)用 Java語言實(shí)現(xiàn)數(shù)據(jù)挖掘算法(FP-growth),得出281條關(guān)聯(lián)規(guī)則,通過比較支持度、置信度、提升度三個(gè)指標(biāo)獲得有價(jià)值的關(guān)聯(lián)規(guī)則。結(jié)論:有利于從病案大數(shù)據(jù)中挖掘出有價(jià)值的信息,為醫(yī)院的病案信息的管理提供了信息思路。
急性心肌梗死;合并癥;關(guān)聯(lián)規(guī)則;FP-growth
急性心肌梗死屬于急性冠脈綜合征。除心肌梗死外缺血性心臟病還包括,穩(wěn)定型心絞痛、不穩(wěn)定型心絞痛,心肌梗死是其中最嚴(yán)重的一種。其發(fā)病機(jī)理為:在冠狀動(dòng)粥樣脈硬化的基礎(chǔ)上,發(fā)生突然性的冠狀動(dòng)脈血驟減甚至中斷,使相應(yīng)的心肌持久性的極度供血不足從而導(dǎo)致心肌壞死。急性心肌梗死的一般臨床表現(xiàn)為持久性胸痛,其位置大多在胸骨后或胸骨中上段,并伴隨發(fā)熱、白細(xì)胞計(jì)數(shù)和血清心肌壞死標(biāo)記物增高等癥狀。心電圖結(jié)果多顯示心臟進(jìn)行性改變,可發(fā)生心律失常、休克或心力衰竭等。
(1)材料來源。本文采用的研究數(shù)據(jù)源來自河北大學(xué)附屬醫(yī)院近三年的急性心肌梗死患者的病案首頁(yè)信息,內(nèi)容包括住院號(hào)、年齡、性別、住院天數(shù)、主要診斷信息、其他診斷信息、既往史等信息。
(2)數(shù)據(jù)處理。在進(jìn)行數(shù)據(jù)挖掘之前,要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,主要包括數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約兩個(gè)步驟。數(shù)據(jù)清洗是指對(duì)原始數(shù)據(jù)中的錯(cuò)誤數(shù)據(jù)、空值數(shù)據(jù)進(jìn)行處理,保證結(jié)論的準(zhǔn)確性;數(shù)據(jù)規(guī)約的目的是對(duì)數(shù)據(jù)源進(jìn)行精簡(jiǎn),并對(duì)數(shù)據(jù)按照一定規(guī)則進(jìn)行分類,使之具有一定的特征性[1]。
(1)關(guān)聯(lián)規(guī)則定義。關(guān)聯(lián)規(guī)則分析的目是從數(shù)據(jù)集中發(fā)現(xiàn)各個(gè)屬性之間關(guān)聯(lián)性。在現(xiàn)實(shí)世界中事物的發(fā)生是存在關(guān)聯(lián)的,這些聯(lián)系或是顯而易見的常識(shí),或是已經(jīng)被科學(xué)證實(shí)了的規(guī)律,但還有很多關(guān)聯(lián)性影響是隱藏的。關(guān)聯(lián)規(guī)則分析的作用正是為了隱藏的關(guān)聯(lián)。關(guān)聯(lián)規(guī)則分析的核心就是計(jì)算不同事物同時(shí)發(fā)生的頻度,得到頻繁項(xiàng)集,再通過計(jì)算得到事物相互作用的置信度。即事物A發(fā)生時(shí)B也發(fā)生的概率。
在臨床上,如果要研究疾病X是否是疾病Y的誘因,可以使用關(guān)聯(lián)規(guī)則進(jìn)行分析,通過在大量數(shù)據(jù)集中檢索頻繁項(xiàng),計(jì)算當(dāng)X發(fā)生時(shí),Y也出現(xiàn)的概率,若概率值很大說明二者具有強(qiáng)關(guān)聯(lián),而且關(guān)聯(lián)規(guī)則具有單向性的特點(diǎn),容易發(fā)現(xiàn)哪個(gè)是因,哪個(gè)是果。若XY互推概率都很高,說明二者互為因果,也稱共生共存。本文以急性心肌梗死為例,一組患者的數(shù)量為2770例,其合并癥(如高血壓,糖尿病等)約有上千種,而具體到個(gè)人,有人的合并癥多,有人合并癥少,本文將利用關(guān)聯(lián)規(guī)則算法去發(fā)現(xiàn)蘊(yùn)含在這些合并癥信息中的一些規(guī)律。
(2)關(guān)聯(lián)規(guī)則的判斷指標(biāo)。關(guān)聯(lián)規(guī)則含兩個(gè)重要的興趣度度量:支持度(support)和置信度(confidence),它們分別反映所發(fā)現(xiàn)規(guī)則的有用性和確定性。
支持度s是指事務(wù)集D中包含A∪B的百分比,即
置信度c是指D中包含A的事務(wù)同時(shí)也包含B的百分比,即:
同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強(qiáng)規(guī)則。在某種情況下,即使支持度和置信的兩個(gè)指標(biāo)都非常高,但是其產(chǎn)生的關(guān)聯(lián)規(guī)則是明顯的無用的。所以,本文有引入了一個(gè)新指標(biāo)——提升度(lift)。Lift也是一種相關(guān)性度量,其定義為:項(xiàng)集A的出現(xiàn)獨(dú)立于項(xiàng)集B的出現(xiàn),若P(A∪B)= P(A)P(B)則項(xiàng)集A和B是依賴的和相關(guān)的,其公式為:
(3)關(guān)聯(lián)規(guī)則算法的核心內(nèi)容是尋找所有支持度不小于最小支持度的項(xiàng)集。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。FP-growth具有深度優(yōu)先搜索的功能,這種搜索法利用到了項(xiàng)集的反單調(diào)性,即:若一個(gè)項(xiàng)集是非頻繁的,那么它的超集也是頻繁的。本文將最小支持度設(shè)定為3,即只選出至少出現(xiàn) 3次的項(xiàng)集,得出結(jié)果后篩選出提升度大于1的模式。
36[高血壓 3級(jí),冠狀動(dòng)脈支架植入后狀態(tài),陳舊性下壁心肌梗死]->2型糖尿病0.0849 0.6149 1.0621[2型糖尿病,高血壓病,冠狀動(dòng)脈粥樣硬化型心臟病]->高脂血癥0.0849 0.6148 1.06221[高血壓病,冠狀動(dòng)脈粥樣硬化型心臟病,胃炎]->高脂血癥0.0624 0.1211 1.0799 [室性早搏,陣發(fā)性室性心動(dòng)過速]->高血壓2級(jí) 0.0597 0.8906 1.727 22[高脂血癥,冠狀動(dòng)脈粥樣硬化,高血壓2級(jí)]->心功能Ⅰ級(jí)0.0671 0.5981 1.09211 [冠狀動(dòng)脈粥樣硬化,2型糖尿病性腎病]->2型糖尿病 0.0671 0.5981 1.066
從編號(hào) 8的結(jié)果可以看出,患有急性心肌梗死的患者,在出現(xiàn) 2型糖尿病的情況下,發(fā)生冠狀動(dòng)脈粥樣硬化型心臟的概率非常高,由id36可看出,有心肌梗死病史的患者,若同時(shí)患有 2型糖尿病,急性心肌梗死的復(fù)發(fā)概率也是非常高的,結(jié)論與文獻(xiàn)描述一致。
綜上所述,關(guān)聯(lián)規(guī)則挖掘能夠從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,而這些信息通過傳統(tǒng)的統(tǒng)計(jì)方法往往難以發(fā)現(xiàn),隨著我國(guó)醫(yī)療技術(shù)的不斷發(fā)展,醫(yī)院信息化建設(shè)不斷加強(qiáng),每天都會(huì)產(chǎn)生大量的數(shù)據(jù),構(gòu)建醫(yī)療大數(shù)據(jù)平臺(tái)有著廣闊的發(fā)展前景。今后我們要更好的利用海量的電子病歷信息,高效、準(zhǔn)確地發(fā)掘出有價(jià)值的信息,更好地服務(wù)于臨床。
[1]李春慧,云虹渝,何森,等.心臟增強(qiáng)MRI在冠狀動(dòng)脈造影基本正常急性心肌梗死一例中的應(yīng)用及文獻(xiàn)分析[J].華西醫(yī)學(xué),2014(10):1891-1894.
Association Rules in the Application of the Medical Record Analysis of Acute Myocardial Infarction
Zhang Biao
Hebei University Affiliated Hospital, Hebei Baoding 071000
Objective:To study the correlative factors of acute myocardial infarction (AMI), and to form association rule by using data mining algorithm. Methods:The first page of acute myocardial infarction(AMI) in a hospital was collected, including sex, age, laboratory information, ECG information, personal history and past history.By using the data mining algorithm (FP-growth) in Java language, 281association rules are obtained, and valuable association rules are obtained by comparing the three indexes of support, confidence and promotion.Conclusion This method is useful for mining valuable information from medical record data and providing information for hospital management of medical record information.
AMI; complication; association rules; FP-growth
表1
R445.2;R542.22
A
1009-6434(2017)3-0107-02