国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)分析的中老年體檢數(shù)據(jù)的挖掘

2021-05-29 05:37郭慧敏
軟件工程 2021年5期
關(guān)鍵詞:Apriori算法關(guān)聯(lián)分析數(shù)據(jù)挖掘

摘? 要:根據(jù)中老年體檢報告,運(yùn)用Apriori算法挖掘各個指標(biāo)之間的聯(lián)系,為醫(yī)生、患者提供診斷參考與建議。通過安徽省某三甲醫(yī)院的體檢數(shù)據(jù),篩選出40歲及以上的中老年人群為研究對象,應(yīng)用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的Apriori算法對超重、心電圖、脂肪肝、血脂、血壓、血糖、尿常規(guī)、吸煙、飲酒、總膽固醇等體檢指標(biāo)之間的關(guān)聯(lián)關(guān)系進(jìn)行分析研究。研究表明,體檢者的個人不良習(xí)慣、超重、高齡、高血糖和脂肪肝等都密切相關(guān),互相影響,提出中老年人群應(yīng)加強(qiáng)對慢性疾病的預(yù)防,保持良好的作息習(xí)慣等相關(guān)建議。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;Apriori算法;中老年體檢

中圖分類號:TP181? ? ?文獻(xiàn)標(biāo)識碼:A

Data Mining of Physical Examination for the Middle-aged and

Elderly based on Association Analysis

GUO Huimin

(School of Economics, Anhui University, Hefei 230601, China)

17755895356@163.com

Abstract: This paper proposes to use Apriori algorithm to mine the links between various indicators in the medical examination report of middle-aged and elderly people, which provides diagnosis references and suggestions for doctors and patients. The middle-aged and elderly people aged 40 and above are selected as the research objects from the physical examination data of a Class A tertiary hospital in Anhui Province. Then, Apriori algorithm of association rules in data mining is used to analyze and study the correlation between physical examination indicators, such as overweight, electrocardiogram, fatty liver, blood lipids, blood pressure, blood sugar, urine routine, smoking, drinking, and total cholesterol. Research results show that personal bad habits, overweight, advanced age, high blood sugar, and fatty liver of physical examinees are closely related and affect each other. This paper proposes that middle-aged and elderly people should strengthen the prevention of chronic diseases and maintain good work and rest habits.

Keywords: data mining; association analysis; Apriori algorithm; middle-aged and elderly physical examination

1? ?引言(Introduction)

近年來,大部分醫(yī)院在移動醫(yī)療興起的形勢下,都建立了數(shù)字化醫(yī)療信息系統(tǒng)和患者的電子信息健康檔案[1],醫(yī)院內(nèi)部積累了大量醫(yī)療相關(guān)的數(shù)據(jù),使得醫(yī)療信息數(shù)字化程度越來越高[2]。醫(yī)療數(shù)據(jù)不僅與每個人的生活和生命健康息息相關(guān),而且對疾病的診治與醫(yī)學(xué)研究具有重要價值。然而目前大部分醫(yī)院只是簡單地進(jìn)行患者醫(yī)療數(shù)據(jù)的采集與存儲,缺乏對它們進(jìn)行深層次的分析與利用,如何快速有效地在海量的醫(yī)療數(shù)據(jù)中發(fā)現(xiàn)潛在的有價值的信息是一項(xiàng)重大挑戰(zhàn)[1]。

關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘領(lǐng)域重要的研究分支,是當(dāng)前在發(fā)展過程中比較重要、實(shí)用的技術(shù)[3]。在醫(yī)學(xué)領(lǐng)域中,通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn)疾病患者中醫(yī)癥狀之間的關(guān)聯(lián)關(guān)系和其他癥狀之間存在的規(guī)律性,能夠根據(jù)這些規(guī)律分析病因,預(yù)測疾病的發(fā)展[4]。本文以醫(yī)院數(shù)據(jù)系統(tǒng)中的體檢數(shù)據(jù)為研究對象,利用關(guān)聯(lián)規(guī)則的Apriori算法,將每個病人的癥狀及其他病情診斷信息看作是一種購物籃,然后對其進(jìn)行挖掘分析[2],為個人健康提供預(yù)警,為醫(yī)療診斷提供科學(xué)依據(jù)參考。

2? ?關(guān)聯(lián)規(guī)則算法(The Apriori algorithm)

2.1? ?Apriori算法概述

關(guān)聯(lián)分析是由R.Agrawal等人提出的一種簡單實(shí)用的非監(jiān)督學(xué)習(xí)算法[5],反映了事物之間的依賴或關(guān)聯(lián),試圖找到數(shù)據(jù)集中隱含的或感興趣的關(guān)系,其結(jié)果通常以頻繁項(xiàng)集或關(guān)聯(lián)規(guī)則的形式表示。最經(jīng)典的案例就是“啤酒與尿布”。沃爾瑪超市根據(jù)詳細(xì)的原始交易信息來對顧客的購物行為進(jìn)行數(shù)據(jù)挖掘,來了解顧客在其門店的購買習(xí)慣,適當(dāng)?shù)卣{(diào)整貨架,增加購買行為。然而,挖掘出來的規(guī)則在實(shí)際中并不是都有指導(dǎo)意義,比如說,如果一個客戶買了杯子,就會有40%的可能性買茶葉,但是我們不能依據(jù)這個就把杯子和茶葉放在一起出售,我們借助置信度和支持度這兩個評估指標(biāo)來對關(guān)聯(lián)規(guī)則進(jìn)行有價值的評估,設(shè)置最小的支持度和置信度使我們得到的關(guān)聯(lián)規(guī)則具有一定的參考價值。

2.2? ?相關(guān)概念

Apriori算法是關(guān)聯(lián)規(guī)則算法,是非常經(jīng)典的一種數(shù)據(jù)挖掘的算法,應(yīng)用十分廣泛,可以較好地發(fā)現(xiàn)數(shù)據(jù)之間的隱藏規(guī)則。

(1)項(xiàng)和項(xiàng)集。項(xiàng)為交易數(shù)據(jù)集中的每一種商品,項(xiàng)集為項(xiàng)的集合。

(2)事務(wù)。事務(wù)為交易數(shù)據(jù)集中對應(yīng)的每一條記錄。

(3)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則指的是在X出現(xiàn)的同時,Y也會出現(xiàn),其中X、Y均是I的真子集,并且二者交集不為空。

(4)支持度。支持度計算公式為:

表示XY同時出現(xiàn)的概率占總數(shù)的概率,表示X和Y兩個事件同時發(fā)生的概率。

(5)置信度。置信度計算公式為:

表示在Y出現(xiàn)的條件下X出現(xiàn)的條件概率。

(6)頻繁項(xiàng)集。頻繁項(xiàng)集是指支持度不低于最小支持度的閾值的項(xiàng)集。

(7)強(qiáng)規(guī)則。強(qiáng)規(guī)則是指同時滿足最小支持度閾值和最小置信度閾值的規(guī)則。

2.3? ?Apriori算法基本步驟與實(shí)現(xiàn)

Apriori算法的過程主要分為兩步[6]:根據(jù)支持度閾值找出所有的頻繁項(xiàng)集;通過置信度閾值找出頻繁項(xiàng)集中的強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法的基本步驟如下:

(1)首先掃描所有的數(shù)據(jù)集D,產(chǎn)生候選1-項(xiàng)集的集合C1。

(2)由候選1-項(xiàng)集的集合C1根據(jù)最小支持度產(chǎn)生頻繁1-項(xiàng)集的集合L1。

(3)對k>1,重復(fù)執(zhí)行步驟(4)、(5)、(6)。

(4)由Lk執(zhí)行連接和剪枝操作,產(chǎn)生候選(k+1)-項(xiàng)集的集合C(k+1)。

(5)根據(jù)最小支持度,由候選(k+1)-項(xiàng)集的集合C(k+1),產(chǎn)生頻繁(k+1)-項(xiàng)集的集合L(k+1)。

(6)若L≠Ф,則k=k+1,跳往步驟(4),否則往下執(zhí)行。

(7)根據(jù)最小置信度,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,程序結(jié)束。

設(shè)置好最小支持度閾值和最小置信度閾值之后,Apriori算法開始執(zhí)行,掃描數(shù)據(jù)集首先產(chǎn)生頻繁1項(xiàng)集,將得到的頻繁1項(xiàng)集進(jìn)行連接操作,再次掃描數(shù)據(jù)集D得到滿足最小支持度閾值的頻繁2項(xiàng)集,以此類推直到頻繁k項(xiàng)集[7]。

算法流程圖如圖1所示。

3? ?數(shù)據(jù)來源與處理(Data source and processing)

3.1? ?數(shù)據(jù)來源與特點(diǎn)

本文的數(shù)據(jù)來源是安徽省某三甲醫(yī)院2019年體檢中心的體檢數(shù)據(jù),一共篩選2,345 份體檢數(shù)據(jù)報告,采集的指標(biāo)主要包含基本人物信息(性別、年齡等)以及相關(guān)的檢查指標(biāo)屬性特征。

醫(yī)療數(shù)據(jù)的數(shù)據(jù)類型繁多。醫(yī)療數(shù)據(jù)包括純數(shù)據(jù)、信號、CT、B超等醫(yī)療影像數(shù)據(jù),文本類型有患者記錄的身份、癥狀描述、檢測和文本表示的診斷等多種模式,其數(shù)字類型有些是連續(xù)型數(shù)據(jù),有些是離散型數(shù)據(jù)[8],存在缺失值、異常值和重復(fù)值。收集到的醫(yī)療數(shù)據(jù)往往是不完整的,病人由于隱私不愿意透露或者由于人工記錄的偏差、數(shù)據(jù)的不清晰表達(dá)、記錄本身的不確定性等都造成了醫(yī)療信息的不完整性,且醫(yī)院每天收集的大量數(shù)據(jù)可能會包含重復(fù)、無關(guān)緊要的數(shù)據(jù)[9]。數(shù)據(jù)中涉及個人的信息,如姓名、住址、身份證信息等,需要對隱私性、敏感性信息進(jìn)行過濾。

3.2? ?數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是進(jìn)行數(shù)據(jù)挖掘必不可少的關(guān)鍵一步,目的是讓數(shù)據(jù)適應(yīng)模型,匹配模型的需求。數(shù)據(jù)預(yù)處理分為四個部分:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約[10]。

醫(yī)療原始信息包含體檢人員的基本信息表和體檢信息表,其中基本信息表包含姓名、住址、身份證號等一些敏感信息,這些涉及個人隱私的信息,需要進(jìn)行脫敏處理;體檢信息表包括血壓、血脂、血糖等疾病情況,這些數(shù)據(jù)需要整理進(jìn)行挖掘。數(shù)據(jù)清洗包括缺失值和異常值的處理。對于缺失值的處理,咨詢相關(guān)醫(yī)護(hù)人員或者查詢相關(guān)病例記錄進(jìn)行空缺值填充,對于查詢不到的缺失值用均值填補(bǔ),異常值直接刪除。數(shù)據(jù)集成是將多個數(shù)據(jù)源放在統(tǒng)一的倉庫中,本文重點(diǎn)研究的是中老年人體檢狀況,篩選出40歲及以上的群體,針對其性別、年齡、高血壓、高血脂、高血糖等檢驗(yàn)指標(biāo)信息之間的相關(guān)聯(lián)性,剔除那些與研究不相關(guān)的屬性記錄,通過數(shù)據(jù)集成將相關(guān)表中需要研究的屬性信息集成到一個表中,將數(shù)據(jù)類型和數(shù)據(jù)單位進(jìn)行統(tǒng)一化處理。數(shù)據(jù)變換是對數(shù)據(jù)進(jìn)行規(guī)范化處理,本文中主要是數(shù)據(jù)離散化,進(jìn)行關(guān)聯(lián)分析。首先屬性項(xiàng)不能是數(shù)值型的,像年齡、膽固醇水平等都是連續(xù)數(shù)值型數(shù)據(jù)類型,不能進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)格式轉(zhuǎn)換成英文或者數(shù)字化可以提高算法的運(yùn)算效率,所以本文通過一定的標(biāo)準(zhǔn)把現(xiàn)有的文字?jǐn)?shù)據(jù)格式進(jìn)行英文字母、數(shù)字化或布爾值轉(zhuǎn)換處理。這樣做也是為了用關(guān)聯(lián)規(guī)則更好地挖掘中老年群體病癥之間的關(guān)系,滿足數(shù)據(jù)挖掘的要求,比如年齡可以劃分為兩個年齡段:[40,65)、[65,max),那么每個人的年齡就分別對應(yīng)于相應(yīng)的年齡段了,數(shù)值型數(shù)據(jù)變成離散化,其他幾列連續(xù)數(shù)值型也是采用類似的方法離散化[11]。

因此,本文結(jié)合Apriori算法和醫(yī)療數(shù)據(jù)特點(diǎn),查閱相關(guān)醫(yī)學(xué)資料,對數(shù)據(jù)進(jìn)行適當(dāng)?shù)碾x散化處理,將數(shù)據(jù)格式轉(zhuǎn)換成事務(wù)性庫,具體如表1所示。

得到事務(wù)項(xiàng)映射表之后,我們就可以利用該表得到具體需要挖掘的事務(wù)數(shù)據(jù)庫D。掃描關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)表,對于每次掃描到的屬性值,根據(jù)已經(jīng)定好的事務(wù)項(xiàng)參照表,將該屬性值所對應(yīng)的具體編號寫入事務(wù)表中,如表2所示。

數(shù)據(jù)的預(yù)處理階段已經(jīng)完成,接下來用Apriori算法挖掘的事務(wù)數(shù)據(jù)庫來進(jìn)行關(guān)聯(lián)規(guī)則的分析。

4? ?應(yīng)用與實(shí)現(xiàn)(Application and implementation)

運(yùn)用Python軟件進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)置的最小支持度為0.03,置信度為0.80,由此挖掘得到以下有意義的規(guī)則和相關(guān)參數(shù),如表3所示。

本文給出了置信度為前26的排名。通過以上規(guī)則,在中老年人群中,我們可以得出以下結(jié)論:

(1)吸煙、體重超重,還經(jīng)常喝酒的以中老年男性群體為主。

(2)針對老年人群,心電圖異常、有脂肪肝,并且尿常規(guī)異常的,一般都體重超重。

(3)體重超重、心電圖異常并且膽固醇較高的中老年女性居多。

(4)年齡在65歲以上的老年人中,血糖較高的人群體重一般超重。

(5)心電圖異常、尿常規(guī)異常、有脂肪肝并且甘油三酯偏高的人群超重。

(6)中老年男性中,有脂肪肝和高血壓的體重一般偏重。

針對老年人群,在大多數(shù)人的認(rèn)知里,“三高”等一系列慢性病似乎已經(jīng)成為這個年齡段的代表符號。從本論文的研究結(jié)果可以看出,在中老年人這一群體中,隨著年齡的增加、生活方式的改變、基礎(chǔ)代謝率的下降,由于缺乏運(yùn)動、社交增多以及其他不良的飲食習(xí)慣等原因,使得肥胖的發(fā)生率增加,偏重的體質(zhì)大概率會伴隨高血脂和高血壓等一系列不良后果,給中老年人的生活質(zhì)量帶來極大的影響。為了有效地避免這些病癥,引導(dǎo)中老年人群建立健康的生活方式,通過合理的飲食、科學(xué)的營養(yǎng)搭配、適當(dāng)?shù)腻憻?、良好的?xí)

慣、保持身心愉悅,來維持合理的體重,有效地避免體重過高帶來的一些病癥,讓中老年人群有一個健康的晚年生活。另有研究發(fā)現(xiàn),在中老年人群中,吸煙并體重超重還經(jīng)常喝酒的大部分都是男性,男性成為吸煙最大的群體。吸煙帶來的危害與超重伴隨的病癥,會對老年生活帶來極大的影響,戒煙戒酒有利于健康的生活[12-13]。

5? ?結(jié)論(Conclusion)

本文利用中老年人群的體檢報告信息,使用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析Apriori算法挖掘體檢報告中的各個生理指標(biāo)之間的相關(guān)性,分析了疾病與疾病之間的潛在聯(lián)系 ,這樣可以在醫(yī)療大數(shù)據(jù)中發(fā)現(xiàn)潛藏的信息并且能夠得出關(guān)聯(lián)規(guī)則的可信度,為醫(yī)生診斷病情提供輔助和參考,避免因醫(yī)生的疏忽而產(chǎn)生誤診,也給患者提供了自身的病情預(yù)警,做到早發(fā)現(xiàn)、早診斷、早治療[14],同時也證明了利用關(guān)聯(lián)規(guī)則Apriori算法對醫(yī)療大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘所得出的規(guī)則有重要的參考價值。

參考文獻(xiàn)(References)

[1] 閆茜.海量醫(yī)療數(shù)據(jù)挖掘平臺的研究與設(shè)計[D].武漢:武漢理工大學(xué),2014.

[2] 楊余壘.改進(jìn)的關(guān)聯(lián)規(guī)則算法在慢性病數(shù)據(jù)挖掘中的研究[D].浙江:浙江理工大學(xué),2017.

[3] 趙龍.基于多維關(guān)聯(lián)規(guī)則挖掘算法的應(yīng)用研究[D].浙江:中國計量大學(xué),2017.

[4] 呂石山.基于Apriori關(guān)聯(lián)規(guī)則算法的股票操縱行為識別研究[D].蘭州:蘭州大學(xué),2020.

[5] AGRAWAL R, IMIELINSKI T, SWAMI A, et al. Mining association rules between sets of items in large databases[J]. ACM SIGMOD Record, 1993,22(2):207-216.

[6] CHARANJEET K. Association rule mining using apriori algorithm: A survey[J]. International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(6):2081-2084.

[7] 孫杏.基于關(guān)聯(lián)算法的人體檢測數(shù)據(jù)的處理與分析[D].西安:西安科技大學(xué),2019.

[8] 王寧.基于Hadoop平臺的海量醫(yī)療數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2014.

[9] 尤婷婷.健康大數(shù)據(jù)預(yù)處理技術(shù)及其應(yīng)用[D].四川:電子科技大學(xué),2017.

[10] 張云洋.面向醫(yī)療質(zhì)量的病案首頁數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[D].天津:天津大學(xué),2009.

[11] 王越,桂袁義.基于關(guān)聯(lián)分析的數(shù)據(jù)挖掘在體檢CRM中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(自然科學(xué)版),2010,24(03):36-42.

[12] 賀媛,曾強(qiáng),趙小蘭.中國成人肥胖、中心性肥胖與高血壓和糖尿病的相關(guān)性研究[J].解放軍醫(yī)學(xué)雜志,2015,40(10):803-808.

[13] 張瑩,焦怡琳,陸凱,等.中國成年人超重肥胖影響因素meta分析[J].中國公共衛(wèi)生,2015,31(02):232-235.

[14] 李強(qiáng),陳東濤,羅先錄.關(guān)聯(lián)規(guī)則算法在醫(yī)療大數(shù)據(jù)中的應(yīng)用探索[J].軟件工程,2019,22(01):12-15.

作者簡介:

郭慧敏(1995-),女,碩士生.研究領(lǐng)域:數(shù)據(jù)分析與挖掘.

猜你喜歡
Apriori算法關(guān)聯(lián)分析數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動力學(xué)關(guān)聯(lián)分析模型
基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
關(guān)聯(lián)分析技術(shù)在學(xué)生成績分析中的應(yīng)用
基于云平臺MapReduce的Apriori算法研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)分析的學(xué)生活動參與度與高校社團(tuán)管理實(shí)證研究
不同的數(shù)據(jù)挖掘方法分類對比研究
大名县| 泾源县| 板桥市| 灵石县| 仲巴县| 三门县| 漾濞| 文成县| 波密县| 新民市| 哈尔滨市| 平果县| 乌什县| 卢湾区| 修武县| 横峰县| 当阳市| 三门县| 山西省| 定日县| 珠海市| 义乌市| 阿巴嘎旗| 浑源县| 牟定县| 抚州市| 迁安市| 江油市| 阿巴嘎旗| 外汇| 潜江市| 正定县| 宜宾市| 台北县| 休宁县| 西和县| 鄂托克前旗| 连州市| 合川市| 喜德县| 名山县|