沈同平 谷宗運(yùn) 方芳
摘要:在對(duì)哮喘疾病分析的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù)的粗糙集理論,對(duì)哮喘病人生理數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行醫(yī)學(xué)數(shù)據(jù)挖掘,從中尋找哮喘病人的發(fā)病特征及其相關(guān)性,為醫(yī)生對(duì)哮喘病人進(jìn)行診斷、治療和研究工作提供數(shù)據(jù)支撐,并且在對(duì)哮喘疾病數(shù)據(jù)發(fā)掘的基礎(chǔ)上,對(duì)哮喘疾病的臨床研究、診斷、治療、病癥關(guān)系等4大類影響因素進(jìn)行分析與管理,提高哮喘疾病防治的水平。
關(guān)鍵詞:數(shù)據(jù)挖掘;哮喘;粗糙集
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)33-7827-02
Abstract: Based on the analysis of asthma, with the technology of data mining, asthma physiological data in the database of medical data mining, looking for the pathogenic characteristics and correlation between asthma patients from asthma, reveal the disease before the onset of symptoms ,and provide the data support for doctor in diagnosis and treatment of patients with asthma and research work, and on the base of asthmatic diseases in data mining, factors of asthma clinical research, diagnosis, treatment, disease and syndrome symptom relationship such as the 4 major categories of influence analysis and management, to improve disease prevention and treatment of asthma level.
Key words: data mining; asthma; rough set
1 概述
哮喘俗稱“吼病”,祖國(guó)醫(yī)學(xué)稱“哮證”,是世界公認(rèn)的醫(yī)學(xué)難題,被世界衛(wèi)生組織列為疾病中四大頑癥之一。而且據(jù)濟(jì)南哮喘病醫(yī)院近幾十年的調(diào)查,在我國(guó)至少有2000萬(wàn)以上哮喘患者,但只有不足5%的哮喘患者接受過(guò)規(guī)范化的治療。中國(guó)工程院院士、中華醫(yī)學(xué)會(huì)會(huì)長(zhǎng)、呼吸病學(xué)分會(huì)名譽(yù)主任委員會(huì)鐘南山指出:哮喘是能夠進(jìn)行控制的,通過(guò)實(shí)施以控制到臨床治愈為目的的疾病評(píng)估、疾病治療和疾病監(jiān)測(cè)的“三步驟”。
數(shù)據(jù)挖掘(Data Mining),在不加區(qū)分的情況下也被叫做數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱含在其中的、可信、新穎、人們事先不知道的、但又是潛在有用的模式的高級(jí)處理過(guò)程。數(shù)據(jù)挖掘是由統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)、可視化技術(shù)等多個(gè)領(lǐng)域相融合而形成的一個(gè)交叉學(xué)科[1]。
基于粗糙集的數(shù)據(jù)挖掘技術(shù)通過(guò)數(shù)據(jù)訓(xùn)練集所訓(xùn)練得到的算法模型,能夠有效用于疾病診斷。該挖掘技術(shù)已應(yīng)用于胸痛發(fā)展結(jié)果的預(yù)測(cè)、ICU應(yīng)急診斷、類風(fēng)濕類型的辨別診斷、乳腺疾病診斷、胎兒早產(chǎn)的診斷、肝病分類診斷、急性闌尾炎分類等診斷,在醫(yī)學(xué)數(shù)據(jù)挖掘中有著良好的發(fā)展前景[2]。
2 醫(yī)學(xué)數(shù)據(jù)挖掘流程
數(shù)據(jù)挖掘是一個(gè)完整的過(guò)程、該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘出先前未知的,有效的,可實(shí)用的信息。并使用這些信息做出決策或豐富的知識(shí)。醫(yī)學(xué)數(shù)據(jù)挖掘的基本過(guò)程如下:(1) 確定業(yè)務(wù)對(duì)象清晰地進(jìn)行問(wèn)題定義,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。(2) 數(shù)據(jù)準(zhǔn)備。搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,挖掘應(yīng)用的數(shù)據(jù)。建立真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。(3) 數(shù)據(jù)挖掘。對(duì)準(zhǔn)備好的數(shù)掘進(jìn)行挖掘除了選擇合適的挖掘算法外,自動(dòng)地完成。(4) 結(jié)果分析。其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。(5) 知識(shí)應(yīng)用。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去[3]。
3 哮喘疾病數(shù)據(jù)挖掘流程
哮喘疾病的數(shù)據(jù)挖掘研究包括六個(gè)方面:數(shù)據(jù)采集、特征值的提取與預(yù)處理、數(shù)據(jù)挖掘、建立問(wèn)題解決模型、模型驗(yàn)證、哮喘數(shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)。
1) 數(shù)據(jù)采集:需要?jiǎng)?chuàng)建兩個(gè)數(shù)據(jù)庫(kù),一個(gè)是正常人的生理數(shù)據(jù)庫(kù);另一個(gè)是哮喘病人的生理數(shù)據(jù)庫(kù)。在數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫(kù)時(shí),要對(duì)正常人和哮喘病人的生理情況進(jìn)行分類,內(nèi)容包括患者一般情況、病史、診斷、證型、治法、方藥和相關(guān)理化檢查等內(nèi)容[4]。
2) 特征值的提取與預(yù)處理:本項(xiàng)目共采集哮喘相關(guān)數(shù)據(jù)300例,其中正常人生理數(shù)據(jù)50例;輕度哮喘病人170例;重度哮喘病人80例。從300例數(shù)據(jù)中提取特征值,經(jīng)過(guò)與臨床醫(yī)生的反復(fù)討論,該文采取人工劃定方法提取特征值,選取病人年齡、家族患病史、哮喘疾病患病時(shí)間、哮喘發(fā)作的程度等15個(gè)屬性作為條件屬性,分別用c1~c15表示;診斷結(jié)果用d1表示,d1的取值分為三類:正常(1)、輕度(2)、重度(3)。在應(yīng)用算法前需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)連續(xù)數(shù)據(jù)離散化,對(duì)于病例中的缺損值,取樣本中出現(xiàn)最頻繁的值。例如將年齡屬性值c1離散化,根據(jù)哮喘病人年齡分布特點(diǎn),將其劃分為:<20歲(1)、20~30歲(2)、30~35歲(3)、36~40歲(4)、40~50歲(5)及>50歲(6)共6個(gè)階段,分別用數(shù)值1~6來(lái)表示,并用同樣方法處理其它條件屬性值數(shù)據(jù)的離散化。
3) 數(shù)據(jù)挖掘:利用粗糙集理論,在中醫(yī)理論指導(dǎo)下, 對(duì)哮喘疾病數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、綜合、識(shí)別病癥,推斷病情,并進(jìn)行分類。因此,癥狀是分類診斷的主要依據(jù),以此建立信息表。令S={s1,s2,…,sn}為對(duì)象集,si表示病例;A={a1,a2,…,an}為概念集,ai表示臨床癥狀;V是決策,表示屬于哪種類風(fēng)濕病。在定義好信息表的基礎(chǔ)上,就進(jìn)行屬性約簡(jiǎn),得到下近似集與上近似集,,從而抽取出中醫(yī)診斷的確定規(guī)則與可能規(guī)則。通過(guò)建立信息表,進(jìn)行約簡(jiǎn),再?gòu)闹谐槿∫?guī)則,避開(kāi)求隸度等。最后把臨床癥狀與知識(shí)挖掘有機(jī)的結(jié)合起來(lái),提高哮喘疾病診斷的思維邏輯的嚴(yán)密性。
4) 建立問(wèn)題解決模型:根據(jù)醫(yī)生的專業(yè)知識(shí),對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行分析和解釋,嘗試建立問(wèn)題解決模型。
5) 模型驗(yàn)證:運(yùn)用新的醫(yī)學(xué)病例數(shù)據(jù)作為測(cè)試樣本,對(duì)已建立的問(wèn)題解決模型進(jìn)行測(cè)試和驗(yàn)證,并分析其中影響準(zhǔn)確率的因素。在實(shí)際操作中可能要反復(fù)經(jīng)過(guò)幾個(gè)來(lái)回,建立有實(shí)際指導(dǎo)意義的問(wèn)題解決模型[5]。
6) 哮喘疾病數(shù)據(jù)庫(kù)管理系統(tǒng):根據(jù)上述步驟對(duì)哮喘疾病數(shù)據(jù)發(fā)掘得出的規(guī)則和結(jié)論,并結(jié)合醫(yī)生的專用知識(shí)和經(jīng)驗(yàn),利用微軟公司的計(jì)算機(jī)開(kāi)發(fā)語(yǔ)言C#,進(jìn)行哮喘疾病數(shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)。
4 結(jié)束語(yǔ)
該文研究意義就是利用數(shù)據(jù)挖掘技術(shù)的粗糙集理論對(duì)哮喘病人生理數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行醫(yī)學(xué)數(shù)據(jù)挖掘,從中尋找哮喘病人的發(fā)病特征及其相關(guān)性,揭示哮喘疾病發(fā)作前的癥狀,提早發(fā)現(xiàn)哮喘疾病發(fā)生,對(duì)哮喘病人提出預(yù)警,并為醫(yī)生對(duì)哮喘病人進(jìn)行診斷、治療和研究工作提供數(shù)據(jù)支撐,并且在對(duì)哮喘疾病數(shù)據(jù)發(fā)掘的基礎(chǔ)上,開(kāi)發(fā)哮喘疾病數(shù)據(jù)庫(kù)管理系統(tǒng),對(duì)哮喘疾病的臨床研究、診斷、治療、病證癥關(guān)系等4大類影響因素進(jìn)行分析與管理,提高哮喘疾病防治的水平。
參考文獻(xiàn):
[1] 洪弘,李玲娟.醫(yī)療數(shù)據(jù)挖掘的特點(diǎn)、過(guò)程及方法[J].價(jià)值工程,2011(32).
[2] 劉申菊,田丹.淺談數(shù)據(jù)挖掘的應(yīng)用[J].價(jià)值工程,2010(36).
[3] 龔著琳,陳瑛,蘇懿,劉雅琴,徐立鈞.數(shù)據(jù)挖掘在生物醫(yī)學(xué)數(shù)據(jù)分析中的應(yīng)用[J].上海交通大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2010(11).
[4] 葉明全,伍長(zhǎng)榮,胡學(xué)鋼.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010(21).
[5] 李運(yùn)賢,杜瑞卿,王相東,冷輝.粗糙集理論在酒精性肝病診斷中的應(yīng)用研究[J].北京生物醫(yī)學(xué)工程, 2006(3).