王國強(qiáng) 闞紅星 王宗殿
摘要:糖尿病對人類健康的危害十分嚴(yán)重,且患病人數(shù)逐年升高,但診斷正確率不高。收集中醫(yī)專家在診斷糖尿病時積累的大量寶貴臨床數(shù)據(jù),建立糖尿病醫(yī)藥數(shù)據(jù)庫,在此基礎(chǔ)上綜合運(yùn)用多種數(shù)據(jù)挖掘技術(shù),開發(fā)出糖尿病診斷系統(tǒng)。可以根據(jù)病人體檢信息自動地診斷糖尿病,從而輔助醫(yī)生工作,提高工作效率,減少誤診概率。相比于單個數(shù)據(jù)挖掘技術(shù),利用群體智慧提高了診斷準(zhǔn)確度;此外還可以利用新增病人的數(shù)據(jù)進(jìn)行優(yōu)化,進(jìn)一步提高診斷準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了系統(tǒng)的正確性和有效性。
關(guān)鍵詞:糖尿病醫(yī)藥數(shù)據(jù)庫;中醫(yī)專家;糖尿病診斷系統(tǒng);數(shù)據(jù)挖掘技術(shù);群體智慧
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)23-5547-05
Diabetes Diagnosis System Integrated with a Variety of Data Mining Technology
WANG Guo -qiang,KAN Hong-xing,WANG Zong-dian
(School of Medical Information Technology, Anhui University of Traditional Chinese Medicine, Hefei 230031, China)
Abstract: Diabetes seriously hazards to human health, and the number of patients increase year by year, but the correct diagnosis rate is not high. Collect the much valuable clinical information in the process of diabetes diagnosis of TCM(Traditional Chinese Medicine) expert, es? tablish the diabetes medicine database, and combine various data mining technologies to develop a diabetes diagnosis software system. It can automatically diagnose diabetes based on the patient medical information, which can assist the work of a doctor, improve the work efficien? cy, and reduce the misdiagnosis probability. Compared to the single data mining technology, this system uses the wisdom of crowds to im? prove the diagnostic accuracy. Moreover, It can be optimized with the new patient data, and further improve the diagnostic accuracy. The experiment results testify the validity of the system.
Key words:diabetes medicine database; TCM(traditional Chinese medicine) expert; diabetes diagnosis system; data mining technologies; the wisdom of crowds
1概述
據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示,截至2005年我國糖尿病患者已達(dá)3500萬人,占世界糖尿病人群總數(shù)的1/5,患病率居世界第二位,并且以每天至少3000人的速度增加,每年增加超過120萬人。預(yù)計(jì)到2010年,我國糖尿病人口總數(shù)將猛增至8000萬至1億人[1-2]。目前我國年齡在35歲~74歲的成人糖尿病的診斷率僅為23.6%。就是說,有3/4的病人不知道自己患了糖尿病。在就診病人中,治療達(dá)標(biāo)的病人僅占33%。大多數(shù)病人只有被動地等到出現(xiàn)并發(fā)癥時才去就醫(yī)。我國糖尿病防治狀況更不容樂觀[3]。
根據(jù)上述的資料顯示,我國的糖尿病患者無論從人數(shù)規(guī)模還是增長比率都相當(dāng)驚人,但是相對應(yīng)的提前檢測和病后治療卻處于嚴(yán)重不足的情況。如何解決這個落差,關(guān)系到我們的全民健康和社會進(jìn)步。
糖尿病中醫(yī)專家在診斷糖尿病的過程中積累了大量的、寶貴的臨床信息資源(如病人資料、專家經(jīng)驗(yàn)等),而數(shù)據(jù)挖掘技術(shù)能從大量的數(shù)據(jù)資源中挖掘出深層次的、隱含的、有價(jià)值的知識。因此如果將大量的臨床信息資源整合到醫(yī)藥信息數(shù)據(jù)庫中,然后將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)信息數(shù)據(jù)庫中,可以挖掘出其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生特別是年輕醫(yī)生進(jìn)行疾病診斷。數(shù)據(jù)挖掘還可能挖掘出一些潛在的、隱含的、甚至中醫(yī)專家都沒有發(fā)現(xiàn)的知識,從而能幫助醫(yī)生優(yōu)化傳統(tǒng)的診斷方法和醫(yī)療方案。
2研究背景
國內(nèi)外已有一些基于數(shù)據(jù)挖掘方法的糖尿病診斷研究。
肖永華等收集了128例呂仁和教授診治的糖尿病患者的醫(yī)案,存儲于"中醫(yī)醫(yī)案數(shù)據(jù)庫"中,對糖尿病類型、分期、并發(fā)癥、病因、病位等的出現(xiàn)幾率及其關(guān)系進(jìn)行相關(guān)的查詢和分析總結(jié)[4]。該研究客觀反映了呂教授治療糖尿病的臨床思路與經(jīng)驗(yàn),利于專家學(xué)術(shù)思想的總結(jié),但沒有最終形成實(shí)用的糖尿病診斷預(yù)測系統(tǒng)。
(3)神經(jīng)網(wǎng)絡(luò)挖掘模型
圖3三種挖掘模型的結(jié)構(gòu)圖
2)利用糖尿病數(shù)據(jù)庫數(shù)據(jù)分別訓(xùn)練3種挖掘模型
在Visual Studio 2005中,針對3種挖掘模型,分別點(diǎn)擊菜單命令“挖掘模型|處理”,在打開的“處理挖掘模型”對話框中單擊“運(yùn)行”按鈕,即可使用視圖“view_diabetes_diagnosis”中的數(shù)據(jù)來訓(xùn)練挖掘模型,訓(xùn)練完成后將生成3個可以對病人數(shù)據(jù)進(jìn)行診斷的挖掘模型。
3)利用群體智慧綜合多種數(shù)據(jù)挖掘模型
我們現(xiàn)在總共有3個數(shù)據(jù)挖掘模型,對于一個新的病人信息,每一個挖掘模型都能判斷出來一個診斷結(jié)果,當(dāng)3個挖掘模型得出的診斷結(jié)果不一致,我們采用群體智慧的辦法,即“三選二”,以占大多數(shù)的診斷結(jié)果為準(zhǔn)。這也符合我們在日常生活中“少數(shù)服從多數(shù)”的原則。
4.1系統(tǒng)測試的診斷準(zhǔn)確度分析
下面的圖4分別列出了決策樹模型、關(guān)聯(lián)規(guī)則模型、神經(jīng)網(wǎng)絡(luò)模型、以及利用群體智慧的綜合模型的診斷準(zhǔn)確度圖。從圖中可以看到,相比于單個數(shù)據(jù)挖掘模型來說,使用群體智慧的綜合模型可以一定程度上提高診斷的準(zhǔn)確度。4.2系統(tǒng)優(yōu)化的診斷準(zhǔn)確度分析
由于糖尿病數(shù)據(jù)庫中的病人數(shù)據(jù)不足,可能會導(dǎo)致系統(tǒng)的準(zhǔn)確度不是很高,但本系統(tǒng)可以利用新增病人數(shù)據(jù)不斷地自我訓(xùn)練調(diào)整模型,逐步提高診斷的準(zhǔn)確度。
優(yōu)化的過程如下:當(dāng)有新的病人數(shù)據(jù)時,先利用該系統(tǒng)得出一個診斷結(jié)果,再由中醫(yī)專家對系統(tǒng)的診斷結(jié)果進(jìn)行修正,并將修正后的數(shù)據(jù)加入到糖尿病數(shù)據(jù)庫中。如果發(fā)現(xiàn)系統(tǒng)的診斷結(jié)果和專家的不一致,則立即利用新的糖尿病數(shù)據(jù)庫重新訓(xùn)練,得到一個新的綜合模型;如果發(fā)現(xiàn)系統(tǒng)的診斷結(jié)果和專家的一致,可以暫緩重新訓(xùn)練,當(dāng)積累到一定個數(shù)的新數(shù)據(jù)后再重新訓(xùn)練,得到一個新的綜合模型。然后再使用新的綜合模型去診斷病人,如此重復(fù)。
為了證明優(yōu)化過程的有效性,我們將現(xiàn)有的糖尿病數(shù)據(jù)分成兩份,一份占80%,先用這部分?jǐn)?shù)據(jù)訓(xùn)練得到一個綜合模型,另一
糖尿病中醫(yī)專家在診斷糖尿病的過程中積累了大量的、寶貴的臨床信息資源,如何在這大量的數(shù)據(jù)資源中挖掘深層次的、隱含的、有價(jià)值的知識,是一個難題。該文基于安徽中醫(yī)附院的糖尿病診斷相關(guān)數(shù)據(jù),建立基于SQL Server 2005的糖尿病醫(yī)藥數(shù)據(jù)庫,然后在此基礎(chǔ)上綜合Visual Studio 2005中的多種數(shù)據(jù)挖掘模型來診斷糖尿病,這種利用群體智慧的綜合模型的診斷準(zhǔn)確度將比單個模型的診斷準(zhǔn)確度要高。該系統(tǒng)在投入使用后,隨著患者及其家屬信息以及專家知識的增加,還能自適應(yīng)地改進(jìn)和重新訓(xùn)練模型,從而進(jìn)一步增加其診斷準(zhǔn)確度。實(shí)驗(yàn)結(jié)果證明了其正確性和有效性。
下一步的工作包括:改進(jìn)系統(tǒng)的人機(jī)界面,方便醫(yī)護(hù)人員使用;加入更多的數(shù)據(jù)挖掘模型。