馬夢羽 沈璐 文天才 夏勇
摘要:經(jīng)過中華民族幾千年的傳承和發(fā)展,中醫(yī)學(xué)形成了特有的理論體系,其療效受到廣泛認(rèn)可,但因中醫(yī)理論更關(guān)注有關(guān)疾病的癥、治、效之間的關(guān)聯(lián)關(guān)系,而不是現(xiàn)代自然科學(xué)所探究的因果關(guān)系,導(dǎo)致其科學(xué)性屢遭質(zhì)疑。近年來,基于真實(shí)世界的臨床研究模式和“大數(shù)據(jù)”理念日益受到重視,因此,越來越多的研究人員開始將研究重點(diǎn)放在疾病干預(yù)措施與結(jié)局指標(biāo)的相關(guān)關(guān)系上,這一轉(zhuǎn)變以及計(jì)算機(jī)數(shù)據(jù)挖掘與分析技術(shù)的進(jìn)步,無疑給中醫(yī)理論與實(shí)踐的進(jìn)一步發(fā)展帶來重大契機(jī)。本文歸納總結(jié)了近年來中醫(yī)診療中用到的數(shù)據(jù)挖掘技術(shù),如聚類分析、決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和多示例學(xué)習(xí)等,展示了如何運(yùn)用這些方法從大量中醫(yī)病癥數(shù)據(jù)中揭示中醫(yī)診療規(guī)律,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的知識,以數(shù)據(jù)為支撐而顯示中醫(yī)學(xué)的有效性。
關(guān)鍵字:中醫(yī)診療;數(shù)據(jù)挖掘;聚類分析;決策樹;多示例學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);述評
DOI:10.3969/j.issn.1005-5304.2016.07.037
中圖分類號:R2-05 文獻(xiàn)標(biāo)識碼:A 文章編號:1005-5304(2016)07-0132-05
Application of Data Mining Technology for Data Analysis of TCM Diagnosis and Treatment MA Meng-yu1, SHEN Lu2, WEN Tian-cai1,3, XIA Yong1 (1. School of Computer Science, Northwestern Polytechnical University, Xian 710072, China; 2. Shaanxi Provincial Hospital of Traditional Chinese Medicine, Xian 710003, China; 3. China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: Through several thousand years inheritance and development by Chinese people, traditional Chinese medicine (TCM) has formed its unique theoretic system, whose efficacy has been widely accepted. However, because TCM theory focuses on the relationships among syndromes, treatment and efficacy, instead of the cause-and-effect relationship explored by modern natural science, the scientificity of TCM has always been questioned. In recent years, because virtual-world clinical research mode and the concept of “big data” were emphasized, increasing researchers began to put their research emphasis on the correlativity between intervening measures of diseases and outcome indicators. This change and the advancement of computer data mining and analysis technology, bring great opportunities for the further development of TCM theory and practice. This article concluded data mining technology used in TCM diagnosis and treatment in recent years, such as clustering analysis, decision tree, Bayesian network, neural network and multi-instance learning, which showed how to apply these methods to reveal rules of TCM diagnosis and treatment from a large number of TCM syndrome data, find knowledge hidden in data, and show TCM effectiveness supported by data.
Key words: traditional Chinese medicine diagnosis and treatment; data mining; cluster analysis; decision tree; multi-instance learning; neural network; review
中醫(yī)學(xué)是以中醫(yī)藥理論與實(shí)踐經(jīng)驗(yàn)為主體,研究人類生命活動(dòng)中健康與疾病轉(zhuǎn)化規(guī)律及其預(yù)防、診斷、治療、康復(fù)和保健的綜合性科學(xué)[1]。傳統(tǒng)的中醫(yī)辨證診治過程主要依靠醫(yī)生的望、聞、問、切等主觀手段來獲取疾病資料,以取象比類的方法對病因病機(jī)進(jìn)行認(rèn)識,依據(jù)中藥的性味歸經(jīng)并進(jìn)行配伍來達(dá)到治
通訊作者:夏勇,E-mail:yxia@nwpu.edu.cn
療疾病的目的。由此可以看出,傳統(tǒng)中醫(yī)更關(guān)注有關(guān)疾病的癥、治、效之間關(guān)聯(lián)關(guān)系,而不是現(xiàn)代生物醫(yī)學(xué)所討論的因果關(guān)系。因此,中醫(yī)研究的范式與現(xiàn)代自然科學(xué)并不相同,由此導(dǎo)致中醫(yī)辨證論治的科學(xué)性屢遭質(zhì)疑。
然而,盡管現(xiàn)代生物醫(yī)學(xué)取得巨大的成功,但因人體是一套復(fù)雜巨系統(tǒng),即使運(yùn)用現(xiàn)代生物醫(yī)學(xué)也無法完全解釋疾病發(fā)生發(fā)展及診斷治療的全過程。近年來發(fā)展起來的基于真實(shí)世界的臨床研究模式和“大數(shù)據(jù)”理念,使研究者不需要再去刻意尋求疾病發(fā)生發(fā)展全過程的原理,而是將重點(diǎn)放在疾病干預(yù)措施與結(jié)局指標(biāo)的相關(guān)關(guān)系研究上,這無疑給中醫(yī)藥發(fā)展帶來重大契機(jī)[2]。而且,隨著各種新興觸感器,如舌診議、脈診儀、可穿戴設(shè)備等出現(xiàn)和應(yīng)用,以及醫(yī)院信息系統(tǒng)的普及,極大豐富了中醫(yī)數(shù)據(jù)。從數(shù)據(jù)入手,運(yùn)用智能計(jì)算機(jī)技術(shù),以“大數(shù)據(jù)”的思想分析挖掘中醫(yī)數(shù)據(jù)進(jìn)行中醫(yī)臨床研究已成為必然趨勢。
現(xiàn)代中醫(yī)醫(yī)院的診療數(shù)據(jù)具有明顯的“全數(shù)據(jù)”特點(diǎn),它不僅包括傳統(tǒng)中醫(yī)的望、聞、問、切信息,還包括各類理化生物學(xué)指標(biāo),包括本質(zhì)、現(xiàn)象、穩(wěn)定的、不穩(wěn)定的,形成全面的描述[3]。但與此同時(shí),中醫(yī)病例數(shù)據(jù)可能混雜有不規(guī)范描述、缺少定量的癥狀分析,往往以癥狀程度的輕、中、重來形容,造成數(shù)據(jù)清洗困難,具有系統(tǒng)性、整體性、復(fù)雜性、不確定性等特點(diǎn),難以適用于傳統(tǒng)的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘通過統(tǒng)計(jì)分析、信息檢索、機(jī)器學(xué)習(xí)和模式識別等諸多方法,尋找大數(shù)據(jù)下的隱藏知識和規(guī)律,現(xiàn)已廣泛用于處理醫(yī)學(xué)數(shù)據(jù)研究。常見的數(shù)據(jù)挖掘方法包括決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、聚類、多示例學(xué)習(xí)和多標(biāo)記學(xué)習(xí)等。筆者現(xiàn)對上述數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用情況總結(jié)如下。
1 聚類分析
聚類分析(cluster analysis),是在沒有先驗(yàn)知識的情況下,對無類別標(biāo)記的數(shù)據(jù)資料進(jìn)行分類,根據(jù)物以類聚的樸素道理,認(rèn)為同類的樣本之間距離小,不同類的樣本之間距離大,分類后使類間的相似性最小,而盡可能增大類內(nèi)的相似性。聚類分析常用于分析中醫(yī)診療中癥狀組合規(guī)律、用藥規(guī)律等,現(xiàn)已表明聚類分析在中醫(yī)診療領(lǐng)域具有一定推動(dòng)作用。
有研究收集國家級名老中醫(yī)治療腫瘤處方和肝病處方,采用關(guān)聯(lián)規(guī)則Apriori算法和復(fù)雜系統(tǒng)熵聚類方法計(jì)算得到處方中各單味藥物頻次、藥物組合頻次、藥物之間的關(guān)聯(lián)規(guī)則和核心組合等[4-5]。張氏[6]對350例肺癌患者癥狀、體征和舌脈象等臨床資料進(jìn)行聚類分析,將肺癌患者中醫(yī)證候分為痰濁阻肺證、氣虛證、肝郁化火證和瘀血阻絡(luò)證4類,結(jié)果解釋比例為71.58%,并初步確定了各證候的診斷要點(diǎn)。楊氏等[7]收集365例肝癌患者62項(xiàng)四診信息并量化計(jì)分,運(yùn)用聚類分析歸納出肝癌的中醫(yī)辨證分型為肝郁證、脾虛證、濕熱證、血瘀證及陰虛證,其中以脾虛證多見,肝郁證、陰虛證、血瘀證、濕熱證次之,由此認(rèn)為聚類分析結(jié)果有利于中醫(yī)證型規(guī)范化。盧氏等[8]通過制定“中醫(yī)證候臨床觀察表”,對106例兒童中間型β地中海貧血患者進(jìn)行中醫(yī)證候調(diào)查,采用聚類分析等統(tǒng)計(jì)學(xué)方法得出廣州地區(qū)中間型β地中海貧血患兒中醫(yī)證候分布順序?yàn)闅庋獌商撟C>肝腎陰虛證>脾腎陽虛證>陰陽兩虛證。
當(dāng)然,中醫(yī)癥候錯(cuò)綜復(fù)雜,使用聚類分析可能存在一些問題。首先,在聚類分析中,每個(gè)樣本只能被聚到某一類,而現(xiàn)實(shí)往往有許多患者屬于錯(cuò)雜體質(zhì),應(yīng)屬于多種證候。其次,聚類分析需要研究者憑借經(jīng)驗(yàn)及相關(guān)知識判定分為幾類,而不能根據(jù)數(shù)據(jù)自身結(jié)構(gòu)特點(diǎn)自主的判定分類數(shù)量。所以,研究者需要多次嘗試、反復(fù)分析如何定義聚類的數(shù)量及樣本間的距離才是最優(yōu)的。
2 決策樹
決策樹(decision tree)是一個(gè)樹形結(jié)構(gòu)的預(yù)測模型,樹中每個(gè)節(jié)點(diǎn)表示某個(gè)樣本屬性,每個(gè)分支則代表對該屬性的判斷,而每個(gè)葉子結(jié)點(diǎn)則對應(yīng)最終的類別。決策樹的學(xué)習(xí)速度很快,且不需要研究者學(xué)習(xí)與數(shù)據(jù)相關(guān)的背景知識,產(chǎn)生的分類規(guī)則簡單直觀,分類準(zhǔn)確率較高,是數(shù)據(jù)挖掘中常用的分類方法。最早的決策樹算法有ID3,后又發(fā)展形成C4.5、C5.0和CART算法,常用于歸納名老中醫(yī)辨證過程、論證中醫(yī)的診療準(zhǔn)則。
查氏等[9]收集397例已確診活動(dòng)期類風(fēng)濕性關(guān)節(jié)炎患者癥狀及檢查結(jié)果,構(gòu)造決策樹實(shí)現(xiàn)了證病信息和療效的相關(guān)關(guān)系探索,得出可從證候信息的角度獲得藥物治療的最佳適應(yīng)證,從而實(shí)現(xiàn)個(gè)體化治療。肖氏[10]收集了一位名老中醫(yī)的慢性胃炎臨床診斷醫(yī)案,構(gòu)造決策樹反映其辨證規(guī)律,并用“IF AND THEN”語句表示,如:IF喜熱喜暖=“正常”AND舌苔=“舌苔薄白”AND脈象=“脈細(xì)弦”AND性情=“性情急躁”,THEN分類證型=“肝胃不和證”,說明決策樹直觀有效。史氏等[11]收集了411例不穩(wěn)定性心絞痛病例,采用卡方自動(dòng)交互檢測決策樹方法從89個(gè)臨床常規(guī)檢測指標(biāo)中提取痰瘀互阻證的識別規(guī)律。結(jié)果顯示,該決策樹模型靈敏度為72.46%,特異度為81.29%,檢驗(yàn)正確率為79.81%。說明決策樹模型直觀簡潔,便于歸納識別規(guī)律有用信息,適用于研究總結(jié)癥狀與證型的對應(yīng)模式。
3 貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)(Bayesian networks)是一種概率圖模型,可用于預(yù)測,其結(jié)構(gòu)為一個(gè)有向無環(huán)圖(DAG),由節(jié)點(diǎn)和連接這些節(jié)點(diǎn)有向邊構(gòu)成。一般而言,節(jié)點(diǎn)表示隨機(jī)變量,可以是已知或未知參數(shù);節(jié)點(diǎn)間的有向邊記錄了兩節(jié)點(diǎn)間條件概率,以此類推表示所有節(jié)點(diǎn)間的關(guān)系。這種概率模型結(jié)構(gòu)能充分利用先驗(yàn)知識,可以處理有噪聲、不完全、不精確的知識,所以被多次運(yùn)用到中醫(yī)診療問題上。運(yùn)用貝葉斯網(wǎng)絡(luò)可以揭示癥狀之間及癥狀與證型之間的關(guān)系,定量評判各癥狀對準(zhǔn)確辨證的影響,從而歸納出該證型具有代表性的癥狀,不僅有助于確定證候診斷的標(biāo)準(zhǔn)和規(guī)范,還可作為輔助診療的參考[12]。但是,貝葉斯網(wǎng)絡(luò)的建造是一個(gè)復(fù)雜的任務(wù),需要該領(lǐng)域?qū)<业膮⑴c并不斷完善;其次,如果各節(jié)點(diǎn)之間關(guān)系復(fù)雜,那么條件概率表就會(huì)變得難以計(jì)算且不便使用。
吳氏等[13]收集了115例名老中醫(yī)的冠心病醫(yī)案,運(yùn)用貝葉斯網(wǎng)絡(luò)提取常見癥候要素,如血瘀、痰濁、氣虛、陽虛等8個(gè),貝葉斯網(wǎng)絡(luò)以條件概率形式表示出各種癥狀在中醫(yī)診療中的貢獻(xiàn)度,將名老中醫(yī)的辨證經(jīng)驗(yàn)轉(zhuǎn)化成定量表示,對中醫(yī)經(jīng)驗(yàn)的傳承發(fā)展有十分重大的意義。徐氏等[14]收集了835例冠心病患者信息,構(gòu)造貝葉斯網(wǎng)絡(luò)對四診證候信息進(jìn)行分類識別,其中心氣虛、心陽虛、心陰虛、血瘀、痰濁5個(gè)證型的識別率分別為69.34%、84.85%、65.12%、83.87%和65.12%。張氏等[15]對287例肝炎后肝硬化的癥狀、體征,利用樹增廣的樸素貝葉斯分類算法,構(gòu)建了肝炎后肝硬化中醫(yī)證候分類模型,結(jié)果這種模型對肝炎后肝硬化的5種主要證候分類的符合率達(dá)83%。龔氏等[16]以2501例2型糖尿病的臨床數(shù)據(jù)為基礎(chǔ),運(yùn)用貝葉斯網(wǎng)絡(luò)的方法進(jìn)行分析。結(jié)果發(fā)現(xiàn),空腹血糖異常的患者以陰虛熱盛多見,餐后2 h血糖異常的患者以陰虛多見,糖化血紅蛋白異常的患者以陰虛熱盛多見,血脂異常者以氣虛為主,血壓異常者伴見血瘀。該結(jié)果基本符合中醫(yī)理論和臨床實(shí)際。
4 粗糙集理論
粗糙集理論(rough set)可以處理分析不精確或有噪聲的數(shù)據(jù),適用于特征變量是離散化的數(shù)據(jù),對不完整的知識進(jìn)行推理,識別并評估數(shù)據(jù)之間的依賴關(guān)系。粗糙集理論的特點(diǎn)是利用已知的樣本中的信息,近似粗糙地表示不精確或不確定的信息,從而達(dá)到分類預(yù)測的效果。該理論的一大優(yōu)勢在于其無需先驗(yàn)信息,如隸屬度函數(shù)和變量的概率統(tǒng)計(jì)分布,而這些先驗(yàn)知識往往比較難得到。粗糙集是一種優(yōu)秀的機(jī)器學(xué)習(xí)方法,貼近中醫(yī)信息中時(shí)有混雜的噪聲及不確定描述的特點(diǎn),所以利用其分析中醫(yī)數(shù)據(jù),歸納診療規(guī)則,有望獲得成功。
陳氏等[17]收集450例老年細(xì)菌性肺炎患者在就診過程中的285項(xiàng)指標(biāo),采用粗糙集方法分析得到7種中老年肺炎的證候診斷標(biāo)準(zhǔn),為療效評價(jià)指標(biāo)提供了客觀依據(jù)。孫氏等[18]采用粗糙集與支持向量機(jī)(SVM)結(jié)合的方法對293例中醫(yī)肝硬化患者臨床信息建立證候決策信息表,提取出代表性癥狀輸入SVM進(jìn)行分類學(xué)習(xí),準(zhǔn)確率約為84.4%。陳氏等[19]從古今醫(yī)案中收集與原發(fā)性高血壓相關(guān)的237例病案,運(yùn)用粗糙集理論進(jìn)行數(shù)據(jù)分析,獲得了原發(fā)性高血壓肝陽上亢證的專家知識。
5 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是模仿生物神經(jīng)系統(tǒng)中神經(jīng)元的一種數(shù)學(xué)處理方法,無需考慮各變量之間是否獨(dú)立及是否滿足正態(tài)分布等條件,而且也不像傳統(tǒng)統(tǒng)計(jì)分析那樣給出明確的方程,但它能給出結(jié)構(gòu)參數(shù)。從某種意義上說,神經(jīng)網(wǎng)絡(luò)能更有效地表述實(shí)際問題,特別是當(dāng)有些問題并不需要明確的數(shù)學(xué)表達(dá)式或根本無法找到明確的數(shù)學(xué)公式表達(dá)時(shí),神經(jīng)網(wǎng)絡(luò)就更顯示其優(yōu)越性。但因ANN采用梯度下降算法調(diào)節(jié)參數(shù),可能陷入局部最優(yōu),所以常需多次設(shè)置不同初始值,多次嘗試迭代求得可能的最優(yōu)結(jié)果會(huì)增加額外開銷。運(yùn)用ANN進(jìn)行中醫(yī)數(shù)據(jù)分析,尋找癥狀與證型的關(guān)系,可將癥狀作為輸入單元,證型為最終的輸出結(jié)果,建立癥狀與證型的非線性映射函數(shù),常見的神經(jīng)網(wǎng)絡(luò)有誤差反向傳播(BP)網(wǎng)絡(luò)和Hopfiled網(wǎng)絡(luò)等。
燕氏等[20]運(yùn)用ANN實(shí)驗(yàn)對脈象識別和分類,結(jié)合脈象特點(diǎn)選取特征值設(shè)計(jì)多種分類器。結(jié)果顯示,運(yùn)用ANN實(shí)現(xiàn)的脈象識別,有助于深入開展脈象形成機(jī)制的研究工作。白氏等[21]運(yùn)用ANN建立糖尿病腎病證候診斷模型,采用改進(jìn)的共軛梯度學(xué)習(xí)算法,結(jié)果神經(jīng)網(wǎng)絡(luò)模型預(yù)測證候的平均單證特異性為81.32%,平均單證準(zhǔn)確率為96.25%,平均診斷準(zhǔn)確率為92.21%。說明ANN技術(shù)是中醫(yī)證候非線性建模的可行方法。
6 多示例學(xué)習(xí)和多標(biāo)記學(xué)習(xí)
在多示例學(xué)習(xí)(multi-instance learning,MIL)中,樣本由若干個(gè)具有概念標(biāo)記的包(bag)組成,每個(gè)包含有若干無概念標(biāo)記的示例。若一個(gè)包中至少有1個(gè)正例,則該包被標(biāo)記為正(positive);若一個(gè)包中所有示例都是反例,則該包被標(biāo)記為反(negative)。MIL屬于以往機(jī)器學(xué)習(xí)研究的一個(gè)盲區(qū),被認(rèn)為是一種新的學(xué)習(xí)框架。而且由于其包的定義與中醫(yī)“全數(shù)據(jù)”的概念非常相似,因此,將MIL用于中醫(yī)數(shù)據(jù)分析受到越來越廣泛的重視。
多標(biāo)記學(xué)習(xí)(multi-label learning,MLL)方法中每個(gè)樣本并不只對應(yīng)一個(gè)類別,而是和多個(gè)類別相關(guān)聯(lián),所以很好地解決了分類問題的歧義性。這與真實(shí)世界中的現(xiàn)象十分接近,現(xiàn)實(shí)生活中的某一對象往往不只具有單一含義,而是可能具有多義性的。MLL技術(shù)是數(shù)據(jù)挖掘、模式識別等領(lǐng)域的一個(gè)新的研究熱點(diǎn),為提高分類精度,特征降維成為改善MLL方法的又一研究方向。將MLL用于中醫(yī)數(shù)據(jù)處理,將會(huì)有效解決中醫(yī)病例數(shù)據(jù)中多語義的特點(diǎn)。
沈氏[22]將MIL和MLL方法應(yīng)用在聲診中,采集臨床包括氣虛、陰虛和氣陰兩虛患者的五音作為示例,患者證型作為類別標(biāo)記,使用MIL和MLL框架得到較好的分類模型。王氏[23]以慢性胃炎患者中醫(yī)問診數(shù)據(jù)為研究樣本,采用MLL方法建立分類模型,實(shí)驗(yàn)結(jié)果顯示MLL方法分類準(zhǔn)確率達(dá)到83%。邵氏等[24]運(yùn)用MLL結(jié)合混合優(yōu)化的特征選擇算法,用于冠心病中醫(yī)問診數(shù)據(jù)分析,建立中醫(yī)冠心病數(shù)據(jù)模型,并獲得了冠心病問診癥狀的最優(yōu)特征子集。
7 多種方法結(jié)合
上述方法雖能取得良好的實(shí)驗(yàn)結(jié)果,啟發(fā)了之后的研究方向,但每種方法依然存在自身的缺陷。如神經(jīng)網(wǎng)絡(luò)中隱層的含義難以解釋,且不能從模型中提取分類規(guī)則,不便于理解,這是ANN的較大缺陷。目前,已有學(xué)者將粗糙集理論與神經(jīng)網(wǎng)絡(luò)結(jié)合,有較好的實(shí)驗(yàn)結(jié)果。秦氏等[25]利用粗糙集技術(shù)對ANN進(jìn)行預(yù)處理,求取核屬性,構(gòu)造粗糙ANN,并應(yīng)用到中醫(yī)類風(fēng)濕病分型診斷建模,計(jì)算機(jī)仿真結(jié)果證明了用粗糙集輔助設(shè)計(jì)ANN,改善了網(wǎng)絡(luò)的學(xué)習(xí)能力,并在實(shí)踐中取得了滿意的效果。
SVM是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則的機(jī)器學(xué)習(xí)方法,巧妙地通過核函數(shù)將低維輸入空間的特征整向量投射到高維數(shù)據(jù)空間,使樣本在高維空間線性可分,由此求得最優(yōu)分類的超平面,解決非線性分類問題。SVM不僅可以處理高維的特征向量,而且,即便在樣本數(shù)較少時(shí)也能獲得較好分類效果,這使SVM成為近年來應(yīng)用十分火熱的分類方式,在處理中醫(yī)臨床數(shù)據(jù)時(shí)也被大量使用。王氏等[26]收集115例名醫(yī)診治冠心病典型醫(yī)案,運(yùn)用SVM提取出8個(gè)主要證候要素并確定其定量診斷。楊氏等[27]收集1個(gè)家系虛寒證的相關(guān)基因信息,選取5例虛寒證和5例正常人差異表達(dá)基因的表達(dá)值作為分類的正負(fù)樣本,使用SVM、K近鄰分類法等方法建立二分類模型,得到較好結(jié)果?,F(xiàn)已有研究將多種數(shù)據(jù)挖掘技術(shù)對中醫(yī)臨床數(shù)據(jù)的分析處理結(jié)果進(jìn)行對比,希望尋找到更合適中醫(yī)數(shù)據(jù)特點(diǎn)的研究方法。如許氏等[28]采集臨床心血管疾病的病例,根據(jù)癥狀的“有”和“無”分別賦值為“1”和“0”,將癥狀作為輸入樣本,證型作為輸出類別,使用SVM和ANN進(jìn)行分析,結(jié)果對心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀等心血管疾病常見中醫(yī)證型,ANN的識別準(zhǔn)確率較高,均在60%以上,其中心氣虛和心陽虛證分別高達(dá)92.4%、82.9%。
8 展望
基于上述分析,筆者提出以下幾點(diǎn)建議:
首先,在“大數(shù)據(jù)”時(shí)代,通過對大量數(shù)據(jù)的研究挖掘漸漸替代了對模型的研究,從大量的現(xiàn)象中尋找隱藏的規(guī)律,中醫(yī)學(xué)有望據(jù)此證明自身的有效性。然而,現(xiàn)如今大量的中醫(yī)數(shù)據(jù)未得到很好的應(yīng)用,是因數(shù)據(jù)較為雜亂,缺失完整病例信息,并且中醫(yī)病例描述常有一詞多義或語義不清等問題。但數(shù)據(jù)挖掘技術(shù)對于數(shù)據(jù)的規(guī)范性要求較高,如何規(guī)范化中醫(yī)數(shù)據(jù)信息也成為中醫(yī)信息化、現(xiàn)代化的熱點(diǎn)問題。所以,加強(qiáng)計(jì)算機(jī)學(xué)科、數(shù)學(xué)學(xué)科、信息學(xué)科與中醫(yī)理論體系的交叉合作,建立普遍適用的中醫(yī)醫(yī)療大數(shù)據(jù)庫,是現(xiàn)在中醫(yī)實(shí)現(xiàn)信息化、現(xiàn)代化發(fā)展的當(dāng)務(wù)之急。
其次,現(xiàn)階段數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療領(lǐng)域的應(yīng)用,往往局限于某一名老專家的行醫(yī)經(jīng)驗(yàn)或某一疾病的辨證施治,如何對各種數(shù)據(jù)挖掘方法的結(jié)果進(jìn)行科學(xué)合理的評估也將是很有意義的一個(gè)研究方向。
最后,如何集各種數(shù)據(jù)挖掘方法之長于一體,若能找到一種或幾種最適合中醫(yī)數(shù)據(jù)特點(diǎn)的算法以對某一數(shù)據(jù)庫進(jìn)行挖掘分析,將為中醫(yī)學(xué)的繼承發(fā)展帶來不可估量的貢獻(xiàn)。
參考文獻(xiàn):
[1] 中醫(yī)藥學(xué)名詞審定委員會(huì).中醫(yī)藥學(xué)名詞[M].北京:科學(xué)出版社,2005:1-4.
[2] 劉保延.真實(shí)世界的中醫(yī)臨床科研范式[J].中醫(yī)雜志,2013,54(6):451-455.
[3] 崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時(shí)代與中醫(yī)藥“知識密集型”數(shù)據(jù)[J].中國中醫(yī)藥圖書情報(bào)雜志,2013,37(3):1-3.
[4] 宋京美,吳嘉瑞,姜迪.基于數(shù)據(jù)挖掘的國家級名老中醫(yī)治療腫瘤用藥規(guī)律研究[J].中國中醫(yī)藥信息雜志,2015,22(6):50-53.
[5] 吳嘉瑞,宋京美,張冰,等.基于數(shù)據(jù)挖掘的國家級名老中醫(yī)治療肝病用藥規(guī)律研究[J].中國中醫(yī)藥信息雜志,2014,21(6):30-33.
[6] 張?jiān)?中晚期肺癌患者中醫(yī)證候的聚類分析研究[D].北京:北京中醫(yī)藥大學(xué),2008.
[7] 楊素芳,林永廉.基于聚類分析的原發(fā)性肝癌介入治療前中醫(yī)證型特點(diǎn)研究[J].中國中醫(yī)藥信息雜志,2012,19(10):11-10.
[8] 盧焯明,錢新華.以聚類分析法研究兒童中間型β地中海貧血的中醫(yī)證候分布規(guī)律[J].中華中醫(yī)藥雜志,2012,27(3):607-611.
[9] 查青林,何羿婷,喻建平,等.基于決策樹分析方法探索類風(fēng)濕性關(guān)炎證病信息與療效的相關(guān)關(guān)系[J].中國中西醫(yī)結(jié)合雜志,2006,26(10):871-873.
[10] 肖光磊.名老中醫(yī)經(jīng)驗(yàn)傳承中的數(shù)據(jù)挖掘技術(shù)研究[D].南京:南京理工大學(xué),2008.
[11] 史琦,王偉,陳建新,等.基于決策樹的冠心病痰瘀互阻證識別模式研究[J].中華中醫(yī)藥雜志,2013,28(12):3523-3526.
[12] 李志更,王天芳,任婕,等.中醫(yī)科研中幾種常用數(shù)據(jù)挖掘方法淺析[J].中醫(yī)藥學(xué)報(bào),2008,36(2):29-32,83.
[13] 吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國中醫(yī)藥信息雜志,2010,17(5):98-99.
[14] 徐璡,許朝霞,許文杰,等.基于貝葉斯網(wǎng)絡(luò)原理的835例冠心病病例中醫(yī)證候分類研究[J].上海中醫(yī)藥雜志,2014,48(1):10-13.
[15] 張躍宏,劉平,張琴,等.基于粗糙集與廣義關(guān)聯(lián)度系數(shù)的貝葉斯中醫(yī)證候分類模型[J].統(tǒng)計(jì)與決策,2008(12):159-161.
[16] 龔燕冰,倪青,高思華,等.2型糖尿病主要理化指標(biāo)與中醫(yī)證候相關(guān)性的貝葉斯網(wǎng)絡(luò)分析[J].中華中醫(yī)藥雜志,2010,25(1):31-33.
[17] 陳楚湘,沈建京,陳冰,等.運(yùn)用粗糙集理論建立中老年肺炎中醫(yī)癥候診斷標(biāo)準(zhǔn)[C]//中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì).第二十九屆中國控制會(huì)議論文集.上海,2010:40-42.
[18] 孫繼佳,蘇式兵,陸奕宇,等.基于粗糙集與支持向量機(jī)的中醫(yī)辨證數(shù)據(jù)挖掘方法研究[J].數(shù)理醫(yī)藥學(xué)雜志,2010,23(3):261-265.
[19] 陳素玲,付爽,高云,等.基于飛粗糙集理論的原發(fā)性高血壓肝陽上亢證辨證系統(tǒng)的建立[J].山東中醫(yī)藥大學(xué)學(xué)報(bào),2010,34(3):201-203.
[20] 燕海霞,王憶勤,宮愛民,等.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)脈象識別分類研究中的應(yīng)用概況[J].世界科學(xué)技術(shù)—中醫(yī)藥現(xiàn)代化,2009,11(4):522- 526.
[21] 白云靜,孟慶剛,申洪波,等.基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)的糖尿病腎病中醫(yī)證候非線性建模研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(5):308- 311.
[22] 沈慶韡.數(shù)字化中醫(yī)聲診五臟五音信息提取和識別研究[D].上海:華東理工大學(xué),2012.
[23] 王立文.基于深度學(xué)習(xí)與條件隨機(jī)場的多標(biāo)記學(xué)習(xí)方法的中醫(yī)問診建模研究[D].上海:華東理工大學(xué),2013.
[24] 邵歡,李國正,劉國萍,等.多標(biāo)記中醫(yī)問診數(shù)據(jù)的癥狀選擇[J].中國科學(xué):信息科學(xué),2011,41(11):1372-1387.
[25] 秦中廣,毛宗源.粗糙神經(jīng)網(wǎng)絡(luò)及其在中醫(yī)智能診斷系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(18):34-35,74.
[26] 王階,吳榮,周雪忠.基于支持向量機(jī)的名老中醫(yī)治療冠心病證候要素研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(8):540-543,560.
[27] 楊麗萍,黃睿,張洛欣,等.用特征功能模塊法挖掘一個(gè)虛寒證家系的基因表達(dá)譜[J].中華中醫(yī)藥雜志,2010,25(5):683-685.
[28] 許朝霞,王憶勤,顏建軍,等.基于支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的心血管疾病中醫(yī)證候分類識別研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2011,34(8):539-543.
(收稿日期:2015-07-11)
(修回日期:2016-02-16;編輯:梅智勝)