李曉玲
(海南醫(yī)學(xué)院信息技術(shù)部,海南 海口 571199)
數(shù)據(jù)挖掘分類方法在中醫(yī)證候研究中的運用探析
李曉玲
(海南醫(yī)學(xué)院信息技術(shù)部,海南 海口 571199)
中醫(yī)對疾病的診治是建立在證候辨證的基礎(chǔ)上,證候是指導(dǎo)臨床正確選方用藥、確定臨床療效的依據(jù),是中醫(yī)學(xué)理論的核心問題;但中醫(yī)證候類型的復(fù)雜多樣卻在一定程度上制約著中醫(yī)藥科學(xué)的發(fā)展。文中對幾大數(shù)據(jù)挖掘分類方法在中醫(yī)證候研究中的運用進行探討,并就今后的研究重點和方向提出看法。
中醫(yī)證候?qū)W,數(shù)據(jù)挖掘,分類算法;分析
中醫(yī)對疾病的診治是建立在證候辨證的基礎(chǔ)上,證候是指導(dǎo)臨床正確選方用藥、確定臨床療效的依據(jù),是中醫(yī)學(xué)理論的核心問題;但中醫(yī)證候類型的復(fù)雜多樣卻在一定程度上制約著中醫(yī)藥科學(xué)的發(fā)展。從近幾年的文獻資料來看,數(shù)據(jù)挖掘技術(shù)在中醫(yī)證候研究中的運用越來越廣泛和深入,筆者查閱并研究近3 a數(shù)據(jù)挖掘分類方法在中醫(yī)證候研究方面的文獻,總結(jié)了幾種常見的數(shù)據(jù)挖掘分類方法在中醫(yī)證候研究中的運用,報道如下。
大量醫(yī)學(xué)實踐證明:中醫(yī)藥對于一些慢性病的治療效果優(yōu)于西醫(yī)治療。中醫(yī)對疾病的診治是建立在證候辨證基礎(chǔ)上的。證候是對疾病人群類特征的刻畫[1],是指導(dǎo)臨床正確選方用藥、確定臨床療效的依據(jù),是中醫(yī)學(xué)理論的核心問題,也是中醫(yī)辨證治療的核心和基礎(chǔ)[2]。然而,目前不少疾病的中醫(yī)證候辨證還未規(guī)范,這在一定程度上制約著中醫(yī)、中藥的發(fā)展。因此,探討疾病的中醫(yī)辨證分型十分必要[3]。近年來的證候研究逐漸采用多學(xué)科融合、交叉的思路,借鑒應(yīng)用數(shù)學(xué)的優(yōu)勢,能夠從一定程度上體現(xiàn)中醫(yī)的思維方式,反映證候的特征[4]。
所謂數(shù)據(jù)挖掘,在不加區(qū)分的情況下也被叫做數(shù)據(jù)庫知識發(fā)現(xiàn),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際運用數(shù)據(jù)中提取出隱含在其中、可信、新穎、人們事先不知道但又是潛在有用的模式的高級處理過程。數(shù)據(jù)挖掘是由統(tǒng)計學(xué)、工智能、數(shù)據(jù)庫、可視化技術(shù)等多個領(lǐng)域相融合而形成的一個交叉學(xué)科[5],具有處理和分析海量數(shù)據(jù)的能力,強調(diào)與計算機技術(shù)的結(jié)合,目前在商業(yè)、社會、經(jīng)濟、醫(yī)學(xué)、金融等各學(xué)科領(lǐng)域中都有著越來越廣泛的運用[6]。中醫(yī)數(shù)據(jù)具有數(shù)據(jù)維數(shù)大、信息量多的特點,由于分析難度大,使得大量數(shù)據(jù)沒有得到充分利用;而數(shù)據(jù)挖掘技術(shù)的運用可以在一定程度上解決這些問題。
3.1 決策樹
決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu)。它通過提出一系列精心構(gòu)思的關(guān)于檢驗記錄屬性的問題來解決分類問題,每當一個問題得到答案,后續(xù)的問題將隨之而來,直到得到記錄的類標號。決策樹分類法是一種簡單但卻廣泛使用的分類技術(shù)[7]。
陳瀟雨等[8]運用Clementine 11.1軟件,結(jié)合特征篩選模塊、決策樹C 5.0等數(shù)據(jù)挖掘方法,構(gòu)建了肝膽濕熱證與肝郁脾虛證的診斷模型,并發(fā)現(xiàn)部分西醫(yī)理化指標與中醫(yī)癥狀的組合具有一定的診斷意義;結(jié)合屬性篩選與C 5.0決策樹算法對慢性乙型肝炎的中西醫(yī)屬性進行的綜合分析達到了96.94%的分類準確率。辛喜艷等[9]利用決策樹分析探索缺血性中風早期各時段證候特征與近期預(yù)后的關(guān)系,分析結(jié)果顯示:缺血性中風發(fā)病第3~5日為內(nèi)火證,第6~8日為內(nèi)風證、痰濕證,診斷成立與否與發(fā)病第21日的日常生活能力樣表(BI)有關(guān),并且缺血性中風病急性期發(fā)病第6~8日存在內(nèi)風證、痰熱證的患者近期預(yù)后較差。史琦[10]采用CHAID決策樹和ADTree決策樹方法對冠心病不穩(wěn)定型心絞痛患者中醫(yī)證候/證候要素與臨床常規(guī)指標及生物學(xué)指標之間的關(guān)聯(lián)關(guān)系進行挖掘,采用SPSS17.0 CHAID算法,對90個臨床檢測指標進行決策樹分析,分別構(gòu)建了用于識別血瘀證、氣虛證、陽虛證、寒凝證、痰迚證、氣滯證、痰瘀互阻證、氣滯血瘀證、瘀熱互結(jié)證、氣陰兩虛證、心陽氣虛證、陰陽兩虛證、痰熱互結(jié)證的13個決策樹模型,經(jīng)10倍交叉模型驗證,其總體正確率、敏感度及特異度均在70%以上,在一定程度上證明了臨床常規(guī)指標對于中醫(yī)辨證的指導(dǎo)意義。余學(xué)杰等[11]利用決策樹信息熵算法對中風病火毒的證候進行了分析研究,發(fā)現(xiàn)火毒主要的證候是熱勢不解和血壓驟變;并推斷在長期的高血壓慢性病變過程中,火毒證的前驅(qū)證已存在,在特定的條件誘發(fā)下,火毒證得以形成;火毒與急性腦梗死重癥、高血壓病重癥關(guān)系密切。
3.2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)的研究是由試圖模擬生物神經(jīng)系統(tǒng)而激發(fā)的。類似于人腦的結(jié)構(gòu),人工神經(jīng)網(wǎng)絡(luò)由一組相互連接的結(jié)點和有向鏈構(gòu)成[7]。覃裕旺[12]根據(jù)154例高血壓患者臨床流調(diào)資料建立了基于共軛梯度算法的BP神經(jīng)網(wǎng)絡(luò)模型,研究高血壓中醫(yī)證候與危險分層的關(guān)系,所建立的高血壓中醫(yī)證候危險分級模型的識別率達85.3%,但同時也存在低危組識別率較低(50%)的問題。胡金亮等[13]結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)和模糊理論建立了動態(tài)模糊分類模型,較好地用定性形式描述了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中蘊含的定量信息,并利用該模型對糖尿病、感冒、氣管炎等多個病種進行文獻數(shù)據(jù)及臨床數(shù)據(jù)挖掘?qū)W習,分別獲得相關(guān)病種的常見證候診斷標準,國際數(shù)據(jù)檢驗診斷符合率達到70%~94%。李建生等[14]利用動態(tài)kehonen網(wǎng)絡(luò)的神經(jīng)模糊系統(tǒng)進行慢性肺源性心臟病常見證候特征的臨床研究,分析慢性肺源性心臟病的常見證候及其特征,獲取了6個常見證候,常見證候診斷標準檢驗結(jié)果符合率為72.2%。白云靜等[15-16]采用BP神經(jīng)網(wǎng)絡(luò)對765例類風濕關(guān)節(jié)炎臨床證候資料進行研究,分析183種癥狀,診斷肝腎不足證、寒濕阻絡(luò)證、瘀血阻絡(luò)證、氣血兩虛證、痰瘀阻絡(luò)證、陰虛內(nèi)熱證、熱毒蘊結(jié)證、寒熱錯雜證、脾腎陽虛證等10個證型,結(jié)果顯示:該BP神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練后,3次測試的平均診斷準確率為90.72%。
3.3 貝葉斯分類
貝葉斯網(wǎng)是基于概率推理的圖形化網(wǎng)絡(luò),帶有概率注釋的有向無環(huán)圖模型,用于解決不定性和不完整性問題。對于解決復(fù)雜設(shè)備不確定性和關(guān)聯(lián)性引起的故障有很大的優(yōu)勢,已成功地用于醫(yī)療診斷、統(tǒng)計決策、專家系統(tǒng)等領(lǐng)域[17]。
孫文軍等[18]運用貝葉斯網(wǎng)絡(luò)研究廣泛性焦慮癥,研究了有向無環(huán)圖,確定了癥狀之間的關(guān)系,為后續(xù)的中醫(yī)證候研究提供了資料。朱詠華等[19,22]將貝葉斯網(wǎng)絡(luò)運用于中醫(yī)辨證系統(tǒng)的研究,建立中醫(yī)辨證貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及概率表,利用建立的貝葉斯網(wǎng)絡(luò)中醫(yī)辨證系統(tǒng),進行數(shù)據(jù)計量分析、推理驗證證候-證素-證名之間的關(guān)系,其結(jié)果與中醫(yī)專家經(jīng)驗有較高的吻合性。吳榮[20-22]運用貝葉斯網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,對陳可冀等7名專家治療冠心病心絞痛的115例醫(yī)案的中醫(yī)證候要素及所屬癥狀進行定性和定量研究,并建立冠心病名醫(yī)診療數(shù)據(jù)庫,旨在發(fā)掘名老中醫(yī)冠心病心絞痛的辨證規(guī)律。
3.4 支持向量機
支持向量機(support vector machine, SVM)方法是近年來興起的基于統(tǒng)計學(xué)習理論的分類和預(yù)測算法,建立在統(tǒng)計學(xué)習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習能力之間尋求最佳折衷,以期獲得最好的推廣能力[23],在小樣本和高維數(shù)據(jù)等分析中都有著很好的運用[7]。
楊小波等[24]將SVM算法模型運用在中醫(yī)證候分析中,在使用訓(xùn)練之后的SVM對其他2000條測試數(shù)據(jù)進行識別后,發(fā)現(xiàn)其中大約有95%的測試數(shù)據(jù)能夠被準確識別和預(yù)測。如果能引入更多更全面的專業(yè)知識作為先驗知識, SVM模型的分類準確率會得到大幅度的提升。許朝霞等[25]研究基于徑向基核函數(shù)、多項式核函數(shù)2種算法的支持向量機和ACON、OCON 2種結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),進行心血管疾病的中醫(yī)證候類型識別,研究發(fā)現(xiàn):對于心氣虛、心陽虛、心陰虛、痰濁、氣滯、血瘀6個證型的證候識別準確率,OCON 結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)最高;對于心陰虛、血瘀、氣滯3個證型,多項式核函數(shù)的支持向量機識別率最低。
4.1 已取得的成果
通過以上對近3 a數(shù)據(jù)挖掘分類方法在中醫(yī)證候研究的運用分析發(fā)現(xiàn):從研究方法上來說,常見、經(jīng)典的分類算法在研究中都有被使用,其中以決策樹方法最為突出,這在一定程度上說明決策樹是一種簡單且有效的分類方法;從研究領(lǐng)域上來說,一是針對某一種疾病中醫(yī)證候分型模型的確定和檢驗,二是對于各類關(guān)系(例如疾病各證候之間、疾病中醫(yī)證候和西醫(yī)理化指標之間等)的探討,三是除了對單一病種和多病種中醫(yī)證候的橫向研究外,還有少量對于研究方法進行總結(jié)性的縱向研究。此對于確定各類疾病的中醫(yī)證候分型標準,以及疾病的預(yù)防、治療和預(yù)后恢復(fù)方案的制定,均有一定的指導(dǎo)意義。
筆者發(fā)現(xiàn)很多研究者也將數(shù)據(jù)挖掘的聚類分析、關(guān)聯(lián)分析等運用在了中醫(yī)證候的研究中,并取得了一定的成果。如:孫文軍等[4]運用聚類分析,研究廣泛性焦慮癥的中醫(yī)證候規(guī)律;司富春等[26]運用聚類分析、頻數(shù)分布分析等方法,對下肢靜脈曲張的中醫(yī)證型和方藥進行了臨床研究;趙凱等[27]利用數(shù)據(jù)挖掘技術(shù),分析重癥肌無力醫(yī)案的處方用藥規(guī)律;鄧德強等[28]利用聚類分析、主成分分析,對糖尿病腎病中醫(yī)證型的分布規(guī)律進行了分析和歸納探索;胡綠慧等[29]利用時間序列挖掘,進行了慢性乙型肝炎中醫(yī)證候規(guī)律的研究。此進一步說明數(shù)據(jù)挖掘技術(shù)在中醫(yī)證候研究中的前景廣闊。
4.2 問題和展望
將來利用數(shù)據(jù)挖掘進行中醫(yī)證候研究,應(yīng)著重于以下4個領(lǐng)域。①2種或多種算法的結(jié)合和改進。隨著研究的深入,很多研究者也發(fā)現(xiàn)單一利用某一種算法可能存在某一類或者某幾類識別率不高的問題。在未來的研究中,應(yīng)著重考慮多種方法結(jié)合優(yōu)化的方式提高和改進研究效果的可能性。②完整的疾病證候分類模型的建立。目前的研究雖然建立了某種疾病證候分型的模型,但仍然存在系統(tǒng)性和完整性不夠的問題。未來應(yīng)研究如何建立完整的基本證候分型方法,并能將其指導(dǎo)臨床實踐。③對中醫(yī)各證候之間關(guān)系的研究。中醫(yī)學(xué)一直都秉承“事物是普遍聯(lián)系的”這一真理,也特別強調(diào)“治未病”的理念。研究中醫(yī)各證候之間的關(guān)系,對于指導(dǎo)人們在出現(xiàn)某一證候時的積極預(yù)防和治療,以及降低疾病發(fā)生率,具有重要意義。④對中醫(yī)學(xué)理論科學(xué)性的證明和研究。中醫(yī)學(xué)是一個通過長期的醫(yī)學(xué)實踐總結(jié)而來的醫(yī)學(xué)體系,雖然很多治療方法和手段經(jīng)檢驗是行之有效的,但還具有經(jīng)驗醫(yī)療的色彩。在未來可以利用數(shù)據(jù)挖掘技術(shù)從科學(xué)的角度證明中醫(yī)學(xué)理論的科學(xué)性、合理性。
從目前運用數(shù)據(jù)挖掘分類算法進行的中醫(yī)藥研究來看,分類算法在中醫(yī)證候中的運用尚處于起步階段;然而,這種多學(xué)科交叉研究、多領(lǐng)域合作的特點符合時代發(fā)展的要求,必將具有廣闊的發(fā)展空間[30]。
[1]袁世宏,王天芳,張連文.中醫(yī)證候的認知思路及其數(shù)據(jù)挖掘方法[J].中醫(yī)雜志,2011,52(4):284-288.
[2]王倩,生慧,金衛(wèi).中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用概況[J].湖南中醫(yī)雜志,2015,31(3):186-188.
[3]孔麗婭,柴可夫,牛永寧.數(shù)據(jù)挖掘方法在中醫(yī)證候?qū)W中的應(yīng)用[J].浙江中醫(yī)藥大學(xué)學(xué)報,2014,38(6):825-827.
[4]孫文軍,曲淼,唐啟盛.廣泛性焦慮癥中醫(yī)證候的聚類研究[J].中華中醫(yī)藥雜志,2014,29(7):2298-2230.
[5]顧捷,白慧茹.數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用[J].中外企業(yè)家,2013,30(34):202-204.
[6]薛薇,陳歡歌.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國人民大學(xué)出版社,2012:1.
[7]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數(shù)據(jù)挖掘?qū)д?完整版)[M].范明,范宏建,譯.北京:人民郵電出版社,2011.
[8]陳瀟雨,馬利莊,胡義揚.基于決策樹方法的慢性乙型肝炎中醫(yī)證候分類[J].上海中醫(yī)藥大學(xué)學(xué)報,2013,29(1): 40-44.
[9]辛喜艷,常靜玲,曹克剛,等.基于決策樹分析探索缺血性中風早期各時段證候特征與近期預(yù)后的關(guān)系[J].中華中醫(yī)藥雜志,2014, 29(8):2647-2650.
[10]史琦.基于數(shù)據(jù)挖掘的冠心病不穩(wěn)定性心絞痛中醫(yī)證候識別規(guī)律的研究[D].北京:中醫(yī)藥大學(xué)博士學(xué)位論文,2012.
[11]余學(xué)杰,李書珍,李曉燕,等.中風病“火毒”證候分析[J].中醫(yī)學(xué)報,2015, 30(2):222-224.
[12]覃裕旺,張愛珍,岳桂華,等.基于BP神經(jīng)網(wǎng)絡(luò)的高血壓中醫(yī)證候與危險分層關(guān)系研究[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2013, 19(4): 464-466.
[13]胡金亮,李建生,李素云.基于動態(tài)模糊神經(jīng)網(wǎng)絡(luò)的中醫(yī)證候診斷標準建立方法應(yīng)用研究[J].中醫(yī)學(xué)報,2012,27(9):1136-1138.
[14]李建生,王明航,胡金亮,等.基于數(shù)據(jù)挖掘的慢性肺源性心臟病常見證候特征的臨床研究[J].遼寧中醫(yī)雜志,2011,38(1):9-11.
[15]白云靜,申洪波,孟慶剛.基于共軛梯度下降算法的類風濕關(guān)節(jié)炎BP神經(jīng)網(wǎng)絡(luò)證候模型研究[J].中國中醫(yī)藥信息雜志,2010,17(3):96-97.
[16]洪芳,何建成,曹雪濱.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)證候研究中的應(yīng)用現(xiàn)狀與趨勢[J].遼寧中醫(yī)雜志, 2013,40(1):13-15.
[17]藍鋆,王晶,尤圣富,等.貝葉斯網(wǎng)絡(luò)技術(shù)在中醫(yī)證候研究中的運用[J].中國中醫(yī)骨傷科雜志,2015,23(2):52-55.
[18]孫文軍,曲淼,唐啟盛.基于貝葉斯網(wǎng)絡(luò)的廣泛性焦慮癥中醫(yī)證候?qū)W規(guī)律研究[J].北京中醫(yī)藥,2014, 33(6): 403-405.
[19]朱詠華,朱文鋒.基于貝葉斯網(wǎng)絡(luò)的中醫(yī)辨證系統(tǒng)[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2006,33(4):123-125.
[20]吳榮,王階,任廷革,等.基于數(shù)據(jù)挖掘的名老中醫(yī)冠心病診療規(guī)律研究[J].中華中醫(yī)藥學(xué)刊,2008,26(12):2581-2583.
[21]吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].Chinese Journal of Information on TCM, 2010,17(5):98-99.
[22]李琳,胡志希,凌智.數(shù)據(jù)挖掘在冠心病中醫(yī)證治研究中的應(yīng)用[J].遼寧中醫(yī)雜志,2014,41(12):2727-2729.
[23]黃粵,高穎,馬斌.中醫(yī)證候研究常用數(shù)據(jù)挖掘方法述評[J].中醫(yī)藥學(xué)報,2010,38(3):6-10.
[24]楊小波,梁兆暉,羅云堅,等.支持向量機算法在中醫(yī)證候信息分類中的應(yīng)用[J].世界科學(xué)技術(shù)和中醫(yī)藥現(xiàn)代化,2007.9(2): 28-31.
[25]許朝霞,王憶勤,顏建軍,等.基于支持向量機和人工神經(jīng)網(wǎng)絡(luò)的心血管疾病中醫(yī)證候分類識別研究[J].北京中醫(yī)藥大學(xué)學(xué)報,2011, 34(8): 539-543.
[26]司富春,宋雪杰.下肢靜脈曲張中醫(yī)證型和方藥臨床研究的數(shù)據(jù)挖掘[J].世界中西醫(yī)結(jié)合雜志,2015,10(4):449-455.
[27]趙凱,趙文光.基于關(guān)聯(lián)規(guī)則重癥肌無力醫(yī)案據(jù)挖掘分析[J].山西中醫(yī),2014.30(12):40-43.
[28]鄧德強,趙進喜,李平,等.糖尿病腎病的中醫(yī)證候?qū)W研究[J].新疆中醫(yī)藥,2012, 30(3): 8-11.
[29]胡綠慧,何振林,溫川飆.時間序列挖掘在慢性乙肝中醫(yī)證候演變規(guī)律研究中的應(yīng)用[J].信息與電腦,2013,25(11):117-118.
[30]陳克龍,樊永平.數(shù)據(jù)挖掘中的分類算法及其在中醫(yī)證候?qū)W中的應(yīng)用[J].中華中醫(yī)藥雜志,2011,26(3):469-473.
(編輯 顏 冬)
1001-6910(2015)10-0001-04 ·學(xué)術(shù)探討·
R24
B
10.3969/j.issn.1001-6910.2015.10.01
國家自然科學(xué)基金(81460962)
2015-06-03