楊 聰,鄭 剛,2*,齊 婧,劉 盼,徐佳萌,王艷琴,鐘 偉,胡玉樂
(1.陜西中醫(yī)藥大學(xué),陜西 咸陽 712046;2.陜西中醫(yī)藥大學(xué)第二附屬醫(yī)院,陜西 咸陽 712000; 3.陜西中醫(yī)藥大學(xué)第二附屬醫(yī)院 心腦血管病研究所,陜西 咸陽 712000)
原發(fā)性高血壓(Essential hypertension,EH)是一種常見的心血管系統(tǒng)疾病,也是引起腦卒中、冠狀動(dòng)脈粥樣硬化性心臟病的主要危險(xiǎn)因素。EH中醫(yī)證候分型的客觀化研究逐漸成為當(dāng)前中西醫(yī)結(jié)合臨床的一項(xiàng)重要內(nèi)容。數(shù)據(jù)挖掘是從眾多的數(shù)據(jù)中尋找規(guī)律性,在海量的數(shù)據(jù)中提取出有效信息,適用于中醫(yī)證候研究[1]。本文基于常見數(shù)據(jù)挖掘方法,分析EH中醫(yī)證候分布規(guī)律及其相關(guān)性,為EH中醫(yī)證候診斷的信息化、客觀化與規(guī)范化研究提供借鑒,現(xiàn)報(bào)道如下。
聚類分析是根據(jù)變量間屬性相似度進(jìn)行歸類,通過減少組內(nèi)變量差異,增加組間差異,從而減少數(shù)據(jù)處理中由于主觀判斷而引起的誤差,對(duì)于中醫(yī)數(shù)據(jù)來說,選用聚類分析方法對(duì)數(shù)據(jù)結(jié)果進(jìn)行分析會(huì)更加客觀、合理。王慶高等[2]對(duì)2 000例EH患者的中醫(yī)證候進(jìn)行分類,收集的四診信息采用系統(tǒng)聚類中的指標(biāo)聚類方法進(jìn)行分析,通過對(duì)每類證候的判定,結(jié)果顯示EH的主要證型為痰濕壅盛、肝陽上亢、瘀血阻絡(luò)、氣血虧虛證,其中痰濕壅盛證最為多見。盧雙雙等[3]采集944例EH患者的四診信息,選用58個(gè)臨床癥狀為變量進(jìn)行K-means聚類分析,其中聚類為7類癥狀分布最明顯,具體為痰濕壅盛型(21.2%)、陰陽兩虛型(17.5%)、氣虛血瘀型(15.6%)、肝火亢盛型(14.5%)、中氣不足型(13.8%)、陰虛陽亢型(8.9%)、腎陽不足型(8.6%),其中痰濕壅盛型占比最高。以上提示廣西地區(qū)EH患者證型多為痰濕壅盛證,地域性可能影響一些變量表達(dá)和證候歸納精確性,因此后期需要多中心、大樣本的流行病學(xué)調(diào)查。
因子分析是一種簡化、分析高維數(shù)據(jù)的統(tǒng)計(jì)方法,由英國心理學(xué)家C.E.斯皮爾曼提出[4]。因子分析法在系統(tǒng)綜合評(píng)價(jià)中有獨(dú)特優(yōu)勢,對(duì)各因子權(quán)重有較好的客觀評(píng)價(jià)。王麗穎等[5]采集1 508例EH患者的四診信息,通過因子分析方法提取10個(gè)特征根大于1的公因子,最后將其歸納、合并得到7個(gè)證素:氣虛(15.93%)、痰(29.95%)、陽虛(10.42%)、內(nèi)火(8.16%)、陽亢(10.76%)、陰虛(10.83%)、瘀血(10.35%)。其中證素痰、氣虛的出現(xiàn)頻率相對(duì)較高,提示臨證時(shí)應(yīng)重視痰、氣虛等重要因素。陳炳為等[6]采集1 500例EH患者的臨床四診信息,收集100個(gè)中醫(yī)癥狀指標(biāo),通過因子分析模型對(duì)79個(gè)觀測變量進(jìn)行分析,最終選擇最適合的5個(gè)因子對(duì)應(yīng)的中醫(yī)證候:肝腎陰虛、心腎兩虛、陰虛陽亢、肝火亢盛、痰濁內(nèi)蘊(yùn)證型,最后指出從整體結(jié)果上看,對(duì)于有序資料的因子分析,基于多項(xiàng)相關(guān)的模型要更加接近真實(shí)情況。金香蘭等[7]對(duì)428例EH患者證候要素分布情況進(jìn)行因子分析,得出血瘀、陰虛、熱、氣虛、血虛等26個(gè)公因子,主要證素為虛證(61.3%)、火(29. 4%)、血瘀(21. 7%)、痰(17. 6%),以上提示虛證是EH的主要證型,且夾雜火、痰、瘀等病理因素。胡元會(huì)等[8]通過因子分析131例鹽敏感性EH患者的中醫(yī)證候類型,歸納出貢獻(xiàn)值最高的5個(gè)公因子,分析其所代表的病位臟腑、證候要素,結(jié)果各臟腑分布的高低順序?yàn)槠⒛I(42.75%)、脾(21.37%)、肝脾(18.32%)、腎(17.56%);證候要素分布的高低順序?yàn)殛柼?60.31%)、氣虛(42.75%)、氣滯(39.69%)、痰濕(21.37%)、熱(21.37%)、氣逆(21.37%)、水飲(20.61%)、陰虛(18.32%)、精虧(17.56%)、氣陷(17.56%)。以上證素分布情況為EH中醫(yī)證型的客觀化研究提供了有效參考。
決策樹是一種比較強(qiáng)大的分類方法,自上而下逐步對(duì)數(shù)據(jù)進(jìn)行分類,其基本方法是找出分類效果最好的屬性對(duì)數(shù)據(jù)庫進(jìn)行劃分,直到所有分類包含同一類型的所有數(shù)據(jù),能夠最直觀地展示分類模型[9-10]。人工神經(jīng)網(wǎng)絡(luò)的本質(zhì)是由許多小的非線性函數(shù)組成的大的非線性函數(shù),反映的是輸入變量到輸出變量間的復(fù)雜映像關(guān)系,具有自動(dòng)學(xué)習(xí)和識(shí)別變量間關(guān)系的能力,善于處理模糊的、非線性的數(shù)據(jù)。田艷鵬等[11]采用決策樹算法對(duì)926例EH痰濕壅盛證患者的證候?qū)傩赃M(jìn)行分析,判斷準(zhǔn)確率達(dá)93.74%,篩選出頭重昏蒙、嘔惡、吐痰涎、胸滿悶、精神倦怠、痞滿、苔白膩7種中醫(yī)屬性。通過徑向基函數(shù)及多層感知器兩種神經(jīng)網(wǎng)絡(luò)法分析35種分類屬性,得出病痰濕壅盛證EH的最佳識(shí)別變量頭重昏蒙。趙書穎等[12]通過決策樹與神經(jīng)網(wǎng)絡(luò)兩種聯(lián)合方法建立EH陰陽兩虛證的診斷模型,采集390例EH患者四診信息,其中陰陽兩虛證237例,對(duì)32個(gè)證候因子進(jìn)行決策樹分析,發(fā)現(xiàn)最佳識(shí)別屬性是腰膝酸軟,出現(xiàn)頻率為92.9%,同時(shí)結(jié)合畏寒肢冷、心悸、乏力等其他四診信息,形成較為符合EH陰陽兩虛證診斷的組合判斷模式。為提高證候診斷模型的客觀化和準(zhǔn)確度,聯(lián)用多種統(tǒng)計(jì)分析方法進(jìn)行相互補(bǔ)充、相互驗(yàn)證是較為可取的方法,能夠?yàn)橐?guī)范中醫(yī)證候提供更客觀的依據(jù)。但是仍需將這些結(jié)論在臨床中加以檢驗(yàn),或進(jìn)行更大樣本量、多層次的研究。
貝葉斯網(wǎng)絡(luò)又稱信念網(wǎng)絡(luò),是概率論與圖論相結(jié)合的產(chǎn)物,其可描述變量之間相互依賴聯(lián)系的概率網(wǎng)絡(luò)圖模型,常用于分析復(fù)雜系統(tǒng)影響因素之間的關(guān)系,主要包括定性層面和定量層面兩方面內(nèi)容[13]。朱詠華等[14]將貝葉斯網(wǎng)絡(luò)與中醫(yī)辨證系統(tǒng)聯(lián)合起來,建立起中醫(yī)辨證數(shù)據(jù)庫,并建成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及概率表。呂胤[15]基于貝葉斯網(wǎng)絡(luò)對(duì)116例EH患者進(jìn)行證型分類,識(shí)別率的高低順序依次為陰陽兩虛、痰濕壅盛、肝火亢盛、陰虛陽亢、瘀血內(nèi)阻及沖任失調(diào)等證型。何旭等[16]收集2 752例心血管疾病患者的病歷資料,通過貝葉斯網(wǎng)絡(luò)發(fā)掘出多個(gè)心血管疾病與其他慢性病之間的因果關(guān)系,發(fā)現(xiàn)EH患者罹患糖尿病的概率為0.352 2。貝葉斯網(wǎng)絡(luò)分類算法具有準(zhǔn)確率高、耗時(shí)短等優(yōu)勢,但是貝葉斯網(wǎng)絡(luò)要求網(wǎng)絡(luò)結(jié)構(gòu)必須是無環(huán)的,這可能會(huì)丟失一些疾病之間存在的反饋現(xiàn)象。
支持向量機(jī)方法是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種模式識(shí)別的機(jī)器學(xué)習(xí)方法,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力[17]。中醫(yī)的數(shù)據(jù)是離散型的,支持向量機(jī)的函數(shù)支持離散型數(shù)據(jù),能夠充分挖掘大量有價(jià)值的信息。支持向量機(jī)結(jié)構(gòu)簡單、客觀實(shí)用,是建立四診合參診療模型的有效方法,在中醫(yī)證候應(yīng)用方面有一定的優(yōu)勢。許明東等[18]采用C-支持向量機(jī)方法對(duì)549例EH患者的癥狀、舌苔、舌體、脈象進(jìn)行融合處理,構(gòu)建EH患者的中醫(yī)診斷模型,其中痰瘀互結(jié)、陰虛陽亢、肝火亢盛及腎氣虧虛等證型的預(yù)測準(zhǔn)確率較高,整體準(zhǔn)確率達(dá)到90.0%。通過前期的探索,許明東等[19]繼續(xù)通過支持向量機(jī)構(gòu)建EH的中醫(yī)癥狀、舌脈與血脂、血尿酸、血糖的組合診斷模型。結(jié)果顯示整體的準(zhǔn)確率達(dá)到90.8%,各證候準(zhǔn)確率依次為痰瘀互結(jié)>陰虛陽亢>肝火亢盛>腎氣虧虛>其他,其中痰瘀互結(jié)(96.7%)、陰虛陽亢(93.9%)數(shù)值較大。以上說明EH患者證候與血脂、血尿酸、空腹血糖等指標(biāo)存在一定的相關(guān)性。由于中醫(yī)癥狀信息本身具有非線性和多維性,運(yùn)用支持向量機(jī)的優(yōu)勢,從數(shù)據(jù)挖掘的角度分析EH中醫(yī)辨證分型與理化指標(biāo)之間存在的復(fù)雜關(guān)聯(lián)性具有優(yōu)勢。
文獻(xiàn)挖掘的研究對(duì)象主要是非結(jié)構(gòu)化數(shù)據(jù),是一種從文本中發(fā)現(xiàn)潛在、隱藏、歸納性知識(shí)的方法[20]。祁怡馨等[21]納入3 986篇標(biāo)準(zhǔn)文獻(xiàn),提取出18類癥狀描述,共涉及57個(gè)證候名稱,排名靠前的證型為肝陽上亢(25.32%)、肝火熱盛(18.07%)、痰濁阻滯(8.23%)、肝腎陰虛(7.01%)、陰陽兩虛(6.99%)。肝、腎、心是EH的主要病位,證候要素有陽亢(25.68%)、內(nèi)火(25.09%)、內(nèi)熱(20.99%)、陰虛(15.14%)、痰濁(10.25%)、氣虛(7.71%)、肝風(fēng)(5.3%)等。朱靈妍等[22]搜索近20年相關(guān)文獻(xiàn),分析EH患者相關(guān)中醫(yī)證候特點(diǎn),搜索范圍覆蓋全國24個(gè)省市地區(qū)。結(jié)果EH常見證候類型為:陰虛陽亢證、痰濕壅盛證、肝火亢盛證、陰陽兩虛證、肝陽上亢證、肝腎陰虛證及瘀血阻竅等。其中東北地區(qū)多見陰虛陽亢證、肝火亢盛證及陰陽兩虛證等證型,華北地區(qū)多見痰濕壅盛證,西北地區(qū)多見瘀血阻竅證,華中、西南地區(qū)分別以肝腎陰虛證、肝陽上亢證型多見。以上提示患者中醫(yī)證候差異明顯,應(yīng)根據(jù)不同地域高血壓患者證候特征,辨證論治、三因制宜等針對(duì)性用藥。朱金妹[23]通過統(tǒng)計(jì)近10年來EH證型,發(fā)現(xiàn)最常見證型為陰虛陽亢證,其次為肝陽上亢、痰濕壅盛、肝火亢盛、肝腎陰虛及陰陽兩虛等證型。徐強(qiáng)等[24]納入3840篇關(guān)于EH辨證的文獻(xiàn),分析顯示高血壓常見癥狀以肝系為主,最常見證候類型為肝陽上亢證和肝火熾盛證。文獻(xiàn)分析方式由于樣本信息量大且缺乏明確統(tǒng)一標(biāo)準(zhǔn),因此難免會(huì)存在誤差,有一定的局限性。
Meta分析是循證醫(yī)學(xué)中的重要研究方法之一,又稱薈萃分析、元分析、統(tǒng)分分析等[25]。美國Stony Brook University生態(tài)與進(jìn)化學(xué)系杰西卡·古雷維奇等[26]在Nature正刊撰寫綜述介紹Meta分析,認(rèn)為其作為一種重要的工具,通過量化已知、識(shí)別未知以促進(jìn)科學(xué)的快速發(fā)展。李思潔[27]基于系統(tǒng)評(píng)價(jià)探討EH中醫(yī)辨證分型與血脂的關(guān)系,通過計(jì)算機(jī)檢索相關(guān)文獻(xiàn)124篇,最終納入文獻(xiàn)10篇,對(duì)各證型EH患者的膽固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白等進(jìn)行定性定量分析。結(jié)果發(fā)現(xiàn),EH組與正常對(duì)照組患者的血脂水平比較差異有統(tǒng)計(jì)學(xué)意義,提示EH患者血脂的異常數(shù)量較正常人群多。其中甘油三酯、低密度脂蛋白水平升高,高密度脂蛋白降低可作為痰濕壅盛證的客觀指標(biāo),低密度脂蛋白水平升高可作為陰陽兩虛證的客觀指標(biāo),膽固醇升高在各證型中均無明顯差異。以上說明血脂的異??勺鳛镋H辨證分型的依據(jù)。駱始華等[28]采用系統(tǒng)評(píng)價(jià)方法明確中醫(yī)辨證或中醫(yī)辨證聯(lián)合血管緊張素轉(zhuǎn)換酶抑制劑(ACEIs)治療EH的療效,結(jié)果表明單用中醫(yī)辨證或中醫(yī)辨證聯(lián)合ACEIs治療逆轉(zhuǎn)左心室肥厚的療效優(yōu)于ACEIs治療。
Logistic回歸分析是一種廣義的線性回歸分析模型,因此與多重線性回歸分析有很多相同之處,常用于數(shù)據(jù)挖掘、疾病診斷等領(lǐng)域。戴國華等[29]觀察356例EH患者與飲食的相關(guān)性,相關(guān)證候比例為痰濕壅盛(39.89%)、肝火亢盛(28.37%)、陰陽兩虛(22.47%)、陰虛陽亢(9.27%)等。其將年齡、性別、吸煙史、飲酒史、食鹽量、家族史、素食強(qiáng)度等設(shè)為自變量,中醫(yī)證型設(shè)為應(yīng)變量,以上引入logistic回歸分析,各因素與中醫(yī)證型結(jié)果顯示:素食強(qiáng)度是肝火亢盛證及陰虛陽亢證的相關(guān)因素,素食強(qiáng)度、年齡、食鹽量等是痰濕壅盛證的相關(guān)因素,年齡是陰陽兩虛證的相關(guān)因素。因此,通過調(diào)整素食比例可一定程度上降低痰濕壅盛證、肝火亢盛證及陰虛陽亢證型EH的發(fā)生率。郭嬌等[30]納入775例EH患者的四診信息進(jìn)行分析,臨床證型按頻率的高低依次為痰瘀阻絡(luò)、氣虛痰瘀、氣陰兩虛、肝腎陰虛及肝陽上亢等,占全部證候的69%。對(duì)五種證候的性別、年齡、吸煙史、飲酒史、EH家族史等15個(gè)危險(xiǎn)因素進(jìn)行Logistic回歸分析,結(jié)果顯示痰瘀阻絡(luò)證的危險(xiǎn)因素為高密度脂蛋白和血糖,氣陰兩虛證的危險(xiǎn)因素為年齡,肝腎陰虛證的危險(xiǎn)因素為甘油三脂,氣虛痰瘀證和肝陽上亢證未見有明顯統(tǒng)計(jì)學(xué)意義的危險(xiǎn)因素。
隨著我國經(jīng)濟(jì)發(fā)展與社會(huì)老齡化的加快,EH發(fā)病率呈上升趨勢。近年來中醫(yī)藥對(duì)慢性病的防治優(yōu)勢逐漸彰顯,通過數(shù)據(jù)挖掘方法能夠分析中醫(yī)古籍和現(xiàn)代醫(yī)案的用藥規(guī)律,還可以綜合癥狀與證候?yàn)橹嗅t(yī)藥的臨床發(fā)展提供數(shù)據(jù)支撐[31]。證候是疾病發(fā)生、發(fā)展過程中的病理概括,是疾病病機(jī)的外在反映,在整個(gè)中醫(yī)理論體系中處于核心地位[32]。目前對(duì)EH中醫(yī)辨證分型大多基于個(gè)人經(jīng)驗(yàn)、古籍論述及流行病學(xué)調(diào)查,辨證分型標(biāo)準(zhǔn)不可避免地具有主觀性。運(yùn)用數(shù)據(jù)挖掘方法研究EH辨證分型,可一定程度上減少中醫(yī)診斷的主觀性,提高中醫(yī)辨證的客觀性以及為中醫(yī)辨證的持續(xù)性研究提供保障。由于中醫(yī)證候具有多元性和復(fù)雜性,簡單而單一的統(tǒng)計(jì)學(xué)方法并不能完整地對(duì)中醫(yī)證候進(jìn)行描述。為避免中醫(yī)證型研究的偏倚,從繁雜的數(shù)據(jù)中挖掘出簡單的普適規(guī)律,需要采用多維的、復(fù)雜的數(shù)據(jù)挖掘方法,有時(shí)還需要將多種挖掘方法聯(lián)用[33]。
中醫(yī)證候的數(shù)據(jù)挖掘方面目前存在以下問題:①證候的演變規(guī)律是無序的,目前尚無證據(jù)說明證候與疾病之間演變的同步性,中醫(yī)辨證治療后證候的變化并不能說明西醫(yī)疾病的好轉(zhuǎn),導(dǎo)致評(píng)價(jià)的觀察終點(diǎn)難以確定[2]。②由于疾病的錯(cuò)綜復(fù)雜性,辨證論治的過程即是醫(yī)師知識(shí)與經(jīng)驗(yàn)交織的過程,雖然參考相應(yīng)的標(biāo)準(zhǔn),但是辨證過程仍然存在一定的主觀性。因此,現(xiàn)代研究需更加客觀、準(zhǔn)確地獲取四診信息。③EH前期中醫(yī)證候、隨著病情進(jìn)展各證候間的關(guān)系,以及EH中醫(yī)證候與EH分級(jí)間的關(guān)系等相關(guān)數(shù)據(jù)分析研究較少,以上均可指導(dǎo)患者的預(yù)防與治療,對(duì)降低該病的發(fā)生率均有重要意義。④建立EH中醫(yī)臨床信息采集平臺(tái),聯(lián)合多元分析方法,完善系統(tǒng)評(píng)價(jià)體系,實(shí)現(xiàn)信息的有效輸出與歸納,是EH中醫(yī)證候進(jìn)行數(shù)據(jù)挖掘的重要環(huán)節(jié)。⑤每種數(shù)據(jù)挖掘方法都存在一定的局限性,應(yīng)將多種數(shù)據(jù)挖掘方法聯(lián)合起來,協(xié)同合作,共同解決數(shù)字化中醫(yī)辨證中存在的問題并取長補(bǔ)短,提高中醫(yī)智能辨證系統(tǒng)的準(zhǔn)確度、科學(xué)性。
綜上所述,數(shù)據(jù)挖掘技術(shù)將會(huì)更加多元化,充分利用現(xiàn)代科學(xué)技術(shù)實(shí)現(xiàn)中西醫(yī)結(jié)合,從臨床實(shí)際入手,又回到臨床實(shí)際中去,可更加有效、方便地掌握患者的病情并指導(dǎo)臨床。