王康 尹玉潔 李雅文 秘紅英 李紅蓉 賈振華
摘要 中醫(yī)醫(yī)案作為中醫(yī)診療經(jīng)驗(yàn)及學(xué)術(shù)觀點(diǎn)的載體,歷來是中醫(yī)傳承研究的重中之重。傳統(tǒng)的“個(gè)人領(lǐng)悟式”方法在分析醫(yī)案時(shí)難以避免存在片面性和主觀性。因此,尋找一種可以全面、客觀地反映醫(yī)案中隱藏信息的醫(yī)案研究方法就顯得尤為重要。近些年隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘技術(shù)在醫(yī)案研究中的應(yīng)用也日益深入。現(xiàn)通過對(duì)目前醫(yī)案研究領(lǐng)域常用的數(shù)據(jù)挖掘方法、軟件及平臺(tái)的應(yīng)用現(xiàn)狀進(jìn)行梳理,并對(duì)每種方法在醫(yī)案研究中的適用領(lǐng)域進(jìn)行簡(jiǎn)要評(píng)述,以期為醫(yī)案研究者選擇合適的研究方法提供參考,為傳承醫(yī)案中蘊(yùn)含的診療經(jīng)驗(yàn)及發(fā)展中醫(yī)藥事業(yè)提供新思路。
關(guān)鍵詞 中醫(yī)醫(yī)案;中醫(yī)診療經(jīng)驗(yàn);數(shù)據(jù)挖掘;統(tǒng)計(jì)學(xué)方法
Abstract As the carrier of experience of traditional Chinese medicine(TCM) diagnosis and treatment and academic viewpoints,medical records of TCM have always been the most priority in TCM inheritance and research.The traditional comprehension-based analysis method is hard to avoid partial face and subjectivity in the analysis of medical records.Therefore,it is important to find a method of medical records research that can comprehensively and objectively reflect the hidden information in medical records.With the rapid development of information technology in recent years,the application of data mining technology in medical records research is increasingly in-depth.The author analyzes the application status of data mining methods,software and platform commonly used in the field of medical records research,briefly reviews the application of each method in medical records research,in order to provide a reference for medical records researchers to choose the appropriate methods,and provide methods to inherit the experience of diagnosis and treatment hidden in medical records of TCM and provide ideas to develop TCM.
Keywords Medical records of traditional Chinese medicine; Experience of traditional Chinese medicine diagnosis and treatment; Data mining; Statistical method
中圖分類號(hào):R242;R249文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.issn.1673-7202.2021.11.003
中醫(yī)醫(yī)案,又稱病案、診籍、方案、脈案等,是記錄中醫(yī)醫(yī)家臨床辨證、立法、處方用藥的第一手資料[1]。醫(yī)案作為中醫(yī)理、法、方、藥信息的綜合載體,蘊(yùn)含著醫(yī)者的診療經(jīng)驗(yàn)和學(xué)術(shù)觀點(diǎn),是中醫(yī)傳承與發(fā)展的基石[2]。醫(yī)案發(fā)展源流大致可概括為“萌芽于先秦,發(fā)展于宋元,繁盛于明清”。現(xiàn)存最早的正式醫(yī)案是西漢《史記》所記載的淳于意的二十五“診籍”,經(jīng)后世不斷完善,醫(yī)案形式漸臻成熟,至宋代形成了我國(guó)第一部醫(yī)案專著——許叔微的《傷寒九十論》[3]。長(zhǎng)期以來對(duì)醫(yī)案的解讀和學(xué)習(xí)一直是中醫(yī)傳承與發(fā)展的重要手段,故著名中醫(yī)學(xué)家秦伯未曾在《清代名醫(yī)醫(yī)案精華》序言中提及“合病理、治病于一,而融會(huì)貫通,卓然成一家言,為后世法者,厥惟醫(yī)案”[4]。由此可見醫(yī)案研究對(duì)臨床實(shí)踐及學(xué)術(shù)研究均具有重大意義。
然而在中醫(yī)發(fā)展的長(zhǎng)河中,由于歷史時(shí)代不同或醫(yī)家習(xí)慣各異,醫(yī)案的術(shù)語形式多樣,難以規(guī)范統(tǒng)一[5],加之醫(yī)案留存失當(dāng),資料信息的損毀遺失[6],導(dǎo)致傳統(tǒng)“個(gè)人領(lǐng)悟式”方法在分析醫(yī)案時(shí)難以避免存在片面性和主觀性,不能保證對(duì)醫(yī)案全部信息進(jìn)行綜合考量。而隨著大數(shù)據(jù)時(shí)代的到來,起源于商業(yè)信息處理的一類深層次數(shù)據(jù)分析技術(shù)——“數(shù)據(jù)挖掘”逐漸被應(yīng)用到中醫(yī)研究領(lǐng)域,其具有多樣化、海量、快速、數(shù)據(jù)價(jià)值密度低等特點(diǎn),為中醫(yī)醫(yī)案研究提供了新思路和新手段[6],運(yùn)用統(tǒng)計(jì)分析、數(shù)據(jù)庫、信息檢索、機(jī)器學(xué)習(xí)等方法,可以從海量醫(yī)案數(shù)據(jù)中凝練潛在診療經(jīng)驗(yàn)規(guī)律。目前運(yùn)用數(shù)據(jù)挖掘方法研究醫(yī)案中蘊(yùn)含的診療經(jīng)驗(yàn)已成為中醫(yī)傳承研究領(lǐng)域的新熱點(diǎn)。我們?cè)趨⒖即罅酷t(yī)案研究文獻(xiàn)的基礎(chǔ)上,對(duì)醫(yī)案研究領(lǐng)域中的常用數(shù)據(jù)挖掘方法、軟件及平臺(tái)應(yīng)用現(xiàn)狀進(jìn)行介紹,并對(duì)每種方法在中醫(yī)醫(yī)案研究中的適用領(lǐng)域進(jìn)行簡(jiǎn)要評(píng)述。
1 醫(yī)案研究中常用數(shù)據(jù)挖掘方法
近年來,運(yùn)用于醫(yī)案研究的數(shù)據(jù)挖掘方法種類日益增加,可大致分為頻數(shù)分析方法、監(jiān)督學(xué)習(xí)方法、無監(jiān)督學(xué)習(xí)方法以及其他分析方法等類別。
1.1 頻數(shù)分析法
頻數(shù)分析法(Frequency Analysis)是醫(yī)案研究中應(yīng)用最普遍的數(shù)據(jù)挖掘方法,通過計(jì)數(shù)各個(gè)組內(nèi)所含個(gè)體的數(shù)目,觀察組中標(biāo)志值對(duì)于總體水平所起作用的大小[7]。該方法雖然形式簡(jiǎn)單,但在各疾病“證-癥-藥”分布規(guī)律研究中具有重要價(jià)值,常與其他數(shù)據(jù)挖掘方法聯(lián)合運(yùn)用,為后期較為復(fù)雜的分析方法提供數(shù)據(jù)分布情況依據(jù)。韓析霖等[8]研究了孟河醫(yī)派費(fèi)、馬、丁、巢四家治療咳嗽的醫(yī)案中的高頻藥物,使用頻次大于30%的藥物包含:杏仁、茯苓、陳皮、瓜蔞皮、半夏和甘草。其中溫性藥及甘味藥在高頻次藥物中占比最高,歸肺經(jīng)、大腸經(jīng)和脾胃經(jīng)的藥物在高頻藥物中占比最高,從藥物使用頻次的角度總結(jié)了孟河醫(yī)派名醫(yī)治療咳嗽的用藥規(guī)律和性味歸經(jīng)偏好。
1.2 無監(jiān)督學(xué)習(xí)方法
無監(jiān)督學(xué)習(xí)在設(shè)計(jì)分類器時(shí)不預(yù)設(shè)目標(biāo),讓計(jì)算機(jī)自己學(xué)習(xí)如何去做,可以用于分析數(shù)據(jù)間關(guān)聯(lián)和聚類情況[5]?,F(xiàn)將醫(yī)案研究中常用的無監(jiān)督學(xué)習(xí)方法列舉如下。
1.2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則(Association Rule)是從數(shù)據(jù)庫海量信息中發(fā)現(xiàn)項(xiàng)集之間有義關(guān)聯(lián)的數(shù)據(jù)挖掘方法[9-10]。其原理是利用迭代方法,從目標(biāo)數(shù)據(jù)庫中提取支持度和置信度不小于給定閾值的強(qiáng)關(guān)聯(lián)信息。關(guān)聯(lián)規(guī)則是醫(yī)案研究領(lǐng)域應(yīng)用最重要的數(shù)據(jù)挖掘方法之一,廣泛應(yīng)用于處方配伍規(guī)律挖掘及癥-證-藥關(guān)聯(lián)規(guī)律挖掘方面。其中最具代表性的是Apriori算法。信楠等對(duì)《臨證指南醫(yī)案》中脾胃病相關(guān)醫(yī)案進(jìn)行系統(tǒng)整理,運(yùn)用Apriori算法對(duì)醫(yī)案中包含的證型與藥物的相關(guān)性進(jìn)行研究,從而歸納總結(jié)《臨證指南醫(yī)案》中脾胃病證治規(guī)律,為促進(jìn)中醫(yī)證治理論傳承、發(fā)展與創(chuàng)新提供有力的依據(jù)[11]。又如陳擎文[12]通過整理中醫(yī)古籍中風(fēng)相關(guān)醫(yī)案,并運(yùn)用Apriori算法挖掘了古代中風(fēng)病相關(guān)藥物的關(guān)聯(lián)情況,歸納常用藥對(duì)及角藥,并總結(jié)出古代中風(fēng)病的證治規(guī)律,結(jié)果具有較強(qiáng)的臨床應(yīng)用性。
1.2.2 聚類分析
聚類分析(Cluster Analysis)是根據(jù)各元素間的相似性將研究對(duì)象中相似或相近的對(duì)象加以歸類分組的統(tǒng)計(jì)分析技術(shù),“組內(nèi)相似度最大”和“組間相似度最小”為其根本原則。常用于分析醫(yī)案中疾病常見證型及組方規(guī)律等信息,在證型歸納及提取核心組方方面獨(dú)具優(yōu)勢(shì)。范李陽和高山[13]通過對(duì)130篇病毒性心肌炎相關(guān)文獻(xiàn)中包含的醫(yī)案進(jìn)行整理,共得到205首方劑,涉及中藥18類,共139味,對(duì)其中應(yīng)用頻次最高的33味藥物進(jìn)行聚類分析,得到3個(gè)聚類方,分別適用于治療氣陰兩虛、熱毒侵心、氣滯血瘀證型的病毒性心肌炎。宋寧等[14]采集80例難治性胃食管反流病醫(yī)案中的四診信息,應(yīng)用聚類分析方法歸納出難治性胃食管反流病醫(yī)案中醫(yī)辨證分型,結(jié)果與臨床研究相一致,可用于指導(dǎo)臨床實(shí)踐。聚類分析最大程度避免了分類過程中主觀因素?fù)诫s,保證了所得醫(yī)案信息規(guī)律的真實(shí)性及客觀性。
1.2.3 因子分析
因子分析(Factor Analysis)是從變量群中提取代表性因子的技術(shù)手段[15]。目前常用于醫(yī)案證候?qū)W研究,特別是對(duì)醫(yī)案中蘊(yùn)含的證素信息的提取。許前磊等[16]對(duì)1 632例艾滋病患者證候信息研究中,運(yùn)用因子分析方法對(duì)患者最常見的45個(gè)癥狀體征進(jìn)行分析,共得到15個(gè)公因子,并賦予其中醫(yī)證候含義,最終總結(jié)出艾滋病常見證候規(guī)律,為艾滋病的臨床辨證提供指導(dǎo)。韋葭蔚等[17]提取了312例冠心病慢性心力衰竭患者的證候要素,通過因子分析得出14個(gè)公因子,歸納出冠心病慢性心力衰竭中醫(yī)證型分類,為冠心病慢性心力衰竭中醫(yī)證素研究提供了研究思路。
1.2.4 主成分分析
主成分分析(Principal Component Analysis)是在最少損失原有信息的前提下,通過線性變換將原數(shù)據(jù)分成多個(gè)彼此不相關(guān)的主成分的降維技術(shù)[18]。目前多用于醫(yī)案癥狀及證型研究。主成分分析能從醫(yī)案中眾多癥狀中提取主要癥狀,并排除無關(guān)癥狀,使中醫(yī)辨證得以簡(jiǎn)化。李毅等[19]收集232例潰瘍性結(jié)腸炎患者的病案信息,運(yùn)用聚類分析歸納出潰瘍性結(jié)腸炎證候群,并運(yùn)用主成分分析對(duì)各證候群的癥狀進(jìn)行綜合分析,最終獲得潰瘍性結(jié)腸炎常見證候的主要癥狀指標(biāo),主成分分析結(jié)果基本符合臨床實(shí)際。
1.3 監(jiān)督學(xué)習(xí)方法
監(jiān)督學(xué)習(xí)是通過從給定的訓(xùn)練樣本調(diào)整分類器的參數(shù),得出最優(yōu)模型,當(dāng)輸入新數(shù)據(jù)時(shí),模型將給出相應(yīng)的輸出,通過對(duì)輸出結(jié)果的判斷實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的分類[5]?,F(xiàn)將醫(yī)案研究領(lǐng)域常用的監(jiān)督學(xué)習(xí)方法列舉如下。
1.3.1 Logistic回歸分析
Logistic回歸分析(Logistic Regression Analysis)是一種廣義的線性回歸分析模型,是定量研究因變量對(duì)自變量的依賴程度、分析變量之間關(guān)聯(lián)性并預(yù)測(cè)、預(yù)報(bào)的基本方法[20]。在醫(yī)案研究中常用來對(duì)“證-癥”規(guī)律研究及用藥規(guī)律等進(jìn)行挖掘分析。王偉杰等[21]整理302例類風(fēng)濕關(guān)節(jié)炎患者的病案信息,借助Logistic回歸分析方法,歸納出類風(fēng)濕關(guān)節(jié)炎主要證候與癥狀、舌脈之間的相關(guān)關(guān)系,為指導(dǎo)類風(fēng)濕關(guān)節(jié)炎臨床辨證提供科學(xué)依據(jù)。徐亮等[22]對(duì)125例名老中醫(yī)治療風(fēng)濕性心臟病的醫(yī)案進(jìn)行整理,運(yùn)用Logistic回歸對(duì)35味高頻中藥進(jìn)行分析,總結(jié)得出風(fēng)濕性心臟病以“益氣活血為主,兼以溫陽、養(yǎng)陰、利水”的治法原則。
1.3.2 判別分析
判別分析(Discriminatory Analysis)是在分類確定的條件下,根據(jù)研究對(duì)象的特征值對(duì)其進(jìn)行歸類判別的多變量分析方法[23]。依據(jù)判別準(zhǔn)則不同可分為貝葉斯、費(fèi)歇、距離等判別方法,其中貝葉斯判別分析在醫(yī)案研究中較為常用[24],該方法在對(duì)醫(yī)案中的癥狀體征等指標(biāo)進(jìn)行量化的基礎(chǔ)上通過計(jì)算獲得判別函數(shù),并以其作為臨床診斷的重要標(biāo)準(zhǔn)。張穎等[25]運(yùn)用貝葉斯判別分析方法根據(jù)372例慢性再生障礙性貧血患者醫(yī)案信息,建立慢性再生障礙性貧血辨證分型判別方程,并采用自身驗(yàn)證回代法對(duì)判別方程進(jìn)行檢驗(yàn),總體正確率為88.17%,其結(jié)果顯示判別分析在中醫(yī)辨證領(lǐng)域具有獨(dú)特優(yōu)勢(shì),為人工智能在中醫(yī)診斷領(lǐng)域的應(yīng)用奠定了技術(shù)基礎(chǔ)。
1.3.3 貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)(Bayesian Network)又稱信度網(wǎng)絡(luò),是貝葉斯判別分析的擴(kuò)展,是基于概率推理的數(shù)學(xué)模型,善于解決不定性和不完整性問題[26],具有較高的重復(fù)性和客觀性。因此在處理醫(yī)案中復(fù)雜的不確定性和關(guān)聯(lián)性問題時(shí)具有獨(dú)特優(yōu)勢(shì)[24]。甘小金等[27]回顧整理150例王子瑜教授治療子宮內(nèi)膜異位癥的門診醫(yī)案,運(yùn)用貝葉斯網(wǎng)絡(luò)方法對(duì)癥狀-證素信息做分類識(shí)別,結(jié)果顯示貝葉斯網(wǎng)絡(luò)算法對(duì)寒凝證、濕熱證、氣滯證、肝郁證、腎虛證的識(shí)別率分別為94.67%、90.67%、86%、82.67%、77.33%,說明貝葉斯網(wǎng)絡(luò)算法在研究老中醫(yī)醫(yī)案中包含的學(xué)術(shù)思想方面具有較好的應(yīng)用前景。
1.3.4 粗糙集理論
粗糙集理論(Rough Set Theory)是一種刻畫不確定、不完備系統(tǒng)的數(shù)學(xué)工具,善于從宏觀角度對(duì)醫(yī)案中臨證經(jīng)驗(yàn)進(jìn)行綜合分析,多用于中醫(yī)辨證及診斷研究[9]。孫繼佳和王鯤[28]運(yùn)用粗糙集理論對(duì)883例乙肝患者病案資料進(jìn)行研究,構(gòu)建中醫(yī)證候決策信息表并結(jié)合關(guān)聯(lián)規(guī)則得到各證型與中醫(yī)臨床指標(biāo)的相關(guān)性,對(duì)乙肝臨床治療及學(xué)術(shù)研究均具有較高的參考價(jià)值。
1.3.5 決策樹
決策樹(Decision Tree)是一種逼近離散值函數(shù)的分類預(yù)測(cè)方法,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值不小于零的概率,對(duì)項(xiàng)目進(jìn)行風(fēng)險(xiǎn)評(píng)價(jià)及可行性判斷[29-30]。決策樹的判定過程就相當(dāng)于從根結(jié)點(diǎn)到某一葉子結(jié)點(diǎn),該過程與中醫(yī)辨證思維過程的高度相似性,因此決策樹算法常用于中醫(yī)證候及診斷研究。別濤和閻兆君運(yùn)用決策樹分類算法對(duì)210例咳嗽變異性哮喘患兒的中醫(yī)證候信息進(jìn)行分析,得出了咳嗽變異性哮喘的中醫(yī)證型規(guī)律[31]。曾雪元等[32]整理3 322例缺血性卒中患者醫(yī)案信息,采用決策樹算法構(gòu)建缺血性卒中復(fù)發(fā)預(yù)測(cè)模型,使用混淆矩陣及受試者工作特征曲線(ROC)評(píng)價(jià)模型的效能。得到8個(gè)解釋變量,模型精確度為81%,ROC下面的面積為0.865,顯示出決策樹模型在缺血性卒中復(fù)發(fā)預(yù)測(cè)方面具有寬廣的發(fā)展空間。
1.3.6 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是一種人腦的抽象計(jì)算模型,通過彼此連結(jié)的神經(jīng)元結(jié)構(gòu)信息進(jìn)行處理。神經(jīng)元之間的連結(jié)經(jīng)過加權(quán)處理,其權(quán)重由從數(shù)據(jù)中學(xué)習(xí)、總結(jié)出的使用函數(shù)決定[30,33]。醫(yī)案中蘊(yùn)含著大量非線性的復(fù)雜的診療信息,其自身復(fù)雜性決定了醫(yī)案研究必須從復(fù)雜科學(xué)視角出發(fā),用不同的方法進(jìn)行多學(xué)科交叉研究,人工神經(jīng)網(wǎng)絡(luò)作為復(fù)雜科學(xué)研究領(lǐng)域應(yīng)用最為廣泛的研究方法之一,能夠客觀真實(shí)地反映研究對(duì)象內(nèi)部的非線性關(guān)系,多用于舌象、脈象辨識(shí),證候分類等復(fù)雜問題[34]。辛基梁[35]收集1 146例患者醫(yī)案信息,通過人工神經(jīng)網(wǎng)絡(luò)分類算法進(jìn)行訓(xùn)練建模,并測(cè)試該模型預(yù)測(cè)精度,結(jié)果顯示模型四診信息預(yù)測(cè)證素平均精度為0.79,結(jié)果顯示人工神經(jīng)網(wǎng)絡(luò)分類算法在中醫(yī)證候分類領(lǐng)域具有獨(dú)特優(yōu)勢(shì)。
1.3.7 支持向量機(jī)
支持向量機(jī)(Support Vector Machine)是一種按監(jiān)督學(xué)習(xí)方式進(jìn)行的數(shù)據(jù)二元分類方法,適用于處理小樣本、非線性資料和高維模式識(shí)別問題[36],在醫(yī)案研究中常用于診斷研究、證素研究、舌象脈象辨識(shí)等領(lǐng)域。王階等[37]通過收集115例冠心病名醫(yī)診療醫(yī)案,采用支持向量機(jī)方法對(duì)醫(yī)案中相關(guān)證候要素進(jìn)行分類并求得各子項(xiàng)的權(quán)重值,結(jié)果顯示名醫(yī)普遍認(rèn)為“虛實(shí)夾雜,本虛標(biāo)實(shí)”是冠心病的病機(jī)特點(diǎn),且在92.2%的患者中出現(xiàn)“血瘀”病機(jī),說明血瘀在冠心病發(fā)病過程中起到重要作用。
1.4 其他分析方法
在醫(yī)案研究領(lǐng)域還涉及深度學(xué)習(xí)、遷移學(xué)習(xí)等多種研究方法。深度學(xué)習(xí)是一種基于多層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,通常需要大量樣本來訓(xùn)練模型參數(shù),但實(shí)際中樣本量往往較少,而遷移學(xué)習(xí)恰好可以通過將某一相關(guān)領(lǐng)域?qū)W習(xí)到的模式應(yīng)用于當(dāng)前領(lǐng)域來解決上述問題,2種方法常常聯(lián)合用于解決圖像和文本的分類及回歸問題,尤其是在中醫(yī)舌象提取識(shí)別研究中應(yīng)用頗為廣泛。劉夢(mèng)等[38]通過收集500例齒痕舌和裂紋舌舌象圖片,運(yùn)用深度學(xué)習(xí)技術(shù)與遷移學(xué)習(xí)技術(shù)構(gòu)建舌象識(shí)別模型,具有較高的準(zhǔn)確率、精確率及召回率,研究結(jié)果顯示基于深度學(xué)習(xí)和遷移學(xué)習(xí)構(gòu)建的舌象識(shí)別模型,具備了高通量圖片識(shí)別處理能力,能夠較好地解決局部舌象識(shí)別問題。
2 醫(yī)案研究中常用數(shù)據(jù)挖掘軟件及平臺(tái)
目前,醫(yī)案數(shù)據(jù)挖掘領(lǐng)域中的常用軟件主要包括3大類,即:統(tǒng)計(jì)軟件(SPSS、Stata、SAS等)、編程軟件(R語言、Python、Weka等)及中醫(yī)數(shù)據(jù)挖掘平臺(tái)(中醫(yī)傳承輔助平臺(tái)2.5、中醫(yī)傳承計(jì)算平臺(tái)3.0、古今醫(yī)案云平臺(tái)等)。不同軟件具有各自的優(yōu)勢(shì)和不足,如SPSS、Stata等統(tǒng)計(jì)軟件事先內(nèi)置封裝了多常用分析方法及模型,研究者只需通過界面簡(jiǎn)單操作即可實(shí)現(xiàn)數(shù)據(jù)分析,但恰恰因其分析方法已固定,無法對(duì)分析模型進(jìn)行修改或自定義;R語言/Python則需要通過寫代碼的方式來運(yùn)行分析,使用靈活但門檻較高。近些年具備“數(shù)據(jù)錄入(導(dǎo)出)-管理-查詢-分析-可視化展示”等功能為一體的多種中醫(yī)數(shù)據(jù)挖掘平臺(tái)被研發(fā)出來,其中應(yīng)用最廣泛的是由中國(guó)中醫(yī)科學(xué)院中藥研究所和中國(guó)科學(xué)院自動(dòng)化所聯(lián)合開發(fā)的中醫(yī)傳承輔助平臺(tái)2.5,因其具備了中醫(yī)數(shù)據(jù)挖掘的主流分析功能,且操作簡(jiǎn)單易學(xué),受到廣大研究者的青睞。以下從主要分析功能、操作難易程度、可視化效果及應(yīng)用現(xiàn)狀4個(gè)方面對(duì)上述軟件進(jìn)行簡(jiǎn)要比較。見表1。
3 總結(jié)
目前,應(yīng)用于醫(yī)案研究的數(shù)據(jù)挖掘方法紛繁,如何根據(jù)待分析的醫(yī)案數(shù)據(jù)具體特點(diǎn)及研究目的選擇適合的研究方法是在數(shù)據(jù)挖掘之前首要考慮的問題。不同醫(yī)案研究其目的各異,其中用藥規(guī)律挖掘和辨證規(guī)律挖掘是目前醫(yī)案研究的熱點(diǎn)[39-41]。用藥規(guī)律挖掘主要從用藥頻次、治療劑量、藥對(duì)配伍等方面探究醫(yī)家用藥經(jīng)驗(yàn);辨證規(guī)律挖掘則是從證素研究、病機(jī)研究、癥狀規(guī)律,治法研究等方面挖掘醫(yī)案中的臨證診療思想[18]。在進(jìn)行研究時(shí)數(shù)據(jù)之間的關(guān)聯(lián)討論是必不可少的,關(guān)聯(lián)規(guī)則簡(jiǎn)單、易理解、數(shù)據(jù)要求低,可以從大量數(shù)據(jù)中快速準(zhǔn)確地發(fā)現(xiàn)項(xiàng)集之間或內(nèi)部的有義關(guān)聯(lián),在發(fā)現(xiàn)醫(yī)案中癥、證、藥之間關(guān)聯(lián)具有獨(dú)特優(yōu)勢(shì)。除進(jìn)行數(shù)據(jù)關(guān)聯(lián)討論以外,對(duì)擬分析數(shù)據(jù)庫進(jìn)行分類研究也十分必要。聚類分析是最常用的分類研究方法,可簡(jiǎn)潔直觀地對(duì)醫(yī)案數(shù)據(jù)進(jìn)行癥狀組合、藥物歸類及證候規(guī)律挖掘;當(dāng)面對(duì)分類已確定條件下處理研究對(duì)象分類問題,例如中醫(yī)證型判別問題時(shí),這時(shí)判別分析方法更為適合;在處理癥狀-證素分類識(shí)別問題時(shí),貝葉斯網(wǎng)絡(luò)較為常用,多用于中醫(yī)診斷、證候和辨證等方面的分析研究;決策樹分類算法在處理高維度數(shù)據(jù)分類問題時(shí)具有獨(dú)特優(yōu)勢(shì);支持向量機(jī)則更適合解決小樣本、非線性資料的分類問題[42]。每種數(shù)據(jù)挖掘方法都有其自身的優(yōu)勢(shì)及缺陷,如頻數(shù)統(tǒng)計(jì)僅能反映某種藥物的使用頻次,但不能反映其在處方中的貢獻(xiàn)度,而聚類分析恰好可以解決上述問題[43]。多種數(shù)據(jù)挖掘方法優(yōu)勢(shì)互補(bǔ)、取長(zhǎng)補(bǔ)短、相互交融、綜合運(yùn)用,所得結(jié)果才能更加契合臨床實(shí)際[42]。
數(shù)據(jù)挖掘技術(shù)就像一把雙刃劍,首先其為醫(yī)案研究者提供了一條有效捷徑,但其計(jì)算得出的結(jié)果中混雜有大量無義信息,這就要求研究者在處理數(shù)據(jù)挖掘結(jié)果時(shí)務(wù)必做到人機(jī)交互,反復(fù)校正,去粗取精、去偽存真,所得結(jié)果才能契合臨床實(shí)際,真正體現(xiàn)醫(yī)家學(xué)術(shù)思想[6]。此外目前常用的數(shù)據(jù)挖掘方法也存在其固有缺陷,在用藥規(guī)律研究中,現(xiàn)有方法主要通過計(jì)算方劑中藥物屬性,利用數(shù)據(jù)挖掘算法分析方劑中的核心藥物及藥物配伍組合規(guī)律。然而,目前數(shù)據(jù)挖掘算法沒有充分考慮藥物特性和方劑功效之間的深層聯(lián)系,導(dǎo)致所得用藥規(guī)律與臨床用藥規(guī)律存在一定差異。因此需要在算法中進(jìn)一步融合方劑藥物的特性,以抽象出藥物與方劑的深度關(guān)系;在方證關(guān)系研究中,多以療效作為數(shù)據(jù)收集的指標(biāo),按照療效采集獲取高質(zhì)量的診療數(shù)據(jù),分析藥物與療效間的關(guān)系、癥狀與療效間的關(guān)系,將藥物和疾病癥狀聯(lián)系到一起,然而當(dāng)前方法僅僅建立了癥狀與藥物間的聯(lián)系,并未考慮癥狀中隱含的病理因素和藥物的治療特性之間的關(guān)系,因此在設(shè)計(jì)算法過程中,需要進(jìn)一步融合病癥特征與藥物屬性間的規(guī)律[44]。
除此之外,還要重視數(shù)據(jù)挖掘方法與生物信息學(xué)、網(wǎng)絡(luò)藥理學(xué)、分子生物學(xué)、多組學(xué)等其他相關(guān)學(xué)科聯(lián)合運(yùn)用,使“證-癥-藥”的醫(yī)案經(jīng)驗(yàn)研究模式與“藥物單體-作用靶點(diǎn)-信號(hào)通路”的機(jī)制研究模式相結(jié)合,進(jìn)一步從分子層面驗(yàn)證所得經(jīng)驗(yàn)規(guī)律的準(zhǔn)確性,同時(shí)為中醫(yī)機(jī)制研究提供新思路。多種挖掘方法優(yōu)勢(shì)互補(bǔ)、相關(guān)學(xué)科聯(lián)合運(yùn)用,將為數(shù)據(jù)挖掘方法在醫(yī)案研究領(lǐng)域的應(yīng)用帶來新的活力。
綜上所述,數(shù)據(jù)挖掘技術(shù)對(duì)醫(yī)案所蘊(yùn)含的理論及學(xué)術(shù)思想的挖掘整理受到越來越多的關(guān)注。國(guó)學(xué)大師章太炎曾說:“中醫(yī)之成績(jī),醫(yī)案最著。”[43]醫(yī)案是每位醫(yī)者學(xué)術(shù)思想的精華所在,醫(yī)案研究作為中醫(yī)臨床最基礎(chǔ)的研究,是中醫(yī)學(xué)理論體系架構(gòu)的來源之一[18]。運(yùn)用數(shù)據(jù)挖掘方法對(duì)中醫(yī)醫(yī)案進(jìn)行分析,既可以節(jié)省對(duì)大容量樣本的處理時(shí)間,又能使得出的結(jié)論更加客觀、科學(xué)。隨著越來越多人工智能算法和模型應(yīng)用于醫(yī)案研究,將為中醫(yī)藥事業(yè)的傳承與發(fā)展提供一條新的思路。
參考文獻(xiàn)
[1]李鑫頡,賈振華,吳以嶺.數(shù)據(jù)挖掘方法在中醫(yī)醫(yī)案研究中的現(xiàn)狀分析[J].中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2012,18(1):4.
[2]何彥澄,肖永華,閆璞,等.中醫(yī)醫(yī)案分析方法評(píng)述[J].中醫(yī)雜志,2018,59(13):1106-1109.
[3]徐世杰,王國(guó)為.中醫(yī)醫(yī)案的特點(diǎn)及其價(jià)值[J].北京中醫(yī)藥大學(xué)學(xué)報(bào):中醫(yī)臨床版,2013,20(5):7-11.
[4]高新彥,廖成榮.《程原仲醫(yī)案》簡(jiǎn)介及特色淺析[J].河北中醫(yī),2015,37(11):1722-1723.
[5]申穎.基于醫(yī)案的名老中醫(yī)學(xué)術(shù)思想及臨證經(jīng)驗(yàn)傳承方法探索[D].北京:北京中醫(yī)藥大學(xué),2016.
[6]翟佳琪,郭潔,宋殿榮.數(shù)據(jù)挖掘方法在總結(jié)名老中醫(yī)臨證經(jīng)驗(yàn)中的應(yīng)用[J].名醫(yī),2020,11(4):66,68.
[7]田琳,朱建貴,王映輝.基于數(shù)據(jù)挖掘的現(xiàn)代中醫(yī)藥治療頭痛自擬處方用藥規(guī)律分析[J].中國(guó)中醫(yī)藥信息雜志,2012,19(11):22-24.
[8]韓析霖,秦空,傅延齡.基于數(shù)據(jù)挖掘的孟河四家治療咳嗽用藥規(guī)律研究[J].環(huán)球中醫(yī)藥,2020,13(2):224-228.
[9]劉興方,韓學(xué)杰.數(shù)據(jù)挖掘技術(shù)在醫(yī)案研究中的應(yīng)用與討論[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2014,20(9):247-250.
[10]卞雅莉.基于數(shù)據(jù)挖掘技術(shù)的中醫(yī)醫(yī)案研究方法探討[J].光明中醫(yī),2011,26(7):1340-1341.
[11]信楠.基于數(shù)據(jù)挖掘的《臨證指南醫(yī)案》脾胃病證治規(guī)律研究[D].廣州:廣州中醫(yī)藥大學(xué),2017.
[12]陳擎文.數(shù)據(jù)挖掘技術(shù)在古代名中醫(yī)中風(fēng)醫(yī)案之應(yīng)用研究[J].中華中醫(yī)藥學(xué)刊,2008,26(10):2254-2257.
[13]范李陽,高山.病毒性心肌炎的中醫(yī)證候和方藥規(guī)律分析[J].智慧健康,2018,4(24):69-70.
[14]宋寧,唐麗明,袁紅霞.基于聚類分析的難治性胃食管反流病中醫(yī)證型分布規(guī)律研究[J].江蘇中醫(yī)藥,2018,50(10):58-61.
[15]寧桂蘭.國(guó)醫(yī)大師班秀文教授論治產(chǎn)后病學(xué)術(shù)經(jīng)驗(yàn)整理研究[D].南寧:廣西中醫(yī)藥大學(xué),2018.
[16]許前磊,謝世平,陳建設(shè),等.艾滋病基本中醫(yī)證候因子分析[J].中醫(yī)雜志,2014,55(19):1672-1675.
[17]韋葭蔚,趙慧輝,黃幸,等.基于因子分析的慢性心力衰竭患者中醫(yī)證候特點(diǎn)研究[J].遼寧中醫(yī)雜志,2018,45(6):1218-1221.
[18]仲芳,楊巍,趙翀,等.數(shù)據(jù)挖掘技術(shù)在中醫(yī)醫(yī)案的應(yīng)用研究[J].中國(guó)中醫(yī)藥信息雜志,2020,27(2):141-144.
[19]李毅,劉艷,劉力,等.潰瘍性結(jié)腸炎中醫(yī)癥狀學(xué)主成分分析[J].中醫(yī)藥導(dǎo)報(bào),2016,22(7):32-35.
[20]郭澤強(qiáng).傳染病預(yù)測(cè)方法的研究[J].職業(yè)與健康,2012,28(5):610-612.
[21]王偉杰,唐曉頗,王新昌,等.基于臨床辨證的類風(fēng)濕關(guān)節(jié)炎常見中醫(yī)證候Logistic回歸分析[J].中華中醫(yī)藥雜志,2019,34(2):807-810.
[22]徐亮,陳守強(qiáng),侯建輝,等.名老中醫(yī)治療風(fēng)濕性心臟病用藥規(guī)律的Logistic回歸分析[J].中西醫(yī)結(jié)合心腦血管病雜志,2016,14(5):515-517.
[23]張初兵,高康,楊貴軍.判別分析與Logistic回歸的模擬比較[J].統(tǒng)計(jì)與信息論壇,2010,25(1):19-25.
[24]秘紅英,李彩云,李紅蓉,等.中醫(yī)醫(yī)案的分析方法[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2017,23(13):226-230.
[25]張穎,葉寶東,季聰華,等.基于Bayes判別分析法的慢性再生障礙性貧血中醫(yī)證候診斷研究[J].臨床血液學(xué)雜志,2017,30(5):377-379.
[26]馬豪.衛(wèi)生管理決策支持系統(tǒng)的模型構(gòu)建研究[D].北京:北京協(xié)和醫(yī)學(xué)院,2015.
[27]甘小金,陳艷,馬秀麗.基于貝葉斯網(wǎng)絡(luò)的王子瑜教授治療子宮內(nèi)膜異位癥的辨證規(guī)律研究[J].世界中西醫(yī)結(jié)合雜志,2019,14(10):1350-1352.
[28]孫繼佳,王鯤.基于粗糙集技術(shù)的乙肝中醫(yī)臨床癥候關(guān)聯(lián)規(guī)則挖掘研究[J].數(shù)理醫(yī)藥學(xué)雜志,2017,30(10):1423-1425.
[29]滕皓,趙國(guó)毅,韓保勝.改進(jìn)決策樹的研究[J].濟(jì)南大學(xué)學(xué)報(bào):自然科學(xué)版,2002,16(3):231-233.
[30]常強(qiáng),趙偉,趙仰杰.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類預(yù)測(cè)與實(shí)現(xiàn)[J].軟件,2018,39(12):207-209.
[31]別濤,閻兆君.基于決策樹方法探究咳嗽變異性哮喘的中醫(yī)證型規(guī)律[J].湖北中醫(yī)雜志,2019,41(1):47-49.
[32]曾雪元,宮偉國(guó),胡云峰,等.基于決策樹算法構(gòu)建缺血性卒中復(fù)發(fā)的預(yù)測(cè)模型[J].吉林中醫(yī)藥,2020,40(4):437-440.
[33]趙鐵牛,于春泉,王惠君,等.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)證候?qū)W中的應(yīng)用初探[J].中華中醫(yī)藥雜志,2014,29(3):831-833.
[34]劉旺華,洪凈,李花,等.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)診斷信息化中的應(yīng)用[J].湖南中醫(yī)藥大學(xué)學(xué)報(bào),2017,37(7):809-812.
[35]辛基梁.人工神經(jīng)網(wǎng)絡(luò)在中醫(yī)臨床辨證模型研究中的應(yīng)用[D].福州:福建中醫(yī)藥大學(xué),2017.
[36]王亞真,張新峰,胡廣芹,等.基于支持向量機(jī)的中醫(yī)舌圖像質(zhì)量評(píng)價(jià)研究[J].北京生物醫(yī)學(xué)工程,2015,34(6):551-557.
[37]王階,吳榮,周雪忠.基于支持向量機(jī)的名老中醫(yī)治療冠心病證候要素研究[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2008,31(8):540-543.
[38]劉夢(mèng),王曦廷,周璐,等.基于深度學(xué)習(xí)與遷移學(xué)習(xí)的中醫(yī)舌象提取識(shí)別研究[J].中醫(yī)雜志,2019,60(10):835-840.
[39]毛果,王欽玉,謝樂等.基于文獻(xiàn)數(shù)據(jù)挖掘的新型冠狀病毒肺炎中醫(yī)證素規(guī)律研究[J].中醫(yī)藥臨床雜志,2020,32(7):1200-1204.
[40]黃威,饒艷玲,孫勤國(guó),等.基于數(shù)據(jù)挖掘探討340例新冠肺炎的中醫(yī)用藥規(guī)律[J].海南醫(yī)學(xué)院學(xué)報(bào),2020,26(12):881-888,894.
[41]高婷,苗晉鑫,康樂,等.基于數(shù)據(jù)挖掘的中醫(yī)藥治療間質(zhì)性肺炎用藥規(guī)律分析[J].中藥藥理與臨床,2020,36(4):8-11.
[42]鄭舞,劉國(guó)萍.常見數(shù)據(jù)挖掘方法在中醫(yī)診斷領(lǐng)域的應(yīng)用概況[J].中國(guó)中醫(yī)藥信息雜志,2013,20(4):103-107.
[43]肖碧躍,何清湖,孫貴香,等.國(guó)醫(yī)大師孫光榮談如何將經(jīng)典理論與臨床實(shí)際相結(jié)合[J].湖南中醫(yī)藥大學(xué)學(xué)報(bào),2018,38(3):235-237.
[44]陳志奎,宋鑫,高靜,等.基于數(shù)據(jù)挖掘的中醫(yī)診療研究進(jìn)展[J].中華中醫(yī)藥學(xué)刊,2020,38(12):1-9.
(2021-04-20收稿 責(zé)任編輯:徐穎)