馮天保,劉 梅,譚定英,陳平平
(廣州中醫(yī)藥大學(xué),廣州 510405)
藥對(duì),又稱(chēng)“對(duì)藥”,是臨床上常用的、相對(duì)固定的2味藥物的配伍形式。藥對(duì)是集中醫(yī)之理、法、藥為一體的數(shù)據(jù)集合,體現(xiàn)交叉錯(cuò)綜的關(guān)聯(lián)與對(duì)應(yīng)。數(shù)據(jù)挖掘正是通過(guò)對(duì)數(shù)據(jù)特征、關(guān)系、聚類(lèi)、趨向、偏差和特例現(xiàn)象的深層多維分析,來(lái)揭示數(shù)據(jù)間復(fù)雜和特殊的關(guān)系,發(fā)現(xiàn)其隱含的規(guī)則、模式和規(guī)律。本研究以《張仲景藥對(duì)集》[1]、《中藥藥對(duì)大全》[2]中外感疾病相關(guān)的藥對(duì)為數(shù)據(jù)源,利用SQL Server 2005建立數(shù)據(jù)挖掘模型,應(yīng)用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法,對(duì)藥對(duì)作“藥物-藥對(duì)-病證”對(duì)應(yīng)關(guān)系進(jìn)行分析。
數(shù)據(jù)挖掘(Data Mining)是用于開(kāi)發(fā)信息資源的1種新的數(shù)據(jù)處理技術(shù),主要用于海量數(shù)據(jù)的分析與研究。數(shù)據(jù)挖掘技術(shù)已被廣泛地應(yīng)用于經(jīng)濟(jì)管理以及社會(huì)生產(chǎn)的各個(gè)領(lǐng)域,并逐漸滲入到中醫(yī)藥研究領(lǐng)域中,取得了一定的階段性成果。關(guān)聯(lián)規(guī)則指描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,是從給定的數(shù)據(jù)中,挖掘出事物特征之間滿(mǎn)足一定支持度和置信度的關(guān)聯(lián)現(xiàn)象[3]。關(guān)聯(lián)規(guī)則相關(guān)術(shù)語(yǔ)如下:(1)項(xiàng)集:項(xiàng)集是1組值,每個(gè)項(xiàng)都是1個(gè)屬性值。每個(gè)項(xiàng)集都有一個(gè)大小,該大小表示項(xiàng)集中包含的項(xiàng)的數(shù)目。如項(xiàng)集{葶藶子、麻黃/杏仁、咳嗽}的大小是3;(2)支持度:支持度用于度量1個(gè)項(xiàng)集的出現(xiàn)頻率。最小支持度是1個(gè)閾值參數(shù),必須在處理關(guān)聯(lián)模型之前指定該參數(shù);(3)概率:也稱(chēng)置信度,是關(guān)聯(lián)規(guī)則的屬性。最小概率是1個(gè)閾值參數(shù),必須在運(yùn)行算法之前指定該參數(shù),它表示用戶(hù)只對(duì)某些規(guī)則感興趣,這些規(guī)則擁有比較高的概率;(4)重要性:重要性用于衡量項(xiàng)集和規(guī)則[4],重要性用下面的公式來(lái)定義:Importance({A,B})=probability(A,B)/(probability(A)×probability(B))。計(jì)算結(jié)果,如果importance=1,則表示 A和 B是2個(gè)獨(dú)立的事件。如果importance<1,則 A和 B是負(fù)相關(guān),它表示 A發(fā)生,B也不太可能發(fā)生。如果 importance>1,則A和B是正相關(guān),表示A、B很有可能發(fā)生。
數(shù)據(jù)來(lái)源于《張仲景藥對(duì)集》及《中藥藥對(duì)大全》,主要采用其中解表類(lèi)、溫里類(lèi)、清熱類(lèi)、瀉下類(lèi)、祛濕類(lèi)和止咳類(lèi)藥對(duì)。將篩選后的數(shù)據(jù)進(jìn)行標(biāo)化、量化、錄入,并創(chuàng)建中藥藥對(duì)數(shù)據(jù)庫(kù),使之易于管理、分析與查詢(xún)。
2.2.1 藥名的預(yù)處理 《張仲景藥對(duì)集》、《中藥藥對(duì)大全》中的數(shù)據(jù)幾乎都是文字性的描述,需要作歸類(lèi)和數(shù)據(jù)屬性數(shù)據(jù)化。書(shū)中藥名幾乎每1種藥物都存在一物多名的情況,處理這一類(lèi)藥名的時(shí)候,根據(jù)《中藥配伍應(yīng)用》與《常用中藥配伍與名方精要》兩書(shū)進(jìn)行規(guī)范化處理,統(tǒng)一藥名。
2.2.2 用量的預(yù)處理 在《張仲景藥對(duì)集》和《中藥藥對(duì)大全》中藥物所用劑量基本上都是以“克”為單位做計(jì)算的,所以不存在單位轉(zhuǎn)換的問(wèn)題。在用量中如果是1個(gè)連續(xù)值的話,分2種方法轉(zhuǎn)化;若劑量小于30g則取最大值;反之,取平均值。如白術(shù)用量為6g~15g,最大劑量小于30g,那么取最大劑量15g;綠豆用量為30g~70g,那么就用平均值(30+70)/2=50g。
單味藥物本身具有的屬性包括功用、四性、五味、升降浮沉、歸經(jīng)和藥物毒性等,為本數(shù)據(jù)取藥物的基本屬性,包括四性五味、歸經(jīng)和功用。
2.3.1 四性的數(shù)字化 表1顯示,藥物的四性包括寒、熱、溫、涼、平,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼為“1”,反之為“0”。如某藥具有熱性,則編碼。
表1 藥物四性表
2.3.2 五味的數(shù)字化 表2顯示,藥物的五味包括酸、苦、甘、辛、咸、淡、澀,如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼為“1”,反之為“0”。如某藥具有辛味,則編碼。
表2 藥物五味表
2.3.3 歸經(jīng)的數(shù)字化 表3顯示,藥物的歸經(jīng)包括肝、心、脾、肺、腎、胃、膽、大腸、小腸、膀胱、心包、三焦經(jīng)等幾類(lèi),如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼“1”,反之為“0”。
表3 藥物歸經(jīng)表
2.3.4 藥物功效屬類(lèi)數(shù)字化 表4顯示,將藥物功效屬類(lèi)分為解表藥、清熱藥、瀉下藥、祛濕藥、溫里藥、理氣藥、消食藥、止血藥、活血化瘀藥、化痰止咳平喘藥、安神藥、平肝息風(fēng)藥、補(bǔ)虛藥、收澀藥、殺蟲(chóng)藥等共17大類(lèi),如果藥物具有相應(yīng)的屬性,就在相應(yīng)的屬性上編碼“1”,反之為“0”。
2.4.1 屬性表的建立 在數(shù)據(jù)庫(kù)中建立了3個(gè)藥物屬性表,包括藥物性味表、藥物歸經(jīng)表、藥物功用表。性味包括寒、熱、溫、涼、平、酸、苦、甘、辛、咸、淡、澀,歸經(jīng)包括肝、心、脾、肺、腎、胃、膽、大腸、小腸、膀胱、心包、三焦,功用表包括解表、清熱等17種。這些屬性表既是藥物的基本屬性,也作為藥物數(shù)據(jù)挖掘的依據(jù)。
表4 藥物功效屬類(lèi)表
2.4.2 事實(shí)表的建立 事實(shí)表中的事實(shí)是指描述1種物體的詳細(xì)情況并能體現(xiàn)物體特征。事實(shí)表的建立可以發(fā)現(xiàn)物體之間的異同,也有利于信息的查詢(xún),主要有藥對(duì)表(藥對(duì)ID、藥對(duì)組成、功效、主治等)、藥物表(藥物 ID、藥物名、藥物功能、用量(g)等)、藥對(duì)-藥物表(藥對(duì) ID、藥物 ID、藥對(duì)功用ID、病證 ID等)。
經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)錄入、數(shù)據(jù)清洗,數(shù)據(jù)庫(kù)正式完成并可以導(dǎo)入Microsoft SQL Server2005進(jìn)行挖掘模型的創(chuàng)建。采用關(guān)聯(lián)分析方法,試圖預(yù)測(cè)藥對(duì)-藥物-病證三者之間的關(guān)系,發(fā)現(xiàn)頻繁項(xiàng)集。(1)創(chuàng)建Analysis Services項(xiàng)目;(2)創(chuàng)建數(shù)據(jù)源和數(shù)據(jù)源視圖;(3)選取關(guān)聯(lián)規(guī)則算法,建立數(shù)據(jù)挖掘模型;(4)利用關(guān)聯(lián)規(guī)則進(jìn)行藥對(duì)數(shù)據(jù)的挖掘。下面選取2個(gè)選項(xiàng)卡數(shù)據(jù)作為藥對(duì)挖掘結(jié)果展示,其中項(xiàng)集是指該選項(xiàng)卡能顯示被模型識(shí)別為經(jīng)常發(fā)現(xiàn)一起出現(xiàn)項(xiàng)集的列表,網(wǎng)格中有“支持”、“大小”和“項(xiàng)集”項(xiàng)目,而規(guī)則是指該選項(xiàng)卡顯示關(guān)聯(lián)算法發(fā)現(xiàn)的規(guī)則。
選擇藥對(duì)-藥物表為事例表,藥物表和藥對(duì)表作為嵌套表(見(jiàn)圖2)。
①項(xiàng)集選項(xiàng)卡的數(shù)據(jù),在此選擇了其中之一作為數(shù)據(jù)展示(見(jiàn)圖3);②規(guī)則選項(xiàng)卡數(shù)據(jù),在此選擇了部分?jǐn)?shù)據(jù)展示(見(jiàn)圖4)。
圖2 挖掘模型
圖3 項(xiàng)集選項(xiàng)卡
圖4 規(guī)則選項(xiàng)卡
本文主要研究治療傷寒疾病的藥物-藥對(duì)-病證之間的關(guān)系,利用 SQL Server 2005作為數(shù)據(jù)庫(kù),通過(guò)關(guān)聯(lián)規(guī)則算法對(duì)傷寒疾病藥對(duì)進(jìn)行挖掘。筆者只選取了部分?jǐn)?shù)據(jù)進(jìn)行歸納分析如下。
表5顯示,數(shù)據(jù)信息包括藥物和藥對(duì)關(guān)聯(lián)規(guī)則、置信度和重要性,反映出藥物與藥對(duì)之間是可以互相預(yù)測(cè)的,具有雙向關(guān)聯(lián)。如“陳皮→麻黃/附子”與“麻黃/附子→陳皮”等,這些規(guī)則提示前者比后者更有用,可以理解為臨床上若以陳皮治療寒咳痰多,加入溫陽(yáng)平喘的藥對(duì)麻黃/附子效果會(huì)更加好;若以麻黃/附子溫陽(yáng)平喘,加入陳皮增效的作用可能沒(méi)那么顯著,而要考慮與其他藥物配伍。從表中還可以看出,有些藥物與藥對(duì)和藥對(duì)與藥物之間的關(guān)系具有相同的置信度和重要性,表明這些規(guī)則的可用性是一樣的。如“竹葉→茵陳/梔子/大黃”與“茵陳/梔子/大黃→竹葉”等。
表5 項(xiàng)集大小為2的藥物-藥對(duì)關(guān)聯(lián)規(guī)則表
在表6的各組合中,大部分是藥物與藥對(duì)之間是互相獨(dú)立的,可以看成這些藥物的重新組合對(duì)相關(guān)病證的治療起到更好的協(xié)同或相反相成的作用,即組成一個(gè)新的藥串。藥串[5]是指相對(duì)固定的3味或3味以上的藥物組合,作為中藥配伍的獨(dú)立單元,是針對(duì)一定病證,從歷代醫(yī)家用藥經(jīng)驗(yàn)中提煉出來(lái)行之有效的、符合一定的理論依據(jù)和法度的固定配伍。如表中的“葶藶子,麻黃/杏仁 → 咳嗽;細(xì)辛,麻黃/附子→感冒,水腫”等多數(shù)組合均屬這種情況。麻黃、杏仁均有宣肺平喘之功,加入瀉肺平喘、行水消腫之葶藶子作為組合,則對(duì)咳嗽痰多者療效更佳。但對(duì)于“烏頭,旋覆花/代赭石→嘔逆,嘔吐,咳嗽”這類(lèi)組合,加入有回陽(yáng)逐冷、祛風(fēng)濕功效的烏頭,從醫(yī)理藥理上很難解析其對(duì)嘔逆、嘔吐、咳嗽等癥的治療效果,故此時(shí)還要結(jié)合臨床、古文獻(xiàn)及現(xiàn)代中藥藥理研究來(lái)綜合分析與行取舍挖掘的規(guī)律。
表6 項(xiàng)集大小為3的藥物-藥對(duì)-病證關(guān)聯(lián)規(guī)則表
本實(shí)驗(yàn)利用數(shù)據(jù)挖掘技術(shù)對(duì)中藥藥對(duì)進(jìn)行研究,在一定程度上揭示了中藥藥對(duì)的應(yīng)用特點(diǎn),發(fā)現(xiàn)了一些新的用藥規(guī)律及藥物組合規(guī)律,如單味藥與藥對(duì)的對(duì)應(yīng)關(guān)系,以及出現(xiàn)了一些新的藥物配伍組合——“藥串”,此將有助于指導(dǎo)臨床科學(xué)用藥,提高藥對(duì)治療的效果。筆者在挖掘過(guò)程中也發(fā)現(xiàn),對(duì)挖掘出來(lái)的所有結(jié)果不一定都可用,此需結(jié)合臨床、古文獻(xiàn)及現(xiàn)代中藥藥理研究結(jié)果來(lái)綜合分析,遵循“人機(jī)結(jié)合、以人為主”的原則進(jìn)行取舍。目前所研究的“藥物-藥對(duì)-病證”關(guān)聯(lián)分析方法較為簡(jiǎn)單,而中藥藥對(duì)、證、癥、病等信息形成的多維關(guān)聯(lián)關(guān)系的深入揭示,還需在今后工作中進(jìn)一步研究。
[1]王玉芝,呂昌寶.張仲景藥對(duì)集[M].長(zhǎng)治:山西省晉東南醫(yī)學(xué)專(zhuān)科學(xué)校,1984.
[2]胥慶華,中藥藥對(duì)大全[M].北京:中國(guó)中醫(yī)藥出版社,2001.
[3]李虹,蔡之華.關(guān)聯(lián)規(guī)則在醫(yī)療數(shù)據(jù)分析中的應(yīng)用[J].微機(jī)發(fā)展,2003,13(6):94.
[4]Jiawei Han,Micheline Kamber著,范明,孟小峰,譯.數(shù)據(jù)挖掘概念與技術(shù)[M].2版.北京:機(jī)械工業(yè)出版社,2007.
[5]趙進(jìn)喜,肖永華,傅強(qiáng).呂仁和用藥經(jīng)驗(yàn)舉隅[J].中醫(yī)雜志,2009,50(4):300-301.