聶佳 任玉蘭 江蓉星 許霞
摘要:中醫(yī)藥古籍是中醫(yī)藥傳承發(fā)展寶貴的知識(shí)財(cái)富,巴蜀中醫(yī)藥古籍特色突出。承載醫(yī)家豐富理論和臨床經(jīng)驗(yàn)的醫(yī)案,是知識(shí)發(fā)現(xiàn)不可或缺的研究對(duì)象。構(gòu)建基于關(guān)聯(lián)規(guī)則方法分析的巴蜀中醫(yī)藥古籍醫(yī)案數(shù)據(jù)挖掘系統(tǒng),不僅能深入研究巴蜀中醫(yī)藥學(xué)術(shù)流派的特色,亦能為中醫(yī)藥古籍?dāng)?shù)據(jù)挖掘系統(tǒng)開發(fā)和應(yīng)用提供有效的支持。
關(guān)鍵詞:巴蜀;中醫(yī)藥;古籍;醫(yī)案;數(shù)據(jù)挖掘系統(tǒng);構(gòu)建
巴蜀地區(qū)獨(dú)特的地理和文化環(huán)境,造就了一批在傳統(tǒng)中醫(yī)藥方面卓有成就的名醫(yī)大家,如北宋的唐慎微、清代的齊秉慧等,尤其在中醫(yī)診療、方藥方面特色突出,給后人留下了寶貴的醫(yī)案記錄,為祖國(guó)的醫(yī)藥事業(yè)繼承和發(fā)展作出了不朽的貢獻(xiàn)。本研究基于所收集1063部巴蜀中醫(yī)藥古籍中醫(yī)案的特點(diǎn),利用現(xiàn)代計(jì)算機(jī)技術(shù),構(gòu)建數(shù)據(jù)挖掘系統(tǒng),旨在深層次發(fā)現(xiàn)巴蜀歷代醫(yī)家辨證論治的知識(shí)信息,發(fā)揚(yáng)巴蜀中醫(yī)藥文化。
1.數(shù)據(jù)挖掘系統(tǒng)構(gòu)建
1.1總體思路
數(shù)據(jù)挖掘能從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中提取有效的、新穎的、潛在有用的知識(shí)和規(guī)律,具有處理海量模糊性、非線性數(shù)據(jù)及知識(shí)發(fā)現(xiàn)的優(yōu)勢(shì)。本研究以中醫(yī)藥古籍資源的分析利用和知識(shí)發(fā)現(xiàn)為目的,在試驗(yàn)相關(guān)數(shù)據(jù)挖掘技術(shù)特點(diǎn)和適用性基礎(chǔ)上,結(jié)合巴蜀中醫(yī)藥名家診治思路和特點(diǎn),探索性地建立了基于關(guān)聯(lián)規(guī)則的辨證施治、用藥規(guī)律挖掘模型,并驗(yàn)證了其可行性,建立符合中醫(yī)臨床規(guī)律的數(shù)據(jù)分析方法,建造巴蜀中醫(yī)藥古籍?dāng)?shù)據(jù)挖掘的計(jì)算機(jī)模型。
1.2主要構(gòu)建步驟
構(gòu)建步驟共兩部分。第一部分先明確研究需要,定義研究數(shù)據(jù),將原始數(shù)據(jù)通過(guò)數(shù)據(jù)轉(zhuǎn)換、加工等數(shù)據(jù)預(yù)處理方式,抽取正確可靠的數(shù)據(jù),構(gòu)建多維的數(shù)據(jù)倉(cāng)庫(kù)挖掘模型;第二部分即根據(jù)不同的查詢條件進(jìn)行數(shù)據(jù)挖掘,根據(jù)研究需要,選用恰當(dāng)?shù)臄?shù)據(jù)挖掘算法,計(jì)算出滿足條件的模式集合,以數(shù)據(jù)條形式表達(dá)出來(lái),調(diào)整參數(shù)進(jìn)行模式篩選,通過(guò)挖掘前臺(tái)系統(tǒng)向?qū)нM(jìn)行數(shù)據(jù)挖掘操作,將數(shù)據(jù)挖據(jù)信息以關(guān)聯(lián)規(guī)則形式展現(xiàn)給用戶,總過(guò)程如圖1所示。
1.2.1數(shù)據(jù)的轉(zhuǎn)換和加工 從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的庫(kù)的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)不完整等,因此有必要對(duì)抽取出的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工,包括數(shù)據(jù)過(guò)濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。本研究根據(jù)抽取數(shù)據(jù)的特點(diǎn)進(jìn)行數(shù)據(jù)轉(zhuǎn)換和加工研究,主要包括數(shù)據(jù)清洗、噪音處理、數(shù)據(jù)規(guī)范。
1.2.1.1缺失值的處理 在中醫(yī)處方信息中,有時(shí)會(huì)出現(xiàn)期望有數(shù)據(jù)的地方卻沒(méi)有數(shù)據(jù)的情況,如對(duì)臨床決策有重要價(jià)值的藥量等數(shù)據(jù)的缺失。針對(duì)數(shù)據(jù)的特點(diǎn)和對(duì)決策意義的不同,采用不同的缺失值填充算法,補(bǔ)充缺失數(shù)據(jù)。如針對(duì)樹脂類數(shù)據(jù),缺失值采用平均值填充法。
1.2.1.2噪音數(shù)據(jù)的處理 主要指針對(duì)一詞多義、多詞一義、詞義模糊、詞義交叉或涵蓋等噪音數(shù)據(jù)進(jìn)行處理。處理方法主要是根據(jù)《中華人民共和國(guó)藥典》《中醫(yī)診斷術(shù)語(yǔ)標(biāo)準(zhǔn)》《中醫(yī)證候鑒別診斷學(xué)》《中醫(yī)癥狀鑒別診斷學(xué)》《中藥學(xué)》《方劑學(xué)》等標(biāo)準(zhǔn)進(jìn)行刪除或規(guī)范處理。
1.2.1.3藥物名稱的規(guī)范處理 針對(duì)處方中對(duì)藥物的描述存在大量異藥同名、同藥異名等現(xiàn)象,本研究采用改進(jìn)的編輯距離算法,對(duì)數(shù)學(xué)名稱進(jìn)行自動(dòng)化、智能化的規(guī)范處理。規(guī)范處理過(guò)程通過(guò)兩級(jí)數(shù)據(jù)規(guī)范實(shí)現(xiàn)。
1.2.1.4癥狀名稱的規(guī)范 中醫(yī)古籍文獻(xiàn)對(duì)癥狀的描述常存在不規(guī)范性,多表現(xiàn)為癥狀名稱不標(biāo)準(zhǔn)以及癥狀表述的模糊性。為了使系統(tǒng)可以正確處理對(duì)癥狀的描述,本研究根據(jù)癥狀規(guī)范采用改進(jìn)的編輯距離算法,對(duì)癥狀進(jìn)行自動(dòng)化、智能化的規(guī)范處理。規(guī)范過(guò)程與藥物規(guī)范一致。
1.2.2數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施 構(gòu)建巴蜀中醫(yī)藥古籍?dāng)?shù)據(jù)倉(cāng)庫(kù)的目標(biāo)數(shù)據(jù)庫(kù)由藥物表、癥狀表、疾病表等構(gòu)成。數(shù)據(jù)庫(kù)中各表根據(jù)情況向下細(xì)化到不能分解的原數(shù)據(jù)。各表之間的數(shù)據(jù)可以借助外鍵建立聯(lián)系,從而形成一個(gè)龐大的中醫(yī)體系結(jié)構(gòu)。
1.2.3建造數(shù)據(jù)挖掘模型 為了從多個(gè)維度、不同概念層次對(duì)藥物運(yùn)用規(guī)律進(jìn)行漸進(jìn)分析,本項(xiàng)目基于中醫(yī)數(shù)據(jù)存在復(fù)雜冠詞,結(jié)合關(guān)聯(lián)規(guī)則建立了癥候關(guān)聯(lián)、藥物配伍等挖掘模型。
1.2.4數(shù)據(jù)挖掘 運(yùn)用多維關(guān)聯(lián)規(guī)則分析在不同維度下癥狀、證候、藥物的頻次和支持度,提取中醫(yī)某一疾病的多發(fā)癥狀、證候及治療所需常用藥物;運(yùn)用關(guān)聯(lián)規(guī)則分析的頻繁項(xiàng)集分析中醫(yī)醫(yī)案中癥狀與證候、藥物與藥物等的配伍規(guī)律,計(jì)算癥狀、證候、藥物項(xiàng)集的支持度和置信度,提取常用二元或者多元癥狀、證候、藥物配伍;采用多維關(guān)聯(lián)規(guī)則挖掘算法分析中醫(yī)辨證思路、處方選藥規(guī)律,分析不同年代、出處、文獻(xiàn)類型等條件下辨證論治規(guī)律。
2.應(yīng)用示范
2.1功能界面操作
用戶通過(guò)用戶名和密碼登錄巴蜀中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),進(jìn)入數(shù)據(jù)挖掘操作界面,見圖2。首先選擇“導(dǎo)入數(shù)據(jù)”選項(xiàng),在目標(biāo)文件中選擇準(zhǔn)備數(shù)據(jù)挖掘的源數(shù)據(jù),導(dǎo)入數(shù)據(jù)挖掘系統(tǒng),然后根據(jù)研究需要,分別選擇藥物關(guān)聯(lián)、癥候關(guān)聯(lián)(癥狀與證候關(guān)聯(lián))等選項(xiàng),實(shí)現(xiàn)疾病與藥物、病因與癥狀等之間的關(guān)聯(lián)規(guī)則分析,達(dá)到數(shù)據(jù)挖掘的目的。
2.2藥物關(guān)聯(lián)分析展示
以《圣余醫(yī)案》為例,導(dǎo)入所要進(jìn)行數(shù)據(jù)挖掘的源數(shù)據(jù),點(diǎn)擊“藥物關(guān)聯(lián)分析”按鈕,在病名下拉選項(xiàng)中選擇“咳嗽”,在藥物復(fù)選框中選中“全部藥物”,在支持度和置信度選項(xiàng)中選擇0.5,點(diǎn)擊“數(shù)據(jù)挖掘分析”按鈕,顯示出如下結(jié)果。見表1。
從表1中可以看出,在《圣余醫(yī)案》中治療咳嗽所用的藥物配伍組合,支持度和置信度>50%的共有12條數(shù)據(jù)。其中,半夏與白術(shù)組合的支持度為78.95%,置信度為100.00%。說(shuō)明該書記載咳嗽病醫(yī)案中,半夏和白術(shù)同時(shí)出現(xiàn)的頻率為78.95%;而當(dāng)半夏或白術(shù)二者其中一味出現(xiàn)時(shí),另一味中藥出現(xiàn)的概率為100.00%??梢?,在《圣余醫(yī)案》中,醫(yī)家治療咳嗽時(shí),半夏與白術(shù)是常用藥對(duì),而且其單味藥使用頻率也是最高,均為15。半夏燥濕化痰、降逆止嘔,白術(shù)健脾益氣、燥濕利水,二者伍用倍增鎮(zhèn)咳化痰之功。
3.體會(huì)
本研究引進(jìn)現(xiàn)代計(jì)算機(jī)技術(shù),針對(duì)巴蜀中醫(yī)藥古籍醫(yī)案,探索性地構(gòu)建基于關(guān)聯(lián)規(guī)則方法分析的數(shù)據(jù)挖掘系統(tǒng),以期為中醫(yī)藥古籍?dāng)?shù)據(jù)挖掘系統(tǒng)的開發(fā)和應(yīng)用提供有效的支持。關(guān)聯(lián)規(guī)則是中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘研究常用的方法,對(duì)于蘊(yùn)含豐富的理論知識(shí)和實(shí)踐經(jīng)驗(yàn)的中醫(yī)藥古籍而言,應(yīng)嘗試不同的方法,多角度發(fā)現(xiàn)知識(shí)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于不同種類的中醫(yī)藥古籍,將是下一步研究工作的重點(diǎn)。