甯金蓉,吳婷婷,楊 逸,佘侃侃
(南京中醫(yī)藥大學,江蘇 南京 210000)
基于數(shù)據(jù)挖掘的李東垣組方配伍規(guī)律的研究
甯金蓉,吳婷婷,楊 逸,佘侃侃*
(南京中醫(yī)藥大學,江蘇 南京 210000)
李東垣的組方在中醫(yī)方面運用廣泛且影響深遠,但李東垣的組方中涉及的方劑數(shù)目多,信息量巨大,傳統(tǒng)的方法無法解讀。因此,文章運用關(guān)聯(lián)規(guī)則、粗糙集、屬性約簡等數(shù)據(jù)挖掘算法,對李東垣著作中的方劑進行了全面和系統(tǒng)的研究分析,以發(fā)掘其著作中方劑配伍變化的內(nèi)在規(guī)律,為中醫(yī)的發(fā)展提供有價值的參考。
數(shù)據(jù)挖掘;李東垣組方;配伍規(guī)律
李東垣是我國醫(yī)學史上著名的金元四大家之一,是中醫(yī)“脾胃學說”的創(chuàng)始人,他提出的“內(nèi)傷脾胃,百病由生”觀點,形成了獨具特色的脾胃內(nèi)傷學說。李東垣在他的學說基礎(chǔ)上新增了大量方劑,這些方劑在臨床上沿用至今,且療效顯著。
李東垣的組方在中醫(yī)方面及現(xiàn)代臨床方面廣泛應用且影響深遠,他的組方集中體現(xiàn)了其學術(shù)思想,反映出其獨特的組方用藥配伍規(guī)律。近年來很多人對李東垣的脾胃方劑開展了廣泛而深入的研究,然而以往的研究多著重于個別方劑的臨床觀察和動物實驗,對于組方配伍規(guī)律的研究卻只在很淺的層次上。而觀癥開方需要以疾病當時的反應狀態(tài)為基礎(chǔ),綜合考慮證候病機中的病因、病位、病性、病勢等諸要素,運用君臣佐使法調(diào)節(jié)組方中方劑的用法和用量。由此可見,探索方劑的配伍規(guī)律才是根本,對組方配伍的規(guī)律性研究將會更加重要。
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的數(shù)據(jù)中挖掘有趣模式和規(guī)律的過程。數(shù)據(jù)挖掘于1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上被首次提出,是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題。隨著數(shù)據(jù)量的不斷增加,大數(shù)據(jù)的時代到來了,面對如此巨大的數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)處理方法顯得渺小而無用,無法發(fā)掘出其中的知識。在這種數(shù)據(jù)資料豐富而知識匱乏的局面下,數(shù)據(jù)挖掘闖進了人們的視線。數(shù)據(jù)挖掘融合了多個學科,理論上更多地涉及了數(shù)學領(lǐng)域,包括統(tǒng)計學、概率論、圖論等,當然還有編程,部分技術(shù)來源自經(jīng)濟學、物理學等。但是數(shù)據(jù)挖掘技術(shù)講究“對癥下藥”,所以需要掌握較多的基礎(chǔ)知識才能運用自如。隨著對數(shù)據(jù)挖掘的需求增加,它的應用領(lǐng)域在不斷擴大,挖掘算法也在不斷地發(fā)展和優(yōu)化。數(shù)據(jù)挖掘技術(shù)不僅出現(xiàn)在企業(yè)數(shù)據(jù)的處理中,在醫(yī)學研究中也起著重要作用。就目前而言,數(shù)據(jù)挖掘方法是運用最廣泛的,能最大限度地發(fā)現(xiàn)海量數(shù)據(jù)中的潛在規(guī)律的方法。因此,筆者將數(shù)據(jù)挖掘技術(shù)運用到對李東垣的組方配伍規(guī)律的研究中,通過關(guān)聯(lián)規(guī)則、粗糙集、啟發(fā)式屬性約簡等數(shù)據(jù)挖掘算法對其組方中的方劑數(shù)據(jù)進行規(guī)律探索。
3.1 數(shù)據(jù)存儲方式
然而數(shù)據(jù)挖掘并不能無中生有,也不能點石成金,它需要足夠豐富的數(shù)據(jù)源。因此大量數(shù)據(jù)的存放和處理成為關(guān)鍵,一般的都是用具有可更新、面向應用和易于管理等特點的數(shù)據(jù)庫。筆者需要探索的是李東垣組方的配伍規(guī)律,即組方中是如何決策方劑用法、用量的以及各藥材間的組合關(guān)系。實踐證明將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘結(jié)合起來對支持決策會起更大的作用。因此,筆者在分散數(shù)據(jù)源的基礎(chǔ)上建立數(shù)據(jù)倉庫。數(shù)據(jù)倉庫概念是在20世紀90年代初正式出現(xiàn)的,它是面向主題的,為分析數(shù)據(jù)而設(shè)計,并對數(shù)據(jù)做匯總、加工,為決策者提供決策依據(jù)。筆者的主題有方劑和病癥。原始數(shù)據(jù)是來自李東垣的《內(nèi)外傷辨惑論》《蘭室秘藏》《脾胃論》《醫(yī)學發(fā)明》《東垣試效方》《活法機要》6本著作中涉及的895首中的639首方劑,必須首先將原始數(shù)據(jù)進行抽取、清理、加工和組織集成,才能進行下一步入庫操作。數(shù)據(jù)倉庫偏重于數(shù)據(jù)存取的準確性和安全性,將原始數(shù)據(jù)存放在數(shù)據(jù)倉庫中有利于保持數(shù)據(jù)的穩(wěn)定性。當需要提取原始數(shù)據(jù)進行規(guī)律探索分析時,采用數(shù)據(jù)庫的SELECT語句操作方法,就可以對數(shù)據(jù)倉庫進行訪問提取數(shù)據(jù)。
3.2 數(shù)據(jù)清洗
數(shù)據(jù)倉庫中的數(shù)據(jù)是存在一定規(guī)范的,所有的數(shù)據(jù)在進入數(shù)據(jù)倉庫之前必須經(jīng)過加工與集成,即對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼,統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等。筆者采用文獻法和ETL法相結(jié)合的形式對原始數(shù)據(jù)進行預處理。首先,進行方源標準化處理。將6本書中所有的方劑全部錄入數(shù)據(jù)基本表,并校對其藥物名稱、用量、組成、所治癥狀、服法等。再進行方劑的預處理,將中醫(yī)方藥的概念性描述轉(zhuǎn)變?yōu)橛袛?shù)據(jù)特性的數(shù)據(jù),使它能夠進行數(shù)據(jù)運算。然后,進行中藥標準化處理。在6本書中,會出現(xiàn)這樣的情況,如:“清魂湯”“柴胡勝濕湯”雖然名字不同,但他們卻是同一個藥方,經(jīng)過討論,筆者最終將此方名存為“柴胡勝濕湯”;對于沒有藥材只有方劑名的方劑,筆者查閱各種資料,比較同時期其他的同名方劑,分析其所治病癥的相似程度,將合理的方劑藥材錄入數(shù)據(jù)倉庫。最后,進行癥狀標準化處理。自古以來,藥方是根據(jù)癥狀應運而生的,出現(xiàn)了某一種癥狀,自然才會出現(xiàn)治療這種癥狀的方子,同一癥狀在各個地方都可能發(fā)生,而自古中國文化存在地域之間的差別,由于文化和語言表達的差別,對于同一種癥狀的描述就不盡相同了,所以以《蘭室秘藏》中癥狀的描述為基礎(chǔ),對各方劑的主治癥狀命名進行規(guī)范化處理。經(jīng)過這3步,數(shù)據(jù)源被干凈化、規(guī)范化、統(tǒng)一化,將這些數(shù)據(jù)錄入數(shù)據(jù)倉庫,為數(shù)據(jù)挖掘算法進行規(guī)律探索提供規(guī)范化數(shù)據(jù)基礎(chǔ)。
接下來,筆者就開始對李東垣組方配伍規(guī)律的探索。筆者將運用關(guān)聯(lián)規(guī)則挖掘方法、粗集屬性重要性評價方法、啟發(fā)式屬性約簡法分別對李東垣的組方進行規(guī)律探索。
4.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中最常用的研究方法之一,是從大量的數(shù)據(jù)中挖掘出有價值的描述數(shù)據(jù)項之間相互依賴關(guān)系。最早是在1993年由Agrawal等人提出的。最初提出的動機是針對購物籃分析問題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系規(guī)則。這些規(guī)則刻畫了顧客購買行為模式,可以用來指導商家科學地安排進貨、庫存以及貨架設(shè)計等。而筆者的目的是運用關(guān)聯(lián)規(guī)則分析李東垣方劑藥物的組成與主治癥狀的對應關(guān)系,挖掘三味藥物配伍(配伍是指有目的地按病情需要和藥性特點,有選擇地將兩味以上藥物配合同用)至四味藥物配伍、四味藥物配伍至五味藥物配伍的相關(guān)性,探討方與證或癥之間的對應模式及其對應選藥加減變化規(guī)律。關(guān)聯(lián)規(guī)則主要是用支持度和置信度來作為衡量單位。支持度是指規(guī)則在事務集合中使用的概率,即指規(guī)則中涉及的方劑都出現(xiàn)的組方占所占組方集合的百分比。置信度是指規(guī)則在事務集合中成立的概率,即指幾種方劑之間存在的規(guī)則在包含這些方劑的組方中成立的概率。筆者所給出的方劑關(guān)聯(lián)規(guī)則都是在給定支持度和置信度的條件下研究的。筆者對李東垣方劑關(guān)聯(lián)規(guī)則挖掘分兩個階段,第一階段是先從組方集合中分別找出所有的3個方劑、4個方劑和5個方劑同時出現(xiàn)的高頻項目組以及它們對應的主治癥狀,如:當歸、升麻、蒼術(shù),適用癥狀為頭痛、食欲不振,出現(xiàn)頻次為6。第二階段再對這些方劑高頻項目組進行關(guān)聯(lián)規(guī)則挖掘。例如:高頻項目組是羌活、柴胡與黃柏的組合,在滿足給定的支持度和置信度的條件下,結(jié)合它們在各種病癥中的使用情況,分析它們3個組合時主要的功效。將會得到如下的結(jié)論:羌活、柴胡與黃柏合用,既能升清,又能清瀉陰火,降濁陰,恢復脾胃。通過這個規(guī)則發(fā)現(xiàn)當在其他的病癥情況下,還需要升清、清瀉陰火、降濁陰或者恢復脾胃時,同時原有的藥物與這三味藥不存在沖突時,只需在原來的方子中加上這三味藥或者增加這三味藥的用量便可。這是因為在關(guān)聯(lián)規(guī)則分析時,發(fā)現(xiàn)癥狀和藥物之間的關(guān)系并不是完全對等的,而是存在著一定的互補關(guān)系。這些分析得出的結(jié)果反映了李東垣的組方配伍規(guī)律。筆者分析得出的關(guān)聯(lián)規(guī)則即是探討方與證或癥之間的對應模式及其對應選藥加減變化規(guī)律的結(jié)果,可以為臨床組方提供參考。
4.2 粗集屬性重要性評價
粗糙集理論是一種能有效分析和處理不精確、不完整等各種不完備信息的工具,其主要思想是利用已知的知識庫,將不確定或不精確的知識用已知的知識庫中的知識來刻畫,目前已廣泛應用于知識發(fā)現(xiàn)領(lǐng)域。粗集屬性重要性評價往往是一個多屬性、多層次的問題,涉及的因素很多,在綜合評判和決策分析中,屬性權(quán)重的確定是其中很關(guān)鍵的一個環(huán)節(jié),權(quán)重反映了各指標在評估決策中所處的地位或者說所起的作用,它直接影響到評估和決策的最終結(jié)果。粗集屬性重要評價方法是評價屬性重要性的數(shù)據(jù)挖掘算法,筆者若通過統(tǒng)計的方法從藥物出現(xiàn)頻率的角度進行判斷其重要性,雖然在一定程度上也能得出正確結(jié)果。但是方劑藥物與病癥是相互對應的,某種方劑的出現(xiàn)頻率大,不代表它在所有的病癥中作用都大,尤其是在沒有先驗的情況下,更加無法判斷出結(jié)果的正確性。如:因為甘草出現(xiàn)頻率比麻黃高,那么甘草在風寒表證中的作用大于麻黃。這條結(jié)論就是錯誤的。那么筆者如何解決這一問題呢?由于這種錯誤的原因是忽略了方劑藥物與病癥之間的對應關(guān)系,筆者就將病癥和方劑藥物都映射為粗集屬性,將藥或癥的重要性分析歸結(jié)為粗集屬性重要度計算,以得出各藥物在其對應證中的重要程度,為方劑君臣佐使的確定奠定基礎(chǔ)。
在粗集屬性重要性評價中,為了得出更加準確的結(jié)論,筆者選擇將方劑藥物和病癥都映射為粗集屬性,在方劑藥物和病癥的對應關(guān)系下進行結(jié)果分析。但是組方中涉及的藥物和癥狀很多,這給藥癥對應分析帶來了一定的困難。利用粗糙集理論中的屬性約簡算法對信息系統(tǒng)評價的屬性進行約簡,分析出出影響綜合評價的主要屬性,然后根據(jù)屬性重要度對約簡后的屬性體系進行賦值,對各方案進行綜合評價,在從而減少大量包含較少或幾乎不包含什么信息量的冗余屬性,大大簡化知識庫結(jié)構(gòu)的復雜度,提高人們對隱含在數(shù)據(jù)庫龐大數(shù)據(jù)量下的各種信息的認識程度。為此筆者將粗集屬性約簡應用于方癥對應分析,粗集屬性約簡簡單來說是保持知識庫原有分類不變的情況下,刪除其中不相關(guān)或冗余的屬性。筆者采用基于區(qū)分矩陣的啟發(fā)式算法進行屬性約簡是基于這樣的考慮:筆者所要研究的方劑數(shù)目很大,對挖掘效率的要求較高。而啟發(fā)式算法是相對于最優(yōu)化算法提出來的,它在對大規(guī)模數(shù)據(jù)處理方面具有很大優(yōu)勢?;诰仃嚨乃惴ū阌谟嬎銛?shù)據(jù)核和約簡,能提高挖掘速度。所以,筆者首先對方劑藥物和病癥這兩個屬性集進行約簡,然后從約簡后的屬性中尋找藥癥對應關(guān)系,進而探討方證相應。筆者采用這種方法進行約簡的步驟:第一步求出區(qū)分矩陣,筆者的區(qū)分矩陣包括所有的方劑藥物和對應的病癥;第二步對區(qū)分矩陣中的單一屬性進行合并;第三步求出藥物和對應的病癥約簡,即將分析出對應癥狀的核心藥物。這樣就相當于在計算中減少了方劑藥物的數(shù)目,使方劑藥物與病癥之間的對應關(guān)系簡化,從而降低藥癥對應分析的困難。
筆者在中醫(yī)藥研究中,加入數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)挖掘技術(shù)在知識發(fā)現(xiàn)方面的優(yōu)勢,將李東垣的組方數(shù)據(jù)及一些相關(guān)的臨床病例信息錄入數(shù)據(jù)倉庫,通過數(shù)據(jù)挖掘算法對配伍規(guī)律進行研究。關(guān)聯(lián)規(guī)則分析出李東垣組方中單個方劑或者多個方劑組合的功效。粗集屬性重要性評價方法和啟發(fā)式屬性約簡法則分析出方劑藥物在各個對應病癥中的重要性。這些數(shù)據(jù)挖掘算法分析了李東垣的組方配伍規(guī)律,為其在臨床診療方面提供借鑒,為發(fā)掘中醫(yī)藥研究的科學內(nèi)涵及規(guī)律提供新思路,為帶動中醫(yī)藥知識發(fā)現(xiàn)的進步,實現(xiàn)中醫(yī)藥現(xiàn)代化提供基礎(chǔ)。
[1]張清華,王國胤,肖雨.粗糙集的近似集[J].軟件學報,2012(7):1745-1759.
[2]衛(wèi)向龍.李東垣組方配伍規(guī)律研究[D].南京:南京中醫(yī)藥大學,2010.
[3]周文秀.關(guān)聯(lián)規(guī)則挖掘算法的研究與改進[D].武漢:武漢理工大學,2008.
[4]何宏.關(guān)聯(lián)規(guī)則挖掘算法的研究與實現(xiàn)[D].湘潭:湘潭大學,2006.
[5]吳麗,周良.數(shù)據(jù)挖掘方法在中醫(yī)藥領(lǐng)域的應用淺析[J].醫(yī)學信息,2009(5):576-578.
Study on compatibility of Li Dongyuan Formula based on data mining
Ning Jinrong, Wu Tingting, Yang Yi, She Kankan*
(Nanjing University of Chinese Medicine, Nanjing 210000, China)
The formula made by Li Dongyuan is widely used and has a profound impact in traditional Chinese medicine. But Li Dongyuan’s Formula relates to a number of prescriptions and has a huge amount of information. It’s diffcult to decipher in traditional way.Therefore, we use association rule, rough set, attribute reduction and other data mining algorithms to conduct a comprehensive and systematic study of Li Dongyuan’s Formula, in order to grasp the inherent laws of prescription compatibility changes in his works to provide valuable reference for the development of Chinese Medicine.
data mining; Li Dongyuan Formula; compatibility law
甯金蓉(1994— ),女,四川遂寧。
*通訊作者:佘侃侃(1982— ),女,江蘇南通,副教授;研究方向:數(shù)據(jù)分析,數(shù)據(jù)挖掘。