馬甲林,王兆軍,郭海
1.淮陰工學(xué)院計(jì)算機(jī)學(xué)院,江蘇 淮安223003;2.淮安市吳鞠通中醫(yī)學(xué)術(shù)研究會(huì),江蘇 淮安 223300;3.南京醫(yī)科大學(xué)附屬淮安第一醫(yī)院,江蘇 淮安 223000
中藥配伍理論經(jīng)過古今醫(yī)家的發(fā)展和總結(jié),形成較為完整理論體系的主要有藥性配伍、七情配伍及君臣佐使等。其中,君臣佐使是中醫(yī)方劑重要配伍理論原則之一,最早見于《黃帝內(nèi)經(jīng)》。《素問·至真要大論篇》有“主藥之謂君,佐君之謂臣,應(yīng)臣之謂使”,“君一臣二,制之小也。君二臣三佐五,制之中也”,“君一臣三佐九,制之大也”。元代李杲《脾胃論》將其表述為:“君藥分量最多,臣藥次之,使藥又次之。不可令臣過于君,君臣有序,相與宣攝,則可以御邪除病矣?!薄饵S帝內(nèi)經(jīng)》對(duì)君臣佐使的定義得到眾多醫(yī)家認(rèn)可[1-4]。
歷代中醫(yī)處方數(shù)據(jù)中蘊(yùn)含著豐富的藥方配伍原則的先驗(yàn)知識(shí)[5-6]。針對(duì)中醫(yī)藥配伍規(guī)律挖掘分析研究工作主要關(guān)注藥物的組合關(guān)系,以藥物作為復(fù)方的特征項(xiàng),采用關(guān)聯(lián)規(guī)則分析、頻繁項(xiàng)分析、主成分分析、聚類分析等[7]。目前研究大多專注于抽取某種疾病的特殊規(guī)則,探索某種特定疾病或中醫(yī)名家的用藥規(guī)律。而針對(duì)君臣佐使配伍規(guī)律和分析集中在對(duì)有限數(shù)量的藥方進(jìn)行人工注解分析,以探索其概念的內(nèi)涵和外延及臨床原則,采用數(shù)據(jù)挖掘分析的研究極少[7-8]。本研究以中藥方數(shù)據(jù)為分析挖掘?qū)ο?,以主題模型理論為建模基礎(chǔ),提出一種用于分析君臣佐使隱性結(jié)構(gòu)的雙關(guān)主題模型(double correlated topic model,DCTM),建立主題在病證和藥方2個(gè)語(yǔ)義空間的聯(lián)系,分析標(biāo)注出中藥方的君臣佐使角色,為研究計(jì)算機(jī)自動(dòng)組方、驗(yàn)證和完善中醫(yī)君臣佐使配伍理論提供幫助。
組方藥物可按其在方中所起的作用和地位分為君藥、臣藥、佐藥、使藥[9]。君臣佐使依據(jù)藥物功效,表明藥物在整首方中的作用和重要程度[10-12]。君臣佐使配伍理論從多元用藥角度,論述組方各味藥物在方中的地位及配伍后的性效變化規(guī)律。它高度概括了中醫(yī)配藥組方的原則,是七情配伍理論的進(jìn)一步發(fā)展[10]。根據(jù)《方劑學(xué)》[9]定義,君臣佐使具有以下核心含義:君藥針對(duì)治療主病或主證;臣藥輔助君藥加強(qiáng)治療主病或主證,或治療兼病或兼證;佐藥有3種,佐助藥輔助君臣藥加強(qiáng)療效,佐制藥消除或緩解君臣藥毒性與烈性,反佐藥與君藥性味相反而又能在治療中起相成作用;使藥包括引經(jīng)藥和調(diào)和藥,起引經(jīng)作用或調(diào)和作用。
根據(jù)君臣佐使概念,可總結(jié)中藥方數(shù)據(jù)存在的主要特性。顯性數(shù)據(jù)包括病證、藥物。隱性數(shù)據(jù)包括以下4類:①主病證和兼病證;②君藥、臣藥、佐藥、使藥;③佐助藥、佐制藥、反佐藥;④引經(jīng)藥和調(diào)和藥的隱含角色。根據(jù)以上特性,可進(jìn)一步從中抽象出以下主要關(guān)系:①君藥對(duì)應(yīng)主病證;②臣藥輔助君藥,或?qū)?yīng)兼證;③佐藥與君藥有關(guān);④使藥相對(duì)較為獨(dú)立。根據(jù)以上抽象關(guān)系需要建立一種多關(guān)系主題模型,不僅需要分析處方的君臣佐使的配伍結(jié)構(gòu),而且能夠描述君藥與臣藥、君藥與主病證、臣藥與兼病證的隱性關(guān)系。
主題模型是一種概率圖生成模型,能夠從文本數(shù)據(jù)中學(xué)習(xí)潛在的主題信息和語(yǔ)義結(jié)構(gòu),廣泛用于文本數(shù)據(jù)挖掘。目前研究在經(jīng)典主題模型PLSA[13]、LDA[14]基礎(chǔ)上,弱化主題模型的各種假設(shè)、與元數(shù)據(jù)結(jié)合,結(jié)合領(lǐng)域理論及數(shù)據(jù)特點(diǎn)進(jìn)行拓展建模[15-16]。針對(duì)多類型數(shù)據(jù),GM-Mixture模型采用潛在變量連接圖像及其文字標(biāo)題2種不同類型的數(shù)據(jù),用于圖像數(shù)據(jù)自動(dòng)組織、自動(dòng)注釋及檢索等任務(wù)[16]。在此基礎(chǔ)上,提出GM-LDA和Corr-LDA模型[17-19]。此外,針對(duì)社會(huì)媒體中的文檔和標(biāo)簽數(shù)據(jù),提出Tag-LDA模型用于實(shí)時(shí)標(biāo)簽推薦[20]。
主題模型對(duì)多種數(shù)據(jù)類型同時(shí)建模,根據(jù)實(shí)際任務(wù)選擇不同的分布描述變量之間的相關(guān)關(guān)系,已用于中醫(yī)臨床診療[12]。相關(guān)主題模型(correlated topic model,CTM)[21]為表達(dá)主題之間的相關(guān)性,引入正態(tài)分布ηd~N{μ,Σ}替代LDA中Dirichlet分布,但CTM模型為單語(yǔ)義空間模型。中藥方內(nèi)容分為病證和藥方兩部分,二者處于不同的特征空間,病證的特征詞由病、證候和癥狀組成,藥方的特征詞為中藥。本研究對(duì)處方的君臣佐使配伍結(jié)構(gòu),及君藥與臣藥、君藥與主病證、臣藥與兼病證關(guān)系同時(shí)建模,提出無監(jiān)督的DCTM,用于挖掘中藥方數(shù)據(jù)表現(xiàn)為病-證、證-藥及藥-藥配伍等多重復(fù)雜隱性關(guān)系。
中藥方數(shù)據(jù)集可看作D個(gè)獨(dú)立的文檔生成過程,單個(gè)藥方被看作一篇文檔d,該文檔同時(shí)存在2個(gè)語(yǔ)義空間的特征(包含2種類型的詞):病證被看作組成文檔的第一類語(yǔ)義空間,中藥被看作第二類語(yǔ)義空間。DCTM為一個(gè)雙類型詞袋模型。在DCTM中,文檔d由兩部分分步生成:第一部分是病證生成,由K個(gè)主題按比例組成,主題是建立在病證語(yǔ)義空間上的詞分布;第二部分是中藥,同樣由K個(gè)主題按比例組成,主題是建立在中藥語(yǔ)義空間上的詞分布。2個(gè)語(yǔ)義空間共享主題分布,實(shí)現(xiàn)主題的雙關(guān)聯(lián),并引入正態(tài)分布作為先驗(yàn),建立主題之間跨2個(gè)語(yǔ)義空間的兩兩相關(guān)關(guān)系。DCTM的圖模型表示見圖1,符號(hào)含義見表1。
表1 DCTM圖模型表示符號(hào)含義
圖1 DCTM圖模型表示
圖1所示DCTM中采用一個(gè)K維隱變量ηd,服從正態(tài)分布N(μ,Σ),μ(為K維向量)和Σ(為K*K協(xié)方差矩陣)為該分布的參數(shù)先驗(yàn)。由K個(gè)主題的協(xié)方差矩陣Σ表達(dá)主題兩兩之間的相關(guān)性。因?yàn)棣莇~N(μ,Σ),所以類似CTM,DCTM中exp(ηd)服從對(duì)數(shù)正態(tài)分布,可用來表達(dá)中藥復(fù)方中主題之間的比例;但為了滿足各個(gè)主題比例之和為1,因此將ηd轉(zhuǎn)化為參數(shù)θd,滿足θd1+θd2…+θdK=1,且0≤θdi≤1,具 體 為:θd=f(ηd)=exp(ηd)/Σkexp(ηk)。
DCTM建模在2個(gè)語(yǔ)義空間上,包含病證描述部分的詞和藥方部分的中藥;一篇中藥復(fù)方文檔d同時(shí)共享主題分布f(ηd)且服從多項(xiàng)分布;通過共享主題分布,建立病證主題和中藥主題的兩兩相關(guān)關(guān)系。φs為多項(xiàng)式分布,表示主題上的病證分布;同理,φh為多項(xiàng)式分布,表示主題上的中藥分布;一篇中醫(yī)復(fù)方文檔d的病證和中藥的聯(lián)合生成概率可表達(dá)為公式(1)。
DCTM模型中,一個(gè)中藥復(fù)方語(yǔ)料庫(kù)的生成過程為:
步驟1抽取一個(gè)文本-主題(document-topics)分布:ηd|{μ,Σ}~N(μ,Σ)
步驟2 For eachsdnind:
步驟2-1隨機(jī)抽取一個(gè)主題編號(hào):zdn|ηd~multinomial(f(ηd))
步驟2-2從病證詞袋中為主題zdn抽取詞:sdn|zdn,φs~multinomial(φzdn)
步驟3 For eachhdnind:
步驟3-1隨機(jī)抽取一個(gè)主題編號(hào):z'dn|ηd~
multinomial(f(ηd))
步驟3-2從中藥詞袋中為主題z'dn抽取詞:hdn|z'dn,φh~multinomial(φz'dn)
本研究DCTM中引入了正態(tài)分布來建模主題之間的相關(guān)關(guān)系。正態(tài)分布不是多項(xiàng)分布的共軛分布,所以依靠共軛分布來推斷后驗(yàn)分布的Gibbs Sample不再適用于DCTM模型參數(shù)推理,因而采用變分推斷EM算法進(jìn)行參數(shù)求解[15-16]。根據(jù)DCTM生成過程可見,模型的目標(biāo)是推斷隱變量在顯性變量條件下的后驗(yàn)估計(jì),見公式(2)。
DCTM可通過變分EM算法推斷關(guān)鍵模型參數(shù)φs、φh及{μ,Σ},并可通過參數(shù)ηd間接轉(zhuǎn)化得到文檔d的主題比例參數(shù)θd,θd=f(ηd)=exp(ηd)/Σkexp(ηk)。
2.3.1 由參數(shù)θd分析君藥及主病證
通過中藥復(fù)方d中第一部分的病證描述部分,可知主病證必然反映為較高的主題比例概率值;君藥針對(duì)主病證,第二部分的藥方部分必然反映為較高的主題比例。因此,選取主題比例最高的主題對(duì)應(yīng)藥物為君藥(φhd,k),對(duì)應(yīng)病證為主病證(φsd,k),其中k=argmax({θd,1,θd,2,…θd,K})。進(jìn)一步可知,在d中除去φsd,k,均為兼證。
2.3.2 由參數(shù)Σ分析臣藥及兼證
在前述關(guān)系中,臣藥輔助君藥,或?qū)?yīng)兼證,可知臣藥與君藥相關(guān)度較高,或與兼證相關(guān)。因此,可通過分析各主題之間相關(guān)性得到臣藥。參數(shù)Σ反映各主題之間兩兩相關(guān)度,可得到兩兩主題間相關(guān)系數(shù)ρi,j矩陣。所以臣藥可取與主題i相關(guān)度高的(ρi,j>ε,ε為相關(guān)度閾值參數(shù),在實(shí)驗(yàn)中根據(jù)實(shí)際情況觀察確定)主題{j}的前topn個(gè)詞:φd,{j}(j∈{1,2…K})。
2.3.3 佐藥和使藥確定
使藥的作用主要是引經(jīng)和調(diào)和,常用使藥相對(duì)比較固定,因此,使藥可選用自固定集合。依據(jù)中醫(yī)六經(jīng)和十二歸經(jīng)理論,相應(yīng)藥物大約幾十種,可在DCTM模型分析中直接根據(jù)固定集合標(biāo)注。佐藥作用相對(duì)比較復(fù)雜,也反映出佐藥的多關(guān)系特性。因此,在分析方法中,可在其他結(jié)果得出后將剩余藥物全部劃歸佐藥。
2.3.4 基于DCTM的君臣佐使分析算法步驟
輸入:中藥方數(shù)據(jù)集、中藥信息庫(kù)
輸出:中藥方中各味藥的君臣佐使角色標(biāo)記
步驟1輸入中藥方數(shù)據(jù)集、并利用中藥信息庫(kù)對(duì)數(shù)據(jù)集進(jìn)行中藥識(shí)別及同名中藥歸一化等預(yù)處理;
步驟2訓(xùn)練DCTM模型;
步驟3根據(jù)DCTM模型訓(xùn)練結(jié)果進(jìn)行藥方君臣佐使角色標(biāo)記;
步驟3-1根據(jù)“2.3.1”項(xiàng)下方法標(biāo)記君藥;
步驟3-2根據(jù)“2.3.2”項(xiàng)下方法標(biāo)記臣藥;
步驟3-3根據(jù)“2.3.3”項(xiàng)下方法標(biāo)記佐使;
步驟4結(jié)果輸出保存。
數(shù)據(jù)來源于國(guó)家人口健康科學(xué)數(shù)據(jù)中心(http://dbcenter.cintcm.com/)中國(guó)方劑數(shù)據(jù)庫(kù)共84 464首方劑及中國(guó)中藥數(shù)據(jù)庫(kù)共8 173種中藥。84 464首方劑數(shù)據(jù)包含的方劑信息項(xiàng)有:名稱、別名、組成、出處、功效、主治、附注、用法、加減、制備方法、用藥禁忌、各家論述。根據(jù)分析目的選取數(shù)據(jù)集中處方的中藥組成和主治描述部分進(jìn)行分析。經(jīng)統(tǒng)計(jì)分析,該數(shù)據(jù)集涉及中藥6 213種,病證5 436種。8 173種中藥信息共有別名21 890個(gè),每種中藥平均2.7個(gè)別名。對(duì)上述方劑數(shù)據(jù)進(jìn)行預(yù)處理:①由8 173種中藥構(gòu)建專用詞表,對(duì)方劑藥物構(gòu)成部分進(jìn)行分詞;②對(duì)方劑中的所有中藥同名藥物進(jìn)行統(tǒng)一替換;③為保證模型中的多項(xiàng)分布,去除中藥構(gòu)成少于3種的方劑。
DCTM及LDA為無監(jiān)督學(xué)習(xí)模型,主題參數(shù)K對(duì)實(shí)驗(yàn)結(jié)果影響較大,由于方劑功效與病證及組方有直接關(guān)系,因此,分析中借助數(shù)據(jù)集自帶的功效項(xiàng),統(tǒng)計(jì)出數(shù)據(jù)集共有479種功效,作為依據(jù)來確定實(shí)驗(yàn)各模型參數(shù)K=479。另外,參照文獻(xiàn)[15,21],EM算法的迭代次數(shù)為500,似然邊際不小于10-5;變分推斷的下界不小于10-6。
金代成無已《傷寒明理藥方論》首次以君臣佐使組方原理完整解析了《傷寒論》的20首常用經(jīng)方,開創(chuàng)了后世君臣佐使方論的先河。為進(jìn)一步評(píng)估本研究建立的DCTM模型對(duì)中藥方君臣佐使組方規(guī)律挖掘結(jié)果,分別計(jì)算20首經(jīng)方的DCTM分析結(jié)果,并與《傷寒明理藥方論》的君臣佐使注解[22]進(jìn)行對(duì)比。
20首經(jīng)方中,小青龍湯包含藥物最多,有8味藥,其他多為4~7味藥,為方便比較,本研究中君藥和臣藥各取1味。20首經(jīng)方DCTM分析結(jié)果與《傷寒明理藥方論》注解對(duì)比見表2。表中,k=argmax(θd,k)=i,表示在DCTM模型分析結(jié)果中選取方劑d的主題概率最大的主題編號(hào)i,θd,i為該概率值;Top(φsd,i)n表示取方劑d中,主題i概率最高的前n個(gè)病證;Top(φhd,i)n表示取方劑d中,主題i概率最高的前n個(gè)中藥;argmax(ρi,j)表示取與主題i相關(guān)度最高的主題j。
表2 20首經(jīng)方DCTM分析結(jié)果與《傷寒明理藥方論》注解對(duì)比
DCTM模型能夠正確分析大部分君藥,20首經(jīng)方中有15首與《傷寒明理藥方論》注解一致,其他5首經(jīng)方中有2首君臣藥角色篡位;臣藥共有8首與文獻(xiàn)一致,臣藥不全的有2首,其中桂枝湯由于臣佐藥角色兼職導(dǎo)致DCTM模型不能正確識(shí)別;此外,梔子湯模型給出的臣藥黃連不在該經(jīng)方內(nèi)是由于DCTM模型以主題相關(guān)性進(jìn)行關(guān)聯(lián)主題所得臣藥,黃連在該關(guān)聯(lián)主題中出現(xiàn)概率過高導(dǎo)致分析結(jié)果有誤。結(jié)果偏差較大的是大陷胸湯,臣藥標(biāo)注為君藥,將君藥標(biāo)注為佐藥。綜合其他幾個(gè)差錯(cuò)較大的方劑如梔子湯、大陷胸湯、茵陳蒿湯和建中湯方可見,經(jīng)方包含藥物較少,一般少于4味藥的容易標(biāo)注錯(cuò)誤;另外,一味藥兼多個(gè)角色的經(jīng)方如桂枝湯也易出錯(cuò)。
采用準(zhǔn)確率、召回率、F1-得分對(duì)20首經(jīng)方的DCTM分析結(jié)果進(jìn)行評(píng)價(jià)。君藥的準(zhǔn)確率、召回率、F1-得分分別為0.75、0.75、0.75,臣藥的準(zhǔn)確率、召回率、F1-得分分別為0.50、0.45、0.47,佐藥的準(zhǔn)確率、召回率、F1-得分分別為0.71、0.85、0.77,使藥的準(zhǔn)確率、召回率、F1-得分分別為0.81、0.43、0.56。
由評(píng)價(jià)結(jié)果可以看出,部分指標(biāo)較低,尤其是臣藥和使藥,分析其原因主要為統(tǒng)計(jì)的中藥方數(shù)量較少。另外,DCTM分析結(jié)果中差錯(cuò)較大的是臣藥和使藥,臣藥容易與君藥或佐藥混淆,使藥主要起引經(jīng)和調(diào)和作用,因此很多使藥的應(yīng)用具有很大的靈活性,本研究中對(duì)使藥的識(shí)別采用固定的集合匹配方式,存在不足之處。盡管如此,20首經(jīng)方DCTM分析結(jié)果中,有8首方的臣藥標(biāo)注結(jié)果與《傷寒明理藥方論》注解一致。
續(xù)表2
為探究中醫(yī)方劑君臣佐使配伍原則和規(guī)律,本研究提出一個(gè)涉及病證及中藥,反映君臣佐使隱性結(jié)構(gòu)的DCTM。本模型以病證和中藥2種顯性變量為線索,挖掘分析君臣佐使隱性結(jié)構(gòu)。但是,自《黃帝內(nèi)經(jīng)》和《神農(nóng)本草經(jīng)》有記載以來,君臣佐使理論一直存在爭(zhēng)議,且很多經(jīng)典經(jīng)方中君臣佐使的藥物對(duì)應(yīng)爭(zhēng)議較大,君臣佐使理論尚未統(tǒng)一,權(quán)威標(biāo)注君臣佐使文獻(xiàn)嚴(yán)重欠缺,采用專家人工評(píng)判又存在爭(zhēng)議性。為進(jìn)一步評(píng)估DCTM對(duì)君臣佐使組方規(guī)律挖掘結(jié)果,本研究以《傷寒明理藥方論》解析的20首經(jīng)方君臣佐使注解為參照進(jìn)行檢驗(yàn),結(jié)果表明,DCTM對(duì)君藥識(shí)別較為準(zhǔn)確,能夠?qū)Υ蟛糠纸?jīng)方的佐使正確識(shí)別,對(duì)臣藥的識(shí)別結(jié)果一般。由于缺乏已標(biāo)注的數(shù)據(jù)集,模型還需進(jìn)一步尋求其他驗(yàn)證方法,有待今后提高和改進(jìn)。