李夢箐,朱友澤,馬 利,胡 芳
(湖北中醫(yī)藥大學信息工程學院 武漢 430065)
基于二分圖的疾病與中藥關(guān)聯(lián)性研究*
李夢箐,朱友澤,馬 利,胡 芳**
(湖北中醫(yī)藥大學信息工程學院 武漢 430065)
目的:本研究基于二分圖對疾病和中藥之間的關(guān)聯(lián)性進行分析,構(gòu)成“疾病-中藥”的復雜網(wǎng)絡模型。 方法:首先,根據(jù)每種疾病對應方劑中的中藥分別構(gòu)建疾病數(shù)據(jù)庫與中藥數(shù)據(jù)庫,計算出每種疾病和中藥所對應的度數(shù);其次,運用Jaccard相似度函數(shù)建立中藥關(guān)聯(lián)性,并根據(jù)中藥關(guān)聯(lián)性推斷出疾病關(guān)聯(lián)性;最后,利用二分圖和復雜網(wǎng)絡方法對疾病與中藥之間的關(guān)系進行分析,并用PAJEK軟件進行仿真實驗。結(jié)果:得出疾病與中藥、疾病與疾病、中藥與中藥、證候與中藥之間的二分圖關(guān)系。結(jié)論:通過對實驗結(jié)果進行分析,得出藥物和疾病相關(guān)性結(jié)論,并進一步提出在以后研究中采用二叉樹建立“疾病-中藥”數(shù)據(jù)庫,以便后期對數(shù)據(jù)進行關(guān)聯(lián)分析。
疾病 方劑 中藥 二分圖 數(shù)據(jù)建模
21世紀已進入大數(shù)據(jù)時代,數(shù)據(jù)挖掘的重要性日益顯現(xiàn)[1]。在中醫(yī)藥研究領(lǐng)域,很多研究方法都用到了數(shù)據(jù)挖掘。楊銘等[2]將復雜系統(tǒng)熵網(wǎng)絡方法應用到中醫(yī)腫瘤臨床數(shù)據(jù)中。沈洪等[3]提出了基于數(shù)據(jù)挖掘的潰瘍性結(jié)腸炎核心中藥和配伍分析,林基偉等[4]用數(shù)據(jù)挖掘的方法總結(jié)名老中醫(yī)黃春林治療慢性腎炎的用藥經(jīng)驗。將疾病看作方劑組成事務項,并在此基礎(chǔ)上進行分類、聚類、關(guān)聯(lián)等分析,挖掘出的潛在信息對中醫(yī)藥研究具有非常重要的意義[5]。
二分圖又稱作二部圖,是圖論中的一種特殊模型。目前二分圖的應用非常廣泛,例如工業(yè)制造、農(nóng)產(chǎn)品生產(chǎn)、航空航天工業(yè)等等,應用最廣泛于人際關(guān)系網(wǎng),應用二分圖匹配法對大數(shù)據(jù)集進行分析[6]。Cui Y Z等[7]提出了一種在二分圖中發(fā)現(xiàn)重疊社團結(jié)構(gòu)的算法,Li K等[8]提出了一種基于模塊度值的二分圖劃分算法。目前,通常有兩種二分圖研究方法,一種是基于原始的二分圖進行網(wǎng)絡分析,一種是投影的方式,將二分圖投影到單層網(wǎng),然后進行網(wǎng)絡分析[9-12]。由于方劑是疾病與中藥之間的橋梁,因此本研究通過對方劑中藥構(gòu)成的研究,采用確定性二分圖投影的方式,構(gòu)建疾病與中藥之間關(guān)聯(lián)性的二分圖網(wǎng)絡,并在此基礎(chǔ)上進行分析和探討,深入挖掘疾病和中藥之間的潛在聯(lián)系。
1.1 疾病和中藥數(shù)據(jù)
方劑學運用實驗研究的手段,從實證的角度認識疾病與方劑中藥之間的配伍關(guān)系[13],中醫(yī)辯證治療是中醫(yī)學的核心,在基礎(chǔ)理論指導下按照中藥配伍原則辯證施治,選擇合適中藥并斟酌用量。方劑共有19種劑型,參照汪氏分類法共可以分21類,具體數(shù)目不確定,因為根據(jù)不同的中藥加減配伍會有不同的變化,也就有了不同的方劑。生物谷數(shù)據(jù)中心提供的數(shù)據(jù)表明,方劑數(shù)據(jù)庫信息列表共有84 449種方劑,所治療的疾病近萬種[14]。本研究通過對疾病對應方劑中的中藥原始數(shù)據(jù)進行整理解決中藥同名異物、同物異名等術(shù)語不規(guī)范問題,并構(gòu)建“疾病-中藥”矩陣。本研究的研究數(shù)據(jù)來源于三大科室(外科、內(nèi)科、皮膚科)中常見的28種疾?。òǜ尾〉南嚓P(guān)數(shù)據(jù))和治療這些疾病所需要的常用185種中藥。
1.2 二分網(wǎng)絡投影方法介紹
用二分圖G=(X,Y)來表示一個二分網(wǎng)絡,其投影方法也分為兩類:加權(quán)和無權(quán)投影。例如,對一類節(jié)點,比如X類節(jié)點,無權(quán)投影的規(guī)則是:如果兩個X類節(jié)點有至少一個公共的鄰居(Y類節(jié)點),那么這兩個節(jié)點之間有連邊,無權(quán)投影所得網(wǎng)絡只能給出一類節(jié)點之間是否存在邊(是否合作過),無法描述節(jié)點之間的合作強度,也就是說無權(quán)單頂點網(wǎng)絡無法給出兩個同類節(jié)點之間的合作強度,造成了信息的丟失,兩類二分圖如圖1所示。
圖1可簡單定義為G(V,E),其中,V、E分別表示點和邊的集合,二分圖亦可以理解為因果圖的一個特例[15]。二分圖中所有節(jié)點按照各自屬性分為兩類節(jié)點,本研究中分別是疾病類和中藥類。權(quán)值不同二分圖也可以分為確定性二分圖和非確定性二分圖兩類[16]。根據(jù)對確定性二分圖的定義,原因與結(jié)果之間因果關(guān)系即疾病與中藥之間的關(guān)系,只有兩種:若為1表示具有必然導致關(guān)系;若為0表示因果沒有聯(lián)系。
1.3 疾病與中藥的度計算
圖1 兩類二分圖
疾病與中藥的關(guān)聯(lián)性主要根據(jù)中藥之間的關(guān)聯(lián)進行連接。由于中醫(yī)和西醫(yī)具有很大的區(qū)別,用中藥治療西醫(yī)分類的疾病需要具體看臨床反應。如一些病人雖然疾病相同,但是體質(zhì)不同,所需要的中藥也會有所區(qū)別。本研究重點針對三大科室(外科、內(nèi)科、皮膚科)中常見的28種疾病所需要的常用185種中藥數(shù)據(jù)進行分析,通過這些中藥去深入挖掘疾病之間的隱性關(guān)聯(lián)性。在數(shù)據(jù)建模過程中,對疾病和中藥關(guān)聯(lián)性分析都是建立在無中藥加減、無藥引的情況下建立的。疾病的度的計算是根據(jù)與之關(guān)聯(lián)的中藥多少來計算的,例如疾病節(jié)點“痛風”與“大川烏、黑豆、全蟲、地龍、麝香”等5種中藥關(guān)聯(lián),因此該節(jié)點的度是5;中藥節(jié)點“桔?!迸c“冠心病、偏頭痛、急性肺炎、肩周炎、黃褐斑”等5種疾病關(guān)聯(lián),因此該節(jié)點的度是5,依次方式,分別計算出28種疾病和185種中藥的度,分別如圖2和3所示。
從圖2可以看出,不同的疾病對應中藥的度相差較大,其中腳氣對應的中藥最多。大多數(shù)疾病對應的中藥數(shù)量集中在8-16之間。
圖2 疾病的度計算結(jié)果圖
圖3 中藥的度計算結(jié)果圖
從圖3看出,大多數(shù)的中藥只對應一種疾病,只有少數(shù)幾種常用中藥可以對應多種疾病甚至超過10種疾病如枳殼、丹參、當歸等。
2.1 疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡圖構(gòu)建思想
由于疾病與中藥之間的關(guān)系,符合構(gòu)建二分圖的構(gòu)建的條件,即疾病之間不連接,中藥之間不連接,疾病與中藥之間連接等特點。因此,為了研究疾病之間及中藥之間的這種潛在的關(guān)聯(lián)性,選擇二分圖投影方法,構(gòu)建疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡圖。并在此基礎(chǔ)上,深入分析中藥之間及疾病之間的隱形關(guān)聯(lián),雖然疾病節(jié)點之間雖然沒有直接相連,但通過中藥節(jié)點之間的聯(lián)系可以建立疾病之間的隱性關(guān)聯(lián)。同理,可以建立中藥之間的隱形關(guān)聯(lián)。在構(gòu)建疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡圖過程中,采用無權(quán)投影方法,即兩個疾病中至少有一個中藥相同,則兩個疾病節(jié)點有連邊。
本研究將西醫(yī)中分類的科室和疾病,找到所治療的方劑和包含中藥,挖掘兩者之間潛在關(guān)系,算出閾值。采用二分圖分類分析,將疾病和中藥分為兩類,首先,分別計算出它們的度,其次,采用基于Jaccard相似度的算法[17]計算各中藥之間的關(guān)聯(lián)度。Jaccard相似度用來比較樣本集中的相似性和分散性的一個概率。在本研究中,其中X、Y表示兩種中藥,|X∩Y|表示X和Y共同方出現(xiàn)的次數(shù),|X∩Y|表示X組方次數(shù)和Y組方次數(shù)之和。Jaccard相似度能夠很好地描述個體相似性。
2.2 疾病-中藥關(guān)聯(lián)性二分網(wǎng)絡構(gòu)建步驟
以下是疾病與中藥關(guān)聯(lián)性二分網(wǎng)絡構(gòu)建步驟:
步驟1:疾病和中藥的關(guān)聯(lián)式性是確定性的,疾病發(fā)生中藥肯定使用,概率為1,所以本研究使用確定性二分圖進行研究,該確定性二分圖有3種元素組成:
①疾病發(fā)生源集合T=(t1, t2, ……, tm),T中元素取值為1表示疾病假定發(fā)生,取值為0表示疾病假定未發(fā)生。
②中藥使用集合C=(c1, c2, ……, cn),C中元素取值為1表示相應的中藥假定使用,取值為0表示中藥假定未使用。
③按照二分圖定義,疾病集合T=(t1, t2, ……, tm),中藥集合C=(c1, c2, ……, cn),關(guān)系矩陣rij表示疾病和中藥之間的因果關(guān)系。矩陣關(guān)系如下:
c1c2…cnt1r11r12…r1nt2r21r22…r2n……………tmrm1rm2…rmn
m×n的關(guān)系舉證R表示疾病和中藥之間的因果關(guān)系。R中元素rij=1表示疾病ti發(fā)生將導致中藥cj的使用;rij=0表示疾病ti不發(fā)生不會導致中藥cj的使用。
步驟2:求解T集合中2個元素關(guān)系,設關(guān)系值為a,b,c,d:
T2 1 0 T1 1 a b 0 c d
疾病-中藥關(guān)聯(lián)二分網(wǎng)絡如圖4所示,其中,黃色節(jié)點代表中藥(185個),綠色節(jié)點代表疾?。?8個),藍色直線連接中藥和疾病之間的直接作用關(guān)系。
二分圖中節(jié)點度是指該節(jié)點連邊的數(shù)量,中藥節(jié)點的度表示與其相關(guān)的疾病個數(shù),疾病節(jié)點的度表示與其相關(guān)的中藥個數(shù)。從圖4可以看出來,疾病節(jié)點(腳氣)度最大為23,表示該疾病共引用中藥23種,中藥節(jié)點(枳殼)度最大為40。統(tǒng)計圖4中節(jié)點的度發(fā)現(xiàn),度數(shù)為1的中藥占總數(shù)的64.86%(120/185),度數(shù)為2的占總數(shù)的37.84%(70/185)。說明大部分的中藥被引用1次或者2次。只有少數(shù)中藥被引用多次,如枳殼和丹參。
圖5包含185個節(jié)點(中藥),1 421條邊,其中,有4孤立節(jié)點,分別是大川烏、麝香、黑豆、全蟲。
圖6包含28個節(jié)點(疾?。?、242條邊,其中,有1孤立節(jié)點“痛風”,說明此疾病和其他疾病在中藥治療上沒有任何關(guān)聯(lián)。網(wǎng)絡的平均度為24.43,說明一個疾病與多個疾病存在潛在相關(guān)性。
圖4 疾病-中藥關(guān)聯(lián)網(wǎng)絡示意圖
圖5 185種中藥關(guān)聯(lián)圖
圖6 28種疾病關(guān)聯(lián)圖
圖7 中藥-證候關(guān)聯(lián)網(wǎng)絡示意圖
證候-中藥關(guān)聯(lián)二分網(wǎng)絡如圖7所示,其中,和T2之間的簡化公式:黃色節(jié)點代表中藥(14個),綠色節(jié)點代表證候(144個),藍色直線連接中藥和證候之間的直接作用關(guān)系。
從圖7可以看出來,中藥(大黃)度最大為16,表示該中藥可對應16種證候。統(tǒng)計圖7中節(jié)點的度發(fā)現(xiàn),度數(shù)為11的中藥占總數(shù)的50%(7/14),度數(shù)為10的占總數(shù)的21. 43%(3/14)。
本研究針對外科、內(nèi)科和皮膚科的常見疾病和對癥中藥之間的關(guān)聯(lián)性進行研究,構(gòu)建28種疾病和185種中藥的二分圖網(wǎng)絡模型,歸類算出疾病和中藥的節(jié)點度;根據(jù)節(jié)點關(guān)聯(lián)度算出集聚系數(shù),疾病之間通過中藥的關(guān)聯(lián)進行聯(lián)系,計算出關(guān)聯(lián)度較強的幾種疾病,并對疾病-中藥關(guān)聯(lián)網(wǎng)絡圖進行深入分析,預測或挖掘疾病之前潛在的關(guān)聯(lián)性和中藥之間的關(guān)聯(lián)性。
在未來的研究工作中,可進一步將中藥名進行規(guī)范化處理,可以嘗試用二叉樹來建立中藥名數(shù)據(jù)庫。后期如若增加節(jié)點,可以在原模型上增刪、擇優(yōu),“疾病-中藥”擴展圖上挖掘更多的信息或者進行更多的算法研究,可以嘗試中藥社團和疾病社團劃分,中藥性質(zhì)作用機制等方面的研究。
1 孟凡紅,萬芳,張早華,等.關(guān)于中醫(yī)藥信息化建設與發(fā)展的思考.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化, 2011, 13 (3): 461-465.
2 楊銘,焦麗靜,陳佩奇,等.復雜系統(tǒng)熵網(wǎng)絡方法及其在中醫(yī)腫瘤臨床數(shù)據(jù)挖掘中的應用.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化, 2012, 14(2): 1376-1383.
3 沈洪,葉柏,張露,朱磊,等.基于數(shù)據(jù)挖掘的潰瘍性結(jié)腸炎核心中藥及配伍分析.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化, 2013, 15(5): 926-931.
4 林基偉,鄒川,劉旭生.基于數(shù)據(jù)挖掘方法總結(jié)黃春林名老中醫(yī)治療慢性腎炎的用藥經(jīng)驗.世界科學技術(shù)-中醫(yī)藥現(xiàn)代化, 2015, 17(2): 382-388.
5 李明,佟琳,張維娜,等.漢唐止痛方劑的復雜網(wǎng)絡方法分析.中醫(yī)藥信息, 2012, 29(3): 22-24.
6 Wasseraman S, Faust K. Social Network Analysis: methods and applications. Cambridge:Cambridge University Press. 1994: 188-194.
7 Cui Y Z, Wang X Y. Uncovering overlapping community structures by the key bi-community and intimate degree in bipartite networks. Physica A: Statistical Mechanics and its Applications, 2014, 407: 7-14.
8 Li K, Pang Y. An unified community detection algorithm in complex network. Neurocomputing, 2014, 130: 36-43.
9 BaraAsi A L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512.
10 Newman M E. Scientific collaboration network.Network construction and fundamental results. Phys Rev E Stat Nonlin Soft Matter Phys, 2001, 64(1 Pt 2): 016131.
11 王進良,張鵬,遞增如,等.北京師范大學圖書借閱系統(tǒng)的網(wǎng)絡分析.情報學報, 2009, 28(1): 137-141.
12 Lambiotte R, Ausioos M. Uncovering collective listening habits and music genres in bipatite networks. Phys Rev E Stat Nonlin Soft Matter Phys, 2005, 72(6 Pt 2): 066107.
13 何閱,張培培,唐繼英.中藥方劑的合作網(wǎng)絡描述.科技導報, 2005, 23(11): 36-39.
14 孫正.基于藥物屬性的中藥方劑組網(wǎng)及藥物社團發(fā)現(xiàn)研究.南京:南京大學碩士學位論文, 2013: 18-29.
15 李楠楠,張寧.圖書館借閱網(wǎng)的二分圖研究.復雜系統(tǒng)與復雜性科學, 2009, 6(2): 33-39.
16 蔡瑩瑩.基于二分圖的應急預案體系有效性研究. 大連:大連理工大學碩士學位論文, 2012: 8-10.
17 劉正.基于MapReduce的中藥數(shù)據(jù)網(wǎng)絡化及挖掘. 南京:南京大學碩士學位論文, 2012: 23-26.
An Association Study on the Correlation Between Diseases and Herbal Medications Based on Bipartite Graph
Li Mengqing, Zhu Youze, Ma Li, Hu Fang
(Information Engineering Institute, Hubei University of Chinese Medicine, Wuhan 430065,China)
Bipartite graph is a special model in the graph theory with the characteristics of clustering andassociativity. In this study, the analysis of the correlation between diseases and herbal medications was performed based on bipartite graph before constructing the “Disease-Herb” complex network model. Firstly, the disease database and herb database were established in which the diseases and their prescriptions were involved. After that, the degrees of diseases and herbs were calculated separately. Secondly, the correlation among herbs was analyzed through the “Jaccard” similarity function, and so was the correlation of diseases. Finally, the correlation between diseases and herbal medications was deduced via the methods of bipartite graph and complex network; and the simulate experiment was implemented by “Pajek” software. As a result, the correlations of diseases and herbal medications, diseases and diseases, herbs and herbs, and syndromes and herbs were obtained. It was concluded that the correlation between diseases and herbal medications can be drove through data analysis. The binary tree method should be reasonably used to establish a “Disease-Herb” database in the future to analyze the correlations conveniently.
Disease, prescription, herb, bipartite graph, data modeling
10.11842/wst.2016.04.004
R283.6
A
(責任編輯:馬雅靜,責任譯審:朱黎婷)
2015-09-28
修回日期:2015-10-09
* 2014年湖北中醫(yī)藥大學校級教學研究項目(2014B17):醫(yī)學信息工程專業(yè)學生數(shù)據(jù)建模能力培養(yǎng)模式研究,負責人:胡芳;2014湖北省教育廳科學研究計劃項目(D20152003):基于肝病的中醫(yī)臨床術(shù)語本體構(gòu)建研究,負責人:馬利。
** 通訊作者:胡芳,講師,博士,主要研究方向:醫(yī)學信息學,復雜網(wǎng)絡與復雜系統(tǒng)。