胡 楓,白立冰,朱祺航,劉 闖
(1. 青海師范大學計算機學院,青海 西寧 810008;2. 青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008;3. 藏語智能信息處理及應用國家重點實驗室,青海西寧 810008;4. 高原科學與可持續(xù)發(fā)展研究院,青海 西寧 810016;5. 杭州師范大學阿里巴巴復雜科學研究中心,浙江 杭州 311121)
現實中存在著大量的復雜網絡,如城市交通網、地鐵網、社交網絡等,這些網絡的出現引起了學者們極大的研究熱情。20世紀末,小世界模型[1]和無標度模型[2]的提出,掀起了復雜網絡的研究熱潮。隨后,學者們利用復雜網絡方法分析現實網絡的拓撲特性,得到了很多顯著的成果[3]-[5]。在復雜網絡中,節(jié)點代表實體,邊表示實體之間的關系。如在基于普通圖的科研合作網絡中,節(jié)點之間的連邊只能表示兩個作者的合作關系,無法表示由多個作者共同合作撰寫一篇文章的情況,而用二部圖解決上述問題,又會導致節(jié)點失去“同質性”,從而不利于分析網絡的連通性、度分布等。針對這一問題,學者們發(fā)現超圖中的超邊可以包含任意多個節(jié)點,基于超圖理論的超網絡能更準確地表述現實網絡的多維、群聚等特性。在基于超圖的科研合作超網絡[6]中,節(jié)點表示作者,超邊表示文章,這樣就能清晰地表示多個作者共同合作發(fā)表的文章,所以基于超圖的超網絡能夠更全面準確地描述任意多個節(jié)點之間的高階相互作用與影響,并保證了節(jié)點的“同質性”。
超網絡理論在近幾年的發(fā)展中,已獲得了很多理論與實踐成果。Estrada等[7]提出基于超圖拓撲結構的超網絡來表示多元異質網絡;胡楓等[8]構建了蛋白復合物超網絡模型,通過超度、子圖中心性來識別網絡中的關鍵蛋白;索琪等[9]-[11]研究了基于超網絡模型的電視節(jié)目競爭關系,輿情傳播模型以及超網絡演化的內在驅動力等問題;張子柯等[12]建立了一種基于用戶背景知識和對象,標簽雙重優(yōu)先連接機制的超圖增長模型;張正東[13]提出了基于超圖理論的生物代謝網絡,通過加入空點的方式,統(tǒng)一用高階張量表示超圖點和邊的匹配情況,將超圖比對問題轉換為求比對得分目標函數值最大的優(yōu)化問題,巧妙地解決了超圖比對問題;Kong等[14]在基因水平提出動態(tài)相關超圖的方法來構建模塊級的三方交互網絡,以反映生物系統(tǒng)中的全局動態(tài)相關模式,為下游基因三聯體水平分析提供指導;Niu等[15]建立了一個基于超圖上隨機游動的微生物疾病關聯預測模型;Wang等[16]提出了基于高維特征和超圖學習的HFHLMDA預測方法,以揭示疾病與miRNA之間的關系。
隨著復雜網絡的發(fā)展,在生物信息方面,研究者借用復雜網絡模型對藥物成分、靶標預測等方面的研究形成了網絡藥理學這一分支。網絡藥理學[17]-[21]是將藥物作用網絡與生物網絡整合在一起,分析藥物與特定靶標或模塊的相互作用關系,發(fā)現藥物靶標,指導藥物研發(fā)的一門新興學科。劉西等[22]根據已知的藥物-靶標交互作用構建二分圖網絡,并建立藥物-靶標蛋白質對的關聯性評價模型;史亞永[23]使用多層網絡模塊刻畫藥物靶標交互作用,進而挖掘出可能存在的所有藥物候選靶標模塊;Wang等[24]使用高階藥物組合信息,開發(fā)了一個超圖隨機游動與重啟模型,用于有效的藥物組合預測。藥物靶標網絡屬于復雜網絡和網絡藥理學交叉領域的研究范疇,傳統(tǒng)上通常采用二部圖表示該網絡,如Yildrim等[25]構建了一個由藥物與靶標蛋白構成的二分圖網絡,藥物與靶標蛋白之間通過藥物-靶標二元關聯連接,如圖1所示為藥物靶標網絡圖表示,節(jié)點分為藥物與靶標蛋白(圓形表示藥物,長方形表示靶標),如果靶標蛋白為藥物對應的靶標,則將藥物和靶標蛋白彼此相連,產生藥物-靶標網絡。
圖1 藥物靶標網絡圖示[25]
在研究藥物靶標二部圖[25]時,往往會對其中的同類型節(jié)點進行投影而得到投影圖,在投影圖中可以分析最短路徑,以及連通分支等特征,但是這樣一來兩類節(jié)點間的聯絡被截斷,或者相關信息的遺漏會使得一些拓撲指標無法解析,如連通性、聚類系數、度分布等。因此,基于普通圖的復雜網絡在描繪更加復雜的關聯關系時會存在著一定的限制性和二義性,而超圖中的一條邊能夠涵蓋許多節(jié)點,使其能在傳遞高階信號的復雜連接時顯示出更好的效果。由于超圖既可以從藥物角度,也可以從靶標角度入手進行建模分析,因此,本文基于超圖的拓撲結構來表示多種藥物及多種靶標之間的關聯關系,以drugbank藥物庫的藥物靶標數據構建兩類藥物靶標超網絡模型,并分析實證超網絡的拓撲性質,通過對比分析發(fā)現,兩類藥物靶標超網絡均具有明顯的無標度特征,并且藥物傾向于連接hub靶標蛋白,功能相似的藥物具有相對較高的聚類系數。
本文從DrugBank數據庫中下載了截至2021年1月3日的藥物及靶標信息。目前DrugBank 5.1包含了14315種藥物,其中包括825個FDA批準的藥物和4432個實驗性藥物。圖2為FDA批準的藥物靶標之間對應關系的數據分布圖,包括825種藥物和4871種靶標。大多數藥物只針對一種或兩種靶標(Hub靶標蛋白),但極少數藥物針對較多靶標,同樣地,大多數靶標(蛋白質)被少數幾種的藥物所靶向,小部分靶標被多數藥物共同作用。
圖2 藥物(靶標)對應的靶標(藥物)分布
隨著系統(tǒng)生物學方法的發(fā)展和高通量數據的積累,學者們通常采用復雜網絡的方法來理解疾病作用機理、預測藥物靶標相互作用關系??紤]到超圖能適合表達多維復雜的連接關系,本文用超網絡方法對藥物靶標相互作用進行建模,可以有兩種建模思想:
1) 以藥物為節(jié)點,靶標為超邊構造藥物-靶標超網絡模型,可以通過定量分析靶標數量增長的演化規(guī)律,及相關拓撲指標的計算,來驗證超邊優(yōu)先增長機制;
2) 從靶標的角度進行建模,以靶標為節(jié)點,藥物為超邊構建靶標-藥物超網絡模型。合理的建模方式可以分析藥物靶標之間的交互規(guī)律,找到重要的靶標蛋白,為藥物開發(fā)提供更好的建議。
在模型構建過程中,可以依據藥物是否得到FDA批準劃分數據集:
1) 使用FDA批準的藥物及靶標來生成藥物-靶標超網絡(app_drug);
2) 加入實驗性藥物和靶標來構建新的超網絡模型(app+exp_drug);
3) 以所有藥物為節(jié)點構造超網絡模型(all_drug);
4) 以FDA批準的藥物所對應的靶標為節(jié)點,將藥物作為超邊,構建靶標-藥物超網絡模型(app_target);
5) 在數據處理過程中,發(fā)現app_target數據集在加入實驗性藥物后構建的靶標-藥物超網絡(app+exp_target)與以所有靶標為節(jié)點的實驗數據集(all_target)基本一致,所以在構建加入實驗性藥物后的靶標-藥物超網絡時直接采用所有的靶標數據集(all_target)來構建。
藥物-靶標超網絡和靶標-藥物超網絡的模型構造算法如下:
1) 初始化:將超網絡中的藥物(靶標)標為節(jié)點vi,靶標(藥物)標為超邊ek,其中i=1,2,…,n,k=1,2,…,m;
2) 遞歸操作如下:依次遍歷所有節(jié)點,若節(jié)點vi和節(jié)點vj作用于同一靶標(藥物)ek,則將節(jié)點vi和節(jié)點vj添加到該超邊ek中;
3) 直至所有節(jié)點遍歷完畢,算法結束。
各超網絡中的節(jié)點與超邊數量見表1。
表1 不同數據集的超網絡統(tǒng)計表
基于DrugBank5.1中的藥物靶標數據集和2.2節(jié)的模型構造算法,建立藥物-靶標超網絡和靶標-藥物超網絡,如圖3所示,左圖為藥物-靶標超網絡局部示意圖,節(jié)點表示藥物,環(huán)表示一條超邊,即作用某個靶標的所有藥物。右圖為靶標-藥物超網絡局部示意圖。節(jié)點表示靶標,圓環(huán)表示超邊,即某藥物作用的所有靶標。
圖3 兩類超網絡局部示意圖
2.4.1 超網絡概念
2.4.2 節(jié)點超度
在超網絡H中,節(jié)點i的超度dH(i)是指包含該節(jié)點的超邊數量。設超網絡H的關聯矩陣C=(cij)N×M,則節(jié)點i的超度dH(i)為
其中,cij為關聯矩陣C的元素,若節(jié)點i包含在超邊j中,cij=1,否則cij=0。依此可以研究超網絡的超度分布,超度dH(i)的分布概率P(dH(i))的計算式為:
其中,Ni表示超度為dH(i)的節(jié)點數,N表示超網絡中的節(jié)點數。超網絡的平均超度是所有節(jié)點超度的平均值,能夠描述整個超網絡的性質,記為〈dH〉,即
其中,dH(i)為單個節(jié)點i的超度,N為超網絡中節(jié)點的數目總和。
2.4.3 聚類系數
平均聚類系數是指在超網絡中與同一節(jié)點連接的任意兩個節(jié)點有超邊相連的概率,Estrada等[7]給出了超網絡的聚類系數C2(H)的計算式:
其中,超三角形是指一個由三個不同的節(jié)點和三條不同的超邊所組成的閉合序列,該序列表示為vi,Ep,vj,Eq,vk,Er,vi,其中三個節(jié)點彼此相鄰。路徑長度為2指的是連接兩節(jié)點所經過的超邊數目為2,是形如vi,EP,vj,Eq,vk的序列,其路徑中所有節(jié)點與超邊都不相同。
2.4.4 連通分支
假設H=(V,E)是一個超圖,連通分支是頂點X?V的最大集,對于所有的x,y∈X,d(x,y)≠∞,H的直徑d(H)定義為
d(H)=max{d(x,y)|x,y∈V}
滿足這種關系的集合是超圖的連通分支,如圖4所示,C1和C2為所示超圖的兩個連通分支。
圖4 超圖中的連通分支C1,C2
在藥物靶標超網絡中,藥物為節(jié)點,靶標為超邊,節(jié)點超度表示藥物所針對的靶標數量;在靶標藥物超網絡中,靶標為節(jié)點,藥物為超邊,節(jié)點超度表示靶標作用的藥物數量;大多數藥物只作用于幾種靶標,少數藥物作用于大量靶標,見表2。根據表2的結果,可以得到幾個具有最大超度的中心節(jié)點,一種藥物作用的靶標數量越多,它應該得到的關注就越多。
表2 藥物靶標與靶標藥物超網絡超度統(tǒng)計表
從表2中可以得出,app_drug平均超度是4,其中超度值小于5的節(jié)點數量為673,占總體的82%,app+exp_drug平均超度是2,超度小于3的節(jié)點數量為3679,占總體的70%,all_drug平均超度是2,超度小于3的節(jié)點數量為4004,占總體的53%。通過比較發(fā)現,各超網絡中只有個別節(jié)點具有很高的超度,大多數
節(jié)點的超度很小,呈現重尾分布,說明在該超網絡中絕大多數藥物作用的靶標數量很少,只有個別藥物對很多靶標蛋白起作用,所以這類藥物可能是很關鍵的藥物。分析實際數據集可知,在all_drug中,節(jié)點132、6789、7021、7103可能是關鍵節(jié)點,它們的超度值分別是144、147、191、306。上述五類數據集構造的兩類超網絡模型都表現出明顯的無標度分布,如圖5所示。
圖5 各超網絡的超度分布
從圖5可看出,app_drug在加入實驗性藥物后,其超度分布仍然顯示出明顯的無標度分布,盡管指數值從1.49增加到1.83,但在all_drug的超度分布中,指數值恢復到1.4,冪指數先升后降表明在加入了其它標簽的藥物之后,藥物與靶標之間的連接過程引入了更多的隨機性。
聚類系數可以衡量一個網絡的模塊化。為了比較分析各超網絡的聚類系數,通過固定連接概率的節(jié)點數量,同時保持超度分布不變,生成了每個網絡的隨機對照超網絡。實驗結果如圖6所示,紅色圓點表示真實數據,藍色三角表示對照組。
圖6 各超網絡的聚類系數比對
在app_drug超網絡中,平均聚類系數約為0.45比對照組的平均聚類系數0.02大很多倍,同樣,app_target超網絡的平均聚類系數0.15也比對照組0.01 大一個數量級;較高的聚類系數值主要來自于針對三個或更多靶標的藥物,或由三個或更多藥物同時針對的靶標。在加入實驗性藥物后,all_target的平均聚類系數也約為0.15,與app_target相差無幾,但高于隨機網絡的平均聚類系數0.0023。結果表明,許多實驗性藥物針對的是兩種以上的新靶標蛋白,且在舊靶標之間引入了新的聯系。
通過對FDA批準的藥物進行ATC分類(Anatomical Therapeutic Chemical,治療學及化學分類法),構建藥物靶標相互作用圖。通過Gephi對功能相似的藥物進行著色,見圖7。圖中功能相似的藥物用同種顏色表示,如紅色部分對應的是非性激素和胰島素類的激素類系統(tǒng)用藥,綠色為系統(tǒng)用抗感染藥。功能類似的藥物聚成一團,彼此之間又有聯系,表明功能類似的藥物具有相對較高的聚類系數。
圖7 靶標分類圖
與對照組隨機超網絡相比,兩類超網絡模型均表現出不同的連通分支分布,這些隨機超網絡模型是隨機化藥物-靶標蛋白關聯,同時保持藥物的數量和靶標蛋白的數量不變,如圖8所示,紅色實線為真實數據集,藍色實線為隨機對照組。
圖8 各超網絡的連通分支分布
為了更好地分析連通分支變化規(guī)律,統(tǒng)計了各超網絡最大連通分支內節(jié)點數的變化情況,見表3。
表3 各超網絡最大連通分支節(jié)點數統(tǒng)計表
從表3可知,app_drug超網絡的最大連通分支占藥物數目的60%,所包含的節(jié)點數明顯多于由固定節(jié)點數和連接概率生成的隨機超網絡的最大連通分支(節(jié)點個數:825; 隨機連接概率:P=0.0053),但其它藥物靶標超網絡的最大連通分支比對照組的小。為了解釋造成這種現象的原因,收集了2005年-2020年的DrugBank數據,以年份排序,對每年FDA批準的藥物數量進行統(tǒng)計,見圖9。
圖9 藥物數量逐年增長圖
從圖9可以看出,2005-2011年數量逐年下降,表明有些被FDA批準認證的藥物被剔除,當時正處美國經濟危機時期,財政及技術的限制下,藥物研發(fā)備受限制,很多藥物停產,2011-2020年,經濟危機結束,社會平穩(wěn)發(fā)展,FDA批準的藥物數量逐年增長。這一規(guī)律表現在app_drug連通分支分析中,表現為新節(jié)點的增加較為緩慢,有時還會減少,即連邊概率不穩(wěn)定,所以導致在固定節(jié)點數和同樣的連邊概率條件下,隨機超網絡中的連通分支比真實的實證網絡要大;此外,加入experimental藥物后,app_target與all_target超網絡實驗組與對照組的最大連通分支的差值由349變?yōu)?871,在加入experimental藥物后,實驗組最大連通分支反而變小,說明刪去某些舊節(jié)點同時,新加入的藥物傾向于連接hub靶標蛋白,最終導致原來的連通分支變小。
結合圖7與連通分支大小的變化規(guī)律,如果大多數藥物專門針對單個靶標蛋白,那么藥物靶標超網絡將由孤立的圈組成,超邊之間會很少或沒有交集,但藥物靶標分類圖顯示了不同藥物和藥物類別之間的許多聯系,表明藥物靶標超網絡是一個包括更多子類別的網絡。模塊間的分布表明:同一功能種類的藥物的區(qū)域分布是一致的,功能類似的藥物具有相對較高的聚類系數。
本文以drugbank藥物庫的藥物靶點數據集為研究對象,分別構建了以藥物為節(jié)點、靶標為超邊的超網絡模型和以靶標為節(jié)點、藥物為超邊的超網絡模型,得到了超度分布、聚類系數和連通分支等拓撲指標值。數據分析表明,兩類藥物靶標超網絡均具有冪律分布、高聚類系數和巨連通分支。
使用超網絡分析仍然可以提供藥物靶標網絡上的統(tǒng)計學的重要特征。發(fā)現新藥開發(fā)中的靶標選擇往往是多樣化的,并傾向于連接已知的靶標,而且同一類藥物的局部聚類系數相對較高。這些都可以為新藥的開發(fā)帶來啟迪。這也說明在超圖的基礎上研究藥物靶點網絡的拓撲特性是可行的。本文所使用的指標和方法也可用于分析其它超網絡。