馬夢宇 胡春玲
關(guān)鍵詞:非齊次貝葉斯網(wǎng)絡(luò);MCMC;邊緣耦合;基因調(diào)控網(wǎng)絡(luò)
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A
1 引言(Introduction)
隨著系統(tǒng)生物學(xué)的發(fā)展,基因調(diào)控網(wǎng)絡(luò)逐漸成為當(dāng)下生物信息學(xué)領(lǐng)域研究的潮流。通過了解基因之間的轉(zhuǎn)錄關(guān)系[1]和蛋白質(zhì)信號傳遞級聯(lián)研究生物體的基因調(diào)控網(wǎng)絡(luò)[2],能夠有效地提升基因工程藥物的作用和效果。
傳統(tǒng)的方法是使用基于改變點過程的非齊次動態(tài)貝葉斯網(wǎng)絡(luò)(Changepoints Non-homogeneous Dynamic BayesianNetwork,CPS-DBN)[3]構(gòu)建基因調(diào)控網(wǎng)絡(luò),CPS-DBN既能描述基因調(diào)控關(guān)系,又能描述基因調(diào)控方向,但缺點是容易導(dǎo)致模型過度靈活。因此,研究人員提出了具備新型分段方式的非齊次貝葉斯模型:基于隱馬爾科夫模型的非齊次動態(tài)貝葉斯網(wǎng)絡(luò)(Hidden Markov Model Non-homogeneousDynamic Bayesian Network, HMM-DBN)[4],HMM-DBN能將周期性實驗數(shù)據(jù)中距離較遠(yuǎn)的時間點分配到相同的分段,克服了傳統(tǒng)CPS-DBN會導(dǎo)致模型過度靈活的問題。但是,由于HMM-DBN沒有限制基因調(diào)控效應(yīng)強度的靈活性,使基因調(diào)控關(guān)系的調(diào)控效應(yīng)強度隨時間推移發(fā)生較大變化,導(dǎo)致每個節(jié)點都要獨立推斷調(diào)控關(guān)系,忽略了基因調(diào)控關(guān)系為了適應(yīng)環(huán)境變化可能經(jīng)歷的復(fù)雜過程[5],因此影響了網(wǎng)絡(luò)重構(gòu)精度。
本文結(jié)合邊緣耦合[6]的相關(guān)技術(shù),分析了基因調(diào)控效應(yīng)強度的靈活性對網(wǎng)絡(luò)重構(gòu)精度的影響,并在酵母數(shù)據(jù)集[7]和合成RAF數(shù)據(jù)集[8]上進(jìn)行測試,優(yōu)化了HMM-DBN,將網(wǎng)絡(luò)重構(gòu)精度提高到0.76以上。
2邊緣耦合的HMM-DBN(Edge-wise couplingHMM-DBN)
為了解決HMM-DBN中過度靈活的基因調(diào)控效應(yīng)強度對學(xué)習(xí)基因調(diào)控關(guān)系的影響,進(jìn)而提高網(wǎng)絡(luò)重構(gòu)精度,研究人員使用參數(shù)耦合的方式將特定參數(shù)的后驗期望作為回歸參數(shù)的先驗分布條件,用不斷迭代更新的回歸參數(shù)推斷不同節(jié)點之間的基因調(diào)控效應(yīng)強度。通過構(gòu)建耦合超參數(shù)向量,使不同的時間段之間實現(xiàn)信息交互,在一定程度上可以限制基因調(diào)控效應(yīng)強度的靈活性,從而改善網(wǎng)絡(luò)重構(gòu)精度下降的問題。例如,順序耦合[9]就是用前一個時間分段的回歸參數(shù)的后驗分布數(shù)值作為求解當(dāng)前時間段的回歸參數(shù)的先驗分布,使回歸參數(shù)隨時間變化保持相似,從而讓基因調(diào)控效應(yīng)強度僅發(fā)生較小的變化(保持穩(wěn)定),使每個基因節(jié)點可以在已知的調(diào)控關(guān)系基礎(chǔ)上推斷自己的調(diào)控關(guān)系,最終降低了推理過程中的不確定性,使網(wǎng)絡(luò)預(yù)測精度會得到顯著的改善。但是,以上方法假設(shè)所有回歸參數(shù)都隨時間變化保持相似,導(dǎo)致調(diào)控效應(yīng)強度總是保持穩(wěn)定,從生物學(xué)角度來看,基因之間的調(diào)控效應(yīng)強度并不會一直保持穩(wěn)定,通常會受到來自變化的實驗環(huán)境的影響。因此,順序耦合不能完全模擬基因調(diào)控關(guān)系為了適應(yīng)環(huán)境變化而經(jīng)歷的復(fù)雜變化過程,從而影響了網(wǎng)絡(luò)重構(gòu)精度。
本文根據(jù)KAMALABAD等[6]對于邊緣耦合的非齊次貝葉斯網(wǎng)絡(luò)的研究,提出了邊緣耦合的基于隱馬爾科夫模型的非齊次動態(tài)貝葉斯網(wǎng)絡(luò)(Edge-wise Coupling Hidden MarkovModel Non-homogeneous Dynamic Bayesian Network,EWCHMM-DBN)。EWCHMM-DBN從數(shù)據(jù)中判斷當(dāng)前時間段的回歸參數(shù)與前一時間段的回歸參數(shù)是否保持相似(耦合),并根據(jù)實際狀況在回歸參數(shù)的先驗分布里使用非耦合參數(shù)或耦合參數(shù),從而區(qū)分穩(wěn)定的調(diào)控效應(yīng)強度和不穩(wěn)定的調(diào)控效應(yīng)強度。鑒于基因調(diào)控關(guān)系為了適應(yīng)環(huán)境而經(jīng)歷的復(fù)雜變化過程,適當(dāng)保留調(diào)控效應(yīng)強度的靈活性可能是有用的。
3.2在酵母數(shù)據(jù)
集上的實驗結(jié)果CANTONE等[7]于2009 年綜合設(shè)計了酵母基因序列中5 個基因節(jié)點之間的調(diào)控關(guān)系構(gòu)成的基因調(diào)控網(wǎng)絡(luò),在8 h內(nèi),用實時熒光定量PCR 在37 個時間節(jié)點測量了這些基因在酵母菌內(nèi)部的表達(dá)水平,實驗條件分為半乳糖和葡萄糖。酵母數(shù)據(jù)集中五個基因節(jié)點GAL80、GAL4、CBF1、ASH1和SWIS之間的基因調(diào)控網(wǎng)絡(luò)如圖3所示,箭頭代表基因之間的調(diào)控關(guān)系。
圖4展示了在酵母數(shù)據(jù)集上進(jìn)行實驗得到的EWCHMMDBN和HMM-DBN的網(wǎng)絡(luò)重構(gòu)精度,橫坐標(biāo)代表不同的MCMC采樣迭代次數(shù),縱坐標(biāo)代表在進(jìn)行200 次獨立的實驗后,求出的平均AUC 值。黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC 值,如圖4所示,與HMM-DBN相比,EWCHMM-DBN的平均AUC值有所提高,并達(dá)到0.76以上。
3.3在合成RAF數(shù)據(jù)集上的實驗結(jié)果
對于合成RAF數(shù)據(jù)集,文獻(xiàn)[8]綜合設(shè)計了實驗數(shù)據(jù),完整的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(a)所示,該網(wǎng)絡(luò)由11 個節(jié)點,即pka、pip2、p38、raf、jnk、plcg、akt、erk、pip3、pkc和mek組成,有20 條代表蛋白質(zhì)相互作用的有向邊。圖5(b)展示了在合成RAF數(shù)據(jù)集上進(jìn)行實驗得到的EWCHMM-DBN和HMM-DBN的平均AUC 值,縱坐標(biāo)對應(yīng)經(jīng)過200 次實驗后得到的平均AUC 值,橫坐標(biāo)對應(yīng)不同的模型,黑色代表EWCHMM-DBN的平均AUC 值,灰色代表HMM-DBN的平均AUC值,與HMM-DBN相比,EWCHMM-DBN的平均AUC 值有所提升,并達(dá)到0.76以上。
4結(jié)論(Conclusion)
本研究使用邊緣耦合的方式改進(jìn)了傳統(tǒng)的HMM-DBN,通過區(qū)分耦合與非耦合的基因調(diào)控關(guān)系,限制了基因調(diào)控效應(yīng)強度的靈活性,使基因調(diào)控網(wǎng)絡(luò)的推測過程更貼合生物適應(yīng)環(huán)境的變化過程,提高了傳統(tǒng)HMM-DBN的網(wǎng)絡(luò)重構(gòu)精度。在多個數(shù)據(jù)集上的實驗結(jié)果表明:改進(jìn)后的EWCHMMDBN優(yōu)于傳統(tǒng)的HMM-DBN,證明了過度靈活的基因調(diào)控效應(yīng)強度會對網(wǎng)絡(luò)推測結(jié)果產(chǎn)生影響。由于影響網(wǎng)絡(luò)重構(gòu)精度的方式不止一種,因此下一步的研究計劃將針對信噪比超參數(shù)和方差超參數(shù)的求解方式,盡可能地提高模型的收斂性。
作者簡介:
馬夢宇(1998-),男,碩士生.研究領(lǐng)域:人工智能,生物信息學(xué).
胡春玲(1970-),女,博士,教授.研究領(lǐng)域:人工智能,數(shù)據(jù)挖掘,生物信息學(xué).