国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互信息關(guān)聯(lián)模型在基因調(diào)控網(wǎng)絡(luò)構(gòu)建中的應(yīng)用*

2018-01-25 09:58:27王銳張獻(xiàn)志曾麗華陳活良張潔瓊
西部醫(yī)學(xué) 2018年1期
關(guān)鍵詞:互信息信息熵調(diào)控

王銳 張獻(xiàn)志 曾麗華 陳活良 張潔瓊

(1.第四軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)教研室,陜西 西安 710032;2.第四軍醫(yī)大學(xué)放射醫(yī)學(xué)教研室,陜西 西安 710032)

學(xué)習(xí)與記憶能力是人類高級(jí)精神活動(dòng)的特征與基礎(chǔ)。學(xué)習(xí)與記憶機(jī)制的研究越來(lái)越受到科學(xué)領(lǐng)域的廣泛關(guān)注,這對(duì)于揭示大腦的奧秘、并最終認(rèn)識(shí)生命的本質(zhì)有著重要的意義[1]。相對(duì)于其他各種組織器官,人的大腦在功能、結(jié)構(gòu)和基因的表達(dá)上表現(xiàn)出更大的復(fù)雜性。胎兒海馬發(fā)育和基因的表達(dá)與成人及病變的海馬有著極為密切的聯(lián)系,為了在全基因組水平上系統(tǒng)地研究胎兒階段中樞神經(jīng)系統(tǒng)發(fā)育情況,香港城市大學(xué)科研人員[2]利用基因芯片檢測(cè)了人腦小腦組織在胎兒的不同發(fā)育時(shí)期,12060個(gè)基因的表達(dá)情況,得到了大量的基因表達(dá)數(shù)據(jù)。

發(fā)育的最終狀態(tài)是與發(fā)育有關(guān)的基因在時(shí)間和空間上相互調(diào)控的結(jié)果[3]。利用時(shí)間序列的高通量基因芯片表達(dá)數(shù)據(jù),通過合適的數(shù)學(xué)模型,挖掘出基因之間相互調(diào)控的網(wǎng)絡(luò),這對(duì)認(rèn)識(shí)未知基因的功能、整個(gè)神經(jīng)系統(tǒng)的工作原理等重大問題是有積極作用的。目前,已有較多的數(shù)學(xué)模型應(yīng)用于調(diào)控網(wǎng)絡(luò)的建模及構(gòu)建,如灰色理論、Bayesian網(wǎng)絡(luò)等等[4],大多數(shù)模型都沒有考慮基因表達(dá)在時(shí)-空層面上的調(diào)控關(guān)系,或者沒有考慮基因表達(dá)在不同時(shí)間點(diǎn)上權(quán)重關(guān)系,這為深入挖掘基因調(diào)控的時(shí)-空機(jī)制帶來(lái)了一定的困難。因此,在計(jì)算各基因之間的互信息相關(guān)系數(shù)之前,首先將時(shí)間點(diǎn)進(jìn)行加權(quán),這個(gè)方法能夠提高調(diào)控網(wǎng)絡(luò)構(gòu)建的精度[5]。本研究借助互信息關(guān)聯(lián)模型,充分考慮了基因表達(dá)時(shí)間點(diǎn)的相互關(guān)系,利用互信息相關(guān)系數(shù)來(lái)描述發(fā)育過程中基因之間的相互關(guān)系。

1 材料與方法

1.1 小腦組織基因的選擇 我們選擇了小腦組織中7個(gè)時(shí)間點(diǎn)都有表達(dá)數(shù)據(jù)的237個(gè)基因。將237個(gè)基因投射到Gene Ontology Consortium[6](GO數(shù)據(jù)庫(kù))中,著重選擇了生物過程中具有發(fā)育功能的43個(gè)基因。順序排列為:DPYSL3, VEGFB, HIF1A, MEIS2, MAP1B, GAS7, NOS3, NNAT, EIF3S2, CNTN2,STMN1, HSF4, MSH6, DOK5, ACTG1, MEF2C, APOD, FEZ1, WASF1, ZIC2, PRKCB1, NEUROD1, APC, H2AFX, E2F5, PLP1, MBD3, BLR1, NRXN1, CRYAB, ADD2, PTN, CLU, NRXN3, DKK3, MET, RPS29, FHL1, HMGB1, NELL2, DACH, RELN, YWHAH。將43個(gè)基因投射到20個(gè)功能模塊中,見表1。

1.2 基因表達(dá)各時(shí)間點(diǎn)的權(quán)重確定 不同發(fā)育階段的基因表達(dá)在各時(shí)間點(diǎn)上權(quán)重是不同的。隨著時(shí)間的推移,基因表達(dá)強(qiáng)度越弱,因此,需要對(duì)7個(gè)時(shí)間點(diǎn)的表達(dá)值進(jìn)行加權(quán)。加權(quán)處理之前要對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行正則化[7],采用公式(1)。其正則化的結(jié)果,見表2。

(1)

(2)

(3)

表1 43個(gè)基因的功能分布Table 1 The distribution of 43 genes’ function

表2 基因表達(dá)值正則化結(jié)果Table 2 Regularization result of gene expression values

2 結(jié)果

2.1 相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。那么,定性變量間的相關(guān)度分析可以用信息量來(lái)描述定性變量間相關(guān)程度的強(qiáng)弱[8]。

式中:p(xi)為發(fā)生事件xi的概念,n為可能發(fā)生的事件(狀態(tài))總數(shù)。

2.3 互信息相關(guān)系數(shù)的計(jì)算 互信息相關(guān)系數(shù)可通過信息熵信息量來(lái)確定,也就是信息熵相關(guān)系數(shù)[11]。它用于描述基因向量genei=(gi1,gi2,…,gin)和向量genej=(gj1,gj2,…,gjn)有多少共同的信息,它的性質(zhì)類似于非線性相關(guān)系數(shù),但更具有不確定性,即當(dāng)用不同的方法離散連續(xù)變量時(shí)就會(huì)得到不同的結(jié)果[12]。

根據(jù)各時(shí)間點(diǎn)的屬性權(quán)重,計(jì)算出加權(quán)后的表達(dá)值,采用局部加權(quán)線性回歸標(biāo)準(zhǔn)化法,對(duì)基因表達(dá)值進(jìn)行標(biāo)準(zhǔn)化處理[13],見公式(5)。對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)采用10等分區(qū)間[14]。

(4)

(5)

log2是以2為底的對(duì)數(shù),p(x)為基因表達(dá)值位于第x分位數(shù)上的概率值。以基因DPYSL3為例,對(duì)各時(shí)間點(diǎn)加權(quán)后的表達(dá)值進(jìn)行標(biāo)準(zhǔn)化,結(jié)果分別為0.0275、0.9519、0.7938、0.6014、1、0.6289和0,將0~1按 10等分進(jìn)行區(qū)間劃分,區(qū)間之間大小為0.1。結(jié)果當(dāng)中有兩個(gè)值在第1個(gè)區(qū)間[0,0.1],三個(gè)值在2區(qū)間,一個(gè)值在第10個(gè)區(qū)間,通過公式(6)計(jì)算,可信息熵H1=1.94。同理,可得到基因VEGFB的信息熵H2=2.25。上述的兩個(gè)基因的互信息MI(g1,g2)可通過公式(7),得到MI(g1,g2)為1.58。通過公式(8)可得到上述兩基因相關(guān)系數(shù)r為0.70。

MI(g1,g2)=H(g1)+H(g2)-H(g1,g2)

(6)

(7)

建立信息熵相關(guān)系數(shù)矩陣R,相關(guān)系數(shù)rij表示兩個(gè)基因之間的調(diào)控關(guān)系,R可表示為:

(8)

2.4 應(yīng)用MATLAB 2015a軟件可得到43個(gè)基因之間調(diào)控關(guān)系的強(qiáng)弱程度[15]。本研究中對(duì)基因之間的作用直接通過相關(guān)系數(shù)值的形式體現(xiàn),數(shù)值越大強(qiáng)度越強(qiáng)。為了便于相互的比較,我們采用灰度圖表示調(diào)控矩陣,見圖1。

圖1 調(diào)控矩陣的圖像顯示Figure 1 Visualization of controlling matrix

注:以灰度表示其調(diào)控的強(qiáng)度。白色為調(diào)控最大值,黑色為調(diào)控最小值

3 討論

互信息作為相關(guān)分析的度量,其最大優(yōu)勢(shì)在于能有效刻畫變量之間的非線性關(guān)系[16]。在大數(shù)據(jù)相關(guān)分析中,最具影響力的研究成果是Reshef等人于2011年發(fā)表在《 Science》上的論文“Detecting novel associations in large data sets”[17],該研究通過互信息定義了兩個(gè)變量之間的互信息相關(guān)系數(shù),用來(lái)衡量?jī)蓚€(gè)變量之間的相關(guān)性。同時(shí),通過對(duì)多屬性群決策方法的研究,信息熵可用來(lái)度量信息量的大小,也是信息有用程度的一種表現(xiàn)形式,采用了以信息熵確定屬性權(quán)重的方法[18],客觀性較強(qiáng)。 多物種生態(tài)系統(tǒng)動(dòng)態(tài)發(fā)展理論認(rèn)為[19]:每種生物都生活在一定的生態(tài)系統(tǒng)中,任何一種生物的數(shù)量的消長(zhǎng),都會(huì)對(duì)其他生物產(chǎn)生影響,會(huì)影響它所在的生態(tài)系統(tǒng),即包括互惠、競(jìng)爭(zhēng)和共存三種關(guān)系:①互惠關(guān)系:即基因之間表達(dá)的互相促進(jìn)。②競(jìng)爭(zhēng)關(guān)系:基因的表達(dá)會(huì)抑制另一些基因的表達(dá)。③共存關(guān)系:基因之間的表達(dá)沒有直接關(guān)系,僅共存于同一個(gè)調(diào)控網(wǎng)絡(luò)中。在模型建立過程中,我們采用數(shù)學(xué)函數(shù)當(dāng)中的樣條函數(shù)進(jìn)行插值[20],描述其表達(dá)趨勢(shì)。在網(wǎng)絡(luò)可視化方面,我們采用了帶有色彩梯度變化的灰度圖像,該圖像可以將基因表達(dá)方法很好地表現(xiàn)出來(lái)[21]。該方法避免了閾值的選擇問題,可以根據(jù)實(shí)際情況靈活選擇。

利用人類胎兒小腦組織發(fā)育的基因表達(dá)數(shù)據(jù),基于非參數(shù)統(tǒng)計(jì)理論提出了互信息和熵相關(guān)系數(shù)相結(jié)合分析方法,得到了與發(fā)育有關(guān)基因的相互調(diào)控情況。例如31號(hào)基因(ADD2)與6號(hào)基因(GAS7)、31號(hào)基因(ADD2)與38號(hào)基因(FHL1)信息熵相關(guān)系數(shù)分別為0.88和0.98,相關(guān)程度很強(qiáng),通過相關(guān)生物學(xué)資料可知,ADD2對(duì)GAS7和FHL1的表達(dá)為抑制作用。ADD2基因與分裂組織發(fā)育、形態(tài)發(fā)生、器官發(fā)育、基部發(fā)育和促發(fā)發(fā)育等功能有關(guān),而GAS7、FHL1等幾種基因也與形態(tài)發(fā)生和器官發(fā)育有關(guān)。

4 結(jié)論

本研究從神經(jīng)科學(xué)的研究熱點(diǎn)和前沿切入,具有一定的生物與方法學(xué)意義?;诨バ畔㈥P(guān)聯(lián)網(wǎng)絡(luò)描述基因表達(dá)調(diào)控的復(fù)雜關(guān)系。該方法有較廣泛的適用性,可為進(jìn)一步探索生物信息學(xué)方法提供理論支持。

[1]郭波濤,李輝智,王文昌,等.酵母基因調(diào)控網(wǎng)絡(luò)的微分方程模型研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(2):129-133.

[2]Ashburner M, Ball C, Blake J,etal. Gene Ontology: tool for the unification of biology [J]. NatGenet,2000,25:25-29.

[3]陳云翔,董驍雄,項(xiàng)華春,等.基于信息熵的群組聚類組合賦權(quán)法[J]. 中國(guó)管理科學(xué), 2015, 23(6):142-146.

[4]Guo Hongyu.Research on term weighting algorithm based on information entropy theory[J]. Computer Engineering and Applications, 2013, 49(10): 140-146.

[5]易東,楊夢(mèng)蘇,李輝智,等.相關(guān)分析在建立基因調(diào)控網(wǎng)絡(luò)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2003,20(3):144-146.

[6]J Narula,CJ Williams,A Tiwari,etal.Mathematical Model of a Gene Regulatory Network Reconciles Effects of Genetic Perturbations on Hematopoietic Stem Cell Emergence[J]. Developmental Biology, 2013, 379(2):258-269.

[7]Zhang X, Zhao XM, He K,etal.Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information[J]. Bioinformatics,2012,28(1):98-104.

[8]Qian J, L in J, Luscombe NM,etal. Prediction of regulatory networks:genomeOwide identification of transcrip tion factor tar2 gets from gene expression data [J]. Bioinformatics, 2003, 19(15 ): 1917-1926.

[9]Y Wang,T Joshi,XS Zhang,etal. Inferring gene regulatory networks from multiple microarray datasets[J]. Bioinformatics. 2006,22(19):2413-2420.

[10] 楊英杰,李紅燕,謝建平,等. MATLAB 7.X生物信息工具箱的應(yīng)用——基因芯片分析(三) [J].現(xiàn)代生物醫(yī)學(xué)進(jìn)展, 2008, 8(4):704-708.

[11] Zhou X,Zhang FM, Hui XB,etal. Group decision-making method based on entropy and experts cluster analysis[J]. Journal of Systems Electronics,2011, 22(3):468-472.

[12] S Feizi,D Marbach,M Médard,etal. Network deconvolution as a general method to distinguish direct dependencies in networks[J]. Nature Biotechnology, 2013, 31(8):726.

[13] 黎妍,張曉飛,易鳴,等. 基因調(diào)控網(wǎng)絡(luò)的邊預(yù)測(cè)[J]. 數(shù)學(xué)物理學(xué)報(bào),2015,35(5):1018-1024.

[14] 張宇鐳,黨琰,賀平安.利用Pearson相關(guān)系數(shù)定量分析生物親緣關(guān)系[J].計(jì)算機(jī)工程與應(yīng)用, 2005, 41(33):79-82.

[15] 丁晶,趙永龍.以互信息為基礎(chǔ)的廣義相關(guān)系數(shù)[J].四川大學(xué)學(xué)報(bào)(工程科學(xué)版), 2002, 34(3):1-5.

[16] B Barzel.Network link prediction by global silencing of indirect correlations [J]. Nature Biotechnology, 2013, 31(8):720-725.

[17] AK Smilde,HAL Kiers,S Bijlsma,etal.Matrix correlations for high-dimensional data [J]. Bioinformatics,2009,25(3):401-405.

[18] TT Cai, CH Zhang, HH Zhou. Optimal rates of covariance matrix estimation [J]. Annals of Statistics,2010,38(4):2118-2144.

[19] Hood L, Heath J R, Phelp sHoodM E,etal.Systems biology and new technologies enable predictive and preventative medicine[J]. Science, 2004, 306(5696) : 640-643.

[20] Wyrick J J, Young R A. Deciphering gene expression regulatory networks[J]. Current Opinion in Genetics & Development, 2002, 12(2):130-136.

[21] Steuer R, Kurths J, Daub C O,etal. The mutual information: detecting and evaluating dependencies between variables[J].Bioinformatics, 2002, 18: 16-25.

猜你喜歡
互信息信息熵調(diào)控
基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
如何調(diào)控困意
經(jīng)濟(jì)穩(wěn)中有進(jìn) 調(diào)控托而不舉
基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
順勢(shì)而導(dǎo) 靈活調(diào)控
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于信息熵的IITFN多屬性決策方法
SUMO修飾在細(xì)胞凋亡中的調(diào)控作用
虎林市| 天门市| 类乌齐县| 江门市| 横峰县| 福安市| 甘南县| 高陵县| 德化县| 固原市| 涿鹿县| 海原县| 万州区| 浦江县| 宣恩县| 定西市| 抚顺县| 瓮安县| 阿克苏市| 牙克石市| 镇江市| 闵行区| 阿鲁科尔沁旗| 当涂县| 贵阳市| 贵定县| 凤凰县| 许昌县| 齐齐哈尔市| 福州市| 象山县| 河北区| 拉孜县| 海安县| 平南县| 东乡县| 荣成市| 福贡县| SHOW| 大宁县| 武强县|