国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DNA彎曲度的H2A.Z核小體定位與修飾研究

2016-01-15 01:37:46單增輝,豐繼華,陳攀峰
生物信息學(xué) 2015年1期

基于DNA彎曲度的H2A.Z核小體定位與修飾研究

單增輝,豐繼華*,陳攀峰,魏恨恨,胡煥

(云南民族大學(xué)電氣信息工程學(xué)院,昆明 650500)

摘要:在真核生物染色質(zhì)中,H2A.Z是高度保守的組蛋白變異體, 與轉(zhuǎn)錄調(diào)控、基因組的穩(wěn)定性密切相關(guān)。為了探討組蛋白修飾、DNA彎曲度與H2A.Z核小體定位三者之間的關(guān)聯(lián),在得到實(shí)驗(yàn)所測(cè)的相關(guān)數(shù)據(jù)后,利用MINE算法并結(jié)合皮爾遜相關(guān)系數(shù)在酵母全基因組的轉(zhuǎn)錄起始位點(diǎn)周圍探討了三者間的線性與非線性關(guān)系。其中MIC算法可以定量的得出數(shù)據(jù)之間關(guān)聯(lián)度大小的值,用于衡量數(shù)據(jù)之間是否存在著關(guān)聯(lián),而皮爾遜相關(guān)系數(shù)則用于檢查是否為線性關(guān)聯(lián)。結(jié)果除了發(fā)現(xiàn)大部分組蛋白修飾種類和核小體定位之間存在著線性關(guān)聯(lián)外,還探測(cè)到有兩種組蛋白修飾數(shù)據(jù)(H4ac修飾與GCN4修飾)和核小體定位數(shù)據(jù)之間存在著以往未發(fā)現(xiàn)的非線性關(guān)系(大致呈正余弦函數(shù)),并從數(shù)據(jù)的生物背景(組蛋白修飾與核小體位置)上探討了出現(xiàn)非線性現(xiàn)象的原因。

關(guān)鍵詞:轉(zhuǎn)錄起始位點(diǎn)(TSS); 組蛋白變異體; H2A.Z; 修飾; 核小體

中圖分類號(hào):Q-3文獻(xiàn)標(biāo)志碼:A

收稿日期:2015-01-28;修回日期:2015-03-01

基金項(xiàng)目:科技部技術(shù)開(kāi)發(fā)研究專項(xiàng)(2013EG111232);農(nóng)業(yè)部甜菜產(chǎn)業(yè)技術(shù)體系項(xiàng)目(CARS-21010202)。

作者簡(jiǎn)介:龔攀,男,碩士研究生,研究方向:植物生物技術(shù); E-mail:gp68x@126.com.

doi:10.3969/j.issn.1672-5565.2015.01.04

Based on the DNA bending H2A. Z nucleosome positioning and modification research

SHAN Zenghui,FENG Jihua*, CHEN Panfeng, WEI Henhen, HU Huan

(SchoolofElectricalandInformationTechnology,YunnanUniversityofNationalities,Kunming650500,China)

Abstract:In eukaryotes chromatin, H2A.Z is highly conservative histone variants and closely associated with the transcriptional regulation and the stability of the genome and of high importance. In order to explore the links among the histone modification, DNA bending and H2A.Z nucleosome positioning. After getting the relevant data sets, we discussed the linear and nonlinear relationships between those datas around transcription start site in the yeast genome-wide by MIC algorithm and Pearson correlation coefficient. The MIC algorithm got a correlation value to quantificationally measure whether there is an association between datas, while pearson correlation coefficient is used to check whether the correlation is linear. The results showed most of the types of histone modification were linear correlation between the nucleosome positioning. In addition, two kinds of histone modification datas (H4ac modification with GCN4 modification) were found between nucleosome positioning(roughly is positively cosine function) and discussed the reasons of nonlinear phenomena from the biological background(histone modification and nucleosome position) of datas.

Keywords:TSS; Histone variants; H2A.Z; Modify; Nucleosome

真核生物中, DNA和組蛋白結(jié)合在一起形成染色體, 核小體是染色體組成的基本結(jié)構(gòu)單位,它含有一個(gè)核心組蛋白八聚體結(jié)構(gòu),該結(jié)構(gòu)由4種組蛋白H2A、H2B、H3和H4組成, 每一種組蛋白各由兩個(gè)分子形成, 約200 bp的DNA分子纏繞在核心組蛋白八聚體外面形成一個(gè)核小體單位[1-3]。核小體還可以形成更高級(jí)的染色體結(jié)構(gòu),因此其位置對(duì)基因物質(zhì)的形成與維護(hù)有著重要影響[4]。

組蛋白修飾是在相關(guān)修飾酶的作用下發(fā)生在核小體組蛋白N末端的共價(jià)修飾,這些共價(jià)修飾包括甲基化、乙酰化和磷酸化等,不同的組蛋白修飾在基因的表達(dá)中起著不同的作用。核小體在基因組 DNA 分子上的精確位置稱為核小體定位,核小體定位已被證實(shí)在諸如轉(zhuǎn)錄調(diào)控、DNA 復(fù)制和修復(fù)等多種細(xì)胞過(guò)程中起著重要作用。而基因組上核小體位置的確定涉及 DNA、轉(zhuǎn)錄因子、組蛋白修飾酶和染色質(zhì)重塑復(fù)合體之間的相互作用[5-6]。DNA物理特性是指DNA鏈的彎曲度、內(nèi)在曲率、柔韌性、相鄰堿基對(duì)的傾斜度等等。研究表明DNA鏈的物理特征與其他調(diào)控因素、化學(xué)修飾一起共同調(diào)節(jié)了真核生物的轉(zhuǎn)錄過(guò)程[7-10]。

據(jù)此,在實(shí)驗(yàn)獲得的酵母組蛋白變異體H2A.Z核小體定位數(shù)據(jù)、組蛋白修飾數(shù)據(jù)、DNA彎曲度數(shù)據(jù)基礎(chǔ)上,分別研究組蛋白修飾數(shù)據(jù)與核小體定位數(shù)據(jù)之間的關(guān)聯(lián),彎曲度數(shù)據(jù)與核小體定位數(shù)據(jù)的關(guān)聯(lián)。與以往的研究不同,本文除了研究數(shù)據(jù)集間的線性關(guān)聯(lián)之外,還借助MIC算法對(duì)非線性關(guān)聯(lián)也進(jìn)行了探討。

1數(shù)據(jù)與方法

1.1數(shù)據(jù)來(lái)源

本文研究的數(shù)據(jù)主要來(lái)源于以下幾個(gè)方面:一是Julia Zeitlinger等人測(cè)定的酵母中核小體組蛋白甲基化及乙酰化修飾的數(shù)據(jù)[4]。二是Luc Gaudreau等人所測(cè)的關(guān)于組蛋白變異體H2A.Z的核小體定位數(shù)據(jù)[17]。三是通過(guò)查閱數(shù)據(jù)庫(kù)所得的DNA彎曲度數(shù)據(jù)。由于實(shí)驗(yàn)測(cè)得的原始數(shù)據(jù)格式和精度不統(tǒng)一,所以對(duì)原始數(shù)據(jù)進(jìn)行了必要的預(yù)處理。

1.2數(shù)據(jù)預(yù)處理

1.2.1數(shù)據(jù)插值

為了將各種數(shù)據(jù)統(tǒng)一為1 bp精度,本文首先對(duì)各組數(shù)據(jù)進(jìn)行插值,在綜合比較幾種常見(jiàn)的插值方法后,我們?cè)趯?duì)插值后形成的圖譜(對(duì)齊后)與文獻(xiàn)[11]的研究結(jié)果進(jìn)行對(duì)比過(guò)程中,發(fā)現(xiàn)使用高斯插值方法效果較好。

1.2.2數(shù)據(jù)對(duì)齊

根據(jù)基因的位置數(shù)據(jù),在每個(gè)基因的TSS周圍,選取上、下游各 1 200 bp的長(zhǎng)度范圍(經(jīng)過(guò)反復(fù)嘗試、對(duì)比發(fā)現(xiàn)該長(zhǎng)度研究效果最好),分別對(duì)核小體定位數(shù)據(jù),組蛋白修飾數(shù)據(jù),DNA彎曲度數(shù)據(jù)進(jìn)行數(shù)據(jù)截取與對(duì)齊處理(其中C型基因?qū)?yīng)的數(shù)據(jù)做了反轉(zhuǎn)處理),再將以上數(shù)據(jù)疊加平均并做了歸一化處理,由此得到全基因組在TSS附近歸一化后的核小體定位圖譜、組蛋白修飾圖譜以及彎曲度圖譜。

通過(guò)把插值對(duì)齊后的圖譜(見(jiàn)圖1)和Yuan GC等人實(shí)驗(yàn)測(cè)得的數(shù)據(jù)相比較發(fā)現(xiàn)[1],數(shù)據(jù)分布及走勢(shì)是一致的,因此可以看出用高斯插值所得到的全基因組數(shù)據(jù)是正確的。并且從以上圖譜可以看出各組數(shù)據(jù)在TSS附近的分布呈現(xiàn)出一定規(guī)律,如H3.H2O2組蛋白修飾在TSS處于低谷。其中組蛋白修飾數(shù)據(jù)(甲基化與乙?;?有28個(gè)圖譜,因篇幅所限,本文僅列舉了H3.H2O2的修飾圖譜。

圖1 在TSS附近對(duì)齊的核小體定位、

1.3MIC算法

MIC算法是一個(gè)研究數(shù)據(jù)之間關(guān)聯(lián)度的新算法,在這里就其主要原理進(jìn)行介紹。MIC是用來(lái)測(cè)量?jī)勺兞恳蕾囮P(guān)系的算法,它能夠捕捉到兩變量之間廣泛的關(guān)聯(lián),包括函數(shù)與非函數(shù)關(guān)系(包括變量間原線性與非線性關(guān)系)。并且對(duì)于函數(shù)關(guān)系,可以得到一個(gè)大致等于樣本判定系數(shù)的值,它屬于基于非參數(shù)檢測(cè)統(tǒng)計(jì)量最大化信息方法中的一大類。其大致思想是:如果兩個(gè)變量之間存在關(guān)系,那么首先在這兩個(gè)變量的散點(diǎn)圖上繪制出一個(gè)網(wǎng)格,對(duì)數(shù)據(jù)進(jìn)行分區(qū)以封裝其關(guān)聯(lián)。然后計(jì)算兩組數(shù)據(jù)之間的MIC值,通過(guò)探索所有的網(wǎng)格至其最大的網(wǎng)格分辨率,然后再根據(jù)樣本大小計(jì)算每一個(gè)整數(shù)對(duì)(x,y)的最大交互信息,之后把這些交互信息值歸一化,最后將每組歸一化后的最大交互信息值組成一個(gè)矩陣——特征矩陣M。而MIC的值就是特征矩陣M的最大值。

其主要公式如下:

對(duì)于一有限定義集D?R2與整數(shù)x,y定義:

(1)

其中:x代表列,y代表行,I(D|G)代表(D|G)的交互信息

(2)

特征矩陣M(D)為:

(3)

而在xy

(4)

其中n代表樣本大小,B(n)代表網(wǎng)絡(luò)大小,通常B=n0.6,MIC(D)表示最大信息系數(shù)。

2結(jié)果

2.1MIC值的定量關(guān)聯(lián)性探究

基于以上的綜合介紹(數(shù)據(jù)的預(yù)處理與算法),為研究組蛋白修飾與核小體定位的關(guān)系,本文首先以MIC算法為基礎(chǔ),計(jì)算出兩者數(shù)據(jù)之間關(guān)聯(lián)度,并得到以下條形圖(見(jiàn)圖2)。

圖2  各修飾數(shù)據(jù)與核小體定位數(shù)據(jù)MIC值的條形圖

2.2皮爾遜相關(guān)系數(shù)的線性探究

由上圖表MIC值可以說(shuō)明數(shù)據(jù)之間有著較強(qiáng)的關(guān)聯(lián)性。但這種關(guān)聯(lián)究竟是線性關(guān)聯(lián)還是非線性呢?為此,又計(jì)算了數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),得到核小體占位數(shù)據(jù)分別與27種修飾數(shù)據(jù)的皮爾遜相關(guān)系數(shù)圖表(見(jiàn)圖3)。

圖3 各修飾數(shù)據(jù)與核小體定位數(shù)據(jù)的皮爾遜相關(guān)系數(shù)條形圖

通過(guò)仔細(xì)的對(duì)比了兩種不同方法下的數(shù)據(jù),發(fā)現(xiàn)大部分?jǐn)?shù)據(jù)符合實(shí)際。如MIC 值高其皮爾遜相關(guān)系數(shù)也比較高(如第一種修飾H3K9ac),當(dāng)兩個(gè)MIC值想接近時(shí),其對(duì)應(yīng)的皮爾遜相關(guān)系數(shù)也接近(如第一種修飾H3K9ac和第四種修飾H3K4me1),MIC值比價(jià)小時(shí)皮爾遜相關(guān)系數(shù)比較小(第23種修飾ESA1.YPD)。但仔細(xì)對(duì)照可以發(fā)現(xiàn)其中有兩組數(shù)據(jù)差異很明顯,第17種修飾H4ac與第25種修飾GCN4.AA,它們的MIC值較高而皮爾遜相關(guān)系數(shù)確很低,所以在此猜想這兩種修飾之間可能存在著未知的非線性關(guān)系。

2.3數(shù)據(jù)走勢(shì)圖的非線性探究

基于此,本文在全基因組下對(duì)TSS附近的歸一化的核小體定位數(shù)據(jù)與歸一化的該兩種修飾數(shù)據(jù)分別作二維與三維圖(把位置信息添加進(jìn)去),結(jié)果如圖4、圖5所示。

圖4 H4ac修飾與核小體定位數(shù)據(jù)的二維與三維圖

圖5 GCN4.AA修飾與核小體定位數(shù)據(jù)的二維與三維圖

從圖4和圖5中可以發(fā)現(xiàn)圖形的二維投影走勢(shì)呈正余弦函數(shù)(局部更明顯),并且其極值均處于TSS(1 201點(diǎn)處)位置左右。通過(guò)查閱資料發(fā)現(xiàn)在酵母生物體中組蛋白H4的乙?;l(fā)生在組蛋白尾部幾個(gè)不同的賴氨酸位置上[13-15],其乙?;叻迤诔^(guò)了活躍基因的開(kāi)始位置并且與轉(zhuǎn)錄速率、轉(zhuǎn)錄積極性有關(guān),而且不能排除H4的N尾端個(gè)別賴氨酸殘留物的乙?;瘜?duì)轉(zhuǎn)錄活動(dòng)也許有著不同的關(guān)聯(lián),所以猜想是因此造成了如圖所示的非線性關(guān)系。而對(duì)于GCN4本文依據(jù)推測(cè)上圖是由于GCN4基因在氨基酸控制脫抑制反應(yīng)中所需求[16],GCN4蛋白在基因5端未翻譯的區(qū)域中保護(hù)著重復(fù)的區(qū)域,而在GCN4區(qū)域某些位置處選擇性對(duì)啟動(dòng)子的約束是和這些點(diǎn)與GCN4的相對(duì)親和力有關(guān)而造成的。

而后用同樣的方法對(duì)核小體定位數(shù)據(jù)與DNA彎曲度數(shù)據(jù)進(jìn)行了探討,發(fā)現(xiàn)兩者之間的MIC值和皮爾遜相關(guān)系數(shù)均比較小,其中MIC值為0.325 44,皮爾遜相關(guān)系數(shù)為0.039。通過(guò)查閱文獻(xiàn)發(fā)現(xiàn)[8],盡管核小體的定位與DNA物理特性又有著很大的關(guān)聯(lián),但在體內(nèi),決定核小體位置的因素很多,加上數(shù)據(jù)的誤差等,導(dǎo)致了兩者間關(guān)聯(lián)性并不大。

4結(jié)語(yǔ)

本文在得到核小體定位數(shù)據(jù)、組蛋白修飾數(shù)據(jù)和彎曲度數(shù)據(jù)的基礎(chǔ)上,綜合比較了幾種常見(jiàn)的插值方法,并把插值后的圖譜與前人的研究進(jìn)行對(duì)比,最后確定了利用高斯方法進(jìn)行插值,然后對(duì)數(shù)據(jù)進(jìn)行對(duì)齊和歸一化處理,最終得到了全基因組下TSS附近的各類數(shù)據(jù)與圖譜。然后利用MINE算法計(jì)算了數(shù)據(jù)之間的關(guān)聯(lián)度,結(jié)果發(fā)現(xiàn)MIC值均比較大,這說(shuō)明數(shù)據(jù)之間有著很強(qiáng)的關(guān)聯(lián),為了明確這種關(guān)聯(lián)之間是否存在非線性,我們又計(jì)算了數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),結(jié)果發(fā)現(xiàn)大部分組蛋白修飾與核小體定位數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)值都很高,存在著很強(qiáng)的線性關(guān)聯(lián)。但還發(fā)現(xiàn)出有兩種修飾H4ac與GCN4和核小體定位數(shù)據(jù)之間的MIC值很高但皮爾遜相關(guān)系數(shù)值確很小,為了探測(cè)兩者間是否為非線性關(guān)聯(lián),本文又結(jié)合了兩個(gè)修飾種類與核小體數(shù)據(jù)間的二維及三維走勢(shì)圖,最終發(fā)現(xiàn)了兩者之間存在的非線性關(guān)系。

參考文獻(xiàn)(References)

[1]KOUZARIDES T. Chromatin modifications and their function[J].Cell, 2007, 128(4): 693-705.

[2]ZHANG Z, PUGH B F. High-resolution genome-wide mapping of the primary structure of chromatin[J].Cell , 2011, 144(2):175-186.

[3]XING Yongqiang, LIU Guoqing, ZHAO Xiujuan, et al. An analysis and prediction of nucleosome positioning based on information content [J]. Chromosome Research, 2013,21 (1):63-74.

[4]JULIA Z ,FRAN L, RICHARD A. Genome-wide map of nucleosome acetylation and methylation in yeast[J]. Cell, 2005, 122: 517-527.

[5]CUI Xiangjun, LI Hong. Advances on the combinatorial patterns of histone modifications[J]. Journal of Inner Mongolia University (Natural Science Edition), 2012, 43: 101-111.

[6]WANG Jianying, WANG Jingyan, LIU Guoqing. Calculation of nucleosomal DNA deformation energy: its implication for nucleosome positioning[J]. Chromosome Research, 2012, 20 (7): 889-902.

[7]LIU Hui, ZHUANG Ziheng, GUAN Jihong, et al. Transcriptional regulation functions of nucleosome positioning: a survey[J]. Progress in Biochemistry and Biophysics,2012, 39: 843-852.

[8]VINCENT M, CEDRIC V. DNA physical properties determine nucleosome occupancy from yeast to fly[J]. Nucleic Acids Research, 2008,36(11):3746-3756.

[9]ITAY T,JUDITH B,NAAMA B. The pattern and evolution of yeast promoter bendability[J]. Trends in Genetics, 2007,23(7):318-321.

[10]CAI Lu, LUO Liaofu. The DNA of the bending and its topology [J]. Journal of Baotou Iron and Steel Institute,1998,17(2):161-167.

[11]YUAN G C, LIU YJ, DION M F,et al. Genome-scale identification of nucleosome positions in S.cerevisiae[J]. Science , 2005, 309 (5734): 626-630.

[12]TERRY S. A correlation for the 21stcentury[J].Science,2011,334:1502-1503.

[13]XING Yongqiang, LIU Guoqing, ZHAO Xiujuan, et al. An analysis and prediction of nucleosome positioning based on information content[J]. Chromosome Research,2013, 21:63-74.

[14]DAVID N, YAKIR A R, HILARY K F et al. Detecting novel associations in large data sets[J]. Science, 2011,334: 1518-1524.

[15]PHAM T, TRAN D. Qualitatively predicting acetylation and methylation areas in DNA sequences[J]. Genome Informatics, 2005, 16(2): 3-11.

[18]GERALD R. GCN4 protein, a positive transcription factor in yeast, binds general control promoters at all 5′TGACTC 3′sequences[J]. Natural,1986, 83: 8516-8520.

[17]PECKHAM H E, THURMAN R E, FU Y,et al. Nucleosome positioning signals in genomic DNA[J]. Genome Res, 2007, 17(8): 1170-1177.

*通信作者:崔杰,博士,副教授,研究方向:植物抗逆分子機(jī)制;E-mail:cuijie2006@163.com.

洛浦县| 衡阳市| 英吉沙县| 巴林右旗| 鄂托克前旗| 资中县| 云霄县| 新疆| 靖安县| 铁岭县| 延川县| 锡林郭勒盟| 蒙自县| 承德市| 杨浦区| 临清市| 揭西县| 枣阳市| 长汀县| 仪征市| 涿鹿县| 房产| 西充县| 宜春市| 延寿县| 陵川县| 石棉县| 铅山县| 黑山县| 陵水| 建宁县| 哈密市| 黄龙县| 舒兰市| 柳州市| 沙田区| 桦川县| 蚌埠市| 龙江县| 长乐市| 涟水县|