国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于廣義拓?fù)潇氐钠螐?fù)制分析方法研究

2017-11-08 14:11:12譚仁杰靳水林蔣慶華王亞東

譚仁杰+靳水林+蔣慶華+王亞東

摘要: 片段復(fù)制(Segmental Duplication)是一種重要的遺傳學(xué)現(xiàn)象,在生命進(jìn)化及基因組變異的形成過程中發(fā)揮著重要作用。對(duì)片段復(fù)制區(qū)域的序列分析具有重要的研究意義。然而,通過傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法對(duì)片段復(fù)制序列進(jìn)行分析存在分析成本高、速度慢等缺點(diǎn)。為此,本研究提出基于廣義拓?fù)潇氐钠螐?fù)制分析方法,利用信息熵的理論對(duì)這一生物學(xué)現(xiàn)象進(jìn)行分析研究。通過對(duì)人類參考基因組數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,廣義拓?fù)潇氐姆椒梢暂^好地將片段復(fù)制區(qū)域與其它隨機(jī)選取區(qū)域進(jìn)行區(qū)分。

關(guān)鍵詞:片段復(fù)制; 熵; 廣義拓?fù)潇兀?人類參考基因組

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

文章編號(hào):2095-2163(2017)05-0001-04

Research on segmental duplication analysis method based

on generalized topological entrop

TAN Renjie1, JIN Shuilin2, JIANG Qinghua3, WANG Yadong1

(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;

2 School of Science, Harbin Institute of Technology, Harbin 150001, China;

3 School of Life Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract:

Segmental Duplication (SD) is an important genetic phenomenon It plays an important role in the evolution of life and the formation of genome variationAnalyzing the sequence of SD regions has the important research significance However, analyzing SD regions by traditional methods of biological experiment has many disadvantages, such as high cost and low speed etc Hence, the paper proposes a new generalized topological entropy based segmental duplication analysis method and employs the entropy theory to analyze this biological phenomenon The experimental results of analyzing human reference genome data show that generalized topological entropy can preferably differentiate SD regions from other random selected region

Keywords: segmental duplication; entropy; generalized topological entropy; human reference genome

作者簡(jiǎn)介:

引言

片段復(fù)制(Segmental Duplication,SD)又稱低拷貝重復(fù)(Low Copy Repeat,LCR),是指DNA序列中的某一段序列在基因組中出現(xiàn)2次及以上的現(xiàn)象[1]。片段復(fù)制廣泛地分布于基因組的各個(gè)區(qū)域。同一片段復(fù)制的不同拷貝可成串聯(lián)或分散跳躍形式分布于基因組中。已有研究表明,基因組片段復(fù)制與拷貝數(shù)多態(tài)(Copy Number Polymorphism,CNP)存在緊密的連鎖關(guān)系[2]。目前,片段復(fù)制一般是通過全基因組拼接比較(Whole genome assembly comparison,WGAC)或全基因組鳥槍測(cè)序檢測(cè)(Whole genome shotgun sequence detection,WSSD)等生物學(xué)實(shí)驗(yàn)方法進(jìn)行識(shí)別和分析,這些傳統(tǒng)方法成本高、測(cè)序周期長(zhǎng)、研究效率較低。

熵是衡量信息復(fù)雜程度的一種度量,于1948年由Shannon首次提出。隨后,熵的多種形式如度規(guī)熵(metric entropy)[3]、拓?fù)潇兀╰opological entropy)[4]、Kolmogorov-Sinai熵[5]以及Rényi熵[6]等被相繼提出。利用信息熵的理論,人們可以根據(jù)信息本身的復(fù)雜程度進(jìn)行分類,可以定量描述給定字符序列的復(fù)雜性。近年來,Rényi連續(xù)熵[7]、Shannon公制熵[8-9]、特殊因子[10]以及語言學(xué)復(fù)雜度[11-12]等基于熵的基因組DNA序列分析方法取得了一系列的研究成果,但卻在實(shí)際分析效果以及計(jì)算復(fù)雜度方面均存在較大的局限。2011年,Koslicki提出了基于拓?fù)潇氐幕蚪MDNA序列分析方法[13],該方法成功地解決了拓?fù)潇刂贿m用于對(duì)無限長(zhǎng)度序列分析的局限。2014年,Jin等人提出了廣義拓?fù)潇氐母拍頪14]。廣義拓?fù)潇爻浞挚紤]了子串序列對(duì)DNA序列整體的影響,可以將人類基因組啟動(dòng)子、外顯子和內(nèi)含子等基因組元件進(jìn)行了很好的區(qū)分[14-15]。在此基礎(chǔ)上,本研究利用廣義拓?fù)潇貙?duì)人類參考基因組片段復(fù)制區(qū)域的序列進(jìn)行分析。endprint

1廣義拓?fù)潇氐母拍罴敖朴?jì)算方法

設(shè)ω為無限長(zhǎng)度序列,Pωn表示序列ω中長(zhǎng)度為n的不同子串個(gè)數(shù),則其廣義拓?fù)潇氐亩x如下:

HGTω=limk→

SymboleB@ αkilog4Pωii[JY](1)

其中,αki=aii≤k0i>k,且∑ki=1ai=1,ai≥0[JY](2)

滿足對(duì)任意的ε> 0及任意I,存在K使得所有k≥K,滿足∑

SymboleB@ i=I+1αki>1-ε。鑒于基因組數(shù)據(jù)是有限長(zhǎng)度的序列,為了能夠計(jì)算基因組序列的熵,Jin等人提出了基于有限序列長(zhǎng)度的廣義拓?fù)潇亟朴?jì)算方法[14]:

設(shè)ω是一個(gè)長(zhǎng)度為|ω|的有限序列,令nω為正整數(shù)且滿足4n+n-1≤|ω|≤4n+1+(n+1)-1。用ω4n+n-11表示序列ω的前4n+n-1個(gè)字符并且k≤nω,廣義拓?fù)潇氐慕朴?jì)算公式如下:

H(K)nωω=1k∑nωi=nω-k+1log4Pωii[JY](3)

根據(jù)公式(3)可知廣義拓?fù)潇鼐哂邢铝行再|(zhì):

1)0≤H(k)nωω≤1。

2)當(dāng)且僅當(dāng)序列ω高度重復(fù)時(shí),H(k)nωω≈0。

3)當(dāng)且僅當(dāng)序列ω高度復(fù)雜時(shí),H(k)nωω≈1。

4)對(duì)不同的長(zhǎng)度序列ω,v及k≤min{nω,nv},可以通過廣義拓?fù)潇豀(k)nωω和H(k)nvv來進(jìn)行比較。

無限序列H(k)nωω是廣義拓?fù)潇豀GTω的一種特殊表現(xiàn)形式。而且,通過上面的算法改進(jìn),可截取序列ω的一部分ω1來對(duì)序列整體進(jìn)行近似計(jì)算。這使得廣義拓?fù)潇鼐哂幸粋€(gè)重要性質(zhì),即對(duì)于不同長(zhǎng)度的序列ω和v,k≤min{nω,nv},H(k)nωω與H(k)nvv之間具有可比性。

[BT4]2實(shí)驗(yàn)結(jié)果與分析

本研究利用廣義拓?fù)潇貙?duì)人類參考基因組數(shù)據(jù)進(jìn)行分析。通過UCSC基因組瀏覽器獲取人類參考基因組序列相似度不小于099的片段復(fù)制區(qū)域,其長(zhǎng)度約占參考基因組總長(zhǎng)度的三分之一。鑒于基因組片段復(fù)制區(qū)域的序列長(zhǎng)度長(zhǎng)短不一,本研究對(duì)所有片段復(fù)制區(qū)域進(jìn)行計(jì)算,并對(duì)每一個(gè)片段復(fù)制區(qū)域隨機(jī)選取與之長(zhǎng)度相同的基因組區(qū)域用于對(duì)照計(jì)算,其結(jié)果如圖1所示。

實(shí)驗(yàn)結(jié)果表明,各染色體片段復(fù)制區(qū)域的廣義拓?fù)潇鼐入S機(jī)選取等長(zhǎng)區(qū)域的廣義拓?fù)潇匾?,這說明片段復(fù)制區(qū)域序列具有較強(qiáng)的規(guī)律性。對(duì)24條染色體的片段復(fù)制區(qū)域及隨機(jī)選取區(qū)域進(jìn)行方差分析,結(jié)果顯示,在各染色體的方差分析P值均小于005,具有統(tǒng)計(jì)學(xué)意義,如表1所示。

片段復(fù)制區(qū)域具有明顯的序列結(jié)構(gòu)規(guī)律性。同時(shí)為檢驗(yàn)廣義拓?fù)潇嘏c其他信息熵的實(shí)際效果,本研究利用Shannon熵對(duì)上述片段復(fù)制區(qū)域和隨機(jī)選取區(qū)域進(jìn)行計(jì)算。如圖2所示,Shannon熵不能將片段復(fù)制區(qū)域和隨機(jī)選取區(qū)域進(jìn)行很好的區(qū)分。

通過對(duì)24條染色體進(jìn)行的方差分析結(jié)果顯示(可見表2),廣義拓?fù)潇卦诿總€(gè)染色體片段復(fù)制區(qū)域與隨機(jī)選取區(qū)域的方差分析p值均小于Shannon熵的方差分析p值,具有更好的統(tǒng)計(jì)顯著性,如圖3所示。這表明廣義拓?fù)潇乜梢愿玫貙⑵螐?fù)制區(qū)域與隨機(jī)選取區(qū)域進(jìn)行區(qū)分。[FL)]

3結(jié)束語

本文首次將廣義拓?fù)潇貞?yīng)用于人類參考基因組片段復(fù)制的研究中。實(shí)驗(yàn)結(jié)果表明,片段復(fù)制區(qū)域序列的廣義拓?fù)潇氐陀趨⒖蓟蚪M中隨機(jī)選取區(qū)域的廣義拓?fù)潇?,這說明廣義拓?fù)潇乜梢杂行У貙⑵螐?fù)制區(qū)域與其他DNA序列區(qū)域區(qū)分開來。廣義拓?fù)潇乜蔀閰⒖蓟蚪M的片段復(fù)制區(qū)域識(shí)別及個(gè)人基因組拷貝數(shù)復(fù)制的精準(zhǔn)識(shí)別奠定基礎(chǔ)并提供新的解決思路。

廣義拓?fù)潇赜?個(gè)顯著的優(yōu)勢(shì):

1)理論上,可以證明廣義拓?fù)潇厥峭負(fù)潇氐耐茝V,是拓?fù)潇氐耐暾磉_(dá)形式。廣義拓?fù)潇乜梢匀胬^承拓?fù)潇卦贒NA序列分析上的各項(xiàng)優(yōu)勢(shì)。

2)廣義拓?fù)潇爻浞挚紤]了子串本身的序列復(fù)雜度,可以更加全面地分析DNA序列的復(fù)雜性。通過廣義拓?fù)潇卦谌祟悈⒖蓟蚪M片段復(fù)制區(qū)域及隨機(jī)選取區(qū)域上的序列對(duì)照研究,實(shí)驗(yàn)結(jié)果表明:廣義拓?fù)潇乜梢詫⑵螐?fù)制區(qū)域與隨機(jī)選取區(qū)域進(jìn)行較好的區(qū)分,取得了顯著的實(shí)驗(yàn)效果。

理論上,基因組拼接方法可以實(shí)現(xiàn)個(gè)人基因組變異的精準(zhǔn)識(shí)別。然而,拼接方法目前在拷貝數(shù)復(fù)制區(qū)域尚未取得突破性的進(jìn)展。雖然廣義拓?fù)潇卦趨⒖蓟蚪M片段復(fù)制的分類方面取得理想效果,但仍然期待更為成熟的測(cè)序技術(shù)以及更為先進(jìn)的基因組拼接算法來實(shí)現(xiàn)個(gè)人基因組在拷貝數(shù)復(fù)制區(qū)域的成功拼接[16-17]。屆時(shí),隨著高通量測(cè)序技術(shù)的逐漸成熟以及拼接算法的不斷完善,利用廣義拓?fù)潇貙?duì)個(gè)人基因組拷貝數(shù)復(fù)制進(jìn)行精準(zhǔn)識(shí)別和預(yù)測(cè)將具有廣闊的應(yīng)用前景。

參考文獻(xiàn):

BAILEY J A, EICHLER E E Primate segmental duplications: Crucibles of evolution, diversity and disease[J] Nature reviews Genetics, 2006, 7(7): 552-564

[2] GIRIRAJAN S, CAMPBELL C D, EICHLER E E Human copy number variation and complex genetic disease[J] Annu Rev Genet, 2011, 45:203-226

[3] LORENTZ G G Metric entropy and approximation[J] Bulletin of the American Mathematical Society,1966,72: 903-937

[4] ADLER R L, KONHEIM A G, MCANDREW M H Topological Entropy[J] Transactions of the American Mathematical Society, 1965, 114(2): 309-319endprint

[5] YAKOV S Kolmogorov-Sinai entropy[J] Scholarpedia, 2009,4(3):2034

[6] RENYI A On measures of entropy and information[C]// Procfourth Berkeley Sympon Mathstatist & Probunivof Calif Berkeley, Calif: California Press, 1961: 547-561

[7] [JP3]VINGA S, ALMEIDA J S R[KG-8]e[DD(-1]′[DD)]nyi continuous entropy of DNA sequences[J] Journal of theoretical biology, 2004, 231(3): 377-388[JP]

[8] KIRILLOVA O V Entropy concepts and DNA investigations[J] Physics Letters A, 2000, 274(5/6): 247-253

[9] FARACH M, NOORDEWIER M, SAVARI S, et al On the entropy of DNA: Algorithms and measurements based on memory and rapid convergence[J] Proceedings of the Sixth Annual Acm-Siam Symposium on Discrete AlgorithmsSan Francisco, California, USA:ACM, 1995: 48-57

[10]COLOSIMO A, DE LUCA A Special factors in biological strings[J] Journal of theoretical biology, 2000, 204(1): 29-46

[11]TROYANSKAYA O G, ARBELL O, KOREN Y, et al Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity[J] Bioinformatics, 2002, 18(5): 679-688

[12]GABRIELIAN A, BOLSHOY A Sequence complexity and DNA curvature[J] Computers & chemistry, 1999, 23(3/4): 263-274

[13]KOSLICKI D Topological entropy of DNA sequences[J] Bioinformatics, 2011, 27(8): 1061-1067

[14]JIN S, TAN R, JIANG Q, et al A generalized topological entropy for analyzing the complexity of DNA sequences[J] PloS One, 2014, 9(2): e88519

[15]JIN Shuilin, WANG Zhou, LIN Junyu, et al The complexity of promoter regions based on a vector topological entropy[J] Current Bioinformatics, 2016, 11:1-4

[16]MAGI A, TATTINI L, PIPPUCCI T, et al Read count approach for DNA copy number variants detection[J] Bioinformatics, 2012, 28(4): 470-478

[17]ALKAN C, COE B P, EICHLER E E Genome structural variation discovery and genotyping[J] Nature reviews Genetics, 2011, 12(5): 363-376endprint

东台市| 清苑县| 农安县| 安丘市| 和顺县| 沙坪坝区| 新巴尔虎左旗| 南昌县| 兴海县| 拜泉县| 青海省| 如东县| 赣州市| 资溪县| 浦北县| 平舆县| 开平市| 望城县| 龙山县| 莱芜市| 泉州市| 阜宁县| 泾源县| 临高县| 辽阳市| 安康市| 双峰县| 和硕县| 灵璧县| 山丹县| 郯城县| 志丹县| 呼伦贝尔市| 罗平县| 肃南| 满洲里市| 高州市| 江北区| 拉萨市| 紫金县| 金溪县|