張春蘭
(濰坊學(xué)院,山東 濰坊 261061)
第一代測序技術(shù)是Sanger等于1970年代發(fā)明的雙脫氧測序法,在過去的30多年中一直在DNA測序領(lǐng)域占據(jù)著主要地位。高通量測序技術(shù)又稱為深度測序技術(shù)、新一代測序技術(shù)或第二代測序技術(shù)。新一代測序技術(shù)可通過聚合酶或連接酶進(jìn)行體外合成測序。相對于傳統(tǒng)的Sanger測序技術(shù),具有通量更高、運(yùn)行時(shí)間更短、測序片段更長、花費(fèi)更少等優(yōu)點(diǎn)。高通量測序技術(shù)的迅猛發(fā)展,將生物學(xué)在基因水平的研究帶入了一個(gè)新的時(shí)期。高通量測序技術(shù)不僅可以進(jìn)行大規(guī)?;蚪M測序,還可用于基因表達(dá)分析、非編碼小分子RNA分析、表觀遺傳學(xué)分析等相關(guān)研究。
全基因組測序?qū)θ媪私庖粋€(gè)物種的分子進(jìn)化、基因組成和基因調(diào)控等有著非常重要的意義。新一代測序技術(shù)極大地推動(dòng)了各物種的全基因組測序工作,越來越多的物種基因組信息相繼公布。全基因組從頭測序指利用測序平臺(tái)對某物種進(jìn)行測序,然后從頭組裝數(shù)據(jù),與數(shù)據(jù)庫比對統(tǒng)計(jì)進(jìn)行基因作圖、與性狀的關(guān)聯(lián)分析、不同組織或材料間基因差異表達(dá)分析等,并最終完成基因組作圖。Li等首次在動(dòng)物方面完全運(yùn)用高通量測序技術(shù)模式完成了大熊貓基因組從頭測序的組裝,測序深度達(dá)73倍,覆蓋約94%的基因組區(qū)域,組裝形成了大熊貓的基因組草圖[1]。Rasmusse等從4000年前愛斯基摩托人的一束頭發(fā)中提取DNA,利用Solexa進(jìn)行全基因組測序,得到大約79%的序列[2]。Dalloul等聯(lián)合多個(gè)測序平臺(tái)(454測序平臺(tái)完成5倍測序深度、Illumina GAⅡ測序平臺(tái)完成20倍測序深度、Sanger技術(shù)完成6倍覆蓋度)完成了火雞基因組的從頭測序[3]。Jared等利用全基因組測序?qū)σ患宜目冢ǜ改讣捌浜⒆樱┻M(jìn)行研究,發(fā)現(xiàn)了影響人類自發(fā)性基因突變的平均速度,以及一些與影響兄弟姐妹疾病有關(guān)的基因[4]。到目前為止,NCBI上公布的已測序物種有人、小鼠、大鼠、牛等19種動(dòng)物,擬南芥、水稻、大豆、隱藻4種植物以及其他真菌和原生生物。
對已知基因組物種進(jìn)行重測序是第二代測序技術(shù)目前應(yīng)用最為廣泛的領(lǐng)域。通過重測序,可以將測序數(shù)據(jù)與已有基因組信息相比對,發(fā)現(xiàn)基因結(jié)構(gòu)變異、單核苷酸多態(tài)性、群體多態(tài)性、突變熱點(diǎn)等,從而進(jìn)行輔助分子育種、遺傳進(jìn)化分析及重要性狀候選基因預(yù)測等。中科院上海生命中科學(xué)院、北京基因組所等六家科研機(jī)構(gòu)共同對150個(gè)水稻RIL系進(jìn)行重測序,第一次利用全基因組重測序篩選水稻SNP位點(diǎn),對群體進(jìn)行表達(dá)差異分析,發(fā)現(xiàn)了122萬多個(gè)SNPs[5]。Rubin等通過全基因組重測序?qū)?個(gè)家雞品系和1個(gè)野生品系進(jìn)行測序,分析雞馴養(yǎng)過程中的位點(diǎn)選擇,發(fā)現(xiàn)了7000多萬個(gè)SNPs,約1300多個(gè)插入/缺失位點(diǎn)[6]。利用對不同條件下或不同表型的樣本進(jìn)行重測序,也可在個(gè)體或群體水平進(jìn)行差異性分析、遺傳疾病分析等。William等對一名煙齡超過15年,平均每天吸煙25根的原發(fā)性肺部腫瘤患者進(jìn)行分析,將該患者的癌組織與相鄰正常組織的基因組進(jìn)行測序,發(fā)現(xiàn)了超過5萬個(gè)基因點(diǎn)突變,并且確認(rèn)有392個(gè)在編碼區(qū)域[7]。
宏基因組學(xué)(Meta-Genomics)測序是近年來提出的一種新概念,目前主要用于微生物的研究中。是指直接從環(huán)境中提取所有物種的DNA進(jìn)行全基因組測序。即不再進(jìn)行分離,而是從整體上研究整個(gè)微生物種群結(jié)構(gòu)的特征,研究對象從單一基因組發(fā)展到基因組集合。與傳統(tǒng)的微生物研究相比,宏基因組不再局限于實(shí)驗(yàn)室培養(yǎng),更真實(shí)地接近于大自然生態(tài)群落和復(fù)雜性和多樣性,對人類更好地了解微生物群落有著重要的意義。
RNA-Seq技術(shù)能夠在單核苷酸水平對特定物種的整體轉(zhuǎn)錄活動(dòng)進(jìn)行檢測,從而全面快速地獲得該物種在某一狀態(tài)下的幾乎所有轉(zhuǎn)錄本信息。由于轉(zhuǎn)錄組測序可以得到全部RNA轉(zhuǎn)錄本的豐度信息,加之準(zhǔn)確度又高,使得它具有十分廣泛的應(yīng)用領(lǐng)域。主要應(yīng)用于:
(1)檢測新的轉(zhuǎn)錄本。Marten J?ger等比較了綿羊的正常組和骨延遲愈合組的基因表達(dá)譜,與綿羊基因組比對后發(fā)現(xiàn)了12431個(gè)新的轉(zhuǎn)錄本[8]。Huang W等比較了不同發(fā)育時(shí)期牛胚胎的轉(zhuǎn)錄本,與?;蚪M比較后發(fā)現(xiàn)了1785個(gè)新的轉(zhuǎn)錄本[9]。
(2)基因轉(zhuǎn)錄水平研究,如基因表達(dá)量、不同樣本間差異表達(dá)。李新建在其博士論文中比較了榮昌豬和長白豬的轉(zhuǎn)錄本,篩選出1596個(gè)差異表達(dá)顯著的基因[10]。
(3)基因功能注釋。將所測reads與已有數(shù)據(jù)庫(如GO、KEGG)已注釋功能的基因相比對分析,從而揭示特定轉(zhuǎn)錄狀態(tài)下的基因的功能和生物通路等。Ajai K等采用454測序平臺(tái)對牛角癌組織和正常角組織轉(zhuǎn)錄本分析,并對909345個(gè)轉(zhuǎn)錄本進(jìn)行了GO和KEGG分析[11]。
(4)轉(zhuǎn)錄本結(jié)構(gòu)變異研究,如可變剪接、RNA編輯、基因融合等。轉(zhuǎn)錄本結(jié)構(gòu)的變異能揭示基因轉(zhuǎn)錄后表達(dá)的多樣性??勺兗艚邮挂粋€(gè)基因產(chǎn)生多個(gè)mRNA轉(zhuǎn)錄本,從而翻譯成不同的蛋白。Sergei A等對擬南芥的RNA-Seq分析發(fā)現(xiàn)至少有約42%含有內(nèi)含子的基因進(jìn)行了可變剪切[12]。RNA編輯通過堿基的替換或轉(zhuǎn)換等使基因序列發(fā)生改變。Peng Z Y等通過對一個(gè)漢族男性約76700萬個(gè)轉(zhuǎn)錄表達(dá)序列分析,發(fā)現(xiàn)在22688個(gè)在非編碼基因、內(nèi)含子、非翻譯區(qū)和蛋白編碼基因的編碼序列中存在RNA編輯,為后期的實(shí)驗(yàn)制作了一個(gè)綜合性的RNA編輯組圖譜[13]?;蛉诤鲜亲罱棉D(zhuǎn)錄組高通量測序研究的一個(gè)新的內(nèi)容,主要在腫瘤組織中發(fā)現(xiàn)。Shancheng Ren等對14個(gè)中國漢族人的原發(fā)性前列腺癌和他們的正常組織進(jìn)行RNA-seq分析,揭示前列腺癌的基因融合、長非編碼RNA、可變剪切和體細(xì)胞突變的多樣性[14]。
(5)開發(fā)SNPs和SSR等。通過比對轉(zhuǎn)錄本和參考基因組間的序列,尋找潛在的SNPs或SSRs。Stephen B等對HapMap中60個(gè)歐洲后代進(jìn)行了轉(zhuǎn)錄組測序分析,開發(fā)了901個(gè)人基因組上的的cSNP(編碼SNP)[15]。Angela Ca′novas等對荷斯坦奶牛乳樣品進(jìn)行轉(zhuǎn)錄組分析,開發(fā)了33045個(gè)具有多態(tài)性的cSNPs[16]。
近年來研究發(fā)現(xiàn)小分子RNA是一類主要存在于真核生物體內(nèi)的特殊的內(nèi)源性調(diào)控序列。長度范圍在18-27nt,進(jìn)化上高度保守。目前認(rèn)為主要通過與靶基因配對結(jié)合抑制基因翻譯,或影響基因的降解來調(diào)控基因表達(dá)。自從1993年首次在秀麗線蟲(Caenorhadits,elegans)中被發(fā)現(xiàn)以來[17],人們越來越意識(shí)到小分子RNA的重要作用。人們開始采用大規(guī)模平行標(biāo)簽測序技術(shù)、454-FLX、Solexa/Illumina測序技術(shù)為代表的新型焦磷酸高通量測序技術(shù)來發(fā)掘生物體內(nèi)的大量小分子RNA。并隨著技術(shù)的逐漸升級(jí),使得測序深度更深、費(fèi)用更低、速度更快。高通量測序既能捕捉到真實(shí)存在的小RNA,甚至是體內(nèi)表達(dá)量很低的小RNA,同時(shí)也能對沒有注釋的小片段RNA進(jìn)行預(yù)測。
DNA甲基化是基因表達(dá)調(diào)控的另一種廣泛而重要的方式。它通過改變?nèi)旧|(zhì)結(jié)構(gòu)、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用,從而控制基因的表達(dá)。對甲基化位點(diǎn)及方式的研究,近年來也發(fā)展了多種方法,如甲基轉(zhuǎn)移酶法、免疫化學(xué)法、氯乙醛法、直接測序法、甲基化特異性的PCR法、DNA微陣列法等。利用高通量測序法在全基因組范圍內(nèi)檢測甲基化位點(diǎn)是近年來發(fā)展起來的一種方法。目前已建立了至少三種依賴于高通量測序的DNA甲基化分析技術(shù):甲基化DNA免疫共沉淀測序[18]、甲基結(jié)合蛋白測序和亞硫酸氫鹽測序[19]。高通量測序已應(yīng)用于擬南芥[19]、水稻[20]、人[21]等生物 DNA甲基化的研究,取得了豐碩的成果,并逐步應(yīng)用于各種生物體上。
轉(zhuǎn)錄因子通過與DNA特定區(qū)域相結(jié)合,開啟或關(guān)閉基因的表達(dá)以達(dá)到調(diào)控基因表達(dá)目的。染色質(zhì)免疫共沉淀(chromatin immunoprecipitation assay,ChIP)是目前研究體內(nèi)蛋白質(zhì)與DNA相互作用的最為經(jīng)典的一種實(shí)驗(yàn)技術(shù),廣泛應(yīng)用于組蛋白修飾、特定轉(zhuǎn)錄因子的基因調(diào)控作用等相關(guān)領(lǐng)域。其基本原理是在活細(xì)胞狀態(tài)下固定蛋白質(zhì)-DNA復(fù)合物,并將其隨機(jī)切斷為一定長度范圍內(nèi)的染色質(zhì)小片段,然后通過免疫學(xué)方法沉淀此復(fù)合體,特異性地富集目的蛋白結(jié)合的DNA片段,通過對目的片斷的純化與檢測,從而獲得蛋白質(zhì)與DNA相互作用的信息。自從2007年應(yīng)用該技術(shù)獲得的科研成果分別在Science[22]、Nature[23]和 Cell[24]等頂級(jí)刊物上發(fā)表以來,利用該技術(shù)揭示蛋白因子作用位點(diǎn)的文章如雨后春筍般出現(xiàn)在各種刊物和雜志上。
分子生物學(xué)的發(fā)展離不開測序技術(shù),自從1977年Sanger測序法的問世到近年來高通量測序法的廣泛應(yīng)用,相繼揭秘了大量的遺傳信息。但是,第二代高通量測序技術(shù)還處于起步階段,由于測序費(fèi)用仍很昂貴、測序長度也受到限制、信息平臺(tái)尚未完善等原因,使得該技術(shù)的應(yīng)用受到了一定的限制。相信隨著測序技術(shù)的逐步改進(jìn),高通量測序?qū)⒊蔀橐豁?xiàng)實(shí)驗(yàn)室常規(guī)手段,為生物學(xué)的分子研究帶來革命性的變革。
[1]Li R,F(xiàn)an W,Tian G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.
[2]Rasmussen M,Li Y,Lindgreen S,et al.Ancient human genome sequence of an extinct Palaeo-Eskimo[J].Nature,2010,463(7282):757-62.
[3]Dalloul.Multi-platform next-generation sequencing of the domestic turkey(Meleagris gallopavo):genome assembly and analysis[J].PLoS Biol,2010,8(9):e100475.
[4]Roach J C,Glusman G,Smait A F ,et al.Analysis of genetic inheritance in a family quartet by whole-genome sequencing[J].Science,2010,328 (5978):636-639.
[5]Huang X,Qi F,Qian Q,et al.High-throughput genotyping by whole-genome resequencing[J].Genome Res,2009,19(6):1068-1076.
[6]Rubin C J,Zody M C,Eriksson J.Whole-genome resequencing reveals loci under selection during chicken domestication[J].Nature,2010,464(7288):587-591.
[7]Lee W,Jiang Z,Liu J,et al.The mutation spectrum revealed by paired genome sequences from a lung cancer patient[J].Nature,2010,456(7279):473-479.
[8]J?ger M,Ott C E,Grünhagen J,et al.Composite transcriptome assembly of RNA-Seq data in a sheep model for delayed bone healing[J].Bmc Genomics,2011,12:158.
[9]Huang W,Khatib H.Comparison of transcriptomic landscapes of bovine embryos using RNA-Seq[J].Bmc Genomics,2010,11(1):711-720.
[10]李新建.豬脂肪沉積關(guān)鍵基因篩選及TCTP基因功能研究[C].陜西:西北農(nóng)林科技大學(xué),2011.
[11]Tripathi A K,Koringa P G,Jakhesara S J,et al.A preliminary sketch of horn cancer transcriptome in Indian zebu cattle[J].Gene,2012,493(1):124-131.
[12]Filichkin S A,Priest H D ,Givan S A ,et al.Genome-wide mapping of alternative splicing in Arabidopsis thaliana[J].Genome Research,2010,20(1):45-58.
[13]Peng Z Y,Cheng Y B,Tan C M,et al.Comprehensive analysis of RNA-seq data reveals extensive RNA editing in a human transcriptome[J].Nature Biotechnology,2012,30(3):253-262.
[14]Ren S,Peng Z Y,Mao J H,et al.RNA-seq analysis of prostate cancer in the Chinese population identifies recurrent gene fusions,cancer-associated long noncoding RNAs and aberrant alternative splicings[J].Cell Research,2012,22(5):806-821.
[15]Montgomery S B,Sammeth M,Gutierrez-Arcelus M,et al.Transcriptome genetics using second generation Sequencing in a Caucasian population[J].Nature,2010,464(7289):773-777.
[16]Cánovas A,Rincon GIslas-Trejo A,et al.SNP discovery in the bovine milk transcriptome using RNA-Seq technology[J].Mamm Genome,2010,21(11/12):592-598.
[17]Lee R C,F(xiàn)einbaum R L,Ambros V.The C elegans heterochronic gene lin-4encodes small RNAs with antisense complementarity to lin-14[J].Cell,1993,75(5):843-854.
[18]Down T A,Rakyan V K,Turner D J,et al.A Bayesian deconvolution strategy for mmunoprecipitation-based DNA methylome analysis[J].Nat Biotechnol,2008,26 (7):779-785.
[19]Cokus S J,F(xiàn)eng S,Zhang X,et al.Shotgun bisulphate sequencing of the Arabidopsis genome reveals DNA methylation patterning[J].Nature,2008,452(7184):215-219.
[20]Yan H H,Kikuchi S,Neumann P,et al.Genome-wide mapping of cytosine methylation revealed dynamic DNA methylation patterns associated with genes and centromeres in rice[J].Plant J,2010,63(3):353-365.
[21]Li N,Ye M,Li Y,et al.Whole genome DNA methylation analysis based on high throughput sequencing technology[J].Methods,2010,52(3):203-212.
[22]Johnson D S,Mortazavi A,Myers R M,et al.Genome-wide mapping of in vivo protein-DNA interactions[J].Science,2007,316(5830):1497-1502.
[23]Mikkelsen T S,Ku M,Jaffe D B,et al.Genome-wide maps of chromatin state in pluripotent and lineage-committed cells[J].Nature,2007,448(7153):553-560.
[24]Barski A,Cuddapah S,Cui K,et al.High-resolution profiling of histone methylations in the human genome[J].Cell,2007,129 (4):823-837.