潘 妃,周 榕,丁 旭,王治宇,秦玉芝
(湖南農(nóng)業(yè)大學園藝園林學院, 湖南 長沙410128)
單核苷酸多態(tài)性(SingleNucleotidePolymorphisms SNP)標記是近年來分子標記的研究熱點,具有廣泛分布性、遺傳穩(wěn)定性、易規(guī)模化檢測等特點。SNP 自1994年第一次被提出之后,已成為遺傳標記研究最多最有前景的分子標記。由于豐富的基因組突變位點和高通量檢測平臺的開發(fā),SNP 迅速占領了分子遺傳學的中心舞臺。Lander[1]在1996年正式指出SNP 開啟了新的分子標記時代,是繼SSR 和ISSR 等二代分子標記發(fā)展起來的第三代新型分子標記。
SNP,即單核苷酸多態(tài)性,主要是指由于單個核苷酸的變異而引起的基因組水平上的DNA 序列多態(tài)性,其形式包括單個堿基的缺失、插入、轉換及顛換等[2]。根據(jù)突變的位置可將SNP 劃分為3種形式:一是廣泛分布于基因編碼區(qū)的cSNP;二是存在于基因周邊的pSNP;三是存在于基因間的iSNP[3]。cSNP 經(jīng)常會導致表達蛋白的多態(tài)性變異,而引起功能的改變。Halushka 等[4]人的研究表明,SNP 在單個基因或者整個基因組的分布并不均勻。在同一條染色體上,SNP也存在明顯的富集區(qū)域和稀缺區(qū)域。SNP 在非轉錄序列的出現(xiàn)頻率高于轉錄序列,而在轉錄區(qū)非同義序列突變的頻率要比其他突變方式低很多。以人類基因組為例,Halushka 等[4]檢測了75個基因,進而推測人類基因有近百萬個SNP,其中大約有50 萬個在非編碼區(qū),24 萬~40 萬個在編碼區(qū),而這些SNP 與蛋白質(zhì)的功能息息相關。
一般而言,SNP 在群體中發(fā)生的頻率不低于1%[5]。在人類基因組中,有些區(qū)域SNP 分布率只有0.1%,有些特異性編碼區(qū)域則達到了5%~10%,分布極度不均勻,但總體突變率不高,每個核苷酸每年的突變率約為1×10-9%~5×10-9%[6]。
從理論上看,SNP 可以任意發(fā)生于A、G、C、T 之間。但研究表明,SNP 多發(fā)生在T 和C 之間,且兩者的比列是2∶1。在人類基因組中,CpG 二核苷酸的胞嘧啶是最易發(fā)生突變的位點,其中大部分是甲基化,可自發(fā)地脫去氨基形成胸腺嘧啶[7]。相比串聯(lián)重復微衛(wèi)星等多態(tài)性標記,SNP 標記可能由2個、3個或4個等位基因構成,但實際上后兩種情況出現(xiàn)的幾率非常小,常常被忽略[8]。相較于其他RAPD、SSR、PFLP 等分子標記,SNP 標記是基于單核苷酸的突變,突變頻率低,與一些不良性狀間也不存在連鎖遺傳。這種基因上的變異屬于可遺傳性變異,遺傳穩(wěn)定性高。
SNP 是基因組中分布最廣泛的點突變。Geleron等[9]通過鳥槍法基因測序比較分析了Landsberg(Ler)野生型擬南芥和已知序列的Columbia(Col)型擬南芥,識別出37 344個SNPs。Nasu[10]等比較分析了3個粳稻品種、2個秈稻品種和1個野生稻之間SNP 發(fā)生的頻率,發(fā)現(xiàn)每232個堿基就存在1個SNP。在玉米基因組中,每57個堿基就有1個SNP[11];在大豆基因組中,每272個堿基就有1個SNP[12]。Lammer 等[13]在對5個大麥品系的54個基因進行研究時發(fā)現(xiàn),大麥的38個基因中共存在112個SNP。
RFLP、RAPD 等傳統(tǒng)分子標記都是建立在凝膠電泳基礎上,對多個個體進行分析,過程繁瑣、速度慢、耗時長、實驗精度不高、價格昂貴。SNP 標記在技術上擺脫了電泳檢測的過程,進行自動化檢測,檢出率也相應提高。由于SNP 多由2個等位基因構成,又被稱為二等位基因標記[14]。因此,在SNP 篩選時,只需對其進行+/-的分析,無需分析DNA 片段的長度,這就有利于自動化分析處理來篩選或檢測SNP[15]。SNP 自身所具備的這些特點,使其極大程度上優(yōu)于其他分子標記,也為DNA 芯片、構建遺傳圖譜等奠定了基礎。但也由于自身的二態(tài)性限制,使得SNP 無法取代RFLP、SSR 等多態(tài)性分子標記。SNP 分布位點遠遠多于SSR 位點,可以通過加大分析密度構建遺傳圖譜來精確地進行基因定位。
最常用的SNP 開發(fā)途徑有兩種[16]:一是直接測序DNA 的擴增片段。其原理是根據(jù)已知序列或者EST庫設計引物,選擇有代表性的個體進行擴增,通過比較擴增后的產(chǎn)物來發(fā)現(xiàn)差異。這種途徑開發(fā)出來的SNP 假陽性率比較低,但工作量大且成本高。二是利用生物信息學軟件從核酸數(shù)據(jù)庫中開發(fā)SNP。利用軟件自動識別序列上的多態(tài)性位點,得到疑似SNP,再比對EST 庫得到有效實際的SNP。玉米、大麥等尚未完成基因組測序的物種,則可以通過這一途徑來發(fā)現(xiàn)SNP 位點[17]。
SLAF-seq 高通量測序技術可以檢測到SNP、InDel 兩種類型的多態(tài)性差異[18]。其主要的技術流程包括:基因組DNA 的酶切、構建測序文庫、上機測序以及數(shù)據(jù)分析。該技術準確性高、通量高、成本低,常用于關聯(lián)性圖譜、多態(tài)性圖譜的構建。陳士強等[19]利用SLAF-seq 技術開發(fā)了368個長穗偃麥稻草1E 染色體特異性片段,并利用其中的80個序列開發(fā)出48個長穗偃麥稻草1E 特異性分子標記,這些標記中包含了20個長穗偃麥稻草1E 染色體特異性分子標記,效率高達25%。
RAD-seq 技術是在二代測序技術上發(fā)展起來的一項全基因組酶切位點的簡化測序技術[20]。其具有不依賴于基因組序列的優(yōu)點,可進行高通量的SNP 標記的開發(fā)。Baird 等[21]利用八堿基酶sbfⅠ對三刺魚的基因組進行酶切,通過RAD 標記測序得到14 萬個SNP 標記;改用出現(xiàn)頻率更高的六堿基酶EcoRⅠ對兩個性狀不同的親本進行酶切,分別得到150 萬和250 萬個SNP 標記。兩種不同內(nèi)切酶得到的SNP 的數(shù)量截然不同,雙酶切系統(tǒng)對DNA 的篩選更為嚴格,通過測序得到的序列也更加準確。在同等條件下,雙酶切系統(tǒng)的RAD-seq 能夠檢測更多的樣本,大大提高了數(shù)據(jù)的利用率。
隨著高通量測序的發(fā)展,越來越多的測序平臺被開發(fā)。RAD-seq 最常用的測序平臺是Illumina GAΠ和Ill um ina HiSeq 1000,其他常見的還有3730xl 及454,Ion Torrent,SOLiD,PacBio RS 等[22-23]。如表1 所示,不同的平臺其成本、運行時間、測序長度均存在一定的差異[24-25]。
表1 不同高通量測序平臺比較
CAPS(cleaved amplified polymorphic sequence)標記是根據(jù)已發(fā)表的基因序列或EST 庫基因序列來設計引物,將特異PCR 和限制性內(nèi)切酶相結合而檢測多態(tài)性的技術,又稱為PCR-RFLP[26]。其特點包括共顯性、位點特異性、操作簡單和低成本。近年來,CAPS 廣泛應用于基因分型、基因定位、圖位克隆和物種親緣關系鑒定等。束永俊等[27]利用EMBOSS 軟件開發(fā)了簡便易行的SNP 檢測方法,用該軟件篩選導致酶切位點改變的EST-SNP,分別以綏農(nóng)14、合豐25 等9種大豆的DNA 及其混合的DNA 為模板,設計引物并進行PCR 擴增,發(fā)現(xiàn)44個PCR 產(chǎn)物中有36個測序峰圖在EST-SNP 位點表現(xiàn)出多態(tài)性。酶切分析發(fā)現(xiàn)其中26個PCR 產(chǎn)物具有酶切多態(tài)性,可以作為CAPS 標記,成功率約為72.22%。該EST-SNP 挖掘體系及其CAPS 標記轉化系統(tǒng)具有高效率、低成本等優(yōu)點,有利于促進大豆的遺傳育種研究。
SNP 位于基因組DNA 的部分,由于其二態(tài)性等位性和分布廣泛性,非常適合用于大規(guī)模自動化掃描。在此基礎上繪制而成的高密度遺傳圖譜對分子標記輔助育種起著非常重要的作用,可以選擇出與目標性狀相關的基因,降低甚至消除目的基因以外的其他遺傳背景所帶來的干擾。這項工作在大豆、玉米、水稻、大白菜等重要作物上已經(jīng)取得重大進展。肖炳光等[28]以SSR 標記遺傳連鎖圖作為骨架,利用基因組簡約法開發(fā)分析了烤煙某群體的SNP 標記,獲得包括SNP 標記在內(nèi)總數(shù)為1 307 的烤煙遺傳連鎖圖,并且將該遺傳圖譜和普通煙草兩個祖先種的基因組序列相關聯(lián),分析了24個連鎖群染色體之間的同源關系,發(fā)現(xiàn)了大量染色體之間的重組或交換以及部分染色體之間的共線性。
SNP 分型技術可以分為兩個不同時代,一是早期的凝膠時代;二是新型的高通量時代[29]。凝膠時代的技術主要包括限制性內(nèi)切酶長度多態(tài)性分析(RFLP)、寡核苷酸連鎖分析(OLA)以及等位基因特異聚合酶鏈式反應(AS2PCR)、單鏈構象多態(tài)性分析(SSCP)、變性梯度凝膠電泳(DGGE)。這些技術與高通量時代的技術原理基本一致,但由于其不能進行自動化分析,只能應用于小規(guī)模的SNP 檢測,在實際應用中受到極大的限制。高通量時代的技術主要有5種,分別是特異位點雜交(ASH)、特異位點引物延伸(ASPE)、單堿基延伸(SBCE)、特異位點切割(ASC)和特異位點連接(ASL)。近年來,“光刻法”原位合成的實現(xiàn)[30],可直接在晶體上合成高密度的序列可控的核糖核苷酸,發(fā)揮了DNA 芯片的強大威力,推動了SNP 檢測自動化、批量化的發(fā)展,在構建SNP 圖譜上已投入使用[31]。
由于SNP 定位目的基因的準確性,現(xiàn)已被廣泛應用于園藝作物抗性基因定位。在抗病性的研究上,Hittalmani 等[32]利用SNP 標記,最早將抗稻瘟病基因定位于水稻第12 條染色體上靠近著絲點的區(qū)域,具體位于RG241 與RZ397 之間,遺傳距離分別是5.2 cM 和3.3 cM,并將其命名為Pi-ta 基因。Pi-ta 位點上抗感基因的差異僅為1個氨基酸,由于存在1個SNP,原來的GCT 突變?yōu)門CT。正是由于這個氨基酸的變化造就了水稻的抗稻瘟病基因。時克等[33]研究表明,Pi-ta 基因對水稻稻瘟病抗性表現(xiàn)出很高的水平,可廣泛應用于水稻的育種和生產(chǎn)。Laterrot 等[34]利用SNP 標記將番茄抗枯萎病基因I-2 定位于第11 染色體的長臂上。徐薪惟等[35]檢測了不同抗性的番茄抗枯萎病基因I-2,發(fā)現(xiàn)了許多SNPs,通過進一步篩選發(fā)現(xiàn)了2個與番茄抗枯萎病相關的SNP 標記,分別是第1 793 位的C→T,第1 963 位的G→A。這是一個螺旋卷曲,有核酸的結合位點,導致亮氨酸序列出現(xiàn)重復,構成了番茄抗枯萎病基因。劉肖[36]以抗寒性和敏感性藍莓雜交的F1代為材料,確定與藍莓抗寒性密切相關的SNP 標記SL8088,并利用該標記對F1代實生苗進行鑒定,得到了抗寒性極為突出的2個植株。王彩香[37]以六倍體普通小麥和二倍體野生進緣種為材料,采用雙酶切系統(tǒng)RAD-seq 酶切后,檢測TaABC1L 部分基因片段,確定出與小麥抗性相關的SNP 標記,并將其定位于3A、3B 和3D 染色體長臂上。Garg 等[38]成功利用SNP 開發(fā)了與大麥葉銹病抗性基因相關的標記基因Rph7,已廣泛應用與大麥抗葉銹病的篩選和育種。此外,在番茄中開發(fā)了與其糖分含量密切相關的SNP 標記Brix9-2-5,該基因堿基的變化導致了其編碼蛋白質(zhì)的變化,影響了番茄中糖分含量[39]。
[1]Lander E S.The new genomics:global views of biology[J].Science,1996,(274):536.
[2]唐立群,肖層林,王偉平.SNP分子標記的研究及其應用進展[J].中國農(nóng)學通報,2012,28(12):154-158.
[3]鄒喻蘋,葛 頌.新一代分子標記——SNPs及其應用[J].生物多樣性,2003,11(5):370-382.
[4]Halushka M K,F(xiàn)an JB,Bentley K,et al.Patterns of single nucleotide polymorphisms in candidate genes for blood-pressure homeost asis[J].Nat.Genet,1999,22:239-247.
[5]劉傳光,張桂權.水稻單核苷酸多態(tài)性及其應用[J].遺傳,2006,(28):737-744.
[6]杜瑋南,孫紅霞,方福德.單核苷酸多態(tài)性的研究進展[J].中國醫(yī)學科學院學報,2000,(4):392-394.
[7]Ravi S,David W,Steven CS,etal.The international SNPmap working group:a map of human genome sequence variation containing 1.42 million single nucleotide polymorphisms[J].Nature,2001,409:928-933.
[8]Hillier LW,Marth G T,Quinlan A R,et al.Whole genome sequencing and variantdiscovery in C.elegans[J].Naturemethods,2008,5(2):183-188.
[9]Geleron G,Alain V,DenisM,etal.A review on SNPand other typesof molecularmarkersand theiruse in animalgenetics[J].GenetSe1 Evol,2002,(34):275-305.
[10]Nasu S,Suzuki J,Ohta R,et al.Search for and analysis of single nucleotide polymorphisms in rice and establishmentof SNPmarkers[J].DNARes,2002,(9):163-171.
[11]宋 偉,王鳳格,田紅麗,等.利用核心SNP位點鑒別玉米自交系的研究[J].玉米科學,2013,21(4):28-32.
[12]Somers D J,Kirkpatrick R,Moniwa M,et al.Mining single-nucleotide polymorphisms from hexaploid wheat ESTs[J].Genome,2003,46:431-437.
[13]Lammer D,Cai X,Arterburn M,et al.A single chromosome addition from Thinopyrum elongatum confers a polycarpic,perennial habit to annual wheat[J].Journal of experimental botany,2004,55(403):1715-1720.
[14]Snelling W M,Casas E,Stone R T,et al.Linkage mapping bovine EST-based SNP[J].BMCGenomics,2005,6:74.
[15]Velasco R,Zharkikh A,Affourtit J,et al.The genome of the domesticated apple(Malusx domestica Borkh)[J].NatGenet,2010,42:833-839.
[16]Davey JW,Davey J L,Blaxter M L,et al.RAD-Seq:next generation population genetics[J].Briefings i functional genomics,2010,9(56):416-423.
[17]Miller M R,Dunham JP,Amores A,et al.Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA(RAD)markers[J].Genome research,2007,17(2):240-248.
[18]Hohenlohe PA,Catchen J,CreskoW A.Population genomic analysisof model and nonmodel organisms using sequenced RAD tags in data production and analysis in population genomics[M].New York:Humana Press,2012.
[19]陳士強,秦樹文,黃澤峰,等.基于SLAF-seq技術開發(fā)長穗偃麥草染色體特異分子標記[J].作物學報,2013,39(4):727-734.
[20]Barchi L,Lanteri S,Portis E,et al.Identification of SNP and SSR markers in eggplant using RAD tag sequencing[J].BMC Genomics,2011,12(1):304.
[21]Baird N A,Etter P D,Atwood T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PloS one,2008,3(10):3376-3379.
[22]Amores A,Catchen J,F(xiàn)errara A,et al.Genome evolution and meiotic maps bymassively parallel DNA sequencing:spotted gar,an outgroup forthe teleost genome duplication [J]. Genetics,2011,188(4):799-808.
[23]Houston R D,Davey J W,Bishop S C,et al.Characterisation of QTL-linked and genome-wide restrictionsite-associated DNA(RAD)markers in farmed Atlantic salmon[J].BMC Genomics,2012,13(1):244.
[24]王興春,楊致榮,王 敏,等.高通量測序技術及其應用[J].中國生物工程雜志,2012,32(1):109-114.
[25]張春蘭,秦孜娟,王桂芝,等.轉錄組與RNA-seq技術[J].生物技術通報,2012,12:51-56.
[26]Emerson K J,Merz C R,Catchen J M,et al.Resolving postglacial phylogeography using high-throughput sequencing[J].Proc Natl Acad SciUSA,2010,107(37):16196-16200.
[27]束永俊,李 勇,吳娜拉胡,等.大豆EST-SNP的挖掘、鑒定及其CAPS標記的開發(fā)[J].作物學報,2010,36(4):574-579.
[28]肖炳光,邱 杰,曹培健,等.利用基因組簡約法開發(fā)煙草SNP標記及遺傳作圖[J].作物學報,2014,34(3):397-404.
[29]Rozen S,Skaletsky H.Primer3 on theWWW for general users and for biologistprogrammers[J].MethodsMolBiol,2000,132:365-386.
[30]汪維鵬,倪坤儀,周國華.單核苷酸多態(tài)性檢測方法的研究進展[J].遺傳,2006,28(1):117-126.
[31]Guryev V,Berezikov E,Malik R,etal.Singlenucleotide polymorphisms associated with ratexpressed sequences[J].Genome research,2004,14(7):1438-1443.
[32]HittalmaniS,Eduard A,CharlesN,etal.Singlenucleotide polymorphism genotyping in polyploid wheatwith the Illumina Golden Gate assay[J].Theor ApplGenet,2009,119(3):507-517.
[33]時 克,雷財林,程治軍,等.稻瘟病抗性基因Pita和Pib在我國水稻主栽品種中的分布[J].植 物遺傳資源學報,2009,10(1):134-139.
[34]Laterrot,AmoresA,Catchen J,etal.Genomeevolution andmeioticmaps bymassively par-allelDNA sequencing:spotted gar,an outgroup for the te-leostgenomeduplication[J].Genetics,2011,188(4):799-808.
[35]徐薪惟,李景富,姜景彬,等.番茄抗枯萎病I2基因的SNP分型[J].植物保護,2012,38(6):22-26.
[36]劉 肖.藍莓抗寒性、需冷量SNP分析與分子輔助育種研究[D].北京:北京林業(yè)大學,2013.
[37]王彩香.小麥抗旱相關基因TaABC1L的克隆、表達分析及SNP標記開發(fā)和定位[D].太原:山西大學,2007.
[38]Garg K,Green P,Nickerson D A.Dentification of candidate coding region single nucleotide polymorphisms in 165 human genes using assembled expressed sequence tags[J].GenomeRes,1999,9:1087-1092.
[39]Richards PM,Liu MM,Lowe N,etal.RAD-Seq derivedmarkers flank the shell colour and banding lociof the Cepaea nemoralis supergene[J].MolEcol,2013,22(11):3077-3089.